JP2019096323A - 対話セッションテキストをセグメンテーションするシステム及び方法 - Google Patents
対話セッションテキストをセグメンテーションするシステム及び方法 Download PDFInfo
- Publication number
- JP2019096323A JP2019096323A JP2018220052A JP2018220052A JP2019096323A JP 2019096323 A JP2019096323 A JP 2019096323A JP 2018220052 A JP2018220052 A JP 2018220052A JP 2018220052 A JP2018220052 A JP 2018220052A JP 2019096323 A JP2019096323 A JP 2019096323A
- Authority
- JP
- Japan
- Prior art keywords
- input text
- users
- posts
- text
- evaluation criteria
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/131—Fragmentation of text files, e.g. creating reusable text-blocks; Linking to fragments, e.g. using XInclude; Namespaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/358—Browsing; Visualisation therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
- User Interface Of Digital Computer (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
Description
本願は、2017年11月27日付でインド国に提出された、「対話セッションテキストをセグメンテーションするシステム及び方法(SYSTEMS AND METHODS FOR SEGMENTING INTERACTIVE SESSION TEXT)」と題する、インド国特許出願第201721042505号明細書全体に対する優先権を主張する。
非テキストの手掛りを組込むこと:
実験:
データセットの記載:
1.投稿者(図3A〜図3Cにおいて対応するIDによって示される、最初から‘−=[*says’まで)
2.タイムスタンプ(‘−=[*’と‘*]=−’との間)、及び
3.テキスト内容(‘*]=−:::’の後から終わりまで)。
評価及びセットアップ:
基準値アプローチ:
定量結果:
定性的結果:
パラメータの効果:
Claims (9)
- 複数の入力テキスト投稿を含む対話セッションテキストをセグメンテーションするプロセッサ実装方法であって、該方法は:
複数のユーザに関係する複数の入力テキスト投稿を入手するステップ(202);
(i)前記複数の入力テキスト投稿からの複数対の隣接する入力テキスト投稿を示す第1評価基準、(ii)少なくとも2つの連続する入力テキスト投稿間の時差を示す第2評価基準、及び(iii)前記複数のユーザから1人又は複数のユーザを示す第3評価基準、を含む1つ又は複数の評価基準のための距離値を演算するステップ(204);
前記1つ又は複数の評価基準のために演算された前記各距離値に加重を割り当てるステップ(206);
前記割り当てられた加重に基づいて加重和を演算するステップ(208);及び
前記複数の入力テキスト投稿における情報損失が所定の閾値に達するまで、
前記1つ又は複数の評価基準に基づいて、前記加重和から得られた対応する距離値を用いて、前記複数の入力テキスト投稿からセグメンテーションされた対話セッションテキストを生成すること(210);及び
前記2つ以上の隣接する入力テキスト投稿、前記時差、及び前記1人又は複数のユーザのそれぞれと関連付けられる前記距離値を更新すること(212)
を実行するステップ
を含む、プロセッサ実装方法。 - 前記第2評価基準用の前記距離値は、入力テキスト投稿間の時差が所定の閾値未満の場合に、得られる、請求項1に記載のプロセッサ実装方法。
- 前記1人又は複数のユーザは、(i)投稿するユーザ数及び(ii)前記複数の入力テキスト投稿で言及された1人又は複数のユーザ、の少なくとも一方を含む、請求項1に記載のプロセッサ実装方法。
- 複数の入力テキスト投稿を含む対話セッションテキストをセグメンテーションするシステム(100)であって、該システム(100)は:
命令を記憶するメモリ(102);
1つ又は複数の通信インタフェース(106);及び
前記1つ又は複数の通信インタフェース(106)を介して前記メモリ(102)と結合される1つ又は複数のハードウェアプロセッサ(104)であって、該1つ又は複数のハードウェアプロセッサ(104)は、命令によって:
複数のユーザに関係する前記複数の入力テキスト投稿を入手し;
(i)前記複数の入力テキスト投稿からの複数対の隣接する入力テキスト投稿を示す第1評価基準、(ii)少なくとも2つの連続する入力テキスト投稿間の時差を示す第2評価基準、及び(iii)前記複数のユーザから1人又は複数のユーザを示す第3評価基準、を含む1つ又は複数の評価基準のための距離値を演算し;
前記1つ又は複数の評価基準のために演算された前記各距離値に加重を割り当て;
前記割り当てられた加重に基づいて加重和を演算し;
前記複数の入力テキスト投稿における情報損失が所定の閾値に達するまで、
前記1つ又は複数の評価基準に基づいて、前記加重和から得られた対応する距離値を用いて、前記複数の入力テキスト投稿からセグメンテーションされた対話セッションテキストを生成すること;及び
前記2つ以上の隣接する入力テキスト投稿、前記時差、及び前記1人又は複数のユーザのそれぞれと関連付けられる前記距離値を更新すること
を実行するように、構成されるハードウェアプロセッサ(104)
を含む、システム。 - 前記第2評価基準用の前記距離値は、入力テキスト投稿間の時差が所定の閾値未満の場合に、得られる、請求項4に記載のシステム。
- 前記1人又は複数のユーザは、(i)投稿するユーザ数及び(ii)前記複数の入力テキスト投稿で言及された1人又は複数のユーザ、の少なくとも一方を含む、請求項4に記載のシステム。
- 1つ又は複数のハードウェアプロセッサによって実行される際に、複数の入力テキスト投稿を含む対話セッションテキストをセグメンテーションするプロセッサ実装方法を引起す1つ又は複数の命令を含む1つ又は複数の非一時的な機械可読な情報記憶媒体であって、前記方法は:
複数のユーザに関係する複数の入力テキスト投稿を入手するステップ;
(i)前記複数の入力テキスト投稿からの複数対の隣接する入力テキスト投稿を示す第1評価基準、(ii)少なくとも2つの連続する入力テキスト投稿間の時差を示す第2評価基準、及び(iii)前記複数のユーザから1人又は複数のユーザを示す第3評価基準、を含む1つ又は複数の評価基準のための距離値を演算するステップ;
前記1つ又は複数の評価基準のために演算された前記各距離値に加重を割り当てるステップ;
前記割り当てられた加重に基づいて加重和を演算するステップ;及び
前記複数の入力テキスト投稿における情報損失が所定の閾値に達するまで、
前記1つ又は複数の評価基準に基づいて、前記加重和から得られた対応する距離値を用いて、前記複数の入力テキスト投稿からセグメンテーションされた対話セッションテキストを生成すること;及び
前記2つ以上の隣接する入力テキスト投稿、前記時差、及び前記1人又は複数のユーザのそれぞれに関連付けられる前記距離値を更新すること
を実行するステップ
を含む、1つ又は複数の非一時的な機械可読な情報記憶媒体。 - 前記第2評価基準用の前記距離値は、入力テキスト投稿間の時差が所定の閾値未満の場合に、得られる、請求項7に記載の1つ又は複数の非一時的な機械可読な情報記憶媒体。
- 前記1人又は複数のユーザは、(i)投稿するユーザ数及び(ii)前記複数の入力テキスト投稿で言及された1人又は複数のユーザ、の少なくとも一方を含む、請求項7に記載の1つ又は複数の非一時的な機械可読な情報記憶媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
IN201721042505 | 2017-11-27 | ||
IN201721042505 | 2017-11-27 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019096323A true JP2019096323A (ja) | 2019-06-20 |
JP7093292B2 JP7093292B2 (ja) | 2022-06-29 |
Family
ID=64316359
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018220052A Active JP7093292B2 (ja) | 2017-11-27 | 2018-11-26 | 対話セッションテキストをセグメンテーションするシステム及び方法 |
Country Status (6)
Country | Link |
---|---|
EP (1) | EP3493081A1 (ja) |
JP (1) | JP7093292B2 (ja) |
AU (1) | AU2018267668B2 (ja) |
BR (1) | BR102018074370A2 (ja) |
CA (1) | CA3025233C (ja) |
MX (1) | MX2018014589A (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110362823B (zh) * | 2019-06-21 | 2023-07-28 | 北京百度网讯科技有限公司 | 描述文本生成模型的训练方法和装置 |
CN110413787B (zh) * | 2019-07-26 | 2023-07-21 | 腾讯科技(深圳)有限公司 | 文本聚类方法、装置、终端和存储介质 |
CN111832288B (zh) * | 2020-07-27 | 2023-09-29 | 网易有道信息技术(北京)有限公司 | 文本修正方法及装置、电子设备、存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017517830A (ja) * | 2015-04-28 | 2017-06-29 | シャオミ・インコーポレイテッド | ソーシャルネットワーク情報ストリームの表示方法、装置、サーバ、プログラム及び記録媒体 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160070692A1 (en) * | 2014-09-10 | 2016-03-10 | Microsoft Corporation | Determining segments for documents |
-
2018
- 2018-11-14 EP EP18206188.7A patent/EP3493081A1/en not_active Ceased
- 2018-11-23 AU AU2018267668A patent/AU2018267668B2/en active Active
- 2018-11-26 JP JP2018220052A patent/JP7093292B2/ja active Active
- 2018-11-26 BR BR102018074370-8A patent/BR102018074370A2/pt unknown
- 2018-11-26 CA CA3025233A patent/CA3025233C/en active Active
- 2018-11-27 MX MX2018014589A patent/MX2018014589A/es unknown
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017517830A (ja) * | 2015-04-28 | 2017-06-29 | シャオミ・インコーポレイテッド | ソーシャルネットワーク情報ストリームの表示方法、装置、サーバ、プログラム及び記録媒体 |
Non-Patent Citations (4)
Title |
---|
小泉 実加 外2名: "マイクロブログにおける文脈境界の検出", 言語処理学会第22回年次大会 発表論文集 [ONLINE], JPN6019051990, 29 February 2016 (2016-02-29), JP, pages 1089 - 1092, ISSN: 0004398540 * |
新谷 歩生 外2名: "投稿間隔に基づくマイクロブログからの話題チャンク抽出に関する一検討", 第3回データ工学と情報マネジメントに関するフォーラム 論文集 [ONLINE], JPN6019051995, 27 February 2011 (2011-02-27), JP, ISSN: 0004189358 * |
西本 一志 外2名: "発話の時間推移を考慮した自由対談文のセグメント分割手法 Segmentation of Transcribed Free Conversatio", 情報処理学会論文誌, vol. 第39巻第6号, JPN6019051987, 15 June 1998 (1998-06-15), JP, pages 1898 - 1914, ISSN: 0004398539 * |
齋藤 正樹 外2名: "テキストセグメンテーション手法を用いたマイクロブログポストの情報源推定", 言語処理学会第20回年次大会 発表論文集 [ONLINE], JPN6019051992, 10 March 2014 (2014-03-10), JP, pages 1095 - 1098, ISSN: 0004189357 * |
Also Published As
Publication number | Publication date |
---|---|
CA3025233C (en) | 2022-06-21 |
EP3493081A1 (en) | 2019-06-05 |
AU2018267668A1 (en) | 2019-06-13 |
MX2018014589A (es) | 2019-08-16 |
CA3025233A1 (en) | 2019-05-27 |
AU2018267668B2 (en) | 2020-07-09 |
BR102018074370A2 (pt) | 2019-06-25 |
JP7093292B2 (ja) | 2022-06-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10073834B2 (en) | Systems and methods for language feature generation over multi-layered word representation | |
US20210312139A1 (en) | Method and apparatus of generating semantic feature, method and apparatus of training model, electronic device, and storage medium | |
US20200196028A1 (en) | Video highlight recognition and extraction tool | |
US10909970B2 (en) | Utilizing a dynamic memory network to track digital dialog states and generate responses | |
CN107301170B (zh) | 基于人工智能的切分语句的方法和装置 | |
CN114503115A (zh) | 生成丰富的动作项目 | |
WO2017079568A1 (en) | Regularizing machine learning models | |
US11521071B2 (en) | Utilizing deep recurrent neural networks with layer-wise attention for punctuation restoration | |
US9858923B2 (en) | Dynamic adaptation of language models and semantic tracking for automatic speech recognition | |
US8719025B2 (en) | Contextual voice query dilation to improve spoken web searching | |
US20220270612A1 (en) | Cognitive correlation of group interactions | |
US20140325335A1 (en) | System for generating meaningful topic labels and improving automatic topic segmentation | |
US11553085B2 (en) | Method and apparatus for predicting customer satisfaction from a conversation | |
JP2019096323A (ja) | 対話セッションテキストをセグメンテーションするシステム及び方法 | |
US20220375492A1 (en) | End-To-End Speech Diarization Via Iterative Speaker Embedding | |
TW202032534A (zh) | 語音辨識方法、語音辨識裝置、電子設備、電腦可讀存儲介質及電腦程式產品 | |
US11750671B2 (en) | Cognitive encapsulation of group meetings | |
CN110750619A (zh) | 聊天记录关键词的提取方法、装置、计算机设备及存储介质 | |
AU2020364386B2 (en) | Rare topic detection using hierarchical clustering | |
US10984193B1 (en) | Unsupervised text segmentation by topic | |
US20150095349A1 (en) | Automatically identifying matching records from multiple data sources | |
US20220351089A1 (en) | Segmenting unstructured text | |
US11966699B2 (en) | Intent classification using non-correlated features | |
CN114611625A (zh) | 语言模型训练、数据处理方法、装置、设备、介质及产品 | |
US11256874B2 (en) | Sentiment progression analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190129 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20191129 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200114 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20200414 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200615 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20201201 |
|
C60 | Trial request (containing other claim documents, opposition documents) |
Free format text: JAPANESE INTERMEDIATE CODE: C60 Effective date: 20210401 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20210402 |
|
C22 | Notice of designation (change) of administrative judge |
Free format text: JAPANESE INTERMEDIATE CODE: C22 Effective date: 20210803 |
|
C30 | Protocol of an oral hearing |
Free format text: JAPANESE INTERMEDIATE CODE: C30 Effective date: 20220127 |
|
C13 | Notice of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: C13 Effective date: 20220315 |
|
C302 | Record of communication |
Free format text: JAPANESE INTERMEDIATE CODE: C302 Effective date: 20220331 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220401 |
|
C22 | Notice of designation (change) of administrative judge |
Free format text: JAPANESE INTERMEDIATE CODE: C22 Effective date: 20220412 |
|
C22 | Notice of designation (change) of administrative judge |
Free format text: JAPANESE INTERMEDIATE CODE: C22 Effective date: 20220419 |
|
C23 | Notice of termination of proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C23 Effective date: 20220426 |
|
C03 | Trial/appeal decision taken |
Free format text: JAPANESE INTERMEDIATE CODE: C03 Effective date: 20220531 |
|
C30A | Notification sent |
Free format text: JAPANESE INTERMEDIATE CODE: C3012 Effective date: 20220531 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220617 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7093292 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |