JP2016139299A - Information processing system, information processing method, and program - Google Patents
Information processing system, information processing method, and program Download PDFInfo
- Publication number
- JP2016139299A JP2016139299A JP2015014212A JP2015014212A JP2016139299A JP 2016139299 A JP2016139299 A JP 2016139299A JP 2015014212 A JP2015014212 A JP 2015014212A JP 2015014212 A JP2015014212 A JP 2015014212A JP 2016139299 A JP2016139299 A JP 2016139299A
- Authority
- JP
- Japan
- Prior art keywords
- implication
- candidate
- text
- section
- extracted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
本発明は、情報処理システム、情報処理方法、及び、プログラムに関する。 The present invention relates to an information processing system, an information processing method, and a program.
コールセンタには、顧客から様々な製品やサービスに対する不満や要望等の意見が寄せられる。このような顧客の意見に基づいて、サービスを改善したり、製品開発に活かしたりすることが企業にとって重要である。顧客の意見を集計する場合、コールセンタにおいて収録された音声を聞いて集計すると、コストが高くなる。また、オペレータが顧客の意見を要約して入力すると、オペレータの業務が増える、あるいは、入力内容にぶれや抜けが生じる可能性がある。そのため、収録された音声に対して音声認識により生成した会話テキストから意見を抽出、及び、要約し、集計することが望まれる。 Opinions such as dissatisfaction and requests for various products and services are received from customers at the call center. It is important for companies to improve services and utilize them in product development based on customer opinions. When summing up customer opinions, cost increases when listening to voices recorded at the call center. Further, when the operator summarizes and inputs the customer's opinions, there is a possibility that the operator's work increases or the input content is blurred or missing. Therefore, it is desired to extract, summarize, and tabulate opinions from the conversation text generated by voice recognition for the recorded voice.
このような、テキストに含まれる意見の集計に利用可能な技術として、例えば、非特許文献1には、テキスト間の含意関係を抽出し、含意関係があるテキストを同じグループに分類する、含意クラスタリング技術が開示されている。含意関係とは、テキスト間の意味の関係であり、第1のテキストの内容から第2のテキストの内容が読み取れる場合、第1のテキストが第2のテキストを含意すると定義される。含意クラスタリング技術では、グループ内のテキストが共通に含意するテキストが代表文として抽出される。このような含意クラスタリング技術を用いることにより、テキストに含まれる話題の観点をもれなく、かつ、明確に抽出できる。
As a technique that can be used for tabulating opinions included in text, for example, in Non-Patent
会話テキストは、文書として構造化されておらず、挨拶や冗長語、あるいは、クラスタリング対象の意見以外の冗長部分を含むテキストである。このため、会話テキストについては、このような冗長部分を除去しないと、含意関係の抽出が正しく行われない可能性がある。 The conversation text is not structured as a document, but is a text including a redundant part other than greetings, redundant words, or opinions to be clustered. For this reason, for conversational text, the extraction of implications may not be performed correctly unless such redundant portions are removed.
また、会話テキストは、例えば、音声認識による無音区間よって分割され、文法的な文と異なる単位で文が生成される。このため、文単位で含意クラスタリングを行うと、短すぎる文を中心にグループが形成され、意味のある意見の集計が行えない可能性がある。 In addition, the conversation text is divided by, for example, a silent section by voice recognition, and sentences are generated in units different from grammatical sentences. For this reason, if implication clustering is performed in units of sentences, a group is formed around sentences that are too short, and there is a possibility that meaningful opinions cannot be aggregated.
さらに、会話テキストでは、会話の流れの中で主語と述語が離れ、意見が一つの文で的確に表現されないことがある。この場合、含意クラスタリングの対象として、例えば、複数の文の内、意見が的確に表現されている部分だけを抽出すると、集計に漏れが生じる可能性がある。逆に、含意クラスタリングの対象として、複数の文にまたがった大きな区間を抽出すると、上述の冗長部分が含まれてしまい、含意関係の抽出が行われない可能性がある。 Furthermore, in the conversation text, the subject and the predicate are separated in the flow of conversation, and the opinion may not be expressed accurately in one sentence. In this case, for example, if only a part in which an opinion is accurately expressed in a plurality of sentences is extracted as an object of implication clustering, there is a possibility that omission may occur in the aggregation. Conversely, if a large section extending over a plurality of sentences is extracted as an object of implication clustering, the above-described redundant portion is included, and there is a possibility that the extraction of the implication relationship is not performed.
このように、会話テキストに含意クラスタリング技術を適用すると、クラスタリング精度が低下するという技術課題があった。 As described above, when the implication clustering technique is applied to the conversation text, there is a technical problem that the clustering accuracy is lowered.
本発明の目的は、上述の技術課題を解決し、会話テキストに対する含意クラスタリングの精度を向上できる、情報処理システム、情報処理方法、及び、プログラムを提供することである。 An object of the present invention is to provide an information processing system, an information processing method, and a program that can solve the above-described technical problems and improve the accuracy of implication clustering for conversational text.
上述の技術課題を解決するための技術手段として、本発明の情報処理システムは、1以上のテキストの各々から、他の部分テキストにより含意される可能性が高い部分テキストである被含意候補テキストを抽出する被含意候補抽出手段と、前記1以上のテキストの各々から、他の部分テキストを含意する可能性が高い部分テキストである含意候補テキストを抽出する含意候補抽出手段と、前記抽出された被含意候補テキストと含意候補テキストとを、含意関係を抽出すべき複数の部分テキストとして出力する出力手段と、を備える。 As a technical means for solving the above technical problem, the information processing system according to the present invention generates an implication candidate text that is a partial text highly likely to be implied by another partial text from each of one or more texts. An implication candidate extraction means for extracting; an implication candidate extraction means for extracting an implication candidate text that is a partial text that is likely to imply another partial text from each of the one or more texts; Output means for outputting the implication candidate text and the implication candidate text as a plurality of partial texts from which an implication relationship is to be extracted.
本発明の情報処理方法は、1以上のテキストの各々において、所定の内容に係る区間の内、当該所定の内容が明示されている可能性が高い区間を、被含意候補テキストとして抽出し、前記1以上のテキストの各々において、前記所定の内容に係る区間を包含する、当該所定の内容に係る区間より大きな区間を、含意候補テキストとして抽出し、前記抽出された被含意候補テキストと含意候補テキストとを、含意関係を抽出すべき部分テキストとして出力する。 In the information processing method of the present invention, in each of one or more texts, a section that has a high possibility that the predetermined content is clearly specified is extracted as an entailment candidate text, among the sections related to the predetermined content, In each of one or more texts, a section larger than the section related to the predetermined contents including the section related to the predetermined contents is extracted as an implication candidate text, and the extracted implication candidate text and the implication candidate text are extracted. Are output as a partial text from which an implication relationship is to be extracted.
本発明のプログラムは、コンピュータに、1以上のテキストの各々において、所定の内容に係る区間の内、当該所定の内容が明示されている可能性が高い区間を、被含意候補テキストとして抽出し、前記1以上のテキストの各々において、前記所定の内容に係る区間を包含する、当該所定の内容に係る区間より大きな区間を、含意候補テキストとして抽出し、前記抽出された被含意候補テキストと含意候補テキストとを、含意関係を抽出すべき部分テキストとして出力する、処理を実行させる。 The program of the present invention extracts, to each of one or more texts, a section having a high possibility that the predetermined contents are clearly specified as an entailment candidate text in the sections related to the predetermined contents. In each of the one or more texts, a section larger than the section related to the predetermined contents including the section related to the predetermined contents is extracted as an implication candidate text, and the extracted implication candidate text and implication candidate A process of outputting the text as a partial text from which an implication relationship is to be extracted is executed.
本発明の技術効果は、会話テキストに対する含意クラスタリングの精度を向上できることである。 The technical effect of the present invention is that the accuracy of implication clustering for conversational text can be improved.
(第1の実施の形態)
本発明の第1の実施の形態について説明する。
(First embodiment)
A first embodiment of the present invention will be described.
本発明の第1の実施の形態では、コールセンタにおける会話テキスト81をもとに、製品について発生した不具合に係る含意クラスタリングを行う場合を例に説明する。 In the first embodiment of the present invention, a case will be described as an example in which implication clustering related to a defect occurring in a product is performed based on conversation text 81 in a call center.
また、本発明の第1の実施の形態では、含意関係を、特許文献1と同様に、次のように定義する。すなわち、第1のテキストの内容から第2のテキストの内容が読み取れる場合、第1のテキストが第2のテキストを含意すると定義する。また、第1のテキストの内容が真であるならば第2のテキストの内容が真である場合、第1のテキストが第2のテキストを含意すると定義してもよい。
In the first embodiment of the present invention, the implication relationship is defined as follows, as in
はじめに、本発明の第1の実施の形態の構成を説明する。 First, the configuration of the first exemplary embodiment of the present invention will be described.
図2は、本発明の第1の実施の形態における、クラスタリングシステム1の構成を示すブロック図である。
FIG. 2 is a block diagram showing a configuration of the
図2を参照すると、本発明の第1の実施の形態におけるクラスタリングシステム1は、会話テキスト記憶部10、部分テキスト抽出部20、部分テキスト記憶部30、含意関係抽出部40、及び、グループ生成部50を含む。クラスタリングシステム1は、本発明の情報処理システムの一実施形態である。
Referring to FIG. 2, the
会話テキスト記憶部10は、1以上の会話テキスト81(または、単にテキスト)を記憶する。
The conversation
部分テキスト抽出部20は、会話テキスト81から、クラスタリング(含意関係の抽出、及び、グループの生成)の対象である、複数の部分テキストを抽出する。部分テキスト抽出部20は、このような部分テキストとして、後述する、代表候補82(または、被含意候補テキスト)とメンバ候補83(または、含意候補テキスト)とを抽出する。
The partial
部分テキスト記憶部30は、部分テキスト抽出部20により抽出された部分テキスト(代表候補82、メンバ候補83)を記憶する。
The partial
含意関係抽出部40は、部分テキスト記憶部30に記憶された部分テキスト間の含意関係を抽出する。
The implication
グループ生成部50は、含意関係抽出部40により抽出された部分テキスト間の含意関係をもとに、部分テキストの内のある部分テキストを代表テキスト、当該部分テキストを含意する他の部分テキストをメンバとするグループを生成する。代表テキストは、グループを代表する(グループの概観を把握できる)テキストである。
Based on the implication relationship between the partial texts extracted by the implication
上述の部分テキスト抽出部20は、発話区間抽出部21、代表候補抽出部22(または、被含意候補抽出部)、メンバ候補抽出部23(または、含意候補抽出部)、及び、部分テキスト出力部24(または、単に、出力部)を含む。
The partial
発話区間抽出部21は、各会話テキスト81を、複数の発話区間91(または、単に、区間)に分割し、当該複数の発話区間91から、対象区間92を抽出する。対象区間92は、複数の発話区間91の内、クラスタリング対象の話題や内容(所定の内容)の少なくとも一部が含まれている区間(所定の内容に係る区間)である。所定の内容としては、製品に係るコールセンタの会話テキスト81をクラスタリングする場合、例えば、製品について発生した不具合等の現象や、その原因、対策、あるいは、製品についての要求、不満、評価等の意見が用いられる。
The utterance
代表候補抽出部22は、発話区間抽出部21により抽出された対象区間92の内、クラスタリング対象の内容が明示されている(的確、簡潔に表している)可能性が高い対象区間92を、代表候補82として抽出する。
The representative
メンバ候補抽出部23は、発話区間抽出部21により抽出された対象区間92を包含する、当該対象区間92より大きな区間を、メンバ候補83として抽出する。
The member
部分テキスト出力部24は、抽出された代表候補82とメンバ候補83とを、クラスタリングを行う単位である、部分テキストとして出力する。
The partial
ここで、上述のように、代表候補82は、クラスタリング対象の内容が明示されている可能性が高い対象区間92である。一方、メンバ候補83は、クラスタリング対象の内容の少なくとも一部を含む対象区間92を包含し、対象区間92より大きな区間である。したがって、代表候補82は、メンバ候補83に比べて少ない単語数で、クラスタリング対象の内容を、的確、簡潔に表している可能性が高い。また、メンバ候補83は、クラスタリング対象の内容ではない冗長部分を含むものの、クラスタリング対象の内容を表している可能性が高い。このため、代表候補82とメンバ候補83とをクラスタリングを行う単位として、含意クラスタリングを行えば、代表候補82を代表テキスト、当該代表候補82を含意するメンバ候補83をメンバに設定したグループが生成される可能性が高い。すなわち、含意クラスタリングにおいて、クラスタリング対象の内容が明示されている代表テキストと、当該代表テキストを含意するメンバとからなる、適切なグループが生成できる。
Here, as described above, the
なお、クラスタリングシステム1は、CPU(Central Processing Unit)とプログラムを記憶した記憶媒体を含み、プログラムに基づく制御によって動作するコンピュータであってもよい。
The
図3は、本発明の第1の実施の形態における、コンピュータにより実現されたクラスタリングシステム1の構成を示すブロック図である。
FIG. 3 is a block diagram showing a configuration of the
クラスタリングシステム1は、CPU2、ハードディスクやメモリ等の記憶デバイス(記憶媒体)3、他の装置等と通信を行う通信デバイス4、マウスやキーボード等の入力デバイス5、及び、ディスプレイ等の出力デバイス6を含む。
The
CPU2は、部分テキスト抽出部20、含意関係抽出部40、及び、グループ生成部50の機能を実現するためのコンピュータプログラムを実行する。記憶デバイス3は、会話テキスト記憶部10、及び、部分テキスト記憶部30のデータを記憶する。入力デバイス5は、利用者等から、会話テキスト81の入力を受け付ける。出力デバイス6は、利用者等へ、抽出された部分テキストや含意関係、生成されたグループを出力する。また、通信デバイス4が、他の装置から会話テキスト81を受信し、他の装置へ部分テキストや含意関係、グループを送信してもよい。
The
また、クラスタリングシステム1は、図2に示された各構成要素が、有線または無線で接続された複数の物理的な装置に分散的に配置されることより構成されていてもよい。
Further, the
次に、本発明の第1の実施の形態の動作について説明する。 Next, the operation of the first exemplary embodiment of the present invention will be described.
図5は、本発明の第1の実施の形態における、会話テキスト81の例を示す図である。会話テキスト81は、例えば、コールセンタにおいて収録された音声データに対する音声認識により生成される。図5において、会話テキスト81a、b、…に付与されている「CU:」、「OP:」は、それぞれ、顧客、オペレータの発話であることを示す。 FIG. 5 is a diagram showing an example of the conversation text 81 in the first embodiment of the present invention. The conversation text 81 is generated by, for example, voice recognition for voice data recorded at a call center. In FIG. 5, “CU:” and “OP:” given to the conversation texts 81a, 81b,... Indicate that they are utterances of the customer and the operator, respectively.
ここでは、図5のような会話テキスト81が、会話テキスト記憶部10に記憶されていると仮定する。なお、会話テキスト記憶部10は、各会話の会話テキスト81を、当該会話の音声データともに関連付けて記憶していてもよい。
Here, it is assumed that the conversation text 81 as shown in FIG. 5 is stored in the conversation
図4は、本発明の第1の実施における、クラスタリングシステム1の動作を示すフローチャートである。
FIG. 4 is a flowchart showing the operation of the
はじめに、部分テキスト抽出部20の発話区間抽出部21は、会話テキスト記憶部10に記憶されている各会話テキスト81を、複数の発話区間91に分割する(ステップS101)。
First, the speech
ここで、発話区間抽出部21は、例えば、会話テキスト81を、話者の交代に応じて分割する。この場合、発話区間抽出部21は、話者毎に用意されたマイクロフォンにおける音声の検出状況をもとに、話者の交代を検出してもよい。また、発話区間抽出部21は、音声データをもとに話者を認識することにより、話者の交代を検出してもよい。
Here, for example, the utterance
また、発話区間抽出部21は、会話テキスト81を、所定の時間長以上の無音区間で分割してもよい。
Further, the utterance
また、発話区間抽出部21は、会話テキスト81を、言語に応じた文法的な文単位で分割してもよい。
Further, the utterance
また、発話区間抽出部21は、会話テキスト81を、予め設定された分割ルールに基づいて分割してもよい。この場合、分割ルールには、例えば、発言の先頭や末尾に現れる表現や単語が設定される。そして、発話区間抽出部21は、それらの表現や単語で会話テキスト81を分割する。また、この場合、分割ルールは、機械学習により学習された分割ルールでもよい。
Further, the utterance
なお、発話区間抽出部21は、発話区間91の抽出結果から、挨拶や冗長語のみを含むような発話区間91を除外してもよい。
Note that the utterance
図6は、本発明の第1の実施の形態における、部分テキスト抽出の処理例を示す図である。 FIG. 6 is a diagram showing an example of partial text extraction processing in the first exemplary embodiment of the present invention.
例えば、発話区間抽出部21は、図6に示すように、図5の会話テキスト81aを、話者(オペレータ、顧客)に応じて、発話区間91a1、a2、…に分割する。同様に、発話区間抽出部21は、会話テキスト81bを、発話区間91b1、b2、…に分割する。
For example, as shown in FIG. 6, the utterance
発話区間抽出部21は、発話区間91から、対象区間92を抽出する(ステップS102)。
The utterance
ここで、発話区間抽出部21は、例えば、予め設定された対象抽出ルールに基づいて、対象区間92を抽出してもよい。この場合、対象抽出ルールには、例えば、クラスタリング対象である所定の内容を表すときに用いられる表現や単語が設定される。そして、発話区間抽出部21は、それらの表現や単語が含まれる発話区間91を対象区間92として抽出する。また、この場合、対象抽出ルールは、機械学習により学習された対象抽出ルールでもよい。
Here, the utterance
例えば、クラスタリング対象の内容が、製品についての不具合であり、不具合を表す単語として、「動かない」、「フリーズ」等が対象抽出ルールに設定されていると仮定する。この場合、発話区間抽出部21は、図6に示すように、会話テキスト81aについて、単語「動かない」を含む発話区間91a5を対象区間92a1として抽出する。同様に、発話区間抽出部21は、会話テキスト81bについて、単語「フリーズ」を含む発話区間91b4、91b6を対象区間92b1、92b2として抽出する。
For example, it is assumed that the content of the clustering target is a defect in the product, and “does not move”, “freeze” or the like is set in the target extraction rule as a word indicating the defect. In this case, as shown in FIG. 6, the utterance
代表候補抽出部22は、発話区間抽出部21により抽出された対象区間92から、代表候補82を抽出する(ステップS103)。
The representative
ここで、代表候補抽出部22は、クラスタリング対象である所定の内容が明示されている可能性が高い対象区間92を、代表候補82として抽出する。
Here, the representative
代表候補抽出部22は、所定の内容が明示されている可能性が高い対象区間92として、例えば、主語と述語とを含む対象区間92を、代表候補82として抽出する。この場合、代表候補抽出部22は、代表候補82の抽出結果から、主語や述語に指示語を含む代表候補82を除外してもよい。また、代表候補抽出部22は、体言と用言とを所定数以上含む対象区間92を、代表候補82として抽出してもよい。
The representative
また、代表候補抽出部22は、予め設定された代表候補抽出ルールに基づいて、代表候補82を抽出してもよい。この場合、代表候補抽出ルールには、例えば、クラスタリング対象である所定の内容を明確に表す文や表現が設定される。そして、代表候補抽出部22は、それらの文や表現が含まれる対象区間92を代表候補82として抽出する。また、この場合、代表候補抽出ルールは、機械学習により学習された代表候補抽出ルールでもよい。
Further, the representative
例えば、主語と述語とを含む対象区間92を代表候補82として抽出する場合、図6に示すように、会話テキスト81aの対象区間92a1には、主語が含まれない。したがって、代表候補抽出部22は、会話テキスト81aについては、代表候補82を抽出しない。一方、会話テキスト81bの対象区間92b1は、主語「PC」と述語「フリーズ」を含む。したがって、代表候補抽出部22は、対象区間92b1を代表候補82_1として抽出する。同様に、代表候補抽出部22は、対象区間92b2を代表候補82_2として抽出する。
For example, when the target section 92 including the subject and the predicate is extracted as the
メンバ候補抽出部23は、発話区間抽出部21により抽出された発話区間91から、メンバ候補83を抽出する(ステップS104)。
The member
ここで、メンバ候補抽出部23は、例えば、対象区間92を含む複数の発話区間91を、メンバ候補83として抽出する。この場合、メンバ候補抽出部23は、対象区間92の所定数前の発話区間91から所定数後の発話区間91までを、メンバ候補83として抽出してもよい。また、メンバ候補抽出部23は、対象区間92の所定時間前の発話区間91から所定時間後の発話区間91までを、メンバ候補83として抽出してもよい。また、異なる二つのメンバ候補83が重なっている、もしくは、連続する場合、メンバ候補抽出部23は、これら二つのメンバ候補83をマージしてもよい。
Here, the member
また、メンバ候補抽出部23は、予め設定されたメンバ候補抽出ルールに基づいて、メンバ候補83を抽出してもよい。この場合、メンバ候補抽出ルールには、会話における話題の先頭や末尾に現れる文や表現、単語が設定される。そして、メンバ候補抽出部23は、対象区間92含み、かつ、それらの文や、表現、単語で分割される一連の発話区間91を、メンバ候補83として抽出する。また、この場合、メンバ候補抽出ルールは、機械学習により学習されたメンバ候補抽出ルールでもよい。
Moreover, the member
例えば、対象区間92の一つ前から一つ後の発話区間91までをメンバ候補83として抽出する場合、メンバ候補抽出部23は、図6に示すように、対象区間92a1を含む発話区間91a4から91a6までを、メンバ候補83_1として抽出する。また、メンバ候補抽出部23は、対象区間92b1、92b2を含む発話区間91b3から91b7までを、メンバ候補83_2として抽出する。
For example, when extracting the utterance section 91 immediately before and after the target section 92 as
部分テキスト出力部24は、抽出された代表候補82とメンバ候補83とを、クラスタリングを行う単位である部分テキストとして出力し、部分テキスト記憶部30に保存する(ステップS105)。
The partial
例えば、部分テキスト出力部24は、会話テキスト81a、bから抽出された、代表候補82_1、82_2、メンバ候補83_1、83_2を、部分テキストとして部分テキスト記憶部30に保存する。
For example, the partial
次に、含意関係抽出部40は、部分テキスト記憶部30に記憶された部分テキスト間の含意関係を抽出する(ステップS106)。ここで、含意関係抽出部40は、例えば、特許文献1と同様の判定処理を行うことにより、部分テキスト間の含意関係を抽出する。すなわち、含意関係抽出部40は、部分テキストに含まれる内容語を比較し、被覆率を算出することにより、含意関係の有無を判定する。含意関係抽出部40は、部分テキスト記憶部30に記憶されている部分テキストの二つの組の全てについて、一方の部分テキストが他方の部分テキストを含意する方向、及び、他方の部分テキストが一方の部分テキストを含意する方向について、判定処理を行う。なお、含意関係抽出部40は、部分テキスト間の含意関係を抽出できれば、特許文献1と異なる判定処理により、部分テキスト間の含意関係を判定してもよい。
Next, the implication
図7は、本発明の第1の実施の形態における、含意関係の判定処理を行う部分テキストの組と抽出結果を示す図である。図7において、矢印(太線、及び、細線)は、判定処理が行われる部分テキストの組と方向を示す。ここで、矢印の元の部分テキストが矢印の先の部分テキストを含意する方向について、判定処理が行われる。太線は、判定処理の結果、含意関係ありと判定されたことを示す。細線は、判定処理の結果、含意関係なしと判定されたことを示す。 FIG. 7 is a diagram showing a set of partial texts for performing implication relationship determination processing and extraction results in the first embodiment of the present invention. In FIG. 7, arrows (thick lines and thin lines) indicate partial text sets and directions in which the determination process is performed. Here, a determination process is performed for a direction in which the original partial text of the arrow implies the partial text of the arrow destination. A bold line indicates that it is determined that there is an implication relationship as a result of the determination process. The thin line indicates that it is determined that there is no implication relationship as a result of the determination process.
例えば、含意関係抽出部40は、図7に示すように、代表候補82_1とメンバ候補83_1との組について、メンバ候補83_1が代表候補82_1を含意する方向、及び、代表候補82_1がメンバ候補83_1を含意する方向の判定処理を行う。そして、含意関係抽出部40は、メンバ候補83_1が代表候補82_1を含意する方向の含意関係ありと判定する。他の組(代表候補82_1とメンバ候補83_2、代表候補82_2とメンバ候補83_1、代表候補82_2とメンバ候補83_2、代表候補82_1と代表候補82_2、メンバ候補83_1とメンバ候補83_2)についても同様に、判定処理が行われる。この結果、含意関係抽出部40は、図7に示すように、含意関係を抽出する。
For example, as illustrated in FIG. 7, the implication
グループ生成部50は、含意関係抽出部40により抽出された部分テキスト間の含意関係をもとに、ある部分テキストを代表テキスト、当該部分テキストを含意する他の部分テキストをメンバとするグループ84を生成する(ステップS107)。
Based on the implication relationship between the partial texts extracted by the implication
図8は、本発明の第1の実施の形態における、グループ84の生成結果を示す図である。例えば、グループ生成部50は、図7の含意関係をもとに、図8に示すように、代表候補82_1を代表テキスト、代表候補82_1を含意する代表候補82_2、メンバ候補83_1、83_2をメンバとするグループ84_1を生成する。同様に、グループ生成部50は、代表候補82_2を代表テキスト、代表候補82_2を含意するメンバ候補83_2をメンバとするグループ84_2生成する。
FIG. 8 is a diagram illustrating a generation result of the group 84 according to the first embodiment of this invention. For example, based on the implication relationship of FIG. 7, the
なお、グループ生成部50は、さらに、異なる二つのグループ間のメンバの重複の度合いを基に、当該二つのグループを一つのグループに統合してもよい。
The
以上により、本発明の第1の実施の形態の動作が完了する。 Thus, the operation of the first exemplary embodiment of the present invention is completed.
なお、本発明の第1の実施では、クラスタリング対象のテキストが、複数話者の会話についての音声データをもとに生成された会話テキスト81であり、クラスタリング対象の内容が、製品について発生した不具合である場合を例に説明した。 In the first embodiment of the present invention, the text to be clustered is the conversation text 81 generated based on the speech data about the conversations of a plurality of speakers, and the content of the clustering target is a defect that has occurred in the product. The case has been described as an example.
しかしながら、これに限らず、クラスタリング対象のテキストとして、チャットや電子メール、電子掲示板等、テキスト形式のメッセージデータをもとに生成されたテキストを用いてもよい。また、クラスタリング対象のテキストとして、一人の話者によるスピーチに対して生成されたテキストを用いてもよい。また、クラスタリング対象の内容(話題)として、不具合以外の様々な現象や事象、それらの原因、対策等を用いてもよい。また、クラスタリング対象の内容(話題)として、気象、災害、経済、社会等、様々なカテゴリーおける現象や事象等を用いてもよい。また、クラスタリング対象の内容(話題)として、様々なカテゴリーおける話者の要求、不満、評価等、話者の意見を用いてもよい。 However, the present invention is not limited to this, and text generated based on text-format message data such as chat, e-mail, and electronic bulletin board may be used as the text to be clustered. In addition, text generated for a speech by a single speaker may be used as the text to be clustered. Further, as the contents (topics) to be clustered, various phenomena and events other than defects, their causes, countermeasures, and the like may be used. Further, as contents (topics) to be clustered, phenomena and events in various categories such as weather, disaster, economy, society, etc. may be used. Further, as the contents (topics) to be clustered, speaker opinions such as request, dissatisfaction, and evaluation of speakers in various categories may be used.
次に、本発明の第1の実施の形態の基本的な構成を説明する。 Next, the basic configuration of the first exemplary embodiment of the present invention will be described.
図1は、本発明の第1の実施の形態の基本的な構成を示すブロック図である。図1を参照すると、クラスタリングシステム1(情報処理システム)は、代表候補抽出部22(被含意候補抽出部)、メンバ候補抽出部23(含意候補抽出部)、及び、部分テキスト出力部24(出力部)を含む。 FIG. 1 is a block diagram showing a basic configuration of the first embodiment of the present invention. Referring to FIG. 1, the clustering system 1 (information processing system) includes a representative candidate extraction unit 22 (implication candidate extraction unit), a member candidate extraction unit 23 (entailment candidate extraction unit), and a partial text output unit 24 (output). Part).
代表候補抽出部22は、1以上の会話テキスト81(テキスト)の各々において、所定の内容に係る区間の内、当該所定の内容が明示されている可能性が高い区間を、代表候補82(被含意候補テキスト)として抽出する。メンバ候補抽出部23は、1以上の会話テキスト81の各々において、所定の内容に係る区間を包含する、当該所定の内容に係る区間より大きな区間を、メンバ候補83(含意候補テキスト)として抽出する。部分テキスト出力部24は、抽出された代表候補82とメンバ候補83とを、含意関係を抽出すべき部分テキストとして出力する。
In each of the one or more conversation texts 81 (text), the representative
次に、本発明の第1の実施の形態の効果を説明する。 Next, effects of the first exemplary embodiment of the present invention will be described.
本発明の第1の実施の形態によれば、会話テキストに対する含意クラスタリングの精度を向上できる。その理由は、会話テキスト81の各々において、クラスタリング対象の内容に係る区間の内、当該クラスタリング対象の内容が明示されている可能性が高い区間を代表候補82、クラスタリング対象の内容に係る区間を包含するより大きな区間をメンバ候補83として抽出するためである。
According to the first embodiment of the present invention, the accuracy of implication clustering for conversational text can be improved. The reason is that in each of the conversation texts 81, among the sections related to the contents of the clustering target, a section where the content of the clustering target is highly likely to be clearly included includes the
(第2の実施の形態)
次に、本発明の第2の実施の形態について説明する。
(Second Embodiment)
Next, a second embodiment of the present invention will be described.
本発明の第1の実施の形態では、含意関係抽出部40が、部分テキストの二つの組の全てについて、一方の部分テキストが他方の部分テキストを含意する方向、及び、他方の部分テキストが一方の部分テキストを含意する方向について、判定処理を行った。しかしながら、部分テキストの数が多い場合、判定処理を行う組の数が膨大となり、含意関係抽出の処理時間が大きくなるという問題がある。
In the first embodiment of the present invention, the implication
ここで、部分テキストの二つの組の内で、メンバ候補83間に含意関係が存在する可能性は低いと考えられる。同様に、メンバ候補83が代表候補82を含意する方向の含意関係が存在する可能性も低いと考えられる。
Here, it is considered that it is unlikely that an implication relationship exists between the
そこで、本発明の第2の実施の形態では、含意関係抽出部40は、部分テキストの二つの組の内で、このような存在する可能性が低い組、及び、方向の含意関係を除いた、メンバ候補83が代表候補82を含意する方向の含意関係のみについて、判定処理を行う。
Therefore, in the second embodiment of the present invention, the implication
図9は、本発明の第2の実施の形態における、含意関係の判定処理を行う部分テキストの組と抽出結果を示す図である。 FIG. 9 is a diagram illustrating a set of partial texts for performing implication relation determination processing and extraction results in the second embodiment of the present invention.
例えば、含意関係抽出部40は、図9に示すように、代表候補82_1とメンバ候補83_1との組、及び、代表候補82_1とメンバ候補83_2との組について、メンバ候補83が代表候補82を含意する方向について判定処理を行う。また、含意関係抽出部40は、代表候補82_2とメンバ候補83_1との組、及び、代表候補82_2とメンバ候補83_2との組について、メンバ候補83が代表候補82を含意する方向について判定処理を行う。この結果、意関係抽出部40は、図9に示すように、含意関係を抽出する。
For example, as shown in FIG. 9, the implication
さらに、含意関係抽出部40は、先に代表候補82間の判定処理を行った後に、メンバ候補83が代表候補82を含意する方向の判定処理を行ってもよい。この場合、含意関係抽出部40は、メンバ候補83が代表候補82を含意すると判定したときに、既に、当該代表候補82が他の代表候補82を含意すると判定済みの場合、当該メンバ候補83が当該他の代表候補82を含意する方向の判定処理を省略する。そして、含意関係抽出部40は、判定処理を行わずに、当該メンバ候補83が当該他の代表候補82を含意すると決定する。
Furthermore, the implication
図10は、本発明の第2の実施の形態における、含意関係の判定処理を行う部分テキストの組と抽出結果の他の例を示す図である。 FIG. 10 is a diagram showing another example of a partial text set and extraction result for performing implication relationship determination processing in the second exemplary embodiment of the present invention.
例えば、含意関係抽出部40は、図10に示すように、代表候補82_1と代表候補82_2との組について判定処理を行い、代表候補82_2が代表候補82_1を含意すると判定する。そして、含意関係抽出部40が、メンバ候補83_2が代表候補82_2を含意すると判定したときに、メンバ候補83_2と代表候補82_1との組についての判定処理を行うことなく、メンバ候補83_2が代表候補82_1を含意すると決定する。
For example, as illustrated in FIG. 10, the implication
次に、本発明の第2の実施の形態の効果を説明する。 Next, effects of the second exemplary embodiment of the present invention will be described.
本発明の第2の実施の形態によれば、部分テキストの数が多い場合でも、含意関係抽出の処理時間の増加を抑えることできる。その理由は、含意関係抽出部40が、部分テキストの二つの組や組における含意関係の方向の内で、存在する可能性が低い組、及び、方向の含意関係を除いて、含意関係の判定処理を行うためである。
According to the second embodiment of the present invention, it is possible to suppress an increase in the processing time for implication relation extraction even when the number of partial texts is large. The reason for this is that the implication
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。 While the present invention has been described with reference to the embodiments, the present invention is not limited to the above embodiments. Various changes that can be understood by those skilled in the art can be made to the configuration and details of the present invention within the scope of the present invention.
本発明は、コールセンタ等における会話に係る会話テキストや、チャット、電子メール、ブログ、電子掲示板等における会話テキストに含まれる内容を概観するためのシステムに適用できる。 The present invention can be applied to a system for overviewing contents included in conversation text related to conversation in a call center or the like, and conversation text in a chat, electronic mail, blog, electronic bulletin board, or the like.
1 クラスタリングシステム
2 CPU
3 記憶デバイス
4 通信デバイス
5 入力デバイス
6 出力デバイス
10 会話テキスト記憶部
20 部分テキスト抽出部
21 発話区間抽出部
22 代表候補抽出部
23 メンバ候補抽出部
24 部分テキスト出力部
30 部分テキスト記憶部
40 含意関係抽出部
50 グループ生成部
81 会話テキスト
82 代表候補
83 メンバ候補
84 グループ
91 発話区間
92 対象区間
1
DESCRIPTION OF SYMBOLS 3 Memory |
Claims (10)
前記1以上のテキストの各々において、前記所定の内容に係る区間を包含する、当該所定の内容に係る区間より大きな区間を、含意候補テキストとして抽出する、含意候補抽出手段と、
前記抽出された被含意候補テキストと含意候補テキストとを、含意関係を抽出すべき部分テキストとして出力する、出力手段と、
を備えた情報処理システム。 In each of the one or more texts, an implication candidate extraction unit that extracts, as an implication candidate text, an interval that has a high possibility that the predetermined content is clearly specified in an interval related to the predetermined content;
In each of the one or more texts, an implication candidate extracting unit that extracts a section larger than the section related to the predetermined content, including the section related to the predetermined content, as an implication candidate text;
An output means for outputting the extracted implication candidate text and the implication candidate text as a partial text from which an implication relationship is to be extracted;
Information processing system with
請求項1に記載の情報処理システム。 The implication candidate extraction means extracts, as the implication candidate text, an interval including a subject and a predicate in an interval related to the predetermined content.
The information processing system according to claim 1.
請求項1に記載の情報処理システム。 The implication candidate extraction means extracts, as the implication candidate text, a section including a predetermined sentence or expression in the section related to the predetermined content.
The information processing system according to claim 1.
請求項1乃至3のいずれかに記載の情報処理システム。 The implication candidate extraction means extracts a section composed of a plurality of continuous sections including the section related to the predetermined content as the implication candidate text.
The information processing system according to claim 1.
請求項1乃至4のいずれかに記載の情報処理システム。 Furthermore, an implication relationship extracting means for extracting an implication relationship between the partial texts is provided.
The information processing system according to any one of claims 1 to 4.
請求項5に記載の情報処理システム。 The implication relationship extraction means is an implication relationship excluding an implication relationship between the implication candidate texts and an implication relationship in which the implication candidate text implies the implication candidate text among the implication relationships between the partial texts. Determine the presence or absence,
The information processing system according to claim 5.
請求項6に記載の情報処理システム。 When the implication relation extraction unit determines that the implication candidate text implies the other implication candidate text when it is determined that the implication candidate text implies the implication candidate text, the implication candidate text is It is determined to entail the other implication candidate text,
The information processing system according to claim 6.
請求項1乃至7に記載の情報処理システム。 Furthermore, based on the extracted implication relationship, a group generation means for generating a group having a partial text that implies one partial text of the partial text as a member,
The information processing system according to claim 1.
前記1以上のテキストの各々において、前記所定の内容に係る区間を包含する、当該所定の内容に係る区間より大きな区間を、含意候補テキストとして抽出し、
前記抽出された被含意候補テキストと含意候補テキストとを、含意関係を抽出すべき部分テキストとして出力する、
情報処理方法。 In each of the one or more texts, a section having a high possibility that the predetermined content is clearly specified is extracted as an entailment candidate text among the sections related to the predetermined content.
In each of the one or more texts, a section larger than the section related to the predetermined content including the section related to the predetermined content is extracted as an implication candidate text.
The extracted implication candidate text and the implication candidate text are output as a partial text from which an implication relationship is to be extracted.
Information processing method.
1以上のテキストの各々において、所定の内容に係る区間の内、当該所定の内容が明示されている可能性が高い区間を、被含意候補テキストとして抽出し、
前記1以上のテキストの各々において、前記所定の内容に係る区間を包含する、当該所定の内容に係る区間より大きな区間を、含意候補テキストとして抽出し、
前記抽出された被含意候補テキストと含意候補テキストとを、含意関係を抽出すべき部分テキストとして出力する、
処理を実行させるプログラム。 On the computer,
In each of the one or more texts, a section having a high possibility that the predetermined content is clearly specified is extracted as an entailment candidate text among the sections related to the predetermined content.
In each of the one or more texts, a section larger than the section related to the predetermined content including the section related to the predetermined content is extracted as an implication candidate text.
The extracted implication candidate text and the implication candidate text are output as a partial text from which an implication relationship is to be extracted.
A program that executes processing.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015014212A JP6492698B2 (en) | 2015-01-28 | 2015-01-28 | Information processing system, information processing method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015014212A JP6492698B2 (en) | 2015-01-28 | 2015-01-28 | Information processing system, information processing method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016139299A true JP2016139299A (en) | 2016-08-04 |
JP6492698B2 JP6492698B2 (en) | 2019-04-03 |
Family
ID=56560264
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015014212A Active JP6492698B2 (en) | 2015-01-28 | 2015-01-28 | Information processing system, information processing method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6492698B2 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020008690A (en) * | 2018-07-06 | 2020-01-16 | 日本電気株式会社 | Extraction device, extraction method, and program |
CN113672733A (en) * | 2021-08-23 | 2021-11-19 | 广东电网有限责任公司 | Text data extraction method, system, electronic equipment and storage medium |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008146461A (en) * | 2006-12-12 | 2008-06-26 | Yahoo Japan Corp | Device for making blog of conversation record |
JP2012088893A (en) * | 2010-10-19 | 2012-05-10 | Kyoto Univ | Question answering system |
JP2013190991A (en) * | 2012-03-14 | 2013-09-26 | Nec Corp | Voice interactive summarization device, voice interactive summarization method and program |
-
2015
- 2015-01-28 JP JP2015014212A patent/JP6492698B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008146461A (en) * | 2006-12-12 | 2008-06-26 | Yahoo Japan Corp | Device for making blog of conversation record |
JP2012088893A (en) * | 2010-10-19 | 2012-05-10 | Kyoto Univ | Question answering system |
JP2013190991A (en) * | 2012-03-14 | 2013-09-26 | Nec Corp | Voice interactive summarization device, voice interactive summarization method and program |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020008690A (en) * | 2018-07-06 | 2020-01-16 | 日本電気株式会社 | Extraction device, extraction method, and program |
CN113672733A (en) * | 2021-08-23 | 2021-11-19 | 广东电网有限责任公司 | Text data extraction method, system, electronic equipment and storage medium |
CN113672733B (en) * | 2021-08-23 | 2023-01-13 | 广东电网有限责任公司 | Text data extraction method, system, electronic equipment and storage medium |
Also Published As
Publication number | Publication date |
---|---|
JP6492698B2 (en) | 2019-04-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200160356A1 (en) | Customer interaction and experience system using emotional-semantic computing | |
US10616414B2 (en) | Classification of transcripts by sentiment | |
CN107636648B (en) | Constructing responses based on emotion identification | |
US10162844B1 (en) | System and methods for using conversational similarity for dimension reduction in deep analytics | |
US9311932B2 (en) | Adaptive pause detection in speech recognition | |
JP4924950B2 (en) | Question answering data editing device, question answering data editing method, question answering data editing program | |
US9483582B2 (en) | Identification and verification of factual assertions in natural language | |
US11645460B2 (en) | Punctuation and capitalization of speech recognition transcripts | |
JP6306528B2 (en) | Acoustic model learning support device and acoustic model learning support method | |
US9099091B2 (en) | Method and apparatus of adaptive textual prediction of voice data | |
JP5387416B2 (en) | Utterance division system, utterance division method, and utterance division program | |
US20190371305A1 (en) | Voice interaction system, its processing method, and program therefor | |
KR20220130739A (en) | speech recognition | |
JP2018128575A (en) | End-of-talk determination device, end-of-talk determination method and program | |
US11211050B2 (en) | Structured conversation enhancement | |
JP6492698B2 (en) | Information processing system, information processing method, and program | |
CN117441165A (en) | Reducing bias in generating language models | |
JP5728374B2 (en) | Dialog summarization system and dialog summarization program | |
CN117043856A (en) | End-to-end model on high-efficiency streaming non-recursive devices | |
Ahmed et al. | Agent productivity measurement in call center using machine learning | |
US20220020365A1 (en) | Automated assistant with audio presentation interaction | |
KR20230020508A (en) | Remove text echo | |
US9875230B2 (en) | Text analysis on unstructured text to identify a high level of intensity of negative thoughts or beliefs | |
CN113241061B (en) | Method and device for processing voice recognition result, electronic equipment and storage medium | |
JP2023007014A (en) | Response system, response method, and response program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20171215 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20181031 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20181127 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190117 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190205 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190218 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6492698 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |