JP2013120514A - Dialogue summarization system and dialogue summarization program - Google Patents

Dialogue summarization system and dialogue summarization program Download PDF

Info

Publication number
JP2013120514A
JP2013120514A JP2011268573A JP2011268573A JP2013120514A JP 2013120514 A JP2013120514 A JP 2013120514A JP 2011268573 A JP2011268573 A JP 2011268573A JP 2011268573 A JP2011268573 A JP 2011268573A JP 2013120514 A JP2013120514 A JP 2013120514A
Authority
JP
Japan
Prior art keywords
score
block
statement
dialog
dialogue
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011268573A
Other languages
Japanese (ja)
Other versions
JP5728374B2 (en
Inventor
Gasuaki Takehara
一彰 竹原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nomura Research Institute Ltd
Original Assignee
Nomura Research Institute Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nomura Research Institute Ltd filed Critical Nomura Research Institute Ltd
Priority to JP2011268573A priority Critical patent/JP5728374B2/en
Publication of JP2013120514A publication Critical patent/JP2013120514A/en
Application granted granted Critical
Publication of JP5728374B2 publication Critical patent/JP5728374B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a dialogue summarization system capable of generating a summary sentence from text data of a dialogue content for facilitating understanding of the course of the dialogue.SOLUTION: A dialogue summarization system 1 generates summary data by extracting one or more important sentences from a dialogue content, and has an important sentence extraction section 13. On the basis of dialogue structure data 14 including information on each statement in the dialogue content, score information indicating importance of each statement, and block information in a unit of a continuous statement of each speaker, the important sentence extraction section 13 extracts a statement having the highest score from the dialogue structure data 14 as an important sentence until a predetermined summary condition is satisfied, assigns predetermined scores to a first block from which the important sentence is extracted and a second block in the vicinity of the first block, and assigns and adds the predetermined scores to scores of statements included in the first and second blocks according to a predetermined condition.

Description

本発明は、文書の要約を生成する技術に関し、特に、対話の内容から重要な文を抽出して要約を生成する対話要約システムおよび対話要約プログラムに適用して有効な技術に関するものである。   The present invention relates to a technology for generating a summary of a document, and more particularly to a technology effective when applied to a dialog summary system and a dialog summary program for generating a summary by extracting an important sentence from the contents of a dialog.

例えば、コールセンター業務において、オペレータやコミュニケータは、電話応対後に内容を要約した応対記録を作成して応対管理システム等へ保存するという一連の業務を行う必要がある。このとき、オペレータ等は、自身の記憶を頼りにして応対記録を作成するため作成に時間がかかり、作業負荷が増大するという問題がある。また、各オペレータ等のスキルに応じて品質(内容、統一性、網羅性、簡潔性等)にバラツキが生じる。このように応対記録の品質にバラツキがあったり品質が低かったりすることにより、顧客の声を正確に把握することができなかったり、応対記録の蓄積からテキストマイニング等の技術を利用して新たな知見を得る(例えば、潜在的な問題やニーズを発掘したりFAQの候補を選定したり等)というようなことができなかったりなどの問題も生じる。   For example, in a call center operation, an operator or communicator needs to perform a series of operations such as creating a response record summarizing the contents after a telephone response and storing it in a response management system or the like. At this time, the operator or the like relies on his / her memory to create a response record, which takes time to create and increases the work load. Further, quality (content, uniformity, completeness, conciseness, etc.) varies according to the skill of each operator. In this way, the quality of the response records varies or the quality is low, so it is not possible to accurately grasp the customer's voice, or from the accumulation of response records, new technologies such as text mining are used. Problems such as inability to obtain knowledge (for example, finding potential problems and needs, selecting FAQ candidates, etc.) also occur.

このような問題を解決するため、例えば、応対での対話内容を音声データとして録音・記録し、当該データを音声認識の技術を利用してテキスト化して、さらに自然言語処理の技術を適用して内容を要約することで応対記録を自動生成するということも検討されている。これにより、応対記録作成にかかるコストを削減しつつ、統一性、簡潔性を確保することで応対記録の活用性を向上させることが可能である。   In order to solve such problems, for example, the contents of the dialogue at the reception are recorded and recorded as voice data, the data is converted into text by using voice recognition technology, and further, natural language processing technology is applied. It is also considered to automatically generate a response record by summarizing the contents. As a result, it is possible to improve the usability of the service record by ensuring the uniformity and simplicity while reducing the cost for creating the service record.

このような技術として、例えば、非特許文献1には、コールセンターにおける音声対話において、音声データをテキスト化し、過去の対話内容とその営業日報から帰納的学習により再帰的に規則獲得を行い、それらの規則を用いて未知の対話内容に対して重要箇所を決定・抽出し、文体変換を行うことで営業日報を自動生成する技術が記載されている。   As such a technique, for example, in Non-Patent Document 1, in voice conversation at a call center, voice data is converted into text, and rules are recursively obtained by inductive learning from past conversation contents and business daily reports. It describes a technology that automatically generates daily business reports by determining and extracting important points for unknown dialogue contents using rules and performing style conversion.

また、テキスト化された文書データから要約を生成する技術についても種々のものが提案されている。例えば、特開2002−259371号公報(特許文献1)には、入力された文書を単語集合抽出装置で形態素解析し、要約種別に応じて要約の手がかりとして必要な単語集合を文書から抽出するとともに、文書分割装置において文書を複数の意味的なまとまりに分割し、各意味的なまとまりについて単語集合に含まれる単語の出現密度の高い重要部分を重要箇所算出装置で算出し、この重要部分から要約率に応じて文を要約文抽出装置で抽出することで、単語の出現密度を考慮した重要性に基づき精度の高い要約を要約種別に応じて生成する技術が記載されている。   Various techniques for generating a summary from textual document data have also been proposed. For example, in Japanese Patent Laid-Open No. 2002-259371 (Patent Document 1), an input document is subjected to morphological analysis by a word set extraction device, and a word set necessary as a clue for summarization is extracted from the document according to the summary type. The document dividing apparatus divides the document into a plurality of semantic groups, and calculates an important part having a high appearance density of words included in the word set for each semantic group by the important part calculation apparatus, and summarizes from the important parts. A technique is described in which a summary is extracted by a summary sentence extraction device according to a rate, and a high-precision summary is generated according to the summary type based on the importance in consideration of the appearance density of words.

また、例えば、特開2006−59082号公報(特許文献2)には、要約対象の複数の文書に含まれる文毎に、汎用としての文の重要度である汎用文重要度を計算し、同様に文毎に、質問応答としての文の重要度である質問応答文重要度を計算し、汎用文重要度と質問応答文重要度を統合して、統合した文重要度である統合文重要度を算出し、統合文重要度に基づいて、要約対象の複数の文書に含まれる文から重要文を抽出し、抽出した重要文を整列させて要約文を生成することで、質問に対する解のみならず、一般的に重要な情報をバランスよく含む要約文を生成する技術が記載されている。   Further, for example, in Japanese Patent Application Laid-Open No. 2006-59082 (Patent Document 2), for each sentence included in a plurality of documents to be summarized, a general-purpose sentence importance that is a general-purpose sentence importance is calculated. For each sentence, the importance of the question answer sentence, which is the importance of the sentence as a question answer, is calculated, and the general sentence importance and the question answer sentence importance are integrated, and the integrated sentence importance is the integrated sentence importance Based on the integrated sentence importance, extract important sentences from sentences included in multiple documents to be summarized, and generate summary sentences by aligning the extracted important sentences. In general, a technique for generating a summary sentence that contains important information in a balanced manner is described.

特開2002−259371号公報JP 2002-259371 A 特開2006−59082号公報JP 2006-59082 A

矢野純司、荒木健治、“コールセンターにおける音声対話を対象とした帰納的学習を用いた営業日報生成手法の性能評価”、情報処理学会研究報告 2007−NL−178、2007年3月28日、p.21−28Junji Yano, Kenji Araki, “Performance evaluation of daily report generation method using inductive learning for voice conversation in call center”, Information Processing Society of Japan Research Report 2007-NL-178, March 28, 2007, p. 21-28

テキスト化された文書から要約を自動で生成する場合、上述した従来技術などと同様に、通常は、文書中の文や単語毎に種々の手法により重要度を算出し、当該重要度の高いものから順に所定の要約条件(例えば、所定の要約率に達するまで抽出したり、重要度が所定の値以上のものを全て抽出したり等)に従って文を抽出し、これを並べて要約文を生成するという手法がとられる。これにより、重要度が高い文を幅広くバランスよく抽出することが可能である。   When summaries are automatically generated from text-formatted documents, as with the prior art described above, the importance is usually calculated by various methods for each sentence or word in the document, and the high importance Sentences are extracted in order according to a predetermined summarization condition (for example, extraction is performed until a predetermined summarization rate is reached or all importance levels are equal to or higher than a predetermined value), and a summary sentence is generated by arranging the sentences. The method is taken. As a result, it is possible to extract sentences with high importance in a wide and balanced manner.

しかしながら、例えば、コールセンターにおけるオペレータと顧客との対話など、対話の中に複数の話題やトピックが含まれて変遷していくような場合では特に、上述したような重要度に基づく単純な文の抽出による要約文の生成手法では、対話の文脈・コンテキストを考慮することができず、重要度が高い文をまんべんなく抽出する分、生成された要約文は、話のつながりや脈絡がなく意味を捉えにくいものとなる場合がある。   However, simple sentence extraction based on importance as described above, especially when the conversation involves multiple topics or topics, such as conversations between operators and customers in a call center. In the summary sentence generation method by, the context and context of the dialogue cannot be taken into account, and the sentences that are highly important are extracted evenly. It may be a thing.

そこで本発明の目的は、対話内容のテキストデータから話のつながりを把握しやすい要約文を生成することを可能とする対話要約システムおよび対話要約プログラムを提供することにある。本発明の前記ならびにその他の目的と新規な特徴は、本明細書の記述および添付図面から明らかになるであろう。   SUMMARY OF THE INVENTION An object of the present invention is to provide a dialog summarization system and a dialog summarization program that can generate a summary sentence that can easily understand the connection of a story from text data of a dialog content. The above and other objects and novel features of the present invention will be apparent from the description of this specification and the accompanying drawings.

本願において開示される発明のうち、代表的なものの概要を簡単に説明すれば、以下のとおりである。   Of the inventions disclosed in this application, the outline of typical ones will be briefly described as follows.

本発明の代表的な実施の形態による対話要約システムは、対話内容から1つ以上の重要文を抽出して、前記重要文からなる要約データを生成する対話要約システムであって、対話内容における各ステートメントの情報、および各ステートメントについての重要度を示すスコアの情報と、話者毎の連続したステートメントを単位とするブロックの情報とを有する対話構造データに基づいて、所定の要約条件を満たすまで、前記スコアが最も高いステートメントを前記重要文として前記対話構造データから抽出し、前記重要文を抽出した第1のブロックおよびその近辺の第2のブロックに対して所定のスコアを割り当て、さらに前記第1および第2のブロックに含まれる各ステートメントの前記スコアに対して前記所定のスコアを所定の条件に従って割り当てて加算する重要文抽出部を有することを特徴とするものである。   A dialog summarizing system according to a typical embodiment of the present invention is a dialog summarizing system that extracts one or more important sentences from dialog contents and generates summary data composed of the important sentences. Based on dialogue structure data having statement information, score information indicating importance for each statement, and block information in units of consecutive statements for each speaker, until a predetermined summary condition is satisfied, The statement having the highest score is extracted from the dialogue structure data as the important sentence, and a predetermined score is assigned to the first block from which the important sentence is extracted and the second block in the vicinity thereof, and the first And the predetermined score with respect to the score of each statement included in the second block according to a predetermined condition. Have a sentence extraction unit for adding allocated Te is characterized in.

また、本発明は、コンピュータを上記のような対話要約システムとして動作させる対話要約プログラムにも適用することができる。   The present invention can also be applied to a dialog summary program that causes a computer to operate as the dialog summary system as described above.

本願において開示される発明のうち、代表的なものによって得られる効果を簡単に説明すれば以下のとおりである。すなわち、本発明の代表的な実施の形態によれば、対話内容のテキストデータから話のつながりを把握しやすい要約文を生成することが可能となる。   Among the inventions disclosed in the present application, effects obtained by typical ones will be briefly described as follows. That is, according to a typical embodiment of the present invention, it is possible to generate a summary sentence that makes it easy to grasp the connection of a story from text data of conversation contents.

本発明の一実施の形態である対話要約システムの構成例について概要を示した図である。It is the figure which showed the outline | summary about the structural example of the dialog summary system which is one embodiment of this invention. 本発明の一実施の形態における対話構造の概要について例を示した図である。It is the figure which showed the example about the outline | summary of the dialog structure in one embodiment of this invention. 本発明の一実施の形態における要約データを生成する処理の流れの例について概要を示したフローチャートである。It is the flowchart which showed the outline | summary about the example of the flow of a process which produces | generates the summary data in one embodiment of this invention. 本発明の一実施の形態におけるオペレータと顧客との対話についての対話構造データの例を示した図である。It is the figure which showed the example of the dialog structure data about the dialog of the operator and customer in one embodiment of this invention. 本発明の一実施の形態における最も重要度のスコアが高いステートメントからスコア伝搬を行いつつ重要文を抽出する手順の例について示した図である。It is the figure shown about the example of the procedure which extracts an important sentence, performing score propagation from the statement with the highest importance score in one embodiment of this invention. 本発明の一実施の形態における最も重要度のスコアが高いステートメントからスコア伝搬を行いつつ重要文を抽出する手順の例について示した図である。It is the figure shown about the example of the procedure which extracts an important sentence, performing score propagation from the statement with the highest importance score in one embodiment of this invention. 本発明の一実施の形態における最も重要度のスコアが高いステートメントからスコア伝搬を行いつつ重要文を抽出する手順の例について示した図である。It is the figure shown about the example of the procedure which extracts an important sentence, performing score propagation from the statement with the highest importance score in one embodiment of this invention. 本発明の一実施の形態における最も重要度のスコアが高いステートメントからスコア伝搬を行いつつ重要文を抽出する手順の例について示した図である。It is the figure shown about the example of the procedure which extracts an important sentence, performing score propagation from the statement with the highest importance score in one embodiment of this invention.

以下、本発明の実施の形態を図面に基づいて詳細に説明する。なお、実施の形態を説明するための全図において、同一部には原則として同一の符号を付し、その繰り返しの説明は省略する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. Note that components having the same function are denoted by the same reference symbols throughout the drawings for describing the embodiment, and the repetitive description thereof will be omitted.

本発明の一実施の形態である対話要約システムは、対話内容をテキスト化した対話データについて、文毎に重要度からなるスコアを算出し、当該スコアに基づいて要約条件に達するまで重要文を抽出して要約文を生成するものである。このとき、単純にスコアが高いものから順に重要文を抽出するだけではなく、対話の構造に応じて重要文のスコアを他の文に伝搬させて調整し、その結果に基づいてスコアが高い重要文を抽出することで、話のつながりや脈絡を把握しやすい要約文を生成することを可能とするものである。   The dialogue summarization system according to an embodiment of the present invention calculates a score consisting of importance for each sentence, and extracts important sentences until the summarizing condition is reached based on the conversation data. Thus, a summary sentence is generated. At this time, it is important not only to extract important sentences in order from the highest score, but also to adjust the score of the important sentence by propagating it to other sentences according to the structure of the dialogue, By extracting the sentence, it is possible to generate a summary sentence that makes it easy to grasp the connection and context of the story.

なお、「対話」については、2者間のものに限らず、3者以上の間のものやスピーチ等1人の話者によるものも含むものとするが、本実施の形態で例として取り上げるコールセンター業務における顧客とオペレータとの間の対話のように、対話の特性がある程度定型的に把握可能なものである方が望ましい。例えば、顧客(質問者、相談者)とオペレータ(回答者)との間の対話では、要約に含める候補となり得る重要なトピックについては主に質問や相談の具体的な内容という形で顧客が切り出し、これに対してオペレータが回答する(すなわち、トピックの開始や切り替わりは主に顧客が主導する)という構造となり、オペレータが主導するトピックは主に定型的な確認や通知等(例えば、本人確認など)であることが多いという特性を有する。   In addition, “dialogue” is not limited to two-party, but includes one or more speakers such as those between three or more parties, but in the call center business taken as an example in this embodiment It is desirable that the characteristics of the dialogue can be grasped to some extent in a fixed manner, such as a dialogue between the customer and the operator. For example, in a dialogue between a customer (questioner, consultant) and an operator (respondent), the customer cuts out important topics that can be candidates for inclusion in the form of specific questions and consultations. In response to this, the operator answers (that is, the start and switching of topics are mainly led by the customer), and the topics led by the operator are mainly fixed confirmations and notifications (eg identity verification) ) In many cases.

<システム構成>
図1は、本発明の一実施の形態である対話要約システムの構成例について概要を示した図である。対話要約システム1は、例えば、PC(Personal Computer)やサーバ機器などの情報処理装置からなり、対話内容をテキスト化したデータである対話データ21を入力として、重要文を抽出し、当該重要文からなる要約データ15を生成・出力するシステムである。ここで、対話データ21は、例えば、顧客とオペレータとの対話内容を録音した音声データから、公知の音声認識技術を利用した音声認識エンジン2などにより生成されたものである。
<System configuration>
FIG. 1 is a diagram showing an outline of a configuration example of a dialog summary system according to an embodiment of the present invention. The dialogue summarization system 1 is composed of, for example, an information processing device such as a PC (Personal Computer) or a server device. The dialogue summarization system 1 extracts dialogue from the dialogue data 21, which is data obtained by converting the dialogue contents into text, and extracts the important sentences from the dialogue. This is a system for generating and outputting summary data 15. Here, the dialogue data 21 is generated by, for example, a voice recognition engine 2 using a known voice recognition technology from voice data obtained by recording a dialogue content between a customer and an operator.

対話要約システム1は、例えば、図示しないOS(Operating System)等のミドルウェア上で動作するソフトウェアプログラムとして実装される対話構造解析部11、スコアリング部12、および重要文抽出部13などの各部を有する。   The dialogue summarization system 1 includes various units such as a dialogue structure analysis unit 11, a scoring unit 12, and an important sentence extraction unit 13 that are implemented as software programs that operate on middleware such as an OS (Operating System) (not shown). .

対話構造解析部11は、入力された対話データ21に対して、公知の言語処理技術を利用して対話構造の解析を行い、解析結果をXML(eXtensible Markup Language)などを利用して表されたデータ構造による対話構造データ14としてデータベースやファイル等に保持する。図2は、対話構造の概要について例を示した図である。対話構造解析部11での解析は、図2の例に示すように、少なくとも、対話データ21を各発話文(ステートメント)に分解して話者を判別し、話者(図2の例ではオペレータと顧客)毎の連続したステートメントを単位とするブロックにまとめる。各ステートメントに対して話者毎に識別番号(図2の例ではO1、O2、…、およびC1、C2、…)を採番してもよい。   The dialog structure analysis unit 11 analyzes the dialog structure of the input dialog data 21 using a known language processing technique, and the analysis result is expressed using XML (eXtensible Markup Language) or the like. It is stored in a database, a file or the like as dialogue structure data 14 by a data structure. FIG. 2 is a diagram showing an example of the outline of the dialog structure. As shown in the example of FIG. 2, the dialog structure analysis unit 11 analyzes at least the dialog data 21 into each utterance sentence (statement) to determine the speaker, and the speaker (in the example of FIG. 2, the operator And customers)). An identification number (O1, O2,..., And C1, C2,... In the example of FIG. 2) may be assigned to each statement for each speaker.

さらに、後述するスコアリングの際に用いるために、必要に応じて、各ステートメントに対していわゆる形態素解析を行って形態素(言語における意味を持つ最小の単位。以下では単に「単語」と記載する場合がある)の列に分割し、品詞を判別する等の解析処理を行ってもよい。判別結果の情報についても対話構造データ14に保持する。なお、形態素解析については、公知の形態素解析エンジン(例えば、MeCab(和布蕪)やChaSen(茶筌)など)を利用することができる。これ以外にも、対話構造の解析として、例えば、固有名詞の判別や、各ステートメントの意味等(挨拶文や相槌、質問、回答などの種別のいずれに該当するか等)を判別するような処理を行ってもよい。   Furthermore, for use in scoring described later, so-called morpheme analysis is performed on each statement as necessary, and morphemes (the smallest unit having meaning in the language. In the following, “word” is simply described. May be divided into two columns, and analysis processing such as discrimination of parts of speech may be performed. Information on the determination result is also held in the dialog structure data 14. For the morpheme analysis, a known morpheme analysis engine (for example, MeCab (Japanese cloth candy), ChaSen (tea bowl), etc.) can be used. In addition to this, as an analysis of the dialog structure, for example, processing of determining proper nouns, meaning of each statement, etc. (whether it falls under the category of greetings, companions, questions, answers, etc.) May be performed.

スコアリング部12は、対話構造データ14に保持された各ステートメントについて、所定の手法により重要度を示すスコアを算出する。スコアリングの手法は特に限定されず、種々のものを用いることができる。本実施の形態では、例えば、一般的に文章中の単語の重要度を示すものとして用いられている指標である、TF−IDF(Term Frequency - Inverse Document Frequency)値を用いる。   The scoring unit 12 calculates a score indicating importance for each statement held in the dialogue structure data 14 by a predetermined method. The scoring method is not particularly limited, and various methods can be used. In the present embodiment, for example, a TF-IDF (Term Frequency-Inverse Document Frequency) value, which is an index generally used to indicate the importance of a word in a sentence, is used.

TF−IDF値は、ある文章(ステートメント)内の単語について、当該ステートメントにおける当該単語の出現頻度であるTF値(当該ステートメントでどれだけ多く使われているかの程度を示す)と、全てのステートメント(対話全体)の中で当該単語が出現するステートメントの数の逆数であるIDF値(一つのステートメントにおいて集中して使われている(複数のステートメントで幅広く使われているものではない)程度を示す)との積である。TF−IDF値が大きい単語は、当該ステートメントの特徴をよく表し、重要度が高い単語であることを示す。従って、例えば、当該ステートメント内の各単語についてそれぞれ算出したTF−IDF値を合計することで、当該ステートメントについての重要度をスコアリングすることができる。   The TF-IDF value includes, for a word in a sentence (statement), a TF value that indicates the frequency of appearance of the word in the statement (which indicates how much is used in the statement) and all statements ( IDF value that is the reciprocal of the number of statements in which the word appears in the entire dialogue (indicates the degree of concentration being used in one statement (not widely used in multiple statements)) Is the product of A word having a large TF-IDF value well represents the feature of the statement and indicates that the word has a high importance. Therefore, for example, the importance for the statement can be scored by summing the TF-IDF values calculated for each word in the statement.

なお、TF値やIDF値は、それぞれ、ステートメント内の単語の種類の総数や対話内のステートメントの総数によって正規化してもよい。その際、対数によって正規化してもよい。また、ステートメント内の各単語について、例えば、対話構造解析部11での形態素解析により判別された品詞等の情報や、対話構造の内容(例えば、各ステートメントの意味等)の情報に基づいて、当該単語のTF−IDF値に対して重み付けを行ってもよい。スコアリングの結果は、各ステートメントに関連付けて対話構造データ14に保持する。   The TF value and IDF value may be normalized by the total number of word types in the statement and the total number of statements in the dialog, respectively. In that case, you may normalize by a logarithm. For each word in the statement, for example, based on information such as part of speech determined by morphological analysis in the dialog structure analysis unit 11 or information on the contents of the dialog structure (for example, the meaning of each statement) You may weight with respect to the TF-IDF value of a word. The scoring result is stored in the dialog structure data 14 in association with each statement.

重要文抽出部13は、対話構造データ14に保持された各ステートメントから、スコアリング部12で算出した重要度を示すスコアに基づいて、所定の要約条件に従って重要文を抽出し、要約データ15を生成する。ここでの要約条件は、例えば、元の対話データ21と要約データ15との文字数もしくはステートメント数の比である要約率としたり、抽出した重要文の数としたりすることができる。スコアが所定の値以上のものを抽出するなどとしてもよい。   The important sentence extraction unit 13 extracts an important sentence from each statement held in the dialogue structure data 14 based on a score indicating the importance calculated by the scoring unit 12 according to a predetermined summarization condition. Generate. The summarization condition here can be, for example, the summarization rate that is the ratio of the number of characters or statements between the original dialogue data 21 and the summarization data 15, or the number of extracted important sentences. It is good also as extracting a score more than predetermined value.

重要文の抽出に際しては、後述するように、抽出した重要文のスコアを対話の構造に応じて他のステートメントに伝搬させて調整し、その結果に基づいてさらに重要文を抽出するようにすることで、抽出した重要文からなる要約データ15が話のつながりや脈絡を把握しやすいものとなるようにする。   When extracting important sentences, as described later, the score of the extracted important sentence is propagated to other statements according to the structure of the dialogue and adjusted, and more important sentences are extracted based on the results. The summary data 15 consisting of the extracted important sentences is made easy to understand the connection and context of the story.

なお、本実施の形態では、対話データ21を入力として、対話構造の解析およびスコアリングを行って対話構造データ14を生成し、これに基づいて重要文を抽出して要約データ15を生成する構成としているが、システム構成としてはこれに限るものではない。例えば、音声認識エンジン2を対話要約システム1に含む構成であってもよいし、逆に、他のシステム等により対話構造データ14に相当するデータを取得することが可能である場合は、これを入力として、重要文抽出部13により重要文を抽出して要約データ15を生成する機能のみを有する構成とすることもできる。   In the present embodiment, the dialog data 21 is input, the dialog structure is analyzed and scored to generate the dialog structure data 14, and an important sentence is extracted based on this to generate the summary data 15. However, the system configuration is not limited to this. For example, the configuration may be such that the speech recognition engine 2 is included in the dialog summary system 1. Conversely, when the data corresponding to the dialog structure data 14 can be obtained by another system or the like, this is used. As an input, it is possible to adopt a configuration having only a function of extracting the important sentence by the important sentence extracting unit 13 and generating the summary data 15.

<処理の流れ>
図3は、対話要約システム1における要約データ15を生成する処理の流れの例について概要を示したフローチャートである。対話要約システム1は、処理を開始すると、まず、テキスト化された対話データ21を入力し、対話構造解析部11により、対話構造の解析を行う(S01)。ここでは、上述したように、対話データ21内の各ステートメントをブロックにまとめ、また、各ステートメントについて形態素解析を行って単語に分割し、必要に応じて他の解析処理を行う。次に、スコアリング部12により、各ステートメントについて重要度を示すスコアを算出する(S02)。ここでは、上述したように、例えば、ステートメント内の各単語について算出したTF−IDF値の合計により各ステートメントについてのスコアを算出する。
<Process flow>
FIG. 3 is a flowchart showing an outline of an example of the flow of processing for generating summary data 15 in the dialog summary system 1. When the dialog summary system 1 starts the process, first, the dialog data 21 converted into text is input, and the dialog structure analysis unit 11 analyzes the dialog structure (S01). Here, as described above, the statements in the dialogue data 21 are grouped into blocks, and each statement is subjected to morphological analysis and divided into words, and other analysis processing is performed as necessary. Next, the scoring unit 12 calculates a score indicating importance for each statement (S02). Here, as described above, for example, the score for each statement is calculated by the sum of the TF-IDF values calculated for each word in the statement.

次に、重要文抽出部13により、重要度を示すスコアが最大値であるステートメントを重要文として抽出する(S03)。次に、所定の要約条件を満たしたか否かを判定する(S04)。要約条件は、上述したように、例えば、要約率や、抽出した重要文の数としたり、スコアが所定の値以上のものを抽出する等の条件としたりすることができる。要約条件を満たしていない場合は、重要文として抽出したステートメントから、対話の構造に応じて他のステートメントにスコアを伝搬させる(S05)。これにより、重要文として抽出したステートメントの近辺のステートメントのスコアをかさ上げし、重要文として抽出されやすくする。   Next, the important sentence extraction unit 13 extracts a statement having a maximum score indicating importance as an important sentence (S03). Next, it is determined whether or not a predetermined summarization condition is satisfied (S04). As described above, the summarization condition may be, for example, a summarization rate, the number of extracted important sentences, or a condition in which a score having a predetermined value or more is extracted. If the summary condition is not satisfied, the score is propagated from the statement extracted as the important sentence to other statements according to the structure of the dialogue (S05). As a result, the score of the statement near the statement extracted as the important sentence is raised, and the sentence is easily extracted as the important sentence.

具体的には、重要文として抽出したステートメントのスコアをSとすると、例えば、ステップS03において重要文がオペレータの発話のブロックから抽出された場合は、当該ブロックにS/2、当該ブロックの直前および直後の顧客の発話のブロックにそれぞれS/4のスコアを割り当てる。重要文が顧客の発話のブロックから抽出された場合は、当該ブロックにS/2、当該ブロックの直後のオペレータの発話のブロックにS/2のスコアを割り当てる。各ブロックに割り当てられたスコアは、ブロック内の各ステートメント(重要文として抽出済みのステートメントを除く)に対して、それぞれのスコアに応じて按分して割り当てて加算する。   Specifically, when the score of a statement extracted as an important sentence is S, for example, when an important sentence is extracted from an operator's utterance block in step S03, S / 2 is added to the block, immediately before the block, and A score of S / 4 is assigned to each block of the customer's utterance immediately after. When the important sentence is extracted from the block of the utterance of the customer, the score of S / 2 is assigned to the block, and the score of S / 2 is assigned to the block of the utterance of the operator immediately after the block. The score assigned to each block is allocated and added to each statement in the block (excluding statements already extracted as important sentences) according to the respective scores.

このように、重要文として抽出したステートメントがオペレータの発話のブロックのものか顧客の発話のブロックのものかで、スコアを伝搬させるステートメント(ブロック)を異なるものとすることで、例えば、重要なトピックについては主に質問や相談の具体的な内容という形で顧客が切り出し、これに対してオペレータが回答する(トピックの開始や切り替わりは顧客が主導する)というような、コールセンター業務における顧客とオペレータとの間の対話構造の特性を考慮した形で重要度を調整することが可能となる。   In this way, a statement (block) that propagates the score differs depending on whether the statement extracted as an important sentence is an operator utterance block or a customer utterance block, for example, an important topic The customer and operator in the call center business, such as the customer cutting out mainly in the form of specific contents of questions and consultations, and the operator answering this (starting and switching of topics is led by the customer) The importance can be adjusted in consideration of the characteristics of the dialogue structure between the two.

重要文として抽出したステートメントの近辺のステートメントにスコアを伝搬させた状態で、ステップS03に戻って、さらにスコアが最大値であるステートメントを次の重要文として抽出する処理を繰り返す。ステップS04で所定の要約条件を満たすと、それまでに抽出した重要文を時系列に並べて要約データ15として出力し(S06)、処理を終了する。   In a state where the score is propagated to the statements in the vicinity of the statement extracted as the important sentence, the process returns to step S03, and the process of extracting the statement having the maximum score as the next important sentence is repeated. If the predetermined summary condition is satisfied in step S04, the important sentences extracted so far are arranged in time series and output as summary data 15 (S06), and the process is terminated.

このとき、ユーザは、出力された要約データ15をそのまま要約として用いてもよいし、要約データ15をベースとして編集を行って最終的な要約を作成してもよい。その際、対話要約システム1は、例えば、重要文として抽出されなかったがスコアが高いステートメント(例えば、スコアが所定の値よりも高いものや、所定の順位より上位のもの)を参考情報として合わせて出力・提示するようにしてもよい。   At this time, the user may use the output summary data 15 as a summary as it is, or may edit the summary data 15 as a base and create a final summary. At that time, for example, the dialogue summarization system 1 matches, as reference information, a statement that is not extracted as an important sentence but has a high score (for example, a sentence having a score higher than a predetermined value or higher than a predetermined order). May be output and presented.

<重要度のスコアによる重要文抽出>
以下では、対話データ21から重要度のスコアを伝搬させることによって重要文を抽出する手法における具体的な処理の例について、コールセンター業務におけるオペレータと顧客との対話を例として説明する。図4は、オペレータと顧客との対話についての対話構造データ14の例を示した図である。ここでは、対話データ21について対話構造解析部11による対話構造の解析およびスコアリング部12による重要度のスコアリングを行った結果を、話者毎にステートメント単位で時系列に並べた状態を示している。
<Important sentence extraction by importance score>
In the following, an example of a specific process in a method for extracting an important sentence by propagating an importance score from the conversation data 21 will be described with an example of a conversation between an operator and a customer in a call center operation. FIG. 4 is a diagram showing an example of the dialog structure data 14 regarding the dialog between the operator and the customer. Here, the dialogue data 21 is analyzed by the dialogue structure analysis unit 11 and the importance scoring by the scoring unit 12 is arranged in a time series in units of statements for each speaker. Yes.

各話者の左側の列(カラム)は、それぞれステートメントを識別する識別番号(オペレータの場合はO1、O2、…、顧客の場合はC1、C2、…)を示しており、右側の列(カラム)はそれぞれ対象のステートメントの重要度のスコアを示している。ステートメントの文言自体については記載を省略しているが、1つ以上のブロックに渡る実際のトピックの内容(図4の例では保険契約に関する質問と回答が中心)とその流れについては図の左側に表示している。   The left column (column) of each speaker indicates an identification number (O1, O2,... For an operator, C1, C2,... For a customer), and the right column (column). ) Indicates the importance score of the target statement. Although the statement of the statement itself is omitted, the content of the actual topic across one or more blocks (in the example of FIG. 4 is mainly questions and answers about insurance contracts) and the flow is on the left side of the figure it's shown.

ここで、要約条件として例えば重要文を5つ抽出するものとした場合、従来技術と同様に、上述したスコア伝搬を行わない場合は、例えば図4に示したように、全ステートメントのうち重要度のスコアが上位の5つである、C8、C4、C9、O14、C14の5つのステートメントが重要文として抽出されることになる(要約データ15として出力する際は、時系列にC4、C8、C9、O14、C14の順に並べる)。このとき、対話のトピックは、“契約内容問い合わせ”、“配当金照会”、“契約内容変更相談”の3つに渡ることになる。   Here, for example, when five important sentences are extracted as summary conditions, as in the case of the prior art, when the above-described score propagation is not performed, for example, as shown in FIG. The five statements of C8, C4, C9, O14, and C14, which have the top five scores, are extracted as important sentences (when output as summary data 15, C4, C8, C9, O14, and C14 are arranged in this order). At this time, there are three conversation topics: “contract content inquiry”, “dividend inquiry”, and “contract content change consultation”.

本実施の形態では、図4と同様の対話構造データ14に対して、スコア伝搬を行いつつ重要文を抽出する。図5〜図8は、最も重要度のスコアが高いステートメントからスコア伝搬を行いつつ重要文を抽出する手順の例について示した図である。図5の左側の図では、図4に示した初期状態における全ステートメントの中で重要度のスコアが最も高いステートメント(C8)を1つ目の重要文として選択、抽出した状態を示している。また、図5の右側の図では、左側の図で抽出したステートメント(C8)のスコアを近辺のステートメントに伝搬させた状態を示している。   In the present embodiment, an important sentence is extracted while score propagation is performed on the dialog structure data 14 similar to FIG. 5 to 8 are diagrams illustrating an example of a procedure for extracting an important sentence while performing score propagation from a statement having the highest importance score. 5 shows a state where the statement (C8) having the highest importance score among all the statements in the initial state shown in FIG. 4 is selected and extracted as the first important sentence. 5 shows a state in which the score of the statement (C8) extracted in the left diagram is propagated to a nearby statement.

ここでは、重要文として抽出したステートメント(C8)が顧客の発話のブロックから抽出されている。従って、上述したように、当該ステートメント(C8)のスコアS=50について、当該ブロックにS/2=25、当該ブロックの直後のオペレータの発話のブロックにS/2=25のスコアを割り当てる。   Here, the statement (C8) extracted as the important sentence is extracted from the block of the customer's utterance. Therefore, as described above, for the score S = 50 of the statement (C8), a score of S / 2 = 25 is assigned to the block, and a score of S / 2 = 25 is assigned to the block of the operator's speech immediately after the block.

各ブロックに割り当てられたスコアは、ブロック内の各ステートメント(重要文として抽出済みのステートメントを除く)に対して、それぞれのスコアに応じて按分して割り当てて加算する。従って、重要文として抽出したステートメント(C8)が抽出されたブロックでは、例えば、C7のステートメントのスコアは、元々の5に対して、25*5/(5+30)=4(少数位四捨五入)が加算されて9となる。同様に、C9のステートメントのスコアは、元々の30に対して、25*30(5+30)=21が加算されて51となる。なお、既に抽出されたC8のステートメントには割り当てられないものとする。   The score assigned to each block is allocated and added to each statement in the block (excluding statements already extracted as important sentences) according to the respective scores. Therefore, in the block where the statement (C8) extracted as the important sentence is extracted, for example, the score of the statement of C7 is 25 * 5 / (5 + 30) = 4 (rounded off to the nearest decimal place) to the original 5. It becomes nine. Similarly, the score of the statement of C9 is 51 by adding 25 * 30 (5 + 30) = 21 to the original 30. It is assumed that it is not assigned to the already extracted C8 statement.

また、C8のステートメントが抽出されたブロックの直後のオペレータの発話のブロックでも同様に、O10のステートメントのスコアは、元々の5に対して、25*5/(5+20+10+5)=3(少数位四捨五入)が加算されて8となる。同様に、O11〜O13の各ステートメントのスコアはそれぞれ32、16、8となる。スコアの伝搬が行われた右側の図の状態では、抽出済みのステートメントを除いて重要度のスコアが最も高いステートメント(C9)を2つ目の重要文として選択、抽出する。   Similarly, in the block of the operator's utterance immediately after the block where the C8 statement is extracted, the score of the O10 statement is 25 * 5 / (5 + 20 + 10 + 5) = 3 (rounded off to the nearest decimal place). Are added to 8. Similarly, the scores of the statements O11 to O13 are 32, 16, and 8, respectively. In the state of the right diagram where the score has been propagated, the statement (C9) having the highest importance score is selected and extracted as the second important sentence, excluding the extracted statements.

図6の左側の図では、C9のステートメントを2つ目の重要文として選択、抽出した状態を示している。また、図6の右側の図では、左側の図で抽出したステートメント(C9)のスコアを近辺のステートメントに伝搬させた状態を示している。ここでも、重要文として抽出したステートメント(C9)が顧客の発話のブロックから抽出されているため、上記と同様に、当該ステートメント(C9)のスコアS=51について、当該ブロックにS/2=26、当該ブロックの直後のオペレータの発話のブロックにS/2=26のスコアを割り当てる。   The left diagram of FIG. 6 shows a state in which the statement C9 is selected and extracted as the second important sentence. 6 shows a state in which the score of the statement (C9) extracted in the left diagram is propagated to a nearby statement. Also here, since the statement (C9) extracted as the important sentence is extracted from the block of the customer's utterance, the score S = 51 of the statement (C9) is set to S / 2 = 26 in the block as described above. A score of S / 2 = 26 is assigned to the block of the operator's speech immediately after the block.

その結果、C7のステートメントのスコアは35となり、O10、O12、O13の各ステートメントのスコアはそれぞれ11、22、11となる。スコアの伝搬が行われた右側の図の状態では、抽出済みのステートメントを除いて重要度のスコアが最も高いステートメント(O11)を3つ目の重要文として選択、抽出する。   As a result, the score of the statement C7 is 35, and the scores of the statements O10, O12, and O13 are 11, 22, and 11, respectively. In the state of the right diagram where the score has been propagated, the statement (O11) having the highest importance score is selected and extracted as the third important sentence, excluding the extracted statements.

図7の左側の図では、O11のステートメントを3つ目の重要文として選択、抽出した状態を示している。また、図7の右側の図では、左側の図で抽出したステートメント(O11)のスコアを近辺のステートメントに伝搬させた状態を示している。ここでは、重要文として抽出したステートメント(O11)がオペレータの発話のブロックから抽出されている。従って、上述したように、当該ステートメント(O11)のスコアS=45について、当該ブロックにS/2=23、当該ブロックの直前および直後の顧客の発話のブロックにそれぞれS/4=11のスコアを割り当てる。   The diagram on the left side of FIG. 7 shows a state where the statement of O11 is selected and extracted as the third important sentence. Further, the right diagram in FIG. 7 shows a state where the score of the statement (O11) extracted in the left diagram is propagated to a nearby statement. Here, the statement (O11) extracted as the important sentence is extracted from the block of the operator's utterance. Therefore, as described above, for the score S = 45 of the statement (O11), S / 2 = 23 for the block, and S / 4 = 11 for the customer utterance block immediately before and after the block, respectively. assign.

その結果、O10、O12、O13の各ステートメントのスコアはそれぞれ17、34、17となる。また、C7のステートメントのスコアは46となり、C10〜C12の各ステートメントのスコアはそれぞれ7、7、28となる。スコアの伝搬が行われた右側の図の状態では、抽出済みのステートメントを除いて重要度のスコアが最も高いステートメント(C7)を4つ目の重要文として選択、抽出する。   As a result, the scores of the statements of O10, O12, and O13 are 17, 34, and 17, respectively. The score of the statement C7 is 46, and the scores of the statements C10 to C12 are 7, 7, and 28, respectively. In the state of the right diagram where the score has been propagated, the statement (C7) having the highest importance score is selected and extracted as the fourth important sentence, excluding the extracted statements.

図8の左側の図では、C7のステートメントを4つ目の重要文として選択、抽出した状態を示している。また、図8の右側の図では、抽出したステートメント(C7)のスコアを近辺のステートメントに伝搬させた状態を示している。ここでは、重要文として抽出したステートメント(C7)が顧客の発話のブロックから抽出されているため、上記と同様に、当該ステートメント(C7)のスコアS=46について、当該ブロックにS/2=23、当該ブロックの直後のオペレータの発話のブロックにS/2=23のスコアを割り当てる。   The diagram on the left side of FIG. 8 shows a state where the C7 statement is selected and extracted as the fourth important sentence. Further, the diagram on the right side of FIG. 8 shows a state in which the score of the extracted statement (C7) is propagated to a nearby statement. Here, since the statement (C7) extracted as the important sentence is extracted from the block of the utterance of the customer, the score S = 46 of the statement (C7) is set to S / 2 = 23 in the block as described above. The score of S / 2 = 23 is assigned to the block of the operator's speech immediately after the block.

その結果、O10、O13の各ステートメントのスコアはともに23となる。なお、C7のステートメントが含まれるブロックでは、全てのステートメントが重要文として既に抽出されているため、スコアの割り当ては行われない。スコアの伝搬が行われた右側の図の状態では、抽出済みのステートメントを除いて重要度のスコアが最も高いステートメント(O12)を5つ目の重要文として選択、抽出する。   As a result, the score of each statement of O10 and O13 is 23. In the block including the C7 statement, since all the statements have already been extracted as important sentences, no score is assigned. In the state of the right diagram where the score has been propagated, the statement (O12) having the highest importance score is selected and extracted as the fifth important sentence, excluding the extracted statements.

以上の処理により、重要文として、C7〜C9、O11、O12の5つのステートメントが抽出される。このとき、対話のトピックは、対話上最も重要と思われる“配当金照会”に絞られており、これらのステートメントからなる要約データ15は、主に“配当金照会”に係る内容を示すものとして話のつながりを把握し易いものとなる。   Through the above processing, five statements C7 to C9, O11, and O12 are extracted as important sentences. At this time, the topic of dialogue has been narrowed down to “dividend inquiry” that seems to be the most important in the dialogue, and summary data 15 consisting of these statements mainly indicates the contents related to “dividend inquiry”. It becomes easy to grasp the connection of the story.

なお、重要度のスコアが最も高いステートメントから近辺のステートメントにスコアを伝搬させる手法としては種々のものが考えられる。本実施の形態では、上述したように、重要文がオペレータの発話のブロックから抽出された場合は、当該ブロックにS/2、当該ブロックの直前および直後の顧客の発話のブロックにそれぞれS/4のスコアを割り当て、重要文が顧客の発話のブロックから抽出された場合は、当該ブロックにS/2、当該ブロックの直後のオペレータの発話のブロックにS/2のスコアを割り当てるようにしているが、これに限るものではない。   There are various methods for propagating a score from a statement having the highest importance score to a nearby statement. In the present embodiment, as described above, when an important sentence is extracted from an operator's utterance block, S / 2 is input to the block, and S / 4 is input to the customer's utterance block immediately before and after the block. When the important sentence is extracted from the block of the utterance of the customer, the score of S / 2 is assigned to the block, and the score of S / 2 is assigned to the block of the utterance of the operator immediately after the block. However, it is not limited to this.

例えば、各ブロックへのスコアの割り当て比率については、上記のものに限らず他の比率であってもよいし、スコアSの値に関わらず予め決められた一定の値を割り当てるようにしてもよい。また重要度のスコアが最も高いステートメントが抽出されたブロックの直前、直後のブロックだけではなく、2つ前、2つ後やさらに前後のブロックに対しても、一定の割合でスコアを割り当てるようにしてもよい。   For example, the allocation ratio of scores to each block is not limited to the above, and may be other ratios, or a predetermined value may be allocated regardless of the value of the score S. . In addition, not only the block immediately before and immediately after the block from which the statement with the highest importance score is extracted, but also a block that is assigned two, two, two, or even before and after, is assigned a certain ratio. May be.

また、各ブロックに割り当てられたスコアをブロック内の各ステートメントに対して割り当てる際にも、本実施の形態のように、各ステートメントの重要度のスコアに応じて按分するものに限らず、均等に割り当てるようにしてもよいし、スコアに関わらず予め決められた値を割り当てるようにしてもよい。また、本実施の形態では、既に重要文として抽出済みのステートメントに対してはスコアを割り当てないようにしているが、これに限らず、既に抽出済みのステートメントも含めてスコアを按分して割り当てることで、ブロック内の他のステートメントに過大にスコアが割り当てられることがないようにしてもよい。   In addition, when assigning the score assigned to each block to each statement in the block, as in the present embodiment, it is not limited to the distribution according to the importance score of each statement, but equally. You may make it assign, and you may make it assign a predetermined value irrespective of a score. In this embodiment, a score is not assigned to a statement that has already been extracted as an important sentence. However, the present invention is not limited to this, and a score including a statement that has already been extracted is allocated and assigned. Thus, an excessive score may not be assigned to other statements in the block.

このように、スコアを伝搬させる手法は、対象とする対話の種類や特性等に応じて経験則などに基づいて適宜決定することができる。また、例えば、スコアが所定の値未満のステートメントについては予め重要文抽出の処理対象から除外して足切りするなど、求められる要約の精度や処理速度等に応じて、スコア伝搬の手法に対して適宜調整を行ってもよい。   As described above, the technique for propagating the score can be appropriately determined based on an empirical rule or the like according to the type and characteristics of the target conversation. In addition, for example, a statement whose score is less than a predetermined value is excluded from the processing target of important sentence extraction in advance and cut off, depending on the required accuracy of the summary, processing speed, etc. Adjustments may be made as appropriate.

また、本実施の形態では、1つ目の重要文から、全ステートメントの中で重要度のスコアが最も高いものを自動的に選択、抽出しているが、これに限らず、例えば、ユーザの指定等により決定された特定のステートメントを1つ目の重要文とし、当該ステートメントを基準として、上記と同様の手順により近辺の他のステートメントにスコアを伝搬させて重要文を順次抽出するようにしてもよい。これにより、当該特定のステートメントに関連する、もしくは当該特定のステートメントを中心とした要約データ15を生成することができる。   Further, in the present embodiment, from the first important sentence, the sentence having the highest importance score is automatically selected and extracted from all the statements. The specific statement determined by the designation etc. is made the first important sentence, and the important sentence is extracted sequentially by propagating the score to other statements in the vicinity using the same procedure as above. Also good. Thereby, the summary data 15 related to the specific statement or centered on the specific statement can be generated.

また、上述したように、対話データ21における対話の内容は、本実施の形態で例としたようなコールセンター業務における顧客とオペレータとの対話に限らない。また、対話データ21については、実際の対話内容の録音データを音声認識エンジン2によってテキストデータ化したものに限らず、直接作成したテキストデータであってもよい。従って、例えば、事後的に作成した議事録等における対話や、小説等における架空の対話であっても対象とすることができる。   Further, as described above, the content of the dialogue in the dialogue data 21 is not limited to the dialogue between the customer and the operator in the call center business as exemplified in the present embodiment. Further, the dialog data 21 is not limited to the text data of the actual dialog content converted into text data by the voice recognition engine 2, and may be text data created directly. Therefore, for example, a dialogue in a minutes created after the fact or a fictional dialogue in a novel or the like can be targeted.

以上、本発明者によってなされた発明を実施の形態に基づき具体的に説明したが、本発明は前記実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。   As mentioned above, the invention made by the present inventor has been specifically described based on the embodiment. However, the present invention is not limited to the embodiment, and various modifications can be made without departing from the scope of the invention. Needless to say.

本発明は、対話の内容から重要な文を抽出して要約を生成する対話要約システムおよび対話要約プログラムに利用可能である。   INDUSTRIAL APPLICABILITY The present invention can be used for a dialog summarization system and a dialog summarization program that extract an important sentence from the contents of a dialog and generate a summary.

1…対話要約システム、2…音声認識エンジン、
11…対話構造解析部、12…スコアリング部、13…重要文抽出部、14…対話構造データ、15…要約データ、21…対話データ。
1 ... Dialogue summary system, 2 ... Speech recognition engine,
DESCRIPTION OF SYMBOLS 11 ... Dialog structure analysis part, 12 ... Scoring part, 13 ... Important sentence extraction part, 14 ... Dialog structure data, 15 ... Summary data, 21 ... Dialog data.

Claims (11)

対話内容から1つ以上の重要文を抽出して、前記重要文からなる要約データを生成する対話要約システムであって、
対話内容における各ステートメントの情報、および各ステートメントについての重要度を示すスコアの情報と、話者毎の連続したステートメントを単位とするブロックの情報とを有する対話構造データに基づいて、
所定の要約条件を満たすまで、前記スコアが最も高いステートメントを前記重要文として前記対話構造データから抽出し、前記重要文を抽出した第1のブロックおよびその近辺の第2のブロックに対して所定のスコアを割り当て、さらに前記第1および第2のブロックに含まれる各ステートメントの前記スコアに対して前記所定のスコアを所定の条件に従って割り当てて加算する重要文抽出部を有することを特徴とする対話要約システム。
A dialog summarization system that extracts one or more important sentences from conversation contents and generates summary data composed of the important sentences,
Based on dialogue structure data having information on each statement in the dialogue content, score information indicating importance for each statement, and block information in units of continuous statements for each speaker,
Until the predetermined summary condition is satisfied, the statement having the highest score is extracted as the important sentence from the dialog structure data, and the first block from which the important sentence is extracted and the second block in the vicinity thereof are extracted. An interactive summary comprising: an important sentence extracting unit that assigns a score, and further assigns and adds the predetermined score according to a predetermined condition to the score of each statement included in the first and second blocks system.
請求項1に記載の対話要約システムにおいて、
前記重要文抽出部は、
前記第1および第2のブロックに対して割り当てる前記所定のスコアを、前記重要文の前記スコアに対する所定の割合の値とすることを特徴とする対話要約システム。
The dialog summary system according to claim 1,
The important sentence extraction unit
The dialog summary system, wherein the predetermined score assigned to the first and second blocks is a value of a predetermined ratio with respect to the score of the important sentence.
請求項1または2に記載の対話要約システムにおいて、
前記重要文抽出部は、
前記第1のブロックの話者の情報に応じて、前記第2のブロックとなるブロックを異ならせることを特徴とする対話要約システム。
In the dialog summary system according to claim 1 or 2,
The important sentence extraction unit
The dialog summarizing system, wherein the second block is made different according to the speaker information of the first block.
請求項3に記載の対話要約システムにおいて、
前記対話内容が、質問者もしくは相談者と回答者との間の対話である場合に、
前記重要文抽出部は、
前記第1のブロックの話者が前記回答者である場合は、前記第1のブロックの直前および直後の、前記質問者もしくは相談者が話者であるブロックをそれぞれ前記第2のブロックとし、
前記第1のブロックの話者が前記質問者もしくは相談者である場合は、前記第1のブロックの直後の、前記回答者が話者であるブロックを前記第2のブロックとすることを特徴とする対話要約システム。
The dialog summary system according to claim 3,
When the dialogue content is a dialogue between a questioner or a consultant and a respondent,
The important sentence extraction unit
When the speaker of the first block is the respondent, the block where the questioner or the consultant is the speaker immediately before and after the first block is the second block, respectively.
When the speaker of the first block is the questioner or the consultant, the block immediately after the first block and the respondent is the speaker is the second block. Interactive summarization system.
請求項4に記載の対話要約システムにおいて、
前記重要文抽出部は、
前記第1のブロックの話者が前記回答者である場合は、前記第1のブロックに前記重要文の前記スコアの1/2を割り当て、前記各第2のブロックにそれぞれ前記重要文の前記スコアの1/4を割り当て、
前記第1のブロックの話者が前記質問者もしくは相談者である場合は、前記第1のブロックに前記重要文の前記スコアの1/2を割り当て、前記第2のブロックに前記重要文の前記スコアの1/2を割り当てることを特徴とする対話要約システム。
The dialog summary system according to claim 4,
The important sentence extraction unit
If the speaker of the first block is the respondent, ½ of the score of the important sentence is assigned to the first block, and the score of the important sentence is assigned to each of the second blocks. 1/4 of
When the speaker of the first block is the questioner or the consultant, 1/2 of the score of the important sentence is assigned to the first block, and the important sentence is assigned to the second block. An interactive summarization system characterized by assigning 1/2 of a score.
請求項1〜5のいずれか1項に記載の対話要約システムにおいて、
前記重要文抽出部は、
前記第1および第2のブロックに含まれる各ステートメントの前記スコアに対して前記所定のスコアを割り当てて加算する際に、各ステートメントの前記スコアの値に応じて前記所定のスコアを按分して割り当てることを特徴とする対話要約システム。
In the dialog summary system according to any one of claims 1 to 5,
The important sentence extraction unit
When assigning and adding the predetermined score to the score of each statement included in the first and second blocks, the predetermined score is apportioned according to the score value of each statement. A dialog summarization system characterized by that.
請求項1〜6のいずれか1項に記載の対話要約システムにおいて、
前記重要文抽出部は、
前記第1および第2のブロックに含まれる各ステートメントの前記スコアに対して前記所定のスコアを割り当てて加算する際に、既に前記重要文として抽出されているステートメントに対しては割り当てないことを特徴とする対話要約システム。
In the dialog summary system according to any one of claims 1 to 6,
The important sentence extraction unit
When assigning and adding the predetermined score to the score of each statement included in the first and second blocks, it is not assigned to a statement that has already been extracted as the important sentence. Dialog summarization system.
請求項1〜7のいずれか1項に記載の対話要約システムにおいて、
前記対話構造データから抽出する最初の前記重要文をユーザからの指定に基づいて選択することを特徴とする対話要約システム。
In the dialog summary system according to any one of claims 1 to 7,
A dialogue summarizing system, wherein the first important sentence extracted from the dialogue structure data is selected based on designation from a user.
請求項1〜8のいずれか1項に記載の対話要約システムにおいて、
さらに、対話内容をテキスト化した対話データを入力として、前記対話データをステートメントに分割して話者を判別し、話者毎の連続したステートメントを単位とするブロックにまとめて前記対話構造データに保持する対話構造解析部と、
前記対話構造データに保持された各ステートメントについて、所定の手法により前記スコアを算出して前記対話構造データに保持するスコアリング部とを有することを特徴とする対話要約システム。
In the dialogue summary system according to any one of claims 1 to 8,
Furthermore, dialogue data in which the dialogue content is converted into text is input, the dialogue data is divided into statements, a speaker is discriminated, and the dialogue structure data is stored in a block in units of continuous statements for each speaker. An interactive structure analysis unit
A dialog summarizing system comprising: a scoring unit that calculates the score for each statement held in the dialog structure data by a predetermined method and stores the score in the dialog structure data.
請求項9に記載の対話要約システムにおいて、
前記対話構造解析部は、前記対話構造データに保持された各ステートメントについて、形態素解析を行って単語に分割し、
前記スコアリング部は、前記対話構造データに保持された各ステートメントについて、単語毎に前記対話構造データにおけるTF−IDF値を算出して、各単語の前記TF−IDF値の合計を各ステートメントの前記スコアとすることを特徴とする対話要約システム。
In the dialog summary system according to claim 9,
The dialog structure analysis unit performs a morphological analysis on each statement held in the dialog structure data and divides it into words,
The scoring unit calculates a TF-IDF value in the dialog structure data for each word for each statement held in the dialog structure data, and calculates a total of the TF-IDF values of each word in the statement. A dialog summarization system characterized by a score.
対話内容から1つ以上の重要文を抽出して、前記重要文からなる要約データを生成する対話要約システムとしてコンピュータを動作させる対話要約プログラムであって、
対話内容における各ステートメントの情報、および各ステートメントについての重要度を示すスコアの情報と、話者毎の連続したステートメントを単位とするブロックの情報とを有する対話構造データに基づいて、
所定の要約条件を満たすまで、前記スコアが最も高いステートメントを前記重要文として前記対話構造データから抽出し、前記重要文を抽出した第1のブロックおよびその近辺の第2のブロックに対して所定のスコアを割り当て、さらに前記第1および第2のブロックに含まれる各ステートメントの前記スコアに対して前記所定のスコアを所定の条件に従って割り当てて加算する重要文抽出処理を実行することを特徴とする対話要約プログラム。
An interactive summary program for operating a computer as an interactive summary system that extracts one or more important sentences from interactive contents and generates summary data composed of the important sentences,
Based on dialogue structure data having information on each statement in the dialogue content, score information indicating importance for each statement, and block information in units of continuous statements for each speaker,
Until the predetermined summary condition is satisfied, the statement having the highest score is extracted as the important sentence from the dialog structure data, and the first block from which the important sentence is extracted and the second block in the vicinity thereof are extracted. An important sentence extraction process is performed, in which a score is assigned, and further, the predetermined score is assigned according to a predetermined condition and added to the score of each statement included in the first and second blocks. Summary program.
JP2011268573A 2011-12-08 2011-12-08 Dialog summarization system and dialog summarization program Active JP5728374B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011268573A JP5728374B2 (en) 2011-12-08 2011-12-08 Dialog summarization system and dialog summarization program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011268573A JP5728374B2 (en) 2011-12-08 2011-12-08 Dialog summarization system and dialog summarization program

Publications (2)

Publication Number Publication Date
JP2013120514A true JP2013120514A (en) 2013-06-17
JP5728374B2 JP5728374B2 (en) 2015-06-03

Family

ID=48773123

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011268573A Active JP5728374B2 (en) 2011-12-08 2011-12-08 Dialog summarization system and dialog summarization program

Country Status (1)

Country Link
JP (1) JP5728374B2 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017174059A (en) * 2016-03-23 2017-09-28 株式会社東芝 Information processor, information processing method, and program
WO2020036190A1 (en) * 2018-08-15 2020-02-20 日本電信電話株式会社 Major point extraction device, major point extraction method, and program
CN111178067A (en) * 2019-12-19 2020-05-19 北京明略软件系统有限公司 Information acquisition model generation method and device and information acquisition method and device
CN111400489A (en) * 2020-04-08 2020-07-10 科大讯飞股份有限公司 Dialog text abstract generation method and device, electronic equipment and storage medium

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11115359B2 (en) 2016-11-03 2021-09-07 Samsung Electronics Co., Ltd. Method and apparatus for importance filtering a plurality of messages

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10301956A (en) * 1997-04-30 1998-11-13 Ricoh Co Ltd Key sentence extraction system, abstract system and document display system
JP2004334382A (en) * 2003-05-02 2004-11-25 Ricoh Co Ltd Structured document summarizing apparatus, program, and recording medium

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10301956A (en) * 1997-04-30 1998-11-13 Ricoh Co Ltd Key sentence extraction system, abstract system and document display system
JP2004334382A (en) * 2003-05-02 2004-11-25 Ricoh Co Ltd Structured document summarizing apparatus, program, and recording medium

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
CSNG200100880002; 竹内 和広,松本 裕治: 'テキスト構造に基づく要約生成制約条件の検討' 情報処理学会研究報告 Vol.2000 No.65 第2000巻第65号【ISSN】0919-6072, 20000719, p.9-p.16, 社団法人情報処理学会 *
CSNG200900341007; 伊藤 一成,酒井 康旭,斎藤 博昭: '音声と映像の一貫性を考慮した要約動画の生成' 第15回データ工学ワークショップ(DEWS2004)論文集 [online] 【ISSN】1347-4413, 20090811, 電子情報通信学会データ工学研究専門委員会 *
CSNG201100237206; 田村 晃裕,石川 開,西光 雅弘: 'コールメモを利用したコールセンタ向け音声対話要約方式の提案' 言語処理学会第17回年次大会発表論文集 チュートリアル 本会議 ワークショップ [CD-ROM] , 20110331, p.924-p.927, 言語処理学会 *
JPN6014031295; 田村 晃裕,石川 開,西光 雅弘: 'コールメモを利用したコールセンタ向け音声対話要約方式の提案' 言語処理学会第17回年次大会発表論文集 チュートリアル 本会議 ワークショップ [CD-ROM] , 20110331, p.924-p.927, 言語処理学会 *
JPN6014031296; 伊藤 一成,酒井 康旭,斎藤 博昭: '音声と映像の一貫性を考慮した要約動画の生成' 第15回データ工学ワークショップ(DEWS2004)論文集 [online] 【ISSN】1347-4413, 20090811, 電子情報通信学会データ工学研究専門委員会 *
JPN6014031299; 竹内 和広,松本 裕治: 'テキスト構造に基づく要約生成制約条件の検討' 情報処理学会研究報告 Vol.2000 No.65 第2000巻第65号【ISSN】0919-6072, 20000719, p.9-p.16, 社団法人情報処理学会 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017174059A (en) * 2016-03-23 2017-09-28 株式会社東芝 Information processor, information processing method, and program
WO2020036190A1 (en) * 2018-08-15 2020-02-20 日本電信電話株式会社 Major point extraction device, major point extraction method, and program
JPWO2020036190A1 (en) * 2018-08-15 2021-08-10 日本電信電話株式会社 Point extraction device, point extraction method, and program
JP7125630B2 (en) 2018-08-15 2022-08-25 日本電信電話株式会社 Key point extraction device, key point extraction method, and program
CN111178067A (en) * 2019-12-19 2020-05-19 北京明略软件系统有限公司 Information acquisition model generation method and device and information acquisition method and device
CN111178067B (en) * 2019-12-19 2023-05-26 北京明略软件系统有限公司 Information acquisition model generation method and device and information acquisition method and device
CN111400489A (en) * 2020-04-08 2020-07-10 科大讯飞股份有限公司 Dialog text abstract generation method and device, electronic equipment and storage medium
CN111400489B (en) * 2020-04-08 2022-12-02 科大讯飞股份有限公司 Dialog text abstract generating method and device, electronic equipment and storage medium

Also Published As

Publication number Publication date
JP5728374B2 (en) 2015-06-03

Similar Documents

Publication Publication Date Title
US10824814B2 (en) Generalized phrases in automatic speech recognition systems
JP6998680B2 (en) Interactive business support system and interactive business support program
JP7042693B2 (en) Interactive business support system
JP5774459B2 (en) Discourse summary template creation system and discourse summary template creation program
JP5728374B2 (en) Dialog summarization system and dialog summarization program
KR20160110501A (en) Identifying tasks in messages
US10860566B1 (en) Themes surfacing for communication data analysis
CN116324792A (en) Systems and methods related to robotic authoring by mining intent from natural language conversations
Nedoluzhko et al. ELITR Minuting Corpus: A novel dataset for automatic minuting from multi-party meetings in English and Czech
JP2013025648A (en) Interaction device, interaction method and interaction program
JP2016085697A (en) Compliance check system and compliance check program
JP2021022211A (en) Inquiry response support device, inquiry response support method, program and recording medium
JP5574842B2 (en) FAQ candidate extraction system and FAQ candidate extraction program
CN117441165A (en) Reducing bias in generating language models
JP6576847B2 (en) Analysis system, analysis method, and analysis program
JP2017027233A (en) Query generating device, method, and program
JP2019008367A (en) Question word weight calculation apparatus, question answer retrieval apparatus, question word weight calculation method, question answer retrieval method, program and record medium
US20160034509A1 (en) 3d analytics
CN111949777A (en) Intelligent voice conversation method and device based on crowd classification and electronic equipment
WO2020205817A1 (en) Systems and methods for generating responses for an intelligent virtual assistant
JP6567128B1 (en) Conversation support system and conversation support method
JP2019207647A (en) Interactive business assistance system
JP5457284B2 (en) Discourse breakdown calculation system and discourse breakdown calculation program
JP2011123565A (en) Faq candidate extracting system and faq candidate extracting program
JP2019087123A (en) Interaction control device, program and method capable of continuously executing multiple types of interaction

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140206

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140717

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140729

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141007

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141105

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150324

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150406

R150 Certificate of patent or registration of utility model

Ref document number: 5728374

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250