JP6260208B2 - Text summarization device - Google Patents
Text summarization device Download PDFInfo
- Publication number
- JP6260208B2 JP6260208B2 JP2013231111A JP2013231111A JP6260208B2 JP 6260208 B2 JP6260208 B2 JP 6260208B2 JP 2013231111 A JP2013231111 A JP 2013231111A JP 2013231111 A JP2013231111 A JP 2013231111A JP 6260208 B2 JP6260208 B2 JP 6260208B2
- Authority
- JP
- Japan
- Prior art keywords
- text data
- text
- importance
- unit
- partial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 claims description 16
- 239000000284 extract Substances 0.000 claims description 12
- 230000015572 biosynthetic process Effects 0.000 claims description 3
- 238000003786 synthesis reaction Methods 0.000 claims description 3
- 238000013500 data storage Methods 0.000 description 26
- 238000010586 diagram Methods 0.000 description 17
- 238000000034 method Methods 0.000 description 14
- 230000000877 morphologic effect Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000013404 process transfer Methods 0.000 description 1
Images
Description
本発明は、入力されたテキストデータを要約して要約テキストデータを生成するテキスト要約装置に関するものである。 The present invention relates to a text summarization apparatus that summarizes input text data and generates summary text data.
入力されたテキストデータを要約して音声として読み上げる装置が知られている(例えば、特許文献1参照)。このような要約読み上げ装置においては、入力されたテキストに含まれる単語単位に付与された重要度を用いて、ユーザが設定した要約率になるように要約を行う。 An apparatus that summarizes input text data and reads it out as speech is known (for example, see Patent Document 1). In such a summary reading device, summarization is performed so that the summarization rate set by the user is obtained using the importance given to each word included in the input text.
また、入力されたテキストデータを複数の部分テキスト及び当該部分テキストに対応した複数の重要度に分割し、設定された速度指令に基づき重要度の低い部分テキストの内容をスキップして速読を行う音声合成装置が知られている(例えば、特許文献2参照)。 Also, the input text data is divided into a plurality of partial texts and a plurality of importance levels corresponding to the partial texts, and the content of the less important partial texts is skipped based on the set speed command for speed reading. A speech synthesizer is known (see, for example, Patent Document 2).
しかしながら、従来の装置では、要約率または速度指令を変更することにより入力テキストにおける要約の度合いを変更できるものの、テキストデータを構成する部分テキストに付与された重要度に関しては状況に応じて動的に変更することができなかった。そのため、重要度が低く設定された部分テキストであっても、状況によっては要約テキストに含めてユーザに提供すべきであるにも関わらず要約テキストに含まれない場合があり、その一方で、重要度が高く設定された部分テキストであっても、状況によってはユーザへ提供する必要がないにも関わらず要約テキストに含めて提供してしまう場合があり、ユーザに対し要約テキストの内容、すなわち要約情報を適切に提供することができない場合があるという課題があった。 However, in the conventional apparatus, although the degree of summarization in the input text can be changed by changing the summarization rate or speed command, the importance given to the partial text constituting the text data is dynamically changed according to the situation. Could not change. Therefore, even partial text that is set to low importance may not be included in the summary text, although it should be provided to the user in some situations. Even if the partial text is set to a high degree, it may not be provided to the user depending on the situation, but may be provided in the summary text. There was a problem that information could not be provided appropriately.
本発明は、上述した課題を解決するためになされたものであり、ユーザに対し要約情報を適切に提供することができるテキスト要約装置を提供することを目的とする。 The present invention has been made to solve the above-described problems, and an object of the present invention is to provide a text summarization apparatus that can appropriately provide summary information to a user.
本発明に係るテキスト要約装置は、複数の部分テキストデータから構成されたテキストデータが入力されるデータ入力部と、データ入力部に入力された部分テキストデータに付与される重要度を記憶する重要度記憶部と、過去に入力されたテキストデータに含まれる部分テキストデータの履歴情報に基づいて重要度を変更する重要度変更部と、重要度に基づいて、データ入力部に入力されるテキストデータから1又は複数の部分テキストデータを抜き出して要約テキストデータを生成するデータ処理部とを備え、重要度変更部は、過去に入力されたテキストデータが緊急情報に関するテキストデータである場合は、過去に入力されたテキストデータに含まれる部分テキストデータに対応する重要度を高くすることを特徴とする
The text summarization device according to the present invention stores a data input unit to which text data composed of a plurality of partial text data is input, and an importance level for storing the importance level assigned to the partial text data input to the data input unit. From the storage unit, the importance level changing unit that changes the importance level based on the history information of the partial text data included in the text data input in the past, and the text data input to the data input unit based on the importance level A data processing unit that extracts one or a plurality of partial text data to generate summary text data, and the importance level changing unit inputs in the past when the text data input in the past is text data related to emergency information The importance corresponding to the partial text data included in the text data is increased.
本発明のテキスト要約装置によれば、過去のテキストデータに含まれる部分テキストデータの履歴情報に基づいて重要度を変更するので、ユーザに対し要約情報を適切に提供することが可能となる。 According to the text summarizing apparatus of the present invention, since the importance level is changed based on the history information of the partial text data included in the past text data, it is possible to appropriately provide the summary information to the user.
実施の形態1.
以下図面を用いて本発明の実施の形態1を説明する。
図1は実施の形態1に係るテキスト要約装置の構成例を示す図である。テキスト要約装置100は、テキストデータ入力部1と、データ処理部2と、重要度記憶部3と、要約度変更部4と、テキスト履歴データ記憶部5と、重要度変更部6とを備える。テキスト要約装置100は、例えばナビゲーション装置に搭載される装置またはナビゲーション装置自体等が該当するが、これに限定されるものではなく、テキストデータが入力されて、その要約テキストの内容である要約情報をユーザに提供するものであれば何でもよい。なお、要約情報の提供とは、要約テキストの内容を文書として提供することに限らず、要約テキストの内容を音声として提供すること等も含む。
FIG. 1 is a diagram illustrating a configuration example of a text summarizing apparatus according to the first embodiment. The
テキストデータ入力部1には、テキストデータが入力される。ここで入力されるテキストデータは、例えば、ニュース等のWeb情報、地震速報等の緊急情報、天気情報、周辺の施設情報等の内容を表す文書のデータが該当する。テキストデータは複数の部分テキストデータにより構成されている。部分テキストは、例えば文、文を構成する文節、または文節を構成する単語が該当する。なお、テキストデータは、例えばテキスト要約装置100がサーバ等に要求することによりテキストデータ入力部1に入力される。
Text data is input to the text
データ処理部2は、入力テキストデータを構成する部分テキストデータに付与される重要度に基づいて、データ入力部1に入力されるテキストデータから1または複数の部分テキストデータを抜き出して要約テキストデータを生成する。ここで、重要度は、ユーザに提示すべき度合いを表す指標である。したがって、テキストデータのうち重要度が高い部分テキストデータは、要約テキストデータに含めてユーザに提示すべきデータであるといえる。
The
重要度記憶部3には、部分テキストデータと重要度が対応付けて記憶され、例えばメモリ等により実現される。重要度は、例えば、過去に入力された多数のテキストにおける単語の出現回数から学習することにより設定してもよいし、ユーザが任意に設定してもよい。部分テキストが文または文節の場合であっても、文または文節を構成する単語の重要度の和としたり、重要度の和を単語数で割って正規化すること等により、文または文節単位での重要度を求めることができるので、重要度記憶部3は結果として部分テキストデータに対応する重要度を記憶するといえる。なお、重要度記憶部3に記憶される重要度に関する情報は、例えばデータ処理部2が保持するような構成であってもよい。また、部分テキストが単語である場合は、過去に入力されたテキストに含まれる単語だけではなく、その単語との共起を考慮して重要度を記憶するようにしてもよい。
The importance storage unit 3 stores partial text data and importance in association with each other, and is realized by, for example, a memory. The importance may be set, for example, by learning from the number of appearances of words in a large number of texts input in the past, or may be arbitrarily set by the user. Even if the partial text is a sentence or clause, the sum of the importance of the words that make up the sentence or clause, or the normalization by dividing the sum of importance by the number of words, etc. Therefore, it can be said that the importance storage unit 3 stores the importance corresponding to the partial text data as a result. The information on the importance stored in the importance storage unit 3 may be configured to be held by the
また、重要度は、入力された1つのテキスト内における単語の出現回数から設定してもよい。また、TF−IDF(Term Frequency−Inverse Document Frequency)により求めた値を重要度としてもよい。また、重要度記憶部3には、単語の情報とともに品詞情報も合わせて記憶されるようにしてもよく、また、文書を特徴づける名詞や形容詞については重要度を高くするようにしてもよい。 Further, the importance may be set from the number of appearances of a word in one input text. Further, a value obtained by TF-IDF (Term Frequency-Inverse Document Frequency) may be used as the importance. Further, the importance level storage unit 3 may store the part of speech information together with the word information, and may increase the importance level of nouns and adjectives that characterize the document.
要約度変更部4は、設定された要約度の値を変更する。要約度とは、ユーザに提示する要約度合いを表す指標であり、値が高いほどユーザに提供される要約テキストが短くなる。この要約度は、例えばテキスト要約装置がナビゲーション装置であれば、ユーザがダイヤルやボタンによりその度合いを設定できる。ただし、要約度は必ずしも変更されなくてもよく、データ処理部2が予め設定された要約度を固定値として記憶しておくようにしてもよい。以下では、要約度は固定値として説明を行う。
The summarization
テキスト履歴データ記憶部5には、データ処理部2で抜き出された部分テキストデータとその出現回数をテキスト履歴データ(履歴情報)として記憶される。なお、以下の説明では、部分テキストデータとその出現回数を履歴情報として説明するが、これに限らない。例えば、出現回数に基づき算出した重要度変更のための重み付け値等が履歴情報としてテキスト履歴データ記憶部5に記憶されていてもよい。また、部分テキストデータが文または文節である場合、文または文節を構成する単語毎の出現回数を履歴情報としてテキスト履歴データ記憶部5に記憶してもよい。
The text history
重要度変更部6は、重要度記憶部3に記憶される部分テキストデータの重要度のうち、データ処理部2で抜き出された1または複数の部分テキストデータの重要度を、テキスト履歴データ記憶部5に記憶された部分テキストデータの履歴情報に基づき変更する。
The importance
次に、実施の形態1における重要度の変更処理についての動作について説明する。図2は実施の形態1に係る重要度の変更についての動作例を示すフローチャートである。 Next, the operation of the importance level changing process in the first embodiment will be described. FIG. 2 is a flowchart showing an operation example for changing the importance according to the first embodiment.
まず、テキストデータ入力部1にテキストデータが入力される(ステップST1)。図3は実施の形態1に係る入力テキスト及び要約テキストの例を示す図である。図3に示すように、入力テキストは複数の部分テキストから構成される。部分テキスト1は「ABCDEFG」であり、部分テキスト2は「HIJKLMN」であり、部分テキスト3は「OPQRSTU」である。
First, text data is input to the text data input unit 1 (step ST1). FIG. 3 is a diagram showing an example of input text and summary text according to the first embodiment. As shown in FIG. 3, the input text is composed of a plurality of partial texts. The
次に、データ処理部2は、入力されたテキストデータから部分テキストデータを抽出し(ステップST2)、抽出した部分テキストデータの重要度を重要度記憶部3から取得し、要約度と比較する(ステップST3)。図3の例では、データ処理部2は、入力テキストデータから部分テキスト1に対応する部分テキストデータを抽出し、重要度記憶部3から対応する重要度を取得する。ここでは部分テキスト1に対応する部分テキストデータの重要度を3.5とし、要約度は3.0とする。なお、以下では部分テキストデータに付与された重要度を、単に、部分テキストの重要度と表現することもある。
Next, the
データ処理部2は、抽出した部分テキストデータの重要度が要約度よりも高い場合(ステップST4−Yes)、その部分テキストデータとその出現回数をテキスト履歴データ記憶部5に履歴情報として記憶する(ステップST5)。図3の例では、部分テキスト1の重要度は要約度より高いので、データ処理部2は、部分テキスト1「ABCDEFG」と出現回数「1」を履歴情報としてテキスト履歴データ記憶部5に記憶する。
When the importance of the extracted partial text data is higher than the summarization degree (step ST4-Yes), the
データ処理部2は、残りの部分テキストデータがある場合(ステップST6−Yes)、ステップST2からステップST5までの処理を再度行う。図3の例では、部分テキスト1以外の残りの部分テキストデータが残っているので、データ処理部2は、次の部分テキスト2のデータに対して部分テキスト1と同様の処理を行う。その次は、部分テキスト3のデータに対して部分テキスト1、2と同様の処理を行う。ここでは、部分テキスト2の重要度は2.0で要約度3.0より低く、部分テキスト3の重要度は3.2で要約度3より高いものとする。そのため、データ処理部2は入力テキストデータから部分テキスト1と部分テキスト3のデータを抜き出すので、テキスト履歴データ記憶部5には結果として、部分テキスト1「ABCDEFG」と出現回数「1」及び部分テキスト3「OPQRSTU」と出現回数「1」が履歴情報として記憶される。
When there is remaining partial text data (step ST6-Yes), the
データ処理部2は、残りの部分テキストデータがない場合は(ステップST6−No)、要約テキストデータを作成する(ステップST7)。図3の例では、入力されたテキストデータのうち、部分テキスト1、3の部分テキストデータが抜き出されているので、要約テキスト「ABCDEFG OPQRSTU」に対応する要約テキストデータが作成される。
If there is no remaining partial text data (step ST6-No), the
重要度変更部6は、テキスト履歴データ記憶部5に記憶されている部分テキストデータの履歴情報に基づき、重要度記憶部3に記憶されている重要度を変更する(ステップST8)。図3の例では、テキスト履歴データ記憶部5には、部分テキスト1「ABCDEFG」、部分テキスト3「OPQRSTU」の出現回数「1」が記憶されており、重要度変更部6は、重要度記憶部3に記憶される部分テキスト「ABCDEFG」、「OPQRSTU」の重要度をそれぞれ2.5、2.2に変更するものとする。
The importance
重要度変更部6は、入力されたテキストデータがユーザにとって重要な情報であればそのテキストデータに含まれる部分テキストデータの重要度を高くするよう変更し、ユーザにとって重要でなければ部分テキストデータの重要度を低くするように変更する。詳細は後述するが、ここでは、重要度変更部6は、テキスト履歴データ記憶部5に記憶される部分テキストデータの出現回数が多いほど、重要度記憶部3に記憶される部分テキストデータの重要度が低くなるよう変更するものとして説明する。
The importance
なお、ここでは図3に示すテキストデータが入力された場合での重要度の変更について説明したが、この重要度は、テキストデータが新たに入力され要約テキストデータが作成される毎に更新される。例えば新たに部分テキスト「ABCDEFG」を含むテキストデータが入力され要約テキストデータとして抽出されると、テキスト履歴データ記憶部5に記憶される「ABCDEFG」の出現回数は「2」に変更される。そして、重要度変更部6は、出現回数「2」に基づいて、重要度記憶部3に記憶される部分テキスト「ABCDEFG」の重要度がさらに低くなるよう変更する。
Here, the change in the importance level when the text data shown in FIG. 3 is input has been described, but this importance level is updated every time text data is newly input and summary text data is created. . For example, when new text data including partial text “ABCDEFG” is input and extracted as summary text data, the number of occurrences of “ABCDEFG” stored in the text history
また、図2ではステップST7の要約テキストデータ作成の後でステップST8の重要度変更を行うものとして説明したが、これらの処理の順序は任意であり、もしくはこれらの処理が並列になされてもよい。また、ステップST3からST7では、抽出した部分テキストデータの重要度と要約度とを比較し、重要度が要約度よりも高い場合にテキスト履歴データ記憶部5に履歴情報を記憶し、要約テキストデータを構成する部分テキストデータとして選択するものとして説明したが、これに限らない。例えば、重要度と要約度を比較しなくても、入力されたテキストデータを構成する部分テキストデータのうち、相対的に重要度の高い部分テキストデータをn(nは任意の整数)個抽出して要約テキストデータを作成するとともにテキスト履歴データ記憶部5に履歴情報を記憶するようにしてもよい。その場合は、部分テキストデータの抽出において要約度は必要ないこととなる。
In FIG. 2, it has been described that the importance level is changed in step ST8 after the summary text data is created in step ST7. However, the order of these processes is arbitrary, or these processes may be performed in parallel. . In steps ST3 to ST7, the importance level and the summarization level of the extracted partial text data are compared. When the importance level is higher than the summarization level, history information is stored in the text history
次に、新たにテキストデータが入力された場合における要約テキストデータ生成処理の動作について説明する。図4は実施の形態1に係る新たに入力されたテキストの例を示す図である。図3に示すテキストデータは、図4に示す新たに入力されたテキストデータと区別するため、以降の説明では過去に入力されたテキストデータと呼ぶことにする。なお、図3の入力テキストと図4の入力テキストは類似する内容であるが、図4の入力テキストは、図3に示す過去に入力されたテキストと比べて異なる部分テキスト「VWXYZ」を含む点で相違する。なお、類似内容のテキストデータが入力される状況としては、例えば、類似内容であるが発信元が異なるWebニュース等が入力される状況が想定される。 Next, the operation of the summary text data generation process when new text data is input will be described. FIG. 4 is a diagram illustrating an example of newly input text according to the first embodiment. The text data shown in FIG. 3 is called text data input in the past in the following description in order to distinguish it from the newly input text data shown in FIG. The input text of FIG. 3 and the input text of FIG. 4 have similar contents, but the input text of FIG. 4 includes a partial text “VWXYZ” that is different from the text previously input shown in FIG. Is different. In addition, as a situation where text data having similar contents is input, for example, a situation in which Web news or the like having similar contents but a different source is input is assumed.
新たにテキストデータが入力されると、まずは、図2のステップST1からST3までの処理がなされる。ステップST3では、データ処理部2が、新たに入力されたテキストデータから抽出した部分テキストデータの重要度と、要約度とを比較する。ここでの重要度は、過去に入力されたテキストデータに含まれる部分テキストデータの履歴情報に基づいて重要度変更部6により変更された値となる。図4の例では、部分テキスト1と部分テキスト3の重要度は過去に入力された部分テキスト1、部分テキスト3の履歴情報に基づき、それぞれ2.5、2.2と低く変更されているので、要約度3.0よりも小さくなる。また、部分テキスト2の重要度は過去に入力されたテキストデータによっては変更されていないので、2.0のままとなる。なお、部分テキスト4「VWXYZ」の重要度は2.8とする。
When new text data is input, first, processing from steps ST1 to ST3 in FIG. 2 is performed. In step ST3, the
新たに入力されたテキストデータを構成する部分テキストデータの重要度はいずれも要約度より高くならないので、ステップST4以降の処理は行われない。従って、データ処理部2は、新たに入力されたテキストデータから要約テキストデータを生成しなくなるので、過去に入力されたテキストデータから生成した要約テキストと同一または類似内容の要約テキストを繰り返し提供することを防止でき、ユーザに対し要約情報を適切に提供することが可能となる。
Since the importance level of the partial text data constituting the newly input text data is not higher than the summarization level, the processes after step ST4 are not performed. Therefore, the
なお、これまでは、過去に入力されたテキストデータの履歴情報に基づいて重要度変更部6が部分テキストの重要度を低くする例について説明したが、重要度を高くするように変更してもよい。そうすることにより、過去に入力されたテキストデータと類似内容のテキストデータが新たに入力された場合であっても、新たに入力されたテキストデータを構成する部分テキストデータの重要度は高く変更されているので、データ処理部2は、過去の要約テキストと同一または類似する内容の要約テキストを生成してユーザに提供することができる。
Heretofore, the example in which the importance
特に、入力テキストデータが緊急地震速報等の緊急情報に関するテキストデータの場合においては、過去にユーザに提供されていたとしても繰り返し提供する必要があることが多い。そういった場合であっても、緊急情報に関する要約テキストの内容を繰り返し提供でき、ユーザに対し要約情報を適切に提供することが可能となる。 In particular, when the input text data is text data related to emergency information such as an earthquake early warning, it is often necessary to repeatedly provide the text data even if it has been provided to the user in the past. Even in such a case, the contents of the summary text relating to the emergency information can be repeatedly provided, and the summary information can be appropriately provided to the user.
以上より、実施の形態1によれば、重要度変更部6が、過去に入力されたテキストデータに含まれる部分テキストデータの履歴情報に基づいて、重要度記憶部3に記憶される部分テキストデータの重要度を変更するので、新たにテキストデータが入力された場合において、そのテキストの要約情報がユーザとって必要であれば積極的に提供し、必要でなければ提供しないようになるので、ユーザに対し要約情報を適切に提供することが可能となる。
As described above, according to the first embodiment, the importance
図5は実施の形態1に係るテキスト要約装置の他の構成例を示す図である。図5に示すように、テキスト要約装置110は音声合成部(音声生成部)7を備えていてもよい。
FIG. 5 is a diagram showing another configuration example of the text summarizing apparatus according to the first embodiment. As shown in FIG. 5, the
音声合成部7は、データ処理部2で生成された要約テキストデータに基づき、要約テキストの内容を音声合成して外部に出力する。図3の例では、「ABCDEFG OPQRSTU」を音声としてユーザに提供する。
The
そうすることにより、ユーザは音声によって要約内容を聴くことができるので、例えばテキスト要約装置がナビゲーション装置であれば、ユーザは運転中にナビ画面を見ることなく要約情報の提供を受けることができ、安全な走行が可能となる。 By doing so, since the user can listen to the summary content by voice, for example, if the text summarization device is a navigation device, the user can be provided with summary information without looking at the navigation screen during driving, Safe driving is possible.
図6は実施の形態1に係るテキスト要約装置の他の構成例を示す図である。図6に示すように、テキスト要約装置120は操作履歴記憶部8と嗜好キーワード抽出部9とを備えていてもよい。
FIG. 6 is a diagram showing another configuration example of the text summarizing apparatus according to the first embodiment. As shown in FIG. 6, the
操作履歴記憶部8は、過去のユーザ操作履歴が記憶される。ユーザ操作履歴とは、例えばナビゲーション装置おいては、目的地の設定操作、車内で流す音楽CDの選択等が該当する。 The operation history storage unit 8 stores past user operation history. For example, in the navigation device, the user operation history corresponds to a destination setting operation, selection of a music CD to be played in the vehicle, and the like.
嗜好キーワード抽出部9は、操作履歴記憶部8に記憶される操作履歴の情報から、ユーザの嗜好を表すキーワードを抽出する。例えばユーザが音楽CDとしてアーティスト「XXX」の曲を選択操作した場合、嗜好キーワード抽出部9は、嗜好キーワードとして「XXX」を抽出し、テキスト履歴データ記憶部5に履歴情報として記憶する。重要度変更部6は、テキスト履歴データ記憶部5に記憶される履歴情報に基づき、重要度記憶部3に記憶される部分テキストデータの重要度のうち、嗜好キーワードに対応するテキストデータを構成する部分テキストデータの重要度が高くなるよう変更する。
The preference
そうすることにより、アーティスト「XXX」に関するテキストデータが入力された場合において、その要約テキストデータが生成されやすくなり、ユーザの興味のある事項についての要約情報を適切に提供することが可能となる。 By doing so, when text data related to the artist “XXX” is input, the summary text data is easily generated, and it is possible to appropriately provide the summary information about the items that the user is interested in.
図7は実施の形態1に係るテキスト要約装置の他の構成例を示す図である。図7に示すように、テキスト要約装置130は、音声認識キーワード抽出部10を備えていてもよい。
FIG. 7 is a diagram showing another configuration example of the text summarizing apparatus according to the first embodiment. As shown in FIG. 7, the
音声認識キーワード抽出部10は、外部からの音声を認識して音声認識情報をテキストデータとして抽出し、そのテキストデータを構成する部分テキストデータの履歴情報をテキスト履歴データ記憶部5に記憶する。ここで、外部からの音声とは、例えば車内外の会話、ラジオの内容、またはCDによる音声等が該当する。このような外部からの音声は、ユーザによって関心のある内容として考えられることができる。そのため、重要度変更部6は、テキスト履歴データ記憶部5に記憶される履歴情報に基づき、重要度記憶部3に記憶される部分テキストデータの重要度のうち、音声認識キーワード抽出部10で抽出されたキーワードに対応するテキストデータを構成する部分テキストデータの重要度が高くなるよう変更する。
The speech recognition
そうすることにより、音声認識されたキーワードに関するテキストデータが入力された場合において、その要約テキストデータが生成されやすくなり、ユーザの関心の高い事項についての要約情報を適切に提供することが可能となる。なお、音声認識されたキーワードは既に話題となった内容と考える場合は、重要度変更部6が当該キーワードに関する部分テキストデータの重要度を低くするように変更してもよい。
By doing so, when text data related to a speech-recognized keyword is input, the summary text data can be easily generated, and it is possible to appropriately provide summary information about a matter of high user interest. . Note that when the speech-recognized keyword is considered as a topic that has already been discussed, the importance
実施の形態2.
以下図面を用いて本発明の実施の形態2について説明する。
The second embodiment of the present invention will be described below with reference to the drawings.
図8は実施の形態2に係るテキスト要約装置の構成例を示す図である。実施の形態2のテキスト要約装置200は、データ処理部2は、解析部21と、重要度付与部22と、要約テキストデータ選択部23と、要約テキストデータ記憶部24とを備える点で実施の形態1のテキスト要約装置100と異なる。なお、その他の構成については実施の形態1と同様であるので図1と同一の符号を付してその説明を省略する。
FIG. 8 is a diagram showing a configuration example of the text summarizing apparatus according to the second embodiment. The
解析部21は、テキストデータ入力部1に入力されたテキストデータの文章解析(言語解析)を行う。つまり、解析部21は、テキストデータを部分テキストデータに分割する。
The
重要度付与部22は、解析部21にて文章解析された部分テキストデータに対して、重要度記憶部3に記憶される重要度を用いて、解析部21にて生成された部分テキストデータに重要度を付与する。
The importance
部分テキストデータ選択部23は、重要度付与部22にて重要度が付与された各部分テキストデータのうち、要約度変更部4から入力された要約度よりも高い重要度を持つ部分テキストデータを選択して要約テキストデータに含める。
The partial text
要約テキストデータ記憶部24は、部分テキストデータ選択部23により選択された部分テキストデータから構成される要約テキストデータを記憶する。
The summary text
次に、実施の形態2においてテキストデータが入力されてから部分テキストデータの履歴情報が記憶されるまでの動作について説明する。図9は入力テキスト101の例を示す図である。以下の説明では、部分テキストは文節単位で表されるものとして説明を行うが、実施の形態1でも説明したとおり、部分テキストは文単位であってもよいし、単語単位であってもよい。 Next, the operation from the input of text data until the history information of partial text data is stored in the second embodiment will be described. FIG. 9 is a diagram illustrating an example of the input text 101. In the following description, the partial text is described as being expressed in phrase units. However, as described in the first embodiment, the partial text may be in sentence units or in word units.
図10は実施の形態2に係る解析部21の動作例を示すフローチャートである。解析部21は、まず、テキストデータ入力部1に入力された図9に示すテキストを文に分割する(ステップST21)。文への分割は、例えば句点で分割することにより実現可能である。
FIG. 10 is a flowchart showing an operation example of the
次に、解析部21は、文に分割したテキストをさらに文節単位に分割する(ステップST22)。文から文節への分割は、例えばKNP、CaboCha等の構文解析器を用いればよい。なお、構文解析器とは、文がどのような構造から成っているのかを解析し、その構造を出力するものである。
Next, the
続いて、解析部21は、文節に分割したテキストをさらに単語単位に分割する(ステップST23)。文節から単語への分割には、例えばMecab等の形態素解析器を用いればよい。なお、形態素解析器とは、文がどのような単語、品詞から成っているかを解析するものである。
Subsequently, the
解析部21は、言語解析の結果として、解析結果テキストを作成する。図11は実施の形態2に係る解析結果テキスト102の例を示す図である。図11に示すように、入力テキスト101は、解析部21による解析の結果、「新型/ロケット/「/イプシロン/」・・・」のように、単語単位に分割される。図11において、「/」は単語の区切れを表し、「//」は文節の区切れを表し、「///」は文の区切れを表す。
The
図12は実施の形態2に係る重要度付与部22の動作例を示すフローチャートである。重要度付与部22には、まず、解析部21によって単語単位に分割された解析済みテキストのデータが入力される(ステップST31)。
FIG. 12 is a flowchart showing an operation example of the importance
次に、重要度付与部22は、重要度記憶部3に記憶される重要度テーブルの重要度を用いて、解析部21に分割された各単語に重要度を付与する(ステップST32)。図13は重要度テーブル103の例を示す図である。図13の例では、重要度記憶部3には、単語に対応して重要度が記憶されている。例えば単語「新型」については重要度15、単語「ラーメン」については重要度2、のように与えられている。
Next, the
重要度付与部22は、解析結果テキスト102に重要度を付与することにより、重要度付きテキストを作成する。図14は実施の形態2に係る重要度付きテキスト104の例を示す図である。図14に示すように、1つ目の文節「新型ロケット「イプシロン」初号機が」の重要度は、単語「新型」、「ロケット」、「「」、「イプシロン」、「」」、「初号」、「機」、「が」にそれぞれ付与された重要度の和を単語数で割って正規化した値0.7となる。同様に、2つ目の文節「14日午後2時、」の重要度は0.2、3つ目の文節「鹿児島県肝付町の宇宙航空研究開発機構内乃浦宇宙空間観測所で」の重要度は「0.4」、4つ目の文節「打ち上げられた」の重要度は1.0となる。このように、重要度付与部22は、部分テキストとしての文節に対して重要度を付与する。
The importance
また、重要度付与部22は、各文節の重要度の和を文節数で割って正規化することにより、文「新型ロケット「イプシロン」初号機が14日午後2時、鹿児島県肝付町の宇宙航空研究開発機構内乃浦宇宙空間観測所で打ち上げられた」の重要度を0.6と求めることができる。なお、ここでは重要度を正規化して求めたが、これに限定されない。
In addition, the importance
図15は実施の形態2に係る部分テキストデータ選択部23の動作例を示すフローチャートである。部分テキストデータ選択部23は、まず、要約度変更部4から入力された文の要約度と、文の重要度とを比較する(ステップST41)。テキストデータ選択部23は、比較の結果、文の重要度が文の要約度以上であれば(ステップST41−Yes)、ステップST42の処理を行う一方で、文の重要度が文の要約度よりも小さければ(ステップST41−No)、ステップST46の処理に移る。ここでは文の要約度は0.5とする。そうすると、図14の例では、1つ目の文の重要度は0.6であり文の要約度以上となるので、ステップST42の処理へ移る。なお、要約度については、要約度変更部4から入力された値ではなく、部分テキストデータ選択部23が予め保有している値であってもよい。
FIG. 15 is a flowchart showing an operation example of the partial text
次に、部分テキストデータ選択部23は、ステップST41で選択された文に含まれる文節の重要度と、文節の要約度とを比較する(ステップST42)。文節の要約度は文の要約度と同じ値であってもよいし、異なる値として文の要約度とは別に設定されていてもよい。ここでは文節の要約度は文の要約度と同じ0.5とする。図14の例では、1つ目の文節「新型ロケット「イプシロン」初号機が」の重要度は0.6で要約度以上であるので(ステップST43−Yes)、1つ目の文節の内容に該当する部分テキストデータが要約テキストデータ記憶部24に記憶され(ステップST43)、1つ目の文節の内容に該当する部分テキストデータとその出現回数が履歴情報としてテキスト履歴データ記憶部5に記憶される(ステップST44)。
Next, the partial text
部分テキストデータ選択部23による重要度と要約度との比較対象である文が最後である場合、処理が終了する(ステップST46−Yes)。ここでは最後の文ではないため(ステップST46−No)、次の文節に処理が移る(ステップST45)。
If the sentence to be compared between the importance level and the summary level by the partial text
次に部分テキストデータ選択部23は、2つ目の文節「14日午後2時、」の重要度と文節の要約度とを比較する(ステップST42)。2つ目の文節の重要度は0.2であり文節の要約度よりも小さいので(ステップST42−No)、次の文節に処理が移る(ステップST45)。3つ目の文節「鹿児島県肝付町の宇宙航空研究開発機構内之浦宇宙空間観測所で」についても重要度が0.4で文節の要約度よりも小さいので、2つ目の文節と同様の処理がなされる。4つ目の文節「打ち上げられた。」の重要度は1.0で文節の要約度以上であるので、1つ目の文節と同様の処理がなされる。
Next, the partial text
2つ目の文以降についても1つ目の文と同様の処理がなされ、入力テキスト内の全ての文について同様の処理がなされると(ステップST46−Yes)、部分テキストデータ選択部23の処理は終了する。
For the second sentence and after, the same process as the first sentence is performed, and if the same process is performed for all sentences in the input text (step ST46-Yes), the process of the partial text
部分テキストデータ選択部23による部分テキスト選択処理の結果、要約テキストデータ記憶部24には要約テキストデータが記憶される。図16は実施の形態2に係る要約テキスト105の例を示す図である。図16に示すように、要約テキストは、部分テキストデータ選択部23により選択された部分テキスト、つまり、1つ目の文節「新型ロケット「イプシロン」初号機が」と4つ目の文節「打ち上げられた。」から構成される。
As a result of the partial text selection process by the partial text
また、部分テキストデータ選択部23による履歴情報の記録(ステップST44)により、テキスト履歴データ記憶部5には部分テキストデータの出現回数がテキスト履歴として記憶される。図17は実施の形態2に係るテキスト履歴106の例を示す図である。図17に示すように、1つ目の文節内の単語「新型」、「ロケット」、「イプシロン」、「初号」「機」についての出現回数「1」が記憶される。また、4つ目の文節内の単語「打ち上げ」についての出現回数「1」が記憶される。2つ目以降の文についても同様である。
Further, the history information is recorded by the partial text data selection unit 23 (step ST44), and the text history
以上より、実施の形態2によれば、解析部21により言語解析して分割された部分テキストデータに対して、重要度付与部22により重要度が付与され、その重要度に基づいて部分テキストデータ選択部23が部分テキストデータを選択して履歴情報を履歴データ記憶部5に記憶するので、実施の形態1と同様の効果を奏する。また、解析部21は言語解析を行って入力テキストデータを部分テキストデータに分割するので、文章構造が考慮された部分テキストデータの履歴情報の記憶が可能となる。
As described above, according to the second embodiment, the importance level is given by the importance
図18は実施の形態2に係るテキスト要約装置の他の構成例を示す図である。図18に示すように、実施の形態2のテキスト要約装置210においても、音声合成部7を備えていてもよい。なお、実施の形態2の音声合成部7は実施の形態1と同様であるので図5と同一の符号を付してその説明を省略する。
FIG. 18 is a diagram showing another configuration example of the text summarizing apparatus according to the second embodiment. As shown in FIG. 18, the
図19は実施の形態2に係るテキスト要約装置の他の構成例を示す図である。図19に示すように、実施の形態2のテキスト要約装置220においても、嗜好キーワード抽出部9を備えていてもよい。なお、実施の形態2の嗜好キーワード抽出部9は実施の形態1と同様であるので図6と同一の符号を付してその説明を省略する。
FIG. 19 is a diagram showing another configuration example of the text summarizing apparatus according to the second embodiment. As shown in FIG. 19, the
図20は実施の形態2に係るテキスト要約装置の他の構成例を示す図である。図20に示すように、実施の形態2のテキスト要約装置230においても、音声認識キーワード抽出部10を備えていてもよい。なお、実施の形態2の音声認識キーワード抽出部10は実施の形態1と同様であるので図7と同一の符号を付してその説明を省略する。
FIG. 20 is a diagram showing another configuration example of the text summarizing apparatus according to the second embodiment. As shown in FIG. 20, the
1 テキストデータ入力部、2 データ処理部、3 重要度記憶部、4 要約度変更部、5 テキスト履歴データ記憶部、6 重要度変更部、7 音声合成部、8 操作履歴記憶部、9 嗜好キーワード抽出部、10 音声認識キーワード抽出部、21解析部、22 重要度付与部、23 部分テキストデータ選択部、24 要約テキストデータ記憶部、100、110、120、130、200、210、220、230 テキスト要約装置
DESCRIPTION OF
Claims (7)
前記データ入力部に入力された前記部分テキストデータに付与される重要度を記憶する重要度記憶部と、
過去に入力されたテキストデータに含まれる前記部分テキストデータの履歴情報に基づいて前記重要度を変更する重要度変更部と、
前記重要度に基づいて、前記データ入力部に入力されるテキストデータから1又は複数の前記部分テキストデータを抜き出して要約テキストデータを生成するデータ処理部とを備え、
前記重要度変更部は、前記過去に入力されたテキストデータが緊急情報に関するテキストデータである場合は、前記過去に入力されたテキストデータに含まれる部分テキストデータに対応する前記重要度を高くすることを特徴とするテキスト要約装置。 A data input part for inputting text data composed of a plurality of partial text data; and
An importance storage unit for storing importance assigned to the partial text data input to the data input unit;
An importance changing unit that changes the importance based on history information of the partial text data included in the text data input in the past;
A data processing unit that extracts one or more partial text data from text data input to the data input unit based on the importance and generates summary text data;
The importance level changing unit increases the importance level corresponding to partial text data included in the text data input in the past when the text data input in the past is text data related to emergency information. A text summarization device.
前記重要度変更部は、前記重要度記憶部に記憶された前記重要度のうち、前記嗜好情報抽出部により抽出された前記嗜好情報に関するテキストデータに含まれる前記部分テキストデータに対応する前記重要度を高くすることを特徴とする請求項2または3に記載のテキスト要約装置。 A preference information extraction unit that extracts user preference information as text data from past operation history by the user,
The importance level changing unit corresponds to the importance level corresponding to the partial text data included in the text data related to the preference information extracted by the preference information extraction unit among the importance levels stored in the importance level storage unit. The text summarization apparatus according to claim 2, wherein the text summarization apparatus is made high.
前記重要度変更部は、前記重要度記憶部に記憶された前記重要度のうち、前記音声認識情報抽出部により抽出された前記音声認識情報に関するテキストデータに含まれる前記部分テキストデータに対応する前記重要度を高くすることを特徴とする請求項2乃至4のいずれかに記載のテキスト要約装置。 A speech recognition information extraction unit that recognizes external speech and extracts speech recognition information as text data;
The importance level changing unit corresponds to the partial text data included in text data related to the speech recognition information extracted by the speech recognition information extraction unit among the importance levels stored in the importance level storage unit. 5. The text summarization apparatus according to claim 2, wherein the importance is increased.
前記データ入力部に入力されたテキストデータを解析してテキストデータを文、文節、または単語である複数の部分テキストデータに分割する解析部と、
前記解析部により分割された前記複数の部分テキストデータに対して、前記重要度記憶部に記憶された前記重要度を付与する重要度付与部と、
前記複数の部分テキストデータのうち、前記重要度付与部で付与された前記重要度が設定値よりも大きい値をもつ前記部分テキストデータを選択する部分テキストデータ選択部とを有することを特徴とする請求項2乃至5のいずれかに記載のテキスト要約装置。 The data processing unit
An analysis unit that analyzes the text data input to the data input unit and divides the text data into a plurality of partial text data that are sentences, clauses, or words;
An importance level assigning unit that gives the importance level stored in the importance level storage unit to the plurality of partial text data divided by the analysis unit;
A partial text data selection unit that selects the partial text data having a value that is greater than a set value by the importance level assigned by the importance level grant unit from among the plurality of partial text data. The text summarization device according to any one of claims 2 to 5 .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013231111A JP6260208B2 (en) | 2013-11-07 | 2013-11-07 | Text summarization device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013231111A JP6260208B2 (en) | 2013-11-07 | 2013-11-07 | Text summarization device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015090663A JP2015090663A (en) | 2015-05-11 |
JP6260208B2 true JP6260208B2 (en) | 2018-01-17 |
Family
ID=53194137
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013231111A Active JP6260208B2 (en) | 2013-11-07 | 2013-11-07 | Text summarization device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6260208B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101656245B1 (en) * | 2015-09-09 | 2016-09-09 | 주식회사 위버플 | Method and system for extracting sentences |
JP2019053558A (en) * | 2017-09-15 | 2019-04-04 | ヤフー株式会社 | Learning device, learning method, learning program, first model, and second model |
KR102280488B1 (en) * | 2020-11-19 | 2021-07-22 | 주식회사 두유비 | Conversation content summarization method based on sentence priority and keyword importance |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1145289A (en) * | 1997-07-28 | 1999-02-16 | Just Syst Corp | Document processor, storage medium storing document processing program and document processing method |
JP4021525B2 (en) * | 1997-07-28 | 2007-12-12 | 株式会社ジャストシステム | Document processing apparatus, storage medium storing document processing program, and document processing method |
JP3916124B2 (en) * | 2001-02-15 | 2007-05-16 | インターナショナル・ビジネス・マシーンズ・コーポレーション | Digital document browsing system, browser, digital document display method, program, and storage medium |
US20090204399A1 (en) * | 2006-05-17 | 2009-08-13 | Nec Corporation | Speech data summarizing and reproducing apparatus, speech data summarizing and reproducing method, and speech data summarizing and reproducing program |
JP5216654B2 (en) * | 2009-03-27 | 2013-06-19 | Kddi株式会社 | Importance determination device, importance determination method, and program |
JP2013090019A (en) * | 2011-10-14 | 2013-05-13 | Hitachi Consumer Electronics Co Ltd | Image output device and image output method |
-
2013
- 2013-11-07 JP JP2013231111A patent/JP6260208B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2015090663A (en) | 2015-05-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mairesse et al. | Stochastic language generation in dialogue using factored language models | |
WO2018157703A1 (en) | Natural language semantic extraction method and device, and computer storage medium | |
CN107077841B (en) | Superstructure recurrent neural network for text-to-speech | |
US9529898B2 (en) | Clustering classes in language modeling | |
JP5620349B2 (en) | Dialogue device, dialogue method and dialogue program | |
US20080052262A1 (en) | Method for personalized named entity recognition | |
US7742924B2 (en) | System and method for updating information for various dialog modalities in a dialog scenario according to a semantic context | |
JP5403696B2 (en) | Language model generation apparatus, method and program thereof | |
US20140136210A1 (en) | System and method for robust personalization of speech recognition | |
WO2012095696A2 (en) | Text segmentation with multiple granularity levels | |
JP4872323B2 (en) | HTML mail generation system, communication apparatus, HTML mail generation method, and recording medium | |
CN109117470B (en) | Evaluation relation extraction method and device for evaluating text information | |
TW201606750A (en) | Speech recognition using a foreign word grammar | |
JP5073024B2 (en) | Spoken dialogue device | |
JP6260208B2 (en) | Text summarization device | |
JP6320397B2 (en) | Voice selection support device, voice selection method, and program | |
HaCohen-Kerner et al. | Language and gender classification of speech files using supervised machine learning methods | |
JP5243325B2 (en) | Terminal, method and program using kana-kanji conversion system for speech recognition | |
JP6619932B2 (en) | Morphological analyzer and program | |
JP5851130B2 (en) | Voice key for Japanese | |
JP2012173432A (en) | Voice interactive device and voice interactive method | |
Šoić et al. | Spoken notifications in smart environments using Croatian language | |
JP2013186673A (en) | Machine translation device and machine translation program | |
JP2004151527A (en) | Voice synthesizer, style judging device, method for synthesizing voice, method for judging style, and program | |
JPWO2018190128A1 (en) | Information processing apparatus and information processing method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160930 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170828 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170905 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20171027 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20171114 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20171127 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6260208 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |