JP2015090663A - テキスト要約装置 - Google Patents

テキスト要約装置 Download PDF

Info

Publication number
JP2015090663A
JP2015090663A JP2013231111A JP2013231111A JP2015090663A JP 2015090663 A JP2015090663 A JP 2015090663A JP 2013231111 A JP2013231111 A JP 2013231111A JP 2013231111 A JP2013231111 A JP 2013231111A JP 2015090663 A JP2015090663 A JP 2015090663A
Authority
JP
Japan
Prior art keywords
text data
text
importance
partial
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013231111A
Other languages
English (en)
Other versions
JP6260208B2 (ja
Inventor
辰彦 斉藤
Tatsuhiko Saito
辰彦 斉藤
貴弘 大塚
Takahiro Otsuka
貴弘 大塚
山浦 正
Tadashi Yamaura
正 山浦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2013231111A priority Critical patent/JP6260208B2/ja
Publication of JP2015090663A publication Critical patent/JP2015090663A/ja
Application granted granted Critical
Publication of JP6260208B2 publication Critical patent/JP6260208B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】従来の装置では、要約率または速度指令を変更することにより入力テキストにおける要約の度合いを変更できるものの、テキストデータを構成する部分テキストに付与された重要度に関しては状況に応じて動的に変更することができず、ユーザに対して要約情報を適切に提供することができない場合があるという課題があった。
【解決手段】データ処理部2が過去に入力されたテキストデータから部分テキストデータを抽出し、抽出された部分テキストデータの履歴情報がテキスト履歴データ記憶部5に記憶され、重要度変更部6がその履歴情報に基づいて重要度記憶部6に記憶される部分テキストデータの重要度を変更する。
【選択図】 図1

Description

本発明は、入力されたテキストデータを要約して要約テキストデータを生成するテキスト要約装置に関するものである。
入力されたテキストデータを要約して音声として読み上げる装置が知られている(例えば、特許文献1参照)。このような要約読み上げ装置においては、入力されたテキストに含まれる単語単位に付与された重要度を用いて、ユーザが設定した要約率になるように要約を行う。
また、入力されたテキストデータを複数の部分テキスト及び当該部分テキストに対応した複数の重要度に分割し、設定された速度指令に基づき重要度の低い部分テキストの内容をスキップして速読を行う音声合成装置が知られている(例えば、特許文献2参照)。
特開2001−282815号公報 特開平5−181491号公報
しかしながら、従来の装置では、要約率または速度指令を変更することにより入力テキストにおける要約の度合いを変更できるものの、テキストデータを構成する部分テキストに付与された重要度に関しては状況に応じて動的に変更することができなかった。そのため、重要度が低く設定された部分テキストであっても、状況によっては要約テキストに含めてユーザに提供すべきであるにも関わらず要約テキストに含まれない場合があり、その一方で、重要度が高く設定された部分テキストであっても、状況によってはユーザへ提供する必要がないにも関わらず要約テキストに含めて提供してしまう場合があり、ユーザに対し要約テキストの内容、すなわち要約情報を適切に提供することができない場合があるという課題があった。
本発明は、上述した課題を解決するためになされたものであり、ユーザに対し要約情報を適切に提供することができるテキスト要約装置を提供することを目的とする。
本発明に係るテキスト要約装置は、複数の部分テキストデータから構成されたテキストデータが入力されるデータ入力部と、部分テキストデータに付与される重要度に基づいて、データ入力部に入力されるテキストデータから1又は複数の前記部分テキストデータを抜き出して要約テキストデータを生成するデータ処理部と、過去に入力されたテキストデータに含まれる部分テキストデータの履歴情報に基づいて重要度を変更する重要度変更部と、を備え、データ処理部は、重要度変更部にて変更された重要度に基づいて要約テキストデータを生成することを特徴とする。
本発明のテキスト要約装置によれば、過去のテキストデータに含まれる部分テキストデータの履歴情報に基づいて重要度を変更するので、ユーザに対し要約情報を適切に提供することが可能となる。
実施の形態1に係るテキスト要約装置の構成例を示す図である。 実施の形態1に係る重要度の更新についての動作例を示すフローチャート 実施の形態1に係る入力テキスト及び要約テキストの例を示す図である。 実施の形態1に係る新たに入力されたテキストの例を示す図である。 実施の形態1に係るテキスト要約装置の他の構成例を示す図である。 実施の形態1に係るテキスト要約装置の他の構成例を示す図である。 実施の形態1に係るテキスト要約装置の他の構成例を示す図である。 実施の形態2に係るテキスト要約装置の構成例を示す図である。 実施の形態2に係る入力テキスト101の例を示す図である。 実施の形態2に係る解析部21の動作例を示すフローチャートである。 実施の形態2に係る解析結果テキスト102の例を示す図である。 実施の形態2に係る重要度付与部22の動作例を示すフローチャートである。 実施の形態2に係る重要度テーブル103の例を示す図である。 実施の形態2に係る重要度付きテキスト104の例を示す図である。 実施の形態2に係る部分テキストデータ選択部23の動作例を示すフローチャートである。 実施の形態2に係る要約テキスト105の例を示す図である。 実施の形態2に係るテキスト履歴106の例を示す図である。 実施の形態2に係るテキスト要約装置の他の構成例を示す図である。 実施の形態2に係るテキスト要約装置の他の構成例を示す図である。 実施の形態2に係るテキスト要約装置の他の構成例を示す図である。
実施の形態1.
以下図面を用いて本発明の実施の形態1を説明する。
図1は実施の形態1に係るテキスト要約装置の構成例を示す図である。テキスト要約装置100は、テキストデータ入力部1と、データ処理部2と、重要度記憶部3と、要約度変更部4と、テキスト履歴データ記憶部5と、重要度変更部6とを備える。テキスト要約装置100は、例えばナビゲーション装置に搭載される装置またはナビゲーション装置自体等が該当するが、これに限定されるものではなく、テキストデータが入力されて、その要約テキストの内容である要約情報をユーザに提供するものであれば何でもよい。なお、要約情報の提供とは、要約テキストの内容を文書として提供することに限らず、要約テキストの内容を音声として提供すること等も含む。
テキストデータ入力部1には、テキストデータが入力される。ここで入力されるテキストデータは、例えば、ニュース等のWeb情報、地震速報等の緊急情報、天気情報、周辺の施設情報等の内容を表す文書のデータが該当する。テキストデータは複数の部分テキストデータにより構成されている。部分テキストは、例えば文、文を構成する文節、または文節を構成する単語が該当する。なお、テキストデータは、例えばテキスト要約装置100がサーバ等に要求することによりテキストデータ入力部1に入力される。
データ処理部2は、入力テキストデータを構成する部分テキストデータに付与される重要度に基づいて、データ入力部1に入力されるテキストデータから1または複数の部分テキストデータを抜き出して要約テキストデータを生成する。ここで、重要度は、ユーザに提示すべき度合いを表す指標である。したがって、テキストデータのうち重要度が高い部分テキストデータは、要約テキストデータに含めてユーザに提示すべきデータであるといえる。
重要度記憶部3には、部分テキストデータと重要度が対応付けて記憶され、例えばメモリ等により実現される。重要度は、例えば、過去に入力された多数のテキストにおける単語の出現回数から学習することにより設定してもよいし、ユーザが任意に設定してもよい。部分テキストが文または文節の場合であっても、文または文節を構成する単語の重要度の和としたり、重要度の和を単語数で割って正規化すること等により、文または文節単位での重要度を求めることができるので、重要度記憶部3は結果として部分テキストデータに対応する重要度を記憶するといえる。なお、重要度記憶部3に記憶される重要度に関する情報は、例えばデータ処理部2が保持するような構成であってもよい。また、部分テキストが単語である場合は、過去に入力されたテキストに含まれる単語だけではなく、その単語との共起を考慮して重要度を記憶するようにしてもよい。
また、重要度は、入力された1つのテキスト内における単語の出現回数から設定してもよい。また、TF−IDF(Term Frequency−Inverse Document Frequency)により求めた値を重要度としてもよい。また、重要度記憶部3には、単語の情報とともに品詞情報も合わせて記憶されるようにしてもよく、また、文書を特徴づける名詞や形容詞については重要度を高くするようにしてもよい。
要約度変更部4は、設定された要約度の値を変更する。要約度とは、ユーザに提示する要約度合いを表す指標であり、値が高いほどユーザに提供される要約テキストが短くなる。この要約度は、例えばテキスト要約装置がナビゲーション装置であれば、ユーザがダイヤルやボタンによりその度合いを設定できる。ただし、要約度は必ずしも変更されなくてもよく、データ処理部2が予め設定された要約度を固定値として記憶しておくようにしてもよい。以下では、要約度は固定値として説明を行う。
テキスト履歴データ記憶部5には、データ処理部2で抜き出された部分テキストデータとその出現回数をテキスト履歴データ(履歴情報)として記憶される。なお、以下の説明では、部分テキストデータとその出現回数を履歴情報として説明するが、これに限らない。例えば、出現回数に基づき算出した重要度変更のための重み付け値等が履歴情報としてテキスト履歴データ記憶部5に記憶されていてもよい。また、部分テキストデータが文または文節である場合、文または文節を構成する単語毎の出現回数を履歴情報としてテキスト履歴データ記憶部5に記憶してもよい。
重要度変更部6は、重要度記憶部3に記憶される部分テキストデータの重要度のうち、データ処理部2で抜き出された1または複数の部分テキストデータの重要度を、テキスト履歴データ記憶部5に記憶された部分テキストデータの履歴情報に基づき変更する。
次に、実施の形態1における重要度の変更処理についての動作について説明する。図2は実施の形態1に係る重要度の変更についての動作例を示すフローチャートである。
まず、テキストデータ入力部1にテキストデータが入力される(ステップST1)。図3は実施の形態1に係る入力テキスト及び要約テキストの例を示す図である。図3に示すように、入力テキストは複数の部分テキストから構成される。部分テキスト1は「ABCDEFG」であり、部分テキスト2は「HIJKLMN」であり、部分テキスト3は「OPQRSTU」である。
次に、データ処理部2は、入力されたテキストデータから部分テキストデータを抽出し(ステップST2)、抽出した部分テキストデータの重要度を重要度記憶部3から取得し、要約度と比較する(ステップST3)。図3の例では、データ処理部2は、入力テキストデータから部分テキスト1に対応する部分テキストデータを抽出し、重要度記憶部3から対応する重要度を取得する。ここでは部分テキスト1に対応する部分テキストデータの重要度を3.5とし、要約度は3.0とする。なお、以下では部分テキストデータに付与された重要度を、単に、部分テキストの重要度と表現することもある。
データ処理部2は、抽出した部分テキストデータの重要度が要約度よりも高い場合(ステップST4−Yes)、その部分テキストデータとその出現回数をテキスト履歴データ記憶部5に履歴情報として記憶する(ステップST5)。図3の例では、部分テキスト1の重要度は要約度より高いので、データ処理部2は、部分テキスト1「ABCDEFG」と出現回数「1」を履歴情報としてテキスト履歴データ記憶部5に記憶する。
データ処理部2は、残りの部分テキストデータがある場合(ステップST6−Yes)、ステップST2からステップST5までの処理を再度行う。図3の例では、部分テキスト1以外の残りの部分テキストデータが残っているので、データ処理部2は、次の部分テキスト2のデータに対して部分テキスト1と同様の処理を行う。その次は、部分テキスト3のデータに対して部分テキスト1、2と同様の処理を行う。ここでは、部分テキスト2の重要度は2.0で要約度3.0より低く、部分テキスト3の重要度は3.2で要約度3より高いものとする。そのため、データ処理部2は入力テキストデータから部分テキスト1と部分テキスト3のデータを抜き出すので、テキスト履歴データ記憶部5には結果として、部分テキスト1「ABCDEFG」と出現回数「1」及び部分テキスト3「OPQRSTU」と出現回数「1」が履歴情報として記憶される。
データ処理部2は、残りの部分テキストデータがない場合は(ステップST6−No)、要約テキストデータを作成する(ステップST7)。図3の例では、入力されたテキストデータのうち、部分テキスト1、3の部分テキストデータが抜き出されているので、要約テキスト「ABCDEFG OPQRSTU」に対応する要約テキストデータが作成される。
重要度変更部6は、テキスト履歴データ記憶部5に記憶されている部分テキストデータの履歴情報に基づき、重要度記憶部3に記憶されている重要度を変更する(ステップST8)。図3の例では、テキスト履歴データ記憶部5には、部分テキスト1「ABCDEFG」、部分テキスト3「OPQRSTU」の出現回数「1」が記憶されており、重要度変更部6は、重要度記憶部3に記憶される部分テキスト「ABCDEFG」、「OPQRSTU」の重要度をそれぞれ2.5、2.2に変更するものとする。
重要度変更部6は、入力されたテキストデータがユーザにとって重要な情報であればそのテキストデータに含まれる部分テキストデータの重要度を高くするよう変更し、ユーザにとって重要でなければ部分テキストデータの重要度を低くするように変更する。詳細は後述するが、ここでは、重要度変更部6は、テキスト履歴データ記憶部5に記憶される部分テキストデータの出現回数が多いほど、重要度記憶部3に記憶される部分テキストデータの重要度が低くなるよう変更するものとして説明する。
なお、ここでは図3に示すテキストデータが入力された場合での重要度の変更について説明したが、この重要度は、テキストデータが新たに入力され要約テキストデータが作成される毎に更新される。例えば新たに部分テキスト「ABCDEFG」を含むテキストデータが入力され要約テキストデータとして抽出されると、テキスト履歴データ記憶部5に記憶される「ABCDEFG」の出現回数は「2」に変更される。そして、重要度変更部6は、出現回数「2」に基づいて、重要度記憶部3に記憶される部分テキスト「ABCDEFG」の重要度がさらに低くなるよう変更する。
また、図2ではステップST7の要約テキストデータ作成の後でステップST8の重要度変更を行うものとして説明したが、これらの処理の順序は任意であり、もしくはこれらの処理が並列になされてもよい。また、ステップST3からST7では、抽出した部分テキストデータの重要度と要約度とを比較し、重要度が要約度よりも高い場合にテキスト履歴データ記憶部5に履歴情報を記憶し、要約テキストデータを構成する部分テキストデータとして選択するものとして説明したが、これに限らない。例えば、重要度と要約度を比較しなくても、入力されたテキストデータを構成する部分テキストデータのうち、相対的に重要度の高い部分テキストデータをn(nは任意の整数)個抽出して要約テキストデータを作成するとともにテキスト履歴データ記憶部5に履歴情報を記憶するようにしてもよい。その場合は、部分テキストデータの抽出において要約度は必要ないこととなる。
次に、新たにテキストデータが入力された場合における要約テキストデータ生成処理の動作について説明する。図4は実施の形態1に係る新たに入力されたテキストの例を示す図である。図3に示すテキストデータは、図4に示す新たに入力されたテキストデータと区別するため、以降の説明では過去に入力されたテキストデータと呼ぶことにする。なお、図3の入力テキストと図4の入力テキストは類似する内容であるが、図4の入力テキストは、図3に示す過去に入力されたテキストと比べて異なる部分テキスト「VWXYZ」を含む点で相違する。なお、類似内容のテキストデータが入力される状況としては、例えば、類似内容であるが発信元が異なるWebニュース等が入力される状況が想定される。
新たにテキストデータが入力されると、まずは、図2のステップST1からST3までの処理がなされる。ステップST3では、データ処理部2が、新たに入力されたテキストデータから抽出した部分テキストデータの重要度と、要約度とを比較する。ここでの重要度は、過去に入力されたテキストデータに含まれる部分テキストデータの履歴情報に基づいて重要度変更部6により変更された値となる。図4の例では、部分テキスト1と部分テキスト3の重要度は過去に入力された部分テキスト1、部分テキスト3の履歴情報に基づき、それぞれ2.5、2.2と低く変更されているので、要約度3.0よりも小さくなる。また、部分テキスト2の重要度は過去に入力されたテキストデータによっては変更されていないので、2.0のままとなる。なお、部分テキスト4「VWXYZ」の重要度は2.8とする。
新たに入力されたテキストデータを構成する部分テキストデータの重要度はいずれも要約度より高くならないので、ステップST4以降の処理は行われない。従って、データ処理部2は、新たに入力されたテキストデータから要約テキストデータを生成しなくなるので、過去に入力されたテキストデータから生成した要約テキストと同一または類似内容の要約テキストを繰り返し提供することを防止でき、ユーザに対し要約情報を適切に提供することが可能となる。
なお、これまでは、過去に入力されたテキストデータの履歴情報に基づいて重要度変更部6が部分テキストの重要度を低くする例について説明したが、重要度を高くするように変更してもよい。そうすることにより、過去に入力されたテキストデータと類似内容のテキストデータが新たに入力された場合であっても、新たに入力されたテキストデータを構成する部分テキストデータの重要度は高く変更されているので、データ処理部2は、過去の要約テキストと同一または類似する内容の要約テキストを生成してユーザに提供することができる。
特に、入力テキストデータが緊急地震速報等の緊急情報に関するテキストデータの場合においては、過去にユーザに提供されていたとしても繰り返し提供する必要があることが多い。そういった場合であっても、緊急情報に関する要約テキストの内容を繰り返し提供でき、ユーザに対し要約情報を適切に提供することが可能となる。
以上より、実施の形態1によれば、重要度変更部6が、過去に入力されたテキストデータに含まれる部分テキストデータの履歴情報に基づいて、重要度記憶部3に記憶される部分テキストデータの重要度を変更するので、新たにテキストデータが入力された場合において、そのテキストの要約情報がユーザとって必要であれば積極的に提供し、必要でなければ提供しないようになるので、ユーザに対し要約情報を適切に提供することが可能となる。
図5は実施の形態1に係るテキスト要約装置の他の構成例を示す図である。図5に示すように、テキスト要約装置110は音声合成部(音声生成部)7を備えていてもよい。
音声合成部7は、データ処理部2で生成された要約テキストデータに基づき、要約テキストの内容を音声合成して外部に出力する。図3の例では、「ABCDEFG OPQRSTU」を音声としてユーザに提供する。
そうすることにより、ユーザは音声によって要約内容を聴くことができるので、例えばテキスト要約装置がナビゲーション装置であれば、ユーザは運転中にナビ画面を見ることなく要約情報の提供を受けることができ、安全な走行が可能となる。
図6は実施の形態1に係るテキスト要約装置の他の構成例を示す図である。図6に示すように、テキスト要約装置120は操作履歴記憶部8と嗜好キーワード抽出部9とを備えていてもよい。
操作履歴記憶部8は、過去のユーザ操作履歴が記憶される。ユーザ操作履歴とは、例えばナビゲーション装置おいては、目的地の設定操作、車内で流す音楽CDの選択等が該当する。
嗜好キーワード抽出部9は、操作履歴記憶部8に記憶される操作履歴の情報から、ユーザの嗜好を表すキーワードを抽出する。例えばユーザが音楽CDとしてアーティスト「XXX」の曲を選択操作した場合、嗜好キーワード抽出部9は、嗜好キーワードとして「XXX」を抽出し、テキスト履歴データ記憶部5に履歴情報として記憶する。重要度変更部6は、テキスト履歴データ記憶部5に記憶される履歴情報に基づき、重要度記憶部3に記憶される部分テキストデータの重要度のうち、嗜好キーワードに対応するテキストデータを構成する部分テキストデータの重要度が高くなるよう変更する。
そうすることにより、アーティスト「XXX」に関するテキストデータが入力された場合において、その要約テキストデータが生成されやすくなり、ユーザの興味のある事項についての要約情報を適切に提供することが可能となる。
図7は実施の形態1に係るテキスト要約装置の他の構成例を示す図である。図7に示すように、テキスト要約装置130は、音声認識キーワード抽出部10を備えていてもよい。
音声認識キーワード抽出部10は、外部からの音声を認識して音声認識情報をテキストデータとして抽出し、そのテキストデータを構成する部分テキストデータの履歴情報をテキスト履歴データ記憶部5に記憶する。ここで、外部からの音声とは、例えば車内外の会話、ラジオの内容、またはCDによる音声等が該当する。このような外部からの音声は、ユーザによって関心のある内容として考えられることができる。そのため、重要度変更部6は、テキスト履歴データ記憶部5に記憶される履歴情報に基づき、重要度記憶部3に記憶される部分テキストデータの重要度のうち、音声認識キーワード抽出部10で抽出されたキーワードに対応するテキストデータを構成する部分テキストデータの重要度が高くなるよう変更する。
そうすることにより、音声認識されたキーワードに関するテキストデータが入力された場合において、その要約テキストデータが生成されやすくなり、ユーザの関心の高い事項についての要約情報を適切に提供することが可能となる。なお、音声認識されたキーワードは既に話題となった内容と考える場合は、重要度変更部6が当該キーワードに関する部分テキストデータの重要度を低くするように変更してもよい。
実施の形態2.
以下図面を用いて本発明の実施の形態2について説明する。
図8は実施の形態2に係るテキスト要約装置の構成例を示す図である。実施の形態2のテキスト要約装置200は、データ処理部2は、解析部21と、重要度付与部22と、要約テキストデータ選択部23と、要約テキストデータ記憶部24とを備える点で実施の形態1のテキスト要約装置100と異なる。なお、その他の構成については実施の形態1と同様であるので図1と同一の符号を付してその説明を省略する。
解析部21は、テキストデータ入力部1に入力されたテキストデータの文章解析(言語解析)を行う。つまり、解析部21は、テキストデータを部分テキストデータに分割する。
重要度付与部22は、解析部21にて文章解析された部分テキストデータに対して、重要度記憶部3に記憶される重要度を用いて、解析部21にて生成された部分テキストデータに重要度を付与する。
部分テキストデータ選択部23は、重要度付与部22にて重要度が付与された各部分テキストデータのうち、要約度変更部4から入力された要約度よりも高い重要度を持つ部分テキストデータを選択して要約テキストデータに含める。
要約テキストデータ記憶部24は、部分テキストデータ選択部23により選択された部分テキストデータから構成される要約テキストデータを記憶する。
次に、実施の形態2においてテキストデータが入力されてから部分テキストデータの履歴情報が記憶されるまでの動作について説明する。図9は入力テキスト101の例を示す図である。以下の説明では、部分テキストは文節単位で表されるものとして説明を行うが、実施の形態1でも説明したとおり、部分テキストは文単位であってもよいし、単語単位であってもよい。
図10は実施の形態2に係る解析部21の動作例を示すフローチャートである。解析部21は、まず、テキストデータ入力部1に入力された図9に示すテキストを文に分割する(ステップST21)。文への分割は、例えば句点で分割することにより実現可能である。
次に、解析部21は、文に分割したテキストをさらに文節単位に分割する(ステップST22)。文から文節への分割は、例えばKNP、CaboCha等の構文解析器を用いればよい。なお、構文解析器とは、文がどのような構造から成っているのかを解析し、その構造を出力するものである。
続いて、解析部21は、文節に分割したテキストをさらに単語単位に分割する(ステップST23)。文節から単語への分割には、例えばMecab等の形態素解析器を用いればよい。なお、形態素解析器とは、文がどのような単語、品詞から成っているかを解析するものである。
解析部21は、言語解析の結果として、解析結果テキストを作成する。図11は実施の形態2に係る解析結果テキスト102の例を示す図である。図11に示すように、入力テキスト101は、解析部21による解析の結果、「新型/ロケット/「/イプシロン/」・・・」のように、単語単位に分割される。図11において、「/」は単語の区切れを表し、「//」は文節の区切れを表し、「///」は文の区切れを表す。
図12は実施の形態2に係る重要度付与部22の動作例を示すフローチャートである。重要度付与部22には、まず、解析部21によって単語単位に分割された解析済みテキストのデータが入力される(ステップST31)。
次に、重要度付与部22は、重要度記憶部3に記憶される重要度テーブルの重要度を用いて、解析部21に分割された各単語に重要度を付与する(ステップST32)。図13は重要度テーブル103の例を示す図である。図13の例では、重要度記憶部3には、単語に対応して重要度が記憶されている。例えば単語「新型」については重要度15、単語「ラーメン」については重要度2、のように与えられている。
重要度付与部22は、解析結果テキスト102に重要度を付与することにより、重要度付きテキストを作成する。図14は実施の形態2に係る重要度付きテキスト104の例を示す図である。図14に示すように、1つ目の文節「新型ロケット「イプシロン」初号機が」の重要度は、単語「新型」、「ロケット」、「「」、「イプシロン」、「」」、「初号」、「機」、「が」にそれぞれ付与された重要度の和を単語数で割って正規化した値0.7となる。同様に、2つ目の文節「14日午後2時、」の重要度は0.2、3つ目の文節「鹿児島県肝付町の宇宙航空研究開発機構内乃浦宇宙空間観測所で」の重要度は「0.4」、4つ目の文節「打ち上げられた」の重要度は1.0となる。このように、重要度付与部22は、部分テキストとしての文節に対して重要度を付与する。
また、重要度付与部22は、各文節の重要度の和を文節数で割って正規化することにより、文「新型ロケット「イプシロン」初号機が14日午後2時、鹿児島県肝付町の宇宙航空研究開発機構内乃浦宇宙空間観測所で打ち上げられた」の重要度を0.6と求めることができる。なお、ここでは重要度を正規化して求めたが、これに限定されない。
図15は実施の形態2に係る部分テキストデータ選択部23の動作例を示すフローチャートである。部分テキストデータ選択部23は、まず、要約度変更部4から入力された文の要約度と、文の重要度とを比較する(ステップST41)。テキストデータ選択部23は、比較の結果、文の重要度が文の要約度以上であれば(ステップST41−Yes)、ステップST42の処理を行う一方で、文の重要度が文の要約度よりも小さければ(ステップST41−No)、ステップST46の処理に移る。ここでは文の要約度は0.5とする。そうすると、図14の例では、1つ目の文の重要度は0.6であり文の要約度以上となるので、ステップST42の処理へ移る。なお、要約度については、要約度変更部4から入力された値ではなく、部分テキストデータ選択部23が予め保有している値であってもよい。
次に、部分テキストデータ選択部23は、ステップST41で選択された文に含まれる文節の重要度と、文節の要約度とを比較する(ステップST42)。文節の要約度は文の要約度と同じ値であってもよいし、異なる値として文の要約度とは別に設定されていてもよい。ここでは文節の要約度は文の要約度と同じ0.5とする。図14の例では、1つ目の文節「新型ロケット「イプシロン」初号機が」の重要度は0.6で要約度以上であるので(ステップST43−Yes)、1つ目の文節の内容に該当する部分テキストデータが要約テキストデータ記憶部24に記憶され(ステップST43)、1つ目の文節の内容に該当する部分テキストデータとその出現回数が履歴情報としてテキスト履歴データ記憶部5に記憶される(ステップST44)。
部分テキストデータ選択部23による重要度と要約度との比較対象である文が最後である場合、処理が終了する(ステップST46−Yes)。ここでは最後の文ではないため(ステップST46−No)、次の文節に処理が移る(ステップST45)。
次に部分テキストデータ選択部23は、2つ目の文節「14日午後2時、」の重要度と文節の要約度とを比較する(ステップST42)。2つ目の文節の重要度は0.2であり文節の要約度よりも小さいので(ステップST42−No)、次の文節に処理が移る(ステップST45)。3つ目の文節「鹿児島県肝付町の宇宙航空研究開発機構内之浦宇宙空間観測所で」についても重要度が0.4で文節の要約度よりも小さいので、2つ目の文節と同様の処理がなされる。4つ目の文節「打ち上げられた。」の重要度は1.0で文節の要約度以上であるので、1つ目の文節と同様の処理がなされる。
2つ目の文以降についても1つ目の文と同様の処理がなされ、入力テキスト内の全ての文について同様の処理がなされると(ステップST46−Yes)、部分テキストデータ選択部23の処理は終了する。
部分テキストデータ選択部23による部分テキスト選択処理の結果、要約テキストデータ記憶部24には要約テキストデータが記憶される。図16は実施の形態2に係る要約テキスト105の例を示す図である。図16に示すように、要約テキストは、部分テキストデータ選択部23により選択された部分テキスト、つまり、1つ目の文節「新型ロケット「イプシロン」初号機が」と4つ目の文節「打ち上げられた。」から構成される。
また、部分テキストデータ選択部23による履歴情報の記録(ステップST44)により、テキスト履歴データ記憶部5には部分テキストデータの出現回数がテキスト履歴として記憶される。図17は実施の形態2に係るテキスト履歴106の例を示す図である。図17に示すように、1つ目の文節内の単語「新型」、「ロケット」、「イプシロン」、「初号」「機」についての出現回数「1」が記憶される。また、4つ目の文節内の単語「打ち上げ」についての出現回数「1」が記憶される。2つ目以降の文についても同様である。
以上より、実施の形態2によれば、解析部21により言語解析して分割された部分テキストデータに対して、重要度付与部22により重要度が付与され、その重要度に基づいて部分テキストデータ選択部23が部分テキストデータを選択して履歴情報を履歴データ記憶部5に記憶するので、実施の形態1と同様の効果を奏する。また、解析部21は言語解析を行って入力テキストデータを部分テキストデータに分割するので、文章構造が考慮された部分テキストデータの履歴情報の記憶が可能となる。
図18は実施の形態2に係るテキスト要約装置の他の構成例を示す図である。図18に示すように、実施の形態2のテキスト要約装置210においても、音声合成部7を備えていてもよい。なお、実施の形態2の音声合成部7は実施の形態1と同様であるので図5と同一の符号を付してその説明を省略する。
図19は実施の形態2に係るテキスト要約装置の他の構成例を示す図である。図19に示すように、実施の形態2のテキスト要約装置220においても、嗜好キーワード抽出部9を備えていてもよい。なお、実施の形態2の嗜好キーワード抽出部9は実施の形態1と同様であるので図6と同一の符号を付してその説明を省略する。
図20は実施の形態2に係るテキスト要約装置の他の構成例を示す図である。図20に示すように、実施の形態2のテキスト要約装置230においても、音声認識キーワード抽出部10を備えていてもよい。なお、実施の形態2の音声認識キーワード抽出部10は実施の形態1と同様であるので図7と同一の符号を付してその説明を省略する。
1 テキストデータ入力部、2 データ処理部、3 重要度記憶部、4 要約度変更部、5 テキスト履歴データ記憶部、6 重要度変更部、7 音声合成部、8 操作履歴記憶部、9 嗜好キーワード抽出部、10 音声認識キーワード抽出部、21解析部、22 重要度付与部、23 部分テキストデータ選択部、24 要約テキストデータ記憶部、100、110、120、130、200、210、220、230 テキスト要約装置

Claims (9)

  1. 複数の部分テキストデータから構成されたテキストデータが入力されるデータ入力部と、
    前記部分テキストデータに付与される重要度に基づいて、前記データ入力部に入力されるテキストデータから1又は複数の前記部分テキストデータを抜き出して要約テキストデータを生成するデータ処理部と、
    過去に入力されたテキストデータに含まれる前記部分テキストデータの履歴情報に基づいて前記重要度を変更する重要度変更部と、を備え、
    前記データ処理部は、前記重要度変更部にて変更された前記重要度に基づいて前記要約テキストデータを生成することを特徴とするテキスト要約装置。
  2. 前記部分テキストデータに付与される前記重要度を記憶する重要度記憶部を有し、
    前記重要度変更部は、前記重要度記憶部に記憶された前記重要度のうち、前記過去に入力されたテキストデータに含まれる前記部分テキストデータに対応する前記重要度を変更することを特徴とする請求項1に記載のテキスト要約装置。
  3. 前記重要度変更部は、前記過去に入力されたテキストデータの情報がユーザにとって重要な情報である場合は前記過去に入力されたテキストデータに含まれる前記部分テキストデータの前記重要度を高くし、前記過去に入力されたテキストデータの情報がユーザにとって重要な情報でない場合は前記過去に入力されたテキストデータに含まれる前記部分テキストデータの前記重要度を低くすることを特徴とする請求項2に記載のテキスト要約装置。
  4. 前記重要度変更部は、前記過去に入力されたテキストデータがWeb情報に関するテキストデータである場合は、前記重要度記憶部に記憶された前記重要度のうち、前記過去に入力されたテキストデータに含まれる前記部分テキストデータに対応する前記重要度を低くすることを特徴とする請求項3に記載のテキスト要約装置。
  5. 前記重要度変更部は、前記過去に入力されたテキストデータが緊急情報に関するテキストデータである場合は、前記重要度記憶部に記憶された前記重要度のうち、前記過去に入力されたテキストデータに含まれる前記部分テキストデータに対応する前記重要度を高くすることを特徴とする請求項3または4に記載のテキスト要約装置。
  6. ユーザによる過去の操作履歴からユーザの嗜好情報をテキストデータとして抽出する嗜好情報抽出部を備え、
    前記重要度変更部は、前記重要度記憶部に記憶された前記重要度のうち、前記嗜好情報抽出部により抽出された前記嗜好情報に関するテキストデータに含まれる前記部分テキストデータに対応する前記重要度を高くすることを特徴とする請求項3乃至5のいずれかに記載のテキスト要約装置。
  7. 外部からの音声を認識して音声認識情報をテキストデータとして抽出する音声認識情報抽出部を備え、
    前記重要度変更部は、前記重要度記憶部に記憶された前記重要度のうち、前記音声認識情報抽出部により抽出された前記音声認識情報に関するテキストデータに含まれる前記部分テキストデータに対応する前記重要度を高くすることを特徴とする請求項3乃至6のいずれかに記載のテキスト要約装置。
  8. 前記データ処理部は、
    前記データ入力部に入力されたテキストデータを解析してテキストデータを文、文節、または単語である複数の部分テキストデータに分割する解析部と、
    前記解析部により分割された前記複数の部分テキストデータに対して、前記重要度記憶部に記憶された前記重要度を付与する重要度付与部と、
    前記複数の部分テキストデータのうち、前記重要度付与部で付与された前記重要度が設定値よりも大きい値をもつ前記部分テキストデータを選択する部分テキストデータ選択部とを有することを特徴とする請求項2乃至7のいずれかに記載のテキスト要約装置。
  9. 前記データ処理部によって生成された前記要約テキストデータに基づき要約テキストの内容を音声合成して出力する音声合成部を備えることを特徴とする請求項1乃至8のいずれかに記載のテキスト要約装置。
JP2013231111A 2013-11-07 2013-11-07 テキスト要約装置 Active JP6260208B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013231111A JP6260208B2 (ja) 2013-11-07 2013-11-07 テキスト要約装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013231111A JP6260208B2 (ja) 2013-11-07 2013-11-07 テキスト要約装置

Publications (2)

Publication Number Publication Date
JP2015090663A true JP2015090663A (ja) 2015-05-11
JP6260208B2 JP6260208B2 (ja) 2018-01-17

Family

ID=53194137

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013231111A Active JP6260208B2 (ja) 2013-11-07 2013-11-07 テキスト要約装置

Country Status (1)

Country Link
JP (1) JP6260208B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017054509A (ja) * 2015-09-09 2017-03-16 ウバープル カンパニー リミテッド 文抽出方法及びシステム
JP2019053558A (ja) * 2017-09-15 2019-04-04 ヤフー株式会社 学習装置、学習方法、学習プログラム、第1のモデルおよび第2のモデル
KR102280488B1 (ko) * 2020-11-19 2021-07-22 주식회사 두유비 문장 우선 순위와 키워드 중요도를 기반으로 한 대화문 요약 방법

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1145290A (ja) * 1997-07-28 1999-02-16 Just Syst Corp 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法
JPH1145289A (ja) * 1997-07-28 1999-02-16 Just Syst Corp 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法
JP2002259112A (ja) * 2001-02-15 2002-09-13 Internatl Business Mach Corp <Ibm> デジタル文書閲覧システム、ブラウザ、文章要約システム、デジタル文書表示方法、文章要約方法、プログラム及び記憶媒体
WO2007132690A1 (ja) * 2006-05-17 2007-11-22 Nec Corporation 音声データ要約再生装置、音声データ要約再生方法および音声データ要約再生用プログラム
JP2010231508A (ja) * 2009-03-27 2010-10-14 Kddi Corp 重要度判定装置、重要度判定方法、およびプログラム
JP2013090019A (ja) * 2011-10-14 2013-05-13 Hitachi Consumer Electronics Co Ltd 映像出力装置および映像出力方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1145290A (ja) * 1997-07-28 1999-02-16 Just Syst Corp 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法
JPH1145289A (ja) * 1997-07-28 1999-02-16 Just Syst Corp 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法
JP2002259112A (ja) * 2001-02-15 2002-09-13 Internatl Business Mach Corp <Ibm> デジタル文書閲覧システム、ブラウザ、文章要約システム、デジタル文書表示方法、文章要約方法、プログラム及び記憶媒体
WO2007132690A1 (ja) * 2006-05-17 2007-11-22 Nec Corporation 音声データ要約再生装置、音声データ要約再生方法および音声データ要約再生用プログラム
JP2010231508A (ja) * 2009-03-27 2010-10-14 Kddi Corp 重要度判定装置、重要度判定方法、およびプログラム
JP2013090019A (ja) * 2011-10-14 2013-05-13 Hitachi Consumer Electronics Co Ltd 映像出力装置および映像出力方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017054509A (ja) * 2015-09-09 2017-03-16 ウバープル カンパニー リミテッド 文抽出方法及びシステム
JP2018081702A (ja) * 2015-09-09 2018-05-24 ウバープル カンパニー リミテッド 文抽出方法及びシステム
JP2019053558A (ja) * 2017-09-15 2019-04-04 ヤフー株式会社 学習装置、学習方法、学習プログラム、第1のモデルおよび第2のモデル
KR102280488B1 (ko) * 2020-11-19 2021-07-22 주식회사 두유비 문장 우선 순위와 키워드 중요도를 기반으로 한 대화문 요약 방법

Also Published As

Publication number Publication date
JP6260208B2 (ja) 2018-01-17

Similar Documents

Publication Publication Date Title
US10726833B2 (en) System and method for rapid customization of speech recognition models
JP6923332B2 (ja) 自動通訳方法及び装置
Mairesse et al. Stochastic language generation in dialogue using factored language models
WO2018157703A1 (zh) 自然语言的语义提取方法及装置和计算机存储介质
US9529898B2 (en) Clustering classes in language modeling
CN102549652B (zh) 信息检索装置
JP5620349B2 (ja) 対話装置、対話方法および対話プログラム
EP2437181A1 (en) Automatic language model update
US20140136210A1 (en) System and method for robust personalization of speech recognition
CN109741735B (zh) 一种建模方法、声学模型的获取方法和装置
US7742924B2 (en) System and method for updating information for various dialog modalities in a dialog scenario according to a semantic context
EP2643770A2 (en) Text segmentation with multiple granularity levels
WO2018093692A1 (en) Contextual dictionary for transcription
TW201606750A (zh) 使用外國字文法的語音辨識
CN109117470B (zh) 一种评价文本信息的评价关系提取方法及装置
JP6260208B2 (ja) テキスト要約装置
JP6320397B2 (ja) 音声選択支援装置、音声選択方法、およびプログラム
JP2012037790A (ja) 音声対話装置
JP5243325B2 (ja) 音声認識に仮名漢字変換システムを用いた端末、方法及びプログラム
JP5851130B2 (ja) 日本語のための音声キー
JP6619932B2 (ja) 形態素解析装置およびプログラム
JP2019101619A (ja) 対話ログ群からコンテキストを決定可能な対話シナリオ生成装置、プログラム及び方法
Šoić et al. Spoken notifications in smart environments using Croatian language
JPWO2018190128A1 (ja) 情報処理装置および情報処理方法
JP5392780B2 (ja) コンテンツ構造化処理方法、コンテンツ構造化処理装置及びコンテンツ構造化処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160930

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170828

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170905

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171027

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171114

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171127

R151 Written notification of patent or utility model registration

Ref document number: 6260208

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250