JP5201727B2 - 文書要約装置、文書要約方法、プログラムおよび記録媒体 - Google Patents

文書要約装置、文書要約方法、プログラムおよび記録媒体 Download PDF

Info

Publication number
JP5201727B2
JP5201727B2 JP2008182600A JP2008182600A JP5201727B2 JP 5201727 B2 JP5201727 B2 JP 5201727B2 JP 2008182600 A JP2008182600 A JP 2008182600A JP 2008182600 A JP2008182600 A JP 2008182600A JP 5201727 B2 JP5201727 B2 JP 5201727B2
Authority
JP
Japan
Prior art keywords
document
level
issuer
reduction rate
viewer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008182600A
Other languages
English (en)
Other versions
JP2010020678A (ja
Inventor
吉秀 佐藤
晴美 川島
俊之 坂井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2008182600A priority Critical patent/JP5201727B2/ja
Publication of JP2010020678A publication Critical patent/JP2010020678A/ja
Application granted granted Critical
Publication of JP5201727B2 publication Critical patent/JP5201727B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、文書の発行者と閲覧者との語彙力や読解力の差異に応じて、文書を要約するためにデータ量を削減する度合いを決定する技術に関する。
文書要約を行う場合、規定の要約率、またはユーザが指定した要約率に応じて、要約が行われる。上記要約率は、要約前のデータの大きさに対して、要約後のデータの大きさが占める割合であり、要約の度合いを示す数値である。
第1の既存技術では、ユーザが直接的に要約率を指定することによって、文書の要約を行っている(たとえば、特許文献1参照)。
第2の既存技術では、ユーザから、要約率または要約時間を入力させている。上記要約時間は、映像や音声等のコンテンツの要約において、ユーザが取得したい要約映像(または音声)の長さである。指定した時間の長さに収まるような要約結果を出力する技術である(たとえば、特許文献2参照)。
一方、第3の既存技術では、人間の発話を記録した音声コンテンツを要約する場合、規定の要約率や閲覧者が指定する要約率等に基づかない要約技術である(たとえば、特許文献3参照)。予め、平静状態における発話と、強調状態における発話とを区別して与え、状態毎の発話の特徴量を算出して学習させる。続いて、要約しようとする音声データのある区間が、要約結果として残すべき強調状態であるか、削除してもよい平静状態であるかを、学習結果に基づいて自動的に判別し、要約結果を生成する。第1、第2の既存技術が、要約率または要約結果長の指定に基づく要約であるのに対し、本既存技術は、残す必要があると判断した区間を、全て出力するという絶対的な判断基準に基づく要約方法である。
特開2002−259371号公報 特許第3977664号公報 特許第3803311号公報
上記第1および第2の既存技術は、所望の要約結果を得るためには、閲覧者が、要約率または要約結果のサイズを直接的に指定する必要がある。したがって、最適な要約結果を得るためには、必要に応じて試行を繰り返す必要があり、大きな手間が発生するという問題がある。特に、一度に多くの対象(文書や音声コンテンツ等)を要約しようとする場合、上記試行を繰り返す手間が煩雑になり、閲覧者への負担を強いるという問題がある。
一方、上記第3の既存技術は、絶対的な判断基準によって要約を生成するので、要約結果として残す必要があると判断した区間の数が非常に多いか、逆に非常に少なければ、サイズの大きな、または小さな要約結果しか得られない可能性があり、内容を把握するのに適した要約率の要約結果が得られない場合があるという問題がある。また、一度に多くの対象(文書や音声コンテンツ等)の要約を行う場合にも、絶対的な判断基準で一律に要約を行うので、対象毎、または要約結果を利用する閲覧者毎に適した要約結果を得るためには、多大の労力を要するという問題がある。
本発明は、要約対象と、要約結果を利用する閲覧者との関係を考慮し、要約対象毎に適切な要約の度合いを決定し、要約対象に応じた適切な要約結果を得ることができる文書要約装置を提供することを目的とする。
本発明は、文書IDと文書とを記録している文書データベースから、文書を取得し、この取得した文書中に出現する専門用語の頻度と、上記専門用語の難易度とに基づいて、上記取得された文書の難易度を決定する文書難易度決定手段と、閲覧者による過去の閲覧履歴を記録している閲覧履歴データベースから、閲覧者による過去の文書閲覧回数を取得し、上記文書閲覧回数に応じた閲覧者レベルを決定する閲覧者レベル決定手段と、上記文書の難易度と上記閲覧者レベルとの差が大きいほど、文書の要約の削減率を大きくするように、削減率を決定する削減率決定手段とを有する文書要約装置である。
本発明によれば、要約対象と、要約結果を利用する閲覧者との関係を考慮し、要約対象毎に適切な要約の度合いを決定するので、要約対象に応じた適切な要約結果を得ることができるという効果を奏する。
発明を実施するための最良の形態は、以下の実施例である。
図1は、本発明の実施例1である文書要約装置100の構成を示す図である。
文書要約装置100は、ニュース記事の要約を作成する実施例であり、閲覧者レベルと、所定の文書の難易度との差に応じて、上記所定の文書を要約する場合における文書削減率を決定する実施例である。
文書要約装置100は、文書データベースDB1と、専門用語辞書DB2と、文書難易度決定手段10と、閲覧履歴データベースDB3と、閲覧者レベル決定手段20と、閲覧者レベル記録手段M1と、削減率決定手段30と、削減率記録手段M2と、文書要約手段40と、要約結果記録手段M3とを有する。
図2は、実施例1における文書データベースDB1に格納されているデータ例を示す図である。
文書データベースDB1は、図2に示すように、文書について一意に付与されている文書IDと、ニュース記事等の文書と、後述の文書の難易度とを記録している。
文書難易度決定手段10が決定した文書難易度を、文書データベースDB1が格納するので、文書データベースDB1における文書難易度の初期状態は、空欄である。
図3は、実施例1における専門用語辞書DB2に格納されているデータ例を示す図である。
専門用語辞書DB2は、文書データベースDB1に蓄積されている文書群が属する分野における専門用語と、その専門用語の難易度とを格納している。専門用語辞書DB2は、図3に示すように、文書データベースDB1に蓄積されている文書群が属する分野における専門用語と、その専門用語の難易度の値とを格納している。
閲覧履歴データベースDB3は、閲覧者による過去の閲覧履歴を記録している。
文書難易度決定手段10は、文書データベースDB1から、文書を取得し、門用語辞書DB2に記録されている専門用語を、上記取得した文書中で発見する度に、上記発見した専門用語の難易度を加算集計する。また、文書難易度決定手段10は、文書中に出現する専門用語の頻度と、上記専門用語の難易度とに基づいて、上記取得された文書の難易度を決定する。
閲覧者レベル決定手段20は、閲覧履歴データベースDB3から、閲覧者による過去の文書閲覧回数を取得し、上記文書閲覧回数に応じた閲覧者レベルを決定する。
削減率決定手段30は、上記文書の難易度と上記閲覧者レベルとの差が大きいほど、文書の要約の削減率を大きくするように、削減率を決定する。
文書要約手段40は、上記発行者IDと上記削減率とを取得し、上記発行者IDに対応している文書を、文書データベースDB1から取得し、上記削減率が大きいほど短い要約結果を得るような文書要約処理を、上記文書に行う。
なお、文書データベースDB1は、上記文書難易度決定手段10が決定した文書難易度を、上記文書IDと対応付けて記録する。
閲覧者レベル記録手段M1は、閲覧者レベル決定手段20が決定した閲覧者レベルを記録する。
削減率記録手段M2は、削減率決定手段30が決定した削減率を、上記文書IDと対応付けて記録する。
要約結果記録手段M3は、文書要約手段40が要約した結果を記録する。
次に、文書難易度決定手段10が行う処理について説明する。
図4は、文書難易度決定手段10が行う処理を示すフローチャートである。
S1で、1文書に出現する専門用語の難易度和を算出する。S2で、難易度和を、文書中の単語総数で割り、S1の処理とS2の処理とを、全文書について実行したかどうかを判断する。S3で全文書について処理が終了したと判断すると、S4で、難易度が0〜1の範囲に収まるように正規化する。S5で、各文書の難易度を、文書データベースDB1に記録する。
文書難易度決定手段10は、文書データベースDB1から、まず、第1の文書を取得し、専門用語辞書DB2に記録されている専門用語を、上記第1の文書で発見する度に、上記発見した専門用語の難易度を加算集計することによって、文書難易度を決定する手段である。
文書ID1001の文書の先頭には、「価格変動リスク」という専門用語が出現し、その難易度は、図3に示すように、5であるので、この値を、文書データベースDB1に保持する。続いて「ヘッジ」という専門用語が出現し、その難易度が、図3に示すように、4であるので、保持している値に、難易度4を加えた結果である9を、新たな値として保持する。
文書ID1001には、「価格変動リスク」が2回出現し(難易度5×2)、「ヘッジ」(難易度4)、「国債先物」(難易度6)が、各1回出現し、この結果、難易度の総和が20である。続いて、この総和を、文書ID1001の文書に含まれている全ての単語の総数で割り、文書長による正規化を行う。文書ID1001の文書には、専門用語の他にも、「を」、「抑える」、「ため」、「の」等の単語が出現し、これら全てを数えた結果が、50語であれば、難易度の総和である20を、単語総数50で割った値である0.4を保持する。この0.4を、文書難易度の暫定値という。
第2の文書である文書ID1002の文書、第3の文書である文書ID1003の文書についても、上記と同様に、難易度の総計を算出した後に、それぞれを、文書中の単語総数で割る。この結果、文書ID1002の文書については、0.15という文書難易度の暫定値を得、文書ID1003の文書については、0.19という文書難易度の暫定値が得られたとする。
最後に、保持している各文書の値が、0〜1の範囲に収まるように、正規化する。ここまでの結果で、第1の文書については、文書難易度の暫定値0.4を得、第2の文書については、文書難易度の暫定値0.15を得、第3の文書については、文書難易度の暫定値0.19を得ている。これらのうちの最小値である0.15を、0にするために、それぞれの値から0.15を引き、それぞれ、0.25、0、0.04とする。このうちの最大値である0.25を1にするために、各値をそれぞれ4倍し、1、0、0.16を得る。
このようにして得られた値を、各文書の難易度とする。すなわち、文書ID1001の文書の難易度は1であり、文書ID1002の文書の難易度は、0であり、文書ID1003の文書の難易度は、0.16である。それぞれの難易度を、図2に示す文書データベースDB1の対応する欄に格納する。
閲覧履歴データベースDB3は、閲覧者の過去の文書閲覧履歴を記録しているデータベースである。
閲覧履歴データベースDB3は、閲覧した各文書が格納されているデータベースを識別するデータベース識別子を記録している。複数の文書データベースが存在している場合、閲覧した文書がどのデータベースに格納されていたかを知るために、文書に対し、その文書を記録しているデータベース名(またはテーブル名、保存ファイル名など)を記録しておく。これが、上記データベース識別子である。
上記データベース識別子に基づいて、閲覧者レベル決定手段20が、文書データベースDB1に記録されている文書が占める割合を、算出する。つまり、閲覧者レベル決定手段20は、閲覧履歴データベースDB3に記録されている閲覧者の過去の文書閲覧履歴を取得し、文書データベースDB1に記録されている文書を閲覧した割合を算出する手段である。たとえば、所定の閲覧者が過去に読んだ文書の数が、100文書であることが、閲覧履歴データベースDB3に記録され、これらのうちの20文書が、文書データベースDB1に記録されている文書であれば、その割合である0.2が、閲覧者レベルである。
すなわち、所定の閲覧者における閲覧者レベルは、上記所定の閲覧者が過去に読んだ文書の数に対する所定の分野の文書データベースに記録されている文書数の割合である。
また、文書難易度を決定する場合、文書難易度決定手段10が算出した難易度が高い文書を読んだ回数が多い閲覧者ほど、閲覧者レベルが高くなるように決定してもよい。また、閲覧履歴データベースDB3に、経済、スポーツ、文学等、各文書が属するジャンル情報(ジャンル名、ジャンルコード等、ジャンルを特定する情報)を併せて記録し、専門用語辞書DB2に、たとえば経済分野の専門用語を登録した場合、経済というジャンル情報を持つ文書の閲覧割合を、閲覧者レベルであるとしてもよい。
続いて、削減率決定手段30が行う処理について説明する。
削減率決定手段30は、閲覧者レベル決定手段20に記録されている閲覧者レベルを、文書データベースDB1に記録されている文書の難易度と比較し、それらの差を、削減率として決定する手段である。
上記閲覧者レベルが、0.2であり、文書ID1001の文書の難易度が、1である場合、これらの差0.8を、文書ID1001の文書を要約する場合における削減率とする。つまり、閲覧者レベルと、所定の文書の難易度との差が、上記所定の文書を要約する場合における削減率である。
削減率記録手段M2は、得られた削減率0.8を、文書ID1001の文書と対応付けて、記録する。
これと同様に、文書ID1002の文書の削減率は、0.2であり、文書ID1003の文書の削減率は、0.04であり、これらの削減率が削減率記録手段M2に記録される。削減率が0であれば、文書を要約しないことを意味し、削減率が仮に0.4であれば、文書のデータ量を40%削減するように要約する。
文書要約手段40は、削減率記録手段M2から、文書IDと削減率とを取得し、対応する文書を、文書データベースDB1から取得し、削減率を満たすように要約する手段である。文書要約は、従来から様々な技術が確立され、必要に応じて技術を選択すればよい。
また、削減率の大小に応じて、要約の方式を切り替えるようにしてもよい。たとえば、削減率が0.8以上であれば、複数の固有名詞の羅列による要約生成方法を作成し、削減率が0.8を下回れば、文書形式での要約文生成方法を採用するようにしてもよい。このようにすれば、削減率が高い場合、助詞等を省いたより端的な要約結果を得ることができ、要約結果の認識効率を高めることができる。
文書要約手段40は、要約した結果を、要約結果記録手段M3に記録する。
図5は、実施例1において、要約結果記録手段M3が記録しているデータ例を示す図である。
全ての文書について要約を終了すれば、要約結果記録手段M3に、図5に示すように、各文書の要約結果が記録される。便宜上、図5中には、各要約に対応する文書ID1001〜1003が記録されているが、要約結果記録手段M3に文書IDを記録する必要はない。
最も削減率が高く設定されている文書ID1001(削減率0.8)は、頻度が高い専門用語「価格変動リスク」のみを要約結果とすることによって、具体性は低いながらも、文書の内容を端的に説明している要約結果が出力されている。
逆に、削減率が低い文書ID1002(削減率0.2)や文書ID1003(削減率0.4)では、専門用語や固有名詞等、重要なキーワードを中心的に残し、要約前の文書の持つ意味の多くを維持した要約文が出力されている。
つまり、文書要約装置100は、文書IDと文書とを記録している文書データベースDB1から、文書を取得し、この取得した文書中に出現する専門用語の頻度と、上記専門用語の難易度とに基づいて、上記取得された文書の難易度を決定する文書難易度決定手段10と、閲覧者による過去の閲覧履歴を記録している閲覧履歴データベースDB3から、閲覧者による過去の文書閲覧回数を取得し、上記文書閲覧回数に応じた閲覧者レベルを決定する閲覧者レベル決定手段20と、上記文書の難易度と上記閲覧者レベルとの差が大きいほど、文書の要約の削減率を大きくするように、削減率を決定する削減率決定手段30とを有する文書要約装置の例である。
この場合、上記発行者IDと上記削減率とを取得し、上記発行者IDに対応している文書を文書データベースDB1から取得し、上記削減率が大きいほど短い要約結果を得るような文書要約処理を、上記文書に行う文書要約手段40を有する。
また、上記文書難易度決定手段10が決定した文書難易度を、上記文書IDと対応付けて記録する文書データベースDB1と、上記閲覧者レベル決定手段が決定した閲覧者レベルを記録する閲覧者レベル記録手段M1と、上記削減率決定手段が決定した削減率を、上記文書IDと対応付けて記録する削減率記録手段M2と、上記文書要約手段40が要約した結果を記録する要約結果記録手段M3とを有する。
図6は、本発明の実施例2である文書要約装置200を示すブロック図である。
文書要約装置200は、発行者レベルと、閲覧者レベルとの差に応じて、上記発行者が発行した文書を要約する場合における文書削減率を決定する実施例である。
文書要約装置200は、文書要約装置100において、文書難易度決定手段10の代わりに、発行者レベル決定手段50が設けられ、発行者レベル記録手段M4が追加され、削減率決定手段30の代わりに、削減率決定手段31が設けられている。
つまり、文書要約装置200は、文書データベースDB1と、専門用語辞書DB2と、発行者レベル決定手段50と、発行者レベル記録手段M4と、閲覧履歴データベースDB3と、閲覧者レベル決定手段20と、閲覧者レベル記録手段M1と、削減率決定手段31と、削減率記録手段M2と、文書要約手段40と、要約結果記録手段M3とを有する。
図7は、実施例2において、文書データベースDB1に記録されているデータ例を示す図である。
文書データベースDB1は、図7に示すように、文書に一意に付与された文書IDと、ニュース記事(文書)を発行した新聞社に一意に付与された発行者IDと、ニュース記事とを記録する。
専門用語辞書DB2は、実施例1と同様に、図3に示すように、専門用語と難易度とを記録する。
発行者レベル決定手段50は、文書IDと文書の発行者IDと文書とが記録されている文書データベースDB1から、発行者IDが同一である文書を全て取得し、この取得した文書群中に出現する専門用語の頻度(出現数)と、上記専門用語の難易度とに基づいて、上記取得した文書群の難易度を決定し、この決定された難易度を、上記発行者IDに対応する発行者のレベルである発行者レベルとして決定する。
閲覧者レベル決定手段20は、閲覧者による過去の閲覧履歴を記録している閲覧履歴データベースDB3から、閲覧者による過去の文書閲覧回数を取得し、上記文書閲覧回数に応じた閲覧者レベルを決定する。
削減率決定手段31は、上記発行者レベル決定手段が決定した発行者レベルと、上記閲覧者レベル決定手段が決定した閲覧者レベルとの差が大きいほど、文書の要約の削減率を大きくするように、上記発行者に対する上記閲覧者の削減率を決定する。
発行者レベル記録手段M4は、発行者レベル決定手段50が決定した上記発行者レベルを、上記発行者IDと対応付けて記録する。
削減率記録手段M2は、上記削減率決定手段が決定した削減率を、上記発行者IDと対応付けて記録する。
図8は、発行者レベル決定手段50が行う処理の流れを示すフローチャートである。
S11で、ある発行者が発行した全文書を文書データベースDB1から取得する。S12で、文書群中に出現する専門用語の難易度和を算出する。S13で、難易度和を文書群中の単語総数で割り、S14で、全文書を処理する。S15で、発行者レベルが0〜1の範囲に収まるように正規化し、S16で、各発行者の発行者レベルを、発行者レベル記録手段M4に記録する。
発行者レベル決定手段50は、文書データベースDB1から、発行者IDがAである第1の発行者が発行した文書(文書ID1001、1005の文書)を取得する。取得した文書群中で、専門用語辞書DB2に記録されている専門用語が見つかる度に、その難易度を加算集計する。文書ID1001の文書には、「価格変動リスク」が2回出現し、「ヘッジ」、「国内先物」が各1回出現し、それぞれの難易度は、5、1であるので、これを加算し、難易度の総計が26になる。
これを、文書ID1005の文書に含まれている単語の総数で割り、総文書長による正規化を行う。文書ID1001、1005の文書中の単語総数の和が80語であれば、26を80で割った値、0.325(暫定値)を保持する。
第2の発行者B、第3の発行者Cについても、上記と同様の処理を行い、発行者毎の値を算出し、保持する。第2の発行者Bについては、0.18、第3の発行者Cについては、0.125という値(暫定値)が得られたとする。
全ての発行者について処理を終えると、算出した値が、0から1の範囲に収まるように正規化する。A、B、Cの各発行者について、それぞれ0.325、0.18、0.125という値が得られているので、まず、このうちの最小値0.125が0になるように、各値から0.125を引き、0.2、0.055、0とする。続いて、このうちで、最小値0.125が0になるように、各値から0.125を引き、0.2、0.055、0とする。続いて、このうちで、最大値である0.2が1になるように、各値を、5倍し、1、0.275、0を得る。
このようにして得られた各値を、発行者レベルとし、発行者IDと発行者レベルとを対応付けて、発行者レベル記録手段M4に格納する。この結果、発行者レベル記録手段M4には、発行者Aの発行者レベルが1であり、発行者Bの発行者レベルが0.275であり、発行者Cの発行者レベルが0であることが記録される。
閲覧者レベル決定手段20が行う処理は、実施例1における閲覧者レベル決定手段20が行う処理と同一である。
続いて、削減率決定手段31が行う処理について説明する。
削減率決定手段31は、閲覧者レベル決定手段20に記録されている閲覧者レベルを、発行者レベル記録手段M4に記録された各発行者の発行者レベルと比較し、それらの差を算出する。その結果得られた差を、「発行者に対する閲覧者の削減率」として決定する。
ある閲覧者レベルが0.2であれば、発行者Aの発行者レベル1との差0.8が、発行者Aに対するある閲覧者の削減率である。発行者Bの発行者レベル0.275との差0.075が、発行者Bに対するある閲覧者の削減率である。発行者Cの発行者レベル0との差0.2が、発行者Cに対するある閲覧者の削減率である。
得られたそれぞれの削減率を、各発行者の発行者IDと対応付けて、削減率記録手段M2に記録する。削減率記録手段M2には、発行者Aに対するある閲覧者レベル(0.2)の削減率0.8が記録され、発行者Bに対するある閲覧者レベル(0.2)の削減率0.075が記録され、発行者Cに対するある閲覧者レベル(0.2)の削減率0.2が記録される。
文書要約手段40は、削減率記録手段M2から、発行者IDと削減率との組み合わせを取得し、さらに、同じ発行者IDを持つ文書を、文書データベースDB1から全て取得し、削減率に基づいて、各文書を要約し、この要約結果を要約結果記録手段M3に出力する。
図9は、実施例2において、要約結果記録手段M3が記録しているデータ例を示す図である。
文書要約手段40が要約処理を実行した結果、要約結果記録手段M3には、図9に示すように、各文書が、発行者毎に定められている削減率に応じて要約された結果が格納される。便宜上、図7中には、各要約結果に対応する文書ID2001〜2005を記載してある。
閲覧者にとって非常に高い難易度の文書を発行する発行者による発行文書は、短く要約される。このために、要約結果から具体的な文書の内容まで把握することが困難である代わりに、概要を端的に知ることができる。
逆に、閲覧者にとって理解が非常にたやすい文書(難易度が非常に低い文書)を発行する発行者による発行文書も短く要約される。閲覧者レベルよりも、低い文書であるので、端的に概要を知るだけでも、十分に内容を類推することができる。必要に応じて、要約前の文書を参照できるようにすればよい。
一方、閲覧者にとって適度な難易度の文書を発行する発行者による発行文書については、最も長い要約結果が出力されるので、要約結果から、より具体的な概要を知ることができる。
つまり、文書要約装置200は、文書IDと文書の発行者IDと文書とが記録されている文書データベースDB1から、発行者IDが同一である文書を全て取得し、この取得した文書群中に出現する専門用語の頻度(出現数)と、上記専門用語の難易度とに基づいて、上記取得した文書群の難易度を決定し、この決定された難易度を、上記発行者IDに対応する発行者のレベルである発行者レベルとして決定する発行者レベル決定手段50と、閲覧者による過去の閲覧履歴を記録している閲覧履歴データベースDB3から、閲覧者による過去の文書閲覧回数を取得し、上記文書閲覧回数に応じた閲覧者レベルを決定する閲覧者レベル決定手段20と、上記発行者レベル決定手段が決定した発行者レベルと、上記閲覧者レベル決定手段が決定した閲覧者レベルとの差が大きいほど、文書の要約の削減率を大きくするように、上記発行者に対する上記閲覧者の削減率を決定する削減率決定手段31とを有する文書要約装置の例である。
この場合、上記発行者IDと上記削減率とを取得し、上記発行者IDに対応している文書を取得し、上記削減率が大きいほど短い要約結果を得るような文書要約処理を、上記文書に行う文書要約手段40を有する。
また、上記発行者レベル決定手段50が決定した上記発行者レベルを、上記発行者IDと対応付けて記録する発行者レベル記録手段M4と、上記閲覧者レベル決定手段が決定した閲覧者レベルを記録する閲覧者レベル記録手段M1と、上記削減率決定手段が決定した削減率を、上記発行者IDと対応付けて記録する削減率記録手段M2と、上記文書要約手段40が要約した結果を記録する要約結果記録手段M3とを有する。
図10は、本発明の実施例3である文書要約装置300を示す図である。
文書要約装置300は、複数のユーザが書き込む掲示板形式のウェブサイトに書き込まれた文書を対象に、要約を実行する例である。
文書要約装置300は、文書データベースDB1と、専門用語辞書DB2と、発行者レベル決定手段50と、発行者レベル記録手段M4と、削減率決定手段32と、削減率記録手段M2と、文書要約手段40と、要約結果記録手段M3とを有する。
図11は、実施例3における文書データベースDB1に記録されているデータの例を示す図である。
文書データベースDB1には、図11に示すように、文書について一意に付与されている文書IDと、文書を書き込んだユーザを一意に特定する発行者IDと、文書とを記録する。
図12は、実施例3における専門用語辞書DB2のデータ例を示す図である。
専門用語辞書DB2には、図12に示すように、図11に示す文書が属する分野における専門用語とその難易度とを記録している。
発行者レベル決定手段50は、文書データベースDB1から、発行者IDが同一である文書を全て取得し、この取得された文書から、専門用語辞書DB2に記録されている専門用語が見つかる度に、その難易度を加算する。そして、発行者レベル決定手段50は、上記取得した文書群中に出現する専門用語の頻度(出現数)と、上記専門用語の難易度とに基づいて、上記取得した文書群の難易度を決定し、この決定された難易度を、上記発行者IDに対応する発行者のレベルである発行者レベルとして決定する。
つまり、発行者レベル決定手段50は、難易度の加算結果を、取得した文書群内の単語総数で割って、正規化する。全発行者について、同様の処理を行った後に、全発行者の発行者レベルが、0から1の範囲に収まるように正規化する。この結果得られた発行者レベルを、発行者IDと対にし、発行者レベル記録手段M4に記録する。
削減率決定手段32は、上記決定された発行者レベルと、この決定された発行者レベルに対応する各発行者IDとを取得し、上記発行者のうちの1人である第1の発行者のレベルである第1の発行者レベルと、上記第1の発行者以外の発行者である第2の発行者のレベルである第2の発行者レベルとを比較し、この比較結果の差が大きいほど、文書の要約の削減率を大きくするように、上記第1の発行者に対する上記第2の発行者の削減率を決定する。
文書要約手段40は、上記発行者IDと上記削減率とを取得し、上記発行者IDに対応している文書を文書データベースDB1から取得し、上記削減率が大きいほど短い要約結果を得るような文書要約処理を、上記文書に行う。
発行者レベル記録手段M4は、発行者レベル決定手段50が決定した上記発行者レベルを、上記発行者IDと対応付けて記録する。
削減率記録手段M2は、削減率決定手段32が決定した削減率を、上記第1の発行者IDと、上記第2の発行者IDとに対応付けて記録する。
要約結果記録手段M3は、文書要約手段40が要約した結果を記録する。
次に、削減率決定手段32が行う処理の流れについて説明する。
図13は、削減率決定手段32が行う処理を示すフローチャートである。
S21で、閲覧者が過去に投稿済であるかどうかを判断し、投稿済であれば、S22で、閲覧者(第1の発行者)レベルである第1の発行者レベルと、他の発行者(第2の発行者)のレベルである第2の発行者レベルとの差に応じて、削減率を決定する。S21で閲覧者が過去に投稿していないと判断されれば、S23で、全ての発行者IDに対する削減率を0にする。そして、S24で、発行者IDと削減率との組み合わせを、削減率記録手段M2に記録する。
つまり、最初に、閲覧者(第1の発行者)が、以前に文書を投稿した発行者であるかどうかを調べるために、閲覧者に付与されている発行者IDを、発行者レベル記録手段M4に問い合わせ、上記発行者IDが存在するかどうかを調べる。
発行者レベル記録手段M4中に、該当する発行者IDが存在しなければ、または、新規の閲覧者であって、発行者IDが未だ割り当てられていなければ、発行者レベル記録手段M4に記録されている全ての発行者IDについて、削減率として0を設定し、各発行者IDと削減率との組み合わせを、削減率記録手段M2に出力する。
一方、発行者レベル記録手段M4中に、該当する発行者IDが存在すれば、閲覧者自身の発行者レベル(第1の発行者レベル)と、他の発行者の発行者レベル(第2の発行者レベル)との差を、それぞれ計算し、各発行者の発行者IDと対応付けて、削減率記録手段M2に記録する。
図14は、閲覧者が、図11に示す文書ID3003のように、インド旅行の初心者が訪れないような地域の情報を書き込んだ発行者ID「u3」を持つ発行者でもある場合、削減率決定手段32が削減率記録手段M2に記録したデータ例を示す図である。
閲覧者(発行者ID「u3」)自身を除いた、他の発行者IDについて、それぞれ削減率が記録されている。
文書ID3003の文書には、旅行初心者が訪れることがほぼない「○×○×」という町の名前や「○○○市場」等、図12に示す専門用語辞書DB2において高い難易度を与えられている専門用語が複数含まれているので、閲覧者ID「u3」の発信者レベルは、高い数値である。一方、日本からインドへの旅行において、一般的に用いられる「××航空」という航空会社名や、インド旅行初心者でも知っている「タージマハル」という観光地のように、低い難易度を持つ専門用語しか含まない文書ID3001の文書や、文書ID3004の文書を発行した発行者ID「u1」の発行者については、低い発行者レベルが与えられるので、閲覧者(発行者ID「u3」の発行者)の発行者レベルと、上記低い発行者レベルとの差が大きく、発行者ID「u1」に対応する削減率は大きな値である。
また、文書ID3005の文書の「インドは暑い。」のように、専門用語が極めて少ない文書についても、その発行者ID「u4」の発行者レベルは、非常に低く、発行者ID「u4」に対応する削減率は、大きな値になる。この他にも、極端に情報量が少ない文書や、議論の主旨とは無関係な内容しか含まないいたずら目的の文書等を発行する発行者については、極端に小さな発行者レベルを与えることによって、削減率を大きな値にする。
または、発行者レベルの値によらず、削減率を極めて高い値に設定するようにしてもよい。
航空券の種別を表す「Y2」のように、旅行初心者が用いることが少ない専門用語を含む文書ID3002の文書を発行した発行者ID「u2」の発行者や、一般的に広く知られてはいない食品「チャパティー」や、発行者ID「u3」の発行者と同様に、旅行初心者があまり訪れない町の名前「○×○×」等を含む文書ID3006の文書を発行した発行者ID「u5」の発行者については、いずれも高い閲覧者レベルが設定される。したがって、閲覧者u3との発行者レベルの差は小さくなり、発行者ID「u2」、「u5」の発行者に対する削減率は、小さな値になる。
図15は、実施例3において、要約結果記録手段M3に格納されている要約結果の例を示す図である。
便宜上、図15中には、各要約結果に対応する文書ID3001、3002、3004〜3006の文書を記載してある。
高い削減率を与えられた発行者ID「u1」、「u4」の発行者が発行した文書ID3001や3004の文書について、それぞれ「××航空」、「タージマハル」のように、該当分野における専門用語自体が要約結果として、短い形式で出力され、該当分野における深い知識を有する発行者ID「u3」の発行者にとっては、これらの要約結果を見るだけで、おおよその内容を類推することができる。また、該当分野における深い知識を持ち、高い発信者レベルが付与されていることを、発行者ID「u3」の発行者自身が自覚している場合、要約結果が短いこと自体からも、自分自身よりも低い発信者レベルの発信者による投稿であることを把握することができ、おおよその内容を類推する場合に役立つ。必要に応じて、要約前の文書を参照できるようにすればよい。
また、極端に情報量が少ない文書ID3005の文書を書き込んだことによって、削減率1を与えられた発信者u4については、文書ID3005の文書の要約結果として、図15に示すよう、「−」が出力され、文書全体が削除されたことを示す。これによって、無意味な文書を読み飛ばすことができる。
つまり、文書要約装置300は、文書IDと文書の発行者IDと文書とが記録されている文書データベースDB1から、発行者IDが同一である文書を全て取得し、この取得した文書群中に出現する専門用語の頻度(出現数)と、上記専門用語の難易度とに基づいて、上記取得した文書群の難易度を決定し、この決定された難易度を、上記発行者IDに対応する発行者のレベルである発行者レベルとして決定する発行者レベル決定手段50と、上記決定された発行者レベルと、この決定された発行者レベルに対応する各発行者IDとを取得し、上記発行者のうちの1人である第1の発行者のレベルである第1の発行者レベルと、上記第1の発行者以外の発行者である第2の発行者のレベルである第2の発行者レベルとを比較し、この比較結果の差が大きいほど、文書の要約の削減率を大きくするように、上記第1の発行者に対する上記第2の発行者の削減率を決定する削減率決定手段32とを有する文書要約装置の例である。
また、上記発行者IDと上記削減率とを取得し、上記発行者IDに対応している文書を文書データベースDB1から取得し、上記削減率が大きいほど短い要約結果を得るような文書要約処理を、上記文書に行う文書要約手段40を有する。
さらに、上記発行者レベル決定手段50が決定した上記発行者レベルを、上記発行者IDと対応付けて記録する発行者レベル記録手段M4と、削減率決定手段32が決定した削減率を、上記第1の発行者IDと、上記第2の発行者IDとに対応付けて記録する削減率記録手段M2と、上記文書要約手段40が要約した結果を記録する要約結果記録手段M3とを有する。
上記実施例によれば、要約対象の情報の難易度と、その情報を取得しようとする閲覧者の理解力とが考慮され、閲覧者の理解力に照らして、容易に理解できる平易な文書や、閲覧者にとって難易度が高く理解が困難な文書については、要約の度合いが高まり、サイズの小さな端的な要約結果を得ることができる。これによって、閲覧者にとって、閲覧するに足りないレベルの文書や、詳細に閲覧しても理解に時間を要する難解な文書について、その概要のみを大まかに理解した上で、簡潔に読み飛ばすことができる。
一方、閲覧者の理解力に照らして、適度な難易度を持つ文書については、要約の度合いが低く設定され、より具体的な高い要約結果が得られる。これによって、要約前の情報量に近い内容を読み取ることができる。
したがって、複数の文書を一度に要約し、閲覧者に提示する場合に、文書毎の難易度に応じた適切な度合いで要約を生成するので、全体として、複数文書の概要を効率的に把握することができる。
上記各実施例において、上記各手段を工程に置き換えれば、これらを方法の発明として把握することができる。
また、上記各実施例である文書要約装置を構成する各手段をコンピュータに実行させるプログラムを想定することができる。つまり、請求項1〜請求項6のいずれか1項記載の文書要約装置を構成する上記手段をコンピュータに実行させるプログラムを想定することができる。さらに、これらのプログラムを記録したコンピュータ読取可能な記録媒体を想定することができる。なお、上記記録媒体として、たとえば、CD、DVD、光ディスク、光磁気ディスク、HD、半導体メモリが考えられる。
本発明の実施例1である文書要約装置100の構成を示す図である。 実施例1における文書データベースDB1に格納されているデータ例を示す図である。 実施例1における専門用語辞書DB2に格納されているデータ例を示す図である。 文書難易度決定手段10が行う処理を示すフローチャートである。 実施例1において、要約結果記録手段M3が記録しているデータ例を示す図である。 本発明の実施例2である文書要約装置200を示すブロック図である。 実施例2において、文書データベースDB1に記録されているデータ例を示す図である。 発行者レベル決定手段50が行う処理の流れを示すフローチャートである。 実施例2において、要約結果記録手段M3が記録しているデータ例を示す図である。 本発明の実施例3である文書要約装置300を示す図である。 図11は、実施例3における文書データベースDB1に記録されているデータの例を示す図である。 実施例3における専門用語辞書DB2のデータ例を示す図である。 削減率決定手段32が行う処理を示すフローチャートである。 閲覧者が、図11に示す文書ID3003のように、インド旅行の初心者が訪れないような地域の情報を書き込んだ発行者ID「u3」を持つ発行者でもある場合、削減率決定手段32が削減率記録手段M2に記録したデータ例を示す図である。 実施例3において、要約結果記録手段M3に格納されている要約結果の例を示す図である。
符号の説明
100…文書要約装置、
DB1…文書データベース、
DB2…専門用語辞書、
DB3…閲覧履歴データベース、
10…文書難易度決定手段、
20…閲覧者レベル決定手段、
M1…閲覧者レベル記録手段、
30…削減率決定手段、
M2…削減率記録手段、
40…文書要約手段、
M3…要約結果記録手段、
200…文書要約装置、
50…発行者レベル決定手段、
M4…発行者レベル記録手段、
31…削減率決定手段、
300…文書要約装置、
32…削減率決定手段。

Claims (8)

  1. 文書IDと文書とを記録している文書データベースから、文書を取得し、この取得した文書中に出現する専門用語の頻度と、上記専門用語の難易度とに基づいて、上記取得された文書の難易度を決定する文書難易度決定手段と;
    閲覧者による過去の閲覧履歴を記録している閲覧履歴データベースから、閲覧者による過去の文書閲覧回数を取得し、上記文書閲覧回数に応じた閲覧者レベルを決定する閲覧者レベル決定手段と;
    上記文書の難易度と上記閲覧者レベルとの差が大きいほど、文書の要約の削減率を大きくするように、削減率を決定する削減率決定手段と;
    を有することを特徴とする文書要約装置。
  2. 文書IDと文書とが記録されている文書データベースから、発行者IDが同一である文書を取得し、この取得した文書群中に出現する専門用語の頻度と、上記専門用語の難易度とに基づいて、上記取得した文書群の難易度を決定し、この決定された難易度を、上記発行者IDに対応する発行者のレベルである発行者レベルとして決定する発行者レベル決定手段と;
    閲覧者による過去の閲覧履歴を記録している閲覧履歴データベースから、閲覧者による過去の文書閲覧回数を取得し、上記文書閲覧回数に応じた閲覧者レベルを決定する閲覧者レベル決定手段と;
    上記発行者レベル決定手段が決定した発行者レベルと、上記閲覧者レベル決定手段が決定した閲覧者レベルとの差が大きいほど、文書の要約の削減率を大きくするように、削減率を決定する削減率決定手段と;
    を有することを特徴とする文書要約装置。
  3. 文書IDと文書とが記録されている文書データベースから、発行者IDが同一である文書を取得し、この取得した文書群中に出現する専門用語の頻度と、上記専門用語の難易度とに基づいて、上記取得した文書群の難易度を決定し、この決定された難易度を、上記発行者IDに対応する発行者のレベルである発行者レベルとして決定する発行者レベル決定手段と;
    閲覧者が過去に文書を発行している場合に、当該閲覧者の発行者レベルを第1の発行者レベルとし、当該第1の発行者レベルと上記閲覧者以外の発行者である第2の発行者のレベルである第2の発行者レベルとを比較し、この比較結果の差が大きいほど、文書の要約の削減率を大きくするように、削減率を決定する削減率決定手段と;
    を有することを特徴とする文書要約装置。
  4. 文書IDと文書とを記録している文書データベースから、文書を取得し、この取得した文書中に出現する専門用語の頻度と、上記専門用語の難易度とに基づいて、上記取得された文書の難易度を、文書難易度決定手段が決定する文書難易度決定工程と;
    閲覧者による過去の閲覧履歴を記録している閲覧履歴データベースから、閲覧者による過去の文書閲覧回数を取得し、上記文書閲覧回数に応じた閲覧者レベルを決定する閲覧者レベル決定工程と;
    上記文書の難易度と上記閲覧者レベルとの差が大きいほど、文書の要約の削減率を大きくするように、削減率決定手段が削減率を決定する削減率決定工程と;
    を有することを特徴とする文書要約方法。
  5. 文書IDと文書とが記録されている文書データベースから、発行者IDが同一である文書を取得し、この取得した文書群中に出現する専門用語の頻度と、上記専門用語の難易度とに基づいて、上記取得した文書群の難易度を決定し、この決定された難易度を、上記発行者IDに対応する発行者のレベルである発行者レベルとして、発行者レベル決定手段が決定する発行者レベル決定工程と;
    閲覧者による過去の閲覧履歴を記録している閲覧履歴データベースから、閲覧者による過去の文書閲覧回数を取得し、上記文書閲覧回数に応じた閲覧者レベルを、閲覧者レベル決定手段が決定する閲覧者レベル決定工程と;
    上記発行者レベル決定工程で決定された発行者レベルと、上記閲覧者レベル決定工程で決定された閲覧者レベルとの差が大きいほど、文書の要約の削減率を大きくするように、削減率決定手段が削減率を決定する削減率決定工程と;
    を有することを特徴とする文書要約方法。
  6. 文書IDと文書とが記録されている文書データベースから、発行者IDが同一である文書を取得し、この取得した文書群中に出現する専門用語の頻度と、上記専門用語の難易度とに基づいて、上記取得した文書群の難易度を決定し、この決定された難易度を、上記発行者IDに対応する発行者のレベルである発行者レベルとして、発行者レベル決定手段が決定する発行者レベル決定工程と;
    閲覧者が過去に文書を発行している場合に、当該閲覧者の発行者レベルを第1の発行者レベルとし、当該第1の発行者レベルと上記閲覧者以外の発行者である第2の発行者のレベルである第2の発行者レベルとを比較し、この比較結果の差が大きいほど、文書の要約の削減率を大きくするように、削減率決定手段が削減率を決定する削減率決定工程と;
    を有することを特徴とする文書要約方法。
  7. 請求項1〜請求項3のいずれか1項記載の文書要約装置を構成する上記手段としてコンピュータを機能させるためのプログラム
  8. 請求項7記載のプログラムを記録したコンピュータ読取可能な記録媒体。
JP2008182600A 2008-07-14 2008-07-14 文書要約装置、文書要約方法、プログラムおよび記録媒体 Expired - Fee Related JP5201727B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008182600A JP5201727B2 (ja) 2008-07-14 2008-07-14 文書要約装置、文書要約方法、プログラムおよび記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008182600A JP5201727B2 (ja) 2008-07-14 2008-07-14 文書要約装置、文書要約方法、プログラムおよび記録媒体

Publications (2)

Publication Number Publication Date
JP2010020678A JP2010020678A (ja) 2010-01-28
JP5201727B2 true JP5201727B2 (ja) 2013-06-05

Family

ID=41705480

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008182600A Expired - Fee Related JP5201727B2 (ja) 2008-07-14 2008-07-14 文書要約装置、文書要約方法、プログラムおよび記録媒体

Country Status (1)

Country Link
JP (1) JP5201727B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5358481B2 (ja) * 2010-02-19 2013-12-04 日本電信電話株式会社 文書検索装置、文書検索方法、文書検索プログラム
JP5810053B2 (ja) * 2012-08-27 2015-11-11 日本電信電話株式会社 要約生成装置及び方法及びプログラム
JP6442918B2 (ja) * 2014-08-21 2018-12-26 富士通株式会社 専門家検索装置、専門家検索方法および専門家検索プログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3810463B2 (ja) * 1995-07-31 2006-08-16 株式会社ニューズウオッチ 情報フィルタリング装置
JPH09212505A (ja) * 1996-01-30 1997-08-15 Canon Inc 文書処理装置および方法
JP3579204B2 (ja) * 1997-01-17 2004-10-20 富士通株式会社 文書要約装置およびその方法
JP2005301584A (ja) * 2004-04-09 2005-10-27 Mitsubishi Electric Corp 要約記事配信サーバ及び要約記事配信方法及び要約記事配信プログラム
JP4217693B2 (ja) * 2004-05-07 2009-02-04 パナソニック株式会社 電子書籍装置
JP2007140721A (ja) * 2005-11-16 2007-06-07 Hitachi Ltd 文書専門度取得プログラム

Also Published As

Publication number Publication date
JP2010020678A (ja) 2010-01-28

Similar Documents

Publication Publication Date Title
JP4218758B2 (ja) 字幕生成装置、字幕生成方法、及びプログラム
US10282162B2 (en) Audio book smart pause
US11455301B1 (en) Method and system for identifying entities
US7818329B2 (en) Method and apparatus for automatic multimedia narrative enrichment
US8788495B2 (en) Adding and processing tags with emotion data
US7953735B2 (en) Information processing apparatus, method and program
JP5015789B2 (ja) 関連コンテンツの抽出における位置類似性閾値の適応化
US20110112824A1 (en) Determining at least one category path for identifying input text
US20080263067A1 (en) Method and System for Entering and Retrieving Content from an Electronic Diary
JP5393732B2 (ja) 対話ルール変更装置、対話ルール変更方法及び対話ルール変更プログラム
US10430805B2 (en) Semantic enrichment of trajectory data
TW200849030A (en) System and method of automated video editing
CN107948730B (zh) 基于图片生成视频的方法、装置、设备及存储介质
US20140161423A1 (en) Message composition of media portions in association with image content
JP5201727B2 (ja) 文書要約装置、文書要約方法、プログラムおよび記録媒体
US8706484B2 (en) Voice recognition dictionary generation apparatus and voice recognition dictionary generation method
US20070179937A1 (en) Apparatus, method, and computer program product for extracting structured document
JP2010026996A (ja) タグ付け支援方法とその装置、プログラム及び記録媒体
CN116484808A (zh) 一种公文用可控文本生成方法及装置
Lyman et al. Reprint: How Much Information?
WO2018152995A1 (zh) 一种历史记录管理方法和装置
JP2010108268A (ja) 文書処理装置
WO2012124213A1 (ja) 要約作成装置、要約作成方法、およびコンピュータ読み取り可能な記録媒体
US20200394611A1 (en) Information processing device, and non-transitory computer readable medium storing information processing program
US20150161138A1 (en) Method for recommending document

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100714

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120629

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120706

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120830

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130208

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130208

R150 Certificate of patent or registration of utility model

Ref document number: 5201727

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160222

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees