JP2011028638A - 要約文作成装置、要約文作成方法、プログラム - Google Patents

要約文作成装置、要約文作成方法、プログラム Download PDF

Info

Publication number
JP2011028638A
JP2011028638A JP2009175528A JP2009175528A JP2011028638A JP 2011028638 A JP2011028638 A JP 2011028638A JP 2009175528 A JP2009175528 A JP 2009175528A JP 2009175528 A JP2009175528 A JP 2009175528A JP 2011028638 A JP2011028638 A JP 2011028638A
Authority
JP
Japan
Prior art keywords
sentence
word
concept
similarity
creating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009175528A
Other languages
English (en)
Other versions
JP5253317B2 (ja
Inventor
Shinji Tamoto
真詞 田本
Osamu Yoshioka
理 吉岡
Narihisa Nomoto
済央 野本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2009175528A priority Critical patent/JP5253317B2/ja
Publication of JP2011028638A publication Critical patent/JP2011028638A/ja
Application granted granted Critical
Publication of JP5253317B2 publication Critical patent/JP5253317B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】自然さを損なわない要約文を作成する要約文作成技術を提供する。
【解決手段】単語にその形態素品詞およびその単語概念ベクトルが対応付けられた組が複数登録されている概念語辞書を用いて、要約対象文章から概念語辞書に登録されている単語を抽出し、抽出された単語に対応する単語概念ベクトルを用いて要約対象文章の特徴量を算出し、要約文作成に利用するために予め用意されている参照用文章の集合である参照用文章群に含まれる各参照用文章の特徴量の、要約対象文章の特徴量に対する類似度を算出し、最も類似度の高い参照用文章を選択し、選択された参照用文章に含まれている単語を、当該単語に対して単語概念ベクトルに基づく類似度の高い、要約対象文章に含まれている単語で置換することにより要約文を作成する。
【選択図】図1

Description

本発明は、文章から要約文を作成する技術に関する。
文章から要約文を自動で作成する要約文作成技術は、新聞などの報道文や論文からの要約文の作成に適用されている。従来、この種の要約文作成装置は、入力された文章全文の中からキーワードとなる重要語を一種類以上抽出して、各重要語の出現頻度から最重要語を確定し、文章の中から最重要語を含む文を重要文として抽出し、この抽出された重要文を編集することによって、入力された文章全文からの要約文を作成している。
ここで要約文作成装置は、形態素解析手段によって重要文について形態素解析し、文類似度算出手段によって、形態素解析手段で解析された形態素ごと、あるいは、複数の形態素の組み合わせごとの出現頻度を重要文ごとに算出して、この出現頻度から複数の重要文について相互の類似度を算出する。そして、要約文作成装置は、編集文選定手段によって、文類似度算出手段で算出された類似度が予め設定された閾値以上となる予め用意されているテンプレート文(このテンプレート文は、通常の文章から複数箇所の単語がブランクになっている、いわゆる虫食い文章である。)を選定し、文編集手段によって、編集文選定手段で選定されたテンプレート文に含まれる文字列に基づいて要約対象文章を編集する(つまり、重要文から抽出した語句をテンプレートのブランク部分に埋め込むことで要約文を生成する)。
このような従来技術として、例えば特許文献1を挙げることができる。
特開2002−197097号公報
しかしながら、対話文、特に音声による対話を起こした対話文では文の構造に不規則性があり、かつ文章化の過程で誤記や曖昧さが生じる。このため、従来の要約文作成装置によると、形態素および頻度情報などの誤りからもたらされる重要文相互の類似度算出の誤差を避けることができず、解析の失敗により不自然な要約文を作成してしまうということがあった。
そこで本発明は、自然さを損なわない要約文を作成する要約文作成技術を提供することを目的とする。
本発明は、単語にその形態素品詞およびその単語概念ベクトルが対応付けられた組が複数登録されている概念語辞書を用いて、要約対象文章から概念語辞書に登録されている単語を抽出し(単語抽出処理)、抽出された単語に対応する単語概念ベクトルを用いて要約対象文章の特徴量を算出し(特徴量算出処理)、要約文作成に利用するために予め用意されている参照用文章の集合である参照用文章群に含まれる各参照用文章の特徴量の、要約対象文章の特徴量に対する類似度を算出し、最も類似度の高い参照用文章を選択し(類似文章選択処理)、選択された参照用文章に含まれている単語を、当該単語に対して単語概念ベクトルに基づく類似度の高い、要約対象文章に含まれている単語で置換することにより要約文を作成する(要約文作成処理)。
本発明に拠れば、要約文作成に利用するために予め用意されている参照用文章群の中から、要約対象文章の特徴量に対する類似度が最も高い参照用文章を選び、この参照用文章の単語を、当該単語に対して単語概念ベクトルに基づく類似度の高い、要約対象文章に含まれている単語で置換することで要約文を作成するから、自然さを損なわない要約文を作成することができる。
本発明による実施形態の要約文作成装置の機能構成例を示す図。 本発明による実施形態の要約文作成処理を実施する処理フローを示す図。
図面を参照して本発明の実施形態を説明する。図1は、要約文作成装置1の機能構成図を示している。
要約文作成装置1は、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、CPU(Central Processing Unit)〔キャッシュメモリなどを備えていてもよい。〕、メモリであるRAM(Random Access Memory)やROM(Read Only Memory)、ハードディスクである外部記憶装置、並びにこれらの入力部、出力部、CPU、RAM、ROM、外部記憶装置間のデータのやり取りが可能なように接続するバスなどを備えている。また必要に応じて、要約文作成装置1に、CD−ROMなどの記憶媒体を読み書きできる装置(ドライブ)などを設けるとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
要約文作成装置1の外部記憶装置には、要約文作成のためのプログラム並びにこのプログラムの処理において必要となるデータなどが記憶されている〔外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくなどでもよい。〕。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。以下、データやその格納領域のアドレスなどを記憶する記憶装置を単に「記憶部」と呼ぶことにする。
実施形態では、記憶部の所定の記憶領域に概念語辞書15(概念ベース)がデータとして記憶されている。この概念語辞書15には、後述する文章特徴量の抽出に用いられる単語に、その形態素品詞およびその単語概念ベクトルが対応付けられた組が複数登録されている。概念語辞書15は、特定のジャンルの文章を用いて予め学習されたものでもよいし、種々のジャンルの文章を用いて汎用辞書として予め学習されたものでもよい。ジャンルごとに用意された概念語辞書15が記憶部に記憶されている場合には、要約対象文章の内容のジャンルが予め既知であれば、当該ジャンルと同じジャンルの概念語辞書15を用いて後述の処理を行うことが好ましい。単語概念ベクトルは、既知の文章(学習用文章)における単語の一文中での共起頻度から生成された単語の共起行列について、共起行列の各行を各単語に対する共起パターンのベクトルとして、共起行列を特異値分解して得られる次元数が圧縮された行列の最初の所定個の行ベクトルが正規化(つまり、行ベクトルの長さ(2次平均ノルム)が1である。)された多次元ベクトルである。
(参考文献1)別所克人、奥雅博 著、「未知語の概念ベクトル推定手法」、情報処理学会研究報告、2004-NL-164(10), 2004/11/4, pp.59-64.
(参考文献2)内山俊郎、別所克人、内山匡、奥雅博 著、「単語概念ベクトルを用いた文書群からの代表語抽出」、電子情報通信学会技術研究報告、信学技報Vol.108、No.93、pp.47-52、2008. DE2008-9、ISSN-0913-5685.
(参考文献3)別所克人、古瀬蔵、片岡良治 著、「単語と意味属性との共起に基づく概念ベクトル生成手法」、The 20thAnnual Conference of the Japanese Society for Artificial Intelligence, 2006, 3C3-1, pp.1-3.
また、実施形態では、記憶部の所定の記憶領域に参照用文章群16がデータとして記憶されている。この参照用文章群16は、要約文作成に利用するために予め用意されている参照用文章の集合である。参照用文章群16を構成する各参照用文章は、文章として完成している通常の文章そのものである(つまり、通常の文章から複数箇所の単語がブランクになっているような、いわゆる虫食い文章ではない。)。参照用文章群16は、特定のジャンルに属する文章の集合でもよいし、ジャンルを問わず無作為に集めた文章の集合であってもよい。ジャンルごとに用意された参照用文章群16が記憶部に記憶されている場合には、要約対象文章の内容のジャンルが予め既知であれば、当該ジャンルと同じジャンルの参照用文章群16を用いて後述の処理を行うことが好ましい。
要約文作成装置1の記憶部には、概念語辞書15を用いて、要約対象文章から概念語辞書15に登録されている単語を抽出するためのプログラム、抽出された単語に対応する単語概念ベクトルを用いて要約対象文章の特徴量を算出するためのプログラム、参照用文章群16に含まれる各参照用文章の特徴量の、要約対象文章の特徴量に対する類似度を算出し、最も類似度の高い参照用文章を選択するためのプログラム、選択された参照用文章に含まれている単語を、当該単語に対して単語概念ベクトルに基づく類似度の高い、要約対象文章に含まれている単語で置換することにより要約文を作成するためのプログラムが記憶されている。
要約文作成装置1では、記憶部に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてRAMに読み込まれて、CPUで解釈実行・処理される。この結果、CPUが所定の機能(単語抽出部、特徴量生成部、類似文章選択部、要約文作成部)を実現することで要約文の作成が実現される。
次に、実施形態として、図2を参照しながら、要約文作成装置1による要約文作成処理の流れを叙述的に説明する。
ステップS1
まず単語抽出部11は、図示しない形態素解析手段による形態素解析によって、要約対象文章(単一ないし複数の文で構成される文章)を、文終端(EOF;つまり文末の句点)で、もしくは要約対象文章が対話文から構成される場合に発話終端(つまり発話文と発話文との間)で区切り、さらに構文要素の単位(例えば単語や形態素である。)に分割して得られた単位列を入力とし、この単位列から概念語辞書15に登録されている単語を文ごとに抽出する。抽出された単語は、後述する要約対象文章および参照用文章の特徴量化に用いられる。
ステップS2a
次に特徴量生成部12の単語クラスタリング部12aは、まず、単語抽出部11によって文ごとに抽出された単語の総数と同数の単語群を生成する(初期状態)。初期状態の各単語群は、単語抽出部11によって文ごとに抽出された単語のうち一つを要素とする集合である。ただし、初期状態の互いに異なる単語群は共通の単語を要素に持たない。そして、単語クラスタリング部12aは、この初期状態からボトムアップクラスタリングによって、単語群相互の関連度を算出して最も関連性の高い二つの単語群を定め、この単語群同士を結合して新たな単語群とし、この処理を繰り返すことによって、単語群の総数が初期状態の所定割合以下、あるいは所定数以下の条件を満たすまで、関連性の高い単語群同士を結合する。以下、単語群と言えば、上記条件を満たした後の単語群を指す。
(参考文献4)東京大学 工学部計数工学科 嵯峨山茂樹 著、「応用音響学 講義ノート D2−クラスタリング」、UTオープンコースウェア講義資料無償公開Webサイト、[平成21年7月22日検索]、インターネット〈http://ocw.u-tokyo.ac.jp/wp-content/uploads/lecture-notes/Engin_01/D2-Clustering.pdf〉
(参考文献5)神嶌 敏弘 著、「データマイニング分野のクラスタリング手法(1) − クラスタリングを使ってみよう! −」、人工知能学会誌、vol.18, no.1, pp.59-65 (2003)
(参考文献6)渡辺澄夫 著、「データ学習アルゴリズム」、共立出版 (2001)
(参考文献7)Keinosuke. Fukunaga, "Introduction to statistical pattern recognition (2nd ed.)," Academic Press, 1990, ISBN 0-12-269851-7
(参考文献8)Duda & Hart, "Pattern classification and scene analysis," A wiley-interscience publication, 1973, ISBN 0 471 22361 1
この実施形態では、単語群相互の関連度を、一方の単語群に属する単語の単語概念ベクトルの平均と他方の単語群に属する単語の単語概念ベクトルの平均との内積とする。内積値が1に近いほど関連度が高いことを表す。この単語概念ベクトルとして、単語クラスタリング部12aが概念語辞書15を参照することによって取得した、単語群に属する各単語に対応する単語概念ベクトルが用いられる。
このステップS2aの処理は次のような効果を齎す。例えば要約対象文章が音声会話文を起こした文章である場合、対話中の言い間違いに対応する誤り箇所と、一般的には言い誤りの直後に行われる言い直しに対応する訂正箇所とに、少なくとも二つの単語が現れるが(一方は言い間違い単語であり、他方は正解単語である。)、ステップS2aの処理によると、対話文中の他の単語の単語概念ベクトルで構成される単語概念ベクトルの平均ともっとも類似した単語概念ベクトルを持つ単語が選択されてより大きな単語群が形成されることになるから、相対的に言い間違い単語は小さい単語群を形成することになり、言い間違い単語が要約文に現れるに相応しい重要語として選択されてしまうリスクを排除することができる。
逆に、音声認識処理で音声会話文を起こす際に惹起する誤認識による不要単語の挿入や誤認識単語についても、音声認識精度が全体的に著しく悪いというような特段の事情がない限り、ステップS2aの処理によると、不要単語や語認識単語は小さい単語群を形成することになり、不要単語や語認識単語が要約文に現れるに相応しい重要語として選択されてしまうリスクを排除することができる。
ステップS2b
次に、特徴量生成部12の特徴量算出部12bは、単語クラスタリング部12aによって生成された単語群ごとに、単語群に属する単語の単語概念ベクトルの平均を当該単語群の表す分野ベクトルとし、要約対象文章から生成される分野ベクトルの集合を要約対象文章の特徴量とする(上記参考文献2参照)。
ステップS3
次に、類似文章選択部13が、特徴量算出部12bによって算出された要約対象文章の特徴量と参照用文章群16に含まれる全ての参照用文章の特徴量それぞれとを比較し、最も類似した参照用文章を選択する。なお、要約対象文章の特徴量と各参照用文章の特徴量との類似度は、要約対象文章の特徴量に含まれる分野ベクトルそれぞれと各参照用文章の特徴量に含まれる分野ベクトルそれぞれとの距離の総和で計る。
このステップS3の処理にて用いられる参照用文章の特徴量は、参照用文章群16に含まれる全ての参照用文章について、概念語辞書15を用いて、ステップS1とステップS2の各処理と同様の処理によって事前に得られた分野ベクトルの集合であり、各参照用文章の特徴量は参照用文章に対応付けられて参照用文章群16に登録されているとする。なお、概念語辞書15がジャンルごとに複数用意されている場合には、各概念語辞書15に対応する事前取得された特徴量を参照用文章に対応付けておいてもよいし、ステップS1の処理で用いた概念語辞書15を用いて、要約文作成処理の都度、各参照用文章の特徴量を算出するようにしてもよい。この後者の場合、各参照用文章の特徴量を算出する機能構成部として、単語抽出部11と特徴量生成部12を利用できる。
ステップS4a
次に、要約文作成部14の類似分野選択部14aが、要約対象文章の単語群のうち要素数最大の単語群の分野ベクトルに対する上記選択された参照用文章の特徴量に含まれる各分野ベクトルの類似度を計算し、[1]第1位の類似度と第2位の類似度との差が所定値以下の場合、第1位の類似度と第2位の類似度を与えた二つの分野ベクトルに対応する単語群同士を結合してから結合後の単語群の分野ベクトルを求めて、再び参照用文章の特徴量に含まれる各分野ベクトルの類似度計算を行い、[2]第1位の類似度と第2位の類似度との差が所定値以下ではなくなった場合、類似度第1位の分野ベクトルに対応する参照用文章の単語群を選択する。この処理での類似度は、例えば分野ベクトル同士の距離である。また、この処理の開始時点の参照用文章の単語群は、ステップS1とステップS2aの各処理と同様の処理によって得られたものである。
このステップS4aの処理は、次のような作用効果を持つ。要約対象文章の単語群のうち要素数最大の単語群が、要約対象文章の主題となる単語を含んでいると想定されるので、この単語群の分野ベクトルを基準として、参照用文章の特徴量に含まれる各分野ベクトルの類似度を計算する。そして、基準の分野ベクトルに対して近い類似度を持つ二つの分野ベクトルに対応する単語群同士を結合することで、単語置換候補の取りこぼしが無いようにすることができる。
なお、このステップS4aの処理では、要約対象文章の単語群のうち要素数最大の単語群の分野ベクトルを基準として、当該基準分野ベクトルに対して近い類似度を持つ、上記選択された参照用文章の二つの分野ベクトルに対応する単語群同士を結合するとして説明したが、このような処理に限定されない。例えば、上記選択された参照用文章の単語群のうち要素数最大の単語群の分野ベクトルを基準として、当該基準分野ベクトルに対して近い類似度を持つ、上記要約対象文章の二つの分野ベクトルに対応する単語群同士を結合する処理としてもよい。
また、類似度の計算は、上記選択された参照用文章の各分野ベクトルと要約対象文章の基準分野ベクトルとの総当りの計算によって最大類似度を持つ組み合わせを得ることができるが、上記選択された参照用文章に含まれる分野ベクトルを予めクラスタリングによって分類しておき(ステップS3の処理で参照用文章が選択されるまでは、参照用文章群16に含まれる各参照用文章にも選択される可能性があるから、参照用文章それぞれについて事前に分野ベクトルがクラスタリングによって分類されているとする。ただし、選択された参照用文章に対して当該クラスタリングによる分類を行うことを排除する趣旨ではない。)、要約対象文章の基準分野ベクトルがどの分類に属しているかを求めてから、その分類内の各分野ベクトルとの総当りで類似度を比較することで、計算量を削減してもよい。
ステップS4b
要約文作成部14の類似単語選択部14bは、要約対象文章の単語群のうち要素数最大の単語群X(単語数をNとする。)と類似分野選択部14aによって選択された類似度第1位の分野ベクトルに対応する参照用文章の単語群Y(単語数をMとする。)について、単語群Yから一つの単語yを選択し、概念語辞書15を用いて、単語yに対する単語群Xに属する各単語x,・・・,xの類似度を求め、単語x,・・・,xのうち最も類似度が高くかつ単語yの形態素品詞と同じ形態素品詞を持つ単語置換候補x(i)を決定し、この処理を単語群Yに含まれる全ての単語y,・・・,yについて行うことで、単語yに対応する単語置換候補x(i)[i=1,2,・・・,M]を決定する。ここでの類似度は、概念語辞書15を参照して得られる単語概念ベクトル同士の距離である。
ステップS4c
そして、要約文作成部14の単語置換部14cが、ステップS3の処理で選択された参照用文章に含まれる単語yを単語置換候補x(i)に置換することで要約文を生成する。
ステップS5
必要に応じて要約文補正部18は、ステップS4cの処理で作成された要約文の特徴量と要約対象文章の特徴量との類似度と、ステップS4cの処理で作成された要約文に単語補正を施した新たな要約文の特徴量と要約対象文章の特徴量との類似度とを算出して両者を比較し、より類似度の高い要約文を出力する。
例えば、単語yに対応する単語x(k)を決定した際に得られた、単語x,・・・,xのうち2番目に類似度が高くかつ単語yの形態素品詞と同じ形態素品詞を持つ単語を新たな単語x'(k)とし、ステップS4cの処理で作成された要約文のうち当初の単語x(k)を新たな単語x'(k)に置換する。そして、新しく得られた要約文の特徴量と要約対象文章の特徴量との類似度を算出し(この算出方法はステップS3の処理と同じである。)、この類似度が当初の要約文の特徴量と要約対象文章の特徴量との類似度を上回る場合には、この新しく得られた要約文を出力し、逆に下回る場合には、当初の要約文を出力する。なお、或る一単語yに対応する単語x(k)を新たな単語x'(k)に置換するだけでなく、複数の単語yk1,yk2,…,ykpに対応する単語x(k1),x(k2),…,x(kp)をそれぞれ新たな単語x'(k1),x'(k2),…,x'(kp)に置換して新たな要約文を得てもよい。もちろん、新たに得る要約文は一つに限定されず、例えば、或る単語yk1に対応する単語x(k1)を新たな単語x'(k1)に置換して得られる第1の新たな要約文、或る単語yk2に対応する単語x(k2)を新たな単語x'(k1)に置換して得られる第2の新たな要約文、・・・、或る単語ykpに対応する単語x(kp)を新たな単語x'(kp)に置換して得られる第pの新たな要約文を作成して、これらの要約文のうち要約対象文章の特徴量に対して最も高い類似度を与える要約文を出力してもよい。
実施形態から明らかなように、もともと自然な文章である参照用文章の集合(参照用文章群)から、要約対象文章に最も類似する参照用文章を選択して、当該参照用文章の単語を要約対象文章に表れる単語で置換するため、自然で読みやすい要約文を作成することができる。
また、単語クラスタリングによる単語群生成処理によって、音声認識や形態素解析の失敗や対話文中の言い間違い単語の出現などに対して頑健であって、より正確な要約文を作成することができる。
また、要約対象文章の単語群のうち要素数最大の単語群の分野ベクトルに対して近い類似度を持つ、選択された参照用文章の二つの分野ベクトルに対応する単語群同士を結合することで、単語置換候補の取りこぼしが無いようにすることができる。また、単に単語同士の類似度で単語置換候補を決めるのではなく、要約対象文章の単語群のうち要素数最大の単語群の分野ベクトルと最も類似度の高い分野ベクトルを持つ参照用文章の単語群の中から単語置換候補を決めることで、より自然な要約文の作成が可能である。
また、単語置換候補の決定に際して、単に単語同士の単語概念ベクトルの類似度で決定するのではなく、形態素品詞が同じという条件も考慮することで、形態素品詞が異なる単語が置換されることで不自然な要約文が作成されてしまう可能性を低減できる。
また、作成された要約文の特徴量と要約対象文章の特徴量との類似度と、作成された要約文に単語補正を施した新たな要約文の特徴量と要約対象文章の特徴量との類似度とを算出して両者を比較して、類似度の高い要約文を選択することで、要約対象文章に対してより尤もらしい要約文を提供できることになる。
以上の実施形態の他、本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
また、上記要約文作成装置における処理機能をコンピュータによって実現する場合、要約文作成装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記要約文作成装置における処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本発明の装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (7)

  1. 要約対象文章の要約文を作成する要約文作成装置であって、
    単語にその形態素品詞およびその単語概念ベクトルが対応付けられた組が複数登録されている概念語辞書と、要約文作成に利用するために予め用意されている参照用文章の集合である参照用文章群とを記憶する記憶部と、
    上記要約対象文章から上記概念語辞書に登録されている単語を抽出する単語抽出手段と、
    上記単語抽出手段によって抽出された単語に対応する単語概念ベクトルを用いて、上記要約対象文章の特徴量を算出する特徴量生成手段と、
    上記特徴量生成手段によって算出された特徴量に対する上記参照用文章群に含まれる各参照用文章の特徴量の類似度を算出し、最も類似度の高い参照用文章を選択する類似文章選択手段と、
    上記類似文章選択手段によって選択された参照用文章に含まれている単語を、当該単語に対して単語概念ベクトルに基づく類似度の高い、上記要約対象文章に含まれている単語で置換することにより要約文を作成する要約文作成手段と
    を含む要約文作成装置。
  2. 請求項1に記載の要約文作成装置において、
    上記特徴量生成手段は、クラスタリングによって、上記単語抽出手段によって抽出された単語を、単語概念ベクトルで計られる相互の関連度に基づいて複数の単語群に分類し、各単語群に含まれる単語に対応する単語概念ベクトルの平均を当該単語群の分野ベクトルとし、上記要約対象文章の特徴量を各単語群の分野ベクトルの集合として算出する
    ことを特徴とする要約文作成装置。
  3. 請求項1または請求項2に記載の要約文作成装置において、
    上記要約文作成手段は、上記類似文章選択手段によって選択された参照用文章に含まれている単語を、上記概念語辞書を参照して、当該単語に対して単語概念ベクトルに基づく類似度の高く且つ当該単語の形態素品詞と同じ形態素品詞を持つ、上記要約対象文章に含まれている単語で置換することにより要約文を作成する
    ことを特徴とする要約文作成装置。
  4. 請求項3に記載の要約文作成装置において、
    上記要約文作成手段は、上記要約対象文章あるいは上記類似文章選択手段によって選択された参照用文章のいずれか一方の文章の単語群の分野ベクトルに対する、上記要約対象文章あるいは上記類似文章選択手段によって選択された参照用文章のいずれか他方の文章の各単語群の分野ベクトルの類似度を求め、当該一方の文章の単語群の分野ベクトルに対して高い類似度を持つ当該他方の文章の分野ベクトルに対応する単語群同士を結合し、最も高い類似度を与える当該一方および他方の各文章の分野ベクトルに対応する当該一方および他方の各文章の単語群を選択する類似分野選択手段を有する
    ことを特徴とする要約文作成装置。
  5. 請求項1から請求項4のいずれかに記載の要約文作成装置において、
    上記要約文作成手段によって作成された要約文の特徴量と上記要約対象文章の特徴量との類似度と、上記要約文作成手段によって作成された要約文に単語補正を施した新たな要約文の特徴量と上記要約対象文章の特徴量との類似度とを算出して両者を比較し、より類似度の高い要約文を出力する要約文補正部を含む
    ことを特徴とする要約文作成装置。
  6. 要約対象文章の要約文を作成する要約文作成方法であって、
    単語にその形態素品詞およびその単語概念ベクトルが対応付けられた組が複数登録されている概念語辞書と、要約文作成に利用するために予め用意されている参照用文章の集合である参照用文章群とが記憶部に記憶されており、
    単語抽出手段が、上記要約対象文章から上記概念語辞書に登録されている単語を抽出する単語抽出ステップと、
    特徴量生成手段が、上記単語抽出ステップにおいて抽出された単語に対応する単語概念ベクトルを用いて、上記要約対象文章の特徴量を算出する特徴量生成ステップと、
    類似文章選択手段が、上記特徴量生成ステップにおいて算出された特徴量に対する上記参照用文章群に含まれる各参照用文章の特徴量の類似度を算出し、最も類似度の高い参照用文章を選択する類似文章選択ステップと、
    要約文作成手段が、上記類似文章選択ステップにおいて選択された参照用文章に含まれている単語を、当該単語に対して単語概念ベクトルに基づく類似度の高い、上記要約対象文章に含まれている単語で置換することにより要約文を作成する要約文作成ステップと
    を有する要約文作成方法。
  7. 請求項1から請求項5のいずれかに記載された要約文作成装置としてコンピュータを機能させるためのプログラム。
JP2009175528A 2009-07-28 2009-07-28 要約文作成装置、要約文作成方法、プログラム Expired - Fee Related JP5253317B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009175528A JP5253317B2 (ja) 2009-07-28 2009-07-28 要約文作成装置、要約文作成方法、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009175528A JP5253317B2 (ja) 2009-07-28 2009-07-28 要約文作成装置、要約文作成方法、プログラム

Publications (2)

Publication Number Publication Date
JP2011028638A true JP2011028638A (ja) 2011-02-10
JP5253317B2 JP5253317B2 (ja) 2013-07-31

Family

ID=43637283

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009175528A Expired - Fee Related JP5253317B2 (ja) 2009-07-28 2009-07-28 要約文作成装置、要約文作成方法、プログラム

Country Status (1)

Country Link
JP (1) JP5253317B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014063354A1 (en) * 2012-10-26 2014-05-01 Hewlett-Packard Development Company, L.P. Method for summarizing document
JP2016004301A (ja) * 2014-06-13 2016-01-12 ヤフー株式会社 広告生成装置、広告生成方法、及び広告生成プログラム
CN109885821A (zh) * 2019-03-05 2019-06-14 中国联合网络通信集团有限公司 基于人工智能的文章撰写方法及装置、计算机存储介质
CN111368066A (zh) * 2018-12-06 2020-07-03 北京京东尚科信息技术有限公司 获取对话摘要的方法、装置和计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1153396A (ja) * 1997-07-29 1999-02-26 Just Syst Corp 文書処理装置、文書処理プログラムが記憶された記憶媒体および文書処理方法
JP2002197097A (ja) * 2000-12-27 2002-07-12 Nippon Telegr & Teleph Corp <Ntt> 記事要約文生成装置,記事要約文生成処理方法および記事要約文生成処理プログラムの記録媒体
JP2005122510A (ja) * 2003-10-17 2005-05-12 Nippon Telegr & Teleph Corp <Ntt> 話題構造抽出方法及び装置及び話題構造抽出プログラム及び話題構造抽出プログラムを記録したコンピュータ読み取り可能な記憶媒体
JP2005301780A (ja) * 2004-04-14 2005-10-27 Sony Corp 情報処理装置および情報処理方法、並びに、プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1153396A (ja) * 1997-07-29 1999-02-26 Just Syst Corp 文書処理装置、文書処理プログラムが記憶された記憶媒体および文書処理方法
JP2002197097A (ja) * 2000-12-27 2002-07-12 Nippon Telegr & Teleph Corp <Ntt> 記事要約文生成装置,記事要約文生成処理方法および記事要約文生成処理プログラムの記録媒体
JP2005122510A (ja) * 2003-10-17 2005-05-12 Nippon Telegr & Teleph Corp <Ntt> 話題構造抽出方法及び装置及び話題構造抽出プログラム及び話題構造抽出プログラムを記録したコンピュータ読み取り可能な記憶媒体
JP2005301780A (ja) * 2004-04-14 2005-10-27 Sony Corp 情報処理装置および情報処理方法、並びに、プログラム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014063354A1 (en) * 2012-10-26 2014-05-01 Hewlett-Packard Development Company, L.P. Method for summarizing document
CN104871151A (zh) * 2012-10-26 2015-08-26 惠普发展公司,有限责任合伙企业 用于概括文档的方法
US9727556B2 (en) 2012-10-26 2017-08-08 Entit Software Llc Summarization of a document
JP2016004301A (ja) * 2014-06-13 2016-01-12 ヤフー株式会社 広告生成装置、広告生成方法、及び広告生成プログラム
CN111368066A (zh) * 2018-12-06 2020-07-03 北京京东尚科信息技术有限公司 获取对话摘要的方法、装置和计算机可读存储介质
CN111368066B (zh) * 2018-12-06 2024-02-09 北京京东尚科信息技术有限公司 获取对话摘要的方法、装置和计算机可读存储介质
CN109885821A (zh) * 2019-03-05 2019-06-14 中国联合网络通信集团有限公司 基于人工智能的文章撰写方法及装置、计算机存储介质

Also Published As

Publication number Publication date
JP5253317B2 (ja) 2013-07-31

Similar Documents

Publication Publication Date Title
US11210470B2 (en) Automatic text segmentation based on relevant context
JP4940139B2 (ja) 音声からの意味内容の自動抽出および構造化文書の生成
US8719006B2 (en) Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US20130158982A1 (en) Computer-Implemented Systems and Methods for Content Scoring of Spoken Responses
Kheddar et al. Deep transfer learning for automatic speech recognition: Towards better generalization
JP6738436B2 (ja) 音声認識結果リランキング装置、音声認識結果リランキング方法、プログラム
CN115357719B (zh) 基于改进bert模型的电力审计文本分类方法及装置
WO2023124647A1 (zh) 一种纪要确定方法及其相关设备
CN115309910B (zh) 语篇要素和要素关系联合抽取方法、知识图谱构建方法
JP7205839B2 (ja) データ生成モデル学習装置、潜在変数生成モデル学習装置、翻訳データ生成装置、データ生成モデル学習方法、潜在変数生成モデル学習方法、翻訳データ生成方法、プログラム
JP5253317B2 (ja) 要約文作成装置、要約文作成方法、プログラム
Smaïli et al. A first summarization system of a video in a target language
JP2020118929A (ja) 要約生成装置、方法、プログラム、及び記憶媒体
JP7283718B2 (ja) 音響信号検索装置、音響信号検索方法、データ検索装置、データ検索方法、プログラム
Rodd et al. A tool for efficient and accurate segmentation of speech data: announcing POnSS
CN117216008A (zh) 一种基于知识图谱的档案多模态智能编纂方法及系统
JP2023071785A (ja) 音響信号検索装置、音響信号検索方法、データ検索装置、データ検索方法、プログラム
JP6549064B2 (ja) 音声認識装置、音声認識方法、プログラム
JP2009059123A (ja) 翻訳品質の人による評定を推定するための装置及び方法
Vadlapudi et al. Quantitative evaluation of grammaticality of summaries
KR102215259B1 (ko) 주제별 단어 또는 문서의 관계성 분석 방법 및 이를 구현하는 장치
JP6441203B2 (ja) 音声認識結果圧縮装置、音声認識結果圧縮方法、プログラム
RU2814808C1 (ru) Способ и система перефразирования текста
Penarrubia et al. Efficient Approaches for Notation Assembly in Optical Music Recognition
JP3043625B2 (ja) 単語分類処理方法、単語分類処理装置及び音声認識装置

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110720

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111108

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130328

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130409

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130416

R150 Certificate of patent or registration of utility model

Ref document number: 5253317

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160426

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees