JP2011028638A - 要約文作成装置、要約文作成方法、プログラム - Google Patents
要約文作成装置、要約文作成方法、プログラム Download PDFInfo
- Publication number
- JP2011028638A JP2011028638A JP2009175528A JP2009175528A JP2011028638A JP 2011028638 A JP2011028638 A JP 2011028638A JP 2009175528 A JP2009175528 A JP 2009175528A JP 2009175528 A JP2009175528 A JP 2009175528A JP 2011028638 A JP2011028638 A JP 2011028638A
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- word
- concept
- similarity
- creating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】単語にその形態素品詞およびその単語概念ベクトルが対応付けられた組が複数登録されている概念語辞書を用いて、要約対象文章から概念語辞書に登録されている単語を抽出し、抽出された単語に対応する単語概念ベクトルを用いて要約対象文章の特徴量を算出し、要約文作成に利用するために予め用意されている参照用文章の集合である参照用文章群に含まれる各参照用文章の特徴量の、要約対象文章の特徴量に対する類似度を算出し、最も類似度の高い参照用文章を選択し、選択された参照用文章に含まれている単語を、当該単語に対して単語概念ベクトルに基づく類似度の高い、要約対象文章に含まれている単語で置換することにより要約文を作成する。
【選択図】図1
Description
要約文作成装置1は、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、CPU(Central Processing Unit)〔キャッシュメモリなどを備えていてもよい。〕、メモリであるRAM(Random Access Memory)やROM(Read Only Memory)、ハードディスクである外部記憶装置、並びにこれらの入力部、出力部、CPU、RAM、ROM、外部記憶装置間のデータのやり取りが可能なように接続するバスなどを備えている。また必要に応じて、要約文作成装置1に、CD−ROMなどの記憶媒体を読み書きできる装置(ドライブ)などを設けるとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
(参考文献1)別所克人、奥雅博 著、「未知語の概念ベクトル推定手法」、情報処理学会研究報告、2004-NL-164(10), 2004/11/4, pp.59-64.
(参考文献2)内山俊郎、別所克人、内山匡、奥雅博 著、「単語概念ベクトルを用いた文書群からの代表語抽出」、電子情報通信学会技術研究報告、信学技報Vol.108、No.93、pp.47-52、2008. DE2008-9、ISSN-0913-5685.
(参考文献3)別所克人、古瀬蔵、片岡良治 著、「単語と意味属性との共起に基づく概念ベクトル生成手法」、The 20thAnnual Conference of the Japanese Society for Artificial Intelligence, 2006, 3C3-1, pp.1-3.
まず単語抽出部11は、図示しない形態素解析手段による形態素解析によって、要約対象文章(単一ないし複数の文で構成される文章)を、文終端(EOF;つまり文末の句点)で、もしくは要約対象文章が対話文から構成される場合に発話終端(つまり発話文と発話文との間)で区切り、さらに構文要素の単位(例えば単語や形態素である。)に分割して得られた単位列を入力とし、この単位列から概念語辞書15に登録されている単語を文ごとに抽出する。抽出された単語は、後述する要約対象文章および参照用文章の特徴量化に用いられる。
次に特徴量生成部12の単語クラスタリング部12aは、まず、単語抽出部11によって文ごとに抽出された単語の総数と同数の単語群を生成する(初期状態)。初期状態の各単語群は、単語抽出部11によって文ごとに抽出された単語のうち一つを要素とする集合である。ただし、初期状態の互いに異なる単語群は共通の単語を要素に持たない。そして、単語クラスタリング部12aは、この初期状態からボトムアップクラスタリングによって、単語群相互の関連度を算出して最も関連性の高い二つの単語群を定め、この単語群同士を結合して新たな単語群とし、この処理を繰り返すことによって、単語群の総数が初期状態の所定割合以下、あるいは所定数以下の条件を満たすまで、関連性の高い単語群同士を結合する。以下、単語群と言えば、上記条件を満たした後の単語群を指す。
(参考文献4)東京大学 工学部計数工学科 嵯峨山茂樹 著、「応用音響学 講義ノート D2−クラスタリング」、UTオープンコースウェア講義資料無償公開Webサイト、[平成21年7月22日検索]、インターネット〈http://ocw.u-tokyo.ac.jp/wp-content/uploads/lecture-notes/Engin_01/D2-Clustering.pdf〉
(参考文献5)神嶌 敏弘 著、「データマイニング分野のクラスタリング手法(1) − クラスタリングを使ってみよう! −」、人工知能学会誌、vol.18, no.1, pp.59-65 (2003)
(参考文献6)渡辺澄夫 著、「データ学習アルゴリズム」、共立出版 (2001)
(参考文献7)Keinosuke. Fukunaga, "Introduction to statistical pattern recognition (2nd ed.)," Academic Press, 1990, ISBN 0-12-269851-7
(参考文献8)Duda & Hart, "Pattern classification and scene analysis," A wiley-interscience publication, 1973, ISBN 0 471 22361 1
逆に、音声認識処理で音声会話文を起こす際に惹起する誤認識による不要単語の挿入や誤認識単語についても、音声認識精度が全体的に著しく悪いというような特段の事情がない限り、ステップS2aの処理によると、不要単語や語認識単語は小さい単語群を形成することになり、不要単語や語認識単語が要約文に現れるに相応しい重要語として選択されてしまうリスクを排除することができる。
次に、特徴量生成部12の特徴量算出部12bは、単語クラスタリング部12aによって生成された単語群ごとに、単語群に属する単語の単語概念ベクトルの平均を当該単語群の表す分野ベクトルとし、要約対象文章から生成される分野ベクトルの集合を要約対象文章の特徴量とする(上記参考文献2参照)。
次に、類似文章選択部13が、特徴量算出部12bによって算出された要約対象文章の特徴量と参照用文章群16に含まれる全ての参照用文章の特徴量それぞれとを比較し、最も類似した参照用文章を選択する。なお、要約対象文章の特徴量と各参照用文章の特徴量との類似度は、要約対象文章の特徴量に含まれる分野ベクトルそれぞれと各参照用文章の特徴量に含まれる分野ベクトルそれぞれとの距離の総和で計る。
次に、要約文作成部14の類似分野選択部14aが、要約対象文章の単語群のうち要素数最大の単語群の分野ベクトルに対する上記選択された参照用文章の特徴量に含まれる各分野ベクトルの類似度を計算し、[1]第1位の類似度と第2位の類似度との差が所定値以下の場合、第1位の類似度と第2位の類似度を与えた二つの分野ベクトルに対応する単語群同士を結合してから結合後の単語群の分野ベクトルを求めて、再び参照用文章の特徴量に含まれる各分野ベクトルの類似度計算を行い、[2]第1位の類似度と第2位の類似度との差が所定値以下ではなくなった場合、類似度第1位の分野ベクトルに対応する参照用文章の単語群を選択する。この処理での類似度は、例えば分野ベクトル同士の距離である。また、この処理の開始時点の参照用文章の単語群は、ステップS1とステップS2aの各処理と同様の処理によって得られたものである。
また、類似度の計算は、上記選択された参照用文章の各分野ベクトルと要約対象文章の基準分野ベクトルとの総当りの計算によって最大類似度を持つ組み合わせを得ることができるが、上記選択された参照用文章に含まれる分野ベクトルを予めクラスタリングによって分類しておき(ステップS3の処理で参照用文章が選択されるまでは、参照用文章群16に含まれる各参照用文章にも選択される可能性があるから、参照用文章それぞれについて事前に分野ベクトルがクラスタリングによって分類されているとする。ただし、選択された参照用文章に対して当該クラスタリングによる分類を行うことを排除する趣旨ではない。)、要約対象文章の基準分野ベクトルがどの分類に属しているかを求めてから、その分類内の各分野ベクトルとの総当りで類似度を比較することで、計算量を削減してもよい。
要約文作成部14の類似単語選択部14bは、要約対象文章の単語群のうち要素数最大の単語群X(単語数をNとする。)と類似分野選択部14aによって選択された類似度第1位の分野ベクトルに対応する参照用文章の単語群Y(単語数をMとする。)について、単語群Yから一つの単語yiを選択し、概念語辞書15を用いて、単語yiに対する単語群Xに属する各単語x1,・・・,xNの類似度を求め、単語x1,・・・,xNのうち最も類似度が高くかつ単語yiの形態素品詞と同じ形態素品詞を持つ単語置換候補x(i)を決定し、この処理を単語群Yに含まれる全ての単語y1,・・・,yNについて行うことで、単語yiに対応する単語置換候補x(i)[i=1,2,・・・,M]を決定する。ここでの類似度は、概念語辞書15を参照して得られる単語概念ベクトル同士の距離である。
そして、要約文作成部14の単語置換部14cが、ステップS3の処理で選択された参照用文章に含まれる単語yiを単語置換候補x(i)に置換することで要約文を生成する。
必要に応じて要約文補正部18は、ステップS4cの処理で作成された要約文の特徴量と要約対象文章の特徴量との類似度と、ステップS4cの処理で作成された要約文に単語補正を施した新たな要約文の特徴量と要約対象文章の特徴量との類似度とを算出して両者を比較し、より類似度の高い要約文を出力する。
例えば、単語ykに対応する単語x(k)を決定した際に得られた、単語x1,・・・,xNのうち2番目に類似度が高くかつ単語ykの形態素品詞と同じ形態素品詞を持つ単語を新たな単語x'(k)とし、ステップS4cの処理で作成された要約文のうち当初の単語x(k)を新たな単語x'(k)に置換する。そして、新しく得られた要約文の特徴量と要約対象文章の特徴量との類似度を算出し(この算出方法はステップS3の処理と同じである。)、この類似度が当初の要約文の特徴量と要約対象文章の特徴量との類似度を上回る場合には、この新しく得られた要約文を出力し、逆に下回る場合には、当初の要約文を出力する。なお、或る一単語ykに対応する単語x(k)を新たな単語x'(k)に置換するだけでなく、複数の単語yk1,yk2,…,ykpに対応する単語x(k1),x(k2),…,x(kp)をそれぞれ新たな単語x'(k1),x'(k2),…,x'(kp)に置換して新たな要約文を得てもよい。もちろん、新たに得る要約文は一つに限定されず、例えば、或る単語yk1に対応する単語x(k1)を新たな単語x'(k1)に置換して得られる第1の新たな要約文、或る単語yk2に対応する単語x(k2)を新たな単語x'(k1)に置換して得られる第2の新たな要約文、・・・、或る単語ykpに対応する単語x(kp)を新たな単語x'(kp)に置換して得られる第pの新たな要約文を作成して、これらの要約文のうち要約対象文章の特徴量に対して最も高い類似度を与える要約文を出力してもよい。
Claims (7)
- 要約対象文章の要約文を作成する要約文作成装置であって、
単語にその形態素品詞およびその単語概念ベクトルが対応付けられた組が複数登録されている概念語辞書と、要約文作成に利用するために予め用意されている参照用文章の集合である参照用文章群とを記憶する記憶部と、
上記要約対象文章から上記概念語辞書に登録されている単語を抽出する単語抽出手段と、
上記単語抽出手段によって抽出された単語に対応する単語概念ベクトルを用いて、上記要約対象文章の特徴量を算出する特徴量生成手段と、
上記特徴量生成手段によって算出された特徴量に対する上記参照用文章群に含まれる各参照用文章の特徴量の類似度を算出し、最も類似度の高い参照用文章を選択する類似文章選択手段と、
上記類似文章選択手段によって選択された参照用文章に含まれている単語を、当該単語に対して単語概念ベクトルに基づく類似度の高い、上記要約対象文章に含まれている単語で置換することにより要約文を作成する要約文作成手段と
を含む要約文作成装置。 - 請求項1に記載の要約文作成装置において、
上記特徴量生成手段は、クラスタリングによって、上記単語抽出手段によって抽出された単語を、単語概念ベクトルで計られる相互の関連度に基づいて複数の単語群に分類し、各単語群に含まれる単語に対応する単語概念ベクトルの平均を当該単語群の分野ベクトルとし、上記要約対象文章の特徴量を各単語群の分野ベクトルの集合として算出する
ことを特徴とする要約文作成装置。 - 請求項1または請求項2に記載の要約文作成装置において、
上記要約文作成手段は、上記類似文章選択手段によって選択された参照用文章に含まれている単語を、上記概念語辞書を参照して、当該単語に対して単語概念ベクトルに基づく類似度の高く且つ当該単語の形態素品詞と同じ形態素品詞を持つ、上記要約対象文章に含まれている単語で置換することにより要約文を作成する
ことを特徴とする要約文作成装置。 - 請求項3に記載の要約文作成装置において、
上記要約文作成手段は、上記要約対象文章あるいは上記類似文章選択手段によって選択された参照用文章のいずれか一方の文章の単語群の分野ベクトルに対する、上記要約対象文章あるいは上記類似文章選択手段によって選択された参照用文章のいずれか他方の文章の各単語群の分野ベクトルの類似度を求め、当該一方の文章の単語群の分野ベクトルに対して高い類似度を持つ当該他方の文章の分野ベクトルに対応する単語群同士を結合し、最も高い類似度を与える当該一方および他方の各文章の分野ベクトルに対応する当該一方および他方の各文章の単語群を選択する類似分野選択手段を有する
ことを特徴とする要約文作成装置。 - 請求項1から請求項4のいずれかに記載の要約文作成装置において、
上記要約文作成手段によって作成された要約文の特徴量と上記要約対象文章の特徴量との類似度と、上記要約文作成手段によって作成された要約文に単語補正を施した新たな要約文の特徴量と上記要約対象文章の特徴量との類似度とを算出して両者を比較し、より類似度の高い要約文を出力する要約文補正部を含む
ことを特徴とする要約文作成装置。 - 要約対象文章の要約文を作成する要約文作成方法であって、
単語にその形態素品詞およびその単語概念ベクトルが対応付けられた組が複数登録されている概念語辞書と、要約文作成に利用するために予め用意されている参照用文章の集合である参照用文章群とが記憶部に記憶されており、
単語抽出手段が、上記要約対象文章から上記概念語辞書に登録されている単語を抽出する単語抽出ステップと、
特徴量生成手段が、上記単語抽出ステップにおいて抽出された単語に対応する単語概念ベクトルを用いて、上記要約対象文章の特徴量を算出する特徴量生成ステップと、
類似文章選択手段が、上記特徴量生成ステップにおいて算出された特徴量に対する上記参照用文章群に含まれる各参照用文章の特徴量の類似度を算出し、最も類似度の高い参照用文章を選択する類似文章選択ステップと、
要約文作成手段が、上記類似文章選択ステップにおいて選択された参照用文章に含まれている単語を、当該単語に対して単語概念ベクトルに基づく類似度の高い、上記要約対象文章に含まれている単語で置換することにより要約文を作成する要約文作成ステップと
を有する要約文作成方法。 - 請求項1から請求項5のいずれかに記載された要約文作成装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009175528A JP5253317B2 (ja) | 2009-07-28 | 2009-07-28 | 要約文作成装置、要約文作成方法、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009175528A JP5253317B2 (ja) | 2009-07-28 | 2009-07-28 | 要約文作成装置、要約文作成方法、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011028638A true JP2011028638A (ja) | 2011-02-10 |
JP5253317B2 JP5253317B2 (ja) | 2013-07-31 |
Family
ID=43637283
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009175528A Expired - Fee Related JP5253317B2 (ja) | 2009-07-28 | 2009-07-28 | 要約文作成装置、要約文作成方法、プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5253317B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014063354A1 (en) * | 2012-10-26 | 2014-05-01 | Hewlett-Packard Development Company, L.P. | Method for summarizing document |
JP2016004301A (ja) * | 2014-06-13 | 2016-01-12 | ヤフー株式会社 | 広告生成装置、広告生成方法、及び広告生成プログラム |
CN109885821A (zh) * | 2019-03-05 | 2019-06-14 | 中国联合网络通信集团有限公司 | 基于人工智能的文章撰写方法及装置、计算机存储介质 |
CN111368066A (zh) * | 2018-12-06 | 2020-07-03 | 北京京东尚科信息技术有限公司 | 获取对话摘要的方法、装置和计算机可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1153396A (ja) * | 1997-07-29 | 1999-02-26 | Just Syst Corp | 文書処理装置、文書処理プログラムが記憶された記憶媒体および文書処理方法 |
JP2002197097A (ja) * | 2000-12-27 | 2002-07-12 | Nippon Telegr & Teleph Corp <Ntt> | 記事要約文生成装置,記事要約文生成処理方法および記事要約文生成処理プログラムの記録媒体 |
JP2005122510A (ja) * | 2003-10-17 | 2005-05-12 | Nippon Telegr & Teleph Corp <Ntt> | 話題構造抽出方法及び装置及び話題構造抽出プログラム及び話題構造抽出プログラムを記録したコンピュータ読み取り可能な記憶媒体 |
JP2005301780A (ja) * | 2004-04-14 | 2005-10-27 | Sony Corp | 情報処理装置および情報処理方法、並びに、プログラム |
-
2009
- 2009-07-28 JP JP2009175528A patent/JP5253317B2/ja not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1153396A (ja) * | 1997-07-29 | 1999-02-26 | Just Syst Corp | 文書処理装置、文書処理プログラムが記憶された記憶媒体および文書処理方法 |
JP2002197097A (ja) * | 2000-12-27 | 2002-07-12 | Nippon Telegr & Teleph Corp <Ntt> | 記事要約文生成装置,記事要約文生成処理方法および記事要約文生成処理プログラムの記録媒体 |
JP2005122510A (ja) * | 2003-10-17 | 2005-05-12 | Nippon Telegr & Teleph Corp <Ntt> | 話題構造抽出方法及び装置及び話題構造抽出プログラム及び話題構造抽出プログラムを記録したコンピュータ読み取り可能な記憶媒体 |
JP2005301780A (ja) * | 2004-04-14 | 2005-10-27 | Sony Corp | 情報処理装置および情報処理方法、並びに、プログラム |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014063354A1 (en) * | 2012-10-26 | 2014-05-01 | Hewlett-Packard Development Company, L.P. | Method for summarizing document |
CN104871151A (zh) * | 2012-10-26 | 2015-08-26 | 惠普发展公司,有限责任合伙企业 | 用于概括文档的方法 |
US9727556B2 (en) | 2012-10-26 | 2017-08-08 | Entit Software Llc | Summarization of a document |
JP2016004301A (ja) * | 2014-06-13 | 2016-01-12 | ヤフー株式会社 | 広告生成装置、広告生成方法、及び広告生成プログラム |
CN111368066A (zh) * | 2018-12-06 | 2020-07-03 | 北京京东尚科信息技术有限公司 | 获取对话摘要的方法、装置和计算机可读存储介质 |
CN111368066B (zh) * | 2018-12-06 | 2024-02-09 | 北京京东尚科信息技术有限公司 | 获取对话摘要的方法、装置和计算机可读存储介质 |
CN109885821A (zh) * | 2019-03-05 | 2019-06-14 | 中国联合网络通信集团有限公司 | 基于人工智能的文章撰写方法及装置、计算机存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP5253317B2 (ja) | 2013-07-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11210470B2 (en) | Automatic text segmentation based on relevant context | |
JP4940139B2 (ja) | 音声からの意味内容の自動抽出および構造化文書の生成 | |
US8719006B2 (en) | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis | |
US20130158982A1 (en) | Computer-Implemented Systems and Methods for Content Scoring of Spoken Responses | |
Kheddar et al. | Deep transfer learning for automatic speech recognition: Towards better generalization | |
JP6738436B2 (ja) | 音声認識結果リランキング装置、音声認識結果リランキング方法、プログラム | |
CN115357719B (zh) | 基于改进bert模型的电力审计文本分类方法及装置 | |
WO2023124647A1 (zh) | 一种纪要确定方法及其相关设备 | |
CN115309910B (zh) | 语篇要素和要素关系联合抽取方法、知识图谱构建方法 | |
JP7205839B2 (ja) | データ生成モデル学習装置、潜在変数生成モデル学習装置、翻訳データ生成装置、データ生成モデル学習方法、潜在変数生成モデル学習方法、翻訳データ生成方法、プログラム | |
JP5253317B2 (ja) | 要約文作成装置、要約文作成方法、プログラム | |
Smaïli et al. | A first summarization system of a video in a target language | |
JP2020118929A (ja) | 要約生成装置、方法、プログラム、及び記憶媒体 | |
JP7283718B2 (ja) | 音響信号検索装置、音響信号検索方法、データ検索装置、データ検索方法、プログラム | |
Rodd et al. | A tool for efficient and accurate segmentation of speech data: announcing POnSS | |
CN117216008A (zh) | 一种基于知识图谱的档案多模态智能编纂方法及系统 | |
JP2023071785A (ja) | 音響信号検索装置、音響信号検索方法、データ検索装置、データ検索方法、プログラム | |
JP6549064B2 (ja) | 音声認識装置、音声認識方法、プログラム | |
JP2009059123A (ja) | 翻訳品質の人による評定を推定するための装置及び方法 | |
Vadlapudi et al. | Quantitative evaluation of grammaticality of summaries | |
KR102215259B1 (ko) | 주제별 단어 또는 문서의 관계성 분석 방법 및 이를 구현하는 장치 | |
JP6441203B2 (ja) | 音声認識結果圧縮装置、音声認識結果圧縮方法、プログラム | |
RU2814808C1 (ru) | Способ и система перефразирования текста | |
Penarrubia et al. | Efficient Approaches for Notation Assembly in Optical Music Recognition | |
JP3043625B2 (ja) | 単語分類処理方法、単語分類処理装置及び音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110720 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20111108 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130328 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130409 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130416 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5253317 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160426 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |