JP2002278949A - 表題生成装置及び方法 - Google Patents

表題生成装置及び方法

Info

Publication number
JP2002278949A
JP2002278949A JP2001078190A JP2001078190A JP2002278949A JP 2002278949 A JP2002278949 A JP 2002278949A JP 2001078190 A JP2001078190 A JP 2001078190A JP 2001078190 A JP2001078190 A JP 2001078190A JP 2002278949 A JP2002278949 A JP 2002278949A
Authority
JP
Japan
Prior art keywords
phrase
title
document
word
storage means
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001078190A
Other languages
English (en)
Inventor
Kenji Matsumoto
賢司 松本
Yamahiko Ito
山彦 伊藤
Yasuo Tanida
泰郎 谷田
Hidenori Kashioka
秀紀 柏岡
Hideki Tanaka
英輝 田中
Noriyoshi Uratani
則好 浦谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR ONSEI GENGO TSUSHIN KENKYU
ATR Spoken Language Translation Research Laboratories
Original Assignee
ATR ONSEI GENGO TSUSHIN KENKYU
ATR Spoken Language Translation Research Laboratories
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR ONSEI GENGO TSUSHIN KENKYU, ATR Spoken Language Translation Research Laboratories filed Critical ATR ONSEI GENGO TSUSHIN KENKYU
Priority to JP2001078190A priority Critical patent/JP2002278949A/ja
Publication of JP2002278949A publication Critical patent/JP2002278949A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 適切な表題を自動的に生成することができる
表題生成装置及び方法を提供する。 【解決手段】 文節bigramテーブル生成部11は
処理対象文書のテキストデータを形態素解析して文節b
igramを抽出し、tf・idfテーブル生成部12
は複数の文書のテキストデータに基づいて各単語に対し
てtf・idf値を演算する。文節列生成部13は演算
されたtf・idf値の複数の上位の名詞を選択して起
点語とし文節bigramを探索して複数の表題候補の
文節列を生成する。接続妥当性検証部14は複数の表題
候補の文節列が検証用テキストデータに基づく文節tr
igramに存在するか否かに基づいて接続の妥当性を
検証し存在する表題候補の文節列を表題候補句として出
力し、最適表題句選択部15は表題候補句について隣接
する2文節が対象文書に出現する回数と処理対象文節に
含まれる自立語のtf・idf値とに基づいて表題候補
句から表題を選択する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書の表題を自動
的に生成する表題生成装置及び方法に関する。
【0002】
【従来の技術】文書における表題は本文の内容を簡潔に
表現していることが望ましい。その意味で表題の自動生
成は文書の非常に簡潔な要約の生成と捉えることが出来
る。従来、文書の要約手法としては何らかの選定基準に
従い重要文を抽出する手法が広く用いられている。新聞
記事や放送ニュース記事のようにリード文に文書の主題
が重点的に記述されている特別な分野では、先頭の1文
又はそれに続く数文を抽出し、その情報を元に表題生成
する手法は有効である(例えば、従来技術文献1「畑山
満美子ほか,“日本語記事の重要情報に基づく英文ヘッ
ドライン生成法”,言語処理学会第5回年次大会発表論
文集,pp.17‐20,1999年3月」参照。)。
【0003】
【発明が解決しようとする課題】しかしながら、一般に
文書の主題を表す表現は文書中に散在しており、1文の
みからの表題生成では文書の主題を表現出来ない可能性
がある。要約手法においても、文抽出型の要約に対し
て、要約スコアが最大になるよう単語を接合することで
要約文を生成する手法や文節重要度と係り受け整合度に
基づいて文を要約する手法など非抽出型とも言える要約
手法が提案されている(例えば、従来技術文献2「堀智
織ほか,“話題語と言語モデルを用いた音声自動要約法
の検討”,音声言語情報処理,29−18,pp.10
3−108,1999年12月20日」、従来技術文献
3「小黒玲ほか,“文節重要度と係り受け整合度に基づ
く文要約アルゴリズム”,言語処理学会第6回年次大会
発表論文集,pp.133‐136,2000年3月」
参照。)。しかし、これらの従来手法では、処理対象文
書の主題を表現できず、適切に表題を生成することがで
きなかった。
【0004】本発明の目的は以上の問題点を解決し、従
来技術に比較して適切な表題を自動的に生成することが
できる表題生成装置及び方法を提供することにある。
【0005】
【課題を解決するための手段】第1の発明に係る表題生
成装置は、複数の文書データに基づいて、上記複数の文
書のうちの少なくとも1つの対象文書の表題を自動的に
生成する表題生成装置において、上記複数の文書データ
のうちの処理対象文書データから文節bigramを抽
出する第1の生成手段と、上記文節bigramを文書
毎に格納する第1の記憶手段と、上記複数の文書データ
に基づいて各単語に対して、当該単語が当該文書中に高
い頻度で出現することを表す所定の指標を演算する演算
手段と、上記各単語に対する指標を文書毎に格納する第
2の記憶手段と、上記第2の記憶手段に格納された指標
のうち複数の上位の名詞を選択して起点語とし、上記第
1の記憶手段に格納された文節bigramを検索して
複数の表題候補の文節列を生成する第2の生成手段と、
別の検証用データから文節trigramを抽出する第
3の生成手段と、上記文節trigramを格納する第
3の記憶手段と、上記生成された複数の表題候補の文節
列が上記第3の記憶手段に格納された文節trigra
mに存在するか否かに基づいて接続の妥当性を検証し、
表題候補句として出力する検証手段と、上記表題候補句
について隣接する2文節が対象文書に出現する回数と、
当該各文節に含まれる自立語の上記指標とに基づいて、
表題候補句から表題を選択する選択手段とを備えたこと
を特徴とする。
【0006】また、第2の発明にかかる表題生成装置
は、複数の文書のテキストデータに基づいて、上記複数
の文書のうちの少なくとも1つの対象文書の表題を自動
的に生成する表題生成装置において、上記複数の文書の
テキストデータのうちの処理対象文書のテキストデータ
から、抽出する文節bigramが名詞又は形容詞、連
体詞と名詞を接続する形式になるような所定の抽出条件
を用いて文節bigramを抽出する第1の生成手段
と、上記文節bigramを文書毎に格納する第1の記
憶手段と、上記複数の文書のテキストデータに基づいて
各単語に対して、当該単語が複数の文書中で少数の文書
に偏って出現しかつ当該文書中に高い頻度で出現するこ
とを表す所定の指標を演算する演算手段と、各単語に対
する指標を文書毎に格納する第2の記憶手段と、上記第
2の記憶手段に格納された指標のうち複数の上位の名詞
を選択して起点語とし、上記第1の記憶手段に格納され
た文節bigramを探索して複数の表題候補の文節列
を生成する第2の生成手段と、別の検証用テキストデー
タから、抽出する文節trigramが名詞又は形容
詞、連体詞と名詞を接続する形式になるような所定の抽
出条件を用いて文節trigramを抽出する第3の生
成手段と、上記文節trigramを格納する第3の記
憶手段と、上記生成された複数の表題候補の文節列が上
記第3の記憶手段に格納された文節trigramに存
在するか否かに基づいて接続の妥当性を検証し、存在す
る表題候補の文節列を表題候補句として出力する検証手
段と、上記表題候補句について隣接する2文節が対象文
書に出現する回数と、当該各文節に含まれる自立語の上
記指標とに基づいて表題候補句から表題を選択する選択
手段とを備えたことを特徴とする。
【0007】さらに、第3の発明に係る表題生成方法
は、複数の文書データに基づいて、上記複数の文書のう
ちの少なくとも1つの対象文書の表題を自動的に生成す
る表題生成方法において、上記複数の文書データのうち
の処理対象文書データから文節bigramを抽出して
文書毎に第1の記憶手段に格納するステップと、上記複
数の文書データに基づいて各単語に対して、当該単語が
当該文書中に高い頻度で出現することを表す所定の指標
を演算して文書毎に第2の記憶手段に格納するステップ
と、上記第2の記憶手段に格納された指標のうち複数の
上位の名詞を選択して起点語とし、上記第1の記憶手段
に格納された文節bigramを検索して複数の表題候
補の文節列を生成するステップと、別の検証用データか
ら文節trigramを抽出して第3の記憶手段に格納
するステップと、上記生成された複数の表題候補の文節
列が上記第3の記憶手段に格納された文節trigra
mに存在するか否かに基づいて接続の妥当性を検証し、
表題候補句として出力するステップと、上記表題候補句
について隣接する2文節が対象文書に出現する回数と、
当該各文節に含まれる自立語の上記指標とに基づいて、
表題候補句から表題を選択するステップとを含むことを
特徴とする。
【0008】またさらに、第4の発明に係る表題生成方
法は、複数の文書のテキストデータに基づいて、上記複
数の文書のうちの少なくとも1つの対象文書の表題を自
動的に生成する表題生成方法において、上記複数の文書
のテキストデータのうちの処理対象文書のテキストデー
タから、抽出する文節bigramが名詞又は形容詞、
連体詞と名詞を接続する形式になるような所定の抽出条
件を用いて文節bigramを抽出して第1の記憶手段
に格納するステップと、上記複数の文書のテキストデー
タに基づいて各単語に対して、当該単語が複数の文書中
で少数の文書に偏って出現しかつ当該文書中に高い頻度
で出現することを表す所定の指標を演算して各単語に対
する指標を文書毎に第2の記憶手段に格納するステップ
と、上記第2の記憶手段に格納された指標のうち複数の
上位の名詞を選択して起点語とし、上記第1の記憶手段
に格納された文節bigramを探索して複数の表題候
補の文節列を生成するステップと、別の検証用テキスト
データから、抽出する文節trigramが名詞又は形
容詞、連体詞と名詞を接続する形式になるような所定の
抽出条件を用いて文節trigramを抽出して第3の
記憶手段に格納するステップと、上記生成された複数の
表題候補の文節列が上記第3の記憶手段に格納された文
節trigramに存在するか否かに基づいて接続の妥
当性を検証し、存在する表題候補の文節列を表題候補句
として出力するステップと、上記表題候補句について隣
接する2文節が対象文書に出現する回数と、当該各文節
に含まれる自立語の上記指標とに基づいて表題候補句か
ら表題を選択するステップとを含むことを特徴とする。
【0009】
【発明の実施の形態】講演文など、1人の発声発話文の
書き起こし文であるいわゆる独話文を対象として表題を
自動生成する手法について以下の提案を行う。この提案
では、簡潔な表現からなる表題句を生成するには文より
小さな単位、形態素あるいは文節を単位とした表題句の
生成手法が有効であるという見地に基づいて自動的に表
題を生成する。本実施形態の提案する表題生成手法にお
いて、形態素や文節を生成の単位とし。これらを原文書
中の出現順に拘束されずに接合して簡潔な表題句を生成
する。
【0010】以下、図面を参照して本発明に係る実施形
態について説明する。
【0011】図1は、本発明に係る一実施形態である表
題生成装置の構成を示すブロック図である。この実施形
態に係る表題生成装置は、文節bigramテーブル生
成部11と、tf・idfテーブル生成部12と、文節
列生成部13と、接続妥当性検証部14と、最適表題句
選択部15とを備え、複数の対象文書に基づいて所定の
1つの対象文書の表題を自動的に生成することを特徴と
している。
【0012】まず、表題生成装置で用いる各処理におい
て詳細に説明する。本実施形態においては、表題として
名詞句を生成する。名詞句は名詞を含む文節が連続する
単純な形式とし、句の先頭にのみ形容詞、連体詞を認め
る。
【0013】
【表1】 ――――――――――――――――――――――――――――――――――― 例)ヨーロッパ.の.右翼.勢力.の.台頭 新しい.世紀.に対する.希望.と.不安 ―――――――――――――――――――――――――――――――――――
【0014】表題の生成は文書中の重要名詞を起点に接
続可能な文節を連続して接続することによって行う。生
成の流れは、図1に示すように、以下のようになる。 (a)文節bigramテーブル生成部11により、複
数の対象文書を文書毎に形態素解析し、文節bigra
mを抽出する。 (b)tf・idfテーブル生成部12により、複数の
対象文書に基づいて文書毎に、tf・idf値を演算し
てtf・idfテーブルを生成する。 (c)文節列生成部13により、対象文書のtf・id
f値の上位の名詞(複数)を起点に文節bigramテ
ーブルを探索して複数の表題候補の文節列を生成する。 (d)接続妥当性検証部14により、表題としての表現
の妥当性を検証する。 (e)最適表題句選択部15により、表題候補句を順位
付けして最良句を選択する。
【0015】なお、処理対象の複数の文書のテキストデ
ータは、テキストデータメモリ21において文書毎に格
納されている。実施例においては、NHKテレビが放送
のプログラム「あすを読む」の50回分の書き起こし文
のテキストを用いた。
【0016】まず、文節bigramの抽出について説
明する。文節bigramテーブル生成部11は、テキ
ストデータメモリ21内のテキストデータを形態素解析
し、重要名詞に接続する文節列の要素となる文節big
ram(出現頻度付き)を抽出ルールを適用して、表2
に示すように対象文書から抽出し、文書毎にテーブル形
式で文節bigramテーブルメモリ22に格納する。
ここでいう文節bigramは表3の形式をとる。1文
節が含む自立語は1個で名詞が連続する複合語は異なる
文節とした。
【0017】
【表2】 文節bigramの抽出例 ――――――――――――――――――――――――――――――――――― …行政による被災者支援の制度を見直すだけではなく選択するような 工夫が必要です。 ――――――――――――――――――――――――――――――――――― ↓ ――――――――――――――――――――――――――――――――――― .行政..による..被災.者 .被災.者...支援. .支援..の..制度. .選択..するような..工夫. ―――――――――――――――――――――――――――――――――――
【0018】
【表3】 文節bigram ――――――――――――――――――――――――――――――――――― 自立語部=[接頭辞][自立語][接尾辞] 第1文節=[自立語部][付属語部] 第2文節=[自立語部] 文節bigram=[第1文節][第2文節] ――――――――――――――――――――――――――――――――――― (注)*:0回以上の繰り返し。
【0019】抽出する文節bigramが名詞又は形容
詞、連体詞と名詞を接続する形式になるように以下の抽
出条件を適用した。 (a)第1文節の自立語は名詞又は形容詞、連体詞の
み。 (b)第2文節の自立語は名詞のみ。 (c)1文節の付属語部分を構成する最後尾の付属語に
ついては表4のいずれかに適合するもののみ。
【0020】
【表4】 付属語部分の最後尾の付属語 ――――――――――――――――――――――――――――――――――― 品詞 その他の条件 ――――――――――――――――――――――――――――――――――― 助詞−連体化 なし ――――――――――――――――――――――――――――――――――― 助詞−並立助詞 なし ――――――――――――――――――――――――――――――――――― 助詞−接続助詞 出現形[および]のみ ――――――――――――――――――――――――――――――――――― 助詞−格助詞−連語 出現形[う、る、た]で終わる う:という、とかいう、など る:に対する、に関する、など た:といった ――――――――――――――――――――――――――――――――――― 助動詞 体言接続又は基本形 ――――――――――――――――――――――――――――――――――― 動詞−非自立 基本形 ――――――――――――――――――――――――――――――――――― 動詞−接尾 基本形 ―――――――――――――――――――――――――――――――――――
【0021】(d)名詞(多くはサ変接続名詞)の直後
に続く場合の動詞は自立語部(名詞)間を接合する付属
語部分と同様の扱いする。
【0022】
【表5】
【0023】なお、本実施形態での形態素の品詞区分は
「茶筌」(例えば、従来技術文献4「日本語形態素解析
システム“茶筌(ChaSen)version 2.0 for Window
s”,1999年」参照。)の品詞体系に従った。
【0024】次いで、表題候補の文節列の生成の前段に
おいて、tf・idfテーブル生成部12は、テキスト
データメモリ21内の複数の文書のテキストデータに基
づいて、文書毎に各単語に対してtf・idf値を演算
してテーブル形式でtf・idfテーブルメモリ23に
格納する。
【0025】ここで、tf・idf法は、各文書中にお
ける語の頻度を用いて、各語が文書間の違いを識別する
度合いを測定する方法であり(例えば、従来技術文献5
「Salton et al.,“On the specification of term val
ues in automatic indexing,Journal Documentation”,
Vol.29, No.4, pp.351-372, 1973年12月」参照。)、
基本的には、文書集合中で少数の文書に偏って高頻度で
出現する語をキーワードとして抽出するという考えに基
づいている。このような考えを数値的に表現するため
に、tf・idf法では、語頻度(term frequency)及
び文書頻度(document frequency)という2つの数値を
用いる。語頻度tfijは、文書Dにおいて語T
出現した回数を表す。
【数1】tfij=文書Dにおける語Tの出現回数 また、文書頻度dfは、ある語Tが出現した文書数
を表す。
【数2】df=語Tが出現した文書数
【0026】さらに、ある語Tが、文書集合全体にお
いてどの程度偏って出現するかを測定するために、文書
集合中の全文書数をNとして、文書頻度の逆数(invers
e document frequency,IDF)とよばれる値N/df
を用いる。そして、語頻度tfij及び文書頻度の逆
数N/dfから計算される以下の指標wijによっ
て、文書Dにおいて語Tがキーワードとして適切か
どうかを測定する。
【0027】
【数3】wij=tfij・log(N/df
【0028】この指標のtf・idf値wijは、語T
が文書集合中で少数の文書に偏って出現する、すなわ
ちN/dfが大きく、かつ、その文書中に高頻度で出
現する。すなわちtfijが大きい場合に大きい値をと
る。すなわち、tf・idf値wijは、処理対象の単
語が複数の文書中で少数の文書に偏って出現しかつ当該
文書中に高い頻度で出現することを表す指標である。
【0029】次いで、文節列生成部13は、表題候補の
文節列を生成する際に処理の起点となる語を起点語と
し、対象文書中のtf・idf値の高位順の名詞を複数
個、メモリ12内のtf・idfテーブルから選択す
る。そして、メモリ11内の文節bigramテーブル
中で第1文節の自立語が起点語と等しい文節bigra
mを検索し取り出す。これらの第2文節自立語部と第1
文節自立語部が等しい文節bigramを文節bigr
amテーブルから検索し、合致した文節bigramを
表題候補の文節列として接続する。接続可能な文節bi
gramがある限り処理を繰り返して起点語に後続する
文節列を生成する。起点語に先行する文節列も同様にし
て生成する。
【0030】ただし起点語から文節列の末端までのパス
で同一文節bigramを2回以上使用しない。これは
生成処理が無限に連続するのを回避するためである。起
点語の後方に接続する文節列wは深さ(図2の横方向)
優先で生成される。
【0031】図3は、図1の文節列生成部13によって
生成される文節列生成処理を示すフローチャートであ
る。図3において、Tは文節bigramテーブルと
し、lastTは文節bigramテーブルの大きさ
(語数)とする。各テーブル内の1st(bgm)は第
1文節自立語部、fuzok(bgm)は第1文節付属
語部、2nd(bgm)は第2文節自立語部である。ま
ず、ステップS1において起点語を単語レジスタsにセ
ットし、ステップS2において単語レジスタsの単語を
単語レジスタwにセットした後、ステップS3のサブル
ーチン処理proc(w,s,T)を実行した当該文節
列処理を終了する。ここで、サブルーチン処理proc
(w,s,T)の括弧内は、入出力の引数である。
【0032】図4は、図3のサブルーチン処理proc
(w,s,T)を示すフローチャートである。図4にお
いて、まず、ステップS11において変数jに1を設定
し、次いで、ステップS12において変数jが文節bi
gramテーブルの大きさT以下であるか否かを判断す
る。NOのときはテーブルの最後に到達していると判断
しステップS18に進む。ステップS18では現在得ら
れた単語wを文節列メモリ24に書き込み、元のルーチ
ンに戻る。ステップS12でYESのときはテーブルの
最後まで到達していないので、以下の処理を行う。すな
わちステップ13において単語sがj番目のbigra
mに関する第1文節自立語部1st(bgm[j])に
一致するか否かを判断し、YESのときはステップS1
4に進む一方、NOのときはステップ17に進む。ステ
ップ14で単語wと、j番目のbigramに関する第
1文節自立語部と、j番目のbigramに関する第2
文節自立語部とを並置するように加算した時の語を単語
レジスタwに代入した後、ステップS15において、単
語Tからj番目のbigramを減算したものを単語
T’として、ステップS16でサブルーチン処理pro
c(w,2nd(bgm),T’)を実行する。ステッ
プS17で変数jを1加算した後、ステップ12に戻
り、ステップ12以降の処理を繰り返す。
【0033】図2は、この文節列生成部13による文節
列生成処理により、起点語を中心に前後の文節列を接続
して表題候補となる文節列が生成された文節例の一例を
示しており、単語グラフの形式で生成して文節列メモリ
24に格納する。図2において、二重線の矩形で囲んで
いる単語「マカオ」は起点語である。図2から明らかな
ように、起点語から前方向及び後ろ方向に延在している
ことがわかる。
【0034】次いで、新聞記事データベースに基づく文
節trigramを用いた接続妥当性の検証処理につい
て説明する。文節bigramを再帰的に接続して得ら
れる文節列は対象文書中に出現するとは限らず、日本語
として不適当な可能性もある。本実施形態においては、
接続で得られた文節列の妥当性を新聞記事(1995−
1999年、日本経済新聞)コーパスから抽出した文節
trigramで検証する。文節trigramテーブ
ル生成部10は、新聞記事データベースメモリ30内の
記事テキストデータ(コーパス)を形態素解析し、文節
bigram抽出条件に準じた基準により抽出し、得ら
れた文節trigram集合を文節trigramテー
ブルとし、文節trigramテーブルメモリ31に格
納した。本実施形態においては、新聞記事を検証用テキ
ストデータとして用いたが、本発明はこれに限らず、雑
誌や単行本などのテキストデータを検証用テキストデー
タとして用いてもよい。
【0035】本実施形態においては、接続妥当性検証部
14は、文節列生成部13により作成した文節列がメモ
リ31内の文節trigramテーブルで被覆できる場
合のみ接続が妥当であると判断し、すなわち、文節列生
成部13により作成した文節列がメモリ31内の文節t
rigramテーブルに存在するか否かを判断し、存在
しているとき接続が妥当であるとし、接続が妥当である
文節列を最適表題句選択部15に出力する。接続妥当性
の検証は起点語から末梢方向に行ない、妥当性が検証さ
れた部分までを表題候補句とする。文節間の接続妥当性
の検証は、文節trigramテーブルを用いるほか
に、表題生成対象の「あすを読む」そのものに出現する
文節trigramを使うことも考えられる。しかし
「あすを読む」には言いよどみ、言い直し表現がある
他、語り口調の文特有の冗長な表現(「発表いたしまし
た内容」など)も多く見られる。これらの表現を含む接
続が、妥当とされてしまうことを避け、「あすを読む」
を書き言葉的な観点でチェックするために文節trig
ramテーブルのみを用いて検証した。
【0036】最後に、最適表題句選択部15は、接続妥
当性検証部14において残った表題候補句を対象に表題
としての良さを示すスコアを計算し最適な表題句を選定
し、例えばCRTディスプレイなどの表示部又はプリン
タ装置などの印字部であるデータ出力部16に出力して
最適な表題句を文書毎に表示又は印字などの処理を行
う。最適表題句選択部15によるスコアの計算は以下の
通り、N個の文字列からなる表題候補句W=w
,…,wについて隣接する2文節w,wi+
が対象文書中に出現する回数をFRQ(w
i+1)とする。文節wに含まれる自立語(名詞、
表題候補句の先頭に限り形容詞,連体詞も含む。)v
のtf・idf値をTFIDF(v)とする。表題候
補句Wの表題として良さのスコアを以下のように計算す
る。
【0037】
【数4】
【0038】上記式から明らかなように、文節のつなが
りの良さを数4の右辺第1項で、文節中の自立語の重要
度を右辺第2項で計算し、その合計値を表題の良さの指
標とした。本実施形態では、予備実験により重み係数λ
を0.1とした。また対象とした「あすを読む」の既存
の番組表題がすべて3文節以上であることから、上記評
価式により順位付けを行なう対象は3文節以上の表題候
補句とした。
【0039】以上の実施形態において、文節bigra
mテーブル生成部11と、tf・idfテーブル生成部
12と、文節列生成部13と、接続妥当性検証部14
と、最適表題句選択部15とは、例えば、コンピュータ
などのディジタル計算機で構成され、メモリ21乃至2
4,30,31は例えばハードディスクメモリなどの記
憶装置である。
【0040】以上説明したように、本実施形態によれ
ば、表題生成の起点を複数とした上で、ひとつの起点か
ら複数の表題候補句を生成する。複数の生成句から最良
句を選択することにより、適切な表題を生成することが
できる。
【0041】以上に実施形態においては、複数の文書の
テキストデータに基づいて複数の文書(すべての文書を
処理対象文書としている)の表題を自動的に生成する表
題生成装置について説明しているが、本発明はこれに限
らず、複数の文書のテキストデータに基づいて複数の文
書のうちの少なくとも1つ文書の表題を自動的に生成す
る表題生成装置を構成してもよい。処理対象文書がすべ
ての文書ではなく限定されるときは、文節bigram
テーブル生成部11と、tf・idfテーブル生成部1
2と、文節列生成部13と、接続妥当性検証部14と、
最適表題句選択部15とは、処理対象文書についてのみ
処理すればよい。
【0042】
【実施例】本発明者らは、「あすを読む」(50件)の
書き起しテキストを対象に、各文書のtf・idf値の
上位5名詞を起点語として、表題の生成実験を行なっ
た。表題句としての評価で上位1,2位となった生成句
について以下の3段階の評価を行なった。評価の結果を
次の表に示す。 (1)適切な表題である。 (2)表題として許容できる。 (3)不正な表題である。
【0043】
【表6】 生成表題に対する評価 ――――――――――――――――――――――――――― 適切 許容 不適 ――――――――――――――――――――――――――― 1位 26% 34% 40% 2位 12% 36% 52% 1位又は2位 30% − − ――――――――――――――――――――――――――― 前回実験 10% 56% 34% ―――――――――――――――――――――――――――
【0044】評価式の適用により1,2位となった表題
間で、「適切」の評価に関して、10%程度の差が見ら
れる。比較例である前回実験(従来技術文献6「松本賢
司ほか,“ 重要語の共起情報を用いた講演文の表題生
成”,情報処理学会第61回(平成12年後期)全国大会
講演論文集(2),4T−2,pp.2−161〜2−
162,平成12年10月」参照。)とは、「許容」の
基準が異なるため、比較は難しいが、今回1位と判定さ
れた表題は「適切な表題」の割合が15%程度向上して
いる。また順位2位までを加えると20%の向上が見ら
れた。
【0045】表題の良さで1位とされた13件の生成表
題句のうち、10件については結果的に、対象文書中に
出現する文字列を表題句にしており、残り3件は、対象
文書中に出現しない文字列を生成している。
【0046】
【発明の効果】以上詳述したように本発明によれば、処
理対象文書のテキストデータを形態素解析して文節bi
gramを抽出し、複数の文書のテキストデータに基づ
いて各単語に対して、当該単語が複数の文書中で少数の
文書に偏って出現しかつ複数の文書中に高い頻度で出現
することを表す所定の指標であるtf・idf値を演算
し、演算されたtf・idf値の複数の上位の名詞を選
択して起点語とし文節bigramを探索して複数の表
題候補の文節列を生成し、複数の表題候補の文節列が検
証用テキストデータに基づく文節trigramに存在
するか否かに基づいて接続の妥当性を検証し存在する表
題候補の文節列を表題候補句として出力し、表題候補句
について隣接する2文節が対象文書に出現する回数と処
理対象文節に含まれる自立語のtf・idf値とに基づ
いて表題候補句から表題を選択するように構成した。従
って、表題生成の起点を複数とした上で、ひとつの起点
から複数の表題候補句を生成し、複数の生成句から最良
句を選択したので、適切な表題を自動的に生成すること
ができる。
【図面の簡単な説明】
【図1】 本発明に係る一実施形態である表題生成装置
の構成を示すブロック図である。
【図2】 図1の文節列生成部13によって生成された
文節列の一例を示す図である。
【図3】 図1の文節列生成部13によって生成される
文節列生成処理を示すフローチャートである。
【図4】 図3のサブルーチン処理proc(w,s,
T)を示すフローチャートである。
【符号の説明】
11…文節bigramテーブル生成部、 12…tf・idfテーブル生成部、 13…文節列生成部、 14…接続妥当性検証部、 15…最適表題句選択部、 16…データ出力部、 21…テキストデータメモリ、 22…文節bigramテーブルメモリ、 23…tf・idfテーブルメモリ、 24…文節列メモリ、 30…新聞記事データベースメモリ、 31…文節trigramテーブルメモリ。
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G06F 17/30 414 G06F 17/30 414Z (72)発明者 伊藤 山彦 京都府相楽郡精華町光台二丁目2番地2 株式会社エイ・ティ・アール音声言語通信 研究所内 (72)発明者 谷田 泰郎 京都府相楽郡精華町光台二丁目2番地2 株式会社国際電気通信基礎技術研究所内 (72)発明者 柏岡 秀紀 京都府相楽郡精華町光台二丁目2番地2 株式会社エイ・ティ・アール音声言語通信 研究所内 (72)発明者 田中 英輝 京都府相楽郡精華町光台二丁目2番地2 株式会社エイ・ティ・アール音声言語通信 研究所内 (72)発明者 浦谷 則好 京都府相楽郡精華町光台二丁目2番地2 株式会社エイ・ティ・アール音声言語通信 研究所内 Fターム(参考) 5B009 QA11 SA14 5B075 ND03 NK04 PQ02 PR04 UU06 5B091 AA15 AB13 CA02 CA05

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 複数の文書データに基づいて、上記複数
    の文書のうちの少なくとも1つの対象文書の表題を自動
    的に生成する表題生成装置において、 上記複数の文書データのうちの処理対象文書データから
    文節bigramを抽出する第1の生成手段と、 上記文節bigramを文書毎に格納する第1の記憶手
    段と、 上記複数の文書データに基づいて各単語に対して、当該
    単語が当該文書中に高い頻度で出現することを表す所定
    の指標を演算する演算手段と、 上記各単語に対する指標を文書毎に格納する第2の記憶
    手段と、 上記第2の記憶手段に格納された指標のうち複数の上位
    の名詞を選択して起点語とし、上記第1の記憶手段に格
    納された文節bigramを検索して複数の表題候補の
    文節列を生成する第2の生成手段と、 別の検証用データから文節trigramを抽出する第
    3の生成手段と、 上記文節trigramを格納する第3の記憶手段と、 上記生成された複数の表題候補の文節列が上記第3の記
    憶手段に格納された文節trigramに存在するか否
    かに基づいて接続の妥当性を検証し、表題候補句として
    出力する検証手段と、 上記表題候補句について隣接する2文節が対象文書に出
    現する回数と、当該各文節に含まれる自立語の上記指標
    とに基づいて、表題候補句から表題を選択する選択手段
    とを備えたことを特徴とする表題生成装置。
  2. 【請求項2】 複数の文書のテキストデータに基づい
    て、上記複数の文書のうちの少なくとも1つの対象文書
    の表題を自動的に生成する表題生成装置において、 上記複数の文書のテキストデータのうちの処理対象文書
    のテキストデータから、抽出する文節bigramが名
    詞又は形容詞、連体詞と名詞を接続する形式になるよう
    な所定の抽出条件を用いて文節bigramを抽出する
    第1の生成手段と、 上記文節bigramを文書毎に格納する第1の記憶手
    段と、 上記複数の文書のテキストデータに基づいて各単語に対
    して、当該単語が複数の文書中で少数の文書に偏って出
    現しかつ当該文書中に高い頻度で出現することを表す所
    定の指標を演算する演算手段と、 各単語に対する指標を文書毎に格納する第2の記憶手段
    と、 上記第2の記憶手段に格納された指標のうち複数の上位
    の名詞を選択して起点語とし、上記第1の記憶手段に格
    納された文節bigramを探索して複数の表題候補の
    文節列を生成する第2の生成手段と、 別の検証用テキストデータから、抽出する文節trig
    ramが名詞又は形容詞、連体詞と名詞を接続する形式
    になるような所定の抽出条件を用いて文節trigra
    mを抽出する第3の生成手段と、 上記文節trigramを格納する第3の記憶手段と、 上記生成された複数の表題候補の文節列が上記第3の記
    憶手段に格納された文節trigramに存在するか否
    かに基づいて接続の妥当性を検証し、存在する表題候補
    の文節列を表題候補句として出力する検証手段と、 上記表題候補句について隣接する2文節が対象文書に出
    現する回数と、当該各文節に含まれる自立語の上記指標
    とに基づいて表題候補句から表題を選択する選択手段と
    を備えたことを特徴とする表題生成装置。
  3. 【請求項3】 複数の文書データに基づいて、上記複数
    の文書のうちの少なくとも1つの対象文書の表題を自動
    的に生成する表題生成方法において、 上記複数の文書データのうちの処理対象文書データから
    文節bigramを抽出して文書毎に第1の記憶手段に
    格納するステップと、 上記複数の文書データに基づいて各単語に対して、当該
    単語が当該文書中に高い頻度で出現することを表す所定
    の指標を演算して文書毎に第2の記憶手段に格納するス
    テップと、 上記第2の記憶手段に格納された指標のうち複数の上位
    の名詞を選択して起点語とし、上記第1の記憶手段に格
    納された文節bigramを検索して複数の表題候補の
    文節列を生成するステップと、 別の検証用データから文節trigramを抽出して第
    3の記憶手段に格納するステップと、 上記生成された複数の表題候補の文節列が上記第3の記
    憶手段に格納された文節trigramに存在するか否
    かに基づいて接続の妥当性を検証し、表題候補句として
    出力するステップと、 上記表題候補句について隣接する2文節が対象文書に出
    現する回数と、当該各文節に含まれる自立語の上記指標
    とに基づいて、表題候補句から表題を選択するステップ
    とを含むことを特徴とする表題生成方法。
  4. 【請求項4】 複数の文書のテキストデータに基づい
    て、上記複数の文書のうちの少なくとも1つの対象文書
    の表題を自動的に生成する表題生成方法において、 上記複数の文書のテキストデータのうちの処理対象文書
    のテキストデータから、抽出する文節bigramが名
    詞又は形容詞、連体詞と名詞を接続する形式になるよう
    な所定の抽出条件を用いて文節bigramを抽出して
    第1の記憶手段に格納するステップと、 上記複数の文書のテキストデータに基づいて各単語に対
    して、当該単語が複数の文書中で少数の文書に偏って出
    現しかつ当該文書中に高い頻度で出現することを表す所
    定の指標を演算して各単語に対する指標を文書毎に第2
    の記憶手段に格納するステップと、 上記第2の記憶手段に格納された指標のうち複数の上位
    の名詞を選択して起点語とし、上記第1の記憶手段に格
    納された文節bigramを探索して複数の表題候補の
    文節列を生成するステップと、 別の検証用テキストデータから、抽出する文節trig
    ramが名詞又は形容詞、連体詞と名詞を接続する形式
    になるような所定の抽出条件を用いて文節trigra
    mを抽出して第3の記憶手段に格納するステップと、 上記生成された複数の表題候補の文節列が上記第3の記
    憶手段に格納された文節trigramに存在するか否
    かに基づいて接続の妥当性を検証し、存在する表題候補
    の文節列を表題候補句として出力するステップと、 上記表題候補句について隣接する2文節が対象文書に出
    現する回数と、当該各文節に含まれる自立語の上記指標
    とに基づいて表題候補句から表題を選択するステップと
    を含むことを特徴とする表題生成方法。
JP2001078190A 2001-03-19 2001-03-19 表題生成装置及び方法 Pending JP2002278949A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001078190A JP2002278949A (ja) 2001-03-19 2001-03-19 表題生成装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001078190A JP2002278949A (ja) 2001-03-19 2001-03-19 表題生成装置及び方法

Publications (1)

Publication Number Publication Date
JP2002278949A true JP2002278949A (ja) 2002-09-27

Family

ID=18934840

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001078190A Pending JP2002278949A (ja) 2001-03-19 2001-03-19 表題生成装置及び方法

Country Status (1)

Country Link
JP (1) JP2002278949A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008509501A (ja) * 2004-08-09 2008-03-27 アマゾン テクノロジーズ インコーポレイテッド キーワードターゲット広告を発行する際に、使用キーワードを識別する方法及びシステム
JP2009093402A (ja) * 2007-10-09 2009-04-30 Fuji Xerox Co Ltd 文書処理装置及びプログラム
JP2011138306A (ja) * 2009-12-28 2011-07-14 National Institute Of Information & Communication Technology 文書要約装置、文書処理装置、文書要約方法、文書処理方法、及びプログラム
JP2012043100A (ja) * 2010-08-17 2012-03-01 Nippon Telegr & Teleph Corp <Ntt> テキスト要約装置とその方法とプログラム
CN103218410A (zh) * 2013-03-26 2013-07-24 亿赞普(北京)科技有限公司 互联网事件分析方法与装置
CN110781303A (zh) * 2019-10-28 2020-02-11 佰聆数据股份有限公司 一种短文本分类方法及系统
CN111930929A (zh) * 2020-07-09 2020-11-13 车智互联(北京)科技有限公司 一种文章标题生成方法、装置及计算设备
KR20210092142A (ko) * 2020-01-14 2021-07-23 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 텍스트 주제 생성 방법, 장치 및 전자기기
WO2022113202A1 (ja) * 2020-11-25 2022-06-02 日本電気株式会社 情報処理装置、情報処理方法、及び、記録媒体

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9489449B1 (en) 2004-08-09 2016-11-08 Amazon Technologies, Inc. Method and system for identifying keywords for use in placing keyword-targeted advertisements
US7752200B2 (en) 2004-08-09 2010-07-06 Amazon Technologies, Inc. Method and system for identifying keywords for use in placing keyword-targeted advertisements
JP4672726B2 (ja) * 2004-08-09 2011-04-20 アマゾン テクノロジーズ インコーポレイテッド キーワードターゲット広告を発行する際に、使用キーワードを識別する方法及びシステム
JP2008509501A (ja) * 2004-08-09 2008-03-27 アマゾン テクノロジーズ インコーポレイテッド キーワードターゲット広告を発行する際に、使用キーワードを識別する方法及びシステム
US10402431B2 (en) 2004-08-09 2019-09-03 Amazon Technologies, Inc. Method and system for identifying keywords for use in placing keyword-targeted advertisements
JP2009093402A (ja) * 2007-10-09 2009-04-30 Fuji Xerox Co Ltd 文書処理装置及びプログラム
JP2011138306A (ja) * 2009-12-28 2011-07-14 National Institute Of Information & Communication Technology 文書要約装置、文書処理装置、文書要約方法、文書処理方法、及びプログラム
JP2012043100A (ja) * 2010-08-17 2012-03-01 Nippon Telegr & Teleph Corp <Ntt> テキスト要約装置とその方法とプログラム
CN103218410A (zh) * 2013-03-26 2013-07-24 亿赞普(北京)科技有限公司 互联网事件分析方法与装置
CN110781303A (zh) * 2019-10-28 2020-02-11 佰聆数据股份有限公司 一种短文本分类方法及系统
KR20210092142A (ko) * 2020-01-14 2021-07-23 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 텍스트 주제 생성 방법, 장치 및 전자기기
JP2021111415A (ja) * 2020-01-14 2021-08-02 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド テキストテーマ生成方法、テキストテーマ生成装置、電子機器、記憶媒体およびコンピュータプログラム
JP7118184B2 (ja) 2020-01-14 2022-08-15 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド テキストテーマ生成方法、テキストテーマ生成装置、電子機器、記憶媒体およびコンピュータプログラム
KR102451496B1 (ko) 2020-01-14 2022-10-06 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 텍스트 주제 생성 방법, 장치 및 전자기기
CN111930929A (zh) * 2020-07-09 2020-11-13 车智互联(北京)科技有限公司 一种文章标题生成方法、装置及计算设备
CN111930929B (zh) * 2020-07-09 2023-11-10 车智互联(北京)科技有限公司 一种文章标题生成方法、装置及计算设备
WO2022113202A1 (ja) * 2020-11-25 2022-06-02 日本電気株式会社 情報処理装置、情報処理方法、及び、記録媒体

Similar Documents

Publication Publication Date Title
JP2810650B2 (ja) 自然言語ドキュメントのセンテンスからセンテンスの部分集合を自動的に抽出する方法及び装置
Bikel et al. An algorithm that learns what's in a name
US6115683A (en) Automatic essay scoring system using content-based techniques
US6345253B1 (en) Method and apparatus for retrieving audio information using primary and supplemental indexes
US7983915B2 (en) Audio content search engine
US6424983B1 (en) Spelling and grammar checking system
US20080270110A1 (en) Automatic speech recognition with textual content input
US20080270344A1 (en) Rich media content search engine
US20050203900A1 (en) Associative retrieval system and associative retrieval method
Zechner Automatic generation of concise summaries of spoken dialogues in unrestricted domains
WO2005073874A1 (ja) 他言語のテキスト生成方法及びテキスト生成装置
Parlak et al. Performance analysis and improvement of Turkish broadcast news retrieval
JP2001084255A (ja) 文書検索装置および方法
JP5718405B2 (ja) 発話選択装置、方法、及びプログラム、対話装置及び方法
JP2002278949A (ja) 表題生成装置及び方法
Iwatsuki et al. Using formulaic expressions in writing assistance systems
Abdulrahman et al. A language model for spell checking of educational texts in kurdish (sorani)
Pettersson et al. HistSearch-Implementation and Evaluation of a Web-based Tool for Automatic Information Extraction from Historical Text.
KR102017227B1 (ko) 과학문서의 핵심어구 추출방법 및 장치
Nwesri Effective retrieval techniques for Arabic text
JP2004005641A (ja) 単語の使用を訂正または改善させる方法および装置
JP2002503849A (ja) 漢字文における単語区分方法
JP2002297635A (ja) 要約文作成システム及びその方法
Spasic FlexiTerm: a more efficient implementation of flexible multi-word term recognition
JP4934115B2 (ja) キーワード抽出装置、方法及びプログラム