JP2006260601A - 索引生成装置及び方法及び記録媒体 - Google Patents

索引生成装置及び方法及び記録媒体 Download PDF

Info

Publication number
JP2006260601A
JP2006260601A JP2006159602A JP2006159602A JP2006260601A JP 2006260601 A JP2006260601 A JP 2006260601A JP 2006159602 A JP2006159602 A JP 2006159602A JP 2006159602 A JP2006159602 A JP 2006159602A JP 2006260601 A JP2006260601 A JP 2006260601A
Authority
JP
Japan
Prior art keywords
index word
index
context
document
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006159602A
Other languages
English (en)
Inventor
Hidetatsu Matsuoka
秀達 松岡
Akira Ochitani
亮 落谷
Fumito Nishino
文人 西野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2006159602A priority Critical patent/JP2006260601A/ja
Publication of JP2006260601A publication Critical patent/JP2006260601A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】構造化文書においても不要語が少ない索引生成が可能とすること。
【解決手段】文書受付部3aと、文脈解析部4と、索引語抽出ルール格納部5aと、索引語抽出ルールに基づいて索引語を抽出する索引語抽出部6と、索引語絞込ルール格納部と、索引語絞り込みルールに基づいて索引語を絞り込む索引語絞り込み部とを備え、文書受付部3aは、受け付けた構造化文書を文書の内容部分と構造部分に弁別し、文脈解析部4は、弁別した出力から文脈を解析し、その文脈に適合する索引語抽出ルールを索引語抽出ルール格納部5aから取り出し、該取り出した索引語抽出ルールと文書内容を組にして出力し、索引語抽出部6は、文脈解析部4の出力から索引語抽出ルールを文書内容に適用して索引語を抽出して出力し、索引語絞り込み部は、索引語絞込ルール格納部から取り出した索引語絞り込みルールを抽出した索引語に適用して索引語を絞り込む。
【選択図】図1

Description

本発明は、構造化文書から不要語の少ない索引を抽出することができる索引生成装置及び方法及び記録媒体に関する。
従来、文書から索引語やキーワードを抽出する技術は、主なものに以下の2つがあった。
(1) 原文から網羅的に名詞句を抽出し、抽出した名詞句を、その名詞句の出現位置(例えば、文書の初めにあるものを重要視する等)や頻度などの統計情報を利用して選択する。
(2) 索引やキーワードとなる語は、特定の表現(例えば、〜とは、〜である。等の「〜」にくる語)で記述されていることが多いのでその表現を持つ部分を探索して、そこから索引語、キーワードの候補を抽出する。
前記従来のものにおいては、次のような課題があった。
索引語に多量の不必要な語が混入していることが多く、また、原文中の索引に一致する語に対して機械的に参照情報を付加していくと、参照先の数が多すぎて索引が索引としての用をなさないことがあった。
本発明は、このような従来の課題を解決し、構造化文書から不要語の少ない索引を抽出することを目的とする。
図1は本発明の原理説明図である。図1中、1は構造化文書格納部、3aは文書受付部、4は文脈解析部、5aは索引語抽出ルール格納部、6は索引語抽出部、7は索引格納部である。
本発明は前記従来の課題を解決するため次のように構成した。
(1):構造化文書を受け付ける文書受付部3aと、前記構造化文書の論理構造とその出現順序によって表される文脈を解析する文脈解析部4と、索引語の抽出ルールを文脈毎に格納する索引語抽出ルール格納部5aと、索引語抽出ルールに基づいて索引語を抽出する索引語抽出部6と、索引語の絞り込みルールを文脈毎に格納する索引語絞込ルール格納部と、索引語絞り込みルールに基づいて索引語を絞り込む索引語絞り込み部とを備え、前記文書受付部3aは、受け付けた構造化文書を文書の内容部分と構造部分に弁別し、前記文脈解析部4は、前記弁別した出力から文脈を解析し、その文脈に適合する索引語抽出ルールを前記索引語抽出ルール格納部5aから取り出し、該取り出した索引語抽出ルールと前記文書内容を組にして出力し、前記索引語抽出部6は、前記文脈解析部4の出力から前記索引語抽出ルールを前記文書内容に適用して索引語を抽出して出力し、前記索引語絞り込み部は、前記索引語絞込ルール格納部から取り出した前記索引語絞り込みルールを前記抽出した索引語に適用して索引語を絞り込む。
(2):構造化文書を受け付ける文書受付部3aで、受け付けた構造化文書を文書の内容部分と構造部分に弁別し、文脈解析部4で、前記弁別した出力から文脈を解析し、その文脈に適合する索引語抽出ルールを索引語抽出ルール格納部5aから取り出し、該取り出した索引語抽出ルールと前記文書内容を組にして出力し、索引語抽出部6で、前記文脈解析部4の出力から前記索引語抽出ルールを前記文書内容に適用して索引語を抽出して出力し、索引語絞り込み部で、索引語絞込ルール格納部から取り出した索引語絞り込みルールを前記抽出した索引語に適用して索引語を絞り込む索引生成方法とする。
(3):構造化文書を受け付ける文書受付手順と、前記構造化文書の論理構造とその出現順序によって表される文脈を解析する文脈解析手順と、索引語抽出ルールに基づいて索引語を抽出する索引語抽出手順と、文脈毎の索引語絞り込みルールに基づいて索引語を絞り込む索引語絞り込み手順とを備え、前記文書受付手順で、受け付けた構造化文書を文書の内容部分と構造部分に弁別し、前記文脈解析手順で、前記弁別した出力から文脈を解析し、その文脈に適合する索引語抽出ルールを索引語抽出ルール格納部から取り出し、該取り出した索引語抽出ルールと前記文書内容を組にして出力し、前記索引語抽出手順で、前記文脈解析手順の出力から前記索引語抽出ルールを前記文書内容に適用して索引語を抽出し、前記索引語絞り込み手順で、索引語絞込ルール格納部から取り出した文脈毎の前記索引語絞り込みルールを前記抽出した索引語に適用して索引語を絞り込んで出力するように、コンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体とする。
(作用)
前記構成に基づく作用を説明する。
文書受付部3aで、受け付けた構造化文書を文書の内容部分と構造部分に弁別し、文脈解析部4で、前記弁別した出力から文脈を解析し、その文脈に適合する索引語抽出ルールを索引語抽出ルール格納部5aから取り出して該取り出した索引語抽出ルールと前記文書内容を組にして出力し、索引語抽出部6で、前記文脈解析部4の出力から前記索引語抽出ルールを前記文書内容に適用して索引語を抽出して出力し、前記索引語絞り込み部は、前記索引語絞込ルール格納部から取り出した前記索引語絞り込みルールを前記抽出した索引語に適用して索引語を絞り込む。このため、索引の見出しとなる索引語を抽出するための索引語抽出ルールが文脈毎に用意されていることで、構造化文書においても不要語が少ない索引生成が可能となる。
また、構造化文書を受け付ける文書受付部3aで、受け付けた構造化文書を文書の内容部分と構造部分に弁別し、文脈解析部4で、前記弁別した出力から文脈を解析し、その文脈に適合する索引語抽出ルールを索引語抽出ルール格納部5aから取り出し、該取り出した索引語抽出ルールと前記文書内容を組にして出力し、索引語抽出部6で、前記文脈解析部4の出力から前記索引語抽出ルールを前記文書内容に適用して索引語を抽出して出力し、索引語絞り込み部で、索引語絞込ルール格納部から取り出した索引語絞り込みルールを前記抽出した索引語に適用して索引語を絞り込む索引生成方法とする。このため、構造化文書においても不要語が少ない索引生成が可能となる。
さらに、構造化文書を受け付ける文書受付手順と、前記構造化文書の論理構造とその出現順序によって表される文脈を解析する文脈解析手順と、索引語抽出ルールに基づいて索引語を抽出する索引語抽出手順と、文脈毎の索引語絞り込みルールに基づいて索引語を絞り込む索引語絞り込み手順とを備え、前記文書受付手順で、受け付けた構造化文書を文書の内容部分と構造部分に弁別し、前記文脈解析手順で、前記弁別した出力から文脈を解析し、その文脈に適合する索引語抽出ルールを索引語抽出ルール格納部から取り出し、該取り出した索引語抽出ルールと前記文書内容を組にして出力し、前記索引語抽出手順で、前記文脈解析手順の出力から前記索引語抽出ルールを前記文書内容に適用して索引語を抽出し、前記索引語絞り込み手順で、索引語絞込ルール格納部から取り出した文脈毎の前記索引語絞り込みルールを前記抽出した索引語に適用して索引語を絞り込んで出力するように、コンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体とする。このため、この記録媒体のプログラムをコンピュータにインストールすることで、構造化文書においても不要語が少ない索引生成が可能となる索引生成装置を容易に提供することができる。
以上説明したように、本発明によれば次のような効果がある。
(1):文書受付部で、受け付けた構造化文書を文書の内容部分と構造部分に弁別し、文脈解析部で、前記弁別した出力から文脈を解析し、その文脈に適合する索引語抽出ルールを索引語抽出ルール格納部から取り出して該取り出した索引語抽出ルールと前記文書内容を組にして出力し、索引語抽出部で、前記文脈解析部の出力から前記索引語抽出ルールを前記文書内容に適用して索引語を抽出して出力し、前記索引語絞り込み部は、前記索引語絞込ルール格納部から取り出した前記索引語絞り込みルールを前記抽出した索引語に適用して索引語を絞り込むため、索引の見出しとなる索引語を抽出するための索引語抽出ルールが文脈毎に用意されていることで、構造化文書においても不要語が少ない索引生成が可能となる。
(2):構造化文書を受け付ける文書受付部で、受け付けた構造化文書を文書の内容部分と構造部分に弁別し、文脈解析部で、前記弁別した出力から文脈を解析し、その文脈に適合する索引語抽出ルールを索引語抽出ルール格納部から取り出し、該取り出した索引語抽出ルールと前記文書内容を組にして出力し、索引語抽出部で、前記文脈解析部の出力から前記索引語抽出ルールを前記文書内容に適用して索引語を抽出して出力し、索引語絞り込み部で、索引語絞込ルール格納部から取り出した索引語絞り込みルールを前記抽出した索引語に適用して索引語を絞り込む索引生成方法とするため、構造化文書においても不要語が少ない索引生成が可能となる。
(3):構造化文書を受け付ける文書受付手順と、前記構造化文書の論理構造とその出現順序によって表される文脈を解析する文脈解析手順と、索引語抽出ルールに基づいて索引語を抽出する索引語抽出手順と、文脈毎の索引語絞り込みルールに基づいて索引語を絞り込む索引語絞り込み手順とを備え、前記文書受付手順で、受け付けた構造化文書を文書の内容部分と構造部分に弁別し、前記文脈解析手順で、前記弁別した出力から文脈を解析し、その文脈に適合する索引語抽出ルールを索引語抽出ルール格納部から取り出し、該取り出した索引語抽出ルールと前記文書内容を組にして出力し、前記索引語抽出手順で、前記文脈解析手順の出力から前記索引語抽出ルールを前記文書内容に適用して索引語を抽出し、前記索引語絞り込み手順で、索引語絞込ルール格納部から取り出した文脈毎の前記索引語絞り込みルールを前記抽出した索引語に適用して索引語を絞り込んで出力するように、コンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体とするため、この記録媒体のプログラムをコンピュータにインストールすることで、構造化文書においても不要語が少ない索引生成が可能となる索引生成装置を容易に提供することができる。
本発明は、処理対象を構造化文書に限定することによって、文書中での論理構造の出現順序が明確になることを利用して、その論理構造出現順序から文脈を解析することが可能となる。そこで個々の文脈に適合する索引語抽出を行うことで、漏れが無くかつ不要語の混入が少ない索引語抽出を行うものである。
しかし、同一の索引語が複数の文脈から抽出されてしまうことがあり、結果として索引の品質が低下する可能性がある。これに対する対策として、文脈毎に索引語候補の絞り込みルールを人間が作成しておき、索引語候補とその参照先の絞り込みを行うことで、利用しやすい索引の生成を行う。
また、索引を利用しやすくするために量的な制限(索引語数や索引語数と文書内の全語数の比率等)を加える場合には、(1) 索引語抽出に利用した文脈には人間がランキング(点数)情報を付加しておき、(2) 索引語絞り込みルールには人間がランキング(点数)情報を付加しておき、(3) 索引語そのものについてはその統計情報からランキング(点数)を自動的に計算する。この3つのランキング情報を総合したランキング付け(重み付け)を行うことで、さらに利用しやすい索引を生成するために絞り込みを行うものである。
以下、図面に基づいて本発明の実施の形態について説明する。
(1):索引語抽出ルールを文脈毎に用意する場合の説明
図2は索引語抽出ルールを文脈毎に用意する場合の説明図である。図2において、索引生成装置には、構造化文書(原文)格納部1、論理構造規定文書格納部2、構造化文書受付部3、文脈解析部4、文脈毎の索引語抽出ルール格納部5、索引語抽出部6、索引格納部7が設けてある。
構造化文書格納部1は、文書の内容を表す部分と共に文書の論理構造を示す部分が同一文書内に埋め込まれている文書を格納するものである。例えば、構造化文書としてSGML(Standard Generalized Markup Language)では、論理構造はタグで表現されている。これは、XML(eXtensible Markup Language)やHTML(Hyper Text Markup Language)でも同じである。また、ワードプロセッサ等では論理構造は、特定のバイナリコードで記述されている。
論理構造規定文書格納部2は、構造化文書の論理構造を規定する文書が別のファイルになっている場合に格納するものである。SGMLの論理構造を規定する文書(文書型定義)の例は、以下のものである。
<!DOCTYPE memo [
<!ELEMENT memo −−(P+) >
<!ELEMENT P −−(#PCDATA) >
]>
上記文書型定義を説明すると、ドキュメントタイプとして「memo」をこれから定義する。「memo」という要素は、開始タグも終了タグも省略してはいけない。「P」は1回以上持つことができる。エレメント「P」は普通の文字列である。これで終わる。
上記文書型定義の例によるSGML(構造化文書)の例は以下のものである。
<memo>
<P >メモランダム</P>
<P >メモのサンプルです。</P>
</memo >
構造化文書受付部3は、論理構造と文書の内容を弁別する機能を持つ部分である。構造化文書としてSGML(XML、HTMLでも同じ)を使用している場合には、論理構造は、タグで表現されるから、タグと内容を分離してそれぞれにマークを付加して独立した行として出力することで、構造化文書受付部3を実現することができる。このような機能を持つものとして、オープンソースのソフトウェアとして配付されているSGMLパーサ(例えば、ジェイムス・クラークのnsgmls)を利用することができる。
SGMLパーサによるタグと内容の分離例は、以下のようにタグと「−」の次の内容に分離するものである。
<H1>これが見出し</H1 >
↓・・・・・・(SGMLパーサによる分離)
(H1
−これが見出し
)H1
また、ワードプロセッサ等で使用されているバイナリコードによって、文書の構造を記述してある構造化文書の場合には、バイナリコードを解釈して構造化文書受付部3に続く文脈解析部4で解釈できる形態に変換することで構造化文書受付部3を実現することができる。
文脈解析部4は、構造化文書受付部3の出力を入力として、論理構造の出現順序によって表現されている論理構造の出現順序から文脈を解析し、その文脈に適合する索引語抽出のルールと文書内容を組にして出力するものである。
文脈毎の索引語抽出ルール格納部5は、例えば、「章」の見出しであれば、一番長い名詞句を抽出する等の文脈毎の索引語抽出ルールを格納するものである。
索引語抽出部6は、文脈解析部4の出力を入力として、文書内容と組になっている索引語抽出ルールを文書内容に適用して索引語を抽出し、索引語と文脈を組にして出力するものである。なお、索引語抽出ルールに基づいて索引語を抽出する方法は、以下の参考文献を含めて多くの研究がなされている。
・木本 晴夫:「日本語新聞記事からのキーワード自動抽出と重要度評価」、電子情報通信学会論文誌D−1 J74-D-I No.8 pp.556-566
・小川 泰嗣 他:「複合語キーワードの自動抽出」、自然言語処理97-15(1993)
・水野 聡 他:「日本語キーワードの自動抽出手法」、自然言語処理91-6(1992)
索引格納部7は、索引語抽出部6で抽出した索引語を格納するものである。
(動作説明)
文書の内容を表す部分とともに文書の論理構造を示す部分(SGML、XML、HTMLではタグで示され、ワードプロセッサ等では特定のバイナリコードで記述されている)が同一文書内に埋め込まれているような構造化文書に対して索引語生成を行うため、索引語抽出部6を保有する索引生成装置において、
構造化文書受付部3で、構造化文書を読み取り、内容部分と構造部分を弁別する。
文脈解析部4で、構造化文書受付部3の出力を入力として、論理構造の出現順序によって表現されている論理構造の出現順序から文脈を解析し、その文脈に適合する文脈毎の索引語抽出ルール格納部5からの索引語抽出のルールと文書内容を組にして出力する。
索引語抽出部6で、文脈解析部4の出力を入力として、文書内容と組になっている索引語抽出ルールを文書内容に適用して索引語を抽出し、索引語と文脈を組にして索引格納部7に出力する。
(2):索引語絞り込みルールを文脈毎に用意する場合の説明
図3は索引語絞り込みルールを文脈毎に用意する場合の説明図である。図3において、索引生成装置には、構造化文書(原文)格納部1、論理構造規定文書格納部2、構造化文書受付部3、文脈解析部4、文脈毎の索引語抽出ルール格納部5、索引語抽出部6、索引格納部7、索引語絞り込み部8、索引語絞り込みルール格納部9が設けてある。
構造化文書格納部1は、文書の内容を表す部分と共に文書の論理構造を示す部分が同一文書内に埋め込まれている文書を格納するものである。論理構造規定文書格納部2は、構造化文書の論理構造を規定する文書が別のファイルになっている場合に格納するものである。構造化文書受付部3は、論理構造と文書の内容を弁別する機能を持つ部分である。文脈解析部4は、構造化文書受付部3の出力を入力として、論理構造の出現順序によって表現されている論理構造の出現順序から文脈を解析し、その文脈に適合する索引語抽出のルールと文書内容を組にして出力するものである。
文脈毎の索引語抽出ルール格納部5は、例えば、「章」の見出しであれば、一番長い名詞句を抽出する等の文脈毎の索引語抽出ルールを格納するものである。索引語抽出部6は、文脈解析部4の出力を入力として、文書内容と組になっている索引語抽出ルールを文書内容に適用して索引語を抽出し、索引語と文脈を組にして出力するものである。索引格納部7は、索引語絞り込み部(文脈毎)8で絞り込んだ索引語を格納するものである。
索引語絞り込み部(文脈毎)8は、不要な索引語(不要語)を除去するものである。索引語絞り込みルール格納部9は、索引語絞り込み部8で索引語を絞り込む際のルールを格納するものである。
(動作説明)
文書の内容を表す部分とともに文書の論理構造を示す部分(SGML、XML、HTMLではタグで示され、ワードプロセッサ等では特定のバイナリコードで記述されている)が同一文書内に埋め込まれているような構造化文書に対して索引語生成を行うため、索引語抽出部6を保有する索引生成装置において、
構造化文書受付部3で、構造化文書を読み取り、内容部分と構造部分を弁別する。文脈解析部4で、構造化文書受付部3の出力を入力として、論理構造の出現順序によって表現されている論理構造の出現順序から文脈を解析し、その文脈に適合する文脈毎の索引語抽出ルール格納部5からの索引語抽出のルールと文書内容を組にして出力する。索引語抽出部6で、文脈解析部4の出力を入力として、文書内容と組になっている索引語抽出ルールを文書内容に適用して索引語を抽出し、索引語絞り込み部8で、索引語抽出部6の出力中に索引語の重複が有るか無いかをチェックする。このチェックで重複があった場合には、索引語と組になっている文脈を利用して、前もって用意されたその文脈に適合する索引語絞り込みルール格納部9の索引語絞り込みルールとその重要度(重み情報により判断する)を適用して不要語の除去が行われる。なお、このとき重複のある索引語であってもルールによっては不要語が発生しない場合もある。次に、索引語絞り込みを行った索引語と文脈を組にして索引格納部7に出力する。
(不要語除去の具体的手順の説明)
(1) :索引語絞り込み部8は、索引語抽出部6からの出力で得られる索引語と文脈の組から1つ選んで、索引語を比較対象として内部に記憶させる。また、文脈に適合する索引語絞り込みルール(例えば、最長の名詞句は必ず残す)を選び、これも記憶させる。さらに、索引語絞り込みルール毎に付加されている重み(例えば、点数)も別に記憶させる。
(2) :索引語絞り込み部8は、他の索引語と文脈の組を選び、その索引語を比較対象と比較する。この比較で、同一であれば、組になっている文脈から索引語絞り込みルールを選び適用する(例えば、どちらかを捨てる)。また、比較対象となっている上記(1) で選んだ比較対象である索引語についても、やはり上記(1) で選んだ索引語絞り込みルールを適応する。不要語とみなされた場合には索引語と文脈の組に削除マークを付ける(削除マークを付けるのは削除マークが付いたものも含めて比較するためである)。
(3) :上記(2) を上記(1) で選んだ索引語と文脈とは異なる全ての索引語と文脈の組に対して適用する。
(4) :上記(1) を全ての索引語と文脈の組に対して適用する。
(5) :削除マークの付いた索引語と文脈との組を削除する。
この不要語除去の終わったところで、削除されなかった索引語と文脈との組にさらに索引語絞り込みルールの重み(例えば、点数)を付け加えて組にして出力する。
例えば、前記の 「<H1>これが見出し</H1 >」をSGMLパーサによる分離した例である下記の場合、
(H1
−これが見出し
)H1
不要語除去の終わったところで、索引語絞り込み部8から次のように出力される。
「章の見出し部:これが見出し:最長の名詞句:5点」
↑ ↑ ↑ ↑
(文脈) (内容) (ルール) (点数)
(3):索引語絞り込みに統計情報を用いる場合の説明
図4は索引語絞り込みに統計情報を用いる場合の説明図である。図4において、索引生成装置には、構造化文書(原文)格納部1、論理構造規定文書格納部2、構造化文書受付部3、文脈解析部4、文脈毎の索引語抽出ルール格納部5、索引語抽出部6、索引格納部7、索引語絞り込み部(文脈毎)8、索引語絞り込みルール格納部9、統計情報抽出部10、索引数決定部11、索引語統計情報抽出部12、重要度計算部13、索引語絞り込み部(文書全域)14が設けてある。
構造化文書格納部1は、文書の内容を表す部分と共に文書の論理構造を示す部分が同一文書内に埋め込まれている文書を格納するものである。論理構造規定文書格納部2は、構造化文書の論理構造を規定する文書が別のファイルになっている場合に格納するものである。構造化文書受付部3は、論理構造と文書の内容を弁別する機能を持つ部分である。文脈解析部4は、構造化文書受付部3の出力を入力として、論理構造の出現順序によって表現されている論理構造の出現順序から文脈を解析し、その文脈に適合する索引語抽出のルールと文書内容を組にして出力するものである。
文脈毎の索引語抽出ルール格納部5は、例えば、「章」の見出しであれば、一番長い名詞句を抽出する等の文脈毎の索引語抽出ルールを格納するものである。索引語抽出部6は、文脈解析部4の出力を入力として、文書内容と組になっている索引語抽出ルールを文書内容に適用して索引語を抽出し、索引語と文脈を組にして出力するものである。索引格納部7は、索引語絞り込み部(文書全域)14で絞り込んだ索引語を格納するものである。索引語絞り込み部(文脈毎)8は、不要な索引語(不要語)を除去するものである。索引語絞り込みルール格納部9は、索引語絞り込み部8で索引語を絞り込む際のルールを格納するものである。
統計情報抽出部10は、構造化文書受付部3の作成する論理構造出現順序と内容の組から内容部分を取り出し、統計情報(単純な例としては、文字数や語数)を抽出するものである。
索引数決定部11は、統計情報抽出部10からの統計情報から、索引語の上限を決定するものである。決定方法としては、100文字/1索引で端数は切り捨てる等が考えられる。これは、語数に基づいて決定してもよいし、要求される索引に応じて索引数と文字数・語数を変えることができる。
索引語統計情報抽出部12は、索引語絞り込み部(文脈毎)8で作成された索引語と文脈の組から索引語を読み込み、索引語の統計情報を抽出する。この統計情報としては、例えば、出現頻度や索引語を構成する名詞の出現頻度の和、さらには索引語の文字長などがある。
重要度計算部13は、索引語自体の重みを索引語の統計情報から計算し、索引語と組になっている文脈毎の絞り込みルールの重みと、文脈自身の重みから総合的な重みを計算する。文脈自身の重みは、文脈毎の索引語絞り込みルールと同様に別に与えられている。また、総合的な重みの計算方法としては、これら3つの総和や総積、あるいは2乗和などが考えられる。
索引語絞り込み部(文書全域)14は、この総合した重みによって、索引語と論理構造出現順序の組を順序付け、上位から索引語数の上限個数の索引語まで残し、残りを除去するものである。
(動作説明)
文書の内容を表す部分とともに文書の論理構造を示す部分(SGML、XML、HTMLではタグで示され、ワードプロセッサ等では特定のバイナリコードで記述されている)が同一文書内に埋め込まれているような構造化文書に対して索引語生成を行うため、索引語抽出部6を保有する索引生成装置において、
構造化文書受付部3で、構造化文書を読み取り、内容部分と構造部分を弁別する。文脈解析部4で、構造化文書受付部3の出力を入力として、論理構造の出現順序によって表現されている論理構造の出現順序から文脈を解析し、その文脈に適合する文脈毎の索引語抽出ルール格納部5からの索引語抽出のルールと文書内容を組にして出力する。索引語抽出部6で、文脈解析部4の出力を入力として、文書内容と組になっている索引語抽出ルールを文書内容に適用して索引語を抽出し、索引語絞り込み部(文脈毎)8で、索引語抽出部6の出力中に索引語の重複が有るか無いかをチェックする。このチェックで重複があった場合には、索引語と組になっている文脈を利用して、前もって用意されたその文脈に適合する索引語絞り込みルール格納部9の索引語絞り込みルールと重要度を適用して不要語の除去を行い、除去されなかった索引語と文脈との組にさらに索引語絞り込みルールの重みを付け加えて組にして出力する。
また、統計情報抽出部10で、構造化文書受付部3の出力を入力として文書全体の統計情報(文字数や語数等)を計算し、索引数決定部11で、統計情報抽出部10からの出力を入力として索引語の個数の上限を決定する。
さらに、索引語統計情報抽出部12で、索引語絞り込み部(文脈毎)8で作成された索引語と文脈の組から索引語を読み込み、索引語の出現頻度等の統計情報を抽出する。
重要度計算部13で、(1) 索引語自体の重みを索引語統計情報抽出部12からの索引語の統計情報から計算し、索引語絞り込み部(文脈毎)8からの索引語と組になっている(2) 文脈毎の絞り込みルールの重みと、(3) 文脈自身の重みとから総合的な重み(例えば総和、(1) +(2) +(3) )を計算する。
索引語絞り込み部(文書全域)14で、この重要度計算部13の出力と、索引数決定部11の出力を入力として、総合的な重みの上位から索引語数の上限個数の索引語まで残し、不要語の除去を文書全体(文書全域)で行う。
(4):構造化文書内に索引を生成する場合の説明
図5は構造化文書内に索引を生成する場合の説明図である。図5において、索引生成装置には、構造化文書(原文)格納部1、論理構造規定文書格納部2、構造化文書受付部3、文脈解析部4、文脈毎の索引語抽出ルール格納部5、索引語抽出部6、索引付構造化文書格納部7a、索引語絞り込み部(文脈毎)8、索引語絞り込みルール格納部9、統計情報抽出部10、索引数決定部11、索引語統計情報抽出部12、重要度計算部13、索引語絞り込み部(文書全域)14、被参照情報生成部15、索引生成部16、文脈毎の被参照情報作成ルール格納部17が設けてある。
構造化文書格納部1は、文書の内容を表す部分と共に文書の論理構造を示す部分が同一文書内に埋め込まれている文書を格納するものである。論理構造規定文書格納部2は、構造化文書の論理構造を規定する文書が別のファイルになっている場合に格納するものである。構造化文書受付部3は、論理構造と文書の内容を弁別する機能を持つ部分である。文脈解析部4は、構造化文書受付部3の出力を入力として、論理構造の出現順序によって表現されている論理構造の出現順序から文脈を解析し、その文脈に適合する索引語抽出のルールと文書内容を組にして出力するものである。
文脈毎の索引語抽出ルール格納部5は、例えば、「章」の見出しであれば、一番長い名詞句を抽出する等の文脈毎の索引語抽出ルールを格納するものである。索引語抽出部6は、文脈解析部4の出力を入力として、文書内容と組になっている索引語抽出ルールを文書内容に適用して索引語を抽出し、索引語と文脈を組にして出力するものである。索引付構造化文書格納部7aは、索引生成部16で生成した索引付構造化文書を格納するものである。索引語絞り込み部(文脈毎)8は、不要な索引語(不要語)を除去するものである。索引語絞り込みルール格納部9は、索引語絞り込み部8で索引語を絞り込む際のルールを格納するものである。
統計情報抽出部10は、構造化文書受付部3の作成する論理構造出現順序と内容の組から内容部分を取り出し、統計情報を抽出するものである。索引数決定部11は、統計情報抽出部10からの統計情報から、索引語の上限を決定するものである。
索引語統計情報抽出部12は、索引語絞り込み部(文脈毎)8で作成された索引語と文脈の組から索引語を読み込み、索引語の統計情報を抽出するものである。重要度計算部13は、索引語自体の重みを索引語の統計情報から計算し、索引語と組になっている文脈毎の絞り込みルールの重みと、文脈自身の重みから総合的な重みを計算するものである。索引語絞り込み部(文書全域)14は、この総合した重みによって、索引語と論理構造出現順序の組を順序付け、上位から索引語数の上限個数の索引語まで残し、残りを除去するものである。
被参照情報生成部15は、索引語と組になっている文脈を使って、別に与えられている索引の被参照情報生成ルールを使って、索引の参照先の決定を行うと共に、被参照情報を生成して原文に埋め込むと共に、索引語と被参照情報を組にして出力するものである。
索引生成部16は、被参照情報から参照用の情報を生成して索引語と合わせて索引を生成し、原文に埋め込むものである。
文脈毎の被参照情報作成ルール格納部17は、文脈毎の被参照情報の作成ルールを格納するものである。
(動作説明)
文書の内容を表す部分とともに文書の論理構造を示す部分(SGML、XML、HTMLではタグで示され、ワードプロセッサ等では特定のバイナリコードで記述されている)が同一文書内に埋め込まれているような構造化文書に対して索引語生成を行うため、索引語抽出部6を保有する索引生成装置において、
構造化文書受付部3で、構造化文書を読み取り、内容部分と構造部分を弁別する。文脈解析部4で、構造化文書受付部3の出力を入力として、論理構造の出現順序によって表現されている論理構造の出現順序から文脈を解析し、その文脈に適合する文脈毎の索引語抽出ルール格納部5からの索引語抽出のルールと文書内容を組にして出力する。索引語抽出部6で、文脈解析部4の出力を入力として、文書内容と組になっている索引語抽出ルールを文書内容に適用して索引語を抽出し、索引語絞り込み部(文脈毎)8で、索引語抽出部6の出力中に索引語の重複が有るか無いかをチェックする。このチェックで重複があった場合には、索引語と組になっている文脈を利用して、前もって用意されたその文脈に適合する索引語絞り込みルール格納部9の索引語絞り込みルールとその重要度を適用して不要語の除去が行われる。
また、統計情報抽出部10で、構造化文書受付部3の出力を入力として文書全体の統計情報(文字数や語数等)を計算し、索引数決定部11で、統計情報抽出部10からの出力を入力として索引語の個数の上限を決定する。
さらに、索引語統計情報抽出部12で、索引語絞り込み部(文脈毎)8で作成された索引語と文脈の組から索引語を読み込み、索引語の出現頻度等の統計情報を抽出する。
重要度計算部13で、(1) 索引語自体の重みを索引語統計情報抽出部12からの索引語の統計情報から計算し、索引語絞り込み部(文脈毎)8からの索引語と組になっている(2) 文脈毎の絞り込みルールの重みと、(3) 文脈自身の重みとから総合的な重み(例えば総和、(1) +(2) +(3) )を計算する。
索引語絞り込み部(文書全域)14で、この重要度計算部13の出力と、索引数決定部11の出力を入力として、総合的な重みの上位から索引語数の上限個数の索引語まで残し、不要語の除去を文書全体(文書全域)で行う。
被参照情報生成部15で、索引語と組になっている文脈を使って、別に与えられている索引の被参照情報生成ルール(文脈毎の被参照情報作成ルール格納部17)を使って、索引の参照先の決定を行うと共に、被参照情報を生成して原文に埋め込むと共に、索引語と被参照情報を組にして索引生成部16に出力する。
索引生成部16で、被参照情報から参照用の情報を生成して索引語と合わせて索引を生成し、原文(構造化文書格納部1の)に埋め込み索引付構造化文書格納部7aに出力する。
(HTMLの具体的な説明)
・原文が次のものとする。
<P>これはアンカーのサンプルです。</P>
・被参照情報生成部15で、「アンカー」という名前を埋め込む場合、次のような被参照情報を作成し原文に埋め込んだ参照情報を作成する。
<P>これは<a name=”アンカー”>アンカー</a>のサンプル です。</P> ・・・・・・・(被参照情報)
<P><a href=”#アンカー”>ここを</a>クリックするとアンカーにジャンプします。</P>・・・・(参照情報)
・索引生成部16で、生成したジャンプ先の索引(アイウエオ・・順に並べた「ア」行部)の例、
《ア》
<a href=”#アンカー”>アンカー</a>
(5):プログラムのインストールの説明
構造化文書受付部3、文脈解析部4、索引語抽出部6、索引語絞り込み部(文脈毎)8、統計情報抽出部10、索引数決定部11、索引語統計情報抽出部12、重要度計算部13、索引語絞り込み部(文書全域)14、被参照情報生成部15、索引生成部16等は、プログラムで構成でき、主制御部(CPU)が実行するものであり、主記憶に格納されているものである。これらのプログラムは、一般的な、パーソナルコンピュータ、ワークステーション等のデータ処理装置(コンピュータ)で処理されるものである。このコンピュータは、主制御部、主記憶、ハードディスク等のファイル装置、表示装置、キーボード等の入力手段である入力装置などのハードウェアで構成されている。
このコンピュータに、本発明のプログラムをインストールする。このインストールは、フロッピィ、光磁気ディスク等の可搬型の記録(記憶)媒体に、これらのプログラムを記憶させておき、コンピュータが備えている記録媒体に対して、アクセスするためのドライブ装置を介して、或いは、LAN等のネットワークを介して、コンピュータに設けられたファイル装置にインストールされる。そして、このファイル装置から処理に必要なプログラムステップを主記憶に読み出し、主制御部が実行するものである。
本発明の原理説明図である。 実施の形態における索引語抽出ルールを文脈毎に用意する場合の説明図である。 実施の形態における索引語絞り込みルールを文脈毎に用意する場合の説明図である。 実施の形態における索引語絞り込みに統計情報を用いる場合の説明図である。 実施の形態における構造化文書内に索引を生成する場合の説明図である。
符号の説明
1 構造化文書格納部
3a 文書受付部
4 文脈解析部
5a 索引語抽出ルール格納部
6 索引語抽出部
7 索引格納部

Claims (3)

  1. 構造化文書を受け付ける文書受付部と、
    前記構造化文書の論理構造とその出現順序によって表される文脈を解析する文脈解析部と、
    索引語の抽出ルールを文脈毎に格納する索引語抽出ルール格納部と、
    索引語抽出ルールに基づいて索引語を抽出する索引語抽出部と、
    索引語の絞り込みルールを文脈毎に格納する索引語絞込ルール格納部と、
    索引語絞り込みルールに基づいて索引語を絞り込む索引語絞り込み部とを備え、
    前記文書受付部は、受け付けた構造化文書を文書の内容部分と構造部分に弁別し、
    前記文脈解析部は、前記弁別した出力から文脈を解析し、その文脈に適合する索引語抽出ルールを前記索引語抽出ルール格納部から取り出し、該取り出した索引語抽出ルールと前記文書内容を組にして出力し、
    前記索引語抽出部は、前記文脈解析部の出力から前記索引語抽出ルールを前記文書内容に適用して索引語を抽出して出力し、
    前記索引語絞り込み部は、前記索引語絞込ルール格納部から取り出した前記索引語絞り込みルールを前記抽出した索引語に適用して索引語を絞り込むことを特徴とした索引生成装置。
  2. 構造化文書を受け付ける文書受付部と、
    前記構造化文書の論理構造とその出現順序によって表される文脈を解析する文脈解析部と、
    索引語の抽出ルールを文脈毎に格納する索引語抽出ルール格納部と、
    索引語抽出ルールに基づいて索引語を抽出する索引語抽出部と、
    索引語の絞り込みルールを文脈毎に格納する索引語絞込ルール格納部と、
    索引語絞り込みルールに基づいて索引語を絞り込む索引語絞り込み部とを備えたデータ処理装置による索引生成方法であって、
    前記文書受付部で、受け付けた構造化文書を文書の内容部分と構造部分に弁別し、
    前記文脈解析部で、前記弁別した出力から文脈を解析し、その文脈に適合する索引語抽出ルールを索引語抽出ルール格納部から取り出し、該取り出した索引語抽出ルールと前記文書内容を組にして出力し、
    前記索引語抽出部で、前記文脈解析部の出力から前記索引語抽出ルールを前記文書内容に適用して索引語を抽出して出力し、
    前記索引語絞り込み部で、前記索引語絞込ルール格納部から取り出した前記索引語絞り込みルールを前記抽出した索引語に適用して索引語を絞り込むことを特徴とした索引生成方法。
  3. 構造化文書を受け付ける文書受付手順と、
    前記構造化文書の論理構造とその出現順序によって表される文脈を解析する文脈解析手順と、
    索引語抽出ルールに基づいて索引語を抽出する索引語抽出手順と、
    文脈毎の索引語絞り込みルールに基づいて索引語を絞り込む索引語絞り込み手順とを備え、
    前記文書受付手順で、受け付けた構造化文書を文書の内容部分と構造部分に弁別し、
    前記文脈解析手順で、前記弁別した出力から文脈を解析し、その文脈に適合する索引語抽出ルールを索引語抽出ルール格納部から取り出し、該取り出した索引語抽出ルールと前記文書内容を組にして出力し、
    前記索引語抽出手順で、前記文脈解析手順の出力から前記索引語抽出ルールを前記文書内容に適用して索引語を抽出し、
    前記索引語絞り込み手順で、索引語絞込ルール格納部から取り出した文脈毎の前記索引語絞り込みルールを前記抽出した索引語に適用して索引語を絞り込んで出力するように、 コンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2006159602A 2006-06-08 2006-06-08 索引生成装置及び方法及び記録媒体 Pending JP2006260601A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006159602A JP2006260601A (ja) 2006-06-08 2006-06-08 索引生成装置及び方法及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006159602A JP2006260601A (ja) 2006-06-08 2006-06-08 索引生成装置及び方法及び記録媒体

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP11211604A Division JP2001034638A (ja) 1999-07-27 1999-07-27 索引生成装置及び方法及び記録媒体

Publications (1)

Publication Number Publication Date
JP2006260601A true JP2006260601A (ja) 2006-09-28

Family

ID=37099679

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006159602A Pending JP2006260601A (ja) 2006-06-08 2006-06-08 索引生成装置及び方法及び記録媒体

Country Status (1)

Country Link
JP (1) JP2006260601A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010176450A (ja) * 2009-01-30 2010-08-12 Dainippon Printing Co Ltd 電子書籍作成支援装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010176450A (ja) * 2009-01-30 2010-08-12 Dainippon Printing Co Ltd 電子書籍作成支援装置

Similar Documents

Publication Publication Date Title
US5960383A (en) Extraction of key sections from texts using automatic indexing techniques
US9852122B2 (en) Method of automated analysis of text documents
US20040098385A1 (en) Method for indentifying term importance to sample text using reference text
JP2005174336A (ja) 情報抽出のための一般化文字列パターンの学習および使用
JP2006251843A (ja) 同義語対抽出装置及びそのためのコンピュータプログラム
JP2004192546A (ja) 情報検索方法、装置、プログラム、および記録媒体
JP5447368B2 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
JP5025603B2 (ja) 機械翻訳装置、機械翻訳プログラム及び機械翻訳方法
JP2008234049A (ja) 要約文生成装置及び要約文生成プログラム
Lopresti Performance evaluation for text processing of noisy inputs
JP2006260601A (ja) 索引生成装置及び方法及び記録媒体
JP4934115B2 (ja) キーワード抽出装置、方法及びプログラム
JP2006190072A (ja) 自動換言装置、自動換言方法及び換言処理プログラム
JP4592556B2 (ja) 文書検索装置、文書検索方法および文書検索プログラム
JP2004334382A (ja) 構造化文書要約装置、プログラムおよび記録媒体
JP6451151B2 (ja) 質問応答装置、質問応答方法、プログラム
JPH0474259A (ja) 文書要約装置
JP2006031143A (ja) 文書解析装置、および文書解析方法、並びにコンピュータ・プログラム
JP5761033B2 (ja) 文書分析装置、文書分析方法、およびプログラム
Trandafili et al. A novel document summarization system for Albanian language
JP2001034638A (ja) 索引生成装置及び方法及び記録媒体
JP4135467B2 (ja) 情報処理装置、システムおよびプログラム
JP2010122823A (ja) テキスト処理システム、情報処理装置、テキストおよび情報の処理方法ならびに処理プログラム
JP5412137B2 (ja) 機械学習装置及び方法
JP2009271797A (ja) 文書データのノイズ除去システム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070424

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070622

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070807