JP2006260601A

JP2006260601A - 索引生成装置及び方法及び記録媒体

Info

Publication number: JP2006260601A
Application number: JP2006159602A
Authority: JP
Inventors: Hidetatsu Matsuoka; 秀達松岡; Akira Ochitani; 亮落谷; Fumito Nishino; 文人西野
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2006-06-08
Filing date: 2006-06-08
Publication date: 2006-09-28

Abstract

【課題】構造化文書においても不要語が少ない索引生成が可能とすること。
【解決手段】文書受付部３ａと、文脈解析部４と、索引語抽出ルール格納部５ａと、索引語抽出ルールに基づいて索引語を抽出する索引語抽出部６と、索引語絞込ルール格納部と、索引語絞り込みルールに基づいて索引語を絞り込む索引語絞り込み部とを備え、文書受付部３ａは、受け付けた構造化文書を文書の内容部分と構造部分に弁別し、文脈解析部４は、弁別した出力から文脈を解析し、その文脈に適合する索引語抽出ルールを索引語抽出ルール格納部５ａから取り出し、該取り出した索引語抽出ルールと文書内容を組にして出力し、索引語抽出部６は、文脈解析部４の出力から索引語抽出ルールを文書内容に適用して索引語を抽出して出力し、索引語絞り込み部は、索引語絞込ルール格納部から取り出した索引語絞り込みルールを抽出した索引語に適用して索引語を絞り込む。
【選択図】図１

Description

本発明は、構造化文書から不要語の少ない索引を抽出することができる索引生成装置及び方法及び記録媒体に関する。

従来、文書から索引語やキーワードを抽出する技術は、主なものに以下の２つがあった。

(1) 原文から網羅的に名詞句を抽出し、抽出した名詞句を、その名詞句の出現位置（例えば、文書の初めにあるものを重要視する等）や頻度などの統計情報を利用して選択する。

(2) 索引やキーワードとなる語は、特定の表現（例えば、〜とは、〜である。等の「〜」にくる語）で記述されていることが多いのでその表現を持つ部分を探索して、そこから索引語、キーワードの候補を抽出する。

前記従来のものにおいては、次のような課題があった。

索引語に多量の不必要な語が混入していることが多く、また、原文中の索引に一致する語に対して機械的に参照情報を付加していくと、参照先の数が多すぎて索引が索引としての用をなさないことがあった。

本発明は、このような従来の課題を解決し、構造化文書から不要語の少ない索引を抽出することを目的とする。

図１は本発明の原理説明図である。図１中、１は構造化文書格納部、３ａは文書受付部、４は文脈解析部、５ａは索引語抽出ルール格納部、６は索引語抽出部、７は索引格納部である。

本発明は前記従来の課題を解決するため次のように構成した。

（１）：構造化文書を受け付ける文書受付部３ａと、前記構造化文書の論理構造とその出現順序によって表される文脈を解析する文脈解析部４と、索引語の抽出ルールを文脈毎に格納する索引語抽出ルール格納部５ａと、索引語抽出ルールに基づいて索引語を抽出する索引語抽出部６と、索引語の絞り込みルールを文脈毎に格納する索引語絞込ルール格納部と、索引語絞り込みルールに基づいて索引語を絞り込む索引語絞り込み部とを備え、前記文書受付部３ａは、受け付けた構造化文書を文書の内容部分と構造部分に弁別し、前記文脈解析部４は、前記弁別した出力から文脈を解析し、その文脈に適合する索引語抽出ルールを前記索引語抽出ルール格納部５ａから取り出し、該取り出した索引語抽出ルールと前記文書内容を組にして出力し、前記索引語抽出部６は、前記文脈解析部４の出力から前記索引語抽出ルールを前記文書内容に適用して索引語を抽出して出力し、前記索引語絞り込み部は、前記索引語絞込ルール格納部から取り出した前記索引語絞り込みルールを前記抽出した索引語に適用して索引語を絞り込む。

（２）：構造化文書を受け付ける文書受付部３ａで、受け付けた構造化文書を文書の内容部分と構造部分に弁別し、文脈解析部４で、前記弁別した出力から文脈を解析し、その文脈に適合する索引語抽出ルールを索引語抽出ルール格納部５ａから取り出し、該取り出した索引語抽出ルールと前記文書内容を組にして出力し、索引語抽出部６で、前記文脈解析部４の出力から前記索引語抽出ルールを前記文書内容に適用して索引語を抽出して出力し、索引語絞り込み部で、索引語絞込ルール格納部から取り出した索引語絞り込みルールを前記抽出した索引語に適用して索引語を絞り込む索引生成方法とする。

（３）：構造化文書を受け付ける文書受付手順と、前記構造化文書の論理構造とその出現順序によって表される文脈を解析する文脈解析手順と、索引語抽出ルールに基づいて索引語を抽出する索引語抽出手順と、文脈毎の索引語絞り込みルールに基づいて索引語を絞り込む索引語絞り込み手順とを備え、前記文書受付手順で、受け付けた構造化文書を文書の内容部分と構造部分に弁別し、前記文脈解析手順で、前記弁別した出力から文脈を解析し、その文脈に適合する索引語抽出ルールを索引語抽出ルール格納部から取り出し、該取り出した索引語抽出ルールと前記文書内容を組にして出力し、前記索引語抽出手順で、前記文脈解析手順の出力から前記索引語抽出ルールを前記文書内容に適用して索引語を抽出し、前記索引語絞り込み手順で、索引語絞込ルール格納部から取り出した文脈毎の前記索引語絞り込みルールを前記抽出した索引語に適用して索引語を絞り込んで出力するように、コンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体とする。

（作用）
前記構成に基づく作用を説明する。

文書受付部３ａで、受け付けた構造化文書を文書の内容部分と構造部分に弁別し、文脈解析部４で、前記弁別した出力から文脈を解析し、その文脈に適合する索引語抽出ルールを索引語抽出ルール格納部５ａから取り出して該取り出した索引語抽出ルールと前記文書内容を組にして出力し、索引語抽出部６で、前記文脈解析部４の出力から前記索引語抽出ルールを前記文書内容に適用して索引語を抽出して出力し、前記索引語絞り込み部は、前記索引語絞込ルール格納部から取り出した前記索引語絞り込みルールを前記抽出した索引語に適用して索引語を絞り込む。このため、索引の見出しとなる索引語を抽出するための索引語抽出ルールが文脈毎に用意されていることで、構造化文書においても不要語が少ない索引生成が可能となる。

また、構造化文書を受け付ける文書受付部３ａで、受け付けた構造化文書を文書の内容部分と構造部分に弁別し、文脈解析部４で、前記弁別した出力から文脈を解析し、その文脈に適合する索引語抽出ルールを索引語抽出ルール格納部５ａから取り出し、該取り出した索引語抽出ルールと前記文書内容を組にして出力し、索引語抽出部６で、前記文脈解析部４の出力から前記索引語抽出ルールを前記文書内容に適用して索引語を抽出して出力し、索引語絞り込み部で、索引語絞込ルール格納部から取り出した索引語絞り込みルールを前記抽出した索引語に適用して索引語を絞り込む索引生成方法とする。このため、構造化文書においても不要語が少ない索引生成が可能となる。

さらに、構造化文書を受け付ける文書受付手順と、前記構造化文書の論理構造とその出現順序によって表される文脈を解析する文脈解析手順と、索引語抽出ルールに基づいて索引語を抽出する索引語抽出手順と、文脈毎の索引語絞り込みルールに基づいて索引語を絞り込む索引語絞り込み手順とを備え、前記文書受付手順で、受け付けた構造化文書を文書の内容部分と構造部分に弁別し、前記文脈解析手順で、前記弁別した出力から文脈を解析し、その文脈に適合する索引語抽出ルールを索引語抽出ルール格納部から取り出し、該取り出した索引語抽出ルールと前記文書内容を組にして出力し、前記索引語抽出手順で、前記文脈解析手順の出力から前記索引語抽出ルールを前記文書内容に適用して索引語を抽出し、前記索引語絞り込み手順で、索引語絞込ルール格納部から取り出した文脈毎の前記索引語絞り込みルールを前記抽出した索引語に適用して索引語を絞り込んで出力するように、コンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体とする。このため、この記録媒体のプログラムをコンピュータにインストールすることで、構造化文書においても不要語が少ない索引生成が可能となる索引生成装置を容易に提供することができる。

以上説明したように、本発明によれば次のような効果がある。

（１）：文書受付部で、受け付けた構造化文書を文書の内容部分と構造部分に弁別し、文脈解析部で、前記弁別した出力から文脈を解析し、その文脈に適合する索引語抽出ルールを索引語抽出ルール格納部から取り出して該取り出した索引語抽出ルールと前記文書内容を組にして出力し、索引語抽出部で、前記文脈解析部の出力から前記索引語抽出ルールを前記文書内容に適用して索引語を抽出して出力し、前記索引語絞り込み部は、前記索引語絞込ルール格納部から取り出した前記索引語絞り込みルールを前記抽出した索引語に適用して索引語を絞り込むため、索引の見出しとなる索引語を抽出するための索引語抽出ルールが文脈毎に用意されていることで、構造化文書においても不要語が少ない索引生成が可能となる。

（２）：構造化文書を受け付ける文書受付部で、受け付けた構造化文書を文書の内容部分と構造部分に弁別し、文脈解析部で、前記弁別した出力から文脈を解析し、その文脈に適合する索引語抽出ルールを索引語抽出ルール格納部から取り出し、該取り出した索引語抽出ルールと前記文書内容を組にして出力し、索引語抽出部で、前記文脈解析部の出力から前記索引語抽出ルールを前記文書内容に適用して索引語を抽出して出力し、索引語絞り込み部で、索引語絞込ルール格納部から取り出した索引語絞り込みルールを前記抽出した索引語に適用して索引語を絞り込む索引生成方法とするため、構造化文書においても不要語が少ない索引生成が可能となる。

（３）：構造化文書を受け付ける文書受付手順と、前記構造化文書の論理構造とその出現順序によって表される文脈を解析する文脈解析手順と、索引語抽出ルールに基づいて索引語を抽出する索引語抽出手順と、文脈毎の索引語絞り込みルールに基づいて索引語を絞り込む索引語絞り込み手順とを備え、前記文書受付手順で、受け付けた構造化文書を文書の内容部分と構造部分に弁別し、前記文脈解析手順で、前記弁別した出力から文脈を解析し、その文脈に適合する索引語抽出ルールを索引語抽出ルール格納部から取り出し、該取り出した索引語抽出ルールと前記文書内容を組にして出力し、前記索引語抽出手順で、前記文脈解析手順の出力から前記索引語抽出ルールを前記文書内容に適用して索引語を抽出し、前記索引語絞り込み手順で、索引語絞込ルール格納部から取り出した文脈毎の前記索引語絞り込みルールを前記抽出した索引語に適用して索引語を絞り込んで出力するように、コンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体とするため、この記録媒体のプログラムをコンピュータにインストールすることで、構造化文書においても不要語が少ない索引生成が可能となる索引生成装置を容易に提供することができる。

本発明は、処理対象を構造化文書に限定することによって、文書中での論理構造の出現順序が明確になることを利用して、その論理構造出現順序から文脈を解析することが可能となる。そこで個々の文脈に適合する索引語抽出を行うことで、漏れが無くかつ不要語の混入が少ない索引語抽出を行うものである。

しかし、同一の索引語が複数の文脈から抽出されてしまうことがあり、結果として索引の品質が低下する可能性がある。これに対する対策として、文脈毎に索引語候補の絞り込みルールを人間が作成しておき、索引語候補とその参照先の絞り込みを行うことで、利用しやすい索引の生成を行う。

また、索引を利用しやすくするために量的な制限（索引語数や索引語数と文書内の全語数の比率等）を加える場合には、(1) 索引語抽出に利用した文脈には人間がランキング（点数）情報を付加しておき、(2) 索引語絞り込みルールには人間がランキング（点数）情報を付加しておき、(3) 索引語そのものについてはその統計情報からランキング（点数）を自動的に計算する。この３つのランキング情報を総合したランキング付け（重み付け）を行うことで、さらに利用しやすい索引を生成するために絞り込みを行うものである。

以下、図面に基づいて本発明の実施の形態について説明する。

（１）：索引語抽出ルールを文脈毎に用意する場合の説明
図２は索引語抽出ルールを文脈毎に用意する場合の説明図である。図２において、索引生成装置には、構造化文書（原文）格納部１、論理構造規定文書格納部２、構造化文書受付部３、文脈解析部４、文脈毎の索引語抽出ルール格納部５、索引語抽出部６、索引格納部７が設けてある。

構造化文書格納部１は、文書の内容を表す部分と共に文書の論理構造を示す部分が同一文書内に埋め込まれている文書を格納するものである。例えば、構造化文書としてＳＧＭＬ（Standard Generalized Markup Language）では、論理構造はタグで表現されている。これは、ＸＭＬ（eXtensible Markup Language）やＨＴＭＬ（Hyper Text Markup Language）でも同じである。また、ワードプロセッサ等では論理構造は、特定のバイナリコードで記述されている。

論理構造規定文書格納部２は、構造化文書の論理構造を規定する文書が別のファイルになっている場合に格納するものである。ＳＧＭＬの論理構造を規定する文書（文書型定義）の例は、以下のものである。

＜!DOCTYPE memo [
＜!ELEMENT memo −−(P+) ＞
＜!ELEMENT P −−(#PCDATA) ＞
]＞
上記文書型定義を説明すると、ドキュメントタイプとして「memo」をこれから定義する。「memo」という要素は、開始タグも終了タグも省略してはいけない。「Ｐ」は１回以上持つことができる。エレメント「Ｐ」は普通の文字列である。これで終わる。

上記文書型定義の例によるＳＧＭＬ（構造化文書）の例は以下のものである。

＜memo＞
＜P ＞メモランダム＜/P＞
＜P ＞メモのサンプルです。＜/P＞
＜/memo ＞
構造化文書受付部３は、論理構造と文書の内容を弁別する機能を持つ部分である。構造化文書としてＳＧＭＬ（ＸＭＬ、ＨＴＭＬでも同じ）を使用している場合には、論理構造は、タグで表現されるから、タグと内容を分離してそれぞれにマークを付加して独立した行として出力することで、構造化文書受付部３を実現することができる。このような機能を持つものとして、オープンソースのソフトウェアとして配付されているＳＧＭＬパーサ（例えば、ジェイムス・クラークのｎｓｇｍｌｓ）を利用することができる。

ＳＧＭＬパーサによるタグと内容の分離例は、以下のようにタグと「−」の次の内容に分離するものである。

＜H1＞これが見出し＜/H1 ＞
↓・・・・・・（ＳＧＭＬパーサによる分離）
(H1
−これが見出し
)H1
また、ワードプロセッサ等で使用されているバイナリコードによって、文書の構造を記述してある構造化文書の場合には、バイナリコードを解釈して構造化文書受付部３に続く文脈解析部４で解釈できる形態に変換することで構造化文書受付部３を実現することができる。

文脈解析部４は、構造化文書受付部３の出力を入力として、論理構造の出現順序によって表現されている論理構造の出現順序から文脈を解析し、その文脈に適合する索引語抽出のルールと文書内容を組にして出力するものである。

文脈毎の索引語抽出ルール格納部５は、例えば、「章」の見出しであれば、一番長い名詞句を抽出する等の文脈毎の索引語抽出ルールを格納するものである。

索引語抽出部６は、文脈解析部４の出力を入力として、文書内容と組になっている索引語抽出ルールを文書内容に適用して索引語を抽出し、索引語と文脈を組にして出力するものである。なお、索引語抽出ルールに基づいて索引語を抽出する方法は、以下の参考文献を含めて多くの研究がなされている。

・木本晴夫：「日本語新聞記事からのキーワード自動抽出と重要度評価」、電子情報通信学会論文誌Ｄ−１ J74-D-I No.8 pp.556-566
・小川泰嗣他：「複合語キーワードの自動抽出」、自然言語処理97-15(1993)
・水野聡他：「日本語キーワードの自動抽出手法」、自然言語処理91-6(1992)
索引格納部７は、索引語抽出部６で抽出した索引語を格納するものである。

（動作説明）
文書の内容を表す部分とともに文書の論理構造を示す部分（ＳＧＭＬ、ＸＭＬ、ＨＴＭＬではタグで示され、ワードプロセッサ等では特定のバイナリコードで記述されている）が同一文書内に埋め込まれているような構造化文書に対して索引語生成を行うため、索引語抽出部６を保有する索引生成装置において、
構造化文書受付部３で、構造化文書を読み取り、内容部分と構造部分を弁別する。

文脈解析部４で、構造化文書受付部３の出力を入力として、論理構造の出現順序によって表現されている論理構造の出現順序から文脈を解析し、その文脈に適合する文脈毎の索引語抽出ルール格納部５からの索引語抽出のルールと文書内容を組にして出力する。

索引語抽出部６で、文脈解析部４の出力を入力として、文書内容と組になっている索引語抽出ルールを文書内容に適用して索引語を抽出し、索引語と文脈を組にして索引格納部７に出力する。

（２）：索引語絞り込みルールを文脈毎に用意する場合の説明
図３は索引語絞り込みルールを文脈毎に用意する場合の説明図である。図３において、索引生成装置には、構造化文書（原文）格納部１、論理構造規定文書格納部２、構造化文書受付部３、文脈解析部４、文脈毎の索引語抽出ルール格納部５、索引語抽出部６、索引格納部７、索引語絞り込み部８、索引語絞り込みルール格納部９が設けてある。

構造化文書格納部１は、文書の内容を表す部分と共に文書の論理構造を示す部分が同一文書内に埋め込まれている文書を格納するものである。論理構造規定文書格納部２は、構造化文書の論理構造を規定する文書が別のファイルになっている場合に格納するものである。構造化文書受付部３は、論理構造と文書の内容を弁別する機能を持つ部分である。文脈解析部４は、構造化文書受付部３の出力を入力として、論理構造の出現順序によって表現されている論理構造の出現順序から文脈を解析し、その文脈に適合する索引語抽出のルールと文書内容を組にして出力するものである。

文脈毎の索引語抽出ルール格納部５は、例えば、「章」の見出しであれば、一番長い名詞句を抽出する等の文脈毎の索引語抽出ルールを格納するものである。索引語抽出部６は、文脈解析部４の出力を入力として、文書内容と組になっている索引語抽出ルールを文書内容に適用して索引語を抽出し、索引語と文脈を組にして出力するものである。索引格納部７は、索引語絞り込み部（文脈毎）８で絞り込んだ索引語を格納するものである。

索引語絞り込み部（文脈毎）８は、不要な索引語（不要語）を除去するものである。索引語絞り込みルール格納部９は、索引語絞り込み部８で索引語を絞り込む際のルールを格納するものである。

（動作説明）
文書の内容を表す部分とともに文書の論理構造を示す部分（ＳＧＭＬ、ＸＭＬ、ＨＴＭＬではタグで示され、ワードプロセッサ等では特定のバイナリコードで記述されている）が同一文書内に埋め込まれているような構造化文書に対して索引語生成を行うため、索引語抽出部６を保有する索引生成装置において、
構造化文書受付部３で、構造化文書を読み取り、内容部分と構造部分を弁別する。文脈解析部４で、構造化文書受付部３の出力を入力として、論理構造の出現順序によって表現されている論理構造の出現順序から文脈を解析し、その文脈に適合する文脈毎の索引語抽出ルール格納部５からの索引語抽出のルールと文書内容を組にして出力する。索引語抽出部６で、文脈解析部４の出力を入力として、文書内容と組になっている索引語抽出ルールを文書内容に適用して索引語を抽出し、索引語絞り込み部８で、索引語抽出部６の出力中に索引語の重複が有るか無いかをチェックする。このチェックで重複があった場合には、索引語と組になっている文脈を利用して、前もって用意されたその文脈に適合する索引語絞り込みルール格納部９の索引語絞り込みルールとその重要度（重み情報により判断する）を適用して不要語の除去が行われる。なお、このとき重複のある索引語であってもルールによっては不要語が発生しない場合もある。次に、索引語絞り込みを行った索引語と文脈を組にして索引格納部７に出力する。

（不要語除去の具体的手順の説明）
(1) ：索引語絞り込み部８は、索引語抽出部６からの出力で得られる索引語と文脈の組から１つ選んで、索引語を比較対象として内部に記憶させる。また、文脈に適合する索引語絞り込みルール（例えば、最長の名詞句は必ず残す）を選び、これも記憶させる。さらに、索引語絞り込みルール毎に付加されている重み（例えば、点数）も別に記憶させる。

(2) ：索引語絞り込み部８は、他の索引語と文脈の組を選び、その索引語を比較対象と比較する。この比較で、同一であれば、組になっている文脈から索引語絞り込みルールを選び適用する（例えば、どちらかを捨てる）。また、比較対象となっている上記(1) で選んだ比較対象である索引語についても、やはり上記(1) で選んだ索引語絞り込みルールを適応する。不要語とみなされた場合には索引語と文脈の組に削除マークを付ける（削除マークを付けるのは削除マークが付いたものも含めて比較するためである）。

(3) ：上記(2) を上記(1) で選んだ索引語と文脈とは異なる全ての索引語と文脈の組に対して適用する。

(4) ：上記(1) を全ての索引語と文脈の組に対して適用する。

(5) ：削除マークの付いた索引語と文脈との組を削除する。

この不要語除去の終わったところで、削除されなかった索引語と文脈との組にさらに索引語絞り込みルールの重み（例えば、点数）を付け加えて組にして出力する。

例えば、前記の「＜H1＞これが見出し＜/H1 ＞」をＳＧＭＬパーサによる分離した例である下記の場合、
(H1
−これが見出し
)H1
不要語除去の終わったところで、索引語絞り込み部８から次のように出力される。

「章の見出し部：これが見出し：最長の名詞句：５点」
↑ ↑ ↑ ↑
（文脈）（内容）（ルール）（点数）

（３）：索引語絞り込みに統計情報を用いる場合の説明
図４は索引語絞り込みに統計情報を用いる場合の説明図である。図４において、索引生成装置には、構造化文書（原文）格納部１、論理構造規定文書格納部２、構造化文書受付部３、文脈解析部４、文脈毎の索引語抽出ルール格納部５、索引語抽出部６、索引格納部７、索引語絞り込み部（文脈毎）８、索引語絞り込みルール格納部９、統計情報抽出部１０、索引数決定部１１、索引語統計情報抽出部１２、重要度計算部１３、索引語絞り込み部（文書全域）１４が設けてある。

文脈毎の索引語抽出ルール格納部５は、例えば、「章」の見出しであれば、一番長い名詞句を抽出する等の文脈毎の索引語抽出ルールを格納するものである。索引語抽出部６は、文脈解析部４の出力を入力として、文書内容と組になっている索引語抽出ルールを文書内容に適用して索引語を抽出し、索引語と文脈を組にして出力するものである。索引格納部７は、索引語絞り込み部（文書全域）１４で絞り込んだ索引語を格納するものである。索引語絞り込み部（文脈毎）８は、不要な索引語（不要語）を除去するものである。索引語絞り込みルール格納部９は、索引語絞り込み部８で索引語を絞り込む際のルールを格納するものである。

統計情報抽出部１０は、構造化文書受付部３の作成する論理構造出現順序と内容の組から内容部分を取り出し、統計情報（単純な例としては、文字数や語数）を抽出するものである。

索引数決定部１１は、統計情報抽出部１０からの統計情報から、索引語の上限を決定するものである。決定方法としては、１００文字／１索引で端数は切り捨てる等が考えられる。これは、語数に基づいて決定してもよいし、要求される索引に応じて索引数と文字数・語数を変えることができる。

索引語統計情報抽出部１２は、索引語絞り込み部（文脈毎）８で作成された索引語と文脈の組から索引語を読み込み、索引語の統計情報を抽出する。この統計情報としては、例えば、出現頻度や索引語を構成する名詞の出現頻度の和、さらには索引語の文字長などがある。

重要度計算部１３は、索引語自体の重みを索引語の統計情報から計算し、索引語と組になっている文脈毎の絞り込みルールの重みと、文脈自身の重みから総合的な重みを計算する。文脈自身の重みは、文脈毎の索引語絞り込みルールと同様に別に与えられている。また、総合的な重みの計算方法としては、これら３つの総和や総積、あるいは２乗和などが考えられる。

索引語絞り込み部（文書全域）１４は、この総合した重みによって、索引語と論理構造出現順序の組を順序付け、上位から索引語数の上限個数の索引語まで残し、残りを除去するものである。

（動作説明）
文書の内容を表す部分とともに文書の論理構造を示す部分（ＳＧＭＬ、ＸＭＬ、ＨＴＭＬではタグで示され、ワードプロセッサ等では特定のバイナリコードで記述されている）が同一文書内に埋め込まれているような構造化文書に対して索引語生成を行うため、索引語抽出部６を保有する索引生成装置において、
構造化文書受付部３で、構造化文書を読み取り、内容部分と構造部分を弁別する。文脈解析部４で、構造化文書受付部３の出力を入力として、論理構造の出現順序によって表現されている論理構造の出現順序から文脈を解析し、その文脈に適合する文脈毎の索引語抽出ルール格納部５からの索引語抽出のルールと文書内容を組にして出力する。索引語抽出部６で、文脈解析部４の出力を入力として、文書内容と組になっている索引語抽出ルールを文書内容に適用して索引語を抽出し、索引語絞り込み部（文脈毎）８で、索引語抽出部６の出力中に索引語の重複が有るか無いかをチェックする。このチェックで重複があった場合には、索引語と組になっている文脈を利用して、前もって用意されたその文脈に適合する索引語絞り込みルール格納部９の索引語絞り込みルールと重要度を適用して不要語の除去を行い、除去されなかった索引語と文脈との組にさらに索引語絞り込みルールの重みを付け加えて組にして出力する。

また、統計情報抽出部１０で、構造化文書受付部３の出力を入力として文書全体の統計情報（文字数や語数等）を計算し、索引数決定部１１で、統計情報抽出部１０からの出力を入力として索引語の個数の上限を決定する。

さらに、索引語統計情報抽出部１２で、索引語絞り込み部（文脈毎）８で作成された索引語と文脈の組から索引語を読み込み、索引語の出現頻度等の統計情報を抽出する。

重要度計算部１３で、(1) 索引語自体の重みを索引語統計情報抽出部１２からの索引語の統計情報から計算し、索引語絞り込み部（文脈毎）８からの索引語と組になっている(2) 文脈毎の絞り込みルールの重みと、(3) 文脈自身の重みとから総合的な重み（例えば総和、(1) ＋(2) ＋(3) ）を計算する。

索引語絞り込み部（文書全域）１４で、この重要度計算部１３の出力と、索引数決定部１１の出力を入力として、総合的な重みの上位から索引語数の上限個数の索引語まで残し、不要語の除去を文書全体（文書全域）で行う。

（４）：構造化文書内に索引を生成する場合の説明
図５は構造化文書内に索引を生成する場合の説明図である。図５において、索引生成装置には、構造化文書（原文）格納部１、論理構造規定文書格納部２、構造化文書受付部３、文脈解析部４、文脈毎の索引語抽出ルール格納部５、索引語抽出部６、索引付構造化文書格納部７ａ、索引語絞り込み部（文脈毎）８、索引語絞り込みルール格納部９、統計情報抽出部１０、索引数決定部１１、索引語統計情報抽出部１２、重要度計算部１３、索引語絞り込み部（文書全域）１４、被参照情報生成部１５、索引生成部１６、文脈毎の被参照情報作成ルール格納部１７が設けてある。

文脈毎の索引語抽出ルール格納部５は、例えば、「章」の見出しであれば、一番長い名詞句を抽出する等の文脈毎の索引語抽出ルールを格納するものである。索引語抽出部６は、文脈解析部４の出力を入力として、文書内容と組になっている索引語抽出ルールを文書内容に適用して索引語を抽出し、索引語と文脈を組にして出力するものである。索引付構造化文書格納部７ａは、索引生成部１６で生成した索引付構造化文書を格納するものである。索引語絞り込み部（文脈毎）８は、不要な索引語（不要語）を除去するものである。索引語絞り込みルール格納部９は、索引語絞り込み部８で索引語を絞り込む際のルールを格納するものである。

統計情報抽出部１０は、構造化文書受付部３の作成する論理構造出現順序と内容の組から内容部分を取り出し、統計情報を抽出するものである。索引数決定部１１は、統計情報抽出部１０からの統計情報から、索引語の上限を決定するものである。

索引語統計情報抽出部１２は、索引語絞り込み部（文脈毎）８で作成された索引語と文脈の組から索引語を読み込み、索引語の統計情報を抽出するものである。重要度計算部１３は、索引語自体の重みを索引語の統計情報から計算し、索引語と組になっている文脈毎の絞り込みルールの重みと、文脈自身の重みから総合的な重みを計算するものである。索引語絞り込み部（文書全域）１４は、この総合した重みによって、索引語と論理構造出現順序の組を順序付け、上位から索引語数の上限個数の索引語まで残し、残りを除去するものである。

被参照情報生成部１５は、索引語と組になっている文脈を使って、別に与えられている索引の被参照情報生成ルールを使って、索引の参照先の決定を行うと共に、被参照情報を生成して原文に埋め込むと共に、索引語と被参照情報を組にして出力するものである。

索引生成部１６は、被参照情報から参照用の情報を生成して索引語と合わせて索引を生成し、原文に埋め込むものである。

文脈毎の被参照情報作成ルール格納部１７は、文脈毎の被参照情報の作成ルールを格納するものである。

（動作説明）
文書の内容を表す部分とともに文書の論理構造を示す部分（ＳＧＭＬ、ＸＭＬ、ＨＴＭＬではタグで示され、ワードプロセッサ等では特定のバイナリコードで記述されている）が同一文書内に埋め込まれているような構造化文書に対して索引語生成を行うため、索引語抽出部６を保有する索引生成装置において、
構造化文書受付部３で、構造化文書を読み取り、内容部分と構造部分を弁別する。文脈解析部４で、構造化文書受付部３の出力を入力として、論理構造の出現順序によって表現されている論理構造の出現順序から文脈を解析し、その文脈に適合する文脈毎の索引語抽出ルール格納部５からの索引語抽出のルールと文書内容を組にして出力する。索引語抽出部６で、文脈解析部４の出力を入力として、文書内容と組になっている索引語抽出ルールを文書内容に適用して索引語を抽出し、索引語絞り込み部（文脈毎）８で、索引語抽出部６の出力中に索引語の重複が有るか無いかをチェックする。このチェックで重複があった場合には、索引語と組になっている文脈を利用して、前もって用意されたその文脈に適合する索引語絞り込みルール格納部９の索引語絞り込みルールとその重要度を適用して不要語の除去が行われる。

被参照情報生成部１５で、索引語と組になっている文脈を使って、別に与えられている索引の被参照情報生成ルール（文脈毎の被参照情報作成ルール格納部１７）を使って、索引の参照先の決定を行うと共に、被参照情報を生成して原文に埋め込むと共に、索引語と被参照情報を組にして索引生成部１６に出力する。

索引生成部１６で、被参照情報から参照用の情報を生成して索引語と合わせて索引を生成し、原文（構造化文書格納部１の）に埋め込み索引付構造化文書格納部７ａに出力する。

（ＨＴＭＬの具体的な説明）
・原文が次のものとする。

＜Ｐ＞これはアンカーのサンプルです。＜／Ｐ＞
・被参照情報生成部１５で、「アンカー」という名前を埋め込む場合、次のような被参照情報を作成し原文に埋め込んだ参照情報を作成する。

＜Ｐ＞これは＜ａｎａｍｅ＝”アンカー”＞アンカー＜／ａ＞のサンプルです。＜／Ｐ＞・・・・・・・（被参照情報）
＜Ｐ＞＜ａｈｒｅｆ＝”＃アンカー”＞ここを＜／ａ＞クリックするとアンカーにジャンプします。＜／Ｐ＞・・・・（参照情報）
・索引生成部１６で、生成したジャンプ先の索引（アイウエオ・・順に並べた「ア」行部）の例、
《ア》
＜ａｈｒｅｆ＝”＃アンカー”＞アンカー＜／ａ＞

（５）：プログラムのインストールの説明
構造化文書受付部３、文脈解析部４、索引語抽出部６、索引語絞り込み部（文脈毎）８、統計情報抽出部１０、索引数決定部１１、索引語統計情報抽出部１２、重要度計算部１３、索引語絞り込み部（文書全域）１４、被参照情報生成部１５、索引生成部１６等は、プログラムで構成でき、主制御部（ＣＰＵ）が実行するものであり、主記憶に格納されているものである。これらのプログラムは、一般的な、パーソナルコンピュータ、ワークステーション等のデータ処理装置（コンピュータ）で処理されるものである。このコンピュータは、主制御部、主記憶、ハードディスク等のファイル装置、表示装置、キーボード等の入力手段である入力装置などのハードウェアで構成されている。

このコンピュータに、本発明のプログラムをインストールする。このインストールは、フロッピィ、光磁気ディスク等の可搬型の記録（記憶）媒体に、これらのプログラムを記憶させておき、コンピュータが備えている記録媒体に対して、アクセスするためのドライブ装置を介して、或いは、ＬＡＮ等のネットワークを介して、コンピュータに設けられたファイル装置にインストールされる。そして、このファイル装置から処理に必要なプログラムステップを主記憶に読み出し、主制御部が実行するものである。

本発明の原理説明図である。実施の形態における索引語抽出ルールを文脈毎に用意する場合の説明図である。実施の形態における索引語絞り込みルールを文脈毎に用意する場合の説明図である。実施の形態における索引語絞り込みに統計情報を用いる場合の説明図である。実施の形態における構造化文書内に索引を生成する場合の説明図である。

符号の説明

１構造化文書格納部
３ａ文書受付部
４文脈解析部
５ａ索引語抽出ルール格納部
６索引語抽出部
７索引格納部

Claims

構造化文書を受け付ける文書受付部と、
前記構造化文書の論理構造とその出現順序によって表される文脈を解析する文脈解析部と、
索引語の抽出ルールを文脈毎に格納する索引語抽出ルール格納部と、
索引語抽出ルールに基づいて索引語を抽出する索引語抽出部と、
索引語の絞り込みルールを文脈毎に格納する索引語絞込ルール格納部と、
索引語絞り込みルールに基づいて索引語を絞り込む索引語絞り込み部とを備え、
前記文書受付部は、受け付けた構造化文書を文書の内容部分と構造部分に弁別し、
前記文脈解析部は、前記弁別した出力から文脈を解析し、その文脈に適合する索引語抽出ルールを前記索引語抽出ルール格納部から取り出し、該取り出した索引語抽出ルールと前記文書内容を組にして出力し、
前記索引語抽出部は、前記文脈解析部の出力から前記索引語抽出ルールを前記文書内容に適用して索引語を抽出して出力し、
前記索引語絞り込み部は、前記索引語絞込ルール格納部から取り出した前記索引語絞り込みルールを前記抽出した索引語に適用して索引語を絞り込むことを特徴とした索引生成装置。
構造化文書を受け付ける文書受付部と、
前記構造化文書の論理構造とその出現順序によって表される文脈を解析する文脈解析部と、
索引語の抽出ルールを文脈毎に格納する索引語抽出ルール格納部と、
索引語抽出ルールに基づいて索引語を抽出する索引語抽出部と、
索引語の絞り込みルールを文脈毎に格納する索引語絞込ルール格納部と、
索引語絞り込みルールに基づいて索引語を絞り込む索引語絞り込み部とを備えたデータ処理装置による索引生成方法であって、
前記文書受付部で、受け付けた構造化文書を文書の内容部分と構造部分に弁別し、
前記文脈解析部で、前記弁別した出力から文脈を解析し、その文脈に適合する索引語抽出ルールを索引語抽出ルール格納部から取り出し、該取り出した索引語抽出ルールと前記文書内容を組にして出力し、
前記索引語抽出部で、前記文脈解析部の出力から前記索引語抽出ルールを前記文書内容に適用して索引語を抽出して出力し、
前記索引語絞り込み部で、前記索引語絞込ルール格納部から取り出した前記索引語絞り込みルールを前記抽出した索引語に適用して索引語を絞り込むことを特徴とした索引生成方法。
構造化文書を受け付ける文書受付手順と、
前記構造化文書の論理構造とその出現順序によって表される文脈を解析する文脈解析手順と、
索引語抽出ルールに基づいて索引語を抽出する索引語抽出手順と、
文脈毎の索引語絞り込みルールに基づいて索引語を絞り込む索引語絞り込み手順とを備え、
前記文書受付手順で、受け付けた構造化文書を文書の内容部分と構造部分に弁別し、
前記文脈解析手順で、前記弁別した出力から文脈を解析し、その文脈に適合する索引語抽出ルールを索引語抽出ルール格納部から取り出し、該取り出した索引語抽出ルールと前記文書内容を組にして出力し、
前記索引語抽出手順で、前記文脈解析手順の出力から前記索引語抽出ルールを前記文書内容に適用して索引語を抽出し、
前記索引語絞り込み手順で、索引語絞込ルール格納部から取り出した文脈毎の前記索引語絞り込みルールを前記抽出した索引語に適用して索引語を絞り込んで出力するように、コンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。