JP2001034638A

JP2001034638A - 索引生成装置及び方法及び記録媒体

Info

Publication number: JP2001034638A
Application number: JP11211604A
Authority: JP
Inventors: Hidetatsu Matsuoka; 秀達松岡; Akira Ochitani; 亮落谷; Fumito Nishino; 文人西野
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1999-07-27
Filing date: 1999-07-27
Publication date: 2001-02-09

Abstract

(57)【要約】【課題】構造化文書から不要語の少ない索引を抽出でき
るようにすること。【解決手段】構造化文書を受け付ける文書受付部３ａ
と、文脈の解析をする文脈解析部４と、索引語の抽出ル
ールを文脈毎に格納する索引語抽出ルール格納部５ａ
と、索引語抽出ルールに基づいて索引語を抽出する索引
語抽出部６とを備え、前記文書受付部３ａは、受け付け
た構造化文書を文書の内容部分と構造部分に弁別し、前
記文脈解析部４は、前記弁別した出力から文脈を解析
し、その文脈に適合する索引語抽出ルールを前記索引語
抽出ルール格納部５ａから取り出し、該取り出した索引
語抽出ルールと前記文書内容を組にして出力し、前記索
引語抽出部６は、前記文脈解析部４の出力から前記索引
語抽出ルールを前記文書内容に適用して索引語を抽出し
て出力する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、構造化文書から不
要語の少ない索引を抽出することができる索引生成装置
及び方法及び記録媒体に関する。

【０００２】

【従来の技術】従来、文書から索引語やキーワードを抽
出する技術は、主なものに以下の２つがあった。

【０００３】：原文から網羅的に名詞句を抽出し、抽
出した名詞句を、その名詞句の出現位置（例えば、文書
の初めにあるものを重要視する等）や頻度などの統計情
報を利用して選択する。

【０００４】：索引やキーワードとなる語は、特定の
表現（例えば、〜とは、〜である。等の「〜」にくる
語）で記述されていることが多いのでその表現を持つ部
分を探索して、そこから索引語、キーワードの候補を抽
出する。

【０００５】

【発明が解決しようとする課題】前記従来のものにおい
ては、次のような課題があった。

【０００６】索引語に多量の不必要な語が混入している
ことが多く、また、原文中の索引に一致する語に対して
機械的に参照情報を付加していくと、参照先の数が多す
ぎて索引が索引としての用をなさないことがあった。

【０００７】本発明は、このような従来の課題を解決
し、構造化文書から不要語の少ない索引を抽出すること
を目的とする。

【０００８】

【課題を解決するための手段】図１は本発明の原理説明
図である。図１中、１は構造化文書格納部、３ａは文書
受付部、４は文脈解析部、５ａは索引語抽出ルール格納
部、６は索引語抽出部、７は索引格納部である。

【０００９】本発明は前記従来の課題を解決するため次
のように構成した。

【００１０】（１）：構造化文書を受け付ける文書受付
部３ａと、文脈の解析をする文脈解析部４と、索引語の
抽出ルールを文脈毎に格納する索引語抽出ルール格納部
５ａと、索引語抽出ルールに基づいて索引語を抽出する
索引語抽出部６とを備え、前記文書受付部３ａは、受け
付けた構造化文書を文書の内容部分と構造部分に弁別
し、前記文脈解析部４は、前記弁別した出力から文脈を
解析し、その文脈に適合する索引語抽出ルールを前記索
引語抽出ルール格納部５ａから取り出し、該取り出した
索引語抽出ルールと前記文書内容を組にして出力し、前
記索引語抽出部６は、前記文脈解析部４の出力から前記
索引語抽出ルールを前記文書内容に適用して索引語を抽
出して出力する。

【００１１】（２）：構造化文書を受け付ける文書受付
部３ａで、受け付けた構造化文書を文書の内容部分と構
造部分に弁別し、文脈解析部４で、前記弁別した出力か
ら文脈を解析し、その文脈に適合する索引語抽出ルール
を索引語抽出ルール格納部５ａから取り出し、該取り出
した索引語抽出ルールと前記文書内容を組にして出力
し、索引語抽出部６で、前記文脈解析部４の出力から前
記索引語抽出ルールを前記文書内容に適用して索引語を
抽出して出力する索引生成方法とする。

【００１２】（３）：構造化文書を受け付ける文書受付
手順と、文脈の解析をする文脈解析手順と、索引語抽出
ルールに基づいて索引語を抽出する索引語抽出手順とを
備え、前記文書受付手順で、受け付けた構造化文書を文
書の内容部分と構造部分に弁別し、前記文脈解析手順
で、前記弁別した出力から文脈を解析し、その文脈に適
合する索引語抽出ルールを索引語抽出ルール格納部から
取り出し、該取り出した索引語抽出ルールと前記文書内
容を組にして出力し、前記索引語抽出手順で、前記文脈
解析手順の出力から前記索引語抽出ルールを前記文書内
容に適用して索引語を抽出して出力するように、コンピ
ュータに実行させるためのプログラムを記録したコンピ
ュータ読み取り可能な記録媒体とする。

【００１３】（作用）前記構成に基づく作用を説明す
る。

【００１４】文書受付部３ａで、受け付けた構造化文書
を文書の内容部分と構造部分に弁別し、文脈解析部４
で、前記弁別した出力から文脈を解析し、その文脈に適
合する索引語抽出ルールを索引語抽出ルール格納部５ａ
から取り出して該取り出した索引語抽出ルールと前記文
書内容を組にして出力し、索引語抽出部６で、前記文脈
解析部４の出力から前記索引語抽出ルールを前記文書内
容に適用して索引語を抽出して出力する。このため、索
引の見出しとなる索引語を抽出するための索引語抽出ル
ールが文脈毎に用意されていることで、構造化文書にお
いても不要語が少ない索引生成が可能となる。

【００１５】また、構造化文書を受け付ける文書受付部
３ａで、受け付けた構造化文書を文書の内容部分と構造
部分に弁別し、文脈解析部４で、前記弁別した出力から
文脈を解析し、その文脈に適合する索引語抽出ルールを
索引語抽出ルール格納部５ａから取り出し、該取り出し
た索引語抽出ルールと前記文書内容を組にして出力し、
索引語抽出部６で、前記文脈解析部４の出力から前記索
引語抽出ルールを前記文書内容に適用して索引語を抽出
して出力する索引生成方法とする。このため、構造化文
書においても不要語が少ない索引生成が可能となる。

【００１６】さらに、構造化文書を受け付ける文書受付
手順と、文脈の解析をする文脈解析手順と、索引語抽出
ルールに基づいて索引語を抽出する索引語抽出手順とを
備え、前記文書受付手順で、受け付けた構造化文書を文
書の内容部分と構造部分に弁別し、前記文脈解析手順
で、前記弁別した出力から文脈を解析し、その文脈に適
合する索引語抽出ルールを索引語抽出ルール格納部から
取り出し、該取り出した索引語抽出ルールと前記文書内
容を組にして出力し、前記索引語抽出手順で、前記文脈
解析手順の出力から前記索引語抽出ルールを前記文書内
容に適用して索引語を抽出して出力するように、コンピ
ュータに実行させるためのプログラムを記録したコンピ
ュータ読み取り可能な記録媒体とする。このため、この
記録媒体のプログラムをコンピュータにインストールす
ることで、構造化文書においても不要語が少ない索引生
成が可能となる索引生成装置を容易に提供することがで
きる。

【００１７】

【発明の実施の形態】本発明は、処理対象を構造化文書
に限定することによって、文書中での論理構造の出現順
序が明確になることを利用して、その論理構造出現順序
から文脈を解析することが可能となる。そこで個々の文
脈に適合する索引語抽出を行うことで、漏れが無くかつ
不要語の混入が少ない索引語抽出を行うものである。

【００１８】しかし、同一の索引語が複数の文脈から抽
出されてしまうことがあり、結果として索引の品質が低
下する可能性がある。これに対する対策として、文脈毎
に索引語候補の絞り込みルールを人間が作成しておき、
索引語候補とその参照先の絞り込みを行うことで、利用
しやすい索引の生成を行う。

【００１９】また、索引を利用しやすくするために量的
な制限（索引語数や索引語数と文書内の全語数の比率
等）を加える場合には、索引語抽出に利用した文脈に
は人間がランキング（点数）情報を付加しておき、索
引語絞り込みルールには人間がランキング（点数）情報
を付加しておき、索引語そのものについてはその統計
情報からランキング（点数）を自動的に計算する。この
３つのランキング情報を総合したランキング付け（重み
付け）を行うことで、さらに利用しやすい索引を生成す
るために絞り込みを行うものである。

【００２０】以下、図面に基づいて本発明の実施の形態
について説明する。

【００２１】（１）：索引語抽出ルールを文脈毎に用意
する場合の説明図２は索引語抽出ルールを文脈毎に用意する場合の説明
図である。図２において、索引生成装置には、構造化文
書（原文）格納部１、論理構造規定文書格納部２、構造
化文書受付部３、文脈解析部４、文脈毎の索引語抽出ル
ール格納部５、索引語抽出部６、索引格納部７が設けて
ある。

【００２２】構造化文書格納部１は、文書の内容を表す
部分と共に文書の論理構造を示す部分が同一文書内に埋
め込まれている文書を格納するものである。例えば、構
造化文書としてＳＧＭＬ（Standard Generalized Marku
p Language）では、論理構造はタグで表現されている。
これは、ＸＭＬ（eXtensible Markup Language）やＨＴ
ＭＬ（Hyper Text Markup Language）でも同じである。
また、ワードプロセッサ等では論理構造は、特定のバイ
ナリコードで記述されている。

【００２３】論理構造規定文書格納部２は、構造化文書
の論理構造を規定する文書が別のファイルになっている
場合に格納するものである。ＳＧＭＬの論理構造を規定
する文書（文書型定義）の例は、以下のものである。

【００２４】＜!DOCTYPE memo [ ＜!ELEMENT memo −−(P+) ＞＜!ELEMENT P −−(#PCDATA) ＞ ]＞上記文書型定義を説明すると、ドキュメントタイプとし
て「memo」をこれから定義する。「memo」という要素
は、開始タグも終了タグも省略してはいけない。「Ｐ」
は１回以上持つことができる。エレメント「Ｐ」は普通
の文字列である。これで終わる。

【００２５】上記文書型定義の例によるＳＧＭＬ（構造
化文書）の例は以下のものである。

【００２６】＜memo＞＜P ＞メモランダム＜/P＞＜P ＞メモのサンプルです。＜/P＞＜/memo ＞構造化文書受付部３は、論理構造と文書の内容を弁別す
る機能を持つ部分である。構造化文書としてＳＧＭＬ
（ＸＭＬ、ＨＴＭＬでも同じ）を使用している場合に
は、論理構造は、タグで表現されるから、タグと内容を
分離してそれぞれにマークを付加して独立した行として
出力することで、構造化文書受付部３を実現することが
できる。このような機能を持つものとして、オープンソ
ースのソフトウェアとして配付されているＳＧＭＬパー
サ（例えば、ジェイムス・クラークのｎｓｇｍｌｓ）を
利用することができる。

【００２７】ＳＧＭＬパーサによるタグと内容の分離例
は、以下のようにタグと「−」の次の内容に分離するも
のである。

【００２８】＜H1＞これが見出し＜/H1 ＞ ↓・・・・・・（ＳＧＭＬパーサによる分離） (H1 −これが見出し )H1 また、ワードプロセッサ等で使用されているバイナリコ
ードによって、文書の構造を記述してある構造化文書の
場合には、バイナリコードを解釈して構造化文書受付部
３に続く文脈解析部４で解釈できる形態に変換すること
で構造化文書受付部３を実現することができる。

【００２９】文脈解析部４は、構造化文書受付部３の出
力を入力として、論理構造の出現順序によって表現され
ている論理構造の出現順序から文脈を解析し、その文脈
に適合する索引語抽出のルールと文書内容を組にして出
力するものである。

【００３０】文脈毎の索引語抽出ルール格納部５は、例
えば、「章」の見出しであれば、一番長い名詞句を抽出
する等の文脈毎の索引語抽出ルールを格納するものであ
る。

【００３１】索引語抽出部６は、文脈解析部４の出力を
入力として、文書内容と組になっている索引語抽出ルー
ルを文書内容に適用して索引語を抽出し、索引語と文脈
を組にして出力するものである。なお、索引語抽出ルー
ルに基づいて索引語を抽出する方法は、以下の参考文献
を含めて多くの研究がなされている。

【００３２】・木本晴夫：「日本語新聞記事からのキ
ーワード自動抽出と重要度評価」、電子情報通信学会論
文誌Ｄ−１ J74-D-I No.8 pp.556-566 ・小川泰嗣他：「複合語キーワードの自動抽出」、
自然言語処理97-15(1993) ・水野聡他：「日本語キーワードの自動抽出手
法」、自然言語処理91-6(1992) 索引格納部７は、索引語抽出部６で抽出した索引語を格
納するものである。

【００３３】（動作説明）文書の内容を表す部分ととも
に文書の論理構造を示す部分（ＳＧＭＬ、ＸＭＬ、ＨＴ
ＭＬではタグで示され、ワードプロセッサ等では特定の
バイナリコードで記述されている）が同一文書内に埋め
込まれているような構造化文書に対して索引語生成を行
うため、索引語抽出部６を保有する索引生成装置におい
て、構造化文書受付部３で、構造化文書を読み取り、内
容部分と構造部分を弁別する。

【００３４】文脈解析部４で、構造化文書受付部３の出
力を入力として、論理構造の出現順序によって表現され
ている論理構造の出現順序から文脈を解析し、その文脈
に適合する文脈毎の索引語抽出ルール格納部５からの索
引語抽出のルールと文書内容を組にして出力する。

【００３５】索引語抽出部６で、文脈解析部４の出力を
入力として、文書内容と組になっている索引語抽出ルー
ルを文書内容に適用して索引語を抽出し、索引語と文脈
を組にして索引格納部７に出力する。

【００３６】（２）：索引語絞り込みルールを文脈毎に
用意する場合の説明図３は索引語絞り込みルールを文脈毎に用意する場合の
説明図である。図３において、索引生成装置には、構造
化文書（原文）格納部１、論理構造規定文書格納部２、
構造化文書受付部３、文脈解析部４、文脈毎の索引語抽
出ルール格納部５、索引語抽出部６、索引格納部７、索
引語絞り込み部８、索引語絞り込みルール格納部９が設
けてある。

【００３７】構造化文書格納部１は、文書の内容を表す
部分と共に文書の論理構造を示す部分が同一文書内に埋
め込まれている文書を格納するものである。論理構造規
定文書格納部２は、構造化文書の論理構造を規定する文
書が別のファイルになっている場合に格納するものであ
る。構造化文書受付部３は、論理構造と文書の内容を弁
別する機能を持つ部分である。文脈解析部４は、構造化
文書受付部３の出力を入力として、論理構造の出現順序
によって表現されている論理構造の出現順序から文脈を
解析し、その文脈に適合する索引語抽出のルールと文書
内容を組にして出力するものである。

【００３８】文脈毎の索引語抽出ルール格納部５は、例
えば、「章」の見出しであれば、一番長い名詞句を抽出
する等の文脈毎の索引語抽出ルールを格納するものであ
る。索引語抽出部６は、文脈解析部４の出力を入力とし
て、文書内容と組になっている索引語抽出ルールを文書
内容に適用して索引語を抽出し、索引語と文脈を組にし
て出力するものである。索引格納部７は、索引語絞り込
み部（文脈毎）８で絞り込んだ索引語を格納するもので
ある。

【００３９】索引語絞り込み部（文脈毎）８は、不要な
索引語（不要語）を除去するものである。索引語絞り込
みルール格納部９は、索引語絞り込み部８で索引語を絞
り込む際のルールを格納するものである。

【００４０】（動作説明）文書の内容を表す部分ととも
に文書の論理構造を示す部分（ＳＧＭＬ、ＸＭＬ、ＨＴ
ＭＬではタグで示され、ワードプロセッサ等では特定の
バイナリコードで記述されている）が同一文書内に埋め
込まれているような構造化文書に対して索引語生成を行
うため、索引語抽出部６を保有する索引生成装置におい
て、構造化文書受付部３で、構造化文書を読み取り、内
容部分と構造部分を弁別する。文脈解析部４で、構造化
文書受付部３の出力を入力として、論理構造の出現順序
によって表現されている論理構造の出現順序から文脈を
解析し、その文脈に適合する文脈毎の索引語抽出ルール
格納部５からの索引語抽出のルールと文書内容を組にし
て出力する。索引語抽出部６で、文脈解析部４の出力を
入力として、文書内容と組になっている索引語抽出ルー
ルを文書内容に適用して索引語を抽出し、索引語絞り込
み部８で、索引語抽出部６の出力中に索引語の重複が有
るか無いかをチェックする。このチェックで重複があっ
た場合には、索引語と組になっている文脈を利用して、
前もって用意されたその文脈に適合する索引語絞り込み
ルール格納部９の索引語絞り込みルールとその重要度
（重み情報により判断する）を適用して不要語の除去が
行われる。なお、このとき重複のある索引語であっても
ルールによっては不要語が発生しない場合もある。次
に、索引語絞り込みを行った索引語と文脈を組にして索
引格納部７に出力する。

【００４１】（不要語除去の具体的手順の説明）：索引語絞り込み部８は、索引語抽出部６からの出力
で得られる索引語と文脈の組から１つ選んで、索引語を
比較対象として内部に記憶させる。また、文脈に適合す
る索引語絞り込みルール（例えば、最長の名詞句は必ず
残す）を選び、これも記憶させる。さらに、索引語絞り
込みルール毎に付加されている重み（例えば、点数）も
別に記憶させる。

【００４２】：索引語絞り込み部８は、他の索引語と
文脈の組を選び、その索引語を比較対象と比較する。こ
の比較で、同一であれば、組になっている文脈から索引
語絞り込みルールを選び適用する（例えば、どちらかを
捨てる）。また、比較対象となっている上記で選んだ
比較対象である索引語についても、やはり上記で選ん
だ索引語絞り込みルールを適応する。不要語とみなされ
た場合には索引語と文脈の組に削除マークを付ける（削
除マークを付けるのは削除マークが付いたものも含めて
比較するためである）。

【００４３】：上記を上記で選んだ索引語と文脈
とは異なる全ての索引語と文脈の組に対して適用する。

【００４４】：上記を全ての索引語と文脈の組に対
して適用する。

【００４５】：削除マークの付いた索引語と文脈との
組を削除する。

【００４６】この不要語除去の終わったところで、削除
されなかった索引語と文脈との組にさらに索引語絞り込
みルールの重み（例えば、点数）を付け加えて組にして
出力する。

【００４７】例えば、前記の「＜H1＞これが見出し＜
/H1 ＞」をＳＧＭＬパーサによる分離した例である下記
の場合、 (H1 −これが見出し )H1 不要語除去の終わったところで、索引語絞り込み部８か
ら次のように出力される。

【００４８】「章の見出し部：これが見出し：最長の名詞句：５点」 ↑ ↑ ↑ ↑ （文脈）（内容）（ルール）（点数）（３）：索引語絞り込みに統計情報を用いる場合の説明図４は索引語絞り込みに統計情報を用いる場合の説明図
である。図４において、索引生成装置には、構造化文書
（原文）格納部１、論理構造規定文書格納部２、構造化
文書受付部３、文脈解析部４、文脈毎の索引語抽出ルー
ル格納部５、索引語抽出部６、索引格納部７、索引語絞
り込み部（文脈毎）８、索引語絞り込みルール格納部
９、統計情報抽出部１０、索引数決定部１１、索引語統
計情報抽出部１２、重要度計算部１３、索引語絞り込み
部（文書全域）１４が設けてある。

【００４９】構造化文書格納部１は、文書の内容を表す
部分と共に文書の論理構造を示す部分が同一文書内に埋
め込まれている文書を格納するものである。論理構造規
定文書格納部２は、構造化文書の論理構造を規定する文
書が別のファイルになっている場合に格納するものであ
る。構造化文書受付部３は、論理構造と文書の内容を弁
別する機能を持つ部分である。文脈解析部４は、構造化
文書受付部３の出力を入力として、論理構造の出現順序
によって表現されている論理構造の出現順序から文脈を
解析し、その文脈に適合する索引語抽出のルールと文書
内容を組にして出力するものである。

【００５０】文脈毎の索引語抽出ルール格納部５は、例
えば、「章」の見出しであれば、一番長い名詞句を抽出
する等の文脈毎の索引語抽出ルールを格納するものであ
る。索引語抽出部６は、文脈解析部４の出力を入力とし
て、文書内容と組になっている索引語抽出ルールを文書
内容に適用して索引語を抽出し、索引語と文脈を組にし
て出力するものである。索引格納部７は、索引語絞り込
み部（文書全域）１４で絞り込んだ索引語を格納するも
のである。索引語絞り込み部（文脈毎）８は、不要な索
引語（不要語）を除去するものである。索引語絞り込み
ルール格納部９は、索引語絞り込み部８で索引語を絞り
込む際のルールを格納するものである。

【００５１】統計情報抽出部１０は、構造化文書受付部
３の作成する論理構造出現順序と内容の組から内容部分
を取り出し、統計情報（単純な例としては、文字数や語
数）を抽出するものである。

【００５２】索引数決定部１１は、統計情報抽出部１０
からの統計情報から、索引語の上限を決定するものであ
る。決定方法としては、１００文字／１索引で端数は切
り捨てる等が考えられる。これは、語数に基づいて決定
してもよいし、要求される索引に応じて索引数と文字数
・語数を変えることができる。

【００５３】索引語統計情報抽出部１２は、索引語絞り
込み部（文脈毎）８で作成された索引語と文脈の組から
索引語を読み込み、索引語の統計情報を抽出する。この
統計情報としては、例えば、出現頻度や索引語を構成す
る名詞の出現頻度の和、さらには索引語の文字長などが
ある。

【００５４】重要度計算部１３は、索引語自体の重みを
索引語の統計情報から計算し、索引語と組になっている
文脈毎の絞り込みルールの重みと、文脈自身の重みから
総合的な重みを計算する。文脈自身の重みは、文脈毎の
索引語絞り込みルールと同様に別に与えられている。ま
た、総合的な重みの計算方法としては、これら３つの総
和や総積、あるいは２乗和などが考えられる。

【００５５】索引語絞り込み部（文書全域）１４は、こ
の総合した重みによって、索引語と論理構造出現順序の
組を順序付け、上位から索引語数の上限個数の索引語ま
で残し、残りを除去するものである。

【００５６】（動作説明）文書の内容を表す部分ととも
に文書の論理構造を示す部分（ＳＧＭＬ、ＸＭＬ、ＨＴ
ＭＬではタグで示され、ワードプロセッサ等では特定の
バイナリコードで記述されている）が同一文書内に埋め
込まれているような構造化文書に対して索引語生成を行
うため、索引語抽出部６を保有する索引生成装置におい
て、構造化文書受付部３で、構造化文書を読み取り、内
容部分と構造部分を弁別する。文脈解析部４で、構造化
文書受付部３の出力を入力として、論理構造の出現順序
によって表現されている論理構造の出現順序から文脈を
解析し、その文脈に適合する文脈毎の索引語抽出ルール
格納部５からの索引語抽出のルールと文書内容を組にし
て出力する。索引語抽出部６で、文脈解析部４の出力を
入力として、文書内容と組になっている索引語抽出ルー
ルを文書内容に適用して索引語を抽出し、索引語絞り込
み部（文脈毎）８で、索引語抽出部６の出力中に索引語
の重複が有るか無いかをチェックする。このチェックで
重複があった場合には、索引語と組になっている文脈を
利用して、前もって用意されたその文脈に適合する索引
語絞り込みルール格納部９の索引語絞り込みルールと重
要度を適用して不要語の除去を行い、除去されなかった
索引語と文脈との組にさらに索引語絞り込みルールの重
みを付け加えて組にして出力する。

【００５７】また、統計情報抽出部１０で、構造化文書
受付部３の出力を入力として文書全体の統計情報（文字
数や語数等）を計算し、索引数決定部１１で、統計情報
抽出部１０からの出力を入力として索引語の個数の上限
を決定する。

【００５８】さらに、索引語統計情報抽出部１２で、索
引語絞り込み部（文脈毎）８で作成された索引語と文脈
の組から索引語を読み込み、索引語の出現頻度等の統計
情報を抽出する。

【００５９】重要度計算部１３で、索引語自体の重み
を索引語統計情報抽出部１２からの索引語の統計情報か
ら計算し、索引語絞り込み部（文脈毎）８からの索引語
と組になっている文脈毎の絞り込みルールの重みと、
文脈自身の重みとから総合的な重み（例えば総和、
＋＋）を計算する。

【００６０】索引語絞り込み部（文書全域）１４で、こ
の重要度計算部１３の出力と、索引数決定部１１の出力
を入力として、総合的な重みの上位から索引語数の上限
個数の索引語まで残し、不要語の除去を文書全体（文書
全域）で行う。

【００６１】（４）：構造化文書内に索引を生成する場
合の説明図５は構造化文書内に索引を生成する場合の説明図であ
る。図５において、索引生成装置には、構造化文書（原
文）格納部１、論理構造規定文書格納部２、構造化文書
受付部３、文脈解析部４、文脈毎の索引語抽出ルール格
納部５、索引語抽出部６、索引付構造化文書格納部７
ａ、索引語絞り込み部（文脈毎）８、索引語絞り込みル
ール格納部９、統計情報抽出部１０、索引数決定部１
１、索引語統計情報抽出部１２、重要度計算部１３、索
引語絞り込み部（文書全域）１４、被参照情報生成部１
５、索引生成部１６、文脈毎の被参照情報作成ルール格
納部１７が設けてある。

【００６２】構造化文書格納部１は、文書の内容を表す
部分と共に文書の論理構造を示す部分が同一文書内に埋
め込まれている文書を格納するものである。論理構造規
定文書格納部２は、構造化文書の論理構造を規定する文
書が別のファイルになっている場合に格納するものであ
る。構造化文書受付部３は、論理構造と文書の内容を弁
別する機能を持つ部分である。文脈解析部４は、構造化
文書受付部３の出力を入力として、論理構造の出現順序
によって表現されている論理構造の出現順序から文脈を
解析し、その文脈に適合する索引語抽出のルールと文書
内容を組にして出力するものである。

【００６３】文脈毎の索引語抽出ルール格納部５は、例
えば、「章」の見出しであれば、一番長い名詞句を抽出
する等の文脈毎の索引語抽出ルールを格納するものであ
る。索引語抽出部６は、文脈解析部４の出力を入力とし
て、文書内容と組になっている索引語抽出ルールを文書
内容に適用して索引語を抽出し、索引語と文脈を組にし
て出力するものである。索引付構造化文書格納部７ａ
は、索引生成部１６で生成した索引付構造化文書を格納
するものである。索引語絞り込み部（文脈毎）８は、不
要な索引語（不要語）を除去するものである。索引語絞
り込みルール格納部９は、索引語絞り込み部８で索引語
を絞り込む際のルールを格納するものである。

【００６４】統計情報抽出部１０は、構造化文書受付部
３の作成する論理構造出現順序と内容の組から内容部分
を取り出し、統計情報を抽出するものである。索引数決
定部１１は、統計情報抽出部１０からの統計情報から、
索引語の上限を決定するものである。

【００６５】索引語統計情報抽出部１２は、索引語絞り
込み部（文脈毎）８で作成された索引語と文脈の組から
索引語を読み込み、索引語の統計情報を抽出するもので
ある。重要度計算部１３は、索引語自体の重みを索引語
の統計情報から計算し、索引語と組になっている文脈毎
の絞り込みルールの重みと、文脈自身の重みから総合的
な重みを計算するものである。索引語絞り込み部（文書
全域）１４は、この総合した重みによって、索引語と論
理構造出現順序の組を順序付け、上位から索引語数の上
限個数の索引語まで残し、残りを除去するものである。

【００６６】被参照情報生成部１５は、索引語と組にな
っている文脈を使って、別に与えられている索引の被参
照情報生成ルールを使って、索引の参照先の決定を行う
と共に、被参照情報を生成して原文に埋め込むと共に、
索引語と被参照情報を組にして出力するものである。

【００６７】索引生成部１６は、被参照情報から参照用
の情報を生成して索引語と合わせて索引を生成し、原文
に埋め込むものである。

【００６８】文脈毎の被参照情報作成ルール格納部１７
は、文脈毎の被参照情報の作成ルールを格納するもので
ある。

【００６９】（動作説明）文書の内容を表す部分ととも
に文書の論理構造を示す部分（ＳＧＭＬ、ＸＭＬ、ＨＴ
ＭＬではタグで示され、ワードプロセッサ等では特定の
バイナリコードで記述されている）が同一文書内に埋め
込まれているような構造化文書に対して索引語生成を行
うため、索引語抽出部６を保有する索引生成装置におい
て、構造化文書受付部３で、構造化文書を読み取り、内
容部分と構造部分を弁別する。文脈解析部４で、構造化
文書受付部３の出力を入力として、論理構造の出現順序
によって表現されている論理構造の出現順序から文脈を
解析し、その文脈に適合する文脈毎の索引語抽出ルール
格納部５からの索引語抽出のルールと文書内容を組にし
て出力する。索引語抽出部６で、文脈解析部４の出力を
入力として、文書内容と組になっている索引語抽出ルー
ルを文書内容に適用して索引語を抽出し、索引語絞り込
み部（文脈毎）８で、索引語抽出部６の出力中に索引語
の重複が有るか無いかをチェックする。このチェックで
重複があった場合には、索引語と組になっている文脈を
利用して、前もって用意されたその文脈に適合する索引
語絞り込みルール格納部９の索引語絞り込みルールとそ
の重要度を適用して不要語の除去が行われる。

【００７０】また、統計情報抽出部１０で、構造化文書
受付部３の出力を入力として文書全体の統計情報（文字
数や語数等）を計算し、索引数決定部１１で、統計情報
抽出部１０からの出力を入力として索引語の個数の上限
を決定する。

【００７１】さらに、索引語統計情報抽出部１２で、索
引語絞り込み部（文脈毎）８で作成された索引語と文脈
の組から索引語を読み込み、索引語の出現頻度等の統計
情報を抽出する。

【００７２】重要度計算部１３で、索引語自体の重み
を索引語統計情報抽出部１２からの索引語の統計情報か
ら計算し、索引語絞り込み部（文脈毎）８からの索引語
と組になっている文脈毎の絞り込みルールの重みと、
文脈自身の重みとから総合的な重み（例えば総和、
＋＋）を計算する。

【００７３】索引語絞り込み部（文書全域）１４で、こ
の重要度計算部１３の出力と、索引数決定部１１の出力
を入力として、総合的な重みの上位から索引語数の上限
個数の索引語まで残し、不要語の除去を文書全体（文書
全域）で行う。

【００７４】被参照情報生成部１５で、索引語と組にな
っている文脈を使って、別に与えられている索引の被参
照情報生成ルール（文脈毎の被参照情報作成ルール格納
部１７）を使って、索引の参照先の決定を行うと共に、
被参照情報を生成して原文に埋め込むと共に、索引語と
被参照情報を組にして索引生成部１６に出力する。

【００７５】索引生成部１６で、被参照情報から参照用
の情報を生成して索引語と合わせて索引を生成し、原文
（構造化文書格納部１の）に埋め込み索引付構造化文書
格納部７ａに出力する。

【００７６】（ＨＴＭＬの具体的な説明）・原文が次のものとする。

【００７７】＜Ｐ＞これはアンカーのサンプルです。＜／Ｐ＞・被参照情報生成部１５で、「アンカー」という名前を
埋め込む場合、次のような被参照情報を作成し原文に埋
め込んだ参照情報を作成する。

【００７８】＜Ｐ＞これは＜ａｎａｍｅ＝”アンカー”＞アンカー
＜／ａ＞のサンプルです。＜／Ｐ＞・・・・・・・
（被参照情報）＜Ｐ＞＜ａｈｒｅｆ＝”＃アンカー”＞ここを＜／ａ
＞クリックするとアンカーにジャンプします。＜／Ｐ＞
・・・・（参照情報）・索引生成部１６で、生成したジャンプ先の索引（アイ
ウエオ・・順に並べた「ア」行部）の例、《ア》＜ａｈｒｅｆ＝”＃アンカー”＞アンカー＜／ａ＞（５）：プログラムのインストールの説明構造化文書受付部３、文脈解析部４、索引語抽出部６、
索引語絞り込み部（文脈毎）８、統計情報抽出部１０、
索引数決定部１１、索引語統計情報抽出部１２、重要度
計算部１３、索引語絞り込み部（文書全域）１４、被参
照情報生成部１５、索引生成部１６等は、プログラムで
構成でき、主制御部（ＣＰＵ）が実行するものであり、
主記憶に格納されているものである。これらのプログラ
ムは、一般的な、パーソナルコンピュータ、ワークステ
ーション等のデータ処理装置（コンピュータ）で処理さ
れるものである。このコンピュータは、主制御部、主記
憶、ハードディスク等のファイル装置、表示装置、キー
ボード等の入力手段である入力装置などのハードウェア
で構成されている。

【００７９】このコンピュータに、本発明のプログラム
をインストールする。このインストールは、フロッピ
ィ、光磁気ディスク等の可搬型の記録（記憶）媒体に、
これらのプログラムを記憶させておき、コンピュータが
備えている記録媒体に対して、アクセスするためのドラ
イブ装置を介して、或いは、ＬＡＮ等のネットワークを
介して、コンピュータに設けられたファイル装置にイン
ストールされる。そして、このファイル装置から処理に
必要なプログラムステップを主記憶に読み出し、主制御
部が実行するものである。

【００８０】

【発明の効果】以上説明したように、本発明によれば次
のような効果がある。

【００８１】（１）：文書受付部で、受け付けた構造化
文書を文書の内容部分と構造部分に弁別し、文脈解析部
で、前記弁別した出力から文脈を解析し、その文脈に適
合する索引語抽出ルールを索引語抽出ルール格納部から
取り出して該取り出した索引語抽出ルールと前記文書内
容を組にして出力し、索引語抽出部で、文脈解析部の出
力から前記索引語抽出ルールを前記文書内容に適用して
索引語を抽出して出力するため、索引の見出しとなる索
引語を抽出するための索引語抽出ルールが文脈毎に用意
されていることで、構造化文書においても不要語が少な
い索引生成が可能となる。

【００８２】（２）：構造化文書を受け付ける文書受付
部で、受け付けた構造化文書を文書の内容部分と構造部
分に弁別し、文脈解析部で、前記弁別した出力から文脈
を解析し、その文脈に適合する索引語抽出ルールを索引
語抽出ルール格納部から取り出し、該取り出した索引語
抽出ルールと前記文書内容を組にして出力し、索引語抽
出部で、前記文脈解析部４の出力から前記索引語抽出ル
ールを前記文書内容に適用して索引語を抽出して出力す
る索引生成方法とするため、構造化文書においても不要
語が少ない索引生成が可能となる。

【００８３】（３）：構造化文書を受け付ける文書受付
手順と、文脈の解析をする文脈解析手順と、索引語抽出
ルールに基づいて索引語を抽出する索引語抽出手順とを
備え、前記文書受付手順で、受け付けた構造化文書を文
書の内容部分と構造部分に弁別し、前記文脈解析手順
で、前記弁別した出力から文脈を解析し、その文脈に適
合する索引語抽出ルールを索引語抽出ルール格納部から
取り出し、該取り出した索引語抽出ルールと前記文書内
容を組にして出力し、前記索引語抽出手順で、前記文脈
解析手順の出力から前記索引語抽出ルールを前記文書内
容に適用して索引語を抽出して出力するように、コンピ
ュータに実行させるためのプログラムを記録したコンピ
ュータ読み取り可能な記録媒体とするため、この記録媒
体のプログラムをコンピュータにインストールすること
で、構造化文書においても不要語が少ない索引生成が可
能となる索引生成装置を容易に提供することができる。

【図面の簡単な説明】

【図１】本発明の原理説明図である。

【図２】実施の形態における索引語抽出ルールを文脈毎
に用意する場合の説明図である。

【図３】実施の形態における索引語絞り込みルールを文
脈毎に用意する場合の説明図である。

【図４】実施の形態における索引語絞り込みに統計情報
を用いる場合の説明図である。

【図５】実施の形態における構造化文書内に索引を生成
する場合の説明図である。

【符号の説明】

１構造化文書格納部３ａ文書受付部４文脈解析部５ａ索引語抽出ルール格納部６索引語抽出部７索引格納部

───────────────────────────────────────────────────── フロントページの続き (72)発明者西野文人神奈川県川崎市中原区上小田中４丁目１番１号富士通株式会社内Ｆターム(参考） 5B075 ND03 NK02 NK31 UU06

Claims

【特許請求の範囲】

【請求項１】構造化文書を受け付ける文書受付部と、文脈の解析をする文脈解析部と、索引語の抽出ルールを文脈毎に格納する索引語抽出ルー
ル格納部と、索引語抽出ルールに基づいて索引語を抽出する索引語抽
出部とを備え、前記文書受付部は、受け付けた構造化文書を文書の内容
部分と構造部分に弁別し、前記文脈解析部は、前記弁別した出力から文脈を解析
し、その文脈に適合する索引語抽出ルールを前記索引語
抽出ルール格納部から取り出し、該取り出した索引語抽
出ルールと前記文書内容を組にして出力し、前記索引語抽出部は、前記文脈解析部の出力から前記索
引語抽出ルールを前記文書内容に適用して索引語を抽出
して出力することを特徴とした索引生成装置。
【請求項２】構造化文書を受け付ける文書受付部で、受
け付けた構造化文書を文書の内容部分と構造部分に弁別
し、文脈解析部で、前記弁別した出力から文脈を解析し、そ
の文脈に適合する索引語抽出ルールを索引語抽出ルール
格納部から取り出し、該取り出した索引語抽出ルールと
前記文書内容を組にして出力し、索引語抽出部で、前記文脈解析部の出力から前記索引語
抽出ルールを前記文書内容に適用して索引語を抽出して
出力することを特徴とした索引生成方法。
【請求項３】構造化文書を受け付ける文書受付手順と、文脈の解析をする文脈解析手順と、索引語抽出ルールに基づいて索引語を抽出する索引語抽
出手順とを備え、前記文書受付手順で、受け付けた構造化文書を文書の内
容部分と構造部分に弁別し、前記文脈解析手順で、前記弁別した出力から文脈を解析
し、その文脈に適合する索引語抽出ルールを索引語抽出
ルール格納部から取り出し、該取り出した索引語抽出ル
ールと前記文書内容を組にして出力し、前記索引語抽出手順で、前記文脈解析手順の出力から前
記索引語抽出ルールを前記文書内容に適用して索引語を
抽出して出力するように、コンピュータに実行させるためのプログラムを記録した
コンピュータ読み取り可能な記録媒体。