JP2001034638A - 索引生成装置及び方法及び記録媒体 - Google Patents

索引生成装置及び方法及び記録媒体

Info

Publication number
JP2001034638A
JP2001034638A JP11211604A JP21160499A JP2001034638A JP 2001034638 A JP2001034638 A JP 2001034638A JP 11211604 A JP11211604 A JP 11211604A JP 21160499 A JP21160499 A JP 21160499A JP 2001034638 A JP2001034638 A JP 2001034638A
Authority
JP
Japan
Prior art keywords
index
context
document
index word
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11211604A
Other languages
English (en)
Inventor
Hidetatsu Matsuoka
秀達 松岡
Akira Ochitani
亮 落谷
Fumito Nishino
文人 西野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP11211604A priority Critical patent/JP2001034638A/ja
Publication of JP2001034638A publication Critical patent/JP2001034638A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】構造化文書から不要語の少ない索引を抽出でき
るようにすること。 【解決手段】構造化文書を受け付ける文書受付部3a
と、文脈の解析をする文脈解析部4と、索引語の抽出ル
ールを文脈毎に格納する索引語抽出ルール格納部5a
と、索引語抽出ルールに基づいて索引語を抽出する索引
語抽出部6とを備え、前記文書受付部3aは、受け付け
た構造化文書を文書の内容部分と構造部分に弁別し、前
記文脈解析部4は、前記弁別した出力から文脈を解析
し、その文脈に適合する索引語抽出ルールを前記索引語
抽出ルール格納部5aから取り出し、該取り出した索引
語抽出ルールと前記文書内容を組にして出力し、前記索
引語抽出部6は、前記文脈解析部4の出力から前記索引
語抽出ルールを前記文書内容に適用して索引語を抽出し
て出力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、構造化文書から不
要語の少ない索引を抽出することができる索引生成装置
及び方法及び記録媒体に関する。
【0002】
【従来の技術】従来、文書から索引語やキーワードを抽
出する技術は、主なものに以下の2つがあった。
【0003】:原文から網羅的に名詞句を抽出し、抽
出した名詞句を、その名詞句の出現位置(例えば、文書
の初めにあるものを重要視する等)や頻度などの統計情
報を利用して選択する。
【0004】:索引やキーワードとなる語は、特定の
表現(例えば、〜とは、〜である。等の「〜」にくる
語)で記述されていることが多いのでその表現を持つ部
分を探索して、そこから索引語、キーワードの候補を抽
出する。
【0005】
【発明が解決しようとする課題】前記従来のものにおい
ては、次のような課題があった。
【0006】索引語に多量の不必要な語が混入している
ことが多く、また、原文中の索引に一致する語に対して
機械的に参照情報を付加していくと、参照先の数が多す
ぎて索引が索引としての用をなさないことがあった。
【0007】本発明は、このような従来の課題を解決
し、構造化文書から不要語の少ない索引を抽出すること
を目的とする。
【0008】
【課題を解決するための手段】図1は本発明の原理説明
図である。図1中、1は構造化文書格納部、3aは文書
受付部、4は文脈解析部、5aは索引語抽出ルール格納
部、6は索引語抽出部、7は索引格納部である。
【0009】本発明は前記従来の課題を解決するため次
のように構成した。
【0010】(1):構造化文書を受け付ける文書受付
部3aと、文脈の解析をする文脈解析部4と、索引語の
抽出ルールを文脈毎に格納する索引語抽出ルール格納部
5aと、索引語抽出ルールに基づいて索引語を抽出する
索引語抽出部6とを備え、前記文書受付部3aは、受け
付けた構造化文書を文書の内容部分と構造部分に弁別
し、前記文脈解析部4は、前記弁別した出力から文脈を
解析し、その文脈に適合する索引語抽出ルールを前記索
引語抽出ルール格納部5aから取り出し、該取り出した
索引語抽出ルールと前記文書内容を組にして出力し、前
記索引語抽出部6は、前記文脈解析部4の出力から前記
索引語抽出ルールを前記文書内容に適用して索引語を抽
出して出力する。
【0011】(2):構造化文書を受け付ける文書受付
部3aで、受け付けた構造化文書を文書の内容部分と構
造部分に弁別し、文脈解析部4で、前記弁別した出力か
ら文脈を解析し、その文脈に適合する索引語抽出ルール
を索引語抽出ルール格納部5aから取り出し、該取り出
した索引語抽出ルールと前記文書内容を組にして出力
し、索引語抽出部6で、前記文脈解析部4の出力から前
記索引語抽出ルールを前記文書内容に適用して索引語を
抽出して出力する索引生成方法とする。
【0012】(3):構造化文書を受け付ける文書受付
手順と、文脈の解析をする文脈解析手順と、索引語抽出
ルールに基づいて索引語を抽出する索引語抽出手順とを
備え、前記文書受付手順で、受け付けた構造化文書を文
書の内容部分と構造部分に弁別し、前記文脈解析手順
で、前記弁別した出力から文脈を解析し、その文脈に適
合する索引語抽出ルールを索引語抽出ルール格納部から
取り出し、該取り出した索引語抽出ルールと前記文書内
容を組にして出力し、前記索引語抽出手順で、前記文脈
解析手順の出力から前記索引語抽出ルールを前記文書内
容に適用して索引語を抽出して出力するように、コンピ
ュータに実行させるためのプログラムを記録したコンピ
ュータ読み取り可能な記録媒体とする。
【0013】(作用)前記構成に基づく作用を説明す
る。
【0014】文書受付部3aで、受け付けた構造化文書
を文書の内容部分と構造部分に弁別し、文脈解析部4
で、前記弁別した出力から文脈を解析し、その文脈に適
合する索引語抽出ルールを索引語抽出ルール格納部5a
から取り出して該取り出した索引語抽出ルールと前記文
書内容を組にして出力し、索引語抽出部6で、前記文脈
解析部4の出力から前記索引語抽出ルールを前記文書内
容に適用して索引語を抽出して出力する。このため、索
引の見出しとなる索引語を抽出するための索引語抽出ル
ールが文脈毎に用意されていることで、構造化文書にお
いても不要語が少ない索引生成が可能となる。
【0015】また、構造化文書を受け付ける文書受付部
3aで、受け付けた構造化文書を文書の内容部分と構造
部分に弁別し、文脈解析部4で、前記弁別した出力から
文脈を解析し、その文脈に適合する索引語抽出ルールを
索引語抽出ルール格納部5aから取り出し、該取り出し
た索引語抽出ルールと前記文書内容を組にして出力し、
索引語抽出部6で、前記文脈解析部4の出力から前記索
引語抽出ルールを前記文書内容に適用して索引語を抽出
して出力する索引生成方法とする。このため、構造化文
書においても不要語が少ない索引生成が可能となる。
【0016】さらに、構造化文書を受け付ける文書受付
手順と、文脈の解析をする文脈解析手順と、索引語抽出
ルールに基づいて索引語を抽出する索引語抽出手順とを
備え、前記文書受付手順で、受け付けた構造化文書を文
書の内容部分と構造部分に弁別し、前記文脈解析手順
で、前記弁別した出力から文脈を解析し、その文脈に適
合する索引語抽出ルールを索引語抽出ルール格納部から
取り出し、該取り出した索引語抽出ルールと前記文書内
容を組にして出力し、前記索引語抽出手順で、前記文脈
解析手順の出力から前記索引語抽出ルールを前記文書内
容に適用して索引語を抽出して出力するように、コンピ
ュータに実行させるためのプログラムを記録したコンピ
ュータ読み取り可能な記録媒体とする。このため、この
記録媒体のプログラムをコンピュータにインストールす
ることで、構造化文書においても不要語が少ない索引生
成が可能となる索引生成装置を容易に提供することがで
きる。
【0017】
【発明の実施の形態】本発明は、処理対象を構造化文書
に限定することによって、文書中での論理構造の出現順
序が明確になることを利用して、その論理構造出現順序
から文脈を解析することが可能となる。そこで個々の文
脈に適合する索引語抽出を行うことで、漏れが無くかつ
不要語の混入が少ない索引語抽出を行うものである。
【0018】しかし、同一の索引語が複数の文脈から抽
出されてしまうことがあり、結果として索引の品質が低
下する可能性がある。これに対する対策として、文脈毎
に索引語候補の絞り込みルールを人間が作成しておき、
索引語候補とその参照先の絞り込みを行うことで、利用
しやすい索引の生成を行う。
【0019】また、索引を利用しやすくするために量的
な制限(索引語数や索引語数と文書内の全語数の比率
等)を加える場合には、索引語抽出に利用した文脈に
は人間がランキング(点数)情報を付加しておき、索
引語絞り込みルールには人間がランキング(点数)情報
を付加しておき、索引語そのものについてはその統計
情報からランキング(点数)を自動的に計算する。この
3つのランキング情報を総合したランキング付け(重み
付け)を行うことで、さらに利用しやすい索引を生成す
るために絞り込みを行うものである。
【0020】以下、図面に基づいて本発明の実施の形態
について説明する。
【0021】(1):索引語抽出ルールを文脈毎に用意
する場合の説明 図2は索引語抽出ルールを文脈毎に用意する場合の説明
図である。図2において、索引生成装置には、構造化文
書(原文)格納部1、論理構造規定文書格納部2、構造
化文書受付部3、文脈解析部4、文脈毎の索引語抽出ル
ール格納部5、索引語抽出部6、索引格納部7が設けて
ある。
【0022】構造化文書格納部1は、文書の内容を表す
部分と共に文書の論理構造を示す部分が同一文書内に埋
め込まれている文書を格納するものである。例えば、構
造化文書としてSGML(Standard Generalized Marku
p Language)では、論理構造はタグで表現されている。
これは、XML(eXtensible Markup Language)やHT
ML(Hyper Text Markup Language)でも同じである。
また、ワードプロセッサ等では論理構造は、特定のバイ
ナリコードで記述されている。
【0023】論理構造規定文書格納部2は、構造化文書
の論理構造を規定する文書が別のファイルになっている
場合に格納するものである。SGMLの論理構造を規定
する文書(文書型定義)の例は、以下のものである。
【0024】 <!DOCTYPE memo [ <!ELEMENT memo −−(P+) > <!ELEMENT P −−(#PCDATA) > ]> 上記文書型定義を説明すると、ドキュメントタイプとし
て「memo」をこれから定義する。「memo」という要素
は、開始タグも終了タグも省略してはいけない。「P」
は1回以上持つことができる。エレメント「P」は普通
の文字列である。これで終わる。
【0025】上記文書型定義の例によるSGML(構造
化文書)の例は以下のものである。
【0026】 <memo> <P >メモランダム</P> <P >メモのサンプルです。</P> </memo > 構造化文書受付部3は、論理構造と文書の内容を弁別す
る機能を持つ部分である。構造化文書としてSGML
(XML、HTMLでも同じ)を使用している場合に
は、論理構造は、タグで表現されるから、タグと内容を
分離してそれぞれにマークを付加して独立した行として
出力することで、構造化文書受付部3を実現することが
できる。このような機能を持つものとして、オープンソ
ースのソフトウェアとして配付されているSGMLパー
サ(例えば、ジェイムス・クラークのnsgmls)を
利用することができる。
【0027】SGMLパーサによるタグと内容の分離例
は、以下のようにタグと「−」の次の内容に分離するも
のである。
【0028】 <H1>これが見出し</H1 > ↓・・・・・・(SGMLパーサによる分離) (H1 −これが見出し )H1 また、ワードプロセッサ等で使用されているバイナリコ
ードによって、文書の構造を記述してある構造化文書の
場合には、バイナリコードを解釈して構造化文書受付部
3に続く文脈解析部4で解釈できる形態に変換すること
で構造化文書受付部3を実現することができる。
【0029】文脈解析部4は、構造化文書受付部3の出
力を入力として、論理構造の出現順序によって表現され
ている論理構造の出現順序から文脈を解析し、その文脈
に適合する索引語抽出のルールと文書内容を組にして出
力するものである。
【0030】文脈毎の索引語抽出ルール格納部5は、例
えば、「章」の見出しであれば、一番長い名詞句を抽出
する等の文脈毎の索引語抽出ルールを格納するものであ
る。
【0031】索引語抽出部6は、文脈解析部4の出力を
入力として、文書内容と組になっている索引語抽出ルー
ルを文書内容に適用して索引語を抽出し、索引語と文脈
を組にして出力するものである。なお、索引語抽出ルー
ルに基づいて索引語を抽出する方法は、以下の参考文献
を含めて多くの研究がなされている。
【0032】・木本 晴夫:「日本語新聞記事からのキ
ーワード自動抽出と重要度評価」、電子情報通信学会論
文誌D−1 J74-D-I No.8 pp.556-566 ・小川 泰嗣 他:「複合語キーワードの自動抽出」、
自然言語処理97-15(1993) ・水野 聡 他:「日本語キーワードの自動抽出手
法」、自然言語処理91-6(1992) 索引格納部7は、索引語抽出部6で抽出した索引語を格
納するものである。
【0033】(動作説明)文書の内容を表す部分ととも
に文書の論理構造を示す部分(SGML、XML、HT
MLではタグで示され、ワードプロセッサ等では特定の
バイナリコードで記述されている)が同一文書内に埋め
込まれているような構造化文書に対して索引語生成を行
うため、索引語抽出部6を保有する索引生成装置におい
て、構造化文書受付部3で、構造化文書を読み取り、内
容部分と構造部分を弁別する。
【0034】文脈解析部4で、構造化文書受付部3の出
力を入力として、論理構造の出現順序によって表現され
ている論理構造の出現順序から文脈を解析し、その文脈
に適合する文脈毎の索引語抽出ルール格納部5からの索
引語抽出のルールと文書内容を組にして出力する。
【0035】索引語抽出部6で、文脈解析部4の出力を
入力として、文書内容と組になっている索引語抽出ルー
ルを文書内容に適用して索引語を抽出し、索引語と文脈
を組にして索引格納部7に出力する。
【0036】(2):索引語絞り込みルールを文脈毎に
用意する場合の説明 図3は索引語絞り込みルールを文脈毎に用意する場合の
説明図である。図3において、索引生成装置には、構造
化文書(原文)格納部1、論理構造規定文書格納部2、
構造化文書受付部3、文脈解析部4、文脈毎の索引語抽
出ルール格納部5、索引語抽出部6、索引格納部7、索
引語絞り込み部8、索引語絞り込みルール格納部9が設
けてある。
【0037】構造化文書格納部1は、文書の内容を表す
部分と共に文書の論理構造を示す部分が同一文書内に埋
め込まれている文書を格納するものである。論理構造規
定文書格納部2は、構造化文書の論理構造を規定する文
書が別のファイルになっている場合に格納するものであ
る。構造化文書受付部3は、論理構造と文書の内容を弁
別する機能を持つ部分である。文脈解析部4は、構造化
文書受付部3の出力を入力として、論理構造の出現順序
によって表現されている論理構造の出現順序から文脈を
解析し、その文脈に適合する索引語抽出のルールと文書
内容を組にして出力するものである。
【0038】文脈毎の索引語抽出ルール格納部5は、例
えば、「章」の見出しであれば、一番長い名詞句を抽出
する等の文脈毎の索引語抽出ルールを格納するものであ
る。索引語抽出部6は、文脈解析部4の出力を入力とし
て、文書内容と組になっている索引語抽出ルールを文書
内容に適用して索引語を抽出し、索引語と文脈を組にし
て出力するものである。索引格納部7は、索引語絞り込
み部(文脈毎)8で絞り込んだ索引語を格納するもので
ある。
【0039】索引語絞り込み部(文脈毎)8は、不要な
索引語(不要語)を除去するものである。索引語絞り込
みルール格納部9は、索引語絞り込み部8で索引語を絞
り込む際のルールを格納するものである。
【0040】(動作説明)文書の内容を表す部分ととも
に文書の論理構造を示す部分(SGML、XML、HT
MLではタグで示され、ワードプロセッサ等では特定の
バイナリコードで記述されている)が同一文書内に埋め
込まれているような構造化文書に対して索引語生成を行
うため、索引語抽出部6を保有する索引生成装置におい
て、構造化文書受付部3で、構造化文書を読み取り、内
容部分と構造部分を弁別する。文脈解析部4で、構造化
文書受付部3の出力を入力として、論理構造の出現順序
によって表現されている論理構造の出現順序から文脈を
解析し、その文脈に適合する文脈毎の索引語抽出ルール
格納部5からの索引語抽出のルールと文書内容を組にし
て出力する。索引語抽出部6で、文脈解析部4の出力を
入力として、文書内容と組になっている索引語抽出ルー
ルを文書内容に適用して索引語を抽出し、索引語絞り込
み部8で、索引語抽出部6の出力中に索引語の重複が有
るか無いかをチェックする。このチェックで重複があっ
た場合には、索引語と組になっている文脈を利用して、
前もって用意されたその文脈に適合する索引語絞り込み
ルール格納部9の索引語絞り込みルールとその重要度
(重み情報により判断する)を適用して不要語の除去が
行われる。なお、このとき重複のある索引語であっても
ルールによっては不要語が発生しない場合もある。次
に、索引語絞り込みを行った索引語と文脈を組にして索
引格納部7に出力する。
【0041】(不要語除去の具体的手順の説明) :索引語絞り込み部8は、索引語抽出部6からの出力
で得られる索引語と文脈の組から1つ選んで、索引語を
比較対象として内部に記憶させる。また、文脈に適合す
る索引語絞り込みルール(例えば、最長の名詞句は必ず
残す)を選び、これも記憶させる。さらに、索引語絞り
込みルール毎に付加されている重み(例えば、点数)も
別に記憶させる。
【0042】:索引語絞り込み部8は、他の索引語と
文脈の組を選び、その索引語を比較対象と比較する。こ
の比較で、同一であれば、組になっている文脈から索引
語絞り込みルールを選び適用する(例えば、どちらかを
捨てる)。また、比較対象となっている上記で選んだ
比較対象である索引語についても、やはり上記で選ん
だ索引語絞り込みルールを適応する。不要語とみなされ
た場合には索引語と文脈の組に削除マークを付ける(削
除マークを付けるのは削除マークが付いたものも含めて
比較するためである)。
【0043】:上記を上記で選んだ索引語と文脈
とは異なる全ての索引語と文脈の組に対して適用する。
【0044】:上記を全ての索引語と文脈の組に対
して適用する。
【0045】:削除マークの付いた索引語と文脈との
組を削除する。
【0046】この不要語除去の終わったところで、削除
されなかった索引語と文脈との組にさらに索引語絞り込
みルールの重み(例えば、点数)を付け加えて組にして
出力する。
【0047】例えば、前記の 「<H1>これが見出し<
/H1 >」をSGMLパーサによる分離した例である下記
の場合、 (H1 −これが見出し )H1 不要語除去の終わったところで、索引語絞り込み部8か
ら次のように出力される。
【0048】 「章の見出し部:これが見出し:最長の名詞句:5点」 ↑ ↑ ↑ ↑ (文脈) (内容) (ルール) (点数) (3):索引語絞り込みに統計情報を用いる場合の説明 図4は索引語絞り込みに統計情報を用いる場合の説明図
である。図4において、索引生成装置には、構造化文書
(原文)格納部1、論理構造規定文書格納部2、構造化
文書受付部3、文脈解析部4、文脈毎の索引語抽出ルー
ル格納部5、索引語抽出部6、索引格納部7、索引語絞
り込み部(文脈毎)8、索引語絞り込みルール格納部
9、統計情報抽出部10、索引数決定部11、索引語統
計情報抽出部12、重要度計算部13、索引語絞り込み
部(文書全域)14が設けてある。
【0049】構造化文書格納部1は、文書の内容を表す
部分と共に文書の論理構造を示す部分が同一文書内に埋
め込まれている文書を格納するものである。論理構造規
定文書格納部2は、構造化文書の論理構造を規定する文
書が別のファイルになっている場合に格納するものであ
る。構造化文書受付部3は、論理構造と文書の内容を弁
別する機能を持つ部分である。文脈解析部4は、構造化
文書受付部3の出力を入力として、論理構造の出現順序
によって表現されている論理構造の出現順序から文脈を
解析し、その文脈に適合する索引語抽出のルールと文書
内容を組にして出力するものである。
【0050】文脈毎の索引語抽出ルール格納部5は、例
えば、「章」の見出しであれば、一番長い名詞句を抽出
する等の文脈毎の索引語抽出ルールを格納するものであ
る。索引語抽出部6は、文脈解析部4の出力を入力とし
て、文書内容と組になっている索引語抽出ルールを文書
内容に適用して索引語を抽出し、索引語と文脈を組にし
て出力するものである。索引格納部7は、索引語絞り込
み部(文書全域)14で絞り込んだ索引語を格納するも
のである。索引語絞り込み部(文脈毎)8は、不要な索
引語(不要語)を除去するものである。索引語絞り込み
ルール格納部9は、索引語絞り込み部8で索引語を絞り
込む際のルールを格納するものである。
【0051】統計情報抽出部10は、構造化文書受付部
3の作成する論理構造出現順序と内容の組から内容部分
を取り出し、統計情報(単純な例としては、文字数や語
数)を抽出するものである。
【0052】索引数決定部11は、統計情報抽出部10
からの統計情報から、索引語の上限を決定するものであ
る。決定方法としては、100文字/1索引で端数は切
り捨てる等が考えられる。これは、語数に基づいて決定
してもよいし、要求される索引に応じて索引数と文字数
・語数を変えることができる。
【0053】索引語統計情報抽出部12は、索引語絞り
込み部(文脈毎)8で作成された索引語と文脈の組から
索引語を読み込み、索引語の統計情報を抽出する。この
統計情報としては、例えば、出現頻度や索引語を構成す
る名詞の出現頻度の和、さらには索引語の文字長などが
ある。
【0054】重要度計算部13は、索引語自体の重みを
索引語の統計情報から計算し、索引語と組になっている
文脈毎の絞り込みルールの重みと、文脈自身の重みから
総合的な重みを計算する。文脈自身の重みは、文脈毎の
索引語絞り込みルールと同様に別に与えられている。ま
た、総合的な重みの計算方法としては、これら3つの総
和や総積、あるいは2乗和などが考えられる。
【0055】索引語絞り込み部(文書全域)14は、こ
の総合した重みによって、索引語と論理構造出現順序の
組を順序付け、上位から索引語数の上限個数の索引語ま
で残し、残りを除去するものである。
【0056】(動作説明)文書の内容を表す部分ととも
に文書の論理構造を示す部分(SGML、XML、HT
MLではタグで示され、ワードプロセッサ等では特定の
バイナリコードで記述されている)が同一文書内に埋め
込まれているような構造化文書に対して索引語生成を行
うため、索引語抽出部6を保有する索引生成装置におい
て、構造化文書受付部3で、構造化文書を読み取り、内
容部分と構造部分を弁別する。文脈解析部4で、構造化
文書受付部3の出力を入力として、論理構造の出現順序
によって表現されている論理構造の出現順序から文脈を
解析し、その文脈に適合する文脈毎の索引語抽出ルール
格納部5からの索引語抽出のルールと文書内容を組にし
て出力する。索引語抽出部6で、文脈解析部4の出力を
入力として、文書内容と組になっている索引語抽出ルー
ルを文書内容に適用して索引語を抽出し、索引語絞り込
み部(文脈毎)8で、索引語抽出部6の出力中に索引語
の重複が有るか無いかをチェックする。このチェックで
重複があった場合には、索引語と組になっている文脈を
利用して、前もって用意されたその文脈に適合する索引
語絞り込みルール格納部9の索引語絞り込みルールと重
要度を適用して不要語の除去を行い、除去されなかった
索引語と文脈との組にさらに索引語絞り込みルールの重
みを付け加えて組にして出力する。
【0057】また、統計情報抽出部10で、構造化文書
受付部3の出力を入力として文書全体の統計情報(文字
数や語数等)を計算し、索引数決定部11で、統計情報
抽出部10からの出力を入力として索引語の個数の上限
を決定する。
【0058】さらに、索引語統計情報抽出部12で、索
引語絞り込み部(文脈毎)8で作成された索引語と文脈
の組から索引語を読み込み、索引語の出現頻度等の統計
情報を抽出する。
【0059】重要度計算部13で、索引語自体の重み
を索引語統計情報抽出部12からの索引語の統計情報か
ら計算し、索引語絞り込み部(文脈毎)8からの索引語
と組になっている文脈毎の絞り込みルールの重みと、
文脈自身の重みとから総合的な重み(例えば総和、
++)を計算する。
【0060】索引語絞り込み部(文書全域)14で、こ
の重要度計算部13の出力と、索引数決定部11の出力
を入力として、総合的な重みの上位から索引語数の上限
個数の索引語まで残し、不要語の除去を文書全体(文書
全域)で行う。
【0061】(4):構造化文書内に索引を生成する場
合の説明 図5は構造化文書内に索引を生成する場合の説明図であ
る。図5において、索引生成装置には、構造化文書(原
文)格納部1、論理構造規定文書格納部2、構造化文書
受付部3、文脈解析部4、文脈毎の索引語抽出ルール格
納部5、索引語抽出部6、索引付構造化文書格納部7
a、索引語絞り込み部(文脈毎)8、索引語絞り込みル
ール格納部9、統計情報抽出部10、索引数決定部1
1、索引語統計情報抽出部12、重要度計算部13、索
引語絞り込み部(文書全域)14、被参照情報生成部1
5、索引生成部16、文脈毎の被参照情報作成ルール格
納部17が設けてある。
【0062】構造化文書格納部1は、文書の内容を表す
部分と共に文書の論理構造を示す部分が同一文書内に埋
め込まれている文書を格納するものである。論理構造規
定文書格納部2は、構造化文書の論理構造を規定する文
書が別のファイルになっている場合に格納するものであ
る。構造化文書受付部3は、論理構造と文書の内容を弁
別する機能を持つ部分である。文脈解析部4は、構造化
文書受付部3の出力を入力として、論理構造の出現順序
によって表現されている論理構造の出現順序から文脈を
解析し、その文脈に適合する索引語抽出のルールと文書
内容を組にして出力するものである。
【0063】文脈毎の索引語抽出ルール格納部5は、例
えば、「章」の見出しであれば、一番長い名詞句を抽出
する等の文脈毎の索引語抽出ルールを格納するものであ
る。索引語抽出部6は、文脈解析部4の出力を入力とし
て、文書内容と組になっている索引語抽出ルールを文書
内容に適用して索引語を抽出し、索引語と文脈を組にし
て出力するものである。索引付構造化文書格納部7a
は、索引生成部16で生成した索引付構造化文書を格納
するものである。索引語絞り込み部(文脈毎)8は、不
要な索引語(不要語)を除去するものである。索引語絞
り込みルール格納部9は、索引語絞り込み部8で索引語
を絞り込む際のルールを格納するものである。
【0064】統計情報抽出部10は、構造化文書受付部
3の作成する論理構造出現順序と内容の組から内容部分
を取り出し、統計情報を抽出するものである。索引数決
定部11は、統計情報抽出部10からの統計情報から、
索引語の上限を決定するものである。
【0065】索引語統計情報抽出部12は、索引語絞り
込み部(文脈毎)8で作成された索引語と文脈の組から
索引語を読み込み、索引語の統計情報を抽出するもので
ある。重要度計算部13は、索引語自体の重みを索引語
の統計情報から計算し、索引語と組になっている文脈毎
の絞り込みルールの重みと、文脈自身の重みから総合的
な重みを計算するものである。索引語絞り込み部(文書
全域)14は、この総合した重みによって、索引語と論
理構造出現順序の組を順序付け、上位から索引語数の上
限個数の索引語まで残し、残りを除去するものである。
【0066】被参照情報生成部15は、索引語と組にな
っている文脈を使って、別に与えられている索引の被参
照情報生成ルールを使って、索引の参照先の決定を行う
と共に、被参照情報を生成して原文に埋め込むと共に、
索引語と被参照情報を組にして出力するものである。
【0067】索引生成部16は、被参照情報から参照用
の情報を生成して索引語と合わせて索引を生成し、原文
に埋め込むものである。
【0068】文脈毎の被参照情報作成ルール格納部17
は、文脈毎の被参照情報の作成ルールを格納するもので
ある。
【0069】(動作説明)文書の内容を表す部分ととも
に文書の論理構造を示す部分(SGML、XML、HT
MLではタグで示され、ワードプロセッサ等では特定の
バイナリコードで記述されている)が同一文書内に埋め
込まれているような構造化文書に対して索引語生成を行
うため、索引語抽出部6を保有する索引生成装置におい
て、構造化文書受付部3で、構造化文書を読み取り、内
容部分と構造部分を弁別する。文脈解析部4で、構造化
文書受付部3の出力を入力として、論理構造の出現順序
によって表現されている論理構造の出現順序から文脈を
解析し、その文脈に適合する文脈毎の索引語抽出ルール
格納部5からの索引語抽出のルールと文書内容を組にし
て出力する。索引語抽出部6で、文脈解析部4の出力を
入力として、文書内容と組になっている索引語抽出ルー
ルを文書内容に適用して索引語を抽出し、索引語絞り込
み部(文脈毎)8で、索引語抽出部6の出力中に索引語
の重複が有るか無いかをチェックする。このチェックで
重複があった場合には、索引語と組になっている文脈を
利用して、前もって用意されたその文脈に適合する索引
語絞り込みルール格納部9の索引語絞り込みルールとそ
の重要度を適用して不要語の除去が行われる。
【0070】また、統計情報抽出部10で、構造化文書
受付部3の出力を入力として文書全体の統計情報(文字
数や語数等)を計算し、索引数決定部11で、統計情報
抽出部10からの出力を入力として索引語の個数の上限
を決定する。
【0071】さらに、索引語統計情報抽出部12で、索
引語絞り込み部(文脈毎)8で作成された索引語と文脈
の組から索引語を読み込み、索引語の出現頻度等の統計
情報を抽出する。
【0072】重要度計算部13で、索引語自体の重み
を索引語統計情報抽出部12からの索引語の統計情報か
ら計算し、索引語絞り込み部(文脈毎)8からの索引語
と組になっている文脈毎の絞り込みルールの重みと、
文脈自身の重みとから総合的な重み(例えば総和、
++)を計算する。
【0073】索引語絞り込み部(文書全域)14で、こ
の重要度計算部13の出力と、索引数決定部11の出力
を入力として、総合的な重みの上位から索引語数の上限
個数の索引語まで残し、不要語の除去を文書全体(文書
全域)で行う。
【0074】被参照情報生成部15で、索引語と組にな
っている文脈を使って、別に与えられている索引の被参
照情報生成ルール(文脈毎の被参照情報作成ルール格納
部17)を使って、索引の参照先の決定を行うと共に、
被参照情報を生成して原文に埋め込むと共に、索引語と
被参照情報を組にして索引生成部16に出力する。
【0075】索引生成部16で、被参照情報から参照用
の情報を生成して索引語と合わせて索引を生成し、原文
(構造化文書格納部1の)に埋め込み索引付構造化文書
格納部7aに出力する。
【0076】(HTMLの具体的な説明) ・原文が次のものとする。
【0077】 <P>これはアンカーのサンプルです。</P> ・被参照情報生成部15で、「アンカー」という名前を
埋め込む場合、次のような被参照情報を作成し原文に埋
め込んだ参照情報を作成する。
【0078】 <P>これは<a name=”アンカー”>アンカー
</a>のサンプルです。</P> ・・・・・・・
(被参照情報) <P><a href=”#アンカー”>ここを</a
>クリックするとアンカーにジャンプします。</P>
・・・・(参照情報) ・索引生成部16で、生成したジャンプ先の索引(アイ
ウエオ・・順に並べた「ア」行部)の例、 《ア》 <a href=”#アンカー”>アンカー</a> (5):プログラムのインストールの説明 構造化文書受付部3、文脈解析部4、索引語抽出部6、
索引語絞り込み部(文脈毎)8、統計情報抽出部10、
索引数決定部11、索引語統計情報抽出部12、重要度
計算部13、索引語絞り込み部(文書全域)14、被参
照情報生成部15、索引生成部16等は、プログラムで
構成でき、主制御部(CPU)が実行するものであり、
主記憶に格納されているものである。これらのプログラ
ムは、一般的な、パーソナルコンピュータ、ワークステ
ーション等のデータ処理装置(コンピュータ)で処理さ
れるものである。このコンピュータは、主制御部、主記
憶、ハードディスク等のファイル装置、表示装置、キー
ボード等の入力手段である入力装置などのハードウェア
で構成されている。
【0079】このコンピュータに、本発明のプログラム
をインストールする。このインストールは、フロッピ
ィ、光磁気ディスク等の可搬型の記録(記憶)媒体に、
これらのプログラムを記憶させておき、コンピュータが
備えている記録媒体に対して、アクセスするためのドラ
イブ装置を介して、或いは、LAN等のネットワークを
介して、コンピュータに設けられたファイル装置にイン
ストールされる。そして、このファイル装置から処理に
必要なプログラムステップを主記憶に読み出し、主制御
部が実行するものである。
【0080】
【発明の効果】以上説明したように、本発明によれば次
のような効果がある。
【0081】(1):文書受付部で、受け付けた構造化
文書を文書の内容部分と構造部分に弁別し、文脈解析部
で、前記弁別した出力から文脈を解析し、その文脈に適
合する索引語抽出ルールを索引語抽出ルール格納部から
取り出して該取り出した索引語抽出ルールと前記文書内
容を組にして出力し、索引語抽出部で、文脈解析部の出
力から前記索引語抽出ルールを前記文書内容に適用して
索引語を抽出して出力するため、索引の見出しとなる索
引語を抽出するための索引語抽出ルールが文脈毎に用意
されていることで、構造化文書においても不要語が少な
い索引生成が可能となる。
【0082】(2):構造化文書を受け付ける文書受付
部で、受け付けた構造化文書を文書の内容部分と構造部
分に弁別し、文脈解析部で、前記弁別した出力から文脈
を解析し、その文脈に適合する索引語抽出ルールを索引
語抽出ルール格納部から取り出し、該取り出した索引語
抽出ルールと前記文書内容を組にして出力し、索引語抽
出部で、前記文脈解析部4の出力から前記索引語抽出ル
ールを前記文書内容に適用して索引語を抽出して出力す
る索引生成方法とするため、構造化文書においても不要
語が少ない索引生成が可能となる。
【0083】(3):構造化文書を受け付ける文書受付
手順と、文脈の解析をする文脈解析手順と、索引語抽出
ルールに基づいて索引語を抽出する索引語抽出手順とを
備え、前記文書受付手順で、受け付けた構造化文書を文
書の内容部分と構造部分に弁別し、前記文脈解析手順
で、前記弁別した出力から文脈を解析し、その文脈に適
合する索引語抽出ルールを索引語抽出ルール格納部から
取り出し、該取り出した索引語抽出ルールと前記文書内
容を組にして出力し、前記索引語抽出手順で、前記文脈
解析手順の出力から前記索引語抽出ルールを前記文書内
容に適用して索引語を抽出して出力するように、コンピ
ュータに実行させるためのプログラムを記録したコンピ
ュータ読み取り可能な記録媒体とするため、この記録媒
体のプログラムをコンピュータにインストールすること
で、構造化文書においても不要語が少ない索引生成が可
能となる索引生成装置を容易に提供することができる。
【図面の簡単な説明】
【図1】本発明の原理説明図である。
【図2】実施の形態における索引語抽出ルールを文脈毎
に用意する場合の説明図である。
【図3】実施の形態における索引語絞り込みルールを文
脈毎に用意する場合の説明図である。
【図4】実施の形態における索引語絞り込みに統計情報
を用いる場合の説明図である。
【図5】実施の形態における構造化文書内に索引を生成
する場合の説明図である。
【符号の説明】
1 構造化文書格納部 3a 文書受付部 4 文脈解析部 5a 索引語抽出ルール格納部 6 索引語抽出部 7 索引格納部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 西野 文人 神奈川県川崎市中原区上小田中4丁目1番 1号 富士通株式会社内 Fターム(参考) 5B075 ND03 NK02 NK31 UU06

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】構造化文書を受け付ける文書受付部と、 文脈の解析をする文脈解析部と、 索引語の抽出ルールを文脈毎に格納する索引語抽出ルー
    ル格納部と、 索引語抽出ルールに基づいて索引語を抽出する索引語抽
    出部とを備え、 前記文書受付部は、受け付けた構造化文書を文書の内容
    部分と構造部分に弁別し、 前記文脈解析部は、前記弁別した出力から文脈を解析
    し、その文脈に適合する索引語抽出ルールを前記索引語
    抽出ルール格納部から取り出し、該取り出した索引語抽
    出ルールと前記文書内容を組にして出力し、 前記索引語抽出部は、前記文脈解析部の出力から前記索
    引語抽出ルールを前記文書内容に適用して索引語を抽出
    して出力することを特徴とした索引生成装置。
  2. 【請求項2】構造化文書を受け付ける文書受付部で、受
    け付けた構造化文書を文書の内容部分と構造部分に弁別
    し、 文脈解析部で、前記弁別した出力から文脈を解析し、そ
    の文脈に適合する索引語抽出ルールを索引語抽出ルール
    格納部から取り出し、該取り出した索引語抽出ルールと
    前記文書内容を組にして出力し、 索引語抽出部で、前記文脈解析部の出力から前記索引語
    抽出ルールを前記文書内容に適用して索引語を抽出して
    出力することを特徴とした索引生成方法。
  3. 【請求項3】構造化文書を受け付ける文書受付手順と、 文脈の解析をする文脈解析手順と、 索引語抽出ルールに基づいて索引語を抽出する索引語抽
    出手順とを備え、 前記文書受付手順で、受け付けた構造化文書を文書の内
    容部分と構造部分に弁別し、 前記文脈解析手順で、前記弁別した出力から文脈を解析
    し、その文脈に適合する索引語抽出ルールを索引語抽出
    ルール格納部から取り出し、該取り出した索引語抽出ル
    ールと前記文書内容を組にして出力し、 前記索引語抽出手順で、前記文脈解析手順の出力から前
    記索引語抽出ルールを前記文書内容に適用して索引語を
    抽出して出力するように、 コンピュータに実行させるためのプログラムを記録した
    コンピュータ読み取り可能な記録媒体。
JP11211604A 1999-07-27 1999-07-27 索引生成装置及び方法及び記録媒体 Pending JP2001034638A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11211604A JP2001034638A (ja) 1999-07-27 1999-07-27 索引生成装置及び方法及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11211604A JP2001034638A (ja) 1999-07-27 1999-07-27 索引生成装置及び方法及び記録媒体

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2006159602A Division JP2006260601A (ja) 2006-06-08 2006-06-08 索引生成装置及び方法及び記録媒体

Publications (1)

Publication Number Publication Date
JP2001034638A true JP2001034638A (ja) 2001-02-09

Family

ID=16608526

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11211604A Pending JP2001034638A (ja) 1999-07-27 1999-07-27 索引生成装置及び方法及び記録媒体

Country Status (1)

Country Link
JP (1) JP2001034638A (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06215049A (ja) * 1993-01-20 1994-08-05 Sharp Corp 文書要約装置
JPH06348756A (ja) * 1993-06-03 1994-12-22 Ricoh Co Ltd 索引作成装置及び索引利用装置
JPH0934905A (ja) * 1995-07-19 1997-02-07 Ricoh Co Ltd キーセンテンス抽出方式及び抄録方式及び文検索方式
JPH09288676A (ja) * 1996-04-19 1997-11-04 Nec Corp 全文インデックス作成装置および全文データベース検索装置
JPH10207911A (ja) * 1996-11-25 1998-08-07 Fuji Xerox Co Ltd 文書検索装置
JPH1166081A (ja) * 1997-08-12 1999-03-09 N T T Data:Kk プロファイル取得システム、情報提供システム、プロファイル取得方法及び媒体

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06215049A (ja) * 1993-01-20 1994-08-05 Sharp Corp 文書要約装置
JPH06348756A (ja) * 1993-06-03 1994-12-22 Ricoh Co Ltd 索引作成装置及び索引利用装置
JPH0934905A (ja) * 1995-07-19 1997-02-07 Ricoh Co Ltd キーセンテンス抽出方式及び抄録方式及び文検索方式
JPH09288676A (ja) * 1996-04-19 1997-11-04 Nec Corp 全文インデックス作成装置および全文データベース検索装置
JPH10207911A (ja) * 1996-11-25 1998-08-07 Fuji Xerox Co Ltd 文書検索装置
JPH1166081A (ja) * 1997-08-12 1999-03-09 N T T Data:Kk プロファイル取得システム、情報提供システム、プロファイル取得方法及び媒体

Similar Documents

Publication Publication Date Title
JP4467791B2 (ja) 情報管理及び検索
US6199103B1 (en) Electronic mail determination method and system and storage medium
US5960383A (en) Extraction of key sections from texts using automatic indexing techniques
US7587420B2 (en) System and method for question answering document retrieval
US8938384B2 (en) Language identification for documents containing multiple languages
JP7100747B2 (ja) 学習データ生成方法および装置
JP5216063B2 (ja) 未登録語のカテゴリを決定する方法と装置
KR102088357B1 (ko) 기계독해기반 질의응답방법 및 기기
JP4534666B2 (ja) テキスト文検索装置及びテキスト文検索プログラム
Weerasinghe et al. Feature Vector Difference based Authorship Verification for Open-World Settings.
JP4979637B2 (ja) 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム
JP5447368B2 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
JP2013222418A (ja) パッセージ分割方法、装置、及びプログラム
JPH10254900A (ja) 自動文書要約装置及び方法
JP2003108571A (ja) 文書要約装置、文書要約装置の制御方法、文書要約装置の制御プログラムおよび記録媒体
JP2001034638A (ja) 索引生成装置及び方法及び記録媒体
JPH11143902A (ja) n−gramを用いた類似文書検索方法
JP7131130B2 (ja) 分類方法、装置、及びプログラム
JP4934115B2 (ja) キーワード抽出装置、方法及びプログラム
JP2006260601A (ja) 索引生成装置及び方法及び記録媒体
JP4985096B2 (ja) 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム
JP2006190072A (ja) 自動換言装置、自動換言方法及び換言処理プログラム
JP5761033B2 (ja) 文書分析装置、文書分析方法、およびプログラム
JP2002099573A (ja) 類似文書検索装置、類似文書検索方法及び記録媒体
JP3939264B2 (ja) 形態素解析装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050816

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051013

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060110

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060313

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060509

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080728

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20080728

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080728