JP2005222480A

JP2005222480A - 重要語抽出装置、重要語抽出方法、および重要語抽出プログラム

Info

Publication number: JP2005222480A
Application number: JP2004032347A
Authority: JP
Inventors: Kohaku Morita; 幸伯森田; Miki Sasaki; 美樹佐々木
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2004-02-09
Filing date: 2004-02-09
Publication date: 2005-08-18

Abstract

【課題】重要語句の抽出に関して、効率と品質を高める。
【解決手段】多数の語句を含む文書から、その文書の内容を良好に表現する語句である重要語句を抽出する重要語抽出装置であって、連想度算出部と、候補語句選定部と、候補語句のあいだの連想度が所定の連想度閾値以上となる候補語句の集合を生成する集合生成部と、集合に含まれる各候補語句のうち１つを処理対象候補語句として選び、文書上における処理対象候補語句に対する位置が第１の定義距離内にあって、なおかつ集合に含まれる候補語句の数に応じた重要度を算出し、その重要度が所定の重要度閾値以上となるか否かを判定する重要性判定部とを備え、重要性判定部により重要度が重要度閾値以上であると判定された処理対象候補語句を、重要語句と決定する。
【選択図】図１

Description

本発明は重要語抽出装置、重要語抽出方法、および重要語抽出プログラムに関し、例えば、ある文書のなかからその文書の内容を適切に示す単語など（重要語句）を抽出する場合などに適用して好適なものである。

従来、重要語句（重要語）とされる語句の抽出に関連する技術として、下記の非特許文献１および２に示すものがある。

このうち非特許文献１に記載されているのは、いわゆるＴＦ*ＩＤＦ法と呼ばれる技術である。

ＴＦ*ＩＤＦ法では、文書集合内の文書のなかから該文書の重要語句を推定するために、文書内での各語句の頻度（文書内語句頻度：ＴｅｒｍＦｒｅｑｕｅｎｃｙ）を計算し、各語句が出現する文書数（文書頻度：ＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ）との比較において重要度を推定する。ここで、当該重要度は各語句の重要さの度合いを示す指標であり、次の式（１）によって与えられる。

この式（１）において、ｋは単語を示し、ＴＦｋは当該単語ｋの前記文書内語句頻度を示し、ＤＦｋは当該単語ｋの前記文書頻度を示し、Ｎは文書集合内の文書数を示す。

式（１）からも明らかなように、ＴＦ*ＩＤＦ法では、重要語句を、特定の文書内に特徴的に出現するものととらえ、特定文書に出現し、かつ、どの文書に．も出現する一般的な語句ではないものを優先的に重要語句と推定することができる。

一方、前記非特許文献２では、特許明細書などの文書においてみられる特徴的な表現（特徴的表現）の機能に着目し、特徴的表現を利用して重要語句の推定を行う。
望月、岩山、奥村：「抄録を利用した検索」，言語処理学会第４回年次大会ワークショップ論文集，ｐｐ．２２−２９．１９９８．原，木谷，江里口：「特徴的表現を利用した特許抄録作成方法の検討」，情報処理学会自然言語処理研究会ＮＬ１００−１４．１９９４．

ところが、上述したＴＦ*ＩＤＦ法では、例えば「情報」や「検索」など一般的に用いられる単語が、その文書の内容を示す上で重要な語句であっても、これらの単語はどの文書にも出現する傾向の強い一般的な単語であるため、前記式（１）で算出される重要度が小さくなり、重要語とは推定されない可能性が高い。

しかも、誤字を含む単語や非常に特殊な用語（特殊な単語）などを重要語としてしまう可能性が高い。特殊な単語はよいとしても、誤字を含む単語などは、誤字のために誤って重要語句と判定された可能性が高いため、その文書の内容を適切に示す語句でないのは明らかである。また、特殊な単語は、その文書の内容を示す単語ではあっても、過度に特殊すぎるため、分類に利用するには適さないことが多い。予め決められたいずれの分類にその文書を振り分けるべきかをその単語に基づいて自然言語処理で決定することが難しいからである。

したがって、非特許文献１の技術を利用して自然言語処理で重要語句を抽出することは、効率が低く、本来、抽出するべきではない誤字を含む単語などを抽出してしまう点で、抽出結果の品質が低い。

なお、分類に利用するには、その文書の内容を特徴的に表現しつつも、ある程度の一般性を有する単語であることが求められる。

一方、前記非特許文献２では、特徴的表現が用いられなかった場合には重要語句の推定を行うことができないという問題がある。

この特徴的表現の例としては、特許明細書や特許請求の範囲などで用いられることのある「具備」という単語を挙げることができる。

周知のように、「具備」は本来、一般的な単語であるが、いくらか古風なニュアンスもあり、現在では通常の文書（例えば、新聞の記事や小説など）において使われることはほとんどない。特許明細書や特許請求の範囲でも、必ず使われるというわけではないが、書き手によっては請求項の記載などで多用する。例えば、特許請求の範囲中の請求項の記載において「…を具備することを特徴とする〜」などの表現で使われた場合、「具備」の前には重要語句（この場合、発明の必須の構成要件）が高密度で配置されている可能性が高い。

しかしその請求項の書き手が「具備」という単語を用いずに請求項を記載している場合には、「具備」を手掛かりとして重要語句を推定することは不可能となってしまう。

このため、非特許文献２の技術を利用して自然言語処理で重要語句を抽出することは、効率が低いといえる。

かかる課題を解決するために、第１の本発明は、多数の語句を含む文書から、その文書の内容を良好に表現する語句である重要語句を抽出する重要語抽出装置であって、（１）語句のあいだの関連性の強さを示す連想度を算出する連想度算出部と、（２）前記文書中の複数の語句から、前記重要語句の候補となる候補語句を選定する候補語句選定部と、（３）前記候補語句のあいだの連想度を、前記連想度算出部に算出させ、その算出結果が所定の連想度閾値以上となる候補語句の集合を生成する集合生成部と、（４）当該集合に含まれる各候補語句のうち１つを処理対象候補語句として選び、前記文書上における当該処理対象候補語句に対する位置が第１の定義距離内にあって、なおかつ当該集合に含まれる候補語句の数に応じた重要度を算出し、その重要度が所定の重要度閾値以上となるか否かを判定する重要性判定部とを備え、（５）当該重要性判定部により前記重要度が重要度閾値以上であると判定された処理対象候補語句を、前記重要語句と決定することを特徴とする。

また、第２の本発明は、多数の語句を含む文書から、その文書の内容を良好に表現する語句である重要語句を抽出する重要語抽出方法であって、（１）前記文書中の複数の語句から、前記重要語句の候補となる候補語句を選定し、（２）前記候補語句のあいだで、語句間の関連性の強さを示す連想度を算出し、（３）その算出結果が所定の連想度閾値以上となる候補語句の集合を生成し、（４）当該集合に含まれる各候補語句のうち１つを処理対象候補語句として選び、前記文書上における当該処理対象候補語句に対する位置が第１の定義距離内にあって、なおかつ当該集合に含まれる候補語句の数に応じた重要度を算出し、（５）その重要度が所定の重要度閾値以上となるか否かを判定し、（６）当該重要度が重要度閾値以上であると判定された処理対象候補語句を、前記重要語句と決定することを特徴とする。

さらに、第３の本発明は、多数の語句を含む文書から、その文書の内容を良好に表現する語句である重要語句を抽出する重要語抽出プログラムであって、コンピュータに、（１）語句のあいだの関連性の強さを示す連想度を算出する連想度算出機能と、（２）前記文書中の複数の語句から、前記重要語句の候補となる候補語句を選定する候補語句選定機能と、（３）前記候補語句のあいだの連想度を、前記連想度算出機能に算出させ、その算出結果が所定の連想度閾値以上となる候補語句の集合を生成する集合生成機能と、（４）当該集合に含まれる各候補語句のうち１つを処理対象候補語句として選び、前記文書上における当該処理対象候補語句に対する位置が第１の定義距離内にあって、なおかつ当該集合に含まれる候補語句の数に応じた重要度を算出し、その重要度が所定の重要度閾値以上となるか否かを判定する重要性判定機能とを実現させ、（５）当該重要性判定機能により前記重要度が重要度閾値以上であると判定された処理対象候補語句を、前記重要語句と決定することを特徴とする。

本発明によれば、重要語句の抽出効率および品質を高めることができる。

（Ａ）実施形態
以下、本発明にかかる重要語抽出装置、重要語抽出方法、および重要語抽出プログラムを、重要語抽出システムに提供した場合を例に、実施形態について説明する。

（Ａ−１）第１の実施形態の構成
本実施形態にかかる重要語抽出システム１０の全体構成例を図１に示す。

図１において、当該重要語抽出システム１０は、文書格納手段１１と、入力手段１２と、設定値辞書１３と、語句抽出手段１４と、語句辞書１５と、連想度計算手段１６と、連想辞書１７と、重要度計算手段１８と、重要語辞書１９とを備えている。

このうち文書格納手段１１は、１または複数の文書を格納する部分であるが、本実施形態の構成上、当該文書格納手段１１には１つの文書が格納されていれば足りる。ここで、当該文書格納手段１１に格納されている１つの文書（文章）をＤＣ１とする。文書ＤＣ１の種類は限定する必要はないが、ここでは、一例として、当該文書ＤＣ１は日本語で記述された１つの新聞記事であるものとする。

設定値辞書１３は、重要語抽出システム１０内の各構成要素で使用する各種の閾値（例えば、ＴＨ１，ＴＨ２、ＴＨ３、ＴＨ４）、文字種（例えば、ＣＳ１）、後述する共起の定義距離（ＬＨ１）の値などの設定値を格納しておく部分である。ここで、ＴＨ１は連想度に対して適用する連想度閾値であり、ＴＨ２は重要度に対して適用する重要度閾値であり、ＴＨ３は単語頻度に対して適用する単語頻度閾値であり、ＴＨ４は共起頻度に対して適用する共起頻度閾値である。また、文字種ＣＳ１は、文書ＤＣ１から語句の切り出しを行うために利用する切り出し用文字種（区切り文字の文字種）を示す。抽出の対象となる語句としては複合語などを用いてもよいが、ここでは主として単語を想定する。この点は、以下の説明でも同じである。

入力手段１２は、前記文書格納手段１１に格納されている文書ＤＣ１や、当該設定値辞書１３に格納されている各種設定値を、構成要素１４〜１８に供給する部分である。

語句抽出手段１４は、入力手段１２を介して供給を受けた文書ＤＣ１から、重要語句（重要単語）の候補となる文字列を抽出する（切り出す）機能などを装備する部分である。

この抽出では、前記切り出し用文字種ＣＳ１が利用される。当該切り出し用文字種ＣＳ１では様々な文字種を指定することができ、指定する文字種を文書ＤＣ１の種類や１文書中で処理の対象としている範囲などに応じて変更（例えば、ひらがな混じりの漢字によって記述された単語が多用されている文書や範囲などもあり得るため）することも可能であるが、ここでは、ひらがなと記号列を指定し、その指定は変更しないものとする。

具体的な単語の切り出しは、文書ＤＣ１上の文字列を所定の検査方向（この方向は、例えば、通常、人間が文字列を書き進める方向と同じ方向であってよい）に１文字ずつ検査していく過程で切り出し用文字種ＣＳ１で指定された文字種（例えば、ひらがな）に属する文字（区切り文字）が出現したとき、その文字の前に検査した１または複数の文字（例えば、漢字の文字列またはカタカナの文字列など）を抽出することによって行うことができる。この場合、区切り文字自体は、切り出しに利用するだけであり、以降の処理の対象としない。

文書ＤＣ１上における前記検査方向の検査で出現した区切り文字は、出現時点で消去することによって、単語（例えば、漢字の文字列またはカタカナの文字列などからなる単語）の切り出しを行うことができる。この方法は処理が速く未知語に強い。

ただしこの方法では前記文書ＤＣ１は元の内容（例えば、元の文章のうち、ひらがなの部分など）を失うため、もしも元の内容があとで必要となる場合には、コピーを取り、オリジナルの文書は文書格納手段１１に残しておいて、コピー文書に対して以降の処理を実行するようにするとよい。ここでは、切り出しによって内容の変更された文書ＤＣ１をＤＣ１１とする。

前記切り出しのあと、当該語句抽出手段１４は、当該文書ＤＣ１１上に残っている単語のうち１文字の単語は文字種にかかわりなくすべて消去する。この消去のあとに残っている単語が、最終的に抽出された単語となる。

例えば、当初の状態で前記文書ＤＣ１上に、
“中東では九四年の年頭に当たって内戦の終結を掲げた。”
という文が記述されていた場合、切り出し結果と最終的な抽出結果はそれぞれ次のようになる。

切り出し結果→中東／九四年／年頭／当／内戦／終結／掲
抽出結果→「中東」「九四年」「年頭」「内戦」「終結」
なお、ここでは文字種による切出し方法を用いているが、適切な単語が切り出せるのであれば、他の方法を用いてもよい。

単語の抽出結果である文書ＤＣ１１の内容は、語句辞書１５に格納しておくとよい。

前記連想度計算手段１６は、前記語句抽出手段１４で最終的に抽出された前記文書ＤＣ１１上の単語の対（単語対）に関して連想度を算出し、算出した連想度をもとに単語対の集合ＳＴ１を生成する機能などを装備する部分である。生成した単語対集合ＳＴ１は、前記連想辞書１７に格納しておくとよい。当該連想度計算手段１６の内部構成は例えば図１３に示す通りである。

図１３に示すように、当該連想度計算手段１６は、連想度計算部６１と、比較部６２と、単語集合生成部６３とを備えている。

当該連想度計算部６１は単語対を特定し、特定した各単語対について連想度の計算を行う機能などを装備する部分である。

この連想度としては、単語のあいだの関連性の強さ（意味的な近さ）を示すことのできる情報であれば様々な情報を利用することが可能であるが、ここでは共起頻度情報を用いるものとする。

共起とは、ある単語と他の単語が一定の定義距離（ＬＨ１とする）内に同時に出現する状態を指す。定義距離ＬＨ１を規定するには様々な情報を用いることができる。例えば、所定数の文、所定数の段落、所定数の単語、所定数の文字などで定義距離を規定することが可能であるが、ここでは一例として、３語の単語で定義距離を規定するものとする。ただし３語以内の距離であっても、１つの文を越えた場合は、定義距離ＬＨ１外とする。

また、文は、改行や行数などを利用して定義することも可能であるが、ここでは、通常どおり、句点までを１つの文と定義する。

なお、前記定義距離ＬＨ１はオリジナルの文書ＤＣ１上の距離としてもよいが、ここでは、切り出しによって内容が変わったあとの文書ＤＣ１１上の距離であるものとする。この場合、前記語句抽出手段１４において１文中から抽出された単語が１つだけでない限り、すべての単語はいずれかの単語と共起することになる。

当該連想度計算部６１が連想度を算出するために実行する処理の内容は、次の式（２）によって記述することができる。ここでは、単語間の意味的な近さを計算する尺度の１つである相互情報量を利用している。

この式（２）において、Ｎは１つの文書（ここでは、ＤＣ１１）における単語の総のべ数を示し、Ｆｗは１つの文書（ここでは、ＤＣ１１）内における単語の出現頻度（単語ｘまたはｙの数（単語頻度））を示し、Ｆｃは１つの文書（ここでは、ＤＣ１１）内における単語対（定義距離ＬＨ１内にある単語の対（単語ｘとｙの対））の出現頻度を示す。当該Ｆｃは、定義距離ＬＨ１内における単語対の共起の頻度を示しており、上述した共起頻度情報に当たる。

式（２）によって与えられる連想度Ａの値が大きいほど、単語対が共起する可能性が高く、単語間の関連性が強い。

共起頻度は一対の単語のあいだに成立する概念であるため、同じ文書ＤＣ１１中の異なる場所（例えば、異なる文）で、前記定義距離ＬＨ１内に同じ単語対が出現するほど、共起頻度（Ｆｃ）の値は大きくなる。式（２）から明らかなように、共起頻度（Ｆｃ）が高いほど、また、単語対を構成する各単語の出現頻度（Ｆｗ）が小さいほど、その単語対に関する連想度Ａの値は大きくなる。

連想度計算部６１はまた、特定した単語対の集合（単語対集合）ＳＴ０を、単語集合生成部６３に供給する。

後述する単語頻度閾値ＴＨ３を用いた処理なども、当該連想度計算部６１の機能によって実行するものであってよい。

前記連想度閾値ＴＨ１の供給を受ける比較部６２は、当該連想度閾値ＴＨ１と連想度計算部６１で算出された連想度Ａとの大小関係を比較し、比較結果ＣＰ１を単語集合生成部６３に供給する部分である。連想度Ａの値が当該連想度閾値ＴＨ１以上である単語対に含まれる単語のみが、最終的に、前記重要単語となる可能性を持つ。

単語集合生成部６３は、前記単語対集合ＳＴ０中の各単語対について、その連想度Ａが前記連想度閾値ＴＨ１以上であることを示す比較結果ＣＰ１が得られるか否かを監視し、そのような比較結果ＣＰ１が得られた単語対のみから構成される集合である前記単語対集合ＳＴ１を生成する部分である。単語対集合ＳＴ１は重要度計算手段１８に供給される。

単語対集合ＳＴ１中の各単語対には、共起頻度の情報が対応付けられている。

このように共起頻度情報が対応付けられた単語対集合ＳＴ１を受け取った重要度計算手段１８は、当該単語集合ＳＴ１に含まれる各単語の重要度を算出し、算出した重要度が前記重要度閾値ＴＨ２以上の単語を重要単語として出力する部分である。

このため当該重要度計算手段１８は、単語対集合ＳＴ１中の各単語（例えば、単語ｘ）について、その単語が含まれる１または複数の単語対に関する共起頻度の値を累加算し、累加算の結果をその単語の重要度とする。したがって、重要度の算出のために重要度計算手段１８が実行する処理の内容は次の式（３）で記述することができる。

この式（３）内で用いた単語ｘ、単語ｙ、Ｆｃ（単語ｘ，単語ｙ）の意味は、前記式（２）と同じである。

重要度計算手段１８が重要単語であると判定した１または複数の単語は、文書ＤＣ１を一意に指定できる識別子（例えば、文書ＤＣ１のファイル名など）に対応付けた形式で、重要語辞書１９に格納しておくとよい。

以下、上記のような構成を有する本実施形態の動作について、図２，図１１，図１２のフローチャートを参照しながら説明する。

このうち図２は全体動作を示し、Ｓ１０〜Ｓ１３の各ステップから構成されている。図１１は図２中のステップＳ１１の詳細動作を示すフローチャートであり、Ｓ２０〜Ｓ２３の各ステップから構成されている。図１２は図２中のステップＳ１２の詳細動作を示すフローチャートであり、Ｓ３０〜Ｓ３５の各ステップから構成されている。

（Ａ−２）第１の実施形態の動作
予め、前記連想度閾値ＴＨ１，重要度閾値ＴＨ２，単語頻度閾値ＴＨ３，共起頻度閾値ＴＨ４、切り出し用文字種ＣＳ、定義距離ＬＨ１が、前記設置値辞書１３に格納されいるものとする。ここで、切り出し用文字種ＣＳとして、ひらがなと記号列を指定してあるものとする。

この状態で図２に示すように、重要語抽出システム１０に文書ＤＣ１が入力されると（Ｓ１０）、語句抽出手段１２による単語の切り出しが行われる（Ｓ１１）。

単語の切り出しには様々な方法を用いることが可能であるが、上述したように、文書ＤＣ１を文書ＤＣ１１に変換する方法を用いる場合、その詳細動作は図１１に示す通りである。

図１１において、前記設定値辞書１３から読み出した切り出し用文字種ＣＳを語句抽出手段１４に設定すると（Ｓ２０），語句抽出手段１４は前記検査方向にしたがって文書ＤＣ１上の文字列を１文字ずつ検査していき、切り出し用文字種ＣＳ１で指定された文字種（例えば、ひらがな）に属する文字（区切り文字）が出現するとその文字を消去する（Ｓ２１）。

区切り文字が出現するたびにこの消去を繰り返せば、区切り文字以外の文字（例えば、漢字、カタカナなど）によって記述された単語だけが文書上に残るので、単語の切り出しが行える（Ｓ２２）。次に当該語句抽出手段１４は、残った単語のなかから１文字だけの単語を探索し、探索された場合、文字種にかかわらず消去する（Ｓ２３）。このステップＳ２３が、文書上に残っている全文字列に対して実行された時点で、もとの文書ＤＣ１から前記文書ＤＣ１１への変換が完了する。これは、語句の抽出の完了を意味する。

例えば、文書ＤＣ１の内容が次の文章ＣＴ１であるものとすると、
“……。中東は内戦の終結を掲げた。……。アフリカでは内戦の影響がまだ多く残っている。……。アフリカで被害を受けたのは自然動物である。……。ケニアの国立公園では自然動物が住める環境を取り戻すのに懸命である。……。” …（ＣＴ１）
抽出した結果は次の抽出結果ＣＴ２となる。なお、文章ＣＴ１中で「……」と記述した部分は、文書ＤＣ１上で有効な文字列が存在するが、ここへの掲載を省略した部分である。

「中東」「内戦」「終結」、
「アフリカ」「内戦」「影響」、
「アフリカ」「被害」「自然動物」、
「ケニア」「国立公園」「自然動物」「環境」「懸命」 …（ＣＴ２）
この場合、語句辞書１５には、
「影響」「環境」「懸命」「国立公園」「自然動物」
「終結」「中東」「内戦」「被害」「アフリカ」「ケニア」 …（ＣＴ３）
が格納される。

次に、当該文書ＤＣ１１が語句抽出手段１４から連想度計算手段１６に渡され、図２に示すステップＳ１２が実行される。ステップＳ１２は連想度の計算に関する処理を示し、その詳細は図１２に示す通りである。

図１２において、語句抽出手段１４は文書ＤＣ１１上に残っている各単語について、その数（単語頻度Ｆｗ）を集計する（Ｓ３０）。

単語とその単語の単語頻度を、「単語，頻度」の構造を持つレコード（単語レコード）にまとめると、ステップＳ３０の実行結果ＣＬ１に含まれる各単語レコードは例えば次のようになる。

「影響，５」「環境，２」「懸命，１」「国立公園，１６」「自然動物，１２」
「終結，４」「中東，１０」「内戦，１４」「被害，３」「アフリカ，２０」「ケニア，８」 …（ＣＬ１）
この場合、例えば、「影響」という単語は、文書ＤＣ１１全体に５回出現したことを示している。

このあと語句抽出手段１４は、前記単語頻度閾値ＴＨ３と実行結果ＣＬ１中の各単語の単語頻度を比較し、ＴＨ３以上の頻度を持つ単語のみを前記構造「単語，頻度」の単語レコードにしたがった形式で整理して単語頻度ファイルＦＬ１に格納する。この単語頻度ファイルＦＬ１は、前記連想辞書１７内に格納される。

単語頻度閾値ＴＨ３の値を例えば５とすると、前記実行結果ＣＬ１のうち単語頻度ファイルＦＬ１に格納される単語レコードのみからなる実行結果ＣＬ２は、
「影響，５」「国立公園，１６」「自然動物，１２」
「中東，１０」「内戦，１４」「アフリカ，２０」「ケニア，８」 …（ＣＬ２）
となる。

次に、前記連想度計算手段１６は、上述した共起の関係にある単語対について共起頻度を計算（Ｓ３１）した上で、その単語対と共起頻度を「単語，単語，共起頻度」の構造を持つレコード（共起レコード）にまとめ、その共起レコードを共起頻度ファイルＦＬ２に格納する。共起頻度ファイルＦＬ２の内容は連想辞書１７に格納しておくとよい。このステップＳ３１に関連する一連の処理は連想度計算手段１６のかわりに語句抽出手段１４が実行するものであってもよいことは当然である。

共起の関係を持つのは、相互に前記定義距離ＬＨ１内にある単語であって、なおかつ、１文内にある単語の対に限られるものの、前記単語頻度に関する制約はない。したがって、前記単語頻度ファイルＦＬ１に含まれない単語であっても、文書ＤＣ１１上で共起の関係にある限り、共起頻度ファイルＦＬ２のいずれかの共起レコードに含まれることになる。

ここでは一例として、次の実行結果ＣＬ３に示す各共起レコードが得られたものとする。

「中東，内戦，８」「終結，中東，１」「終結，内戦，２」
「内戦，アフリカ，１０」「影響，アフリカ，１」「影響，内戦，３」
「被害，アフリカ，１」「自然動物，アフリカ，８」「自然動物，被害，２」
「国立公園，ケニア，４」「自然動物，ケニア，６」「環境，ケニア，１」
「国立公園，自然動物，５」「環境，国立公園，１」「懸命，国立公園，１」
「環境，自然動物，１」「懸命，自然動物，１」「環境，懸命，１」 …（ＣＬ３）
この実行結果ＣＬ３は、上述した単語対集合ＳＴ０に対応する。

次に連想度計算手段１６は、実行結果ＣＬ３中の各共起レコードのなかから、共起レコードを１つ選択し（Ｓ３２）、その共起レコードに含まれる２つの単語のそれぞれが、前記単語頻度ファイルＦＬ１に含まれているか否かを検査する（Ｓ３３，Ｓ３４）。単語頻度ファイルＦＬ１に格納される単語は、文書ＤＣ１１上において単語頻度閾値ＴＨ３以上の出現頻度を示した単語であるため、ある単語が単語頻度ファイルＦＬ１に含まれているか否かを検査することは、その単語が単語頻度閾値ＴＨ３以上の出現頻度を示したか否かを検査することに等しい。

このステップＳ３２〜Ｓ３４によって構成されるループが繰り返されることにより、共起頻度ファイルＦＬ２内の全共起レコードが検査される。

共起レコードに含まれる２つの単語のうち、いずれを先に検査してもかまわないので、ステップＳ３３とＳ３４の順番は入れ替え可能である。

ステップＳ３３とＳ３４の検査により、２つの単語がともに単語頻度ファイルＦＬ１に含まれていることが確認された共起レコードのみからなる共起頻度ファイル（最終共起頻度ファイル）ＦＬ３を生成する。そして連想度計算手段１６は、この最終共起頻度ファイルＦＬ３内の各共起レコードに含まれる単語対について、前記式（２）により、連想度を算出する（Ｓ３５）。

このあと、各単語対と、連想度は、「単語，単語，連想度」の構造を持つレコード（連想度レコード）の形にまとめられ、連想度ファイルＦＬ４に格納される。前記総のべ数Ｎを２００とし、単語頻度ファイルＦＬ１の内容として前記実行結果ＣＬ２を、共起頻度ファイルＦＬ１の内容として前記実行結果ＣＬ３を想定すると、各単語対の連想度は、
Ａ（「中東」，「内戦」）＝ｌｏｇ２（２００×（８／（１０×１４）））＝３．５１
Ａ（「内戦」，「アフリカ」）＝ｌｏｇ２（２００×（１０／（１４×２０）））＝２．８３
Ａ（「自然動物」，「アフリカ」）＝ｌｏｇ２（２００×（８／（１２×２０）））＝２．７４
Ａ（「自然動物」，「ケニア」）＝ｌｏｇ２（２００×（６／（１２×８）））＝３．６４
Ａ（「国立公園」，「自然動物」）＝ｌｏｇ２（２００×（５／（１６×１２）））＝２．３８
となる。

このうち連想度が連想度閾値ＴＨ１以上の単語対の連想度レコードのみが最終的な連想度ファイル（最終連想度ファイル）ＦＬ５に格納される。連想度閾値ＴＨ１の値を２．５とすると、「国立公園」と「自然動物」の単語対の連想度は当該連想度閾値ＴＨ１未満であるため、これらの単語対のうち連想度が連想度閾値ＴＨ１以上の単語対の連想度レコード群、すなわち最終連想度ファイルＦＬ５の内容は、
「自然動物，アフリカ，２．７４」「自然動物，ケニア，３．６４」「中東，内戦，３．５１」「内戦，アフリカ，２．８３」 …（ＣＴ４）
となる。当該最終連想度ファイルＦＬ５は、上述した単語対集合ＳＴ１に対応する。

この最終連想度ファイルＦＬ１５の内容が決まると、図２のステップＳ１２の処理が終了する。

次に重要度計算手段１８が、当該最終連想度ファイルＦＬ５内の各連想度レコードに含まれる単語について重要度を計算する。ここで、重要度としては前記式（３）にしたがい共起頻度を累加算した結果を用いる。

最終連想度ファイルＦＬ５の内容が前記ＣＴ４であり、共起頻度ファイルＦＬ２の内容が前記実行結果ＣＬ４であるものとすると、各単語（単語ｘ）の重要度は次の実行結果ＣＬ５に示すようになる。

単語ｘ：Ｌｘ（ただし、括弧内は共起頻度）：重要度
「アフリカ」：「内戦」（１０）「自然動物」（８）：１８
「自然動物」：「ケニア」(６)、「アフリカ」(８) ：１４
「中東」：「内戦」(８) ：８
「内戦」：「中東」（８）：８
「ケニア」：「自然動物」(６) ：６
ここで上述した重要度閾値ＴＨ２の値が１０であるものとすると、実行結果ＣＬ５中、重要度が１８の単語である「アフリカ」と、重要度が１４の単語である「自然動物」が、前記文書ＤＣ１に対する重要単語として選ばれることになる。

実行結果ＣＬ２に示したように、「内戦」の単語頻度は１４で「自然動物」の単語頻度である１２よりも高い。本実施形態の重要語抽出システム１０において最終的にどの単語が重要単語として選ばれるかは、重要度閾値ＴＨ２の値をどのように設定するか等の条件にも依存するが、前記文章ＣＴ１は（内戦の影響を受けた）アフリカの自然の話であり、重要単語として「内戦」より「自然動物」が選ばれる傾向が強いのはよい結果であるといえる。

また、「アフリカ」と「自然動物」に限らず、実行結果ＣＬ５に示した単語はすべて、文書ＤＣ１の内容を特徴的に表現しつつも、ある程度の一般性を有する単語であるといえる。このような単語は、自然言語処理による文書（例えば、ＤＣ１）の分類に利用するのに適している。

なお、本実施形態では、重要単語の推定には、対象となる１つの文書ＤＣ１のみ存在すればよく、例えば上述したＴＦ*ＩＤＦ法のように、比較する対象となる文書集合や、検索語などを別に入力する必要はない。この事は、文書が増加しても（言い換えると文書の全体集合が変化しても）、各単語に関する重要度の計算結果が変わらないことを意味しており、他の文書に依存せず、その文書ＤＣ１の内容のみによって決まる絶対的な重要単語の選定を行うことができる。

したがって、文書ＤＣ１と何らかの関係を持つある文書が別な文書と置き換わったとしても、文書ＤＣ１の重要単語は変更する必要がなく、重要単語の推定は一度おこなえば足りる。

（Ａ−３）第１の実施形態の効果
本実施形態によれば、単純な頻度ではなく、ある文書（ＤＣ１）内で特定の単語と何度も共起する単語を重要単語とするため、重要単語の抽出効率が高く、抽出結果の品質も高い。

また、本実施形態では、単語対集合（ＳＴ０）のなかの各単語対のうち連想度が連想度閾値（ＴＨ１）以上となる単語対から単語対集合（ＳＴ１）を生成し、単語対集合（ＳＴ１）内の各単語対に含まれる単語のなかから、重要単語を選ぶため、例えば、使われた方に意味の無い（一般的すぎる）単語は、多くの単語と少しずつ共起して連想度が低くなるため重要単語になりにくい。この性質は、抽出結果の品質向上と抽出効率の向上に寄与する。

さらに本実施形態では、１つの文書（ＤＣ１）の内容のみによって重要単語を決定するため、ＴＦ*ＩＤＦ法を用いる場合のように上述した式（１）の中のＤＦｋの寄与がなくなり、誤字を含む単語などを重要単語として選んでしまう可能性が低い。

誤字を含む単語は、同じものが１つの文書のなかに多数出現し、他の文書にはまったく出現しなケースがあり、このようなケースにおいて、ＴＦ*ＩＤＦ法を適用すると誤って重要単語とされる可能性が高いが、本実施形態ではこれを防止できる。この性質は、本実施形態の抽出結果の品質向上と抽出効率の向上に寄与する。

また、本実施形態によれば、自然言語処理により多数の文書（その１つがＤＣ１）を分類することが容易かつ高品質に行える。

例えば、特許などに関する公報類の検索などでは、検索結果として膨大な数の文書が得られ、そのすべてをパソコンなどの画面上に同時に表示することが困難となることも少なくないが、このようなケースでは、文書本体や予め用意されたその文書の要約などとともに（あるいは、これらに替えて）、本実施形態で抽出したその文書の重要単語を画面上に表示するようにしてもよい。

また、このような検索の要求を受け付ける側では、要求に備えて予めその文書中からキーワードを抽出しておく処理などが必要となる可能性が高いが、その抽出に本実施形態を活用することも有効である。

（Ｂ）第２の実施形態
以下では、本実施形態が第１の実施形態と相違する点についてのみ説明する。

（Ｂ−１）第２の実施形態の構成および動作
本実施形態にかかる重要語抽出システム２０の全体構成例を図３に示す。

図３において、当該重要語抽出システム２０が備える構成要素１１〜２４のうち、図１と同じ符号１１、１２，１３，１４，１５，１６，１７，１８，１９を付与した各構成要素の機能は基本的に第１の実施形態と同じなので、その詳しい説明は省略する。

図３中で、入力手段１１と語句抽出手段１４のあいだに配置された不要語除去手段２１は、構成要素１４，１６，１８が実行する処理の前処理としての不要語除去を実行する部分である。これと対称的に、本実施形態の重要語抽出システム２０内には、重要度計算手段１８のあとに、後処理としての不要語除去を実行する不要語除去手段２３も用意してある。

不要語除去手段２１が実行する前処理としての不要語除去では、構成要素１４，１６，１８が実行する処理で必要でなく、なおかつ、最終的に重要単語として出力されるべきでない単語を不要語とみなして、前記文書ＤＣ１１上から除去する。このような除去を行うことは、構成要素１４，１６，１８が実行する処理について、時間計算量（演算操作の回数）や領域計算量（作業用の記憶領域）を削減することを可能にする。

例えば、前記文書ＤＣ１中に、次の文ＳＣ１があるものとすると、
“大方の常識では考えられない行為に対して厳重な処分が下された。”…（ＳＣ１）
もとの文書ＤＣ１から文書ＤＣ１１への変換が完了したとき、この文ＳＣ１からは、５つの単語「大方」「常識」「行為」「厳重」「処分」が得られる。

また、定義距離ＬＨ１を第１の実施形態より長い４語（文書ＤＣ１１上における４語）と想定するなら、共起関係（共起する単語対）は、１０組となる。重複を避けて記述すると、「大方」が「常識」「行為」「厳重」「処分」のそれぞれと共起し、「常識」が「行為」「厳重」「処分」のそれぞれと共起し、「行為」は「厳重」「処分」のそれぞれと共起し、「厳重」は「処分」と共起することにより、この１０組が得られる。

これらの単語のうち「大方」は、あまりにも一般的すぎて文書ＤＣ１の内容を特徴的に表現する能力をほとんど持たない（したがって最終的な重要単語としては適さない）だけでなく構成要素１４，１６，１８が実行する処理でも必要ではないから、不要語として当該不要語除去手段２１で除去する。

これにより前記文ＳＣ１から得られる共起関係は、「常識」が「行為」「厳重」「処分」のそれぞれと共起し、「行為」は「厳重」「処分」のそれぞれと共起し、「厳重」は「処分」と共起することによる６組だけとなる。

一方、前記不要語除去手段２３が実行する後処理としての不要語除去では、構成要素１４，１６，１８が実行する処理では必要でるものの、最終的に重要単語として出力されるべきでない単語を不要語とみなして、最終的に出力されようとする重要単語のなかから除去する。このような除去を行うことは、最終的に出力される重要単語を、真に、文書ＤＣ１の内容を特徴的に表現するものに制限するため、抽出結果の品質を高めることに寄与する。

なお、本実施形態の場合でも、最終的に出力される重要単語が、文書ＤＣ１の内容を特徴的に表現するだけでなく、ある程度の一般性を有し、自然言語処理による分類などに利用するのに適するものである点は第１の実施形態と同じである。

当該不要語除去手段２３で除去する単語の例としては、上述した「具備」を挙げることができる。上述したように、特許請求の範囲中の請求項の記載において「…を具備することを特徴とする〜」などの表現で使われた場合、「具備」の前には重要語句（重要単語）が高密度で配置され「具備」と共起している可能性が高い。この場合にはまた、「具備」とのあいだで連想度の高い単語は、重要単語として適したものである可能性が高い。

「具備」を、前記不要語除去手段２１による前処理で除去してしまうと、文書ＤＣ１上において「具備」の前などに配置されている単語（重要単語）の抽出の可能性を低減してしまうことになるため、「具備」は適切な重要単語を抽出するための手掛かりとして有用であるといえるが、その反面、「具備」自体は一般的すぎる単語であり、多くの場合、文書ＤＣ１の内容を特徴的に表現するものではないから、前記不要語除去手段２３で除去するものである。

不要語辞書２２は、前記不要語除去手段２１が除去する不要語を格納しており、不要語除去手段２１はこの不要語辞書２２の格納内容を参照することにより、除去すべき単語を認識することができる。例えば、前記「大方」などの単語が当該不要語辞書２２に格納されている。

同様に、不要語辞書２４は、前記不要語除去手段２３が除去する不要語を格納しており、不要語除去手段２３はこの不要語辞書２４の格納内容を参照することにより、除去すべき単語を認識することができる。例えば、前記「具備」などの単語が当該不要語辞書２４に格納されている。

以上の通りであるから、本実施形態の動作は図４に示すフローチャートにまとめることができる。このフローチャートは基本的に図２のフローチャートに対応する。このフローチャートは、Ｓ４０〜Ｓ４５の各ステップを備えているが、そのうちステップＳ４０は図２に示した前記ステップＳ１０に対応し、ステップＳ４１は前記ステップＳ１１に対応し、ステップＳ４３は前記ステップＳ１２に対応し、ステップＳ４４は前記ステップ１３に対応するので、その詳しい説明は省略する。

図４において、ステップＳ４１とＳ４３のあいだのステップＳ４２は、前記不要語除去手段２１が実行する不要語の除去を示しており、ステップＳ４４のあとのステップＳ４４は、前記不要語除去手段２３が実行する不要語の除去を示している。

不要語除去手段２１による不要語の除去について説明するため、前記文書ＤＣ１に次の文章ＣＴ２が含まれているものとする。ここで、「……」は、文書ＤＣ１上で有効な文字列が存在するが、ここへの掲載を省略した部分である。

“……。……、本装置を組み込んだ情報提示装置で検索に広範に利用できるキーワードのリスト等のクエリーに変換する手段を具備したことで、……注目する情報をその中での相対的な位置として提示することを可能としたことを特徴とする情報抽出装置。……。 …（ＣＴ２）
この場合、この文章ＣＴ２の省略外の部分から抽出され、変換後の前記文書ＤＣ１１に含まれる単語群は次のＳＧ１となる。

「本装置」「情報提示装置」「検索」「広範」「利用」
「キーワード」「リスト」「クエリー」「変換」「手段」「具備」「注目」
「情報」「相対的」「位置」「提示」「可能」「特徴」、「情報抽出装置」 …（ＳＧ１）
である。

このうち「広範」を前記不要語辞書２２に格納してあるものとすると、不要語除去手段２１により当該単語群ＳＧ１から当該「広範」が除去され、次の単語群ＳＧ２が文書ＤＣ１１の内容となる。

「本装置」「情報提示装置」「検索」「利用」
「キーワード」「リスト」「クエリー」「変換」「手段」「具備」「注目」
「情報」「相対的」「位置」「提示」「可能」「特徴」、「情報抽出装置」 …（ＳＧ２）
一方、前記重要度計算手段１８による処理の結果として得られた重要度が高い単語とその重要度が次の通りであったものとする。この場合、前記重要度閾値ＴＨ２は１２に設定してあったものとする。
単語重要度
「検索」３２
「情報抽出装置」２０
「具備」１９
「キーワード」１８
「本装置」１７
「クエリー」１４
「情報」１２
ここで、前記不要語辞書２４に、「本装置」「具備」「特徴」が格納されていたものとすると、これらの単語を前記不要語除去手段２３が削除するため、最終的に出力される単語は、「検索」「情報抽出装置」「キーワード」「クエリー」「情報」となる。この５語がこの例における最終的な重要単語である。

（Ｂ−２）第２の実施形態の効果
本実施形態によれば、第１の実施形態の効果と同等な効果を得ることができる。

加えて、本実施形態では、前処理の不要語除去手段（２１）が実行する不要語除去により、時間計算量と領域計算量を削減することが可能となる。これはまた、重要単語として適さない単語が誤って重要単語とされてしまう可能性を低減できるため、抽出結果の品質向上にも寄与する。

さらに、本実施形態では、後処理の不要語除去手段（２３）が実行する不要語除去により、抽出結果の品質向上を達成することができる。

（Ｃ）第３の実施形態
以下では、本実施形態が第１、第２の実施形態と相違する点についてのみ説明する。

（Ｃ−１）第３の実施形態の構成および動作
本実施形態にかかる重要語抽出システム３０の全体構成例を図５に示す。

図５において、当該重要語抽出システム３０が備える構成要素１１〜３３のうち、図１と同じ符号１１、１２，１３，１４，１５，１６，１７，１８，１９を付与した各構成要素の機能は基本的に第１の実施形態と同じなので、その詳しい説明は省略する。

図５中で、入力手段１２と連想度計算手段１６に接続された構造情報抽出手段３１は、文書ＤＣ１から構造情報を抽出する部分である。

ここでは、当該文書ＤＣ１は、例えば、ＳＧＭＬ、ＨＴＭＬ、ＸＭＬなどのマークアップ言語で記述された構造化文書であることが前提となる。マークアップ言語で記述された文書では、タグで挟むこと等により、その部分（タグで挟んだ範囲）が何であるかを指定できるようになっており、これによって論理構造や表示構造を付与することができる。

また、本実施形態における文の定義は、基本的には第１の実施形態と同様、句点までを１つの文とする通常の定義を用いるが、終了タグ（例えば、＜／Ｔｉｔｌｅ＞など）まで、または２行以上の改行までをもって１つの文とすること等も必要となる。表題（タイトル）などの記述では句点を用いないほうが普通だからである。

したがって本実施形態では、例えば、前記検査方向に文字列を検査するとき、句点が出現することなく終了タグが出現したら、その終了タグまでを１つの文として取り扱う。また、タグ（例えば、＜Ｔｉｔｌｅ＞タグの場合なら、「＜Ｔｉｔｌｅ＞」や「＜／Ｔｉｔｌｅ＞」）は制御情報としてのみ扱い、文書の内容を構成する文字列とみなさないこと等も適宜、必要となる可能性がある。

タグをもとに文書ＤＣ１上のその部分が何であるか（すなわち、構造情報）が分かれば、重要単語の分布密度が高いか否かを予測することが可能となる。例えば、その文書の表題を記述する部分を示す＜Ｔｉｔｌｅ＞タグが定義されているマークアップ言語の場合には、＜Ｔｉｔｌｅ＞タグで指定された範囲に記述される文字列は表題であるため、その文書の内容を示す重要単語が高密度で分布していると予測することが可能となる。同様に、その文書の要約（概要）を記述する部分を示す＜Ａｂｓｔｒａｃｔ＞タグが定義されているマークアップ言語の場合には、＜Ａｂｓｔｒａｃｔ＞タグで指定された範囲に記述される文字列（要約）には、重要単語が高密度で分布していると予測することができる。

反対に、その文書ＤＣ１に関連する参考文献を記述する部分を示す＜Ｒｅｆｅｒｅｎｃｅ＞タグが定義されたマークアップ言語の場合、＜Ｒｅｆｅｒｅｎｃｅ＞タグで指定された範囲に記述された文字列（参考文献名などを示す文字列）は、当該文書ＤＣ１と直接的には関係ないため、文書ＤＣ１の内容を示す重要単語が分布している可能性は低いと予測できる。

その反面、当該＜Ｒｅｆｅｒｅｎｃｅ＞タグで指定された範囲には、当該文書ＤＣ１と直接的に関係のない単語が記述されている可能性が高いから、この範囲に記述された単語を不要語として指定すれば、その文書ＤＣ１の内容に応じた不要語の指定を動的に行うことが可能となり、重要単語の抽出結果の品質向上をはかるうえで有効である。

本実施形態の設定値辞書１３には、第１の実施形態と同様、閾値（ＴＨ１〜ＴＨ４）、文字種（ＣＳ）、定義距離（ＬＨ１）なども設定されているが、そのほか、図１４に示す処理規則表ＴＢ１が設定されている。

この処理規則表ＴＢ１は上述した予測を反映したもので、構造情報抽出手段３１が文書ＤＣ１から構造情報を抽出したとき、その構造情報を示すタグの種類に応じて、そのタグで指定される範囲内の文字列を連想度計算手段１６等がどのように取り扱うかを記述した規則集である。

処理規則表ＴＢ１はデータ項目として、構造情報（タグ名）と、ウエイトと、不要語処理を備えている。

このうちウエイトは、抽出した単語に関する単語頻度や共起頻度を計算するとき、計算結果に乗じる重みを示している。例えば、そのタグで指定された範囲のウエイトが「２」であれば、その範囲内に、ある単語が１回出現しただけで、２回出現したものとして扱われることになる。共起頻度に関しても同様で、１回共起しただけで２回共起したものとして扱われる。したがって、ウエイトの値が大きいほど、そのタグで指定された範囲から重要単語が抽出されやすくなる。また、ウエイトが「０」であれば、その範囲から重要単語が抽出されることはない。

データ項目としての不要語処理は、そのタグで指定された範囲から不要語の抽出処理を行うか否かを示す。「○」は行うことを、「×」は行わないことを示している。不要語抽出処理は、その範囲から抽出した単語を不要語辞書３３に格納するものである。

不要語辞書３３は、基本的に第２の実施形態の不要語辞書２４と同じであるが、このように動的な不要語の追加を許容する点が相違する。

図１４の例では、前記＜Ｒｅｆｅｒｅｎｃｅ＞タグで指定された範囲だけから不要語の抽出を行うことを指示している。

以上の通りであるから、本実施形態の動作は図６に示すフローチャートにまとめることができる。このフローチャートは基本的に図２のフローチャートに対応する。このフローチャートは、Ｓ５０〜Ｓ５５の各ステップを備えているが、そのうちステップＳ５０は図２に示した前記ステップＳ１０に対応し、ステップＳ５２は前記ステップＳ１１に対応し、ステップＳ５３は前記ステップＳ１２に対応し、ステップＳ５４は前記ステップ１３に対応するので、その詳しい説明は省略する。

また、図６中でステップＳ５０とＳ５２のあいだで実行されるステップＳ５１は、前記構造情報抽出手段３１による構造情報の抽出処理を示している。

さらに図６中で最後に実行されるステップＳ５５は、前記不要語除去手段３２が実行する不要語の除去を示している。

（Ｃ−２）第３の実施形態の効果
本実施形態によれば、第１の実施形態の効果と同等な効果を得ることができる。

加えて、本実施形態では、文書（ＤＣ１）が構造化文書である場合、構造情報を有効活用して、重要単語の抽出をより適切に行うことが可能となる。

また、本実施形態では、文書（ＤＣ１）が構造化文書である場合、構造情報を有効活用して、その文書（ＤＣ１）の内容に応じ動的に不要語を追加することができるため、抽出結果の品質をいっそう高めることができる。

（Ｄ）第４の実施形態
以下では、本実施形態が第１〜第３の実施形態と相違する点についてのみ説明する。

本実施形態は構造化文書だけを前提とするものではないが、不要語の動的な追加を行う点や、ウエイトなどを利用する点で、第１〜第３の実施形態のなかでは第３の実施形態に近い。

（Ｄ−１）第４の実施形態の構成および動作
本実施形態にかかる重要語抽出システム４０の全体構成例を図７に示す。

図７において、当該重要語抽出システム４０が備える構成要素１１〜４１のうち、図５と同じ符号１１、１２，１３，１４，１５，１６，１７，１８，１９、３２，３３を付与した各構成要素の機能は基本的に第３の実施形態と同じなので、その詳しい説明は省略する。

図７中で、入力手段１２と連想度計算手段１６に接続された特徴的表現の抽出手段４１は、文書ＤＣ１から特徴的表現を抽出する部分である。

特徴的表現を抽出した場合の処理規則は、図１５の処理規則表ＴＢ２に示す通りである。当該処理規則表ＴＢ２は、前記処理規則表ＴＢ１と同様に、設定値辞書１３内に格納されている。

図１５において、当該処理規則表ＴＢ２は、データ項目として文の条件と、ウエイトと、不要語処理を備えている。

このうちウエイトは図１４のウエイトと同じであり、不要語処理は図１４の不要語処理と同じである。

また、文の条件は、特徴的表現抽出手段４１が抽出する特徴的表現を示している。

『「具備する」を含む』などの文の条件は、図１５に示すような自然言語（ここでは、日本語）で記述するのではなく、同等な内容を持つ正規表現などで記述できるようにしてもよいことは当然である。

本実施形態では、例えば、この「具備する」という特徴的表現が抽出された場合の制御（ウエイトを２とし、不要語処理を「×」とする）は、その１文の範囲内に限って適用されるものとする。

以上の通りであるから、本実施形態の動作は図８に示すフローチャートにまとめることができる。このフローチャートは基本的に図６のフローチャートに対応する。このフローチャートは、Ｓ６０〜Ｓ６５の各ステップを備えているが、そのうちステップＳ６０は図６に示した前記ステップＳ５０に対応し、ステップＳ６２は前記ステップＳ５２に対応し、ステップＳ６３は前記ステップＳ５３に対応し、ステップＳ６４は前記ステップ５４に対応し、ステップＳ６５は前記ステップＳ５５に対応するので、その詳しい説明は省略する。

また、図８中でステップＳ６０とＳ６２のあいだで実行されるステップＳ６１は、前記特徴的表現抽出手段４１による特徴的表現の抽出処理を示している。

本実施形態では、「具備する」など、その近傍に重要単語が高密度で配置されている可能性が高いと推定される特徴的な表現に着目し、その特徴的表現と同じ文に出現する単語が、優先的に重要単語として抽出されるように制御することができる。

また、本実施形態ではこれとは逆に、「識別記号」など書誌情報などが含まれる可能性が高いと推定される特徴的表現と同じ文に出現する単語は、重要単語とされにくくなるように制御することができる。

なお、必要に応じて、本実施形態を構造化文書に対して適用してもよいことは当然である。構造化文書は、タグなどを無視すれば（または、通常の文字列として扱えば）、構造化されていない通常の文書として処理することができる。

（Ｄ−２）第４の実施形態の効果
本実施形態によれば、第３の実施形態の効果と同等な効果を得ることができる。

加えて、本実施形態では、自由に特徴的表現を指定し、その特徴的表現と同じ文に出現する単語が重要単語とされやすくするか（されにくくするか）、また、特徴的表現が出現した文から不要語の抽出を行うか否かなどをきめ細かく指定して制御することが容易であり、柔軟性が高い。

さらに、本実施形態は、ＳＧＭＬなどの構造化文書以外にも適用できる点で、第３の実施形態よりも適用範囲が広い。

（Ｅ）第５の実施形態
以下では、本実施形態が第１〜第４の実施形態と相違する点についてのみ説明する。

本実施形態は第１〜第４の実施形態のなかで、第４の実施形態にもっとも近い。

（Ｅ−１）第５の実施形態の構成および動作
本実施形態にかかる重要語抽出システム５０の全体構成例を図９に示す。

図９において、当該重要語抽出システム５０が備える構成要素１１〜５１のうち、図７と同じ符号１１、１２，１３，１４，１５，１６，１７，１８，１９、３２，３３を付与した各構成要素の機能は基本的に第４の実施形態と同じなので、その詳しい説明は省略する。

図９中で、入力手段１２と連想度計算手段１６に接続された品詞情報の抽出手段５１は、前記特徴的表現抽出手段４１と同等な機能に加えて、特徴的表現を抽出した文と同じ文に含まれる各単語について品詞情報を抽出する機能を備えている。

本実施形態において当該品詞情報抽出手段５１が特徴的表現を抽出し、特徴的表現を抽出した文と同じ文に含まれる各単語について品詞情報を抽出したときの処理規則は、図１６の処理規則表ＴＢ３に示す通りである。当該処理規則表ＴＢ３は、前記処理規則表ＴＢ２と同様に、設定値辞書１３内に格納されている。

図１６において、当該処理規則表ＴＢ３は、データ項目として文の条件と、語句の条件と、ウエイトと、不要語処理を備えている。

このうちウエイト、不要語処理、文の条件は、図１５と同じである。

語句の条件は、文の条件で指定した特徴的表現が出現した文と同じ文に含まれる各単語について格や品詞を指定するためのデータ項目である。したがって表ＴＢ３によれば、格や品詞の相違に応じて、きめ細かく制御を変更することができる。

図１６に示す処理規則表ＴＢ３は、例えば、特徴的表現である「具備する」と同じ文に出現した単語については、主格ならウエイトを４，目的格ならウエイトを３とし、いずれの場合も、不要語として抽出することは行わないことを示している。

この場合、「具備する」と同じ文に出現した単語が例えば主格であれば、連想度計算手段１６などは、その単語が１回出現しただけで４回出現したものとして扱い、１回共起しただけで４回共起したものとして扱うが、目的格であれば、１回出現しただけで３回出現したものとして扱い、１回共起しただけで３回共起したものとして扱うことになる。

以上の通りであるから、本実施形態の動作は図１０に示すフローチャートにまとめることができる。このフローチャートは基本的に図８のフローチャートに対応する。このフローチャートは、Ｓ７０〜Ｓ７５の各ステップを備えているが、そのうちステップＳ７０は図８に示した前記ステップＳ６０に対応し、ステップＳ７２は前記ステップＳ６２に対応し、ステップＳ７３は前記ステップＳ６３に対応し、ステップＳ７４は前記ステップ６４に対応し、ステップＳ７５は前記ステップＳ６５に対応するので、その詳しい説明は省略する。

また、図１０中でステップＳ７０とＳ７２のあいだで実行されるステップＳ７１は、前記品詞情報抽出手段５１による特徴的表現と品詞情報の抽出処理を示している。

（Ｅ−２）第５の実施形態の効果
本実施形態によれば、第４の実施形態の効果と同等な効果を得ることができる。

加えて、本実施形態では、特徴的表現が出現した文と同じ文に含まれる各単語についてその格や品詞を反映したいっそうきめ細かな制御を行うことが可能となる。

（Ｆ）他の実施形態
上記第１の実施形態において、設定値辞書１３に格納した各設定値のうち、ＴＨ１とＴＨ２は必須であるが、それ以外の情報は省略できる可能性がある。例えば、文書上に一度しか出現しない単語も処理の対象としたい場合などには、ＴＨ３は不要である。

また、前記閾値ＴＨ１〜ＴＨ４は上述したように絶対的な値に設定せず、少なくとも所定数の単語がその閾値以上となるように相対的かつ動的に変更するようにしてもよい。例えば、重要度閾値ＴＨ２を少なくとも５つの単語が得られるように動的に変更してもよい。この場合、重要度閾値ＴＨ２の大きさは、そのとき得られた単語のうち上位から５番目の単語の重要度と同じ値に設定するものであってよい。

さらに、前記式（２）におけるＮ、Ｆｗ、Ｆｃとして、上述したように、変換後の文書ＤＣ１１上のものを用いるのではなく、変換前の文書ＤＣ１上のものを用いてもよい。

なお、上記第４の実施形態では、例えば、前記「具備する」という特徴的表現が抽出された場合の制御（ウエイトを２とし、不要語処理を「×」とする（図１５参照））は、その１文の範囲内に限って適用されるものとしたが、もし必要ならば、その１文を越えて適用することも可能である。また、例えば、特徴的表現の位置などを基準として前記検査方向にカウントする、単語数や文字数などで、この範囲を制限するようにしてもよい。単語数や文字数で制限する場合には、当然、その文を越えて範囲が設定されることがあり得る。この範囲は、前記定義距離ＬＨ１と同様、設定値辞書１３などに予め格納しておくようにしてもよい。

必要に応じて、同じ文に対し、異なる制御が競合した場合の調停規則なども用意しておくとよい。前記制御を１文を越えて適用する場合はもちろん、前記制御を１文を越えて適用しない場合であっても、同じ文内に複数の特徴的表現が出現することもあり得るからである。

また、上記第３〜第５の実施形態では、構造情報や文の条件などに応じて、ウエイトと不要語処理を変化させたが、変化させるものは、ウエイトと不要語処理に限定する必要はない。

例えば、共起頻度を介することなく、前記式（２）などで算出される連想度そのものに重み付けを施してもよい。また、連想度閾値ＴＨ１や重要度閾値ＴＨ２の値、定義距離ＬＨ１の値を変化させてもよい。さらに、単語と単語のあいだ（単語対）に共起関係があるか否かを検査する際、集合ＳＴ１内に含まれている全単語対で検査するのではなく、ある単語対については共起関係を検査しないようにしてもよい。この場合、共起関係を検査しない単語対の範囲を構造情報や文の条件などに応じて変化させることができる。

さらに、上記第３〜第５の実施形態では、動的な不要語の追加は、後処理としての不要語の除去についてのみ行ったが、必ずしもこれに限定する必要はない。

前処理の段階ではまだ単語の切り出しさえ行われていないため、図３に示す不要語除去手段２１に対応する不要語辞書２２に対し動的な不要語の追加を行うことは困難であるが、図３などにおいて語句抽出手段１４から重要度計算手段１８にいたる処理系統のなかの任意の位置で、動的な不要語の追加およびこの追加に応じた単語（または単語対）の除去を行うことは可能である。

なお、前記文書（ＤＣ１）は、自然言語以外の構成要素を含んでいてもかまわない。例えば、図形や、画像などを含む文書に対しても本発明は適用可能である。

また、文書は自然言語以外の言語（例えば、プログラミング言語など）を含むものであってもかまわない。

さらに、上記第３〜第５の実施形態で使用した処理規則表ＴＢ３〜ＴＢ５の内容および構成（ここで、構成は、データ項目の組み合わせを指す）は、図１４〜図１６に示すものに限定する必要がないことは当然である。

以上の説明では主としてハードウエア的に本発明を実現したが、本発明はソフトウエア的に実現することも可能である。

第１の実施形態にかかる重要語抽出システムの全体構成例を示す概略図である。第１の実施形態の動作説明図である。第３の実施形態にかかる重要語抽出システムの全体構成例を示す概略図である。第２の実施形態の動作説明図である。第３の実施形態にかかる重要語抽出システムの全体構成例を示す概略図である。第３の実施形態の動作説明図である。第４の実施形態にかかる重要語抽出システムの全体構成例を示す概略図である。第４の実施形態の動作説明図である。第５の実施形態にかかる重要語抽出システムの全体構成例を示す概略図である。第５の実施形態の動作説明図である。第１の実施形態の動作説明図である。第１の実施形態の動作説明図である。第１の実施形態にかかる重要語抽出システムで使用する重要度計算手段の内部構成例を示す概略図である。第３の実施形態の動作説明図である。第４の実施形態の動作説明図である。第５の実施形態の動作説明図である。

符号の説明

１０…重要語抽出システム、１１…文書格納手段、１２…入力手段、１３…設定値辞書、１４…語句抽出手段、１５…語句辞書、１６…連想度計算手段、１７…連想辞書、１８…重要度計算手段、１９…重要語辞書、ＣＳ１…切り出し用文字種、ＴＨ１…連想度閾値、ＴＨ２…重要度閾値、ＴＨ３…単語頻度閾値、ＴＨ４…共起頻度閾値、ＦＬ１〜ＦＬ５…ファイル、ＳＴ０、ＳＴ１…単語対集合、ＤＣ１、ＤＣ１１…文書。

Claims

多数の語句を含む文書から、その文書の内容を良好に表現する語句である重要語句を抽出する重要語抽出装置であって、
語句のあいだの関連性の強さを示す連想度を算出する連想度算出部と、
前記文書中の複数の語句から、前記重要語句の候補となる候補語句を選定する候補語句選定部と、
前記候補語句のあいだの連想度を、前記連想度算出部に算出させ、その算出結果が所定の連想度閾値以上となる候補語句の集合を生成する集合生成部と、
当該集合に含まれる各候補語句のうち１つを処理対象候補語句として選び、前記文書上における当該処理対象候補語句に対する位置が第１の定義距離内にあって、なおかつ当該集合に含まれる候補語句の数に応じた重要度を算出し、その重要度が所定の重要度閾値以上となるか否かを判定する重要性判定部とを備え、
当該重要性判定部により前記重要度が重要度閾値以上であると判定された処理対象候補語句を、前記重要語句と決定することを特徴とする重要語抽出装置。
請求項１の重要語抽出装置において、
前記重要性判定部による処理の過程では有用でなく、なおかつ、最終的に前記重要語句とされるべきでない語句を非候補語句として格納する前処理用非候補語句格納部を備え、
前記候補語句選定部が文書中から候補語句を選定する際には、当該前処理用非候補語句格納部に格納されている非候補語句以外の語句を候補語句として選定することを特徴とする重要語抽出装置。
請求項１の重要語抽出装置において、
前記重要性判定部による処理の過程では有用であるが、最終的に前記重要語句とされるべきでない語句を、非候補語句として格納する後処理用非候補語句格納部を備え、
前記重要性判定部が処理対象候補語句を選ぶ際には、当該後処理用候補語句格納部に格納されている非候補語句以外の語句を処理対象候補語句として選ぶことを特徴とする重要語抽出装置。
請求項１の重要語抽出装置において、
前記文書が所定の構造情報にしたがって構造化されている場合、各語句が配置されている部分構造に応じて、
前記連想度算出部が算出する連想度を変化させる制御、
前記集合生成部が使用する連想度閾値を変化させる制御、
前記重要性判定部における処理対象候補語句の選定の基準、前記第１の定義距離の値、または、前記重要度閾値の値を変化させる制御のうち、いずれかの制御を実行することを特徴とする重要語抽出装置。
請求項１の重要語抽出装置において、
前記文書中で、第２の定義距離内に配置された語句に関する前記重要度に影響を与える性質を持つ語句である特徴語句を抽出する特徴語句抽出部を備え、
当該特徴語句抽出部が特徴語句を抽出した場合、その特徴語句から第２の定義距離内に存在する語句の処理に対し、
前記連想度算出部が算出する連想度を変化させる制御、
前記集合生成部が使用する連想度閾値を変化させる制御、
前記重要性判定部における処理対象候補語句の選定の基準、前記第１の定義距離の値、または、前記重要度閾値の値を変化させる制御のうち、いずれかの制御を実行することを特徴とする重要語抽出装置。
請求項２または３の重要語抽出装置において、
前記文書が所定の構造情報にしたがって構造化されている場合、各語句が配置されている部分構造に応じて、前記非候補語句の決定を行うことを特徴とする重要語抽出装置。
請求項２または３の重要語抽出装置において、
前記文書中で、第２の定義距離内に配置された語句に関する前記重要度に影響を与える性質を持つ語句である特徴語句を抽出する特徴語句抽出部を備え、
当該特徴語句抽出部が特徴語句を抽出した場合、その特徴語句から第２の定義距離内に配置された語句に関する非候補語句の決定の基準を第２の定義距離外に配置された語句と相違させることを特徴とする重要語抽出装置。
請求項１の重要語抽出装置において、
前記候補語句選定部は、
選定した候補語句について解析処理を実行する語句解析処理部を備え、
当該語句解析処理部が解析処理の結果として、文書中で候補語句が配置されていた部分構造、当該候補語句から第２の定義距離内に存在して、当該候補語句の重要度に影響を与える性質を持つ語句である特徴語句、または、当該候補語句の品詞を特定する場合、その特定結果に応じて、
前記連想度算出部が算出する連想度を変化させる制御、
前記集合生成部が使用する連想度閾値を変化させる制御、
前記重要性判定部における処理対象候補語句の選定の基準、前記第１の定義距離の値、または、前記重要度閾値の値を変化させる制御のうち、いずれかの制御を実行することを特徴とする重要語抽出装置。
請求項２または３の重要語抽出装置において、
前記候補語句選定部は、
選定した候補語句について解析処理を実行する語句解析処理部を備え、
当該語句解析処理部が解析処理の結果として、文書中で候補語句が配置されていた部分構造、当該候補語句から第２の定義距離内に存在して、当該候補語句の重要度に影響を与える性質を持つ語句である特徴語句、当該候補語句の品詞を特定する場合、その特定結果に応じて、
前記非候補語句の決定の基準を変化させることを特徴とする重要語抽出装置。
多数の語句を含む文書から、その文書の内容を良好に表現する語句である重要語句を抽出する重要語抽出方法であって、
前記文書中の複数の語句から、前記重要語句の候補となる候補語句を選定し、
前記候補語句のあいだで、語句間の関連性の強さを示す連想度を算出し、
その算出結果が所定の連想度閾値以上となる候補語句の集合を生成し、
当該集合に含まれる各候補語句のうち１つを処理対象候補語句として選び、前記文書上における当該処理対象候補語句に対する位置が第１の定義距離内にあって、なおかつ当該集合に含まれる候補語句の数に応じた重要度を算出し、
その重要度が所定の重要度閾値以上となるか否かを判定し、
当該重要度が重要度閾値以上であると判定された処理対象候補語句を、前記重要語句と決定することを特徴とする重要語抽出方法。
多数の語句を含む文書から、その文書の内容を良好に表現する語句である重要語句を抽出する重要語抽出プログラムであって、コンピュータに、
語句のあいだの関連性の強さを示す連想度を算出する連想度算出機能と、
前記文書中の複数の語句から、前記重要語句の候補となる候補語句を選定する候補語句選定機能と、
前記候補語句のあいだの連想度を、前記連想度算出機能に算出させ、その算出結果が所定の連想度閾値以上となる候補語句の集合を生成する集合生成機能と、
当該集合に含まれる各候補語句のうち１つを処理対象候補語句として選び、前記文書上における当該処理対象候補語句に対する位置が第１の定義距離内にあって、なおかつ当該集合に含まれる候補語句の数に応じた重要度を算出し、その重要度が所定の重要度閾値以上となるか否かを判定する重要性判定機能とを実現させ、
当該重要性判定機能により前記重要度が重要度閾値以上であると判定された処理対象候補語句を、前記重要語句と決定することを特徴とする重要語抽出プログラム。