JP2005222480A - 重要語抽出装置、重要語抽出方法、および重要語抽出プログラム - Google Patents

重要語抽出装置、重要語抽出方法、および重要語抽出プログラム Download PDF

Info

Publication number
JP2005222480A
JP2005222480A JP2004032347A JP2004032347A JP2005222480A JP 2005222480 A JP2005222480 A JP 2005222480A JP 2004032347 A JP2004032347 A JP 2004032347A JP 2004032347 A JP2004032347 A JP 2004032347A JP 2005222480 A JP2005222480 A JP 2005222480A
Authority
JP
Japan
Prior art keywords
word
phrase
candidate
importance
important
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004032347A
Other languages
English (en)
Inventor
Kohaku Morita
幸伯 森田
Miki Sasaki
美樹 佐々木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2004032347A priority Critical patent/JP2005222480A/ja
Publication of JP2005222480A publication Critical patent/JP2005222480A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 重要語句の抽出に関して、効率と品質を高める。
【解決手段】 多数の語句を含む文書から、その文書の内容を良好に表現する語句である重要語句を抽出する重要語抽出装置であって、連想度算出部と、候補語句選定部と、候補語句のあいだの連想度が所定の連想度閾値以上となる候補語句の集合を生成する集合生成部と、集合に含まれる各候補語句のうち1つを処理対象候補語句として選び、文書上における処理対象候補語句に対する位置が第1の定義距離内にあって、なおかつ集合に含まれる候補語句の数に応じた重要度を算出し、その重要度が所定の重要度閾値以上となるか否かを判定する重要性判定部とを備え、重要性判定部により重要度が重要度閾値以上であると判定された処理対象候補語句を、重要語句と決定する。
【選択図】 図1

Description

本発明は重要語抽出装置、重要語抽出方法、および重要語抽出プログラムに関し、例えば、ある文書のなかからその文書の内容を適切に示す単語など(重要語句)を抽出する場合などに適用して好適なものである。
従来、重要語句(重要語)とされる語句の抽出に関連する技術として、下記の非特許文献1および2に示すものがある。
このうち非特許文献1に記載されているのは、いわゆるTF*IDF法と呼ばれる技術である。
TF*IDF法では、文書集合内の文書のなかから該文書の重要語句を推定するために、文書内での各語句の頻度(文書内語句頻度:Term Frequency)を計算し、各語句が出現する文書数(文書頻度:Document Frequency)との比較において重要度を推定する。ここで、当該重要度は各語句の重要さの度合いを示す指標であり、次の式(1)によって与えられる。
Figure 2005222480
この式(1)において、kは単語を示し、TFkは当該単語kの前記文書内語句頻度を示し、DFkは当該単語kの前記文書頻度を示し、Nは文書集合内の文書数を示す。
式(1)からも明らかなように、TF*IDF法では、重要語句を、特定の文書内に特徴的に出現するものととらえ、特定文書に出現し、かつ、どの文書に.も出現する一般的な語句ではないものを優先的に重要語句と推定することができる。
一方、前記非特許文献2では、特許明細書などの文書においてみられる特徴的な表現(特徴的表現)の機能に着目し、特徴的表現を利用して重要語句の推定を行う。
望月、岩山、奥村:「抄録を利用した検索」,言語処理学会第4回年次大会ワークショップ論文集,pp.22−29.1998. 原,木谷,江里口:「特徴的表現を利用した特許抄録作成方法の検討」,情報処理学会自然言語処理研究会NL100−14.1994.
ところが、上述したTF*IDF法では、例えば「情報」や「検索」など一般的に用いられる単語が、その文書の内容を示す上で重要な語句であっても、これらの単語はどの文書にも出現する傾向の強い一般的な単語であるため、前記式(1)で算出される重要度が小さくなり、重要語とは推定されない可能性が高い。
しかも、誤字を含む単語や非常に特殊な用語(特殊な単語)などを重要語としてしまう可能性が高い。特殊な単語はよいとしても、誤字を含む単語などは、誤字のために誤って重要語句と判定された可能性が高いため、その文書の内容を適切に示す語句でないのは明らかである。また、特殊な単語は、その文書の内容を示す単語ではあっても、過度に特殊すぎるため、分類に利用するには適さないことが多い。予め決められたいずれの分類にその文書を振り分けるべきかをその単語に基づいて自然言語処理で決定することが難しいからである。
したがって、非特許文献1の技術を利用して自然言語処理で重要語句を抽出することは、効率が低く、本来、抽出するべきではない誤字を含む単語などを抽出してしまう点で、抽出結果の品質が低い。
なお、分類に利用するには、その文書の内容を特徴的に表現しつつも、ある程度の一般性を有する単語であることが求められる。
一方、前記非特許文献2では、特徴的表現が用いられなかった場合には重要語句の推定を行うことができないという問題がある。
この特徴的表現の例としては、特許明細書や特許請求の範囲などで用いられることのある「具備」という単語を挙げることができる。
周知のように、「具備」は本来、一般的な単語であるが、いくらか古風なニュアンスもあり、現在では通常の文書(例えば、新聞の記事や小説など)において使われることはほとんどない。特許明細書や特許請求の範囲でも、必ず使われるというわけではないが、書き手によっては請求項の記載などで多用する。例えば、特許請求の範囲中の請求項の記載において「…を具備することを特徴とする〜」などの表現で使われた場合、「具備」の前には重要語句(この場合、発明の必須の構成要件)が高密度で配置されている可能性が高い。
しかしその請求項の書き手が「具備」という単語を用いずに請求項を記載している場合には、「具備」を手掛かりとして重要語句を推定することは不可能となってしまう。
このため、非特許文献2の技術を利用して自然言語処理で重要語句を抽出することは、効率が低いといえる。
かかる課題を解決するために、第1の本発明は、多数の語句を含む文書から、その文書の内容を良好に表現する語句である重要語句を抽出する重要語抽出装置であって、(1)語句のあいだの関連性の強さを示す連想度を算出する連想度算出部と、(2)前記文書中の複数の語句から、前記重要語句の候補となる候補語句を選定する候補語句選定部と、(3)前記候補語句のあいだの連想度を、前記連想度算出部に算出させ、その算出結果が所定の連想度閾値以上となる候補語句の集合を生成する集合生成部と、(4)当該集合に含まれる各候補語句のうち1つを処理対象候補語句として選び、前記文書上における当該処理対象候補語句に対する位置が第1の定義距離内にあって、なおかつ当該集合に含まれる候補語句の数に応じた重要度を算出し、その重要度が所定の重要度閾値以上となるか否かを判定する重要性判定部とを備え、(5)当該重要性判定部により前記重要度が重要度閾値以上であると判定された処理対象候補語句を、前記重要語句と決定することを特徴とする。
また、第2の本発明は、多数の語句を含む文書から、その文書の内容を良好に表現する語句である重要語句を抽出する重要語抽出方法であって、(1)前記文書中の複数の語句から、前記重要語句の候補となる候補語句を選定し、(2)前記候補語句のあいだで、語句間の関連性の強さを示す連想度を算出し、(3)その算出結果が所定の連想度閾値以上となる候補語句の集合を生成し、(4)当該集合に含まれる各候補語句のうち1つを処理対象候補語句として選び、 前記文書上における当該処理対象候補語句に対する位置が第1の定義距離内にあって、なおかつ当該集合に含まれる候補語句の数に応じた重要度を算出し、(5)その重要度が所定の重要度閾値以上となるか否かを判定し、(6)当該重要度が重要度閾値以上であると判定された処理対象候補語句を、前記重要語句と決定することを特徴とする。
さらに、第3の本発明は、多数の語句を含む文書から、その文書の内容を良好に表現する語句である重要語句を抽出する重要語抽出プログラムであって、コンピュータに、(1)語句のあいだの関連性の強さを示す連想度を算出する連想度算出機能と、(2)前記文書中の複数の語句から、前記重要語句の候補となる候補語句を選定する候補語句選定機能と、(3)前記候補語句のあいだの連想度を、前記連想度算出機能に算出させ、その算出結果が所定の連想度閾値以上となる候補語句の集合を生成する集合生成機能と、(4)当該集合に含まれる各候補語句のうち1つを処理対象候補語句として選び、前記文書上における当該処理対象候補語句に対する位置が第1の定義距離内にあって、なおかつ当該集合に含まれる候補語句の数に応じた重要度を算出し、その重要度が所定の重要度閾値以上となるか否かを判定する重要性判定機能とを実現させ、(5)当該重要性判定機能により前記重要度が重要度閾値以上であると判定された処理対象候補語句を、前記重要語句と決定することを特徴とする。
本発明によれば、重要語句の抽出効率および品質を高めることができる。
(A)実施形態
以下、本発明にかかる重要語抽出装置、重要語抽出方法、および重要語抽出プログラムを、重要語抽出システムに提供した場合を例に、実施形態について説明する。
(A−1)第1の実施形態の構成
本実施形態にかかる重要語抽出システム10の全体構成例を図1に示す。
図1において、当該重要語抽出システム10は、文書格納手段11と、入力手段12と、設定値辞書13と、語句抽出手段14と、語句辞書15と、連想度計算手段16と、連想辞書17と、重要度計算手段18と、重要語辞書19とを備えている。
このうち文書格納手段11は、1または複数の文書を格納する部分であるが、本実施形態の構成上、当該文書格納手段11には1つの文書が格納されていれば足りる。ここで、当該文書格納手段11に格納されている1つの文書(文章)をDC1とする。文書DC1の種類は限定する必要はないが、ここでは、一例として、当該文書DC1は日本語で記述された1つの新聞記事であるものとする。
設定値辞書13は、重要語抽出システム10内の各構成要素で使用する各種の閾値(例えば、TH1,TH2、TH3、TH4)、文字種(例えば、CS1)、後述する共起の定義距離(LH1)の値などの設定値を格納しておく部分である。ここで、TH1は連想度に対して適用する連想度閾値であり、TH2は重要度に対して適用する重要度閾値であり、TH3は単語頻度に対して適用する単語頻度閾値であり、TH4は共起頻度に対して適用する共起頻度閾値である。また、文字種CS1は、文書DC1から語句の切り出しを行うために利用する切り出し用文字種(区切り文字の文字種)を示す。抽出の対象となる語句としては複合語などを用いてもよいが、ここでは主として単語を想定する。この点は、以下の説明でも同じである。
入力手段12は、前記文書格納手段11に格納されている文書DC1や、当該設定値辞書13に格納されている各種設定値を、構成要素14〜18に供給する部分である。
語句抽出手段14は、入力手段12を介して供給を受けた文書DC1から、重要語句(重要単語)の候補となる文字列を抽出する(切り出す)機能などを装備する部分である。
この抽出では、前記切り出し用文字種CS1が利用される。当該切り出し用文字種CS1では様々な文字種を指定することができ、指定する文字種を文書DC1の種類や1文書中で処理の対象としている範囲などに応じて変更(例えば、ひらがな混じりの漢字によって記述された単語が多用されている文書や範囲などもあり得るため)することも可能であるが、ここでは、ひらがなと記号列を指定し、その指定は変更しないものとする。
具体的な単語の切り出しは、文書DC1上の文字列を所定の検査方向(この方向は、例えば、通常、人間が文字列を書き進める方向と同じ方向であってよい)に1文字ずつ検査していく過程で切り出し用文字種CS1で指定された文字種(例えば、ひらがな)に属する文字(区切り文字)が出現したとき、その文字の前に検査した1または複数の文字(例えば、漢字の文字列またはカタカナの文字列など)を抽出することによって行うことができる。この場合、区切り文字自体は、切り出しに利用するだけであり、以降の処理の対象としない。
文書DC1上における前記検査方向の検査で出現した区切り文字は、出現時点で消去することによって、単語(例えば、漢字の文字列またはカタカナの文字列などからなる単語)の切り出しを行うことができる。この方法は処理が速く未知語に強い。
ただしこの方法では前記文書DC1は元の内容(例えば、元の文章のうち、ひらがなの部分など)を失うため、もしも元の内容があとで必要となる場合には、コピーを取り、オリジナルの文書は文書格納手段11に残しておいて、コピー文書に対して以降の処理を実行するようにするとよい。ここでは、切り出しによって内容の変更された文書DC1をDC11とする。
前記切り出しのあと、当該語句抽出手段14は、当該文書DC11上に残っている単語のうち1文字の単語は文字種にかかわりなくすべて消去する。この消去のあとに残っている単語が、最終的に抽出された単語となる。
例えば、当初の状態で前記文書DC1上に、
“中東では九四年の年頭に当たって内戦の終結を掲げた。”
という文が記述されていた場合、切り出し結果と最終的な抽出結果はそれぞれ次のようになる。
切り出し結果→中東/九四年/年頭/当/内戦/終結/掲
抽出結果→「中東」「九四年」「年頭」「内戦」「終結」
なお、ここでは文字種による切出し方法を用いているが、適切な単語が切り出せるのであれば、他の方法を用いてもよい。
単語の抽出結果である文書DC11の内容は、語句辞書15に格納しておくとよい。
前記連想度計算手段16は、前記語句抽出手段14で最終的に抽出された前記文書DC11上の単語の対(単語対)に関して連想度を算出し、算出した連想度をもとに単語対の集合ST1を生成する機能などを装備する部分である。生成した単語対集合ST1は、前記連想辞書17に格納しておくとよい。当該連想度計算手段16の内部構成は例えば図13に示す通りである。
図13に示すように、当該連想度計算手段16は、連想度計算部61と、比較部62と、単語集合生成部63とを備えている。
当該連想度計算部61は単語対を特定し、特定した各単語対について連想度の計算を行う機能などを装備する部分である。
この連想度としては、単語のあいだの関連性の強さ(意味的な近さ)を示すことのできる情報であれば様々な情報を利用することが可能であるが、ここでは共起頻度情報を用いるものとする。
共起とは、ある単語と他の単語が一定の定義距離(LH1とする)内に同時に出現する状態を指す。定義距離LH1を規定するには様々な情報を用いることができる。例えば、所定数の文、所定数の段落、所定数の単語、所定数の文字などで定義距離を規定することが可能であるが、ここでは一例として、3語の単語で定義距離を規定するものとする。ただし3語以内の距離であっても、1つの文を越えた場合は、定義距離LH1外とする。
また、文は、改行や行数などを利用して定義することも可能であるが、ここでは、通常どおり、句点までを1つの文と定義する。
なお、前記定義距離LH1はオリジナルの文書DC1上の距離としてもよいが、ここでは、切り出しによって内容が変わったあとの文書DC11上の距離であるものとする。この場合、前記語句抽出手段14において1文中から抽出された単語が1つだけでない限り、すべての単語はいずれかの単語と共起することになる。
当該連想度計算部61が連想度を算出するために実行する処理の内容は、次の式(2)によって記述することができる。ここでは、単語間の意味的な近さを計算する尺度の1つである相互情報量を利用している。
Figure 2005222480
この式(2)において、Nは1つの文書(ここでは、DC11)における単語の総のべ数を示し、Fwは1つの文書(ここでは、DC11)内における単語の出現頻度(単語xまたはyの数(単語頻度))を示し、Fcは1つの文書(ここでは、DC11)内における単語対(定義距離LH1内にある単語の対(単語xとyの対))の出現頻度を示す。当該Fcは、定義距離LH1内における単語対の共起の頻度を示しており、上述した共起頻度情報に当たる。
式(2)によって与えられる連想度Aの値が大きいほど、単語対が共起する可能性が高く、単語間の関連性が強い。
共起頻度は一対の単語のあいだに成立する概念であるため、同じ文書DC11中の異なる場所(例えば、異なる文)で、前記定義距離LH1内に同じ単語対が出現するほど、共起頻度(Fc)の値は大きくなる。式(2)から明らかなように、共起頻度(Fc)が高いほど、また、単語対を構成する各単語の出現頻度(Fw)が小さいほど、その単語対に関する連想度Aの値は大きくなる。
連想度計算部61はまた、特定した単語対の集合(単語対集合)ST0を、単語集合生成部63に供給する。
後述する単語頻度閾値TH3を用いた処理なども、当該連想度計算部61の機能によって実行するものであってよい。
前記連想度閾値TH1の供給を受ける比較部62は、当該連想度閾値TH1と連想度計算部61で算出された連想度Aとの大小関係を比較し、比較結果CP1を単語集合生成部63に供給する部分である。連想度Aの値が当該連想度閾値TH1以上である単語対に含まれる単語のみが、最終的に、前記重要単語となる可能性を持つ。
単語集合生成部63は、前記単語対集合ST0中の各単語対について、その連想度Aが前記連想度閾値TH1以上であることを示す比較結果CP1が得られるか否かを監視し、そのような比較結果CP1が得られた単語対のみから構成される集合である前記単語対集合ST1を生成する部分である。単語対集合ST1は重要度計算手段18に供給される。
単語対集合ST1中の各単語対には、共起頻度の情報が対応付けられている。
このように共起頻度情報が対応付けられた単語対集合ST1を受け取った重要度計算手段18は、当該単語集合ST1に含まれる各単語の重要度を算出し、算出した重要度が前記重要度閾値TH2以上の単語を重要単語として出力する部分である。
このため当該重要度計算手段18は、単語対集合ST1中の各単語(例えば、単語x)について、その単語が含まれる1または複数の単語対に関する共起頻度の値を累加算し、累加算の結果をその単語の重要度とする。したがって、重要度の算出のために重要度計算手段18が実行する処理の内容は次の式(3)で記述することができる。
Figure 2005222480
この式(3)内で用いた単語x、単語y、Fc(単語x,単語y)の意味は、前記式(2)と同じである。
重要度計算手段18が重要単語であると判定した1または複数の単語は、文書DC1を一意に指定できる識別子(例えば、文書DC1のファイル名など)に対応付けた形式で、重要語辞書19に格納しておくとよい。
以下、上記のような構成を有する本実施形態の動作について、図2,図11,図12のフローチャートを参照しながら説明する。
このうち図2は全体動作を示し、S10〜S13の各ステップから構成されている。図11は図2中のステップS11の詳細動作を示すフローチャートであり、S20〜S23の各ステップから構成されている。図12は図2中のステップS12の詳細動作を示すフローチャートであり、S30〜S35の各ステップから構成されている。
(A−2)第1の実施形態の動作
予め、前記連想度閾値TH1,重要度閾値TH2,単語頻度閾値TH3,共起頻度閾値TH4、切り出し用文字種CS、定義距離LH1が、前記設置値辞書13に格納されいるものとする。ここで、切り出し用文字種CSとして、ひらがなと記号列を指定してあるものとする。
この状態で図2に示すように、重要語抽出システム10に文書DC1が入力されると(S10)、語句抽出手段12による単語の切り出しが行われる(S11)。
単語の切り出しには様々な方法を用いることが可能であるが、上述したように、文書DC1を文書DC11に変換する方法を用いる場合、その詳細動作は図11に示す通りである。
図11において、前記設定値辞書13から読み出した切り出し用文字種CSを語句抽出手段14に設定すると(S20),語句抽出手段14は前記検査方向にしたがって文書DC1上の文字列を1文字ずつ検査していき、切り出し用文字種CS1で指定された文字種(例えば、ひらがな)に属する文字(区切り文字)が出現するとその文字を消去する(S21)。
区切り文字が出現するたびにこの消去を繰り返せば、区切り文字以外の文字(例えば、漢字、カタカナなど)によって記述された単語だけが文書上に残るので、単語の切り出しが行える(S22)。次に当該語句抽出手段14は、残った単語のなかから1文字だけの単語を探索し、探索された場合、文字種にかかわらず消去する(S23)。このステップS23が、文書上に残っている全文字列に対して実行された時点で、もとの文書DC1から前記文書DC11への変換が完了する。これは、語句の抽出の完了を意味する。
例えば、文書DC1の内容が次の文章CT1であるものとすると、
“……。中東は内戦の終結を掲げた。……。アフリカでは内戦の影響がまだ多く残っている。……。アフリカで被害を受けたのは自然動物である。……。ケニアの国立公園では自然動物が住める環境を取り戻すのに懸命である。……。” …(CT1)
抽出した結果は次の抽出結果CT2となる。なお、文章CT1中で「……」と記述した部分は、文書DC1上で有効な文字列が存在するが、ここへの掲載を省略した部分である。
「中東」「内戦」「終結」、
「アフリカ」「内戦」「影響」、
「アフリカ」「被害」「自然動物」、
「ケニア」「国立公園」「自然動物」「環境」「懸命」 …(CT2)
この場合、語句辞書15には、
「影響」「環境」「懸命」「国立公園」「自然動物」
「終結」「中東」「内戦」「被害」「アフリカ」「ケニア」 …(CT3)
が格納される。
次に、当該文書DC11が語句抽出手段14から連想度計算手段16に渡され、図2に示すステップS12が実行される。ステップS12は連想度の計算に関する処理を示し、その詳細は図12に示す通りである。
図12において、語句抽出手段14は文書DC11上に残っている各単語について、その数(単語頻度Fw)を集計する(S30)。
単語とその単語の単語頻度を、「単語,頻度」の構造を持つレコード(単語レコード)にまとめると、ステップS30の実行結果CL1に含まれる各単語レコードは例えば次のようになる。
「影響,5」「環境,2」「懸命,1」「国立公園,16」「自然動物,12」
「終結,4」「中東,10」「内戦,14」「被害,3」「アフリカ,20」「ケニア,8」 …(CL1)
この場合、例えば、「影響」という単語は、文書DC11全体に5回出現したことを示している。
このあと語句抽出手段14は、前記単語頻度閾値TH3と実行結果CL1中の各単語の単語頻度を比較し、TH3以上の頻度を持つ単語のみを前記構造「単語,頻度」の単語レコードにしたがった形式で整理して単語頻度ファイルFL1に格納する。この単語頻度ファイルFL1は、前記連想辞書17内に格納される。
単語頻度閾値TH3の値を例えば5とすると、前記実行結果CL1のうち単語頻度ファイルFL1に格納される単語レコードのみからなる実行結果CL2は、
「影響,5」「国立公園,16」「自然動物,12」
「中東,10」「内戦,14」「アフリカ,20」「ケニア,8」 …(CL2)
となる。
次に、前記連想度計算手段16は、上述した共起の関係にある単語対について共起頻度を計算(S31)した上で、その単語対と共起頻度を「単語,単語,共起頻度」の構造を持つレコード(共起レコード)にまとめ、その共起レコードを共起頻度ファイルFL2に格納する。共起頻度ファイルFL2の内容は連想辞書17に格納しておくとよい。このステップS31に関連する一連の処理は連想度計算手段16のかわりに語句抽出手段14が実行するものであってもよいことは当然である。
共起の関係を持つのは、相互に前記定義距離LH1内にある単語であって、なおかつ、1文内にある単語の対に限られるものの、前記単語頻度に関する制約はない。したがって、前記単語頻度ファイルFL1に含まれない単語であっても、文書DC11上で共起の関係にある限り、共起頻度ファイルFL2のいずれかの共起レコードに含まれることになる。
ここでは一例として、次の実行結果CL3に示す各共起レコードが得られたものとする。
「中東,内戦,8」「終結,中東,1」「終結,内戦,2」
「内戦,アフリカ,10」「影響,アフリカ,1」「影響,内戦,3」
「被害,アフリカ,1」「自然動物,アフリカ,8」「自然動物,被害,2」
「国立公園,ケニア,4」「自然動物,ケニア,6」「環境,ケニア,1」
「国立公園,自然動物,5」「環境,国立公園,1」「懸命,国立公園,1」
「環境,自然動物,1」「懸命,自然動物,1」「環境,懸命,1」 …(CL3)
この実行結果CL3は、上述した単語対集合ST0に対応する。
次に連想度計算手段16は、実行結果CL3中の各共起レコードのなかから、共起レコードを1つ選択し(S32)、その共起レコードに含まれる2つの単語のそれぞれが、前記単語頻度ファイルFL1に含まれているか否かを検査する(S33,S34)。単語頻度ファイルFL1に格納される単語は、文書DC11上において単語頻度閾値TH3以上の出現頻度を示した単語であるため、ある単語が単語頻度ファイルFL1に含まれているか否かを検査することは、その単語が単語頻度閾値TH3以上の出現頻度を示したか否かを検査することに等しい。
このステップS32〜S34によって構成されるループが繰り返されることにより、共起頻度ファイルFL2内の全共起レコードが検査される。
共起レコードに含まれる2つの単語のうち、いずれを先に検査してもかまわないので、ステップS33とS34の順番は入れ替え可能である。
ステップS33とS34の検査により、2つの単語がともに単語頻度ファイルFL1に含まれていることが確認された共起レコードのみからなる共起頻度ファイル(最終共起頻度ファイル)FL3を生成する。そして連想度計算手段16は、この最終共起頻度ファイルFL3内の各共起レコードに含まれる単語対について、前記式(2)により、連想度を算出する(S35)。
このあと、各単語対と、連想度は、「単語,単語,連想度」の構造を持つレコード(連想度レコード)の形にまとめられ、連想度ファイルFL4に格納される。前記総のべ数Nを200とし、単語頻度ファイルFL1の内容として前記実行結果CL2を、共起頻度ファイルFL1の内容として前記実行結果CL3を想定すると、各単語対の連想度は、
A(「中東」,「内戦」)=log2(200×(8/(10×14)))=3.51
A(「内戦」,「アフリカ」)=log2(200×(10/(14×20)))=2.83
A(「自然動物」,「アフリカ」)=log2(200×(8/(12×20)))=2.74
A(「自然動物」,「ケニア」)=log2(200×(6/(12×8)))=3.64
A(「国立公園」,「自然動物」)=log2(200×(5/(16×12)))=2.38
となる。
このうち連想度が連想度閾値TH1以上の単語対の連想度レコードのみが最終的な連想度ファイル(最終連想度ファイル)FL5に格納される。連想度閾値TH1の値を2.5とすると、「国立公園」と「自然動物」の単語対の連想度は当該連想度閾値TH1未満であるため、これらの単語対のうち連想度が連想度閾値TH1以上の単語対の連想度レコード群、すなわち最終連想度ファイルFL5の内容は、
「自然動物,アフリカ,2.74」「自然動物,ケニア,3.64」「中東,内戦,3.51」「内戦,アフリカ,2.83」 …(CT4)
となる。当該最終連想度ファイルFL5は、上述した単語対集合ST1に対応する。
この最終連想度ファイルFL15の内容が決まると、図2のステップS12の処理が終了する。
次に重要度計算手段18が、当該最終連想度ファイルFL5内の各連想度レコードに含まれる単語について重要度を計算する。ここで、重要度としては前記式(3)にしたがい共起頻度を累加算した結果を用いる。
最終連想度ファイルFL5の内容が前記CT4であり、共起頻度ファイルFL2の内容が前記実行結果CL4であるものとすると、各単語(単語x)の重要度は次の実行結果CL5に示すようになる。
単語x :Lx(ただし、括弧内は共起頻度) :重要度
「アフリカ」 :「内戦」(10)「自然動物」(8) :18
「自然動物」 :「ケニア」(6)、「アフリカ」(8) :14
「中東」 :「内戦」(8) :8
「内戦」 :「中東」(8) :8
「ケニア」 :「自然動物」(6) :6
ここで上述した重要度閾値TH2の値が10であるものとすると、実行結果CL5中、重要度が18の単語である「アフリカ」と、重要度が14の単語である「自然動物」が、前記文書DC1に対する重要単語として選ばれることになる。
実行結果CL2に示したように、「内戦」の単語頻度は14で「自然動物」の単語頻度である12よりも高い。本実施形態の重要語抽出システム10において最終的にどの単語が重要単語として選ばれるかは、重要度閾値TH2の値をどのように設定するか等の条件にも依存するが、前記文章CT1は(内戦の影響を受けた)アフリカの自然の話であり、重要単語として「内戦」より「自然動物」が選ばれる傾向が強いのはよい結果であるといえる。
また、「アフリカ」と「自然動物」に限らず、実行結果CL5に示した単語はすべて、文書DC1の内容を特徴的に表現しつつも、ある程度の一般性を有する単語であるといえる。このような単語は、自然言語処理による文書(例えば、DC1)の分類に利用するのに適している。
なお、本実施形態では、重要単語の推定には、対象となる1つの文書DC1のみ存在すればよく、例えば上述したTF*IDF法のように、比較する対象となる文書集合や、検索語などを別に入力する必要はない。この事は、文書が増加しても(言い換えると文書の全体集合が変化しても)、各単語に関する重要度の計算結果が変わらないことを意味しており、他の文書に依存せず、その文書DC1の内容のみによって決まる絶対的な重要単語の選定を行うことができる。
したがって、文書DC1と何らかの関係を持つある文書が別な文書と置き換わったとしても、文書DC1の重要単語は変更する必要がなく、重要単語の推定は一度おこなえば足りる。
(A−3)第1の実施形態の効果
本実施形態によれば、単純な頻度ではなく、ある文書(DC1)内で特定の単語と何度も共起する単語を重要単語とするため、重要単語の抽出効率が高く、抽出結果の品質も高い。
また、本実施形態では、単語対集合(ST0)のなかの各単語対のうち連想度が連想度閾値(TH1)以上となる単語対から単語対集合(ST1)を生成し、単語対集合(ST1)内の各単語対に含まれる単語のなかから、重要単語を選ぶため、例えば、使われた方に意味の無い(一般的すぎる)単語は、多くの単語と少しずつ共起して連想度が低くなるため重要単語になりにくい。この性質は、抽出結果の品質向上と抽出効率の向上に寄与する。
さらに本実施形態では、1つの文書(DC1)の内容のみによって重要単語を決定するため、TF*IDF法を用いる場合のように上述した式(1)の中のDFkの寄与がなくなり、誤字を含む単語などを重要単語として選んでしまう可能性が低い。
誤字を含む単語は、同じものが1つの文書のなかに多数出現し、他の文書にはまったく出現しなケースがあり、このようなケースにおいて、TF*IDF法を適用すると誤って重要単語とされる可能性が高いが、本実施形態ではこれを防止できる。この性質は、本実施形態の抽出結果の品質向上と抽出効率の向上に寄与する。
また、本実施形態によれば、自然言語処理により多数の文書(その1つがDC1)を分類することが容易かつ高品質に行える。
例えば、特許などに関する公報類の検索などでは、検索結果として膨大な数の文書が得られ、そのすべてをパソコンなどの画面上に同時に表示することが困難となることも少なくないが、このようなケースでは、文書本体や予め用意されたその文書の要約などとともに(あるいは、これらに替えて)、本実施形態で抽出したその文書の重要単語を画面上に表示するようにしてもよい。
また、このような検索の要求を受け付ける側では、要求に備えて予めその文書中からキーワードを抽出しておく処理などが必要となる可能性が高いが、その抽出に本実施形態を活用することも有効である。
(B)第2の実施形態
以下では、本実施形態が第1の実施形態と相違する点についてのみ説明する。
(B−1)第2の実施形態の構成および動作
本実施形態にかかる重要語抽出システム20の全体構成例を図3に示す。
図3において、当該重要語抽出システム20が備える構成要素11〜24のうち、図1と同じ符号11、12,13,14,15,16,17,18,19を付与した各構成要素の機能は基本的に第1の実施形態と同じなので、その詳しい説明は省略する。
図3中で、入力手段11と語句抽出手段14のあいだに配置された不要語除去手段21は、構成要素14,16,18が実行する処理の前処理としての不要語除去を実行する部分である。これと対称的に、本実施形態の重要語抽出システム20内には、重要度計算手段18のあとに、後処理としての不要語除去を実行する不要語除去手段23も用意してある。
不要語除去手段21が実行する前処理としての不要語除去では、構成要素14,16,18が実行する処理で必要でなく、なおかつ、最終的に重要単語として出力されるべきでない単語を不要語とみなして、前記文書DC11上から除去する。このような除去を行うことは、構成要素14,16,18が実行する処理について、時間計算量(演算操作の回数)や領域計算量(作業用の記憶領域)を削減することを可能にする。
例えば、前記文書DC1中に、次の文SC1があるものとすると、
“大方の常識では考えられない行為に対して厳重な処分が下された。”…(SC1)
もとの文書DC1から文書DC11への変換が完了したとき、この文SC1からは、5つの単語「大方」「常識」「行為」「厳重」「処分」が得られる。
また、定義距離LH1を第1の実施形態より長い4語(文書DC11上における4語)と想定するなら、共起関係(共起する単語対)は、10組となる。重複を避けて記述すると、「大方」が「常識」「行為」「厳重」「処分」のそれぞれと共起し、「常識」が「行為」「厳重」「処分」のそれぞれと共起し、「行為」は「厳重」「処分」のそれぞれと共起し、「厳重」は「処分」と共起することにより、この10組が得られる。
これらの単語のうち「大方」は、あまりにも一般的すぎて文書DC1の内容を特徴的に表現する能力をほとんど持たない(したがって最終的な重要単語としては適さない)だけでなく構成要素14,16,18が実行する処理でも必要ではないから、不要語として当該不要語除去手段21で除去する。
これにより前記文SC1から得られる共起関係は、「常識」が「行為」「厳重」「処分」のそれぞれと共起し、「行為」は「厳重」「処分」のそれぞれと共起し、「厳重」は「処分」と共起することによる6組だけとなる。
一方、前記不要語除去手段23が実行する後処理としての不要語除去では、構成要素14,16,18が実行する処理では必要でるものの、最終的に重要単語として出力されるべきでない単語を不要語とみなして、最終的に出力されようとする重要単語のなかから除去する。このような除去を行うことは、最終的に出力される重要単語を、真に、文書DC1の内容を特徴的に表現するものに制限するため、抽出結果の品質を高めることに寄与する。
なお、本実施形態の場合でも、最終的に出力される重要単語が、文書DC1の内容を特徴的に表現するだけでなく、ある程度の一般性を有し、自然言語処理による分類などに利用するのに適するものである点は第1の実施形態と同じである。
当該不要語除去手段23で除去する単語の例としては、上述した「具備」を挙げることができる。上述したように、特許請求の範囲中の請求項の記載において「…を具備することを特徴とする〜」などの表現で使われた場合、「具備」の前には重要語句(重要単語)が高密度で配置され「具備」と共起している可能性が高い。この場合にはまた、「具備」とのあいだで連想度の高い単語は、重要単語として適したものである可能性が高い。
「具備」を、前記不要語除去手段21による前処理で除去してしまうと、文書DC1上において「具備」の前などに配置されている単語(重要単語)の抽出の可能性を低減してしまうことになるため、「具備」は適切な重要単語を抽出するための手掛かりとして有用であるといえるが、その反面、「具備」自体は一般的すぎる単語であり、多くの場合、文書DC1の内容を特徴的に表現するものではないから、前記不要語除去手段23で除去するものである。
不要語辞書22は、前記不要語除去手段21が除去する不要語を格納しており、不要語除去手段21はこの不要語辞書22の格納内容を参照することにより、除去すべき単語を認識することができる。例えば、前記「大方」などの単語が当該不要語辞書22に格納されている。
同様に、不要語辞書24は、前記不要語除去手段23が除去する不要語を格納しており、不要語除去手段23はこの不要語辞書24の格納内容を参照することにより、除去すべき単語を認識することができる。例えば、前記「具備」などの単語が当該不要語辞書24に格納されている。
以上の通りであるから、本実施形態の動作は図4に示すフローチャートにまとめることができる。このフローチャートは基本的に図2のフローチャートに対応する。このフローチャートは、S40〜S45の各ステップを備えているが、そのうちステップS40は図2に示した前記ステップS10に対応し、ステップS41は前記ステップS11に対応し、ステップS43は前記ステップS12に対応し、ステップS44は前記ステップ13に対応するので、その詳しい説明は省略する。
図4において、ステップS41とS43のあいだのステップS42は、前記不要語除去手段21が実行する不要語の除去を示しており、ステップS44のあとのステップS44は、前記不要語除去手段23が実行する不要語の除去を示している。
不要語除去手段21による不要語の除去について説明するため、前記文書DC1に次の文章CT2が含まれているものとする。ここで、「……」は、文書DC1上で有効な文字列が存在するが、ここへの掲載を省略した部分である。
“……。……、本装置を組み込んだ情報提示装置で検索に広範に利用できるキーワードのリスト等のクエリーに変換する手段を具備したことで、……注目する情報をその中での相対的な位置として提示することを可能としたことを特徴とする情報抽出装置。……。 …(CT2)
この場合、この文章CT2の省略外の部分から抽出され、変換後の前記文書DC11に含まれる単語群は次のSG1となる。
「本装置」「情報提示装置」「検索」「広範」「利用」
「キーワード」「リスト」「クエリー」「変換」「手段」「具備」「注目」
「情報」「相対的」「位置」「提示」「可能」「特徴」、「情報抽出装置」 …(SG1)
である。
このうち「広範」を前記不要語辞書22に格納してあるものとすると、不要語除去手段21により当該単語群SG1から当該「広範」が除去され、次の単語群SG2が文書DC11の内容となる。
「本装置」「情報提示装置」「検索」「利用」
「キーワード」「リスト」「クエリー」「変換」「手段」「具備」「注目」
「情報」「相対的」「位置」「提示」「可能」「特徴」、「情報抽出装置」 …(SG2)
一方、前記重要度計算手段18による処理の結果として得られた重要度が高い単語とその重要度が次の通りであったものとする。この場合、前記重要度閾値TH2は12に設定してあったものとする。
単語 重要度
「検索」 32
「情報抽出装置」 20
「具備」 19
「キーワード」 18
「本装置」 17
「クエリー」 14
「情報」 12
ここで、前記不要語辞書24に、「本装置」「具備」「特徴」が格納されていたものとすると、これらの単語を前記不要語除去手段23が削除するため、最終的に出力される単語は、「検索」「情報抽出装置」「キーワード」「クエリー」「情報」となる。この5語がこの例における最終的な重要単語である。
(B−2)第2の実施形態の効果
本実施形態によれば、第1の実施形態の効果と同等な効果を得ることができる。
加えて、本実施形態では、前処理の不要語除去手段(21)が実行する不要語除去により、時間計算量と領域計算量を削減することが可能となる。これはまた、重要単語として適さない単語が誤って重要単語とされてしまう可能性を低減できるため、抽出結果の品質向上にも寄与する。
さらに、本実施形態では、後処理の不要語除去手段(23)が実行する不要語除去により、抽出結果の品質向上を達成することができる。
(C)第3の実施形態
以下では、本実施形態が第1、第2の実施形態と相違する点についてのみ説明する。
(C−1)第3の実施形態の構成および動作
本実施形態にかかる重要語抽出システム30の全体構成例を図5に示す。
図5において、当該重要語抽出システム30が備える構成要素11〜33のうち、図1と同じ符号11、12,13,14,15,16,17,18,19を付与した各構成要素の機能は基本的に第1の実施形態と同じなので、その詳しい説明は省略する。
図5中で、入力手段12と連想度計算手段16に接続された構造情報抽出手段31は、文書DC1から構造情報を抽出する部分である。
ここでは、当該文書DC1は、例えば、SGML、HTML、XMLなどのマークアップ言語で記述された構造化文書であることが前提となる。マークアップ言語で記述された文書では、タグで挟むこと等により、その部分(タグで挟んだ範囲)が何であるかを指定できるようになっており、これによって論理構造や表示構造を付与することができる。
また、本実施形態における文の定義は、基本的には第1の実施形態と同様、句点までを1つの文とする通常の定義を用いるが、終了タグ(例えば、</Title>など)まで、または2行以上の改行までをもって1つの文とすること等も必要となる。表題(タイトル)などの記述では句点を用いないほうが普通だからである。
したがって本実施形態では、例えば、前記検査方向に文字列を検査するとき、句点が出現することなく終了タグが出現したら、その終了タグまでを1つの文として取り扱う。また、タグ(例えば、<Title>タグの場合なら、「<Title>」や「</Title>」)は制御情報としてのみ扱い、文書の内容を構成する文字列とみなさないこと等も適宜、必要となる可能性がある。
タグをもとに文書DC1上のその部分が何であるか(すなわち、構造情報)が分かれば、重要単語の分布密度が高いか否かを予測することが可能となる。例えば、その文書の表題を記述する部分を示す<Title>タグが定義されているマークアップ言語の場合には、<Title>タグで指定された範囲に記述される文字列は表題であるため、その文書の内容を示す重要単語が高密度で分布していると予測することが可能となる。同様に、その文書の要約(概要)を記述する部分を示す<Abstract>タグが定義されているマークアップ言語の場合には、<Abstract>タグで指定された範囲に記述される文字列(要約)には、重要単語が高密度で分布していると予測することができる。
反対に、その文書DC1に関連する参考文献を記述する部分を示す<Reference>タグが定義されたマークアップ言語の場合、<Reference>タグで指定された範囲に記述された文字列(参考文献名などを示す文字列)は、当該文書DC1と直接的には関係ないため、文書DC1の内容を示す重要単語が分布している可能性は低いと予測できる。
その反面、当該<Reference>タグで指定された範囲には、当該文書DC1と直接的に関係のない単語が記述されている可能性が高いから、この範囲に記述された単語を不要語として指定すれば、その文書DC1の内容に応じた不要語の指定を動的に行うことが可能となり、重要単語の抽出結果の品質向上をはかるうえで有効である。
本実施形態の設定値辞書13には、第1の実施形態と同様、閾値(TH1〜TH4)、文字種(CS)、定義距離(LH1)なども設定されているが、そのほか、図14に示す処理規則表TB1が設定されている。
この処理規則表TB1は上述した予測を反映したもので、構造情報抽出手段31が文書DC1から構造情報を抽出したとき、その構造情報を示すタグの種類に応じて、そのタグで指定される範囲内の文字列を連想度計算手段16等がどのように取り扱うかを記述した規則集である。
処理規則表TB1はデータ項目として、構造情報(タグ名)と、ウエイトと、不要語処理を備えている。
このうちウエイトは、抽出した単語に関する単語頻度や共起頻度を計算するとき、計算結果に乗じる重みを示している。例えば、そのタグで指定された範囲のウエイトが「2」であれば、その範囲内に、ある単語が1回出現しただけで、2回出現したものとして扱われることになる。共起頻度に関しても同様で、1回共起しただけで2回共起したものとして扱われる。したがって、ウエイトの値が大きいほど、そのタグで指定された範囲から重要単語が抽出されやすくなる。また、ウエイトが「0」であれば、その範囲から重要単語が抽出されることはない。
データ項目としての不要語処理は、そのタグで指定された範囲から不要語の抽出処理を行うか否かを示す。「○」は行うことを、「×」は行わないことを示している。不要語抽出処理は、その範囲から抽出した単語を不要語辞書33に格納するものである。
不要語辞書33は、基本的に第2の実施形態の不要語辞書24と同じであるが、このように動的な不要語の追加を許容する点が相違する。
図14の例では、前記<Reference>タグで指定された範囲だけから不要語の抽出を行うことを指示している。
以上の通りであるから、本実施形態の動作は図6に示すフローチャートにまとめることができる。このフローチャートは基本的に図2のフローチャートに対応する。このフローチャートは、S50〜S55の各ステップを備えているが、そのうちステップS50は図2に示した前記ステップS10に対応し、ステップS52は前記ステップS11に対応し、ステップS53は前記ステップS12に対応し、ステップS54は前記ステップ13に対応するので、その詳しい説明は省略する。
また、図6中でステップS50とS52のあいだで実行されるステップS51は、前記構造情報抽出手段31による構造情報の抽出処理を示している。
さらに図6中で最後に実行されるステップS55は、前記不要語除去手段32が実行する不要語の除去を示している。
(C−2)第3の実施形態の効果
本実施形態によれば、第1の実施形態の効果と同等な効果を得ることができる。
加えて、本実施形態では、文書(DC1)が構造化文書である場合、構造情報を有効活用して、重要単語の抽出をより適切に行うことが可能となる。
また、本実施形態では、文書(DC1)が構造化文書である場合、構造情報を有効活用して、その文書(DC1)の内容に応じ動的に不要語を追加することができるため、抽出結果の品質をいっそう高めることができる。
(D)第4の実施形態
以下では、本実施形態が第1〜第3の実施形態と相違する点についてのみ説明する。
本実施形態は構造化文書だけを前提とするものではないが、不要語の動的な追加を行う点や、ウエイトなどを利用する点で、第1〜第3の実施形態のなかでは第3の実施形態に近い。
(D−1)第4の実施形態の構成および動作
本実施形態にかかる重要語抽出システム40の全体構成例を図7に示す。
図7において、当該重要語抽出システム40が備える構成要素11〜41のうち、図5と同じ符号11、12,13,14,15,16,17,18,19、32,33を付与した各構成要素の機能は基本的に第3の実施形態と同じなので、その詳しい説明は省略する。
図7中で、入力手段12と連想度計算手段16に接続された特徴的表現の抽出手段41は、文書DC1から特徴的表現を抽出する部分である。
特徴的表現を抽出した場合の処理規則は、図15の処理規則表TB2に示す通りである。当該処理規則表TB2は、前記処理規則表TB1と同様に、設定値辞書13内に格納されている。
図15において、当該処理規則表TB2は、データ項目として文の条件と、ウエイトと、不要語処理を備えている。
このうちウエイトは図14のウエイトと同じであり、不要語処理は図14の不要語処理と同じである。
また、文の条件は、特徴的表現抽出手段41が抽出する特徴的表現を示している。
『「具備する」を含む』などの文の条件は、図15に示すような自然言語(ここでは、日本語)で記述するのではなく、同等な内容を持つ正規表現などで記述できるようにしてもよいことは当然である。
本実施形態では、例えば、この「具備する」という特徴的表現が抽出された場合の制御(ウエイトを2とし、不要語処理を「×」とする)は、その1文の範囲内に限って適用されるものとする。
以上の通りであるから、本実施形態の動作は図8に示すフローチャートにまとめることができる。このフローチャートは基本的に図6のフローチャートに対応する。このフローチャートは、S60〜S65の各ステップを備えているが、そのうちステップS60は図6に示した前記ステップS50に対応し、ステップS62は前記ステップS52に対応し、ステップS63は前記ステップS53に対応し、ステップS64は前記ステップ54に対応し、ステップS65は前記ステップS55に対応するので、その詳しい説明は省略する。
また、図8中でステップS60とS62のあいだで実行されるステップS61は、前記特徴的表現抽出手段41による特徴的表現の抽出処理を示している。
本実施形態では、「具備する」など、その近傍に重要単語が高密度で配置されている可能性が高いと推定される特徴的な表現に着目し、その特徴的表現と同じ文に出現する単語が、優先的に重要単語として抽出されるように制御することができる。
また、本実施形態ではこれとは逆に、「識別記号」など書誌情報などが含まれる可能性が高いと推定される特徴的表現と同じ文に出現する単語は、重要単語とされにくくなるように制御することができる。
なお、必要に応じて、本実施形態を構造化文書に対して適用してもよいことは当然である。構造化文書は、タグなどを無視すれば(または、通常の文字列として扱えば)、構造化されていない通常の文書として処理することができる。
(D−2)第4の実施形態の効果
本実施形態によれば、第3の実施形態の効果と同等な効果を得ることができる。
加えて、本実施形態では、自由に特徴的表現を指定し、その特徴的表現と同じ文に出現する単語が重要単語とされやすくするか(されにくくするか)、また、特徴的表現が出現した文から不要語の抽出を行うか否かなどをきめ細かく指定して制御することが容易であり、柔軟性が高い。
さらに、本実施形態は、SGMLなどの構造化文書以外にも適用できる点で、第3の実施形態よりも適用範囲が広い。
(E)第5の実施形態
以下では、本実施形態が第1〜第4の実施形態と相違する点についてのみ説明する。
本実施形態は第1〜第4の実施形態のなかで、第4の実施形態にもっとも近い。
(E−1)第5の実施形態の構成および動作
本実施形態にかかる重要語抽出システム50の全体構成例を図9に示す。
図9において、当該重要語抽出システム50が備える構成要素11〜51のうち、図7と同じ符号11、12,13,14,15,16,17,18,19、32,33を付与した各構成要素の機能は基本的に第4の実施形態と同じなので、その詳しい説明は省略する。
図9中で、入力手段12と連想度計算手段16に接続された品詞情報の抽出手段51は、前記特徴的表現抽出手段41と同等な機能に加えて、特徴的表現を抽出した文と同じ文に含まれる各単語について品詞情報を抽出する機能を備えている。
本実施形態において当該品詞情報抽出手段51が特徴的表現を抽出し、特徴的表現を抽出した文と同じ文に含まれる各単語について品詞情報を抽出したときの処理規則は、図16の処理規則表TB3に示す通りである。当該処理規則表TB3は、前記処理規則表TB2と同様に、設定値辞書13内に格納されている。
図16において、当該処理規則表TB3は、データ項目として文の条件と、語句の条件と、ウエイトと、不要語処理を備えている。
このうちウエイト、不要語処理、文の条件は、図15と同じである。
語句の条件は、文の条件で指定した特徴的表現が出現した文と同じ文に含まれる各単語について格や品詞を指定するためのデータ項目である。したがって表TB3によれば、格や品詞の相違に応じて、きめ細かく制御を変更することができる。
図16に示す処理規則表TB3は、例えば、特徴的表現である「具備する」と同じ文に出現した単語については、主格ならウエイトを4,目的格ならウエイトを3とし、いずれの場合も、不要語として抽出することは行わないことを示している。
この場合、「具備する」と同じ文に出現した単語が例えば主格であれば、連想度計算手段16などは、その単語が1回出現しただけで4回出現したものとして扱い、1回共起しただけで4回共起したものとして扱うが、目的格であれば、1回出現しただけで3回出現したものとして扱い、1回共起しただけで3回共起したものとして扱うことになる。
以上の通りであるから、本実施形態の動作は図10に示すフローチャートにまとめることができる。このフローチャートは基本的に図8のフローチャートに対応する。このフローチャートは、S70〜S75の各ステップを備えているが、そのうちステップS70は図8に示した前記ステップS60に対応し、ステップS72は前記ステップS62に対応し、ステップS73は前記ステップS63に対応し、ステップS74は前記ステップ64に対応し、ステップS75は前記ステップS65に対応するので、その詳しい説明は省略する。
また、図10中でステップS70とS72のあいだで実行されるステップS71は、前記品詞情報抽出手段51による特徴的表現と品詞情報の抽出処理を示している。
(E−2)第5の実施形態の効果
本実施形態によれば、第4の実施形態の効果と同等な効果を得ることができる。
加えて、本実施形態では、特徴的表現が出現した文と同じ文に含まれる各単語についてその格や品詞を反映したいっそうきめ細かな制御を行うことが可能となる。
(F)他の実施形態
上記第1の実施形態において、設定値辞書13に格納した各設定値のうち、TH1とTH2は必須であるが、それ以外の情報は省略できる可能性がある。例えば、文書上に一度しか出現しない単語も処理の対象としたい場合などには、TH3は不要である。
また、前記閾値TH1〜TH4は上述したように絶対的な値に設定せず、少なくとも所定数の単語がその閾値以上となるように相対的かつ動的に変更するようにしてもよい。例えば、重要度閾値TH2を少なくとも5つの単語が得られるように動的に変更してもよい。この場合、重要度閾値TH2の大きさは、そのとき得られた単語のうち上位から5番目の単語の重要度と同じ値に設定するものであってよい。
さらに、前記式(2)におけるN、Fw、Fcとして、上述したように、変換後の文書DC11上のものを用いるのではなく、変換前の文書DC1上のものを用いてもよい。
なお、上記第4の実施形態では、例えば、前記「具備する」という特徴的表現が抽出された場合の制御(ウエイトを2とし、不要語処理を「×」とする(図15参照))は、その1文の範囲内に限って適用されるものとしたが、もし必要ならば、その1文を越えて適用することも可能である。また、例えば、特徴的表現の位置などを基準として前記検査方向にカウントする、単語数や文字数などで、この範囲を制限するようにしてもよい。単語数や文字数で制限する場合には、当然、その文を越えて範囲が設定されることがあり得る。この範囲は、前記定義距離LH1と同様、設定値辞書13などに予め格納しておくようにしてもよい。
必要に応じて、同じ文に対し、異なる制御が競合した場合の調停規則なども用意しておくとよい。前記制御を1文を越えて適用する場合はもちろん、前記制御を1文を越えて適用しない場合であっても、同じ文内に複数の特徴的表現が出現することもあり得るからである。
また、上記第3〜第5の実施形態では、構造情報や文の条件などに応じて、ウエイトと不要語処理を変化させたが、変化させるものは、ウエイトと不要語処理に限定する必要はない。
例えば、共起頻度を介することなく、前記式(2)などで算出される連想度そのものに重み付けを施してもよい。また、連想度閾値TH1や重要度閾値TH2の値、定義距離LH1の値を変化させてもよい。さらに、単語と単語のあいだ(単語対)に共起関係があるか否かを検査する際、集合ST1内に含まれている全単語対で検査するのではなく、ある単語対については共起関係を検査しないようにしてもよい。この場合、共起関係を検査しない単語対の範囲を構造情報や文の条件などに応じて変化させることができる。
さらに、上記第3〜第5の実施形態では、動的な不要語の追加は、後処理としての不要語の除去についてのみ行ったが、必ずしもこれに限定する必要はない。
前処理の段階ではまだ単語の切り出しさえ行われていないため、図3に示す不要語除去手段21に対応する不要語辞書22に対し動的な不要語の追加を行うことは困難であるが、図3などにおいて語句抽出手段14から重要度計算手段18にいたる処理系統のなかの任意の位置で、動的な不要語の追加およびこの追加に応じた単語(または単語対)の除去を行うことは可能である。
なお、前記文書(DC1)は、自然言語以外の構成要素を含んでいてもかまわない。例えば、図形や、画像などを含む文書に対しても本発明は適用可能である。
また、文書は自然言語以外の言語(例えば、プログラミング言語など)を含むものであってもかまわない。
さらに、上記第3〜第5の実施形態で使用した処理規則表TB3〜TB5の内容および構成(ここで、構成は、データ項目の組み合わせを指す)は、図14〜図16に示すものに限定する必要がないことは当然である。
以上の説明では主としてハードウエア的に本発明を実現したが、本発明はソフトウエア的に実現することも可能である。
第1の実施形態にかかる重要語抽出システムの全体構成例を示す概略図である。 第1の実施形態の動作説明図である。 第3の実施形態にかかる重要語抽出システムの全体構成例を示す概略図である。 第2の実施形態の動作説明図である。 第3の実施形態にかかる重要語抽出システムの全体構成例を示す概略図である。 第3の実施形態の動作説明図である。 第4の実施形態にかかる重要語抽出システムの全体構成例を示す概略図である。 第4の実施形態の動作説明図である。 第5の実施形態にかかる重要語抽出システムの全体構成例を示す概略図である。 第5の実施形態の動作説明図である。 第1の実施形態の動作説明図である。 第1の実施形態の動作説明図である。 第1の実施形態にかかる重要語抽出システムで使用する重要度計算手段の内部構成例を示す概略図である。 第3の実施形態の動作説明図である。 第4の実施形態の動作説明図である。 第5の実施形態の動作説明図である。
符号の説明
10…重要語抽出システム、11…文書格納手段、12…入力手段、13…設定値辞書、14…語句抽出手段、15…語句辞書、16…連想度計算手段、17…連想辞書、18…重要度計算手段、19…重要語辞書、CS1…切り出し用文字種、TH1…連想度閾値、TH2…重要度閾値、TH3…単語頻度閾値、TH4…共起頻度閾値、FL1〜FL5…ファイル、ST0、ST1…単語対集合、DC1、DC11…文書。

Claims (11)

  1. 多数の語句を含む文書から、その文書の内容を良好に表現する語句である重要語句を抽出する重要語抽出装置であって、
    語句のあいだの関連性の強さを示す連想度を算出する連想度算出部と、
    前記文書中の複数の語句から、前記重要語句の候補となる候補語句を選定する候補語句選定部と、
    前記候補語句のあいだの連想度を、前記連想度算出部に算出させ、その算出結果が所定の連想度閾値以上となる候補語句の集合を生成する集合生成部と、
    当該集合に含まれる各候補語句のうち1つを処理対象候補語句として選び、前記文書上における当該処理対象候補語句に対する位置が第1の定義距離内にあって、なおかつ当該集合に含まれる候補語句の数に応じた重要度を算出し、その重要度が所定の重要度閾値以上となるか否かを判定する重要性判定部とを備え、
    当該重要性判定部により前記重要度が重要度閾値以上であると判定された処理対象候補語句を、前記重要語句と決定することを特徴とする重要語抽出装置。
  2. 請求項1の重要語抽出装置において、
    前記重要性判定部による処理の過程では有用でなく、なおかつ、最終的に前記重要語句とされるべきでない語句を非候補語句として格納する前処理用非候補語句格納部を備え、
    前記候補語句選定部が文書中から候補語句を選定する際には、当該前処理用非候補語句格納部に格納されている非候補語句以外の語句を候補語句として選定することを特徴とする重要語抽出装置。
  3. 請求項1の重要語抽出装置において、
    前記重要性判定部による処理の過程では有用であるが、最終的に前記重要語句とされるべきでない語句を、非候補語句として格納する後処理用非候補語句格納部を備え、
    前記重要性判定部が処理対象候補語句を選ぶ際には、当該後処理用候補語句格納部に格納されている非候補語句以外の語句を処理対象候補語句として選ぶことを特徴とする重要語抽出装置。
  4. 請求項1の重要語抽出装置において、
    前記文書が所定の構造情報にしたがって構造化されている場合、各語句が配置されている部分構造に応じて、
    前記連想度算出部が算出する連想度を変化させる制御、
    前記集合生成部が使用する連想度閾値を変化させる制御、
    前記重要性判定部における処理対象候補語句の選定の基準、前記第1の定義距離の値、または、前記重要度閾値の値を変化させる制御のうち、いずれかの制御を実行することを特徴とする重要語抽出装置。
  5. 請求項1の重要語抽出装置において、
    前記文書中で、第2の定義距離内に配置された語句に関する前記重要度に影響を与える性質を持つ語句である特徴語句を抽出する特徴語句抽出部を備え、
    当該特徴語句抽出部が特徴語句を抽出した場合、その特徴語句から第2の定義距離内に存在する語句の処理に対し、
    前記連想度算出部が算出する連想度を変化させる制御、
    前記集合生成部が使用する連想度閾値を変化させる制御、
    前記重要性判定部における処理対象候補語句の選定の基準、前記第1の定義距離の値、または、前記重要度閾値の値を変化させる制御のうち、いずれかの制御を実行することを特徴とする重要語抽出装置。
  6. 請求項2または3の重要語抽出装置において、
    前記文書が所定の構造情報にしたがって構造化されている場合、各語句が配置されている部分構造に応じて、前記非候補語句の決定を行うことを特徴とする重要語抽出装置。
  7. 請求項2または3の重要語抽出装置において、
    前記文書中で、第2の定義距離内に配置された語句に関する前記重要度に影響を与える性質を持つ語句である特徴語句を抽出する特徴語句抽出部を備え、
    当該特徴語句抽出部が特徴語句を抽出した場合、その特徴語句から第2の定義距離内に配置された語句に関する非候補語句の決定の基準を第2の定義距離外に配置された語句と相違させることを特徴とする重要語抽出装置。
  8. 請求項1の重要語抽出装置において、
    前記候補語句選定部は、
    選定した候補語句について解析処理を実行する語句解析処理部を備え、
    当該語句解析処理部が解析処理の結果として、文書中で候補語句が配置されていた部分構造、当該候補語句から第2の定義距離内に存在して、当該候補語句の重要度に影響を与える性質を持つ語句である特徴語句、または、当該候補語句の品詞を特定する場合、その特定結果に応じて、
    前記連想度算出部が算出する連想度を変化させる制御、
    前記集合生成部が使用する連想度閾値を変化させる制御、
    前記重要性判定部における処理対象候補語句の選定の基準、前記第1の定義距離の値、または、前記重要度閾値の値を変化させる制御のうち、いずれかの制御を実行することを特徴とする重要語抽出装置。
  9. 請求項2または3の重要語抽出装置において、
    前記候補語句選定部は、
    選定した候補語句について解析処理を実行する語句解析処理部を備え、
    当該語句解析処理部が解析処理の結果として、文書中で候補語句が配置されていた部分構造、当該候補語句から第2の定義距離内に存在して、当該候補語句の重要度に影響を与える性質を持つ語句である特徴語句、当該候補語句の品詞を特定する場合、その特定結果に応じて、
    前記非候補語句の決定の基準を変化させることを特徴とする重要語抽出装置。
  10. 多数の語句を含む文書から、その文書の内容を良好に表現する語句である重要語句を抽出する重要語抽出方法であって、
    前記文書中の複数の語句から、前記重要語句の候補となる候補語句を選定し、
    前記候補語句のあいだで、語句間の関連性の強さを示す連想度を算出し、
    その算出結果が所定の連想度閾値以上となる候補語句の集合を生成し、
    当該集合に含まれる各候補語句のうち1つを処理対象候補語句として選び、 前記文書上における当該処理対象候補語句に対する位置が第1の定義距離内にあって、なおかつ当該集合に含まれる候補語句の数に応じた重要度を算出し、
    その重要度が所定の重要度閾値以上となるか否かを判定し、
    当該重要度が重要度閾値以上であると判定された処理対象候補語句を、前記重要語句と決定することを特徴とする重要語抽出方法。
  11. 多数の語句を含む文書から、その文書の内容を良好に表現する語句である重要語句を抽出する重要語抽出プログラムであって、コンピュータに、
    語句のあいだの関連性の強さを示す連想度を算出する連想度算出機能と、
    前記文書中の複数の語句から、前記重要語句の候補となる候補語句を選定する候補語句選定機能と、
    前記候補語句のあいだの連想度を、前記連想度算出機能に算出させ、その算出結果が所定の連想度閾値以上となる候補語句の集合を生成する集合生成機能と、
    当該集合に含まれる各候補語句のうち1つを処理対象候補語句として選び、前記文書上における当該処理対象候補語句に対する位置が第1の定義距離内にあって、なおかつ当該集合に含まれる候補語句の数に応じた重要度を算出し、その重要度が所定の重要度閾値以上となるか否かを判定する重要性判定機能とを実現させ、
    当該重要性判定機能により前記重要度が重要度閾値以上であると判定された処理対象候補語句を、前記重要語句と決定することを特徴とする重要語抽出プログラム。
JP2004032347A 2004-02-09 2004-02-09 重要語抽出装置、重要語抽出方法、および重要語抽出プログラム Pending JP2005222480A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004032347A JP2005222480A (ja) 2004-02-09 2004-02-09 重要語抽出装置、重要語抽出方法、および重要語抽出プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004032347A JP2005222480A (ja) 2004-02-09 2004-02-09 重要語抽出装置、重要語抽出方法、および重要語抽出プログラム

Publications (1)

Publication Number Publication Date
JP2005222480A true JP2005222480A (ja) 2005-08-18

Family

ID=34998036

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004032347A Pending JP2005222480A (ja) 2004-02-09 2004-02-09 重要語抽出装置、重要語抽出方法、および重要語抽出プログラム

Country Status (1)

Country Link
JP (1) JP2005222480A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007097419A1 (ja) * 2006-02-23 2007-08-30 Pioneer Corporation 楽曲検索装置及び方法、並びにコンピュータプログラム
JP2008186356A (ja) * 2007-01-31 2008-08-14 Hitachi Information Systems Ltd ドキュメントの整合性検査支援システムおよび方法、ならびにそのプログラム
WO2010103916A1 (ja) * 2009-03-13 2010-09-16 コニカミノルタホールディングス株式会社 文書の特徴語提示装置及び特徴語の優先度付与プログラム
JP2011215897A (ja) * 2010-03-31 2011-10-27 Meiji Univ データベース、類推エンジン及び類推システム
JP2013109635A (ja) * 2011-11-22 2013-06-06 Nippon Telegr & Teleph Corp <Ntt> 単語重要度算出装置とその方法とプログラム
US8977949B2 (en) 2007-10-11 2015-03-10 Nec Corporation Electronic document equivalence determination system and equivalence determination method
JP2015132899A (ja) * 2014-01-09 2015-07-23 日本放送協会 重要語抽出装置、及びプログラム

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007097419A1 (ja) * 2006-02-23 2007-08-30 Pioneer Corporation 楽曲検索装置及び方法、並びにコンピュータプログラム
JPWO2007097419A1 (ja) * 2006-02-23 2009-07-16 パイオニア株式会社 楽曲検索装置及び方法、並びにコンピュータプログラム
JP4792497B2 (ja) * 2006-02-23 2011-10-12 パイオニア株式会社 楽曲検索装置及び方法、並びにコンピュータプログラム
JP2008186356A (ja) * 2007-01-31 2008-08-14 Hitachi Information Systems Ltd ドキュメントの整合性検査支援システムおよび方法、ならびにそのプログラム
JP4588037B2 (ja) * 2007-01-31 2010-11-24 株式会社日立情報システムズ ドキュメントの整合性検査支援システムおよび方法、ならびにそのプログラム
US8977949B2 (en) 2007-10-11 2015-03-10 Nec Corporation Electronic document equivalence determination system and equivalence determination method
WO2010103916A1 (ja) * 2009-03-13 2010-09-16 コニカミノルタホールディングス株式会社 文書の特徴語提示装置及び特徴語の優先度付与プログラム
JP2011215897A (ja) * 2010-03-31 2011-10-27 Meiji Univ データベース、類推エンジン及び類推システム
JP2013109635A (ja) * 2011-11-22 2013-06-06 Nippon Telegr & Teleph Corp <Ntt> 単語重要度算出装置とその方法とプログラム
JP2015132899A (ja) * 2014-01-09 2015-07-23 日本放送協会 重要語抽出装置、及びプログラム

Similar Documents

Publication Publication Date Title
Zhang et al. Keyword extraction using support vector machine
TWI536181B (zh) 在多語文本中的語言識別
JP2009545808A5 (ja)
CN111680509A (zh) 基于共现语言网络的文本关键词自动抽取方法和装置
JP5273735B2 (ja) テキスト要約方法、その装置およびプログラム
Choubey et al. Identifying the most dominant event in a news article by mining event coreference relations
Sardinha An assessment of metaphor retrieval methods
Yokoi et al. Contextual analysis of mathematical expressions for advanced mathematical search
JP2005222480A (ja) 重要語抽出装置、重要語抽出方法、および重要語抽出プログラム
JP3594701B2 (ja) キーセンテンス抽出装置
CN116881595B (zh) 一种可自定义的网页数据爬取方法
JP4143085B2 (ja) 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
CN110020024B (zh) 一种科技文献中链接资源的分类方法、系统、设备
JP5447368B2 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
JP2009086903A (ja) 検索サービス装置
JP5073349B2 (ja) 専門用語抽出装置、方法及びプログラム
KR101078978B1 (ko) 문서 분류 시스템
JP4148247B2 (ja) 語彙獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
CN115757760A (zh) 文本摘要提取方法及系统、计算设备、存储介质
JP2006119697A (ja) 質問応答システム、質疑応答方法および質疑応答プログラム
JP2009271796A (ja) 文書データのノイズ除去システム
JP4389102B2 (ja) 技術文献検索システム
Kermani et al. Extractive persian summarizer for news websites
JP2009271797A (ja) 文書データのノイズ除去システム
Fayoumi et al. Su-nlp at trec news 2021