JP4308543B2 - キーフレーズ表現抽出装置、キーフレーズ表現抽出方法およびその方法をコンピュータに実行させるプログラム - Google Patents

キーフレーズ表現抽出装置、キーフレーズ表現抽出方法およびその方法をコンピュータに実行させるプログラム Download PDF

Info

Publication number
JP4308543B2
JP4308543B2 JP2003027351A JP2003027351A JP4308543B2 JP 4308543 B2 JP4308543 B2 JP 4308543B2 JP 2003027351 A JP2003027351 A JP 2003027351A JP 2003027351 A JP2003027351 A JP 2003027351A JP 4308543 B2 JP4308543 B2 JP 4308543B2
Authority
JP
Japan
Prior art keywords
notation
phrase
dependency
pair
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003027351A
Other languages
English (en)
Other versions
JP2004240576A (ja
Inventor
奈穂子 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2003027351A priority Critical patent/JP4308543B2/ja
Publication of JP2004240576A publication Critical patent/JP2004240576A/ja
Application granted granted Critical
Publication of JP4308543B2 publication Critical patent/JP4308543B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
この発明は、キーフレーズ表現抽出装置、キーフレーズ表現抽出方法、およびその方法をコンピュータに実行させるプログラムに関し、より詳しくは、大量の文書データの中から文書中のキーワードを抽出する文書情報抽出技術を用いたキーフレーズ表現抽出装置、キーフレーズ表現抽出方法およびその方法をコンピュータに実行させるプログラムに関する。
【0002】
【従来の技術】
従来より、大量の文書データの中から何らかの知見を見出す技術の一つとして、文書情報抽出技術が用いられている。この文書情報抽出技術は、文書の中から文書の内容を表現する有益な情報を抽出することができれば、それに基づいて文書検索、文書分類、あるいは文書分析などが正確に行えるようになる。
【0003】
従来の文書分類法としては、文書中のキーワードを抽出し、それを文書の内容表現と仮定して、文書分類を試みることが行われている(例えば、非特許文献1参照。)。このように、抽出される文書情報として現在もっとも広く利用されているのは、文書のキーとなる単語、すなわちキーワードである。
【0004】
また、このキーワードの同定方法としては、ユーザがキーワードを入力する方法と、キーワードを自動抽出する方法とがある。前者の方法では、ユーザの負担が大きいため、ユーザ負担の少ない後者の例として、文書中の単語の頻度を計量し、その頻度を単語の「重み」に換算して、自動的にキーワードを同定する方法が提案されている(例えば、特許文献1参照。)。
【0005】
さらに、対象テキストの構文情報を利用して語と語の関係を抽出し、文書検索や文書分類などの応用システムに利用する方法が提案されている(例えば、非特許文献2参照。)。これは、登録文書を係り受け解析し、係り受けの情報をインデックスに持たせて、係り受け関係をキーに文書検索を行ない、その効果を確認するものである。このように、対象テキストの構文情報を利用して語と語の関係が取得できるならば、語と語の関係を反映させた表現から特定の表現を抽出し、これを文書の内容表現と仮定することができると考えられる。従来の公報例において、対象文書を係り受け解析し、その結果得られる構文木や線形リストを構築して、単語と位置関係の頻出パターンを制約条件やパラメータを用いて自動抽出する方法が提案されている(例えば、特許文献2参照。)。
【0006】
また、文書のキーワードを抽出する際に、同じ意味でありながら異表記で出現する語があると、頻度を計量する際に別の語として扱われてしまい、計量精度が悪くなることがあった。このため、専門語について正表記と異表記とを対応させて記憶する手段を設け、これで表記変換を行って単語の出現頻度を計量する方法が提案されている(例えば、特許文献3参照。)。
【0007】
【特許文献1】
特開平8−30627号公報(第7−8頁、図9)
【特許文献2】
特開2001−84250号公報(第4−6頁、図3)
【特許文献3】
特開平11−53384号公報(第8−13頁、図1)
【非特許文献1】
岡田真、奥野雅史、獅々堀正幹、青江順一、“キーワード抽出を用いた文書分類法”、情報処理学会、第55回全国大会、4Q-4、p.210−211、1997
【非特許文献2】
新美和彦、兵藤安昭、池田尚志、“係り受け情報を用いた全文検索とその評価”ディジタル図書館ワークショップ第11回、p.27−34、1998
【0008】
【発明が解決しようとする課題】
しかしながら、このような従来の文書情報抽出技術を用いたキーワード抽出方法にあっては、上記特許文献1の場合、文書の内容表現として単語のみを用いているため、文書検索や文書分類などの応用システムにおいて、再現率など精度面で限界があった。例えば、「価格が高い」という内容を想定して、「価格&高い」を検索キーとして文書検索すると、「解像度が高いカメラで価格が安い機種を教えて欲しい」といった文意の全く異なる文書が検索される可能性があるという問題があった。これは、キーワード同士がアンド、オアの論理式による表現であるため、テキスト内容が十分表現できていないことに起因している。
【0009】
また、上記特許文献2などの場合にあっては、文書の係り受け解析を行い、その係り受け関係をキーとして文書検索を行なうため、文書の内容表現が反映されているが、構文木や線形リストを構築しなければならないので処理時間がかかる上、ユーザがパターンの制約条件やパラメータを設定する場合に高度な文法知識を必要とすることから、実用的でないという問題があった。
【0010】
さらに、キーワードを抽出する際に、異表記に対処する方法として、例えば専門分野における正表記と異表記とを対応させて記憶する手段を設けることも考えられる。しかし、対象文書の専門分野が変わると対応できなくなったり、外来語のカタカナ表記のバリエーションなどを全て辞書に登録しようとすると、辞書の容量が増加して検索に時間がかかったり、辞書のメンテナンスにコストがかかるという問題が生じる。その上、上記特許文献3には、用言の活用形の統一化や略語などの扱いに関する記載がないため、これらに対してどのように対応すればよいかが明確でなかった。
【0011】
この発明は上記に鑑みてなされたもので、文書中からその文書の内容を表現する有益な情報を高度な文法知識を持たなくても容易かつ迅速に抽出することができると共に、文書中に同じ意味で表記の異なるさまざまな形態の異表記語句があっても少ない辞書容量で対処することができるキーフレーズ表現抽出装置、キーフレーズ表現抽出方法およびその方法をコンピュータに実行させるプログラムを提供することを目的とする。
【0012】
【課題を解決するための手段】
上記目的を達成するため、請求項1にかかる発明は、二つ以上の文節で構成される文書に対して係り受け関係にある文節対を同定する言語解析手段と、係り受け関係にある文節対の各構成単語を取り出し、表記変換辞書を用いて同じ意味で表記の異なる単語同士を同じ表記となるように変換する表記変換手段と、前記表記変換手段で表記変換済みの表記で表現された係り受け関係にある文節対を1単位として文書中における出現頻度を検出する計量手段と、を含み、前記計量手段にて、一定の閾値以上の頻度で出現する文節対を特定の文節対として抽出する特定係り受け文節対抽出手段と、特定の係り受け関係にある文節対の係り文節と受け文節のそれぞれの文節の自立語と、係り受け関係名とを抽出してキーフレーズ表現を生成するキーフレーズ表現生成手段と、を備えたことを特徴とする。
【0013】
この請求項1の発明によれば、言語解析手段によって二つ以上の文節で構成される文書に対して係り受け関係にある文節対を同定し、特定係り受け文節対抽出手段が、係り受け関係にある文節対の各構成単語を取り出し、表記変換辞書を用いて同じ意味で表記の異なる単語同士を同じ表記となるように変換する表記変換手段と、表記変換手段で表記変換済みの表記で表現された係り受け関係にある文節対を1単位として文書中における出現頻度を検出する計量手段とを含み、その計量手段によって、一定の閾値以上の頻度で出現する文節対を特定の文節対として抽出し、キーフレーズ表現生成手段によってその特定の係り受け関係にある文節対の係り文節と受け文節のそれぞれの文節の自立語と、係り受け関係名とを抽出してキーフレーズ表現を生成するようにしたため、文書の内容を特定の文節対に基づいて表現することができ、単なるキーワードではなく、語と語の関係が加味されたキーフレーズ表現が抽出可能となる。また、表記変換手段によって同じ意味で表記の異なる単語同士を表記変換辞書を用いて同じ表記となるように変換するので、異表記が混在して別の語として扱われることがなくなり、精度の高いキーフレーズ表現を抽出することが可能となる。さらに、計量手段によって係り受け文節対を計量することによる頻度情報を用いて自動的にキーフレーズ表現を抽出することが可能となり、表記変換を行なってから係り受け文節対を計量するので、より精度の高いキーフレーズ表現を自動的に抽出することが可能となる。
【0014】
また、請求項2にかかる発明は、請求項1に記載のキーフレーズ表現抽出装置において、前記表記変換辞書には、見出し語表記に対応させて、当該見出し語表記と意味が同じで表記の異なる異表記、当該見出し語表記が用言の場合の活用形情報、および表記ゆれによって異表記となる場合の表記変換規則のうち少なくとも1つが登録されていることを特徴とする。
【0015】
この請求項2の発明によれば、表記変換辞書には見出し語表記に対応させて、見出し語表記と意味が同じで表記の異なる異表記、当該見出し語表記が用言の場合の活用形情報、および表記ゆれによって異表記となる場合の表記変換規則のうち少なくとも1つが登録されているため、異表記の範囲として、用言の活用形や、略語表記などにも対応した、より精度の高いキーフレーズ表現を抽出することが可能となる。
【0016】
また、請求項3にかかる発明は、請求項2に記載のキーフレーズ表現抽出装置において、前記表記変換手段は、表記変換の対象となる単語が前記表記変換辞書に登録された異表記に一致すると、これに対応した見出し語表記に変換し、表記変換の対象となる語が用言の場合は、前記表記変換辞書に登録された活用形情報に一致すると、これに対応した見出し語表記に変換した後、活用形情報を参照してその活用形を終止形または原形に変換し、表記変換の対象となる語が表記ゆれ対象語の場合は、前記表記変換辞書に登録されている表記変換規則どおりに表記を変換することを特徴とする。
【0017】
この請求項3の発明によれば、表記変換の対象となる単語が表記変換辞書に記載されている場合は、表記変換辞書の見出し語表記に変換され、対象となる語が用言の場合は、見出し語表記へ変換した後に活用形情報を参照してその活用形を終止形または原形に変換され、入力された語が辞書記載の表記ゆれ対象語の場合は、表記変換規則どおりに表記が変換されるため、異表記の範囲として、用言の活用形や、略語表記などにも対応した、より精度の高いキーフレーズ表現を抽出することが可能となる。
【0018】
また、請求項4にかかる発明は、キーフレーズ表現抽出装置で実行されるキーフレーズ表現抽出方法であって、前記キーフレーズ表現抽出装置は、言語解析手段、表記変換手段と計量手段とを含む特定係り受け文節対抽出手段、キーフレーズ表現生成手段を備え、前記言語解析手段が、二つ以上の文節で構成される文書に対して係り受け関係にある文節対を同定する言語解析ステップと、前記特定係り受け文節対抽出手段が、係り受け関係にある文節対の各構成単語を取り出し、表記変換辞書を用いて同じ意味で表記の異なる単語同士を同じ表記となるように変換する表記変換手段と、前記表記変換手段で表記変換済みの表記で表現された係り受け関係にある文節対を1単位として文書中における出現頻度を検出する計量手段と、を含み、前記計量手段にて、一定の閾値以上の頻度で出現する文節対を特定の文節対として抽出する特定係り受け文節対抽出ステップと、前記キーフレーズ表現生成手段が、特定の係り受け関係にある文節対の係り受け文節と受け文節のそれぞれの文節の自立語と、係り受け関係名とを抽出してキーフレーズ表現を生成するキーフレーズ表現生成ステップと、を含むことを特徴とする。
【0019】
この請求項4の発明によれば、言語解析ステップによって二つ以上の文節で構成される文書に対して係り受け関係にある文節対を同定し、特定係り受け文節対抽出手段が、係り受け関係にある文節対の各構成単語を取り出し、表記変換辞書を用いて同じ意味で表記の異なる単語同士を同じ表記となるように変換する表記変換手段と、表記変換手段で表記変換済みの表記で表現された係り受け関係にある文節対を1単位として文書中における出現頻度を検出する計量手段とを含み、その計量手段によって、一定の閾値以上の頻度で出現する文節対を特定の文節対として抽出し、キーフレーズ表現生成ステップによってその特定の係り受け関係にある文節対の係り文節と受け文節のそれぞれの文節の自立語と、係り受け関係名とを抽出してキーフレーズ表現を生成するようにしたため、文書の内容を特定の文節対に基づいて表現することができ、単なるキーワードではなく、語と語の関係が加味されたキーフレーズ表現が抽出可能となる。また、表記変換手段によって同じ意味で表記の異なる単語同士を表記変換辞書を用いて同じ表記となるように変換するので、異表記が混在して別の語として扱われることがなくなり、精度の高いキーフレーズ表現を抽出することが可能となる。さらに、計量手段によって係り受け文節対を計量することによる頻度情報を用いて自動的にキーフレーズ表現を抽出することが可能となり、表記変換を行なってから係り受け文節対を計量するので、より精度の高いキーフレーズ表現を自動的に抽出することが可能となる。
【0020】
また、請求項5にかかる発明は、請求項4に記載のキーフレーズ表現抽出方法において、前記表記変換辞書には、見出し語表記に対応させて、当該見出し語表記と意味が同じで表記の異なる異表記、当該見出し語表記が用言の場合の活用形情報、および表記ゆれによって異表記となる場合の表記変換規則のうち少なくとも1つが登録されていることを特徴とする。
【0021】
この請求項5の発明によれば、表記変換辞書には見出し語表記に対応させて、見出し語表記と意味が同じで表記の異なる異表記、当該見出し語表記が用言の場合の活用形情報、および表記ゆれによって異表記となる場合の表記変換規則のうち少なくとも1つが登録されているため、異表記の範囲として、用言の活用形や、略語表記などにも対応した、より精度の高いキーフレーズ表現を抽出することが可能となる。
【0022】
また、請求項6にかかる発明は、請求項5に記載のキーフレーズ表現抽出方法において、前記表記変換手段は、表記変換の対象となる単語が前記表記変換辞書に登録された異表記に一致すると、これに対応した見出し語表記に変換し、表記変換の対象となる語が用言の場合は、前記表記変換辞書に登録された活用形情報に一致すると、これに対応した見出し語表記に変換した後、活用形情報を参照してその活用形を終止形または原形に変換し、表記変換の対象となる語が表記ゆれ対象語の場合は、前記表記変換辞書に登録されている表記変換規則どおりに表記を変換することを特徴とする。
【0023】
この請求項6の発明によれば、表記変換の対象となる単語が表記変換辞書に記載されている場合は、表記変換辞書の見出し語表記に変換され、対象となる語が用言の場合は、見出し語表記へ変換した後に活用形情報を参照してその活用形を終止形または原形に変換され、入力された語が辞書記載の表記ゆれ対象語の場合は、表記変換規則どおりに表記が変換されるため、異表記の範囲として、用言の活用形や、略語表記などにも対応した、より精度の高いキーフレーズ表現を抽出することが可能となる。
【0024】
また、請求項7にかかる発明は、請求項4〜6のいずれか一つに記載された方法をコンピュータに実行させるためのプログラムである。
【0025】
この請求項7の発明によれば、上記した請求項4〜6のいずれか一つに記載された方法をコンピュータによって実行することができる。
【0058】
【発明の実施の形態】
以下に添付図面を参照して、この発明にかかるキーフレーズ表現抽出装置、キーフレーズ表現抽出方法およびその方法をコンピュータに実行させるプログラムに関する好適な実施の形態を詳細に説明する。
【0059】
図1は、本発明の一実施の形態にかかるキーフレーズ表現抽出装置の構成例を示すブロック図である。図1のキーフレーズ表現抽出装置10は、情報入力手段を含む入出力部11、文書登録部12、文書記憶部13、言語解析手段としての言語解析部14、言語解析用辞書15、言語情報記憶部16、特定係り受け文節対抽出手段としての特定係り受け文節対抽出部17、表記変換手段としての表記変換部18、表記変換辞書19、計量手段としての計量部20、語句記憶手段としての語句記憶部21、品詞記憶手段としての品詞記憶部22、係り受け関係記憶手段としての係り受け関係記憶部23、特定文節対記憶部24、および、キーフレーズ表現生成手段としてのキーフレーズ表現生成部25などで構成されている。
【0060】
入出力部11は、登録する文書データを入力したり、ユーザが任意の単語や品詞情報の入力を行ったり、本実施の形態のキーフレーズ表現抽出装置10で抽出したキーフレーズ表現生成結果を出力したりするものである。この入出力部11は、入力部と出力部とに分けることができ、入力部の具体例としては、キーボード、あるいは音声を入力するマイクロフォンなどがあり、出力部の具体例としては、ディスプレイ、あるいは音声を出力するスピーカなどがある。
【0061】
文書登録部12は、登録文書が入出力部11から入力されると、先頭の文書から順に文書記憶部13に格納するもので、文書記憶部13には、登録文書データが格納される。
【0062】
言語解析部14は、文書登録部12に格納されているテキストに対して言語解析処理を実施するもので、形態素解析と係り受け解析とが行われる。形態素解析は、テキストを単語毎に区切り、品詞など各単語の属性を付加する処理であって(長尾真 監修「日本語情報処理」(社)電子通信学会、1984年、第4章「形態素解析」参照。)、その処理方法には、最長一致法、コスト最小法、用例検索法などの既存の手法を用いることができる。また、係り受け解析は、係り受け処理の1単位である文節を生成して、文節と文節がどのような関係にあるかのを同定する処理であって(長尾真監修「日本語情報処理」(社)電子通信学会、1984年、第5章「構文解析」、および、吉田将「二文節間の係り受けを基礎とした日本語の構文分析」電子情報通信学会論文誌55-D(4)、p.238−244参照。)既存の手法を用いることができる。この言語解析部14は、言語解析用辞書15などを用いて文書記憶部13に格納されているテキストの係り受け解析処理が終わると、その解析結果が言語情報記憶部16に記憶され、文書記憶部13には次の登録文書が格納される。
【0063】
特定係り受け文節対抽出部17は、登録文書を言語解析して係り受け関係にあると同定された文節対の中から特定の文節対を抽出するものである。本実施の形態において、特定の文節対を抽出する方法として、(1)係り受け文節対の計量による自動抽出、(2)係り受け文節対の言語的特徴(登録語句、登録品詞、係り受け関係登録)を用いた自動抽出、(3)ユーザ指定(ユーザからの言語情報入力など)による抽出を提供する。この方法を用いることによって、ユーザは特別な文法の知識を必要とせずに文書内容を表現する特定の文節対を抽出することができ、実施が容易となる。
【0064】
表記変換部18は、全ての係り受け文節対の単語に対して表記変換辞書19を適用し、その表記変換辞書19に登録されている異表記、もしくは規則、活用形リストなどの間でマッチングを実施することにより、例えば、異表記と一致する語があった場合は、その語の表記を辞書の見出し語表記へと変換する。これは、語句の意味が同じでも表記が異なると別の語として扱われてしまうため、同じ表記に統一させるためである。その変換結果は、変換バッファに格納される。この変換バッファは、図1の表記変換部18に内蔵させてもよいが、変換前の文書データを格納していた言語情報記憶部16内に別領域を確保し、変換結果を格納してもよい。また、表記変換辞書19との間でマッチングを行うためのマッチングバッファは、ここでは、表記変換部18内に設けられ、一致不一致の照合が行われる。また、本実施の形態では、後述する図11のような表記変換辞書19を用いている。
【0065】
計量部20は、係り受け関係にある文節対を1単位として文書中における出現頻度を計量するものである。特定係り受け文節対抽出部17は、この計量部20からの計量結果を参照し、一定の閾値(例えば、N)以上の頻度で出現している文節対を特定係り受け文節対と同定して抽出し、後述する特定文節対記憶部24へ格納する。また、一定の閾値以下の文節対については、抽出対象外として特定文節対記憶部24には格納されない。
【0066】
語句記憶部21は、係り受け関係にあると同定された文節対の中から特定の文節対を抽出するための語句を予め登録して、記憶しておくところである。すなわち、係り受け関係にある文節対に含まれる単語が、語句記憶部21に記憶されている語句の単語と一致すると、その文節対を特定の文節対として抽出し、キーフレーズ表現が生成される。
【0067】
品詞記憶部22は、係り受け関係にあると同定された文節対の中から特定の文節対を抽出するための単語の品詞を予め登録して、記憶しておくところである。すなわち、係り受け関係にある文節対に含まれる単語の品詞が、品詞記憶部22に記憶されている品詞と一致すると、その文節対を特定の文節対として抽出し、キーフレーズ表現が生成される。
【0068】
係り受け関係記憶部23は、係り受け関係にあると同定された文節対の中から特定の文節対を抽出するための文節間の係り受け関係を予め登録して、記憶しておくところである。すなわち、係り受け関係にある文節対の係り受け関係が、係り受け関係記憶部23に記憶されている係り受け関係と一致すると、その文節対を特定の文節対として抽出し、キーフレーズ表現が生成される。
【0069】
特定文節対記憶部24は、特定係り受け文節対抽出部17によって特定係り受け文節対と同定され文節対を格納するところである。
【0070】
キーフレーズ表現生成部25は、特定の係り受け文節対を取り出し、係り文節と受け文節のそれぞれの文節の自立語と、係り受け関係名とを抽出してキーフレーズ表現を生成するものである。この係り受け関係名は、何らかのフラグで表現したり、係り受け関係毎の重みに代表される一定の値を与えるものでもよい。
【0071】
次に、本実施の形態にかかるキーフレーズ表現抽出装置の動作について説明する。図2は、本実施の形態にかかるキーフレーズ表現抽出装置の概略動作を説明する全体フローチャートである。図2に示すように、図1のキーフレーズ表現抽出装置10を使って、入力され登録された文書群の言語解析処理が行われる(ステップS200)。言語解析処理は、文書群を言語解析して、係り受け文節対を生成するもので、まず、登録文書のテキストを単語毎に区切り、品詞など各単語の属性を付加する形態素解析を行った後、係り受け処理の1単位である文節を生成して、その文節と文節がどのような関係にあるかを同定する係り受け解析が行われる。
【0072】
続いて、上記言語解析処理で生成された係り受け文節対を使って、特定の文節対を抽出する特定係り受け文節対抽出処理が行われる(ステップS201)。特定の文節対を抽出する際には、語句登録がある場合、品詞登録がある場合、あるいは、係り受け関係登録がある場合とによって処理が異なり、また、語句の頻度を計量して、一定以上の頻度がある場合に特定の文節対として抽出することができる。さらに、文書内の係り受け文節対に対して特定の係り受け文節対を抽出処理する前に、意味が同じで表記の異なる異表記語句があると、別の係り受け文節対として扱われるため、これらの表記を統一化する表記変換処理を実施するようにしてもよい。
【0073】
続いて、抽出された特定係り受け文節対の中からキーフレーズ表現を生成する処理が行われる(ステップS202)。このキーフレーズ表現生成処理は、特定の係り受け文節対の先頭文節対から係り文節と受け文節のそれぞれの文節の自立語と係り受け関係名とを抽出することによって、キーフレーズ表現が生成される。この処理は、特定の係り受け文節対がなくなるまで繰り返される。
【0074】
図3は、図2の言語解析処理のサブルーチンを示すフローチャートである。図3に示す言語解析処理では、まずキーフレーズ表現生成指示の有無を確認して、キーフレーズ表現生成指示が有ると(ステップS300)、文書登録部12が登録文書の有無をチェックする(ステップS301)。文書登録部12は、入出力部11からの登録文書が有ると、その先頭の文書から順に文書記憶部13に格納する(ステップS302)。
【0075】
次いで、言語解析部14は、文書記憶部13の中のテキストに対して形態素解析を実施する(ステップS303)。形態素解析では、テキストを単語毎に区切って、品詞など各単語の属性を付加する処理が行われ、その処理方法としては、最長一致法、コスト最小法、あるいは用例検索法といった既存の手法を用いることができる。
【0076】
続いて、言語解析部14では、係り受け解析が実施される(ステップS304)。係り受け解析では、係り受け処理の1単位である文節を生成して、文節と文節がどのような関係にあるかを同定する処理が行われ、その処理方法としては既存の手法を用いることができる。
【0077】
上述した形態素解析処理および係り受け解析処理は、言語解析部14が言語解析用辞書15を用いて行っている。言語解析部14は、文書記憶部13に格納されたテキストの係り受け解析処理を終えると(ステップS305)、その解析結果を言語情報記憶部16に記憶させ(ステップS306)、ステップS301に戻る。そして、文書記憶部13には、次の登録文書が格納される。
【0078】
また、上記ステップS305において、テキストの係り受け解析処理が終了していなければ、再びステップS304に戻り、形態素解析処理と係り受け解析処理が繰り返される。
【0079】
また、上記ステップS301において、処理対象の登録文書が無くなると、言語解析処理を終了し、図2のメインルーチンに戻る。
【0080】
図4は、図2の特定係り受け文節対抽出処理において語句登録がある場合のサブルーチンを示すフローチャートである。図4の特定係り受け文節対抽出処理では、キーフレーズ表現生成指示が有ると(ステップS400)、特定係り受け文節対抽出部17が、言語情報記憶部16に格納されている係り受け文節対を読み込む(ステップS401)。
【0081】
そして、ここでは、読み込んだ係り受け文節対の中に同じ意味で表記の異なる異表記がある場合に、表記を統一するための表記変換処理が行われる(ステップS402)。表記変換処理の具体的な動作説明については、図5を使って後述する。
【0082】
続いて、特定の文節対を抽出するための語句が語句記憶部21に登録されているか否かを判断し(ステップS403)、登録されている場合は、その語句の表記変換処理が行われる(ステップS404)。この語句表記変換処理の動作説明についても、図5を用いて後述する。
【0083】
そして、表記変換処理後の係り受け文節対の先頭文節対を読み出して(ステップS405)、その文節の先頭単語から登録語句とのマッチング処理を順に行ってゆく(ステップS406)。
【0084】
マッチング処理の結果、一致語句があった場合は(ステップS407でYES)、その文節対を特定係り受け文節対と同定して(ステップS408)、特定文節対記憶部24に格納し(ステップS409)、メインルーチンに戻る。
【0085】
マッチング処理の結果、一致語句がなかった場合は(ステップS407でNO)、抽出対象外の文節対と判断し(ステップS410)、特定文節対記憶部24に格納せずにメインルーチンに戻る。
【0086】
なお、上記ステップS403において、語句登録がない場合、あるいは、上記ステップS400でキーフレーズ表現生成指示がない場合は、ステップS400に戻り、語句登録あるいはキーフレーズ表現生成指示があるまで待機する。
【0087】
図5は、図4において表記変換処理を行う場合のサブルーチンを示すフローチャートである。図4のステップS402の係り受け文節対表記変換処理、および、ステップS404の語句表記変換処理がこれに該当する。まず、図5のステップS500では、係り受け文節対あるいは語句の入力の有無が判断され、入力があると、その先頭語句をマッチングバッファへ入力する(ステップS501)。マッチングバッファは、図1に図示されていないが、表記変換辞書19と照合するためのワークエリアとして表記変換部18内に設けてもよく、また、これとは別個に設けてもよい。
【0088】
そして、先頭から単語を取り出して(ステップS502)、表記変換辞書19とのマッチング処理が行われる(ステップS503)。図11は、この表記変換辞書の記述内容とその辞書適用変換例を示した図である。マッチング処理を行う場合に、図11の表記変換辞書1100に記載された異表記のいずれかと、取り出した単語とが一致すると、これに対応する見出し語表記に変換するようにする(ステップS505)。例えば、「記録媒体」と「記録メディア」という異表記が混在する文書があった場合に、その語句を「記録媒体」に統一することができる。
【0089】
上記ステップS505で変換された見出し語表記、あるいは、ステップS504で異表記との一致がなかった場合は、その表記を変換バッファに格納する(ステップS506)。図1には変換バッファが図示されていないが、特定係り受け文節対を抽出する前の係り受け文節対を格納している言語情報記憶部16を変換バッファとして利用することができる。例えば、表記変換を行った場合は、該当するテキストデータを書き換えるようにする。勿論、これ以外に、変換バッファを別に構成してもよい。
【0090】
ステップS507において、語句末でない場合は、次語句の有無が判断され(ステップS508)、次の語句が有る場合はその語句をマッチングバッファへ格納した後(ステップS509)、ステップS502に戻って上記表記変換処理が繰り返される。また、ステップS507で語句末でない場合も、ステップS502に戻って表記変換処理が繰り返される。
【0091】
ステップS508において、次語句がない場合は、表記変換処理が終了し、それぞれ図4の元のルーチンに戻る。
【0092】
次に、図6は、図2の特定係り受け文節対抽出処理において品詞登録がある場合のサブルーチンを示すフローチャートである。図6の特定係り受け文節対抽出処理では、キーフレーズ表現生成指示があると(ステップS600)、特定係り受け文節対抽出部17が、言語情報記憶部16に格納されている係り受け文節対を読み込む(ステップS601)。
【0093】
そして、特定の文節対を抽出するための品詞が品詞記憶部22に登録されているか否かを判断し(ステップS602)、登録されている場合は、係り受け文節対の先頭文節対の品詞を読み出して(ステップS603)、その文節の先頭品詞から順に登録品詞とのマッチング処理が行われる(ステップS604)。
【0094】
マッチング処理の結果、一致品詞があった場合は(ステップS605でYES)、その文節対を特定係り受け文節対として同定し(ステップS606)、特定文節対記憶部24に格納され(ステップS607)、メインルーチンに戻る。
【0095】
マッチング処理の結果、一致品詞がなかった場合は(ステップS605でNO)、抽出対象外の文節対と判断され(ステップS608)、特定文節対記憶部24に格納することなくメインルーチンに戻る。
【0096】
なお、上記ステップS602において、品詞登録がない場合、あるいは、上記ステップS600でキーフレーズ表現生成指示がない場合は、ステップS400に戻り、品詞登録あるいはキーフレーズ表現生成指示があるまで待機する。
【0097】
次に、図7は、図2の特定係り受け文節対抽出処理において係り受け登録がある場合のサブルーチンを示すフローチャートである。図7の特定係り受け文節対抽出処理では、キーフレーズ表現生成指示が有ると(ステップS700)、特定係り受け文節対抽出部17が、言語情報記憶部16に格納されている係り受け文節対を読み込む(ステップS701)。
【0098】
そして、特定の文節対を抽出するための係り受け関係が係り受け関係記憶部23に登録されているか否かを判断し(ステップS702)、登録されている場合は、係り受け文節対の先頭文節対の係り受け関係を読み出して(ステップS703)、その文節の係り受け関係と登録係り受け関係とのマッチング処理が行われる(ステップS704)。
【0099】
マッチング処理の結果、一致する係り受け関係があった場合は(ステップS705でYES)、その文節対を特定係り受け文節対と同定して(ステップS706)、特定文節対記憶部24に格納し(ステップS707)、メインルーチンに戻る。
【0100】
マッチング処理の結果、一致する係り受け関係がなかった場合は(ステップS705でNO)、抽出対象外の文節対と判断され(ステップS708)、特定文節対記憶部24に格納することなくメインルーチンに戻る。
【0101】
なお、上記ステップS702において、係り受け登録がない場合、あるいは、上記ステップS700でキーフレーズ表現生成指示がない場合は、ステップS700に戻って、係り受け登録あるいはキーフレーズ表現生成指示があるまで待機する。
【0102】
次に、図8は、図2の特定係り受け文節対抽出処理においてユーザから任意の言語情報入力があった場合のサブルーチンを示すフローチャートである。図8の特定係り受け文節対抽出処理では、キーフレーズ表現生成指示が有ると(ステップS800)、特定係り受け文節対抽出部17が、言語情報記憶部16に格納されている係り受け文節対を読み込む(ステップS801)。
【0103】
そして、特定係り受け文節対抽出部17は、ユーザからの任意の言語情報の入力の有無を判断し(ステップS802)、入力があった場合にそれが語句であれば、図中の▲1▼を介して上記図4のステップS404に移行処理される。また、ユーザからの入力が語句ではなく、品詞の場合は、図中の▲2▼を介して上記図6のステップS603に移行処理される。また、ユーザからの入力が語句でも品詞でもなく、係り受け関係であった場合は、図中の▲3▼を介して上記図7のステップS703に移行処理される。
【0104】
ユーザからの入力が語句でも品詞でも係り受け関係でもない場合については、ここでは、入力受付対象外と判断され(ステップS806)、そのままメインルーチンに戻る。
【0105】
次に、図9は、図2の特定係り受け文節対抽出処理において係り受け文節対の頻度を計量する場合のサブルーチンを示すフローチャートである。図9の特定係り受け文節対抽出処理では、キーフレーズ表現生成指示が有ると(ステップS900)、特定係り受け文節対抽出部17が、言語情報記憶部16に格納されている係り受け文節対を読み込む(ステップS901)。
【0106】
そして、ここでは、読み込んだ係り受け文節対の中に同じ意味で表記の異なる異表記がある場合に、表記を統一するための表記変換処理が行われる(ステップS902)。この表記変換処理は、上述した図4のステップS402および図5で説明した表記変換処理と同様であるので、説明を省略する。
【0107】
表記変換処理が済むと、変換済みの表記を用いて、文節対毎の頻度の計量を実施し(ステップS903)、全文節対に対する処理が終了するまで計量が繰り返される(ステップS904)。
【0108】
全ての文節対に対する計量が終了すると、ステップS905において、一定の閾値Nが定めてある場合に、その閾値N以上の頻度の係り受け文節対があると、特定係り受け文節対と同定し(ステップS906)、特定文節対記憶部24に格納して(ステップS907)、メインルーチンに戻る。
【0109】
ステップS905において、頻度が閾値N未満の係り受け文節対の場合については(ステップS905でNO)、抽出対象外の文節対と判断され(ステップS980)、特定文節対記憶部24に格納することなくメインルーチンに戻る。
【0110】
次に、図10は、図2のキーフレーズ表現生成処理のサブルーチンを示すフローチャートである。図10に示すキーフレーズ表現生成処理では、まずキーフレーズ表現生成指示の有無を確認し、キーフレーズ表現生成指示があった場合は(ステップS1000)、キーフレーズ表現生成部25が特定文節対記憶部24を見に行き、特定係り受け文節対の有無をチェックする(ステップS1001)。キーフレーズ表現生成部25は、特定文節対記憶部24に特定係り受け文節対があるとこれを取り出し(ステップS1002)、各文節における自立語を抽出する(ステップS1003)。また、その文節対の係り受け関係名も抽出し(ステップS1004)、抽出した自立語と係り受け関係名とをキーフレーズ表現バッファへ格納する(ステップS1005)。このキーフレーズ表現バッファは、図1に図示されていないが、特定文節対から抽出した自立語と係り受け関係名とを格納するものであるため、特定文節対記憶部24あるいはキーフレーズ表現生成部25内に設けるか、これとは別個に構成してもよい。
【0111】
次の特定係り受け文節対がある場合は(ステップS1006)、ステップS1002に戻って、上記したキーフレーズ表現の抽出処理が繰り返される。
【0112】
ステップS1006において、次の特定係り受け文節対がない場合、あるいは、ステップS1001において、特定係り受け文節対がない場合は、キーフレーズ表現生成処理が終了すると、図2のメインルーチンに戻り、キーフレーズ表現抽出装置の全体処理が終了する。
【0113】
上述したようなキーフレーズ表現抽出装置とキーフレーズ表現抽出方法を用いて、さらに具体的な実施例について説明する。
【0114】
(実施例1)
例えば、以下のような文書A〜Hまでの文書群があるとする。文書Aは、「価格が下がってくると思う」。文書Bは、「価格が高すぎる」。文書Cは、「値段が高い」。文書Dは、「価格が下がれば・・・」。文書Eは、「記録メディアの統一が図れればいいと思う」。文書Fは、「記録メディアを統一して欲しい」。文書Gは、「記録媒体の統一が望まれる」。文書Hは、「記憶媒体の価格がまだ高いと思う」というテキスト部分が含まれているものとする。
【0115】
そして、これらのA〜Hまでの文書群が文書記憶部13に登録され、キーフレーズ表現生成指示があると、まず、文書群のテキスト部分に対し、図3に示した手順で言語解析処理が実施される。言語解析処理では、各単語へ分割し単語属性を付与する形態素解析処理(ステップS303)を行い、文節と文節の係り受け関係を同定し、その係り受けの属性を付与する係り受け解析処理(ステップS304)が実施される。
【0116】
実施例1における文書群の言語解析結果(形態素解析結果)は、以下のようになる(ハイフン「−」は文節切れ目、中点「・」は単語切れ目を示すものとする)。
文書A「価格・が−下がってくる・と−思う」
文書B「価格・が−高・すぎる」
文書C「値段・が−高い」
文書D「価格・が−下がれ・ば」
文書E「記録メディア・の−統一・が−図れれ・ば−いい・と−思う」
文書F「記録メディア・を−統一・し・て−欲しい」
文書G「記録媒体・の−統一・が−望ま・れる」
文書H「記憶媒体・の−価格・が−まだ−高い・と−思う」
【0117】
次に、形態素解析を行った文書A〜文書Hまでのテキスト部分の係り受け成立文節対は、以下のように表記する。
(文書名)
係り受け関係→[係り文節表記](文節構成単語の情報)
>[受け文節表記](文節構成単語の情報)
【0118】
(文書A)
ガ格修飾→[価格が](価格 名詞)(が 格助詞.ガ)
>[下がってくると](下がっ 動詞)(てくる 助動詞)(と 格助詞. ト)
ト格修飾→[下がってくると] (下がっ 動詞) (てくる 助動詞)(と 格助詞 .ト)
> [思う] (思う 動詞)
【0119】
(文書B)
ガ格修飾→[価格が](価格 名詞)(が 格助詞.ガ)
> [高すぎる](高 形容詞)(すぎる 補助動詞)
【0120】
(文書C)
ガ格修飾→[値段が](値段 名詞)(が 格助詞.ガ)
>[高い](高い 形容詞)
【0121】
(文書D)
ガ格修飾→[価格が](価格 名詞)(が 格助詞.ガ)
>[下がれば](下がれ 動詞)(ば 接続助詞.バ)
【0122】
(文書E)
連体修飾→[記録メディアの](記録 名詞)(メディア 名詞)(の 格助詞.ノ)
>[統一が](統一 名詞)(が 格助詞.ガ)
ガ格修飾→[統一が](統一 名詞)(が 格助詞.ガ)
>[図れれば](図れれ 動詞)(ば 接続助詞.バ)
連用修飾→[図れれば](図れれ 動詞)(ば 接続助詞.バ)
>[いいと](いい 形容詞)(と 格助詞.ト)
ト格修飾→[いいと](いい 形容詞)(と 格助詞.ト)
>[思う](思う 動詞)
【0123】
(文書F)
ヲ格修飾→[記録メディアを](記録 名詞)(メディア 名詞)(を 格助詞.ヲ)
>[統一して](統一 名詞)(し 補助動詞)(て 接続助詞.テ)
連用修飾→[統一して](統一 名詞)(し 補助動詞)(て 接続助詞.テ)
>[欲しい](欲しい 形容詞)
【0124】
(文書G)
連体修飾→[記録媒体の](記録 名詞)(媒体 名詞)(の 格助詞.ノ)
>[統一が](統一 名詞)(が 格助詞.ガ)
ガ格修飾→[統一が](統一 名詞)(が 格助詞.ガ)
>[望まれる](望ま 動詞)(れる 助動詞)
【0125】
(文書H)
連体修飾→[記憶媒体の](記憶 名詞)(媒体 名詞)(の 格助詞.ノ)
>[価格が](価格 名詞)(が 格助詞.ガ)
ガ格修飾→[価格が](価格 名詞)(が 格助詞.ガ)
>[高いと](高い 形容詞)(と 格助詞.ト)
連用修飾→[まだ](まだ 副詞)
>[高いと](高い 形容詞)(と 格助詞.ト)
ト格修飾→[高いと](高い 形容詞)(と 格助詞.ト)
>[思う](思う 動詞)
【0126】
上記したように、係り受け解析処理された係り受け文節対は、言語情報記憶部16に格納される。
【0127】
続いて、言語情報記憶部16に記憶された係り受け文節対の中から、図4、図6、図7、図8、図9で説明したいずれかの方法を用いて、特定の係り受け文節対を抽出することができる。この実施例1では、図6の予め品詞が登録されている場合について説明する。
【0128】
品詞記憶部22に予め品詞が登録されている場合は(図6のステップS602)、全ての係り受け文節対を構成する単語の品詞に対して、その品詞が含まれる文節対かどうかを検査する(同図のステップS604)。一致した品詞を含む文節対があると(ステップS605)、その文節対を特定の文節対と同定する(ステップS606)。そして、図10のキーフレーズ表現生成処理において、特定の係り文節と受け文節の自立語(ステップS1003)と、係り受け関係(ステップS1004)とを抽出して、キーフレーズ表現とする。
【0129】
この方法は、ユーザが予め注目している品詞があった場合に有効な方法である。例えば、実施例1において、ユーザが文書群の中から評価を述べている文書群を抽出したいと考えた場合に、予め評価を示す単語が多く含まれる品詞である「形容詞」を登録しておく。すると、言語情報記憶部16に記憶されている係り受け文節対を先頭から読み込んでゆき、その先頭単語の品詞から順に「形容詞」とのマッチング処理が行なわれる。
【0130】
この実施例1の場合は、以下の8組の係り受け文節対の品詞が一致し、6組の自立語対がキーフレーズ表現(◆印)として同定された。なお、ここで表記変換処理を行なえば、下記の「価格→高い」という例のように、キーフレーズ表現がユニークなものにまとまる可能性がある。
【0131】
◆価格→高い(ガ格修飾)
(文書B)
ガ格修飾→[価格が](価格 名詞)(が 格助詞.ガ)
>[高すぎる](高 形容詞)(すぎる 補助動詞)
(文書C)
ガ格修飾→[値段が](値段 名詞)(が 格助詞.ガ)
>[高い](高い 形容詞)
(文書H)
ガ格修飾→[価格が](価格 名詞)(が 格助詞.ガ)
>[高いと](高い 形容詞)(と 格助詞.ト)
【0132】
◆図る→いい(連用修飾)
(文書E)
連用修飾→[図れれば](図れれ 動詞)(ば 接続助詞.バ)
>[いいと](いい 形容詞)(と 格助詞.ト)
【0133】
◆いい→思う(ト格修飾)
(文書E)
ト格修飾→[いいと](いい 形容詞)(と 格助詞.ト)
>[思う](思う 動詞)
【0134】
◆統一→欲しい(連用修飾)
(文書F)
連用修飾→[統一して](統一 名詞)(し 補助動詞)(て 接続助詞.テ)
>[欲しい](欲しい 形容詞)
【0135】
◆まだ→高い(連用修飾)
(文書H)
連用修飾→[まだ](まだ 副詞)
>[高いと](高い 形容詞)(と 格助詞.ト)
【0136】
◆高い→思う(ト格修飾)
(文書H)
ト格修飾→[高いと](高い 形容詞)(と 格助詞.ト)
>[思う](思う 動詞)
【0137】
以上説明したように、実施例1の場合は、品詞レベルで登録することができるため、ユーザの負担が大きくならなくて済むという利点がある。また、品詞であれば複数指定が可能であり、さらに、指定可能な品詞群を提示してユーザがその中から選択、指定する方法も考えることができる。例えば、実施例1で使用した「形容詞」は、評価に用いられる単語が多いといった指定可能品詞の説明、あるいは、その品詞にはどのような単語があるのかといった単語事例、指定ガイドラインなどを設けて、入出力部(特に、ディスプレイなどの出力部)11に提示するようにすれば、ユーザの品詞入力に対する負担を一層低減することができる。
【0138】
(実施例2)
実施例2では、言語情報記憶部16に記憶された係り受け文節対の中から、ユーザが任意の言語情報を入力する図8の方法を用いて、特定の係り受け文節対を抽出する場合について説明する。
【0139】
ユーザから任意の単語(語句)が入力された場合は、ステップS803から図中の▲1▼を介して、図4のステップS404に移行処理される。すなわち、全ての係り受け文節対に対して、その入力された単語(語句)が含まれる文節対か否かを検査し(ステップS406)、含まれている文節対があれば(ステップS407)、その文節対を特定の文節対と同定する(ステップS408)。そして、図10のキーフレーズ表現生成処理において、特定の係り文節と受け文節の自立語(ステップS1003)と係り受け関係(ステップS1004)とを抽出し、これをキーフレーズ表現とする。
【0140】
この方法は、ユーザが注目している企業名、商品名、事象がある場合に有効な方法となる。例えば、実施例2において、ユーザが文書群の中から「価格」に言及している文書群を抽出したいと考えた場合に、入力手段から「価格」と入力すると、言語情報記憶部16に記憶されている係り受け文節対を先頭から読み込んで(ステップS405)、その先頭単語から「価格」という単語とのマッチング処理が行なわれる(ステップS406)。
【0141】
実施例2では、以下の5組の係り受け文節対が入力語句と一致し、3組の自立語対がキーフレーズ表現(◆印)として同定される。
【0142】
◆価格→下がる(ガ格修飾)
(文書A)
ガ格修飾→[価格が](価格 名詞)(が 格助詞.ガ)
>[下がってくると](下がっ 動詞)(てくる 助動詞)(と 格助詞.ト)
(文書D)
ガ格修飾→[価格が](価格 名詞)(が 格助詞.ガ)
>[下がれば](下がれ 動詞)(ば 接続助詞.バ)
【0143】
◆価格→高い(ガ格修飾)
(文書B)
ガ格修飾→[価格が](価格 名詞)(が 格助詞.ガ)
>[高すぎる](高 形容詞)(すぎる 補助動詞)
(文書H)
ガ格修飾→[価格が](価格 名詞)(が 格助詞.ガ)
>[高いと](高い 形容詞)(と 格助詞.ト)
【0144】
◆記憶媒体→価格(連体修飾)
(文書H)
連体修飾→[記憶媒体の](記憶 名詞)(媒体 名詞)(の 格助詞.ノ)
>[価格が](価格 名詞)(が 格助詞.ガ)
【0145】
以上説明したように、実施例2の場合は、単語レベルの入力でよいため、ユーザの負担が少なくて済むという利点がある。また、入力する単語は、複数指定が可能であり、さらに、文書内の高頻度語を提示させて、ユーザがその中から選択、指定する方法なども考えられる。例えば、実施例2において、「価格」、「記録」、「統一」、「思う」などを高頻度語とし、これらを出力部に出力することによって、ユーザはこれを見ながら、入力部を使って選択・入力するだけでよいことになる。
【0146】
また、実施例2では、表記変換処理を用いて、ユーザ入力単語、および文節対の単語の表記を表記変換してからマッチング処理を行なうようにすれば、マッチング精度が向上するため、さらに効果的となる。例えば、実施例2において、表記変換辞書19を参照(図11の1100を参照)することにより、「値段」を「価格」に表記変換することが可能となり、下記の係り受け文節対も抽出対象となるので、その自立語対もキーフレーズ表現として同定することができる。
【0147】
◆価格→高い(ガ格修飾)(本実施例で既に検索語句になっている)
(文書C)
ガ格修飾→[値段が](値段 名詞)(が 格助詞.ガ)
>[高い](高い 形容詞)
【0148】
(実施例3)
実施例3は、言語情報記憶部16に記憶された係り受け文節対の中から、ユーザが自動抽出を望む場合に、文節対の頻度を計量する計量部20を用いる図9の方法によって、特定の係り受け文節対を抽出する場合である。
【0149】
ユーザが特定係り受け文節対の自動抽出を所望すると、文節対の頻度を計量する計量部20を用いて、全ての係り受け文節対に対して、文節対の自立語対を表記別に頻度計量し(ステップS903)、その計量の結果、頻度が予め決められた閾値(N)以上となる文節対を特定の文節対として同定する(ステップS905、906)。そして、図10のキーフレーズ表現生成処理において、特定の係り文節と受け文節の自立語(ステップS1003)と係り受け関係(ステップS1004)とを抽出して、キーフレーズ表現とする。
【0150】
この方法は、ユーザが注目している単語や品詞がない場合、あるいは、ユーザからの指定が何もなかった場合に有効な方法となる。その上、自動的に係り受け文節対を抽出することができるため、ユーザの負担が無くなる。
【0151】
また、上記閾値(N)の設定の仕方については、「頻度5以上」など予め数値を指定する方法、「頻度の多い順に5%以内」といった文節全体における抽出文節の割合を指定する方法、あるいは、「多い順に3対まで」などのように出現頻度の高い順から幾つまでといった抽出文節数を指定する方法などが考えられる。
【0152】
さらに、実施例3では、図9のステップS903のように、表記変換処理を用いて文節対の単語の表記を表記変換してから自立語に対して計量処理を行なうようにすれば、頻度計量の精度が向上するため、更に効果的となる。例えば、実施例3で、キーフレーズ表現生成指示をした後、入力手段からなにも入力されなかった場合は、言語情報記憶部16に記憶されている係り受け文節対を読み込んで、表記変換辞書19(図11の1100参照)を用いて文節中の表記変換対象語について、図5に示す手順で表記変換処理が実施される。
【0153】
具体的には、文節表記の先頭から単語を取り出し(ステップS502)、単語表記をキーとして、表記変換辞書の異表記、もしくは変換対象を検索し(ステップS503)、一致したものを表記変換辞書19(図11の1100)の記載の見出し語表記に変換し、文節表記を置換する。実施例3では、以下の文節が対象となり、それぞれ、用言は終止形に、「メディア」は「媒体」に、「値段」は「価格」に変換される。
【0154】
(文書B)
[高・すぎる]→ [高い・すぎる]
(文書A)
[下がっ・てくると] → [下がる・てくると]
(文書D)
[下が・れば] → [下がる・れば]
(文書D)
[図れれ・ば] →[図れる・ば]
(文書G)
[望ま・れる] →[望む・れる]
(文書C)
[値段・が] →[価格・が]
(文書F)
[記録メディアを] →[記録・媒体・を]
(文書E)
[記録メディアの] →[記録・媒体・の]
【0155】
なお、図11では、実施例3を説明するために、一例として表記変換辞書を設けたが、この表記変換辞書は、ユーザが構築してもよく、また、FEPや文書検索システムなどの文書作成・処理分野で一般的な異表記辞書や類義辞書を代替として利用するようにしてもよい。さらに、用言の活用形の統一処理については、形態素解析処理で広く用いられている用言活用表などを利用し、一定の活用形へ表記を統一化させるようにしてもよい。
【0156】
実施例3では、閾値N=3とすると、「頻度3以上」の係り受け文節対が特定係り受け文節対となり、これに基づいてキーフレーズ表現(◆印)が同定される。
【0157】
◆価格→高い(ガ格修飾)(頻度3)
(文書B)
ガ格修飾→[価格が](価格 名詞)(が 格助詞.ガ)
>[高すぎる](高 形容詞)(すぎる 補助動詞)
(文書C)
ガ格修飾→[値段が](値段 名詞)(が 格助詞.ガ)
> [高い] (高い 形容詞)
(文書H)
ガ格修飾→[価格が](価格 名詞)(が 格助詞.ガ)
>[高いと](高い 形容詞)(と 格助詞.ト)
【0158】
◆記録媒体→統一(連体修飾)(頻度3)
(文書E)
連体修飾→[記録メディアの](記録 名詞)(メディア 名詞)(の 格助詞.ノ)
>[統一が](統一 名詞)(が 格助詞.ガ)
(文書F)
ヲ格修飾→[記録メディアを](記録 名詞)(メディア 名詞)(を 格助詞.ヲ)
>[統一して](統一 名詞)(し 補助動詞)(て 接続助詞.テ)
(文書G)
連体修飾→[記録媒体の](記録 名詞)(媒体 名詞)(の 格助詞.ノ)
>[統一が](統一 名詞)(が 格助詞.ガ)
【0159】
以上説明したように、実施例3の場合は、表記変換を行った後、文節対の自立語の頻度を計量することによって、特定係り受け文節対が抽出され、これに基づいてキーフレーズ表現を生成するようにしたので、文書処理システムへの応用が可能となる。例えば、文書検索システムにおいて、キーフレーズ表現による検索を行なったり、文書分類システムにおいて、キーフレーズ表現を用いた検索結果を1カテゴリにする場合などに利用することができる。
【0160】
なお、上記した実施の形態において、表記変換処理を説明する図5では、異表記への変換を想定したフローとなっているが、勿論これに限定されず、略語や用言の活用形の見出し語へ変換したり、表記ゆれの吸収のための変換規則(例えば、表記変換辞書1101のようにカタカナ語尾の長音を削除する場合など)に合致した語については、図11の辞書適用変換例のように変換することができる。
【0161】
また、上記実施の形態で説明したキーフレーズ表現抽出方法は、それをコンピュータ上で実行可能なようにプログラミングしてもよく、そのプログラミングソフトが書き込まれた記録媒体を配布して実行させたり、オンラインを介してダウンロードしたソフトを実行するだけで、さまざまな場所に設置されたコンピュータを利用して文書のキーフレーズ表現抽出を容易かつ迅速に行うことができる。
【0162】
【発明の効果】
以上説明したように、請求項1にかかる発明によれば、言語解析手段によって二つ以上の文節で構成される文書に対して係り受け関係にある文節対を同定し、特定係り受け文節対抽出手段が、係り受け関係にある文節対の各構成単語を取り出し、表記変換辞書を用いて同じ意味で表記の異なる単語同士を同じ表記となるように変換する表記変換手段と、表記変換手段で表記変換済みの表記で表現された係り受け関係にある文節対を1単位として文書中における出現頻度を検出する計量手段とを含み、その計量手段によって、一定の閾値以上の頻度で出現する文節対を特定の文節対として抽出し、キーフレーズ表現生成手段によってその特定の係り受け関係にある文節対の係り文節と受け文節のそれぞれの文節の自立語と、係り受け関係名とを抽出してキーフレーズ表現を生成するようにしたため、文書の内容を特定の文節対に基づいて表現することができ、単なるキーワードではなく、語と語の関係が加味されたキーフレーズ表現が抽出可能となる。また、表記変換手段によって同じ意味で表記の異なる単語同士を表記変換辞書を用いて同じ表記となるように変換するので、異表記が混在して別の語として扱われることがなくなり、精度の高いキーフレーズ表現を抽出することが可能となる。さらに、計量手段によって係り受け文節対を計量することによる頻度情報を用いて自動的にキーフレーズ表現を抽出することが可能となり、表記変換を行なってから係り受け文節対を計量するので、より精度の高いキーフレーズ表現を自動的に抽出することが可能となる。
【0163】
また、請求項2にかかる発明によれば、表記変換辞書には見出し語表記に対応させて、見出し語表記と意味が同じで表記の異なる異表記、当該見出し語表記が用言の場合の活用形情報、および表記ゆれによって異表記となる場合の表記変換規則のうち少なくとも1つが登録されているため、異表記の範囲として、用言の活用形や、略語表記などにも対応した、より精度の高いキーフレーズ表現を抽出することが可能となる。
【0164】
また、請求項3の発明によれば、表記変換の対象となる単語が表記変換辞書に記載されている場合は、表記変換辞書の見出し語表記に変換され、対象となる語が用言の場合は、見出し語表記へ変換した後に活用形情報を参照してその活用形を終止形または原形に変換され、入力された語が辞書記載の表記ゆれ対象語の場合は、表記変換規則どおりに表記が変換されるため、異表記の範囲として、用言の活用形や、略語表記などにも対応した、より精度の高いキーフレーズ表現を抽出することが可能となる。
【0165】
また、請求項4にかかる発明によれば、言語解析ステップによって二つ以上の文節で構成される文書に対して係り受け関係にある文節対を同定し、特定係り受け文節対抽出手段が、係り受け関係にある文節対の各構成単語を取り出し、表記変換辞書を用いて同じ意味で表記の異なる単語同士を同じ表記となるように変換する表記変換手段と、表記変換手段で表記変換済みの表記で表現された係り受け関係にある文節対を1単位として文書中における出現頻度を検出する計量手段とを含み、その計量手段によって、一定の閾値以上の頻度で出現する文節対を特定の文節対として抽出し、キーフレーズ表現生成ステップによってその特定の係り受け関係にある文節対の係り文節と受け文節のそれぞれの文節の自立語と、係り受け関係名とを抽出してキーフレーズ表現を生成するようにしたため、文書の内容を特定の文節対に基づいて表現することができ、単なるキーワードではなく、語と語の関係が加味されたキーフレーズ表現が抽出可能となる。また、表記変換手段によって同じ意味で表記の異なる単語同士を表記変換辞書を用いて同じ表記となるように変換するので、異表記が混在して別の語として扱われることがなくなり、精度の高いキーフレーズ表現を抽出することが可能となる。さらに、計量手段によって係り受け文節対を計量することによる頻度情報を用いて自動的にキーフレーズ表現を抽出することが可能となり、表記変換を行なってから係り受け文節対を計量するので、より精度の高いキーフレーズ表現を自動的に抽出することが可能となる。
【0166】
また、請求項5にかかる発明によれば、表記変換辞書には見出し語表記に対応させて、見出し語表記と意味が同じで表記の異なる異表記、当該見出し語表記が用言の場合の活用形情報、および表記ゆれによって異表記となる場合の表記変換規則のうち少なくとも1つが登録されているため、異表記の範囲として、用言の活用形や、略語表記などにも対応した、より精度の高いキーフレーズ表現を抽出することが可能となる。
【0167】
また、請求項6にかかる発明によれば、表記変換の対象となる単語が表記変換辞書に記載されている場合は、表記変換辞書の見出し語表記に変換され、対象となる語が用言の場合は、見出し語表記へ変換した後に活用形情報を参照してその活用形を終止形または原形に変換され、入力された語が辞書記載の表記ゆれ対象語の場合は、表記変換規則どおりに表記が変換されるため、異表記の範囲として、用言の活用形や、略語表記などにも対応した、より精度の高いキーフレーズ表現を抽出することが可能となる。
【0168】
また、請求項7にかかる発明によれば、上記した請求項4〜6のいずれか一つに記載された方法をコンピュータによって実行することができる。
【図面の簡単な説明】
【図1】本発明の一実施の形態にかかるキーフレーズ表現抽出装置の構成例を示すブロック図である。
【図2】本実施の形態にかかるキーフレーズ表現抽出装置の概略動作を説明する全体フローチャートである。
【図3】図2の言語解析処理のサブルーチンを示すフローチャートである。
【図4】図2の特定係り受け文節対抽出処理において語句登録がある場合のサブルーチンを示すフローチャートである。
【図5】図4において表記変換処理を行う場合のサブルーチンを示すフローチャートである。
【図6】図2の特定係り受け文節対抽出処理において品詞登録がある場合のサブルーチンを示すフローチャートである。
【図7】図2の特定係り受け文節対抽出処理において係り受け登録がある場合のサブルーチンを示すフローチャートである。
【図8】図2の特定係り受け文節対抽出処理においてユーザから任意の言語情報入力があった場合のサブルーチンを示すフローチャートである。
【図9】図2の特定係り受け文節対抽出処理において係り受け文節対の頻度を計量する場合のサブルーチンを示すフローチャートである。
【図10】図2のキーフレーズ表現生成処理のサブルーチンを示すフローチャートである。
【図11】表記変換辞書の記述内容とその辞書適用変換例を示した図である。
【符号の説明】
10 キーフレーズ表現抽出装置
11 入出力部
12 文書登録部
13 文書記憶部
14 言語解析部
15 言語解析用辞書
16 言語情報記憶部
17 特定係り受け文節対抽出部
18 表記変換部
19 表記変換辞書
20 計量部
21 語句記憶部
22 品詞記憶部
23 係り受け関係記憶部
24 特定文節対記憶部
25 キーフレーズ表現生成部

Claims (7)

  1. 二つ以上の文節で構成される文書に対して係り受け関係にある文節対を同定する言語解析手段と、
    係り受け関係にある文節対の各構成単語を取り出し、表記変換辞書を用いて同じ意味で表記の異なる単語同士を同じ表記となるように変換する表記変換手段と、前記表記変換手段で表記変換済みの表記で表現された係り受け関係にある文節対を1単位として文書中における出現頻度を検出する計量手段と、を含み、前記計量手段にて、一定の閾値以上の頻度で出現する文節対を特定の文節対として抽出する特定係り受け文節対抽出手段と、
    特定の係り受け関係にある文節対の係り文節と受け文節のそれぞれの文節の自立語と、係り受け関係名とを抽出してキーフレーズ表現を生成するキーフレーズ表現生成手段と、 を備えたことを特徴とするキーフレーズ表現抽出装置。
  2. 記表記変換辞書には、見出し語表記に対応させて、当該見出し語表記と意味が同じで表記の異なる異表記、当該見出し語表記が用言の場合の活用形情報、および表記ゆれによって異表記となる場合の表記変換規則のうち少なくとも1つが登録されていることを特徴とする請求項1に記載のキーフレーズ表現抽出装置。
  3. 前記表記変換手段は、表記変換の対象となる単語が前記表記変換辞書に登録された異表記に一致すると、これに対応した見出し語表記に変換し、表記変換の対象となる語が用言の場合は、前記表記変換辞書に登録された活用形情報に一致すると、これに対応した見出し語表記に変換した後、活用形情報を参照してその活用形を終止形または原形に変換し、表記変換の対象となる語が表記ゆれ対象語の場合は、前記表記変換辞書に登録されている表記変換規則どおりに表記を変換することを特徴とする請求項2に記載のキーフレーズ表現抽出装置。
  4. キーフレーズ表現抽出装置で実行されるキーフレーズ表現抽出方法であって、
    前記キーフレーズ表現抽出装置は、言語解析手段、表記変換手段と計量手段とを含む特定係り受け文節対抽出手段、キーフレーズ表現生成手段を備え、
    前記言語解析手段が、二つ以上の文節で構成される文書に対して係り受け関係にある文節対を同定する言語解析ステップと、
    前記特定係り受け文節対抽出手段が、係り受け関係にある文節対の各構成単語を取り出し、表記変換辞書を用いて同じ意味で表記の異なる単語同士を同じ表記となるように変換する表記変換手段と、前記表記変換手段で表記変換済みの表記で表現された係り受け関係にある文節対を1単位として文書中における出現頻度を検出する計量手段と、を含み、前記計量手段にて、一定の閾値以上の頻度で出現する文節対を特定の文節対として抽出する特定係り受け文節対抽出ステップと、
    前記キーフレーズ表現生成手段が、特定の係り受け関係にある文節対の係り受け文節と受け文節のそれぞれの文節の自立語と、係り受け関係名とを抽出してキーフレーズ表現を生成するキーフレーズ表現生成ステップと、
    を含むことを特徴とするキーフレーズ表現抽出方法。
  5. 前記表記変換辞書には、見出し語表記に対応させて、当該見出し語表記と意味が同じで表記の異なる異表記、当該見出し語表記が用言の場合の活用形情報、および表記ゆれによって異表記となる場合の表記変換規則のうち少なくとも1つが登録されていることを特徴とする請求項4に記載のキーフレーズ表現抽出方法。
  6. 前記表記変換手段は、表記変換の対象となる単語が前記表記変換辞書に登録された異表記に一致すると、これに対応した見出し語表記に変換し、表記変換の対象となる語が用言の場合は、前記表記変換辞書に登録された活用形情報に一致すると、これに対応した見出し語表記に変換した後、活用形情報を参照してその活用形を終止形または原形に変換し、表記変換の対象となる語が表記ゆれ対象語の場合は、前記表記変換辞書に登録されている表記変換規則どおりに表記を変換することを特徴とする請求項5に記載のキーフレーズ表現抽出方法。
  7. 請求項4〜6のいずれか一つに記載された方法をコンピュータに実行させるためのプログラム。
JP2003027351A 2003-02-04 2003-02-04 キーフレーズ表現抽出装置、キーフレーズ表現抽出方法およびその方法をコンピュータに実行させるプログラム Expired - Fee Related JP4308543B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003027351A JP4308543B2 (ja) 2003-02-04 2003-02-04 キーフレーズ表現抽出装置、キーフレーズ表現抽出方法およびその方法をコンピュータに実行させるプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003027351A JP4308543B2 (ja) 2003-02-04 2003-02-04 キーフレーズ表現抽出装置、キーフレーズ表現抽出方法およびその方法をコンピュータに実行させるプログラム

Publications (2)

Publication Number Publication Date
JP2004240576A JP2004240576A (ja) 2004-08-26
JP4308543B2 true JP4308543B2 (ja) 2009-08-05

Family

ID=32955116

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003027351A Expired - Fee Related JP4308543B2 (ja) 2003-02-04 2003-02-04 キーフレーズ表現抽出装置、キーフレーズ表現抽出方法およびその方法をコンピュータに実行させるプログラム

Country Status (1)

Country Link
JP (1) JP4308543B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009122807A (ja) * 2007-11-13 2009-06-04 Nomura Securities Co Ltd 連想検索システム
JP6631122B2 (ja) * 2015-09-24 2020-01-15 富士通株式会社 プログラム、情報処理装置及び情報処理方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5833993B2 (ja) * 1980-09-27 1983-07-23 工業技術院長 キ−ワ−ド抽出装置
JP2742115B2 (ja) * 1989-12-01 1998-04-22 日本電信電話株式会社 類似文書検索装置
JP3577819B2 (ja) * 1995-07-14 2004-10-20 富士ゼロックス株式会社 情報探索装置及び情報探索方法
JP3879329B2 (ja) * 1999-10-01 2007-02-14 富士ゼロックス株式会社 文書要約装置、文書要約方法及び記録媒体

Also Published As

Publication number Publication date
JP2004240576A (ja) 2004-08-26

Similar Documents

Publication Publication Date Title
Al‐Sughaiyer et al. Arabic morphological analysis techniques: A comprehensive survey
US8538743B2 (en) Disambiguating text that is to be converted to speech using configurable lexeme based rules
Altinok Mastering spaCy: An end-to-end practical guide to implementing NLP applications using the Python ecosystem
US20220261545A1 (en) Systems and methods for producing a semantic representation of a document
Krizhanovsky et al. An approach to automated construction of a general-purpose lexical ontology based on Wiktionary
Smith et al. Corpus tools and methods, today and tomorrow: Incorporating linguists’ manual annotations
Zhang et al. STCS lexicon: Spectral-clustering-based topic-specific Chinese sentiment lexicon construction for social networks
JP2019082931A (ja) 検索装置、類似度算出方法、およびプログラム
Moncla et al. Automated geoparsing of paris street names in 19th century novels
JP3372532B2 (ja) 感情情報抽出方法および感情情報抽出プログラムの計算機読み取り可能な記録媒体
JPWO2014002774A1 (ja) 同義語抽出システム、方法および記録媒体
Ding et al. Generative text summary based on enhanced semantic attention and gain-benefit gate
Dhandapani et al. Question answering system over semantic web
Bulfamante Generative enterprise search with extensible knowledge base using AI
JP2001331515A (ja) 単語シソーラス構築方法及びコンピュータシステムに単語シソーラスの構築を行わせるためのコンピュータソフトウエアプログラム製品
CN110705289A (zh) 一种基于神经网络和模糊推理的中文分词方法、系统及介质
JP4308543B2 (ja) キーフレーズ表現抽出装置、キーフレーズ表現抽出方法およびその方法をコンピュータに実行させるプログラム
JP3123836B2 (ja) テキスト型データベース装置
Popova et al. Keyphrase extraction using extended list of stop words with automated updating of stop words list
JP6936370B1 (ja) 情報処理システム、及び情報処理プログラム
Pakray et al. An hmm based pos tagger for pos tagging of code-mixed indian social media text
JP2000194721A (ja) 文書群分類装置および文書群分類方法
Moulay Lakhdar et al. Building an extractive Arabic text summarization using a hybrid approach
JP4213900B2 (ja) 文書分類装置と記録媒体
JP2005025555A (ja) シソーラス構築システム、シソーラス構築方法、この方法を実行するプログラム、およびこのプログラムを記憶した記憶媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051005

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080926

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081007

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090127

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090330

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090428

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090501

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120515

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120515

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130515

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130515

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees