JP2004361992A - Related word extracting device, related word extracting method, and program - Google Patents
Related word extracting device, related word extracting method, and program Download PDFInfo
- Publication number
- JP2004361992A JP2004361992A JP2003155922A JP2003155922A JP2004361992A JP 2004361992 A JP2004361992 A JP 2004361992A JP 2003155922 A JP2003155922 A JP 2003155922A JP 2003155922 A JP2003155922 A JP 2003155922A JP 2004361992 A JP2004361992 A JP 2004361992A
- Authority
- JP
- Japan
- Prior art keywords
- field
- document
- related word
- extracting
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
【0001】
【発明の属する技術分野】
本発明は、関連語抽出技術に係り、特に、分野情報が定まっている文書で構成される文書データベースから所定の分野に応じた関連語を抽出する関連語抽出装置、関連語抽出方法及びプログラムに関する。
【0002】
【従来の技術】
関連語又は同義語は、文書の検索又は自動分類を行う際の有用な情報である。従来、関連語又は同義語を人手で体系的に編修する試みがある一方で、電子計算機を利用した機械処理によって関連語又は同義語を抽出する試みが為されている。
例えば、単語間の関連度として相互情報量を利用する手法がある(例えば、特許文献1)。相互情報量とは、着目している2つの単語が偶然ではなく当然に出現する程の関連強さを示した指標であり、この相互情報量が低いとき、当該2つの単語は偶然出現しているに過ぎないと解される。この特許文献1では、文書データベースに登録されている単語がクラスタリングされ、このクラスタリングにより関連語情報が作成される。ユーザにより入力された単語の関連語は、この関連語情報が参照され、当該関連度の高いクラスタ毎に提示されるものである。
【0003】
また、相互情報量がいわゆる関連語を抽出することしかできない点に着目し、単語同士の関連度を特定するために言語的特徴を利用し、同義語、上位語、下位語といった関係まで特定するための手法が提示されている(例えば、特許文献2)。この特許文献2では、単語の共起情報を参照し、共起関係にある単語間の類似度を算出する。一方、単語の言語的特徴を参照し、単語間の類似度を算出する。これら双方の類似度を統合し、求めた類似度が所定のレベルより高いとき、類似関係にあるとして提示するものである。
【0004】
【特許文献1】特開2002−32394号公報(第10頁)
【特許文献2】特開2000−222427号公報(第12頁)
【発明が解決しようとする課題】
上記した従来技術において、共起する単語の頻度を使用する方法では、どのような文書にも出てくるような単語同士の関係を排除するのが難しい。また、相互情報量に基づく方法では、どのような文書にも出てくるような単語同士の相互情報量は低くなるように工夫されているが、この機構が意図どおりに機能するかどうかは、相互情報量を算出するのに使用する文書群の選択方法にかかっている。例えば、「発明」と「課題」という単語は相互に関連する概念と考えられるが、特許公報を用いて相互情報量を算出するとき、ほとんどの特許公報には「発明」および「課題」という単語が含まれているため、相互情報量は相対的に低くなってしまう傾向にある。「発明」と「課題」の相互情報量を高めるためには、これらの単語同士が共起していることが際立つような文書群を投入する必要がある。したがって、ある分野Aにおける関連語を抽出しようとした場合、可能なら分野Aとは違った分野B,分野C…などの文書を複合しないと、分野Aの文書に頻出する特有の関連語を抽出することができないという危険性がある。さらに、ここに述べた従来技術に共通する問題として、関連語同士が共起していることが前提となっていることが挙げられる。上述した従来技術によれば、例えば、文書Aで述べられている「コンピュータ」と、別の文書Bで述べられている「電子計算機」を結びつけることはできない。
【0005】
そこで、本発明は上述した問題点を解決するためになされたものであり、ある分野の関連語を抽出するときに、他の分野の文書が用意できず、また、必ずしも関連語が一つの文書内に共起していない場合であっても、適切に関連語を抽出する関連語抽出装置、関連語抽出方法およびプログラムを提供することを目的とする。
【0006】
【課題を解決するための手段】
上記目的を達成するために、本発明の関連語抽出装置は、複数の文書を有する文書データベースと、文書の分野情報を入力する入力手段と、入力された分野情報と一致する分野情報を有する文書を文書データベースから抽出する文書抽出手段と、文書抽出手段により抽出された文書を自然言語解析する自然言語解析手段と、文書データベース中の文書からこの文書の分野に関連する分野関連単語を抽出するための分野関連単語表記パターンを保持する分野関連単語表記パターン保持手段と、自然言語解析の結果に基づいて分野関連単語表記パターンを参照し、文書データベースから抽出した文書から分野関連単語を抽出する分野関連単語抽出手段と、抽出された分野関連単語の出現頻度を集計する分野関連単語集計手段とを具備することを特徴としている。
【0007】
次に、本発明の関連語抽出方法は、複数の文書を有する文書データベースから、特定の分野の文書を抽出し、この抽出した文書から特定の分野に応じた関連語を抽出する関連語抽出方法であって、文書の分野情報を入力する入力ステップと、入力された分野情報と一致する分野情報を有する文書を文書データベースから抽出する文書抽出ステップと、文書データベース中の文書からこの文書の分野に関連する分野関連単語を抽出するための分野関連単語表記パターンを保持する分野関連単語表記パターン保持ステップと、自然言語解析の結果に基づいて分野関連単語表記パターンを参照し、文書データベースから抽出した文書から前記分野関連単語を抽出する分野関連単語抽出ステップと、抽出された分野関連単語の出現頻度を集計する分野関連単語集計ステップとを具備することを特徴としている。
【0008】
さらに、本発明のプログラムは、複数の文書を有する文書データベースから、特定の分野の文書を抽出し、この抽出した文書から特定の分野に応じた関連語を抽出する関連語抽出装置に、文書の分野情報を入力する入力機能と、入力された分野情報と一致する分野情報を有する文書をデータベースから抽出する文書抽出ステップと、文書データベース中の文書からこの文書の分野に関連する分野関連単語を抽出するための分野関連単語表記パターンを保持する分野関連単語表記パターン保持機能と、自然言語解析の結果に基づいて分野関連単語表記パターンを参照し、文書データベースから抽出した文書から分野関連単語を抽出する分野関連単語抽出機能と、抽出された分野関連単語の出現頻度を集計する分野関連単語集計機能とを実現させることを特徴としている。
【0009】
【発明の実施の形態】
以下、本発明における実施の形態について図面を参照して説明する。
本発明に係る関連語抽出装置は、予め磁気ディスク装置に複数の分野の文書群を蓄えておき、入力装置から所定の分野が入力されると、その分野情報と一致する文書を文書群から選定し、この選定した文書からその分野情報に関連する単語(「分野関連単語」という。以下において同じ。)を抽出して表示装置に表示を行う。磁気ディスク装置に格納された複数の分野の文書群のそれぞれの文書は、定型のフォーマットから成る分野情報を保持している。
【0010】
次に、本発明における関連語抽出装置について図1乃至図9を参照して説明する。
図1は、本発明の実施の形態に係る関連語抽出装置の構成を示すブロック図である。
この関連語抽出装置は、入力された所定の分野に応じた文書を文書群から選出し、この選出された文書に見られる特定の修辞表現に着目し、この修辞表現に基づいて分野関連単語を抽出する。
関連語抽出装置1は、制御装置2、入力装置3、表示装置4、メモリ5及び磁気ディスク装置6から構成されており、各部は互いにバス7を介して接続されている。
【0011】
制御装置2は、中央演算処理装置(CPU)であり、磁気ディスク装置6内に格納されているOS(オペレーティング・システム)、所定のプログラムを後記するプログラム部51に読み出し、関連語抽出装置1全体の動作制御及び各装置間のデータ転送の処理を行なう。
入力装置3は、文字列、各種データ及び命令の入力が行なわれるものであり、キーボード、OCR、ペン、マウス、タブレット又はタッチパネルからなる。
【0012】
表示装置4は、入力装置3により入力されるデータ、関連語抽出装置1からユーザへの指示及び最終的に得られる関連語抽出結果などのデータを表示するものであり、例えばCRT又は液晶ディスプレイから構成される。
メモリ5は、図2に示すように、制御装置2が各種制御や処理を実行するために磁気ディスク装置6より所定のプログラムを読み出して記憶するためのプログラム部51及び各処理の際に必要なデータを一時的に格納するバッファ部52から構成されている。
【0013】
図3は、関連語抽出装置1のメモリ5のバッファ部52の構成を示したブロック図である。バッファ部52は、対象分野格納バッファ521と、文書格納バッファ522と、形態素解析結果格納バッファ523と、分野関連単語表記パターン格納バッファ524と、分野一時格納バッファ525と、関連単語集計用バッファ526と、一時変数格納バッファ527とから構成されている。
対象分野格納バッファ521は、対象分野取得プログラム512が取得した分野情報を格納するためのものである。文書格納バッファ522は、文書読み出しプログラム514が磁気ディスク装置6から読み込んだ文書を格納するためのものである。形態素解析結果格納バッファ523は、形態素解析プログラム516が文書格納バッファ522に格納した文書に対して形態素解析した結果を格納するためのものである。分野関連単語表記パターン格納バッファ524は、分野関連単語表記パターン読み込みプログラム511が磁気ディスク装置6から読み出した分野関連単語表記パターン辞書603を格納するためのものである。分野一時格納バッファ525は、分野抽出プログラム515が文書格納バッファ522に格納された文書から文書の属する分野情報を抽出して格納するためのものである。関連単語集計用バッファ526は、分野関連単語集計プログラム518が分野関連単語の出現頻度を集計するときに使用するワーク領域であり、プログラムのループ用変数など一時的な変数を格納するためのものである。
【0014】
磁気ディスク装置6は、図4に示すように、複数の文書群から構成される文書データベース601と、形態素解析プログラム516が形態素解析をする際に参照する形態素解析辞書602と、分野関連単語を抽出するためのパターンが格納された分野関連単語表記パターン辞書603と、OS(オペレーティング・システム)をはじめ、関連語抽出装置1を起動させるためのプログラム又は新規に作成されたデータが格納されるデータ格納領域604と、制御装置2が各種制御や処理を実行するためのプログラムが格納されている関連語抽出プログラム605とを記録している。
【0015】
図5は、磁気ディスク装置6内の関連語抽出プログラム605に格納されている各種プログラムの構成を示したブロック図である。関連語抽出プログラム605は、分野関連単語表記パターン読み込みプログラム6051と、対象分野取得プログラム6052と、表示プログラム6053と、文書読み出しプログラム6054と、分野抽出プログラム6055と、形態素解析プログラム6056と、分野関連単語抽出プログラム6057と、分野関連単語集計プログラム6058と、初期化プログラム6059と、分野情報比較プログラム6060とから構成されている。
【0016】
分野関連単語表記パターン読み込みプログラム6051は、磁気ディスク装置6に記憶された分野関連単語表記パターン辞書603をバッファ部52に読み込むためのものである。対象分野取得プログラム6052は、分野関連単語を抽出するためにユーザにより入力された分野情報を取得するためのものである。表示プログラム6053は、入力装置3により入力されたデータ、関連語抽出装置1からユーザへの指示、及び抽出された分野関連単語を表示部4に表示するためのものである。文書読み出しプログラム6054は、磁気ディスク装置6に格納されている文書群のうちの一文書をバッファ部52に読み込むためのものである。分野抽出プログラム6055は、バッファ部52に格納された文書を読み込むことにより文書の属する分野情報を抽出するためのものである。形態素解析プログラム6056は、磁気ディスク装置6に格納された形態素解析辞書602を参照してバッファ部52に格納された文書を形態素解析するためのものである。分野関連単語抽出プログラム6057は、バッファ部52に読み込まれた分野関連単語表記パターンを参照してバッファ部52に読み込まれた文書から分野関連単語を抽出するためのものである。分野関連単語集計プログラム6058は、抽出された分野関連単語の出現頻度を集計するためのものである。初期化プログラム6059は、関連語抽出装置1の電源が投入されるときに各装置の設定状態を初期化するためのものである。分野情報比較プログラム6060は、入力装置3を介して取得した対象分野と分野抽出プログラム6055に従って取得した分野情報とを比較するためのものである。
【0017】
図6は、磁気ディスク装置6の文書データベース601を構成する文書群の一例を示す図である。本発明における実施の形態で使用される文書群の各文書は、図6に示すように「分野:」に続いて文書の属する分野が記述されている。本発明の実施の形態では図6に示すように分野情報とその分野情報に応じたテキスト情報との構造を有する文書例を示したが、実際に指定された形式にしたがって技術分野を特定している文書は多い。例えば、特許公報は国際特許分類、FI又はFターム等の技術分類が付与されている。また、企業が保持する社内の技術文書も、後日の参照の便を向上させるために独自の技術分類を付与してもよいと思われる。文書データベース601の各文書の有する分野情報には、特許公報のように、一つの分類コードが大分類、中分類、小分類のように階層化されていてもよいとし、図6中の文書1においては、「分野:プログラム→サブルーチン定義」という表現で、「大分類」として「プログラム」、「中分類」として「サブルーチン定義」という意味を有する。
【0018】
図7は、磁気ディスク装置6の形態素解析辞書602が保持する論理的情報の一例を示す図である。形態素解析辞書は検索効率を向上させるために複雑なデータ構造を持っていることが一般であるが、ここでは簡略化して論理的な情報のみを示している。図7に示した形態素解析辞書602は、単語の見出し、読み、品詞の3種類の情報が保持されている。一般的な形態素解析では、細分化された品詞や属性あるいは精緻な接続文法を用いるものもあるが、本発明の実施の形態で参照している形態素解析は単純化したものを使用しており、品詞の接続情報は形態素解析処理に組み込まれているものとする。本発明の実施の形態で用いている形態素解析をより一般的で精度の良いもので置き換えることも可能である。
【0019】
図8は、分野関連単語表記パターン辞書603の一例を示す図である。(1)から(5)までの5つの分野関連単語表記パターンがあるが、それぞれのパターンにおいて『』で示されているのはプレースホルダである。このプレースホルダとは、いわゆるワイルドカードであり、制御装置2は、分野関連単語抽出プログラム6057に従い、この『』で囲まれる所定のバイト列(桁数は特に問わない。)を分野関連単語として抽出する。
【0020】
図9は、分野関連単語集計用バッファ526の一例を示す図である。この分野関連単語集計用バッファ526は、項番、単語及び頻度で構成されるものであり、後記する関連語集計処理により分野関連単語として抽出された単語が項番毎に割り振られ、文書中の出現頻度とともに格納される。
次に、関連語抽出装置1の動作について図10乃至図13を参照して説明する。
図10は、関連語抽出装置1の電源が投入されてから分野関連単語を抽出して終了するまでの処理(具体的には、対象分野取得処理、関連語集計処理及び関連語抽出処理)を体系的に説明したフローチャートである。図11は、図10に示したフローチャートにおける対象分野取得処理(S3)について説明するフローチャートであり、図12は、図10に示したフローチャートにおける関連語集計処理(S5)について説明するフローチャートである。図13は、図12に示した関連語集計処理によって集計された分野関連単語の候補となる対象語から最終的に分野関連単語として抽出する動作を説明するフローチャートである。
【0021】
関連語抽出装置1の動作が開始すると、制御装置2は、関連語抽出プログラム605から各々のプログラムを読み取って適宜にメモリ5のプログラム部51に記憶した後、そのプログラムに従って所定の処理を実行する。
即ち、図10において、関連語抽出装置1の電源が投入されると、ブートストラップの起動処理が実行され、図10に示す処理を実行するプログラムが、関連語抽出プログラム605からメモリ5中のプログラム部51にロードされた後に実行される。この処理では、制御装置2は、初期化プログラム6059に従い、入力装置3や表示装置4等の各種デバイスの設定状態を初期化する(S1)。続いて、分野関連単語表記パターン読み込みプログラム6051に従い、磁気ディスク装置6の分野関連単語表記パターン辞書603を読み込み、そして、分野関連単語表記パターン格納バッファ524に格納する(S2)。このあと、制御装置2は、対象分野取得処理に入る(S3)。制御装置2は、対象分野取得処理を終了(詳しくは後記する)しない限り(S4のNo)、関連語集計処理の実行に入る(S5)。また、関連語抽出装置1は、対象分野取得処理を終了するとき(S4のYes)、システム上の情報などメモリ5上にあるデータをデータ格納領域604に格納する等のシャットダウンを経てこのまま終了する。
【0022】
次に、対象分野取得処理について図11を参照して説明する。
図11において、制御装置2は、対象分野取得プログラム6052に従い、分野関連単語を求めるために必要な対象分野を関連語抽出装置1の入力装置3を介して取得する(S301)。ここで、制御装置2は、対象分野取得プログラム6052に従い、入力装置3から対象分野取得処理の終了を示すファンクション(例えば、ユーザからウィンドウ上のクローズボタンが押下されたという処理に相当する処理)が送られたか否かを判定する(S302)。終了でない限り(S302のNo)、制御装置2は、取得した対象分野を対象分野格納バッファ521に格納する(S303)。終了であれば(S302のYes)、制御装置2は、終了である値(例えば、プログラムに書き込む文字列の終端を表わす値であるバイナリ0)を対象分野格納バッファ521に格納し(S304)、コール元にリターンする(S4へ)。制御装置2は、対象分野取得処理の終了である値を対象分野格納バッファ521に格納したとき(S304)、図10において、S4の判定で終了との判定をし(S4のYes)、システム上の情報などメモリ5上にあるデータをデータ格納領域604に格納する等のシャットダウンを経てこのまま終了する。以下、制御装置2がプログラム部51に記憶した対象分野取得プログラム6052に従って取得した対象分野は「プリンタ技術」であるとして説明する。
【0023】
次に、関連語集計処理について図12を参照して説明する。
図12において、制御装置2は、文書読み出しプログラム6054に従い、磁気ディスク装置6の文書データベース601に格納された文書から一文書を読み込んで文書格納バッファ522に格納する(S501)。このあと、制御装置2は、分野抽出プログラム6055に従い、文書格納バッファ522に格納した文書に対し、各々の文書の属する分野情報を決定し、分野一時格納バッファ525に格納する(S502)。上記したように、図6に示した本発明の実施の形態で扱う文書データベース601内の文書は、すべて先頭にある文字列「分野:」に引き続いて文書の属する分野情報が記述されているものとするため、例えば、図6の文書Nの場合「プリンタ技術」という分野情報が抽出され、この分野情報は、分野一時格納バッファ525に格納される。
【0024】
次に、制御装置2は、プログラム部51に記憶した分野情報比較プログラム6060に従い、対象分野格納バッファ521に格納された対象分野と分野一時格納バッファ525に格納された分野情報を比較する(S503)。対象分野格納バッファ521に格納された対象分野と分野一時格納バッファ525に格納された分野情報とが異なるものであると判定されたとき(S503のNo)、制御装置2は、文書読み出しプログラム6054に従い、S501で読み出した文書データベース601内の文書と別の文書を読み込んで文書格納バッファ522に格納し、対象分野格納バッファ521に格納された対象分野と分野一時格納バッファ525に格納された分野情報とが一致すると判定するまで繰り返し文書データベース601内の文書を読み出す(S507のYes、S501へ)。
【0025】
制御装置2は、対象分野格納バッファ521に格納された対象分野と分野一時格納バッファ525に格納された分野情報とが一致するものであると判定したとき(S503のYes)、形態素解析プログラム6056に従い、このときにおける文書格納バッファ522に格納されている文書を形態素解析し、この形態素解析の結果を形態素解析結果格納バッファ523に格納する(S504)。制御装置2が実行する形態素解析では、図7に示した形態素解析辞書602の情報が参照される。本発明の実施の形態における形態素解析は、合成語処理機能を有しているものとする。この合成語処理機能とは、複数の単語の合成を新たな単語として認定する処理のことを表わす。
【0026】
例えば、「名詞」+「名詞」=「名詞」のように、名詞が2つ連続しているとき、この2つの単語を新たな名詞として認定し、又は「接頭」+「名詞」=「名詞」のように、接頭に続いて名詞が出現するとき、この2つの単語を新たな名詞として認定する等の合成語作成ルールに基づき、制御装置2が形態素解析プログラム6056に従い、合成語を認定する処理のことである。例えば、図6の文書N−2を形態素に区切ると、次のようになる(「/」は単語の切れ目を表すものとする)。インクジェット(名詞)/方式(名詞)/の(格助詞)/印刷(名詞)/装置(名詞)/に(助詞)おいて(名詞)。さらに、合成語処理を行うと名詞と名詞の連続を新たな名詞として認定し、次のようになる。インクジェット方式(名詞)/の(格助詞)/印刷装置(名詞)/に(助詞)おいて(名詞)。
【0027】
形態素解析処理の後、制御装置2は、分野関連単語抽出プログラム6057に従い、形態素解析結果格納バッファ523に格納された形態素解析の結果に基づき、分野関連単語表記パターン格納バッファ524に格納された分野関連単語表記パターンを参照して分野関連単語を抽出する(S505)。上記の例では、図8(5)の分野関連単語表記パターン(『』において)と一致し、制御装置2は、分野関連単語抽出プログラム6057に従い、「印刷装置」を分野関連単語として抽出する。分野関連単語が抽出されると、制御装置2は、分野関連単語集計プログラム6058に従い、図9に例示したように、分野関連単語集計用バッファ526に分野関連単語及びその分野関連単語が文書中に出現する頻度を集計し、その集計結果を格納する(S506)。具体的には、分野関連単語が抽出されるごとに分野関連単語の出現頻度をインクリメントする。
【0028】
次に、制御装置2は、文書格納バッファ522に格納した文書を参照し、文書データベース601に格納されている総ての文書を読み出したか否かを判定し(S507)、読み込んでいない未処理の文書があるとき(S507のYes)、引き続き処理を実行する(S501へ)。読み込んでいない未処理の文書がないとき(S507のNo)、後記する関連語抽出処理に進み(S508)、コール元にリターンする。
【0029】
次に、関連語抽出処理を図13を用いて説明する。
ここまでの処理で分野関連単語集計用バッファ526の内容が、図9の状態になっているものとする。
まず、制御装置2は、分野関連単語抽出プログラム6057に従い、一時変数格納バッファ527で、図9における頻度の合計値を求め、一時的に設定した変数SUMに代入する(S5081)。図9の例では、181+160+54+44+120+8+5+54を計算した値626が変数SUMに代入される。関連語抽出装置1には、分野関連単語として抽出された結果の適性を高めるために、文書中の出現頻度が低い分野関連単語をノイズとして除去するための閾値が設定されている。仮にこの閾値を変数SUMの5%とし、図9における頻度が5%未満の単語を除外するものとする(S5082)。ここで、626の5%は31.3であるため、図9における頻度が31.3未満である「インクリボン」および「方式」が除外される。次に、残った単語を関連語抽出装置1の求める分野関連単語として表示装置4に表示する(S5083)。ここでは、「プリンタ」、「プリンター」、「印刷装置」、「印字装置」、「インクジェットプリンタ」及び「熱転写プリンタ」が分野関連単語として表示される。
【0030】
このように、本発明の実施の形態においては、特許明細書のように、分野ごとに詳細に分類された文書中においてよく見られる特徴的な修辞表現に着目し、ユーザが求める対象分野と同一の分野情報を有する文書から、この特徴的な修辞表現に基づいて分野関連単語を抽出するものである。
また、抽出した分野関連単語の適性を高めるために、関連語抽出装置1は、文書中の出現頻度が低い分野関連単語を除去するための閾値が設定されており、この閾値より低いと算出された関連語を除去する。
【0031】
なお、本発明は、上記実施の形態に限定されるものでなく、その要旨を逸脱しない範囲で種々変形して実施できる。例えば、磁気ディスク装置6内の文書データベース601内の文書を追加することは可能である。また、本発明の実施の形態においては、文書データベース601内の各文書の分野情報は定まっているが、分野情報が定まっていないものであってもよい。この場合、所定の文書から分野情報を抽出する既存の技術を利用し、この分野抽出技術と本発明の関連語抽出技術とを組み合わせることにより、より汎用性の高い関連語抽出技術となり得る。
【0032】
また、上記実施の形態においては、入力装置3に入力された対象分野と同一の分野を有する文書データベース601内の文書を形態素解析することにより、分野関連語表記パターンと照らし合わせたが、形態素解析ではなく、他の自然言語解析を用いてもよい。例えば、構文解析又は意味解析等の自然言語解析を使用してもよい。
【0033】
【発明の効果】
以上説明したように本発明によれば、文書に出現する単語の共起情報に依存することなく、求める分野情報と同一の分野情報を有する文書を選出し、この選出された文書に見られる所定の修辞表現に基づいて分野関連単語を抽出する関連語抽出装置を提供することができる。
【図面の簡単な説明】
【図1】関連語抽出装置の構成を示すブロック図。
【図2】メモリ5の内部構成を示す図。
【図3】メモリ5のバッファ部52の構成を示すブロック図。
【図4】磁気ディスク装置6の構成を示すブロック図。
【図5】関連語抽出プログラム605の構成を示すブロック図。
【図6】文書データベース601を構成する文書群の一例を示す図。
【図7】形態素解析辞書602の保持する論理的情報の一例を示す図。
【図8】分野関連単語表記パターン辞書603の一例を示す図。
【図9】分野関連単語集計用バッファ526の一例を示す図。
【図10】関連語抽出装置1全体の動作を体系的に説明するフローチャート。
【図11】対象分野取得処理について説明するフローチャート。
【図12】関連語集計処理について説明するフローチャート。
【図13】関連語抽出処理について説明するフローチャート。
【符号の説明】
1 ・・・関連語抽出装置
2 ・・・制御装置
3 ・・・入力装置
4 ・・・表示装置
5 ・・・メモリ
6 ・・・磁気ディスク装置
7 ・・・バス
51 ・・・プログラム部
52 ・・・バッファ部
521・・・対象分野格納バッファ
522・・・文書格納バッファ
523・・・形態素解析結果格納バッファ
524・・・分野関連単語表記パターン格納バッファ
525・・・分野一時格納バッファ
526・・・分野関連単語集計用バッファ
527・・・一時変数格納バッファ
601・・・文書データベース
602・・・形態素解析辞書
603・・・分野関連単語表記パターン辞書
604・・・データ格納領域
605・・・関連語抽出プログラム
6051・・分野関連単語表記パターン読み込みプログラム
6052・・・対象分野取得プログラム
6053・・・表示プログラム
6054・・・文書読み出しプログラム
6055・・・分野抽出プログラム
6056・・・形態素解析プログラム
6057・・・分野関連単語抽出プログラム
6058・・・分野関連単語集計プログラム
6059・・・初期化プログラム
6060・・・分野情報比較プログラム[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a related word extraction technique, and more particularly, to a related word extraction device, a related word extraction method, and a program for extracting a related word corresponding to a predetermined field from a document database composed of documents in which field information is determined. .
[0002]
[Prior art]
Related words or synonyms are useful information for performing document search or automatic classification. Conventionally, while there has been an attempt to systematically edit related words or synonyms by hand, an attempt has been made to extract related words or synonyms by mechanical processing using an electronic computer.
For example, there is a method of using mutual information as a degree of association between words (for example, Patent Document 1). Mutual information is an index indicating the strength of association such that the two words of interest appear naturally rather than by chance. When the mutual information is low, the two words appear by chance. It is understood that it is only. In
[0003]
Also, paying attention to the fact that mutual information can only extract so-called related words, use linguistic features to specify the degree of relevance between words, and specify relationships such as synonyms, broad words, and low words (For example, Patent Document 2). In
[0004]
[Patent Document 1] JP-A-2002-32394 (page 10)
[Patent Document 2] JP-A-2000-222427 (page 12)
[Problems to be solved by the invention]
In the above-described prior art, it is difficult to eliminate the relationship between words that appears in any document by the method using the frequency of co-occurring words. In addition, the method based on mutual information is devised so that the mutual information between words that appears in any document is low, but whether this mechanism functions as intended is It depends on the method of selecting a group of documents used to calculate the mutual information. For example, the words "invention" and "problem" are considered to be mutually related concepts, but when calculating mutual information using patent publications, most patent publications use the words "invention" and "problem". , The amount of mutual information tends to be relatively low. In order to increase the amount of mutual information between "invention" and "problem", it is necessary to input a document group that makes it obvious that these words co-occur. Therefore, when it is attempted to extract related words in a certain field A, if possible, a unique related word frequently appearing in a document in the field A is extracted unless documents such as a field B, a field C, etc. different from the field A are combined. There is a danger that you cannot do it. Further, as a problem common to the related art described here, there is a premise that related words co-occur. According to the above-described conventional technology, for example, it is not possible to associate the “computer” described in the document A with the “electronic computer” described in another document B.
[0005]
Therefore, the present invention has been made in order to solve the above-described problems, and when extracting related words in a certain field, a document in another field cannot be prepared. It is an object of the present invention to provide a related word extraction device, a related word extraction method, and a program that appropriately extract related words even when the related words do not co-occur.
[0006]
[Means for Solving the Problems]
In order to achieve the above object, a related-word extracting apparatus according to the present invention includes a document database having a plurality of documents, an input unit for inputting field information of the document, and a document having field information matching the input field information. Means for extracting a document from the document database, natural language analyzing means for analyzing the document extracted by the document extracting means in a natural language, and extracting field-related words related to the field of the document from the document in the document database. Field-related word notation pattern holding means for holding field-related word notation patterns, and field-related word extraction from documents extracted from a document database by referring to field-related word notation patterns based on the results of natural language analysis It is characterized by comprising word extraction means and field-related word counting means for counting the frequency of appearance of the extracted field-related words. It is set to.
[0007]
Next, a related word extraction method according to the present invention extracts a document in a specific field from a document database having a plurality of documents, and extracts a related word corresponding to the specific field from the extracted document. And an input step of inputting field information of the document, a document extracting step of extracting a document having field information matching the input field information from the document database, and A field-related word notation pattern holding step for holding a field-related word notation pattern for extracting a related field-related word, and a document extracted from a document database by referring to the field-related word notation pattern based on the result of natural language analysis A field-related word extracting step of extracting the field-related words from the field, and a field for counting the appearance frequency of the extracted field-related words It is characterized by comprising a communication word aggregation step.
[0008]
Further, the program of the present invention extracts a document in a specific field from a document database having a plurality of documents, and outputs a related word extraction device that extracts a related word corresponding to the specific field from the extracted document. An input function for inputting field information, a document extraction step of extracting a document having field information that matches the input field information from a database, and field-related words related to the field of this document are extracted from documents in the document database A field-related word notation pattern holding function for storing field-related word notation patterns for performing a search, and field-related word notation patterns are referred to based on the results of natural language analysis, and field-related words are extracted from documents extracted from a document database. Realize a field-related word extraction function and a field-related word counting function that counts the frequency of appearance of extracted field-related words. It is characterized in that.
[0009]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
The related-word extraction device according to the present invention stores a document group of a plurality of fields in a magnetic disk device in advance, and when a predetermined field is input from an input device, selects a document matching the field information from the document group. Then, words related to the field information (hereinafter referred to as "field-related words"; the same applies hereinafter) are extracted from the selected document and displayed on the display device. Each document in the document group of a plurality of fields stored in the magnetic disk device holds field information in a fixed format.
[0010]
Next, a related word extracting apparatus according to the present invention will be described with reference to FIGS.
FIG. 1 is a block diagram showing a configuration of a related word extraction device according to an embodiment of the present invention.
This related word extraction device selects a document corresponding to a predetermined input field from a document group, focuses on a specific rhetorical expression found in the selected document, and extracts a field-related word based on the rhetorical expression. Extract.
The related
[0011]
The
The
[0012]
The
As shown in FIG. 2, the
[0013]
FIG. 3 is a block diagram showing a configuration of the
The target
[0014]
As shown in FIG. 4, the
[0015]
FIG. 5 is a block diagram showing the configuration of various programs stored in the related
[0016]
The field-related word notation
[0017]
FIG. 6 is a diagram illustrating an example of a document group forming the
[0018]
FIG. 7 is a diagram showing an example of logical information held by the
[0019]
FIG. 8 is a diagram illustrating an example of the field-related word
[0020]
FIG. 9 is a diagram illustrating an example of the field-related
Next, the operation of the related
FIG. 10 shows processing (specifically, target field acquisition processing, related word counting processing, and related word extraction processing) from power-on of the related
[0021]
When the operation of the related
That is, in FIG. 10, when the power of the related
[0022]
Next, the target field acquisition processing will be described with reference to FIG.
In FIG. 11, the
[0023]
Next, the related word counting process will be described with reference to FIG.
12, the
[0024]
Next, the
[0025]
When the
[0026]
For example, when two nouns are continuous like “noun” + “noun” = “noun”, these two words are recognized as new nouns, or “prefix” + “noun” = “noun” When the noun appears following the prefix, the
[0027]
After the morphological analysis processing, the
[0028]
Next, the
[0029]
Next, the related word extraction processing will be described with reference to FIG.
It is assumed that the contents of the field-related
First, the
[0030]
As described above, in the embodiment of the present invention, attention is paid to characteristic rhetorical expressions often found in documents classified in detail according to fields, such as patent specifications, and the same as the target field required by the user. The field-related words are extracted from the document having the field information on the basis of this characteristic rhetorical expression.
Further, in order to enhance the suitability of the extracted field-related words, the related-
[0031]
The present invention is not limited to the above-described embodiment, and can be implemented with various modifications without departing from the spirit of the invention. For example, it is possible to add a document in the
[0032]
In the above embodiment, the document in the
[0033]
【The invention's effect】
As described above, according to the present invention, a document having the same field information as the desired field information is selected without depending on the co-occurrence information of words appearing in the document, and a predetermined And a related word extraction device that extracts a field related word based on the rhetorical expression of
[Brief description of the drawings]
FIG. 1 is a block diagram showing a configuration of a related word extraction device.
FIG. 2 is a diagram showing an internal configuration of a
FIG. 3 is a block diagram showing a configuration of a
FIG. 4 is a block diagram showing a configuration of a
FIG. 5 is a block diagram showing a configuration of a related
FIG. 6 is a diagram showing an example of a document group constituting a
FIG. 7 is a view showing an example of logical information held by a
FIG. 8 is a diagram showing an example of a field-related word
FIG. 9 is a diagram showing an example of a field-related
FIG. 10 is a flowchart for systematically explaining the overall operation of the related
FIG. 11 is a flowchart illustrating target field acquisition processing.
FIG. 12 is a flowchart illustrating a related word counting process.
FIG. 13 is a flowchart illustrating a related word extraction process.
[Explanation of symbols]
1 ... Related word extraction device
2 ... control device
3 ... input device
4 Display devices
5 ... memory
6 ... magnetic disk drive
7 ... bus
51 ... Program section
52 ··· Buffer section
521: target field storage buffer
522: Document storage buffer
523: Morphological analysis result storage buffer
524... Field-related word notation pattern storage buffer
525: Field temporary storage buffer
526: Field-related word counting buffer
527 ... temporary variable storage buffer
601: Document database
602 morphological analysis dictionary
603 ・ ・ ・ Field related word notation pattern dictionary
604: Data storage area
605: Related word extraction program
6051 ・ ・ Field related word notation pattern reading program
6052 ・ ・ ・ Target field acquisition program
6053 ・ ・ ・ Display program
6054 ・ ・ ・ Document reading program
6055 ・ ・ ・ Field extraction program
6056 ・ ・ ・ Morphological analysis program
6057 ・ ・ ・ Field-related word extraction program
6058 ・ ・ ・ Field related word counting program
6059: Initialization program
6060 ・ ・ ・ Field information comparison program
Claims (9)
文書の分野情報を入力する入力手段と、
前記入力された分野情報と一致する分野情報を有する文書を前記文書データベースから抽出する文書抽出手段と、
前記文書抽出手段により抽出された文書を自然言語解析する自然言語解析手段と、
前記文書データベース中の文書からこの文書の分野に関連する分野関連単語を抽出するための分野関連単語表記パターンを保持する分野関連単語表記パターン保持手段と、
前記自然言語解析の結果に基づいて前記分野関連単語表記パターンを参照し、前記文書データベースから抽出した文書から前記分野関連単語を抽出する分野関連単語抽出手段と、
前記抽出された分野関連単語の出現頻度を集計する分野関連単語集計手段と、
を具備することを特徴とする関連語抽出装置。A document database having a plurality of documents;
Input means for inputting field information of the document;
Document extraction means for extracting from the document database a document having field information that matches the input field information,
Natural language analyzing means for analyzing the natural language of the document extracted by the document extracting means,
Field-related word notation pattern holding means for holding a field-related word notation pattern for extracting a field-related word related to the field of this document from a document in the document database,
A field-related word extraction unit that refers to the field-related word notation pattern based on the result of the natural language analysis and extracts the field-related word from a document extracted from the document database;
Field-related word counting means for counting the frequency of appearance of the extracted field-related words,
A related word extraction device comprising:
文書の分野情報を入力する入力ステップと、
前記入力された分野情報と一致する分野情報を有する文書を前記データベースから抽出する文書抽出ステップと、
前記文書データベース中の文書からこの文書の分野に関連する分野関連単語を抽出するための分野関連単語表記パターンを保持する分野関連単語表記パターン保持ステップと、
前記自然言語解析の結果に基づいて前記分野関連単語表記パターンを参照し、前記文書データベースから抽出した文書から前記分野関連単語を抽出する分野関連単語抽出ステップと、
前記抽出された分野関連単語の出現頻度を集計する分野関連単語集計ステップと、
を具備することを特徴とする関連語抽出方法。A related word extraction method for extracting a document in a specific field from a document database having a plurality of documents, and extracting a related word corresponding to the specific field from the extracted document.
An input step for inputting field information of the document;
A document extraction step of extracting a document having field information that matches the input field information from the database;
A field-related word notation pattern holding step of holding a field-related word notation pattern for extracting a field-related word related to the field of this document from the document in the document database,
A field-related word extraction step of referring to the field-related word notation pattern based on the result of the natural language analysis and extracting the field-related word from a document extracted from the document database;
A field-related word counting step of counting the frequency of appearance of the extracted field-related words,
A related word extraction method characterized by comprising:
文書の分野情報を入力する入力機能と、
前記入力された分野情報と一致する分野情報を有する文書を前記データベースから抽出する文書抽出ステップと、
前記文書データベース中の文書からこの文書の分野に関連する分野関連単語を抽出するための分野関連単語表記パターンを保持する分野関連単語表記パターン保持機能と、
前記自然言語解析の結果に基づいて前記分野関連単語表記パターンを参照し、前記文書データベースから抽出した文書から前記分野関連単語を抽出する分野関連単語抽出機能と、
前記抽出された分野関連単語の出現頻度を集計する分野関連単語集計機能と、
を実現させることを特徴とするプログラム。From a document database having a plurality of documents, to extract a document of a specific field, a related word extraction device that extracts a related word corresponding to the specific field from the extracted document,
An input function for inputting field information of the document,
A document extraction step of extracting a document having field information that matches the input field information from the database;
A field-related word notation pattern holding function for holding a field-related word notation pattern for extracting a field-related word related to the field of this document from a document in the document database,
A field-related word extraction function of referring to the field-related word notation pattern based on the result of the natural language analysis, and extracting the field-related word from a document extracted from the document database;
A field-related word counting function for counting the frequency of appearance of the extracted field-related words,
A program characterized by realizing.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003155922A JP2004361992A (en) | 2003-05-30 | 2003-05-30 | Related word extracting device, related word extracting method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003155922A JP2004361992A (en) | 2003-05-30 | 2003-05-30 | Related word extracting device, related word extracting method, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004361992A true JP2004361992A (en) | 2004-12-24 |
Family
ID=34050187
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003155922A Pending JP2004361992A (en) | 2003-05-30 | 2003-05-30 | Related word extracting device, related word extracting method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004361992A (en) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007133769A (en) * | 2005-11-11 | 2007-05-31 | Ricoh Co Ltd | Document retrieval device, document retrieval method, document retrieval program and recording medium |
JP2015170177A (en) * | 2014-03-07 | 2015-09-28 | クラリオン株式会社 | Related data generation device, related data generation method and program |
WO2016163529A1 (en) * | 2015-04-09 | 2016-10-13 | 真之 正林 | Information processing device, method, and program |
JP2016224998A (en) * | 2016-10-06 | 2016-12-28 | 真之 正林 | Information processing device |
JP2017076346A (en) * | 2015-10-16 | 2017-04-20 | Necパーソナルコンピュータ株式会社 | Information processing device, and program |
JP2017191456A (en) * | 2016-04-13 | 2017-10-19 | 株式会社Nttドコモ | Related word extraction support device |
JP2020173849A (en) * | 2020-07-09 | 2020-10-22 | 真之 正林 | Information processing device, method, and program |
-
2003
- 2003-05-30 JP JP2003155922A patent/JP2004361992A/en active Pending
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007133769A (en) * | 2005-11-11 | 2007-05-31 | Ricoh Co Ltd | Document retrieval device, document retrieval method, document retrieval program and recording medium |
JP2015170177A (en) * | 2014-03-07 | 2015-09-28 | クラリオン株式会社 | Related data generation device, related data generation method and program |
WO2016163529A1 (en) * | 2015-04-09 | 2016-10-13 | 真之 正林 | Information processing device, method, and program |
JP6023254B1 (en) * | 2015-04-09 | 2016-11-09 | 真之 正林 | Information processing apparatus and method, and program |
CN107533741A (en) * | 2015-04-09 | 2018-01-02 | 正林真之 | Information processor and method and program |
US10902535B2 (en) | 2015-04-09 | 2021-01-26 | Masayuki SHOBAYASHI | Information processing device, method and program |
JP2017076346A (en) * | 2015-10-16 | 2017-04-20 | Necパーソナルコンピュータ株式会社 | Information processing device, and program |
JP2017191456A (en) * | 2016-04-13 | 2017-10-19 | 株式会社Nttドコモ | Related word extraction support device |
JP2016224998A (en) * | 2016-10-06 | 2016-12-28 | 真之 正林 | Information processing device |
JP2020173849A (en) * | 2020-07-09 | 2020-10-22 | 真之 正林 | Information processing device, method, and program |
JP7178388B2 (en) | 2020-07-09 | 2022-11-25 | 真之 正林 | Information processing device and method, and program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8726148B1 (en) | Method and apparatus for processing text and character data | |
Trujillo | Translation engines: techniques for machine translation | |
US7197449B2 (en) | Method for extracting name entities and jargon terms using a suffix tree data structure | |
US7802184B1 (en) | Method and apparatus for processing text and character data | |
Kešelj et al. | N-gram-based author profiles for authorship attribution | |
Baroni et al. | Unsupervised discovery of morphologically related words based on orthographic and semantic similarity | |
Masui | An efficient text input method for pen-based computers | |
JP3839069B2 (en) | Method and apparatus for summarizing documents | |
JP3095552B2 (en) | How to search for documents related to the same topic | |
JP4769031B2 (en) | Method for creating language model, kana-kanji conversion method, apparatus, computer program, and computer-readable storage medium | |
US20060277173A1 (en) | Extraction of information from documents | |
US20120290288A1 (en) | Parsing of text using linguistic and non-linguistic list properties | |
EP0637805A2 (en) | Context-sensitive method of finding information about a word in an electronic dictionary | |
Goldsmith | Segmentation and morphology | |
US20070179932A1 (en) | Method for finding data, research engine and microprocessor therefor | |
US7398196B1 (en) | Method and apparatus for summarizing multiple documents using a subsumption model | |
US7555428B1 (en) | System and method for identifying compounds through iterative analysis | |
JP2002197104A (en) | Device and method for data retrieval processing, and recording medium recording data retrieval processing program | |
JP2007122403A (en) | Device, method, and program for automatically extracting document title and relevant information | |
JP2005043977A (en) | Method and device for calculating degree of similarity between documents | |
Bedrick et al. | Robust kaomoji detection in Twitter | |
JP2004361992A (en) | Related word extracting device, related word extracting method, and program | |
JP2015194919A (en) | Document summarization device, document summarization method, and program | |
JP5447368B2 (en) | NEW CASE GENERATION DEVICE, NEW CASE GENERATION METHOD, AND NEW CASE GENERATION PROGRAM | |
CN115146025A (en) | Question and answer sentence classification method, terminal equipment and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20050428 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20050620 |