JP2004361992A - Related word extracting device, related word extracting method, and program - Google Patents

Related word extracting device, related word extracting method, and program Download PDF

Info

Publication number
JP2004361992A
JP2004361992A JP2003155922A JP2003155922A JP2004361992A JP 2004361992 A JP2004361992 A JP 2004361992A JP 2003155922 A JP2003155922 A JP 2003155922A JP 2003155922 A JP2003155922 A JP 2003155922A JP 2004361992 A JP2004361992 A JP 2004361992A
Authority
JP
Japan
Prior art keywords
field
document
related word
extracting
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003155922A
Other languages
Japanese (ja)
Inventor
Tsutomu Kobayashi
勉 小林
Yoshihisa Otake
能久 大嶽
Yukio Nakamoto
幸夫 中本
Hiroshi Yamazaki
弘 山崎
Takeshi Matsukuma
剛 松隈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2003155922A priority Critical patent/JP2004361992A/en
Publication of JP2004361992A publication Critical patent/JP2004361992A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To properly extract related words in a certain field even when any document in another field is not prepared, or the related words do not necessarily co-occur in one document. <P>SOLUTION: An object field acquiring part 512 stores an object field inputted from an input device 3 in an object field storage buffer 521. A document reading part 514 reads a document in a document database 601, and retrieves a document having field information matched with the object field acquired by the object field acquiring part 512. The document having the matched field information is stored in a field temporary storage buffer 525, and morphemic analysis is executed to the stored document. Then, related words are tabulated and extracted from the result of the morphemic analysis by referring to a predetermined field related word notation pattern under the consideration of the rhetoric expression of the document having the field information. In this case, the related words whose appearance frequency is low can be removed by using a threshold as necessary. <P>COPYRIGHT: (C)2005,JPO&NCIPI

Description

【0001】
【発明の属する技術分野】
本発明は、関連語抽出技術に係り、特に、分野情報が定まっている文書で構成される文書データベースから所定の分野に応じた関連語を抽出する関連語抽出装置、関連語抽出方法及びプログラムに関する。
【0002】
【従来の技術】
関連語又は同義語は、文書の検索又は自動分類を行う際の有用な情報である。従来、関連語又は同義語を人手で体系的に編修する試みがある一方で、電子計算機を利用した機械処理によって関連語又は同義語を抽出する試みが為されている。
例えば、単語間の関連度として相互情報量を利用する手法がある(例えば、特許文献1)。相互情報量とは、着目している2つの単語が偶然ではなく当然に出現する程の関連強さを示した指標であり、この相互情報量が低いとき、当該2つの単語は偶然出現しているに過ぎないと解される。この特許文献1では、文書データベースに登録されている単語がクラスタリングされ、このクラスタリングにより関連語情報が作成される。ユーザにより入力された単語の関連語は、この関連語情報が参照され、当該関連度の高いクラスタ毎に提示されるものである。
【0003】
また、相互情報量がいわゆる関連語を抽出することしかできない点に着目し、単語同士の関連度を特定するために言語的特徴を利用し、同義語、上位語、下位語といった関係まで特定するための手法が提示されている(例えば、特許文献2)。この特許文献2では、単語の共起情報を参照し、共起関係にある単語間の類似度を算出する。一方、単語の言語的特徴を参照し、単語間の類似度を算出する。これら双方の類似度を統合し、求めた類似度が所定のレベルより高いとき、類似関係にあるとして提示するものである。
【0004】
【特許文献1】特開2002−32394号公報(第10頁)
【特許文献2】特開2000−222427号公報(第12頁)
【発明が解決しようとする課題】
上記した従来技術において、共起する単語の頻度を使用する方法では、どのような文書にも出てくるような単語同士の関係を排除するのが難しい。また、相互情報量に基づく方法では、どのような文書にも出てくるような単語同士の相互情報量は低くなるように工夫されているが、この機構が意図どおりに機能するかどうかは、相互情報量を算出するのに使用する文書群の選択方法にかかっている。例えば、「発明」と「課題」という単語は相互に関連する概念と考えられるが、特許公報を用いて相互情報量を算出するとき、ほとんどの特許公報には「発明」および「課題」という単語が含まれているため、相互情報量は相対的に低くなってしまう傾向にある。「発明」と「課題」の相互情報量を高めるためには、これらの単語同士が共起していることが際立つような文書群を投入する必要がある。したがって、ある分野Aにおける関連語を抽出しようとした場合、可能なら分野Aとは違った分野B,分野C…などの文書を複合しないと、分野Aの文書に頻出する特有の関連語を抽出することができないという危険性がある。さらに、ここに述べた従来技術に共通する問題として、関連語同士が共起していることが前提となっていることが挙げられる。上述した従来技術によれば、例えば、文書Aで述べられている「コンピュータ」と、別の文書Bで述べられている「電子計算機」を結びつけることはできない。
【0005】
そこで、本発明は上述した問題点を解決するためになされたものであり、ある分野の関連語を抽出するときに、他の分野の文書が用意できず、また、必ずしも関連語が一つの文書内に共起していない場合であっても、適切に関連語を抽出する関連語抽出装置、関連語抽出方法およびプログラムを提供することを目的とする。
【0006】
【課題を解決するための手段】
上記目的を達成するために、本発明の関連語抽出装置は、複数の文書を有する文書データベースと、文書の分野情報を入力する入力手段と、入力された分野情報と一致する分野情報を有する文書を文書データベースから抽出する文書抽出手段と、文書抽出手段により抽出された文書を自然言語解析する自然言語解析手段と、文書データベース中の文書からこの文書の分野に関連する分野関連単語を抽出するための分野関連単語表記パターンを保持する分野関連単語表記パターン保持手段と、自然言語解析の結果に基づいて分野関連単語表記パターンを参照し、文書データベースから抽出した文書から分野関連単語を抽出する分野関連単語抽出手段と、抽出された分野関連単語の出現頻度を集計する分野関連単語集計手段とを具備することを特徴としている。
【0007】
次に、本発明の関連語抽出方法は、複数の文書を有する文書データベースから、特定の分野の文書を抽出し、この抽出した文書から特定の分野に応じた関連語を抽出する関連語抽出方法であって、文書の分野情報を入力する入力ステップと、入力された分野情報と一致する分野情報を有する文書を文書データベースから抽出する文書抽出ステップと、文書データベース中の文書からこの文書の分野に関連する分野関連単語を抽出するための分野関連単語表記パターンを保持する分野関連単語表記パターン保持ステップと、自然言語解析の結果に基づいて分野関連単語表記パターンを参照し、文書データベースから抽出した文書から前記分野関連単語を抽出する分野関連単語抽出ステップと、抽出された分野関連単語の出現頻度を集計する分野関連単語集計ステップとを具備することを特徴としている。
【0008】
さらに、本発明のプログラムは、複数の文書を有する文書データベースから、特定の分野の文書を抽出し、この抽出した文書から特定の分野に応じた関連語を抽出する関連語抽出装置に、文書の分野情報を入力する入力機能と、入力された分野情報と一致する分野情報を有する文書をデータベースから抽出する文書抽出ステップと、文書データベース中の文書からこの文書の分野に関連する分野関連単語を抽出するための分野関連単語表記パターンを保持する分野関連単語表記パターン保持機能と、自然言語解析の結果に基づいて分野関連単語表記パターンを参照し、文書データベースから抽出した文書から分野関連単語を抽出する分野関連単語抽出機能と、抽出された分野関連単語の出現頻度を集計する分野関連単語集計機能とを実現させることを特徴としている。
【0009】
【発明の実施の形態】
以下、本発明における実施の形態について図面を参照して説明する。
本発明に係る関連語抽出装置は、予め磁気ディスク装置に複数の分野の文書群を蓄えておき、入力装置から所定の分野が入力されると、その分野情報と一致する文書を文書群から選定し、この選定した文書からその分野情報に関連する単語(「分野関連単語」という。以下において同じ。)を抽出して表示装置に表示を行う。磁気ディスク装置に格納された複数の分野の文書群のそれぞれの文書は、定型のフォーマットから成る分野情報を保持している。
【0010】
次に、本発明における関連語抽出装置について図1乃至図9を参照して説明する。
図1は、本発明の実施の形態に係る関連語抽出装置の構成を示すブロック図である。
この関連語抽出装置は、入力された所定の分野に応じた文書を文書群から選出し、この選出された文書に見られる特定の修辞表現に着目し、この修辞表現に基づいて分野関連単語を抽出する。
関連語抽出装置1は、制御装置2、入力装置3、表示装置4、メモリ5及び磁気ディスク装置6から構成されており、各部は互いにバス7を介して接続されている。
【0011】
制御装置2は、中央演算処理装置(CPU)であり、磁気ディスク装置6内に格納されているOS(オペレーティング・システム)、所定のプログラムを後記するプログラム部51に読み出し、関連語抽出装置1全体の動作制御及び各装置間のデータ転送の処理を行なう。
入力装置3は、文字列、各種データ及び命令の入力が行なわれるものであり、キーボード、OCR、ペン、マウス、タブレット又はタッチパネルからなる。
【0012】
表示装置4は、入力装置3により入力されるデータ、関連語抽出装置1からユーザへの指示及び最終的に得られる関連語抽出結果などのデータを表示するものであり、例えばCRT又は液晶ディスプレイから構成される。
メモリ5は、図2に示すように、制御装置2が各種制御や処理を実行するために磁気ディスク装置6より所定のプログラムを読み出して記憶するためのプログラム部51及び各処理の際に必要なデータを一時的に格納するバッファ部52から構成されている。
【0013】
図3は、関連語抽出装置1のメモリ5のバッファ部52の構成を示したブロック図である。バッファ部52は、対象分野格納バッファ521と、文書格納バッファ522と、形態素解析結果格納バッファ523と、分野関連単語表記パターン格納バッファ524と、分野一時格納バッファ525と、関連単語集計用バッファ526と、一時変数格納バッファ527とから構成されている。
対象分野格納バッファ521は、対象分野取得プログラム512が取得した分野情報を格納するためのものである。文書格納バッファ522は、文書読み出しプログラム514が磁気ディスク装置6から読み込んだ文書を格納するためのものである。形態素解析結果格納バッファ523は、形態素解析プログラム516が文書格納バッファ522に格納した文書に対して形態素解析した結果を格納するためのものである。分野関連単語表記パターン格納バッファ524は、分野関連単語表記パターン読み込みプログラム511が磁気ディスク装置6から読み出した分野関連単語表記パターン辞書603を格納するためのものである。分野一時格納バッファ525は、分野抽出プログラム515が文書格納バッファ522に格納された文書から文書の属する分野情報を抽出して格納するためのものである。関連単語集計用バッファ526は、分野関連単語集計プログラム518が分野関連単語の出現頻度を集計するときに使用するワーク領域であり、プログラムのループ用変数など一時的な変数を格納するためのものである。
【0014】
磁気ディスク装置6は、図4に示すように、複数の文書群から構成される文書データベース601と、形態素解析プログラム516が形態素解析をする際に参照する形態素解析辞書602と、分野関連単語を抽出するためのパターンが格納された分野関連単語表記パターン辞書603と、OS(オペレーティング・システム)をはじめ、関連語抽出装置1を起動させるためのプログラム又は新規に作成されたデータが格納されるデータ格納領域604と、制御装置2が各種制御や処理を実行するためのプログラムが格納されている関連語抽出プログラム605とを記録している。
【0015】
図5は、磁気ディスク装置6内の関連語抽出プログラム605に格納されている各種プログラムの構成を示したブロック図である。関連語抽出プログラム605は、分野関連単語表記パターン読み込みプログラム6051と、対象分野取得プログラム6052と、表示プログラム6053と、文書読み出しプログラム6054と、分野抽出プログラム6055と、形態素解析プログラム6056と、分野関連単語抽出プログラム6057と、分野関連単語集計プログラム6058と、初期化プログラム6059と、分野情報比較プログラム6060とから構成されている。
【0016】
分野関連単語表記パターン読み込みプログラム6051は、磁気ディスク装置6に記憶された分野関連単語表記パターン辞書603をバッファ部52に読み込むためのものである。対象分野取得プログラム6052は、分野関連単語を抽出するためにユーザにより入力された分野情報を取得するためのものである。表示プログラム6053は、入力装置3により入力されたデータ、関連語抽出装置1からユーザへの指示、及び抽出された分野関連単語を表示部4に表示するためのものである。文書読み出しプログラム6054は、磁気ディスク装置6に格納されている文書群のうちの一文書をバッファ部52に読み込むためのものである。分野抽出プログラム6055は、バッファ部52に格納された文書を読み込むことにより文書の属する分野情報を抽出するためのものである。形態素解析プログラム6056は、磁気ディスク装置6に格納された形態素解析辞書602を参照してバッファ部52に格納された文書を形態素解析するためのものである。分野関連単語抽出プログラム6057は、バッファ部52に読み込まれた分野関連単語表記パターンを参照してバッファ部52に読み込まれた文書から分野関連単語を抽出するためのものである。分野関連単語集計プログラム6058は、抽出された分野関連単語の出現頻度を集計するためのものである。初期化プログラム6059は、関連語抽出装置1の電源が投入されるときに各装置の設定状態を初期化するためのものである。分野情報比較プログラム6060は、入力装置3を介して取得した対象分野と分野抽出プログラム6055に従って取得した分野情報とを比較するためのものである。
【0017】
図6は、磁気ディスク装置6の文書データベース601を構成する文書群の一例を示す図である。本発明における実施の形態で使用される文書群の各文書は、図6に示すように「分野:」に続いて文書の属する分野が記述されている。本発明の実施の形態では図6に示すように分野情報とその分野情報に応じたテキスト情報との構造を有する文書例を示したが、実際に指定された形式にしたがって技術分野を特定している文書は多い。例えば、特許公報は国際特許分類、FI又はFターム等の技術分類が付与されている。また、企業が保持する社内の技術文書も、後日の参照の便を向上させるために独自の技術分類を付与してもよいと思われる。文書データベース601の各文書の有する分野情報には、特許公報のように、一つの分類コードが大分類、中分類、小分類のように階層化されていてもよいとし、図6中の文書1においては、「分野:プログラム→サブルーチン定義」という表現で、「大分類」として「プログラム」、「中分類」として「サブルーチン定義」という意味を有する。
【0018】
図7は、磁気ディスク装置6の形態素解析辞書602が保持する論理的情報の一例を示す図である。形態素解析辞書は検索効率を向上させるために複雑なデータ構造を持っていることが一般であるが、ここでは簡略化して論理的な情報のみを示している。図7に示した形態素解析辞書602は、単語の見出し、読み、品詞の3種類の情報が保持されている。一般的な形態素解析では、細分化された品詞や属性あるいは精緻な接続文法を用いるものもあるが、本発明の実施の形態で参照している形態素解析は単純化したものを使用しており、品詞の接続情報は形態素解析処理に組み込まれているものとする。本発明の実施の形態で用いている形態素解析をより一般的で精度の良いもので置き換えることも可能である。
【0019】
図8は、分野関連単語表記パターン辞書603の一例を示す図である。(1)から(5)までの5つの分野関連単語表記パターンがあるが、それぞれのパターンにおいて『』で示されているのはプレースホルダである。このプレースホルダとは、いわゆるワイルドカードであり、制御装置2は、分野関連単語抽出プログラム6057に従い、この『』で囲まれる所定のバイト列(桁数は特に問わない。)を分野関連単語として抽出する。
【0020】
図9は、分野関連単語集計用バッファ526の一例を示す図である。この分野関連単語集計用バッファ526は、項番、単語及び頻度で構成されるものであり、後記する関連語集計処理により分野関連単語として抽出された単語が項番毎に割り振られ、文書中の出現頻度とともに格納される。
次に、関連語抽出装置1の動作について図10乃至図13を参照して説明する。
図10は、関連語抽出装置1の電源が投入されてから分野関連単語を抽出して終了するまでの処理(具体的には、対象分野取得処理、関連語集計処理及び関連語抽出処理)を体系的に説明したフローチャートである。図11は、図10に示したフローチャートにおける対象分野取得処理(S3)について説明するフローチャートであり、図12は、図10に示したフローチャートにおける関連語集計処理(S5)について説明するフローチャートである。図13は、図12に示した関連語集計処理によって集計された分野関連単語の候補となる対象語から最終的に分野関連単語として抽出する動作を説明するフローチャートである。
【0021】
関連語抽出装置1の動作が開始すると、制御装置2は、関連語抽出プログラム605から各々のプログラムを読み取って適宜にメモリ5のプログラム部51に記憶した後、そのプログラムに従って所定の処理を実行する。
即ち、図10において、関連語抽出装置1の電源が投入されると、ブートストラップの起動処理が実行され、図10に示す処理を実行するプログラムが、関連語抽出プログラム605からメモリ5中のプログラム部51にロードされた後に実行される。この処理では、制御装置2は、初期化プログラム6059に従い、入力装置3や表示装置4等の各種デバイスの設定状態を初期化する(S1)。続いて、分野関連単語表記パターン読み込みプログラム6051に従い、磁気ディスク装置6の分野関連単語表記パターン辞書603を読み込み、そして、分野関連単語表記パターン格納バッファ524に格納する(S2)。このあと、制御装置2は、対象分野取得処理に入る(S3)。制御装置2は、対象分野取得処理を終了(詳しくは後記する)しない限り(S4のNo)、関連語集計処理の実行に入る(S5)。また、関連語抽出装置1は、対象分野取得処理を終了するとき(S4のYes)、システム上の情報などメモリ5上にあるデータをデータ格納領域604に格納する等のシャットダウンを経てこのまま終了する。
【0022】
次に、対象分野取得処理について図11を参照して説明する。
図11において、制御装置2は、対象分野取得プログラム6052に従い、分野関連単語を求めるために必要な対象分野を関連語抽出装置1の入力装置3を介して取得する(S301)。ここで、制御装置2は、対象分野取得プログラム6052に従い、入力装置3から対象分野取得処理の終了を示すファンクション(例えば、ユーザからウィンドウ上のクローズボタンが押下されたという処理に相当する処理)が送られたか否かを判定する(S302)。終了でない限り(S302のNo)、制御装置2は、取得した対象分野を対象分野格納バッファ521に格納する(S303)。終了であれば(S302のYes)、制御装置2は、終了である値(例えば、プログラムに書き込む文字列の終端を表わす値であるバイナリ0)を対象分野格納バッファ521に格納し(S304)、コール元にリターンする(S4へ)。制御装置2は、対象分野取得処理の終了である値を対象分野格納バッファ521に格納したとき(S304)、図10において、S4の判定で終了との判定をし(S4のYes)、システム上の情報などメモリ5上にあるデータをデータ格納領域604に格納する等のシャットダウンを経てこのまま終了する。以下、制御装置2がプログラム部51に記憶した対象分野取得プログラム6052に従って取得した対象分野は「プリンタ技術」であるとして説明する。
【0023】
次に、関連語集計処理について図12を参照して説明する。
図12において、制御装置2は、文書読み出しプログラム6054に従い、磁気ディスク装置6の文書データベース601に格納された文書から一文書を読み込んで文書格納バッファ522に格納する(S501)。このあと、制御装置2は、分野抽出プログラム6055に従い、文書格納バッファ522に格納した文書に対し、各々の文書の属する分野情報を決定し、分野一時格納バッファ525に格納する(S502)。上記したように、図6に示した本発明の実施の形態で扱う文書データベース601内の文書は、すべて先頭にある文字列「分野:」に引き続いて文書の属する分野情報が記述されているものとするため、例えば、図6の文書Nの場合「プリンタ技術」という分野情報が抽出され、この分野情報は、分野一時格納バッファ525に格納される。
【0024】
次に、制御装置2は、プログラム部51に記憶した分野情報比較プログラム6060に従い、対象分野格納バッファ521に格納された対象分野と分野一時格納バッファ525に格納された分野情報を比較する(S503)。対象分野格納バッファ521に格納された対象分野と分野一時格納バッファ525に格納された分野情報とが異なるものであると判定されたとき(S503のNo)、制御装置2は、文書読み出しプログラム6054に従い、S501で読み出した文書データベース601内の文書と別の文書を読み込んで文書格納バッファ522に格納し、対象分野格納バッファ521に格納された対象分野と分野一時格納バッファ525に格納された分野情報とが一致すると判定するまで繰り返し文書データベース601内の文書を読み出す(S507のYes、S501へ)。
【0025】
制御装置2は、対象分野格納バッファ521に格納された対象分野と分野一時格納バッファ525に格納された分野情報とが一致するものであると判定したとき(S503のYes)、形態素解析プログラム6056に従い、このときにおける文書格納バッファ522に格納されている文書を形態素解析し、この形態素解析の結果を形態素解析結果格納バッファ523に格納する(S504)。制御装置2が実行する形態素解析では、図7に示した形態素解析辞書602の情報が参照される。本発明の実施の形態における形態素解析は、合成語処理機能を有しているものとする。この合成語処理機能とは、複数の単語の合成を新たな単語として認定する処理のことを表わす。
【0026】
例えば、「名詞」+「名詞」=「名詞」のように、名詞が2つ連続しているとき、この2つの単語を新たな名詞として認定し、又は「接頭」+「名詞」=「名詞」のように、接頭に続いて名詞が出現するとき、この2つの単語を新たな名詞として認定する等の合成語作成ルールに基づき、制御装置2が形態素解析プログラム6056に従い、合成語を認定する処理のことである。例えば、図6の文書N−2を形態素に区切ると、次のようになる(「/」は単語の切れ目を表すものとする)。インクジェット(名詞)/方式(名詞)/の(格助詞)/印刷(名詞)/装置(名詞)/に(助詞)おいて(名詞)。さらに、合成語処理を行うと名詞と名詞の連続を新たな名詞として認定し、次のようになる。インクジェット方式(名詞)/の(格助詞)/印刷装置(名詞)/に(助詞)おいて(名詞)。
【0027】
形態素解析処理の後、制御装置2は、分野関連単語抽出プログラム6057に従い、形態素解析結果格納バッファ523に格納された形態素解析の結果に基づき、分野関連単語表記パターン格納バッファ524に格納された分野関連単語表記パターンを参照して分野関連単語を抽出する(S505)。上記の例では、図8(5)の分野関連単語表記パターン(『』において)と一致し、制御装置2は、分野関連単語抽出プログラム6057に従い、「印刷装置」を分野関連単語として抽出する。分野関連単語が抽出されると、制御装置2は、分野関連単語集計プログラム6058に従い、図9に例示したように、分野関連単語集計用バッファ526に分野関連単語及びその分野関連単語が文書中に出現する頻度を集計し、その集計結果を格納する(S506)。具体的には、分野関連単語が抽出されるごとに分野関連単語の出現頻度をインクリメントする。
【0028】
次に、制御装置2は、文書格納バッファ522に格納した文書を参照し、文書データベース601に格納されている総ての文書を読み出したか否かを判定し(S507)、読み込んでいない未処理の文書があるとき(S507のYes)、引き続き処理を実行する(S501へ)。読み込んでいない未処理の文書がないとき(S507のNo)、後記する関連語抽出処理に進み(S508)、コール元にリターンする。
【0029】
次に、関連語抽出処理を図13を用いて説明する。
ここまでの処理で分野関連単語集計用バッファ526の内容が、図9の状態になっているものとする。
まず、制御装置2は、分野関連単語抽出プログラム6057に従い、一時変数格納バッファ527で、図9における頻度の合計値を求め、一時的に設定した変数SUMに代入する(S5081)。図9の例では、181+160+54+44+120+8+5+54を計算した値626が変数SUMに代入される。関連語抽出装置1には、分野関連単語として抽出された結果の適性を高めるために、文書中の出現頻度が低い分野関連単語をノイズとして除去するための閾値が設定されている。仮にこの閾値を変数SUMの5%とし、図9における頻度が5%未満の単語を除外するものとする(S5082)。ここで、626の5%は31.3であるため、図9における頻度が31.3未満である「インクリボン」および「方式」が除外される。次に、残った単語を関連語抽出装置1の求める分野関連単語として表示装置4に表示する(S5083)。ここでは、「プリンタ」、「プリンター」、「印刷装置」、「印字装置」、「インクジェットプリンタ」及び「熱転写プリンタ」が分野関連単語として表示される。
【0030】
このように、本発明の実施の形態においては、特許明細書のように、分野ごとに詳細に分類された文書中においてよく見られる特徴的な修辞表現に着目し、ユーザが求める対象分野と同一の分野情報を有する文書から、この特徴的な修辞表現に基づいて分野関連単語を抽出するものである。
また、抽出した分野関連単語の適性を高めるために、関連語抽出装置1は、文書中の出現頻度が低い分野関連単語を除去するための閾値が設定されており、この閾値より低いと算出された関連語を除去する。
【0031】
なお、本発明は、上記実施の形態に限定されるものでなく、その要旨を逸脱しない範囲で種々変形して実施できる。例えば、磁気ディスク装置6内の文書データベース601内の文書を追加することは可能である。また、本発明の実施の形態においては、文書データベース601内の各文書の分野情報は定まっているが、分野情報が定まっていないものであってもよい。この場合、所定の文書から分野情報を抽出する既存の技術を利用し、この分野抽出技術と本発明の関連語抽出技術とを組み合わせることにより、より汎用性の高い関連語抽出技術となり得る。
【0032】
また、上記実施の形態においては、入力装置3に入力された対象分野と同一の分野を有する文書データベース601内の文書を形態素解析することにより、分野関連語表記パターンと照らし合わせたが、形態素解析ではなく、他の自然言語解析を用いてもよい。例えば、構文解析又は意味解析等の自然言語解析を使用してもよい。
【0033】
【発明の効果】
以上説明したように本発明によれば、文書に出現する単語の共起情報に依存することなく、求める分野情報と同一の分野情報を有する文書を選出し、この選出された文書に見られる所定の修辞表現に基づいて分野関連単語を抽出する関連語抽出装置を提供することができる。
【図面の簡単な説明】
【図1】関連語抽出装置の構成を示すブロック図。
【図2】メモリ5の内部構成を示す図。
【図3】メモリ5のバッファ部52の構成を示すブロック図。
【図4】磁気ディスク装置6の構成を示すブロック図。
【図5】関連語抽出プログラム605の構成を示すブロック図。
【図6】文書データベース601を構成する文書群の一例を示す図。
【図7】形態素解析辞書602の保持する論理的情報の一例を示す図。
【図8】分野関連単語表記パターン辞書603の一例を示す図。
【図9】分野関連単語集計用バッファ526の一例を示す図。
【図10】関連語抽出装置1全体の動作を体系的に説明するフローチャート。
【図11】対象分野取得処理について説明するフローチャート。
【図12】関連語集計処理について説明するフローチャート。
【図13】関連語抽出処理について説明するフローチャート。
【符号の説明】
1 ・・・関連語抽出装置
2 ・・・制御装置
3 ・・・入力装置
4 ・・・表示装置
5 ・・・メモリ
6 ・・・磁気ディスク装置
7 ・・・バス
51 ・・・プログラム部
52 ・・・バッファ部
521・・・対象分野格納バッファ
522・・・文書格納バッファ
523・・・形態素解析結果格納バッファ
524・・・分野関連単語表記パターン格納バッファ
525・・・分野一時格納バッファ
526・・・分野関連単語集計用バッファ
527・・・一時変数格納バッファ
601・・・文書データベース
602・・・形態素解析辞書
603・・・分野関連単語表記パターン辞書
604・・・データ格納領域
605・・・関連語抽出プログラム
6051・・分野関連単語表記パターン読み込みプログラム
6052・・・対象分野取得プログラム
6053・・・表示プログラム
6054・・・文書読み出しプログラム
6055・・・分野抽出プログラム
6056・・・形態素解析プログラム
6057・・・分野関連単語抽出プログラム
6058・・・分野関連単語集計プログラム
6059・・・初期化プログラム
6060・・・分野情報比較プログラム
[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a related word extraction technique, and more particularly, to a related word extraction device, a related word extraction method, and a program for extracting a related word corresponding to a predetermined field from a document database composed of documents in which field information is determined. .
[0002]
[Prior art]
Related words or synonyms are useful information for performing document search or automatic classification. Conventionally, while there has been an attempt to systematically edit related words or synonyms by hand, an attempt has been made to extract related words or synonyms by mechanical processing using an electronic computer.
For example, there is a method of using mutual information as a degree of association between words (for example, Patent Document 1). Mutual information is an index indicating the strength of association such that the two words of interest appear naturally rather than by chance. When the mutual information is low, the two words appear by chance. It is understood that it is only. In Patent Document 1, words registered in a document database are clustered, and related word information is created by this clustering. The related word of the word input by the user refers to the related word information and is presented for each cluster having a high degree of relatedness.
[0003]
Also, paying attention to the fact that mutual information can only extract so-called related words, use linguistic features to specify the degree of relevance between words, and specify relationships such as synonyms, broad words, and low words (For example, Patent Document 2). In Patent Document 2, similarity between words having a co-occurrence relationship is calculated with reference to word co-occurrence information. On the other hand, the similarity between words is calculated by referring to the linguistic features of the words. These two similarities are integrated, and when the obtained similarity is higher than a predetermined level, it is presented as having a similar relationship.
[0004]
[Patent Document 1] JP-A-2002-32394 (page 10)
[Patent Document 2] JP-A-2000-222427 (page 12)
[Problems to be solved by the invention]
In the above-described prior art, it is difficult to eliminate the relationship between words that appears in any document by the method using the frequency of co-occurring words. In addition, the method based on mutual information is devised so that the mutual information between words that appears in any document is low, but whether this mechanism functions as intended is It depends on the method of selecting a group of documents used to calculate the mutual information. For example, the words "invention" and "problem" are considered to be mutually related concepts, but when calculating mutual information using patent publications, most patent publications use the words "invention" and "problem". , The amount of mutual information tends to be relatively low. In order to increase the amount of mutual information between "invention" and "problem", it is necessary to input a document group that makes it obvious that these words co-occur. Therefore, when it is attempted to extract related words in a certain field A, if possible, a unique related word frequently appearing in a document in the field A is extracted unless documents such as a field B, a field C, etc. different from the field A are combined. There is a danger that you cannot do it. Further, as a problem common to the related art described here, there is a premise that related words co-occur. According to the above-described conventional technology, for example, it is not possible to associate the “computer” described in the document A with the “electronic computer” described in another document B.
[0005]
Therefore, the present invention has been made in order to solve the above-described problems, and when extracting related words in a certain field, a document in another field cannot be prepared. It is an object of the present invention to provide a related word extraction device, a related word extraction method, and a program that appropriately extract related words even when the related words do not co-occur.
[0006]
[Means for Solving the Problems]
In order to achieve the above object, a related-word extracting apparatus according to the present invention includes a document database having a plurality of documents, an input unit for inputting field information of the document, and a document having field information matching the input field information. Means for extracting a document from the document database, natural language analyzing means for analyzing the document extracted by the document extracting means in a natural language, and extracting field-related words related to the field of the document from the document in the document database. Field-related word notation pattern holding means for holding field-related word notation patterns, and field-related word extraction from documents extracted from a document database by referring to field-related word notation patterns based on the results of natural language analysis It is characterized by comprising word extraction means and field-related word counting means for counting the frequency of appearance of the extracted field-related words. It is set to.
[0007]
Next, a related word extraction method according to the present invention extracts a document in a specific field from a document database having a plurality of documents, and extracts a related word corresponding to the specific field from the extracted document. And an input step of inputting field information of the document, a document extracting step of extracting a document having field information matching the input field information from the document database, and A field-related word notation pattern holding step for holding a field-related word notation pattern for extracting a related field-related word, and a document extracted from a document database by referring to the field-related word notation pattern based on the result of natural language analysis A field-related word extracting step of extracting the field-related words from the field, and a field for counting the appearance frequency of the extracted field-related words It is characterized by comprising a communication word aggregation step.
[0008]
Further, the program of the present invention extracts a document in a specific field from a document database having a plurality of documents, and outputs a related word extraction device that extracts a related word corresponding to the specific field from the extracted document. An input function for inputting field information, a document extraction step of extracting a document having field information that matches the input field information from a database, and field-related words related to the field of this document are extracted from documents in the document database A field-related word notation pattern holding function for storing field-related word notation patterns for performing a search, and field-related word notation patterns are referred to based on the results of natural language analysis, and field-related words are extracted from documents extracted from a document database. Realize a field-related word extraction function and a field-related word counting function that counts the frequency of appearance of extracted field-related words. It is characterized in that.
[0009]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
The related-word extraction device according to the present invention stores a document group of a plurality of fields in a magnetic disk device in advance, and when a predetermined field is input from an input device, selects a document matching the field information from the document group. Then, words related to the field information (hereinafter referred to as "field-related words"; the same applies hereinafter) are extracted from the selected document and displayed on the display device. Each document in the document group of a plurality of fields stored in the magnetic disk device holds field information in a fixed format.
[0010]
Next, a related word extracting apparatus according to the present invention will be described with reference to FIGS.
FIG. 1 is a block diagram showing a configuration of a related word extraction device according to an embodiment of the present invention.
This related word extraction device selects a document corresponding to a predetermined input field from a document group, focuses on a specific rhetorical expression found in the selected document, and extracts a field-related word based on the rhetorical expression. Extract.
The related word extraction device 1 includes a control device 2, an input device 3, a display device 4, a memory 5, and a magnetic disk device 6, and each unit is connected to each other via a bus 7.
[0011]
The control device 2 is a central processing unit (CPU), reads an OS (operating system) stored in the magnetic disk device 6 and a predetermined program into a program unit 51 described later, and reads the entire related word extraction device 1. And the data transfer process between the devices.
The input device 3 is used to input a character string, various data, and a command, and includes a keyboard, an OCR, a pen, a mouse, a tablet, or a touch panel.
[0012]
The display device 4 displays data such as data input by the input device 3, instructions to the user from the related word extraction device 1, and data such as a finally obtained related word extraction result, for example, from a CRT or a liquid crystal display. Be composed.
As shown in FIG. 2, the memory 5 includes a program unit 51 for reading and storing a predetermined program from the magnetic disk device 6 for the control device 2 to execute various controls and processes, and necessary for each process. The buffer unit 52 temporarily stores data.
[0013]
FIG. 3 is a block diagram showing a configuration of the buffer unit 52 of the memory 5 of the related word extraction device 1. The buffer unit 52 includes a target field storage buffer 521, a document storage buffer 522, a morphological analysis result storage buffer 523, a field related word notation pattern storage buffer 524, a field temporary storage buffer 525, and a related word counting buffer 526. , And a temporary variable storage buffer 527.
The target field storage buffer 521 is for storing the field information acquired by the target field acquisition program 512. The document storage buffer 522 stores the document read from the magnetic disk device 6 by the document reading program 514. The morphological analysis result storage buffer 523 is for storing the result of the morphological analysis of the document stored in the document storage buffer 522 by the morphological analysis program 516. The field-related word description pattern storage buffer 524 stores the field-related word description pattern dictionary 603 read from the magnetic disk device 6 by the field-related word description pattern reading program 511. The field temporary storage buffer 525 is for the field extraction program 515 to extract field information to which the document belongs from the document stored in the document storage buffer 522 and store it. The related word counting buffer 526 is a work area used when the field related word counting program 518 counts the appearance frequency of the field related words, and is used for storing temporary variables such as variables for looping the program. is there.
[0014]
As shown in FIG. 4, the magnetic disk device 6 extracts a document database 601 composed of a plurality of documents, a morphological analysis dictionary 602 to which the morphological analysis program 516 refers when performing morphological analysis, and extracts a field-related word. Related word notation pattern dictionary 603 in which a pattern for performing the operation is stored, and a data storage for storing a program for starting the related word extraction device 1 or newly created data, including an OS (operating system). An area 604 and a related word extraction program 605 storing a program for the control device 2 to execute various controls and processes are recorded.
[0015]
FIG. 5 is a block diagram showing the configuration of various programs stored in the related word extraction program 605 in the magnetic disk device 6. The related word extraction program 605 includes a field related word notation pattern reading program 6051, a target field acquisition program 6052, a display program 6053, a document reading program 6054, a field extraction program 6055, a morphological analysis program 6056, and a field related word. It comprises an extraction program 6057, a field-related word counting program 6058, an initialization program 6059, and a field information comparison program 6060.
[0016]
The field-related word notation pattern reading program 6051 is for reading the field-related word notation pattern dictionary 603 stored in the magnetic disk device 6 into the buffer unit 52. The target field acquisition program 6052 is for acquiring field information input by a user to extract field-related words. The display program 6053 is for displaying data input by the input device 3, instructions from the related word extraction device 1 to the user, and extracted field-related words on the display unit 4. The document reading program 6054 is for reading one document from a group of documents stored in the magnetic disk device 6 into the buffer unit 52. The field extraction program 6055 is for extracting field information to which the document belongs by reading the document stored in the buffer unit 52. The morphological analysis program 6056 refers to a morphological analysis dictionary 602 stored in the magnetic disk device 6 and performs morphological analysis of a document stored in the buffer unit 52. The field-related word extraction program 6057 is for extracting field-related words from the document read into the buffer 52 with reference to the field-related word notation pattern read into the buffer 52. The field-related word counting program 6058 is for counting the frequency of appearance of the extracted field-related words. The initialization program 6059 is for initializing the setting state of each device when the power of the related word extraction device 1 is turned on. The field information comparison program 6060 is for comparing the target field acquired via the input device 3 with the field information acquired according to the field extraction program 6055.
[0017]
FIG. 6 is a diagram illustrating an example of a document group forming the document database 601 of the magnetic disk device 6. As shown in FIG. 6, each document of the document group used in the embodiment of the present invention describes the field to which the document belongs following "field:". In the embodiment of the present invention, as shown in FIG. 6, an example of a document having a structure of field information and text information corresponding to the field information is shown, but a technical field is specified according to an actually designated format. There are many documents. For example, a patent gazette is given a technical classification such as an international patent classification, FI or F-term. In addition, it is considered that in-house technical documents held by the company may be given an original technical classification in order to improve the convenience of reference at a later date. In the field information of each document in the document database 601, it is assumed that one classification code may be hierarchized such as a large classification, a middle classification, and a small classification as in the patent gazette. , The expression “field: program → subroutine definition” means “program” as “major category” and “subroutine definition” as “middle category”.
[0018]
FIG. 7 is a diagram showing an example of logical information held by the morphological analysis dictionary 602 of the magnetic disk device 6. Although the morphological analysis dictionary generally has a complicated data structure in order to improve search efficiency, here, only logical information is shown in a simplified manner. The morphological analysis dictionary 602 shown in FIG. 7 holds three types of information, ie, headings, readings, and parts of speech of words. In general morphological analysis, there are also those that use fragmented parts of speech and attributes or fine connection grammar, but the morphological analysis referred to in the embodiment of the present invention uses a simplified one, It is assumed that the part-of-speech connection information is incorporated in the morphological analysis processing. The morphological analysis used in the embodiment of the present invention can be replaced with a more general and accurate one.
[0019]
FIG. 8 is a diagram illustrating an example of the field-related word notation pattern dictionary 603. There are five field-related word notation patterns from (1) to (5), and in each of the patterns, "" is a placeholder. The placeholder is a so-called wildcard, and the control device 2 extracts a predetermined byte string (the number of digits is not particularly limited) surrounded by "" as a field-related word according to the field-related word extraction program 6057. I do.
[0020]
FIG. 9 is a diagram illustrating an example of the field-related word counting buffer 526. The field-related word totaling buffer 526 is composed of an item number, a word, and a frequency. Words extracted as field-related words by the related word totaling process described below are allocated to each item number, and are stored in the document. Stored together with the frequency of appearance.
Next, the operation of the related word extraction device 1 will be described with reference to FIGS.
FIG. 10 shows processing (specifically, target field acquisition processing, related word counting processing, and related word extraction processing) from power-on of the related word extraction device 1 to extraction of field related words and termination. It is a flowchart explained systematically. FIG. 11 is a flowchart for explaining the target field acquisition process (S3) in the flowchart shown in FIG. 10, and FIG. 12 is a flowchart for explaining the related word counting process (S5) in the flowchart shown in FIG. FIG. 13 is a flowchart illustrating an operation of finally extracting as a field-related word from a target word that is a candidate of the field-related word totaled by the related word totaling process illustrated in FIG. 12.
[0021]
When the operation of the related word extraction device 1 starts, the control device 2 reads each program from the related word extraction program 605 and stores it in the program unit 51 of the memory 5 as appropriate, and then executes a predetermined process according to the program. .
That is, in FIG. 10, when the power of the related word extraction device 1 is turned on, a bootstrap activation process is executed, and a program for executing the process shown in FIG. It is executed after being loaded into the unit 51. In this process, the control device 2 initializes the setting states of various devices such as the input device 3 and the display device 4 according to the initialization program 6059 (S1). Subsequently, in accordance with the field-related word notation pattern reading program 6051, the field-related word notation pattern dictionary 603 of the magnetic disk device 6 is read and stored in the field-related word notation pattern storage buffer 524 (S2). Thereafter, the control device 2 enters a target field acquisition process (S3). Unless the control unit 2 finishes the target field acquisition process (to be described in detail later) (No in S4), the control device 2 starts execution of the related word counting process (S5). When terminating the target field acquisition process (Yes in S4), the related word extraction device 1 ends the process after shutting down, for example, storing data on the memory 5 such as information on the system in the data storage area 604. .
[0022]
Next, the target field acquisition processing will be described with reference to FIG.
In FIG. 11, the control device 2 obtains a target field necessary for obtaining a field-related word via the input device 3 of the related word extraction device 1 according to the target field acquisition program 6052 (S301). Here, in accordance with the target field acquisition program 6052, the control device 2 executes a function indicating the end of the target field acquisition process from the input device 3 (for example, a process corresponding to a process in which the user has pressed the close button on the window). It is determined whether or not it has been sent (S302). Unless the processing is completed (No in S302), the control device 2 stores the acquired target field in the target field storage buffer 521 (S303). If the processing is to be ended (Yes in S302), the control device 2 stores the value of the end (for example, binary 0 which is the value representing the end of the character string to be written in the program) in the target field storage buffer 521 (S304). Return to the caller (to S4). When the control apparatus 2 stores the value indicating the end of the target field acquisition processing in the target field storage buffer 521 (S304), in FIG. 10, the control apparatus 2 determines that the end is determined in S4 (Yes in S4), Then, the process is terminated after shutting down, for example, storing data on the memory 5 such as the information in the data storage area 604. Hereinafter, a description will be given assuming that the target field acquired according to the target field acquisition program 6052 stored in the program unit 51 by the control device 2 is “printer technology”.
[0023]
Next, the related word counting process will be described with reference to FIG.
12, the control device 2 reads one document from the documents stored in the document database 601 of the magnetic disk device 6 according to the document reading program 6054, and stores it in the document storage buffer 522 (S501). Thereafter, the control device 2 determines field information to which each document belongs for the documents stored in the document storage buffer 522 according to the field extraction program 6055 and stores the field information in the field temporary storage buffer 525 (S502). As described above, all of the documents in the document database 601 handled in the embodiment of the present invention shown in FIG. 6 have the character string "field:" at the beginning, followed by the field information to which the document belongs. For example, in the case of the document N in FIG. 6, field information “printer technology” is extracted, and this field information is stored in the field temporary storage buffer 525.
[0024]
Next, the control device 2 compares the target field stored in the target field storage buffer 521 with the field information stored in the field temporary storage buffer 525 according to the field information comparison program 6060 stored in the program unit 51 (S503). . When it is determined that the target field stored in the target field storage buffer 521 is different from the field information stored in the field temporary storage buffer 525 (No in S503), the control device 2 operates in accordance with the document reading program 6054. , A document different from the document in the document database 601 read in S501 is read and stored in the document storage buffer 522, and the target field stored in the target field storage buffer 521 and the field information stored in the field temporary storage buffer 525 are read. The document in the document database 601 is repeatedly read until it is determined that "matches" (Yes in S507, to S501).
[0025]
When the control device 2 determines that the target field stored in the target field storage buffer 521 matches the field information stored in the field temporary storage buffer 525 (Yes in S503), the control apparatus 2 follows the morphological analysis program 6056. At this time, the document stored in the document storage buffer 522 is morphologically analyzed, and the result of the morphological analysis is stored in the morphological analysis result storage buffer 523 (S504). In the morphological analysis performed by the control device 2, information in the morphological analysis dictionary 602 illustrated in FIG. 7 is referred to. The morphological analysis in the embodiment of the present invention has a compound word processing function. The compound word processing function represents a process of identifying a combination of a plurality of words as a new word.
[0026]
For example, when two nouns are continuous like “noun” + “noun” = “noun”, these two words are recognized as new nouns, or “prefix” + “noun” = “noun” When the noun appears following the prefix, the control device 2 recognizes the compound word according to the morphological analysis program 6056 based on a compound word creation rule such as detecting the two words as new nouns. Processing. For example, when the document N-2 in FIG. 6 is divided into morphemes, the result is as follows ("/" represents a word break). Ink-jet (noun) / method (noun) / no (case particle) / printing (noun) / device (noun) / on (particle) (noun). Furthermore, when compound word processing is performed, a series of nouns and nouns is recognized as a new noun, and the result is as follows. Ink-jet method (noun) / no (case particle) / printing device (noun) / in (particle) (noun).
[0027]
After the morphological analysis processing, the control device 2 according to the field-related word extraction program 6057, based on the result of the morphological analysis stored in the morphological analysis result storage buffer 523, stores the field-related word notation pattern stored in the field-related word notation pattern storage buffer 524. A field-related word is extracted with reference to the word notation pattern (S505). In the above example, the control device 2 matches the field-related word notation pattern (in “”) of FIG. 8 (5), and extracts “printing device” as the field-related word according to the field-related word extraction program 6057. When the field-related words are extracted, the control device 2 stores the field-related words and the field-related words in the field-related word counting buffer 526 in the document according to the field-related word counting program 6058, as illustrated in FIG. The frequency of appearance is counted, and the counting result is stored (S506). Specifically, each time a field-related word is extracted, the appearance frequency of the field-related word is incremented.
[0028]
Next, the control device 2 refers to the documents stored in the document storage buffer 522 to determine whether all the documents stored in the document database 601 have been read (S507), When there is a document (Yes in S507), the process is continuously executed (to S501). If there is no unprocessed document that has not been read (No in S507), the process proceeds to a related word extraction process described later (S508), and returns to the call source.
[0029]
Next, the related word extraction processing will be described with reference to FIG.
It is assumed that the contents of the field-related word totaling buffer 526 are in the state shown in FIG.
First, the control device 2 calculates the total value of the frequencies in FIG. 9 in the temporary variable storage buffer 527 according to the field-related word extraction program 6057, and substitutes it for the temporarily set variable SUM (S5081). In the example of FIG. 9, the value 626 obtained by calculating 181 + 160 + 54 + 44 + 120 + 8 + 5 + 54 is assigned to the variable SUM. In the related word extraction device 1, a threshold value is set for removing a field related word having a low appearance frequency in a document as noise in order to enhance the suitability of a result extracted as a field related word. It is assumed that this threshold is set to 5% of the variable SUM, and words whose frequency in FIG. 9 is less than 5% are excluded (S5082). Here, since 5% of 626 is 31.3, “ink ribbon” and “method” whose frequency in FIG. 9 is less than 31.3 are excluded. Next, the remaining words are displayed on the display device 4 as the field-related words required by the related word extraction device 1 (S5083). Here, “printer”, “printer”, “printing device”, “printing device”, “inkjet printer”, and “thermal transfer printer” are displayed as field-related words.
[0030]
As described above, in the embodiment of the present invention, attention is paid to characteristic rhetorical expressions often found in documents classified in detail according to fields, such as patent specifications, and the same as the target field required by the user. The field-related words are extracted from the document having the field information on the basis of this characteristic rhetorical expression.
Further, in order to enhance the suitability of the extracted field-related words, the related-word extracting apparatus 1 sets a threshold for removing field-related words having a low appearance frequency in the document, and calculates that the threshold is lower than this threshold. Remove related words.
[0031]
The present invention is not limited to the above-described embodiment, and can be implemented with various modifications without departing from the spirit of the invention. For example, it is possible to add a document in the document database 601 in the magnetic disk device 6. Further, in the embodiment of the present invention, the field information of each document in the document database 601 is determined, but the field information may not be determined. In this case, by using an existing technology for extracting field information from a predetermined document, and combining this field extraction technology with the related word extraction technology of the present invention, a more versatile related word extraction technology can be obtained.
[0032]
In the above embodiment, the document in the document database 601 having the same field as the target field input to the input device 3 is morphologically analyzed to be compared with the field-related word notation pattern. Instead, other natural language analysis may be used. For example, natural language analysis such as syntactic analysis or semantic analysis may be used.
[0033]
【The invention's effect】
As described above, according to the present invention, a document having the same field information as the desired field information is selected without depending on the co-occurrence information of words appearing in the document, and a predetermined And a related word extraction device that extracts a field related word based on the rhetorical expression of
[Brief description of the drawings]
FIG. 1 is a block diagram showing a configuration of a related word extraction device.
FIG. 2 is a diagram showing an internal configuration of a memory 5;
FIG. 3 is a block diagram showing a configuration of a buffer unit 52 of the memory 5.
FIG. 4 is a block diagram showing a configuration of a magnetic disk device 6.
FIG. 5 is a block diagram showing a configuration of a related word extraction program 605.
FIG. 6 is a diagram showing an example of a document group constituting a document database 601.
FIG. 7 is a view showing an example of logical information held by a morphological analysis dictionary 602.
FIG. 8 is a diagram showing an example of a field-related word notation pattern dictionary 603.
FIG. 9 is a diagram showing an example of a field-related word counting buffer 526.
FIG. 10 is a flowchart for systematically explaining the overall operation of the related word extraction device 1;
FIG. 11 is a flowchart illustrating target field acquisition processing.
FIG. 12 is a flowchart illustrating a related word counting process.
FIG. 13 is a flowchart illustrating a related word extraction process.
[Explanation of symbols]
1 ... Related word extraction device
2 ... control device
3 ... input device
4 Display devices
5 ... memory
6 ... magnetic disk drive
7 ... bus
51 ... Program section
52 ··· Buffer section
521: target field storage buffer
522: Document storage buffer
523: Morphological analysis result storage buffer
524... Field-related word notation pattern storage buffer
525: Field temporary storage buffer
526: Field-related word counting buffer
527 ... temporary variable storage buffer
601: Document database
602 morphological analysis dictionary
603 ・ ・ ・ Field related word notation pattern dictionary
604: Data storage area
605: Related word extraction program
6051 ・ ・ Field related word notation pattern reading program
6052 ・ ・ ・ Target field acquisition program
6053 ・ ・ ・ Display program
6054 ・ ・ ・ Document reading program
6055 ・ ・ ・ Field extraction program
6056 ・ ・ ・ Morphological analysis program
6057 ・ ・ ・ Field-related word extraction program
6058 ・ ・ ・ Field related word counting program
6059: Initialization program
6060 ・ ・ ・ Field information comparison program

Claims (9)

複数の文書を有する文書データベースと、
文書の分野情報を入力する入力手段と、
前記入力された分野情報と一致する分野情報を有する文書を前記文書データベースから抽出する文書抽出手段と、
前記文書抽出手段により抽出された文書を自然言語解析する自然言語解析手段と、
前記文書データベース中の文書からこの文書の分野に関連する分野関連単語を抽出するための分野関連単語表記パターンを保持する分野関連単語表記パターン保持手段と、
前記自然言語解析の結果に基づいて前記分野関連単語表記パターンを参照し、前記文書データベースから抽出した文書から前記分野関連単語を抽出する分野関連単語抽出手段と、
前記抽出された分野関連単語の出現頻度を集計する分野関連単語集計手段と、
を具備することを特徴とする関連語抽出装置。
A document database having a plurality of documents;
Input means for inputting field information of the document;
Document extraction means for extracting from the document database a document having field information that matches the input field information,
Natural language analyzing means for analyzing the natural language of the document extracted by the document extracting means,
Field-related word notation pattern holding means for holding a field-related word notation pattern for extracting a field-related word related to the field of this document from a document in the document database,
A field-related word extraction unit that refers to the field-related word notation pattern based on the result of the natural language analysis and extracts the field-related word from a document extracted from the document database;
Field-related word counting means for counting the frequency of appearance of the extracted field-related words,
A related word extraction device comprising:
前記自然言語解析手段は、形態素解析、構文解析又は意味解析のどれかを実行することを特徴とする請求項1記載の関連語抽出装置。2. The related word extraction device according to claim 1, wherein the natural language analysis unit executes one of morphological analysis, syntactic analysis, and semantic analysis. 前記分野関連単語集計手段は、集計した分野関連単語の出現頻度が所定の閾値より低い分野関連単語を除去することを特徴とする請求項1または2記載の関連語抽出装置。3. The related word extracting apparatus according to claim 1, wherein the field related word totaling unit removes a field related word whose appearance frequency of the totaled field related words is lower than a predetermined threshold. 複数の文書を有する文書データベースから、特定の分野の文書を抽出し、この抽出した文書から前記特定の分野に応じた関連語を抽出する関連語抽出方法であって、
文書の分野情報を入力する入力ステップと、
前記入力された分野情報と一致する分野情報を有する文書を前記データベースから抽出する文書抽出ステップと、
前記文書データベース中の文書からこの文書の分野に関連する分野関連単語を抽出するための分野関連単語表記パターンを保持する分野関連単語表記パターン保持ステップと、
前記自然言語解析の結果に基づいて前記分野関連単語表記パターンを参照し、前記文書データベースから抽出した文書から前記分野関連単語を抽出する分野関連単語抽出ステップと、
前記抽出された分野関連単語の出現頻度を集計する分野関連単語集計ステップと、
を具備することを特徴とする関連語抽出方法。
A related word extraction method for extracting a document in a specific field from a document database having a plurality of documents, and extracting a related word corresponding to the specific field from the extracted document.
An input step for inputting field information of the document;
A document extraction step of extracting a document having field information that matches the input field information from the database;
A field-related word notation pattern holding step of holding a field-related word notation pattern for extracting a field-related word related to the field of this document from the document in the document database,
A field-related word extraction step of referring to the field-related word notation pattern based on the result of the natural language analysis and extracting the field-related word from a document extracted from the document database;
A field-related word counting step of counting the frequency of appearance of the extracted field-related words,
A related word extraction method characterized by comprising:
前記自然言語解析ステップは、形態素解析、構文解析又は意味解析のどれかを実行することを特徴とする請求項4記載の関連語抽出方法。5. The related word extraction method according to claim 4, wherein the natural language analysis step performs one of morphological analysis, syntactic analysis, and semantic analysis. 前記分野関連単語集計ステップは、集計した分野関連単語の出現頻度が所定の閾値より低い分野関連単語を除去することを特徴とする請求項4または5記載の関連語抽出方法。6. The related word extraction method according to claim 4, wherein the field related word totaling step removes a field related word in which the frequency of appearance of the totaled field related words is lower than a predetermined threshold. 複数の文書を有する文書データベースから、特定の分野の文書を抽出し、この抽出した文書から前記特定の分野に応じた関連語を抽出する関連語抽出装置に、
文書の分野情報を入力する入力機能と、
前記入力された分野情報と一致する分野情報を有する文書を前記データベースから抽出する文書抽出ステップと、
前記文書データベース中の文書からこの文書の分野に関連する分野関連単語を抽出するための分野関連単語表記パターンを保持する分野関連単語表記パターン保持機能と、
前記自然言語解析の結果に基づいて前記分野関連単語表記パターンを参照し、前記文書データベースから抽出した文書から前記分野関連単語を抽出する分野関連単語抽出機能と、
前記抽出された分野関連単語の出現頻度を集計する分野関連単語集計機能と、
を実現させることを特徴とするプログラム。
From a document database having a plurality of documents, to extract a document of a specific field, a related word extraction device that extracts a related word corresponding to the specific field from the extracted document,
An input function for inputting field information of the document,
A document extraction step of extracting a document having field information that matches the input field information from the database;
A field-related word notation pattern holding function for holding a field-related word notation pattern for extracting a field-related word related to the field of this document from a document in the document database,
A field-related word extraction function of referring to the field-related word notation pattern based on the result of the natural language analysis, and extracting the field-related word from a document extracted from the document database;
A field-related word counting function for counting the frequency of appearance of the extracted field-related words,
A program characterized by realizing.
前記自然言語解析機能は、形態素解析、構文解析又は意味解析のどれかを実行することを特徴とする請求項7記載のプログラム。8. The program according to claim 7, wherein the natural language analysis function executes one of morphological analysis, syntactic analysis, and semantic analysis. 前記分野関連単語集計機能は、集計した分野関連単語の出現頻度が所定の閾値より低い分野関連単語を除去することを特徴とする請求項7または8記載のプログラム。The program according to claim 7, wherein the field-related word totaling function removes a field-related word in which the frequency of appearance of the totaled field-related words is lower than a predetermined threshold.
JP2003155922A 2003-05-30 2003-05-30 Related word extracting device, related word extracting method, and program Pending JP2004361992A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003155922A JP2004361992A (en) 2003-05-30 2003-05-30 Related word extracting device, related word extracting method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003155922A JP2004361992A (en) 2003-05-30 2003-05-30 Related word extracting device, related word extracting method, and program

Publications (1)

Publication Number Publication Date
JP2004361992A true JP2004361992A (en) 2004-12-24

Family

ID=34050187

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003155922A Pending JP2004361992A (en) 2003-05-30 2003-05-30 Related word extracting device, related word extracting method, and program

Country Status (1)

Country Link
JP (1) JP2004361992A (en)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007133769A (en) * 2005-11-11 2007-05-31 Ricoh Co Ltd Document retrieval device, document retrieval method, document retrieval program and recording medium
JP2015170177A (en) * 2014-03-07 2015-09-28 クラリオン株式会社 Related data generation device, related data generation method and program
WO2016163529A1 (en) * 2015-04-09 2016-10-13 真之 正林 Information processing device, method, and program
JP2016224998A (en) * 2016-10-06 2016-12-28 真之 正林 Information processing device
JP2017076346A (en) * 2015-10-16 2017-04-20 Necパーソナルコンピュータ株式会社 Information processing device, and program
JP2017191456A (en) * 2016-04-13 2017-10-19 株式会社Nttドコモ Related word extraction support device
JP2020173849A (en) * 2020-07-09 2020-10-22 真之 正林 Information processing device, method, and program

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007133769A (en) * 2005-11-11 2007-05-31 Ricoh Co Ltd Document retrieval device, document retrieval method, document retrieval program and recording medium
JP2015170177A (en) * 2014-03-07 2015-09-28 クラリオン株式会社 Related data generation device, related data generation method and program
WO2016163529A1 (en) * 2015-04-09 2016-10-13 真之 正林 Information processing device, method, and program
JP6023254B1 (en) * 2015-04-09 2016-11-09 真之 正林 Information processing apparatus and method, and program
CN107533741A (en) * 2015-04-09 2018-01-02 正林真之 Information processor and method and program
US10902535B2 (en) 2015-04-09 2021-01-26 Masayuki SHOBAYASHI Information processing device, method and program
JP2017076346A (en) * 2015-10-16 2017-04-20 Necパーソナルコンピュータ株式会社 Information processing device, and program
JP2017191456A (en) * 2016-04-13 2017-10-19 株式会社Nttドコモ Related word extraction support device
JP2016224998A (en) * 2016-10-06 2016-12-28 真之 正林 Information processing device
JP2020173849A (en) * 2020-07-09 2020-10-22 真之 正林 Information processing device, method, and program
JP7178388B2 (en) 2020-07-09 2022-11-25 真之 正林 Information processing device and method, and program

Similar Documents

Publication Publication Date Title
US8726148B1 (en) Method and apparatus for processing text and character data
Trujillo Translation engines: techniques for machine translation
US7197449B2 (en) Method for extracting name entities and jargon terms using a suffix tree data structure
US7802184B1 (en) Method and apparatus for processing text and character data
Kešelj et al. N-gram-based author profiles for authorship attribution
Baroni et al. Unsupervised discovery of morphologically related words based on orthographic and semantic similarity
Masui An efficient text input method for pen-based computers
JP3839069B2 (en) Method and apparatus for summarizing documents
JP3095552B2 (en) How to search for documents related to the same topic
JP4769031B2 (en) Method for creating language model, kana-kanji conversion method, apparatus, computer program, and computer-readable storage medium
US20060277173A1 (en) Extraction of information from documents
US20120290288A1 (en) Parsing of text using linguistic and non-linguistic list properties
EP0637805A2 (en) Context-sensitive method of finding information about a word in an electronic dictionary
Goldsmith Segmentation and morphology
US20070179932A1 (en) Method for finding data, research engine and microprocessor therefor
US7398196B1 (en) Method and apparatus for summarizing multiple documents using a subsumption model
US7555428B1 (en) System and method for identifying compounds through iterative analysis
JP2002197104A (en) Device and method for data retrieval processing, and recording medium recording data retrieval processing program
JP2007122403A (en) Device, method, and program for automatically extracting document title and relevant information
JP2005043977A (en) Method and device for calculating degree of similarity between documents
Bedrick et al. Robust kaomoji detection in Twitter
JP2004361992A (en) Related word extracting device, related word extracting method, and program
JP2015194919A (en) Document summarization device, document summarization method, and program
JP5447368B2 (en) NEW CASE GENERATION DEVICE, NEW CASE GENERATION METHOD, AND NEW CASE GENERATION PROGRAM
CN115146025A (en) Question and answer sentence classification method, terminal equipment and storage medium

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20050428

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20050620