JP3774431B2 - 辞書構築支援装置および辞書構築支援方法 - Google Patents
辞書構築支援装置および辞書構築支援方法 Download PDFInfo
- Publication number
- JP3774431B2 JP3774431B2 JP2002351429A JP2002351429A JP3774431B2 JP 3774431 B2 JP3774431 B2 JP 3774431B2 JP 2002351429 A JP2002351429 A JP 2002351429A JP 2002351429 A JP2002351429 A JP 2002351429A JP 3774431 B2 JP3774431 B2 JP 3774431B2
- Authority
- JP
- Japan
- Prior art keywords
- dictionary
- expression
- expressions
- storage means
- stored
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【発明の属する技術分野】
本発明は、文書データを自動的に分類する文書分類システムにおいて利用される電子辞書をユーザによって構築可能とするための辞書構築支援装置および方法に関する。
【0002】
【従来の技術】
さまざまな場所で日々多様な電子データが利用されているが、それらデータの8割以上が文書データであると言われている。文書データは、用途に応じて、種々の電子辞書が利用される。例えば、日本語の文書データの作成時においては、かな漢字変換辞書が用いられ、また、日本語の文書データの形態素解析を行う場合には形態素解析辞書が、文書データの構文解析を行う際には構文解析辞書が用いられる。このような電子辞書においては、基本的には明確に定義された不変的な規則が存在しているため、予め製品メーカ側で作成されて供給されるものであり、ユーザはこのような電子辞書の内容を特に意識することなく利用している。
【0003】
ところで、多種多様な文書データのうち、特に自由な形式で記述された文書データからユーザにとって必要な情報を抽出する技術として、テキストマイニング技術が近年注目されてきている。
【0004】
本願出願人は、特許文献1において、テキストマイニング技術の一方法を提案している。これには、抽出したい概念と該概念を表す一つ以上の様々な表現とを対応づけて保持される情報抽出用辞書を利用して、対象となる文書データ中に含まれる重要な情報を抽出する文書データの解析方法が提案されている。なお、ここで言う表現とは、例えば、単語や、句や、共起関係にある単語の組、等のことを言い、また、ここで言う概念とは、このような表現それぞれに共通した上位の意味に相当する。例えば、「オーナー」、「トレーナー」、「バイヤー」等が個々の「表現」であり、「人」は、これら「オーナー」、「トレーナー」、「バイヤー」等の上位の意味を持つ「概念」である。
【0005】
このような情報抽出用辞書における概念と表現との対応付けは、明確に定義された不変的な規則が存在しているものではなく、分析対象とする文書データの分野や分析の視点に依存するものである。
【0006】
これら情報抽出用辞書においても、先に示した電子辞書と同様、製品メーカ側が、テキストマイニング技術を導入するユーザの利用形態を調査し、それに併せて情報抽出用辞書を作成して提供し、また、利用後の結果を検証してその情報抽出用辞書に登録、削除、修正などのメンテナンスを行っているのが現状であった。
【0007】
以上説明してきたように、テキストマイニング技術に用いられる従来の情報抽出用辞書は、その良し悪しにより、抽出精度に大きな影響を与えるにもかかわらず、利用者ではないメーカ側によって予め用意されているものであり、ユーザがその辞書を作成したり、作成した辞書を検証しながら編集する手段は提供されていなかった。なお、エディタなどを用いて、情報抽出用辞書を編集することは可能であったが、辞書の構造などを十分に把握し、プログラムレベルで編集する必要があり、通常のユーザにとって容易に編集できるものではなかった。
【0008】
また、これら情報抽出用辞書のメンテナンスにおいても、製品メーカ側が、利用後のユーザの不具合等を調査して、解決されると思われる箇所を経験などから判断し、情報抽出用辞書への追加、削除、修正などを行ってテキストマイニングの精度を向上するしかなかった。
【0009】
このような点に鑑み、本願出願人は、特許文献2において、テキストマイニングで用いられる情報抽出用辞書の作成およびメインテナンスを容易にする方法および装置を提案した。
【0010】
また、抽出したい概念が固有名詞など形態素解析を必要としない場合があることに鑑み、本願出願人は、特許文献3において、電子辞書中の表現と文書データとを照合する際、あらかじめ設定された条件に応じて形態素解析を行ってから照合するか形態素解析を行わずに照合するかを切り替えて表現を抽出する表現抽出手段を具備することを特徴とする情報抽出システムを提案した。これによれば、抽出すべき表現あるいは概念ごとに照合条件を設定できる。例えば、文字列照合だけでは他の単語の一部になってしまう表現を抽出したい場合、形態素解析を行えば単語の境界を正しく認識できるので、形態素解析を行わない場合よりも抽出精度が高くなる。具体的な例としては、「京都」を抽出したい場合、形態素解析を行わないと「東京都」という文字列中の「京都」にもマッチしてしまうが、形態素解析を行えばそのような誤りを防げる。
【0011】
逆に、例えば、形態素解析に失敗し未知語になるような場合、単語境界を誤る可能性が高いので、形態素解析を行うとマッチしなくなる場合がある。具体的な例としては、「コチジャン」を抽出しようとして1単語として抽出用辞書に登録したとしても、形態素解析すると「コチ/ジャン」のように2単語に分割されてしまう場合、形態素解析を行うとそのままではマッチしなくなる。
【0012】
一般に、形態素解析辞書には登録されていない製品名や記号列などを抽出したい場合には形態素解析を行わない方が適しており、形態素解析辞書に登録されているような一般的な語を抽出したい場合には形態素解析を行う方が適していると言える。
【0013】
【特許文献1】
特開2001−147937号公報
【0014】
【特許文献2】
特開2002−140338号公報
【0015】
【特許文献3】
特願2002−278421号
【0016】
【発明が解決しようとする課題】
ところが、上記条件設定を行うためには、テキストエディタ等を用いて情報抽出用辞書を編集することが必要であった。形態素解析を行わない場合の電子辞書の構築は、計算言語学上の知識を必要としないため、論理的には一般のユーザにも可能な作業であるが、プログラムレベルでの編集作業が必要であったため、実際にはプログラムレベルでの編集作業が必要であり、一般のユーザにとっては編集作業は極めて困難であった。
【0017】
本発明は、このような事情に鑑みてなされたものであり、ユーザが表現の照合において形態素解析をするかしないかを設定できる情報抽出用の辞書を作成・検証するための支援環境を提供することを目的とする。
【0018】
【課題を解決するための手段】
そこで、本発明の辞書構築支援装置は、複数の表現とそれら表現に共通する上位の表現である概念とを対応付けて格納される電子辞書を記憶する辞書記憶手段と、文書データから抽出された表現を記憶する表現記憶手段と、前記辞書記憶手段にて記憶される該電子辞書から少なくとも一部の概念と、前記表現記憶手段にて記憶される少なくとも一部の該抽出された表現とを同時に表示する表示手段と、前記表示手段によって表示された表現から一つ以上の表現の指定と、前記表示手段によって表示された概念から一つの概念の指定とを受けると、指定された表現を指定された概念に対応付けて前記電子辞書に追加登録する登録手段とに加え、概念毎に照合の際、形態素解析をするか否かを指定し、それを電子辞書に保存する手段を備えた。
【0019】
また、抽出結果を表示する際、形態素解析を用いて照合されたものとそうでないものを区別して表示する手段を備えた。
【0020】
これにより、文書データから抽出された表現を、簡単な操作で電子辞書内の所望の概念へ登録することができ、形態素解析をすべきか否かを含め電子辞書の良し悪しを容易に検証することができるようになった。
【0021】
すなわち、文書から抽出した重要な表現を参照しながら、必要な表現を選択して情報処理用の辞書に登録することができ、同時に、形態素解析を行うか否かも指定することができ、また、情報処理結果を見て辞書の性能を検証しながら辞書を編集することができるようになった。
【0022】
【発明の実施の形態】
以下、図面を参照して本発明に係る実施形態を説明する。
【0023】
図1は、本発明の実施形態に係る辞書構築支援装置の構成を示した図である。
【0024】
本実施形態における辞書構築支援装置は、例えばパーソナルコンピュータ等のコンピュータにおいて、記憶装置50に格納された辞書構築支援プログラム100がメモリ40上へ読み込まれ、全体の制御を司るCPU10によって実行されることにより実現される。
【0025】
入力部20は、マウスやキーボードあるいは音声入力装置等から、文字列の挿入や削除などの編集指示、機能を選択するための操作指示、処理対象となる文書や辞書の指定などのコマンド入力等を受けるものである。出力部30は、例えばディスプレイ等の表示装置へ表示情報を供給するためのものである。
【0026】
メモリ40は、高速で揮発性の、例えばDRAM等から構成され、前記したとおりCPU10で実行される前記プログラム100等を記憶したり、該プログラム100が実行される際に一時的に保持される内部データ保持部110として利用される。
【0027】
この内部データ保持部110には、テキストバッファ110a、表現リストバッファ110b、処理結果バッファ110c、辞書バッファ110d、差分バッファ110eが設けられている。
【0028】
記憶装置50は、不揮発性の大容量記憶装置であり、例えば、HDD、CD−ROM、DVD−ROM等によって実現可能である。記憶装置50には、制御部101、表現抽出部102aを備えた表現登録部102、辞書編集部103、辞書検証部104、差分検出部105および条件設定部106からなる辞書構築支援プログラム100と、このプログラムによって構築される情報抽出用辞書109が格納されている。
【0029】
制御部101は、本プログラム100の起動時に最初に実行されるメインプログラムである。
【0030】
表現登録部102は、表現を情報抽出用辞書109へ登録するプログラムであり、制御部102からの所定の指示により起動され、後述する「表現」を情報抽出用辞書109へ登録する処理を行う。
【0031】
表現抽出部102aは、表現登録部102から、文書データの表現の抽出処理が必要になった際に起動されるプログラムである。表現抽出部102aは、テキストバッファ110aに記憶される内容を構文解析等を行って、文書中で使用される単語や句、あるいは共起関係等(以下、これらを表現と称す)をリスト化し、表現リストバッファ110bへ記憶する。なお、このリスト化されたものを、総称して表現リストと呼ぶ。この表現リストの作成方法については、たとえば特開昭62−99865号公報や特開平2−42572号公報で公開されており、説明を省略する。
【0032】
表現登録部102は、作成された表現リスト中からユーザによって指定された表現を、辞書バッファ110dへ登録する。
【0033】
辞書編集部103は、情報抽出用辞書109を編集するプログラムである。この辞書編集部103は、表現登録部102や辞書検証部104からも起動できる。
【0034】
辞書検証部104は、情報抽出用辞書109から読み出され格納した、辞書バッファ110dを用いて、ユーザによって指定された抽出処理を行い、抽出処理結果を処理結果バッファ110cに記憶する。また、ユーザの指示に基づき、処理結果バッファ110cに記憶される情報を表示する。
【0035】
差分検出部105は、2つの情報抽出用辞書109の差分を検出する。
【0036】
条件設定部106は、情報抽出の際の照合条件を設定する。設定された条件は、制御部101を通して情報抽出用辞書109に保存される。保存された条件は、辞書バッファ110dに読み出されることにより、辞書検証部104における情報抽出の動きを制御するほか、本情報抽出用辞書を用いる外部の情報抽出システムにおける情報抽出の動きを、たとえば特許文献3のように制御する。
【0037】
情報抽出用辞書109は、本プログラムで構築される電子辞書である。この情報抽出用辞書109の構成の一例を図2に示す。この情報抽出用辞書109は、3階層にて構成されており、最上位の階層をクラス、中位の階層を概念、下位の階層を表現と呼んでいる。なお、クラス、概念、表現の階層を特に意識することなく、これらの一つを指す場合には、以下では単にノードと呼ぶこととする。
【0038】
クラステーブル121は、クラスを示しており、ここには、「地名」、「人名」等を格納する。概念テーブル122は、クラスと概念を対応付けて格納している。表現テーブル123は、クラス、概念、表現とを対応付けて格納をしている。
【0039】
以上が本実施形態の辞書構築支援装置の構成である。
【0040】
次に、本実施形態の辞書構築支援装置の動作について情報抽出を例として、フローチャートを用いて説明する。
【0041】
図3は、辞書構築プログラム100のうち、制御部101のフローチャートを示している。
【0042】
ユーザが、辞書構築プログラム100の起動を要求すると、制御部101が起動される。
【0043】
制御部101は、自プログラム起動後、ユーザからのキー入力を待つ(S201)。キー入力を受けると、まず、ユーザの入力が終了指示であるか否か判定する(S202)。ここで終了指示と判定した場合には自プログラムを終了する。
【0044】
一方、ステップS202において、終了指示でないと判定した場合には、次に、ユーザの入力が文書指定であるか否か判定する(S204)。ここで文書指定である場合には、指定された文書データを、指定先の、例えばメモリや磁気ディスク、光ディスクなどから読み出して、メモリ40の内部データ保持部110内のテキストバッファ110aに記憶する(S204)。この処理が終了すると、ステップS201に戻り、ユーザからの次の入力を待つ。
【0045】
一方、ステップS203において、文書指定でないと判定した場合には、次に、ユーザの入力が辞書指定であるか否か判定する(S205)。ここで辞書指定である場合には、指定された辞書を、指定先の、例えばメモリや磁気ディスク、光ディスクなどから読み出して、メモリ40の内部データ保持部110内の辞書バッファ110dに記憶する(S206)。この処理が終了すると、ステップS201に戻り、ユーザからの次の入力を待つ。
【0046】
一方、ステップS205において、辞書指定でないと判定した場合には、次に、ユーザの入力が表現登録指示であるか否か判定する(S207)。ここで表現登録指示であると判断した場合には、表現登録部102を起動する(S208)。表現登録部102の動作については後述する。なお、表現登録部102の動作が終了すると、ステップS201に戻り、ユーザからの次の入力を待つ。
【0047】
一方、ステップS207において、表現登録指示でないと判断した場合には、次に、ユーザの入力が辞書検証指示であるか否か判定する(S209)。ここで辞書検証指示であると判定した場合には、辞書検証部104を起動する(S210)。辞書検証部104の動作については後述する。なお、辞書検証部104の動作が終了するとステップS201に戻り、ユーザからの次の入力を待つ。
【0048】
一方、ステップS209において、辞書検証指示でないと判断した場合には、次に、ユーザの入力が辞書編集指示であるか否か判定する(S211)。ここで辞書編集指示である場合には、辞書編集部103を起動する(S212)。辞書編集部103の動作については後述する。なお、辞書編集部103の動作が終了するとステップS201に戻り、ユーザからの次の入力を待つ。
【0049】
一方、ステップS211において、辞書編集指示でないと判断した場合には、次に、ユーザの入力が差分検出指示であるか否か判定する(S213)。ここで、差分検出指示である場合には、差分検出部105を起動する(S214)。差分検出部105の動作については後述する。なお、差分検出部105の動作が終了するとステップS201に戻り、ユーザからの次の入力を待つ。
【0050】
一方、ステップS213において、差分検出指示でないと判断した場合には、指定された他の処理、例えば環境設定処理等のユーザの入力指示に対応する処理を行って(S215)、ステップS201に戻り、ユーザからの次の入力を待つ。
【0051】
以上のように、制御部101は、ユーザの入力を解析して各種処理部を起動するとともに、ユーザの指示に基づき、処理対象の文書および辞書を内部データ保持部110に記憶する。
【0052】
図4は、制御部101が起動した直後の画面表示例を示している。上部には、登録、検証、編集、差分表示、環境設定、終了の各ボタンがあり、ユーザは、これらのボタンを押すことによって、次に行う処理を選択する。例えば、終了ボタンがクリックされると、ステップS202にて、ユーザの入力が終了指示であることを判定して、終了処理が行われる。また、例えば、登録ボタンがクリックされると、ステップS207にて、ユーザの入力が表現登録指示であることを判定し、表現登録部102が起動される処理が行われる。
【0053】
これらボタンの下部には、左に辞書名を入力する領域が、右に文書名を入力する領域が設けられており、ユーザは、これら領域に辞書名、文書名を入力し、実行することにより、該当する辞書あるいは文書を記憶装置50から読み出す。例えば、文書名を入力する領域にユーザが文書名を入力して実行すると、ステップS203にて、ユーザの入力が文書指定であると判定し、続くステップS204で、入力された文書名に基づいて、該当する文書を記憶装置50などから読み出して、テキストバッファ110aに記憶する。
【0054】
次に、表現登録部102の処理動作について説明する。図5は、表現登録部102の処理動作を示すフローチャートである。
【0055】
制御部101の動作中、ステップ207において表現登録指示であると判断した場合には、表現登録部102が起動される。起動された表現登録部102は、まず、表現抽出部102aを起動する。起動された表現抽出部102aは、テキストバッファ110aに記憶される文書データを所定の解析方法にて解析し、表現リストを作成する(S301)。この作成された表現リストを表現リストバッファ110bに保持する(S302)。なお、所定の解析方法は、例えば、単語の表現リストを作成する際には、文書データを形態素解析や、構文解析し、単語を抽出し、抽出した単語を羅列すればよく、またこの解析方法にとらわれることなく既知の様々な方法で作成すれば良い。抽出後、表現抽出部102aは、終了する。
【0056】
次に、辞書バッファ110dに記憶される辞書データと、表現リストバッファ110bに記憶される表現リストとを読み出して、同時に表示する(S303)。
【0057】
次に、ユーザの入力が辞書登録指示であるか否か判定する(S304)。ここで、辞書登録指示である場合には、次に、ユーザは、表示された表現リストの中から辞書に登録したい表現を指定する(S305)。これにより、表現登録部102は、ユーザによって指定された表現を得る。また、ユーザは、表示された辞書の概念の中から、得られた表現を登録したい概念を指定する(S306)。これにより、表現登録部102は、表現が登録される概念を得る。また、ユーザは、その概念が情報抽出時に形態素解析されるべきか否かを、チェックボックス等の入力手段を用いて条件設定部106に与える(S307)。そして、これら得た表現、概念、および情報抽出の条件を合成し、表現の辞書情報(下位のテーブル)として登録する(S308)。この登録は、辞書バッファ110dに追加される。
【0058】
一方、ステップS304において、辞書登録指示でない場合には、ユーザの入力が辞書編集指示であるか否か判定する(S309)。ここで、辞書編集指示である場合には、後述の辞書編集部103を起動し、辞書の編集を行う(S310)。辞書編集部103の処理が終了すると、ステップS304に戻る。
【0059】
一方、ステップS309において、辞書編集指示でない場合には、辞書バッファ110dに記憶される情報を磁気ディスク等に保存し(S311)、処理を終了する。
【0060】
このようにして、表現登録部102は、表現抽出部102aを起動して表現リストを作成し、表現リストから辞書109への辞書登録を行う。
【0061】
図6は、表現登録部102の処理時の画面表示例を示している。辞書名を入力する領域の下部には、登録ボタンがあり、このボタンをクリックすることによって辞書登録処理(図5のS305〜S308)が可能になる。この登録ボタンの下部には、辞書の内容を表示している。この例においては、辞書名「XXXXXXX」の辞書の内容の一部が表示されている。この表示では、クラス、概念、表現の3階層の形式で表示されている。また、各語の前部にはチェックボックスが設けられており、ユーザにてチェックボックスをクリックすることにより指定可能になる。また、概念には、情報抽出時の照合条件として形態素解析を使うかどうかを指定するためのチェックボックス(a1,a2,…)があり、ユーザによる条件の入力が可能となっている。そして、このチェックボックス(a1,a2,…)を設けて、形態素解析を行うか否かを指定できるようにした点が、この辞書構築支援装置の特徴の1つであり、これにより、プログラムレベルでの編集作業が不要となり、一般のユーザでも編集作業を簡単に行えるようになる。この例では、概念「仕事」のチェックボックス(a1)はオフ、概念「人」のチェックポイント(a2)はオンとなっているため、概念「仕事」に含まれる表現を抽出する際には形態素解析は用いられず、一方、概念「人」に含まれる表現を抽出する際には形態素解析が用いられることになる。
【0062】
一方、文書名を入力する領域の下部には、単語、共起、句の各ボタンがあり、これらボタンを押すことによって、表現リストの表示内容を選択できる。これらボタンの下部は、表現リストを表示する領域であり、この例においては、文書名「++++++」の単語の表現リストを表示している。この表現リストの各語(この場合は単語)の前部にはチェックボックスが設けられており、ユーザにてチェックボックスをクリックすることにより指定可能になっている。
【0063】
このように、この表現登録部102の処理時の画面は、辞書と表現リストが同時に表示可能となっており、また、辞書のクラス、概念、表現、および表現リストの各語は、簡単に指定可能になっており、ユーザにとって、簡単に辞書への登録が可能である。
【0064】
図7は、表現の登録処理を模式的に示した図である。この例では、表現リストから「社員」を選択し、「人」の概念の一つの表現として追加する際の内部データの処理について示している。
【0065】
表示された表現リストから「社員」が選択されると表現リストバッファ110bから「社員」を取得し、また、表示された辞書から概念「人」が選択されると辞書バッファ110dに記憶される概念テーブル122から「業界・人」を取得する。そして、これら取得した「業界、人」、「社員」を合成し、「業界・人・社員」を得て、これを辞書バッファ110dの表現テーブル123に登録する。その結果、表現テーブルは123’のようになる。
【0066】
これにより、文書データから抽出された表現を、簡単な操作で電子辞書内の所望の概念へ登録することができるようになった。
【0067】
次に、辞書検証部104の処理動作について説明する。図8は辞書検証部104の処理動作を示すフローチャートである。
【0068】
制御部101の動作中、ステップ209において辞書検証指示であると判断した場合には、辞書検証部104が起動される。起動された辞書検証部104は、辞書バッファ110dに記憶される辞書データを表示する(S401)。
【0069】
次に、辞書109を用いて情報抽出を行い、結果を処理結果バッファ110cに記憶する(S402)。そして、処理結果バッファ110dに記憶した情報を表示する(S403)。
【0070】
次に、ユーザの入力が情報抽出結果の検証指示であるか否か判定する(S404)。
【0071】
ここで、情報抽出結果の検証指示であると判定した場合には、検証したいノードを辞書中で指定する(S405)。そして、指定されたノードに対応する情報抽出結果を表示する(S406)。なお、この処理後、ステップS404に戻る。
【0072】
一方、ステップS404において、情報抽出結果の検証指示でないと判定した場合には、次に、ユーザの入力が辞書編集指示であるか否か判定する(S407)。ここで、辞書編集指示であると判定した場合には、辞書編集部103を起動し、辞書編集を行う。辞書編集部103が終了すると、ステップS404に戻る。
【0073】
一方、ステップS407において、辞書編集指示でないと判定した場合には、辞書バッファ110dに記憶される情報を磁気ディスク等に保存する(S409)。また、処理結果バッファ110cに記憶される情報を磁気ディスク等に保存し(S410)、辞書検証部104の処理を終了する。
【0074】
このようにして、辞書検証部104は、辞書109による情報抽出結果を表示しながら辞書の検証を行う。
【0075】
図9は、辞書検証部104の処理時の画面表示例を示している。
【0076】
表示上、左半分の表示内容は、図6の表現登録部102の左半分の表示内容と比較して、登録ボタンに代えて検証ボタンがあるのみで、その他は同じである。
【0077】
この検証ボタンを押すことによって結果検証処理(図8のS405〜S406)が可能になる。
【0078】
一方、図9の右半分の表示内容は、文書名の下部には、辞書109で処理された抽出結果が表示される。そして、図のように抽出結果の検証後にあたって、抽出結果上、指定された概念が持つ表現がある箇所には、ユーザへ明示可能なように、ここでは下線(b1,b2,b3,b4,…)で明示している。なお、下線以外に例えば、色などの十分識別ができる方法であれば良い。
【0079】
さらに、この際、情報抽出に当たって形態素解析を用いたかどうかにしたがって、下線の形状を変えたり、色を変えたりなどの表示方法の変化をつけることにより、情報抽出の条件をも同時に表示することができる。そして、この指定された概念が持つ表現がある箇所を、情報抽出に当たって形態素解析を用いたかどうかによってその表示方法に変化をつける点も、この辞書構築支援装置の特徴の1つである。
【0080】
これにより、階層化された電子辞書内の概念を、簡単な操作で指定でき、指定された概念に含まれる表現を電子辞書で抽出された抽出結果の中から容易に抽出して明示し、しかも照合条件も同時に表示するようにしたので、ユーザは、電子辞書の良し悪しを容易に検証することができるようになった。
【0081】
この例では、「サービス」、「開発」、「営業」に付された下線(b1,b2,b3)は単線なのに対して、「バイヤー」に付された下線(b4)は2重線となっているが、これは、「サービス」、「開発」、「営業」は、情報抽出に当たって形態素解析が用いられておらず、一方、「バイヤー」は、形態素解析が用いられていることを示している。つまり、先に図6で示した、「サービス」、「開発」、「営業」を含む概念「仕事」については、形態素解析を使わず、「バイヤー」を含む概念「人」については、形態素解析を使うように設定した情報抽出時の照合条件を、この下線により簡単に認識することができる。
【0082】
次に、辞書編集部103の処理動作について説明する。図10は、辞書編集部103の処理動作を示すフローチャートである。
【0083】
制御部101の動作中、ステップS211において辞書編集指示であると判断した場合、表現登録部102の動作中、ステップS308において辞書編集指示であると判断した場合、および辞書検証部104の動作中、ステップS407において辞書編集指示であると判断した場合に、辞書編集部103が起動される。
【0084】
起動された辞書編集部103は、辞書バッファ110dに記憶される辞書データを表示する(S501)。
【0085】
次に、ユーザの入力がノードの追加指示であるか否か判定する(S502)。ここで、追加指示である場合には、追加ノードを指定する(S503)。そして、指定されたノードに子ノードを追加する(S504)。追加の内容は、ユーザが直接入力する。そして、ステップS502に戻る。
【0086】
一方、ステップS502において追加指示でない場合には、次にユーザの入力がノードの削除指示であるか否か判定する(S505)。ここで、削除指示である場合には、削除ノードを指定する(S506)。そして、指定されたノードとそのノードの子ノードを全て削除する(S507)。そして、ステップS502に戻る。
【0087】
一方、ステップS505において削除指示でない場合には、次にユーザの入力がノードの変更指示であるか否か判定する(S508)。ここで、変更指示である場合には、変更ノードを指定する(S509)。そして、指定されたノードの文字列や値などを変更する(S510)。そして、ステップS502に戻る。
【0088】
一方、ステップS508において変更指示でない場合には、次にユーザの入力がノードの複写指示であるか否か判定する(S511)。ここで、複写指示である場合には、複写元ノードを指定する(S512)。そして、複写先ノードを指定する(S513)。そして、指定された複写元ノードとその子ノード全てを複写先ノードの子ノードに追加する(S514)。そして、ステップS502に戻る。
【0089】
一方、ステップS511において、複写指示でない場合には、ユーザの入力がノードの移動指示であるか否か判定する(S515)。ここで、移動指示である場合には、移動元ノードを指定する(S516)。そして、移動先ノードを指定する(S517)。そして、指定された移動元ノードとその子ノード全てを移動先ノードの子ノードに移動する(S518)。そして、ステップS502に戻る。
【0090】
一方、ステップS515において、移動指示でない場合には、辞書バッファ110dに記憶される情報を磁気ディスク等に保存し(S519)、処理を終了する。
【0091】
このようにして、辞書編集部108は、辞書109のノードに対して、追加、削除、変更、複写、移動などを行い、辞書編集を行う。
【0092】
図11は、辞書編集部103の処理時の画面表示例を示している。
【0093】
この例では、図6の表現登録部102の左半分の表示内容と比較して、登録ボタンに変えて、追加、削除、変更、移動、複写の各ボタンが配置されている点が異なり、他は同じである。各ボタンをクリックすることにより、上記したようなクリックされたボタンの各種編集機能が実施される。
【0094】
以上のように、電子辞書の編集を扱いやすいユーザインターフェースにしたので、ユーザにとって辞書の編集が容易に実現できる。
【0095】
次に、差分検出部105の処理動作について説明する。図12は差分検証部105の処理動作を示すフローチャートである。
【0096】
制御部101の動作中、ステップS213において差分検出指示であると判断した場合に、差分検出部105が起動される。
【0097】
起動された差分検出部105は、ユーザの入力によって、比較したい辞書を2つ指定する(S601)。そして、指定された辞書の差分を作成して差分バッファ110eに記憶する(S602)。
【0098】
次に、差分バッファ110eに記憶される差分を表示する(S603)。差分バッファ110eに記憶される差分を磁気ディスク等に保存し(S604)、処理を終了する。
【0099】
このようにして、差分検出部105は、辞書109同士を比較して、差分を作成・表示する。
【0100】
図13は、差分検出部105の処理時の画面表示例を示している。
【0101】
この例では、上部には、比較したい辞書を入力する2つの領域を備える。この領域の下部には、比較結果を表示する領域であり、ここでは、概念毎の比較結果を表示している。
【0102】
これにより、2つの電子辞書を容易に指定可能となり、それら電子辞書間の差分を検出し、概念の単位でユーザへ提示可能となった。
【0103】
以上説明した本実施形態においては、文書データから抽出された表現を、簡単な操作で電子辞書内の所望の概念へ登録することができるようになった。
【0104】
また、階層化された電子辞書内の概念を、簡単な操作で指定でき、指定された概念に含まれる表現を電子辞書で抽出された抽出結果の中から容易に抽出して明示するようにしたので、ユーザは、電子辞書の良し悪しを容易に検証することができるようになった。
【0105】
また、2つの電子辞書を容易に指定可能となり、それら電子辞書間の差分を検出し、概念の単位でユーザへ提示可能となった。
【0106】
また、文書から抽出した重要な表現を参照しながら、必要な表現を選択して情報抽出用の辞書に登録することができ、また、情報抽出結果を見て辞書の性能を検証しながら辞書を編集することができるようになった。
【0107】
なお、本願発明は、前記実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。更に、前記実施形態には種々の段階の発明が含まれており、開示される複数の構成要件における適宜な組み合わせにより種々の発明が抽出され得る。たとえば、実施形態に示される全構成要件から幾つかの構成要件が削除されても、発明が解決しようとする課題の欄で述べた課題が解決でき、発明の効果の欄で述べられている効果が得られる場合には、この構成要件が削除された構成が発明として抽出され得る。
【0108】
【発明の効果】
以上説明したように、本発明によれば、ユーザが表現の照合において形態素解析をするかしないかを設定できる情報抽出用の辞書を作成・検証するための支援環境を提供することができる。
【図面の簡単な説明】
【図1】本発明の実施形態に係る辞書構築支援装置の構成を示す図。
【図2】同実施形態における情報抽出用辞書109の構成の一例。
【図3】同実施形態における制御部101の処理動作を示すフローチャート。
【図4】同実施形態における制御部101が起動した直後の画面表示例。
【図5】同実施形態における表現登録部102の処理動作を示すフローチャート。
【図6】同実施形態における表現登録部102の処理時の画面表示例。
【図7】同実施形態における表現の登録処理を模式的に示した図。
【図8】同実施形態における辞書検証部104の処理動作を示すフローチャート。
【図9】同実施形態における辞書検証部104の処理時の画面表示例。
【図10】同実施形態における辞書編集部103の処理動作を示すフローチャート。
【図11】同実施形態における辞書編集部103の処理時の画面表示例。
【図12】同実施形態における差分検出部105の処理動作を示すフローチャート。
【図13】同実施形態における差分検出部105の処理時の画面表示例。
【符号の説明】
10…CPU
20…入力部
30…出力部
40…メモリ
50…記憶装置
100…辞書構築プログラム
101…制御部
102…表現登録部
102a…表現抽出部
103…辞書編集部
104…辞書検証部
105…差分検出部
106…条件設定部
109…情報抽出用辞書
110…内部データ保持部
110a…テキストバッファ
110b…表現リストバッファ
110c…処理結果バッファ
110d…辞書バッファ
110e…差分バッファ
121…クラステーブル
122…概念テーブル
123…表現テーブル
Claims (12)
- 複数の表現とそれら表現に共通する上位の表現である概念とを対応付けて格納される電子辞書を記憶する辞書記憶手段と、
文書データから抽出された表現を記憶する表現記憶手段と、
前記辞書記憶手段にて記憶される該電子辞書から少なくとも一部の概念と、前記表現記憶手段にて記憶される少なくとも一部の該抽出された表現とを同時に表示する表示手段と、
前記表示手段によって表示された表現から一つ以上の表現の指定と、前記表示手段によって表示された概念から一つの概念の指定とを受けると、指定された表現を指定された概念に対応付けて前記電子辞書に追加登録する登録手段と
を備えた辞書構築支援装置であって、
前記辞書記憶手段にて記憶される電子辞書中の表現と文書データとを照合する際、該文書データを形態素解析してから照合するか、または形態素解析せずに照合するかを前記電子辞書中の概念ごとに設定する設定手段を具備することを特徴とする辞書構築支援装置。 - 前記設定手段は、該設定を照合条件として前記電子辞書中に保存する手段を有することを特徴とする請求項1記載の辞書構築支援装置。
- 前記設定手段は、前記電子辞書中に保存された該設定を表示する手段を有することを特徴とする請求項2記載の辞書構築支援装置。
- 複数の表現とそれら表現に共通する上位の表現である概念とを対応付けて格納される電子辞書を記憶する辞書記憶手段と、
文書データから抽出された表現を記憶する表現記憶手段と、
前記辞書記憶手段にて記憶される該電子辞書から少なくとも一部の概念と、前記表現記憶手段にて記憶される少なくとも一部の該抽出された表現とを同時に表示する表示手段と
を備えた辞書構築支援装置であって、
前記辞書記憶手段にて記憶される電子辞書中の表現と文書データとを照合する際、該文書データを形態素解析してから照合するか、または形態素解析せずに照合するかを前記電子辞書中の概念ごとに設定する設定手段と、
前記表示手段にて一部の該抽出された表現を表示する際、照合時に形態素解析を用いたか否かの違いにより、表示の方法を変化させる表示制御手段と
を具備することを特徴とする辞書構築支援装置。 - 複数の表現とそれら表現に共通する上位の表現である概念とを対応付けて格納される電子辞書を記憶する辞書記憶手段と、
文書データから抽出された表現を記憶する表現記憶手段と、
前記辞書記憶手段にて記憶される該電子辞書から少なくとも一部の概念と、前記表現記憶手段にて記憶される少なくとも一部の該抽出された表現とを同時に表示する表示手段と、
前記表示手段によって表示された表現から一つ以上の表現の指定と、前記表示手段によって表示された概念から一つの概念の指定とを受けると、指定された表現を指定された概念に対応付けて前記電子辞書に追加登録する登録手段と
を備えた辞書構築支援装置の辞書構築支援方法であって、
前記辞書記憶手段にて記憶される電子辞書中の表現と文書データとを照合する際、該文書データを形態素解析してから照合するか、または形態素解析せずに照合するかを前記電子辞書中の概念ごとに設定するステップを具備することを特徴とする辞書構築支援方法。 - 前記設定ステップは、該設定を照合条件として前記電子辞書中に保存するステップを有することを特徴とする請求項5記載の辞書構築支援方法。
- 前記設定ステップは、前記電子辞書中に保存された該設定を表示するステップを有することを特徴とする請求項2記載の辞書構築支援方法。
- 複数の表現とそれら表現に共通する上位の表現である概念とを対応付けて格納される電子辞書を記憶する辞書記憶手段と、
文書データから抽出された表現を記憶する表現記憶手段と、
前記辞書記憶手段にて記憶される該電子辞書から少なくとも一部の概念と、前記表現記憶手段にて記憶される少なくとも一部の該抽出された表現とを同時に表示する表示手段と
を備えた辞書構築支援装置の辞書構築支援方法であって、
前記辞書記憶手段にて記憶される電子辞書中の表現と文書データとを照合する際、該文書データを形態素解析してから照合するか、または形態素解析せずに照合するかを前記電子辞書中の概念ごとに設定するステップと、
前記表示手段にて一部の該抽出された表現を表示する際、照合時に形態素解析を用いたか否かの違いにより、表示の方法を変化させる表示制御ステップと
を具備することを特徴とする辞書構築支援方法。 - 複数の表現とそれら表現に共通する上位の表現である概念とを対応付けて格納される電子辞書を記憶する辞書記憶手段と、
文書データから抽出された表現を記憶する表現記憶手段と、
前記辞書記憶手段にて記憶される該電子辞書から少なくとも一部の概念と、前記表現記憶手段にて記憶される少なくとも一部の該抽出された表現とを同時に表示する表示手段と、
前記表示手段によって表示された表現から一つ以上の表現の指定と、前記表示手段によって表示された概念から一つの概念の指定とを受けると、指定された表現を指定された概念に対応付けて前記電子辞書に追加登録する登録手段と
を備えたコンピュータを、
前記辞書記憶手段にて記憶される電子辞書中の表現と文書データとを照合する際、該文書データを形態素解析してから照合するか、または形態素解析せずに照合するかを前記電子辞書中の概念ごとに設定する設定手段
として機能させるためのプログラム。 - 前記設定手段は、該設定を照合条件として前記電子辞書中に保存する手段を有することを特徴とする請求項9記載のプログラム。
- 前記設定手段は、前記電子辞書中に保存された該設定を表示する手段を有することを特徴とする請求項10記載のプログラム。
- 複数の表現とそれら表現に共通する上位の表現である概念とを対応付けて格納される電子辞書を記憶する辞書記憶手段と、
文書データから抽出された表現を記憶する表現記憶手段と、
前記辞書記憶手段にて記憶される該電子辞書から少なくとも一部の概念と、前記表現記憶手段にて記憶される少なくとも一部の該抽出された表現とを同時に表示する表示手段と
を備えたコンピュータを、
前記辞書記憶手段にて記憶される電子辞書中の表現と文書データとを照合する際、該文書データを形態素解析してから照合するか、または形態素解析せずに照合するかを前記電子辞書中の概念ごとに設定する設定手段
前記表示手段にて一部の該抽出された表現を表示する際、照合時に形態素解析を用いたか否かの違いにより、表示の方法を変化させる表示制御手段
として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002351429A JP3774431B2 (ja) | 2002-12-03 | 2002-12-03 | 辞書構築支援装置および辞書構築支援方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002351429A JP3774431B2 (ja) | 2002-12-03 | 2002-12-03 | 辞書構築支援装置および辞書構築支援方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004185306A JP2004185306A (ja) | 2004-07-02 |
JP3774431B2 true JP3774431B2 (ja) | 2006-05-17 |
Family
ID=32753347
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002351429A Expired - Fee Related JP3774431B2 (ja) | 2002-12-03 | 2002-12-03 | 辞書構築支援装置および辞書構築支援方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3774431B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10558747B2 (en) | 2016-11-03 | 2020-02-11 | International Business Machines Corporation | Unsupervised information extraction dictionary creation |
US10558756B2 (en) | 2016-11-03 | 2020-02-11 | International Business Machines Corporation | Unsupervised information extraction dictionary creation |
KR102479043B1 (ko) * | 2018-11-02 | 2022-12-20 | 한국전자통신연구원 | 온라인 백과 사전 기반 신규 개체명 및 신규 개체명의 이형태 사전 구축 장치 및 방법 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07219962A (ja) * | 1994-02-01 | 1995-08-18 | Dainippon Printing Co Ltd | キーワード作成装置 |
JPH1145268A (ja) * | 1997-07-28 | 1999-02-16 | Just Syst Corp | 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 |
JPH11272701A (ja) * | 1998-03-23 | 1999-10-08 | Oki Electric Ind Co Ltd | 情報抽出装置 |
JP2002140338A (ja) * | 2000-10-31 | 2002-05-17 | Toshiba Corp | 辞書構築支援装置および辞書構築支援方法 |
JP2004118378A (ja) * | 2002-09-25 | 2004-04-15 | Toshiba Corp | 情報抽出システムおよび情報抽出方法 |
-
2002
- 2002-12-03 JP JP2002351429A patent/JP3774431B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2004185306A (ja) | 2004-07-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5501581B2 (ja) | 情報処理装置および情報処理方法 | |
JPH1153384A (ja) | キーワード抽出装置及びキーワード抽出方法並びにキーワード抽出プログラムを格納したコンピュータ読み取り可能な記録媒体 | |
JP2010033160A (ja) | 情報処理装置および情報処理方法 | |
JP2005038395A (ja) | データベース検索装置 | |
JP3774431B2 (ja) | 辞書構築支援装置および辞書構築支援方法 | |
JPH08166959A (ja) | 画像処理方法 | |
JP2002140338A (ja) | 辞書構築支援装置および辞書構築支援方法 | |
JP2003308314A (ja) | 文書作成支援装置 | |
JPH0877196A (ja) | 文書情報抽出装置 | |
CN106250354A (zh) | 处理文书的信息处理装置、信息处理方法以及程序 | |
JP5511161B2 (ja) | 情報処理装置および情報処理方法 | |
JP2003173338A (ja) | 辞書構築支援装置、辞書構築支援方法及び辞書構築支援プログラム | |
JP2004145626A (ja) | 文書分類支援装置およびコンピュータプログラム | |
JPS61248160A (ja) | 文書情報登録方式 | |
JPH07134720A (ja) | 文章作成システムにおける関連情報提示方法及び装置 | |
JP3498635B2 (ja) | 情報検索方法及びその装置並びにコンピュータ可読記録媒体 | |
JP2010033156A (ja) | 情報処理装置および情報処理方法 | |
JPH1145249A (ja) | 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP2001184351A (ja) | 文書情報抽出装置および文書分類装置 | |
JP2001109740A (ja) | 中国語文書作成装置及び中国語文書作成方法 | |
JP3949874B2 (ja) | 翻訳訳語学習方法、翻訳訳語学習装置、記憶媒体及び翻訳システム | |
JP2021128618A (ja) | 表示装置、及びプログラム | |
JPH06332934A (ja) | 電子辞書引き装置 | |
JPH0981581A (ja) | データベースの作成方法 | |
JPH1055360A (ja) | 住所録処理装置及び住所録処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20050831 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050906 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20051107 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060214 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060217 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100224 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100224 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110224 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |