JP3617096B2 - 関係表現抽出装置および関係表現検索装置、関係表現抽出方法、関係表現検索方法 - Google Patents

関係表現抽出装置および関係表現検索装置、関係表現抽出方法、関係表現検索方法 Download PDF

Info

Publication number
JP3617096B2
JP3617096B2 JP00965695A JP965695A JP3617096B2 JP 3617096 B2 JP3617096 B2 JP 3617096B2 JP 00965695 A JP00965695 A JP 00965695A JP 965695 A JP965695 A JP 965695A JP 3617096 B2 JP3617096 B2 JP 3617096B2
Authority
JP
Japan
Prior art keywords
expression
relationship
extraction
relation
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP00965695A
Other languages
English (en)
Other versions
JPH08129554A (ja
Inventor
満美子 岡
剛弘 小山
良寛 上田
忠信 宮内
寿平 中垣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP00965695A priority Critical patent/JP3617096B2/ja
Publication of JPH08129554A publication Critical patent/JPH08129554A/ja
Application granted granted Critical
Publication of JP3617096B2 publication Critical patent/JP3617096B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【産業上の利用分野】
本発明は、キーワードにより検索を行なう検索装置及び検索方法に関連するもので、特に、文書からキーワードとなりうる関係表現を抽出する関係表現抽出装置と関係表現抽出方法、および、入力される関係表現を検索キーとして検索を行なう関係表現検索装置と関係表現検索方法に関するものである。
【0002】
【従来の技術】
従来、データベース等に蓄積された大量の情報の中から、所望の情報を検索する手法として、各データにあらかじめキーワードを割り当てておき、ユーザの入力した検索キーと一致したキーワードを持つ情報を検索して出力する装置が開発されている。
【0003】
キーワード検索においては、インデクサと呼ばれる専門家が適切なキーワードをあらかじめテキスト情報に付与するのが一般的である。しかし、このキーワードの付与は、膨大な手間がかかることから、キーワードを自動的に抽出する技術の研究が数多く行なわれている。例えば、特開平1−112331号公報に記載されているキーワード重要度自動評価装置では、文書中から名詞をキーワードとして抽出し、さらに統計的、構文的、意味的な重要度の評価を加えている。
【0004】
しかし、このような従来のキーワード抽出方法では、一般に単語単位で抽出を行なうため、たとえ重要度などを付与しても、どうしても検索結果に本来求めるものと無関係なものが多くなってしまう。すなわち、適合率が低下するという問題があった。これは、ユーザが欲する検索要求に対応する概念は、必ずしも単語レベルの表現と一致しないことに起因している。そのため、単語レベルのキーワードで検索した場合、ユーザが想定していた意味とは別の意味で用いられているテキストも検索されてしまう。
【0005】
これに対し、特公昭58−33993号公報に記載されているキーワード抽出装置においては、複合語を用いることによりキーワードの意味を限定する方法が提案されている。これにより、係り受け関係などにある語を抽出することが可能になり、単語単位で概念を表現するという制約はなくなる。
【0006】
ところが、この方法では、固定キーワードとして複合語またはこれに準ずる表現を用いているため、例えば、「文書を検索する」と「文書から検索する」の意味の違いを扱うことができず、結果として、「文書検索」といった表現しか抽出されない。すなわち、複合語を用いることにより、表層的な表現に依存しなくなる代わりに、せっかく解析した係り受け関係などの情報が欠落してしまう。このため、検索結果には、依然として適切でないものが含まれてしまうことが多かった。
【0007】
このように、従来の技術においては、キーワードから効率的な検索をすることは、依然として困難であった。
【0008】
【発明が解決しようとする課題】
本発明は、上述した事情に鑑みてなされたもので、特に文書中から単語など複数の表現とその表現間の関係を抽出することにより、従来無視されていた単語間の関係を利用し、かつ表層的な表現には依存せず、より適切なキーワードを抽出することのできる抽出装置及び抽出方法を提供するとともに、より適切な検索要求に基づく検索を行なうことのできる検索装置及び検索方法を提供することを目的とするものである。
【0009】
【課題を解決するための手段】
本発明は、請求項1に記載の発明においては、原データからキーワードとなりうる関係表現を抽出する関係表現抽出装置において、前記原データから互いに関係を持ち得る複数の表現を抽出する表現抽出手段と、自立語並び1、自立語並び2、付属語並びからなるパターンと、該パターンに付与すべき関係を登録した関係抽出規則を用いて前記表現抽出手段により抽出されたそれぞれの表現について一致する登録項目が前記関係抽出規則にある場合には該登録項目中の関係を取り出して該表現に関係を与える関係抽出手段を有することを特徴とするものである。
【0010】
請求項2に記載の発明においては、請求項1に記載の関係表現抽出装置において、前記関係抽出手段により与えられた関係に基づいて表層的な表現に依存しない表現に正規化する正規化手段をさらに有することを特徴とするものである。
【0011】
請求項3に記載の発明においては、請求項1または2に記載の関係表現抽出装置において、前記表現抽出手段は、前記原データを解析する解析手段と、該解析手段による解析結果から互いに関係を持ち得る複数の単語を取り出す単語群抽出手段を有することを特徴とするものである。
【0012】
請求項4に記載の発明においては、請求項1ないし3のいずれか1項に記載の関係表現抽出装置において、前記関係抽出手段あるいは前記正規化手段から与えられる関係表現をあらかじめ決められた関係表現に正規化する言語正規化手段をさらに有することを特徴とするものである。
【0013】
請求項5に記載の発明においては、請求項1ないし3のいずれか1項に記載の関係表現抽出装置において、前記表現抽出手段は前記原データが記述されている言語に応じて前記原データを解析する言語別解析手段からなり、前記関係抽出手段は言語に応じて互いに関係を持ち得る複数の単語とその間の関係からなる関係表現を抽出する言語別関係抽出手段からなり、複数の言語における等価な意味の単語が登録された対訳単語辞書と、複数の言語における等価な言語的関係を表わす情報が登録された対訳関係辞書と、前記対訳単語辞書と前記対訳関係辞書を用い言語に応じて前記関係抽出手段によって抽出された関係表現をあらかじめ決められた関係表現に正規化する言語正規化手段をさらに有することを特徴とするものである。
【0014】
請求項6に記載の発明においては、関係表現検索装置において、入力データから互いに関係を持ち得る複数の表現を取り出す表現抽出手段と、自立語並び1、自立語並び2、付属語並びからなるパターンと、該パターンに付与すべき関係を登録した関係抽出規則を用いて前記表現抽出手段により取り出されたそれぞれの表現について一致する登録項目が前記関係抽出規則にある場合には該登録項目中の関係を抽出する関係抽出手段と、該関係抽出手段により抽出した関係に基づいて表層的な表現に依存しない表現に正規化する正規化手段と、原データを入力データとして前記単語群抽出手段、前記関係抽出手段、前記正規化手段により互いに関係を持ち得る複数の表現として抽出し正規化した関係表現がキーとして原データとともに登録されている記憶手段と、自然語を入力データとし前記単語群抽出手段、前記関係抽出手段、前記正規化手段により互いに関係を持ち得る複数の表現として抽出し正規化した検索要求を概念的に同一になり得る関係表現に展開して前記記憶手段に登録されている原データを検索する検索手段を有することを特徴とするものである。
【0015】
請求項7に記載の発明においては、請求項6に記載の関係表現検索装置において、前記記憶手段には、原データから互いに関係を持ち得る複数の表現として抽出され、あらかじめ決められた関係に正規化された関係表現がキーとして原データとともに登録されていることを特徴とするものである。
【0016】
請求項8に記載の発明においては、関係表現検索装置において、入力データが記述されている言語に応じて前記入力データから互いに関係を持ち得る複数の表現を取り出す表現抽出手段と、自立語並び1、自立語並び2、付属語並びからなるパターンと、該パターンに付与すべき関係を登録した言語別の関係抽出規則を用いて前記表現抽出手段により取り出されたそれぞれの表現について一致する登録項目が前記関係抽出規則にある場合には該表現に対応する関係を言語に応じて抽出する関係抽出手段と、複数の言語における等価な意味の単語が登録された対訳単語辞書と、複数の言語における等価な言語的関係を表わす情報が登録された対訳関係辞書と、前記対訳単語辞書と前記対訳関係辞書を用い前記関係抽出手段によって言語に応じて抽出された関係表現を言語に依存しない表現に正規化する言語正規化手段と、原データを入力データとして前記表現抽出手段、前記関係抽出手段、前記言語正規化手段によりあらかじめ決められた関係に正規化した関係表現がキーとして原データとともに登録されている記憶手段と、自然語を入力データとし前記単語群抽出手段、前記関係抽出手段、前記正規化手段により言語に依存しない表現として正規化した検索要求を用いて前記記憶手段に登録されている原データを検索する検索手段を有することを特徴とするものである。
【0017】
請求項9に記載の発明においては、請求項7または請求項8に記載の関係表現検索装置において、前記検索手段は、入力された検索要求に基づく関係表現と前記記憶手段に記憶されている関係表現を比較して確信度を評価し該確信度に基づいて検索結果を並べ替える確信度評価手段を有することを特徴とするものである。
【0018】
請求項10に記載の発明においては、原データからキーワードとなりうる関係表現を抽出する関係表現抽出方法において、前記原データから互いに関係を持ち得る複数の表現を表現抽出手段で抽出し、自立語並び1、自立語並び2、付属語並びからなるパターンと、該パターンに付与すべき関係を登録した関係抽出規則を用いて、前記表現抽出手段により抽出されたそれぞれの表現について一致する登録項目が前記関係抽出規則にある場合には、該登録項目中の関係を取り出して該表現に関係を関係抽出手段で与えることを特徴とするものである。
【0019】
請求項11に記載の発明においては、関係表現検索方法において、原データを入力データとして該入力データから互いに関係を持ち得る複数の表現を表現抽出手段で取り出し、自立語並び1、自立語並び2、付属語並びからなるパターンと、該パターンに付与すべき関係を登録した関係抽出規則を用いて、前記表現抽出手段により取り出されたそれぞれの表現について一致する登録項目が前記関係抽出規則にある場合には、該登録項目中の関係を関係抽出手段で抽出し、該関係抽出手段により抽出した関係に基づいて表層的な表現に依存しない表現に正規化手段で正規化し、正規化した関係表現をキーとして原データとともに記憶手段に登録しておき、自然語を入力データとして前記単語群抽出手段、前記関係抽出手段、前記正規化手段により前記関係抽出規則を用いて互いに関係を持ち得る複数の表現として抽出して正規化し、得られた検索要求を概念的に同一になり得る関係表現に展開して、前記記憶手段に登録されている原データを検索手段で検索することを特徴とするものである。
【0020】
請求項12に記載の発明においては、関係表現検索方法において、原データを入力データとして該入力データが記述されている言語に応じて前記入力データから互いに関係を持ち得る複数の表現を表現抽出手段で取り出し、自立語並び1、自立語並び2、付属語並びからなるパターンと、該パターンに付与すべき関係を登録した言語別の関係抽出規則を用いて、前記表現抽出手段により取り出されたそれぞれの表現について一致する登録項目が前記関係抽出規則にある場合には、該登録項目中の関係を言語に応じて関係抽出手段で抽出し、複数の言語における等価な意味の単語が登録された対訳単語辞書と、複数の言語における等価な言語的関係を表わす情報が登録された対訳関係辞書を用い、言語に応じて抽出された関係表現を言語に依存しない表現に言語正規化手段で正規化し、正規化した関係表現をキーとして原データとともに記憶手段に登録しておき、自然語を入力データとして前記単語群抽出手段、前記関係抽出手段、前記正規化手段により言語に依存しない表現として正規化した検索要求を用いて前記記憶手段に登録されている原データを検索手段により検索することを特徴とするものである。
【0021】
【作用】
本発明によれば、請求項1及び請求項10に記載の発明において、表現抽出手段で原データから互いに関係を持ち得る複数の表現を抽出し、自立語並び1、自立語並び2、付属語並びからなるパターンと、該パターンに付与すべき関係を登録した関係抽出規則を用いて表現抽出手段で抽出されたそれぞれの表現について一致する登録項目が関係抽出規則にある場合に、その登録項目中の関係を取り出して、その表現に関係抽出手段により関係を与える。これにより、単なる一単語ではなく複数の表現とその間の関係をキーとして抽出することが可能となる。これにより、表層表現に依存しない概念、主題が抽出されることとなり、より適切なキーワードを抽出することができる。
【0022】
また、請求項2に記載の発明のように、正規化手段を有する構成とし、関係抽出手段で抽出した表現間の関係を、正規化手段で正規化することにより、表層的な表現に依存しない表現をキーワードとすることができる。表現抽出手段において表現を抽出する処理としては、例えば、請求項3に記載の発明のように、解析手段で原データを解析し、単語群抽出手段で互いに関係を持ち得る複数の単語を取り出すように構成することができる。
【0023】
請求項4に記載の発明によれば、言語正規化手段を有し、関係抽出手段あるいは正規化手段から与えられる関係表現をあらかじめ決められた関係表現に正規化することにより、言語に依存しない表現によりキーワードを抽出することができる。原データが複数の言語により記述されている場合には、それぞれの言語ごとに解析を行なって言語に依存しない表現に正規化すればよい。請求項5に記載の発明によれば、これを実現するため、表現抽出手段を原データが記述されている言語に応じて原データを解析する言語別解析手段により構成し、関係抽出手段を言語に応じて互いに関係を持ち得る複数の単語とその間の関係からなる関係表現を抽出する言語別関係抽出手段により構成する。そして、得られた各言語ごとに、言語正規化手段は、複数の言語における等価な意味の単語が登録された対訳単語辞書と、複数の言語における等価な言語的関係を表わす情報が登録された対訳関係辞書を用い、あらかじめ決められた関係表現に正規化する。これにより、複数の言語により記述されている原データから言語に依存しない表現によりキーワードを抽出することができる。
【0024】
請求項6及び請求項11に記載の発明においては、入力データから互いに関係を持ち得る複数の表現を取り出す表現抽出手段と、自立語並び1、自立語並び2、付属語並びからなるパターンと、該パターンに付与すべき関係を登録した関係抽出規則を用いて前記表現抽出手段により取り出されたそれぞれの表現について一致する登録項目が前記関係抽出規則にある場合には該登録項目中の関係を抽出する関係抽出手段と、関係抽出手段により抽出した関係に基づいて表層的な表現に依存しない表現に正規化する正規化手段を有し、これらの手段をキーワードの抽出と、検索キーの生成の両方に用いている。キーワードの抽出時には、原データを入力データとして、単語群抽出手段、関係抽出手段、正規化手段により、互いに関係を持ち得る複数の表現として抽出し、正規化した関係表現がキーとして、原データとともに記憶手段に登録する。検索時には、自然語を入力データとし、単語群抽出手段、前記関係抽出手段、前記正規化手段により互いに関係を持ち得る複数の表現として抽出し、正規化した検索要求を、関係展開手段により概念的に同一になり得る関係表現に展開して記憶手段に登録されている原データを検索手段で検索する。これにより、原データに付与されるキーワードも、検索に用いる検索キーも、同様のプロセスにより生成されるので、より適切な検索を行なうことができる。また、各手段をキーワードの抽出および検索に兼用できるので、装置構成を簡略化し、低コストの検索装置を実現することが可能である。
【0025】
請求項7に記載の発明によれば、記憶手段には、原データから互いに関係を持ち得る複数の表現として抽出され、あらかじめ決められた関係に正規化された関係表現がキーとして原データとともに登録されている。この記憶手段に登録されている原データを、言語に依存しない正規化された関係表現を検索キーとして検索手段で検索する。これにより、原データが記述されている言語に関係なく、検索することが可能となる。
【0026】
請求項8及び請求項12に記載の発明によれば、入力データについても言語によらずに検索を行なうために、表現抽出手段において入力データが記述されている言語に応じて前記入力データから互いに関係を持ち得る複数の表現を取り出し、取り出したそれぞれの表現の関係を、自立語並び1、自立語並び2、付属語並びからなるパターンと、該パターンに付与すべき関係を登録した言語別の関係抽出規則を用いて関係抽出手段で言語に応じて抽出する。抽出した関係は、言語正規化手段において、複数の言語における等価な意味の単語が登録された対訳単語辞書と、複数の言語における等価な言語的関係を表わす情報が登録された対訳関係辞書を用い、言語に依存しない表現に正規化して検索要求とする。このとき、関係展開手段により関係を展開することもできる。一方、記憶手段には、原データを入力データとして前記表現抽出手段、前記関係抽出手段、前記言語正規化手段により言語に依存しない表現に正規化した関係表現がキーとして原データとともに登録されている。検索手段は、あらかじめ決められた関係に正規化した検索要求を用いて記憶手段に登録されている原データを検索手段により検索する。これにより、種々の言語により検索要求を入力することができ、検索要求で使用した言語にかかわらず、また、原データで使用されている言語にかかわらず、関係のある情報を検索することが可能となる。
【0027】
請求項9に記載の発明においては、請求項7または8に記載の関係表現検索装置において、入力された検索要求に基づく関係表現と、検索された文書に対応づけられた関係表現とを比較して、同じ関係であり得る確信度を評価し、確信度に基づいて検索結果を並べ替えてユーザに提示することができる。ユーザは、例えば、確信度の高い順に検索結果を参照することができ、より効率的な検索を行なうことができる。
【0028】
【実施例】
図1は、本発明の関係表現抽出装置の一実施例を示すブロック図である。図中、1はデータ入力部、2は表現抽出部、3は関係抽出部、4は正規化部、5は記憶部、11は磁気ディスク、12はOCR、13はMT、14は形態素解析部、15は単語群抽出部、16はデータベースである。
【0029】
データ入力部1は、関係表現を抽出すべき文書データを与える。データ入力部1は、例えば、既存電子文書を保持する磁気ディスク11、OCR12、MT13などで構成することができる。もちろん、他の入力装置、記憶装置、あるいは、ネットワークなどを介して、文書データを受け取るように構成してもよい。
【0030】
表現抽出部2は、入力された文書データを解析し、関係を持ち得る接続パターンに応じ、所定の規則に基づいて、単語とその品詞などの情報からなる表現を抽出する。表現抽出部2は、形態素解析部14および単語群抽出部15を含むように構成することができる。形態素解析部14は、文書データ中の各テキストを解析し、単語単位に分割する。単語群抽出部15は、形態素解析部14による解析結果から、単語群抽出規則に基づいて、互いに関係を持ち得る複数の単語を取り出す。
【0031】
関係抽出部3は、表現抽出部2で抽出された表現に対し、関係抽出規則に基づいて関係を付与する。正規化部4は、関係抽出部3で付与された関係に基づいて、関係表現を正規化する。これらの処理により、求める関係表現が得られる。
【0032】
記憶部5は、例えば、データベース16などにより構成することができる。表現抽出部2、関係抽出部3、および、正規化部4の処理により得られた関係を、入力された原データとともに登録する。
【0033】
図2は、本発明の関係表現抽出装置の一実施例における全体の動作の一例を示すフローチャートである。最初に、S21において、データ入力部1より抽出すべき文書データを電子的に読み込む。S22で、読み込んだ文書データ中に未処理の文が残っている間は、S23以降の処理を繰り返し行なう。
【0034】
S23において、読み込んだ文書データから未処理の1文を取り出す。次のステップにおける形態素解析の単位として、日本語においては句点(。)までを読み込めば1文単位の読み込みが簡単であるため、これを適用する。もちろん、メモリなどに余裕があれば、より長い単位で解析しても良い。
【0035】
S24において、形態素解析部14により形態素解析を行なって、1文のテキストを単語の並びに分割する。形態素解析は、自然言語処理の基本技術として広く知られており、例えば、特開昭60−20234号公報に記載されている日本語形態素解析方式など、種々の公知の技術を用いることができる。
【0036】
S25において、単語群抽出部15による単語群の抽出処理が行なわれる。単語群の抽出は、単語群抽出規則を用いて行なう。以下の説明において抽出される単語群の基本的なパターンは、次のようなパターンである。
「前自立語並び+付属語並び+後自立語並び」
単語群抽出規則は、このような単語群のパターンを抽出するための規則である。また、複合表現についても、1つの表現として抽出する。複合表現の抽出基準は、基本的には活用しない語の連続であり、具体的には、「名詞、サ変、形容動詞のいずれかが連続する。」という条件による。もちろん、他のパターンにより単語群を抽出することも可能であり、抽出するパターンに応じて、単語群抽出規則が決められる。
【0037】
単語群抽出部15で単語群が抽出されると、S26において、関係抽出部3により関係を付与する。関係の抽出には、関係抽出規則を用いる。関係抽出規則には、単語群と、その単語群が有する関係とが対になり、登録されている。この関係抽出規則を用い、抽出された単語群に対応する登録項目がある場合には、その単語群に対応する関係を取り出し、単語群に取り出した関係を付与し、出力する。
【0038】
関係抽出が終了すると、S27において、抽出された関係をもとに、正規化部4において、関係の正規化を行なう。すなわち、関係抽出部3で抽出した関係から、活用や出現順など、表層的な表現に依存しない部分を取り出す。以下の説明では、上述の単語群を抽出したときのパターンの前自立語並びを表現1とし、後自立語並びを表現2とし、関係抽出部3で抽出された関係を[関係]として、{[関係] 表現1 表現2}という形式の関係を生成する。ただし、表現1、表現2については、出現順に極力依存しない処理が必要となるため、規則に基づいて入れ替えを行なう。これは、実際の検索時に、概念的に近い類似表現とのマッチングを容易にするためである。表現1および表現2の順序は、基本的には用言性のものを表現2としており、より具体的な規則としては、次のように、前自立語並びのみサ変動詞語幹の場合、後自立語並びを表現1、前自立語並びを表現2にする。なお、サ変動詞語幹をサ変、形容動詞語幹を形容動詞と略記している。以下の説明および図面でも同様である。
(A)サ変+する動詞+名詞→{[スル](名詞)(サ変)}
(B)サ変+が+形容動詞→{[ガ格](形容動詞)(サ変)}
以上の処理により、正規表現が得られる。
【0039】
S27までの処理で抽出され、正規化された関係表現は、付属語や活用形、さらには出現順序などの表層表現に依存せず、しかも単語レベルより明確な概念を表わしているといえる。この関係表現は、もとの文の主題を表わしていると考えられる。
【0040】
以上で、S23で取り出した1文に対する関係表現抽出が終了する。正規化した関係表現の内容は、結果出力ストリームSOに書き出し、S22へ戻って、さらに入力文書中にデータが続く限り、同様に1文単位で処理を続ける。最後に、S29で、こうして得られた関係表現を、記憶部5に登録する。上述のように、記憶部5には、通常のデータベースシステム16を用いることができる。すなわち、結果出力ストリームSOに保持された各正規表現の表現1,表現2,関係をそれぞれ転置キーとして、原データである入力文書とともに登録すればよい。
【0041】
以上の処理により、入力した文書から主題を関係表現として抽出し、データベース上に原文書とともに蓄えられる。こうして、文書に順次主題を付与することで、関係表現抽出装置を用いた主題表現抽出システムが実現される。
【0042】
図3は、本発明の関係表現抽出装置の一実施例における単語群抽出部15の動作の一例を示すフローチャートである。上述のように、単語群抽出部15では、例えば、関係表現抽出規則に基づいて、「前自立語並び+付属語並び+後自立語並び」というパターンを抽出する。このパターンに従い、それぞれ、自立語並び1格納ストリームJF、付属語並び格納ストリームFZ、自立語並び2格納ストリームJBを用意する。形態素解析された単語列は、一旦、単語取り出しバッファWDに読み込んだ上で、この並びにしたがって、自立語なら自立語が続く限り順次各ストリームに読み込まれ、規則とのマッチングを行なう。
【0043】
S31において、まず、自立語並び1格納ストリームJF、付属語並び格納ストリームFZ、自立語並び2格納ストリームJBをクリアする。S32において、文の最後に達していない場合には、S33で形態素解析された単語列から単語を1つ取り出し、単語取り出しバッファWDに読み込む。S34で単語取り出しバッファWDに読み込まれた単語が自立語か否かを判定し、自立語であれば、S35で自立語並び1格納ストリームJFに追加する。そして、S32へ戻り、次の単語の処理を繰り返す。S34の判断において、自立語でない場合には、S36で単語取り出しバッファWDに読み込まれている単語を付属語並び格納ストリームFZに追加する。また、S37において、自立語並び1格納ストリームJFに格納されている単語群が複合表現である場合には、その複合表現のみで一つの関係表現となり得るので、表現格納ストリームEXに書き出す。
【0044】
S38において、これまでに取り出された前自立語並びおよび付属語並びにより、表現抽出規則を参照し、一致する規則があるか否かを判定する。一致する規則がない場合には、S31へ戻り、新たなパターンの探索を開始する。一致する規則が存在する場合には、S39で単語取り出しバッファWDに読み込まれている単語の位置を、ポジション変数WPに保持する。
【0045】
S40において、文の最後か否かを判定した後、文の途中の場合には、S41で単語取り出しバッファWDに次の単語を取り出す。S42において、取り出した単語が自立語か否かを判定する。取り出した単語が自立語である場合には、S43において、取り出した単語を自立語並び2格納ストリームJBに格納し、S40へ戻って、次の単語の処理を行なう。また、S42において、S41で取り出した単語が自立語でない場合には、S44において、自立語並び1格納ストリームJF、付属語並び格納ストリームFZ、自立語並び2格納ストリームJBの内容により、単語群抽出規則を参照して、一致する規則があるか否かを判定する。不一致であれば、S45で自立語並び2格納ストリームJBをクリアし、S40へ戻って、新たな後自立語並びの探索を行なう。一致する規則がある場合には、S46において、自立語並び1格納ストリームJF、付属語並び格納ストリームFZ、自立語並び2格納ストリームJBからなる単語群を、表現格納ストリームEXに書き出す。
【0046】
S40で文の最後を検出した場合、すなわち、パターンが抽出できなかった場合、および、S46までのステップにより単語群を検出して表現格納ストリームEXに書き出した場合には、後自立語群の抽出処理を終了し、S47で単語取り出しバッファWDの位置をポジション変数WPの位置に戻し、S31へ戻って、ポジション変数WPの次の単語の処理から再開する。
【0047】
S32において、文の最後を検出すると、S48で自立語並び1格納ストリームJFに格納されている単語群が複合表現である場合には、その複合表現を表現格納ストリームEXに書き出し、単語群抽出部15の処理を終了する。
【0048】
図4は、本発明の関係表現抽出装置の一実施例における単語群抽出部15の動作の別の例を示すフローチャートである。図3に示した例では、「前自立語並び+付属語並び+後自立語並び」というパターンのうち、後自立語並びは付属語並びと連続していなくても抽出した。このパターンが連続している場合のみ抽出することも可能であり、そのような例を図4に示している。このようにすることにより、抽出される関係は少なくなるものの、より確実に接続し得る関係のみ抽出することができる。どのような範囲を抽出するかは、目的に応じて適宜選択すればよい。
【0049】
S51において、自立語並び1格納ストリームJF、付属語並び格納ストリームFZ、自立語並び2格納ストリームJBをクリアし、S52において、単語取り出しバッファWDに形態素解析部14で分割された単語1語を取り出す。S53で取り出した単語が自立語か否かを判定し、自立語である場合には、その単語を自立語並び1格納ストリームJFに書き込む。自立語でない場合には、S55において、単語取り出しバッファWDに取り出した単語を付属語並び格納ストリームFZに書き込む。
【0050】
そして、自立語並び1格納ストリームJF、付属語並び格納ストリームFZに書き込まれた単語群により、単語群抽出規則を参照し、一致する単語群抽出規則があるか否かをS56で判定する。一致する単語群抽出規則がない場合には、S51へ戻り、新たなパターンの検索を再開する。一致する単語群抽出規則がある場合には、S57において、自立語並び1格納ストリームJFが複合表現ならば、表現格納ストリームEXに書き出す。そして、自立語並び2の取得処理を行なう。
【0051】
S58において、単語取り出しバッファWDに単語を1語取り出す。S59において、取り出した単語が自立語か否かを判定し、自立語である場合には、S60で自立語並び2格納ストリームJBに取り出した単語を書き込む。自立語でない場合には、S61において、これまで抽出した自立語並び1格納ストリームJF、付属語並び格納ストリームFZ、自立語並び2格納ストリームJBの各単語群をもとに、単語群抽出規則を参照し、一致する単語群抽出規則があるか否かを判定する。一致する単語群抽出規則が存在する場合には、S62で表現格納ストリームEXに自立語並び1格納ストリームJF、付属語並び格納ストリームFZ、自立語並び2格納ストリームJBで構成される表現を出力する。
【0052】
この時点で、自立語並び2格納ストリームJBに格納されている自立語並びは、次の自立語並び1になり得る。そのため、S61における単語群抽出規則との一致または不一致にかかわらず、S63において、自立語並び2格納ストリームJBの内容を自立語並び1格納ストリームJFにコピーし、付属語並び格納ストリームFZ、自立語並び2格納ストリームJBをクリアする。そして、S64で文の終わりか否かを判定した後、文の最後でなければ、S55へ戻って処理を続行し、文の最後まで抽出処理が終了した場合は、S65で自立語並び1格納ストリームJB内の単語群が複合表現であれば、表現格納ストリームEXに書き出して、単語群抽出部15の処理を終了する。
【0053】
図5は、本発明の関係表現抽出装置の一実施例における関係抽出部3の動作の一例を示すフローチャートである。単語群抽出部15において抽出された表現は、表現格納ストリームEXに格納されて関係抽出部3に渡されるものとする。S71において、表現格納ストリームEXから表現を1つ取り出し、S72において、関係抽出規則を参照して、一致するものがあるか否かを調べる。一致するものがあるときには、S73でその表現と関係を関係格納ストリームRLに書き出す。S74で表現格納ストリームEXが最後に達したか否かを判定し、未処理の表現が残っている場合には、S71へ戻り、次の表現についての処理を繰り返し行なう。表現格納ストリームEX内の表現がすべて処理された時点で、関係抽出部3の処理を終了する。
【0054】
図6は、本発明の関係表現抽出装置の一実施例における正規化部4の動作の一例を示すフローチャートである。関係抽出部3で関係抽出規則に基づいて抽出された表現およびその関係は、関係格納ストリームRLに格納されて、正規化部4に渡されるものとする。S81において、関係格納ストリームRLから、表現および関係の組を1つ取り出す。S82において、取り出した表現が入れ替える必要があるものか否かを判定する。入れ替えの必要性は、上述したように、用言性の表現が表現1に存在する場合などで発生する。入れ替えの必要がある場合には、S83で表現1と表現2を入れ替える。入れ替えの必要がない場合には、そのままS84へ進む。
【0055】
S84において、上述した正規表現{[関係] 表現1 表現2}を生成する。生成した正規表現は、S85で順次結果出力ストリームNEに出力する。S86において、関係格納ストリームRLが最後に達したか否かを判定し、未処理の表現と関係の組が残っている場合には、S81へ戻り、次の表現と関係の組についての処理を繰り返し行なう。関係格納ストリームRL内の表現と関係の組がすべて処理された時点で、正規化部4の処理を終了する。
【0056】
上述の処理の一例では、計算機の負担軽減のため、解析を形態素解析の範囲にとどめ、2つの自立語もしくは自立語並びとそのあいだの関係として扱っている。この場合、複雑な係り受けなどの関係は抽出されないものもあるが、有効な関係の多くは形態素解析情報により推定可能であり、複雑な関係も、抽出した基本関係の組み合わせとして表わすことができる。一方、たとえ構文解析を用いたとしても、すべての関係が明確に決定できるわけではないため、本実施例は効率的な方法であるといえる。もちろん、計算機資源などに余裕がある場合は、構文解析、意味解析などの深い分析を行なうことも有効である。
【0057】
上述の処理の一例について、具体例をもとに説明する。ここでは、単語群抽出部15における処理は、図3に示したように、離れた単語群についても抽出する場合の処理を用いることとする。 S21でデータ入力部1から文書を読み込み、S23において、例えば、次の1文を文書から読み込んだとする。
「我々が実現したシステムは、本手法適用により文書の高速な検索機能を実現する。」
【0058】
この1文は、S24において、形態素解析部14で形態素解析が行なわれ、その結果、次のような形態素解析結果が得られる。
我々(代名詞)
が(格助詞)
実現(サ変)
した(する動詞終止/連体)
システム(名詞)
は(副助詞)
、(記号)
本(接頭語)
手法(名詞)
適用(サ変)
により(格助詞相当語)
文書(名詞)
の(格助詞)
高速(形容動詞)
な(形容動詞語尾/連体)
検索(サ変)
機能(サ変)
を(格助詞)
実現(サ変)
する(する動詞終止/連体)
。(記号)
【0059】
上述のように形態素解析され、分割された単語は、S25において、単語群抽出部15により単語群として抽出される。図7は、単語群抽出規則の一例の説明図である。単語群抽出部15は、図7に一部を示すような単語群抽出規則を用いて、「前自立語並び+付属語並び+後自立語並び」というパターンの単語群の抽出を行なう。この単語群抽出規則は、上述のパターンに対応して、自立語並び1、付属語並び、自立語並び2の各欄から構成されている。例えば、1行目の規則は、名詞+「に」+サ変、サ変+「に」+サ変、形容動詞+「に」+サ変というパターンを表現として抽出することを示している。
【0060】
まず、形態素解析結果より単語を順に読み込み、規則とのパターンマッチを行なう。形態素解析された単語列は、一旦単語取り出しバッファWDに読み込んだ上で、この並びにしたがって、自立語なら自立語が続く限り順次各ストリームに読み込まれ、規則とのマッチングを行なう。
【0061】
図3のS31で自立語並び1格納ストリームJF、付属語並び格納ストリームFZ、自立語並び2格納ストリームJBをクリアした後、S33で、まず、“我々”(代名詞)が単語取り出しバッファWDに読み込まれる。この単語は自立語であるので、S34からS35へ進み、“我々”が自立語並び1格納ストリームJFに書き込まれる。S33に戻り、次の単語“が”(格助詞)が単語取り出しバッファWDに読み込まれる。この単語は自立語ではないので、S34からS36へ進み、単語“が”が付属語並び格納ストリームFZに書き込まれる。自立語並び1格納ストリームJFの内容は複合表現でないので、S37はスキップされる。そして、S38において、「代名詞+が(格助詞)」というパターンが、例えば、図7に示すような単語群抽出規則内に一致するものがあるか否かを判定する。図7には、このパターンが存在しない。そのため、S31へ戻り、各ストリームの内容はクリアされる。
【0062】
続いて、同様に“実現”(サ変)が自立語並び1格納ストリームJFに、“した”(する動詞終止/連体)が付属語並び格納ストリームFZに書き込まれる。そして、S38で単語群抽出規則が参照される。このとき、「サ変+した(する動詞)」のパターンは、図7に示す単語群抽出規則中、最下行に示した規則に該当するため、そのまま保持される。また、S39において、“した”の位置がポジション変数WPに保持される。
【0063】
さらに、S41において、“システム”(名詞)が単語取り出しバッファWDに読み込まれ、S42で自立語か否かが判定される。“システム”は自立語であるので、S43で自立語並び2として自立語並び2格納ストリームJBに書き込まれる。次の単語“は”(副助詞)が単語取り出しバッファWDに読み込まれるが、自立語ではないので、S42からS44へ進み、単語群抽出規則を参照する。このときの各ストリームから、「サ変+した+名詞」というパターンが単語群抽出規則にあるか否かを判定する。図7に示す単語群抽出規則の最下行に示した規則が該当するので、「実現/した/システム」という表現が抽出され、S46において、表現格納ストリームEXに出力される。以下、自立語と付属語の間には、‘/’を付して示す。
【0064】
S47で、ポジション変数WPに保持されている位置、すなわち、単語“した”の位置に戻し、S31で各ストリームをクリアして、さらに処理を続ける。次の単語“システム”が読み込まれて自立語並び1格納ストリームJFに書き込まれ、“は”が付属語並び格納ストリームFZに書き込まれる。“システム”(名詞)+“は”(副助詞)のパターンは図7に示す単語群抽出規則中に存在しないので、各ストリームはクリアされる。続く「、」は、記号なので単語群抽出規則にはマッチせず、次の単語の処理に移る。次に“本”(接頭辞)を読み込むが、これも自立語でないため、無視される。
【0065】
今度は、“手法”が自立語並び1格納ストリームJFに書き込まれる。続く単語“適用”も自立語であるので、自立語並び1格納ストリームJFに書き込まれる。この「手法適用」は、いわゆる複合語である。付属語を伴わない自立語並び単独でも、複合表現として抽出の対象である。このとき、複合語をまとめて単一の名詞として扱う。これは、前述のように2つの自立語並びとその間の関係のみを扱うので、自立語並び1をひとまとまりに扱う必要があるためである。同じ理由から、自立語が3つ以上並ぶものを単独で抽出する場合も、各単語が直結するという以上の関係は特定しない。
【0066】
続いて、次の単語“により”を読み込むが、このとき前自立語並びはまとめて複合の名詞として扱う。単語“により”は、格助詞相当語であるので、付属語並びとして付属語並び格納ストリームFZに書き込まれる。S37では、自立語並び1格納ストリームJF内に複合表現が書き込まれているので、この自立語の並び「手法|適用」を抽出し、表現格納ストリームEXに書き出す。以下、自立語並びの各単語の間には‘|’を付して示す。この時点では、“手法適用”+“により”(名詞+格助詞相当語)というパターンが保持されている。このパターンは、図7の単語群抽出規則の5行目のパターンに相当する。
【0067】
続いて、“文書”(名詞)が自立語並び2格納ストリームJBに書き込まれ、次の単語“の”が単語取り出しバッファWDに読み出され、自立語ではないので、S44に進む。S44において、「名詞+により+名詞」というパターンと単語群抽出規則との一致が判定される。図7の単語群抽出規則の5行目のパターンは、自立語並び2として接続し得る単語は、サ変または形容動詞に限られる。そのため、続く単語“文書”(名詞)はマッチせず、このパターンは抽出されない。S45で自立語並び2格納ストリームJBをクリアし、S40へ戻って、離れた単語とのマッチングを行なう。このとき、自立語並び1および付属語並びまでのパターンは固定して考える。
【0068】
今度は“高速”(形容動詞)が自立語並び2格納ストリームJBに書き込まれるが、「名詞+により+形容動詞」も単語群抽出規則にマッチしない。さらに、“検索”(サ変)および“機能”(サ変)が自立語並び2格納ストリームJBに複合表現として書き込まれるが、複合表現の品詞は名詞として扱うので、「名詞+により+名詞」のパターンは単語群抽出規則とマッチしない。次に、“実現”(サ変)が自立語並び2格納ストリームJBに書き込まれる。「名詞+により+サ変」のパターンは、単語群抽出規則にマッチする。そのため、S46で「手法|適用/により/実現」という単語群が抽出され、表現格納ストリームEXに出力される。
【0069】
この時点で、ポジション変数WPは“により”の位置を保持している。S47において、単語取り出しバッファWDの位置をこの単語に戻し、次の単語から抽出処理を再開する。上述の処理と同様に、自立語並び1格納ストリームJFに“文書”を書き込み、続いて“の”を付属語並び格納ストリームFZに書き込み、“文書”+“の”(名詞+格助詞)というパターンとなる。ポジション変数WPに“の”の位置を保持させ、自立語並び2を検索する。まず、“高速”(形容動詞)が自立語並び2格納ストリームJBに書き込まれ、“な”(形容動詞語尾)が単語取り出しバッファWDに読み込まれる。しかし、「名詞+の+形容動詞」のパターンは単語群抽出規則とマッチしないため、スキップされる。今度は「検索(サ変)」、「機能(サ変)」が続くので、これらは複合名詞として自立語並び2格納ストリームJBにまとめて格納される。結果として、「名詞+の(格助詞)+(複合)名詞)というパターンで単語群抽出規則とのパターンマッチに成功し、「文書/の/検索|機能」が抽出され、表現格納ストリームEXに出力される。
【0070】
ポジション変数WPに保持されている“の”の位置にポインタを戻し、次の単語から、再度、抽出処理を行なうことにより、「高速/な/検索|機能」が、さらに、“な”の次の単語から抽出処理を行なって、自立語並び「検索|機能」、および、「検索|機能/を/実現」が抽出される。
【0071】
このような処理により、表現格納ストリームEXには、次のような単語群が抽出される。
実現/した/システム(サ変+“した”+名詞)
手法|適用(複合名詞(名詞+サ変))
手法|適用/によって/実現(複合名詞(名詞+サ変)+“によって”+サ変)
文書/の/検索|機能(名詞+“の”+複合名詞(サ変+サ変))
高速/な/検索|機能(形容動詞+“な”+複合名詞(サ変+サ変)
検索|機能(複合名詞(サ変+サ変))
検索|機能/を/実現(複合名詞(サ変+サ変)+“を”+サ変)
【0072】
単語群抽出部15において、上述のようにして単語群が抽出されると、関係抽出部3により関係を付与する。図8は、関係抽出規則の一例の説明図である。関係抽出部は、例えば、図8に一部を示すような関係抽出規則を用いる。関係抽出規則は、単語群抽出部15で抽出された自立語並び1、自立語並び2、付属語並びと、付与すべき関係とを対応づけている。例えば、図8の1行目では、「名詞またはサ変+“が”+サ変または形容動詞」というパターンには、関係[ガ格]を付与することを示している。関係抽出部3では、表現格納ストリームEXから単語群を取り出し、関係抽出規則にマッチするものを取り出して関係を付与して、関係格納ストリームRLに出力する。
【0073】
上述のように、この例では形態素解析に基づく単語間の関係を扱うため、付与する関係は、形態素情報から得られるレベルとしている。しかし、深い解析を行なえば、さらに詳細な関係を得ることも可能である。
【0074】
上述の例では、まず、図5のS71で表現格納ストリームEXより最初の表現「実現したシステム」が取り出される。S72において、関係抽出規則を参照する。この場合、自立語並び1、自立語並び2は、それぞれ、サ変および名詞であり、“した”は「する動詞」の活用形であるので、図8に示す関係抽出規則から、関係[スル]が得られる。そのため、S73において、表現に関係[スル]を付与し、関係格納ストリームRLに出力する。
【0075】
次の表現「手法適用」は、2語の自立語からなる複合表現である。自立語のみの複合表現においては、2単語の場合は両方の品詞間に「直結」という関係を付与する。
【0076】
以下、同様に表現格納ストリームEX内の各表現に対して関係が求められ、次に示すように、表現に関係が付与され、関係格納ストリームRLに出力される。
実現/した/システム(サ変+“する”+名詞)[スル]
手法/適用(名詞+サ変)[直結]
手法|適用/によって/実現(複合名詞+“によって”+サ変)[デ格]
文書/の/検索|機能(名詞+“の”+複合名詞)[名詞接続]
高速/な/検索|機能(形容動詞+“な”+複合名詞)[ナ格]
検索|機能(サ変+サ変)[直結]
検索|機能/を/実現(複合名詞+“を”+サ変)[ヲ格]
【0077】
関係抽出部3における関係抽出および関係付与の処理が終了すると、関係格納ストリームRLに出力された表現と関係の対をもとに、正規化部4において、関係の正規化を行ない、順次結果出力ストリームNEに出力する。すなわち、正規化により、抽出した関係から活用や出現順など表層的な表現に依存しない部分を取り出す。上述したように、正規化処理では、必要に応じて自立語並び1と自立語並び2を入れ替え、{[関係] 表現1 表現2}という形式の正規表現を生成する。
【0078】
上述の例では、まず、図6のS81で関係格納ストリームRLより最初の表現と関係の対を取り出す。取り出した「実現/した/システム(サ変+“する”+名詞)[スル]」は、表現の入れ替えの必要なパターンである。S83において、表現1と表現2を入れ替え、S84において正規表現{[スル] システム 実現}が生成される。得られた正規表現は、S85において、順次結果出力ストリームNEに書き出される。
【0079】
続いて、「手法/適用(名詞+サ変)[直結]」は、直結表現であるので、そのまま正規表現{[直結] 手法 適用}が生成され、順次結果出力ストリームNEに出力される。以下、同様に正規化処理を行ない、順次結果出力ストリームNEには次のような結果が出力される。
{[スル] システム 実現}
{[直結] 手法 適用}
{[デ格] 手法|適用 実現}
{[名詞接続] 文書 検索|機能}
{[ナ格] 高速 検索|機能}
{[直結] 検索 機能}
{[ヲ格] 検索|機能 実現}
【0080】
以上で、例に示した1文に対する関係表現抽出処理が終了する。正規化し、順次結果出力ストリームNEに出力された関係表現の内容は、図2のS28で結果出力ストリームSOに書き出され、S22へ戻って、さらに入力文書中にデータが続く限り、同様に1文単位で処理を続ける。最後に、S29で、こうして得られた関係表現を記憶部5に登録する。これにより、記憶部5には結果出力ストリームSOに保持された各正規表現中の関係、表現1、表現2をそれぞれキーとして、原データである入力文書とともに登録される。
【0081】
記憶部5に登録された文書の検索を行なう場合には、表現1、表現2、および、関係を検索キーとして検索を行なう。これにより、表層表現に依存しない概念、主題から検索を行なうことができるようになる。検索において意味的に一致するものを得ることで適合率を向上させ、効率的な検索が可能となる。
【0082】
上述の具体例では、単語群抽出部15の処理として、図3に示した処理を用いた。しかし、図4に示す処理を用いることができる。この場合には、上述の例文の場合、単語群抽出部15からは次の表現が出力される。
実現/した/システム(サ変+“した”+名詞)
手法|適用(複合名詞(名詞+サ変))
高速/な/検索|機能(形容動詞+“な”+複合名詞(サ変+サ変))
検索|機能(複合名詞(サ変+サ変))
検索|機能/を/実現(複合名詞(サ変+サ変)+“を”+サ変)
【0083】
この抽出された表現をもとに、関係抽出部3で関係が付与され、次の関係が付与された表現が得られる。
実現/した/システム(サ変+“する”+名詞)[スル]
手法/適用(名詞+サ変)[直結]
高速/な/検索|機能(形容動詞+“な”+複合名詞)[ナ格]
検索|機能(サ変+サ変)[直結]
検索|機能/を/実現(複合名詞+“を”+サ変)[ヲ格]
【0084】
さらに、正規化部4で正規化し、次の正規表現が得られる。
{[スル] システム 実現}
{[直結] 手法 適用}
{[ナ格] 高速 検索|機能}
{[直結] 検索 機能}
{[ヲ格] 検索|機能 実現}
【0085】
このようにして求められた正規表現がキーとして文書とともに記憶部5に記憶されることになる。
【0086】
上述の関係表現抽出装置の一実施例では、正規化部4を含む構成について説明したが、本発明は、正規化手段を含まない構成とすることも可能である。すなわち、上述した検索を前提としたシステムでなく、例えば、原データより概念を抽出するのみのシステムであれば、正規化手段は不要である。この場合、構成としては、図1に示した構成から正規化部4を除き、関係抽出部3を記憶部5に接続することで実現される。処理の流れとしても、図2のS27のステップで行なわれる正規化の処理を省くのみである。具体的には、関係表現格納ストリームRLより関係表現を取り出した結果を、そのまま結果格納ストリームSOに出力すれば良い。
【0087】
関係抽出部3で抽出されたままの表現は、原データの持つ概念を表していると考えられ、これらを適宜編集することで、例えば、文献のアブストラクトを作成したり、OHP発表資料を作成することができる。これを応用し、要約作成支援システムを実現することができる。
【0088】
本発明の関係表現抽出装置は、テキストデータからのキーワード抽出一般に適用でき、前述の実施例のみに関するものではないことはいうまでもない。例えば、文書から抽出するのではなく、ユーザの検索要求から関係を抽出することも可能である。
【0089】
従来、検索要求の与え方として、SQLなどの検索用言語を介するものや、いわゆる自然言語インターフェースなどが存在する。しかし、これらは、結局はキーワード検索の延長であり、AND検索などのように単語単位のキーワードの論理演算に帰着するものでった。
【0090】
そこで、本発明の関係表現抽出装置を検索要求の入力に用いることが考えられる。すなわち、検索要求として「自立語+付属語+自立語」というパターンを与え、そこから関係表現を抽出するものである。
【0091】
例えば、ユーザが「文書を作成」「文書から作成」「作成した文書」などの自然な表現を与えた場合でも、従来の自然言語インターフェースでは区別せず「文書&作成」といった検索キーを生成するのが一般的であった。これに対し、本発明の関係表現抽出装置を用いることにより、それぞれ、「[ヲ格] 文書 作成」「[カラ] 文書 作成」「[スル] 文書 作成」といった関係を伴った表現を抽出できる。これにより、ユーザはごく自然な表記を用いて、簡単に自分の意図を検索要求として与えることが可能となる。
【0092】
実現方法としては、上述の図1に示した構成において、正規化部4あるいは関係抽出部3からの出力を検索手段に与えるように構成すればよい。このとき、検索されるデータベースには、上述の実施例のように、関係表現がキーとして付与されている必要がある。
【0093】
このように、データベースに登録する情報に対して付与するキーを生成する場面と、ユーザによる検索要求に基づいて、検索キーを生成する場面において、本発明の関係表現抽出装置を適用することができる。すなわち、データベースへの情報の登録時と、データベース内の情報の検索時に同じ関係表現抽出処理を行なうように構成した関係表現検索装置を実現することができる。以下、このような関係表現検索装置について説明する。
【0094】
図9は、本発明の関係表現検索装置の第1の実施例を示すブロック図である。図中、図1と同様の部分には同じ符号を付して説明を省略する。6は検索要求入力部、7は関係展開部、8は出力部、17はキーボード、18はマウス、19はCRTディスプレイである。検索要求入力部6は、キーボード17、マウス18など、種々の周知の入力手段から構成される。ユーザは、検索要求入力部6より、関係に基づく検索要求を入力する。表現抽出部2は、現データ入力部あるいは検索要求入力部6より入力されたテキストを解析し、形態素解析部14で形態素解析を行なって、単語単位に分割し、単語群抽出部15で単語群抽出規則に基づいて互いに関係を持ち得る複数の単語およびその品詞などの情報を、表現として取り出す。関係抽出部3は、表現抽出部2で抽出された表現に対し、関係を付与する。正規化部4は、関係抽出部3で付与された関係に基づいて、関係の付与された表現を正規化し、求める関係表現を得る。正規化部4で得られた関係表現は、情報の登録時には、入力された原データとともに、記憶部5でデータベースに登録される。一方、検索時には、関係展開部7へ正規表現を渡す。関係展開部7は、正規化部4で得られた正規表現を展開し、概念的に同一になり得る表現を生成し、記憶部5を検索する。出力部8は、例えば、CRTディスプレイ19などの表示手段で構成され、検索により得られた検索結果が出力される。
【0095】
次に、本発明の関係表現検索装置の第1の実施例における動作の一例について説明する。ここでは、関係の登録と関係からの検索に分けて述べる。
【0096】
まず、文書などの原データにより関係を抽出して、これを記憶部5に記憶する場合の動作について説明する。この場合の動作は、上述の関係表現抽出装置の一実施例における動作と同様である。すなわち、データ入力部1より抽出すべき文書データを電子的に読み込み、読み込んだ文書データから未処理の1文を取り出す。取り出した1文を形態素解析により単語の並びに分割する。そして、単語群抽出部15によって、単語群抽出規則に基づいて、規則にマッチする単語群の抽出処理が行なわれる。抽出される単語群の基本的なパターンとしては、例えば、「前自立語並び+付属語並び+後自立語並び」というパターン、および、複合表現とすることができる。単語群抽出部15で抽出された表現は、関係抽出部3において、関係抽出規則に基づいて、関係が付与される。そして、正規化部4において、必要に応じて単語群の入れ替えなどを行なって、正規表現を生成する。正規表現としては、例えば、{[関係] 表現1 表現2}という形式とすることができる。
【0097】
以上で、1文に対する関係表現抽出が終了する。さらに、入力文書中にデータが続く限り、同様に1文単位で処理を続ける。最後に、こうして得られた関係表現を、入力文書とともに記憶部5に登録する。このとき、各正規表現の表現1,表現2,関係をそれぞれ転置キーとして、原データである入力文書とともに登録すればよい。
【0098】
以上の処理により、入力した文書から主題を関係表現として抽出し、データベース上に原文書とともに蓄えられる。
【0099】
続いて、あらかじめ抽出した関係に基づく検索について説明する。検索は、大きくは、検索要求の入力、関係表現の抽出、関係の展開、データベースへの問い合わせという流れによる。図10は、本発明の関係表現検索装置の第1の実施例における検索処理の一例を示すフローチャートである。最初に、S91において、検索要求入力部6より、検索要求を自然語として入力する。
【0100】
検索要求が入力されると、S92ないしS95の処理により、登録時と同様に正規化した関係表現を抽出する。このときの処理については、登録時に1文から関係表現を抽出する際と同一のアルゴリズムが適用できる。例えば、図2ないし図6で示した処理を用いて正規表現を得ることができる。
【0101】
正規表現が得られると、S96において、関係展開部7は関係展開規則を参照し、一致する関係展開規則があるか否かを判定する。関係展開規則がある場合には、S97で関係展開規則を用いて、正規表現と概念的に同一になり得る表現を生成する。S98において、正規表現およびS97で生成された展開表現を検索キーとして用い、記憶部5に対して検索を行なう。得られた検索結果は、S99において、出力部8に出力する。
【0102】
上述の動作の一例を具体例をもとに説明する。具体例として、ユーザが「何らかのシステムを実現したもの」に関する文献を検索したいとする。S91において、検索要求入力部6から検索要求を入力する。このとき、実際の検索要求としては、例えば、「システムを実現した」という本来の検索意図にごく近い表現を自然語で与える。
【0103】
検索要求が入力されると、S92において、「システムを実現した」という検索要求を、まず、形態素解析部14で形態素解析する。形態素解析の結果を以下に示す。
システム(名詞)
を(格助詞)
実現(サ変)
した(する動詞終止/連体)
【0104】
続いて、S93において、単語群抽出部15で単語群を抽出する。このとき抽出するパターンとして、「前自立語並び+付属語並び+後自立語並び」とし、例えば、図7に示すような単語群抽出規則を用いると、次の1つの表現が得られる。
システム/を/実現(名詞+“ヲ”+サ変)
【0105】
また、S94において、関係抽出部3で関係を付与する。このとき、例えば、図8に示すような関係抽出規則を用いると、単語群抽出部15で抽出された上述の表現に[ヲ格]が付与され、次のような関係が付与された表現が得られる。
システム/を/実現(名詞+“を”+サ変)[ヲ格]
【0106】
さらに、S95において、正規化部4で正規表現を生成する。このとき生成される正規表現を{[関係] 表現1 表現2}とすると、上述の関係が付与された表現から、次のような正規表現が得られる。この例では、自立語並びを入れ替える必要がないので、そのまま、前自立語並びを表現1、後自立語並びを表現2とする。
{[ヲ格] システム 実現}
【0107】
このようにして、正規化された関係表現が得られた。検索要求の場合には、正規化された関係表現が得られると、関係展開部7に送られる。関係展開部7において、正規化された関係表現を展開し、概念的に同一になり得るものを生成する。展開には、関係展開規則を用いる。図11は、本発明の関係表現検索装置の第1の実施例における関係展開規則の一例の説明図である。図11に示したように、関係展開規則は、正規化部4で得られた正規表現中の関係、表現1、表現2の組と、展開可能な関係とが対になって登録されている。上述の例では、関係がヲ格、表現1が名詞、表現2がサ変であるので、図11の2行目の規則にマッチする。そのため、S96からS97に進む。このとき得られた表現は、[ヲ格]以外に[ノ格],[直結],[スル]に展開可能であることが分かる。これに従い、S97で次のような関係表現を生成する。
{[ヲ格] システム 実現}
{[ノ格] システム 実現}
{[直結] システム 実現}
{[スル] システム 実現}
【0108】
そして、S98において、展開した関係表現に基づいて、データベースシステム16への問い合わせを行なう。この場合、得られた各関係表現をキーとして検索を行なう。検索結果は、S99において、CRTディスプレイ19に出力される。
【0109】
検索の結果として得られた候補は、概念的に同一になり得るものである。例えば、上述の関係表現抽出装置の具体例において抽出し、記憶部5に登録した文書は、{[スル] システム 実現}という関係表現を持つため、検索される。この文書は、少なくともあるシステムを実現したことについて述べているから、候補として妥当である。
【0110】
一方、例えば、別の文書が「このシステムが実現する機能」というフレーズを持つとする。このフレーズから抽出される関係表現は、{[ガ格] システム 実現}のようになる。この場合、表現1,表現2は全く同一であるが、先ほどの展開結果に関係[ガ格]は含まれないので、文書中の他の部分にマッチする関係表現がない限り候補にならない。実際、「このシステムが実現する機能」は、「システムを実現した」とは異なる概念を表わすため、検索されないことは妥当である。
【0111】
このように、この実施例では、ユーザが必要とする概念を、表層構造を気にせずに自然語を用いて、容易に検索することができる。さらに、関係表現を介して検索を行なうことにより、不要な候補の出現が低減される。
【0112】
上述の関係表現検索装置の第1の実施例では、検索要求として自然語を入力したが、本発明の関係表現検索装置としては、検索要求として自然語入力に限定されることはない。例えば、正規化部4から出力される関係、表現1、表現2をユーザが与えて検索することももちろん可能である。この場合、検索要求入力部6からの入力は、直接、関係展開部7に入力されるように構成する。あるいは、表現抽出部2、関係抽出部3、正規化部4で処理を行なわずに、関係展開部7に入力されるように構成すればよい。
【0113】
図12は、本発明の関係表現検索装置の第1の実施例におけるGUIを用いた検索要求の入力画面の一例の説明図である。図中、101は表現1入力部、102は表現2入力部、103は関係選択部、104は検索指示ボタン、105は検索結果リストサブウィンドウ、106は内容表示サブウィンドウである。近年、GUI(Graphical User Interface)の進歩が顕著である。そこで、GUIを用いて、検索要求として関係、表現1、表現2を入力するためのウィンドウイメージを図12に示している。ここでは、検索要求入力部6における入力のための表示と、出力部8における検索結果の表示を1つのウィンドウ内に表示した場合の一例を示している。
【0114】
ユーザは、ウィンドウ左上の表現1入力部101、表現2入力部102において、表現1と表現2を単語単位で入力する。また、関係はウィンドウ右上の関係選択部103に配列された各関係を示すボタンをマウスによりセレクトする。図12では、表現1として「システム」、表現2として「実現」が入力され、関係としてヲ格が選択されている。このように入力すれば、検索要求をそのまま関係表現として扱えるため、これを関係展開部に渡せば、関係表現の展開および検索が可能である。関係表現の展開および検索の実行は、ウィンドウ左上の検索指示ボタン104をマウスによりセレクトすればよい。
【0115】
検索に成功すると、ウィンドウ左下の検索結果リストサブウィンドウ105に、検索された候補のタイトルが関係の情報とともに表示される。ユーザは、このタイトルを参照し、容易に欲しい結果を選ぶことができる。図12においては、関係[スル]に展開された検索キーによって検索された候補を、検索結果リストサブウィンドウ105に表示されたリスト上でセレクトしている。このセレクトにより、文献の内容が右下の内容表示サブウィンドウ106に表示される。
【0116】
このように、自然言語インターフェースによらない方式は、例えば、携帯型の検索装置など複雑な処理を内蔵することが困難である場合には特に有効である。このとき、原データ入力部1、表現抽出部2、関係抽出部3、正規化部4は、記憶部5に関係表現と文書を対応させて登録させるときのみ必要であるので、このような携帯型の検索装置などの場合には搭載する必要はない。記憶部5には、例えば、上述の関係表現抽出装置などを用いて、あらかじめ関係表現と文書を対応させて登録しておけばよい。もちろん、文書の登録および更新のために、原データ入力部1、表現抽出部2、関係抽出部3、正規化部4を搭載してもよい。
【0117】
また、上述の関係表現検索装置においても、正規化部4を用いずに構成することも可能である。
【0118】
上述の関係表現検索装置によれば、検索要求として入力された関係表現、または自然語で入力された検索要求から抽出した関係表現をキーとして検索することが可能である。その際に、検索要求を概念的に同一になり得る関係表現に展開して検索を行なうこともできる。例えば、検索要求として、{[ノ格] システム実現}という検索要求が入力されると、概念的に同一になり得る関係表現として、{[ノ格] システム 実現}、{[ヲ格] システム 実現}、{[直結] システム 実現}などに展開し、そのいずれかにマッチするものをすべて検索する。
【0119】
しかしながら、展開された関係表現すべてが、常に検索要求と同じ関係を表わしているとは限らない。場合によっては、検索要求とは異なる関係を表わしていることもあり得る。すなわち、表現によって、概念的に同一であるかどうかの確信度が異なる。上述の装置では、ユーザは、検索結果のどのような関係とマッチしたかを知ることは可能であるが、それが本当に概念的に同一であるか否かはユーザが自分で判断しなければならず、検索結果が多い場合などに、効率的に検索結果を得ることが困難である。これを解決する装置として、以下に確信度を用いて検索結果を並べ替えてユーザに提示し、効率的な検索を行なう装置の一例を示す。
【0120】
図13は、本発明の関係表現検索装置の第2の実施例を示すブロック図である。図中、図9と同様の部分には同じ符号を付して説明を省略する。20は確信度評価部である。
【0121】
確信度評価部20は、検索に用いられた表現と正規表現を比較して確信度を評価し、これに基づいて検索結果を並べ替える。出力部8は、確信度評価部20で並べ替えられた検索結果を出力する。
【0122】
次に、本発明の関係表現検索装置の第2の実施例における動作の一例について説明する。この実施例の関係表現検索装置においても、検索時に、関係表現がキーとして記憶部5に記憶されている必要があるが、関係の登録については、上述の実施例と同様であるので、説明を省略する。
【0123】
あらかじめ抽出した関係に基づく検索について説明する。図14は、本発明の関係表現検索装置の第2の実施例における検索処理の一例を示すフローチャートである。図10と同様の処理には同じ番号を付してある。S91の検索要求の入力から、S98の検索指示および検索の実行までは、上述の実施例と同様である。
【0124】
S98において、関係展開部7で生成された展開表現を検索キーとして用い、記憶部5に対して検索を行なう。検索結果が得られると、確信度評価部20は、S111において、検索に用いられた展開表現と正規表現を比較し、関係評価規則に基づいて確信度を評価する。続いてS112において、この評価結果に基づいて検索結果を並べ替え、S113において、出力部8に出力する。
【0125】
上述の関係表現検索装置の第2の実施例における動作の一例を、具体例をもとに説明する。具体例としては、上述の実施例と同様、ユーザが「何らかのシステムを実現したもの」に関する文献を検索したいとする。S91において、検索要求入力部6から検索要求を入力する。S92における形態素解析、S93における単語群抽出、S94における関係抽出の後、S95で正規化して、正規化された関係表現{[ヲ格] システム 実現}が得られる。
【0126】
次に、関係展開部7において、正規化された関係表現を展開し、概念的に同一になり得るものを生成する。図15は、本発明の関係表現検索装置の第2の実施例における関係展開規則の一例の説明図である。図15に示した関係展開規則では、正規化部4で得られた正規表現中の関係と、展開可能な関係のみを対にして登録してある。このように、図11に示した関係展開規則を簡略化することも可能である。上述の例では、関係がヲ格であるので、図15の2行目の規則にマッチする。そのため、正規表現は、[ヲ格]以外に[ノ格],[直結],[スル]に展開可能であることが分かる。これに従い、S97で次のような関係表現を生成する。
{[ヲ格] システム 実現}
{[ノ格] システム 実現}
{[直結] システム 実現}
{[スル] システム 実現}
【0127】
そして、S98において、展開した関係表現に基づいて、データベースシステム16への問い合わせを行なう。この場合、得られた各関係表現をキーとして検索を行なう。この結果、例えば、それぞれ{[ヲ格] システム 実現}、{[ノ格] システム 実現}、{[スル] システム 実現}という関係表現をもつ文書が記憶部5に登録されている場合、これらの文書が検索される。
【0128】
検索結果が得られると、確信度評価部20は、S111において検索に用いられた関係ともとの正規表現の関係を比較して、確信度を評価する。例えば、{[ノ格] システム 実現}という関係表現を持つ文書が検索された場合、[ノ格]と、もとの関係[ヲ格]を比較する。S97において展開された関係表現は、もとの表現と概念的に同一になり得るものであるが、必ずしも同一の表現であるとは言えないので、同一である確信度を評価値として与える。
【0129】
確信度の評価は、例えば、関係評価規則を用いて行なうことができる。図16は、本発明の関係表現検索装置の第2の実施例における関係評価規則の一例の説明図である。図16に示した例では、例えば、[ヲ格]と[ヲ格]のように関係がまったく同じか否か、例えば、[ノ格]から[ヲ格]のように関係がより具体的になる方向に展開されているか、あるいは、[ヲ格]から[ノ格]のように関係が抽象的になる方向に展開されているかなどにより、あらかじめ評価値を決めている。上述のように、正規化された関係表現{[ヲ格] システム 実現}および展開された関係表現から、それぞれ{[ヲ格] システム 実現}、{[ノ格] システム 実現}、{[スル] システム 実現}という関係表現をもつ文書が検索された場合、図16に基づいて、それぞれの関係表現{[ヲ格] システム 実現}、{[ノ格] システム 実現}、{[スル] システム 実現}には、それぞれ100、80、80という確信度評価値が与えられる。
【0130】
S112において、確信度評価部20は、評価点に基づいて、例えば、大きい順に検索結果を並べ替える。そして、S113において、並べ替えられた検索結果をCRTディスプレイ19に出力する。
【0131】
このように、本実施例によれば、検索結果を確信度の高い順にユーザに提示することができ、ユーザは効率よく結果を参照することができる。
【0132】
なお、確信度の評価は、上述の方法に限らず、種々の方法を用いることができる。例えば、大量のデータを用いてある関係表現と別の関係表現が同一の関係になる確率を計算し、これに基づいて確信度を決めてもよい。また、上述の実施例のように各関係間で確信度を与えておくのではなく、各関係に関係の抽象度レベルなどを与えておき、その差に基づいて確信度を計算するようにしてもよい。さらに、検索結果の表示においては、単に確信度に基づいて並べ替えて表示するだけでなく、確信度も共に表示するようにしてもよい。
【0133】
上述の関係表現検索装置の第2の実施例においても、先の実施例と同様、検索要求として自然語入力に限定されることはなく、例えば、正規化部4から出力される関係、表現1、表現2をユーザが与えて検索することももちろん可能である。この場合、検索要求入力部6からの入力は、直接、関係展開部7に入力されるように構成する。あるいは、表現抽出部2、関係抽出部3、正規化部4で処理を行なわずに、関係展開部7に入力されるように構成すればよい。
【0134】
図17は、本発明の関係表現検索装置の第2の実施例におけるGUIを用いた検索要求の入力画面の一例の説明図である。図中の符号は図12と同様である。上述の関係表現検索装置の第2の実施例においても、図12に示したようなGUIを用いて検索要求の入力を行なうことができる。表現1入力部101、表現2入力部102、および、関係選択部103を用いて、表現1と表現2およびその関係を入力する。そして検索指示ボタン104をセレクトすることによって検索が行なわれる。検索に成功すると、ウィンドウ左下の検索結果リストサブウィンドウ105に、検索された候補のタイトルが確信度の大きい順にソートされ、図17に示すように、確信度、関係の情報とともに表示される。ユーザは、このタイトルを参照し、容易に欲しい結果を選ぶことができる。
【0135】
このように、自然言語インターフェースによらない方式は、図12の場合と同様に、例えば、携帯型の検索装置など複雑な処理を内蔵することが困難である場合には特に有効であり、記憶部5にあらかじめ抽出された関係表現を文書と対応させて登録しておけばよい。このとき、原データ入力部1、表現抽出部2、関係抽出部3、正規化部4を用いずに構成することが可能である。また、原データ入力部1のみを搭載し、あらかじめ抽出された関係表現と原データをそれぞれデータ入力部1に入力し、これをそのまま記憶部5に記憶するようにしてもよい。
【0136】
上述の関係表現検索装置の第2の実施例においては、正規化部4で得られた正規表現をもとに関係展開部7で概念的に同一になり得る表現に展開し、展開された表現と一致する関係表現をキーとして持つ文書を検索している。しかし、これに限らず、関係展開部7の代わりに検索部を設け、正規表現と一致しなくても概念的に同一になり得る表現を直接検索するように構成してもよい。この場合、確信度評価部20による確信度の評価は、正規表現と文書にキーとして付された関係表現を比較することにより行なえばよい。
【0137】
図18は、本発明の関係表現検索装置の第3の実施例を示すブロック図である。図中、図9、図13と同様の部分には同じ符号を付して説明を省略する。121は解析切り換え部、122は言語別解析部、123は言語別関係抽出部、124は対訳単語辞書、125は対訳関係辞書、126は言語別正規化部、127は登録部、128は検索部である。
【0138】
上述の各実施例では、単一の言語についてのみ適用可能である。すなわち、日本語で記述された原データがデータベースに蓄積され、それらを日本語により検索する場合には問題はない。しかし、類似の内容を有する原データが英語やドイツ語など、別の言語で記述され、データベースに格納されている場合には、これらのデータを検索することはできない。また、検索要求の入力も、種々の言語によって行なわれることも考えられる。その場合に、入力された言語にかかわらず、類似の内容を有するデータであれば他の言語で記述されたデータをも検索できるようにすることが望ましい。この第3の実施例では、このような多言語を含むデータベースの検索を行なう例を示している。
【0139】
データ入力部1は、検索対象であり、検索のためのキーとなる関係表現を抽出すべき文書データを入力する部分である。入力される文書データは、日本語の他、例えば、英語、ドイツ語、フランス語など、他の言語で記述されていてもよい。また、文書データは、少なくとも自然言語で記述されたテキストを含むものであれば、絵や図形などを含んでいてもよい。
【0140】
表現抽出部2は、入力データを、その入力データ中のテキストが記述されている言語に応じて解析し、互いに関係を持ち得る複数の単語とその間の関係からなる関係表現を抽出する。表現抽出部2は、解析切り換え部121、言語別解析部122を含むように構成することができる。
【0141】
解析切り換え部121は、入力データ中のテキストが記述されている言語に応じて、複数の言語別解析部122の中から対応するものを選択する。テキストが記述されている言語の種別は、あらかじめ入力データ中に記録されているか、入力データの入力時にデータ入力部1や検索要求入力部6から入力データとともに入力するか、またはテキストの特徴を解析することによって得られる。テキストを解析する方法では、対訳辞書などを利用してテキストを構成する各単語を得ることによって判別する方法がある。この時用いる対訳辞書は、各言語が判別できればよいので、10個程度の単語を有する程度でも十分利用可能である。ここでは、データ入力部1から入力されるデータには、あらかじめ文書データ中に言語の種別が記録されているものとする。言語の種別の記述方法としては、表題や作成日付などと同様に本文のテキストとは別に記載する方法と、本文中にタグなどを用いて埋め込む方法がある。後者の方法では、本文の一部に他言語で記載されている部分がある場合にも対処できる。この実施例では、簡単にするため、前者の本文のテキストとは別に記載する方法を採用する。
【0142】
言語別解析部122は、文書データ中のテキストを解析する。言語別解析部122は、例えば、日本語、英語、ドイツ語、フランス語など、言語の種類別に複数用意されている。解析切換え部121の判断結果によって、該当する言語を解析する解析部が選択される。各解析部は、その言語専用の文法規則、辞書などを備え、各言語を解析するのに適切な構成となっている。ただし解析エンジンは共通のものを使用してもよい。一方、解析のレベルを言語別に変えることも可能である。例えば、英語とドイツ語は共通の言語解析部を用い、日本語は上述の各実施例のように形態素解析部を用いて構成することができる。
【0143】
言語別関係抽出部123は、言語別解析部122の解析結果から、互いに関係を持ち得る複数の単語とその間の関係からなる関係表現を抽出する。言語別関係抽出部123も、言語別解析部122と同様に、言語の種類別に複数用意されており、該当する言語のものが選択される。また、言語別解析部122と同様に、その言語専用の関係抽出規則などの情報を備え、言語別に適した構成を有している。
【0144】
対訳単語辞書124は、複数の言語における等価な意味の単語が登録されている。また、対訳単語辞書124は、ある語に対して類似した意味を持つ語を集めた類義語辞書を複数の言語に拡張したものと考えることもできる。図19は、対訳単語辞書のデータの一例の説明図である。例えば、日本語の類義語辞書では、「生産」という語に対して、「製造」、「制作」、「産出」などが同義語として登録されている。対訳単語辞書124では、類似した意味を持つ語を、同一言語だけでなく複数言語にわたって収録したものである。例えば、図19に示すように、同じ「生産」という語に関しては、英語では“produce”,“manufacture”,“create”などが、ドイツ語では“schaffen”,“produzieren”などが登録されている。図19に示した対訳単語辞書124では、これらの語がそれぞれの言語を示す記号と対をなしてリストとして保持されている。ある言語の単語を入力すると、あらかじめ決められたある言語での等価な単語を出力する。出力言語での等価な単語が複数あるときは、例えば、リストの先頭の単語、あるいは、単語のリストを出力するように構成することができる。この対訳単語辞書124によって、種々の言語の単語を入力とし、あらかじめ決められたある言語に統一した類似語を得ることができる。
【0145】
対訳関係辞書125は、複数の言語における等価な言語的関係を表わす関係名が登録されている。図20は、対訳関係辞書のデータの一例の説明図である。ここでは、上述の各例における「ガ格」、「ヲ格」等を「GA−NOMINATIVE」、「WO−ACCUSATIVE」等のように示している。言語間の関係は、例えば、日本語の「WO−ACCUSATIVE」という関係に対して、英語、ドイツ語、フランス語では「ACC」という関係が登録されている。ある言語での関係を入力すると、あらかじめ決められたある出力言語での等価な関係名を出力する。この対訳関係辞書125を用いることによって、それぞれの言語における関係を、あらかじめ決められたある言語での関係に統一することができる。
【0146】
言語別正規化部126は、言語別関係抽出部123で抽出された関係表現を言語に依存しない表現に正規化する。言語に依存しない表現として、もとのテキストが記述された言語によらず、あらかじめ定めた言語、例えば、日本語の表現に変換する。言語の正規化には、対訳単語辞書124および対訳関係辞書125を用いる。関係表現を構成する単語を対訳単語辞書124を用いてあらかじめ定めた言語に翻訳し、関係を表わす記号を対訳関係辞書125を用いてあらかじめ定めた言語での記号に変換する。この言語別正規化部126により、ある言語に統一した単語及び関係が得られる。
【0147】
登録部127は、言語別正規化部26から得られた言語に依存しない正規化された関係表現をキーとして、データ入力部1から入力された文書データと共に記憶部5に登録する。これにより、記憶部5には言語に依存しない関係表現がキーとして付加されて、文書データが格納される。
【0148】
検索部128は、関係展開部7より得られた展開された関係表現がキーとして、記憶部3に登録されている文書データを検索する。関係展開部7から与えられる関係表現は、言語別正規化部127によって言語に依存しない表現に正規化されている。また、記憶部5に格納されている文書データに付加されたキーも言語に依存しない表現に正規化されている。そのため、検索部128は、言語に依存しない表現によって検索を行なうことができる。
【0149】
なお、この実施例では、登録部127及び検索部128を明示的に示しているが、上述の各実施例においても当然に備わっている構成である。また、言語別正規化部126から出力される言語に依存しない正規化された検索要求が、関係展開部7を介さずに、直接、確信度評価部20に入力されているが、関係展開部7を介すか否かはどちらでもよい。上述の第2の実施例においても、関係展開部7を介さずに、正規化された検索要求を直接確信度評価部20に入力するように構成してもよい。
【0150】
以下、本発明の第3の実施例における動作の一例を説明する。以下の説明では、関係表現の登録時の動作と、関係表現からの検索時の動作に分けて説明する。
【0151】
図21は、本発明の関係表現検索装置の第3の実施例における関係表現の登録時の動作の一例を示すフローチャートである。検索のためのキーとしての関係表現の登録時には、データ入力部1、表現抽出部2、言語別関係抽出部123、言語別正規化部126、登録部127、および、記憶部5が動作する。
【0152】
S131において、データ入力部1より文書データを読み込み、解析切り換え部121および登録部127に送る。解析切り換え部121は、S132において、文書データに記載されている、テキストが記述されている言語の種別に関する情報を読み取り、その言語に応じた言語別解析部122、言語別関係抽出部123、言語別正規化部126を選択する。S133において、解析切り換え部121で選択された言語に応じた言語別解析部122は、文書データ中のテキストを解析する。S134において、解析切り換え部121で選択された言語に応じた言語別関係抽出部123は、テキストの解析結果をもとに、選択された言語に応じた関係を抽出する。S135では、解析切り換え部121で選択された言語に応じた言語別正規化部126は、対訳単語辞書124および対訳関係辞書125を用い、S134で抽出された関係をあらかじめ決められたある言語の関係に正規化する。そして、S136において、登録部127は、S135で正規化した関係とS131で読み込んだ文書データとを対にして記憶部5に登録する。
【0153】
この登録時の動作を、具体例を用いて説明する。ここでは、データ入力部1から入力される文書データ中のテキストは英語で記述されており、正規化後の言語を日本語とする。S131において、データ入力部1より英語で記述されたテキストを含む文書データを読み込み、解析切り換え部121および登録部127に送る。S132において、解析切り換え部121は、文書データ中のテキストが英語で記述されていることを判別し、英語用の言語別解析部122、言語別関係抽出部123、言語別正規化部126を選択する。ここでは、これらを英語解析部122E、英語関係抽出部123E、英語正規化部126Eとする。
【0154】
S133において、英語解析部122Eは、文書データ中のテキストを解析する。ここでは、解析レベルとして構文解析を行なうものとする。図22は、本発明の関係表現検索装置の第3の実施例における英語解析部の解析結果の一例の説明図である。図22では、“The ABC Ltd. will produce wine.”という文の解析結果の例である。ここでは、解析結果をツリー構造とし、属性とともに示している。
【0155】
S134において、英語関係抽出部123Eでは、図22に示したような解析結果の木構造と、英語関係表現抽出規則とを照合することによって、互いに関係を持ち得る複数の単語とその間の関係を抽出する。図23は、英語関係表現抽出規則の一例の説明図である。ここでは、関係表現として2つの単語とその間の関係を抽出する場合の例を示している。図23において、「−>」の左側、すなわち左辺は、単語のパターンである。この中で、(#1 #2 #3 #4)は、#1を親とし、その下に#2, #3, #4の3つの子がある木構造を表わす。「<」と「>」で囲まれている部分は、そのノードの属性の指定である。「cat」はカテゴリーであり、構文的な役割を示す。「form」は単語そのもの、「infl」は語形変化を示す。「pres−p」は現在分詞(ing形)、「past−p」は過去分詞を示す。右辺は、抽出される関係表現であり、第一項が関係名、第二、第三項が関係を持つ単語である。「#2.head」は名詞句の被修飾名詞を示し、「#3.main」は動詞句の主動詞(助動詞を除いたもの)を示している。規則中には示していないが、関係表現中では基本的には動詞は原形、名詞は単数形で保持される。
【0156】
図22に示す解析結果と、図23に示す英語関係表現抽出規則を照合すると、最初の規則と2番目の規則が適用され、次のような関係表現が抽出される。
(NOM “ABC Ltd.” “produce”)
(ACC “WINE” “produce”)
【0157】
英語関係抽出部123Eで抽出された関係表現は、S135において、英語正規化部126Eで言語に依存しない形に正規化される。ここで、対訳単語辞書124及びたい訳関係辞書125には、それぞれ、図19、図20に示した内容が格納されているものとする。このとき、例えば、上述の関係表現(ACC “WINE” “produce”)の場合、まず対訳単語辞書124を用いて、関係表現を構成する単語”WINE”、”produce”を、あらかじめ決められた言語の単語に翻訳する。ここでは、出力言語は日本語であるとし、日本語の単語が複数ある場合には、リストの先頭の語を出力するものとすれば、図19より、”WINE”、”produce”は、それぞれ、「ワイン」、「生産」と翻訳される。次に、対訳関係辞書25を用いて、関係名「ACC」を日本語の関係名「WO−ACCUSATIVE」に変換する。これにより、言語に依存しない関係表現(WO−ACCUSATIVE 「ワイン」 「生産」)に正規化される。このようにして正規化された関係表現は、もとのテキストを含む文書データと対応づけられて、登録部127により記憶部5に登録される。
【0158】
次に、文書データのテキストが日本語で記述されている場合の動作について説明する。解析切り換え部121は、文書データのテキストが日本語で記述されていることを判別し、日本語に対応する言語別解析部122、言語別関係抽出部123、言語別正規化部126を選択する。ここでは、これらを日本語解析部122J、日本語関係抽出部123J、日本語正規化部126Jとする。
【0159】
日本語解析部122Jでは、上述の各実施例と同様に、文書データ中のテキストを解析する。ここでは、解析レベルとして形態素解析を行なうものとする。日本語関係抽出部123Jでは、形態素解析結果と日本語関係表現抽出規則とを照合することによって、互いに関係を持ち得る複数の単語とその間の関係を抽出する。
【0160】
図24は、本発明の関係表現検索装置の第3の実施例における日本語関係表現抽出規則の一例の説明図である。この関係表現抽出規則は、図8に示した関係抽出規則と基本的に同じ規則である。ここでは英語の場合と同様に、関係表現として2つの単語とその間の関係を抽出することとする。形態素解析結果とこれらの規則を照合して、規則とマッチする(自立語1、付属語、自立語2)の並びがあれば、自立語1と自立語2の関係として、関係の欄の関係名を与える。例えば、「ABC社がワインを製造する。」という文の場合、これを形態素解析した結果と図24を照合して、次のような関係表現が抽出される。
(GA−NOMINATIVE 「ABC社」 「製造」)
(WO−ACCUSATIVE 「ワイン」 「製造」)
【0161】
日本語関係抽出部123Jで抽出された関係表現は、日本語であるため、言語に依存しない形に正規化する必要はないが、日本語正規化部126Eにおいて対訳単語辞書124を用いて類義語を正規化する。これにより、例えば、上述の関係表現(WO−ACCUSATIVE 「ワイン」 「製造」)は、関係表現(WO−ACCUSATIVE 「ワイン」 「生産」)に正規化される。このようにして正規化された関係表現は、登録部127に送られ、正規化された関係表現をデータ入力部1より送られた文書データのキーとして、文書データとともに記憶部5に登録する。以上で関係表現の登録の動作が終了する。
【0162】
このように、英語で記述された“The ABC Ltd. will produce wine.”という文、および、日本語で記述された「ABC社がワインを製造する。」という文から、同一の言語に依存しない関係表現(WO−ACCUSATIVE 「ワイン」 「生産」)がキーとして生成されて登録される。このようにして、言語に依存しない関係表現をキーとして登録することができる。
【0163】
次に、検索時の動作について説明する。図25は、本発明の関係表現検索装置の第3の実施例における関係表現の検索時の動作の一例を示すフローチャートである。検索のためのキーとしての関係表現の検索時には、検索要求入力部6、表現抽出部2、言語別関係抽出部123、言語別正規化部126、関係展開部7、検索部128、確信度評価部20、および、記憶部5が動作する。ここでは、検索要求をある言語を用いた自然語で入力するものとする。
【0164】
S141において、ユーザは、検索要求入力部6より、検索要求を自然語で入力する。検索要求入力部5で入力された検索要求は、表現抽出部2に送られる。表現抽出部2では、文書データからの関係表現の抽出時と同様に、S142において、解析切り換え部121で検索要求の記述されている言語の種別を判別し、S143において、検索要求の記述されている言語に応じて言語別解析部122で解析を行ない、S144において、言語別関係抽出部123で互いに関係を持ち得る複数の単語とその間の関係を抽出し、S145において、言語別正規化部126で言語に依存しない表現に正規化する。
【0165】
言語別正規化部126より得られた関係表現は、関係展開部7に送られる。S146において、関係展開部7では、言語別正規化部126より得られた関係表現を、概念的に同一になり得る関係表現に展開する。この展開には、関係表現展開規則を用いる。展開された関係表現は、検索部128に送られる。S147において、検索部128は、展開された関係表現と、記憶部5に登録されている文書データのキーである関係表現を比較して、一致する文書データをキーとともに検索結果として確信度評価部20に送出する。
【0166】
S148において、確信度評価部20は、言語別正規化部126より得られた関係表現と、検索時にマッチした関係表現を比較し、確信度を評価する。確信度の評価は、例えば、関係評価規則を用いて行なうことができる。確信度評価部20は、S149において、各検索結果の確信度評価値に基づいて、例えば、大きい順に検索結果を並べ替える。確信度評価部20で並べ替えられた検索結果は、S150において、出力部8の例えばCRTディスプレイ19に並べ替えられた順に表示される。
【0167】
上述の検索時の動作を、具体例をもとに説明する。例えば、検索要求として“To produce wine”という表現が入力された場合を考える。解析切り換え部121は、この検索要求が英語で記述されていることを判別し、言語別解析部122、言語別関係抽出部123、言語別正規化部126を英語用に切り換える。登録時と同様に、英語解析部122E、英語関係抽出部123E、英語正規化部126Eによって、(WO−ACCUSATIVE 「ワイン」「生産」)という関係表現が抽出される。
【0168】
英語正規化部126Eにより得られた関係表現は、関係展開部7に送られる。関係展開部7では、言語別正規化部126より得られた関係表現を、関係表現展開規則を用いて概念的に同一になり得る関係表現に展開する。図26は、本発明の関係表現検索装置の第3の実施例における関係表現展開規則の一例の説明図である。この関係表現展開規則は、基本的には上述の図11に示した関係展開規則と同様の規則である。この図26に示した関係表現展開規則により、検索要求から抽出され、正規化された上述の関係表現は、次のように展開される。
(WO−ACCUSATIVE 「ワイン」 「生産」)
(HA−THEME 「ワイン」 「生産」)
(MO−ADDITION 「ワイン」 「生産」)
(CASE−UNSPEC 「ワイン」 「生産」)
(UNSPEC 「ワイン」 「生産」)
【0169】
検索部128は、関係展開部7で展開された関係表現と、記憶部5に登録されている文書データにキーとして付与されている関係表現とを比較して、一致するキーを有する文書データをキーとともに検索結果として確信度評価部20に送出する。ここでは、上述の登録時の動作の一例で用いた英語で記述された文書データおよび日本語で記述された文書データが記憶部5に登録されているものとすれば、これらの文書データが検索される。そして、これらの文書にキーとして付与されている関係表現(WO−ACCUSATIVE 「ワイン」 「生産」)とともに、これらの文書が確信度評価部20に送られる。
【0170】
確信度評価部20は、英語正規化部126Eより得られた関係表現と、検索時にマッチした関係表現を比較し、確信度を評価する。図27は、本発明の関係表現検索装置の第3の実施例における関係評価規則の一例の説明図である。図27に示した関係評価規則は、上述の図16に示した関係評価規則と基本的に同じである。ここでは、検索された2つの文書は、ともに関係表現(WO−ACCUSATIVE 「ワイン」 「生産」)を有しているので、図27の5つ目の関係評価規則とマッチし、確信度評価値として100が得られる。確信度評価部20は、そのほかの検索結果とともに、確信度評価値に基づいて、例えば、大きい順に検索結果を並べ替え、CRTディスプレイ19に並べ替えられた順に表示する。このとき、第2の実施例と同様に、確信度評価値も表示するように構成することができる。なお、確信度の評価は、第2の実施例で説明したような種々の方法を用いることができる。
【0171】
このようにして、検索要求として日本語に限らず、英語やその他の言語を用いて検索を行なうことができる。また、上述のように、英語による検索要求であっても、英語だけでなく、日本語やその他の言語を用いてテキストが記述されている同様の内容を有する文書データを検索することができる。このように、検索要求および文書データのテキストの記述言語によらず、検索を行なうことができる。
【0172】
この第3の実施例では、言語に依存しない正規化された関係表現として、日本語の関係表現を用い、日本語の関係表現へ他の言語の関係表現を統一する場合を示したが、これに限らず、他の言語の関係表現に統一したり、あるいは、新たな関係表現を定義し、その関係表現に統一するように構成してもよい。
【0173】
また、検索の際に、検索要求で用いた言語と同じ言語によりテキストが記述されている文書データのみに制限したり、あるいは、指定されたいくつかの言語によりテキストが記述されている文書データのみを検索するように構成することも可能である。
【0174】
上述の第3の実施例では、確信度評価部20を有する構成を示したが、上述の第1の実施例のように、確信度評価部20を用いずに構成することも可能である。検索要求を行なう言語としてある1つの言語に決まっている場合には、検索時の構成及び動作は上述の第1及び第2の実施例と同様の構成及び動作となるが、記憶部5に言語に依存しない正規化された関係表現をキーとして登録しておくことによって、文書データ中のテキストの記述言語によらない文書データの検索を行なうことができる。また、データ入力部1、解析切り換え部121、言語別解析部122、言語別関係抽出部123、対訳単語辞書124、対訳関係辞書125、言語別正規化部126、記憶部5により、図1に示した関係表現抽出装置を多言語に拡張した装置を得ることができる。
【図面の簡単な説明】
【0175】
【発明の効果】
以上の説明から明らかなように、本発明の関係表現抽出装置によれば、単なる一単語ではなく複数の表現とその間の関係をキーとして抽出することが可能となる。これにより、表層表現に依存しない概念,主題が抽出されることとなり、より適切なキーワードを抽出することができる。
【0176】
また、本発明の関係表現検索装置によれば、単なる一単語ではなく複数の表現とその間の関係をキーとして検索することが可能となる。これにより、表層表現に依存しない概念,主題からの、効率的な検索を実現することができる。
【0177】
さらに、検索要求に対する結果の確信度に基づいて結果を表示することにより、ユーザは、より効率良く、所望の検索結果を得ることができる。
【0178】
さらに、検索要求を行なう言語、および、文書データのテキストの記述言語によらず、所望の内容を含む文書データを検索することができるという効果がある。
【図面の簡単な説明】
【図1】本発明の関係表現抽出装置の一実施例を示すブロック図である。
【図2】本発明の関係表現抽出装置の一実施例における全体の動作の一例を示すフローチャートである。
【図3】本発明の関係表現抽出装置の一実施例における単語群抽出部15の動作の一例を示すフローチャートである。
【図4】本発明の関係表現抽出装置の一実施例における単語群抽出部15の動作の別の例を示すフローチャートである。
【図5】本発明の関係表現抽出装置の一実施例における関係抽出部3の動作の一例を示すフローチャートである。
【図6】本発明の関係表現抽出装置の一実施例における正規化部4の動作の一例を示すフローチャートである。
【図7】単語群抽出規則の一例の説明図である。
【図8】関係抽出規則の一例の説明図である。
【図9】本発明の関係表現検索装置の第1の実施例を示すブロック図である。
【図10】本発明の関係表現検索装置の第1の実施例における検索処理の一例を示すフローチャートである。
【図11】本発明の関係表現検索装置の第1の実施例における関係展開規則の一例の説明図である。
【図12】本発明の関係表現検索装置の第1の実施例におけるGUIを用いた検索要求の入力画面の一例の説明図である。
【図13】本発明の関係表現検索装置の第2の実施例を示すブロック図である。
【図14】本発明の関係表現検索装置の第2の実施例における検索処理の一例を示すフローチャートである。
【図15】本発明の関係表現検索装置の第2の実施例における関係展開規則の一例の説明図である。
【図16】本発明の関係表現検索装置の第2の実施例における関係評価規則の一例の説明図である。
【図17】本発明の関係表現検索装置の第2の実施例におけるGUIを用いた検索要求の入力画面の一例の説明図である。
【図18】本発明の関係表現検索装置の第3の実施例を示すブロック図である。
【図19】対訳単語辞書のデータの一例の説明図である。
【図20】対訳関係辞書のデータの一例の説明図である。
【図21】本発明の関係表現検索装置の第3の実施例における関係表現の登録時の動作の一例を示すフローチャートである。
【図22】本発明の関係表現検索装置の第3の実施例における英語解析部の解析結果の一例の説明図である。
【図23】英語関係表現抽出規則の一例の説明図である。
【図24】本発明の関係表現検索装置の第3の実施例における日本語関係表現抽出規則の一例の説明図である。
【図25】本発明の関係表現検索装置の第3の実施例における関係表現の検索時の動作の一例を示すフローチャートである。
【図26】本発明の関係表現検索装置の第3の実施例における関係表現展開規則の一例の説明図である。
【図27】本発明の関係表現検索装置の第3の実施例における関係評価規則の一例の説明図である。
【符号の説明】
1…データ入力部、2…表現抽出部、3…関係抽出部、4…正規化部、5…記憶部、6…検索要求入力部、7…関係展開部、8…出力部、11…磁気ディスク、12…OCR、13…MT、14…形態素解析部、15…単語群抽出部、16…データベース、17…キーボード、18…マウス、19…CRTディスプレイ、20…確信度評価部、121…解析切り換え部、122…言語別解析部、123…言語別関係抽出部、124…対訳単語辞書、125…対訳関係辞書、126…言語別正規化部、127…登録部、128…検索部。

Claims (12)

  1. 原データからキーワードとなりうる関係表現を抽出する関係表現抽出装置において、前記原データから互いに関係を持ち得る複数の表現を抽出する表現抽出手段と、自立語並び1、自立語並び2、付属語並びからなるパターンと、該パターンに付与すべき関係を登録した関係抽出規則を用いて前記表現抽出手段により抽出されたそれぞれの表現について一致する登録項目が前記関係抽出規則にある場合には該登録項目中の関係を取り出して該表現に関係を与える関係抽出手段を有することを特徴とする関係表現抽出装置。
  2. 前記関係抽出手段により与えられた関係に基づいて表層的な表現に依存しない表現に正規化する正規化手段をさらに有することを特徴とする請求項1に記載の関係表現抽出装置。
  3. 前記表現抽出手段は、前記原データを解析する解析手段と、該解析手段による解析結果から互いに関係を持ち得る複数の単語を取り出す単語群抽出手段を有することを特徴とする請求項1または2に記載の関係表現抽出装置。
  4. 前記関係抽出手段あるいは前記正規化手段から与えられる関係表現をあらかじめ決められた関係表現に正規化する言語正規化手段をさらに有することを特徴とする請求項1ないし3のいずれか1項に記載の関係表現抽出装置。
  5. 前記表現抽出手段は前記原データが記述されている言語に応じて前記原データを解析する言語別解析手段からなり、前記関係抽出手段は言語に応じて互いに関係を持ち得る複数の単語とその間の関係からなる関係表現を抽出する言語別関係抽出手段からなり、複数の言語における等価な意味の単語が登録された対訳単語辞書と、複数の言語における等価な言語的関係を表わす情報が登録された対訳関係辞書と、前記対訳単語辞書と前記対訳関係辞書を用い言語に応じて前記関係抽出手段によって抽出された関係表現をあらかじめ決められた関係表現に正規化する言語正規化手段をさらに有することを特徴とする請求項1ないし3のいずれか1項に記載の関係表現抽出装置。
  6. 入力データから互いに関係を持ち得る複数の表現を取り出す表現抽出手段と、自立語並び1、自立語並び2、付属語並びからなるパターンと、該パターンに付与すべき関係を登録した関係抽出規則を用いて前記表現抽出手段により取り出されたそれぞれの表現について一致する登録項目が前記関係抽出規則にある場合には該登録項目中の関係を抽出する関係抽出手段と、該関係抽出手段により抽出した関係に基づいて表層的な表現に依存しない表現に正規化する正規化手段と、原データを入力データとして前記単語群抽出手段、前記関係抽出手段、前記正規化手段により互いに関係を持ち得る複数の表現として抽出し正規化した関係表現がキーとして原データとともに登録されている記憶手段と、自然語を入力データとし前記単語群抽出手段、前記関係抽出手段、前記正規化手段により互いに関係を持ち得る複数の表現として抽出し正規化した検索要求を概念的に同一になり得る関係表現に展開して前記記憶手段に登録されている原データを検索する検索手段を有することを特徴とする関係表現検索装置。
  7. 前記記憶手段には、原データから互いに関係を持ち得る複数の表現として抽出され、あらかじめ決められた関係に正規化された関係表現がキーとして原データとともに登録されていることを特徴とする請求項6に記載の関係表現検索装置。
  8. 入力データが記述されている言語に応じて前記入力データから互いに関係を持ち得る複数の表現を取り出す表現抽出手段と、自立語並び1、自立語並び2、付属語並びからなるパターンと、該パターンに付与すべき関係を登録した言語別の関係抽出規則を用いて前記表現抽出手段により取り出されたそれぞれの表現について一致する登録項目が前記関係抽出規則にある場合には該表現に対応する関係を言語に応じて抽出する関係抽出手段と、複数の言語における等価な意味の単語が登録された対訳単語辞書と、複数の言語における等価な言語的関係を表わす情報が登録された対訳関係辞書と、前記対訳単語辞書と前記対訳関係辞書を用い前記関係抽出手段によって言語に応じて抽出された関係表現を言語に依存しない表現に正規化する言語正規化手段と、原データを入力データとして前記表現抽出手段、前記関係抽出手段、前記言語正規化手段によりあらかじめ決められた関係に正規化した関係表現がキーとして原データとともに登録されている記憶手段と、自然語を入力データとし前記単語群抽出手段、前記関係抽出手段、前記正規化手段により言語に依存しない表現として正規化した検索要求を用いて前記記憶手段に登録されている原データを検索する検索手段を有することを特徴とする関係表現検索装置。
  9. 前記検索手段は、入力された検索要求に基づく関係表現と前記記憶手段に記憶されている関係表現を比較して確信度を評価し該確信度に基づいて検索結果を並べ替える確信度評価手段を有することを特徴とする請求項7または請求項8に記載の関係表現検索装置。
  10. 原データからキーワードとなりうる関係表現を抽出する関係表現抽出方法において、前記原データから互いに関係を持ち得る複数の表現を表現抽出手段で抽出し、自立語並び1、自立語並び2、付属語並びからなるパターンと、該パターンに付与すべき関係を登録した関係抽出規則を用いて、前記表現抽出手段により抽出されたそれぞれの表現について一致する登録項目が前記関係抽出規則にある場合には、該登録項目中の関係を取り出して該表現に関係を関係抽出手段で与えることを特徴とする関係表現抽出方法。
  11. 原データを入力データとして該入力データから互いに関係を持ち得る複数の表現を表現抽出手段で取り出し、自立語並び1、自立語並び2、付属語並びからなるパターンと、該パターンに付与すべき関係を登録した関係抽出規則を用いて、前記表現抽出手段により取り出されたそれぞれの表現について一致する登録項目が前記関係抽出規則にある場合には、該登録項目中の関係を関係抽出手段で抽出し、該関係抽出手段により抽出した関係に基づいて表層的な表現に依存しない表現に正規化手段で正規化し、正規化した関係表現をキーとして原データとともに記憶手段に登録しておき、自然語を入力データとして前記単語群抽出手段、前記関係抽出手段、前記正規化手段により前記関係抽出規則を用いて互いに関係を持ち得る複数の表現として抽出して正規化し、得られた検索要求を概念的に同一になり得る関係表現に展開して、前記記憶手段に登録されている原データを検索手段で検索することを特徴とする関係表現検索方法。
  12. 原データを入力データとして該入力データが記述されている言語に応じて前記入力データから互いに関係を持ち得る複数の表現を表現抽出手段で取り出し、自立語並び1、自立語並び2、付属語並びからなるパターンと、該パターンに付与すべき関係を登録した言語別の関係抽出規則を用いて、前記表現抽出手段により取り出されたそれぞれの表現について一致する登録項目が前記関係抽出規則にある場合には、該登録項目中の関係を言語に応じて関係抽出手段で抽出し、複数の言語における等価な意味の単語が登録された対訳単語辞書と、複数の言語における等価な言語的関係を表わす情報が登録された対訳関係辞書を用い、言語に応じて抽出された関係表現を言語に依存しない表現に言語正規化手段で正規化し、正規化した関係表現をキーとして原データとともに記憶手段に登録しておき、自然語を入力データとして前記単語群抽出手段、前記関係抽出手段、前記正規化手段により言語に依存しない表現として正規化した検索要求を用いて前記記憶手段に登録されている原データを検索手段により検索することを特徴とする関係表現検索方法。
JP00965695A 1994-05-25 1995-01-25 関係表現抽出装置および関係表現検索装置、関係表現抽出方法、関係表現検索方法 Expired - Fee Related JP3617096B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP00965695A JP3617096B2 (ja) 1994-05-25 1995-01-25 関係表現抽出装置および関係表現検索装置、関係表現抽出方法、関係表現検索方法

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
JP11160294 1994-05-25
JP6-111602 1994-09-07
JP6-213392 1994-09-07
JP21339294 1994-09-07
JP00965695A JP3617096B2 (ja) 1994-05-25 1995-01-25 関係表現抽出装置および関係表現検索装置、関係表現抽出方法、関係表現検索方法

Publications (2)

Publication Number Publication Date
JPH08129554A JPH08129554A (ja) 1996-05-21
JP3617096B2 true JP3617096B2 (ja) 2005-02-02

Family

ID=27278579

Family Applications (1)

Application Number Title Priority Date Filing Date
JP00965695A Expired - Fee Related JP3617096B2 (ja) 1994-05-25 1995-01-25 関係表現抽出装置および関係表現検索装置、関係表現抽出方法、関係表現検索方法

Country Status (1)

Country Link
JP (1) JP3617096B2 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1011462A (ja) * 1996-06-26 1998-01-16 Fuji Xerox Co Ltd 類似関係展開辞書、類似度評価装置、検索装置
JP3817943B2 (ja) * 1998-01-27 2006-09-06 富士ゼロックス株式会社 文書要約装置、および記録媒体
GB2338089A (en) * 1998-06-02 1999-12-08 Sharp Kk Indexing method
JP3915267B2 (ja) 1998-09-07 2007-05-16 富士ゼロックス株式会社 文書検索装置および文書検索方法
JP5378109B2 (ja) * 2009-08-26 2013-12-25 株式会社エヌ・ティ・ティ・ドコモ タスクモデル生成装置およびタスクモデル生成方法
CN102479191B (zh) 2010-11-22 2014-03-26 阿里巴巴集团控股有限公司 提供多粒度分词结果的方法及其装置
CN103425691B (zh) 2012-05-22 2016-12-14 阿里巴巴集团控股有限公司 一种搜索方法和系统
JP5882241B2 (ja) * 2013-01-08 2016-03-09 日本電信電話株式会社 質問応答用検索キーワード生成方法、装置、及びプログラム
TWI660341B (zh) * 2018-04-02 2019-05-21 和碩聯合科技股份有限公司 一種搜尋方法以及一種應用該方法的電子裝置
JP7100542B2 (ja) * 2018-08-30 2022-07-13 株式会社日立製作所 検索支援装置および検索支援方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6074081A (ja) * 1983-09-30 1985-04-26 Fujitsu Ltd 自然言語文章生成装置
JPS6421624A (en) * 1987-07-17 1989-01-25 Nippon Telegraph & Telephone Japanese document retrieval system
JP2529418B2 (ja) * 1989-11-06 1996-08-28 松下電器産業株式会社 文書検索装置
JPH04139580A (ja) * 1990-09-29 1992-05-13 Fujitsu Ltd 見出し語探索システム
JP2502863B2 (ja) * 1991-12-12 1996-05-29 松下電器産業株式会社 電子用例辞書
JP3281639B2 (ja) * 1992-05-26 2002-05-13 三洋電機株式会社 文書検索システム

Also Published As

Publication number Publication date
JPH08129554A (ja) 1996-05-21

Similar Documents

Publication Publication Date Title
US6269189B1 (en) Finding selected character strings in text and providing information relating to the selected character strings
JP4306894B2 (ja) 自然言語処理装置及びその方法、及び自然言語認識装置
KR100666064B1 (ko) 인터랙티브 검색 쿼리 개선 시스템 및 방법
JP3429184B2 (ja) テキスト構造解析装置および抄録装置、並びにプログラム記録媒体
US6983240B2 (en) Method and apparatus for generating normalized representations of strings
US6859800B1 (en) System for fulfilling an information need
US6101492A (en) Methods and apparatus for information indexing and retrieval as well as query expansion using morpho-syntactic analysis
JP3027052B2 (ja) 文書検索システム
US7647303B2 (en) Document processing apparatus for searching documents, control method therefor, program for implementing the method, and storage medium storing the program
US8024175B2 (en) Computer program, apparatus, and method for searching translation memory and displaying search result
US20020123994A1 (en) System for fulfilling an information need using extended matching techniques
JP2012248210A (ja) 日本語などの複雑言語のコンテンツを検索するシステム及び方法
JPH11110416A (ja) データベースからドキュメントを検索するための方法および装置
JPH0447364A (ja) 自然言語解析装置及び方法並びに自然言語解析用知識ベース構築方法
KR20120001053A (ko) 문서 감성 분석 시스템 및 그 방법
JP4768882B2 (ja) 情報検索装置、情報検索方法、情報検索プログラム、および、情報検索プログラムを記録した記録媒体
JP3617096B2 (ja) 関係表現抽出装置および関係表現検索装置、関係表現抽出方法、関係表現検索方法
JP2007047974A (ja) 情報抽出装置および情報抽出方法
JP2000276487A (ja) 事例蓄積・検索装置、並びに事例蓄積方法および事例検索方法、並びに事例蓄積プログラムを記録したコンピュータで読取可能な記録媒体および事例検索プログラムを記録したコンピュータで読取可能な記録媒体
JP3612769B2 (ja) 情報検索装置および情報検索方法
Xiao et al. Information extraction from the web: System and techniques
JP2000020537A (ja) テキスト検索装置及びテキスト検索プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2004355550A (ja) 自然文検索装置、その方法及びプログラム
KR100659370B1 (ko) 시소러스 매칭에 의한 문서 db 형성 방법 및 정보검색방법
KR100376931B1 (ko) 정보 검색 기술을 이용한 한영번역 데이터베이스 시스템 구축 방법

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040309

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040507

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20040507

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040629

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040827

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040830

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20040902

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20041019

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20041101

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071119

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081119

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091119

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101119

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111119

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111119

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121119

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121119

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131119

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees