JP3780556B2 - 自然言語事例検索装置及び自然言語事例検索方法 - Google Patents
自然言語事例検索装置及び自然言語事例検索方法 Download PDFInfo
- Publication number
- JP3780556B2 JP3780556B2 JP04757396A JP4757396A JP3780556B2 JP 3780556 B2 JP3780556 B2 JP 3780556B2 JP 04757396 A JP04757396 A JP 04757396A JP 4757396 A JP4757396 A JP 4757396A JP 3780556 B2 JP3780556 B2 JP 3780556B2
- Authority
- JP
- Japan
- Prior art keywords
- case
- input
- expression
- language
- narrowing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【発明の属する技術分野】
本発明は、過去の課題と対策を自然言語形式の事例として登録・蓄積しておき、それを検索・参照および推論処理して、新規課題の処理や、設計支援等に用いられる自然言語事例検索装置及び自然言語事例検索方法に関するものである。
【0002】
ここで、「自然言語」の「事例」(以下、自然言語事例)とは、処理の対象として蓄積されるデータの検索のキーとなる部分に日本語や英語等の人間が日常使用する言葉の表現(文章)である自然言語を含むものをいう。もちろん、検索のキーに関連づけられた情報も自然言語から構成されていても良い。自然言語事例は、通常の言語表現という人間にとって極めて自然な記述形式を用いるので、入力が容易であり、また文字コードの並びという蓄積効率の高いデータであり、データの再利用も簡単に行なうことができる。
【0003】
【従来の技術】
図28は、例えば文献(黒川高光:”CBR機能を組み込んだ「ART−IM」とドメイン・シェル「CBR Express」,日経AI別冊1991春号, pp.130−139,日経BP(1991年))や文献(中條将典:「ヘルプデスク専用ソフト増える/過去の事例を文章で素早く検索」,日経コンピュータ,pp.103−105,1995年9月5日号)に示された従来の自然言語事例検索装置の構成である。ただし、比較しやすくするために,名称等をここでの表現に統一している。
【0004】
図において、1は問合せの入力手段であり、検索したい内容を言語表現として入力する。4は用語抽出手段であり、用語の抽出や同義語展開を行なう。3は用語抽出を行なうための用語データを管理する用語辞書管理手段、5は自然言語の事例データとその検索のための索引等を管理する事例ベース管理手段、6は入力と類似する事例を取り出すための事例候補検索手段であり、入力に対して類似した事例を検索して取り出す。8は選択した事例に関連付けられた事例を取り出す関連情報推論手段、9は一連の解析内容を表示するための解析内容表示手段である。
【0005】
次に従来の技術の例における動作について説明する。図28において、例えば、入力手段1での入力「印刷できない」に対して、用語抽出手段4は、用語辞書管理手段3の用語データを参照して、「印刷で」、「刷でき」、「できな」、... といった3文字単位の文字列を取り出す。次に事例候補検索手段6でこれら3文字単位の文字列を索引として、事例ベース管理手段5による事例の索引中にこれらの文字列をもっとも多く含むものを事例の候補として取り出す。
【0006】
次に、得られた候補の中から利用者が選択した事例に対して、関連情報推論手段8においてその事例に関係付けられているYes/Noの質問に答えることによって、関連情報を取り出す。これらの過程において必要な情報は解析内容表示手段9において随時表示される。
【0007】
図29は、前記文献(黒川高光:”CBR機能を組み込んだ「ART−IM」とドメイン・シェル「CBR Express」,日経AI別冊1991春号,pp.130−139,日経BP(1991年))に示された、各事例に付随するべき質問を登録し、質問に対して期待する回答のタイプを指定するウィンドウ画面の例である。図において、2901は、質問の言語表現を示す欄、2902は付随する関連情報を示す欄、2903はテキストによる検索を指定する欄、2904は数値による検索を指定する欄である。
【0008】
この従来の装置では、テキストによる検索の指定2903と数値による検索の指定2904を別個に指定して扱わなければならないため、テキスト中に含まれている数値そのものを取り出して、その情報を別の箇所で利用するという機能は備えていない。また、数値以外の記号列に対して特別な処理を行なうことはできないため、入力文の照合には必要ない記号列部分に対しても前記3文字単位の索引が無駄に生成されてしまう。
【0009】
また、図30は特開平7−200583における従来の数量/時間表現処理方式の例である。この従来技術は、自然言語文を解析して意味構造を出力する構文/意味解析手段3001と、この構文/意味解析手段3001からの意味構造に基づいて文脈を利用した入力文の意味処理を行なう文脈処理手段3002と、文脈処理手段3002の結果を意味履歴として保持する文脈情報保持手段3003と、入力文中の数量/時間表現を対象として基準や範囲に関する情報を抽出する数量/時間表現解析手段3004と、上記文脈情報保持手段3003による解析結果と文脈情報とを利用して入力文の数量/時間に関する情報を補完する数量/時間情報文脈補完手段3005と、意味補完内容を一定の基準で評価して誤りの可能性ありと判断した内容について利用者への確認問い合わせを行なう補完内容確認手段3006とを有している。
【0010】
次に、この従来技術の動作を説明する。まず、自然言語で記述した文を構文・意味解析手段3001で解析して意味構造を出力し、更に文脈処理手段3002で意味構造に基づいて文脈を利用した入力文の意味処理を行ない、文脈情報保持手段3003に文脈処理の結果を意味履歴として保持しておく。
【0011】
一方、数量/時間表現解析手段3004では、入力文中の数量/時間表現を対象として基準や範囲に関する、例えば、「1993年」や「翌年」といった情報を抽出する。このとき、数量/時間情報文脈内容補完手段3005によって、文脈情報保持手段3003に保持された文脈情報を利用して、数量/時間表現解析手段3004によって抽出された入力文中の数量/時間表現を対象として、例えば「翌年」を「1994年」であるとするような補完を行なう。この補完処理は、高度な解析技術を要する文脈情報を使用するために誤る可能性があるので、補完内容確認手段3006において意味補完内容を一定の基準で評価して誤りの可能性ありと判断した内容については、利用者への確認問い合わせを行なう。
【0012】
また、図31は特開平6−195371における従来の未登録語獲得方式の例である。この従来技術は、登録されている単語を入力文字列から検索する辞書記憶手段3103と、未登録語を含む入力文から未登録語を抽出する未登録語抽出手段3101と、共起事例データを格納する共起事例データ記憶手段3102と、単語と単語の間の関係を抽出する解析手段3104と、解析手段3104により抽出された単語と単語の関係をキーにして共起事例データ記憶手段3102を検索して得られた共起単語の中から辞書記憶手段3103に含まれる単語だけを残して同義語候補にする同義語候補抽出手段3105と、同義語候補を利用者に提示し選択する同義語選択手段3106と、選択された同義語を辞書記憶手段3103に登録する辞書登録手段3107と、一般的な語彙に対して十分な同義語を保持している同義語データ記憶手段3108とを有しており、辞書内の未登録語に対して共起事例データあるいは同義語データを用いて、未登録語を登録するものである。
【0013】
次に、この従来技術の動作を説明する。まず、入力した自然言語の文から、辞書記憶手段3103によって記憶している辞書情報を用いて未登録語抽出手段3101によって未登録語を抽出する。解析手段3104は、未登録語の有無にかかわらず、入力文を解析して概念構造を作成する。同義語候補抽出手段3105は、概念構造から意味要素間の関係である格関係(動詞と名詞の間の関係など)の組みに分割する。
【0014】
格関係の組みが未登録語を含んでいる場合、意味要素と格関係をキーとして、共起事例データ記憶手段3102を検索して、マッチングするもの、あるいは未登録語の表層の一部がマッチングする共起事例データが存在すれば第一次同義語候補にする。同時に、同義語候補抽出手段3105は、入力文に含まれていた未登録語をキーとして、同義語データ記憶手段3108を検索し、未登録語の全体や一部が同義語データのエントリとして存在すれば、第二次同義語候補にする。
【0015】
このとき、同義語データ記憶手段3108は、辞書記憶手段3103に関係なく、一般的な語彙に対して十分な同義語を保持しているものとする。同義語選択手段3106は、第一次同義語候補と第二次同義語候補をユーザに提示し、ユーザによって選択された結果を、入力文中の未登録語の辞書情報として、辞書登録手段3107により辞書記憶手段3103に登録する。
【0016】
【発明が解決しようとする課題】
上記従来の自然言語事例検索装置は以上のように構成されており、自然言語データである事例文および入力文の照合を検索目的のみに用いるので、文の中に含まれる記号表現や数量表現の記号列を有効に利用できないばかりか、文中にこれらの表現が含まれると、同様な事例も別個の事例として扱われるため、これらの記号列に対して事例や索引などが無駄に生成されるという問題もあった。特に、技術文章等に対して事例検索を行なう場合には、記号・数量表現や論理構造を持つ言語データが重要な役割を持つためこれらは大きな問題であった。
【0017】
また、文単位に入力と事例との照合を行なうのみであったので、箇条書き等の論理構造を持つ言語データを扱うことができなかった。
【0018】
さらに、構文/意味解析手段の処理の後で数量/時間表現の抽出を行ない、文脈処理の結果で情報を補完するような処理を行なっていたが、文脈処理が必ずしも正確に行われるとは限らないため、利用者への確認問い合わせが必要であり、自動的な処理では利用しにくいという問題があった。
【0019】
さらにまた、共起事例データや同義語データを用いて未登録語の辞書への登録の効率を向上させていたが、同義語データが一般的な語彙に対して十分な同義語を保持していることを前提にしていたため、予めこのような同義語データを備えておくことが困難であり、さらに、単語ではなく文以上の単位をもつ言語データの登録にはこの方法を用いることができないという問題があった。
【0020】
本発明は上記のような問題を解消するためになされたもので、記号列表現を抽出する手段を設けることにより、入力文や事例中に含まれる記号や数量などに関して無駄な索引を生成することがなく、それらの表現を抽出して事例検索の結果に関連する情報を推論する際、有効に活用する事を目的とする。
【0021】
また、本発明は、論理構造を持つ言語データを容易に入力する手段と、構造データを段階的に類似照合して適切な事例を絞り込むことができるようにすることにより、複雑な自然言語事例をも取り扱うことができる検索方式を得ることを目的とする。
【0022】
さらに、本発明は、事例候補検索手段や事例絞り込み手段で入力に対する所望の事例が得られないとき、単語より大きな単位である文や文章であっても、新たな言語表現の事例として登録したり、その表現を次に検索する際に必要な用語の登録を容易にすることを目的とする。
【0023】
またさらに、本発明は、入力の言語表現中に図面参照等の参照表現が含まれていた場合に、外部のデータベースの参照を容易にすることを目的とする。
【0024】
【課題を解決するための手段】
この発明に関わる請求項1に記載の自然言語事例検索装置は、言語表現を入力する入力手段と、この入力手段により入力された言語表現中に含まれる記号表現や数量表現等の記号列を抽出する記号列抽出手段と、上記入力手段により入力された言語表現からの用語抽出に必要な辞書データを検索・管理する用語辞書管理手段と、上記記号列抽出手段から記号列と言語表現を受け取り、受け取った言語表現からこの用語辞書管理手段を用いて事例検索のキーとなる用語を抽出する用語抽出手段と、予め蓄積された言語表現とその関連情報との対からなる事例データを検索・管理する事例ベース管理手段と、上記用語抽出手段により抽出された用語をキーとしてこの事例ベース管理手段によって管理された事例ベースから処理対象となる事例の候補を取り出す事例候補検索手段と、この事例候補検索手段により取り出された事例候補の中から入力された言語表現に類似した事例を絞りこむための事例絞り込み手段と、この事例絞り込み手段により絞り込まれた事例のなかから入力された言語表現の内容に応じて関連する情報を推論する関連情報推論手段と、少なくとも事例候補検索手段または上記事例絞り込み手段によって取り出された事例とこの関連情報推論手段の推論結果を表示する解析内容表示手段とを備えたものである。
【0025】
請求項2に記載の自然言語事例検索装置は、箇条書き等の論理構造を持つ言語表現の入力を補助する構造入力補助手段と、論理構造を持つ事例に対して事例候補の絞り込みが可能である構造化事例絞り込み補助手段を備えたものである。
【0026】
請求項3に記載の自然言語事例検索装置は、事例候補検索手段や事例絞り込み手段で入力に対する所望の事例が得られないとき、新たな事例や用語の登録を容易にするために新規事例登録手段を備えたものである。
【0027】
請求項4に記載の自然言語事例検索装置は、入力の言語表現中に含まれる図面参照等の参照表現から、外部のデータベースの参照を容易にする付加情報参照手段を備えたものである。
【0028】
この発明に係わる請求項5に記載の自然言語事例検索方法は、言語表現を入力手段から入力する入力ステップと、このステップで入力された言語表現中に含まれる記号表現や数量表現等の記号列を抽出する記号列抽出ステップと、この記号列抽出ステップで処理後の言語表現を受け取り、入力された言語表現からの用語抽出に必要な事例検索のキーとなる用語を収録した用語辞書を用いて受け取った言語表現から事例検索のキーとなる用語を抽出する用語抽出ステップと、この用語抽出ステップにより抽出された用語をキーとして予め蓄積された言語表現とその関連情報との対からなる事例データから処理対象となる事例の候補を取り出す事例候補検索ステップと、この事例候補検索ステップにより取り出された事例候補の中から入力された言語表現に類似した事例を絞りこむための事例絞り込みステップと、この事例絞り込みステップにより絞り込まれた事例のなかから入力された言語表現の内容に応じて関連する情報を推論する関連情報推論ステップと、少なくとも事例候補検索ステップまたは上記事例絞り込みステップによって取り出された事例とこの関連情報推論ステップの推論結果を表示する解析内容表示ステップとを備えたものである。
【0029】
請求項6に記載の自然言語事例検索方法は、上記入力ステップは、箇条書き等の論理構造を持つ言語表現の入力を補助する構造入力補助ステップを備え、上記事例絞り込みステップは、上記論理構造を持つ事例に対して事例候補の絞り込みをする構造化事例絞り込み補助ステップを備えたものである。
【0030】
請求項7に記載の自然言語事例検索方法は、上記事例候補検索ステップまたは上記事例絞り込みステップで入力の言語表現に対する所望の事例が得られないとき、入力された言語表現と関連情報の対を新たな事例として新規に登録する登録ステップを備えたものである。
【0031】
請求項8に記載の自然言語事例検索方法は、入力文中に含まれる参照表現によって外部のデータベースに含まれる情報を参照する機能を有する付加情報参照ステップを上記解析内容表示ステップの前または後に備えたものである。
【0032】
【発明の実施の形態】
実施の形態1.
以下、この発明の実施の形態1を図について説明する。図1は本発明の自然言語事例検索装置の実施の形態1の構成図であり、図において、1はキーボード等の入力装置または他のプログラムからデータを受け取ることによる入力手段、2は入力手段1で入力したデータの入力言語表現から記号表現や数量表現等の記号列を抽出するための記号列抽出手段、3はこの装置による検索方式で用いる用語辞書データを索引等によって検索したり、新たな用語辞書データを格納したりするための用語辞書管理手段であり、公知の方法で実現するものとする。4はこの用語辞書管理手段3を利用して言語表現から用語を抽出するための用語抽出手段であり、公知の方法で実現するものとする。5は言語表現とそれに関連付けた情報を管理するための事例ベース管理手段であり、公知の方法で実現するものとする。6は多くの事例の中から現在の入力に対して処理を適用できそうな事例の候補を、入力から抽出した索引と同じ索引を含むかどうかによって事例ベースから取り出す事例候補検索手段である。
【0033】
7はこの事例候補検索手段6で得た事例候補のなかから入力に類似したものを選びだすための事例絞り込み手段、8は検索して得た事例とその事例に関係付けられた情報から、入力に関連する情報を取り出すための関連情報推論手段、9は一連の処理内容を随時表示するための解析内容表示手段である。
【0034】
上記のように構成された自然言語事例検索装置の動作を説明する。図1の構成において、入力手段1で、検索する条件となる言語表現を受け取ると、記号列抽出手段2に入力を受け渡す。本発明の特徴の一つである記号列抽出手段2の構成は例えば図2のように構成することができる。
【0035】
図2において、入力文字列201は入力手段1から受け取った文字列、パタン定義202はこれから抽出しようとする文字列に対してあらかじめ定義したパタン、表現抽出プログラム203は、入力文字列201にパタン定義202に従うパタンが含まれているか否かを解析するプログラムであり、その結果として抽出した表現パタン204と残りの文字列205が、記号列抽出手段2の出力として、次の用語抽出手段4に渡される。この種のプログラムは、例えば文献(Wirth,N著、片山卓也訳「アルゴリズム+データ構造=プログラム」,日本コンピュータ協会発行,1979年)に示されたような方法で作成することができ、以下、図3〜図9を用いて説明する。
【0036】
図3は、図2のパタン定義202の一実現例の一般形を示すものである。図3(a)は、パタン定義の方法を示すものであり、記号「::=」の左辺の記号を右辺のパタンで定義するとみなす。左辺には非終端記号と呼ばれる、唯一つの記号を記述することができるものとする。右辺には非終端記号(各パタン定義に付ける記号の名札)または終端記号(具体的な文字に対応するパタン)とを記述するものとする。このとき、右辺の記述方法には、図3(b)、図3(c)、図3(d)に示す3通りの形式があるものとする。
【0037】
図3(b)は、記号「S」が記号「{」と記号「}」とに囲まれている場合であり、この形式は記号「S」が0回以上繰り返し出現すると解釈する。
図3(c)は、 記号「S1」、「S2」、... 、「Sn」が記号「|」に よって区切られている場合であり、この形式は記号「S1」、「S2」、... 、「Sn」 の何れかが出現する(OR)と解釈する。図3(d)は、 記号「S1」、「S2」、... 、「Sn」が連続して記述されてい る場合であり、この形式は記号「S1」、「S2」、... 、 「Sn」が順番に出現する(連接)と解釈する。
【0038】
図3のように形式的に定義されたパタンは、あらかじめ図4に示す構文グラフの形に置き換えておくものとする。構文グラフの一つのノードは図4(a)に示す形で実現することができる。なお図4において斜線が引いてある欄は、その欄が空(NULL)であることを意味する。
【0039】
図4(a)においてsym欄401は、ノードが非終端記号に対応する場合にはその文字を格納し、非終端記号に対応する場合にはその非終端記号を定義する構文グラフの部分へのポインタを格納する。alt欄402は図4(c)に示すように図3(c)に対応するORとなるパタンの構文グラフの部分へのポインタを格納する。suc欄403は図4(d)に示すように連接するパタンの構文グラフの部分へのポインタを格納するものとする。
【0040】
図4(b)は図3(b)の繰り返しを表現するパタン定義に対応する構文グラフである。繰り返すパタンの先頭の記号を含むノードのalt欄から、sym欄に記号emptyを含むノードを指すように構成する。記号emptyを含むノードのalt欄は空(NULL)であり、suc欄は繰り返すパタンの2つ目以降の記号に対応する構文グラフの部分を指すものとする。
【0041】
図5は、「(1)」、「(2)」や「3個」、「1.5V」といったパタンを定義したパタン定義の記述の例である。ここで、非終端記号は記号「<」と記号「>」とで挟んで示している。また、<数字>や<小数点>の定義は省略している。
【0042】
図6は、図5に対応する構文グラフであり、図3と図4によって説明した、パタン定義と構文グラフの対応の方法によってグラフ表現したものである。図2の表現抽出プログラム203は、図5で定義されたパタンの抽出を行なうために、図6の構文グラフに添って動作することになる。
【0043】
上記のように構成された記号列抽出手段2の動作を図6の構文グラフと図7と図8のフローチャートに沿って詳しく説明する。図7のフローチャートは記号列抽出手段2の主プログラムの流れを示すものであり、この主プログラムは局所変数pHと大域変数iSymとを使用する。局所変数pHは図6の構文グラフのノードを指すポインタを格納するための変数であり、大域変数iSymは現在注目している入力文字列中の文字を格納するための変数である。
【0044】
記号列抽出手段2の主プログラムは、最初に図7の(step1)で構文グラフのゴール(最終的に到達すべき非終端記号)となる非終端記号のノード(図6では601)を主プログラムの局所変数pHに設定し、(step2)で処理対象の入力文字列の先頭の文字を大域変数iSymに設定して、(step3)で図8に示す関数Parseを呼び出す。この時、(step3)において関数Parseの引数として局所変数pHの値を渡す。
【0045】
図8は関数Parseの処理の流れを示すフローチャートである。関数ParseはパラメータpGを持ち、大域変数iSymと局所変数pS、bMatchを用いる。関数Parseが呼び出されると、呼び出し時に与えられた引数の値を(step4)でパラメータpGに受け取る。
【0046】
ついで、(step5)で局所変数pSにパラメータpGが指す構文グラフ中の位置を設定し、(step6)で局所変数pSの指すノードの持つ記号欄が終端記号であるかどうかを判定する。(step6)において局所変数が終端記号を指す場合には、(step7)で局所変数pSの指す値が大域変数iSymの値と一致するかを判定する。(step7)において局所変数pSの指すノードのsym欄が大域変数iSymと同じ文字を持っている場合には、(step8)に進み、局所変数bMatchに値TRUEを設定し、(step9)で大域変数iSymに入力文字列中の次の文字を読み込む。
【0047】
(step7)において局所変数pSの指すノードの文字が大域変数iSymの文字と異なる場合には、(step10)で局所変数pSの指すノードのsym欄がemptyであるかを判定し、もしemptyであれば(step11)で局所変数bMatchに値TRUEを設定し、さもなければ(step12)で局所変数bMatchに値FALSEを設定する。
【0048】
(step6)において局所変数pSの指すノードが終端記号でない場合には、(step13)に進み、局所変数pSの指す非終端記号を引数として関数Parseを再帰的に呼び出す。呼び出した結果の関数Parseのリターン値は局所変数bMatchに設定する。
【0049】
(step9)、(step11)、(step12)、(step13)のそれぞれの処理が終了したら、(step14)で局所変数bMatchの値がTRUEであるかを判定する。bMatchがTRUEの時には、(step15)で局所変数pSの指すノードのsuc欄をたどり、suc欄の指すノードを局所変数pSが指すように設定する。(step14)で局所変数bMatchの値がFALSEの時は、これまでのパタンの照合が失敗しているので、局所変数pSのalt欄の指すノードを改めて局所変数pSに設定し直す。
【0050】
(step15)または(step16)で構文グラフの次のノードをたどる準備ができたら、(step17)で局所変数pSが指す処理対象のノードが空(NULL)かどうかを判定し、空でなければ(step6)に戻って構文グラフに添ったパタン抽出処理を続ける。もし、(step17)で局所変数pSが空を指していれば、(step18)で局所変数bMatchの値をリターン値として関数Parseから復帰する。
【0051】
上記のような構成によれば、記号列抽出手段2は図5に示す形式で定義された仕様に従って作成された図6に示す形の構文グラフに基づいてパタン照合・抽出処理を行なうので、図5で与えた仕様を変更することで所望のパタンを抽出することができる。図5のようなパタンの仕様定義を複数個与えて、パタン抽出処理を複数回実行してもよく、ここで述べた方法は、ある特定のパタンを持った表現を扱う場合に有効である。
【0052】
図9は、前述の方法による記号列抽出手段2の処理の具体例を示した図であり、入力文字列901「(1)箱の中の3個の1.5Vの電池を確認する。」に対して図6に対応する構文グラフをパタン定義902として表現抽出プログラム903が動作した場合、抽出パタン904として「(1)」、「3個」、「1.5V」を取り出し、残りの文字列905として「箱の中の電池を確認する。」を取り出したことを示している。
【0053】
このとき、図6に示す付加プログラム602、603、604は、抽出したパタン904の「(1)」、「3個」、「1.5V」の取り出しや、取り出した情報のバッファへの格納、あるいは、抽出した表現に後続する助詞「の」の削除などの動作を行なう。
【0054】
記号列抽出手段2の処理が終了すると、次に用語抽出手段4において記号列抽出手段2から受け取った、残りの文字列205である言語表現中に用語辞書管理手段3が保持している用語を抽出する。このとき用語の抽出方法は公知のキーワード抽出などの方法による。
【0055】
事例候補検索手段6では、用語抽出手段4によって求めた用語の組みと同じものを含む事例データを事例ベース管理手段5で管理されている事例データ中から事例の候補として取り出す。このとき、用語を含む事例データの検索は公知のテキストデータ管理の方法による。
【0056】
次に、事例絞り込み手段7では、事例候補検索手段6によって求めた事例候補の言語データと入力の言語表現との類似度を求める。このとき、類似度を求める方法としては、図10に示すように入力の文字列と事例候補の文字列とのもっとも長く一致している共通の部分文字列(最長共通部分列)を求め、文字列全体の長さにおける最長共通部分列の割合を類似度として求めるものとする。
【0057】
ここで、最長共通部分列(LCS; Longest Common Subsequence)とは、与えられた2つの文字列の両方の文字列に対する部分文字列となっているもののうち、最長の部分文字列のことであり、その長さは、以下のようにして求めることができる。いま、文字列 A = a1a2...am と文字列 B = b1b2...bn の最長共通部分列を求めることとする。まず文字列 a1a2...ai と文字列 b1b2...bj の「LCS長さ」を p(i,j)とおく。このとき、以下の漸化式が成立する。
【0058】
【数1】
【0059】
図11の流れ図に従って、最長共通部分列の長さを求める方法を具体的に説明する。いま、文字列Aの長さmを変数iMに、文字列Bの長さを変数iNに設定してあるものとする。ここで、配列p(i,j),i=0,..,iM,j=0,..,iNを「LCS長さ表」と呼ぶ。
まず、(step1101)でLCS長さ表の第1行を0クリアし、(step1102)でLCS長さ表の第1列を0クリアしておく。
【0060】
次に、(step1103)で文字バッファcAに文字列Aの先頭の文字を設定する。(step1104)でループ・カウンタ変数iに1を設定し、(step1105)でループ・カウンタ変数iが文字列Aの長さiMと等しいか小さい時には(step1106)へ処理を移す。
【0061】
(step1106)では、文字バッファcBに文字列Bの先頭の文字を設定し、(step1107)でループ・カウンタ変数jに1を設定する。(step1108)でループ・カウンタ変数jが文字列Bの長さiNと等しいか小さい時には(step1109)へ処理を移す。
【0062】
続いて、(step1109)で文字cAと文字cBとが等しいかどうかを判定し、等しい場合には(step1110)でp(i,j) に p(i-1,j-1)+1 を設定する。(step1109)で文字cAと文字cBとが等しくない場合は、(step1111)でp(i,j) にはp(i,j-1)とp(i-1,j)との大きい方の値を設定する。
【0063】
(step1110)あるいは(step1111)でLCS長さ表の現在位置の値p(i,j)の設定が終わると、(step1112)で文字バッファcBに文字列Bの次の文字を設定する。(step1113)では、ループ・カウンタ変数jを1増やし、(step1108)に戻る。
【0064】
(step1108)でループ・カウンタ変数jが文字列Bの長さiNより大きくなった時には(step1114)へ処理を移す。(step1114)で文字バッファcAに文字列Aの次の文字を設定し、(step1115)でループ・カウンタ変数iを1増やして、(step1108)に戻る。
【0065】
(step1105)でループ・カウンタ変数iが文字列Aの長さiMより大きくなった時には(step1116)へ処理を移す。(step1116)では、LCS長さ表のp(iN,iM)の位置に求まった値を文字列Aと文字列Bとの最長共通部分列の長さとして変数iLCSに設定する。こうして求めた最長共通部分列の長さをもとの文字列Aまたは文字列Bの長さで割り算して類似度として用いることとする。
【0066】
関連情報推論手段8では、事例絞り込み手段7で最も入力に類似していると判定された事例を選択事例として、その事例について関連情報を求める。図12に事例データの一構成例を示す。この事例データは設計情報を事例として事例ベース管理手段5に蓄積した場合の事例の構成例であり、各項目は事例番号1201と事例文1202と関連部品情報1203と機械処理コード1204と参照図面情報1205の欄から構成されているものとする。
【0067】
今、例えば、入力手段1に「ケース寸法(特殊寸法50mm)」という入力があったとき、前述の事例候補絞り込み手段7までの処理で、図12の事例番号0100を持つ事例が選択されると、関連情報推論手段8では、事例文中に含まれる記号「@1」に入力文中にある表現「50」が対応するものと判断し、機械処理コードとして「CODE=000050」を生成する。
【0068】
なお、上記の実施の形態では、パタン定義202に図3に示す方法を用い、これを図4に示す構文グラフに置き換えたものに対して、パタン抽出プログラム203が動作する方法を例示しているが、パタン定義方法は別の表現手段によっても良い。
【0069】
解析内容表示手段9は、上述の一連の処理において、事例の候補や推論された結果等を利用者に表示し、利用者が必要と判断した時には、処理に介入できる役割を果たす。
【0070】
図13は、この発明の実施の形態1にかかるデータの流れを請求項1を構成する各手段に関連付けて示したものである。図13において、1301は入力文の例、1302は記号列抽出手段2によって記号列が抽出された後の残りの文字列、1311は用語辞書管理手段3が管理する用語辞書、1303は記号列抽出手段2によって抽出された記号列、1304は用語抽出手段4によって抽出された用語索引である。
【0071】
1312は事例ベース管理手段6によって管理されている事例ベースであり、図12に例示したような内容を含む。1305は事例候補検出手段5によって事例ベース1312から取り出された、用語索引1304を含む事例候補、1306は事例絞り込み手段7によって入力にもっとも類似しているとして選択された事例である。
【0072】
1307は関連情報推論手段8によって解析内容表示手段9に表示すべきとされた文、1008は記号列抽出手段2によって抽出された記号列と事例に付加された情報とから関連情報推論手段8で推定された内容の例、1309は関連情報推論手段8で生成されたコード情報の例である。また、1310は解析内容表示手段9の表示の例である。
【0073】
図13では、まず、入力として文1301「本体(寸法50mm)の中に3個の1.5Vの電池を取り付けよ。」が入力手段1で入力されると、入力手段1はその文字列を記号列抽出手段2に送る。記号列抽出手段2は、図5に例示したパタンが定義してあるとき、入力文1301から記号列1303を抽出し、その抽出した記号列1303と残りの文字列1302とを用語抽出手段4に受け渡す。用語抽出手段4では、用語辞書管理手段3を通じて用語辞書1311を検索し、文字列1302「本体(寸法50mm)の中に電池を取り付けよ。」から、事例の用語索引1304となる「本体」、「電池」という文字列を取り出し、この用語索引1304と文字列1302および記号列1303を事例候補検索手段6へ受け渡す。
【0074】
次に、事例候補検索手段6では、事例ベース管理手段5を通じて事例ベース1312から、用語索引1304「本体」、「電池」を含む事例を事例候補1305として取り出し、事例絞り込み手段7へ文字列1302および記号列1303と事例候補1305を受け渡す。
【0075】
事例絞り込み手段7では、図10および図11の流れ図を用いて説明した方法によって、文字列1302に最も類似した事例1306を事例候補1305の中から選択する。図13の例では、事例番号0009を持つ事例が選択されたことを示している。事例絞り込み手段7からは、文字列1302および記号列1303と選択事例1306が関連情報推論手段8へ受け渡される。
【0076】
関連情報推論手段8では、文字列1302および記号列1303と選択事例1306に付加された情報とで、例えば記号列1303の「3個」、「1.5V」と選択事例1306の関連情報「個数[個],電圧[V]」とから、解析情報1308「個数:3個」、「電圧:1.5V」という情報を導き、事例文「本体(寸法@mm)に電池を取付けよ」とその関連情報「CODE=A0@」、関連情報「部品1」と文字列1302「本体(寸法@mm)に電池を取り付けよ」から解析情報1309「部品1 CODE=A050」や、括弧内の文字列を取り除いた文字列1307「本体に電池を取り付けよ。」を生成する。関連情報推論手段8は、ここで求めた文字列1307や解析情報1308、1309を解析内容表示手段9に受け渡す。解析内容表示手段9では、例えば1310に示すように解析情報を表示する。
【0077】
実施の形態2
図14は実施の形態2を示す構成図であり、図に実施の形態1と同様又は相当する部分については同一符合を付しその説明を省略する。
【0078】
図14において、10は箇条書き等の論理構造を持つ言語表現の入力を補助する構造入力補助手段であり、11は箇条書き等の論理構造を持つ事例に対して事例候補の絞り込みを可能にする構造化事例絞り込み補助手段である。
【0079】
上記のように構成された自然言語事例検索装置の動作を図15と図16、図17の流れ図によって説明する。実施の形態2は、図15において、入力手段1で箇条書きを入力する必要があった場合に、図14の構造入力補助手段10に対応するものとして、図15のキーボード1500にある機能キー1501や機能キー1502を使用する。
【0080】
機能キー1501や機能キー1502の押し下げによってインデント1522が入力画面上でガイド表示され、そのガイド表示に従って箇条書きのリード部分や箇条書き項目を入力していくことができる。
【0081】
図16の流れ図でキー入力があり、まず(step1601)で機能キー1501の押し下げと判断されると、(step1602)でインデントが深くなっていくものとし、さもなければ(step1603)で機能キー1502の押し下げであると判断されると、(step1604)でインデントが浅くなっていくものとする。その他のキー入力の場合には(step1605)で通常の文字の入力であるとみなして処理を行なう。
【0082】
図16の手順で入力された文字列の入力画面上に表示1521されている文字列は、対応する内部データの形式1530に変換される。ここで記号「<」と記号「>」とで囲まれたものを「タグ」と呼ぶ。図15において、タグ1531とタグ1534とは、箇条書きであることを表わし、タグ1532は箇条書きのリード部分であることを表わし、また、タグ1533は箇条書きの箇条項目であることを表わしており、残りの部分が入力内容の文字列に対応する。
【0083】
図14の事例ベース管理手段5においても、図15の内部構造1530と同様な形式で事例データが格納されているものとする。このとき、図14の構造化事例絞り込み手段11では、まず、図17の(step1701)でタグ1531「<UL>」とタグ1534「</UL>」とによって箇条書きの範囲を識別する。
【0084】
次に、(step1702)において、タグ1532「<LH>」を調べることにより、箇条書きのリード部が存在するかどうかを判定する。(step1702)で、箇条書きのリード部1511があるときには、(step1703)で、実施の形態1において図10および流れ図11に示したと同様な方法で入力と事例の箇条書きのリード部同士の類似度を求め、(step1704)の処理を行なう。
【0085】
一方、(step1702)で箇条書きのリード部が無いときには、すぐに(step1704)の処理を行なう。(step1704)では、最初の箇条項目を注目項目として設定する。
【0086】
次に(step1706)で注目箇条項目1512によって同様に実施の形態1で図10および流れ図11に示した方法で類似度を求め、(step1707)で類似度を累積(例えば加算)していく。さらに(step1708)で次の箇条項目を注目項目に設定し、(step1705)からの処理を繰り返し、後続の箇条項目の類似度を求める。(step1705)で後続の箇条項目がなくなったら、箇条書き項目を持つ一つの事例に関する類似度を求める計算が終了する。
【0087】
なお、上記の実施の形態では、タグの表現方法があたかも固定的であるかのように図15に例示したが、例えば文献(JIS規格 文書記述言語SGML JIS X 4151、1992年、日本規格協会)に示されるように文書構造として定義し直しが可能なタグであっても良い。
【0088】
上記のような構成によれば、構造入力補助手段10によって箇条書き等の構造を持つ複雑な言語表現の入力が容易になり、構造化事例絞り込み手段11によって構造を持った事例データの絞り込みが可能になるため、技術文章のように複雑な内容を持つ事例の検索を行なう場合に有効である。
【0089】
図18は、この発明の実施の形態2にかかるデータの流れを、構成する手段に関連付けて示したものである。図18において、1530は入力である構造を持つ文の例、1311は用語辞書管理手段が管理する用語辞書である。1801は用語抽出手段3によって抽出された用語索引である。
【0090】
1312は事例ベース管理手段6によって管理されている事例ベースであり、図12に例示したような内容を含む。1802は事例候補検出手段5によって事例ベース1312から取り出された、用語索引1801を含む事例候補、1803は事例絞り込み手段7によって入力にもっとも類似しているとして選択された事例である。また、1804は関連情報推論手段8によって解析内容表示手段9に表示すべきとした内容の例である。
【0091】
図18では、まず、入力として構造を持つ文1530が構造入力補助手段10で入力されると、構造入力補助手段10は入力手段1にその文字列を渡し、入力手段1はその文字列を記号列抽出手段2に送る。記号列抽出手段2は、予め設定されたパタンが定義に従って、入力の文字列1530から記号列を抽出するが、この例では特に抽出された記号列はなかったとして以下説明を行なう。このとき、文字列1530はそのまま用語抽出手段3に受け渡される。
【0092】
用語抽出手段3では、用語辞書管理手段4を通じて用語辞書1311を使用し、文字列1530から、事例の用語索引1801となる文字列を取り出す。ここで、用語辞書1311に用語の表記の置き換えが定義してあれば、例えば「パソコン」を「PC」と置き換える処理も行われる。この用語索引1801と文字列1530を事例候補検索手段5へ受け渡す。
【0093】
次に、事例候補検索手段6では、事例ベース管理手段5を通じて事例ベース1312から、用語索引1801を含む事例を事例候補1802として取り出し、事例絞り込み手段7へ文字列1530および事例候補1802を受け渡す。
【0094】
事例絞り込み手段7では、上記図15および図17の流れ図を用いて説明した方法によって、文字列1530に最も類似した事例1803を事例候補1802の中から選択する。ここでは、事例候補1802の詳細な例示は省略したが、事例候補1802の各事例は選択事例1803と同様な事例から構成されている。事例絞り込み手段7からは、文字列1530と選択事例1803が関連情報推論手段8へ受け渡される。
【0095】
関連情報推論手段8では、選択事例1803に関連情報1804「マニュアルp.38」、「関連図面F48」を付加して、解析内容表示手段9に受け渡し、解析内容表示手段9では、この関連情報を表示する。
【0096】
実施の形態3
図19は実施の形態3を示す構成図であり、図に実施の形態1と同様又は相当する部分については同一符合を付しその説明を省略する。図19において、12は新規事例登録手段である。
また、図20は事例候補検索手段6の処理の流れ図の例、図21は事例候補絞り込み手段7の処理の流れ図の例、図22は新規事例登録手段12の処理の流れ図の例である。更に、図23と図24は実施の形態3におけるデータの流れを示す図である。
【0097】
上記のように構成された自然言語事例ベース検索装置の動作を図19の構成図および図20、図21、図22の流れ図に沿って説明する。実施の形態3は、図19の構成図において、実施の形態1と同様に、入力手段1で検索する条件となる言語表現を受け取ると、記号列抽出手段2に入力を受け渡す。次に、記号列抽出手段2は、入力手段1から受け取った文字列からあらかじめ定義したパタンに沿って表現抽出プログラムを動作させて、抽出した記号表現パタンと残りの文字列を用語抽出手段4に渡す。
【0098】
次に、用語抽出手段4において記号列抽出手段2から受け取った言語表現中に用語辞書管理手段3が保持している用語を抽出し、その用語を前記抽出記号表現パタンと前記残り文字列とともに事例候補検索手段6へ渡す。
【0099】
事例候補検索手段6では、図20の(step2001)において、用語抽出手段4によって求めた用語の組みと同じ用語を含む事例データを、事例ベース管理手段5で管理されている事例データ中から事例の候補として取り出す。このとき、(step2002)で用語抽出手段4によって入力から抽出した用語を含む事例データが事例候補として存在しなかった場合には、(step2004)で用語抽出新規事例登録手段12に処理を移す。また、(step2002)で事例候補が得られている場合には、(step2003)に進み、事例絞り込み手段7へと処理を移す。
【0100】
図21によって、事例絞り込み手段7の動作を説明する。まず、事例候補検索手段6で幾つかの事例候補が見つかった場合には、事例絞り込み手段7の(step2101)で、その事例候補の言語データと入力の言語表現との類似度を求める。このとき、(step2102)で、すべての事例候補の類似度が予め設定しておいた境界値より低く、適用する事例としてはふさわしくない場合には、(step2104)で新規事例登録手段12に処理を移す。
【0101】
図21の(step2102)で境界値を越える事例を得た場合には、(step2103)において最も類似度の高い事例を選択し、関連情報推論手段8へ処理を進める。
【0102】
図22によって、新規事例登録手段12の動作を説明する。新規事例登録手段12では、まず、(step2201)で、どの手段から呼ばれたかを判断し、事例候補検索手段6から呼ばれた場合には、(step2202)で、用語抽出手段4が入力文から抽出した用語が索引として十分であるかユーザに確認させる。用語が十分でないとユーザが判断した場合には、(step2204)で用語辞書管理手段3にユーザが現在の入力の言語表現のために必要な用語を追加する。
【0103】
(step2203)で、用語抽出手段4が抽出した用語が十分である場合や(step2204)の用語登録が終了すると(step2205)へ処理を進める。
【0104】
一方、(step2201)で、新規事例登録手段12が事例絞り込み手段7から呼ばれたと判断された場合には、すぐに(step2205)へ進む。(step2205)では、ユーザが入力の言語表現に対して関連する情報を設定し、事例ベース管理手段5に図12に示したような形式で入力と関連情報の組みを登録する。事例ベースへの登録は通常の公知の技術を用いて行なうものとする。なお、関連情報推論手段8と解析内容表示手段9の動作は実施の形態1と同様とする。
【0105】
上記のような構成によれば、事例候補検索手段6と事例候補絞り込み手段7の両方で、事例の候補が得られなかったり、検索した事例の候補が不適切と判断された場合に、入力の言語表現を新規の事例として容易に登録することができる。
【0106】
図23は、この発明の実施の形態3において事例候補検索手段6から新規事例登録手段12の処理を行なう場合のデータの流れを、請求項3を構成する各手段に関連付けて示したものである。図23において2301は入力文の例、2303は記号列抽出手段2によって抽出された記号列、2302は記号列抽出手段2によって記号列が抽出された後の残りの文字列、2304は用語抽出手段3によって抽出された用語索引、1311は用語辞書管理手段3が管理する用語辞書である。
【0107】
1312は事例ベース管理手段5によって管理されている事例ベースであり、図12に例示したような内容を含む。また、2305は利用者が新規事例登録に際して事例データに付加した関連情報の例、2306は利用者が新たに追加した用語の例である。
【0108】
図23では、まず、入力として文2301「制御盤に群管理装置VZ−1を取付ける。」が入力されると、入力手段1はその文2301の文字列を記号列抽出手段2に送る。記号列抽出手段2は、予め設定されたパタン定義に従って、入力の文字列2301から記号列2303を抽出し、その抽出した記号列2303と残りの文字列2302とを用語抽出手段4に受け渡す。
【0109】
用語抽出手段4では、用語辞書管理手段3を通じて用語辞書1311を検索し、文字列2302「制御盤に群管理装置を取り付ける。」から、事例の用語索引2304となる「制御盤」という文字列を取り出し、この用語索引2304と文字列2302および記号列2303を事例候補検索手段6へ受け渡す。
【0110】
次に、事例候補検索手段6では、図20の(step2001)に示したように、事例ベース管理手段6を通じて事例ベース1312から、用語索引2304「制御盤」を含む事例を事例候補として取り出そうと試みる。しかし、用語索引2304「制御盤」を含む事例が得られなかったと図20の(step2002)で判断された時には、(step2003)に示すように、(step2004)の新規事例登録手段12へ処理を移し、図23に示すように文字列2302と用語索引2304とおよび記号列2303を新規事例登録手段12へ受け渡す。
【0111】
新規事例登録手段12では、前記図22の流れ図を用いて説明したように、まず図22の(step2201)で事例候補検索手段6から処理が移ってきた場合には、(step2202)で用語抽出手段4で抽出した用語が十分であるか、否かをユーザに確認を促し、(step2203)でユーザが十分ではないとした場合には、(step2204)で、この例の場合には、新たな用語2306として「群管理装置」という文字列を用語辞書管理手段3に追加する。続いて、(step2205)で、文字列2302を新たな事例文として、その文字列に関連した情報を事例ベース1312に追加するが、このとき、ユーザは記号列抽出手段2で抽出した記号列2303である「VZ−1」を参照して、関連情報として「VZ−@」という一般的な情報を追加することができる。これは、本発明の請求項3の構成において、記号列抽出手段2と新規事例登録手段12とを同時に備えていることの利点の一つである。
【0112】
図24は、この発明の実施の形態3において事例絞り込み手段7から新規事例登録手段12の処理を行なう場合のデータの流れを、請求項3を構成する各手段に関連付けて示したものである。図24において、2401は入力文の例、1311は用語辞書管理手段3が管理する用語辞書、2402は記号列抽出手段2によって記号列が抽出された後の残りの文字列、2403は記号列抽出手段2によって抽出された記号列、2404は用語抽出手段3によって抽出された用語索引である。
【0113】
1312は事例ベース管理手段5によって管理されている事例ベースであり、図12に例示したような内容を含む。また、2405は事例ベース1312から事例候補として検索された事例の例、2406は利用者が新規事例登録12に際して事例データに付加する関連情報の例である。
【0114】
図24では、まず、入力として文2401「制御盤に群管理装置VZ−1を取付ける。」が入力されると、入力手段1は上記入力文2401の文字列を記号列抽出手段2に送る。記号列抽出手段2は、予め設定されたパタン定義に従って、入力の文字列2401から記号列2403を抽出し、その抽出した記号列2403「VZ−1」と残りの文字列2402「制御盤に群管理装置を取付ける。」とを用語抽出手段4に受け渡す。用語抽出手段4では、用語辞書管理手段3を通じて用語辞書1311を検索し、文字列2402「制御盤に群管理装置を取り付ける。」から、事例の用語索引2404となる「制御盤」、「群制御装置」という文字列を取り出し、この用語索引2404と文字列2402および記号列2403を事例候補検索手段6へ受け渡す。
【0115】
次に、事例候補検索手段6では、事例ベース管理手段5を通じて事例ベース1312から、用語索引2403「制御盤」、「群制御装置」を含む事例を事例候補2405として取り出す。
【0116】
続いて、事例絞り込み手段7では、図21の流れ図で説明したように、(step2101)で入力の言語表現、ここでは文字列2402と事例候補2405の各事例との類似度を求める。このとき、事例候補2405の各事例と文字列2402とが大きく異なる場合には、(step2102)で類似度が予め設定しておいた境界値を越えず、(step2104)で新規事例登録手段12へ処理を移すことになる。
【0117】
新規事例登録手段12では、上記図22の流れ図を用いて説明したように、まず図22(step2201)で事例絞り込み手段7から処理が移ってきた場合には、(step2205)で、文字列2402を新たな事例文として、その文字列に関連した情報を事例ベース1312に追加するが、このとき、ユーザは記号列抽出手段2で抽出した記号列2403である「VZ−1」を参照して、関連情報として「VZ−@」という一般的な情報を追加することができる。
これは、本発明の請求項3の構成において、記号列抽出手段2と新規事例登録手段12とを同時に備えていることの利点の一つである。
【0118】
実施の形態4.
図25は実施の形態4を示す構成図であり、図に実施の形態1と同様又は相当する部分については同一符合を付しその説明を省略する。図25において、2は記号列抽出手段、9は解析内容表示手段、13は付加情報参照手段である。また、図26は付加情報参照手段の動作を示す流れ図であり、図27は実施の形態4におけるデータの流れを示す例図である。
【0119】
以下、図25と図26の流れ図によってこの実施の形態の動作を説明する。
まず、図25の記号列抽出手段2では、あらかじめ入力文中に含まれる参照表現(「図XXX参照」等)をパタンとして定義しておき、これらの参照表現が入力の言語表現中に含まれる場合に抽出する。その他の動作は実施の形態1で述べたものと同様とし、ここで抽出した情報を付加情報参照手段13まで受け渡す。
【0120】
付加情報参照手段13では、図26の(step2601)で入力文から抽出した記号列があるかどうかを判定し、何もなければ処理を終了する。(step2601)で入力文から抽出した記号列がある場合には、(step2602)で入力文中に図面等の参照表現、例えば「図A−128参照」という表現が含まれているかを判定する。(step2602)で、もし入力文中から抽出した記号列に参照表現が含まれていなければ処理を終了する。(step2602)で入力文中から抽出した記号列に参照表現が含まれていれば、(step2603)で、図面のデータベースを参照して、このデータベースから前記「図A−128」に対応する図面を取り出す。図面のデータベースから「図A−128」に対応する図面を取り出したら、解析内容表示手段9にその図面を表示する。
【0121】
例えば、図12に示した事例ベースの例の場合には、「筐体設計図面(図A−128)を送付せよ」という入力に対して、参照図面1205として「図A−128」という番号が取り出され、「筐体設計図面」を格納したデータベースから「図A−128」に対応する図面が自動的に取り出され、解析内容表示手段9にその図面が表示されることになる。
【0122】
上記のような構成によれば、記号列抽出手段2と付加情報参照手段13を同時に備えているために、特別に外部的な情報の関連付け手段を持たなくても、「図XXX参照」等の入力文中に含まれる参照表現によって他のデータベース等に含まれる情報を参照する機能が提供されるので、入力の言語表現中に含まれる情報を有効に活用することができる。
【0123】
図27は、本発明の実施の形態4にかかるデータの流れを請求項4を構成する各手段に関連付けて示したものである。図27において、2701は入力文の例、2703は記号列抽出手段2によって抽出された記号列、2702は記号列抽出手段2によって記号列が抽出された後の残りの文字列、1311は用語辞書管理手段3が管理する用語辞書、2704は用語抽出手段3によって抽出された用語索引である。
【0124】
1312は事例ベース管理手段5によって管理されている事例ベースであり、図12に例示したような内容を含む。2705は事例候補検出手段5によって事例ベース1312から取り出された、用語索引2704を含む事例候補であり、2706は事例絞り込み手段7によって入力にもっとも類似しているとして事例候補2705から選択された事例である。
【0125】
2707は図面情報を格納した外部データベース、2708は記号列抽出手段2によって抽出された記号列2703と事例に付加された情報とから関連情報推論手段8で推定された内容の例、2709は付加情報参照手段9で外部の図面データベース2707から取り出された図面の実体を示している。
【0126】
図27では、まず、入力として文2701「筐体設計図面(図A−128)を送付せよ。」が入力手段1で入力されると、入力手段1はその文字列2701を記号列抽出手段2に送る。記号列抽出手段2は、予め設定したパタン定義に従って入力文2701から記号列2703「図面A−128」を抽出し、その抽出した記号列2703と残りの文字列2702「筐体設計図面□を送付せよ。」とを用語抽出手段4に受け渡す。ここで、記号「□」は、抽出した記号列2703があった位置を示す記号である。用語抽出手段4では、用語辞書管理手段3を通じて用語辞書1311を検索し、文字列2702「筐体設計図面□を送付せよ。」から、事例の用語索引2704となる「筐体」、「設計」という文字列を取り出し、この用語索引2704と文字列2702および記号列2703を事例候補検索手段6へ受け渡す。
【0127】
次に、事例候補検索手段6では、事例ベース管理手段5を通じて事例ベース1312から、用語索引2704「筐体」、「設計」を含む事例を事例候補2705として取り出し、事例絞り込み手段7へ文字列2702および記号列2703と事例候補2705を受け渡す。
【0128】
事例絞り込み手段7では、図10および図11の流れ図を用いて説明した方法によって、文字列2702に最も類似した事例2706を事例候補2705の中から選択する。図27の例では、事例番号0006を持つ事例が選択されたことを示している。事例絞り込み手段7からは、文字列2702および記号列2703と選択事例2706が関連情報推論手段8へ受け渡される。
【0129】
関連情報推論手段8では、文字列2702および記号列2703と選択事例2706に付加された情報とで、関連情報2708「部品1,部品2」を得る。この関連情報2708や記号列2703は解析内容表示手段9に表示されるが、同時に記号列2703が図面参照情報として、付加情報参照手段13に受け渡され、付加情報参照手段13は外部データベース2707から記号列2703の図面番号「図A−128」を持つ図面の実体2709を取り出して、情報解析内容表示手段9に自動的に表示する。これは、記号列抽出手段2で抽出した記号列2703が、選択事例2706の関連情報と関係付けられて付加情報参照手段13で利用されたことを例示している。
【0130】
【発明の効果】
本発明は、以上に説明したように構成されているので、以下に記載されるような効果が得られる。
【0131】
請求項1及び請求項5に記載の発明によれば、入力の言語表現中に記号表現や数量表現等を含む場合にも適切な事例を検索できるため、その結果として、自然言語を対象とする情報検索装置や方法において、技術文章のように複雑な表現を含む過去の言語事例の再利用性が増したり、これらを設計支援用途に活用したりすることで自動処理の可能性が向上するという効果が得られる。
【0132】
請求項2及び請求項6に記載の発明によれば、箇条書き等の論理構造を持つ言語表現の入力補助を可能とし、かつ、箇条書き等の論理構造を持つ事例に対して事例候補の絞り込みが可能であるから複雑な構造を持つ言語表現の事例や入力に対しても事例検索を可能とするという効果がある。
【0133】
請求項3及び請求項7に記載の発明によれば、新規事例の登録を可能とすることにより、事例候補検索手段や事例絞り込み手段で入力に対する所望の事例が得られないとき、効率良く新たな事例や用語の登録ができるという効果がある。
【0134】
請求項4及び請求項8に記載の発明によれば、付加情報を参照可能とすることにより、入力の言語表現中に含まれる図面参照等の参照表現によって他のデータベース等の参照が容易になるという効果がある。
【図面の簡単な説明】
【図1】 本発明の実施の形態1の自然言語事例検索装置の構成を示す図である。
【図2】 本発明の実施の形態1の記号列抽出手段の構成を示す図である。
【図3】 本発明の実施の形態1の記号列抽出手段のパタン定義の方法を示す図である。
【図4】 本発明の実施の形態1の記号列抽出手段のパタン定義の内部構造を示す図である。
【図5】 本発明の実施の形態1の記号列抽出手段のパタン定義の具体的な一例を示す図である。
【図6】 本発明の実施の形態1の記号列抽出手段のパタン定義の例である図5に対応する内部構造の例を示す図である。
【図7】 本発明の実施の形態1における記号列抽出手段の主プログラムの動作を示す流れ図である。
【図8】 本発明の実施の形態1における記号列抽出手段で用いる関数Parseの動作を示す流れ図である。
【図9】 本発明の実施の形態1における記号列抽出手段の処理の一例を示す図である。
【図10】 本発明の実施の形態1における絞り込み手段において類似度を求める方法の例を示す図である。
【図11】 本発明の実施の形態1における2つの文字列の間の最長共通部分列を求めるための動作を示す流れ図である。
【図12】 本発明の実施の形態1における事例ベース管理手段において管理される事例ベースの構成の例を示す図である。
【図13】 本発明の実施の形態1におけるデータの流れの例を示す図である。
【図14】 本発明の実施の形態2の自然言語事例検索装置の構成を示す図である。
【図15】 本発明の実施の形態2の構造を持つ言語データの入力方法およびその内部構造の例を示す図である。
【図16】 本発明の実施の形態2の構造入力補助手段の動作を示す流れ図である。
【図17】 本発明の実施の形態2の構造化事例絞り込み補助手段の動作を示す流れ図である。
【図18】 本発明の実施の形態2のデータの流れを示す例図である。
【図19】 本発明の実施の形態3の構成例を示す図である。
【図20】 本発明の実施の形態3の事例絞り込み手段を示す図である。
【図21】 本発明の実施の形態3の事例絞り込み手段の動作流れを示す図である。
【図22】 本発明の実施の形態3の新規事例登録手段の動作流れを示す図である。
【図23】 本発明の実施の形態3のデータの流れを示す例図である。
【図24】 本発明の実施の形態3のデータの流れを示す例図である。
【図25】 本発明の実施の形態4の付加情報参照手段の構成を示す図である。
【図26】 本発明の実施の形態4の付加情報参照手段の動作を示す流れ図である。
【図27】 本発明の実施の形態4のデータの流れを示す例図である。
【図28】 従来の自然言語事例検索方式の構成例を示す図である。
【図29】 従来の自然言語事例検索方式のウィンドウ画面の例を示す図である。
【図30】 従来の数量/時間表現解析方式の構成例を示す図である。
【図31】 従来の未登録語獲得方式の構成例を示す図である。
【符号の説明】
1:入力手段 2:記号列抽出手段
3:用語辞書管理手段 4:用語抽出手段
5:事例ベース管理手段 6:事例候補検索手段
7:事例絞り込み手段 8:関連情報推論手段
9:解析内容表示手段 10:構造入力補助手段
11:構造化事例絞り込み補助手段 12:新規事例登録手段
13:付加情報参照手段
902 数量・記号パタン定義 903 表現抽出プログラム
1202 事例文 1430 構造化事例の内部形式
Claims (8)
- 言語表現を入力する入力手段と、この入力手段により入力された言語表現中に含まれる記号表現や数量表現等の記号列を抽出する記号列抽出手段と、上記入力手段により入力された言語表現からの用語抽出に必要な辞書データを検索・管理する用語辞書管理手段と、上記記号列抽出手段から記号列と言語表現を受け取り、受け取った言語表現からこの用語辞書管理手段を用いて事例検索のキーとなる用語を抽出する用語抽出手段と、予め蓄積された言語表現とその関連情報との対からなる事例データを検索・管理する事例ベース管理手段と、上記用語抽出手段により抽出された用語をキーとしてこの事例ベース管理手段によって管理された事例ベースから処理対象となる事例の候補を取り出す事例候補検索手段と、この事例候補検索手段により取り出された事例候補の中から入力された言語表現に類似した事例を絞りこむための事例絞り込み手段と、この事例絞り込み手段により絞り込まれた事例の事例データに含まれ、数量表現の定義を示す数量表現定義と、入力された言語表現に含まれる数量表現とを照合して、入力された言語表現に含まれる数量表現の数量表現定義と数値を求め、当該求めた結果と上記絞り込まれた事例の関連情報に応じて、推論結果として関連する言語情報を生成する関連情報推論手段と、少なくとも事例候補検索手段または上記事例絞り込み手段によって取り出された事例とこの関連情報推論手段の推論結果を表示する解析内容表示手段とを備えたことを特徴とする自然言語事例検索装置。
- 箇条書き等の論理構造を持つ言語表現の入力を補助する構造入力補助手段と、上記論理構造を持つ事例に対して事例候補の絞り込みが可能である構造化事例絞り込み補助手段を備えたことを特徴とする請求項1記載の自然言語事例検索装置。
- 事例候補検索手段または事例絞り込み手段で入力の言語表現に対する所望の事例が得られないとき、事例を新規に登録する登録手段を備えたことを特徴とする請求項1記載の自然言語事例検索装置。
- 入力文中に含まれる参照表現によって外部のデータベースに含まれる情報を参照する機能を有する付加情報参照手段を備えたことを特徴とする請求項1記載の自然言語事例検索装置。
- 言語表現を入力手段から入力する入力ステップと、このステップで入力された言語表現中に含まれる記号表現や数量表現等の記号列を抽出する記号列抽出ステップと、この記号列抽出ステップで処理後の言語表現を受け取り、入力された言語表現からの用語抽出に必要な事例検索のキーとなる用語を収録した用語辞書を用いて受け取った言語表現から事例検索のキーとなる用語を抽出する用語抽出ステップと、この用語抽出ステップにより抽出された用語をキーとして予め蓄積された言語表現とその関連情報との対からなる事例データから処理対象となる事例の候補を取り出す事例候補検索ステップと、この事例候補検索ステップにより取り出された事例候補の中から入力された言語表現に類似した事例を絞りこむための事例絞り込みステップと、この事例絞り込みステップにより絞り込まれた事例の事例データに含まれ、数量表現の定義を示す数量表現定義と、入力された言語表現に含まれる数量表現とを照合して、入力された言語表現に含まれる数量表現の数量表現定義と数値を求め、当該求めた結果と上記絞り込まれた事例の関連情報に応じて、推論結果として関連する言語情報を生成する関連情報推論ステップと、少なくとも事例候補検索ステップまたは上記事例絞り込みステップによって取り出された事例とこの関連情報推論ステップの推論結果を表示する解析内容表示ステップとを備えたことを特徴とする自然言語事例検索方法。
- 上記入力ステップは、箇条書き等の論理構造を持つ言語表現の入力を補助する構造入力補助ステップを備え、上記事例絞り込みステップは、上記論理構造を持つ事例に対して事例候補の絞り込みをする構造化事例絞り込み補助ステップを備えたことを特徴とする請求項5記載の自然言語事例検索方法。
- 上記事例候補検索ステップまたは上記事例絞り込みステップで入力の言語表現に対する所望の事例が得られないとき、入力された言語表現と関連情報の対を新たな事例として新規に登録する登録ステップを備えたことを特徴とする請求項5記載の自 然言語事例検索方法。
- 入力文中に含まれる参照表現によって外部のデータベースに含まれる情報を参照する機能を有する付加情報参照ステップを上記解析内容表示ステップの前または後に備えたことを特徴とする請求項5記載の自然言語事例検索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP04757396A JP3780556B2 (ja) | 1996-03-05 | 1996-03-05 | 自然言語事例検索装置及び自然言語事例検索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP04757396A JP3780556B2 (ja) | 1996-03-05 | 1996-03-05 | 自然言語事例検索装置及び自然言語事例検索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH09245051A JPH09245051A (ja) | 1997-09-19 |
JP3780556B2 true JP3780556B2 (ja) | 2006-05-31 |
Family
ID=12778993
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP04757396A Expired - Fee Related JP3780556B2 (ja) | 1996-03-05 | 1996-03-05 | 自然言語事例検索装置及び自然言語事例検索方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3780556B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6546135B1 (en) * | 1999-08-30 | 2003-04-08 | Mitsubishi Electric Research Laboratories, Inc | Method for representing and comparing multimedia content |
JP2002063185A (ja) * | 2000-08-22 | 2002-02-28 | Hitachi Software Eng Co Ltd | 類似知識抽出システム |
US8356047B2 (en) * | 2009-10-01 | 2013-01-15 | International Business Machines Corporation | Intelligent event-based data mining of unstructured information |
WO2017138057A1 (ja) * | 2016-02-08 | 2017-08-17 | 株式会社日立製作所 | 文章生成システム及び文章生成方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0528192A (ja) * | 1991-07-24 | 1993-02-05 | Dainippon Printing Co Ltd | 学術論文データベースシステム |
JPH0830627A (ja) * | 1994-05-12 | 1996-02-02 | Mitsubishi Electric Corp | キーワード抽出方式 |
JP3350594B2 (ja) * | 1994-05-31 | 2002-11-25 | 富士通株式会社 | 検索装置 |
-
1996
- 1996-03-05 JP JP04757396A patent/JP3780556B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH09245051A (ja) | 1997-09-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kowalski | Information retrieval systems: theory and implementation | |
EP0530993B1 (en) | An iterative technique for phrase query formation and an information retrieval system employing same | |
US6957213B1 (en) | Method of utilizing implicit references to answer a query | |
US8977953B1 (en) | Customizing information by combining pair of annotations from at least two different documents | |
JP3696745B2 (ja) | 文書検索方法及び文書検索システム及び文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP4467184B2 (ja) | 知識創造可能性を有するドキュメントの意味論的分析及び選択 | |
US8060357B2 (en) | Linguistic user interface | |
US7523102B2 (en) | Content search in complex language, such as Japanese | |
US20040117352A1 (en) | System for answering natural language questions | |
US20040073874A1 (en) | Device for retrieving data from a knowledge-based text | |
JP2000200291A (ja) | 選択された文字列をテキスト内で自動検出する方法 | |
US20070179932A1 (en) | Method for finding data, research engine and microprocessor therefor | |
JPH11110416A (ja) | データベースからドキュメントを検索するための方法および装置 | |
JP3612769B2 (ja) | 情報検索装置および情報検索方法 | |
JPH09198395A (ja) | 文書検索装置 | |
JPH06301722A (ja) | 形態素解析装置及びキーワード抽出装置 | |
JP3780556B2 (ja) | 自然言語事例検索装置及び自然言語事例検索方法 | |
Grover et al. | Adapting a relation extraction pipeline for the BioCreAtIvE II task | |
EP1605371A1 (en) | Content search in complex language, such as japanese | |
JPH11259524A (ja) | 情報検索システム、情報検索システムにおける情報処理方法および記録媒体 | |
JPH0782500B2 (ja) | 未登録語獲得方式 | |
JP5148583B2 (ja) | 機械翻訳装置、方法及びプログラム | |
JPH1074207A (ja) | 情報検索装置及び情報検索方法 | |
JP2007233631A (ja) | テキストデータのコンピュータ処理用操作ボタン生成方法 | |
JP2005284776A (ja) | テキストマイニング装置及びテキスト分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20040715 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050705 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050901 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20051108 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20051227 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20060110 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060214 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060227 |
|
LAPS | Cancellation because of no payment of annual fees |