JP5455060B2

JP5455060B2 - データベース、類推エンジン及び類推システム

Info

Publication number: JP5455060B2
Application number: JP2010083635A
Authority: JP
Inventors: 友博高木
Original assignee: MEIJI UNIVERSITY LEGAL PERSON
Current assignee: MEIJI UNIVERSITY LEGAL PERSON
Priority date: 2010-03-31
Filing date: 2010-03-31
Publication date: 2014-03-26
Anticipated expiration: 2030-03-31
Also published as: JP2011215897A

Description

この発明は、言語情報に基づくデータベース、類推エンジン及び類推システムに関する。

従来ある類推システムの多くは、様々な要因を数値化した数学モデルによって実現している。この様な類推システムの具体例として、特許文献１記載の予測システムがある。この予測システムは、過去の損失額、過去の気象、及び経済指標データに基づいて事業リスクを予測している。

しかし、経済分野に関して言えば、投資家やエコノミストは、何らかの経済的イベントが他に与える影響を感覚的に判断し、将来の経済動向を予測していることが多い。例えば、「現在の経済状態は、××年（過去）の状況に似ているため、今後○○となる公算が強い」などと予測する。実際、株価は、投資家の市場に対する心理（センチメント）、つまり期待感や不安感の膨らみによって大きく変動する。このような心理変動は言語で表わされていることが多い。

経済分野に限らず、一般的に、ある与えられた前提に対してある結果を類推する場合、言語情報に基づいて処理することは有効であるが、このような言語情報は数式に載せることが困難である。したがって、コンピュータシステムへの実装は困難である。

特開２００４−２７２６７４号公報

この発明は、言語情報に基づくデータベース、類推エンジン及び類推システムを提供することを目的とする。

本発明の一態様に係るデータベースは、複数の前提文章に含まれる単語のうち重要度の上位から抽出された複数の単語の集合である特徴語と、結論文章に含まれる単語のうち、前記特徴語に含まれる複数の単語を組み合わせた連結語に共起する単語の集合である候補語との組からなる事象データが複数記憶されていることを特徴とする。

本発明の一態様に係る類推エンジンは、前記データベースを参照する類推エンジンであって、複数の入力文章に含まれる単語のうち重要度の上位から抽出された複数の単語の集合である対象ベース語を生成する対象ベース語生成部と、前記対象ベース語と前記特徴語のマッチングを行い、マッチングスコアの上位の特徴語と事象データを構成する候補語を抽出するマッチング部と、前記マッチング部で抽出された候補語を統合して前記入力文章を前提とする結論である予測語を生成する予測語生成手段とを備えることを特徴とする。

本発明の一態様に係る類推システムは、文章、前記文章のインデックス、及び前記文章に含まれる複数の単語の重要度に基づいて算出されたスコアからなる複数の文書データが記録されたデータベースと、前記データベースに記録されたスコアに基づいて決定する所定数の単語からなる前提単語群を入力とし、前記前提単語群に基づいて前記データベースに記録された文書データの中から所定数の文書データを選択して出力する類推エンジンとを備えることを特徴とする。

この発明は、言語情報に基づくデータベース、類推エンジン及び類推システムを提供することができる。

概念ファジィ集合の概念図である。本発明の第１の実施形態に係る予測システムの概念図である。本予測システムの機能ブロック図である。本予測システムのデータベースの構築方法を示す図である。本予測システムの予測手法を説明する図である。本予測システムの予測手法を説明する図である。本予測システムに対する評価基準となる株価の推移を示す図である。本予測システムに対する実験結果を示す図である。本発明の第３の実施形態に係る推薦システムの機能ブロック及び処理のフローを示す図である。本推薦システムの過去の操作履歴を示す図である。本推薦システムの推薦手法を説明する図である。本推薦システムの他の推薦手法を説明する図である。

以下、添付の図面を参照して本発明の実施形態について説明する。

［第１の実施形態］
本発明の第１の実施形態に係る類推システムは、過去の事例に基づいて経済動向を予測するシステムである。

［概念ファジィ集合］
先ず、具体的な実施形態を説明する前に、本予測システムの基礎となる概念ファジィ集合（ＣｏｎｃｅｐｔｕａｌＦｕｚｚｙＳｅｔｓ、以下「ＣＦＳ」と呼ぶ）について経済動向予測を念頭に置いて簡単に説明する。

人間は、「Ａ（前提）→Ｂ（結論）」という事例に基づいて、「Ｃ→Ｘ？」という問題の解（Ｘ）を類推によって求めることができる。しかし、この解は、述語論理を用いた通常の人工知能システムでは求めることができない。また、事例ベース類推によって解を得ようとする試みもあるが成功には至っていない。一方、ファジィ論理研究の歴史においては、近似類推というテーマで長く研究されてきた。これは、ファジィ論理を他の知的システムと差別化をする重要な点であった。

しかし、ファジィ論理における近似類推にも解決されていない大きな問題がある。それは、上記のＡやＢが、形容詞のように物事の程度を表す場合、例えば、「○○が大きい場合、××が小さくなる」といった場合を除き、処理できない点である。しかし、実社会では、人間が類推に使用する材料には名詞で表現される事実が多い。例えば、「テロ（前提）→経済不安（結論）」といったものが挙げられる。このようなイベント同士の関係は経済に大きな影響を与えるが、ファジィ論理ではその影響を類推することはできない。

そこで、文脈に影響を受けさまざまに変化する語の意味を表現する方法として考えられたのがＣＦＳである。

図１は、ＣＦＳの概念図である。
ＣＦＳでは、予め、単語の意味と、文脈を示す直前の単語とのペアを文脈情報としてデータベースに蓄えておく。新たな文脈で単語（図１に示す“Ｃｏｎｔｅｘｔ”）が出現したとき、データベースの文脈情報と適合するかの計算を行う。そして、その結果得られた適合度合いを重みにすることによって、蓄えられた単語の意味情報を統合し、新たな単語の意味（図１に示す“ｍｅａｎｉｎｇ”）を表したＣＦＳを生成する。

このＣＦＳの考え方を予測システムに応用すると、図２のように表わすことができる。つまり、過去の経済状況とその後に起こった経済状況を事象データとしてデータベースに蓄えておき、新たな経済状況（図２に示す“ｃｏｎｄｉｔｉｏｎ”）が出現したとき、過去の経済状況と適合するかの計算を行い、新たな経済状況（図２に示す“ｒｅｓｕｌｔ”）、つまり、将来の経済状況を予測する。

［予測システムの構成］
次に、本発明の第１の実施形態に係る予測システムの機能ブロックについて説明する。

本予測システムは、図３に示すように、過去の事例に基づくデータが記憶されるデータベース１１０と、このデータベース１１０を参照し、指定された日にちの経済動向を予測する予測エンジン１２０からなる。

［データベースの構築］
次に、データベース１１０のデータの構築方法を図４を参照しながら説明する。

ある日の出来事は、前の出来事に影響を受けて起こる。そこで、本実施形態では、例えば、ある日の新聞の記事（結論文章）から求めた単語と、その日前一週間の新聞の記事（前提文章）から求めた単語とを抽出し、これら単語を組にしてデータベース１１０に格納しておく。以下の説明において、ある日の新聞の記事とある日前一週間の新聞の記事とを合わせたものを「ウィンドウ」と呼ぶ。

データベース１１０の構築は、ウィンドウを１日ずつずらしてスキャンしながら各ウィンドウにおいて以下の処理を実行する。

先ず、図４中（１）に示すように、新聞コーパスからある一週間分の新聞記事を取り出し（図４のステップＳ１０１）、全ての記事について形態素解析して単語の重要度としてＴＦ−ＩＤＦ値（単語の出現頻度−逆出現頻度）を求める。その中からＴＦ−ＩＤＦ値の上位の単語（例えば、上位１０個）を抽出する（図４のステップＳ１０２）。この抽出された単語の集合を特徴語（ＦｅａｔｕｒｅＷｏｒｄ）と呼ぶ。

続いて、図４中（２）に示すように、例えば、特徴語から数個の単語を選択し、これら単語の組み合わせを作成する（図４のステップＳ１０３）。この単語の組み合わせを連結語（ＣｏｍｂｉｎａｔｉｏｎＷｏｒｄ）と呼び、１つの特徴語から生成される連結語の組を連結語セット（ＣｏｍｂｉｎａｔｉｏｎＷｏｒｄＳｅｔ）と呼ぶ。

続いて、図４中（３）に示すように、ある日、つまりウィンドウにおける８日目の新聞の記事と連結語に共起する文章（Ｃｏ−ｏｃｃｕｒｒｅｎｃｅＳｅｎｔｅｎｃｅ）を摘出し（図４のステップＳ１０４）、全ての共起する文章に含まれている単語（名詞）を抜き出す（図４のステップＳ１０５）。これらの操作を連結語セットの全ての連結語に対して行う。このように抜き出した名詞の集合を候補語（ＣａｎｄｉｄａｔｅＷｏｒｄ）と呼ぶ。

最後に、図４中（４）に示すように、候補語毎に次式（１）に示す関係レベル（ＲｅｌａｔｉｏｎＬｅｖｅｌ、以下「ＲＬ」と呼ぶ。）を付与する（図４のステップＳ１０６）。

ここで、「ＣＯ」は、連結語を示し、「ＣＡ」は、候補語を示す。また、「ＣＯＵＮＴ」は、全文章（記事）数（ＡＳ）に対する、所定の単語（ｗｏｒｄｓ）が含まれた文章（記事）数（Ｗ）の割合を示す尺度であり、次式（２）で求めることができる。

この式（１）に示す計算を候補語全てに対して行う。

以上によって求めた特徴語と候補語を組にしたものが事象データである。この事象データを過去状況（ＰａｓｔＳｉｔｕａｔｉｏｎ）と呼ぶ。この過去状況が１つのウィンドウのデータとなる。例えば、以上の操作を２年分の新聞について実行した場合、データベース１１０には、７３０ウィンドウ分程度のデータが記憶される。

［予測エンジンと予測手法］
次に、予測エンジン１２０の機能ブロックについて説明する。

予測エンジン１２０は、図３に示すように、予測する日にちの新聞からＴＦ−ＩＤＦ値の高い単語を抽出する対象ベース語生成部１２１、対象ベース語生成部１２１によって抽出された単語と過去の新聞とのマッチングを行うマッチング部１２２、このマッチング部１２２のマッチング結果に基づいて将来の経済動向を示す単語を生成する予測語生成部１２３からなる。

対象ベース語生成部１２１は、予測する日にちの前の一週間分の記事を新聞コーパスから取り出し、図４中（１）に示す処理と同様、一週間分の新聞の記事に含まれる単語のＴＦ−ＩＤＦ値を求める。そして、全ての単語の中からＴＦ−ＩＤＦ値の上位の単語（例えば上位１０個）を抽出する。この単語の集合は、図５中（１）に示すように対象ベース語（ＴａｒｇｅｔＢａｓｅＷｏｒｄ）となる。

次に、予測エンジン１２０の予測手法を図５、図６を参照しながら説明する。
図６中（２．１）に示すように、図３に示したマッチング部１２２が、対象ベース語から選択した、例えば、２個の単語の全ての組み合わせを作成する（図６のステップＳ１２１）。そして、これら単語の組み合わせ毎に対象ベース語それぞれの単語に付与されたＴＦ−ＩＤＦ値を掛け合わせてスコアＴＴを付与する。

続いて、図６中（２．２）に示すように、マッチング部１２２が、データベース１１０上の各特徴語を参照し（図５のステップＳ１１１）、ステップＳ１２１で作成された単語の組み合わせが含まれているかを調べる（図６のステップＳ１２２）。ここで、もし含まれている場合、データベース１１０が記録する過去状況のスコアＰＳに対象ベース語のスコアＴＴを加算し、新たなスコアＰＳを求める。この処理をデータベース１１０に含まれている全ての過去状況に対して実行する。

続いて、図６中（２．３）に示すように、マッチング部１２２が、過去状況のスコアＰＳの上位の候補語（例えば上位５個）を抽出する（図５のステップＳ１１２、図６のステップＳ１２３）。この抽出された候補語を選択候補語と呼び、これら５つの選択候補語を選択候補語セット（ＳｅｌｅｃｔｅｄＣａｎｄｉｄａｔｅＷｏｒｄＳｅｔ）と呼ぶ。

最後に、図５中（３）に示すように、図３に示した予測語生成部１２３が、マッチング部１２２で求めた選択候補語を統合する（図５のステップＳ１１３）。統合する際に候補語のＲＬと過去状況のスコアＰＳを掛け合わせる。この統合したものを予測語（ＰｒｅｄｉｃｔＷｏｒｄ）と呼ぶ。ユーザは、この予測語生成部１２３から出力された予測語に基づいて、将来の経済動向を予測する。

［評価］
次に、本予測システムに対する評価を行った。

始めに、評価方法について説明する。
ここでは、１９８９年、１９９０年の２年分の新聞の記事に基づいて構築されたデータベース１１０を用いて１９９４年の経済状況の動向を予測して評価する。評価は、図７に示す１９９４年の株価のデータを基準にし、予測語と実際の株価を照らし合わせて行う。例えば、株価が上昇している時に予測語に「上昇」、「急騰」などがあった場合、高い評価とし、逆に、予測語に「下落」、「急落」などがあった場合、低い評価とする。

今回の以下の４パターンについて評価した。
パターン１：株価が急激に上がる（図７の状況Ａ）。
パターン２：株価が急激に下がる（図７の状況Ｂ）。
パターン３：株価が下がり、更に下がる（図７の状況Ｃ）。
パターン４：株価が下がり、一転して上がる（図７の状況Ｄ、Ｅ）。
なお、パターン３の状況Ｃとパターン４の状況Ｄについては、数値的な下落傾向が似ている状況を選択している。このように似通った状況を選ぶことで、数値上では下がり方が似ていても予測語で違いがあるかどうか検証するためである。また、パターン４については、同じように株価が下落した場合でも、予測語上どのような違いが出るかを検証するために２箇所の状況Ｄ、Ｅを選択している。

続いて、上記評価方法に対する本予測システムの結果について説明する。図８は、図７の状況Ａ〜Ｅに対するスコア上位３０個の予測語を示している。

パターン１の状況Ａの場合、「安」、「上昇」といった単語が出現しており、株価上昇が予測できる。

パターン２の状況Ｂの場合、「悪影響」、「低迷」、「下落」、「難」、「不振」といった単語が出現しており、株価下落が予測できる。

パターン３の状況Ｃとパターン４の状況Ｄを比較する。状況Ｃでは「安値」、「下落」といった状況Ｂに似たような単語が出現している。そのため、株価が悪化することが予測できる。逆に、状況Ｄでは「反騰」、「急騰」というような単語が出現している。このように、状況Ｃ、Ｄは前の一週間の株価動向が似ているにも関わらず予測結果が反対の傾向を示している。この点から本予測システムによれば、数値として株価の推移が似ていても、過去の一週間の新聞記事に出現する単語の違いを反映した好ましい結果を得ることができる。

パターン３の状況Ｄと状況Ｅを比較する。状況Ｅでは「上昇」という単語が出現している。このように、状況Ｅの場合、状況Ｄの場合と表現が異なる単語が出現しているが、結果的に同じような状況を予測することができる。

以上の結果から、本予測システムによれば、過去の状況を表わす言語情報に基づいて、将来の経済動向を表わす言語情報（予測語）を得る事ができる。

［第２の実施形態］
本発明の第２の実施形態に係る類推システムは、第１の実施形態に係る予測システムを改良した予測システムである。

本実施形態に係る予測システムは、第１の実施形態に係る予測システムと比べ、マッチング部１２２による処理が異なる。そこで、以下では、第１の実施形態との相違点であるマッチング部１２２による処理を説明し、その他の説明については割愛する。なお、本予測システムのマッチング部の符号は便宜上１２２´と表わす。

本実施形態のマッチング部１２２´は、先ず、対象ベース語生成部１２１が生成した対象ベース語の中から、図６中（２．１）と同様、例えば、２個の単語Ａ、Ｂの組み合わせを作成する（図６のステップＳ１２１相当）。そして、これら単語Ａ、Ｂの組み合わせ毎に次式（３）のような重みＭＩを付与する。

ここで、Ｑ（ＡＢ）は、単語Ａ、Ｂが両方出現したデータベース１１０上の確率を示し、Ｑ（Ａ）、Ｑ（Ｂ）は、単語Ａ又は単語Ｂが出現したデータベース上の確率を示す。

続いて、図６中（２．２）と同様、マッチング部１２２´が、データベース１１０上の各特徴語を参照し（図５のステップＳ１１１に相当）、上記ステップで作成された単語Ａ、Ｂの組み合わせが含まれているかを調べる（図６のステップＳ１２２に相当）。ここで、もし含まれている場合、データベース１１０が記録する過去状況のスコアＰＳに対象ベース語の重みＭＩを加算し、新たなスコアＰＳを求める。この処理をデータベース１１０に含まれている全ての過去状況に対して実行する。

続いて、図６中（２．３）と同様、マッチング部１２２が、過去状況のスコアＰＳの上位の候補語（例えば上位５個）を抽出する（図５のステップＳ１１２、図６のステップＳ１２３に相当）。この抽出された候補語が選択候補語、これら５つの選択候補語が選択候補語セットとなる。

その後の予測語生成部１２３による処理は、第１の実施形態と同様である。
本実施形態に係る予測システムによれば、第１の実施形態に係る予測システムに比べ、より予測の精度を高めることができる。

［第３の実施形態］
本発明の第３の実施形態に係る類推システムは、ユーザに対し、ＤＶＤタイトルを推薦するＣＦＳを利用した推薦システムである。

［推薦システムの構成］
先ず、本実施形態に係る推薦システムの構成について説明する。

図９は、本実施形態に係る推薦システムの機能ブロックを示す図である。なお、図９には、推薦処理のフローも併せて示している。

本推薦システムは、データベース２１０、このデータベースを参照してユーザのニーズにあったＤＶＤタイトルを推薦する推薦エンジン２２０、及び現在の操作履歴を記録する操作履歴記録部２３０とからなる。ここで、現在の操作履歴には、現在登録されているユーザが気に入ったＤＶＤのリスト（以下、「お気に入りリスト」と呼ぶ）と、ユーザが気に入らないＤＶＤのリスト（以下、「不要リスト」と呼ぶ）が含まれている。

データベース２１０には、ＤＶＤデータと過去の操作履歴が保存されている。ＤＶＤデータは、ＤＶＤタイトルと、このＤＶＤタイトルの内容を示す単語からなる。この単語は、ＤＶＤタイトルを紹介するテキストから抽出された名詞となっており、ＴＦ−ＩＤＦ値を用いてスコア付けされている。なお、過去の操作履歴については後述する。

［推薦手法］
次に、推薦手法について説明する。

始めに、ユーザによって、画面に表示された推薦ＤＶＤに対して、「お気に入り」「要らない」の選好度合いを示す操作を行う（図９のステップＳ２０１）。この操作は、データベース２１０にフィードバックされ過去の操作履歴に記録されると共に（図９のステップＳ２０２）、ＤＶＤ毎に付与された単語のスコア付けの修正に用いられる（図９のステップＳ２０３）。

続いて、スコア付けされた名詞のうち，スコアの上位の単語を抽出する（図９のステップＳ２０４）。この抽出された単語は、データベース２０１にフィードバックされ過去の操作履歴に記録されると共に（図９のステップＳ２０５）、推薦エンジン２２０に入力される（図９のステップＳ２０６）。

続いて、推薦エンジン２２０は、ステップＳ２０６において入力された入力単語（前提単語）に基づいて推薦するＤＶＤタイトルをスコア付けし、ＤＶＤリストとして出力する（図９のステップＳ２０７）。

続いて、ステップＳ２０７において出力されたＤＶＤリストに対して、現在の操作履歴のお気に入りリスト及び不要リストに含まれているＤＶＤタイトルでフィルタリングし（図９のステップＳ２０８）、推薦ＤＶＤとして画面に表示する（図９のステップＳ２０９）。

最後に、ステップＳ２０９で表示された推薦ＤＶＤに対して、ユーザが選好度合いを示す操作を行う（図９のステップＳ２０１）。

以降、上記ステップＳ２０１〜Ｓ２０９が繰り返えされる。
なお、一連の処理によって、図１０に示すような過去の操作履歴が構築されることになる。この過去の操作履歴は、推薦エンジン２２０に対する入力単語と、この入力単語に基づいて推薦エンジン２２０が出力した推薦ＤＶＤに対するユーザの選好度合いを示すデータの組となっている。

次に、推薦エンジン２２０の処理例について説明する。
第１のタイプの概念を図１１に示す。このタイプは、ファジィクラスタリングを用いてアトミックファジィ集合を生成し、その重ね合わせによってＣＦＳを実現している。

始めに、全てのＤＶＤデータの単語に対してファジィクラスタリングを行い、入力単語と各クラスタとの類似度を求める。

続いて、類似度の高いクラスタ（図１１の斜線を示したクラスタ）を用いて拡張語群を作成する。

最後に、この拡張語群とＤＶＤデータの類似度を求め、類似度の高いＤＶＤタイトルをＤＶＤリストとして出力する。

第１のタイプでは、単語の特徴付けをし、単語の意味を形成することでＤＶＤの内容に基づいた推薦をすることができる。このタイプは、ユーザの操作履歴に依らず、入力単語のみを利用するため、次に説明する第２のタイプの操作履歴集めに用いることができる。

第２のタイプの概念を図１２に示す。このタイプは、入力単語とＤＶＤの内容紹介テキストにおける単語の共起のみで関係を導きだし、推薦を行っている。

第２のタイプは、データベースに蓄えてある過去の操作履歴の入力単語と、現在の入力単語とを比較（マッチング）する。その結果、類似度が高い過去の操作履歴について、この過去の操作履歴のＤＶＤリストを足し合わせて、ＤＶＤリストとして出力する。

この第２のタイプでは、過去の操作履歴を利用しているため、ユーザの趣向に沿ったＤＶＤタイトルを推薦することができる。

以上から、本推薦システムによれば、過去の操作履歴とＤＶＤタイトルの言語情報からユーザの趣向に沿ったＤＶＤタイトルを推薦できるばかりでなく、過去の操作履歴に他人の操作履歴も含まれていることから、ユーザにとって意外性のある新規なＤＶＤタイトルの推薦が可能になる。

［その他］
以上、ＣＦＳを利用した類推システムの応用例として、経済動向の予測システムとＤＶＤ推薦システムについて説明したが、本発明に係る推薦システムは、以上のようなシステムに限定されるものはない。例えば、音楽を推薦するシステム、ユーザの身体の状況や味の好みに基づいた料理レシピ紹介システム、気候や経済状況に基づいた洋服の流行を予測するシステムなど、様々なシステムに応用することができる。

１１０データベース
１２０予測エンジン
１２１対象ベース語生成部
１２２マッチング部
１２３予測語生成部
２１０データベース
２２０推薦エンジン
２３０操作履歴記録部

Claims

複数の前提文章に含まれる単語のうち重要度の上位から抽出された複数の単語の集合である特徴語と、
結論文章に含まれる単語のうち、前記特徴語に含まれる複数の単語を組み合わせた連結語に共起する単語の集合である候補語と
の組からなる事象データが複数記憶されているデータベースを含む
ことを特徴とするデータベースシステム。
請求項１記載のデータベースを参照する類推エンジンであって、
複数の入力文章に含まれる単語のうち重要度の上位から抽出された複数の単語の集合である対象ベース語を生成する対象ベース語生成部と、
前記対象ベース語と前記特徴語のマッチングを行い、マッチングスコアの上位の特徴語と事象データを構成する候補語を抽出するマッチング部と、
前記マッチング部で抽出された候補語を統合して前記入力文章を前提とする結論である予測語を生成する予測語生成手段と
を備えることを特徴とする類推エンジン。
前記マッチング部は、
前記対象ベース語に含まれる複数の単語の組み合わせを生成し、これら複数の単語の重要度を掛け合わせてスコアを算出し、
前記データベースを参照し、前記生成された単語の組み合わせを含む前記特徴語が属する事象データを検索し、この検索した事象データのスコアに前記単語の組み合わせから算出されたスコアを加算し、新たな事象データのスコアを算出し、
前記新たな事象データのスコアの上位から複数の前記候補語を抽出する
ことを特徴とする請求項２記載の類推エンジン。
前記マッチング部は、
前記対象ベース語に含まれる複数の単語の組み合わせを生成し、
前記組み合わされた単語全てがデータベース上で出現する確率Ｑ_０、及び前記組み合わされた各単語がデータベース上で出現する確率をそれぞれ全て掛け合わせた値Ｑ_ｎを求め、前記単語の組み合わせの重さをｌｏｇ（Ｑ_０／Ｑ_ｎ）で算出し、
前記データベースを参照し、前記生成された単語の組み合わせを含む前記特徴語が属する事象データを検索し、この検索した事象データのスコアに前記単語の組み合わせから算出された重みを加算し、新たな事象データのスコアを算出し、
前記新たな事象データのスコアの上位から複数の前記候補語を抽出する
ことを特徴とする請求項２記載の類推エンジン。
文章、前記文章のインデックス、及び前記文章に含まれる複数の単語の重要度に基づいて算出されたスコアからなる複数の文書データが記録されたデータベースと、
前記データベースに記録されたスコアに基づいて決定する所定数の単語からなる前提単語群を入力とし、前記前提単語群に基づいて前記データベースに記録された文書データの中から所定数の文書データを選択して出力する類推エンジンと
を備えることを特徴とする類推システム。
前記類推エンジンは、前記データベースの文書データの文書に含まれる単語からファジィクラスタリングを用いて複数のクラスタを生成し、これら複数のクラスタ及び前記前提単語群との類似度に基づいて前記データベースに記録された文章データの中から所定数の文書データを選択する
ことを特徴とする請求項５記載の類推システム。
前記類推エンジンから出力された所定数の文書データは、ユーザによって採否判断され、
前記データベースは、過去に前記類推エンジンに入力された前記前提単語群、その前提単語群によって選択され出力された所定数の文書データからなる過去履歴が記録され、
前記類推エンジンは、前記過去履歴を参照し、新たに入力された前記前提単語群と前記過去履歴の前提単語群とを比較して類似度の高い過去履歴を抽出し、抽出された過去履歴の文章データ及び前記類似度に基づいて前記データベースに記録された文書データの中から所定数の文書データを選択して出力する
ことを特徴とする請求項４記載の類推システム。