JP5455060B2 - データベース、類推エンジン及び類推システム - Google Patents

データベース、類推エンジン及び類推システム Download PDF

Info

Publication number
JP5455060B2
JP5455060B2 JP2010083635A JP2010083635A JP5455060B2 JP 5455060 B2 JP5455060 B2 JP 5455060B2 JP 2010083635 A JP2010083635 A JP 2010083635A JP 2010083635 A JP2010083635 A JP 2010083635A JP 5455060 B2 JP5455060 B2 JP 5455060B2
Authority
JP
Japan
Prior art keywords
word
words
database
analogy
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010083635A
Other languages
English (en)
Other versions
JP2011215897A (ja
Inventor
友博 高木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
MEIJI UNIVERSITY LEGAL PERSON
Original Assignee
MEIJI UNIVERSITY LEGAL PERSON
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by MEIJI UNIVERSITY LEGAL PERSON filed Critical MEIJI UNIVERSITY LEGAL PERSON
Priority to JP2010083635A priority Critical patent/JP5455060B2/ja
Publication of JP2011215897A publication Critical patent/JP2011215897A/ja
Application granted granted Critical
Publication of JP5455060B2 publication Critical patent/JP5455060B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

この発明は、言語情報に基づくデータベース、類推エンジン及び類推システムに関する。
従来ある類推システムの多くは、様々な要因を数値化した数学モデルによって実現している。この様な類推システムの具体例として、特許文献1記載の予測システムがある。この予測システムは、過去の損失額、過去の気象、及び経済指標データに基づいて事業リスクを予測している。
しかし、経済分野に関して言えば、投資家やエコノミストは、何らかの経済的イベントが他に与える影響を感覚的に判断し、将来の経済動向を予測していることが多い。例えば、「現在の経済状態は、××年(過去)の状況に似ているため、今後○○となる公算が強い」などと予測する。実際、株価は、投資家の市場に対する心理(センチメント)、つまり期待感や不安感の膨らみによって大きく変動する。このような心理変動は言語で表わされていることが多い。
経済分野に限らず、一般的に、ある与えられた前提に対してある結果を類推する場合、言語情報に基づいて処理することは有効であるが、このような言語情報は数式に載せることが困難である。したがって、コンピュータシステムへの実装は困難である。
特開2004−272674号公報
この発明は、言語情報に基づくデータベース、類推エンジン及び類推システムを提供することを目的とする。
本発明の一態様に係るデータベースは、複数の前提文章に含まれる単語のうち重要度の上位から抽出された複数の単語の集合である特徴語と、結論文章に含まれる単語のうち、前記特徴語に含まれる複数の単語を組み合わせた連結語に共起する単語の集合である候補語との組からなる事象データが複数記憶されていることを特徴とする。
本発明の一態様に係る類推エンジンは、前記データベースを参照する類推エンジンであって、複数の入力文章に含まれる単語のうち重要度の上位から抽出された複数の単語の集合である対象ベース語を生成する対象ベース語生成部と、前記対象ベース語と前記特徴語のマッチングを行い、マッチングスコアの上位の特徴語と事象データを構成する候補語を抽出するマッチング部と、前記マッチング部で抽出された候補語を統合して前記入力文章を前提とする結論である予測語を生成する予測語生成手段とを備えることを特徴とする。
本発明の一態様に係る類推システムは、文章、前記文章のインデックス、及び前記文章に含まれる複数の単語の重要度に基づいて算出されたスコアからなる複数の文書データが記録されたデータベースと、前記データベースに記録されたスコアに基づいて決定する所定数の単語からなる前提単語群を入力とし、前記前提単語群に基づいて前記データベースに記録された文書データの中から所定数の文書データを選択して出力する類推エンジンとを備えることを特徴とする。
この発明は、言語情報に基づくデータベース、類推エンジン及び類推システムを提供することができる。
概念ファジィ集合の概念図である。 本発明の第1の実施形態に係る予測システムの概念図である。 本予測システムの機能ブロック図である。 本予測システムのデータベースの構築方法を示す図である。 本予測システムの予測手法を説明する図である。 本予測システムの予測手法を説明する図である。 本予測システムに対する評価基準となる株価の推移を示す図である。 本予測システムに対する実験結果を示す図である。 本発明の第3の実施形態に係る推薦システムの機能ブロック及び処理のフローを示す図である。 本推薦システムの過去の操作履歴を示す図である。 本推薦システムの推薦手法を説明する図である。 本推薦システムの他の推薦手法を説明する図である。
以下、添付の図面を参照して本発明の実施形態について説明する。
[第1の実施形態]
本発明の第1の実施形態に係る類推システムは、過去の事例に基づいて経済動向を予測するシステムである。
[概念ファジィ集合]
先ず、具体的な実施形態を説明する前に、本予測システムの基礎となる概念ファジィ集合(Conceptual Fuzzy Sets、以下「CFS」と呼ぶ)について経済動向予測を念頭に置いて簡単に説明する。
人間は、「A(前提)→B(結論)」という事例に基づいて、「C→X?」という問題の解(X)を類推によって求めることができる。しかし、この解は、述語論理を用いた通常の人工知能システムでは求めることができない。また、事例ベース類推によって解を得ようとする試みもあるが成功には至っていない。一方、ファジィ論理研究の歴史においては、近似類推というテーマで長く研究されてきた。これは、ファジィ論理を他の知的システムと差別化をする重要な点であった。
しかし、ファジィ論理における近似類推にも解決されていない大きな問題がある。それは、上記のAやBが、形容詞のように物事の程度を表す場合、例えば、「○○が大きい場合、××が小さくなる」といった場合を除き、処理できない点である。しかし、実社会では、人間が類推に使用する材料には名詞で表現される事実が多い。例えば、「テロ(前提)→経済不安(結論)」といったものが挙げられる。このようなイベント同士の関係は経済に大きな影響を与えるが、ファジィ論理ではその影響を類推することはできない。
そこで、文脈に影響を受けさまざまに変化する語の意味を表現する方法として考えられたのがCFSである。
図1は、CFSの概念図である。
CFSでは、予め、単語の意味と、文脈を示す直前の単語とのペアを文脈情報としてデータベースに蓄えておく。新たな文脈で単語(図1に示す“Context”)が出現したとき、データベースの文脈情報と適合するかの計算を行う。そして、その結果得られた適合度合いを重みにすることによって、蓄えられた単語の意味情報を統合し、新たな単語の意味(図1に示す“meaning”)を表したCFSを生成する。
このCFSの考え方を予測システムに応用すると、図2のように表わすことができる。つまり、過去の経済状況とその後に起こった経済状況を事象データとしてデータベースに蓄えておき、新たな経済状況(図2に示す“condition”)が出現したとき、過去の経済状況と適合するかの計算を行い、新たな経済状況(図2に示す“result”)、つまり、将来の経済状況を予測する。
[予測システムの構成]
次に、本発明の第1の実施形態に係る予測システムの機能ブロックについて説明する。
本予測システムは、図3に示すように、過去の事例に基づくデータが記憶されるデータベース110と、このデータベース110を参照し、指定された日にちの経済動向を予測する予測エンジン120からなる。
[データベースの構築]
次に、データベース110のデータの構築方法を図4を参照しながら説明する。
ある日の出来事は、前の出来事に影響を受けて起こる。そこで、本実施形態では、例えば、ある日の新聞の記事(結論文章)から求めた単語と、その日前一週間の新聞の記事(前提文章)から求めた単語とを抽出し、これら単語を組にしてデータベース110に格納しておく。以下の説明において、ある日の新聞の記事とある日前一週間の新聞の記事とを合わせたものを「ウィンドウ」と呼ぶ。
データベース110の構築は、ウィンドウを1日ずつずらしてスキャンしながら各ウィンドウにおいて以下の処理を実行する。
先ず、図4中(1)に示すように、新聞コーパスからある一週間分の新聞記事を取り出し(図4のステップS101)、全ての記事について形態素解析して単語の重要度としてTF−IDF値(単語の出現頻度−逆出現頻度)を求める。その中からTF−IDF値の上位の単語(例えば、上位10個)を抽出する(図4のステップS102)。この抽出された単語の集合を特徴語(Feature Word)と呼ぶ。
続いて、図4中(2)に示すように、例えば、特徴語から数個の単語を選択し、これら単語の組み合わせを作成する(図4のステップS103)。この単語の組み合わせを連結語(Combination Word)と呼び、1つの特徴語から生成される連結語の組を連結語セット(Combination Word Set)と呼ぶ。
続いて、図4中(3)に示すように、ある日、つまりウィンドウにおける8日目の新聞の記事と連結語に共起する文章(Co−occurrence Sentence)を摘出し(図4のステップS104)、全ての共起する文章に含まれている単語(名詞)を抜き出す(図4のステップS105)。これらの操作を連結語セットの全ての連結語に対して行う。このように抜き出した名詞の集合を候補語(Candidate Word)と呼ぶ。
最後に、図4中(4)に示すように、候補語毎に次式(1)に示す関係レベル(Relation Level、以下「RL」と呼ぶ。)を付与する(図4のステップS106)。
Figure 0005455060
ここで、「CO」は、連結語を示し、「CA」は、候補語を示す。また、「COUNT」は、全文章(記事)数(AS)に対する、所定の単語(words)が含まれた文章(記事)数(W)の割合を示す尺度であり、次式(2)で求めることができる。
Figure 0005455060
この式(1)に示す計算を候補語全てに対して行う。
以上によって求めた特徴語と候補語を組にしたものが事象データである。この事象データを過去状況(Past Situation)と呼ぶ。この過去状況が1つのウィンドウのデータとなる。例えば、以上の操作を2年分の新聞について実行した場合、データベース110には、730ウィンドウ分程度のデータが記憶される。
[予測エンジンと予測手法]
次に、予測エンジン120の機能ブロックについて説明する。
予測エンジン120は、図3に示すように、予測する日にちの新聞からTF−IDF値の高い単語を抽出する対象ベース語生成部121、対象ベース語生成部121によって抽出された単語と過去の新聞とのマッチングを行うマッチング部122、このマッチング部122のマッチング結果に基づいて将来の経済動向を示す単語を生成する予測語生成部123からなる。
対象ベース語生成部121は、予測する日にちの前の一週間分の記事を新聞コーパスから取り出し、図4中(1)に示す処理と同様、一週間分の新聞の記事に含まれる単語のTF−IDF値を求める。そして、全ての単語の中からTF−IDF値の上位の単語(例えば上位10個)を抽出する。この単語の集合は、図5中(1)に示すように対象ベース語(Target Base Word)となる。
次に、予測エンジン120の予測手法を図5、図6を参照しながら説明する。
図6中(2.1)に示すように、図3に示したマッチング部122が、対象ベース語から選択した、例えば、2個の単語の全ての組み合わせを作成する(図6のステップS121)。そして、これら単語の組み合わせ毎に対象ベース語それぞれの単語に付与されたTF−IDF値を掛け合わせてスコアTTを付与する。
続いて、図6中(2.2)に示すように、マッチング部122が、データベース110上の各特徴語を参照し(図5のステップS111)、ステップS121で作成された単語の組み合わせが含まれているかを調べる(図6のステップS122)。ここで、もし含まれている場合、データベース110が記録する過去状況のスコアPSに対象ベース語のスコアTTを加算し、新たなスコアPSを求める。この処理をデータベース110に含まれている全ての過去状況に対して実行する。
続いて、図6中(2.3)に示すように、マッチング部122が、過去状況のスコアPSの上位の候補語(例えば上位5個)を抽出する(図5のステップS112、図6のステップS123)。この抽出された候補語を選択候補語と呼び、これら5つの選択候補語を選択候補語セット(Selected Candidate Word Set)と呼ぶ。
最後に、図5中(3)に示すように、図3に示した予測語生成部123が、マッチング部122で求めた選択候補語を統合する(図5のステップS113)。統合する際に候補語のRLと過去状況のスコアPSを掛け合わせる。この統合したものを予測語(Predict Word)と呼ぶ。ユーザは、この予測語生成部123から出力された予測語に基づいて、将来の経済動向を予測する。
[評価]
次に、本予測システムに対する評価を行った。
始めに、評価方法について説明する。
ここでは、1989年、1990年の2年分の新聞の記事に基づいて構築されたデータベース110を用いて1994年の経済状況の動向を予測して評価する。評価は、図7に示す1994年の株価のデータを基準にし、予測語と実際の株価を照らし合わせて行う。例えば、株価が上昇している時に予測語に「上昇」、「急騰」などがあった場合、高い評価とし、逆に、予測語に「下落」、「急落」などがあった場合、低い評価とする。
今回の以下の4パターンについて評価した。
パターン1:株価が急激に上がる(図7の状況A)。
パターン2:株価が急激に下がる(図7の状況B)。
パターン3:株価が下がり、更に下がる(図7の状況C)。
パターン4:株価が下がり、一転して上がる(図7の状況D、E)。
なお、パターン3の状況Cとパターン4の状況Dについては、数値的な下落傾向が似ている状況を選択している。このように似通った状況を選ぶことで、数値上では下がり方が似ていても予測語で違いがあるかどうか検証するためである。また、パターン4については、同じように株価が下落した場合でも、予測語上どのような違いが出るかを検証するために2箇所の状況D、Eを選択している。
続いて、上記評価方法に対する本予測システムの結果について説明する。図8は、図7の状況A〜Eに対するスコア上位30個の予測語を示している。
パターン1の状況Aの場合、「安」、「上昇」といった単語が出現しており、株価上昇が予測できる。
パターン2の状況Bの場合、「悪影響」、「低迷」、「下落」、「難」、「不振」といった単語が出現しており、株価下落が予測できる。
パターン3の状況Cとパターン4の状況Dを比較する。状況Cでは「安値」、「下落」といった状況Bに似たような単語が出現している。そのため、株価が悪化することが予測できる。逆に、状況Dでは「反騰」、「急騰」というような単語が出現している。このように、状況C、Dは前の一週間の株価動向が似ているにも関わらず予測結果が反対の傾向を示している。この点から本予測システムによれば、数値として株価の推移が似ていても、過去の一週間の新聞記事に出現する単語の違いを反映した好ましい結果を得ることができる。
パターン3の状況Dと状況Eを比較する。状況Eでは「上昇」という単語が出現している。このように、状況Eの場合、状況Dの場合と表現が異なる単語が出現しているが、結果的に同じような状況を予測することができる。
以上の結果から、本予測システムによれば、過去の状況を表わす言語情報に基づいて、将来の経済動向を表わす言語情報(予測語)を得る事ができる。
[第2の実施形態]
本発明の第2の実施形態に係る類推システムは、第1の実施形態に係る予測システムを改良した予測システムである。
本実施形態に係る予測システムは、第1の実施形態に係る予測システムと比べ、マッチング部122による処理が異なる。そこで、以下では、第1の実施形態との相違点であるマッチング部122による処理を説明し、その他の説明については割愛する。なお、本予測システムのマッチング部の符号は便宜上122´と表わす。
本実施形態のマッチング部122´は、先ず、対象ベース語生成部121が生成した対象ベース語の中から、図6中(2.1)と同様、例えば、2個の単語A、Bの組み合わせを作成する(図6のステップS121相当)。そして、これら単語A、Bの組み合わせ毎に次式(3)のような重みMIを付与する。
Figure 0005455060
ここで、Q(AB)は、単語A、Bが両方出現したデータベース110上の確率を示し、Q(A)、Q(B)は、単語A又は単語Bが出現したデータベース上の確率を示す。
続いて、図6中(2.2)と同様、マッチング部122´が、データベース110上の各特徴語を参照し(図5のステップS111に相当)、上記ステップで作成された単語A、Bの組み合わせが含まれているかを調べる(図6のステップS122に相当)。ここで、もし含まれている場合、データベース110が記録する過去状況のスコアPSに対象ベース語の重みMIを加算し、新たなスコアPSを求める。この処理をデータベース110に含まれている全ての過去状況に対して実行する。
続いて、図6中(2.3)と同様、マッチング部122が、過去状況のスコアPSの上位の候補語(例えば上位5個)を抽出する(図5のステップS112、図6のステップS123に相当)。この抽出された候補語が選択候補語、これら5つの選択候補語が選択候補語セットとなる。
その後の予測語生成部123による処理は、第1の実施形態と同様である。
本実施形態に係る予測システムによれば、第1の実施形態に係る予測システムに比べ、より予測の精度を高めることができる。
[第3の実施形態]
本発明の第3の実施形態に係る類推システムは、ユーザに対し、DVDタイトルを推薦するCFSを利用した推薦システムである。
[推薦システムの構成]
先ず、本実施形態に係る推薦システムの構成について説明する。
図9は、本実施形態に係る推薦システムの機能ブロックを示す図である。なお、図9には、推薦処理のフローも併せて示している。
本推薦システムは、データベース210、このデータベースを参照してユーザのニーズにあったDVDタイトルを推薦する推薦エンジン220、及び現在の操作履歴を記録する操作履歴記録部230とからなる。ここで、現在の操作履歴には、現在登録されているユーザが気に入ったDVDのリスト(以下、「お気に入りリスト」と呼ぶ)と、ユーザが気に入らないDVDのリスト(以下、「不要リスト」と呼ぶ)が含まれている。
データベース210には、DVDデータと過去の操作履歴が保存されている。DVDデータは、DVDタイトルと、このDVDタイトルの内容を示す単語からなる。この単語は、DVDタイトルを紹介するテキストから抽出された名詞となっており、TF−IDF値を用いてスコア付けされている。なお、過去の操作履歴については後述する。
[推薦手法]
次に、推薦手法について説明する。
始めに、ユーザによって、画面に表示された推薦DVDに対して、「お気に入り」「要らない」の選好度合いを示す操作を行う(図9のステップS201)。この操作は、データベース210にフィードバックされ過去の操作履歴に記録されると共に(図9のステップS202)、DVD毎に付与された単語のスコア付けの修正に用いられる(図9のステップS203)。
続いて、スコア付けされた名詞のうち,スコアの上位の単語を抽出する(図9のステップS204)。この抽出された単語は、データベース201にフィードバックされ過去の操作履歴に記録されると共に(図9のステップS205)、推薦エンジン220に入力される(図9のステップS206)。
続いて、推薦エンジン220は、ステップS206において入力された入力単語(前提単語)に基づいて推薦するDVDタイトルをスコア付けし、DVDリストとして出力する(図9のステップS207)。
続いて、ステップS207において出力されたDVDリストに対して、現在の操作履歴のお気に入りリスト及び不要リストに含まれているDVDタイトルでフィルタリングし(図9のステップS208)、推薦DVDとして画面に表示する(図9のステップS209)。
最後に、ステップS209で表示された推薦DVDに対して、ユーザが選好度合いを示す操作を行う(図9のステップS201)。
以降、上記ステップS201〜S209が繰り返えされる。
なお、一連の処理によって、図10に示すような過去の操作履歴が構築されることになる。この過去の操作履歴は、推薦エンジン220に対する入力単語と、この入力単語に基づいて推薦エンジン220が出力した推薦DVDに対するユーザの選好度合いを示すデータの組となっている。
次に、推薦エンジン220の処理例について説明する。
第1のタイプの概念を図11に示す。このタイプは、ファジィクラスタリングを用いてアトミックファジィ集合を生成し、その重ね合わせによってCFSを実現している。
始めに、全てのDVDデータの単語に対してファジィクラスタリングを行い、入力単語と各クラスタとの類似度を求める。
続いて、類似度の高いクラスタ(図11の斜線を示したクラスタ)を用いて拡張語群を作成する。
最後に、この拡張語群とDVDデータの類似度を求め、類似度の高いDVDタイトルをDVDリストとして出力する。
第1のタイプでは、単語の特徴付けをし、単語の意味を形成することでDVDの内容に基づいた推薦をすることができる。このタイプは、ユーザの操作履歴に依らず、入力単語のみを利用するため、次に説明する第2のタイプの操作履歴集めに用いることができる。
第2のタイプの概念を図12に示す。このタイプは、入力単語とDVDの内容紹介テキストにおける単語の共起のみで関係を導きだし、推薦を行っている。
第2のタイプは、データベースに蓄えてある過去の操作履歴の入力単語と、現在の入力単語とを比較(マッチング)する。その結果、類似度が高い過去の操作履歴について、この過去の操作履歴のDVDリストを足し合わせて、DVDリストとして出力する。
この第2のタイプでは、過去の操作履歴を利用しているため、ユーザの趣向に沿ったDVDタイトルを推薦することができる。
以上から、本推薦システムによれば、過去の操作履歴とDVDタイトルの言語情報からユーザの趣向に沿ったDVDタイトルを推薦できるばかりでなく、過去の操作履歴に他人の操作履歴も含まれていることから、ユーザにとって意外性のある新規なDVDタイトルの推薦が可能になる。
[その他]
以上、CFSを利用した類推システムの応用例として、経済動向の予測システムとDVD推薦システムについて説明したが、本発明に係る推薦システムは、以上のようなシステムに限定されるものはない。例えば、音楽を推薦するシステム、ユーザの身体の状況や味の好みに基づいた料理レシピ紹介システム、気候や経済状況に基づいた洋服の流行を予測するシステムなど、様々なシステムに応用することができる。
110 データベース
120 予測エンジン
121 対象ベース語生成部
122 マッチング部
123 予測語生成部
210 データベース
220 推薦エンジン
230 操作履歴記録部

Claims (7)

  1. 複数の前提文章に含まれる単語のうち重要度の上位から抽出された複数の単語の集合である特徴語と、
    結論文章に含まれる単語のうち、前記特徴語に含まれる複数の単語を組み合わせた連結語に共起する単語の集合である候補語と
    の組からなる事象データが複数記憶されているデータベースを含む
    ことを特徴とするデータベースシステム
  2. 請求項1記載のデータベースを参照する類推エンジンであって、
    複数の入力文章に含まれる単語のうち重要度の上位から抽出された複数の単語の集合である対象ベース語を生成する対象ベース語生成部と、
    前記対象ベース語と前記特徴語のマッチングを行い、マッチングスコアの上位の特徴語と事象データを構成する候補語を抽出するマッチング部と、
    前記マッチング部で抽出された候補語を統合して前記入力文章を前提とする結論である予測語を生成する予測語生成手段と
    を備えることを特徴とする類推エンジン。
  3. 前記マッチング部は、
    前記対象ベース語に含まれる複数の単語の組み合わせを生成し、これら複数の単語の重要度を掛け合わせてスコアを算出し、
    前記データベースを参照し、前記生成された単語の組み合わせを含む前記特徴語が属する事象データを検索し、この検索した事象データのスコアに前記単語の組み合わせから算出されたスコアを加算し、新たな事象データのスコアを算出し、
    前記新たな事象データのスコアの上位から複数の前記候補語を抽出する
    ことを特徴とする請求項2記載の類推エンジン。
  4. 前記マッチング部は、
    前記対象ベース語に含まれる複数の単語の組み合わせを生成し、
    前記組み合わされた単語全てがデータベース上で出現する確率Q、及び前記組み合わされた各単語がデータベース上で出現する確率をそれぞれ全て掛け合わせた値Qを求め、前記単語の組み合わせの重さをlog(Q/Q)で算出し、
    前記データベースを参照し、前記生成された単語の組み合わせを含む前記特徴語が属する事象データを検索し、この検索した事象データのスコアに前記単語の組み合わせから算出された重みを加算し、新たな事象データのスコアを算出し、
    前記新たな事象データのスコアの上位から複数の前記候補語を抽出する
    ことを特徴とする請求項2記載の類推エンジン。
  5. 文章、前記文章のインデックス、及び前記文章に含まれる複数の単語の重要度に基づいて算出されたスコアからなる複数の文書データが記録されたデータベースと、
    前記データベースに記録されたスコアに基づいて決定する所定数の単語からなる前提単語群を入力とし、前記前提単語群に基づいて前記データベースに記録された文書データの中から所定数の文書データを選択して出力する類推エンジンと
    を備えることを特徴とする類推システム。
  6. 前記類推エンジンは、前記データベースの文書データの文書に含まれる単語からファジィクラスタリングを用いて複数のクラスタを生成し、これら複数のクラスタ及び前記前提単語群との類似度に基づいて前記データベースに記録された文章データの中から所定数の文書データを選択する
    ことを特徴とする請求項5記載の類推システム。
  7. 前記類推エンジンから出力された所定数の文書データは、ユーザによって採否判断され、
    前記データベースは、過去に前記類推エンジンに入力された前記前提単語群、その前提単語群によって選択され出力された所定数の文書データからなる過去履歴が記録され、
    前記類推エンジンは、前記過去履歴を参照し、新たに入力された前記前提単語群と前記過去履歴の前提単語群とを比較して類似度の高い過去履歴を抽出し、抽出された過去履歴の文章データ及び前記類似度に基づいて前記データベースに記録された文書データの中から所定数の文書データを選択して出力する
    ことを特徴とする請求項4記載の類推システム。
JP2010083635A 2010-03-31 2010-03-31 データベース、類推エンジン及び類推システム Expired - Fee Related JP5455060B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010083635A JP5455060B2 (ja) 2010-03-31 2010-03-31 データベース、類推エンジン及び類推システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010083635A JP5455060B2 (ja) 2010-03-31 2010-03-31 データベース、類推エンジン及び類推システム

Publications (2)

Publication Number Publication Date
JP2011215897A JP2011215897A (ja) 2011-10-27
JP5455060B2 true JP5455060B2 (ja) 2014-03-26

Family

ID=44945559

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010083635A Expired - Fee Related JP5455060B2 (ja) 2010-03-31 2010-03-31 データベース、類推エンジン及び類推システム

Country Status (1)

Country Link
JP (1) JP5455060B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013532874A (ja) * 2010-07-28 2013-08-19 トゥルー フィット コーポレイション 履歴データに基づく適合性の確度の決定

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005135113A (ja) * 2003-10-29 2005-05-26 Sony Corp 電子機器装置、関連語抽出方法及びプログラム
JP2005222480A (ja) * 2004-02-09 2005-08-18 Oki Electric Ind Co Ltd 重要語抽出装置、重要語抽出方法、および重要語抽出プログラム
JP2009059323A (ja) * 2007-09-04 2009-03-19 Omron Corp 知識生成システム
JP2009086903A (ja) * 2007-09-28 2009-04-23 Nomura Research Institute Ltd 検索サービス装置
JP5191204B2 (ja) * 2007-10-17 2013-05-08 株式会社野村総合研究所 連想検索システム

Also Published As

Publication number Publication date
JP2011215897A (ja) 2011-10-27

Similar Documents

Publication Publication Date Title
Pitenis et al. Offensive language identification in Greek
Li et al. Text-based crude oil price forecasting: A deep learning approach
KR102334064B1 (ko) 음성 입력에 기초한 테이블형 데이터에 관한 연산의 수행 기법
Alessia et al. Approaches, tools and applications for sentiment analysis implementation
Mandal et al. Unsupervised approaches for measuring textual similarity between legal court case reports
US8600922B2 (en) Methods and systems for knowledge discovery
CN102622338B (zh) 一种短文本间语义距离的计算机辅助计算方法
WO2010038540A1 (ja) テキストセグメントを有する文書から用語を抽出するためのシステム
Gupta et al. Leveraging transfer learning techniques-bert, roberta, albert and distilbert for fake review detection
Gharatkar et al. Review preprocessing using data cleaning and stemming technique
US20140089246A1 (en) Methods and systems for knowledge discovery
Cajueiro et al. A comprehensive review of automatic text summarization techniques: method, data, evaluation and coding
Trivedi et al. Capturing user sentiments for online Indian movie reviews: A comparative analysis of different machine-learning models
Akther et al. Compilation, analysis and application of a comprehensive Bangla Corpus KUMono
GB2572320A (en) Hate speech detection system for online media content
JP5455060B2 (ja) データベース、類推エンジン及び類推システム
Ali et al. Towards enhanced identification of emotion from resource-constrained language through a novel multilingual BERT approach
Soni et al. Comparative analysis of rotten tomatoes movie reviews using sentiment analysis
Widoyono et al. Sentiment analysis of learning from home during pandemic covid-19 in indonesia
Drury A Text Mining System for Evaluating the Stock Market's Response To News
Al Oudah et al. Wajeez: An extractive automatic arabic text summarisation system
WO2021060967A1 (en) A system and method for predictive analytics of articles
Irawan et al. Public Response to the Legalization of The Criminal Code Bill with Twitter Data Sentiment Analysis
DeVille et al. Text as Data: Computational Methods of Understanding Written Expression Using SAS
Ameri et al. Authorship identification from unstructured texts: A stylometric approach

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121112

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131112

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131122

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131210

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131226

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees