JP5455060B2 - データベース、類推エンジン及び類推システム - Google Patents
データベース、類推エンジン及び類推システム Download PDFInfo
- Publication number
- JP5455060B2 JP5455060B2 JP2010083635A JP2010083635A JP5455060B2 JP 5455060 B2 JP5455060 B2 JP 5455060B2 JP 2010083635 A JP2010083635 A JP 2010083635A JP 2010083635 A JP2010083635 A JP 2010083635A JP 5455060 B2 JP5455060 B2 JP 5455060B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- words
- database
- analogy
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
本発明の第1の実施形態に係る類推システムは、過去の事例に基づいて経済動向を予測するシステムである。
先ず、具体的な実施形態を説明する前に、本予測システムの基礎となる概念ファジィ集合(Conceptual Fuzzy Sets、以下「CFS」と呼ぶ)について経済動向予測を念頭に置いて簡単に説明する。
CFSでは、予め、単語の意味と、文脈を示す直前の単語とのペアを文脈情報としてデータベースに蓄えておく。新たな文脈で単語(図1に示す“Context”)が出現したとき、データベースの文脈情報と適合するかの計算を行う。そして、その結果得られた適合度合いを重みにすることによって、蓄えられた単語の意味情報を統合し、新たな単語の意味(図1に示す“meaning”)を表したCFSを生成する。
次に、本発明の第1の実施形態に係る予測システムの機能ブロックについて説明する。
次に、データベース110のデータの構築方法を図4を参照しながら説明する。
次に、予測エンジン120の機能ブロックについて説明する。
図6中(2.1)に示すように、図3に示したマッチング部122が、対象ベース語から選択した、例えば、2個の単語の全ての組み合わせを作成する(図6のステップS121)。そして、これら単語の組み合わせ毎に対象ベース語それぞれの単語に付与されたTF−IDF値を掛け合わせてスコアTTを付与する。
次に、本予測システムに対する評価を行った。
ここでは、1989年、1990年の2年分の新聞の記事に基づいて構築されたデータベース110を用いて1994年の経済状況の動向を予測して評価する。評価は、図7に示す1994年の株価のデータを基準にし、予測語と実際の株価を照らし合わせて行う。例えば、株価が上昇している時に予測語に「上昇」、「急騰」などがあった場合、高い評価とし、逆に、予測語に「下落」、「急落」などがあった場合、低い評価とする。
パターン1:株価が急激に上がる(図7の状況A)。
パターン2:株価が急激に下がる(図7の状況B)。
パターン3:株価が下がり、更に下がる(図7の状況C)。
パターン4:株価が下がり、一転して上がる(図7の状況D、E)。
なお、パターン3の状況Cとパターン4の状況Dについては、数値的な下落傾向が似ている状況を選択している。このように似通った状況を選ぶことで、数値上では下がり方が似ていても予測語で違いがあるかどうか検証するためである。また、パターン4については、同じように株価が下落した場合でも、予測語上どのような違いが出るかを検証するために2箇所の状況D、Eを選択している。
本発明の第2の実施形態に係る類推システムは、第1の実施形態に係る予測システムを改良した予測システムである。
本実施形態に係る予測システムによれば、第1の実施形態に係る予測システムに比べ、より予測の精度を高めることができる。
本発明の第3の実施形態に係る類推システムは、ユーザに対し、DVDタイトルを推薦するCFSを利用した推薦システムである。
先ず、本実施形態に係る推薦システムの構成について説明する。
次に、推薦手法について説明する。
なお、一連の処理によって、図10に示すような過去の操作履歴が構築されることになる。この過去の操作履歴は、推薦エンジン220に対する入力単語と、この入力単語に基づいて推薦エンジン220が出力した推薦DVDに対するユーザの選好度合いを示すデータの組となっている。
第1のタイプの概念を図11に示す。このタイプは、ファジィクラスタリングを用いてアトミックファジィ集合を生成し、その重ね合わせによってCFSを実現している。
以上、CFSを利用した類推システムの応用例として、経済動向の予測システムとDVD推薦システムについて説明したが、本発明に係る推薦システムは、以上のようなシステムに限定されるものはない。例えば、音楽を推薦するシステム、ユーザの身体の状況や味の好みに基づいた料理レシピ紹介システム、気候や経済状況に基づいた洋服の流行を予測するシステムなど、様々なシステムに応用することができる。
120 予測エンジン
121 対象ベース語生成部
122 マッチング部
123 予測語生成部
210 データベース
220 推薦エンジン
230 操作履歴記録部
Claims (7)
- 複数の前提文章に含まれる単語のうち重要度の上位から抽出された複数の単語の集合である特徴語と、
結論文章に含まれる単語のうち、前記特徴語に含まれる複数の単語を組み合わせた連結語に共起する単語の集合である候補語と
の組からなる事象データが複数記憶されているデータベースを含む
ことを特徴とするデータベースシステム。 - 請求項1記載のデータベースを参照する類推エンジンであって、
複数の入力文章に含まれる単語のうち重要度の上位から抽出された複数の単語の集合である対象ベース語を生成する対象ベース語生成部と、
前記対象ベース語と前記特徴語のマッチングを行い、マッチングスコアの上位の特徴語と事象データを構成する候補語を抽出するマッチング部と、
前記マッチング部で抽出された候補語を統合して前記入力文章を前提とする結論である予測語を生成する予測語生成手段と
を備えることを特徴とする類推エンジン。 - 前記マッチング部は、
前記対象ベース語に含まれる複数の単語の組み合わせを生成し、これら複数の単語の重要度を掛け合わせてスコアを算出し、
前記データベースを参照し、前記生成された単語の組み合わせを含む前記特徴語が属する事象データを検索し、この検索した事象データのスコアに前記単語の組み合わせから算出されたスコアを加算し、新たな事象データのスコアを算出し、
前記新たな事象データのスコアの上位から複数の前記候補語を抽出する
ことを特徴とする請求項2記載の類推エンジン。 - 前記マッチング部は、
前記対象ベース語に含まれる複数の単語の組み合わせを生成し、
前記組み合わされた単語全てがデータベース上で出現する確率Q0、及び前記組み合わされた各単語がデータベース上で出現する確率をそれぞれ全て掛け合わせた値Qnを求め、前記単語の組み合わせの重さをlog(Q0/Qn)で算出し、
前記データベースを参照し、前記生成された単語の組み合わせを含む前記特徴語が属する事象データを検索し、この検索した事象データのスコアに前記単語の組み合わせから算出された重みを加算し、新たな事象データのスコアを算出し、
前記新たな事象データのスコアの上位から複数の前記候補語を抽出する
ことを特徴とする請求項2記載の類推エンジン。 - 文章、前記文章のインデックス、及び前記文章に含まれる複数の単語の重要度に基づいて算出されたスコアからなる複数の文書データが記録されたデータベースと、
前記データベースに記録されたスコアに基づいて決定する所定数の単語からなる前提単語群を入力とし、前記前提単語群に基づいて前記データベースに記録された文書データの中から所定数の文書データを選択して出力する類推エンジンと
を備えることを特徴とする類推システム。 - 前記類推エンジンは、前記データベースの文書データの文書に含まれる単語からファジィクラスタリングを用いて複数のクラスタを生成し、これら複数のクラスタ及び前記前提単語群との類似度に基づいて前記データベースに記録された文章データの中から所定数の文書データを選択する
ことを特徴とする請求項5記載の類推システム。 - 前記類推エンジンから出力された所定数の文書データは、ユーザによって採否判断され、
前記データベースは、過去に前記類推エンジンに入力された前記前提単語群、その前提単語群によって選択され出力された所定数の文書データからなる過去履歴が記録され、
前記類推エンジンは、前記過去履歴を参照し、新たに入力された前記前提単語群と前記過去履歴の前提単語群とを比較して類似度の高い過去履歴を抽出し、抽出された過去履歴の文章データ及び前記類似度に基づいて前記データベースに記録された文書データの中から所定数の文書データを選択して出力する
ことを特徴とする請求項4記載の類推システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010083635A JP5455060B2 (ja) | 2010-03-31 | 2010-03-31 | データベース、類推エンジン及び類推システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010083635A JP5455060B2 (ja) | 2010-03-31 | 2010-03-31 | データベース、類推エンジン及び類推システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011215897A JP2011215897A (ja) | 2011-10-27 |
JP5455060B2 true JP5455060B2 (ja) | 2014-03-26 |
Family
ID=44945559
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010083635A Expired - Fee Related JP5455060B2 (ja) | 2010-03-31 | 2010-03-31 | データベース、類推エンジン及び類推システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5455060B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013532874A (ja) * | 2010-07-28 | 2013-08-19 | トゥルー フィット コーポレイション | 履歴データに基づく適合性の確度の決定 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005135113A (ja) * | 2003-10-29 | 2005-05-26 | Sony Corp | 電子機器装置、関連語抽出方法及びプログラム |
JP2005222480A (ja) * | 2004-02-09 | 2005-08-18 | Oki Electric Ind Co Ltd | 重要語抽出装置、重要語抽出方法、および重要語抽出プログラム |
JP2009059323A (ja) * | 2007-09-04 | 2009-03-19 | Omron Corp | 知識生成システム |
JP2009086903A (ja) * | 2007-09-28 | 2009-04-23 | Nomura Research Institute Ltd | 検索サービス装置 |
JP5191204B2 (ja) * | 2007-10-17 | 2013-05-08 | 株式会社野村総合研究所 | 連想検索システム |
-
2010
- 2010-03-31 JP JP2010083635A patent/JP5455060B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2011215897A (ja) | 2011-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Pitenis et al. | Offensive language identification in Greek | |
Li et al. | Text-based crude oil price forecasting: A deep learning approach | |
KR102334064B1 (ko) | 음성 입력에 기초한 테이블형 데이터에 관한 연산의 수행 기법 | |
Alessia et al. | Approaches, tools and applications for sentiment analysis implementation | |
Mandal et al. | Unsupervised approaches for measuring textual similarity between legal court case reports | |
US8600922B2 (en) | Methods and systems for knowledge discovery | |
CN102622338B (zh) | 一种短文本间语义距离的计算机辅助计算方法 | |
WO2010038540A1 (ja) | テキストセグメントを有する文書から用語を抽出するためのシステム | |
Gupta et al. | Leveraging transfer learning techniques-bert, roberta, albert and distilbert for fake review detection | |
Gharatkar et al. | Review preprocessing using data cleaning and stemming technique | |
US20140089246A1 (en) | Methods and systems for knowledge discovery | |
Cajueiro et al. | A comprehensive review of automatic text summarization techniques: method, data, evaluation and coding | |
Trivedi et al. | Capturing user sentiments for online Indian movie reviews: A comparative analysis of different machine-learning models | |
Akther et al. | Compilation, analysis and application of a comprehensive Bangla Corpus KUMono | |
GB2572320A (en) | Hate speech detection system for online media content | |
JP5455060B2 (ja) | データベース、類推エンジン及び類推システム | |
Ali et al. | Towards enhanced identification of emotion from resource-constrained language through a novel multilingual BERT approach | |
Soni et al. | Comparative analysis of rotten tomatoes movie reviews using sentiment analysis | |
Widoyono et al. | Sentiment analysis of learning from home during pandemic covid-19 in indonesia | |
Drury | A Text Mining System for Evaluating the Stock Market's Response To News | |
Al Oudah et al. | Wajeez: An extractive automatic arabic text summarisation system | |
WO2021060967A1 (en) | A system and method for predictive analytics of articles | |
Irawan et al. | Public Response to the Legalization of The Criminal Code Bill with Twitter Data Sentiment Analysis | |
DeVille et al. | Text as Data: Computational Methods of Understanding Written Expression Using SAS | |
Ameri et al. | Authorship identification from unstructured texts: A stylometric approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20121112 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131112 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131122 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131210 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131226 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |