JP5594225B2 - 知識獲得装置、知識取得方法、及びプログラム - Google Patents
知識獲得装置、知識取得方法、及びプログラム Download PDFInfo
- Publication number
- JP5594225B2 JP5594225B2 JP2011110739A JP2011110739A JP5594225B2 JP 5594225 B2 JP5594225 B2 JP 5594225B2 JP 2011110739 A JP2011110739 A JP 2011110739A JP 2011110739 A JP2011110739 A JP 2011110739A JP 5594225 B2 JP5594225 B2 JP 5594225B2
- Authority
- JP
- Japan
- Prior art keywords
- word pair
- word
- morpheme
- search
- knowledge acquisition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 42
- 238000011156 evaluation Methods 0.000 claims description 21
- 238000004458 analytical method Methods 0.000 claims description 11
- 238000013480 data collection Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 description 32
- 238000004364 calculation method Methods 0.000 description 22
- 241000220259 Raphanus Species 0.000 description 14
- 235000006140 Raphanus sativus var sativus Nutrition 0.000 description 14
- 238000010586 diagram Methods 0.000 description 7
- 238000000605 extraction Methods 0.000 description 6
- 235000005733 Raphanus sativus var niger Nutrition 0.000 description 5
- 244000155437 Raphanus sativus var. niger Species 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 235000006886 Zingiber officinale Nutrition 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 235000008397 ginger Nutrition 0.000 description 3
- 230000010365 information processing Effects 0.000 description 3
- 230000000877 morphologic effect Effects 0.000 description 3
- 244000269722 Thea sinensis Species 0.000 description 2
- 241000234314 Zingiber Species 0.000 description 2
- 238000010923 batch production Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 235000013305 food Nutrition 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 235000013557 nattō Nutrition 0.000 description 2
- 244000025254 Cannabis sativa Species 0.000 description 1
- 206010019233 Headaches Diseases 0.000 description 1
- 244000273928 Zingiber officinale Species 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 235000013409 condiments Nutrition 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000010411 cooking Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 239000000428 dust Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 235000012041 food component Nutrition 0.000 description 1
- 239000005417 food ingredient Substances 0.000 description 1
- 231100000869 headache Toxicity 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Description
特定の関係を有する単語の対と、該単語の対を含む文に関する形態素の構造とを関連付けて持つ単語対テーブルを格納した第1の記憶手段と、
前記第1の記憶手段から抽出した単語の対と形態素の構造に、検索対象を限定する特定の事象を加えた検索キーを作成し、該検索キーで検索対象の文書群を格納した第2の記憶手段を検索して該検索キーの出現数を求め、求めた出現数を前記単語の対と前記形態素の構造に関連付けて前記単語対テーブルに格納する出現数情報取得手段と、
前記単語対テーブルを参照し、各単語の対に関する形態素の構造毎の出現数傾向と、全単語の対に関する形態素の構造毎の出現数傾向との合致程度に基づいて、前記各単語の対と前記特定の事象との関連性を評価した評価値を出力する評価手段と、
を備える知識獲得装置である。
図1は、本発明の一実施例に係る知識獲得装置1を含む情報システムの全体像である。図示するように、知識獲得装置1は、例えば、一又は複数のクライアントコンピュータ100がネットワーク50を介して接続されたサーバ装置である。また、知識獲得装置1は、ネットワーク50を介して大規模文書200にアクセス可能となっている。なお、ネットワーク50は、インターネット、携帯電話やPHS(Personal Handy-phone System)の電波網、LAN(Local Area Network)等を含む。
図3は、本実施例の知識獲得装置1の機能構成例である。知識獲得装置1は、単語対獲得部30と、検索部32と、スコア算出部34と、を備える。これらの機能ブロックは、補助記憶装置16等に格納されたプログラム・ソフトウエアをCPU10が実行することにより機能する。
単語対獲得部30は、所与のシードを元に、シードを含む文脈パターンを大規模文書200から検索する。
ここで、大規模文書200からのデータ検索は、大規模文書を所有している場合には既知の検索技術により行ない、大規模文書を所有していない場合にはGoogle(登録商標)に代表される既存の検索サービス業者により実施されている技術を利用して行う。このようなデータ検索の具体的内容に関しては、周知・慣用技術であるため詳細な説明は省略するが、一般的な文書検索で用いられるAND、OR、NOT等の検索条件を適切に設定することにより、単語対又は文脈パターンを含む文書を抽出することができる。
検索部32は、単語対獲得部30により生成された単語対テーブル40を元に、オペレータやユーザにより入力されたクエリを反映したデータ検索を、大規模文書200に対して実行する。そして、その結果を出現数テーブル42として格納する。
スコア算出部34は、検索部32により生成された出現数テーブル42を参照し、各単語対とクエリの関連性を評価し、評価結果に基づく出力を行う。
以下、知識獲得装置1が有する各機能ブロックの処理について、フローチャートに即して具体的に説明する。なお、全体フローについては、図4を参照することとし、図示を省略する。
(風邪/に/は)→(効く/よ)
(やっぱり) →(効く/よ)
(大根/が) →(効く/よ)
(一番) →(効く/よ)
(効く/よ) →<文末>
(風邪)→(に)→(は)→(効く)
(大根)→(が)→(効く)
(風邪/に)→(効く)
(効く)→(大根/を)
(大根/を)→(買っ/た)
(風邪/に)→(効く)→(大根/を)→(買っ/た)
(風邪→に)→(効く)→(大根→を)→(買っ→た)
以上説明した本実施例の知識獲得装置1によれば、適用先が決まった後に出現数テーブル42の生成及びスコア算出のみを行うことができるため、クエリが入力されてから単語対を取得するまでの処理時間を短くすることができる。従って、各単語対とクエリとの関連性を適切に評価した評価値を、より迅速に出力することができる。
(付記1)
特定の関係を有する単語の対と、該単語の対を含む文に関する形態素の構造とを関連付けて持つ単語対テーブルを格納した第1の記憶手段と、
前記第1の記憶手段から抽出した単語の対と形態素の構造に、検索対象を限定する特定の事象を加えた検索キーを作成し、該検索キーで検索対象の文書群を格納した第2の記憶手段を検索して該検索キーの出現数を求め、求めた出現数を前記単語の対と前記形態素の構造に関連付けて前記単語対テーブルに格納する出現数情報取得手段と、
前記単語対テーブルを参照し、各単語の対に関する形態素の構造毎の出現数傾向と、全単語の対に関する形態素の構造毎の出現数傾向との合致程度に基づいて、前記各単語の対と前記特定の事象との関連性を評価した評価値を出力する評価手段と、
を備える知識獲得装置。
(付記2)
付記1に記載の知識獲得装置であって、
前記評価手段は、各単語の対に関する形態素の構造毎の出現数に、全単語対に関する形態素の構造毎の出現数をそれぞれ乗じて合計し、総出現数で除した値を評価値として出力する手段である、
知識獲得装置。
(付記3)
付記1又は2に記載の知識獲得装置であって、
所与の単語の対又は形態素の構造を検索キーとして第2の記憶手段を検索し、得られた検索結果を検索キーに追加して更にデータ検索を行うことを繰り返すことにより、得られた複数の単語の対及び複数の形態素の構造を前記記憶手段に格納するデータ収集手段を更に備える、
知識獲得装置。
(付記4)
付記1ないし3のいずれか1項に記載の知識獲得装置であって、
前記単語の対を含む文に関する形態素の構造は、前記データ検索の対象文を係り受け解析をして得た最小限の部分構造となる形態素の構造から、前記単語対の形態素を除いた形態素の構造である、
知識獲得装置。
(付記5)
特定の関係を有する単語の対と、該単語の対を含む文に関する形態素の構造とを関連付けて持つ単語対テーブルを格納した第1の記憶手段と、
前記第1の記憶手段から抽出した単語の対と形態素の構造に、検索対象を限定する特定の事象を加えた検索キーを作成し、該検索キーで検索対象の文書群を格納した第2の記憶手段を検索して該検索キーの出現数を求め、求めた出現数を前記単語の対と前記形態素の構造に関連付けて前記単語対テーブルに格納する出現数情報取得手段と、
前記単語対テーブルを参照し、各形態素の構造に関する単語の対毎の出現数傾向と、全形態素の構造に関する単語の対毎の出現数傾向との合致程度に基づいて、前記各形態素の構造と前記特定の事象との関連性を評価した評価値を出力する評価手段と、
を備える知識獲得装置。
(付記6)
特定の関係を有する単語の対と、該単語の対を含む文に関する形態素の構造とを関連付けて持つ単語対テーブルを格納した第1の記憶手段から抽出した単語の対と形態素の構造に、検索対象を限定する特定の事象を加えた検索キーを作成し、該検索キーで検索対象の文書群を格納した第2の記憶手段を検索して該検索キーの出現数を求め、求めた出現数を前記単語の対と前記形態素の構造に関連付けて前記単語対テーブルに格納する処理と、
前記単語対テーブルを参照し、各単語の対に関する形態素の構造毎の出現数傾向と、全単語の対に関する形態素の構造毎の出現数傾向との合致程度に基づいて、前記各単語の対と前記特定の事象との関連性を評価した評価値を出力する処理と、
をコンピュータが実行する知識獲得方法。
(付記7)
特定の関係を有する単語の対と、該単語の対を含む文に関する形態素の構造とを関連付けて持つ単語対テーブルを格納した第1の記憶手段から抽出した単語の対と形態素の構造に、検索対象を限定する特定の事象を加えた検索キーを作成し、該検索キーで検索対象の文書群を格納した第2の記憶手段を検索して該検索キーの出現数を求め、求めた出現数を前記単語の対と前記形態素の構造に関連付けて前記単語対テーブルに格納する処理と、
前記単語対テーブルを参照し、各単語の対に関する形態素の構造毎の出現数傾向と、全単語の対に関する形態素の構造毎の出現数傾向との合致程度に基づいて、前記各単語の対と前記特定の事象との関連性を評価した評価値を出力する処理と、
をコンピュータに実行させるプログラム。
10 CPU
12 ドライブ装置
14 記憶媒体
16 補助記憶装置
18 メモリ装置
20 インタフェース装置
22 入力装置
24 出力装置
30 単語対獲得部
32 検索部
34 スコア算出部
40 単語対テーブル
40A 単語対リスト
40B 文脈パターンリスト
42 出現数テーブル
44 スコア付単語対
50 ネットワーク
100 クライアントコンピュータ
110 オペレータ
120 ユーザ
200 大規模文書
250 シード
260 クエリ
Claims (6)
- 特定の関係を有する単語の対と、該単語の対を含む文に関する形態素の構造とを関連付けて持つ単語対テーブルを格納した第1の記憶手段と、
前記第1の記憶手段から抽出した単語の対と形態素の構造に、検索対象を限定する特定の事象を加えた検索キーを作成し、該検索キーで検索対象の文書群を格納した第2の記憶手段を検索して該検索キーの出現数を求め、求めた出現数を前記単語の対と前記形態素の構造に関連付けて前記単語対テーブルに格納する出現数情報取得手段と、
前記単語対テーブルを参照し、各単語の対に関する形態素の構造毎の出現数傾向と、全単語の対に関する形態素の構造毎の出現数傾向との合致程度に基づいて、前記各単語の対と前記特定の事象との関連性を評価した評価値を出力する評価手段と、
を備える知識獲得装置。 - 請求項1に記載の知識獲得装置であって、
前記評価手段は、各単語の対に関する形態素の構造毎の出現数に、全単語対に関する形態素の構造毎の出現数をそれぞれ乗じて合計し、総出現数で除した値を評価値として出力する手段である、
知識獲得装置。 - 請求項1又は2に記載の知識獲得装置であって、
所与の単語の対又は形態素の構造を検索キーとして第2の記憶手段を検索し、得られた検索結果を検索キーに追加して更にデータ検索を行うことを繰り返すことにより、得られた複数の単語の対及び複数の形態素の構造を前記記憶手段に格納するデータ収集手段を更に備える、
知識獲得装置。 - 請求項1ないし3のいずれか1項に記載の知識獲得装置であって、
前記単語の対を含む文に関する形態素の構造は、前記データ検索の対象文を係り受け解析をして得た最小限の部分構造となる形態素の構造から、前記単語対の形態素を除いた形態素の構造である、
知識獲得装置。 - 特定の関係を有する単語の対と、該単語の対を含む文に関する形態素の構造とを関連付けて持つ単語対テーブルを格納した第1の記憶手段から抽出した単語の対と形態素の構造に、検索対象を限定する特定の事象を加えた検索キーを作成し、該検索キーで検索対象の文書群を格納した第2の記憶手段を検索して該検索キーの出現数を求め、求めた出現数を前記単語の対と前記形態素の構造に関連付けて前記単語対テーブルに格納する処理と、
前記単語対テーブルを参照し、各単語の対に関する形態素の構造毎の出現数傾向と、全単語の対に関する形態素の構造毎の出現数傾向との合致程度に基づいて、前記各単語の対と前記特定の事象との関連性を評価した評価値を出力する処理と、
をコンピュータが実行する知識獲得方法。 - 特定の関係を有する単語の対と、該単語の対を含む文に関する形態素の構造とを関連付けて持つ単語対テーブルを格納した第1の記憶手段から抽出した単語の対と形態素の構造に、検索対象を限定する特定の事象を加えた検索キーを作成し、該検索キーで検索対象の文書群を格納した第2の記憶手段を検索して該検索キーの出現数を求め、求めた出現数を前記単語の対と前記形態素の構造に関連付けて前記単語対テーブルに格納する処理と、
前記単語対テーブルを参照し、各単語の対に関する形態素の構造毎の出現数傾向と、全単語の対に関する形態素の構造毎の出現数傾向との合致程度に基づいて、前記各単語の対と前記特定の事象との関連性を評価した評価値を出力する処理と、
をコンピュータに実行させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011110739A JP5594225B2 (ja) | 2011-05-17 | 2011-05-17 | 知識獲得装置、知識取得方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011110739A JP5594225B2 (ja) | 2011-05-17 | 2011-05-17 | 知識獲得装置、知識取得方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012242966A JP2012242966A (ja) | 2012-12-10 |
JP5594225B2 true JP5594225B2 (ja) | 2014-09-24 |
Family
ID=47464642
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011110739A Expired - Fee Related JP5594225B2 (ja) | 2011-05-17 | 2011-05-17 | 知識獲得装置、知識取得方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5594225B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110263177A (zh) * | 2019-05-23 | 2019-09-20 | 广州市香港科大霍英东研究院 | 用于事件预测的知识图构建方法与事件预测方法 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9916376B2 (en) | 2015-08-11 | 2018-03-13 | Fujitsu Limited | Digital document keyword generation |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005122231A (ja) * | 2003-10-14 | 2005-05-12 | Hitachi Ltd | 画面表示システム及び画面表示方法 |
JP2008083927A (ja) * | 2006-09-27 | 2008-04-10 | Gifu Univ | 医療情報抽出装置、及び医療情報抽出プログラム |
JP5382651B2 (ja) * | 2009-09-09 | 2014-01-08 | 独立行政法人情報通信研究機構 | 単語対取得装置、単語対取得方法、およびプログラム |
-
2011
- 2011-05-17 JP JP2011110739A patent/JP5594225B2/ja not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110263177A (zh) * | 2019-05-23 | 2019-09-20 | 广州市香港科大霍英东研究院 | 用于事件预测的知识图构建方法与事件预测方法 |
Also Published As
Publication number | Publication date |
---|---|
JP2012242966A (ja) | 2012-12-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6095621B2 (ja) | 回答候補間の関係を識別および表示する機構、方法、コンピュータ・プログラム、ならびに装置 | |
JP5647508B2 (ja) | ショートテキスト通信のトピックを識別するためのシステムおよび方法 | |
JP4962967B2 (ja) | Webページ検索サーバ及びクエリ推薦方法 | |
JP2002245061A (ja) | キーワード抽出 | |
JP2007219929A (ja) | 感性評価システム及び方法 | |
JP2009245041A (ja) | 文書評価支援方法及びシステム | |
CN114692628A (zh) | 样本生成方法、模型训练方法、文本抽取方法和装置 | |
JP5204203B2 (ja) | 用例翻訳システム、用例翻訳方法及び用例翻訳プログラム | |
JP5427694B2 (ja) | 関連コンテンツ提示装置及びプログラム | |
JP2014132406A (ja) | 同義語抽出システム、方法およびプログラム | |
JP2009217689A (ja) | 情報処理装置、情報処理方法、及びプログラム | |
CN114141384A (zh) | 用于检索医学数据的方法、设备和介质 | |
JP5594225B2 (ja) | 知識獲得装置、知識取得方法、及びプログラム | |
JP2010272075A (ja) | 感性情報抽出装置、感性検索装置、その方法およびプログラム | |
Hosseini et al. | Implicit entity linking through ad-hoc retrieval | |
JP2007164635A (ja) | 同義語彙獲得方法及び装置及びプログラム | |
JP2007157048A (ja) | 体験情報評価方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
JP4361299B2 (ja) | 評価表現抽出装置、プログラム、及び記憶媒体 | |
JP2016162357A (ja) | 商品に対するユーザの感情分析装置及びプログラム | |
JP5499546B2 (ja) | 重要語抽出方法、装置、プログラム、記録媒体 | |
JP2011100191A (ja) | 文書検索装置、文書検索方法、及び文書検索プログラム | |
JP4938515B2 (ja) | 単語間相関度計算装置および方法、プログラム並びに記録媒体 | |
JP2019061522A (ja) | 文書推薦システム、文書推薦方法および文書推薦プログラム | |
JP6181890B2 (ja) | 文献解析装置、文献解析方法およびプログラム | |
JP2007241635A (ja) | 文書検索装置、情報処理装置、検索結果出力方法、検索結果表示方法およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140204 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140627 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140708 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140721 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5594225 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |