JP2013186766A - 情報検索方法、プログラムおよび情報検索装置 - Google Patents
情報検索方法、プログラムおよび情報検索装置 Download PDFInfo
- Publication number
- JP2013186766A JP2013186766A JP2012052465A JP2012052465A JP2013186766A JP 2013186766 A JP2013186766 A JP 2013186766A JP 2012052465 A JP2012052465 A JP 2012052465A JP 2012052465 A JP2012052465 A JP 2012052465A JP 2013186766 A JP2013186766 A JP 2013186766A
- Authority
- JP
- Japan
- Prior art keywords
- search
- sentence
- unit
- minimum
- evaluation value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】自然言語文の検索クエリーを受け付け、その自然言語文を意味解析し、意味解析結果から、検索キーとなる意味最小単位を特定する。意味最小単位は、2つの単語間の意味関係あるいは単語の役割を含む。予め検索対象文に含まれる意味最小単位が格納されている検索用インデックスから、検索キーと一致する意味最小単位を含む検索対象文を検索し、意味最小単位の評価値から文の評価値と文書の評価値を算出し、評価値によりランキングされた検索結果を出力する。
【選択図】図1
Description
(1)ユーザが意図した通りに検索されない。
(2)キーワードを含んでいても意図しない文書が検索される。
・田中穗積、辻井潤一共編『自然言語理解』(オーム社、1988年)
・Steven Bird, Ewan Klein, Edward Loper著 萩原正人、中山敬広、水 貴明訳『入門 自然言語処理』 O'Reilly Japan, 2010.
・WEBサイト『Pythonによる日本語自然言語処理』(http://nltk.googlecode.com/svn/trunk/doc/book-jp/ch12.html)
(1)アークが2つのノードをつないでいる場合には、意味最小単位として、それぞれのアークに対して、(アークが出る始点ノード、アークが向かう終点ノード、アークの名前)を出力する。
(2)アークが出る起点ノードがない場合には、意味最小単位として、(「NIL」、アークが向かう終点ノード、アークの名前)を出力する。
(3)アークが向かう終点ノードがない場合には、意味最小単位として、(アークが出る起点ノード,"NIL",アークの名前)を出力する。
(2.0*1+2.0*1+2.0*1+2.0*1+2.0*1+2.0*1) * (6^2) = 432.0
となる。文nの評価値は、
(2.0*1+2.0*1) * (2^2) = 16.0
となる。文qの評価値は、
(2.0*1+2.0*1+2.0*1) * (3^2) = 54.0
となる。文pの評価値は、
(2.0*1) * (2^1) = 4.0
となる。このように、検索クエリーに係る意味最小単位をより多く含む文ほど、M2が大きくなり、高評価となる。
検索結果1位: 文書A(評価値=450.0)
検索結果2位: 文書C(評価値=253.0)
検索結果3位: 文書B(評価値=106.0)
検索結果4位: 文書D(評価値=90.0)
1.語の意味と意味の関係を指定して検索できる。
2.抽出された文書をクエリーに関係の深い順にランキングし、出力できる。
1.文nの評価値(Sn)の総計:上述の算出方法
2.文書Dに含まれる文を評価値順にソートし、評価値が高いものから上位m件の評価値を総計する。
3.ある値k以上の文の評価値のみを総計する。
4.文番号i〜i+hの評価値xをかけあわせたものを総計する(Σ_i(xi・xi+1・…・xi+h))。
この値は、複数の文による相乗的な価値を評価することに役立つ。
5.上記4.のバリエーションとして、文番号i〜i+hの評価値の平均値のh乗を総計する。
この値は、文書全体の価値の密度を強調して評価することに役立つ。
6.上記4.のバリエーションとして、文番号i〜i+hの評価値に関して、評価値がk以下のものは掛け合わせる対象外とし、i〜i+hの評価値を掛け合わせたものを総計する。
この値は、重要度の低い情報の集積による過大評価を防ぐことに役立つ。
1.文nの評価値(Sn)=[クエリーの意味最小単位の集合(K1,K2,…Ki,…)のうち、(文nに出現する Kiのidf値×文nにおけるKiの出現回数)の総和] X Mの二乗
ただし、M=文nに同時に出現するKの数:上述の算出方法
2.上記1.に関して、意味最小単位の集合の中で、特定の条件(1つまたは複数)にあてはまる意味最小単位は計算の対象外とする。例えば、アークが「中心」である、アークが「過去」である、idf値が閾値以下の意味最小単位である、NILを含む、などの条件が考えられる。
3.上記1.の「M=文nに同時に出現する意味最小単位Kの数」に関して、特定の条件(1つまたは複数)にあてはまる意味最小単位は、数にカウントしない。
4.上記1.の「Mの二乗」のバリエーション:Mのべき乗(log(M))
5.上記1.の「意味最小単位」を「分割した意味最小単位」に置き換え
6.上記1.の「意味最小単位」を「意味最小単位と形態素」に置き換え
7.上記1.の「意味最小単位」を「意味最小単位と分割した意味最小単位」に置き換え
8.上記1.の「意味最小単位」を「意味最小単位と形態素と分割した意味最小単位」に置き換え
9.上記1.の「意味最小単位」を「分割した意味最小単位と形態素」に置き換え
10.上記2.乃至9.の任意の組み合わせ
2つの単語と当該2つの単語間の意味関係の各要素又は1つの単語と当該1つの単語の役割の各要素からなる意味最小単位を、検索キーとして特定する第1の特定処理、
検索対象文毎に、当該検索対象文に含まれる意味最小単位が格納されているデータ格納部において、前記検索キーの意味最小単位と一致する意味最小単位を含む検索対象文を特定する第2の特定処理、
特定した前記検索対象文についての検索結果を出力する出力処理
を含み、コンピュータが実行する情報検索方法。
前記データ格納部は、前記意味最小単位に関連付けて前記検索対象文の識別情報を格納しており、
前記出力処理は、特定した前記検索対象文の当該識別情報に対応する検索対象文を、前記検索対象文を格納したデータベースから取得する
処理を含む付記1記載の情報検索方法。
前記第2の特定処理は、前記検索キーの前記意味最小単位に含まれるすべての要素が、前記検索対象文に含まれる前記意味最小単位に含まれるすべての要素と同一であるか判定する処理を含む
付記1又は2記載の情報検索方法。
前記第2の特定処理は、前記検索キーの前記意味最小単位に含まれる一部の要素が、前記検索対象文に含まれる前記意味最小単位に含まれる一部の要素と同一であるか判定する処理を含む
付記1又は2記載の情報検索方法。
自然言語文の検索クエリーを受け付け、
前記自然言語文を意味解析し、
前記自然言語文の意味解析結果から、前記検索キーとなる前記意味最小単位を生成する
処理を、前記コンピュータが更に実行する付記1乃至4のいずれか1つ記載の情報検索方法。
前記第1の特定処理で、前記検索キーとなる意味最小単位が複数特定された場合に、
前記第2の特定処理は、当該複数の意味最小単位のうち少なくともいずれかと一致する前記意味最小単位を含む前記検索対象文を抽出する処理を含む
付記1乃至5のいずれか1つ記載の情報検索方法。
前記検索対象文に含まれる前記意味最小単位の評価値が格納されている評価値格納部から、前記検索キーの意味最小単位と一致した前記意味最小単位の評価値を取得し、当該評価値に基づいて特定した前記検索対象文の評価値を算出する
処理を、前記コンピュータが更に実行する付記1乃至6のいずれか1つ記載の情報検索方法。
前記算出処理は、一つの前記検索対象文に含まれる前記意味最小単位のうち、前記検索キーとして特定された前記意味最小単位と一致した前記意味最小単位の数に基づいて、特定した前記検索対象文の評価値を算出する処理である
付記7記載の情報検索方法。
前記算出処理は、一つの前記検索対象文に含まれる前記意味最小単位のうちのいずれかと一致し且つ前記検索キーとして特定された前記意味最小単位の種類数に基づいて、特定した前記検索対象文の評価値を算出する処理である
付記7記載の情報検索方法。
前記算出処理は、以下の式に従って、文の評価値を算出する処理である
前記文の評価値=[前記検索キーの前記意味最小単位(K1,K2,・・・Ki,・・・)のうち、(前記文に含まれる前記意味最小単位と一致する又は前記文に含まれる前記意味最小単位と一致し且つ所定の条件を満たす前記意味最小単位Kiの評価値×前記文における当該意味最小単位Kiの出現回数)の総和]×(前記文に含まれる前記意味最小単位と一致する意味最小単位Kiの種類数に応じた値)
付記7記載の情報検索方法。
特定した前記検索対象文の評価値に基づいて、当該特定した検索対象文を含む検索対象文書の評価値を計算し、
当該検索対象文書の評価値をソートキーとして、特定した前記検索対象文を含む検索対象文書を順序付ける
処理を、前記コンピュータが更に実行し、
前記出力処理は、当該検索対象文書の順序に従って検索結果を出力する処理を含む
付記1乃至10のいずれか1つ記載の情報検索方法。
前記検索対象文書の評価値は、特定した前記検索対象文の評価値の総和である
付記11記載の情報検索方法。
2つの単語と当該2つの単語間の意味関係の各要素又は1つの単語と当該1つの単語の役割の各要素からなる意味最小単位を、検索キーとして特定する第1の特定処理、
検索対象文毎に、当該検索対象文に含まれる意味最小単位が格納されているデータ格納部において、前記検索キーの意味最小単位と一致する意味最小単位を含む検索対象文を特定する第2の特定処理、
特定した前記検索対象文についての検索結果を出力する出力処理
を含み、コンピュータに実行させるためのプログラム。
2つの単語と当該2つの単語間の意味関係の各要素又は1つの単語と当該1つの単語の役割の各要素からなる意味最小単位を、検索キーとして特定する第1の特定部と、
検索対象文毎に、当該検索対象文に含まれる意味最小単位が格納されているデータ格納部において、前記検索キーの意味最小単位と一致する意味最小単位を含む検索対象文を特定する第2の特定部と、
特定した前記検索対象文についての検索結果を出力する出力部と、
を有する情報検索装置。
13 検索用インデックス
15 評価値テーブル
31 入力部
33 意味解析部
35 意味最小単位生成部
37 検索部
39 評価値計算部
41 ランキング部
43 出力部
1501 メモリ
1503 CPU(Central Processing Unit)
1505 ハードディスク・ドライブ(HDD:Hard Disk Drive)
1507 表示制御部
1509 表示装置
1511 リムーバブル・ディスク
1513 ドライブ装置
1515 入力装置
1517 通信制御部
1519 バス
Claims (10)
- 2つの単語と当該2つの単語間の意味関係の各要素又は1つの単語と当該1つの単語の役割の各要素からなる意味最小単位を、検索キーとして特定する第1の特定処理、
検索対象文毎に、当該検索対象文に含まれる意味最小単位が格納されているデータ格納部において、前記検索キーの意味最小単位と一致する意味最小単位を含む検索対象文を特定する第2の特定処理、
特定した前記検索対象文についての検索結果を出力する出力処理
を含み、コンピュータが実行する情報検索方法。 - 前記第2の特定処理は、前記検索キーの前記意味最小単位に含まれるすべての要素が、前記検索対象文に含まれる前記意味最小単位に含まれるすべての要素と同一であるか判定する処理を含む
請求項1記載の情報検索方法。 - 前記第2の特定処理は、前記検索キーの前記意味最小単位に含まれる一部の要素が、前記検索対象文に含まれる前記意味最小単位に含まれる一部の要素と同一であるか判定する処理を含む
請求項1記載の情報検索方法。 - 自然言語文の検索クエリーを受け付け、
前記自然言語文を意味解析し、
前記自然言語文の意味解析結果から、前記検索キーとなる前記意味最小単位を生成する
処理を、前記コンピュータが更に実行する請求項1乃至3のいずれか1つ記載の情報検索方法。 - 前記検索対象文に含まれる前記意味最小単位の評価値が格納されている評価値格納部から、前記検索キーの意味最小単位と一致した前記意味最小単位の評価値を取得し、当該評価値に基づいて特定した前記検索対象文の評価値を算出する
処理を、前記コンピュータが更に実行する請求項1乃至4のいずれか1つ記載の情報検索方法。 - 前記算出処理は、以下の式に従って、文の評価値を算出する処理である
前記文の評価値=[前記検索キーの前記意味最小単位(K1,K2,・・・Ki,・・・)のうち、(前記文に含まれる前記意味最小単位と一致する又は前記文に含まれる前記意味最小単位と一致し且つ所定の条件を満たす前記意味最小単位Kiの評価値×前記文における当該意味最小単位Kiの出現回数)の総和]×(前記文に含まれる前記意味最小単位と一致する意味最小単位Kiの種類数に応じた値)
請求項5記載の情報検索方法。 - 特定した前記検索対象文の評価値に基づいて、当該特定した検索対象文を含む検索対象文書の評価値を計算し、
当該検索対象文書の評価値をソートキーとして、特定した前記検索対象文を含む検索対象文書を順序付ける
処理を、前記コンピュータが更に実行し、
前記出力処理は、当該検索対象文書の順序に従って検索結果を出力する処理を含む
請求項1乃至6のいずれか1つ記載の情報検索方法。 - 前記検索対象文書の評価値は、特定した前記検索対象文の評価値の総和である
請求項7記載の情報検索方法。 - 2つの単語と当該2つの単語間の意味関係の各要素又は1つの単語と当該1つの単語の役割の各要素からなる意味最小単位を、検索キーとして特定する第1の特定処理、
検索対象文毎に、当該検索対象文に含まれる意味最小単位が格納されているデータ格納部において、前記検索キーの意味最小単位と一致する意味最小単位を含む検索対象文を特定する第2の特定処理、
特定した前記検索対象文についての検索結果を出力する出力処理
を含み、コンピュータに実行させるためのプログラム。 - 2つの単語と当該2つの単語間の意味関係の各要素又は1つの単語と当該1つの単語の役割の各要素からなる意味最小単位を、検索キーとして特定する第1の特定部と、
検索対象文毎に、当該検索対象文に含まれる意味最小単位が格納されているデータ格納部において、前記検索キーの意味最小単位と一致する意味最小単位を含む検索対象文を特定する第2の特定部と、
特定した前記検索対象文についての検索結果を出力する出力部と、
を有する情報検索装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012052465A JP5915274B2 (ja) | 2012-03-09 | 2012-03-09 | 情報検索方法、プログラムおよび情報検索装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012052465A JP5915274B2 (ja) | 2012-03-09 | 2012-03-09 | 情報検索方法、プログラムおよび情報検索装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013186766A true JP2013186766A (ja) | 2013-09-19 |
JP5915274B2 JP5915274B2 (ja) | 2016-05-11 |
Family
ID=49388113
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012052465A Active JP5915274B2 (ja) | 2012-03-09 | 2012-03-09 | 情報検索方法、プログラムおよび情報検索装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5915274B2 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015138351A (ja) * | 2014-01-21 | 2015-07-30 | 富士通株式会社 | 情報検索装置、情報検索方法および情報検索プログラム |
JP2016134037A (ja) * | 2015-01-20 | 2016-07-25 | 富士通株式会社 | 意味構造検索プログラム、意味構造検索装置、及び意味構造検索方法 |
JP2017162190A (ja) * | 2016-03-09 | 2017-09-14 | 富士通株式会社 | 類似文書検索プログラム、類似文書検索装置、及び類似文書検索方法 |
CN108170689A (zh) * | 2016-12-07 | 2018-06-15 | 富士通株式会社 | 对实体进行语义化的信息处理装置和信息处理方法 |
US10740562B2 (en) | 2016-07-19 | 2020-08-11 | Fujitsu Limited | Search apparatus, encoding method, and search method based on morpheme position in a target document |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06215035A (ja) * | 1993-01-18 | 1994-08-05 | Sanyo Electric Co Ltd | テキスト検索装置 |
JPH06231178A (ja) * | 1993-01-28 | 1994-08-19 | Toshiba Corp | 文書検索装置 |
JP2009075747A (ja) * | 2007-09-19 | 2009-04-09 | Toshiba Corp | 類似文検索システム及びプログラム |
JP2009199280A (ja) * | 2008-02-21 | 2009-09-03 | Hitachi Ltd | 部分構文木プロファイルを用いた類似性検索システム |
JP2009271659A (ja) * | 2008-05-02 | 2009-11-19 | Ricoh Co Ltd | 情報処理装置、情報処理方法、情報処理プログラム及び記録媒体 |
JP2010092357A (ja) * | 2008-10-09 | 2010-04-22 | Intec Systems Institute Inc | 施設関連情報検索方法および施設関連情報検索システム |
JP2011113536A (ja) * | 2009-11-30 | 2011-06-09 | Fuji Xerox Co Ltd | 情報検索プログラム及び情報検索装置 |
-
2012
- 2012-03-09 JP JP2012052465A patent/JP5915274B2/ja active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06215035A (ja) * | 1993-01-18 | 1994-08-05 | Sanyo Electric Co Ltd | テキスト検索装置 |
JPH06231178A (ja) * | 1993-01-28 | 1994-08-19 | Toshiba Corp | 文書検索装置 |
JP2009075747A (ja) * | 2007-09-19 | 2009-04-09 | Toshiba Corp | 類似文検索システム及びプログラム |
JP2009199280A (ja) * | 2008-02-21 | 2009-09-03 | Hitachi Ltd | 部分構文木プロファイルを用いた類似性検索システム |
JP2009271659A (ja) * | 2008-05-02 | 2009-11-19 | Ricoh Co Ltd | 情報処理装置、情報処理方法、情報処理プログラム及び記録媒体 |
JP2010092357A (ja) * | 2008-10-09 | 2010-04-22 | Intec Systems Institute Inc | 施設関連情報検索方法および施設関連情報検索システム |
JP2011113536A (ja) * | 2009-11-30 | 2011-06-09 | Fuji Xerox Co Ltd | 情報検索プログラム及び情報検索装置 |
Non-Patent Citations (1)
Title |
---|
JPN6015034600; 麻生和昭、外2名: '単語間の係り受け関係を利用したWWW上での日本語テキスト検索システム' 第55回(平成9年後期)全国大会講演論文集(3) , 19970924, pp.3-129〜3-130, 社団法人情報処理学会 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015138351A (ja) * | 2014-01-21 | 2015-07-30 | 富士通株式会社 | 情報検索装置、情報検索方法および情報検索プログラム |
JP2016134037A (ja) * | 2015-01-20 | 2016-07-25 | 富士通株式会社 | 意味構造検索プログラム、意味構造検索装置、及び意味構造検索方法 |
US11334609B2 (en) | 2015-01-20 | 2022-05-17 | Fujitsu Limited | Semantic structure search device and semantic structure search method |
JP2017162190A (ja) * | 2016-03-09 | 2017-09-14 | 富士通株式会社 | 類似文書検索プログラム、類似文書検索装置、及び類似文書検索方法 |
US10740562B2 (en) | 2016-07-19 | 2020-08-11 | Fujitsu Limited | Search apparatus, encoding method, and search method based on morpheme position in a target document |
CN108170689A (zh) * | 2016-12-07 | 2018-06-15 | 富士通株式会社 | 对实体进行语义化的信息处理装置和信息处理方法 |
Also Published As
Publication number | Publication date |
---|---|
JP5915274B2 (ja) | 2016-05-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8463593B2 (en) | Natural language hypernym weighting for word sense disambiguation | |
JP5597255B2 (ja) | 単語の重みに基づいた検索結果の順位付け | |
US10108699B2 (en) | Adaptive query suggestion | |
JP2009525520A (ja) | 検索結果リストにおける電子文書を関連性に基づきランク付けおよびソートする評価方法、およびデータベース検索エンジン | |
JP5915274B2 (ja) | 情報検索方法、プログラムおよび情報検索装置 | |
US8812504B2 (en) | Keyword presentation apparatus and method | |
US20150081654A1 (en) | Techniques for Entity-Level Technology Recommendation | |
US20140101162A1 (en) | Method and system for recommending semantic annotations | |
JP2009193219A (ja) | インデックス作成装置、その方法、プログラム及び記録媒体 | |
JP5718405B2 (ja) | 発話選択装置、方法、及びプログラム、対話装置及び方法 | |
Kantorski et al. | Automatic filling of hidden web forms: a survey | |
JP2009122807A (ja) | 連想検索システム | |
US9940408B2 (en) | Trigger query obtaining apparatus, trigger query obtaining method, and non-transitory computer readable recording medium | |
JP6152711B2 (ja) | 情報検索装置および情報検索方法 | |
Iqbal et al. | CURE: Collection for urdu information retrieval evaluation and ranking | |
TW201102842A (en) | Word matching and information searching method and device thereof | |
US8117205B2 (en) | Technique for enhancing a set of website bookmarks by finding related bookmarks based on a latent similarity metric | |
JP2004192374A (ja) | 文書検索装置、プログラムおよび記録媒体 | |
JP3558267B2 (ja) | 文書検索装置 | |
JP2012104051A (ja) | 文書インデックス作成装置 | |
Schedl et al. | Automatically detecting members and instrumentation of music bands via web content mining | |
JP2009271671A (ja) | 情報処理装置、情報処理方法、プログラム及び記録媒体 | |
JP4208402B2 (ja) | 文書検索装置、文書検索方法および記録媒体 | |
Iyad et al. | Towards supporting exploratory search over the Arabic web content: The case of ArabXplore | |
CN116738065B (zh) | 一种企业搜索方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20141112 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150821 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150901 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20151030 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20151124 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160115 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160308 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160321 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5915274 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |