JP2014153744A - 情報検索装置及び情報検索プログラム - Google Patents
情報検索装置及び情報検索プログラム Download PDFInfo
- Publication number
- JP2014153744A JP2014153744A JP2013020265A JP2013020265A JP2014153744A JP 2014153744 A JP2014153744 A JP 2014153744A JP 2013020265 A JP2013020265 A JP 2013020265A JP 2013020265 A JP2013020265 A JP 2013020265A JP 2014153744 A JP2014153744 A JP 2014153744A
- Authority
- JP
- Japan
- Prior art keywords
- feature vector
- search
- word
- information
- target data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000013598 vector Substances 0.000 claims abstract description 185
- 238000004364 calculation method Methods 0.000 claims abstract description 45
- 239000011159 matrix material Substances 0.000 claims abstract description 33
- 238000000034 method Methods 0.000 claims description 43
- 238000012880 independent component analysis Methods 0.000 claims description 28
- 230000008569 process Effects 0.000 claims description 21
- 238000000513 principal component analysis Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 7
- 238000013500 data storage Methods 0.000 description 20
- 238000010586 diagram Methods 0.000 description 8
- 238000007781 pre-processing Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000007796 conventional method Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 241000972773 Aulopiformes Species 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 235000019515 salmon Nutrition 0.000 description 2
- 150000003839 salts Chemical class 0.000 description 2
- 241000008357 Okapia johnstoni Species 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 235000011194 food seasoning agent Nutrition 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 235000002639 sodium chloride Nutrition 0.000 description 1
- 239000002344 surface layer Substances 0.000 description 1
- 230000000699 topical effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】入力された検索ワードを用いて対象データを検索する情報検索装置において、前記対象データに含まれる単語を所定の特徴ベクトルにより抽象化する抽象化手段と、所定の文章に含まれている可能性がある単語群を行列で定義した隠れカテゴリデータを用いて、前記検索ワードの特徴ベクトルを計算する特徴ベクトル計算手段と、前記抽象化手段により得られる特徴ベクトルと前記特徴ベクトル計算手段により得られる特徴ベクトルとの類似度を比較する特徴ベクトル比較手段と、前記特徴ベクトル比較手段により得られる比較結果に基づいて、前記検索ワードに対する検索結果を出力する検索結果出力手段とを有することにより、上記課題を解決する。
【選択図】図1
Description
本発明では、例えばテキストに含まれる内容(例えば、文章)等に対する高精度な検索を可能にするため、検索ワード(キーワード)をそのまま使うのではなく、抽象化して検索に利用する。
図1は、情報検索装置の機能構成の一例を示す図である。図1における情報検索装置10は、抽象化手段11と、隠れカテゴリデータ格納手段12と、検索ワード入力手段13と、特徴ベクトル計算手段14と、検索ワード特徴ベクトル格納手段15と、特徴ベクトル比較手段16と、特徴ベクトル比較結果格納手段17と、出力決定手段18と、検索結果出力手段19とを有する。
ここで、本実施形態における情報検索処理の一例について、フローチャートを用いて説明する。なお、本実施形態における情報検索処理は、事前処理と、検索処理とに大別できるため、それぞれの処理内容について説明する。
図2は、事前処理の一例を示すフローチャートである。図2の例に示す事前処理において、抽象化手段11は、検索対象データを取得し(S01)、予め隠れカテゴリデータ格納手段12等に格納された隠れカテゴリデータを取得する(S02)。なお、本実施形態において、抽象化手段11は、S02の処理の前に、S01の処理で取得した検索対象データから隠れカテゴリを算出して隠れカテゴリデータ格納手段12に格納する処理を行ってもよい。
図3は、検索処理の一例を示すフローチャートである。図3の例に示す検索処理において、検索ワード入力手段13は、ユーザからの検索ワードを受け付ける(S11)。次に、特徴ベクトル計算手段14は、予め隠れカテゴリデータ格納手段12等に格納された隠れカテゴリデータを取得し(S12)、抽象化するための特徴ベクトルを計算する(S13)。なお、計算された特徴ベクトルは、検索ワード特徴ベクトル格納手段15等に格納してもよい。
次に、抽象化手段11における検索対象データからの隠れカテゴリの分析例について図を用いて具体的に説明する。なお、検索対象データ格納手段21に格納されているテキストデータの一例として、検索対象文章群を用いることとするが、これに限定されるものではなく、単語レベルのデータを含んでいてもよい。
ここで、上述したtf−idfについて説明する。tf−idfは、「tf−idf=tf/log(df)」で表現することができる。tfとは、例えば対象単語の対象文中での出現頻度である。dfとは、例えば対象単語が幾つの文に出現するかを示すものである。
ここで、上述した特徴ベクトル比較で用いられる隠れカテゴリについて説明する。隠れカテゴリは、対象の全文に対して出現単語を単語毎にカウントして各文の単語毎のtf−idfを計算し、tf−idfからICAを計算することで得られる。ICAで得られた行列の各行ベクトルが、隠れカテゴリを表すベクトルとなる。
次に、文章の特徴ベクトルの計算例について説明する。図7は、文章の特徴ベクトルの計算例を示す図である。文章の特徴ベクトルの計算は、例えば上述した隠れカテゴリベクトルへの射影で行う。
次に、検索ワードの特徴ベクトルの計算例について説明する。図8は、検索ワードの特徴ベクトルの計算例を示す図である。本実施形態では、入力された検索ワードの特徴ベクトルも上述と同様に、単語出現頻度ベクトルの生成を行う。
次に、上述した検索ワード特徴ベクトルと、文章の特徴ベクトルとの類似度計算例について説明する。本実施形態では、上述した2つの特徴ベクトル間の類似度を、例えばコサイン(cos)類似度等により計算する。
次に、上述した出力決定手段18における出力対象の決定例について説明する。例えば、本実施形態では、上述したコサイン類似度が大きい順に並べ、コサイン類似度は大きいほど「より類似している」ことを表す。したがって、出力決定手段18は、類似度が大きい順に所定数の検索対象データを出力対象として決定してもよく、また予め設定された閾値以上の類似度を有する検索対象データを出力対象として決定してもよいが、これに限定されるものではない。
次に、他の実施形態について図を用いて説明する。図10は、他の実施形態における情報検索装置の機能構成の一例を示す図である。図10に示す情報検索装置30において、上述した情報検索装置10と同様の機能を有する構成部分については、同一の符号を付するものとし、ここでの具体的な説明は省略する。
ここで、図12は、検索結果の一例を示す図である。図12では、一例として類似度と検索結果とが示されている。検索結果は、類似度に対応する検索対象データ(文章)である。なお、図12の例では、類似度の高い順に並び替えを行った結果が表示されているが、表示内容については、これに限定されるものではない。
なお、本実施形態では、上述したようにICAに基づく基底を生成したが、本実施形態においては、これに限定されるものではなく、例えばPCA(Principal Component Analysis;主成分分析)やNMF(Non−negative Matrix Factorization;非負値行列因子分解)等を用いることができる。
また、類似度計算については、上述したコサイン類似度に限定されず、例えば「距離」を使った類似度計算を行うことができる。この場合、例えばユークリッド距離、マハラノビス距離等を用いることができる。なお、距離を用いた類似度計算を行った場合には、何れの手法を用いても文の長さが大きく影響する。したがって、その場合には、文の長さ(単語数)等に応じて距離を調整してもよい。
ここで、上述した情報検索装置10,30は、例えばCPU(Central Processing Unit)、RAM(Random Access Memory)等の揮発性の記憶装置、ROM(Read Only Memory)等の不揮発性の記憶装置、マウスやキーボード、ポインティングデバイス等の入力装置、画像やデータ等を表示する表示装置、並びに外部と通信するためのインタフェース装置を備えたコンピュータによって構成することができる。
11 抽象化手段
12 隠れカテゴリデータ格納手段
13 検索ワード入力手段
14,22 特徴ベクトル計算手段
15 検索ワード特徴ベクトル格納手段
16 特徴ベクトル比較手段
17 特徴ベクトル比較結果格納手段
18 出力決定手段
19 検索結果出力手段
21 検索対象データ格納手段
23 検索対象特徴ベクトル格納手段
31 概念マップ格納手段
32 関連単語抽出手段
Claims (6)
- 入力された検索ワードを用いて対象データを検索する情報検索装置において、
前記対象データに含まれる単語を所定の特徴ベクトルにより抽象化する抽象化手段と、
所定の文章に含まれている可能性がある単語群を行列で定義した隠れカテゴリデータを用いて、前記検索ワードの特徴ベクトルを計算する特徴ベクトル計算手段と、
前記抽象化手段により得られる特徴ベクトルと前記特徴ベクトル計算手段により得られる特徴ベクトルとの類似度を比較する特徴ベクトル比較手段と、
前記特徴ベクトル比較手段により得られる比較結果に基づいて、前記検索ワードに対する検索結果を出力する検索結果出力手段とを有することを特徴とする情報検索装置。 - 前記抽象化手段は、
前記隠れカテゴリデータを用いて前記対象データを特徴ベクトルにより抽象化することを特徴とする請求項1に記載の情報検索装置。 - 前記特徴ベクトル比較手段により得られる類似度の上位から所定数、又は、前記類似度が予め設定された閾値以上となった対象データを出力対象として決定する出力決定手段を有することを特徴とする請求項1又は2に記載の情報検索装置。
- 予め設定された単語間の関係性を有する概念マップを用いて関連する単語を抽出する関連単語抽出手段を有し、
前記特徴ベクトル計算手段は、前記関連単語抽出手段により得られる関連単語を用いて、前記検索ワードに対応する特徴ベクトルを計算することを特徴とする請求項1乃至3の何れか1項に記載の情報検索装置。 - 前記特徴ベクトル計算手段は、
独立成分分析、主成分分析、及び非負値行列因子分解のうち、少なくとも1つの手法を用いて得られる基底を用いて前記検索ワードの特徴ベクトルを計算することを特徴とする請求項1乃至4の何れか1項に記載の情報検索装置。 - 入力された検索ワードを用いて対象データを検索する情報検索処理をコンピュータに実行させるための情報検索プログラムにおいて、
前記コンピュータを、
前記対象データに含まれる単語を所定の特徴ベクトルにより抽象化する抽象化手段、
所定の文章に含まれている可能性がある単語群を行列で定義した隠れカテゴリデータを用いて、前記検索ワードの特徴ベクトルを計算する特徴ベクトル計算手段、
前記抽象化手段により得られる特徴ベクトルと前記特徴ベクトル計算手段により得られる特徴ベクトルとの類似度を比較する特徴ベクトル比較手段、及び、
前記特徴ベクトル比較手段により得られる比較結果に基づいて、前記検索ワードに対する検索結果を出力する検索結果出力手段として機能させるための情報検索プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013020265A JP6093200B2 (ja) | 2013-02-05 | 2013-02-05 | 情報検索装置及び情報検索プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013020265A JP6093200B2 (ja) | 2013-02-05 | 2013-02-05 | 情報検索装置及び情報検索プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014153744A true JP2014153744A (ja) | 2014-08-25 |
JP6093200B2 JP6093200B2 (ja) | 2017-03-08 |
Family
ID=51575603
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013020265A Active JP6093200B2 (ja) | 2013-02-05 | 2013-02-05 | 情報検索装置及び情報検索プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6093200B2 (ja) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016091331A (ja) * | 2014-11-05 | 2016-05-23 | 日本放送協会 | 検索装置、検索方法及び検索プログラム |
JP2016130903A (ja) * | 2015-01-13 | 2016-07-21 | 日本放送協会 | 下位表現抽出装置およびプログラム |
JPWO2016125310A1 (ja) * | 2015-02-06 | 2017-04-27 | 株式会社Ubic | データ分析システムおよびデータ分析方法並びにデータ分析プログラム |
US10467271B2 (en) | 2016-03-09 | 2019-11-05 | Fujitsu Limited | Search apparatus and search method |
JP2019200582A (ja) * | 2018-05-16 | 2019-11-21 | ファナック株式会社 | 検索装置、検索方法及び検索プログラム |
WO2020079750A1 (ja) * | 2018-10-16 | 2020-04-23 | 株式会社島津製作所 | 事例検索方法 |
WO2020079751A1 (ja) * | 2018-10-16 | 2020-04-23 | 株式会社島津製作所 | 文献検索方法および文献検索システム |
JP2020184294A (ja) * | 2019-04-26 | 2020-11-12 | Arithmer株式会社 | 対話管理サーバ、対話管理方法、及びプログラム |
WO2021250950A1 (ja) * | 2020-06-11 | 2021-12-16 | 株式会社島津製作所 | 文書検索の性能を評価する方法、システム、および装置 |
JP2022082523A (ja) * | 2020-11-23 | 2022-06-02 | エムロ・カンパニー・リミテッド | 機械学習基盤類似アイテムに関する情報を提供する方法および装置 |
CN115174997A (zh) * | 2022-06-29 | 2022-10-11 | Vidaa国际控股(荷兰)公司 | 显示设备和媒资推荐方法 |
CN116628049A (zh) * | 2023-07-21 | 2023-08-22 | 深圳市秦丝科技有限公司 | 一种基于大数据的信息系统维护管理系统及方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002014999A (ja) * | 2000-06-28 | 2002-01-18 | Matsushita Electric Ind Co Ltd | 類似文書検索装置及び関連キーワード抽出装置 |
JP2002175329A (ja) * | 2000-12-07 | 2002-06-21 | Canon Inc | 情報検索装置及び情報検索方法及びコンピュータ読み取り可能な記憶媒体 |
JP2006309377A (ja) * | 2005-04-27 | 2006-11-09 | Seiko Epson Corp | 文書検索装置および文書検索方法ならびにそのプログラムと記録媒体 |
-
2013
- 2013-02-05 JP JP2013020265A patent/JP6093200B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002014999A (ja) * | 2000-06-28 | 2002-01-18 | Matsushita Electric Ind Co Ltd | 類似文書検索装置及び関連キーワード抽出装置 |
JP2002175329A (ja) * | 2000-12-07 | 2002-06-21 | Canon Inc | 情報検索装置及び情報検索方法及びコンピュータ読み取り可能な記憶媒体 |
JP2006309377A (ja) * | 2005-04-27 | 2006-11-09 | Seiko Epson Corp | 文書検索装置および文書検索方法ならびにそのプログラムと記録媒体 |
Non-Patent Citations (1)
Title |
---|
佐々木稔 他1名: "潜在的文脈関連度を用いた検索質問拡張", 情報処理学会研究報告, vol. 2002, no. 87, JPN6016040249, 18 September 2002 (2002-09-18), JP, pages 65 - 72, ISSN: 0003478201 * |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016091331A (ja) * | 2014-11-05 | 2016-05-23 | 日本放送協会 | 検索装置、検索方法及び検索プログラム |
JP2016130903A (ja) * | 2015-01-13 | 2016-07-21 | 日本放送協会 | 下位表現抽出装置およびプログラム |
JPWO2016125310A1 (ja) * | 2015-02-06 | 2017-04-27 | 株式会社Ubic | データ分析システムおよびデータ分析方法並びにデータ分析プログラム |
US10467271B2 (en) | 2016-03-09 | 2019-11-05 | Fujitsu Limited | Search apparatus and search method |
JP2019200582A (ja) * | 2018-05-16 | 2019-11-21 | ファナック株式会社 | 検索装置、検索方法及び検索プログラム |
JPWO2020079750A1 (ja) * | 2018-10-16 | 2021-10-28 | 株式会社島津製作所 | 事例検索方法 |
WO2020079750A1 (ja) * | 2018-10-16 | 2020-04-23 | 株式会社島津製作所 | 事例検索方法 |
JPWO2020079751A1 (ja) * | 2018-10-16 | 2021-10-28 | 株式会社島津製作所 | 文献検索方法および文献検索システム |
JP7078126B2 (ja) | 2018-10-16 | 2022-05-31 | 株式会社島津製作所 | 事例検索方法 |
WO2020079751A1 (ja) * | 2018-10-16 | 2020-04-23 | 株式会社島津製作所 | 文献検索方法および文献検索システム |
JP2020184294A (ja) * | 2019-04-26 | 2020-11-12 | Arithmer株式会社 | 対話管理サーバ、対話管理方法、及びプログラム |
JP7428250B2 (ja) | 2020-06-11 | 2024-02-06 | 株式会社島津製作所 | 文書検索の性能を評価する方法、システム、および装置 |
WO2021250950A1 (ja) * | 2020-06-11 | 2021-12-16 | 株式会社島津製作所 | 文書検索の性能を評価する方法、システム、および装置 |
JP2022082523A (ja) * | 2020-11-23 | 2022-06-02 | エムロ・カンパニー・リミテッド | 機械学習基盤類似アイテムに関する情報を提供する方法および装置 |
JP7291419B2 (ja) | 2020-11-23 | 2023-06-15 | エムロ・カンパニー・リミテッド | 機械学習基盤類似アイテムに関する情報を提供する方法および装置 |
CN115174997B (zh) * | 2022-06-29 | 2023-11-28 | Vidaa国际控股(荷兰)公司 | 显示设备和媒资推荐方法 |
CN115174997A (zh) * | 2022-06-29 | 2022-10-11 | Vidaa国际控股(荷兰)公司 | 显示设备和媒资推荐方法 |
CN116628049A (zh) * | 2023-07-21 | 2023-08-22 | 深圳市秦丝科技有限公司 | 一种基于大数据的信息系统维护管理系统及方法 |
CN116628049B (zh) * | 2023-07-21 | 2023-12-15 | 深圳市秦丝科技有限公司 | 一种基于大数据的信息系统维护管理系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
JP6093200B2 (ja) | 2017-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6093200B2 (ja) | 情報検索装置及び情報検索プログラム | |
US10423648B2 (en) | Method, system, and computer readable medium for interest tag recommendation | |
US9519685B1 (en) | Tag selection, clustering, and recommendation for content hosting services | |
US20130110839A1 (en) | Constructing an analysis of a document | |
US20100306214A1 (en) | Identifying modifiers in web queries over structured data | |
US20140379719A1 (en) | System and method for tagging and searching documents | |
JP6664599B2 (ja) | 曖昧性評価装置、曖昧性評価方法、及び曖昧性評価プログラム | |
Mukherjee et al. | Author-specific sentiment aggregation for polarity prediction of reviews. | |
JP5952711B2 (ja) | 予測対象コンテンツにおける将来的なコメント数を予測する予測サーバ、プログラム及び方法 | |
Mazarura et al. | A Gamma‐Poisson Mixture Topic Model for Short Text | |
Woloszyn et al. | Distrustrank: Spotting false news domains | |
Schedl et al. | Harvesting microblogs for contextual music similarity estimation: a co-occurrence-based framework | |
EP3706014A1 (en) | Methods, apparatuses, devices, and storage media for content retrieval | |
JP5565568B2 (ja) | 情報推薦装置、情報推薦方法およびプログラム | |
D'Addio et al. | A collaborative filtering approach based on user's reviews | |
CN111737607A (zh) | 数据处理方法、装置、电子设备以及存储介质 | |
US20150052140A1 (en) | Information processing apparatus, information processing method, and program | |
Wu et al. | A new approach to query segmentation for relevance ranking in web search | |
CN111782880B (zh) | 语义泛化方法及显示设备 | |
CN107622129B (zh) | 一种知识库的组织方法及装置、计算机存储介质 | |
Kim et al. | TrendsSummary: a platform for retrieving and summarizing trendy multimedia contents | |
CN110147488B (zh) | 页面内容的处理方法、处理装置、计算设备及存储介质 | |
Kim et al. | Building semantic concept networks by wikipedia-based formal concept analysis | |
Wang et al. | Enhanced gender identification through social media analytics on the cloud | |
Alotaibi et al. | A Comparison of Topic Modeling Algorithms on Visual Social Media Networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160104 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20161013 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20161025 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20161219 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170117 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170210 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6093200 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |