JP6093200B2 - 情報検索装置及び情報検索プログラム - Google Patents
情報検索装置及び情報検索プログラム Download PDFInfo
- Publication number
- JP6093200B2 JP6093200B2 JP2013020265A JP2013020265A JP6093200B2 JP 6093200 B2 JP6093200 B2 JP 6093200B2 JP 2013020265 A JP2013020265 A JP 2013020265A JP 2013020265 A JP2013020265 A JP 2013020265A JP 6093200 B2 JP6093200 B2 JP 6093200B2
- Authority
- JP
- Japan
- Prior art keywords
- feature vector
- search
- word
- sentence
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000013598 vector Substances 0.000 claims description 167
- 238000000034 method Methods 0.000 claims description 43
- 238000004364 calculation method Methods 0.000 claims description 39
- 238000012880 independent component analysis Methods 0.000 claims description 32
- 239000011159 matrix material Substances 0.000 claims description 28
- 238000000605 extraction Methods 0.000 claims description 9
- 238000000513 principal component analysis Methods 0.000 claims description 9
- 238000013500 data storage Methods 0.000 description 20
- 230000008569 process Effects 0.000 description 20
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 5
- 238000007781 pre-processing Methods 0.000 description 5
- 238000007796 conventional method Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 241000972773 Aulopiformes Species 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 235000019515 salmon Nutrition 0.000 description 2
- 150000003839 salts Chemical class 0.000 description 2
- 241000008357 Okapia johnstoni Species 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 235000011194 food seasoning agent Nutrition 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 235000002639 sodium chloride Nutrition 0.000 description 1
- 239000002344 surface layer Substances 0.000 description 1
- 230000000699 topical effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明では、例えばテキストに含まれる内容(例えば、文章)等に対する高精度な検索を可能にするため、検索ワード(キーワード)をそのまま使うのではなく、抽象化して検索に利用する。
図1は、情報検索装置の機能構成の一例を示す図である。図1における情報検索装置10は、抽象化手段11と、隠れカテゴリデータ格納手段12と、検索ワード入力手段13と、特徴ベクトル計算手段14と、検索ワード特徴ベクトル格納手段15と、特徴ベクトル比較手段16と、特徴ベクトル比較結果格納手段17と、出力決定手段18と、検索結果出力手段19とを有する。
ここで、本実施形態における情報検索処理の一例について、フローチャートを用いて説明する。なお、本実施形態における情報検索処理は、事前処理と、検索処理とに大別できるため、それぞれの処理内容について説明する。
図2は、事前処理の一例を示すフローチャートである。図2の例に示す事前処理において、抽象化手段11は、検索対象データを取得し(S01)、予め隠れカテゴリデータ格納手段12等に格納された隠れカテゴリデータを取得する(S02)。なお、本実施形態において、抽象化手段11は、S02の処理の前に、S01の処理で取得した検索対象データから隠れカテゴリを算出して隠れカテゴリデータ格納手段12に格納する処理を行ってもよい。
図3は、検索処理の一例を示すフローチャートである。図3の例に示す検索処理において、検索ワード入力手段13は、ユーザからの検索ワードを受け付ける(S11)。次に、特徴ベクトル計算手段14は、予め隠れカテゴリデータ格納手段12等に格納された隠れカテゴリデータを取得し(S12)、抽象化するための特徴ベクトルを計算する(S13)。なお、計算された特徴ベクトルは、検索ワード特徴ベクトル格納手段15等に格納してもよい。
次に、抽象化手段11における検索対象データからの隠れカテゴリの分析例について図を用いて具体的に説明する。なお、検索対象データ格納手段21に格納されているテキストデータの一例として、検索対象文章群を用いることとするが、これに限定されるものではなく、単語レベルのデータを含んでいてもよい。
ここで、上述したtf−idfについて説明する。tf−idfは、「tf−idf=tf/log(df)」で表現することができる。tfとは、例えば対象単語の対象文中での出現頻度である。dfとは、例えば対象単語が幾つの文に出現するかを示すものである。
ここで、上述した特徴ベクトル比較で用いられる隠れカテゴリについて説明する。隠れカテゴリは、対象の全文に対して出現単語を単語毎にカウントして各文の単語毎のtf−idfを計算し、tf−idfからICAを計算することで得られる。ICAで得られた行列の各行ベクトルが、隠れカテゴリを表すベクトルとなる。
次に、文章の特徴ベクトルの計算例について説明する。図7は、文章の特徴ベクトルの計算例を示す図である。文章の特徴ベクトルの計算は、例えば上述した隠れカテゴリベクトルへの射影で行う。
次に、検索ワードの特徴ベクトルの計算例について説明する。図8は、検索ワードの特徴ベクトルの計算例を示す図である。本実施形態では、入力された検索ワードの特徴ベクトルも上述と同様に、単語出現頻度ベクトルの生成を行う。
次に、上述した検索ワード特徴ベクトルと、文章の特徴ベクトルとの類似度計算例について説明する。本実施形態では、上述した2つの特徴ベクトル間の類似度を、例えばコサイン(cos)類似度等により計算する。
次に、上述した出力決定手段18における出力対象の決定例について説明する。例えば、本実施形態では、上述したコサイン類似度が大きい順に並べ、コサイン類似度は大きいほど「より類似している」ことを表す。したがって、出力決定手段18は、類似度が大きい順に所定数の検索対象データを出力対象として決定してもよく、また予め設定された閾値以上の類似度を有する検索対象データを出力対象として決定してもよいが、これに限定されるものではない。
次に、他の実施形態について図を用いて説明する。図10は、他の実施形態における情報検索装置の機能構成の一例を示す図である。図10に示す情報検索装置30において、上述した情報検索装置10と同様の機能を有する構成部分については、同一の符号を付するものとし、ここでの具体的な説明は省略する。
ここで、図12は、検索結果の一例を示す図である。図12では、一例として類似度と検索結果とが示されている。検索結果は、類似度に対応する検索対象データ(文章)である。なお、図12の例では、類似度の高い順に並び替えを行った結果が表示されているが、表示内容については、これに限定されるものではない。
なお、本実施形態では、上述したようにICAに基づく基底を生成したが、本実施形態においては、これに限定されるものではなく、例えばPCA(Principal Component Analysis;主成分分析)やNMF(Non−negative Matrix Factorization;非負値行列因子分解)等を用いることができる。
また、類似度計算については、上述したコサイン類似度に限定されず、例えば「距離」を使った類似度計算を行うことができる。この場合、例えばユークリッド距離、マハラノビス距離等を用いることができる。なお、距離を用いた類似度計算を行った場合には、何れの手法を用いても文の長さが大きく影響する。したがって、その場合には、文の長さ(単語数)等に応じて距離を調整してもよい。
ここで、上述した情報検索装置10,30は、例えばCPU(Central Processing Unit)、RAM(Random Access Memory)等の揮発性の記憶装置、ROM(Read Only Memory)等の不揮発性の記憶装置、マウスやキーボード、ポインティングデバイス等の入力装置、画像やデータ等を表示する表示装置、並びに外部と通信するためのインタフェース装置を備えたコンピュータによって構成することができる。
11 抽象化手段
12 隠れカテゴリデータ格納手段
13 検索ワード入力手段
14,22 特徴ベクトル計算手段
15 検索ワード特徴ベクトル格納手段
16 特徴ベクトル比較手段
17 特徴ベクトル比較結果格納手段
18 出力決定手段
19 検索結果出力手段
21 検索対象データ格納手段
23 検索対象特徴ベクトル格納手段
31 概念マップ格納手段
32 関連単語抽出手段
Claims (3)
- 入力された検索ワードを用いて対象データを検索する情報検索装置において、
前記対象データに含まれる単語を所定の特徴ベクトルにより抽象化する抽象化手段と、
予め設定された単語間の関係性を有する概念マップを用いて関連する単語を抽出する関連単語抽出手段と、
所定の文章に含まれている可能性がある単語群を行列で定義した隠れカテゴリデータを用いて、前記検索ワードと、前記関連単語抽出手段により得られた前記関連する単語とに基づいて、前記特徴ベクトルを計算する特徴ベクトル計算手段と、
前記抽象化手段により得られる特徴ベクトルと前記特徴ベクトル計算手段により得られる特徴ベクトルとの類似度を比較する特徴ベクトル比較手段と、
前記特徴ベクトル比較手段により得られる比較結果に基づいて、前記検索ワードに対する検索結果を出力する検索結果出力手段と、
前記特徴ベクトル比較手段により得られる類似度の上位から所定数、又は、前記類似度が予め設定された閾値以上となった対象データを出力対象として決定する出力決定手段と、
を有し、
前記抽象化手段は、
前記隠れカテゴリデータを用いて前記対象データを特徴ベクトルにより抽象化し、
前記特徴ベクトル計算手段は、
前記関連単語抽出手段により得られる関連単語を用いて、前記検索ワードに対応する特徴ベクトルを計算し、ICA(独立成分分析)により得られる基底を用いて前記検索ワードの特徴ベクトルを計算することを特徴とする情報検索装置。 - 前記特徴ベクトル計算手段は、
独立成分分析、主成分分析、及び非負値行列因子分解のうち、少なくとも1つの手法を用いて得られる基底を用いて前記検索ワードの特徴ベクトルを計算することを特徴とする請求項1に記載の情報検索装置。 - コンピュータを、請求項1または2に記載の情報検索装置として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013020265A JP6093200B2 (ja) | 2013-02-05 | 2013-02-05 | 情報検索装置及び情報検索プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013020265A JP6093200B2 (ja) | 2013-02-05 | 2013-02-05 | 情報検索装置及び情報検索プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014153744A JP2014153744A (ja) | 2014-08-25 |
JP6093200B2 true JP6093200B2 (ja) | 2017-03-08 |
Family
ID=51575603
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013020265A Active JP6093200B2 (ja) | 2013-02-05 | 2013-02-05 | 情報検索装置及び情報検索プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6093200B2 (ja) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6440459B2 (ja) * | 2014-11-05 | 2018-12-19 | 日本放送協会 | 検索装置、検索方法及び検索プログラム |
JP6429383B2 (ja) * | 2015-01-13 | 2018-11-28 | 日本放送協会 | 下位表現抽出装置およびプログラム |
WO2016125310A1 (ja) * | 2015-02-06 | 2016-08-11 | 株式会社Ubic | データ分析システムおよびデータ分析方法並びにデータ分析プログラム |
JP6638480B2 (ja) | 2016-03-09 | 2020-01-29 | 富士通株式会社 | 類似文書検索プログラム、類似文書検索装置、及び類似文書検索方法 |
JP2019200582A (ja) * | 2018-05-16 | 2019-11-21 | ファナック株式会社 | 検索装置、検索方法及び検索プログラム |
WO2020079751A1 (ja) * | 2018-10-16 | 2020-04-23 | 株式会社島津製作所 | 文献検索方法および文献検索システム |
WO2020079750A1 (ja) * | 2018-10-16 | 2020-04-23 | 株式会社島津製作所 | 事例検索方法 |
CN111597297A (zh) * | 2019-02-21 | 2020-08-28 | 北京京东尚科信息技术有限公司 | 物品召回方法、系统、电子设备及可读存储介质 |
JP6710007B1 (ja) * | 2019-04-26 | 2020-06-17 | Arithmer株式会社 | 対話管理サーバ、対話管理方法、及びプログラム |
CN115698980A (zh) * | 2020-06-11 | 2023-02-03 | 株式会社岛津制作所 | 用于评价文档检索的性能的方法、系统以及装置 |
KR102265946B1 (ko) * | 2020-11-23 | 2021-06-17 | 주식회사 엠로 | 기계 학습 기반 유사 아이템에 관한 정보를 제공하는 방법 및 장치 |
CN115174997B (zh) * | 2022-06-29 | 2023-11-28 | Vidaa国际控股(荷兰)公司 | 显示设备和媒资推荐方法 |
CN116628049B (zh) * | 2023-07-21 | 2023-12-15 | 深圳市秦丝科技有限公司 | 一种基于大数据的信息系统维护管理系统及方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3573688B2 (ja) * | 2000-06-28 | 2004-10-06 | 松下電器産業株式会社 | 類似文書検索装置及び関連キーワード抽出装置 |
JP2002175329A (ja) * | 2000-12-07 | 2002-06-21 | Canon Inc | 情報検索装置及び情報検索方法及びコンピュータ読み取り可能な記憶媒体 |
JP2006309377A (ja) * | 2005-04-27 | 2006-11-09 | Seiko Epson Corp | 文書検索装置および文書検索方法ならびにそのプログラムと記録媒体 |
-
2013
- 2013-02-05 JP JP2013020265A patent/JP6093200B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2014153744A (ja) | 2014-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6093200B2 (ja) | 情報検索装置及び情報検索プログラム | |
US10423648B2 (en) | Method, system, and computer readable medium for interest tag recommendation | |
CN106855876B (zh) | 基于媒体内容的推荐的属性加权 | |
US10565313B2 (en) | Automatic semantic rating and abstraction of literature | |
CN104885081B (zh) | 搜索系统和相应方法 | |
US20150278359A1 (en) | Method and apparatus for generating a recommendation page | |
CN106686460B (zh) | 一种视频节目推荐方法及视频节目推荐装置 | |
US20140379719A1 (en) | System and method for tagging and searching documents | |
JP6664599B2 (ja) | 曖昧性評価装置、曖昧性評価方法、及び曖昧性評価プログラム | |
Mukherjee et al. | Author-specific sentiment aggregation for polarity prediction of reviews. | |
JP5952711B2 (ja) | 予測対象コンテンツにおける将来的なコメント数を予測する予測サーバ、プログラム及び方法 | |
JP5565568B2 (ja) | 情報推薦装置、情報推薦方法およびプログラム | |
Schedl et al. | Harvesting microblogs for contextual music similarity estimation: a co-occurrence-based framework | |
Mazarura et al. | A Gamma‐Poisson Mixture Topic Model for Short Text | |
EP3706014A1 (en) | Methods, apparatuses, devices, and storage media for content retrieval | |
D'Addio et al. | A collaborative filtering approach based on user's reviews | |
US10380151B2 (en) | Information processing to search for related expressions | |
Wu et al. | A new approach to query segmentation for relevance ranking in web search | |
CN107622129B (zh) | 一种知识库的组织方法及装置、计算机存储介质 | |
CN110147488B (zh) | 页面内容的处理方法、处理装置、计算设备及存储介质 | |
Kim et al. | Building semantic concept networks by wikipedia-based formal concept analysis | |
CN111782880A (zh) | 语义泛化方法及显示设备 | |
Alotaibi et al. | A Comparison of Topic Modeling Algorithms on Visual Social Media Networks | |
Bhargav | Efficient features for movie recommendation systems | |
JP2019211884A (ja) | 情報検索システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160104 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20161013 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20161025 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20161219 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170117 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170210 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6093200 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |