JP7388256B2 - 情報処理装置及び情報処理方法 - Google Patents
情報処理装置及び情報処理方法 Download PDFInfo
- Publication number
- JP7388256B2 JP7388256B2 JP2020041293A JP2020041293A JP7388256B2 JP 7388256 B2 JP7388256 B2 JP 7388256B2 JP 2020041293 A JP2020041293 A JP 2020041293A JP 2020041293 A JP2020041293 A JP 2020041293A JP 7388256 B2 JP7388256 B2 JP 7388256B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- search
- similarity
- index
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 44
- 238000003672 processing method Methods 0.000 title claims description 6
- 239000013598 vector Substances 0.000 claims description 169
- 238000012545 processing Methods 0.000 claims description 78
- 238000004364 calculation method Methods 0.000 claims description 22
- 230000004044 response Effects 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 description 31
- 238000000034 method Methods 0.000 description 30
- 230000008569 process Effects 0.000 description 23
- 238000000926 separation method Methods 0.000 description 22
- 238000010586 diagram Methods 0.000 description 19
- 238000000605 extraction Methods 0.000 description 15
- 238000001035 drying Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 7
- 239000000284 extract Substances 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000012217 deletion Methods 0.000 description 5
- 230000037430 deletion Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
idf(Inverse Document Frequency:逆文書頻度)は、例えば、
(3:1、107:1)
のような疎ベクトル表現4pで示す。この疎ベクトル表現4p(即ち、クエリベクトル4v)が、文書データ3とのコサイン類似度を求める際に利用されるベクトルである。
(3:4、7:4、107:1、613:1)
の疎ベクトル表現5p-1で示され、文書データ3-2の特徴ベクトル59v-2は、
(3:6、6:1、106:7、6135:3)
の疎ベクトル表現5p-2で示される。
数3の分子の値は、クエリベクトル4vと特徴ベクトル59v-1の内積を求めることで、
(1×4)+(1×1)=5
となる。
クエリベクトル4vと特徴ベクトル59v-1のそれぞれの長さの2乗は、
12+12=2、
42+42+12+12=34
である。
そして、数3の分母の値は、「2」と「34」とを乗算して平方根を求めると、
√68=8.246
となる。よって、クエリベクトル4vと特徴ベクトル59v-1のコサイン類似度は、
5÷8.246=0.606
となる。
数3の分子の値は、クエリベクトル4vと特徴ベクトル59v-2の内積を求めることで、
(1×6)=6
となる。
クエリベクトル4vと特徴ベクトル59v-2のそれぞれの長さの2乗は、
12+12=2、
62+12+72+32=95
である。
そして、数3の分母の値は、「2」と「95」とを乗算して平方根を求めると、
√190=13.784
となる。よって、クエリベクトル4vと特徴ベクトル59v-2のコサイン類似度は、
6÷13.784=0.435
となる。この例では、文書データ3-1の方が、文書データ3-2より、検索キーワード7に類似している、という結果を得る。
「毛布」(類似度=0.8)、「マット」(類似度=0.7)
を得る。また、「乾燥」について、学習済みモデル55を用いて、類似度の大きい順に2つの単語を抽出する。即ち、
「乾く」(類似度=0.9)、「ドライ」(類似度=0.7)
を得る。
(1)分かち書き検索キーワード61で得られた単語を索引語とし、対応するインデックスの値として「1」を設定する。
分かち書き検索キーワード61で得られた単語、即ち、「完全一致」となる単語を可能な限り優先するために、インデックスの値を最大値とする。
(2)学習済みモデル55を用いて得られた類似語を索引語とし、対応するインデックスの値として、学習済みモデル55で得られた類似度(1.0以下)を設定する。
(3)分かち書き検索キーワード61で得られた単語と、当該単語の類似語以外の索引語に対応するインデックスの値は、「0」を示すものとする。
上述より、本実施例におけるクエリベクトル63vの各要素は、0から1を示す。
(3:1、6:0.8、8:0.7、106:0.9、107:1、613:0.7)
のような疎ベクトル表現5p-0で示される。
(1×4)+(1×1)+(0.7×1)=5.7
となる。
クエリベクトル4vと特徴ベクトル59v-1のそれぞれの長さの2乗は、
12+0.82+0.72+0.92+12+0.72=4.43、
42+42+12+12=34
である。
そして、数3の分母の値は、「4.43」と「34」とを乗算して平方根を求めると、
√150.62=12.273
となる。よって、クエリベクトル63vと特徴ベクトル59v-1のコサイン類似度は、
5.7÷12.273=0.464
となる。
(1×6)+(0.8×1)+(0.9×7)+(0.7×3)=15.2
となる。
クエリベクトル4vと特徴ベクトル59v-2のそれぞれの長さの2乗は、
12+0.82+0.72+0.92+12+0.72=4.43、
62+12+72+32=95
である。
そして、数3の分母の値は、「4.43」と「95」とを乗算して平方根を求めると、
√420.85=20.515
となる。よって、クエリベクトル63vと特徴ベクトル59v-2のコサイン類似度は、
15.2÷20.515=0.741
となる。この例では、文書データ3-2の方が、文書データ3-1より、検索キーワード7に類似している、という結果を得る。図12の類似語の考慮無しの場合とは異なる類似度順となる。
(付記1)
単語の意味的な類似性を考慮した文書を検索する情報処理装置において、
検索キーワードを分かち書きした単語ごとに類似する語を、単語埋め込みによる学習済みモデルで推論された類似度順に所定個を取得する取得部と、
前記検索キーワードの単語を索引語とするインデックスに対応する第1の要素には1を設定し、前記類似する語を索引語とするインデックスに対応する第2の要素には得られた類似度に応じて0から1の範囲で値を設定し、該第1の要素及び該第2の要素以外の第3の要素には0を設定したクエリベクトルを作成する作成部と、
前記文書を分かち書きすることで得られた単語を用いて該文書の特徴を表す特徴ベクトルを作成する特徴ベクトル化処理部と、
前記クエリベクトルと前記特徴ベクトルとの類似度を算出する算出部と
を有する情報処理装置。
(付記2)
インターネットを介して収集した公開情報を用いて、該公開情報に含まれる単語間の類似性を前記単語埋め込みにより学習し、前記学習済みモデルを作成する初期設定処理部
を有することを特徴とする付記1記載の情報処理装置。
(付記3)
前記算出部によって算出された前記類似度の大きい順に前記文書と該文書に係るタグ情報とを示した検索結果を出力する出力部を有し、
前記検索結果に対して前記タグ情報の少なくとも1つの値を指定した検索要求の受け付けに応じて、検索範囲を絞り込む
ことを特徴とする付記2記載の情報処理装置。
(付記4)
前記検索キーワードに含まれる単語が前記索引語に対応しない場合、前記クエリベクトルは前記類似する語を用いて作成される
ことを特徴とする付記1乃至3のいずれか一項記載の情報処理装置。
(付記5)
前記クエリベクトルの次元数と、前記特徴ベクトルの次元数と、前記索引語の個数とは一致することを特徴とする付記4記載の情報処理装置。
(付記6)
単語の意味的な類似性を考慮した文書を検索する情報処理方法において、
検索キーワードを分かち書きした単語ごとに類似する語を、単語埋め込みによる学習済みモデルで推論された類似度順に所定個を取得し、
前記検索キーワードの単語を索引語とするインデックスに対応する第1の要素には1を設定し、前記類似する語を索引語とするインデックスに対応する第2の要素には得られた類似度に応じて0から1の範囲で値を設定し、該第1の要素及び該第2の要素以外の第3の要素には0を設定したクエリベクトルを作成し、
前記文書を分かち書きすることで得られた単語を用いて該文書の特徴を表す特徴ベクトルを作成し、
前記クエリベクトルと前記特徴ベクトルとの類似度を算出する
処理をコンピュータが実行する情報処理方法。
(付記7)
単語の意味的な類似性を考慮した文書を検索する情報処理プログラムにおいて、
検索キーワードを分かち書きした単語ごとに類似する語を、単語埋め込みによる学習済みモデルで推論された類似度順に所定個を取得し、
前記検索キーワードの単語を索引語とするインデックスに対応する第1の要素には1を設定し、前記類似する語を索引語とするインデックスに対応する第2の要素には得られた類似度に応じて0から1の範囲で値を設定し、該第1の要素及び該第2の要素以外の第3の要素には0を設定したクエリベクトルを作成し、
前記文書を分かち書きすることで得られた単語を用いて該文書の特徴を表す特徴ベクトルを作成し、
前記クエリベクトルと前記特徴ベクトルとの類似度を算出する
処理をコンピュータに行わせる情報処理プログラム。
3 文書データ
7 検索キーワード
40 初期設定処理部
40a コーパス前処理部
40b 文書前処理部
40c 単語埋め込み部
41 特徴ベクトル化処理部
41a 説明文抽出部
41b 文書前処理部
41c 特徴ベクトル作成部
42 検索処理部
42a キーワード受信部
42b 文書前処理部
42c 単語埋め込み部
42d クエリベクトル作成部
42e 類似度算出部
42f タグ情報抽出部
42g 結果送信部
100 情報処理装置
200 端末
Claims (5)
- 単語の意味的な類似性を考慮した文書を検索する情報処理装置において、
検索キーワードを分かち書きした単語ごとに類似する語を、単語埋め込みによる学習済みモデルで推論された類似度順に所定個を取得する取得部と、
前記検索キーワードの単語を索引語とするインデックスに対応する第1の要素には1を設定し、前記類似する語を索引語とするインデックスに対応する第2の要素には得られた類似度に応じて0から1の範囲で値を設定し、該第1の要素及び該第2の要素以外の第3の要素には0を設定したクエリベクトルを作成する作成部と、
前記文書を分かち書きすることで得られた単語を用いて該文書の特徴を表す特徴ベクトルを作成する特徴ベクトル化処理部と、
前記クエリベクトルと前記特徴ベクトルとの類似度を算出する算出部と、
前記算出部によって算出された前記類似度の大きい順に前記文書と該文書に係るタグ情報とを示した検索結果を出力する出力部と
を有する情報処理装置。 - インターネットを介して収集した公開情報を用いて、該公開情報に含まれる単語間の類似性を前記単語埋め込みにより学習し、前記学習済みモデルを作成する初期設定処理部
を有することを特徴とする請求項1記載の情報処理装置。 - 前記検索結果に対して前記タグ情報の少なくとも1つの値を指定した検索要求の受け付けに応じて、検索範囲を絞り込む
ことを特徴とする請求項2記載の情報処理装置。 - 前記検索キーワードに含まれる単語が前記索引語に対応しない場合、前記クエリベクトルは前記類似する語を用いて作成される
ことを特徴とする請求項1乃至3のいずれか一項記載の情報処理装置。 - 単語の意味的な類似性を考慮した文書を検索する情報処理方法において、
検索キーワードを分かち書きした単語ごとに類似する語を、単語埋め込みによる学習済みモデルで推論された類似度順に所定個を取得し、
前記検索キーワードの単語を索引語とするインデックスに対応する第1の要素には1を設定し、前記類似する語を索引語とするインデックスに対応する第2の要素には得られた類似度に応じて0から1の範囲で値を設定し、該第1の要素及び該第2の要素以外の第3の要素には0を設定したクエリベクトルを作成し、
前記文書を分かち書きすることで得られた単語を用いて該文書の特徴を表す特徴ベクトルを作成し、
前記クエリベクトルと前記特徴ベクトルとの類似度を算出し、
算出された前記類似度の大きい順に前記文書と該文書に係るタグ情報とを示した検索結果を出力する、
処理をコンピュータが実行する情報処理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020041293A JP7388256B2 (ja) | 2020-03-10 | 2020-03-10 | 情報処理装置及び情報処理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020041293A JP7388256B2 (ja) | 2020-03-10 | 2020-03-10 | 情報処理装置及び情報処理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021144348A JP2021144348A (ja) | 2021-09-24 |
JP7388256B2 true JP7388256B2 (ja) | 2023-11-29 |
Family
ID=77766614
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020041293A Active JP7388256B2 (ja) | 2020-03-10 | 2020-03-10 | 情報処理装置及び情報処理方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7388256B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20240164411A1 (en) | 2020-12-28 | 2024-05-23 | Suntory Holdings Limited | Oral composition having enhanced sweetness |
JP2024024504A (ja) * | 2022-08-09 | 2024-02-22 | 堺化学工業株式会社 | 学習済モデル選択方法、学習済モデル選択装置および学習済モデル選択プログラム |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001043236A (ja) | 1999-07-30 | 2001-02-16 | Matsushita Electric Ind Co Ltd | 類似語抽出方法、文書検索方法及びこれらに用いる装置 |
JP2002073680A (ja) | 2000-08-30 | 2002-03-12 | Mitsubishi Research Institute Inc | 技術情報検索システム |
JP2007219722A (ja) | 2006-02-15 | 2007-08-30 | Just Syst Corp | 文書検索サーバおよび文書検索方法 |
WO2016001998A1 (ja) | 2014-06-30 | 2016-01-07 | 楽天株式会社 | 類似度算出システム、類似度算出方法およびプログラム |
JP2017072885A (ja) | 2015-10-05 | 2017-04-13 | 日本電信電話株式会社 | 情報検索装置、辞書作成装置、方法、及びプログラム |
-
2020
- 2020-03-10 JP JP2020041293A patent/JP7388256B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001043236A (ja) | 1999-07-30 | 2001-02-16 | Matsushita Electric Ind Co Ltd | 類似語抽出方法、文書検索方法及びこれらに用いる装置 |
JP2002073680A (ja) | 2000-08-30 | 2002-03-12 | Mitsubishi Research Institute Inc | 技術情報検索システム |
JP2007219722A (ja) | 2006-02-15 | 2007-08-30 | Just Syst Corp | 文書検索サーバおよび文書検索方法 |
WO2016001998A1 (ja) | 2014-06-30 | 2016-01-07 | 楽天株式会社 | 類似度算出システム、類似度算出方法およびプログラム |
JP2017072885A (ja) | 2015-10-05 | 2017-04-13 | 日本電信電話株式会社 | 情報検索装置、辞書作成装置、方法、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP2021144348A (ja) | 2021-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8024175B2 (en) | Computer program, apparatus, and method for searching translation memory and displaying search result | |
KR102059743B1 (ko) | 딥러닝 기반의 지식 구조 생성 방법을 활용한 의료 문헌 구절 검색 방법 및 시스템 | |
US10678820B2 (en) | System and method for computerized semantic indexing and searching | |
JP7388256B2 (ja) | 情報処理装置及び情報処理方法 | |
JP2011248596A (ja) | 画像入り文書の検索システム及び検索方法 | |
CN111194457A (zh) | 专利评估判定方法、专利评估判定装置以及专利评估判定程序 | |
JP6653833B1 (ja) | 文書情報評価装置および文書情報評価方法並びに文書情報評価プログラム | |
JP6908644B2 (ja) | 文書検索装置及び文書検索方法 | |
CN114141384A (zh) | 用于检索医学数据的方法、设备和介质 | |
JP6867963B2 (ja) | 要約評価装置、方法、プログラム、及び記憶媒体 | |
JP5869948B2 (ja) | パッセージ分割方法、装置、及びプログラム | |
JP3930168B2 (ja) | 文書検索方法、装置および文書検索プログラムを記録した記録媒体 | |
US20140358522A1 (en) | Information search apparatus and information search method | |
WO2020079752A1 (ja) | 文献検索方法および文献検索システム | |
JP2021086592A (ja) | 文書情報評価装置および文書情報評価方法並びに文書情報評価プログラム | |
JP5533272B2 (ja) | データ出力装置、データ出力方法およびデータ出力プログラム | |
US20220083736A1 (en) | Information processing apparatus and non-transitory computer readable medium | |
CN108614821B (zh) | 地质资料互联互查系统 | |
JP4567025B2 (ja) | テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体 | |
JP4435144B2 (ja) | データ検索システム及びプログラム | |
JP2007072610A (ja) | 情報処理方法及び装置及びプログラム | |
WO2014049310A2 (en) | Method and apparatuses for interactive searching of electronic documents | |
WO2020079751A1 (ja) | 文献検索方法および文献検索システム | |
JP2021101375A (ja) | 辞書構築装置、辞書の生産方法、およびプログラム | |
TW201822031A (zh) | 以文字資訊建立圖表索引方法及其電腦程式產品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221117 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230825 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230905 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231004 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231017 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231030 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7388256 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |