JP2019086995A - 類似性指標値算出装置、類似検索装置および類似性指標値算出用プログラム - Google Patents
類似性指標値算出装置、類似検索装置および類似性指標値算出用プログラム Download PDFInfo
- Publication number
- JP2019086995A JP2019086995A JP2017214388A JP2017214388A JP2019086995A JP 2019086995 A JP2019086995 A JP 2019086995A JP 2017214388 A JP2017214388 A JP 2017214388A JP 2017214388 A JP2017214388 A JP 2017214388A JP 2019086995 A JP2019086995 A JP 2019086995A
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- similarity
- sentences
- index value
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004364 calculation method Methods 0.000 title claims abstract description 68
- 239000013598 vector Substances 0.000 claims abstract description 123
- 238000011156 evaluation Methods 0.000 claims abstract description 32
- 239000000284 extract Substances 0.000 claims abstract description 13
- 238000000605 extraction Methods 0.000 claims abstract description 11
- 238000013500 data storage Methods 0.000 claims description 40
- 239000011159 matrix material Substances 0.000 claims description 21
- 238000000034 method Methods 0.000 description 12
- 238000004891 communication Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 9
- 238000004458 analytical method Methods 0.000 description 4
- 239000004065 semiconductor Substances 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
11 単語抽出部
12 ベクトル算出部
12A 文章ベクトル算出部
12B 単語ベクトル算出部
13 指標値算出部
20,30,40,50 類似検索装置
21,31 文章データ記憶部
22,52 検索キー指定部
23,33 類似文章検索部
32 検索キー取得部
42 データ取得部
Claims (9)
- m個(mは2以上の任意の整数)の文章を解析し、当該m個の文章からn個(nは2以上の任意の整数)の単語を抽出する単語抽出部と、
上記m個の文章をそれぞれ所定のルールに従ってq次元(qは2以上の任意の整数)にベクトル化することにより、q個の軸成分から成るm個の文章ベクトルを算出する文章ベクトル算出部と、
上記n個の単語をそれぞれ所定のルールに従ってq次元にベクトル化することにより、q個の軸成分から成るn個の単語ベクトルを算出する単語ベクトル算出部と、
上記m個の文章ベクトルと上記n個の単語ベクトルとの内積をそれぞれとることにより、上記m個の文章および上記n個の単語間の関係性を反映した類似性指標値を算出する指標値算出部とを備えたことを特徴とする類似性指標値算出装置。 - 上記文章ベクトル算出部および上記単語ベクトル算出部は、上記n個の単語のうち一の単語から上記m個の文章のうち一の文章が予想される確率、または、上記m個の文章のうち一の文章から上記n個の単語のうち一の単語が予想される確率を、上記m個の文章と上記n個の単語との全ての組み合わせについて算出して合計した値を目標変数とし、当該目標変数を最大化する文章ベクトルおよび単語ベクトルを算出することを特徴とする請求項1に記載の類似性指標値算出装置。
- 上記指標値算出部は、上記m個の文章ベクトルの各q個の軸成分を各要素とする文章行列と、上記n個の単語ベクトルの各q個の軸成分を各要素とする単語行列との積をとることにより、m×n個の上記類似性指標値を各要素とする評価値行列を算出することを特徴とする請求項1または2に記載の類似性指標値算出装置。
- 請求項1〜3の何れか1項に記載の類似性指標値算出装置と、
上記m個の文章のうち一の文章を検索キーとして指定した場合に、当該一の文章以外のm−1個の他の文章を検索対象とし、上記一の文章に関するn個の類似性指標値から成る検索キー関連文章指標値群と、上記m−1個の他の文章に関する各n個の類似性指標値から成る検索対象関連文章指標値群との類似度を判定し、上記m−1個の他の文章の中から上記類似度が大きい方から所定数の文章を検索結果として抽出する類似文章検索部とを備えたことを特徴とする類似検索装置。 - 上記類似性指標値算出装置により算出された上記類似性評価値と共に上記m個の文章に関する文章データを記憶した文章データ記憶部を更に備え、
上記類似文章検索部は、上記文章データ記憶部に記憶されている上記m個の文章の中から上記一の文章が上記検索キーとして指定された場合に、当該一の文章以外のm−1個の他の文章を検索対象とし、上記一の文章に関するn個の類似性指標値から成る検索キー関連文章指標値群と、上記m−1個の他の文章に関する各n個の類似性指標値から成る検索対象関連文章指標値群との類似度を判定し、上記m−1個の他の文章の中から上記類似度が大きい方から所定数の文章を検索結果として抽出することを特徴とする請求項4に記載の類似検索装置。 - 上記類似性指標値算出装置により算出された上記類似性評価値と共に複数の文章データを記憶した文章データ記憶部と、
上記検索キーとして指定された文章データを取得する検索キー取得部とを更に備え、
上記類似性指標値算出装置は、上記検索キー取得部により取得された文章データを上記一の文章とし、上記文章データ記憶部に記憶されている文章データを上記m−1個の他の文章として、上記類似性指標値を算出し、
上記類似文章検索部は、上記検索キー取得部により取得された上記一の文章に関するn個の類似性指標値から成る検索キー関連文章指標値群と、上記文章データ記憶部に記憶されている上記m−1個の他の文章に関する各n個の類似性指標値から成る検索対象関連文章指標値群との類似度を判定し、上記文章データ記憶部に記憶されている上記m−1個の他の文章の中から上記類似度が大きい方から所定数の文章を検索結果として抽出することを特徴とする請求項4に記載の類似検索装置。 - 請求項1〜3の何れか1項に記載の類似性指標値算出装置により算出された上記類似性評価値と共に上記m個の文章に関する文章データを記憶した文章データ記憶部から上記文章データおよび上記類似性指標値を取得するデータ取得部と、
上記データ取得部により取得されるデータを用いて、上記m個の文章のうち一の文章を検索キーとして指定した場合に、当該一の文章以外のm−1個の他の文章を検索対象とし、上記一の文章に関するn個の類似性指標値から成る検索キー関連文章指標値群と、上記m−1個の他の文章に関する各n個の類似性指標値から成る検索対象関連文章指標値群との類似度を判定し、上記m−1個の他の文章の中から上記類似度が大きい方から所定数の文章を検索結果として抽出する類似文章検索部とを備えたことを特徴とする類似検索装置。 - 上記n個の単語のうち一の単語を検索キーとして指定した場合に、当該一の単語以外のn−1個の他の単語を検索対象とし、上記一の単語に関するm個の類似性指標値から成る検索キー関連単語指標値群と、上記n−1個の他の単語に関する各m個の類似性指標値から成る検索対象関連単語指標値群との類似度を判定し、上記n−1個の他の単語の中から上記類似度が大きい方から所定数の単語を検索結果として抽出する類似単語検索部を、上記類似文章検索部に代えてまたは加えて備えたことを特徴とする請求項4〜7の何れか1項に記載の類似検索装置。
- m個(mは2以上の任意の整数)の文章を解析し、当該m個の文章からn個(nは2以上の任意の整数)の単語を抽出する単語抽出部手段、
上記m個の文章をそれぞれ所定のルールに従ってq次元(qは2以上の任意の整数)にベクトル化するとともに、上記n個の単語をそれぞれ所定のルールに従ってq次元にベクトル化することにより、q個の軸成分から成るm個の文章ベクトルおよびq個の軸成分から成るn個の単語ベクトルを算出するベクトル算出手段、および
上記m個の文章ベクトルと上記n個の単語ベクトルとの内積をそれぞれとることにより、上記m個の文章および上記n個の単語間の関係性を反映した類似性指標値を算出する指標値算出手段
としてコンピュータを機能させるための類似性指標値算出用プログラム。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017214388A JP6346367B1 (ja) | 2017-11-07 | 2017-11-07 | 類似性指標値算出装置、類似検索装置および類似性指標値算出用プログラム |
CN201880071838.6A CN111373386A (zh) | 2017-11-07 | 2018-10-29 | 相似度指标值计算装置、相似检索装置及相似度指标值计算用程序 |
EP18876872.5A EP3709183A4 (en) | 2017-11-07 | 2018-10-29 | SIMILARITY INDEX CALCULATION DEVICE, SIMILARITY RESEARCH DEVICE AND SIMILARITY INDEX CALCULATION PROGRAM |
US16/759,474 US11544309B2 (en) | 2017-11-07 | 2018-10-29 | Similarity index value computation apparatus, similarity search apparatus, and similarity index value computation program |
PCT/JP2018/040056 WO2019093172A1 (ja) | 2017-11-07 | 2018-10-29 | 類似性指標値算出装置、類似検索装置および類似性指標値算出用プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017214388A JP6346367B1 (ja) | 2017-11-07 | 2017-11-07 | 類似性指標値算出装置、類似検索装置および類似性指標値算出用プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6346367B1 JP6346367B1 (ja) | 2018-06-20 |
JP2019086995A true JP2019086995A (ja) | 2019-06-06 |
Family
ID=62635717
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017214388A Active JP6346367B1 (ja) | 2017-11-07 | 2017-11-07 | 類似性指標値算出装置、類似検索装置および類似性指標値算出用プログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US11544309B2 (ja) |
EP (1) | EP3709183A4 (ja) |
JP (1) | JP6346367B1 (ja) |
CN (1) | CN111373386A (ja) |
WO (1) | WO2019093172A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210151281A (ko) * | 2020-06-04 | 2021-12-14 | 동국대학교 산학협력단 | Bert의 문장 임베딩 벡터를 이용한 텍스트랭크 기반 핵심 문장 추출 방법 및 장치 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7116969B2 (ja) * | 2020-06-29 | 2022-08-12 | 株式会社Fronteo | 2次元マップ生成装置、2次元マップ生成方法および2次元マップ生成用プログラム |
CN115587230B (zh) * | 2022-09-23 | 2024-04-12 | 国网江苏省电力有限公司营销服务中心 | 结合行业文本和用电负荷的高耗能企业识别方法及系统 |
KR102628281B1 (ko) * | 2023-11-09 | 2024-01-23 | 한화시스템(주) | 전자지도 전시 성능 향상을 위한 벡터 기반 공간정보 압축 시스템 및 그 방법 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07295994A (ja) | 1994-04-22 | 1995-11-10 | Sharp Corp | 情報検索装置 |
JP4013489B2 (ja) | 2001-03-02 | 2007-11-28 | 富士ゼロックス株式会社 | 対応カテゴリ検索システムおよび方法 |
US7133860B2 (en) * | 2002-01-23 | 2006-11-07 | Matsushita Electric Industrial Co., Ltd. | Device and method for automatically classifying documents using vector analysis |
JP2003288362A (ja) * | 2002-03-27 | 2003-10-10 | Seiko Epson Corp | 特定要素ベクトル生成装置、文字列ベクトル生成装置、類似度算出装置、特定要素ベクトル生成プログラム、文字列ベクトル生成プログラム及び類似度算出プログラム、並びに特定要素ベクトル生成方法、文字列ベクトル生成方法及び類似度算出方法 |
JP2005122515A (ja) * | 2003-10-17 | 2005-05-12 | Sony Corp | 電子機器装置、テキスト間の類似度計算方法、およびプログラム |
US7668795B2 (en) * | 2004-11-02 | 2010-02-23 | Fuji Xerox Co., Ltd. | Data analyzer utilizing the spreading activation theory for stemming processing |
US8312021B2 (en) * | 2005-09-16 | 2012-11-13 | Palo Alto Research Center Incorporated | Generalized latent semantic analysis |
CN101226596B (zh) * | 2007-01-15 | 2012-02-01 | 夏普株式会社 | 文档图像处理装置以及文档图像处理方法 |
CN101354703B (zh) * | 2007-07-23 | 2010-11-17 | 夏普株式会社 | 文档图像处理装置和文档图像处理方法 |
CN103838789A (zh) * | 2012-11-27 | 2014-06-04 | 大连灵动科技发展有限公司 | 一种文本相似度计算方法 |
US20170161275A1 (en) * | 2015-12-08 | 2017-06-08 | Luminoso Technologies, Inc. | System and method for incorporating new terms in a term-vector space from a semantic lexicon |
CN107436875B (zh) * | 2016-05-25 | 2020-12-04 | 华为技术有限公司 | 文本分类方法及装置 |
US11151203B2 (en) * | 2017-02-28 | 2021-10-19 | Apple Inc. | Interest embedding vectors |
CN107247780A (zh) * | 2017-06-12 | 2017-10-13 | 北京理工大学 | 一种基于知识本体的专利文献相似性度量方法 |
-
2017
- 2017-11-07 JP JP2017214388A patent/JP6346367B1/ja active Active
-
2018
- 2018-10-29 US US16/759,474 patent/US11544309B2/en active Active
- 2018-10-29 CN CN201880071838.6A patent/CN111373386A/zh active Pending
- 2018-10-29 WO PCT/JP2018/040056 patent/WO2019093172A1/ja unknown
- 2018-10-29 EP EP18876872.5A patent/EP3709183A4/en active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210151281A (ko) * | 2020-06-04 | 2021-12-14 | 동국대학교 산학협력단 | Bert의 문장 임베딩 벡터를 이용한 텍스트랭크 기반 핵심 문장 추출 방법 및 장치 |
KR102535852B1 (ko) | 2020-06-04 | 2023-05-24 | 동국대학교 산학협력단 | Bert의 문장 임베딩 벡터를 이용한 텍스트랭크 기반 핵심 문장 추출 방법 및 장치 |
Also Published As
Publication number | Publication date |
---|---|
CN111373386A (zh) | 2020-07-03 |
US20200285661A1 (en) | 2020-09-10 |
WO2019093172A1 (ja) | 2019-05-16 |
JP6346367B1 (ja) | 2018-06-20 |
US11544309B2 (en) | 2023-01-03 |
EP3709183A4 (en) | 2021-09-01 |
EP3709183A1 (en) | 2020-09-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2019093172A1 (ja) | 類似性指標値算出装置、類似検索装置および類似性指標値算出用プログラム | |
JP5078173B2 (ja) | 多義性解消方法とそのシステム | |
JP2019504413A (ja) | 絵文字を提案するためのシステムおよび方法 | |
JP5379138B2 (ja) | 領域辞書の作成 | |
JP5710581B2 (ja) | 質問応答装置、方法、及びプログラム | |
JP6915809B2 (ja) | 事象予測装置、予測モデル生成装置および事象予測用プログラム | |
JP4266222B2 (ja) | 単語翻訳装置およびそのプログラム並びにコンピュータ読み取り可能な記録媒体 | |
US10474958B2 (en) | Apparatus, system and method for an adaptive or static machine-learning classifier using prediction by partial matching (PPM) language modeling | |
US20140358522A1 (en) | Information search apparatus and information search method | |
JP4945015B2 (ja) | 文書検索システム、文書検索プログラム、および文書検索方法 | |
JP2019061522A (ja) | 文書推薦システム、文書推薦方法および文書推薦プログラム | |
JP6181890B2 (ja) | 文献解析装置、文献解析方法およびプログラム | |
JP6976537B1 (ja) | 情報検索装置、情報検索方法および情報検索用プログラム | |
JP4985096B2 (ja) | 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム | |
Al Dakhil et al. | Reviews Analysis of Apple Store Applications Using Supervised Machine Learning | |
JP6502807B2 (ja) | 情報抽出装置、情報抽出方法および情報抽出プログラム | |
JP3952964B2 (ja) | 読み情報決定方法及び装置及びプログラム | |
JP2007241635A (ja) | 文書検索装置、情報処理装置、検索結果出力方法、検索結果表示方法およびプログラム | |
JP7386466B1 (ja) | データ解析装置およびデータ解析プログラム | |
JP2015203960A (ja) | 部分情報抽出システム | |
JP5703958B2 (ja) | 情報検索装置、情報検索方法および情報検索プログラム | |
US20240013004A1 (en) | Automatic data card generation | |
WO2022003997A1 (ja) | パスウェイ生成装置、パスウェイ生成方法およびパスウェイ生成用プログラム | |
Ramanna et al. | Japanese Language Review Mining using Translators, Word Embedding and ML Techniques | |
Butler et al. | Efficient and Accurate Closed-Domain and Open-Domain Long-Form Question Answering |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20171121 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20171121 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20171206 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180207 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180227 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180404 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180515 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180524 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6346367 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |