JP6346367B1 - 類似性指標値算出装置、類似検索装置および類似性指標値算出用プログラム - Google Patents
類似性指標値算出装置、類似検索装置および類似性指標値算出用プログラム Download PDFInfo
- Publication number
- JP6346367B1 JP6346367B1 JP2017214388A JP2017214388A JP6346367B1 JP 6346367 B1 JP6346367 B1 JP 6346367B1 JP 2017214388 A JP2017214388 A JP 2017214388A JP 2017214388 A JP2017214388 A JP 2017214388A JP 6346367 B1 JP6346367 B1 JP 6346367B1
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- similarity
- sentences
- index value
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004364 calculation method Methods 0.000 title claims abstract description 66
- 239000013598 vector Substances 0.000 claims abstract description 116
- 238000011156 evaluation Methods 0.000 claims abstract description 30
- 239000000284 extract Substances 0.000 claims abstract description 11
- 238000000605 extraction Methods 0.000 claims abstract description 11
- 238000013500 data storage Methods 0.000 claims description 38
- 239000011159 matrix material Substances 0.000 claims description 21
- 230000006870 function Effects 0.000 description 15
- 238000000034 method Methods 0.000 description 14
- 238000004891 communication Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 10
- 239000004065 semiconductor Substances 0.000 description 4
- 230000000877 morphologic effect Effects 0.000 description 3
- 241000282326 Felis catus Species 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】m個の文章を解析してn個の単語を抽出する単語抽出部11と、m個の文章およびn個の単語をそれぞれq次元にベクトル化することにより、q個の軸成分から成るm個の文章ベクトルおよびq個の軸成分から成るn個の単語ベクトルを算出するベクトル算出部12と、m個の文章ベクトルとn個の単語ベクトルとの内積をそれぞれとることにより、m個の文章およびn個の単語間の関係性を反映した類似性指標値を算出する指標値算出部13とを備え、文章から算出された文章ベクトルと、文章内に含まれる単語から算出された単語ベクトルとの内積を計算することによって、どの単語がどの文章に対してどの程度寄与しているのかを内積の値として表した類似性評価値を得ることができるようにする。
【選択図】図1
Description
11 単語抽出部
12 ベクトル算出部
12A 文章ベクトル算出部
12B 単語ベクトル算出部
13 指標値算出部
20,30,40,50 類似検索装置
21,31 文章データ記憶部
22,52 検索キー指定部
23,33 類似文章検索部
32 検索キー取得部
42 データ取得部
Claims (8)
- m個(mは2以上の任意の整数)の文章を解析し、当該m個の文章からn個(nは2以上の任意の整数)の単語を抽出する単語抽出部と、
上記m個の文章をそれぞれ所定のルールに従ってq次元(qは2以上の任意の整数)にベクトル化することにより、q個の軸成分から成るm個の文章ベクトルを算出する文章ベクトル算出部と、
上記n個の単語をそれぞれ所定のルールに従ってq次元にベクトル化することにより、q個の軸成分から成るn個の単語ベクトルを算出する単語ベクトル算出部と、
上記m個の文章ベクトルと上記n個の単語ベクトルとの内積をそれぞれとることにより、上記m個の文章および上記n個の単語間の関係性を反映した類似性指標値を算出する指標値算出部とを備え、
上記文章ベクトル算出部および上記単語ベクトル算出部は、上記n個の単語のうち一の単語から上記m個の文章のうち一の文章が予想される確率、または、上記m個の文章のうち一の文章から上記n個の単語のうち一の単語が予想される確率を、上記m個の文章と上記n個の単語との全ての組み合わせについて算出して合計した値を目標変数とし、当該目標変数を最大化する文章ベクトルおよび単語ベクトルを算出することを特徴とする類似性指標値算出装置。 - 上記指標値算出部は、上記m個の文章ベクトルの各q個の軸成分を各要素とする文章行列と、上記n個の単語ベクトルの各q個の軸成分を各要素とする単語行列との積をとることにより、m×n個の上記類似性指標値を各要素とする評価値行列を算出することを特徴とする請求項1に記載の類似性指標値算出装置。
- 請求項1または2に記載の類似性指標値算出装置と、
上記m個の文章のうち一の文章を検索キーとして指定した場合に、当該一の文章以外のm−1個の他の文章を検索対象とし、上記一の文章に関するn個の類似性指標値から成る検索キー関連文章指標値群と、上記m−1個の他の文章に関する各n個の類似性指標値から成る検索対象関連文章指標値群との類似度を判定し、上記m−1個の他の文章の中から上記類似度が大きい方から所定数の文章を検索結果として抽出する類似文章検索部とを備えたことを特徴とする類似検索装置。 - 上記類似性指標値算出装置により算出された上記類似性指標値と共に上記m個の文章に関する文章データを記憶した文章データ記憶部を更に備え、
上記類似文章検索部は、上記文章データ記憶部に記憶されている上記m個の文章の中から上記一の文章が上記検索キーとして指定された場合に、当該一の文章以外のm−1個の他の文章を検索対象とし、上記一の文章に関するn個の類似性指標値から成る検索キー関連文章指標値群と、上記m−1個の他の文章に関する各n個の類似性指標値から成る検索対象関連文章指標値群との類似度を判定し、上記m−1個の他の文章の中から上記類似度が大きい方から所定数の文章を検索結果として抽出することを特徴とする請求項3に記載の類似検索装置。 - 上記類似性指標値算出装置により算出された上記類似性指標値と共に複数の文章データを記憶した文章データ記憶部と、
上記検索キーとして指定された文章データを取得する検索キー取得部とを更に備え、
上記類似性指標値算出装置は、上記検索キー取得部により取得された文章データを上記一の文章とし、上記文章データ記憶部に記憶されている文章データを上記m−1個の他の文章として、上記類似性指標値を算出し、
上記類似文章検索部は、上記検索キー取得部により取得された上記一の文章に関するn個の類似性指標値から成る検索キー関連文章指標値群と、上記文章データ記憶部に記憶されている上記m−1個の他の文章に関する各n個の類似性指標値から成る検索対象関連文章指標値群との類似度を判定し、上記文章データ記憶部に記憶されている上記m−1個の他の文章の中から上記類似度が大きい方から所定数の文章を検索結果として抽出することを特徴とする請求項3に記載の類似検索装置。 - 請求項1または2に記載の類似性指標値算出装置により算出された上記類似性指標値と共に上記m個の文章に関する文章データを記憶した文章データ記憶部から上記文章データおよび上記類似性指標値を取得するデータ取得部と、
上記データ取得部により取得されるデータを用いて、上記m個の文章のうち一の文章を検索キーとして指定した場合に、当該一の文章以外のm−1個の他の文章を検索対象とし、上記一の文章に関するn個の類似性指標値から成る検索キー関連文章指標値群と、上記m−1個の他の文章に関する各n個の類似性指標値から成る検索対象関連文章指標値群との類似度を判定し、上記m−1個の他の文章の中から上記類似度が大きい方から所定数の文章を検索結果として抽出する類似文章検索部とを備えたことを特徴とする類似検索装置。 - 上記n個の単語のうち一の単語を検索キーとして指定した場合に、当該一の単語以外のn−1個の他の単語を検索対象とし、上記一の単語に関するm個の類似性指標値から成る検索キー関連単語指標値群と、上記n−1個の他の単語に関する各m個の類似性指標値から成る検索対象関連単語指標値群との類似度を判定し、上記n−1個の他の単語の中から上記類似度が大きい方から所定数の単語を検索結果として抽出する類似単語検索部を、上記類似文章検索部に代えてまたは加えて備えたことを特徴とする請求項3〜6の何れか1項に記載の類似検索装置。
- m個(mは2以上の任意の整数)の文章を解析し、当該m個の文章からn個(nは2以上の任意の整数)の単語を抽出する単語抽出部手段、
上記m個の文章をそれぞれ所定のルールに従ってq次元(qは2以上の任意の整数)にベクトル化するとともに、上記n個の単語をそれぞれ所定のルールに従ってq次元にベクトル化することにより、q個の軸成分から成るm個の文章ベクトルおよびq個の軸成分から成るn個の単語ベクトルを算出するベクトル算出手段、および
上記m個の文章ベクトルと上記n個の単語ベクトルとの内積をそれぞれとることにより、上記m個の文章および上記n個の単語間の関係性を反映した類似性指標値を算出する指標値算出手段
としてコンピュータを機能させ、
上記文章ベクトル算出手段は、上記n個の単語のうち一の単語から上記m個の文章のうち一の文章が予想される確率、または、上記m個の文章のうち一の文章から上記n個の単語のうち一の単語が予想される確率を、上記m個の文章と上記n個の単語との全ての組み合わせについて算出して合計した値を目標変数とし、当該目標変数を最大化する文章ベクトルおよび単語ベクトルを算出することを特徴とする類似性指標値算出用プログラム。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017214388A JP6346367B1 (ja) | 2017-11-07 | 2017-11-07 | 類似性指標値算出装置、類似検索装置および類似性指標値算出用プログラム |
CN201880071838.6A CN111373386A (zh) | 2017-11-07 | 2018-10-29 | 相似度指标值计算装置、相似检索装置及相似度指标值计算用程序 |
EP18876872.5A EP3709183A4 (en) | 2017-11-07 | 2018-10-29 | SIMILARITY INDEX CALCULATION DEVICE, SIMILARITY RESEARCH DEVICE AND SIMILARITY INDEX CALCULATION PROGRAM |
PCT/JP2018/040056 WO2019093172A1 (ja) | 2017-11-07 | 2018-10-29 | 類似性指標値算出装置、類似検索装置および類似性指標値算出用プログラム |
US16/759,474 US11544309B2 (en) | 2017-11-07 | 2018-10-29 | Similarity index value computation apparatus, similarity search apparatus, and similarity index value computation program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017214388A JP6346367B1 (ja) | 2017-11-07 | 2017-11-07 | 類似性指標値算出装置、類似検索装置および類似性指標値算出用プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6346367B1 true JP6346367B1 (ja) | 2018-06-20 |
JP2019086995A JP2019086995A (ja) | 2019-06-06 |
Family
ID=62635717
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017214388A Active JP6346367B1 (ja) | 2017-11-07 | 2017-11-07 | 類似性指標値算出装置、類似検索装置および類似性指標値算出用プログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US11544309B2 (ja) |
EP (1) | EP3709183A4 (ja) |
JP (1) | JP6346367B1 (ja) |
CN (1) | CN111373386A (ja) |
WO (1) | WO2019093172A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115587230A (zh) * | 2022-09-23 | 2023-01-10 | 国网江苏省电力有限公司营销服务中心 | 结合行业文本和用电负荷的高耗能企业识别方法及系统 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102535852B1 (ko) * | 2020-06-04 | 2023-05-24 | 동국대학교 산학협력단 | Bert의 문장 임베딩 벡터를 이용한 텍스트랭크 기반 핵심 문장 추출 방법 및 장치 |
JP7116969B2 (ja) * | 2020-06-29 | 2022-08-12 | 株式会社Fronteo | 2次元マップ生成装置、2次元マップ生成方法および2次元マップ生成用プログラム |
KR102628281B1 (ko) * | 2023-11-09 | 2024-01-23 | 한화시스템(주) | 전자지도 전시 성능 향상을 위한 벡터 기반 공간정보 압축 시스템 및 그 방법 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003288362A (ja) * | 2002-03-27 | 2003-10-10 | Seiko Epson Corp | 特定要素ベクトル生成装置、文字列ベクトル生成装置、類似度算出装置、特定要素ベクトル生成プログラム、文字列ベクトル生成プログラム及び類似度算出プログラム、並びに特定要素ベクトル生成方法、文字列ベクトル生成方法及び類似度算出方法 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07295994A (ja) | 1994-04-22 | 1995-11-10 | Sharp Corp | 情報検索装置 |
JP4013489B2 (ja) | 2001-03-02 | 2007-11-28 | 富士ゼロックス株式会社 | 対応カテゴリ検索システムおよび方法 |
US7133860B2 (en) * | 2002-01-23 | 2006-11-07 | Matsushita Electric Industrial Co., Ltd. | Device and method for automatically classifying documents using vector analysis |
JP2005122515A (ja) * | 2003-10-17 | 2005-05-12 | Sony Corp | 電子機器装置、テキスト間の類似度計算方法、およびプログラム |
US7668795B2 (en) * | 2004-11-02 | 2010-02-23 | Fuji Xerox Co., Ltd. | Data analyzer utilizing the spreading activation theory for stemming processing |
US8312021B2 (en) * | 2005-09-16 | 2012-11-13 | Palo Alto Research Center Incorporated | Generalized latent semantic analysis |
CN101226596B (zh) * | 2007-01-15 | 2012-02-01 | 夏普株式会社 | 文档图像处理装置以及文档图像处理方法 |
CN101354703B (zh) * | 2007-07-23 | 2010-11-17 | 夏普株式会社 | 文档图像处理装置和文档图像处理方法 |
CN103838789A (zh) * | 2012-11-27 | 2014-06-04 | 大连灵动科技发展有限公司 | 一种文本相似度计算方法 |
US20170161275A1 (en) * | 2015-12-08 | 2017-06-08 | Luminoso Technologies, Inc. | System and method for incorporating new terms in a term-vector space from a semantic lexicon |
CN107436875B (zh) * | 2016-05-25 | 2020-12-04 | 华为技术有限公司 | 文本分类方法及装置 |
US11151203B2 (en) * | 2017-02-28 | 2021-10-19 | Apple Inc. | Interest embedding vectors |
CN107247780A (zh) * | 2017-06-12 | 2017-10-13 | 北京理工大学 | 一种基于知识本体的专利文献相似性度量方法 |
-
2017
- 2017-11-07 JP JP2017214388A patent/JP6346367B1/ja active Active
-
2018
- 2018-10-29 EP EP18876872.5A patent/EP3709183A4/en active Pending
- 2018-10-29 WO PCT/JP2018/040056 patent/WO2019093172A1/ja unknown
- 2018-10-29 CN CN201880071838.6A patent/CN111373386A/zh active Pending
- 2018-10-29 US US16/759,474 patent/US11544309B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003288362A (ja) * | 2002-03-27 | 2003-10-10 | Seiko Epson Corp | 特定要素ベクトル生成装置、文字列ベクトル生成装置、類似度算出装置、特定要素ベクトル生成プログラム、文字列ベクトル生成プログラム及び類似度算出プログラム、並びに特定要素ベクトル生成方法、文字列ベクトル生成方法及び類似度算出方法 |
Non-Patent Citations (3)
Title |
---|
"潜在意味解析", ウィキペディア, JPN6018006309, 22 June 2017 (2017-06-22) * |
北 研二, 情報検索アルゴリズム, JPN6018006315, 1 March 2003 (2003-03-01), JP, pages p.27−35 * |
北 研二, 情報検索アルゴリズム, JPN6018006315, 1 March 2003 (2003-03-01), pages p.27−35 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115587230A (zh) * | 2022-09-23 | 2023-01-10 | 国网江苏省电力有限公司营销服务中心 | 结合行业文本和用电负荷的高耗能企业识别方法及系统 |
CN115587230B (zh) * | 2022-09-23 | 2024-04-12 | 国网江苏省电力有限公司营销服务中心 | 结合行业文本和用电负荷的高耗能企业识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
US11544309B2 (en) | 2023-01-03 |
EP3709183A4 (en) | 2021-09-01 |
WO2019093172A1 (ja) | 2019-05-16 |
JP2019086995A (ja) | 2019-06-06 |
US20200285661A1 (en) | 2020-09-10 |
CN111373386A (zh) | 2020-07-03 |
EP3709183A1 (en) | 2020-09-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102371167B1 (ko) | 데이터 아이템을 성긴 분포 표현으로 매핑하는 방법 및 시스템 | |
JP6346367B1 (ja) | 類似性指標値算出装置、類似検索装置および類似性指標値算出用プログラム | |
JP6962532B1 (ja) | 事象予測装置および事象予測用プログラム | |
JP5379138B2 (ja) | 領域辞書の作成 | |
JP5710581B2 (ja) | 質問応答装置、方法、及びプログラム | |
KR20130056207A (ko) | 관계 정보 확장 장치, 관계 정보 확장 방법, 및 프로그램 | |
KR20200013130A (ko) | 인공 지능 기술 기반의 머신 러닝을 사용하는 특허 도면 이미지의 도면 부호에 대응되는 도면 부호의 설명 데이터 처리 방법 및 장치 | |
KR20160149050A (ko) | 텍스트 마이닝을 활용한 순수 기업 선정 장치 및 방법 | |
JP4266222B2 (ja) | 単語翻訳装置およびそのプログラム並びにコンピュータ読み取り可能な記録媒体 | |
López-Escobedo et al. | Analysis of intertextual distances using multidimensional scaling in the context of authorship attribution | |
Al Mostakim et al. | Bangla content categorization using text based supervised learning methods | |
JPWO2010109594A1 (ja) | 文書検索装置、文書検索システム、文書検索プログラム、および文書検索方法 | |
US20140358522A1 (en) | Information search apparatus and information search method | |
Hassan et al. | Crime news analysis: Location and story detection | |
JP4945015B2 (ja) | 文書検索システム、文書検索プログラム、および文書検索方法 | |
CN115563515B (zh) | 文本相似性检测方法、装置、设备及存储介质 | |
Li et al. | A Novel Approach for Protein‐Named Entity Recognition and Protein‐Protein Interaction Extraction | |
US20210089541A1 (en) | Intellectual property support device, intellectual property support method, and intellectual property support program | |
JP2019061522A (ja) | 文書推薦システム、文書推薦方法および文書推薦プログラム | |
WO2015159702A1 (ja) | 部分情報抽出システム | |
JP6976537B1 (ja) | 情報検索装置、情報検索方法および情報検索用プログラム | |
JP2007241635A (ja) | 文書検索装置、情報処理装置、検索結果出力方法、検索結果表示方法およびプログラム | |
JP3952964B2 (ja) | 読み情報決定方法及び装置及びプログラム | |
Cheng et al. | A model for age and gender profiling of social media accounts based on post contents | |
JP7386466B1 (ja) | データ解析装置およびデータ解析プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20171121 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20171121 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20171206 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180207 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180227 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180404 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180515 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180524 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6346367 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |