JP6555810B2 - 類似度算出装置、類似検索装置、および類似度算出プログラム - Google Patents
類似度算出装置、類似検索装置、および類似度算出プログラム Download PDFInfo
- Publication number
- JP6555810B2 JP6555810B2 JP2015141580A JP2015141580A JP6555810B2 JP 6555810 B2 JP6555810 B2 JP 6555810B2 JP 2015141580 A JP2015141580 A JP 2015141580A JP 2015141580 A JP2015141580 A JP 2015141580A JP 6555810 B2 JP6555810 B2 JP 6555810B2
- Authority
- JP
- Japan
- Prior art keywords
- similarity
- probability distribution
- list
- query
- distribution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
一方、ステップS6において、新規の内容のオブジェクトデータが入力されていないと判定したときは(S6−No)、オブジェクトデータ記録・比較部10は、あらかじめ記録していたオブジェクトデータベクトルリストOrを取り出し(S9)、ステップS10に処理を進める。なお、オブジェクトデータ記録・比較部10が取り出す、あらかじめ記録していたオブジェクトデータベクトルリストOrは、直近で入力されたオブジェクトデータに対応するオブジェクトデータベクトルリストOrである。
図4は、クエリデータベクトルリストの一例を示す図である。図4に、アジア:0.650,0.387,・・・,0.049、アフリカ:0.921,0.461,・・・,0.866・・・と示しているように、クエリデータベクトルリストは、クエリデータ単語リスト中の単語各々のベクトル表現のリストである。
図8は、オブジェクトデータ単語リストの一例を示す図である。図8に、#Obj.A:アフリカ,ハシビロコウ,台湾,ハチクマ、#Obj.B:韓国ドラマ,通販,手袋,天使・・・と示しているように、オブジェクトデータ単語リストは、オブジェクトデータから抽出されたキーワードのリストである。
図15は、累積類似度(真値)の一例を示す図である。図15に示す例は、図13に例示したオブジェクトデータベクトルリストCuに対応する累積類似度(真値)の例であり、Obj.A、Obj.C、Obj.Dの3つのオブジェクトそれぞれの累積類似度(真値)である。例えば、一行目の#Obj.A:score=0.607は、Obj.Aの累積類似度(真値)である。二行目の#Obj.B:score=N/Aは、オブジェクトデータベクトルリストCuに、Obj.Bが含まれていないことを示す。
また、半導体技術の進歩により、LSIに代替する集積回路化等の技術が出現した場合、当該技術による集積回路を用いることも可能である。
Claims (5)
- 第1のオブジェクトに含まれる複数の単語の意味空間における分布から、前記意味空間における確率分布であって、前記第1のオブジェクトを表す確率分布を推定する確率分布推定部と、
第2のオブジェクトに含まれる複数の単語各々の前記意味空間における座標各々での、前記確率分布の値を用いて、前記第1のオブジェクトと前記第2のオブジェクトとの類似度を算出する類似度算出部と
を備える類似度算出装置。 - クエリに含まれる複数の単語の意味空間における分布から、前記意味空間における確率分布であって、前記クエリを表す確率分布を推定する確率分布推定部と、
検索対象のオブジェクトに含まれる複数のオブジェクトについて、当該オブジェクトに含まれる複数の単語各々の前記意味空間における座標各々での、前記確率分布の値を用いて、前記クエリと前記当該オブジェクトとの類似度を算出し、算出した前記類似度に基づき、前記検索対象のオブジェクトの中から、前記クエリに類似するオブジェクトを探索する探索実行部と
を備える類似検索装置。 - 前記意味空間は、単語同士の意味が近いほど、前記単語同士の距離が近くなる空間であり、
前記クエリを表す確率分布は、前記クエリに含まれる複数の単語の分布密度が高い位置ほど、高い確率となる分布である、
請求項2に記載の類似検索装置。 - 前記確率分布は、複数の正規分布からなる第1の混合正規分布であり、
前記探索実行部は、前記検索対象のオブジェクトに含まれる全てのオブジェクトについて、当該オブジェクトに含まれる複数の単語各々の前記意味空間における座標各々での、前記複数の正規分布のうちの一部の正規分布からなる第2の混合正規分布の値を用いて、前記クエリと前記当該オブジェクトとの類似度を算出し、算出した前記類似度に基づき、前記複数のオブジェクトを決定する
請求項2または請求項3に記載の類似検索装置。 - コンピュータを、
第1のオブジェクトに含まれる複数の単語の意味空間における分布から、前記意味空間における確率分布であって、前記第1のオブジェクトを表す確率分布を推定する確率分布推定部、
第2のオブジェクトに含まれる複数の単語各々の前記意味空間における座標各々での、前記確率分布の値を用いて、前記第1のオブジェクトと前記第2のオブジェクトとの類似度を算出する類似度算出部
として機能させるための類似度算出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015141580A JP6555810B2 (ja) | 2015-07-15 | 2015-07-15 | 類似度算出装置、類似検索装置、および類似度算出プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015141580A JP6555810B2 (ja) | 2015-07-15 | 2015-07-15 | 類似度算出装置、類似検索装置、および類似度算出プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017027106A JP2017027106A (ja) | 2017-02-02 |
JP6555810B2 true JP6555810B2 (ja) | 2019-08-07 |
Family
ID=57949949
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015141580A Expired - Fee Related JP6555810B2 (ja) | 2015-07-15 | 2015-07-15 | 類似度算出装置、類似検索装置、および類似度算出プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6555810B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6224856B1 (ja) * | 2017-02-21 | 2017-11-01 | ヤフー株式会社 | 提供装置、提供方法および提供プログラム |
CN108170684B (zh) * | 2018-01-22 | 2020-06-05 | 京东方科技集团股份有限公司 | 文本相似度计算方法及系统、数据查询系统和计算机产品 |
CN113094550B (zh) * | 2020-01-08 | 2023-10-24 | 百度在线网络技术(北京)有限公司 | 视频检索方法、装置、设备和介质 |
-
2015
- 2015-07-15 JP JP2015141580A patent/JP6555810B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2017027106A (ja) | 2017-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102431549B1 (ko) | 인과 관계 인식 장치 및 그것을 위한 컴퓨터 프로그램 | |
JP4233836B2 (ja) | 文書自動分類システム、不要語判定方法、文書自動分類方法、およびプログラム | |
CN108228541B (zh) | 生成文档摘要的方法和装置 | |
CN110349568A (zh) | 语音检索方法、装置、计算机设备及存储介质 | |
US9805120B2 (en) | Query selection and results merging | |
JP5216063B2 (ja) | 未登録語のカテゴリを決定する方法と装置 | |
CN112905768B (zh) | 一种数据交互方法、装置及存储介质 | |
CN112000783B (zh) | 基于文本相似性分析的专利推荐方法、装置、设备及存储介质 | |
CN109241243B (zh) | 候选文档排序方法及装置 | |
JP5846959B2 (ja) | 基本語彙抽出装置、及びプログラム | |
JP6678834B2 (ja) | 単語意味関係推定装置および単語意味関係推定方法 | |
JP6555810B2 (ja) | 類似度算出装置、類似検索装置、および類似度算出プログラム | |
CN114880447A (zh) | 信息检索方法、装置、设备及存储介质 | |
JP7389330B2 (ja) | 情報処理プログラム、情報処理方法および情報処理装置 | |
JP4979637B2 (ja) | 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム | |
JP6867963B2 (ja) | 要約評価装置、方法、プログラム、及び記憶媒体 | |
Kannadasan et al. | Personalized query auto-completion through a lightweight representation of the user context | |
CN112988971A (zh) | 基于词向量的搜索方法、终端、服务器及存储介质 | |
CN115357720B (zh) | 基于bert的多任务新闻分类方法及装置 | |
JP4479745B2 (ja) | 文書の類似度補正方法、プログラムおよびコンピュータ | |
US20110106849A1 (en) | New case generation device, new case generation method, and new case generation program | |
JP5145288B2 (ja) | 類義語辞書構築装置及び方法、コンピュータプログラム | |
KR100751295B1 (ko) | 질의 기반의 문서요약 장치 및 그 방법 | |
JP5184195B2 (ja) | 言語処理装置およびプログラム | |
CN111199148B (zh) | 文本相似度确定方法、装置、存储介质和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180528 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20181026 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190528 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190611 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190708 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6555810 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |