JP6553776B1 - テキスト類似度算出装置、テキスト類似度算出方法、及びプログラム - Google Patents
テキスト類似度算出装置、テキスト類似度算出方法、及びプログラム Download PDFInfo
- Publication number
- JP6553776B1 JP6553776B1 JP2018125893A JP2018125893A JP6553776B1 JP 6553776 B1 JP6553776 B1 JP 6553776B1 JP 2018125893 A JP2018125893 A JP 2018125893A JP 2018125893 A JP2018125893 A JP 2018125893A JP 6553776 B1 JP6553776 B1 JP 6553776B1
- Authority
- JP
- Japan
- Prior art keywords
- text
- vector
- image
- similarity
- image information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
まず、本発明の実施形態の概要について説明する。
図1を参照して、本発明の第1の実施の形態に係るテキスト類似度算出装置10の構成について説明する。図1は、本発明の第1の実施の形態に係るテキスト類似度算出装置10の構成を示すブロック図である。
[参考文献1]木村 昭悟、外3名、"重み付き特徴点照合に基づく高速画像検索″、電子情報通信学会技術研究報告.PRMU,パターン認識・メディア理解105(118)、2005年6月。
[参考文献2]別所 克人、外3名、"単語ベクトルを用いた文書要約の検討(ライフインテリジェンスとオフィス情報システム)″、電子情報通信学会技術研究報告=IEICE technical report :信学技報 114(32)、2014年5月。
図2は、本発明の実施の形態に係るテキスト類似度算出処理ルーチンを示すフローチャートである。
図3を参照して、本発明の第2の実施の形態に係るテキスト類似度算出装置の構成について説明する。図3は、本発明の第2の実施の形態に係るテキスト類似度算出装置20の構成を示すブロック図である。
[参考文献3]大塚 一輝、外3名、"ディープラーニングを用いての写真と絵画、イラストの識別"、情報処理学会、第79回全国大会講演論文集、2017年3月、p.p.371−372。
図4は、本発明の第2の実施の形態に係るテキスト類似度算出処理ルーチンを示すフローチャートである。なお、第1の実施の形態に係るテキスト類似度算出処理ルーチンと同様の処理については、同一の符号を付して詳細な説明は省略する。
図5を参照して、本発明の第3の実施の形態に係るテキスト類似度算出装置の構成について説明する。図5は、本発明の第3の実施の形態に係るテキスト類似度算出装置30の構成を示すブロック図である。
[参考文献4]紺谷 精一、外2名、"複数特徴量を統合した visual words による料理画像の分類"、電子情報通信学会技術研究報告. LOIS, ライフインテリジェンスとオフィス情報システム、2010年7月、p.p.35−39.
図6は、本発明の第3の実施の形態に係るテキスト類似度算出処理ルーチンを示すフローチャートである。なお、第1の実施の形態に係るテキスト類似度算出処理ルーチンと同様の処理については、同一の符号を付して詳細な説明は省略する。
図8は、本発明の第3の実施の形態に係るテキスト類似度算出装置30の変形例1を示すブロック図である。変形例1では、テキスト類似度算出装置30は、画像テキスト混合ベクトルDB370と、入力部400とを更に備える。
図9は、本発明の第3の実施の形態に係るテキスト類似度算出装置30の変形例2を示すブロック図である。変形例2では、テキスト類似度算出装置30は、変形例1と異なり、入力部100の代わりに、単語DB305を備える。
20 テキスト類似度算出装置
30 テキスト類似度算出装置
100 入力部
110 画像情報変換部
120 画像類似度計算部
130 テキストベクトル生成部
140 テキストベクトル類似度計算部
150 テキスト類似度計算部
160 出力部
212 視覚情報推定部
214 画像情報利用判定部
220 画像類似度計算部
250 テキスト類似度計算部
305 単語DB
315 画像ベクトル生成部
335 画像テキスト混合ベクトル生成部
350 テキスト類似度計算部
370 画像テキスト混合ベクトルDB
400 入力部
Claims (8)
- 入力された第1テキストと、入力された第2テキストとの類似度を算出するテキスト類似度算出装置であって、
前記第1テキストを、前記第1テキストに対応する第1画像情報に変換すると共に、前記第2テキストを、前記第2テキストに対応する第2画像情報に変換する画像情報変換部と、
前記第1画像情報と、前記第2画像情報との類似度である画像類似度を算出する画像類似度計算部と、
前記第1テキストに基づいて、前記第1テキストを表す第1テキストベクトルを生成すると共に、前記第2テキストに基づいて、前記第2テキストを表す第2テキストベクトルを生成するテキストベクトル生成部と、
前記第1テキストベクトルと、前記第2テキストベクトルとの類似度であるテキストベクトル類似度を算出するテキストベクトル類似度計算部と、
前記画像類似度と、前記テキストベクトル類似度とに基づいて、前記第1テキストと、前記第2テキストとの類似度を算出するテキスト類似度計算部と、
を備えることを特徴とするテキスト類似度算出装置。 - 入力された第1テキストと、入力された第2テキストとの類似度を算出するテキスト類似度算出装置であって、
前記第1テキストを、前記第1テキストに対応する第1画像情報に変換すると共に、前記第2テキストを、前記第2テキストに対応する第2画像情報に変換する画像情報変換部と、
前記第1画像情報に基づいて、前記第1画像情報を表す第1画像ベクトルを生成すると共に、前記第2画像情報に基づいて、前記第2画像情報を表す第2画像ベクトルを生成する画像ベクトル生成部と、
前記第1テキストに基づいて、前記第1テキストを表す第1テキストベクトルを生成すると共に、前記第2テキストに基づいて、前記第2テキストを表す第2テキストベクトルを生成するテキストベクトル生成部と、
前記第1画像ベクトルと、前記第1テキストベクトルとを混合した第1混合ベクトルを生成すると共に、前記第2画像ベクトルと、前記第2テキストベクトルとを混合した第2混合ベクトルを生成する画像テキスト混合ベクトル生成部と、
前記第1混合ベクトルと、前記第2混合ベクトルとの類似度であるベクトル類似度を、前記第1テキストと、前記第2テキストとの類似度として算出するテキスト類似度計算部と、
を備えることを特徴とするテキスト類似度算出装置。 - 入力されたテキストを、前記テキストに対応する画像情報に変換する画像情報変換部と、
前記画像情報に普遍的な視覚情報である普遍的視覚情報が含まれる度合いを推定する視覚情報推定部と、
前記画像情報に基づいて、前記画像情報を表す画像ベクトルを生成する画像ベクトル生成部と、
前記テキストに基づいて、前記テキストを表すテキストベクトルを生成するテキストベクトル生成部と、
前記視覚情報推定部によって推定された、前記画像情報に前記普遍的視覚情報が含まれる度合いと、前記画像ベクトルと、前記テキストベクトルとに基づいて、混合ベクトルを生成する画像テキスト混合ベクトル生成部と、
を備えることを特徴とするテキスト類似度算出装置。 - 前記第1画像情報に普遍的な視覚情報である普遍的視覚情報が含まれる度合いを推定すると共に、前記第2画像情報に前記普遍的視覚情報が含まれる度合いを推定する視覚情報推定部
を更に備え、
前記テキスト類似度計算部は、前記視覚情報推定部によって推定された前記第1画像情報に前記普遍的視覚情報が含まれる度合い、及び前記第2画像情報に前記普遍的視覚情報が含まれる度合いに基づいて、前記第1テキストと、前記第2テキストとの類似度を算出する
ことを特徴とする請求項1又は2記載のテキスト類似度算出装置。 - 入力された第1テキストと、入力された第2テキストとの類似度を算出するテキスト類似度算出方法であって、
画像情報変換部が、前記第1テキストを、前記第1テキストに対応する第1画像情報に変換すると共に、前記第2テキストを、前記第2テキストに対応する第2画像情報に変換し、
画像類似度計算部が、前記第1画像情報と、前記第2画像情報との類似度である画像類似度を算出し、
テキストベクトル生成部が、前記第1テキストに基づいて、前記第1テキストを表す第1テキストベクトルを生成すると共に、前記第2テキストに基づいて、前記第2テキストを表す第2テキストベクトルを生成し、
テキストベクトル類似度計算部が、前記第1テキストベクトルと、前記第2テキストベクトルとの類似度であるテキストベクトル類似度を算出し、
テキスト類似度計算部が、前記画像類似度と、前記テキストベクトル類似度とに基づいて、前記第1テキストと、前記第2テキストとの類似度を算出する
ことを特徴とするテキスト類似度算出方法。 - 入力された第1テキストと、入力された第2テキストとの類似度を算出するテキスト類似度算出方法であって、
画像情報変換部が、前記第1テキストを、前記第1テキストに対応する第1画像情報に変換すると共に、前記第2テキストを、前記第2テキストに対応する第2画像情報に変換し、
画像ベクトル生成部が、前記第1画像情報に基づいて、前記第1画像情報を表す第1画像ベクトルを生成すると共に、前記第2画像情報に基づいて、前記第2画像情報を表す第2画像ベクトルを生成し、
テキストベクトル生成部が、前記第1テキストに基づいて、前記第1テキストを表す第1テキストベクトルを生成すると共に、前記第2テキストに基づいて、前記第2テキストを表す第2テキストベクトルを生成し、
画像テキスト混合ベクトル生成部が、前記第1画像ベクトルと、前記第1テキストベクトルとを混合した第1混合ベクトルを生成すると共に、前記第2画像ベクトルと、前記第2テキストベクトルとを混合した第2混合ベクトルを生成し、
テキスト類似度計算部が、前記第1混合ベクトルと、前記第2混合ベクトルとの類似度であるベクトル類似度を、前記第1テキストと、前記第2テキストとの類似度として算出する
ことを特徴とするテキスト類似度算出方法。 - 画像情報変換部が、入力されたテキストを、前記テキストに対応する画像情報に変換し、
視覚情報推定部が、前記画像情報に普遍的な視覚情報である普遍的視覚情報が含まれる度合いを推定し、
画像ベクトル生成部が、前記画像情報に基づいて、前記画像情報を表す画像ベクトルを生成し、
テキストベクトル生成部が、前記テキストに基づいて、前記テキストを表すテキストベクトルを生成し、
画像テキスト混合ベクトル生成部が、前記視覚情報推定部によって推定された、前記画像情報に前記普遍的視覚情報が含まれる度合いと、前記画像ベクトルと、前記テキストベクトルとに基づいて、混合ベクトルを生成する
ことを特徴とするテキスト類似度算出方法。 - コンピュータを、請求項1乃至4の何れか1項記載のテキスト類似度算出装置の各部として機能させるためのプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018125893A JP6553776B1 (ja) | 2018-07-02 | 2018-07-02 | テキスト類似度算出装置、テキスト類似度算出方法、及びプログラム |
PCT/JP2019/026132 WO2020009067A1 (ja) | 2018-07-02 | 2019-07-01 | テキスト類似度算出装置、テキスト類似度算出方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018125893A JP6553776B1 (ja) | 2018-07-02 | 2018-07-02 | テキスト類似度算出装置、テキスト類似度算出方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6553776B1 true JP6553776B1 (ja) | 2019-07-31 |
JP2020004322A JP2020004322A (ja) | 2020-01-09 |
Family
ID=67473424
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018125893A Active JP6553776B1 (ja) | 2018-07-02 | 2018-07-02 | テキスト類似度算出装置、テキスト類似度算出方法、及びプログラム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6553776B1 (ja) |
WO (1) | WO2020009067A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7556269B2 (ja) | 2020-11-16 | 2024-09-26 | 富士通株式会社 | 推論プログラム及び推論方法 |
CN112801217B (zh) * | 2021-03-19 | 2021-07-06 | 北京世纪好未来教育科技有限公司 | 文本相似度判断方法、装置、电子设备以及可读存储介质 |
KR102594547B1 (ko) * | 2022-11-28 | 2023-10-26 | (주)위세아이텍 | 멀티모달 특성 기반의 이미지 검색 장치 및 방법 |
CN116522168A (zh) * | 2023-07-04 | 2023-08-01 | 北京墨丘科技有限公司 | 一种跨模态的文本相似度比较方法、装置及电子设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006227743A (ja) * | 2005-02-15 | 2006-08-31 | Xing Inc | 検索装置 |
JP5057516B2 (ja) * | 2007-11-14 | 2012-10-24 | 日本電信電話株式会社 | 文書間距離計算装置およびプログラム |
-
2018
- 2018-07-02 JP JP2018125893A patent/JP6553776B1/ja active Active
-
2019
- 2019-07-01 WO PCT/JP2019/026132 patent/WO2020009067A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2020009067A1 (ja) | 2020-01-09 |
JP2020004322A (ja) | 2020-01-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6553776B1 (ja) | テキスト類似度算出装置、テキスト類似度算出方法、及びプログラム | |
CN110287328B (zh) | 一种文本分类方法、装置、设备及计算机可读存储介质 | |
JP4904496B2 (ja) | 文書類似性導出装置及びそれを用いた回答支援システム | |
Weakliem | Introduction to the special issue on model selection | |
JP2016207141A (ja) | 要約生成装置、要約生成方法、及び要約生成プログラム | |
WO2017183548A1 (ja) | 情報処理システム、情報処理方法、及び、記録媒体 | |
CN117390169B (zh) | 表格数据问答方法、装置、设备及存储介质 | |
CN109145083A (zh) | 一种基于深度学习的候选答案选取方法 | |
CN116932730A (zh) | 基于多叉树和大规模语言模型的文档问答方法及相关设备 | |
CN117236410A (zh) | 一种可信的电子文件大语言模型训练、推理方法和装置 | |
CN113254586B (zh) | 一种基于深度学习的无监督文本检索方法 | |
JP2010282276A (ja) | 映像認識理解装置、映像認識理解方法、及びプログラム | |
CN115344690A (zh) | 针对业务问题的数据处理方法及其装置 | |
Tanjim et al. | Discovering and Mitigating Biases in CLIP-based Image Editing | |
JP5518757B2 (ja) | 文書分類学習制御装置、文書分類装置およびコンピュータプログラム | |
CN112836019A (zh) | 公共医疗卫生命名实体识别与实体链接方法、装置、电子设备及存储介质 | |
CN110633363B (zh) | 一种基于nlp和模糊多准则决策的文本实体推荐方法 | |
JP2010272004A (ja) | 判別装置及び判別方法、並びにコンピューター・プログラム | |
CN114491029B (zh) | 基于图神经网络的短文本相似度计算方法 | |
JP6205039B1 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
KR20230127509A (ko) | 콘셉트 기반의 퓨샷 학습 방법 및 장치 | |
CN111125359B (zh) | 一种文本信息分类的方法、装置及设备 | |
Muffo et al. | Static fuzzy bag-of-words: a lightweight and fast sentence embedding algorithm | |
JP2020027549A (ja) | 議論分析装置及びプログラム | |
CN118171648B (zh) | 文本提取方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180702 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190611 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190625 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190704 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6553776 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |