JP7457531B2 - 類似度算出装置、類似度算出プログラム、および、類似度算出方法 - Google Patents
類似度算出装置、類似度算出プログラム、および、類似度算出方法 Download PDFInfo
- Publication number
- JP7457531B2 JP7457531B2 JP2020033191A JP2020033191A JP7457531B2 JP 7457531 B2 JP7457531 B2 JP 7457531B2 JP 2020033191 A JP2020033191 A JP 2020033191A JP 2020033191 A JP2020033191 A JP 2020033191A JP 7457531 B2 JP7457531 B2 JP 7457531B2
- Authority
- JP
- Japan
- Prior art keywords
- group
- synonym
- group name
- similarity
- name set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004364 calculation method Methods 0.000 title claims description 57
- 238000000034 method Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 3
- 230000012447 hatching Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
以下、本実施の形態に関する類似度算出装置、類似度算出プログラム、および、類似度算出方法について説明する。
図1は、本実施の形態に関する類似度算出装置100のハードウェア構成の例を示す図である。
次に、類似度算出装置100の動作、具体的には、複数の同義語グループ間の類似度を算出する動作について、図3および図4を参照しつつ説明する。なお、図3は、類似度算出動作の例を示すフローチャートである。
次に、対応するグループ名称集合間の類似度を算出する複数の同義語グループのうちの少なくとも1つに、属する同義語グループが1つのみである単語が含まれる場合の動作について、以下説明する。なお、属する同義語グループが1つのみである単語、すなわち、自身が属する同義語グループ以外のいずれの同義語グループにも属していない単語を、以下、専門用語を称する。
次に、以上に記載された実施の形態によって生じる効果の例を示す。なお、以下の説明においては、以上に記載された実施の形態に例が示された具体的な構成に基づいて当該効果が記載されるが、同様の効果が生じる範囲で、本願明細書に例が示される他の具体的な構成と置き換えられてもよい。
上記の実施の形態では、同義語グループ間の類似度を算出するためにDice係数が用いられたが、類似度の算出方法はこの手法に限られるわけではなく、たとえば、Jaccard係数またはSimpson係数などが用いられてもよい。
12 名称集合生成部
14 類似度算出部
16 結合部
18 入力部
20 出力部
22 記憶部
100 類似度算出装置
101 ディスプレイ
102 CPU
103 メモリ
104 HDD
105 プログラム
106 外部記憶媒体
107 ネットワーク
Claims (6)
- 複数の同義語グループ間の類似度を算出する類似度算出装置であり、
それぞれの前記同義語グループは、互いに同義語である複数の単語からなり、
それぞれの前記単語は、1つまたは2つ以上の前記同義語グループに属し、
複数の前記同義語グループは、第1の同義語グループと第2の同義語グループとを含み、
前記第1の同義語グループに属するそれぞれの前記単語が属する前記同義語グループの名称である少なくとも1つの第1のグループ名称と、前記第2の同義語グループに属するそれぞれの前記単語が属する前記同義語グループの名称である少なくとも1つの第2のグループ名称とを取得する名称取得部と、
少なくとも1つの前記第1のグループ名称を要素とする第1のグループ名称集合と、少なくとも1つの前記第2のグループ名称を要素とする第2のグループ名称集合とを生成する名称集合生成部と、
前記第1のグループ名称集合と前記第2のグループ名称集合とに含まれる要素数に対する共通する前記同義語グループの要素数の割合に基づいて、前記第1のグループ名称集合と、前記第2のグループ名称集合との間の類似度を算出する類似度算出部とを備える、
類似度算出装置。 - 請求項1に記載の類似度算出装置であり、
前記類似度がしきい値以上である場合に、前記第1の同義語グループと前記第2の同義語グループとを結合する結合部をさらに備える、
類似度算出装置。 - 請求項1または2に記載の類似度算出装置であり、
前記類似度算出部は、Dice係数を用いて前記類似度を算出する、
類似度算出装置。 - 請求項1から3のうちのいずれか1つに記載の類似度算出装置であり、
前記類似度算出部は、前記第1のグループ名称集合における取得可能な前記第1のグループ名称が1つのみである前記単語の数に応じて前記第1のグループ名称集合の要素数を増加させ、かつ、前記第2のグループ名称集合における取得可能な前記第2のグループ名称が1つのみである前記単語の数に応じて前記第2のグループ名称集合の要素数を増加させる、
類似度算出装置。 - 複数の同義語グループ間の類似度を算出する類似度算出プログラムであり、
それぞれの前記同義語グループは、互いに同義語である複数の単語からなり、
それぞれの前記単語は、1つまたは2つ以上の前記同義語グループに属し、
複数の前記同義語グループは、第1の同義語グループと第2の同義語グループとを含み、
前記類似度算出プログラムがコンピュータにインストールされて実行されることによって、
前記コンピュータに、前記第1の同義語グループに属するそれぞれの前記単語が属する前記同義語グループの名称である少なくとも1つの第1のグループ名称と、前記第2の同義語グループに属するそれぞれの前記単語が属する前記同義語グループの名称である少なくとも1つの第2のグループ名称とを取得させ、
前記コンピュータに、少なくとも1つの前記第1のグループ名称を要素とする第1のグループ名称集合と、少なくとも1つの前記第2のグループ名称を要素とする第2のグループ名称集合とを生成させ、
前記コンピュータに、前記第1のグループ名称集合と前記第2のグループ名称集合とに含まれる要素数に対する共通する前記同義語グループの要素数の割合に基づいて、前記第1のグループ名称集合と、前記第2のグループ名称集合との間の類似度を算出させる、
類似度算出プログラム。 - 複数の同義語グループ間の類似度を算出する類似度算出方法であり、
それぞれの前記同義語グループは、互いに同義語である複数の単語からなり、
それぞれの前記単語は、1つまたは2つ以上の前記同義語グループに属し、
複数の前記同義語グループは、第1の同義語グループと第2の同義語グループとを含み、
前記第1の同義語グループに属するそれぞれの前記単語が属する前記同義語グループの名称である少なくとも1つの第1のグループ名称と、前記第2の同義語グループに属するそれぞれの前記単語が属する前記同義語グループの名称である少なくとも1つの第2のグループ名称とを取得する工程と、
少なくとも1つの前記第1のグループ名称を要素とする第1のグループ名称集合と、少なくとも1つの前記第2のグループ名称を要素とする第2のグループ名称集合とを生成する工程と、
前記第1のグループ名称集合と前記第2のグループ名称集合とに含まれる要素数に対する共通する前記同義語グループの要素数の割合に基づいて、前記第1のグループ名称集合と、前記第2のグループ名称集合との間の類似度を算出する工程とを備える、
類似度算出方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020033191A JP7457531B2 (ja) | 2020-02-28 | 2020-02-28 | 類似度算出装置、類似度算出プログラム、および、類似度算出方法 |
US17/166,666 US11593420B2 (en) | 2020-02-28 | 2021-02-03 | Similarity calculation apparatus, recording medium, and similarity calculation method |
CN202110213132.2A CN113326686B (zh) | 2020-02-28 | 2021-02-24 | 相似度计算装置、记录介质以及相似度计算方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020033191A JP7457531B2 (ja) | 2020-02-28 | 2020-02-28 | 類似度算出装置、類似度算出プログラム、および、類似度算出方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021135882A JP2021135882A (ja) | 2021-09-13 |
JP7457531B2 true JP7457531B2 (ja) | 2024-03-28 |
Family
ID=77414421
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020033191A Active JP7457531B2 (ja) | 2020-02-28 | 2020-02-28 | 類似度算出装置、類似度算出プログラム、および、類似度算出方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11593420B2 (ja) |
JP (1) | JP7457531B2 (ja) |
CN (1) | CN113326686B (ja) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006092316A (ja) | 2004-09-24 | 2006-04-06 | Toshiba Corp | 構造化文書検索装置、構造化文書検索方法及び構造化文書検索のためのデータを記憶した記憶媒体 |
US20070078849A1 (en) | 2005-08-19 | 2007-04-05 | Slothouber Louis P | System and method for recommending items of interest to a user |
US20130006975A1 (en) | 2010-03-12 | 2013-01-03 | Qiang Li | System and method for matching entities and synonym group organizer used therein |
JP2017167851A (ja) | 2016-03-16 | 2017-09-21 | 株式会社東芝 | 概念辞書作成装置、方法およびプログラム |
US20180089300A1 (en) | 2016-09-23 | 2018-03-29 | International Business Machines Corporation | Merging synonymous entities from multiple structured sources into a dataset |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI290687B (en) * | 2003-09-19 | 2007-12-01 | Hon Hai Prec Ind Co Ltd | System and method for search information based on classifications of synonymous words |
EP2506161A1 (en) * | 2011-04-01 | 2012-10-03 | Waters Technologies Corporation | Database search using synonym groups |
JP6187877B2 (ja) * | 2012-06-25 | 2017-08-30 | 日本電気株式会社 | 同義語抽出システム、方法および記録媒体 |
JP5578634B2 (ja) * | 2013-08-21 | 2014-08-27 | 富士通株式会社 | 分散処理システム、情報処理装置、及び分散処理方法 |
JP2016021136A (ja) * | 2014-07-14 | 2016-02-04 | 株式会社東芝 | 類義語辞書作成装置 |
JP6427466B2 (ja) | 2015-05-26 | 2018-11-21 | 日本電信電話株式会社 | 同義語ペア獲得装置、方法、及びプログラム |
CN106250412B (zh) * | 2016-07-22 | 2019-04-23 | 浙江大学 | 基于多源实体融合的知识图谱构建方法 |
CN106294639B (zh) * | 2016-08-01 | 2020-04-21 | 金陵科技学院 | 基于语义的跨语言专利新创性预判分析方法 |
CN107688563B (zh) * | 2016-08-05 | 2021-03-19 | 中国移动通信有限公司研究院 | 一种同义词的识别方法及识别装置 |
JP6737151B2 (ja) * | 2016-11-28 | 2020-08-05 | 富士通株式会社 | 同義表現抽出装置、同義表現抽出方法、及び同義表現抽出プログラム |
CN107679030B (zh) * | 2017-09-04 | 2021-08-13 | 北京京东尚科信息技术有限公司 | 基于用户操作行为数据提取同义词的方法和装置 |
JP2019049873A (ja) * | 2017-09-11 | 2019-03-28 | 株式会社Screenホールディングス | 同義語辞書作成装置、同義語辞書作成プログラム及び同義語辞書作成方法 |
CN108153735B (zh) * | 2017-12-28 | 2021-05-18 | 北京奇艺世纪科技有限公司 | 一种近义词的获取方法及系统 |
GB2573998A (en) * | 2018-05-17 | 2019-11-27 | Babylon Partners Ltd | Device and method for natural language processing |
CN109359289B (zh) * | 2018-08-17 | 2023-01-31 | 浙江工业大学 | 一种基于本体的Web服务功能相似性度量方法 |
CN109582961A (zh) * | 2018-11-28 | 2019-04-05 | 重庆邮电大学 | 一种高效的机器人数据相似度计算算法 |
CN110569503B (zh) * | 2019-08-28 | 2023-12-29 | 芽米科技(广州)有限公司 | 一种基于词统计与WordNet的义项表示与消歧方法 |
-
2020
- 2020-02-28 JP JP2020033191A patent/JP7457531B2/ja active Active
-
2021
- 2021-02-03 US US17/166,666 patent/US11593420B2/en active Active
- 2021-02-24 CN CN202110213132.2A patent/CN113326686B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006092316A (ja) | 2004-09-24 | 2006-04-06 | Toshiba Corp | 構造化文書検索装置、構造化文書検索方法及び構造化文書検索のためのデータを記憶した記憶媒体 |
US20070078849A1 (en) | 2005-08-19 | 2007-04-05 | Slothouber Louis P | System and method for recommending items of interest to a user |
US20130006975A1 (en) | 2010-03-12 | 2013-01-03 | Qiang Li | System and method for matching entities and synonym group organizer used therein |
JP2017167851A (ja) | 2016-03-16 | 2017-09-21 | 株式会社東芝 | 概念辞書作成装置、方法およびプログラム |
US20180089300A1 (en) | 2016-09-23 | 2018-03-29 | International Business Machines Corporation | Merging synonymous entities from multiple structured sources into a dataset |
Also Published As
Publication number | Publication date |
---|---|
JP2021135882A (ja) | 2021-09-13 |
US11593420B2 (en) | 2023-02-28 |
CN113326686A (zh) | 2021-08-31 |
CN113326686B (zh) | 2024-05-10 |
US20210271700A1 (en) | 2021-09-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9767193B2 (en) | Generation apparatus and method | |
JP2017068861A5 (ja) | ||
US20100306300A1 (en) | Sparse Matrix Padding | |
TWI796286B (zh) | 一種機器學習系統的訓練方法和訓練系統 | |
JP6955963B2 (ja) | 検索装置、類似度算出方法、およびプログラム | |
KR101341507B1 (ko) | 수정된 b+트리 노드 검색 방법 및 장치 | |
KR101852219B1 (ko) | 편집 가능 메타데이터를 포함하는 파일들을 보호하는 기법 | |
US7725306B2 (en) | Efficient phrase pair extraction from bilingual word alignments | |
JP2012506596A5 (ja) | ||
US20180285012A1 (en) | Apparatus and method for accessing storage system that includes a plurality of storage devices with different access speeds | |
JP7457531B2 (ja) | 類似度算出装置、類似度算出プログラム、および、類似度算出方法 | |
US9158748B2 (en) | Correction of quotations copied from electronic documents | |
JP6321787B2 (ja) | 知識抽出方法及びシステム | |
WO2022037016A1 (zh) | 一种树结构数据的存储方法、系统及相关装置 | |
WO2021186685A1 (ja) | シミュレーション実行システム、シミュレーション実行方法およびシミュレーション実行プログラム | |
US10073657B2 (en) | Data processing apparatus, data processing method, and computer program product, and entry processing apparatus | |
Zhu | A class of Möbius invariant function spaces | |
JP2015095786A (ja) | 論理回路及び論理回路設計支援装置及び論理回路設計支援方法及びプログラム | |
US9922040B2 (en) | Information processing apparatus, information processing method and program | |
US10318422B2 (en) | Computer-readable recording medium storing information processing program, information processing apparatus, and information processing method | |
WO2020166397A1 (ja) | 校閲方法、情報処理装置および校閲プログラム | |
WO2018179729A1 (ja) | インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法 | |
JP2012053651A (ja) | タイミング解析方法、プログラム、及びシステム | |
JP2005277909A (ja) | 論理回路設計システム、論理回路、論理回路設計方法およびそのプログラム | |
TWI783773B (zh) | 用來建立關於電路特性之製程飄移模型以供進行電路模擬之方法及電路模擬系統 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221219 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20231025 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231107 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231207 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240305 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240315 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7457531 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |