JP7457531B2 - 類似度算出装置、類似度算出プログラム、および、類似度算出方法 - Google Patents

類似度算出装置、類似度算出プログラム、および、類似度算出方法 Download PDF

Info

Publication number
JP7457531B2
JP7457531B2 JP2020033191A JP2020033191A JP7457531B2 JP 7457531 B2 JP7457531 B2 JP 7457531B2 JP 2020033191 A JP2020033191 A JP 2020033191A JP 2020033191 A JP2020033191 A JP 2020033191A JP 7457531 B2 JP7457531 B2 JP 7457531B2
Authority
JP
Japan
Prior art keywords
group
synonym
group name
similarity
name set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020033191A
Other languages
English (en)
Other versions
JP2021135882A (ja
Inventor
光規 梅原
清孝 粕渕
清孝 宮井
明子 吉田
一博 北村
万理 寺田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Screen Holdings Co Ltd
Original Assignee
Screen Holdings Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Screen Holdings Co Ltd filed Critical Screen Holdings Co Ltd
Priority to JP2020033191A priority Critical patent/JP7457531B2/ja
Priority to US17/166,666 priority patent/US11593420B2/en
Priority to CN202110213132.2A priority patent/CN113326686B/zh
Publication of JP2021135882A publication Critical patent/JP2021135882A/ja
Application granted granted Critical
Publication of JP7457531B2 publication Critical patent/JP7457531B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本願明細書に開示される技術は、類似度算出装置、類似度算出プログラム、および、類似度算出方法に関するものである。
従来から、たとえば文書内の表記ゆれを吸収する目的で、複数の同義語からなる同義語グループを作成する技術が用いられている(たとえば、特許文献1を参照)。
特開2016-224482号公報
しかしながら、特許文献1に示された技術などを用いて同義語グループを作成すると、互いに類似する複数の同義語グループが作成される場合がある。その場合、用い得る同義語グループが複数存在することによって用語を統一することが難しくなる。一方で、それらの同義語グループを人手でまとめる作業は非常に時間がかかるものである。
本願明細書に開示される技術は、以上に記載されたような問題を鑑みてなされたものであり、複数の同義語グループが作成される場合であっても、効果的に用語の統一を図るための技術である。
本願明細書に開示される技術の第1の態様は、複数の同義語グループ間の類似度を算出する類似度算出装置であり、それぞれの前記同義語グループは、互いに同義語である複数の単語からなり、それぞれの前記単語は、1つまたは2つ以上の前記同義語グループに属し、複数の前記同義語グループは、第1の同義語グループと第2の同義語グループとを含み、前記第1の同義語グループに属するそれぞれの前記単語が属する前記同義語グループの名称である少なくとも1つの第1のグループ名称と、前記第2の同義語グループに属するそれぞれの前記単語が属する前記同義語グループの名称である少なくとも1つの第2のグループ名称とを取得する名称取得部と、少なくとも1つの前記第1のグループ名称を要素とする第1のグループ名称集合と、少なくとも1つの前記第2のグループ名称を要素とする第2のグループ名称集合とを生成する名称集合生成部と、前記第1のグループ名称集合と前記第2のグループ名称集合とに含まれる要素数に対する共通する前記同義語グループの要素数の割合に基づいて、前記第1のグループ名称集合と、前記第2のグループ名称集合との間の類似度を算出する類似度算出部とを備える。
本願明細書に開示される技術の第2の態様は、第1の態様に関連し、前記類似度がしきい値以上である場合に、前記第1の同義語グループと前記第2の同義語グループとを結合する結合部をさらに備える。
本願明細書に開示される技術の第3の態様は、第1または2の態様に関連し、前記類似度算出部は、Dice係数を用いて前記類似度を算出する。
本願明細書に開示される技術の第4の態様は、第1から3のうちのいずれか1つの態様に関連し、前記類似度算出部は、前記第1のグループ名称集合における取得可能な前記第1のグループ名称が1つのみである前記単語の数に応じて前記第1のグループ名称集合の要素数を増加させ、かつ、前記第2のグループ名称集合における取得可能な前記第2のグループ名称が1つのみである前記単語の数に応じて前記第2のグループ名称集合の要素数を増加させる。
本願明細書に開示される技術の第5の態様は、複数の同義語グループ間の類似度を算出する類似度算出プログラムであり、それぞれの前記同義語グループは、互いに同義語である複数の単語からなり、それぞれの前記単語は、1つまたは2つ以上の前記同義語グループに属し、複数の前記同義語グループは、第1の同義語グループと第2の同義語グループとを含み、前記類似度算出プログラムがコンピュータにインストールされて実行されることによって、前記コンピュータに、前記第1の同義語グループに属するそれぞれの前記単語が属する前記同義語グループの名称である少なくとも1つの第1のグループ名称と、前記第2の同義語グループに属するそれぞれの前記単語が属する前記同義語グループの名称である少なくとも1つの第2のグループ名称とを取得させ、前記コンピュータに、少なくとも1つの前記第1のグループ名称を要素とする第1のグループ名称集合と、少なくとも1つの前記第2のグループ名称を要素とする第2のグループ名称集合とを生成させ、前記コンピュータに、前記第1のグループ名称集合と前記第2のグループ名称集合とに含まれる要素数に対する共通する前記同義語グループの要素数の割合に基づいて、前記第1のグループ名称集合と、前記第2のグループ名称集合との間の類似度を算出させる。
本願明細書に開示される技術の第6の態様は、複数の同義語グループ間の類似度を算出する類似度算出方法であり、それぞれの前記同義語グループは、互いに同義語である複数の単語からなり、それぞれの前記単語は、1つまたは2つ以上の前記同義語グループに属し、複数の前記同義語グループは、第1の同義語グループと第2の同義語グループとを含み、前記第1の同義語グループに属するそれぞれの前記単語が属する前記同義語グループの名称である少なくとも1つの第1のグループ名称と、前記第2の同義語グループに属するそれぞれの前記単語が属する前記同義語グループの名称である少なくとも1つの第2のグループ名称とを取得する工程と、少なくとも1つの前記第1のグループ名称を要素とする第1のグループ名称集合と、少なくとも1つの前記第2のグループ名称を要素とする第2のグループ名称集合とを生成する工程と、前記第1のグループ名称集合と前記第2のグループ名称集合とに含まれる要素数に対する共通する前記同義語グループの要素数の割合に基づいて、前記第1のグループ名称集合と、前記第2のグループ名称集合との間の類似度を算出する工程とを備える。

本願明細書に開示される技術の第1から6の態様によれば、複数の同義語グループが作成される場合であっても、同義語グループに対応するグループ名称集合間の類似度を算出することによって、効果的に用語の統一を図ることができる。
また、本願明細書に開示される技術に関連する目的と、特徴と、局面と、利点とは、以下に示される詳細な説明と添付図面とによって、さらに明白となる。
実施の形態に関する、類似度算出装置のハードウェア構成の例を示す図である。 実施の形態に関する、類似度算出装置の機能的構成の例を示す図である。 類似度算出動作の例を示すフローチャートである。 ある単語が属する同義語グループと、当該同義語グループに属する単語の例を示す図である。
以下、添付される図面を参照しながら実施の形態について説明する。以下の実施の形態では、技術の説明のために詳細な特徴なども示されるが、それらは例示であり、実施の形態が実施可能となるためにそれらすべてが必ずしも必須の特徴ではない。
なお、図面は概略的に示されるものであり、説明の便宜のため、適宜、構成の省略、または、構成の簡略化が図面においてなされるものである。また、異なる図面にそれぞれ示される構成などの大きさおよび位置の相互関係は、必ずしも正確に記載されるものではなく、適宜変更され得るものである。また、断面図ではない平面図などの図面においても、実施の形態の内容を理解することを容易にするために、ハッチングが付される場合がある。
また、以下に示される説明では、同様の構成要素には同じ符号を付して図示し、それらの名称と機能とについても同様のものとする。したがって、それらについての詳細な説明を、重複を避けるために省略する場合がある。
また、以下に記載される説明において、ある構成要素を「備える」、「含む」または「有する」などと記載される場合、特に断らない限りは、他の構成要素の存在を除外する排他的な表現ではない。
また、以下に記載される説明において、「第1の」または「第2の」などの序数が用いられる場合があっても、これらの用語は、実施の形態の内容を理解することを容易にするために便宜上用いられるものであり、これらの序数によって生じ得る順序などに限定されるものではない。
<実施の形態>
以下、本実施の形態に関する類似度算出装置、類似度算出プログラム、および、類似度算出方法について説明する。
<類似度算出装置の構成について>
図1は、本実施の形態に関する類似度算出装置100のハードウェア構成の例を示す図である。
図1に例が示されるように、類似度算出装置100は、少なくとも、同義語グループ間の類似度の算出動作に用いられるプログラム105がインストールされたコンピュータであり、中央演算処理装置(central processing unit、すなわち、CPU)102と、メモリ103と、ハードディスクドライブ(Hard disk drive、すなわち、HDD)104と、ディスプレイ101とを備える。
類似度算出装置100においては、対応するプログラム105がHDD104にインストールされる。プログラム105のインストールは、コンパクトディスク(compact disc、すなわち、CD)、デジタル多目的ディスク(digital versatile disc、すなわち、DVD)、ユニバーサルシリアルバス(universal serial bus、すなわち、USB)メモリなどの外部記憶媒体106から読み出されたデータをHDD104に書き込むことによって行われてもよいし、ネットワーク107を経由して受信されたデータをHDD104に書き込むことによって行われてもよい。
また、HDD104は、他の種類の補助記憶装置に置き換えられてもよい。たとえば、HDD104が、ソリッドステートドライブ(solid state drive、すなわち、SSD)、ランダムアクセスメモリー(random access memory、すなわち、RAM)ディスクなどに置き換えられてもよい。
類似度算出装置100においては、HDD104にインストールされたプログラム105がメモリ103にロードされ、ロードされたプログラム105がCPU102によって実行される。そうすることによって、コンピュータがプログラム105を実行し、類似度算出装置100として機能する。
なお、CPU102が行う処理の少なくとも一部がCPU102以外のプロセッサによって行われてもよい。たとえば、CPU102によって行われる処理の少なくとも一部が、グラフィックス処理装置(GPU)などによって行われてもよい。また、CPU102によって行われる処理の少なくとも一部が、プログラムを実行しないハードウェアによって行われてもよい。
図2は、本実施の形態に関する類似度算出装置100の機能的構成の例を示す図である。
図2に例が示されるように、類似度算出装置100は、少なくとも、名称取得部10と、名称集合生成部12と、類似度算出部14とを備える。また、類似度算出装置100は、結合部16と、入力部18と、出力部20と、記憶部22とを備えることができる。入力部18および出力部20は、図1のディスプレイ101などによって実現される。また、記憶部22は、たとえば、図1のメモリ103およびHDD104の少なくとも一方によって実現される。また、名称取得部10、名称集合生成部12、類似度算出部14および結合部16は、たとえば、図1のCPU102にプログラム105を実行させることによって実現される。
名称取得部10は、同義語グループに属するそれぞれの単語が属する同義語グループの名称(以下、同義語グループ名称)を取得する。
ここで、同義語グループは、互いに同義語である複数の単語からなる集合である。また、同義語とは、語形、発音または表記などが異なっているが、同じような意味を有する単語である。
また、本実施の形態におけるそれぞれの単語は後述する専門用語を除き、少なくとも2つの同義語グループに属し、後述の専門用語は1つの同義語グループのみに属するものとする。
名称集合生成部12は、同義語グループ名称を要素とするグループ名称集合を生成する。生成されたグループ名称集合は、記憶部22に記憶される。
類似度算出部14は、複数のグループ名称集合間の類似度を算出する。そして、算出されたグループ名称集合間の類似度に基づいて、対応する同義語グループ間の類似度を判定する。算出されたグループ名称集合間の類似度および対応する同義語グループ間の類似度は、記憶部22に記憶される。
結合部16は、複数のグループ名称集合間の類似度(または、同義語グループ間の類似度)がしきい値以上である場合に、これらのグループ名称集合に対応する同義語グループ同士を結合する。結合して生成された同義語グループは、記憶部22に記憶される。
入力部18には、同義語グループに関するデータが入力される。また、出力部20は、算出されたグループ名称集合間の類似度(または、同義語グループ間の類似度)、または、結合して生成された同義語グループに関するデータを出力する。
<類似度算出装置の動作について>
次に、類似度算出装置100の動作、具体的には、複数の同義語グループ間の類似度を算出する動作について、図3および図4を参照しつつ説明する。なお、図3は、類似度算出動作の例を示すフローチャートである。
ここで、以下で言及される複数の同義語グループは、全ての同義語グループが共通の基準によって作成された同義語グループであってもよいし、いくつかの同義語グループが、他とは異なる基準によって作成された同義語グループであってもよい。具体的には、ユーザーによって独自に作成された同義語グループと、外部辞書(たとえば、WordNet)などに採用されている基準で作成された同義語グループとが混在していてもよい。
まず、2つの同義語グループ(同義語グループG1および同義語グループG2)に関するデータがそれぞれ入力部18に入力される(図3のステップST01)。ここでは、同義語グループG1が(end、finish、stop)を含む同義語グループであり、同義語グループG2が(cease、terminate、finish)を含む同義語グループであるものとする。
また、上記の同義語グループに関するデータには、少なくとも、同義語グループに含まれるそれぞれの単語のデータ、および、それらの単語が属する同義語グループ名称のデータを含むものとする。同義語グループ名称は、対応する単語に関連づけられている。
図4は、ある単語が属する同義語グループと、当該同義語グループに属する単語の例を示す図である。なお、図4において示される同義語グループは、対応する単語の一部を示すものである。
図4に例が示されるように、単語designは、同義語グループdesign.n.01と同義語グループpurpose.n.01とに属する。ここで、同義語グループdesign.n.01にはdesignおよびdesigningが属し、同義語グループpurpose.n.01にはpurpose、intent、intention、aimおよびdesignが属する。
同様に、単語paperは、同義語グループcomposition.n.08と同義語グループnewspaper.n.01とに属する。ここで、同義語グループcomposition.n.08にはcomposition、paper、reportおよびthemeが属し、同義語グループnewspaper.n.01にはnewspaperおよびpaperが属する。
次に、名称取得部10が、入力部18に入力されたそれぞれの同義語グループのデータについて、それぞれの同義語グループに属する全ての単語の、属する同義語グループ名称を取得する(図3のステップST02)。
次に、名称集合生成部12が、名称取得部10において取得された同義語グループ名称に基づいて、グループ名称集合を生成する(図3のステップST03)。生成されたグループ名称集合は、記憶部22に記憶される。
本実施の形態の例では、同義語グループG1における単語end、finishおよびstopそれぞれが属する同義語グループ名称の集合として、end.n.01、end.v.04、finish.n.08、stop.v.01、period.n.07など53個の同義語グループ名称を得る。これらの集合をグループ名称集合G11とする。なお、以下でも同様に、同義語グループ名称の集合においては、同一の同義語グループ名称は含まれない(すなわち、同一の同義語グループ名称の重複は許さない)ものとする。また、グループ名称集合G11には、同義語グループG1自身の名称が含まれていてもよい。
同様に、同義語グループG2における単語cease、terminateおよびfinishそれぞれが属する同義語グループ名称の集合として、cease.n.01、complete.v.01、finish.n.08など20個の同義語グループ名称を得る。これらの集合をグループ名称集合G12とする。なお、グループ名称集合G12には、同義語グループG2自身の名称が含まれていてもよい。
上記のうち、グループ名称集合G11とグループ名称集合G12との双方に共通する同義語グループ名称は、18個であるものとする。
次に、類似度算出部14が、グループ名称集合間の類似度を算出する(図3のステップST04)。本実施の形態の例では、類似度算出部14は、Dice係数を用いてグループ名称集合間の類似度を算出する。算出されたグループ名称集合間の類似度は、記憶部22に記憶される。
具体的には、以下の式(1)を用いて、グループ名称集合G11とグループ名称集合G12との間の類似度を算出する。
Figure 0007457531000001
ここで、|G11|は、グループ名称集合G11の要素数を、|G12|は、グループ名称集合G12の要素数を、G11∩G12は、グループ名称集合G11とグループ名称集合G12との双方に共通する要素数をそれぞれ示す。
上記のように、グループ名称集合G11は53個の要素を有する集合であり、グループ名称集合G12は20個の要素を有する集合である。また、グループ名称集合G11とグループ名称集合G12との双方に共通する要素数は、18個である。
よって、グループ名称集合G11とグループ名称集合G12との間の類似度は、およそ0.493と表すことができる。算出されたグループ名称集合間の類似度に基づいて、対応する同義語グループG1と同義語グループG2との間の類似度を、たとえば、同様の数値で表すことができる。
ここで、他の同義語グループG3を想定する。同義語グループG3は、(complete、accomplish、finish)を含む同義語グループである。
同義語グループG3についても、同義語グループG1および同義語グループG2と同様に入力部18に入力され(図3のステップST01)、名称取得部10によって、同義語グループG3に属する全ての単語の、属する同義語グループ名称を取得される(図3のステップST02)。そして、名称集合生成部12によって、取得された同義語グループ名称に基づいて、グループ名称集合を生成される(図3のステップST03)。
本実施の形態の例では、同義語グループG3における単語complete、accomplishおよびfinishそれぞれが属する同義語グループ名称の集合として、achieve.v.01、complete.v.01、finish.n.08など26個の同義語グループ名称を得る。これをグループ名称集合G13とする。なお、グループ名称集合G13には、同義語グループG3自身の名称が含まれていてもよい。
上記のうち、グループ名称集合G11とグループ名称集合G13との双方に共通する同義語グループ名称は、15個であるものとする。
次に、グループ名称集合G11とグループ名称集合G12との場合と同様に、類似度算出部14が、グループ名称集合G11とグループ名称集合G13との間の類似度を算出する(図3のステップST04)。算出されたグループ名称集合間の類似度は、記憶部22に記憶される。
上記のように、グループ名称集合G11は53個の要素を有する集合であり、グループ名称集合G13は26個の要素を有する集合である。また、グループ名称集合G11とグループ名称集合G13との双方に共通する要素数は、15個である。
よって、上記の式(1)の|G12|を|G13|(グループ名称集合G13の要素数)に置き換え、G11∩G12をG11∩G13(グループ名称集合G11とグループ名称集合G13との双方に共通する要素数)に置き換えて演算することによって、グループ名称集合G11とグループ名称集合G13との間の類似度は、およそ0.379と表すことができる。算出されたグループ名称集合間の類似度に基づいて、対応する同義語グループG1と同義語グループG3との間の類似度を、たとえば、同様の数値で表すことができる。
上記のように、グループ名称集合間の類似度を算出することによって、1つの単語に対して複数の同義語グループが作成されている場合であっても、グループ名称集合間の類似度が高い同義語グループ間では後述するような結合などを行うことによって、効果的に用語の統一を図ることができる。
本実施の形態の例では、同義語グループG1、同義語グループG2および同義語グループG3には、共通してfinishが含まれているが、それぞれの同義語グループに属する単語の、属する同義語グループ名称を参照することによって、同義語グループを構成する単語の意味の傾向が類似する同義語グループG1と同義語グループG2との間ではグループ名称集合間で比較的高い類似度が算出され、一方で、同義語グループを構成する単語の意味の傾向が異なる同義語グループG1と同義語グループG3との間ではグループ名称集合間で比較的低い類似度が算出される結果となっている。
よって、本実施の形態によれば、同義語グループを構成する単語の意味の傾向を考慮しつつ、同義語グループに対応するグループ名称集合間の類似度を算出することによって、対応する同義語グループ間の類似度を高い精度で判定することができる。そして、たとえば、類似度が高い同義語グループのみを用いることによって、効果的に用語の統一を図ることができる。
また、同義語グループに多義語が含まれる場合であっても、当該多義語が有する複数の意味を反映する同義語グループ名称がグループ名称集合に含まれることとなるため、多義語の意味の広がりを考慮してグループ名称集合間の類似度を算出することができる。
次に、結合部16は、類似度算出部14において算出されたグループ名称集合間の類似度(または、同義語グループ間の類似度)があらかじめ定められたしきい値以上であるか否かを判定する(図3のステップST05)。そして、グループ名称集合間の類似度(または、同義語グループ間の類似度)があらかじめ定められたしきい値以上である場合、すなわち、図3に例が示されるステップST05から分岐する「YES」に対応する場合には、図3に例が示されるステップST06へ進む。一方で、グループ名称集合間の類似度(または、同義語グループ間の類似度)があらかじめ定められたしきい値以上でない場合、すなわち、図3に例が示されるステップST05から分岐する「NO」に対応する場合には、動作を終了する。
図3のステップST06において、結合部16は、グループ名称集合間の類似度が算出されたグループ名称集合に対応する同義語グループ同士を結合する。本実施の形態においては、たとえば、しきい値を0.4として、対応する同義語グループG1と同義語グループG2とを結合して、同義語グループG1に含まれる全ての単語と同義語グループG2に含まれる全ての単語とを1つの同義語グループに含める。この際、単語の重複がないように結合する。一方で、グループ名称集合G11とグループ名称集合G13とに対応するグループ名称集合間の類似度はしきい値未満であるため、これらの同義語グループは結合しない。なお、上記のしきい値は、ユーザーが任意に設定可能である。
<属する同義語グループが1つのみである場合について>
次に、対応するグループ名称集合間の類似度を算出する複数の同義語グループのうちの少なくとも1つに、属する同義語グループが1つのみである単語が含まれる場合の動作について、以下説明する。なお、属する同義語グループが1つのみである単語、すなわち、自身が属する同義語グループ以外のいずれの同義語グループにも属していない単語を、以下、専門用語を称する。
いずれかの同義語グループに専門用語が含まれる場合には、以下の式(2)を用いて、グループ名称集合の要素数を調整する。
Figure 0007457531000002
ここで、Gnsは、専門用語以外の要素が属する同義語グループ名称の集合を示す。
上記のようにグループ名称集合の要素数を調整した上で、図3のステップST04に示されるグループ名称集合間の類似度の算出を行う。さらに、必要に応じて、図3のステップST05さらにはステップST06に示される同義語グループの結合を行う。
具体的に、専門用語が含まれる同義語グループG4および同義語グループG5について、対応するグループ名称集合間の類似度を算出する場合について以下に示す。
同義語グループG4は(terminate_job、terminate、finish)を含む同義語グループであり、同義語グループG5は(complete_job、accomplish_job、finish)を含む同義語グループであるものとする。ここで、terminate_jobは専門用語である。
同義語グループG4における単語terminate_job、terminateおよびfinishそれぞれが属する同義語グループ名称の集合として、end.v.03、complete.v.01、finish.n.08など18個の同義語グループ名称を得る。これらの集合をグループ名称集合G14とする。なお、グループ名称集合G14には、同義語グループG4自身の名称が含まれていてもよい。
同様に、同義語グループG5における単語complete_job、accomplish_jobおよびfinishそれぞれが属する同義語グループ名称の集合として、end.v.01、complete.v.01、finish.n.08など15個の同義語グループ名称を得る。これらの集合をグループ名称集合G15とする。なお、グループ名称集合G15には、同義語グループG5自身の名称が含まれていてもよい。
上記のうち、グループ名称集合G11とグループ名称集合G14との双方に共通する同義語グループ名称は、17個であるものとする。また、グループ名称集合G11とグループ名称集合G15との双方に共通する同義語グループ名称は、15個であるものとする。
この場合、同義語グループG1に対応するグループ名称集合G11と同義語グループG4に対応するグループ名称集合G14との間の類似度を算出する際の、グループ名称集合G14の要素数は、以下のように調整されて増加する。
Figure 0007457531000003
同様に、同義語グループG1に対応するグループ名称集合G11と同義語グループG5に対応するグループ名称集合G15との間の類似度を算出する際の、グループ名称集合G15の要素数は、以下のように調整されて増加する。
Figure 0007457531000004
よって、上記の式(1)の|G12|を|G14|(グループ名称集合G14の要素数)に置き換え、G11∩G12をG11∩G14(グループ名称集合G11とグループ名称集合G14との双方に共通する要素数)に置き換えて演算することによって、グループ名称集合G11とグループ名称集合G14との間の類似度は、およそ0.425と表すことができる。算出されたグループ名称集合間の類似度に基づいて、対応する同義語グループG1と同義語グループG4との間の類似度を、たとえば、同様の数値で表すことができる。
同様に、上記の式(1)の|G12|を|G15|(グループ名称集合G15の要素数)に置き換え、G11∩G12をG11∩G15(グループ名称集合G11とグループ名称集合G15との双方に共通する要素数)に置き換えて演算することによって、グループ名称集合G11とグループ名称集合G15との間の類似度は、およそ0.306と表すことができる。算出されたグループ名称集合間の類似度に基づいて、対応する同義語グループG1と同義語グループG5との間の類似度を、たとえば、同様の数値で表すことができる。
このように、専門用語が含まれる同義語グループについて、対応するグループ名称集合の要素数を調整することによって、専門用語以外の要素のみを考慮して類似度を算出することによる、過度に類似度が高く算出される場合を抑制することができる。そのため、グループ名称集合間の類似度算出の精度を高めることができる。
<以上に記載された実施の形態によって生じる効果について>
次に、以上に記載された実施の形態によって生じる効果の例を示す。なお、以下の説明においては、以上に記載された実施の形態に例が示された具体的な構成に基づいて当該効果が記載されるが、同様の効果が生じる範囲で、本願明細書に例が示される他の具体的な構成と置き換えられてもよい。
以上に記載された実施の形態によれば、類似度算出装置は、名称取得部10と、名称集合生成部12と、類似度算出部14とを備える。名称取得部10は、複数の同義語グループのうちの第1の同義語グループ(たとえば、同義語グループG1)に属するそれぞれの単語が属する同義語グループの名称である少なくとも1つの第1のグループ名称(同義語グループ名称)と、複数の同義語グループのうちの第2の同義語グループ(たとえば、同義語グループG2)に属するそれぞれの単語が属する同義語グループの名称である少なくとも1つの第2のグループ名称(同義語グループ名称)とを取得する。名称集合生成部12は、少なくとも1つの第1のグループ名称(同義語グループ名称)を要素とする第1のグループ名称集合(たとえば、グループ名称集合G11)と、少なくとも1つの第2のグループ名称(同義語グループ名称)を要素とする第2のグループ名称集合(たとえば、グループ名称集合G12)とを生成する。そして、類似度算出部14は、第1のグループ名称集合(たとえば、グループ名称集合G11)と、第2のグループ名称集合(たとえば、グループ名称集合G12)との間の類似度を算出する。
このような構成によれば、複数の同義語グループが作成される場合であっても、同義語グループに対応するグループ名称集合間の類似度を算出することによって、同義語グループを構成する単語の意味の傾向を考慮しつつ同義語グループ間の類似度を判定することができる。そのため、たとえば、類似度が高い同義語グループ同士をまとめることによって、効果的に用語の統一を図ることができる。なお、同義語グループに多義語が含まれる場合、単語の意味の傾向を考慮せずに単に共通の単語の有無などに基づいて同義語グループ間の類似度を算出すると、同義語グループに含まれる単語の意味の傾向が異なっている同義語グループ同士であっても高い類似度を有するものとして算出される場合があるが、上記の構成によれば、そのような不具合を抑制することができる。
なお、上記の構成に本願明細書に例が示された他の構成を適宜追加した場合、すなわち、上記の構成としては言及されなかった本願明細書中の他の構成が適宜追加された場合であっても、同様の効果を生じさせることができる。
また、以上に記載された実施の形態によれば、類似度算出装置100は、グループ名称集合間の類似度がしきい値以上である場合に、対応する第1の同義語グループと第2の同義語グループとを結合する結合部16を備える。このような構成によれば、グループ名称集合間の類似度が高い対応する同義語グループ同士を結合させることができる。よって、同義語グループを構成する単語の意味の傾向が類似する同義語グループ同士を結合させることによって、結合後の当該同義語グループを用いれば効果的に用語を統一することができる。また、グループ名称集合間の類似度の判定に用いるしきい値は調整可能であるため、結合判定の厳しさを用途に応じて調節することができる。
また、以上に記載された実施の形態によれば、類似度算出部14は、Dice係数を用いて類似度を算出する。このような構成によれば、Dice係数を用いて算出されたグループ名称集合間の類似度に基づいて、対応する同義語グループ間の類似度を判定することができる。
また、以上に記載された実施の形態によれば、類似度算出部14は、第1のグループ名称集合における取得可能な第1のグループ名称が1つのみである単語(すなわち、専門用語)の数に応じて第1のグループ名称集合の要素数を増加させ、かつ、第2のグループ名称集合における取得可能な第2のグループ名称が1つのみである単語(すなわち、専門用語)の数に応じて第2のグループ名称集合の要素数を増加させる。このような構成によれば、専門用語以外の要素のみを考慮して見かけ上のグループ名称集合の要素数が少なくなってしまうことによって、グループ名称集合間の類似度が過度に高く算出される場合を抑制することができる。そのため、グループ名称集合間の類似度算出の精度を高めることができる。
以上に記載された実施の形態によれば、類似度算出プログラムは、コンピュータ(たとえば、CPU102)にインストールされて実行されることによって、CPU102に、複数の同義語グループのうちの第1の同義語グループに属するそれぞれの単語が属する同義語グループの名称である少なくとも1つの第1のグループ名称と、複数の同義語グループのうちの第2の同義語グループに属するそれぞれの単語が属する同義語グループの名称である少なくとも1つの第2のグループ名称とを取得させる。そして、CPU102に、少なくとも1つの第1のグループ名称を要素とする第1のグループ名称集合と、少なくとも1つの第2のグループ名称を要素とする第2のグループ名称集合とを生成させる。そして、CPU102に、第1のグループ名称集合と、第2のグループ名称集合との間の類似度を算出させる。
このような構成によれば、複数の同義語グループが作成される場合であっても、同義語グループに対応するグループ名称集合間の類似度を算出することによって、同義語グループを構成する単語の意味の傾向を考慮しつつ同義語グループ間の類似度を判定することができるため、たとえば、類似度が高い同義語グループのみを用いることによって、効果的に用語の統一を図ることができる。
また、上記のプログラムは、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ブルーレイ(登録商標)ディスクまたはDVDなどのコンピュータ読取可能な可搬記録媒体に格納されていてもよい。そして、上記の機能を実現するプログラムが格納された可搬記録媒体が商業的に流通されてもよい。
以上に記載された実施の形態によれば、類似度算出方法において、複数の同義語グループのうちの第1の同義語グループに属するそれぞれの単語が属する同義語グループの名称である少なくとも1つの第1のグループ名称と、複数の同義語グループのうちの第2の同義語グループに属するそれぞれの単語が属する同義語グループの名称である少なくとも1つの第2のグループ名称とを取得する工程と、少なくとも1つの第1のグループ名称を要素とする第1のグループ名称集合と、少なくとも1つの第2のグループ名称を要素とする第2のグループ名称集合とを生成する工程と、第1のグループ名称集合と、第2のグループ名称集合との間の類似度を算出する工程とを備える。
このような構成によれば、複数の同義語グループが作成される場合であっても、同義語グループに対応するグループ名称集合間の類似度を算出することによって、同義語グループを構成する単語の意味の傾向を考慮しつつ同義語グループ間の類似度を判定することができるため、たとえば、類似度が高い同義語グループのみを用いることによって、効果的に用語の統一を図ることができる。
なお、特段の制限がない場合には、それぞれの処理が行われる順序は変更することができる。
<以上に記載された実施の形態の変形例について>
上記の実施の形態では、同義語グループ間の類似度を算出するためにDice係数が用いられたが、類似度の算出方法はこの手法に限られるわけではなく、たとえば、Jaccard係数またはSimpson係数などが用いられてもよい。
したがって、例が示されていない無数の変形例、および、均等物が、本願明細書に開示される技術の範囲内において想定される。たとえば、少なくとも1つの構成要素を変形する場合、追加する場合または省略する場合が含まれるものとする。
また、以上に記載された実施の形態で記載されたそれぞれの構成要素は、ソフトウェアまたはファームウェアとしても、それと対応するハードウェアとしても想定され、その双方の概念において、それぞれの構成要素は「部」または「処理回路」(circuitry)などと称される。
10 名称取得部
12 名称集合生成部
14 類似度算出部
16 結合部
18 入力部
20 出力部
22 記憶部
100 類似度算出装置
101 ディスプレイ
102 CPU
103 メモリ
104 HDD
105 プログラム
106 外部記憶媒体
107 ネットワーク

Claims (6)

  1. 複数の同義語グループ間の類似度を算出する類似度算出装置であり、
    それぞれの前記同義語グループは、互いに同義語である複数の単語からなり、
    それぞれの前記単語は、1つまたは2つ以上の前記同義語グループに属し、
    複数の前記同義語グループは、第1の同義語グループと第2の同義語グループとを含み、
    前記第1の同義語グループに属するそれぞれの前記単語が属する前記同義語グループの名称である少なくとも1つの第1のグループ名称と、前記第2の同義語グループに属するそれぞれの前記単語が属する前記同義語グループの名称である少なくとも1つの第2のグループ名称とを取得する名称取得部と、
    少なくとも1つの前記第1のグループ名称を要素とする第1のグループ名称集合と、少なくとも1つの前記第2のグループ名称を要素とする第2のグループ名称集合とを生成する名称集合生成部と、
    前記第1のグループ名称集合と前記第2のグループ名称集合とに含まれる要素数に対する共通する前記同義語グループの要素数の割合に基づいて、前記第1のグループ名称集合と、前記第2のグループ名称集合との間の類似度を算出する類似度算出部とを備える、
    類似度算出装置。
  2. 請求項1に記載の類似度算出装置であり、
    前記類似度がしきい値以上である場合に、前記第1の同義語グループと前記第2の同義語グループとを結合する結合部をさらに備える、
    類似度算出装置。
  3. 請求項1または2に記載の類似度算出装置であり、
    前記類似度算出部は、Dice係数を用いて前記類似度を算出する、
    類似度算出装置。
  4. 請求項1から3のうちのいずれか1つに記載の類似度算出装置であり、
    前記類似度算出部は、前記第1のグループ名称集合における取得可能な前記第1のグループ名称が1つのみである前記単語の数に応じて前記第1のグループ名称集合の要素数を増加させ、かつ、前記第2のグループ名称集合における取得可能な前記第2のグループ名称が1つのみである前記単語の数に応じて前記第2のグループ名称集合の要素数を増加させる、
    類似度算出装置。
  5. 複数の同義語グループ間の類似度を算出する類似度算出プログラムであり、
    それぞれの前記同義語グループは、互いに同義語である複数の単語からなり、
    それぞれの前記単語は、1つまたは2つ以上の前記同義語グループに属し、
    複数の前記同義語グループは、第1の同義語グループと第2の同義語グループとを含み、
    前記類似度算出プログラムがコンピュータにインストールされて実行されることによって、
    前記コンピュータに、前記第1の同義語グループに属するそれぞれの前記単語が属する前記同義語グループの名称である少なくとも1つの第1のグループ名称と、前記第2の同義語グループに属するそれぞれの前記単語が属する前記同義語グループの名称である少なくとも1つの第2のグループ名称とを取得させ、
    前記コンピュータに、少なくとも1つの前記第1のグループ名称を要素とする第1のグループ名称集合と、少なくとも1つの前記第2のグループ名称を要素とする第2のグループ名称集合とを生成させ、
    前記コンピュータに、前記第1のグループ名称集合と前記第2のグループ名称集合とに含まれる要素数に対する共通する前記同義語グループの要素数の割合に基づいて、前記第1のグループ名称集合と、前記第2のグループ名称集合との間の類似度を算出させる、
    類似度算出プログラム。
  6. 複数の同義語グループ間の類似度を算出する類似度算出方法であり、
    それぞれの前記同義語グループは、互いに同義語である複数の単語からなり、
    それぞれの前記単語は、1つまたは2つ以上の前記同義語グループに属し、
    複数の前記同義語グループは、第1の同義語グループと第2の同義語グループとを含み、
    前記第1の同義語グループに属するそれぞれの前記単語が属する前記同義語グループの名称である少なくとも1つの第1のグループ名称と、前記第2の同義語グループに属するそれぞれの前記単語が属する前記同義語グループの名称である少なくとも1つの第2のグループ名称とを取得する工程と、
    少なくとも1つの前記第1のグループ名称を要素とする第1のグループ名称集合と、少なくとも1つの前記第2のグループ名称を要素とする第2のグループ名称集合とを生成する工程と、
    前記第1のグループ名称集合と前記第2のグループ名称集合とに含まれる要素数に対する共通する前記同義語グループの要素数の割合に基づいて、前記第1のグループ名称集合と、前記第2のグループ名称集合との間の類似度を算出する工程とを備える、
    類似度算出方法。
JP2020033191A 2020-02-28 2020-02-28 類似度算出装置、類似度算出プログラム、および、類似度算出方法 Active JP7457531B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2020033191A JP7457531B2 (ja) 2020-02-28 2020-02-28 類似度算出装置、類似度算出プログラム、および、類似度算出方法
US17/166,666 US11593420B2 (en) 2020-02-28 2021-02-03 Similarity calculation apparatus, recording medium, and similarity calculation method
CN202110213132.2A CN113326686B (zh) 2020-02-28 2021-02-24 相似度计算装置、记录介质以及相似度计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020033191A JP7457531B2 (ja) 2020-02-28 2020-02-28 類似度算出装置、類似度算出プログラム、および、類似度算出方法

Publications (2)

Publication Number Publication Date
JP2021135882A JP2021135882A (ja) 2021-09-13
JP7457531B2 true JP7457531B2 (ja) 2024-03-28

Family

ID=77414421

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020033191A Active JP7457531B2 (ja) 2020-02-28 2020-02-28 類似度算出装置、類似度算出プログラム、および、類似度算出方法

Country Status (3)

Country Link
US (1) US11593420B2 (ja)
JP (1) JP7457531B2 (ja)
CN (1) CN113326686B (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006092316A (ja) 2004-09-24 2006-04-06 Toshiba Corp 構造化文書検索装置、構造化文書検索方法及び構造化文書検索のためのデータを記憶した記憶媒体
US20070078849A1 (en) 2005-08-19 2007-04-05 Slothouber Louis P System and method for recommending items of interest to a user
US20130006975A1 (en) 2010-03-12 2013-01-03 Qiang Li System and method for matching entities and synonym group organizer used therein
JP2017167851A (ja) 2016-03-16 2017-09-21 株式会社東芝 概念辞書作成装置、方法およびプログラム
US20180089300A1 (en) 2016-09-23 2018-03-29 International Business Machines Corporation Merging synonymous entities from multiple structured sources into a dataset

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI290687B (en) * 2003-09-19 2007-12-01 Hon Hai Prec Ind Co Ltd System and method for search information based on classifications of synonymous words
EP2506161A1 (en) * 2011-04-01 2012-10-03 Waters Technologies Corporation Database search using synonym groups
JP6187877B2 (ja) * 2012-06-25 2017-08-30 日本電気株式会社 同義語抽出システム、方法および記録媒体
JP5578634B2 (ja) * 2013-08-21 2014-08-27 富士通株式会社 分散処理システム、情報処理装置、及び分散処理方法
JP2016021136A (ja) * 2014-07-14 2016-02-04 株式会社東芝 類義語辞書作成装置
JP6427466B2 (ja) 2015-05-26 2018-11-21 日本電信電話株式会社 同義語ペア獲得装置、方法、及びプログラム
CN106250412B (zh) * 2016-07-22 2019-04-23 浙江大学 基于多源实体融合的知识图谱构建方法
CN106294639B (zh) * 2016-08-01 2020-04-21 金陵科技学院 基于语义的跨语言专利新创性预判分析方法
CN107688563B (zh) * 2016-08-05 2021-03-19 中国移动通信有限公司研究院 一种同义词的识别方法及识别装置
JP6737151B2 (ja) * 2016-11-28 2020-08-05 富士通株式会社 同義表現抽出装置、同義表現抽出方法、及び同義表現抽出プログラム
CN107679030B (zh) * 2017-09-04 2021-08-13 北京京东尚科信息技术有限公司 基于用户操作行为数据提取同义词的方法和装置
JP2019049873A (ja) * 2017-09-11 2019-03-28 株式会社Screenホールディングス 同義語辞書作成装置、同義語辞書作成プログラム及び同義語辞書作成方法
CN108153735B (zh) * 2017-12-28 2021-05-18 北京奇艺世纪科技有限公司 一种近义词的获取方法及系统
GB2573998A (en) * 2018-05-17 2019-11-27 Babylon Partners Ltd Device and method for natural language processing
CN109359289B (zh) * 2018-08-17 2023-01-31 浙江工业大学 一种基于本体的Web服务功能相似性度量方法
CN109582961A (zh) * 2018-11-28 2019-04-05 重庆邮电大学 一种高效的机器人数据相似度计算算法
CN110569503B (zh) * 2019-08-28 2023-12-29 芽米科技(广州)有限公司 一种基于词统计与WordNet的义项表示与消歧方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006092316A (ja) 2004-09-24 2006-04-06 Toshiba Corp 構造化文書検索装置、構造化文書検索方法及び構造化文書検索のためのデータを記憶した記憶媒体
US20070078849A1 (en) 2005-08-19 2007-04-05 Slothouber Louis P System and method for recommending items of interest to a user
US20130006975A1 (en) 2010-03-12 2013-01-03 Qiang Li System and method for matching entities and synonym group organizer used therein
JP2017167851A (ja) 2016-03-16 2017-09-21 株式会社東芝 概念辞書作成装置、方法およびプログラム
US20180089300A1 (en) 2016-09-23 2018-03-29 International Business Machines Corporation Merging synonymous entities from multiple structured sources into a dataset

Also Published As

Publication number Publication date
JP2021135882A (ja) 2021-09-13
US11593420B2 (en) 2023-02-28
CN113326686A (zh) 2021-08-31
CN113326686B (zh) 2024-05-10
US20210271700A1 (en) 2021-09-02

Similar Documents

Publication Publication Date Title
US9767193B2 (en) Generation apparatus and method
JP2017068861A5 (ja)
US20100306300A1 (en) Sparse Matrix Padding
TWI796286B (zh) 一種機器學習系統的訓練方法和訓練系統
JP6955963B2 (ja) 検索装置、類似度算出方法、およびプログラム
KR101341507B1 (ko) 수정된 b+트리 노드 검색 방법 및 장치
KR101852219B1 (ko) 편집 가능 메타데이터를 포함하는 파일들을 보호하는 기법
US7725306B2 (en) Efficient phrase pair extraction from bilingual word alignments
JP2012506596A5 (ja)
US20180285012A1 (en) Apparatus and method for accessing storage system that includes a plurality of storage devices with different access speeds
JP7457531B2 (ja) 類似度算出装置、類似度算出プログラム、および、類似度算出方法
US9158748B2 (en) Correction of quotations copied from electronic documents
JP6321787B2 (ja) 知識抽出方法及びシステム
WO2022037016A1 (zh) 一种树结构数据的存储方法、系统及相关装置
WO2021186685A1 (ja) シミュレーション実行システム、シミュレーション実行方法およびシミュレーション実行プログラム
US10073657B2 (en) Data processing apparatus, data processing method, and computer program product, and entry processing apparatus
Zhu A class of Möbius invariant function spaces
JP2015095786A (ja) 論理回路及び論理回路設計支援装置及び論理回路設計支援方法及びプログラム
US9922040B2 (en) Information processing apparatus, information processing method and program
US10318422B2 (en) Computer-readable recording medium storing information processing program, information processing apparatus, and information processing method
WO2020166397A1 (ja) 校閲方法、情報処理装置および校閲プログラム
WO2018179729A1 (ja) インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法
JP2012053651A (ja) タイミング解析方法、プログラム、及びシステム
JP2005277909A (ja) 論理回路設計システム、論理回路、論理回路設計方法およびそのプログラム
TWI783773B (zh) 用來建立關於電路特性之製程飄移模型以供進行電路模擬之方法及電路模擬系統

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221219

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231025

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231107

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231207

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240305

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240315

R150 Certificate of patent or registration of utility model

Ref document number: 7457531

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150