JP2024041369A - Similarity determination device, similarity determination system, and similarity determination method - Google Patents
Similarity determination device, similarity determination system, and similarity determination method Download PDFInfo
- Publication number
- JP2024041369A JP2024041369A JP2022146140A JP2022146140A JP2024041369A JP 2024041369 A JP2024041369 A JP 2024041369A JP 2022146140 A JP2022146140 A JP 2022146140A JP 2022146140 A JP2022146140 A JP 2022146140A JP 2024041369 A JP2024041369 A JP 2024041369A
- Authority
- JP
- Japan
- Prior art keywords
- domain
- graph
- node
- sentence
- keywords
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 47
- 238000012545 processing Methods 0.000 claims description 29
- 230000006870 function Effects 0.000 claims description 10
- 238000004891 communication Methods 0.000 claims description 8
- 238000012217 deletion Methods 0.000 claims description 3
- 230000037430 deletion Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 description 39
- 238000010586 diagram Methods 0.000 description 21
- 238000003860 storage Methods 0.000 description 18
- 238000013459 approach Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 230000003111 delayed effect Effects 0.000 description 4
- 238000003825 pressing Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000005433 particle physics related processes and functions Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、類似度判定装置、類似度判定システム及び類似度判定方法に関する。 The present invention relates to a similarity determination device, a similarity determination system, and a similarity determination method.
近年、新たな脆弱性の発見や新たな攻撃手法の出現などにより、サイバー攻撃は年々進化し続けている。このような状況の下、情報システムがサイバー攻撃に対する防御機能を備えているか、サイバー攻撃を受けた際に被害がどこまで広がるか、という問題は社会や組織において重要な関心事項となっている。 In recent years, cyber attacks have continued to evolve year by year due to the discovery of new vulnerabilities and the emergence of new attack methods. Under these circumstances, the question of whether information systems have the ability to defend against cyber-attacks and how far the damage will spread in the event of a cyber-attack has become an important concern for society and organizations.
そのため、例えば企業等の組織では、ビジネスへのリスクを把握すべく、新たに発見される脆弱性やサイバー攻撃(以下、サイバーイベントという)に関する様々なレポートを取得し、これらのレポートに基づいて適切な対策を講じること求められている。 Therefore, in order to understand the risks to business, organizations such as companies, for example, obtain various reports on newly discovered vulnerabilities and cyber attacks (hereinafter referred to as cyber events), and take appropriate actions based on these reports. We are required to take appropriate measures.
リスクとなり得るサイバーイベントに対して、適切な対策を講じるためには、報告されたサイバーイベントについて、当該サイバーイベントが既に対応済み又は対応中か否かを判定することが望ましい。報告されたサイバーイベントが既に対策が策定済みのサイバーイベントと同様(又は同一)である場合、対策を再度策定する必要はないため、対策策定に必要な時間やリソースを節約することができる。 In order to take appropriate measures against cyber events that may pose a risk, it is desirable to determine whether the reported cyber event has already been dealt with or is currently being dealt with. If a reported cyber event is similar to (or identical to) a cyber event for which countermeasures have already been developed, there is no need to develop countermeasures again, thereby saving time and resources required for countermeasure development.
サイバーイベントが既に対応済み又は対応中か否かを判定する手段の1つとして、脆弱性やサイバー攻撃を報告するレポートと類似度が高いレポートが他に存在するか否かを判定することが考えられる。 One way to determine whether a cyber event has already been responded to or is currently being addressed is to determine whether there are other reports that are highly similar to the report reporting vulnerabilities or cyber attacks. It will be done.
従来から、文章を比較し、類似度を判定するいくつかの提案がなされている。
例えば、Rettinger et al. (非特許文献1)には、「ドキュメントの関連性を評価することは、ドキュメントの取得や推奨など、多くのアプリケーションの中核である。殆どの類似性アプローチは、単語分布ベースのドキュメント表現で動作する。これらのアプローチは、計算が高速であるが、ドキュメントの言語、語彙、またはタイプが異なる場合には問題が発生する上、知識グラフで利用可能な豊富な関係知識が無視されてしまう。一方、グラフベースのドキュメントモデルは、エンティティ間の関係に関する貴重な知識を活用できるが、グラフの操作には資源が多くかかるため、多くのアプリケーションで類似性の評価が実行不可能になる傾向がある。この論文は、明示的な階層的及び横断的関係を活用する効率的な意味的類似性アプローチを提示する。本実験では、(i)本アプローチの類似性測度は、同等の測度よりも、人間のドキュメント類似性の認識との相関が大幅に高いこと、(ii)これは注釈の少ない短いドキュメントにも当てはまること、(iii)ドキュメントの類似性は、他のグラフトラバーサルベースのアプローチと比較して効率的に計算できることを示す。」技術が記載されている。
Several proposals have been made to compare sentences and determine the degree of similarity.
For example, Rettinger et al. (Non-Patent Document 1) states that "Evaluating the relevance of documents is the core of many applications, such as document retrieval and recommendation. Most similarity approaches work with word distribution-based document representations. Although these approaches are computationally fast, they have problems when the documents have different languages, vocabularies, or types, and they ignore the rich relational knowledge available in the knowledge graph. ,While graph-based document models can leverage valuable knowledge,about relationships between entities, graph manipulation tends to be,resource intensive, making similarity evaluation infeasible in,many applications. This paper presents an efficient semantic similarity approach that exploits explicit hierarchical and cross-cutting relationships. In our experiments, we demonstrate that (i) the similarity measure of our approach is more effective than the equivalent measure for humans; has a significantly higher correlation with document similarity perception, (ii) this also applies to short documents with fewer annotations, and (iii) document similarity is significantly higher than other graph traversal-based approaches. The technology is described as "We show that calculations can be performed efficiently."
上記の非特許文献1には、文章における階層的及び横断的関係を活用し、グラフトラバーサル手段を用いることで、文章の類似度を判定する手段が記載されている。
The above-mentioned Non-Patent
しかし、非特許文献1に記載の手段では、文章全体がグラフとして表現されるため、文章が長ければ長い程、グラフが大きくなり、当該グラフを格納したり、処理したりするために必要なコンピューティング資源や時間が多くなるという課題がある。
従って、非特許文献1に記載の手段を例えばサイバーイベントを報告するレポートに対して適用した場合、グラフの大きさにより、比較の判定結果が出力されるまでの時間が遅くなり、サイバーイベントへの対策策定が遅れてしまうことがある。
However, with the method described in
Therefore, when the method described in
そこで、本開示は、文章における要素間の関係情報を維持しつつ、文章に対応するグラフ表現の規模を抑えることで、高速且つ高精度な文章類似度比較が可能な類似度判定手段を提供することを目的とする。 Therefore, the present disclosure provides a similarity determination means that can perform high-speed and highly accurate sentence similarity comparisons by suppressing the scale of a graph representation corresponding to a sentence while maintaining relationship information between elements in a sentence. The purpose is to
上記の課題を解決するために、代表的な本発明の類似度判定装置の一つは、第1のドメインに対応する第1のドメインキーワードのセットを格納するキーワード管理データベースと、前記第1のドメインに対応する第1の文章について、前記第1のドメインキーワードのセットに基づいて生成される第1のドメイングラフを格納するドメイングラフデータベースと、前記第1のドメインキーワードのセットに基づいて、前記第1のドメインに対応する第2の文章について第2のドメイングラフを生成するグラフ生成部と、前記第1のドメイングラフと前記第2のドメイングラフとを比較することで、前記第1のドメイングラフと前記第2のドメイングラフとの類似度を示す比較結果を生成する類似度判定部とを含む。 In order to solve the above problems, one of the typical similarity determination devices of the present invention includes a keyword management database that stores a set of first domain keywords corresponding to a first domain, and a keyword management database that stores a set of first domain keywords corresponding to a first domain. A domain graph database that stores a first domain graph generated based on the first set of domain keywords for a first sentence corresponding to a domain; A graph generating unit that generates a second domain graph for a second sentence corresponding to the first domain, and comparing the first domain graph and the second domain graph, and a similarity determination unit that generates a comparison result indicating the degree of similarity between the graph and the second domain graph.
本開示によれば、文章における要素間の関係情報を維持しつつ、文章に対応するグラフ表現の規模を抑えることで、高速且つ高精度な文章類似度比較が可能な類似度判定手段を提供することができる。
上記以外の課題、構成及び効果は、以下の発明を実施するための形態における説明により明らかにされる。
According to the present disclosure, there is provided a similarity determination means that can perform high-speed and highly accurate sentence similarity comparisons by suppressing the scale of a graph representation corresponding to a sentence while maintaining relational information between elements in a sentence. be able to.
Problems, configurations, and effects other than those described above will be made clear by the description in the detailed description below.
以下、図面を参照して、本発明の実施形態について説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。
また、「第1」、「第2」、「第3」等の用語は、本開示において様々な要素又は構成要素を説明するのに用いられる場合があるが、これらの要素又は構成要素はこれらの用語によって限定されるべきでないことが理解されるであろう。これらの用語は、或る要素又は構成要素を別の要素又は構成要素と区別するためにのみ用いられる。したがって、以下で論述する第1の要素又は構成要素は、本発明概念の教示から逸脱することなく第2の要素又は構成要素と呼ぶこともできる。
Embodiments of the present invention will be described below with reference to the drawings. Note that the present invention is not limited to this embodiment. In addition, in the description of the drawings, the same parts are denoted by the same reference numerals.
Additionally, terms such as "first,""second," and "third" may be used in the present disclosure to describe various elements or components; It will be understood that there should be no limitation by the terms. These terms are only used to distinguish one element or component from another. Accordingly, a first element or component discussed below may also be referred to as a second element or component without departing from the teachings of the inventive concept.
まず、図1を参照して、本開示の実施形態を実施するためのコンピュータシステム100について説明する。本明細書で開示される様々な実施形態の機構及び装置は、任意の適切なコンピューティングシステムに適用されてもよい。コンピュータシステム100の主要コンポーネントは、1つ以上のプロセッサ102、メモリ104、端末インターフェース112、ストレージインタフェース113、I/O(入出力)デバイスインタフェース114、及びネットワークインターフェース115を含む。これらのコンポーネントは、メモリバス106、I/Oバス108、バスインターフェースユニット109、及びI/Oバスインターフェースユニット110を介して、相互的に接続されてもよい。
First, with reference to FIG. 1, a
コンピュータシステム100は、プロセッサ102と総称される1つ又は複数の汎用プログラマブル中央処理装置(CPU)102A及び102Bを含んでもよい。ある実施形態では、コンピュータシステム100は複数のプロセッサを備えてもよく、また別の実施形態では、コンピュータシステム100は単一のCPUシステムであってもよい。各プロセッサ102は、メモリ104に格納された命令を実行し、オンボードキャッシュを含んでもよい。
ある実施形態では、メモリ104は、データ及びプログラムを記憶するためのランダムアクセス半導体メモリ、記憶装置、又は記憶媒体(揮発性又は不揮発性のいずれか)を含んでもよい。メモリ104は、本明細書で説明する機能を実施するプログラム、モジュール、及びデータ構造のすべて又は一部を格納してもよい。例えば、メモリ104は、類似度判定アプリケーション150を格納していてもよい。ある実施形態では、類似度判定アプリケーション150は、後述する機能をプロセッサ102上で実行する命令又は記述を含んでもよい。
In some embodiments,
ある実施形態では、類似度判定アプリケーション150は、プロセッサベースのシステムの代わりに、またはプロセッサベースのシステムに加えて、半導体デバイス、チップ、論理ゲート、回路、回路カード、および/または他の物理ハードウェアデバイスを介してハードウェアで実施されてもよい。ある実施形態では、類似度判定アプリケーション150は、命令又は記述以外のデータを含んでもよい。ある実施形態では、カメラ、センサ、または他のデータ入力デバイス(図示せず)が、バスインターフェースユニット109、プロセッサ102、またはコンピュータシステム100の他のハードウェアと直接通信するように提供されてもよい。
In some embodiments, the
コンピュータシステム100は、プロセッサ102、メモリ104、表示システム124、及びI/Oバスインターフェースユニット110間の通信を行うバスインターフェースユニット109を含んでもよい。I/Oバスインターフェースユニット110は、様々なI/Oユニットとの間でデータを転送するためのI/Oバス108と連結していてもよい。I/Oバスインターフェースユニット110は、I/Oバス108を介して、I/Oプロセッサ(IOP)又はI/Oアダプタ(IOA)としても知られる複数のI/Oインタフェースユニット112,113,114、及び115と通信してもよい。
表示システム124は、表示コントローラ、表示メモリ、又はその両方を含んでもよい。表示コントローラは、ビデオ、オーディオ、又はその両方のデータを表示装置126に提供することができる。また、コンピュータシステム100は、データを収集し、プロセッサ102に当該データを提供するように構成された1つまたは複数のセンサ等のデバイスを含んでもよい。
例えば、コンピュータシステム100は、心拍数データやストレスレベルデータ等を収集するバイオメトリックセンサ、湿度データ、温度データ、圧力データ等を収集する環境センサ、及び加速度データ、運動データ等を収集するモーションセンサ等を含んでもよい。これ以外のタイプのセンサも使用可能である。表示システム124は、単独のディスプレイ画面、テレビ、タブレット、又は携帯型デバイスなどの表示装置126に接続されてもよい。
For example, the
I/Oインタフェースユニットは、様々なストレージ又はI/Oデバイスと通信する機能を備える。例えば、端末インタフェースユニット112は、ビデオ表示装置、スピーカテレビ等のユーザ出力デバイスや、キーボード、マウス、キーパッド、タッチパッド、トラックボール、ボタン、ライトペン、又は他のポインティングデバイス等のユーザ入力デバイスのようなユーザI/Oデバイス116の取り付けが可能である。ユーザは、ユーザインターフェースを使用して、ユーザ入力デバイスを操作することで、ユーザI/Oデバイス116及びコンピュータシステム100に対して入力データや指示を入力し、コンピュータシステム100からの出力データを受け取ってもよい。ユーザインターフェースは例えば、ユーザI/Oデバイス116を介して、表示装置に表示されたり、スピーカによって再生されたり、プリンタを介して印刷されたりしてもよい。
The I/O interface unit has the ability to communicate with various storage or I/O devices. For example, the
ストレージインタフェース113は、1つ又は複数のディスクドライブや直接アクセスストレージ装置117(通常は磁気ディスクドライブストレージ装置であるが、単一のディスクドライブとして見えるように構成されたディスクドライブのアレイ又は他のストレージ装置であってもよい)の取り付けが可能である。ある実施形態では、ストレージ装置117は、任意の二次記憶装置として実装されてもよい。メモリ104の内容は、ストレージ装置117に記憶され、必要に応じてストレージ装置117から読み出されてもよい。I/Oデバイスインタフェース114は、プリンタ、ファックスマシン等の他のI/Oデバイスに対するインターフェースを提供してもよい。ネットワークインターフェース115は、コンピュータシステム100と他のデバイスが相互的に通信できるように、通信経路を提供してもよい。この通信経路は、例えば、ネットワーク130であってもよい。
ある実施形態では、コンピュータシステム100は、マルチユーザメインフレームコンピュータシステム、シングルユーザシステム、又はサーバコンピュータ等の、直接的ユーザインターフェースを有しない、他のコンピュータシステム(クライアント)からの要求を受信するデバイスであってもよい。他の実施形態では、コンピュータシステム100は、デスクトップコンピュータ、携帯型コンピューター、ノートパソコン、タブレットコンピュータ、ポケットコンピュータ、電話、スマートフォン、又は任意の他の適切な電子機器であってもよい。
In some embodiments,
次に、図2を参照して、本開示の実施形態に係る類似度判定システムについて説明する。 Next, with reference to FIG. 2, a similarity determination system according to an embodiment of the present disclosure will be described.
図2は、本開示の実施形態に係る類似度判定システム200の構成の一例を示す図である。類似度判定システム200は、複数の文章間の類似度を示す比較結果を生成し、
ユーザへ提供するためのシステムである。図2に示すように、類似度判定システム200は、類似度判定装置210と、通信ネットワーク250と、ユーザ端末260とからなる。類似度判定装置210と、ユーザ端末260とは、通信ネットワーク250を介して互いに接続されてもよい。
FIG. 2 is a diagram illustrating an example of a configuration of a
This is a system for providing information to users. As shown in FIG. 2, the
類似度判定装置210は、文章の類似度判定を行うための装置であり、図2に示すように、メモリ220、記憶部230、プロセッサ244及び入出力部246を主に含む。
ある実施形態では、類似度判定装置210は、図1に示すコンピュータシステム100によって実装されてもよい。
The similarity determination device 210 is a device for determining the similarity of sentences, and as shown in FIG. 2, mainly includes a memory 220, a storage section 230, a processor 244, and an input/
In some embodiments, similarity determination device 210 may be implemented by
メモリ220は、本開示の実施形態に係る類似度判定手段の機能を実施するための
類似度判定アプリケーション150を格納するためのメモリであってもよい。この類似度判定アプリケーション150は、図2に示すように、グラフ生成部221、類似度判定部222及び更新部223等のソフトウェアモジュールの機能を実施するための処理命令を含んでもよい。
The memory 220 may be a memory for storing the
グラフ生成部221は、対象の文章に対応するドメイングラフを生成するための機能部である。本開示における「ドメイングラフ」は、対象の文章における一意なドメインキーワードをノードとし、ドメインキーワード間をエッジとして表現する有向非巡回グラフ(Directed Acyclic graph)であってもよい。また、本開示における「ドメイン」とは、特定の分野や話題を意味し、例えば「有名な物理学者」、「自動車」、「DoS攻撃」等、任意のトピックを含んでもよい。異なる文章について生成したドメイングラフを比較することで、文章間の類似度を判定することができる。
なお、グラフ生成部221の機能の詳細については後述するため、ここではその説明を省略する。
The
Note that the details of the function of the
類似度判定部222は、グラフ生成部221によって生成されるドメイングラフを用いて、複数の文章間の類似度を判定し、判定した類似度を示す比較結果を出力するための機能部である。
なお、類似度判定部222の機能の詳細については後述するため、ここではその説明を省略する。
The
Note that the details of the function of the
更新部223は、後述するキーワード管理DB231に格納されるドメインキーワードに対して、新たなドメインキーワードの追加や既存のドメインキーワードの削除を行うと共に、ドメインキーワードの変更に基づいてドメイングラフDB232に格納されるドメイングラフを更新するための機能部である。
なお、更新部223の機能の詳細については後述するため、ここではその説明を省略する。
The
Note that the details of the function of the
記憶部230は、本開示の実施形態に係る各種情報を格納するためのデータベース(以下、「DB」)を収容する記憶領域であり、図2に示すように、キーワード管理DB231及びドメイングラフDB232を含んでもよい。 The storage unit 230 is a storage area that accommodates a database (hereinafter referred to as "DB") for storing various information according to the embodiment of the present disclosure, and as shown in FIG. May include.
キーワード管理DB231は、本開示の実施形態に係るドメインキーワードのセットを格納するためのデータベースである。本開示における「ドメインキーワード」とは、特定のドメインにおいて特に重要性が高い単語である。これらのドメインキーワードは、文章間の類似度を示す比較結果を要求するユーザ(例えば、後述するユーザ端末260のユーザ)によって選択されてもよい。一例として、「素粒子物理学」とのドメインにおいて、「ヒッグス粒子」はドメインキーワードとして選択されてもよい。ある実施形態では、キーワード管理DB231は、様々な異なるドメインに対応するドメインキーワードのセットを格納してもよい。後述するように、これらのドメインキーワードは、本開示の実施形態に係るドメイングラフを生成する際に用いられる。
The
ドメイングラフDB232は、グラフ生成部221によって生成されるドメイングラフを格納するためのデータベースである。後述するように、ドメイングラフDB232に格納されるドメイングラフ(例えば、第1のドメイングラフ)は、新たに生成されるドメイングラフ(例えば、第2のドメイングラフ)の比較対象として用いられる。
The
プロセッサ244は、メモリ220によって格納される類似度判定アプリケーション150の各機能部の機能を規定する処理命令を実施するための処理部である。
The processor 244 is a processing unit for executing processing instructions that define the functions of each functional unit of the
入出力部246は、類似度判定装置210に入力される情報を受け付けると共に、類似度判定装置210によって生成される比較結果等の情報を出力するための機能部である。ある実施形態では、入出力部246は、例えばキーボード、マウス、GUI(Graphical User Interface)を表示するディスプレイ等を含んでもよい。
The input/
通信ネットワーク250は、例えばローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、衛星ネットワーク、ケーブルネットワーク、WiFiネットワーク、またはそれらの任意の組み合わせを含むものであってもよい。
ユーザ端末260は、類似度判定装置210のユーザによって利用可能な端末装置である。ユーザは、ユーザ端末260を用いることで、例えば入出力部246によって提供されるGUIを用いて、文章間の類似度を示す比較結果を要求したり、ドメインキーワードを選択したり、比較結果を確認したりすることができる。一例として、ユーザ端末260は、例えばスマートフォン、スマートウォッチ、タブレット、パソコン等を含んでもよく、特に限定されない。
なお、図2では、説明の便宜上、1つのユーザ端末260を含む構成を一例として説明しているが、ユーザ端末260の数は特に限定されない。
The
Note that in FIG. 2, for convenience of explanation, a configuration including one
以上説明した類似度判定装置210によれば、文章における要素間の関係情報を維持しつつ、文章に対応するグラフ表現の規模を抑えることで、高速且つ高精度な文章類似度比較が可能な類似度判定手段を提供することができる。 According to the similarity determination device 210 described above, by suppressing the scale of the graph representation corresponding to the sentences while maintaining relationship information between elements in the sentences, the similarity determination device 210 enables high-speed and highly accurate sentence similarity comparison. It is possible to provide a degree determination means.
次に、図3を参照して、本開示の実施形態に係る類似度判定処理の全体の流れについて説明する。 Next, with reference to FIG. 3, the overall flow of the similarity determination process according to the embodiment of the present disclosure will be described.
上述したように、本開示の実施形態の一態様は、複数の文章間の類似度を判定する処理に関する。また、この類似度判定処理は、事前グラフ生成処理400と、グラフ比較処理600とを主に含む。図3は、本開示の実施形態に係る類似度判定処理における事前グラフ生成処理400の流れと、グラフ比較処理600の流れとを示す図である。
As described above, one aspect of the embodiment of the present disclosure relates to processing for determining the degree of similarity between multiple sentences. Further, this similarity determination process mainly includes a preliminary
事前グラフ生成処理400は、文章を比較する際に基準となるドメイングラフ(例えば、正規化済みの第1のドメイングラフ)を既存の文章(第1の文章)に基づいて事前に生成し、ドメイングラフDB232に格納しておくための処理である。より具体的に、図3に示すように、事前グラフ生成処理400では、グラフ生成部221は、第1のドメインに対応する第1の文章412と、キーワード管理DB231に格納され、当該第1のドメインに対応する第1のドメインキーワードとを用いて、第1の文章412をグラフ形式で示す正規化済みの第1のドメイングラフ415を生成し、ドメイングラフDB232に格納する。
The preliminary
グラフ比較処理600は、対象の文章(第2の文章)に対応する新たなドメイングラフ(例えば、正規化済みの第2のドメイングラフ)を生成し、既存のドメイングラフ(例えば、図4に示す事前グラフ生成処理400によって生成される正規化済みの第1のドメイングラフ)に対して比較することで、正規化済みの第1のドメイングラフと正規化済みの第2のドメイングラフの類似度を示す比較結果を生成するための処理である。
より具体的には、図3に示すように、グラフ比較処理600では、グラフ生成部221は、第1のドメインに対応する第2の文章422と、キーワード管理DB231に格納され、当該第1のドメインに対応する第1のドメインキーワードとを用いて、第2の文章422をグラフ形式で示す正規化済みの第2のドメイングラフ425を生成する。その後、類似度判定部222は、ドメイングラフDB232に格納される正規化済みの第1のドメイングラフ415と、新たに生成した正規化済みの第2のドメイングラフ425を比較することで、正規化済みの第1のドメイングラフと正規化済みの第2のドメイングラフの類似度を示す比較結果を生成する。
More specifically, as shown in FIG. 3, in the
なお、以上では、本開示の実施形態における類似度判定処理に含まれる事前グラフ生成処理400及びグラフ比較処理600の大まかな流れについて説明したが、これらの処理の詳細については後述するため、ここではその説明を省略する。
Note that although the general flow of the preliminary
次に、図4を参照して、本開示の実施形態に係る事前グラフ生成処理の詳細について説明する。 Next, details of the preliminary graph generation process according to the embodiment of the present disclosure will be described with reference to FIG. 4.
図4は、本開示の実施形態に係る事前グラフ生成処理400の流れの詳細を示す図である。上述したように、事前グラフ生成処理400は、正規化済みの第1のドメイングラフを事前に生成し、ドメイングラフDB232に格納しておくための処理であり、主に類似度判定装置210のグラフ生成部221によって実施される。
FIG. 4 is a diagram illustrating details of the flow of preliminary
まず、ステップS410では、グラフ生成部221は、第1の文章412のドメインに対応するドメインキーワードのセットをキーワード管理DB231から抽出し、抽出したドメインキーワードのセットの内、第1の文章412に含まれるドメインキーワードのサブセットを特定する。
First, in step S410, the
一例として、第1の文章412が「物理学」とのドメインに関する場合、グラフ生成部221は、「物理学」に対応するドメインキーワードのセットをキーワード管理DB231から抽出する。このドメインキーワードのセットは、「原子」、「重力」、「中性子」、「電荷」、「電子」及び「不確定性原理」を含む場合、グラフ生成部221は、これらのドメインキーワードを第1の文章412において検索し、特定する。例えば、上記のドメインキーワードのセットの内、「原子」、「中性子」及び「電子」のみが第1の文章412に現れる場合、「原子」、「中性子」及び「電子」をドメインキーワードのサブセットとして特定する。
As an example, if the
次に、ステップS420では、グラフ生成部221は、ステップS410で特定したドメインキーワードのサブセットに基づいてノードを生成する。ここでのノードは、ドメインキーワードのサブセットを後述するドメイングラフにおいて表現するためのデータ構造である。ある実施形態では、グラフ生成部221は、第1の文章412において特定したドメインキーワードのサブセットの一意なドメインキーワード毎にノードを作成してもよい。一例として、「原子」、「中性子」及び「電子」をドメインキーワードのサブセットとして特定した場合、グラフ生成部221は、「原子」、「中性子」及び「電子」のそれぞれに対応するノードを含むノードのセットを生成してもよい。
Next, in step S420, the
次に、ステップS430では、グラフ生成部221は、ステップS420で生成した各ノードについて、ノードスコアを計算する。本開示における「ノードスコア」とは、特定のノードに対応するドメインキーワードの、文章における相対的な重要性を示す定量的な尺度であり、重要性が高ければ高い程、ノードスコアが高くなる。ある実施形態では、グラフ生成部221は、特定のノードに対応するドメインキーワードが第1の文章412に出現する回数(出現回数)に基づいて当該ノードのノードスコアを計算してもよい。この場合、グラフ生成部221は、以下に示す数式1を用いて各ノードのノードスコアNi(N1、N2、...NT)を計算してもよい。
なお、以上では、ノードスコアをドメインキーワードの文章における出現回数に基づいて計算した場合を一例として説明したが、本開示はこれに限定されず、例えば特定のドメインキーワードの意味的コサイン値に基づいてノードスコアを計算することも可能である。
Next, in step S430, the
Note that, although the above example describes a case where the node score is calculated based on the number of occurrences of the domain keyword in the sentence, the present disclosure is not limited to this, and for example, the node score is calculated based on the semantic cosine value of a specific domain keyword. It is also possible to calculate node scores.
次に、ステップS440では、グラフ生成部221は、ステップS420で生成したノードのセットの関係を示すエッジを生成する。ここでのエッジとは、ノード間の関係をドメイングラフにおいて表現するためのデータ構造である。ある実施形態では、グラフ生成部221は、第1の文章に対応する知識グラフ(Knowledge Graph)を予め作成し、当該知識グラフに基づいてノードのセットの関係を示すエッジを生成してもよい。
一般に、知識グラフとは、様々な知識を体系的に連結し、グラフ構造で表すデータ構造である。ここで、知識グラフを生成するための手段は特に限定されず、自然言語処理やニューラルネットワーク等、任意の既存の手段を用いてもよい。
Next, in step S440, the
Generally, a knowledge graph is a data structure that systematically connects various pieces of knowledge and represents it in a graph structure. Here, the means for generating the knowledge graph is not particularly limited, and any existing means such as natural language processing or neural networks may be used.
次に、ステップS450では、グラフ生成部221は、ステップS440で生成した各エッジについて、エッジ重みを計算する。本開示における「エッジ重み」とは、ドメイングラフにおいてエッジで接続されている2つのノードに対応するドメインキーワードの関連度を定量的に示す尺度であり、ドメインキーワードの関連度が高ければ高い程、エッジ重みが高くなる。
ある実施形態では、グラフ生成部221は、第1の文章に基づいて予め作成された知識グラフに基づいてエッジ重みを計算してもよい。この場合、グラフ生成部221は、2つのノードに対応するドメインキーワードの、知識グラフにおける最短距離(接続数)に基づいてエッジ重みを計算してもよい。ある実施形態では、グラフ生成部221は、以下に示す数式2を用いてノードi及びノードj間のエッジのエッジ重みEijを計算してもよい。
In some embodiments, the
次に、ステップS460では、グラフ生成部221は、ステップS420で生成したノードのセットと、ステップS430で計算したノードスコアと、ステップS440で生成したエッジのセットと、ステップS450で計算したエッジ重みを用いて、第1のドメイングラフを生成する。この第1のドメイングラフは、第1の文章412において特定したドメインキーワードのサブセットをノードとし、ドメインキーワード間の間をエッジとして表現する有向非巡回グラフ(Directed Acyclic graph)である。また、この第1のドメイングラフにおける各ノードは、当該ノードに対応するドメインキーワードの重要性を示すノードスコアに対応付けられ、各エッジは、当該エッジが接続するノード間の関連度を示すエッジ重みに対応付けられる。
Next, in step S460, the
次に、ステップS470では、グラフ生成部221は、ステップS460で生成した第1のドメイングラフ415を正規化することで、正規化済みの第1のドメイングラフを生成する。より具体的には、グラフ生成部221は、正規化済みの第1のドメイングラフにおける各ノードのノードスコアと、各エッジのエッジスコアを正規化することで正規化済みの第1のドメイングラフを生成してもよい。ここで、グラフ生成部221は、正規化したノードスコアNSiを以下に示す数式3に基づいて計算し、正規化したエッジ重みNEijを以下に示す数式4に基づいて計算してもよい。
次に、ステップS480では、グラフ生成部221は、ステップS470で生成した正規化済みの第1のドメイングラフを、第1の文章412と、ステップS410で特定したドメインキーワードのサブセットとを対応付けてドメイングラフDB232に格納する。
Next, in step S480, the
以上説明した事前グラフ生成処理400を様々な文章に対して行うことで、多数の異なる文章に対応するドメイングラフを予め用意し、ドメイングラフDB232に格納しておくことができる。後述するように、事前グラフ生成処理400によって生成される正規化済みの第1のドメイングラフは、後述するグラフ比較処理600において、第2の文章に基づいて生成される正規化済みの第2のドメイングラフと比較するために用いられる。従って、事前グラフ生成処理400を様々な文章に対して行い、数多くのドメイングラフを比較用に準備しておくことで、より幅広い類似度判定が可能となり、第2の文章との類似度が高い第1の文章が特定しやすくなる。
By performing the preliminary
次に、図5を参照して、本開示の実施形態に係るドメイングラフ及び正規化済みのドメイングラフについて説明する。 Next, with reference to FIG. 5, a domain graph and a normalized domain graph according to an embodiment of the present disclosure will be described.
図5は、本開示の実施形態に係るドメイングラフ510及び正規化済みのドメイングラフ520の一例を示す図である。
FIG. 5 is a diagram illustrating an example of a
上述したように、本開示におけるドメイングラフは、対象の文章における一意なドメインキーワードをノードとし、ドメインキーワード間の間をエッジとして表現する有向非巡回グラフ(Directed Acyclic Graph)であってもよい。 As described above, the domain graph in the present disclosure may be a directed acyclic graph in which unique domain keywords in a target sentence are represented as nodes, and spaces between domain keywords are represented as edges.
一例として、図5に示すように、ドメイングラフ510は、ノード「i」、ノード「i+1」、ノード「i+x」等、多数のノードを含んでもよい。また、ドメイングラフにおける各ノードは、当該ノードの相対的な重要性を示すノードスコアに対応付けられ、各エッジは、当該エッジによって接続されるノードの関連度を示すエッジ重みに対応付けられる。例えば、ノード「i」は、ノードスコア「Ni」に対応付けられ、ノード「i」とノード「i+1」を接続するエッジは、「Ei,i+1」とのエッジ重みに対応付けられる。
As an example, as shown in FIG. 5,
また、ドメイングラフ510における各ノードスコア及びエッジ重みを正規化することで、正規化済みのドメイングラフ520を生成することができる。図5に示すように、正規化済みのドメイングラフ520各ノードは、正規化したノードスコアに対応付けられ、各エッジは、正規化したエッジ重みに対応付けられる。例えば、ノード「i」は、正規化したノードスコア「NSi」に対応付けられ、ノード「i」とノード「i+1」を接続するエッジは、「NEi,i+1」とのエッジ重みに対応付けられる。
Further, by normalizing each node score and edge weight in the
このように、文章をドメイングラフとして表現することで、より高精度の類似度判定が可能となる。
また、上述したように、ドメイングラフにおける各ノードは、当該ノードに対応するドメインキーワードの文章における重要性を示すノードスコアに対応付けられ、ドメイングラフにおける各エッジは、当該エッジによって接続されるノードに対応するドメインキーワードの関連度を示すエッジ重みを対応付けられる。これにより、文章全体をドメイングラフとして表現しなくても、文章において特に重要なキーワードに関する意味的情報を維持しつつ、ドメイングラフの規模を抑えることが可能となる。
更に、ドメイングラフにおける各ノードスコア及びエッジ重みを正規化した正規化済みのドメイングラフを生成することで、ドメイングラフを比較する際、ドメイングラフの大きさの相違に起因する類似度判定の低下を防ぐことができる。
In this way, by representing a sentence as a domain graph, it becomes possible to determine similarity with higher accuracy.
Furthermore, as described above, each node in the domain graph is associated with a node score that indicates the importance of the domain keyword corresponding to the node in the sentence, and each edge in the domain graph is associated with the node connected by the edge. It can be associated with edge weights that indicate the degree of relevance of the corresponding domain keyword. This makes it possible to reduce the size of the domain graph while maintaining semantic information regarding particularly important keywords in the text, without having to express the entire text as a domain graph.
Furthermore, by generating a normalized domain graph in which each node score and edge weight in the domain graph are normalized, when comparing domain graphs, it is possible to avoid a decline in similarity judgment due to differences in the size of domain graphs. It can be prevented.
次に、図6を参照して、本開示の実施形態に係るグラフ比較処理の詳細について説明する。 Next, details of the graph comparison process according to the embodiment of the present disclosure will be described with reference to FIG. 6.
図6は、本開示の実施形態に係るグラフ比較処理600の流れの詳細を示す図である。上述したように、本開示の実施形態に係るグラフ比較処理600は、対象の文章(第2の文章)に対応する新たなドメイングラフ(例えば、正規化済みの第2のドメイングラフ)を生成し、既存のドメイングラフ(例えば、図4に示す事前グラフ生成処理400によって生成される正規化済みの第1のドメイングラフ)に対して比較することで、正規化済みの第1のドメイングラフと正規化済みの第2のドメイングラフの類似度を示す比較結果685を生成するための処理である。また、グラフ比較処理600主にグラフ生成部221及び類似度判定部222によって実施される。
なお、以下説明するグラフ比較処理600において、第2の文章に対応する正規化済みの第2のドメイングラフを生成する処理(ステップS610~S670)は、図4に示す事前グラフ生成処理400と実質的に同様であるため、繰り返しとなる説明を省略する。
FIG. 6 is a diagram illustrating details of the flow of
In the
まず、ステップS605では、入出力部246は、第2の文章422と、当該第2の文章422のドメイン名を示す情報とを含む入力をユーザ端末260から受け付ける。この第2の文章422は、図4に示す第1の文章412と同一の文章であってもよく、異なる文章であってもよい。ある実施形態では、この第2の文章422は、既存の文章に対する類似度判定が希望される文章であってもよい。入出力部246は、受け付けた第2の文章422をグラフ生成部221に転送すると共に、当該第2の文章422のドメイン名を示す情報をキーワード管理DB231及びドメイングラフDB232に転送する。
First, in step S605, the input/
次に、ステップS610では、グラフ生成部221は、第2の文章422のドメインに対応するドメインキーワードのセットをキーワード管理DB231から抽出し、抽出したドメインキーワードのセットの内、第2の文章422に含まれるドメインキーワードのサブセット(第1のドメインキーワードのサブセット)を特定する。
Next, in step S610, the
次に、ステップS620では、グラフ生成部221は、ステップS610で特定したドメインキーワードのサブセットに基づいてノード(第1のノードセット)を生成する。
Next, in step S620, the
次に、ステップS630では、グラフ生成部221は、ステップS620で生成した各ノードについて、ノードスコアを計算する。ここで、ノードスコアを計算するためには、上述した数式1を用いてもよい。
Next, in step S630, the
次に、ステップS640では、グラフ生成部221は、ステップS620で生成したノードのセットの関係を示すエッジを生成する。
Next, in step S640, the
次に、ステップS650では、グラフ生成部221は、ステップS640で生成した各エッジについて、エッジ重みを計算する。ここで、エッジ重みを計算するためには、第2の文章422に基づいて生成した知識グラフと、上述した数式2を用いてもよい。
Next, in step S650, the
次に、ステップS660では、グラフ生成部221は、ステップS620で生成したノードのセットと、ステップS630で計算したノードスコアと、ステップS640で生成したエッジのセットと、ステップS650で計算したエッジ重みを用いて、第2のドメイングラフを生成する。
Next, in step S660, the
次に、ステップS670では、グラフ生成部221は、ステップS660で生成した第2のドメイングラフを正規化することで、正規化済みの第2のドメイングラフを生成する。ここで、第2のドメイングラフを正規化し、正規化済みの第2のドメイングラフを生成するためには、グラフ生成部221は、上述した数式3及び数式4を用いてもよい。
Next, in step S670, the
次に、ステップS680では、類似度判定部222は、図4に示す事前グラフ生成処理400によって生成された正規化済みの第1のドメイングラフをドメイングラフDB232から取得した後、正規化済みの第1のドメイングラフと、ステップS670で生成した正規化済みの第2のドメイングラフとの類似度を判定する。
Next, in step S680, the
ここで、まず、類似度判定部222は、正規化済みの第1のドメイングラフと、正規化済みの第2のドメイングラフとに基づいて、正規化済みの第1のドメイングラフと、正規化済みの第2のドメイングラフとで共通しているノードの重要性を示すノードスコア(Common Node Score; CNS)を、以下の数式5によって計算する。
次に、類似度判定部222は、正規化済みの第1のドメイングラフと、正規化済みの第2のドメイングラフとに基づいて、正規化済みの第1のドメイングラフと、正規化済みの第2のドメイングラフとで共通しているノード間のエッジの関連度を示す関係スコア(Relationship score for common nodes;Rs)を、以下の数式6によって計算する。
次に、類似度判定部222は、計算したCNSとRsとを用いて、正規化済みの第1のドメイングラフと、正規化済みの第2のドメイングラフとの類似度を以下の数式7によって計算する。この類似度は、パーセンテージで表現されてもよい。従って、「100%」の類似度は、正規化済みの第1のドメイングラフと、正規化済みの第2のドメイングラフと(そして、グラフの元となった第1の文章および第2の文章)が同一であることを意味する。
次に、類似度判定部222は、ここで計算した類似度を示す比較結果685を生成し、ユーザ端末260に送信する。
Next, the
以上説明したグラフ比較処理600によれば、文章における要素間の関係情報を維持しつつ、文章に対応するグラフ表現の規模を抑えることで、高速且つ高精度な文章類似度比較が可能な類似度判定手段を提供することができる。
According to the
次に、図7を参照して、本開示の実施形態に係るドメインキーワード及びドメイングラフを更新する処理について説明する。 Next, with reference to FIG. 7, processing for updating domain keywords and domain graphs according to an embodiment of the present disclosure will be described.
上述したように、本開示の実施形態に係るキーワード管理DB231は、様々な異なるドメインに対応するドメインキーワードのセットを格納することができる。また、本開示の実施形態に係る類似度判定は、これらのドメインキーワードに基づいて生成されるドメイングラフを用いて行われるため、高精度の類似度判定を促進するためには、特定のドメインに対応するドメインキーワードのセットに対して、新たなドメインキーワードの追加や既存のドメインキーワードの削除等を行い、ドメインキーワードのセットを更新することが望ましい場合がある。
As described above, the
また、キーワード管理DB231に格納されている特定のドメインキーワードのセットが更新される場合、当該ドメインキーワードのセットに基づいて生成され、ドメイングラフDB232に格納されるドメイングラフを更新することが望ましい。
従って、本開示の一態様は、ユーザ端末260を介してユーザによって入力される更新要求に基づいて、キーワード管理DB231に格納されるドメインキーワードのセットと、ドメイングラフDB232に格納されるドメイングラフを更新することに関する。図7は、開示の実施形態に係るドメインキーワード及びドメイングラフを更新するための更新処理700の流れを示す図である。
Further, when a specific set of domain keywords stored in the
Therefore, one aspect of the present disclosure updates the set of domain keywords stored in the
まず、入出力部246は、ドメイングラフDB232に格納されている特定のドメインキーワードのセット(例えば、第1のドメインキーワードのセット)に対する更新を要求する更新要求をユーザ端末260から受け付ける。ここでの更新要求は、特定のドメインキーワードのセットに対して、新たなドメインキーワードの追加、既存のドメインキーワードの削除、又は既存のドメインキーワードの変更を要求するユーザ入力であってもよい。ある実施形態では、この更新要求は、入出力部246によってユーザに提示されるユーザインターフェースを介して入力されてもよい。
First, the input/
次に、更新部223は、ユーザ端末260から取得した更新要求に基づいて、指定されているドメインキーワードのセットをキーワード管理DB231において更新する。一例として、「物理学」とのドメインに対応するドメインキーワードのセットに対して、「光子」とのドメインキーワードの追加が更新要求によって指定される場合、更新部223は、キーワード管理DB231に格納される「物理学」とのドメインに対応するドメインキーワードのセットに対して、「光子」とのドメインキーワードを追加してもよい。
Next, the
その後、更新部223は、ドメイングラフDB232に格納されているドメイングラフの内、ドメインキーワードのセットが更新されたドメインに対応するドメイングラフを、更新したドメインキーワードのセットに基づいて更新するようにグラフ生成部221を指示する。ここで、グラフ生成部221は、更新したドメインキーワードのセットに基づいて、新たなノードやエッジをドメイングラフに追加したり、既存のノードやエッジを削除したり、各ノードのノードスコアや各エッジのエッジスコアを再度計算したりしてもよい。
Thereafter, the updating
以上説明したように、本開示の実施形態に係る更新処理700によれば、キーワード管理DB231に格納されているドメインキーワードのセットを更新すると共に、当該ドメインキーワードのセットに対応するドメイングラフを更新することができる。これにより、特定のドメインの進歩によるドメインキーワードの変化の反映や、ユーザの目的や価値観に適したドメインキーワードの設定が可能となり、類似度判定の精度を向上させることができる。
As explained above, according to the
次に、図8を参照して、本開示の実施形態に係るキーワード管理画面について説明する。 Next, with reference to FIG. 8, a keyword management screen according to an embodiment of the present disclosure will be described.
図8は、本開示の実施形態に係るキーワード管理画面800の一例を示す図である。このキーワード管理画面800によれば、ユーザは、類似度判定装置210のキーワード管理部DB231に格納されるドメインキーワードを登録したり更新したりすることができる。ある実施形態では、このキーワード管理画面800は、例えば入出力部246によって生成され、ユーザ端末260に提示されるユーザインターフェースの画面であってもよい。
FIG. 8 is a diagram illustrating an example of a
図8に示すように、キーワード管理画面800は、新ドメイン登録ウィンドウ810と、ドメインキーワード更新ウィンドウ820とを含んでもよい。
As shown in FIG. 8, the
新ドメイン登録ウィンドウ810では、ユーザは、新たなドメインをキーワード管理部DB231に登録することができる。例えば、ユーザは、「建築」とのドメイン名を新ドメイン登録ウィンドウ810の入力エリア811において入力し、確定ボタン812を押すことで、「建築」との新たなドメイン名をドメインをキーワード管理部DB231に登録することができる。
In the new
ドメインキーワード更新ウィンドウ820では、ユーザは、登録済みのドメイン(例えば新ドメイン登録ウィンドウ810で登録したドメイン)について、新たなドメインキーワードの追加、既存のドメインキーワードの削除、又は既存のドメインキーワードの変更等を行うことができる。例えば、ユーザは、ドメイン選択ウィンドウ821で特定のドメイン名を選択した後、当該ドメインについて追加、削除、又は変更したドメインキーワードをドメインキーワード入力ウィンドウ822において入力することができる。その後、確定ボタン823を押すことで、ユーザは、ドメインキーワード入力ウィンドウ822に入力したドメインキーワードに対して行いたいアクション(追加、削除、又は変更)を選択することができる。更に、ユーザは、ドメイングラフ更新824を押すことで、更新要求を入力し、図7に示す更新処理を実施することができる。
In the domain
以上説明したキーワード管理画面800では、ユーザは、キーワード管理部DB231に格納されるドメインキーワードを容易に管理することができる。
On the
次に、図9を参照して、本開示の実施形態に係る文章管理画面について説明する。 Next, with reference to FIG. 9, a text management screen according to an embodiment of the present disclosure will be described.
図9は、本開示の実施形態に係る文章管理画面900の一例を示す図である。この文章管理画面900によれば、ユーザは、特定の文章と類似している他の文章を検索したり、2つの文章を比較(類似度判定)したりすることができる。ある実施形態では、この文章管理画面900は、例えば入出力部246によって生成され、ユーザ端末260に提示されるユーザインターフェースの画面であってもよい。
FIG. 9 is a diagram illustrating an example of a
図9に示すように、文章管理画面900は、類似文章検索ウィンドウ910と、文章比較ウィンドウ920とを含んでもよい。
As shown in FIG. 9, the
類似文章検索ウィンドウ910では、ユーザは、特定の文章と類似している他の文章を検索することができる。例えば、ユーザは、「物理学」とのドメイン名を類似文章検索ウィンドウ910のドメイン選択ウィンドウ911において入力し、「物理学の法則」との文章をファイル入力ウィンドウ912において入力し、確定ボタン913を押すことで、本開示の実施形態に係るグラフ比較処理600を実施し、「物理学の法則」との類似度が高い文章をドメイングラフDB232の中から検索することができる。
Similar
文章比較ウィンドウ920では、ユーザは、2つの特定の文章を比較することができる。例えば、ユーザは、「建築」とのドメイン名を文章比較ウィンドウ920のドメイン選択ウィンドウ921において入力し、「古代ローマの建築」との文章を第1のファイル入力ウィンドウ922において入力し、「古代ギリシアの建築」との文章を第2のファイル入力ウィンドウ923において入力し、比較ボタン924を押すことで、本開示の実施形態に係るグラフ比較処理600を実施し、「古代ローマの建築」と「古代ギリシアの建築」との類似度を判定することができる。
以上説明した文章管理画面900では、ユーザは、所定の文章間の類似度を容易に判定することができる。
On the
次に、図10を参照して、本開示の実施形態に係る多ドメイン管理処理について説明する。 Next, with reference to FIG. 10, multi-domain management processing according to an embodiment of the present disclosure will be described.
一般に、複数の異なるドメインに関連する文章が存在する。従って、本開示の一態様は、複数の異なるドメインに関連する文章についても高精度の類似度判定結果を提供するためには、所定の文章との対応性が高いドメインを判定し、判定したドメインのドメインキーワードを用いてドメイングラフを生成するための多ドメイン管理処理に関する。図10は、本開示の実施形態に係る多ドメイン管理処理1000の流れの一例を示す図である。この多ドメイン管理処理1000は、主に類似度判定装置210のグラフ生成部221によって実施される。
Generally, there are texts related to several different domains. Therefore, in order to provide highly accurate similarity determination results even for sentences related to a plurality of different domains, one aspect of the present disclosure is to determine a domain that has a high degree of correspondence with a predetermined sentence, This invention relates to multi-domain management processing for generating a domain graph using domain keywords. FIG. 10 is a diagram illustrating an example of the flow of
まず、ステップS1010では、グラフ生成部221は、類似度判定が希望される第2の文章の入力を受け付けた後、この第2の文章との対応性が高いドメインを判定する。
より具体的には、グラフ生成部221は、第2の文章の、キーワード管理DB231に格納されている各ドメインキーワードのセットに対する関連度を示すドメインスコアを計算する。ある実施形態では、グラフ生成部221は、各ドメインキーワードのセットの内、第2の文章に含まれるドメインキーワードの割合に基づいてドメインスコアを計算してもよい。
First, in step S1010, the
More specifically, the
一例として、キーワード管理DB231は、「物理学者」との第1のドメインに対応する第1のドメインキーワードのセットと、「化学者」との第2のドメインに対応する第2のドメインキーワードのセットとを格納しているとする。また、グラフ生成部221は、物理学者、化学者、生物学者等、様々な科学分野の化学者に関する「有名な科学者」との第2の文章の入力を受け付けるとする。
この場合、グラフ生成部221は、「有名な科学者」との第2の文章の、「物理学者」との第1のドメインに対する関連度を示す第1のドメインスコアと、「化学者」との第2のドメインに対する関連度を示す第2のドメインスコアとを計算する。
As an example, the
In this case, the
例えば、「物理学者」との第1のドメインに対応する第1のドメインキーワードのセットの内の70%のドメインキーワードが「有名な科学者」との第2の文章に含まれている場合、グラフ生成部221は、「有名な科学者」との第2の文章の、「物理学者」との第1のドメインに対する第1のドメインスコアを「70%」としてもよい。
また、「化学者」との第2のドメインに対応する第2のドメインキーワードのセットの内の30%のドメインキーワードが「有名な科学者」との第2の文章に含まれている場合、グラフ生成部221は、「有名な科学者」との第2の文章の、「化学者」との第2のドメインに対する第2のドメインスコアを「30%」としてもよい。
このように、グラフ生成部221は、第2の文章に含まれている各ドメインキーワードのセットの割合に基づいて、第2の文章の、キーワード管理DB231に格納されている各ドメインキーワードのセットに対する関連度を示すドメインスコアを計算することができる。
For example, if 70% of the domain keywords in the set of first domain keywords corresponding to the first domain with "physicist" are included in the second sentence with "famous scientist", The
Furthermore, if 30% of the domain keywords of the set of second domain keywords corresponding to the second domain with "chemist" are included in the second sentence with "famous scientist", The
In this way, the
次に、ステップS1020では、グラフ生成部221は、ステップS1010で計算したドメインスコアに基づいて、適切なドメインキーワードのセットをキーワード管理DB231から取得する。ある実施形態では、グラフ生成部221は、各ドメインについて計算したドメインスコアの関係と、予め定まったドメインスコア閾値とに基づいて適切なドメインキーワードのセットを取得してもよい。
より具体的には、グラフ生成部221は、第2の文章の第1のドメインに対する関連度を示す第1のドメインスコアが、第2の文章の第2のドメインに対する関連度を示す第2のドメインスコアを超え、且つ、所定のドメインスコア閾値(例えば、50%)を満たす場合、第1のドメインに対応する第1のドメインキーワードのセットをキーワード管理DB231から取得してもよい。
一方、グラフ生成部221は、第2の文章の第2のドメインに対する関連度を示す第2のドメインスコアが、第2の文章の第1のドメインに対する関連度を示す第1のドメインスコアを超え、且つ、所定のドメインスコア閾値(例えば、50%)を満たす場合、第2のドメインに対応する第2のドメインキーワードのセットをキーワード管理DB231から取得してもよい。
Next, in step S1020, the
More specifically, the
On the other hand, the
次に、ステップS1030では、グラフ生成部221は、ステップS1020で取得したドメインキーワードを用いて、第2の文章に対応する正規化済みの第2のドメイングラフを生成する。
なお、正規化済みの第2のドメイングラフを生成する処理の詳細については、図6を参照して説明したため、ここではその説明を省略する。
Next, in step S1030, the
Note that the details of the process of generating the normalized second domain graph have been described with reference to FIG. 6, so the description thereof will be omitted here.
以上説明した多ドメイン管理処理1000によれば、所定の文章が複数のドメインに関連する場合であっても、当該文章に対応するドメイングラフを生成するための適切なドメインキーワードを判定することができる。また、これにより、類似度判定の精度を向上させることができる。
According to the
次に、図11を参照して、本開示の実施形態に係る類似度判定の具体例について説明する。 Next, a specific example of similarity determination according to the embodiment of the present disclosure will be described with reference to FIG. 11.
図11は、本開示の実施形態に係る2つのドメイングラフに対する類似度判定の具体例を示す図である。図11には、ドメイングラフAと、ドメイングラフBとの2つのドメイングラフについて、ノードスコア、正規化済みのノードスコア、エッジ重み及び正規化済みのエッジ重み等のパラメータが示されている。 FIG. 11 is a diagram illustrating a specific example of similarity determination for two domain graphs according to an embodiment of the present disclosure. FIG. 11 shows parameters such as node scores, normalized node scores, edge weights, and normalized edge weights for two domain graphs, domain graph A and domain graph B.
より具体的には、ドメイングラフAにおけるノードは、fA(N)={3、2、1、4}とのノードスコアに対応付けられている。各ノードスコアを、当該ドメイングラフのノードスコアの和(3+2+1+4=10)で割り算することで、正規化したノードスコアfA(NS)={0.3、0.2、0.1、0.4}を得ることができる。
同様に、ドメイングラフBにおけるノードは、fB(N)={3、2、1、4}とのノードスコアに対応付けられている。各ノードスコアを、当該ドメイングラフのノードスコアの和(3+2+1+4=10)で割り算することで、正規化したノードスコアfB(NS)={0.3、0.2、0.1、0.4}を得ることができる。
More specifically, nodes in domain graph A are associated with node scores of f A (N)={3, 2, 1, 4}. By dividing each node score by the sum of the node scores of the domain graph (3+2+1+4=10), the normalized node score f A (NS)={0.3, 0.2, 0.1, 0. 4} can be obtained.
Similarly, nodes in domain graph B are associated with node scores of f B (N)={3, 2, 1, 4}. By dividing each node score by the sum of the node scores of the domain graph (3+2+1+4=10), the normalized node score f B (NS)={0.3, 0.2, 0.1, 0. 4} can be obtained.
また、図11は、ドメイングラフAにおける各ノード間の接続数fA(L)を表1105に示し、ドメイングラフBにおける各ノード間の接続数fB(L)を表1110に示す。これらの接続数の逆を取ることで、ドメイングラフA及びドメイングラフBのエッジ重みEijを計算することができる。
また、上述した数式3を用いることで、ドメイングラフAの正規化したエッジ重みNEijを計算することができる。ドメイングラフAの正規化したエッジ重みは、表1115に示され、ドメイングラフBの正規化したエッジ重みは、表1120に示される。
Further, in FIG. 11, the number of connections f A (L) between each node in domain graph A is shown in table 1105, and the number of connections f B (L) between each node in domain graph B is shown in table 1110. By taking the inverse of these connections, the edge weights E ij of domain graph A and domain graph B can be calculated.
Further, by using
以上説明したドメイングラフAの正規化したノードスコアfA(NS)と、ドメイングラフBの正規化したノードスコアfB(NS)を数式5に代入することで、ドメイングラフAとドメイングラフBとのCNSを計算することができる。今回の場合、ドメイングラフAの正規化したノードスコアfA(NS)と、ドメイングラフBの正規化したノードスコアfB(NS)とが同一であるため、数式5は、(1-0=1)となる。 By substituting the normalized node score f A (NS) of domain graph A and the normalized node score f B (NS) of domain graph B explained above into Equation 5, domain graph A and domain graph B can be The CNS of can be calculated. In this case, since the normalized node score f A (NS) of domain graph A and the normalized node score f B (NS) of domain graph B are the same, Equation 5 can be expressed as (1-0= 1).
また、以上説明したドメイングラフA及びドメイングラフBの正規化エッジ重みを数式6に代入することで、ドメイングラフAとドメイングラフBとのRSを計算することができる。今回の場合、数式6は、(1-0.2163=0.7837)となる。
Further, by substituting the normalized edge weights of domain graph A and domain graph B described above into
そして、計算したCNS及びRSを数式7に代入することで、ドメイングラフAとドメイングラフBとの類似度を計算することができる。今回の場合、数式7による計算の結果、ドメイングラフAとドメイングラフBとの類似度が「89.185%」となる。 Then, by substituting the calculated CNS and RS into Equation 7, the degree of similarity between domain graph A and domain graph B can be calculated. In this case, as a result of calculation using Equation 7, the degree of similarity between domain graph A and domain graph B is "89.185%."
このように、文章をドメイングラフとして表現し、これらのドメイングラフを比較することで、2つの文章間の類似度を高精度且つ高速に判定することが可能となる。 In this way, by representing sentences as domain graphs and comparing these domain graphs, it becomes possible to determine the degree of similarity between two sentences with high precision and at high speed.
以上、本開示の実施形態に係る類似度判定手段について説明した。
上述したように、本開示の一態様は、文章をドメイングラフとして表現することに関する。これにより、文章のテキストをそのまま比較した場合に比べて、文章の単語間の意味的関係を表現することができるため、類似度判定の精度を向上させることができる。
The similarity determination means according to the embodiment of the present disclosure has been described above.
As mentioned above, one aspect of the present disclosure relates to representing sentences as domain graphs. This makes it possible to express the semantic relationships between the words of the sentences compared to the case where the texts of the sentences are compared as they are, thereby improving the accuracy of similarity determination.
しかし、上述したように、文章全体をドメイングラフとして表現する従来の手段では、文章に含まれる全ての単語がノードとして表現されるため、文章が長い場合、ノードやエッジの数が膨大となり、グラフに対する比較などの処理が遅なるという課題がある。
そこで、本開示の一態様は、文章全体ではなく、文章における特定のキーワードのみをノードとして表現するドメイングラフを生成することに関する。これにより、章全体をドメイングラフとして表現する従来の手段などに比べて、グラフの規模を抑えることができる。また、グラフの規模を抑えることで、グラフに対する比較などの処理の所要時間を短縮させ、高速な類似度判定が可能となる。
However, as mentioned above, in the conventional means of representing the entire sentence as a domain graph, all words included in the sentence are represented as nodes, so if the sentence is long, the number of nodes and edges becomes enormous, and the graph There is a problem that processing such as comparisons between the two files is delayed.
Therefore, one aspect of the present disclosure relates to generating a domain graph that expresses only specific keywords in a sentence as nodes instead of the entire sentence. This makes it possible to reduce the size of the graph compared to conventional methods that express the entire chapter as a domain graph. In addition, by reducing the scale of the graph, the time required for processing such as comparing the graphs can be shortened, and high-speed similarity determination can be made.
ただし、文章全体ではなく、文章における特定のキーワードのみに基づいてドメイングラフを生成した場合、文章全体をドメイングラフとして表現した場合に比べて、情報のロスが発生する可能性がある。
そこで、本開示の一態様では、ドメイングラフにおける各ノードは、当該ノードに対応するドメインキーワードの重要性を示すノードスコアに対応付けられ、各エッジは、当該エッジが接続するノード間の関連度を示すエッジ重みに対応付けられる。
これにより、文章全体をドメイングラフとして表現しなくても、文章において特に重要なキーワードに関する意味的情報を維持し、情報ロスを抑えることができる。
However, if a domain graph is generated based only on specific keywords in the text rather than the entire text, information loss may occur compared to when the entire text is represented as a domain graph.
Therefore, in one aspect of the present disclosure, each node in the domain graph is associated with a node score that indicates the importance of the domain keyword corresponding to the node, and each edge is associated with a degree of association between the nodes that the edge connects. is associated with the edge weight shown.
As a result, even if the entire text is not expressed as a domain graph, it is possible to maintain semantic information regarding particularly important keywords in the text and suppress information loss.
更に、本開示の一態様では、ドメイングラフにおける各ノードスコア及びエッジ重みを正規化した正規化済みのドメイングラフを生成することに関する。このように、ドメイングラフを正規化することで、ドメイングラフを比較する際、ドメイングラフの大きさの相違に起因する類似度判定の低下を防ぐことができる。 Further, one aspect of the present disclosure relates to generating a normalized domain graph in which each node score and edge weight in the domain graph are normalized. By normalizing domain graphs in this way, when comparing domain graphs, it is possible to prevent a decrease in similarity determination due to a difference in the size of domain graphs.
以上説明した本開示の実施形態に係る類似度判定手段を、例えばサイバーイベントに関するレポートに適用した場合、特定のレポートとの類似度が高い既存のレポートを特定することができる。新たなレポートとの類似度が所定の類似度基準を満たす既存のレポートが存在する場合、当該レポートで報告されるサイバーイベントが既に対応済み又は対応中であると見なし、対策を再度策定するために必要な時間やリソースを節約することができる。一方、新たなレポートとの類似度が所定の類似度基準を満たす既存のレポートが存在しない場合、当該レポートで報告されるサイバーイベントが未対応であり、新たな対策を策定する必要がると判定することができる。
このように、レポートで報告されるサイバーイベントが既に対応済み又は対応中か、未対応かを高精度で判定することができる。また、本開示の実施形態に係る類似度判定の際に用いられるドメイングラフは、予め定めた特定のキーワードのみに基づいたドメイングラフであるため、レポートの類似度を示す比較結果を高速に生成することができる。このため、サイバーイベントに対する迅速な対策策定が可能となる。
When the similarity determination means according to the embodiment of the present disclosure described above is applied to, for example, a report regarding a cyber event, it is possible to specify an existing report that has a high degree of similarity to a specific report. If there is an existing report that satisfies the predetermined similarity criteria with respect to the new report, the cyber event reported in that report will be considered to have already been responded to or is being responded to, and measures will be taken to formulate the countermeasures again. It can save you time and resources. On the other hand, if there is no existing report that satisfies the predetermined similarity criteria with respect to the new report, it is determined that the cyber event reported in the report has not been addressed and new countermeasures need to be developed. can do.
In this way, it is possible to determine with high accuracy whether the cyber event reported in the report has already been handled, is currently being handled, or has not been handled yet. Furthermore, since the domain graph used in determining the degree of similarity according to the embodiment of the present disclosure is a domain graph based only on specific predetermined keywords, comparison results indicating the degree of similarity of reports can be generated at high speed. be able to. This makes it possible to quickly formulate countermeasures against cyber events.
このように、本開示によれば、文章における要素間の関係情報を維持しつつ、文章に対応するグラフ表現の規模を抑えることで、高速且つ高精度な文章類似度比較が可能な類似度判定手段を提供することができる。 As described above, according to the present disclosure, similarity determination enables high-speed and highly accurate text similarity comparison by suppressing the scale of the graph representation corresponding to the text while maintaining relationship information between elements in the text. means can be provided.
以上では、本開示の実施形態に係る類似度判定手段を装置、システム及び方法で実装する場合を一例として説明したが、本開示はこれに限定されず、例えば、コンピュータプログラムとして実装されてもよい。このコンピュータプログラムは、外部装置の記憶媒体からネットワーク経由、及び/又は、可搬型記憶媒体経由で、本開示の実施形態に係る類似度判定手段を実装するコンピュータシステムに導入されてもよい。 Above, the case where the similarity determination means according to the embodiment of the present disclosure is implemented as an apparatus, system, and method has been described as an example, but the present disclosure is not limited to this, and may be implemented as a computer program, for example. . This computer program may be introduced into a computer system implementing the similarity determination means according to the embodiment of the present disclosure from a storage medium of an external device via a network and/or a portable storage medium.
例えば、本開示の実施形態に係る一態様は、類似度判定コンピュータプログラムであって、処理命令を格納するメモリと、プロセッサとを含むコンピュータシステムにおいて、前記メモリに格納されている前記処理命令は、第1のドメインに対応する第1のドメインキーワードのセットを取得する工程と、前記第1のドメインに対応する第1の文章について、前記第1のドメインキーワードのセットに基づいて生成される正規化済みの第1のドメイングラフを生成するする工程と、前記第1のドメインキーワードのセットに基づいて、前記第1のドメインに対応する第2の文章に含まれる第1のドメインキーワードのサブセットを特定する工程と、特定した前記第1のドメインキーワードのサブセットの前記第2の文章における出現回数を判定する工程と、前記第1のドメインキーワードのサブセットに基づいて、少なくとも第1のノードと第2のノードとを含む第1のノードセットを生成する工程と、判定した前記出現回数に基づいて、前記第1のノードセットに含まれる各ノードの前記第2の文章における重要性を示すノードスコアを計算する工程と、前記第2の文章に基づいて、前記第1のノードセットに含まれる各ノードの意味的関係を示す知識グラフを生成する工程と、前記第1のノードと前記第2のノードの、前記知識グラフにおける最短距離を判定する工程と、判定した前記最短距離に基づいて、前記第1のノードと前記第2のノードとの関連度を示すエッジ重みを計算する工程と、前記第1のノードと前記第2のノードとの関係を示し、前記エッジ重みに対応付けられたエッジを生成する工程と、前記第1のノードセットと、前記ノードスコアと、前記エッジ重みと、前記エッジとに基づいて、前記第2の文章に対応する第2のドメイングラフを生成する工程と、前記ノードスコアと前記エッジ重みを正規化した正規化済みの第2のドメイングラフを生成する工程と、前記正規化済みの第1のドメイングラフと前記正規化済みの第2のドメイングラフとを比較することで、前記正規化済みの第1のドメイングラフと前記正規化済みの第2のドメイングラフとの類似度を示す比較結果を生成し、出力する工程とを前記プロセッサに実行させることを特徴とする類似度判定コンピュータプログラムである。 For example, one aspect according to an embodiment of the present disclosure is a computer program for determining similarity, in a computer system including a memory for storing processing instructions and a processor, in which the processing instructions stored in the memory include: obtaining a first set of domain keywords corresponding to a first domain; and normalizing a first sentence corresponding to the first domain based on the first set of domain keywords. and identifying a subset of first domain keywords included in a second sentence corresponding to the first domain based on the set of first domain keywords. determining the number of occurrences of the identified subset of first domain keywords in the second sentence; and calculating a node score indicating the importance of each node included in the first node set in the second sentence based on the determined number of occurrences. a step of generating a knowledge graph indicating a semantic relationship between each node included in the first node set based on the second sentence; , a step of determining the shortest distance in the knowledge graph; a step of calculating an edge weight indicating the degree of association between the first node and the second node based on the determined shortest distance; the first node set, the node score, the edge weight, and the edge; a step of generating a second domain graph corresponding to the second sentence based on the second sentence; a step of generating a normalized second domain graph in which the node score and the edge weight are normalized; By comparing the normalized first domain graph and the normalized second domain graph, the difference between the normalized first domain graph and the normalized second domain graph is determined. The computer program for determining similarity is characterized by causing the processor to execute the steps of generating and outputting a comparison result indicating the degree of similarity.
以上、本発明の実施の形態について説明したが、本発明は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。 Although the embodiments of the present invention have been described above, the present invention is not limited to the embodiments described above, and various changes can be made without departing from the gist of the present invention.
150 類似度判定アプリケーション
200 類似度判定システム
210 類似度判定装置
220 メモリ
221 グラフ生成部
222 類似度判定部
223 更新部
230 記憶部
231 キーワード管理DB
232 ドメイングラフDB
244 プロセッサ
246 入出力部
250 通信ネットワーク
260 ユーザ端末
150
232 Domain graph DB
Claims (8)
プロセッサとメモリとを備え、
前記メモリは、
第1のドメインに対応する第1のドメインキーワードのセットを格納するキーワード管理データベースと、
前記第1のドメインに対応する第1の文章について、前記第1のドメインキーワードのセットに基づいて生成される第1のドメイングラフを格納するドメイングラフデータベースと、
前記第1のドメインキーワードのセットに基づいて、前記第1のドメインに対応する第2の文章について第2のドメイングラフを生成するグラフ生成部と、
前記第1のドメイングラフと前記第2のドメイングラフとを比較することで、前記第1のドメイングラフと前記第2のドメイングラフとの類似度を示す比較結果を生成する類似度判定部、
として前記プロセッサを機能させるための処理命令を含むことを特徴とする類似度判定装置。 A similarity determination device,
Equipped with a processor and memory,
The memory is
a keyword management database storing a set of first domain keywords corresponding to the first domain;
a domain graph database that stores a first domain graph generated based on the first domain keyword set for a first sentence corresponding to the first domain;
a graph generation unit that generates a second domain graph for a second sentence corresponding to the first domain based on the first domain keyword set;
a similarity determination unit that generates a comparison result indicating the degree of similarity between the first domain graph and the second domain graph by comparing the first domain graph and the second domain graph;
A similarity determination device comprising a processing instruction for causing the processor to function as a similarity determination device.
前記第1のドメインキーワードのセットに基づいて、前記第2の文章に含まれる第1のドメインキーワードのサブセットを特定し、
特定した前記第1のドメインキーワードのサブセットの前記第2の文章における出現回数を判定し、
前記第1のドメインキーワードのサブセットに基づいて、少なくとも第1のノードと第2のノードとを含む第1のノードセットを生成し、
判定した前記出現回数に基づいて、前記第1のノードセットに含まれる各ノードの前記第2の文章における重要性を示すノードスコアを計算する、
ことを特徴とする、請求項1に記載の類似度判定装置。 The graph generation unit is
identifying a subset of first domain keywords included in the second sentence based on the first set of domain keywords;
determining the number of occurrences of the identified subset of first domain keywords in the second sentence;
generating a first node set including at least a first node and a second node based on the first subset of domain keywords;
calculating a node score indicating the importance of each node included in the first node set in the second sentence based on the determined number of occurrences;
The similarity determination device according to claim 1, characterized in that:
前記第2の文章に基づいて、前記第1のノードセットに含まれる各ノードの意味的関係を示す知識グラフを生成し、
前記第1のノードと前記第2のノードの、前記知識グラフにおける最短距離を判定し、
判定した前記最短距離に基づいて、前記第1のノードと前記第2のノードとの関連度を示すエッジ重みを計算し、
前記第1のノードと前記第2のノードとの関係を示し、前記エッジ重みに対応付けられたエッジを生成する、
ことを特徴とする、請求項2に記載の類似度判定装置。 The graph generation unit is
generating a knowledge graph indicating a semantic relationship between each node included in the first node set based on the second sentence;
determining the shortest distance between the first node and the second node in the knowledge graph;
Based on the determined shortest distance, calculate an edge weight indicating the degree of association between the first node and the second node;
indicating a relationship between the first node and the second node, and generating an edge associated with the edge weight;
The similarity determination device according to claim 2, characterized in that:
前記ノードスコアと前記エッジ重みを正規化した正規化済みの第2のドメイングラフを生成する、
ことを特徴とする、請求項3に記載の類似度判定装置。 generating the second domain graph corresponding to the second sentence based on the first node set, the node score, the edge weight, and the edge;
generating a normalized second domain graph in which the node scores and the edge weights are normalized;
The similarity determination device according to claim 3, characterized in that:
前記第1のドメインに対応する前記第1のドメインキーワードのセットに加えて、第2のドメインに対応する第2のドメインキーワードのセットを含み、
前記グラフ生成部は、
前記第2の文章の前記第1のドメインに対する関連度を示す第1のドメインスコアを計算し、
前記第2の文章の前記第2のドメインに対する関連度を示す第2のドメインスコアを計算し、
前記第1のドメインスコアが前記第2のドメインスコアを超え、且つ、所定のドメインスコア閾値を満たす場合、前記第1のドメインキーワードのセットに基づいて前記第2のドメイングラフを生成し、
前記第2のドメインスコアが前記第1のドメインスコアを超え、且つ、所定のドメインスコア閾値を満たす場合、前記第2のドメインキーワードのセットに基づいて前記第2のドメイングラフを生成する、
ことを特徴とする、請求項1に記載の類似度判定装置。 The keyword management database is
a second set of domain keywords corresponding to a second domain in addition to the first set of domain keywords corresponding to the first domain;
The graph generation unit is
calculating a first domain score indicating the degree of relevance of the second sentence to the first domain;
calculating a second domain score indicating the degree of relevance of the second sentence to the second domain;
if the first domain score exceeds the second domain score and satisfies a predetermined domain score threshold, generating the second domain graph based on the first set of domain keywords;
generating the second domain graph based on the set of second domain keywords if the second domain score exceeds the first domain score and satisfies a predetermined domain score threshold;
The similarity determination device according to claim 1, characterized in that:
前記更新要求に示されるドメインキーワードの追加又は削除に基づいて前記第2のドメイングラフを更新する更新部を更に含む、
ことを特徴とする、請求項1に記載の類似度判定装置。 When an update request requesting addition or deletion of a domain keyword to the first set of domain keywords is received from a user,
further comprising an update unit that updates the second domain graph based on addition or deletion of the domain keyword indicated in the update request;
The similarity determination device according to claim 1, characterized in that:
類似度判定装置は、
プロセッサとメモリとを備え、
前記メモリは、
第1のドメインに対応する第1のドメインキーワードのセットを格納するキーワード管理データベースと、
前記第1のドメインに対応する第1の文章について、前記第1のドメインキーワードのセットに基づいて生成される第1のドメイングラフを格納するドメイングラフデータベースと、
前記第1のドメインに対応する第2の文章を前記ユーザ端末から取得する入出力部と、
前記第1のドメインキーワードのセットに基づいて、前記第2の文章について第2のドメイングラフを生成するグラフ生成部と、
前記第1のドメイングラフと前記第2のドメイングラフとを比較することで、前記第1のドメイングラフと前記第2のドメイングラフとの類似度を示す比較結果を生成し、前記ユーザ端末に送信する類似度判定部、
として前記プロセッサを機能させるための処理命令を含むことを特徴とする類似度判定システム。 In a similarity determination system in which a user terminal and a similarity determination device are connected via a communication network,
The similarity determination device is
Equipped with a processor and memory,
The memory is
a keyword management database storing a set of first domain keywords corresponding to the first domain;
a domain graph database that stores a first domain graph generated based on the first domain keyword set for a first sentence corresponding to the first domain;
an input/output unit that acquires a second sentence corresponding to the first domain from the user terminal;
a graph generation unit that generates a second domain graph for the second sentence based on the first set of domain keywords;
By comparing the first domain graph and the second domain graph, a comparison result indicating the degree of similarity between the first domain graph and the second domain graph is generated and transmitted to the user terminal. a similarity determination unit that
A similarity determination system comprising processing instructions for causing the processor to function as a system.
第1のドメインに対応する第1のドメインキーワードのセットを取得する工程と、
前記第1のドメインに対応する第1の文章について、前記第1のドメインキーワードのセットに基づいて生成される正規化済みの第1のドメイングラフを生成するする工程と、
前記第1のドメインキーワードのセットに基づいて、前記第1のドメインに対応する第2の文章に含まれる第1のドメインキーワードのサブセットを特定する工程と、
特定した前記第1のドメインキーワードのサブセットの前記第2の文章における出現回数を判定する工程と、
前記第1のドメインキーワードのサブセットに基づいて、少なくとも第1のノードと第2のノードとを含む第1のノードセットを生成する工程と、
判定した前記出現回数に基づいて、前記第1のノードセットに含まれる各ノードの前記第2の文章における重要性を示すノードスコアを計算する工程と、
前記第2の文章に基づいて、前記第1のノードセットに含まれる各ノードの意味的関係を示す知識グラフを生成する工程と、
前記第1のノードと前記第2のノードの、前記知識グラフにおける最短距離を判定する工程と、
判定した前記最短距離に基づいて、前記第1のノードと前記第2のノードとの関連度を示すエッジ重みを計算する工程と、
前記第1のノードと前記第2のノードとの関係を示し、前記エッジ重みに対応付けられたエッジを生成する工程と、
前記第1のノードセットと、前記ノードスコアと、前記エッジ重みと、前記エッジとに基づいて、前記第2の文章に対応する第2のドメイングラフを生成する工程と、
前記ノードスコアと前記エッジ重みを正規化した正規化済みの第2のドメイングラフを生成する工程と、
前記正規化済みの第1のドメイングラフと前記正規化済みの第2のドメイングラフとを比較することで、前記正規化済みの第1のドメイングラフと前記正規化済みの第2のドメイングラフとの類似度を示す比較結果を生成し、出力する工程と、
を含むことを特徴とする類似度判定方法。 A similarity determination method,
obtaining a set of first domain keywords corresponding to the first domain;
generating a normalized first domain graph generated based on the set of first domain keywords for a first sentence corresponding to the first domain;
identifying a subset of first domain keywords included in a second sentence corresponding to the first domain based on the first set of domain keywords;
determining the number of occurrences of the identified subset of first domain keywords in the second sentence;
generating a first node set including at least a first node and a second node based on the first subset of domain keywords;
Calculating a node score indicating the importance of each node included in the first node set in the second sentence based on the determined number of occurrences;
generating a knowledge graph indicating a semantic relationship between each node included in the first node set based on the second sentence;
determining the shortest distance between the first node and the second node in the knowledge graph;
calculating an edge weight indicating a degree of association between the first node and the second node based on the determined shortest distance;
a step of indicating a relationship between the first node and the second node and generating an edge associated with the edge weight;
generating a second domain graph corresponding to the second sentence based on the first node set, the node score, the edge weight, and the edge;
generating a normalized second domain graph in which the node scores and the edge weights are normalized;
By comparing the normalized first domain graph and the normalized second domain graph, the normalized first domain graph and the normalized second domain graph are a step of generating and outputting a comparison result indicating the degree of similarity;
A similarity determination method characterized by comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022146140A JP2024041369A (en) | 2022-09-14 | 2022-09-14 | Similarity determination device, similarity determination system, and similarity determination method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022146140A JP2024041369A (en) | 2022-09-14 | 2022-09-14 | Similarity determination device, similarity determination system, and similarity determination method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2024041369A true JP2024041369A (en) | 2024-03-27 |
Family
ID=90417076
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022146140A Pending JP2024041369A (en) | 2022-09-14 | 2022-09-14 | Similarity determination device, similarity determination system, and similarity determination method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2024041369A (en) |
-
2022
- 2022-09-14 JP JP2022146140A patent/JP2024041369A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9318027B2 (en) | Caching natural language questions and results in a question and answer system | |
US11264023B2 (en) | Using multiple modality input to feedback context for natural language understanding | |
Chen et al. | Similartech: automatically recommend analogical libraries across different programming languages | |
US11366840B2 (en) | Log-aided automatic query expansion approach based on topic modeling | |
CN110945500A (en) | Key value memory network | |
US10191946B2 (en) | Answering natural language table queries through semantic table representation | |
US9697099B2 (en) | Real-time or frequent ingestion by running pipeline in order of effectiveness | |
US11681876B2 (en) | Cascaded fact-based summarization | |
US10083398B2 (en) | Framework for annotated-text search using indexed parallel fields | |
US20180189307A1 (en) | Topic based intelligent electronic file searching | |
JP2022031625A (en) | Method and device for pushing information, electronic device, storage medium, and computer program | |
US20160019462A1 (en) | Predicting and Enhancing Document Ingestion Time | |
JP2017097823A (en) | Search server, terminal equipment, and search method to be used for distributed network | |
CN114547257B (en) | Class matching method and device, computer equipment and storage medium | |
CN115049508A (en) | Page generation method and device, electronic equipment and storage medium | |
CN110309278B (en) | Keyword retrieval method, device, medium and electronic equipment | |
JP6674172B2 (en) | Topic estimation device, topic estimation method, and program | |
JP2008268985A (en) | Method for attaching tag | |
US20200210489A1 (en) | Extended query performance prediction framework utilizing passage-level information | |
JP6805927B2 (en) | Index generator, data search program, index generator, data search device, index generation method, and data search method | |
US9286349B2 (en) | Dynamic search system | |
JP2024041369A (en) | Similarity determination device, similarity determination system, and similarity determination method | |
Cha et al. | Topic model based approach for improved indexing in content based document retrieval | |
JP2012003603A (en) | Information retrieval system | |
US20190095538A1 (en) | Method and system for generating content from search results rendered by a search engine |