JP2018180866A - Determination method, determination program and determination device - Google Patents
Determination method, determination program and determination device Download PDFInfo
- Publication number
- JP2018180866A JP2018180866A JP2017078509A JP2017078509A JP2018180866A JP 2018180866 A JP2018180866 A JP 2018180866A JP 2017078509 A JP2017078509 A JP 2017078509A JP 2017078509 A JP2017078509 A JP 2017078509A JP 2018180866 A JP2018180866 A JP 2018180866A
- Authority
- JP
- Japan
- Prior art keywords
- document
- category
- similarity
- similarity index
- documents
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
本発明は、クラスタリングのために文書内容を判別する判別方法等に関する。 The present invention relates to a determination method and the like for determining document contents for clustering.
2つの文書の類似度を求める技術が提案されている(特許文献1等)。類似度は文書に含まれる単語の類似度合いを数値にした類似度指標により判定する。
A technique for obtaining the degree of similarity between two documents has been proposed (
しかし、特許文献1等の類似度指標は、文書のカテゴリによって、類似度指標を変えることはできない。そのため、文書のカテゴリによっては、類似度指標の精度が低下するという問題がある。
However, the similarity index of
1つの側面では、文書のカテゴリに適した類似度指標を判別する判別方法等を提供することである。 One aspect is to provide a determination method or the like for determining a similarity index suitable for a category of a document.
本願に開示する判定方法は、コンピュータが、文書中のメンションが知識ベース中のカテゴリ情報を持つエンティティと対応付けられた文書を取得し、取得した文書を対応付けられた前記カテゴリ毎に分類した文書グループを生成し、生成した文書グループ毎に、同一の前記メンションが対応付けられた前記文書を含む文書対を生成し、生成した文書対に対して、前記エンティティが一致するか否かのラベルを付与し、ラベルを付与した前記文書対に基づいて、類似度指標を作成し、作成した類似度指標を前記文書グループに対応した前記カテゴリと対応付けて出力する処理を行う。 The determination method disclosed in the present application is a document in which a computer acquires a document in which a mention in the document is associated with an entity having category information in the knowledge base, and the acquired document is classified for each category associated with the document. A group is generated, and for each generated document group, a document pair including the document to which the same mention is associated is generated, and a label indicating whether the entity matches the generated document pair. A similarity index is created based on the document pair that has been assigned and labeled, and the created similarity index is output in association with the category corresponding to the document group.
本願の一観点によれば、文書のカテゴリに適した類似度指標を判別することが可能となる。 According to one aspect of the present application, it is possible to determine the similarity index suitable for the category of the document.
以下実施の形態を、図面を参照して説明する。 Hereinafter, embodiments will be described with reference to the drawings.
実施の形態1
図1は類似度スコア算出装置1の構成例を示すブロック図である。類似度スコア算出装置(判別装置)1は、CPU(Central Processing Unit)11、ROM(Read Only Memory)12、RAM(Random Access Memory)13、大容量記憶部14、通信部15、入出力部16及び読み取り部17を含む。各構成はバスBで接続されている。
FIG. 1 is a block diagram showing a configuration example of the similarity
CPU11はROM12に記憶された制御プログラム(判別プログラム)1Pに従い、ハードウェア各部を制御する。RAM13は例えばSRAM(Static RAM)、DRAM(Dynamic RAM)又はフラッシュメモリである。RAM13はCPU11によるプログラムの実行時に発生するデータを一時的に記憶する。
The
大容量記憶部14は、例えばハードディスク又はSSD(Solid State Drive)などである。大容量記憶部14は類似度指標の判別処理や類似度スコア算出処理に必要な各種データを記憶する。大容量記憶部14は文書DB(Data Base)141、実体情報DB142、データセットDB143、タイプ−カテゴリ対応DB144、類似度指標DB145を記憶する。また、制御プログラム1Pを大容量記憶部14に記憶してもよい。
The large-
通信部15はネットワークを介して、他のコンピュータと通信を行う。入出力部16はキーボードやマウスからの操作信号が入力される。また、入出力部16は液晶表示装置などの表示装置へ表示画像を出力する。
The
読み取り部17はCD(Compact Disc)−ROM及びDVD(Digital Versatile Disc)−ROMを含む可搬型記憶媒体1aを読み取る。CPU11が読み取り部17を介して、制御プログラム1Pを可搬型記憶媒体1aより読み取り、大容量記憶部14に記憶してもよい。また、ネットワーク等を介して他のコンピュータからCPU11が制御プログラム1Pをダウンロードし、大容量記憶部14に記憶してもよい。さらにまた、半導体メモリ1bから、CPU11が制御プログラム1Pを読み込んでもよい。
The
次に類似度スコア算出装置1の動作について説明する。類似度スコア算出装置1は2つの動作モードを持つ。2つの動作モードは、類似度指標作成モード、類似度スコア算出モードである。類似度指標作成モードでは、類似度スコア算出装置1はカテゴリ別の類似度指標を取得する。類似度スコア算出装置1は類似度指標を学習により取得する。類似度スコア算出装置1は大規模知識ベースを利用して、学習に用いる学習データを獲得する。大規模知識ベースの一例は、Wikipedia(ウィキペディア)である。
Next, the operation of the similarity
類似度スコア算出モードでは、類似度スコア算出装置1は、類似度指標作成モードで取得したカテゴリ別の類似度指標を用いて、文書対の類似度スコアを算出する。
In the similarity score calculation mode, the similarity
ここで、以下の説明において用いる用語の定義を示す。mentionは、文書中に現れる特定の実体を指す文字列である。entityは実体そのものである。例えば、「今日は作家の鈴木一郎のサイン会だ。」との文章では、鈴木一郎がmentionである。同じ文章において、作家の鈴木一郎という人物がentityである。また、カテゴリとは、主題の分類である。カテゴリは例えば、人物、企業、市町村である。 Here, definitions of terms used in the following description will be shown. An mention is a string that points to a specific entity that appears in the document. entity is the entity itself. For example, in the sentence, "Today is the signing meeting of the artist Suzuki Ichiro.", Suzuki Ichiro is a mention. In the same sentence, the person named Suzuki Ichiro is the entity. Also, a category is a classification of the subject. The categories are, for example, persons, companies, and municipalities.
また、類似度指標の取得においては、上述したように大規模知識ベースを利用する。大規模知識ベースの利用は、次の仮説が成り立つことを前提としている。(1)文書中に現れる実体の一致度の判定基準は、entityの属性(カテゴリ)によって異なる。(2)属性(カテゴリ)を、大規模知識ベースのカテゴリ情報に対応付けることができる。(1)及び(2)が成り立つことにより、大規模知識ベースを利用し、カテゴリ別類似度指標を得るための学習データを獲得することが可能となる。 In addition, in acquiring the similarity index, as described above, a large-scale knowledge base is used. The use of a large-scale knowledge base assumes that the following hypothesis holds. (1) The criteria for determining the degree of identity of an entity appearing in a document differ depending on the attribute (category) of the entity. (2) An attribute (category) can be associated with category information of a large scale knowledge base. By establishing (1) and (2), it becomes possible to obtain learning data for obtaining a category-based similarity index using a large-scale knowledge base.
続いて、大容量記憶部14に記憶するデータベースについて説明する。文書DB141は種々の文書データを記憶する。文書データは例えば、類似度指標作成モードで用いる大規模知識ベースから取得した文書や、類似度スコア算出モードで類似度スコア算出の対象となる文書群である。なお、類似度指標作成モードで用いる文書は、知識ベースのentityに紐付いていれば(例えば、リンクがあれば)よく、知識ベースから取得したものでなくてもよい。
Subsequently, a database stored in the large
図2は実体情報DB142のレコードレイアウト例を示す説明図である。実体情報DB142は文書に含まれる実体(人物、企業など)についての情報を記憶する。文書は、例えば文書DB141に記憶しているものである。実体情報DB142が記憶する情報は、類似度指標作成のための学習コーパスの1つである。実体情報DB142は文書列、mention列、entity列、及びカテゴリ列を含む。文書列は文書の内容を記憶する。mention列は文書に含まれるmentionを記憶する。entity列は文書に含まれるentityを記憶する。カテゴリ列はentityが大規模知識ベース上で属するカテゴリを記憶する。
FIG. 2 is an explanatory view showing an example of the record layout of the
図3はデータセットDB143のレコードレイアウト例を示す説明図である。データセットDB143はカテゴリ毎に文書対が一致するか否かを記憶する。データセットDB143が記憶する情報は、類似度指標作成のための学習コーパスの1つである。データセットDB143はカテゴリ列、第1文書列、第2文書列及びラベル列を含む。カテゴリ列は文書のカテゴリを記憶する。第1文書列及び第2文書列それぞれは文書の内容を記憶する。ラベル列は第1文書のentityと第2文書のentityとが一致しているか否かを記憶する。データセットDB143は実体情報DB142の内容を基に作成される。
FIG. 3 is an explanatory view showing an example of the record layout of the data set
図4はタイプ−カテゴリ対応DB144のレコードレイアウト例を示す説明図である。タイプ−カテゴリ対応DB144は固有表現タイプ列及び知識ベースカテゴリ列を含む。固有表現タイプ列は固有表現抽出により得られる固有表現タイプを記憶する。知識ベースカテゴリ列は固有表現タイプに対応する大規模知識ベースのカテゴリを記憶する。タイプ−カテゴリ対応DB144は予め人手により作成しておく。それに限らず、機械学習より生成してもよい。
FIG. 4 is an explanatory view showing an example of the record layout of the type-
図5は類似度指標DB145のレコード例を示す説明図である。類似度指標DB145はカテゴリ別に類似度指標を算出する際の係数を記憶している。類似度指標の算出式は例えば以下の式(1)である。
FIG. 5 is an explanatory view showing an example of a record of the
類似度指標 = a×単語類似度+b×固有名詞類似度+c×文書URLの類似度
+ … +b_w×I(単語wが一致) + … (1)
Similarity index = a × word similarity + b × proper noun similarity + c × document URL similarity
+ ... + b_w × I (word w matches) + ... (1)
図5では人物・類似度指標1451、企業・類似度指標1452、及びスポーツ・類似度指標1453を示している。 In FIG. 5, a person / similarity index 1451, a company / similarity index 1452, and a sport / similarity index 1453 are shown.
次に、類似度スコア算出装置1が行う処理について説明する。図6は類似度指標作成処理の手順を示すフローチャートである。類似度指標作成処理は、類似度指標作成モードにおける動作である。類似度スコア算出装置1のCPU11は類似度指標を作成するための文書を取得し、文書DB141に記憶する(ステップS1)。取得対象となる文書は大規模知識ベースへのリンクが埋め込まれた文書である。文書は通信部15を介して他のコンピュータから取得する。文書を記憶した可搬型記憶媒体1aより読み取り部17を介して取得してもよい。文書を記憶した半導体メモリ1bから取得してもよい。
Next, processing performed by the similarity
CPU11は文書DB141に記憶した各文書から実体情報を取得し、実体情報DB142に記憶する(ステップS2)。文書DB141に記憶している各文書は上述したように、大規模知識ベースへのリンクが埋め込まれている。ここで、リンクが埋め込まれている部分をmention、リンク先をentityとする。また、カテゴリはentityが大規模知識ベース上で属するカテゴリとする。CPU11は文書、mention、entity、及びカテゴリを対応付けて、実体情報DB142に記憶する。
The
CPU11は処理対象とするカテゴリを1つ選択する(ステップS3)。CPU11は選択したカテゴリについての実体情報を実体情報DB142から取得する(ステップS4)。CPU11は取得した実体情報よりデータセットを作成し、データセットDB143に記憶する(ステップS5)。CPU11は取得した実体情報において、mentionが同一である2つの文書からなる文書対を作成する。CPU11取得した文書対それぞれについて、文書対に含まれる文書それぞれのentityを比較する。CPU11は比較結果に基づいて、文書対に付与するラベルを決定する。CPU11は2つのentityが一致すると判定した場合には、文書対に対して、一致というラベルを付与する。CPU11は2つのentityが相違すると判定した場合には、文書対に対して、不一致というラベルを付与する。CPU11はラベルを付与した文書対、すなわち、データセットをデータセットDB143に記憶する。
The
CPU11は作成したデータセットを基づき、類似度指標を作成する(ステップS6)。類似度指標は例えば、SVM(Support Vetor Machine)やロジスティック回帰を用いた機械学習による類似度スコア学習を行い求める。機械学習による類似度指標の作成は公知の技術であるので、詳細は省略する。
The
CPU11は作成した類似度指標をカテゴリと対応付けて、類似度指標DB145に記憶する(ステップS7)。CPU11は未処理のカテゴリがあるか否かを判定する(ステップS8)。ここで未処理とは類似度指標の作成を行っていないということである。CPU11は未処理のカテゴリがあると判定した場合(ステップS8でYES)、処理をステップS3に戻し、未処理のカテゴリについての処理を行う。CPU11は未処理のカテゴリがないと判定した場合(ステップS8でNO)、処理を終了する。
The
続いて、類似度スコア算出モードでの類似度スコア算出装置1の動作について説明する。類似度スコア算出モードの動作では、類似度スコア算出装置1はカテゴリ別の類似度指標を使用する。したがって、類似度スコア算出モードで動作の前には、類似度指標作成モードの動作により、カテゴリ別の類似度指標が作成されているのが前提となる。
Subsequently, the operation of the similarity
類似度スコア算出について説明する前に、固有表現抽出について説明する。固有表現抽出は公知の技術であるので、簡単な説明に留める。固有表現抽出は、文書から、人物・企業となどの固有名詞や数値表現などを抽出する技術である。固有表現抽出に得られる固有表現には複数の種類(ここでは、タイプという)がある。固有表現抽出により、文書に含まれる固有表現の表出箇所とそのタイプを抽出することが可能となる。例えば、「田中太郎は汐留にあるOX製薬の研究員だ。」との文章に対して、固有表現抽出を行う。得られるは結果は「<人物>田中太郎</人物>は<場所>汐留</場所>にある<企業>OX製薬</企業>の研究員だ。」となる。ここで、下線が引かれた部分、すなわち、タグ<…></…>で囲まれた部分が固有表現であることを示す。タグ中の…がタイプを示す。上記の例では、「田中太郎」がタイプ:人物の固有表現であることを示す。「汐留」がタイプ:場所の固有表現であることを示す。「OX製薬」がタイプ:企業の固有表現であることを示す。 Before describing similarity score calculation, specific expression extraction will be described. Named entity extraction is a well-known technique, so it will be described briefly. Named entity extraction is a technique for extracting, from documents, proper nouns such as persons and companies, and numerical expressions. There are multiple types (herein, referred to as types) of specific expressions obtained for specific expression extraction. The specific expression extraction makes it possible to extract the appearance location of the specific expression included in the document and its type. For example, specific expression extraction is performed on the sentence "Taro Tanaka is a researcher at OX pharmaceutical in Shiodome." The result is “<person> Tanaka Taro </ person> is a researcher at <company> OX pharmaceutical </ company> at <place> Shiodome </ place >>. Here, the underlined part, that is, the part enclosed by tags <...></...> indicates that it is a unique expression. ... in the tag indicates the type. In the above example, it shows that "Taro Tanaka" is a type: specific expression of a person. Indicates that "Shiodome" is a type: a specific expression of a place. Indicates that "OX Pharmaceutical" is a type: a unique expression of a company.
図7は類似度スコア算出処理の手順を示すフローチャートである。CPU11はキーワード及び文書対を取得する(ステップS11)。キーワードは類似度を判定する基準となる語である。また、キーワードはmentionとなる前提である。例えば、田中太郎について書かれた文書対の類似度スコアを算出したい場合は、キーワードは田中太郎となる。文書対は類似度スコアの算出対象となる文書の対である。CPU11は文書対に含まれる文書それぞれについて、固有表現抽出を行う(ステップS12)。文書それぞれについてキーワードに対応するmentionの固有表現タイプが得られる。CPU11は文書それぞれのmentionの固有表現タイプが一致している否かを判定する(ステップS13)。CPU11は固有表現タイプが一致しないと判定した場合(ステップS13でNO)、文書対は不一致と判定し、予め定めた最低スコアを出力する(ステップS14)。CPU11は処理を終了する。CPU11は文書それぞれから取得した固有表現タイプが一致していると判定した場合(ステップS13でYES)、一致した固有表現タイプに対応したカテゴリをタイプ−カテゴリ対応DB144から取得する(ステップS15)。CPU11は取得したカテゴリに対応した類似度指標を類似度指標DB145から取得し、類似度スコアを算出する(ステップS16)。CPU11は算出したスコアを出力する(ステップS17)。
FIG. 7 is a flowchart showing the procedure of the similarity score calculation process. The
なお、1つの文書中に複数のmentionがある場合には、そのうち最初の1つを代表として使用し、スコア算出を行う。又は、各mentionについてスコア算出を行い、算出したすべてのスコアの平均値を最終的なスコアとする。 When there are a plurality of mentions in one document, the first one of them is used as a representative to calculate the score. Alternatively, score calculation is performed for each of the elements, and the average value of all the calculated scores is used as a final score.
本実施形態は、次の効果を奏する。類似度を判定する対象(人物、企業、市町村)毎に異なる文書類似度指標を選択して、類似度スコアを算出するので、精度の高い類似度スコアを取得することが可能となる。 The present embodiment has the following effects. Different document similarity indexes are selected for each target (person, company, municipality) whose similarity is to be determined, and the similarity score is calculated. Therefore, it is possible to acquire the similarity score with high accuracy.
続いて、類似度スコアを用いた文書群のクラスタリングについて説明する。以下の説明においては、例として、文書群を人物の実体毎にクラスタリングする場合について説明する。例えば、人物評伝、伝記、回顧録などの人物について書かれた多数の文書を、取り上げられている人物毎に分類する場合である。図8はクラスタリング処理の手順を示すフローチャートである。CPU11はカテゴリ及び文書群を取得する(ステップS21)。カテゴリはここでは人物である。文書群に含まれる各文書に対して固有表現抽出を行う(ステップS22)。CPU11固有表現抽出で抽出した人名毎に文書群を分割し、文書DB141等に記憶する(ステップS23)。CPU11はカテゴリ:人物に対応する類似度指標を類似度指標DB145から取得する(ステップS24)。CPU11は人名毎に分割した文書群から類似度スコアを算出する。(ステップS25)。CPU11は類似度スコアを用いて、文書群のまとめあげを行う(ステップS26)。CPU11は、ステップS25及びS26を人名毎に分割した文書群それぞれに対して行う。CPU11は結果を出力し(ステップS27)、処理を終了する。
Subsequently, clustering of document groups using the similarity score will be described. In the following description, as an example, clustering of documents by entity of a person will be described. For example, it is a case where a large number of documents written about a person such as a person biography, a biography, a memoir, etc. are classified according to the person being taken up. FIG. 8 is a flowchart showing the procedure of the clustering process. The
図9は類似度指標を用いた文書まとめあげの例を示す説明図である。文書まとめあげを行う際には、「文書−文書」対に対する類似度指標だけでなく、「文書−文書グループ」対、「文書グループ−文書グループ」対に付いても定義を行う。図9Aは「文書−文書」対に対する処理を示している。文書1及び文書2が含まれている文書について、類似度スコアを算出する。スコアの値が予め定めた閾値よりも大きければ、2つの文書を同じ文書グループとする。スコアの値が閾値以下であれば、2つの文書は違う文書グループとする。
FIG. 9 is an explanatory view showing an example of document grouping using the similarity index. When document grouping is performed, not only the similarity index for the "document-document" pair but also the "document-document group" pair and the "document group-document group" pair are defined. FIG. 9A shows the process for the "document-document" pair. The similarity score is calculated for the document including the
図9B及び図9Cは「文書−文書グループ」対に対する処理を示している。図9B及び図9Cに示す例では、すでに文書グループとして、グループ1とグループ2の2つのグループが作られている場合に、グループ分けがされていない文書(新規文書)が属するグループを決定する処理を示している。図9Bは新規文書がグループ1に分けられる例を示している。新規文書とグループ1との類似度スコア、及び新規文書とグループ2との類似度スコアを算出する。算出した結果、前者として3.5を、後者として0.5を得たとする。このとき、新規文書をスコアの高い方のグループ、すなわちグループ1にグループ分けする。図9Cは新規文書がいずれグループにも分けられず、新たなグループを作成する場合を示している。算出した類似度スコアのいずれもが所定の閾値以下の時、新規文書は既存のグループに分けず、新たなグループ作成する。図9Cに示す例では閾値を0と定義している。そして、新規文書とグループ1との類似度スコアが−1.0、新規文書とグループ2との類似度スコアが−0.5であった。いずれの類似度スコアも0以下であるので、新規文書は新規に作成したグループ3にグループ分けされる。図9の処理により、文書群をまとめあげすることができる。
9B and 9C illustrate the process for the "document-document group" pair. In the example shown in FIG. 9B and FIG. 9C, when two groups of
続いて、クラスタリング処理の他の例について説明する。上述と同じく人物の実体毎にクラスタリングする例である。ここでの例は、目的の人名で文書群に対して全文検索をかけた結果をクラスタリングする処理である。目的とする人物以外に同姓同名の他の人物が存在し、当該他の人物に関する文書も検索結果に含まれている場合に有効な処理である。 Subsequently, another example of the clustering process will be described. This is an example of clustering for each entity of a person as described above. An example here is a process of clustering the result of applying a full text search to a document group with a target personal name. This processing is effective when there is another person with the same surname and the same name other than the intended person, and a document related to the other person is also included in the search result.
図10はクラスタリング処理の他の手順を示すフローチャートである。CPU11はカテゴリ、キーワード、及び文書群を取得する(ステップS31)。ここではカテゴリは人物である。キーワードは例えば鈴木一郎などの人名である。CPU11は文書群に対して、キーワード検索を行う(ステップS32)。CPU11はキーワード検索にヒットした文書を文書DB141などに記憶する(ステップS33)。CPU11はカテゴリ:人物に対応した類似度指標を類似度指標DB145から取得する(ステップS34)。CPU11はステップS33で記憶した文書群について類似度スコアを算出する(ステップS35)。CPU11は算出したスコアを用いて、文書群のまとめあげを行う(ステップS36)。CPU11はまとめあげた結果を出力し(ステップS37)、処理を終了する。類似度スコアの算出、文書群のまとめあげは上述したものと同様であるので、説明を省略する。
FIG. 10 is a flowchart showing another procedure of the clustering process. The
次に、タイプ−カテゴリ対応DB144について、詳細に説明する。類似度スコア算出装置1は文書のカテゴリ毎に類似度指標を使い分けることで、類似度スコアの精度向上を実現する。文書のカテゴリは、固有表現抽出より得た固有表現タイプをタイプ−カテゴリ対応DB144を用いて、カテゴリに変換することにより得ている。そして、カテゴリに対応した類似度指標を選択している。そのため、タイプ−カテゴリ対応DB144の正確性が、類似度スコアの精度に影響を与える。
Next, the type-
タイプ−カテゴリ対応DB144の作成方法として、2つの方法について述べる。第1の方法は上述のように固有表現タイプとカテゴリとを1対1対応とする場合である。第2の方法は固有表現タイプとカテゴリとを1対多対応とする場合である。以下の説明においては、地理的な位置情報を例として説明する。固有表現タイプにおいて、地理的な位置情報はLOCATIONとする。大規模知識ベースのカテゴリにおいて、地理的な位置情報は、日本の市町村、日本の区、日本の地理の3種類があるとする。
As a method of creating the type-
図11はタイプ−カテゴリ対応DB144の作成方法を示す説明図である。図11は固有表現タイプとカテゴリとを1対1対応とする場合である。類似度指標はカテゴリ毎に指標が作成される。そのため、類似度指標作成処理により、カテゴリ:日本の市町村に対応した類似度指標145a、カテゴリ:日本の区に対応した類似度指標145b、及びカテゴリ:日本の地理に対応した類似度指標145cが作成される。
FIG. 11 is an explanatory view showing a method of creating the type-
3つの類似度指標を作成後、類似度指標の評価を行い、もっとも精度が高いと評価される指標に対応するカテゴリを固有表現LOCATIONに対応するものとする。類似度指標作成後、類似度指標作成時に用いた文書とは異なる文書群からデータセットを生成する。データセットは上述と同様である。データセットは、文書対及び文書対のentityが一致するか否かのラベルを含む。生成したデータセットそれぞれに含まれる文書対の類似度スコアを類似度指標毎に算出する。類似度スコアとラベルの値とを比較することにより、類似度指標の精度を算出することが可能である。精度の算出方法は公知の技術であるので、説明を省略する。図11の例では、カテゴリ:日本の市町村に対応した類似度指標の精度がもっとも高かったため、固有表現タイプ:LOCATIONに対応するカテゴリは日本の市町村である旨のレコードをタイプ−カテゴリ対応DB144に記憶する。
After creating three similarity indices, the similarity indices are evaluated, and the category corresponding to the index that is evaluated to be the most accurate corresponds to the unique expression LOCATION. After the creation of the similarity index, a data set is generated from a group of documents different from the document used when creating the similarity index. The data set is as described above. The data set includes a document pair and a label indicating whether the entities of the document pair match. The similarity score of the document pair included in each of the generated data sets is calculated for each similarity index. By comparing the similarity score with the value of the label, it is possible to calculate the accuracy of the similarity index. Since the method of calculating the accuracy is a known technique, the description will be omitted. In the example of FIG. 11, the category: the accuracy index corresponding to the municipalities in Japan is the highest, so the specific expression type: the category corresponding to LOCATION stores a record that the municipalities in Japan are in the type-
図12はタイプ−カテゴリ対応DB144の他の作成方法を示す説明図である。図12は固有表現タイプとカテゴリとを1対多対応とする場合である。3つの類似度指標145a、145b、145cを作成する点、3つの類似度指標145a、145b、145cそれぞれの評価を行う点は1対1対応の場合と同様である。
FIG. 12 is an explanatory view showing another method of creating the type-
1対多対応の場合は、固有表現タイプ1つにつき、複数のカテゴリの類似度指標によるスコアを、重み付けをして組み合わせる。重み付けは各指標の評価結果により決定する。図12に示す例では、重み付けは各指標の精度としてある。タイプ−カテゴリ対応DB144は、固有表現タイプがLOCATIONの場合、日本の市町村に対応した類似度指標145a、日本の区に対応した類似度指標145b、日本の地理に対応した類似度指標145cを用いることを示している。まず、類似度指標145a、145b、145cそれぞれを用いてスコアを計算する。それぞれのスコアがSC1、SC2、SC3であったとき、最終的なスコアSは、以下の式(2)で算出される。
In the case of one-to-many correspondence, the score by the similarity index of a plurality of categories is combined by weighting for one specific expression type. Weighting is determined by the evaluation result of each index. In the example shown in FIG. 12, the weighting is the accuracy of each index. When the specific expression type is LOCATION, the type-
S=0.8×SC1+0.6×SC2+0.3×SC3 … (2) S = 0.8 × SC1 + 0.6 × SC2 + 0.3 × SC3 (2)
以上のように、タイプ−カテゴリ対応DB144の作成を、人手ではなく機械学習を用いて行うことにより、類似度スコアの精度の向上が可能となる。
As described above, the accuracy of the similarity score can be improved by creating the type-
図13は類似度スコア算出装置1の機能構成の一例を示すブロック図である。類似度スコア算出装置1は取得部11a、グループ生成部11b、文書対生成部11c、付与部11d、作成部11e、及び出力部11fを含む。これらの各機能部は、CPU11が制御プログラム1Pに基づいて動作することにより、実現される。
FIG. 13 is a block diagram showing an example of a functional configuration of the similarity
取得部11aは、文書中のメンションが知識ベース中のカテゴリ情報を持つエンティティと対応付けられた文書を取得する。グループ生成部11bは、取得した文書を対応付けられたカテゴリ毎に分類した文書グループを生成する。文書対生成部11cは、生成した文書グループ毎に、同一のメンションが対応付けられた文書を含む文書対を生成する。付与部11dは生成した文書対に対して、エンティティが一致するか否かのラベルを付与する。作成部11eは、ラベルを付与した文書対に基づいて、類似度指標を作成する。出力部11fは、作成した類似度指標を文書グループに対応したカテゴリと対応付けて出力する。
The
各実施の形態で記載されている技術的特徴(構成要件)はお互いに組み合わせ可能であり、組み合わせすることにより、新しい技術的特徴を形成することができる。
今回開示された実施の形態はすべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上記した意味ではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。
The technical features (component requirements) described in the respective embodiments can be combined with each other, and by combining, new technical features can be formed.
It should be understood that the embodiments disclosed herein are illustrative in all respects and not restrictive. The scope of the present invention is indicated not by the meaning described above but by the claims, and is intended to include all modifications within the meaning and scope equivalent to the claims.
以上の実施の形態に関し、さらに以下の付記を開示する。 Further, the following appendices will be disclosed regarding the above embodiment.
(付記1)
コンピュータが、
文書中のメンションが知識ベース中のカテゴリ情報を持つエンティティと対応付けられた文書を取得し、
取得した文書を対応付けられた前記カテゴリ毎に分類した文書グループを生成し、
生成した文書グループ毎に、同一の前記メンションが対応付けられた前記文書を含む文書対を生成し、
生成した文書対に対して、前記エンティティが一致するか否かのラベルを付与し、
ラベルを付与した前記文書対に基づいて、類似度指標を作成し、
作成した類似度指標を前記文書グループに対応した前記カテゴリと対応付けて出力する
処理を行う
判別方法。
(Supplementary Note 1)
The computer is
Get a document in which a mention in the document is associated with an entity with category information in the knowledge base,
Generating a document group in which the acquired documents are classified according to the categories associated with each other;
Generating a document pair including the document to which the same mention is associated for each of the generated document groups;
Label the generated document pair whether the entity matches or not,
Create a similarity index based on the labeled document pair,
The discrimination | determination method which performs the process which matches the created similarity index with the said category corresponding to the said document group, and outputs it.
(付記2)
前記カテゴリは前記知識ベースにおいて定義され、前記エンティティ毎に付与されるものである
付記1に記載の判別方法。
(Supplementary Note 2)
The determination method according to
(付記3)
キーワードと、該キーワードを用いて検索にヒットした複数の文書を受け付け、
受け付けた複数の文書より固有表現抽出を行い、
前記キーワードに対応するメンションの固有表現タイプを文書毎に比較し、
複数の文書間で一致する場合は、前記固有表現タイプに対応した前記カテゴリを取得し、
取得したカテゴリに対応付けられた類似度指標を取得し、
取得した類似度指標を用いて複数文書間の類似度スコアを求め、
求めた類似度スコアを出力する
付記1又は付記2に記載の判別方法。
(Supplementary Note 3)
Accept keywords and multiple documents that hit the search using the keywords,
Extract specific names from multiple accepted documents,
Compare specific expression types of mentions corresponding to the keywords for each document,
When a plurality of documents match, the category corresponding to the specific expression type is acquired,
Acquire the similarity index associated with the acquired category,
Find similarity score among multiple documents using the obtained similarity index,
The determination method according to
(付記4)
前記カテゴリと複数の文書を受け付け、
受け付けた複数の文書より固有表現抽出を行い、
抽出した固有表現に対応する固有表現タイプから1つを選択し、
選択した固有表現タイプの固有表現毎に、前記複数の文書を分割し、
前記カテゴリに対応付けられた類似度指標を取得し、
取得した類似度指標を用いて分割して得た文書群毎に類似度スコアを求め、
求めた類似度スコアを出力する
付記1又は付記2に記載の判別方法。
(Supplementary Note 4)
Accept the category and multiple documents,
Extract specific names from multiple accepted documents,
Select one of the specific expression types corresponding to the extracted specific expression,
The plurality of documents are divided according to the specific representation of the selected specific representation type,
Acquire a similarity index associated with the category,
Determine the similarity score for each document group obtained by division using the acquired similarity index,
The determination method according to
(付記5)
前記類似度スコアにより前記複数の文書又は文書群をクラスタリングし、
クラスタリングした結果を出力する
付記3又は4に記載の判別方法。
(Supplementary Note 5)
Clustering the plurality of documents or document groups according to the similarity score;
The determination method according to appendix 3 or 4, which outputs the result of clustering.
(付記6)
文書中のメンションが知識ベース中のカテゴリ情報を持つエンティティと対応付けられた文書を取得し、
取得した文書を対応付けられた前記カテゴリ毎に分類した文書グループを生成し、
生成した文書グループ毎に、同一の前記メンションが対応付けられた前記文書を含む文書対を生成し、
生成した文書対に対して、前記エンティティが一致するか否かのラベルを付与し、
ラベルを付与した前記文書対に基づいて、類似度指標を作成し、
作成した類似度指標を前記文書グループに対応した前記カテゴリと対応付けて出力する
処理をコンピュータに実行させる判別プログラム。
(Supplementary Note 6)
Get a document in which a mention in the document is associated with an entity with category information in the knowledge base,
Generating a document group in which the acquired documents are classified according to the categories associated with each other;
Generating a document pair including the document to which the same mention is associated for each of the generated document groups;
Label the generated document pair whether the entity matches or not,
Create a similarity index based on the labeled document pair,
A determination program that causes a computer to execute a process of outputting the created similarity index in association with the category corresponding to the document group.
(付記7)
文書中のメンションが知識ベース中のカテゴリ情報を持つエンティティと対応付けられた文書を取得する取得部と、
取得した文書を対応付けられた前記カテゴリ毎に分類した文書グループを生成するグループ生成部と、
生成した文書グループ毎に、同一の前記メンションが対応付けられた前記文書を含む文書対を生成する文書対生成部と、
生成した文書対に対して、前記エンティティが一致するか否かのラベルを付与する付与部と、
ラベルを付与した前記文書対に基づいて、類似度指標を作成する作成部(11e)と、
作成した類似度指標を前記文書グループに対応した前記カテゴリと対応付けて出力する出力部と
を備える判別装置。
(Appendix 7)
An acquisition unit for acquiring a document in which a mention in the document is associated with an entity having category information in the knowledge base;
A group generation unit that generates a document group in which the acquired document is classified according to the categories associated with each other;
A document pair generation unit that generates a document pair including the document to which the same mention is associated for each of the generated document groups;
An assigning unit for assigning a label indicating whether the entity matches the generated document pair;
A creation unit (11e) that creates a similarity index based on the labeled document pair;
An output unit that outputs the created similarity index in association with the category corresponding to the document group.
1 類似度スコア算出装置
11 CPU
11a 取得部
11b グループ生成部
11c 文書対生成部
11d 付与部
11e 作成部
11f 出力部
12 ROM
13 RAM
14 大容量記憶部
141 文書DB
142 実体情報DB
143 データセットDB
144 カテゴリ対応DB
145 類似度指標DB
15 通信部
16 入出力部
17 読み取り部
1P 制御プログラム
1a 可搬型記憶媒体
1b 半導体メモリ
B バス
1
13 RAM
14
142 Entity information DB
143 Data set DB
144 category corresponding DB
145 Similarity Index DB
15
Claims (5)
文書中のメンションが知識ベース中のカテゴリ情報を持つエンティティと対応付けられた文書を取得し、
取得した文書を対応付けられた前記カテゴリ毎に分類した文書グループを生成し、
生成した文書グループ毎に、同一の前記メンションが対応付けられた前記文書を含む文書対を生成し、
生成した文書対に対して、前記エンティティが一致するか否かのラベルを付与し、
ラベルを付与した前記文書対に基づいて、類似度指標を作成し、
作成した類似度指標を前記文書グループに対応した前記カテゴリと対応付けて出力する
処理を行う
判別方法。 The computer is
Get a document in which a mention in the document is associated with an entity with category information in the knowledge base,
Generating a document group in which the acquired documents are classified according to the categories associated with each other;
Generating a document pair including the document to which the same mention is associated for each of the generated document groups;
Label the generated document pair whether the entity matches or not,
Create a similarity index based on the labeled document pair,
The discrimination | determination method which performs the process which matches the created similarity index with the said category corresponding to the said document group, and outputs it.
請求項1に記載の判別方法。 The method according to claim 1, wherein the category is defined in the knowledge base and is given to each of the entities.
受け付けた複数の文書より固有表現抽出を行い、
前記キーワードに対応するメンションの固有表現タイプを文書毎に比較し、
複数の文書間で一致する場合は、前記固有表現タイプに対応した前記カテゴリを取得し、
取得したカテゴリに対応付けられた類似度指標を取得し、
取得した類似度指標を用いて複数文書間の類似度スコアを求め、
求めた類似度スコアを出力する
請求項1又は請求項2に記載の判別方法。 Accept keywords and multiple documents that hit the search using the keywords,
Extract specific names from multiple accepted documents,
Compare specific expression types of mentions corresponding to the keywords for each document,
When a plurality of documents match, the category corresponding to the specific expression type is acquired,
Acquire the similarity index associated with the acquired category,
Find similarity score among multiple documents using the obtained similarity index,
The discrimination | determination method of Claim 1 or Claim 2 which outputs the calculated | required similarity score.
取得した文書を対応付けられた前記カテゴリ毎に分類した文書グループを生成し、
生成した文書グループ毎に、同一の前記メンションが対応付けられた前記文書を含む文書対を生成し、
生成した文書対に対して、前記エンティティが一致するか否かのラベルを付与し、
ラベルを付与した前記文書対に基づいて、類似度指標を作成し、
作成した類似度指標を前記文書グループに対応した前記カテゴリと対応付けて出力する
処理をコンピュータに実行させる判別プログラム。 Get a document in which a mention in the document is associated with an entity with category information in the knowledge base,
Generating a document group in which the acquired documents are classified according to the categories associated with each other;
Generating a document pair including the document to which the same mention is associated for each of the generated document groups;
Label the generated document pair whether the entity matches or not,
Create a similarity index based on the labeled document pair,
A determination program that causes a computer to execute a process of outputting the created similarity index in association with the category corresponding to the document group.
取得した文書を対応付けられた前記カテゴリ毎に分類した文書グループを生成するグループ生成部と、
生成した文書グループ毎に、同一の前記メンションが対応付けられた前記文書を含む文書対を生成する文書対生成部と、
生成した文書対に対して、前記エンティティが一致するか否かのラベルを付与する付与部と、
ラベルを付与した前記文書対に基づいて、類似度指標を作成する作成部と、
作成した類似度指標を前記文書グループに対応した前記カテゴリと対応付けて出力する出力部と
を備える判別装置。 An acquisition unit for acquiring a document in which a mention in the document is associated with an entity having category information in the knowledge base;
A group generation unit that generates a document group in which the acquired document is classified according to the categories associated with each other;
A document pair generation unit that generates a document pair including the document to which the same mention is associated for each of the generated document groups;
An assigning unit for assigning a label indicating whether the entity matches the generated document pair;
A creation unit that creates a similarity index based on the labeled document pair;
An output unit that outputs the created similarity index in association with the category corresponding to the document group.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017078509A JP6816621B2 (en) | 2017-04-11 | 2017-04-11 | Discrimination method, discrimination program and discrimination device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017078509A JP6816621B2 (en) | 2017-04-11 | 2017-04-11 | Discrimination method, discrimination program and discrimination device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018180866A true JP2018180866A (en) | 2018-11-15 |
JP6816621B2 JP6816621B2 (en) | 2021-01-20 |
Family
ID=64275534
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017078509A Active JP6816621B2 (en) | 2017-04-11 | 2017-04-11 | Discrimination method, discrimination program and discrimination device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6816621B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210040319A (en) * | 2020-04-23 | 2021-04-13 | 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. | Method, apparatus, device, storage medium and computer program for entity linking |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1999014690A1 (en) * | 1997-09-17 | 1999-03-25 | Hitachi, Ltd. | Keyword adding method using link information |
WO2004084096A1 (en) * | 2003-03-19 | 2004-09-30 | Fujitsu Limited | Case classification apparatus and method |
JP2007164583A (en) * | 2005-12-15 | 2007-06-28 | Oki Electric Ind Co Ltd | Apparatus, method, and program for determination |
JP2009098952A (en) * | 2007-10-17 | 2009-05-07 | Mitsubishi Electric Corp | Information retrieval system |
US20130097104A1 (en) * | 2011-10-18 | 2013-04-18 | Ming Chuan University | Method and system for document classification |
JP2015201185A (en) * | 2014-04-04 | 2015-11-12 | 富士通株式会社 | Method for specifying topic of lecture video and non-temporary computer readable medium |
-
2017
- 2017-04-11 JP JP2017078509A patent/JP6816621B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1999014690A1 (en) * | 1997-09-17 | 1999-03-25 | Hitachi, Ltd. | Keyword adding method using link information |
WO2004084096A1 (en) * | 2003-03-19 | 2004-09-30 | Fujitsu Limited | Case classification apparatus and method |
JP2007164583A (en) * | 2005-12-15 | 2007-06-28 | Oki Electric Ind Co Ltd | Apparatus, method, and program for determination |
JP2009098952A (en) * | 2007-10-17 | 2009-05-07 | Mitsubishi Electric Corp | Information retrieval system |
US20130097104A1 (en) * | 2011-10-18 | 2013-04-18 | Ming Chuan University | Method and system for document classification |
JP2015201185A (en) * | 2014-04-04 | 2015-11-12 | 富士通株式会社 | Method for specifying topic of lecture video and non-temporary computer readable medium |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210040319A (en) * | 2020-04-23 | 2021-04-13 | 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. | Method, apparatus, device, storage medium and computer program for entity linking |
JP2021168124A (en) * | 2020-04-23 | 2021-10-21 | ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド | Entity linking method, device, electronic device, storage medium, and computer program |
KR102504699B1 (en) * | 2020-04-23 | 2023-02-27 | 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. | Method, apparatus, device, storage medium and computer program for entity linking |
US11704492B2 (en) | 2020-04-23 | 2023-07-18 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method, electronic device, and storage medium for entity linking by determining a linking probability based on splicing of embedding vectors of a target and a reference text |
JP7398402B2 (en) | 2020-04-23 | 2023-12-14 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | Entity linking method, device, electronic device, storage medium and computer program |
Also Published As
Publication number | Publication date |
---|---|
JP6816621B2 (en) | 2021-01-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Qu et al. | The bag-of-opinions method for review rating prediction from sparse text patterns | |
CN100535898C (en) | System and method for question-reply type document search | |
US20120203584A1 (en) | System and method for identifying potential customers | |
CN112507715A (en) | Method, device, equipment and storage medium for determining incidence relation between entities | |
US20120290561A1 (en) | Information processing apparatus, information processing method, program, and information processing system | |
CN100552674C (en) | The device and method that is used to translate | |
WO2020114100A1 (en) | Information processing method and apparatus, and computer storage medium | |
JPWO2008032780A1 (en) | Retrieval method, similarity calculation method, similarity calculation and same document collation system, and program thereof | |
CN111259262A (en) | Information retrieval method, device, equipment and medium | |
CN110737756B (en) | Method, apparatus, device and medium for determining answer to user input data | |
KR20180129001A (en) | Method and System for Entity summarization based on multilingual projected entity space | |
CN111797245A (en) | Information matching method based on knowledge graph model and related device | |
CN115374781A (en) | Text data information mining method, device and equipment | |
JP6816621B2 (en) | Discrimination method, discrimination program and discrimination device | |
CN115062135B (en) | Patent screening method and electronic equipment | |
CN116186298A (en) | Information retrieval method and device | |
CN113505190B (en) | Address information correction method, device, computer equipment and storage medium | |
Xie et al. | Joint entity linking for web tables with hybrid semantic matching | |
JP2019061522A (en) | Document recommendation system, document recommendation method and document recommendation program | |
JP7351502B2 (en) | Variable data generation device, predictive model generation device, variable data production method, predictive model production method, program and recording medium | |
WO2024069941A1 (en) | Information processing device, search method, and search program | |
KR20150096848A (en) | Apparatus for searching data using index and method for using the apparatus | |
JP2018055224A (en) | Data generating device, method, and program | |
CN116225770B (en) | Patch matching method, device, equipment and storage medium | |
KR102601803B1 (en) | Electronic device and method for providing neural network model for predicting matching probability of employer and employee in recruitment service |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200115 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20201109 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201124 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201207 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6816621 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |