JP7074940B1 - Entity identification device and entity identification method - Google Patents
Entity identification device and entity identification method Download PDFInfo
- Publication number
- JP7074940B1 JP7074940B1 JP2022002448A JP2022002448A JP7074940B1 JP 7074940 B1 JP7074940 B1 JP 7074940B1 JP 2022002448 A JP2022002448 A JP 2022002448A JP 2022002448 A JP2022002448 A JP 2022002448A JP 7074940 B1 JP7074940 B1 JP 7074940B1
- Authority
- JP
- Japan
- Prior art keywords
- person
- name
- term
- target person
- specified
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Abstract
【課題】 テキスト文書に出現する人物を適切に同定することを可能とするエンティティ同定装置及びエンティティ同定方法を提供する。【解決手段】 エンティティ同定装置は、テキスト文書において出現する人物に関する第1用語を抽出する抽出部と、人物に関する呼称を格納するデータベースを用いて、前記第1用語に相当する人物呼称を特定し、特定された人物呼称に基づいて、前記第1用語が示す対象人物を同定する同定部と、を備える。【選択図】 図2PROBLEM TO BE SOLVED: To provide an entity identification device and an entity identification method capable of appropriately identifying a person appearing in a text document. SOLUTION: An entity identification device identifies a person name corresponding to the first term by using an extraction unit for extracting a first term related to a person appearing in a text document and a database storing a name related to the person. It is provided with an identification unit for identifying a target person indicated by the first term based on the specified person designation. [Selection diagram] Fig. 2
Description
本発明は、エンティティ同定装置及びエンティティ同定方法に関する。 The present invention relates to an entity identification device and an entity identification method.
従来、会社などの組織において、チャットやメールなどのコミュニケーションツールの導入が進んでいる。このようなコミュニケーションツールを用いると、メッセージなどのテキスト文書が膨大な量になる。 Conventionally, communication tools such as chat and e-mail have been introduced in organizations such as companies. With such a communication tool, the amount of text documents such as messages becomes enormous.
また、テキスト文書を解析することによって、テキスト文書の分類などに活用する利用シーンが想定される。例えば、テキスト文書に含まれる単語の置換、追加又は削除によってテキスト文書の意味を変更し、機械学習を用いてテキスト文書を階層的に分類する技術が提案されている(例えば、特許文献1)。 In addition, by analyzing text documents, it is assumed that they will be used for classification of text documents. For example, a technique has been proposed in which the meaning of a text document is changed by replacing, adding, or deleting words contained in the text document, and the text document is classified hierarchically by using machine learning (for example, Patent Document 1).
上述した背景下において、発明者等は、鋭意検討の結果、組織で用いるコミュニケーションツールについて、テキスト文書に出現する人物を同定することが極めて重要であることを見出した。例えば、テキスト文書に出現する人物を同定することによって、その人物に関するテキスト文書を抽出することができ、業務の円滑化などを図ることができる。 Against the background described above, the inventors have found that it is extremely important to identify the person who appears in the text document for the communication tool used in the organization as a result of diligent studies. For example, by identifying a person who appears in a text document, a text document related to that person can be extracted, and business can be facilitated.
しかしながら、コミュニケーションツールにおいては、テキスト文書において人物の氏名(フルネーム)が用いられることは希であり、人物の名字のみが用いられたり、人物の異名(ニックネームなど)が用いられたりすることも多い。 However, in communication tools, it is rare that a person's name (full name) is used in a text document, and only the person's surname is used, or a person's synonym (nickname, etc.) is often used.
一方で、上述した機械学習では、教師データが必要とされ、人物の同定に特化したものでもないため、教師データの生成が煩雑であり、適切に人物を同定することができない。 On the other hand, in the above-mentioned machine learning, teacher data is required and it is not specialized in identifying a person, so that the generation of teacher data is complicated and it is not possible to identify a person appropriately.
そこで、本発明は、上述した課題を解決するためになされたものであり、テキスト文書に出現する人物を適切に同定することを可能とするエンティティ同定装置及びエンティティ同定方法を提供することを目的とする。 Therefore, the present invention has been made to solve the above-mentioned problems, and an object of the present invention is to provide an entity identification device and an entity identification method capable of appropriately identifying a person appearing in a text document. do.
開示の一態様は、テキスト文書において出現する人物に関する第1用語を抽出する抽出部と、人物に関する呼称を格納するデータベースを用いて、前記第1用語に相当する人物呼称を特定し、特定された人物呼称に基づいて、前記第1用語が示す対象人物を同定する同定部と、を備える、エンティティ同定装置である。 One aspect of the disclosure is to identify and identify the person name corresponding to the first term by using an extraction unit for extracting the first term related to the person appearing in the text document and a database storing the name related to the person. It is an entity identification device including an identification unit for identifying a target person indicated by the first term based on a person designation.
開示の一態様は、テキスト文書において出現する人物に関する第1用語を抽出するステップと、人物に関する呼称を格納するデータベースを用いて、前記第1用語に相当する人物呼称を特定するステップと、特定された人物呼称に基づいて、前記第1用語が示す対象人物を同定するステップと、を備える、エンティティ同定方法である。 One aspect of the disclosure is specified as a step of extracting a first term relating to a person appearing in a text document and a step of identifying a person designation corresponding to the first term using a database storing names relating to the person. It is an entity identification method including a step of identifying a target person indicated by the first term based on a person name.
本発明によれば、テキスト文書に出現する人物を適切に同定することを可能とするエンティティ同定装置及びエンティティ同定方法を提供することができる。 INDUSTRIAL APPLICABILITY According to the present invention, it is possible to provide an entity identification device and an entity identification method that can appropriately identify a person appearing in a text document.
以下において、実施形態について図面を参照しながら説明する。なお、以下の図面の記載において、同一又は類似の部分には、同一又は類似の符号を付している。 Hereinafter, embodiments will be described with reference to the drawings. In the description of the drawings below, the same or similar parts are designated by the same or similar reference numerals.
但し、図面は模式的なものであり、各寸法の比率などは現実のものとは異なる場合があることに留意すべきである。従って、具体的な寸法などは以下の説明を参酌して判断すべきである。また、図面相互間においても互いの寸法の関係又は比率が異なる部分が含まれている場合があることは勿論である。 However, it should be noted that the drawings are schematic and the ratio of each dimension may differ from the actual one. Therefore, the specific dimensions should be determined in consideration of the following explanation. In addition, it goes without saying that there may be a portion where the relations or ratios of the dimensions of the drawings are different from each other.
[開示の概要]
開示の概要に係るエンティティ同定装置は、テキスト文書において出現する人物に関する第1用語を抽出する抽出部と、人物に関する呼称を格納するデータベースを用いて、前記第1用語に相当する人物呼称を特定し、特定された人物呼称に基づいて、前記第1用語が示す対象人物を同定する同定部と、を備える。
[Summary of disclosure]
The entity identification device according to the outline of the disclosure identifies the person name corresponding to the first term by using the extraction unit that extracts the first term related to the person appearing in the text document and the database that stores the name related to the person. , The identification unit for identifying the target person indicated by the first term based on the specified person designation.
開示の概要に係るエンティティ同定方法は、テキスト文書において出現する人物に関する第1用語を抽出するステップと、人物に関する呼称を格納するデータベースを用いて、前記第1用語に相当する人物呼称を特定するステップと、特定された人物呼称に基づいて、前記第1用語が示す対象人物を同定するステップと、を備える。 The entity identification method according to the outline of the disclosure includes a step of extracting the first term related to a person appearing in a text document and a step of identifying a person name corresponding to the first term using a database storing the name related to the person. And a step of identifying the target person indicated by the first term based on the identified person designation.
開示の概要によれば、エンティティ同定装置は、テキスト文書において出現する人物に関する第1用語を抽出し、第1用語に相当する人物呼称を特定し、特定された人物呼称に基づいて、第1用語が示す対象人物を同定する。このような構成によれば、テキスト文書において出現する対象人物(エンティティ)を適切に同定することができる。 According to the summary of the disclosure, the entity identification device extracts the first term relating to the person appearing in the text document, identifies the person designation corresponding to the first term, and based on the identified person designation, the first term. Identify the target person indicated by. According to such a configuration, the target person (entity) that appears in the text document can be appropriately identified.
特に限定されるものではないが、テキスト文書は、チャットやメールなどのコミュニケーションツールの内容であってもよい。従って、テキスト文書の差出人については既知であってもよい。同様に、テキスト文書の宛名人についても既知であってもよい。なお、差出人は、記述者又は発話者などと読み替えられてもよい。このような想定下において、エンティティ同定装置によって同定される対象人物は、差出人及び宛名人以外の人物であってもよい。 Although not particularly limited, the text document may be the content of a communication tool such as chat or email. Therefore, the sender of the text document may be known. Similarly, the addressee of the text document may be known. The sender may be read as a writer, a speaker, or the like. Under such an assumption, the target person identified by the entity identification device may be a person other than the sender and the addressee.
[実施形態]
(エンティティ同定システム)
以下において、実施形態に係るエンティティ同定システムについて説明する。図1は、実施形態に係るエンティティ同定システム100を示す図である。特に限定されるものではないが、エンティティ同定システム100は、テキスト文書において出現する第1用語が示す対象人物を同定する。テキスト文書は、チャットやメールなどのコミュニケーションツールの内容であってもよい。
[Embodiment]
(Entity identification system)
Hereinafter, the entity identification system according to the embodiment will be described. FIG. 1 is a diagram showing an
さらに、コミュニケーションツールは、組織で用いられるツールであってもよい。組織は、法人格を有する団体であってもよく、法人格を有していない団体であてもよい。人物は、組織と雇用関係を有する人物であってもよく、組織と契約関係を有する人物であってもよい。特に限定されるものではないが、以下においては、組織が法人であり、人物が従業員であるケースについて例示する。 Further, the communication tool may be a tool used in the organization. The organization may be an organization having legal personality or an organization without legal personality. The person may be a person who has an employment relationship with the organization or a person who has a contractual relationship with the organization. Although not particularly limited, the following exemplifies a case where the organization is a corporation and the person is an employee.
図1に示すように、エンティティ同定システム100は、第1端末10と、第2端末20と、エンティティ同定装置30と、を有する。第1端末10、第2端末20、エンティティ同定装置30は、ネットワーク200によって接続される。特に限定されるものではないが、ネットワーク200は、インターネット網によって構成されてもよい。ネットワーク200は、ローカルエリアネットワークを含んでもよく、移動体通信網を含んでもよく、VPN(Virtual Private Network)を含んでもよい。
As shown in FIG. 1, the
第1端末10は、テキスト文書の差出人が使用する端末である。例えば、第1端末10は、パーソナルコンピュータであってもよく、スマートフォンであってもよく、タブレット端末であってもよい。特に限定されるものではないが、差出人は、第1端末10を用いて、テキスト文書を入力してもよい。
The
第2端末20は、テキスト文書の宛名人が使用する端末である。第2端末20は、パーソナルコンピュータであってもよく、スマートフォンであってもよく、タブレット端末であってもよい。特に限定されるものではないが、宛名人は、第2端末20を用いて、テキスト文書を閲覧してもよい。
The
特に限定されるものではないが、宛名人は、2以上の宛名人であってもよい。例えば、コミュニケーションツールがメールである場合には、TOで指定された宛名人だけではなく、CC(Carbon Copy)又はBCC(Blind Carbon Copy)で指定された宛名人を含んでもよい。コミュニケーションツールがグループチャットである場合には、宛名人は、グループチャットに含まれるメンバーであってもよい。或いは、宛名人が特定する機能(メンション機能)が用いられる場合には、宛名人は、メンション機能で指定されたメンバーであってもよい。 Although not particularly limited, the addressee may be two or more addressees. For example, when the communication tool is e-mail, not only the addressee specified by TO but also the addressee specified by CC (Carbon Copy) or BCC (Blind Carbon Copy) may be included. When the communication tool is a group chat, the addressee may be a member included in the group chat. Alternatively, when the function specified by the addressee (mention function) is used, the addressee may be a member designated by the mention function.
エンティティ同定装置30は、テキスト文書において出現する第1用語が示す対象人物を同定する装置である。エンティティ同定装置30の詳細については後述する。
The
(エンティティ同定装置)
以下において、実施形態に係るエンティティ同定装置について説明する。図2は、実施形態に係るエンティティ同定装置30を示す図である。図2に示すように、エンティティ同定装置30は、通信部31と、管理部32と、制御部33と、を有する。
(Entity identification device)
Hereinafter, the entity identification device according to the embodiment will be described. FIG. 2 is a diagram showing an
通信部31は、通信モジュールによって構成される。通信モジュールは、IEEE802.11a/b/g/n/ac/ax、LTE、5G、6Gなどの規格に準拠する無線通信モジュールであってもよく、IEEE802.3などの規格に準拠する有線通信モジュールであってもよい。
The
実施形態では、通信部31は、テキスト文書を受信する。例えば、通信部31は、コミュニケーションツールを用いて送信又は受信されるテキスト文書を格納するデータベースからテキスト文書を受信してもよい。或いは、通信部31は、コミュニケーションツールと連携しており、コミュニケーションツールを用いてテキスト文書が送信又は受信された段階でテキスト文書を受信してもよい。
In the embodiment, the
管理部32は、SSD(Solid State Drive)、HDD(Hard Disk Drive)などの記憶媒体によって構成されており、様々な情報を格納する。
The
実施形態では、管理部32は、人物に関する呼称を格納するデータベース(以下、第1DB)を有してもよい。管理部32は、人物の所属に関する呼称を格納するデータベース(以下、第2DB)を有してもよい。管理部32は、人物の相関に関する相関関係を格納するデータベース(以下、第3DB)を有してもよい。管理部32は、人物に関する特徴語を格納するデータベース(以下、第4DB)を有してもよい。特に限定されるものではないが、第1DB、第2DB、第3DB及び第4DBは、法人に属する従業員の人事に関するデータを格納する人事DBに含まれてもよい。
In the embodiment, the
例えば、管理部32は、図3に示すデータを格納する人事DBを有してもよい。図3に示すように、管理部32は、第1呼称、第2呼称、所属呼称、相関関係、特徴語を対応付けるデータを管理してもよい。
For example, the
第1呼称は、氏及び名の少なくとも一部を含む呼称である。第1呼称は、本名、実名などと称されてもよい。実施形態では、”氏”のみを第1呼称と考えてもよく、”名”のみを第1呼称と考えてもよい。第1呼称は、人物呼称の一例である。 The first designation is a designation that includes at least a part of the name and name. The first name may be referred to as a real name, a real name, or the like. In the embodiment, only "Mr." may be considered as the first designation, and only "name" may be considered as the first designation. The first designation is an example of a person designation.
第2呼称は、氏及び名の少なくとも一部を含む呼称以外の呼称である。第2呼称は、愛称(ニックネーム)、別名、異名、別名などと称されてもよい。第2呼称は、少なくとも第1呼称と対応付けられる。第2呼称は、人物呼称の一例である。 The second designation is a designation other than the designation including at least a part of the name and the name. The second name may be referred to as a nickname, another name, a synonym, another name, or the like. The second designation is associated with at least the first designation. The second designation is an example of a person designation.
所属呼称は、第1呼称を有する人物の所属に関する呼称である。所属呼称は、少なくとも第1呼称と対応付けられる。特に限定されるものではないが、所属呼称は、第1呼称と階層的に対応付けられてもよい。例えば、XX本部、XX部、XX課、XX担当などの階層毎の所属呼称が第1呼称と対応付けられてもよい。 The affiliation name is a name related to the affiliation of the person who has the first name. The affiliation designation is associated with at least the first designation. Although not particularly limited, the affiliation designation may be hierarchically associated with the first designation. For example, the affiliation name for each layer such as XX headquarters, XX department, XX section, and XX charge may be associated with the first name.
相関関係は、第1呼称を有する人物と相関関係を有する人物を特定する情報である。相関関係は、少なくとも第1呼称と対応付けられる。相関関係は、第1呼称を有する人物に対する相関距離を表す情報を含む。例えば、第1呼称を有する人物と同じ部署に属する人物に対する相関距離は近く、第1呼称を有する人物と異なる部署に属する人物に対する相関距離は遠くてもよい。第1呼称を有する人物と業務上の繋がりを有する人物に対する相関距離は近く、第1呼称を有する人物と業務上の繋がりを有していない人物に対する相関距離は遠くてもよい。第1呼称を有する人物と個人的に親しい人物に対する相関距離は近く、第1呼称を有する人物と個人的に親しくない人物に対する相関距離は遠くてもよい。相関関係は、組織を構成する部署の相関図(例えば、組織図)に基づいて特定されてもよく、第1呼称を有する人物によって入力されてもよく、人事担当者などの第三者によって入力されてもい。 The correlation is information that identifies a person who has a correlation with a person who has the first designation. The correlation is associated with at least the first designation. The correlation includes information representing the correlation distance to the person having the first designation. For example, the correlation distance to a person who belongs to the same department as the person having the first designation may be short, and the correlation distance to the person belonging to a different department from the person having the first designation may be long. The correlation distance between the person having the first designation and the person having a business connection may be short, and the correlation distance between the person having the first designation and the person having no business connection may be long. The correlation distance between the person who has the first designation and the person who is personally close may be close, and the correlation distance between the person who has the first designation and the person who is not personally close may be long. The correlation may be specified based on a correlation diagram (for example, an organization chart) of the departments constituting the organization, may be input by a person having the first designation, or may be input by a third party such as a personnel person in charge. It may be done.
特徴語は、第1呼称を有する人物に関する特徴語である。特徴語は、少なくとも第1呼称と対応付けられる。特徴語は、第1呼称を有する人物の業務に関する特徴を表す用語を含んでもよく、第1呼称を有する人物の個人的な特徴を表す用語を含んでもよい。特徴語は、これらの用語の略称を含んでもよい。 The characteristic word is a characteristic word relating to a person having the first designation. The feature word is associated with at least the first designation. The characteristic term may include a term that expresses the business-related characteristics of the person having the first designation, or may include a term that expresses the personal characteristics of the person having the first designation. Feature words may include abbreviations for these terms.
図3では、氏が「AA」で共通する3名の従業員が存在するケースが例示されている。第1呼称が「AA XX」である人物は、マーケティング部に所属しており、第1呼称が「AA YY」である人物は、法務室に所属しており、第1呼称が「AA ZZ」である人物は、セールス部に所属している。 Figure 3 illustrates a case where he has three employees in common with "AA". The person whose first name is "AA XX" belongs to the marketing department, and the person whose first name is "AA YY" belongs to the legal office, and the first name is "AA ZZ". The person who is belongs to the sales department.
制御部33は、少なくとも1つのプロセッサを含んでもよい。少なくとも1つのプロセッサは、CPU(Central Processing Unit)、MPU(Micro Processing Unit)、GPU(Graphics Processing Unit)、1以上のIntegrated Circuit、1以上のDiscrete Circuit、及び、これらの組合せによって構成されてもよい。 The control unit 33 may include at least one processor. At least one processor may be composed of a CPU (Central Processing Unit), an MPU (Micro Processing Unit), a GPU (Graphics Processing Unit), one or more Integrated Circuits, one or more Discrete Circuits, and a combination thereof. ..
実施形態では、制御部33は、抽出部33A及び同定部33Bを有する。
In the embodiment, the control unit 33 has an
抽出部33Aは、テキスト文書において出現する人物に関する第1用語を抽出する抽出部を構成する。第1用語は、テキスト文書において出現する用語であるため、第1呼称(氏のみ、名のみ、氏名)である可能性があり、第2呼称である可能性もある。特に限定されるものではないが、第1用語は、既知の形態素解析などによって抽出されてもよい。
The
同定部33Bは、管理部32の人事DB(第1DB)を用いて、第1用語に相当する人物呼称を特定し、特定された人物呼称に基づいて、第1用語が示す対象人物を同定する同定部を構成する。
The
このような前提下において、第1用語に相当する人物呼称によって対象人物を1名に絞り込めないケースが考えられる。言い換えると、第1用語に相当する人物呼称によって絞り込まれた対象人物の候補が2名以上であるケースが考えられる。このようなケースにおいて、抽出部33A及び同定部33Bは、以下に示す動作を実行してもよい。
Under such a premise, there may be a case where the target person cannot be narrowed down to one person by the person name corresponding to the first term. In other words, there may be a case where there are two or more candidates for the target person narrowed down by the person name corresponding to the first term. In such a case, the
オプション1では、抽出部33Aは、テキスト文書において第1用語からの距離が所定距離内に出現する第2用語を抽出してもよい。第2用語は、既知の形態素解析などによって抽出されてもよい。第2用語は、周辺語と称されてもよい。距離及び所定距離は、文字数によって定義されてもよく、単語数によって定義されてもよく、文節数によって定義されてもよく、文数によって定義されてもよい。
In
同定部33Bは、管理部32の人事DB(第2DB)を用いて、第2用語に相当する所属呼称を特定し、特定された所属呼称に基づいて、人物呼称に基づいて特定された対象人物の候補の所属を特定する。同定部33Bは、人物呼称に基づいて特定された対象人物の候補の中から、特定された所属に基づいて対象人物を同定する。
The
オプション2では、同定部33Bは、管理部32の人事DB(第3DB)を用いて、人物呼称に基づいて特定された対象人物の候補と記述者との相関関係を特定する。同定部33Bは、人物呼称に基づいて特定された対象人物の候補の中から、特定された相関関係に基づいて対象人物を同定する。例えば、同定部33Bは、記述者に対する相関距離が最も近い人物を対象人物として同定してもよい。
In option 2, the
オプション3では、抽出部33Aは、テキスト文書において第1用語からの距離が所定距離内に出現する第2用語を抽出してもよい。第2用語は、既知の形態素解析などによって抽出されてもよい。第2用語は、周辺語と称されてもよい。距離及び所定距離は、文字数によって定義されてもよく、単語数によって定義されてもよく、文節数によって定義されてもよく、文数によって定義されてもよい。
In option 3, the
同定部33Bは、管理部32の人事DB(第4DB)を用いて、人物に関する特徴語を格納するデータベースを用いて、第2用語に相当する特徴語を特定する。同定部33Bは、人物呼称に基づいて特定された対象人物の候補の中から、特定された特徴語に基づいて対象人物を同定する。
The
ここで、上述したオプション1(所属呼称)、オプション2(相関関係)及びオプション3(特徴語)の中から選択された2以上のオプションが組み合わされてもよい。例えば、オプション1(所属呼称)に基づいて対象人物の候補の各々のスコアが算出されてもよい。オプション2(相関関係)に基づいて対象人物の候補の各々のスコアが算出されてもよい。オプション3(特徴語)に基づいて対象人物の候補の各々のスコアが算出されてもよい。スコアは、対象人物の候補が対象人物である可能性を表す指標であると考えてもよい。同定部33Bは、オプション1~オプション3の中から選択された2以上のオプションに基づいたスコアの合計が最も大きい対象人物の候補を対象人物として同定してもよい。
Here, two or more options selected from the above-mentioned option 1 (affiliation name), option 2 (correlation), and option 3 (characteristic word) may be combined. For example, the score of each candidate of the target person may be calculated based on option 1 (affiliation designation). The score of each candidate of the target person may be calculated based on option 2 (correlation). The score of each candidate of the target person may be calculated based on option 3 (characteristic word). The score may be considered as an index showing the possibility that the candidate of the target person is the target person. The
このようなケースにおいて、オプション1~オプション3に基づいたスコアに対して重付値が適用されてもよい。重付値は、オプション1~オプション3の優先順位を定めるための値である。
In such cases, valuations may be applied to the scores based on
例えば、同定部33Bは、人物呼称が第1呼称である場合に、特定された所属(すなわち、オプション1)を優先的に用いて対象人物を同定してもよい。「優先的に」とは、オプション1がオプション2及びオプション3よりも優先されることを意味してもよい。「優先的に」とは、オプション1に適用される重付値がオプション2及びオプション3に適用される重付値よりも大きいことを意味してもよい。このようなケースにおいては、テキスト文書に出願する第1用語が氏又は名などの第1呼称であるため、テキスト文書がオフィシャルである蓋然性が高いため、第2オプションが優先的に用いられてもよい。
For example, the
或いは、同定部33Bは、人物呼称が第2呼称である場合に、相関関係(すなわち、オプション2)を優先的に用いて対象人物を同定してもよい。「優先的に」とは、オプション2がオプション1及びオプション3よりも優先されることを意味してもよい。「優先的に」とは、オプション2に適用される重付値がオプション1及びオプション3に適用される重付値よりも大きいことを意味してもよい。このようなケースにおいては、テキスト文書に出願する第1用語が愛称などの第2呼称であるため、記述者に近しい人物が対象人物である蓋然性が高いため、第2オプションが優先的に用いられてもよい。
Alternatively, the
但し、これらの例は一例に過ぎず、例えば、同定部33Bは、人物呼称が第1呼称であっても、人物呼称が名のみである場合には、記述者に近しい人物が対象人物である蓋然性が高いため、第2オプションを優先的に用いてもよい。
However, these examples are only examples. For example, in the
(具体例)
以下において、実施形態の具体例について説明する。以下においては、「特許の件については法務室のAAさんにご相談下さい」というテキスト文書を例に挙げて、「AAさん」が示す対象人物の同定方法について説明する。テキスト文書の記述者は「PP QQ」である。
(Concrete example)
Hereinafter, specific examples of the embodiments will be described. In the following, the method of identifying the target person indicated by "Mr. AA" will be explained by taking as an example the text document "Please consult with Mr. AA of the Legal Office regarding patent matters". The author of the text document is "PP QQ".
第1に、抽出部33Aは、図4に示すように、テキスト文書の形態素解析などによって、「特許」、「法務室」、「AAさん」、「ご相談」などの用語を抽出する。「AAさん」は、第1用語の一例である。「特許」、「法務室」及び「ご相談」は、第2用語(周辺語)の一例である。
First, as shown in FIG. 4, the
第2に、同定部33Bは、図5に示すように、管理部32の人事DB(第1DB)を用いて、第1用語「AAさん」に相当する人物呼称「AA」を特定し、特定された人物呼称に基づいて、第1用語が示す対象人物の同定を試みる。ここでは、図3で例示したように、「AA XX」、「AA YY」、「AA ZZ」の3名が対象人物の候補として特定され、人物呼称のみでは対象人物を同定することができないケースが例示されている。
Second, as shown in FIG. 5, the
上述したオプション1が用いられる場合には、同定部33Bは、図6に示すように、管理部32の人事DB(第2DB)を用いて、第2用語「法務室」に相当する所属呼称「法務室」を特定し、特定された所属呼称「法務室」に基づいて、人物呼称に基づいて特定された対象人物の候補の所属を特定する。同定部33Bは、人物呼称に基づいて特定された対象人物の候補の中から、特定された所属に基づいて対象人物を同定する。ここでは、法務室に所属する「AA YY」が対象人物として同定されてもよい。
When the above-mentioned
或いは、オプション1に基づいたスコアとして、特定された所属呼称を有する対象人物の候補(ここでは、「AA YY」)のスコア”1”が算出され、特定された所属呼称を有していない対象人物の候補(ここでは、「AA XX」、「AA-ZZ」)のスコア”0”が算出されてもよい。
Alternatively, as a score based on
上述したオプション2が用いられる場合には、同定部33Bは、図7に示すように、管理部32の人事DB(第3DB)を用いて、人物呼称に基づいて特定された対象人物の候補と記述者との相関関係を特定する。同定部33Bは、人物呼称に基づいて特定された対象人物の候補の中から、特定された相関関係に基づいて対象人物を同定する。ここでは、記述者「PP QQ」に対する相関距離が最も近い「AA YY」が対象人物として同定されてもよい。
When the above-mentioned option 2 is used, the
或いは、オプション2に基づいたスコアとして、相関距離に基づいたスコアが算出されてもよい。相関距離に基づいたスコアは、1/(1+相関距離)で表されてもよい。相関距離は、記述者と対象人物の候補との間のパスの数によって定義されてもよい。例えば、「AA YY」のスコアは、0.5(=1/(1+1))であり、「AA ZZ」のスコアは、0.33(=1/(1+2))であり、「AA XX」のスコアは、0.25(=1/(1+3))であってもよい。 Alternatively, a score based on the correlation distance may be calculated as a score based on option 2. The score based on the correlation distance may be expressed as 1 / (1 + correlation distance). The correlation distance may be defined by the number of paths between the writer and the candidate target person. For example, the score for "AA YY" is 0.5 (= 1 / (1 + 1)), the score for "AA ZZ" is 0.33 (= 1 / (1 + 2)), and "AA X X". The score of may be 0.25 (= 1 / (1 + 3)).
上述したオプション3が用いられる場合には、同定部33Bは、図8に示すように、管理部32の人事DB(第4DB)を用いて、第2用語「特許」に相当する特徴語「特許」を特定する。同定部33Bは、人物呼称に基づいて特定された対象人物の候補の中から、特定された特徴語「特許」に基づいて対象人物を同定する。ここでは、「特許」を特徴語として有する「AA YY」が対象人物として同定されてもよい。
When the above-mentioned option 3 is used, the
或いは、オプション3に基づいたスコアとして、特定された特徴語を有する対象人物の候補(ここでは、「AA YY」)のスコア”1”が算出され、特定された特徴語を有していない対象人物の候補(ここでは、「AA XX」、「AA-ZZ」)のスコア”0”が算出されてもよい。 Alternatively, as a score based on option 3, the score "1" of the candidate of the target person having the specified characteristic word (here, "AA YY") is calculated, and the target having no specified characteristic word is calculated. A score "0" of a person candidate (here, "AA XX", "AA-ZZ") may be calculated.
ここで、オプション1~オプション3が組み合わされる場合には、図9に示すように、オプション1~オプション3に基づいたスコアの合計が算出され、スコアの合計が最も大きい対象人物の候補(ここでは、「AA YY」)を対象人物として同定してもよい。
Here, when
さらに、上述したように、オプション1~オプション3に基づいたスコアに重付値が適用されてもよい。重付値は、オプション1~オプション3の優先順位を定めるための値である。例えば、人物呼称が第1呼称である場合に、オプション1に適用される重付値がオプション2及びオプション3に適用される重付値よりも大きくてもよい。或いは、人物呼称が第2呼称である場合に、オプション2に適用される重付値がオプション1及びオプション3に適用される重付値よりも大きくてもよい。
Further, as described above, valuations may be applied to the scores based on
(エンティティ同定方法)
以下において、実施形態に係るエンティティ同定方法について説明する。ここでは、第1用語に相当する人物呼称によって絞り込まれた対象人物の候補が2名以上であり、オプション1~オプション3を用いて対象人物が同定されるケースについて説明する。
(Entity identification method)
Hereinafter, the entity identification method according to the embodiment will be described. Here, a case where there are two or more candidates for the target person narrowed down by the person designation corresponding to the first term, and the target person is identified using
図10に示すように、ステップS10において、エンティティ同定装置30は、テキスト文書の形態素解析などによって、第1用語及び第2用語(周辺語)を抽出する。
As shown in FIG. 10, in step S10, the
ステップS12において、エンティティ同定装置30は、管理部32の人事DB(第1DB)を用いて、第1用語に相当する人物呼称を特定する。
In step S12, the
ステップS14において、エンティティ同定装置30は、管理部32の人事DB(第2DB)を用いて、第2用語に相当する所属呼称を特定し、特定された所属呼称に基づいて、人物呼称に基づいて特定された対象人物の候補の所属を特定する(オプション1)。
In step S14, the
ステップS16において、エンティティ同定装置30は、管理部32の人事DB(第3DB)を用いて、人物呼称に基づいて特定された対象人物の候補と記述者との相関関係を特定する(オプション2)。
In step S16, the
ステップS18において、エンティティ同定装置30は、管理部32の人事DB(第4DB)を用いて、第2用語に相当する特徴語を特定する(オプション3)。
In step S18, the
ステップS20において、エンティティ同定装置30は、人物呼称に基づいて特定された対象人物の候補の中から、オプション1~オプション3に基づいたスコアに基づいて対象人物を特定する。オプション1~オプション3に基づいたスコアに重付値が適用されてもよい。
In step S20, the
(作用及び効果)
実施形態では、エンティティ同定装置30は、テキスト文書において出現する人物に関する第1用語を抽出し、第1用語に相当する人物呼称を特定し、特定された人物呼称に基づいて、第1用語が示す対象人物を同定する。このような構成によれば、テキスト文書において出現する対象人物(エンティティ)を適切に同定することができる。
(Action and effect)
In an embodiment, the
実施形態では、エンティティ同定装置30は、人物呼称に基づいて特定された対象人物の候補の中から、オプション1~オプション3の中から選択された1以上のオプションに基づいて対象人物を特定してもよい。このような構成によれば、第1用語に相当する人物呼称によって絞り込まれた対象人物の候補が2名以上であっても、テキスト文書において出現する対象人物(エンティティ)を適切に同定することができる。
In the embodiment, the
実施形態では、オプション1~オプション3に基づいたスコアに重付値が適用されてもよい。このような構成によれば、オプション1~オプション3の優先順位を適切に定めることができる。従って、テキスト文書において出現する対象人物(エンティティ)を適切に同定することができる。
In embodiments, weighted values may be applied to scores based on
[その他の実施形態]
本発明は上述した実施形態によって説明したが、この開示の一部をなす論述及び図面は、この発明を限定するものであると理解すべきではない。この開示から当業者には様々な代替実施形態、実施例及び運用技術が明らかとなろう。
[Other embodiments]
Although the invention has been described by embodiments described above, the statements and drawings that form part of this disclosure should not be understood to limit the invention. This disclosure will reveal to those skilled in the art various alternative embodiments, examples and operational techniques.
上述した開示では特に触れていないが、第1用語に相当する人物呼称によって対象人物を1名に絞り込める場合には、オプション1~オプション3は用いられなくてもよい。
Although not specifically mentioned in the above disclosure,
上述した開示では、テキスト文書において出現する対象人物が従業員であるケースについて主として例示した。しかしながら、実施形態はこれに限定されるものではない。対象人物は、第1呼称、第2呼称、所属呼称、相関関係、特徴語などが管理部32によって管理される人物であればよい。例えば、対象人物は、法人の取引業者に属する人物を含んでもよい。
In the above disclosure, the case where the target person appearing in the text document is an employee is mainly illustrated. However, the embodiments are not limited to this. The target person may be a person whose first name, second name, affiliation name, correlation, characteristic word, etc. are managed by the
上述した開示では特に触れていないが、人物呼称は人称代名詞を含んでもよい。人称代名詞は、上述した第2呼称と同様に取り扱われてもよい。 Although not specifically mentioned in the above disclosure, the person designation may include a personal pronoun. Personal pronouns may be treated in the same way as the second designation described above.
上述した開示では特に触れていないが、「第1用語に相当する人物呼称」、「第2用語に相当する所属呼称」、「第2用語に相当する特徴語」などにおいて、「相当」は、両者の完全一致を意味する用語であってもよく、両者の部分一致を意味する用語であってもよい。或いは、「相当」は、両者の類似度がスコア化可能である場合に、両者の類似度が閾値以上であることを意味してもよい。類似度のスコア化は、各用語のユーグリッド距離を用いたスコア化、各用語のコサイン類似度を用いたスコア化など、既知の方法が用いられてもよい。 Although not specifically mentioned in the above disclosure, "equivalent" is used in "personal name corresponding to the first term", "affiliation name corresponding to the second term", "characteristic name corresponding to the second term", etc. It may be a term meaning an exact match between the two, or it may be a term meaning a partial match between the two. Alternatively, "equivalent" may mean that the similarity between the two is equal to or greater than the threshold value when the similarity between the two can be scored. For scoring the similarity, a known method such as scoring using the Eugrid distance of each term and scoring using the cosine similarity of each term may be used.
上述した開示では、第1DB~第4DBがエンティティ同定装置30に設けられるケースについて例示した。しかしながら、上述した開示はこれに限定されるものではない。第1DB~第4DBは、エンティティ同定装置30とは別体として、エンティティ同定装置30と通信可能な同一の外部サーバに含まれてもよく、エンティティ同定装置30と通信可能な別々の外部サーバに含まれてもよい。第1DB~第4DBの少なくともいずれか1は、SaaS(Service as a Software)によって実現されてもよい。
In the above-mentioned disclosure, the case where the 1st DB to the 4th DB are provided in the
上述した開示では特に触れていないが、エンティティ同定装置30が行う各処理をコンピュータに実行させるプログラムが提供されてもよい。また、プログラムは、コンピュータ読取り可能媒体に記録されていてもよい。コンピュータ読取り可能媒体を用いれば、コンピュータにプログラムをインストールすることが可能である。ここで、プログラムが記録されたコンピュータ読取り可能媒体は、非一過性の記録媒体であってもよい。非一過性の記録媒体は、特に限定されるものではないが、例えば、CD-ROMやDVD-ROM等の記録媒体であってもよい。
Although not specifically mentioned in the above-mentioned disclosure, a program that causes a computer to execute each process performed by the
或いは、エンティティ同定装置30が行う各処理を実行するためのプログラムを記憶するメモリ及びメモリに記憶されたプログラムを実行するプロセッサによって構成されるチップが提供されてもよい。
Alternatively, a chip composed of a memory for storing a program for executing each process performed by the
10…第1端末、20…第2端末、30…エンティティ同定装置、31…通信部、32…管理部、33…制御部、100…エンティティ同定システム、200…ネットワーク
10 ... 1st terminal, 20 ... 2nd terminal, 30 ... entity identification device, 31 ... communication unit, 32 ... management unit, 33 ... control unit, 100 ... entity identification system, 200 ... network
Claims (7)
人物に関する呼称を格納するデータベースを用いて、前記第1用語に相当する人物呼称を特定し、特定された人物呼称に基づいて特定された対象人物の候補の中から、前記テキスト文書に関する情報に基づいて、前記第1用語が示す対象人物を同定する同定部と、を備える、エンティティ同定装置。 An extractor that extracts the first term related to a person appearing in a text document,
Using the database that stores the names related to the person, the person names corresponding to the first term are identified, and the candidate of the target person identified based on the specified person names is based on the information about the text document. An entity identification device comprising an identification unit for identifying a target person indicated by the first term.
前記同定部は、
人物の所属に関する呼称を格納するデータベースを用いて、前記第2用語に相当する所属呼称を特定し、特定された所属呼称に基づいて、前記人物呼称に基づいて特定された対象人物の候補の所属を特定し、
前記人物呼称に基づいて特定された対象人物の候補の中から、特定された所属に基づいて前記対象人物を同定する、請求項1に記載のエンティティ同定装置。 The extraction unit extracts the second term in which the distance from the first term appears within a predetermined distance in the text document.
The identification unit is
Using a database that stores names related to the affiliation of a person, the affiliation name corresponding to the second term is specified, and based on the specified affiliation name, the affiliation of the candidate of the target person specified based on the person name. Identify and
The entity identification device according to claim 1, wherein the target person is identified based on the specified affiliation from the candidates of the target person specified based on the person designation.
前記同定部は、
人物の相関に関する相関関係を格納するデータベースを用いて、前記人物呼称に基づいて特定された対象人物の候補と前記記述者との相関関係を特定し、
前記人物呼称に基づいて特定された対象人物の候補の中から、特定された相関関係に基づいて前記対象人物を同定する、請求項1乃至請求項3のいずれか1項に記載のエンティティ同定装置。 The text document is a document that can identify the writer of the text document.
The identification unit is
Using a database that stores the correlations related to the correlation of people, the correlation between the candidate of the target person specified based on the person's name and the writer is identified.
The entity identification device according to any one of claims 1 to 3, wherein the target person is identified based on the specified correlation from the candidates of the target person specified based on the person designation. ..
前記同定部は、
人物に関する特徴語を格納するデータベースを用いて、前記第2用語に相当する特徴語を特定し、
前記人物呼称に基づいて特定された対象人物の候補の中から、特定された特徴語に基づいて前記対象人物を同定する、請求項1乃至請求項5のいずれか1項に記載のエンティティ同定装置。 The extraction unit extracts the second term in which the distance from the first term appears within a predetermined distance in the text document.
The identification unit is
Using a database that stores characteristic words related to a person, identify the characteristic words that correspond to the second term, and then identify them.
The entity identification device according to any one of claims 1 to 5, which identifies the target person based on the specified feature word from the candidates of the target person specified based on the person designation. ..
前記エンティティ同定装置が、人物に関する呼称を格納するデータベースを用いて、前記第1用語に相当する人物呼称を特定するステップと、
前記エンティティ同定装置が、特定された人物呼称に基づいて特定された対象人物の候補の中から、前記テキスト文書に関する情報に基づいて、前記第1用語が示す対象人物を同定するステップと、を備える、エンティティ同定方法。 The step by which the entity identification device extracts the first term for the person appearing in the text document,
A step in which the entity identification device identifies a person's name corresponding to the first term by using a database for storing a person's name.
The entity identification device comprises a step of identifying a target person indicated by the first term from among candidates for a target person identified based on a specified person designation, based on information about the text document . , Entity identification method.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022002448A JP7074940B1 (en) | 2022-01-11 | 2022-01-11 | Entity identification device and entity identification method |
JP2022078797A JP2023102242A (en) | 2022-01-11 | 2022-05-12 | Entity identification device and entity identification method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022002448A JP7074940B1 (en) | 2022-01-11 | 2022-01-11 | Entity identification device and entity identification method |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022078797A Division JP2023102242A (en) | 2022-01-11 | 2022-05-12 | Entity identification device and entity identification method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP7074940B1 true JP7074940B1 (en) | 2022-05-24 |
JP2023102088A JP2023102088A (en) | 2023-07-24 |
Family
ID=81731726
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022002448A Active JP7074940B1 (en) | 2022-01-11 | 2022-01-11 | Entity identification device and entity identification method |
JP2022078797A Pending JP2023102242A (en) | 2022-01-11 | 2022-05-12 | Entity identification device and entity identification method |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022078797A Pending JP2023102242A (en) | 2022-01-11 | 2022-05-12 | Entity identification device and entity identification method |
Country Status (1)
Country | Link |
---|---|
JP (2) | JP7074940B1 (en) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005346495A (en) * | 2004-06-03 | 2005-12-15 | Oki Electric Ind Co Ltd | Information processing system, information processing method, and information processing program |
JP2006171876A (en) * | 2004-12-13 | 2006-06-29 | Ricoh Co Ltd | Information search apparatus |
JP2016149154A (en) * | 2009-06-29 | 2016-08-18 | 真旭 徳山 | Program, information processor, and information processing method |
-
2022
- 2022-01-11 JP JP2022002448A patent/JP7074940B1/en active Active
- 2022-05-12 JP JP2022078797A patent/JP2023102242A/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005346495A (en) * | 2004-06-03 | 2005-12-15 | Oki Electric Ind Co Ltd | Information processing system, information processing method, and information processing program |
JP2006171876A (en) * | 2004-12-13 | 2006-06-29 | Ricoh Co Ltd | Information search apparatus |
JP2016149154A (en) * | 2009-06-29 | 2016-08-18 | 真旭 徳山 | Program, information processor, and information processing method |
Also Published As
Publication number | Publication date |
---|---|
JP2023102242A (en) | 2023-07-24 |
JP2023102088A (en) | 2023-07-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7163355B2 (en) | Identification of tasks in messages | |
US11080304B2 (en) | Feature vector profile generation for interviews | |
US11455301B1 (en) | Method and system for identifying entities | |
CA2854263C (en) | Systems, methods, and interfaces for analyzing conceptually-related portions of text | |
US8768686B2 (en) | Machine translation with side information | |
US10803247B2 (en) | Intelligent content detection | |
McCammon | Tweeted, deleted: An exploratory study of the US government’s digital memory holes | |
Swaminathan et al. | Wearmail: On-the-go access to information in your email with a privacy-preserving human computation workflow | |
JP2023168225A (en) | Recruitment support device and recruitment support method | |
Li et al. | Development of an intelligent NLP-based audit plan knowledge discovery system | |
US10574605B2 (en) | Validating the tone of an electronic communication based on recipients | |
JP7074940B1 (en) | Entity identification device and entity identification method | |
WO2021211300A1 (en) | System and method for summerization of customer interaction | |
US6921266B2 (en) | Training-curriculum creating system, server, method and computer program for creating a training curriculum | |
CN116402166B (en) | Training method and device of prediction model, electronic equipment and storage medium | |
EP4187463A1 (en) | An artificial intelligence powered digital meeting assistant | |
US20170339083A1 (en) | Validating an Attachment of an Electronic Communication Based on Recipients | |
JP2023168194A (en) | Recruitment support device and recruitment support method | |
US11734321B2 (en) | Method and system for retrieval of prior court cases using witness testimonies | |
JP2017027168A (en) | Taste learning method, taste learning program and taste learning device | |
CN112597295B (en) | Digest extraction method, digest extraction device, computer device, and storage medium | |
Omoniyi | Outsourcing and migrational anxieties in discourse perspectives | |
US20230196007A1 (en) | Method and system for exemplar learning for templatizing documents across data sources | |
US11829424B2 (en) | Discovering latent custodians and documents in an E-discovery system | |
JP4647442B2 (en) | Data display device, data display method, and data display program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220111 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20220111 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220301 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220418 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220509 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220512 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7074940 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |