JP7074940B1 - Entity identification device and entity identification method - Google Patents

Entity identification device and entity identification method Download PDF

Info

Publication number
JP7074940B1
JP7074940B1 JP2022002448A JP2022002448A JP7074940B1 JP 7074940 B1 JP7074940 B1 JP 7074940B1 JP 2022002448 A JP2022002448 A JP 2022002448A JP 2022002448 A JP2022002448 A JP 2022002448A JP 7074940 B1 JP7074940 B1 JP 7074940B1
Authority
JP
Japan
Prior art keywords
person
name
term
target person
specified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022002448A
Other languages
Japanese (ja)
Other versions
JP2023102088A (en
Inventor
博教 友部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BizReach Inc
Original Assignee
BizReach Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BizReach Inc filed Critical BizReach Inc
Priority to JP2022002448A priority Critical patent/JP7074940B1/en
Priority to JP2022078797A priority patent/JP2023102242A/en
Application granted granted Critical
Publication of JP7074940B1 publication Critical patent/JP7074940B1/en
Publication of JP2023102088A publication Critical patent/JP2023102088A/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】 テキスト文書に出現する人物を適切に同定することを可能とするエンティティ同定装置及びエンティティ同定方法を提供する。【解決手段】 エンティティ同定装置は、テキスト文書において出現する人物に関する第1用語を抽出する抽出部と、人物に関する呼称を格納するデータベースを用いて、前記第1用語に相当する人物呼称を特定し、特定された人物呼称に基づいて、前記第1用語が示す対象人物を同定する同定部と、を備える。【選択図】 図2PROBLEM TO BE SOLVED: To provide an entity identification device and an entity identification method capable of appropriately identifying a person appearing in a text document. SOLUTION: An entity identification device identifies a person name corresponding to the first term by using an extraction unit for extracting a first term related to a person appearing in a text document and a database storing a name related to the person. It is provided with an identification unit for identifying a target person indicated by the first term based on the specified person designation. [Selection diagram] Fig. 2

Description

本発明は、エンティティ同定装置及びエンティティ同定方法に関する。 The present invention relates to an entity identification device and an entity identification method.

従来、会社などの組織において、チャットやメールなどのコミュニケーションツールの導入が進んでいる。このようなコミュニケーションツールを用いると、メッセージなどのテキスト文書が膨大な量になる。 Conventionally, communication tools such as chat and e-mail have been introduced in organizations such as companies. With such a communication tool, the amount of text documents such as messages becomes enormous.

また、テキスト文書を解析することによって、テキスト文書の分類などに活用する利用シーンが想定される。例えば、テキスト文書に含まれる単語の置換、追加又は削除によってテキスト文書の意味を変更し、機械学習を用いてテキスト文書を階層的に分類する技術が提案されている(例えば、特許文献1)。 In addition, by analyzing text documents, it is assumed that they will be used for classification of text documents. For example, a technique has been proposed in which the meaning of a text document is changed by replacing, adding, or deleting words contained in the text document, and the text document is classified hierarchically by using machine learning (for example, Patent Document 1).

特開2018-106390号公報Japanese Unexamined Patent Publication No. 2018-106390

上述した背景下において、発明者等は、鋭意検討の結果、組織で用いるコミュニケーションツールについて、テキスト文書に出現する人物を同定することが極めて重要であることを見出した。例えば、テキスト文書に出現する人物を同定することによって、その人物に関するテキスト文書を抽出することができ、業務の円滑化などを図ることができる。 Against the background described above, the inventors have found that it is extremely important to identify the person who appears in the text document for the communication tool used in the organization as a result of diligent studies. For example, by identifying a person who appears in a text document, a text document related to that person can be extracted, and business can be facilitated.

しかしながら、コミュニケーションツールにおいては、テキスト文書において人物の氏名(フルネーム)が用いられることは希であり、人物の名字のみが用いられたり、人物の異名(ニックネームなど)が用いられたりすることも多い。 However, in communication tools, it is rare that a person's name (full name) is used in a text document, and only the person's surname is used, or a person's synonym (nickname, etc.) is often used.

一方で、上述した機械学習では、教師データが必要とされ、人物の同定に特化したものでもないため、教師データの生成が煩雑であり、適切に人物を同定することができない。 On the other hand, in the above-mentioned machine learning, teacher data is required and it is not specialized in identifying a person, so that the generation of teacher data is complicated and it is not possible to identify a person appropriately.

そこで、本発明は、上述した課題を解決するためになされたものであり、テキスト文書に出現する人物を適切に同定することを可能とするエンティティ同定装置及びエンティティ同定方法を提供することを目的とする。 Therefore, the present invention has been made to solve the above-mentioned problems, and an object of the present invention is to provide an entity identification device and an entity identification method capable of appropriately identifying a person appearing in a text document. do.

開示の一態様は、テキスト文書において出現する人物に関する第1用語を抽出する抽出部と、人物に関する呼称を格納するデータベースを用いて、前記第1用語に相当する人物呼称を特定し、特定された人物呼称に基づいて、前記第1用語が示す対象人物を同定する同定部と、を備える、エンティティ同定装置である。 One aspect of the disclosure is to identify and identify the person name corresponding to the first term by using an extraction unit for extracting the first term related to the person appearing in the text document and a database storing the name related to the person. It is an entity identification device including an identification unit for identifying a target person indicated by the first term based on a person designation.

開示の一態様は、テキスト文書において出現する人物に関する第1用語を抽出するステップと、人物に関する呼称を格納するデータベースを用いて、前記第1用語に相当する人物呼称を特定するステップと、特定された人物呼称に基づいて、前記第1用語が示す対象人物を同定するステップと、を備える、エンティティ同定方法である。 One aspect of the disclosure is specified as a step of extracting a first term relating to a person appearing in a text document and a step of identifying a person designation corresponding to the first term using a database storing names relating to the person. It is an entity identification method including a step of identifying a target person indicated by the first term based on a person name.

本発明によれば、テキスト文書に出現する人物を適切に同定することを可能とするエンティティ同定装置及びエンティティ同定方法を提供することができる。 INDUSTRIAL APPLICABILITY According to the present invention, it is possible to provide an entity identification device and an entity identification method that can appropriately identify a person appearing in a text document.

図1は、実施形態に係るエンティティ同定システム100を示す図である。FIG. 1 is a diagram showing an entity identification system 100 according to an embodiment. 図2は、実施形態に係るエンティティ同定装置30を示す図である。FIG. 2 is a diagram showing an entity identification device 30 according to an embodiment. 図3は、実施形態に係る管理部32に格納されたデータの一例を示す図である。FIG. 3 is a diagram showing an example of data stored in the management unit 32 according to the embodiment. 図4は、実施形態に係る具体例を説明するための図である。FIG. 4 is a diagram for explaining a specific example according to the embodiment. 図5は、実施形態に係る具体例を説明するための図である。FIG. 5 is a diagram for explaining a specific example according to the embodiment. 図6は、実施形態に係る具体例を説明するための図である。FIG. 6 is a diagram for explaining a specific example according to the embodiment. 図7は、実施形態に係る具体例を説明するための図である。FIG. 7 is a diagram for explaining a specific example according to the embodiment. 図8は、実施形態に係る具体例を説明するための図である。FIG. 8 is a diagram for explaining a specific example according to the embodiment. 図9は、実施形態に係るスコアを説明するための図である。FIG. 9 is a diagram for explaining a score according to an embodiment. 図10は、実施形態に係るエンティティ同定方法を示す図である。FIG. 10 is a diagram showing an entity identification method according to an embodiment.

以下において、実施形態について図面を参照しながら説明する。なお、以下の図面の記載において、同一又は類似の部分には、同一又は類似の符号を付している。 Hereinafter, embodiments will be described with reference to the drawings. In the description of the drawings below, the same or similar parts are designated by the same or similar reference numerals.

但し、図面は模式的なものであり、各寸法の比率などは現実のものとは異なる場合があることに留意すべきである。従って、具体的な寸法などは以下の説明を参酌して判断すべきである。また、図面相互間においても互いの寸法の関係又は比率が異なる部分が含まれている場合があることは勿論である。 However, it should be noted that the drawings are schematic and the ratio of each dimension may differ from the actual one. Therefore, the specific dimensions should be determined in consideration of the following explanation. In addition, it goes without saying that there may be a portion where the relations or ratios of the dimensions of the drawings are different from each other.

[開示の概要]
開示の概要に係るエンティティ同定装置は、テキスト文書において出現する人物に関する第1用語を抽出する抽出部と、人物に関する呼称を格納するデータベースを用いて、前記第1用語に相当する人物呼称を特定し、特定された人物呼称に基づいて、前記第1用語が示す対象人物を同定する同定部と、を備える。
[Summary of disclosure]
The entity identification device according to the outline of the disclosure identifies the person name corresponding to the first term by using the extraction unit that extracts the first term related to the person appearing in the text document and the database that stores the name related to the person. , The identification unit for identifying the target person indicated by the first term based on the specified person designation.

開示の概要に係るエンティティ同定方法は、テキスト文書において出現する人物に関する第1用語を抽出するステップと、人物に関する呼称を格納するデータベースを用いて、前記第1用語に相当する人物呼称を特定するステップと、特定された人物呼称に基づいて、前記第1用語が示す対象人物を同定するステップと、を備える。 The entity identification method according to the outline of the disclosure includes a step of extracting the first term related to a person appearing in a text document and a step of identifying a person name corresponding to the first term using a database storing the name related to the person. And a step of identifying the target person indicated by the first term based on the identified person designation.

開示の概要によれば、エンティティ同定装置は、テキスト文書において出現する人物に関する第1用語を抽出し、第1用語に相当する人物呼称を特定し、特定された人物呼称に基づいて、第1用語が示す対象人物を同定する。このような構成によれば、テキスト文書において出現する対象人物(エンティティ)を適切に同定することができる。 According to the summary of the disclosure, the entity identification device extracts the first term relating to the person appearing in the text document, identifies the person designation corresponding to the first term, and based on the identified person designation, the first term. Identify the target person indicated by. According to such a configuration, the target person (entity) that appears in the text document can be appropriately identified.

特に限定されるものではないが、テキスト文書は、チャットやメールなどのコミュニケーションツールの内容であってもよい。従って、テキスト文書の差出人については既知であってもよい。同様に、テキスト文書の宛名人についても既知であってもよい。なお、差出人は、記述者又は発話者などと読み替えられてもよい。このような想定下において、エンティティ同定装置によって同定される対象人物は、差出人及び宛名人以外の人物であってもよい。 Although not particularly limited, the text document may be the content of a communication tool such as chat or email. Therefore, the sender of the text document may be known. Similarly, the addressee of the text document may be known. The sender may be read as a writer, a speaker, or the like. Under such an assumption, the target person identified by the entity identification device may be a person other than the sender and the addressee.

[実施形態]
(エンティティ同定システム)
以下において、実施形態に係るエンティティ同定システムについて説明する。図1は、実施形態に係るエンティティ同定システム100を示す図である。特に限定されるものではないが、エンティティ同定システム100は、テキスト文書において出現する第1用語が示す対象人物を同定する。テキスト文書は、チャットやメールなどのコミュニケーションツールの内容であってもよい。
[Embodiment]
(Entity identification system)
Hereinafter, the entity identification system according to the embodiment will be described. FIG. 1 is a diagram showing an entity identification system 100 according to an embodiment. Although not particularly limited, the entity identification system 100 identifies the target person indicated by the first term appearing in the text document. The text document may be the content of a communication tool such as chat or email.

さらに、コミュニケーションツールは、組織で用いられるツールであってもよい。組織は、法人格を有する団体であってもよく、法人格を有していない団体であてもよい。人物は、組織と雇用関係を有する人物であってもよく、組織と契約関係を有する人物であってもよい。特に限定されるものではないが、以下においては、組織が法人であり、人物が従業員であるケースについて例示する。 Further, the communication tool may be a tool used in the organization. The organization may be an organization having legal personality or an organization without legal personality. The person may be a person who has an employment relationship with the organization or a person who has a contractual relationship with the organization. Although not particularly limited, the following exemplifies a case where the organization is a corporation and the person is an employee.

図1に示すように、エンティティ同定システム100は、第1端末10と、第2端末20と、エンティティ同定装置30と、を有する。第1端末10、第2端末20、エンティティ同定装置30は、ネットワーク200によって接続される。特に限定されるものではないが、ネットワーク200は、インターネット網によって構成されてもよい。ネットワーク200は、ローカルエリアネットワークを含んでもよく、移動体通信網を含んでもよく、VPN(Virtual Private Network)を含んでもよい。 As shown in FIG. 1, the entity identification system 100 includes a first terminal 10, a second terminal 20, and an entity identification device 30. The first terminal 10, the second terminal 20, and the entity identification device 30 are connected by the network 200. Although not particularly limited, the network 200 may be configured by an Internet network. The network 200 may include a local area network, a mobile communication network, or a VPN (Virtual Private Network).

第1端末10は、テキスト文書の差出人が使用する端末である。例えば、第1端末10は、パーソナルコンピュータであってもよく、スマートフォンであってもよく、タブレット端末であってもよい。特に限定されるものではないが、差出人は、第1端末10を用いて、テキスト文書を入力してもよい。 The first terminal 10 is a terminal used by the sender of the text document. For example, the first terminal 10 may be a personal computer, a smartphone, or a tablet terminal. Although not particularly limited, the sender may input a text document using the first terminal 10.

第2端末20は、テキスト文書の宛名人が使用する端末である。第2端末20は、パーソナルコンピュータであってもよく、スマートフォンであってもよく、タブレット端末であってもよい。特に限定されるものではないが、宛名人は、第2端末20を用いて、テキスト文書を閲覧してもよい。 The second terminal 20 is a terminal used by the addressee of the text document. The second terminal 20 may be a personal computer, a smartphone, or a tablet terminal. Although not particularly limited, the addressee may view the text document using the second terminal 20.

特に限定されるものではないが、宛名人は、2以上の宛名人であってもよい。例えば、コミュニケーションツールがメールである場合には、TOで指定された宛名人だけではなく、CC(Carbon Copy)又はBCC(Blind Carbon Copy)で指定された宛名人を含んでもよい。コミュニケーションツールがグループチャットである場合には、宛名人は、グループチャットに含まれるメンバーであってもよい。或いは、宛名人が特定する機能(メンション機能)が用いられる場合には、宛名人は、メンション機能で指定されたメンバーであってもよい。 Although not particularly limited, the addressee may be two or more addressees. For example, when the communication tool is e-mail, not only the addressee specified by TO but also the addressee specified by CC (Carbon Copy) or BCC (Blind Carbon Copy) may be included. When the communication tool is a group chat, the addressee may be a member included in the group chat. Alternatively, when the function specified by the addressee (mention function) is used, the addressee may be a member designated by the mention function.

エンティティ同定装置30は、テキスト文書において出現する第1用語が示す対象人物を同定する装置である。エンティティ同定装置30の詳細については後述する。 The entity identification device 30 is a device for identifying a target person indicated by the first term appearing in a text document. The details of the entity identification device 30 will be described later.

(エンティティ同定装置)
以下において、実施形態に係るエンティティ同定装置について説明する。図2は、実施形態に係るエンティティ同定装置30を示す図である。図2に示すように、エンティティ同定装置30は、通信部31と、管理部32と、制御部33と、を有する。
(Entity identification device)
Hereinafter, the entity identification device according to the embodiment will be described. FIG. 2 is a diagram showing an entity identification device 30 according to an embodiment. As shown in FIG. 2, the entity identification device 30 includes a communication unit 31, a management unit 32, and a control unit 33.

通信部31は、通信モジュールによって構成される。通信モジュールは、IEEE802.11a/b/g/n/ac/ax、LTE、5G、6Gなどの規格に準拠する無線通信モジュールであってもよく、IEEE802.3などの規格に準拠する有線通信モジュールであってもよい。 The communication unit 31 is composed of a communication module. The communication module may be a wireless communication module compliant with standards such as IEEE802.11a / b / g / n / ac / ax, LTE, 5G, and 6G, and a wired communication module compliant with standards such as IEEE802.3. May be.

実施形態では、通信部31は、テキスト文書を受信する。例えば、通信部31は、コミュニケーションツールを用いて送信又は受信されるテキスト文書を格納するデータベースからテキスト文書を受信してもよい。或いは、通信部31は、コミュニケーションツールと連携しており、コミュニケーションツールを用いてテキスト文書が送信又は受信された段階でテキスト文書を受信してもよい。 In the embodiment, the communication unit 31 receives the text document. For example, the communication unit 31 may receive a text document from a database that stores a text document transmitted or received using a communication tool. Alternatively, the communication unit 31 may cooperate with the communication tool and receive the text document at the stage when the text document is transmitted or received by using the communication tool.

管理部32は、SSD(Solid State Drive)、HDD(Hard Disk Drive)などの記憶媒体によって構成されており、様々な情報を格納する。 The management unit 32 is composed of storage media such as SSD (Solid State Drive) and HDD (Hard Disk Drive), and stores various information.

実施形態では、管理部32は、人物に関する呼称を格納するデータベース(以下、第1DB)を有してもよい。管理部32は、人物の所属に関する呼称を格納するデータベース(以下、第2DB)を有してもよい。管理部32は、人物の相関に関する相関関係を格納するデータベース(以下、第3DB)を有してもよい。管理部32は、人物に関する特徴語を格納するデータベース(以下、第4DB)を有してもよい。特に限定されるものではないが、第1DB、第2DB、第3DB及び第4DBは、法人に属する従業員の人事に関するデータを格納する人事DBに含まれてもよい。 In the embodiment, the management unit 32 may have a database (hereinafter referred to as a first DB) for storing names related to a person. The management unit 32 may have a database (hereinafter referred to as a second DB) for storing names related to the affiliation of a person. The management unit 32 may have a database (hereinafter referred to as a third DB) for storing the correlation related to the correlation of people. The management unit 32 may have a database (hereinafter, 4th DB) for storing characteristic words related to a person. Although not particularly limited, the first DB, the second DB, the third DB, and the fourth DB may be included in the personnel DB that stores data related to the personnel of employees belonging to the corporation.

例えば、管理部32は、図3に示すデータを格納する人事DBを有してもよい。図3に示すように、管理部32は、第1呼称、第2呼称、所属呼称、相関関係、特徴語を対応付けるデータを管理してもよい。 For example, the management unit 32 may have a personnel database for storing the data shown in FIG. As shown in FIG. 3, the management unit 32 may manage data associated with the first designation, the second designation, the affiliation designation, the correlation, and the characteristic word.

第1呼称は、氏及び名の少なくとも一部を含む呼称である。第1呼称は、本名、実名などと称されてもよい。実施形態では、”氏”のみを第1呼称と考えてもよく、”名”のみを第1呼称と考えてもよい。第1呼称は、人物呼称の一例である。 The first designation is a designation that includes at least a part of the name and name. The first name may be referred to as a real name, a real name, or the like. In the embodiment, only "Mr." may be considered as the first designation, and only "name" may be considered as the first designation. The first designation is an example of a person designation.

第2呼称は、氏及び名の少なくとも一部を含む呼称以外の呼称である。第2呼称は、愛称(ニックネーム)、別名、異名、別名などと称されてもよい。第2呼称は、少なくとも第1呼称と対応付けられる。第2呼称は、人物呼称の一例である。 The second designation is a designation other than the designation including at least a part of the name and the name. The second name may be referred to as a nickname, another name, a synonym, another name, or the like. The second designation is associated with at least the first designation. The second designation is an example of a person designation.

所属呼称は、第1呼称を有する人物の所属に関する呼称である。所属呼称は、少なくとも第1呼称と対応付けられる。特に限定されるものではないが、所属呼称は、第1呼称と階層的に対応付けられてもよい。例えば、XX本部、XX部、XX課、XX担当などの階層毎の所属呼称が第1呼称と対応付けられてもよい。 The affiliation name is a name related to the affiliation of the person who has the first name. The affiliation designation is associated with at least the first designation. Although not particularly limited, the affiliation designation may be hierarchically associated with the first designation. For example, the affiliation name for each layer such as XX headquarters, XX department, XX section, and XX charge may be associated with the first name.

相関関係は、第1呼称を有する人物と相関関係を有する人物を特定する情報である。相関関係は、少なくとも第1呼称と対応付けられる。相関関係は、第1呼称を有する人物に対する相関距離を表す情報を含む。例えば、第1呼称を有する人物と同じ部署に属する人物に対する相関距離は近く、第1呼称を有する人物と異なる部署に属する人物に対する相関距離は遠くてもよい。第1呼称を有する人物と業務上の繋がりを有する人物に対する相関距離は近く、第1呼称を有する人物と業務上の繋がりを有していない人物に対する相関距離は遠くてもよい。第1呼称を有する人物と個人的に親しい人物に対する相関距離は近く、第1呼称を有する人物と個人的に親しくない人物に対する相関距離は遠くてもよい。相関関係は、組織を構成する部署の相関図(例えば、組織図)に基づいて特定されてもよく、第1呼称を有する人物によって入力されてもよく、人事担当者などの第三者によって入力されてもい。 The correlation is information that identifies a person who has a correlation with a person who has the first designation. The correlation is associated with at least the first designation. The correlation includes information representing the correlation distance to the person having the first designation. For example, the correlation distance to a person who belongs to the same department as the person having the first designation may be short, and the correlation distance to the person belonging to a different department from the person having the first designation may be long. The correlation distance between the person having the first designation and the person having a business connection may be short, and the correlation distance between the person having the first designation and the person having no business connection may be long. The correlation distance between the person who has the first designation and the person who is personally close may be close, and the correlation distance between the person who has the first designation and the person who is not personally close may be long. The correlation may be specified based on a correlation diagram (for example, an organization chart) of the departments constituting the organization, may be input by a person having the first designation, or may be input by a third party such as a personnel person in charge. It may be done.

特徴語は、第1呼称を有する人物に関する特徴語である。特徴語は、少なくとも第1呼称と対応付けられる。特徴語は、第1呼称を有する人物の業務に関する特徴を表す用語を含んでもよく、第1呼称を有する人物の個人的な特徴を表す用語を含んでもよい。特徴語は、これらの用語の略称を含んでもよい。 The characteristic word is a characteristic word relating to a person having the first designation. The feature word is associated with at least the first designation. The characteristic term may include a term that expresses the business-related characteristics of the person having the first designation, or may include a term that expresses the personal characteristics of the person having the first designation. Feature words may include abbreviations for these terms.

図3では、氏が「AA」で共通する3名の従業員が存在するケースが例示されている。第1呼称が「AA XX」である人物は、マーケティング部に所属しており、第1呼称が「AA YY」である人物は、法務室に所属しており、第1呼称が「AA ZZ」である人物は、セールス部に所属している。 Figure 3 illustrates a case where he has three employees in common with "AA". The person whose first name is "AA XX" belongs to the marketing department, and the person whose first name is "AA YY" belongs to the legal office, and the first name is "AA ZZ". The person who is belongs to the sales department.

制御部33は、少なくとも1つのプロセッサを含んでもよい。少なくとも1つのプロセッサは、CPU(Central Processing Unit)、MPU(Micro Processing Unit)、GPU(Graphics Processing Unit)、1以上のIntegrated Circuit、1以上のDiscrete Circuit、及び、これらの組合せによって構成されてもよい。 The control unit 33 may include at least one processor. At least one processor may be composed of a CPU (Central Processing Unit), an MPU (Micro Processing Unit), a GPU (Graphics Processing Unit), one or more Integrated Circuits, one or more Discrete Circuits, and a combination thereof. ..

実施形態では、制御部33は、抽出部33A及び同定部33Bを有する。 In the embodiment, the control unit 33 has an extraction unit 33A and an identification unit 33B.

抽出部33Aは、テキスト文書において出現する人物に関する第1用語を抽出する抽出部を構成する。第1用語は、テキスト文書において出現する用語であるため、第1呼称(氏のみ、名のみ、氏名)である可能性があり、第2呼称である可能性もある。特に限定されるものではないが、第1用語は、既知の形態素解析などによって抽出されてもよい。 The extraction unit 33A constitutes an extraction unit that extracts the first term related to the person appearing in the text document. Since the first term is a term that appears in a text document, it may be the first name (name only, name only, name), or it may be the second name. Although not particularly limited, the first term may be extracted by a known morphological analysis or the like.

同定部33Bは、管理部32の人事DB(第1DB)を用いて、第1用語に相当する人物呼称を特定し、特定された人物呼称に基づいて、第1用語が示す対象人物を同定する同定部を構成する。 The identification unit 33B identifies the person name corresponding to the first term by using the personnel DB (first DB) of the management unit 32, and identifies the target person indicated by the first term based on the specified person name. Consists of the identification unit.

このような前提下において、第1用語に相当する人物呼称によって対象人物を1名に絞り込めないケースが考えられる。言い換えると、第1用語に相当する人物呼称によって絞り込まれた対象人物の候補が2名以上であるケースが考えられる。このようなケースにおいて、抽出部33A及び同定部33Bは、以下に示す動作を実行してもよい。 Under such a premise, there may be a case where the target person cannot be narrowed down to one person by the person name corresponding to the first term. In other words, there may be a case where there are two or more candidates for the target person narrowed down by the person name corresponding to the first term. In such a case, the extraction unit 33A and the identification unit 33B may perform the following operations.

オプション1では、抽出部33Aは、テキスト文書において第1用語からの距離が所定距離内に出現する第2用語を抽出してもよい。第2用語は、既知の形態素解析などによって抽出されてもよい。第2用語は、周辺語と称されてもよい。距離及び所定距離は、文字数によって定義されてもよく、単語数によって定義されてもよく、文節数によって定義されてもよく、文数によって定義されてもよい。 In option 1, the extraction unit 33A may extract the second term in which the distance from the first term appears within a predetermined distance in the text document. The second term may be extracted by a known morphological analysis or the like. The second term may be referred to as a peripheral term. The distance and the predetermined distance may be defined by the number of characters, the number of words, the number of clauses, or the number of sentences.

同定部33Bは、管理部32の人事DB(第2DB)を用いて、第2用語に相当する所属呼称を特定し、特定された所属呼称に基づいて、人物呼称に基づいて特定された対象人物の候補の所属を特定する。同定部33Bは、人物呼称に基づいて特定された対象人物の候補の中から、特定された所属に基づいて対象人物を同定する。 The identification unit 33B uses the personnel DB (second DB) of the management unit 32 to identify the affiliation name corresponding to the second term, and based on the specified affiliation name, the target person specified based on the person name. Identify the affiliation of the candidate. The identification unit 33B identifies the target person based on the specified affiliation from the candidates of the target person identified based on the person name.

オプション2では、同定部33Bは、管理部32の人事DB(第3DB)を用いて、人物呼称に基づいて特定された対象人物の候補と記述者との相関関係を特定する。同定部33Bは、人物呼称に基づいて特定された対象人物の候補の中から、特定された相関関係に基づいて対象人物を同定する。例えば、同定部33Bは、記述者に対する相関距離が最も近い人物を対象人物として同定してもよい。 In option 2, the identification unit 33B uses the personnel DB (third DB) of the management unit 32 to identify the correlation between the candidate of the target person specified based on the person name and the writer. The identification unit 33B identifies the target person based on the identified correlation from the candidates of the target person identified based on the person name. For example, the identification unit 33B may identify the person having the closest correlation distance with the writer as the target person.

オプション3では、抽出部33Aは、テキスト文書において第1用語からの距離が所定距離内に出現する第2用語を抽出してもよい。第2用語は、既知の形態素解析などによって抽出されてもよい。第2用語は、周辺語と称されてもよい。距離及び所定距離は、文字数によって定義されてもよく、単語数によって定義されてもよく、文節数によって定義されてもよく、文数によって定義されてもよい。 In option 3, the extraction unit 33A may extract the second term in which the distance from the first term appears within a predetermined distance in the text document. The second term may be extracted by a known morphological analysis or the like. The second term may be referred to as a peripheral term. The distance and the predetermined distance may be defined by the number of characters, the number of words, the number of clauses, or the number of sentences.

同定部33Bは、管理部32の人事DB(第4DB)を用いて、人物に関する特徴語を格納するデータベースを用いて、第2用語に相当する特徴語を特定する。同定部33Bは、人物呼称に基づいて特定された対象人物の候補の中から、特定された特徴語に基づいて対象人物を同定する。 The identification unit 33B uses the personnel DB (4th DB) of the management unit 32 to identify the characteristic words corresponding to the second term by using the database that stores the characteristic words related to the person. The identification unit 33B identifies the target person based on the specified characteristic word from the candidates of the target person specified based on the person name.

ここで、上述したオプション1(所属呼称)、オプション2(相関関係)及びオプション3(特徴語)の中から選択された2以上のオプションが組み合わされてもよい。例えば、オプション1(所属呼称)に基づいて対象人物の候補の各々のスコアが算出されてもよい。オプション2(相関関係)に基づいて対象人物の候補の各々のスコアが算出されてもよい。オプション3(特徴語)に基づいて対象人物の候補の各々のスコアが算出されてもよい。スコアは、対象人物の候補が対象人物である可能性を表す指標であると考えてもよい。同定部33Bは、オプション1~オプション3の中から選択された2以上のオプションに基づいたスコアの合計が最も大きい対象人物の候補を対象人物として同定してもよい。 Here, two or more options selected from the above-mentioned option 1 (affiliation name), option 2 (correlation), and option 3 (characteristic word) may be combined. For example, the score of each candidate of the target person may be calculated based on option 1 (affiliation designation). The score of each candidate of the target person may be calculated based on option 2 (correlation). The score of each candidate of the target person may be calculated based on option 3 (characteristic word). The score may be considered as an index showing the possibility that the candidate of the target person is the target person. The identification unit 33B may identify the candidate of the target person having the highest total score based on two or more options selected from the options 1 to 3 as the target person.

このようなケースにおいて、オプション1~オプション3に基づいたスコアに対して重付値が適用されてもよい。重付値は、オプション1~オプション3の優先順位を定めるための値である。 In such cases, valuations may be applied to the scores based on Options 1 to Option 3. The weighted value is a value for determining the priority of options 1 to 3.

例えば、同定部33Bは、人物呼称が第1呼称である場合に、特定された所属(すなわち、オプション1)を優先的に用いて対象人物を同定してもよい。「優先的に」とは、オプション1がオプション2及びオプション3よりも優先されることを意味してもよい。「優先的に」とは、オプション1に適用される重付値がオプション2及びオプション3に適用される重付値よりも大きいことを意味してもよい。このようなケースにおいては、テキスト文書に出願する第1用語が氏又は名などの第1呼称であるため、テキスト文書がオフィシャルである蓋然性が高いため、第2オプションが優先的に用いられてもよい。 For example, the identification unit 33B may identify the target person by preferentially using the specified affiliation (that is, option 1) when the person designation is the first designation. By "priority" may mean that option 1 takes precedence over option 2 and option 3. "Priority" may mean that the valuation applied to option 1 is greater than the valuation applied to options 2 and 3. In such a case, since the first term applied to the text document is the first name such as name or first name, it is highly probable that the text document is official, so even if the second option is preferentially used. good.

或いは、同定部33Bは、人物呼称が第2呼称である場合に、相関関係(すなわち、オプション2)を優先的に用いて対象人物を同定してもよい。「優先的に」とは、オプション2がオプション1及びオプション3よりも優先されることを意味してもよい。「優先的に」とは、オプション2に適用される重付値がオプション1及びオプション3に適用される重付値よりも大きいことを意味してもよい。このようなケースにおいては、テキスト文書に出願する第1用語が愛称などの第2呼称であるため、記述者に近しい人物が対象人物である蓋然性が高いため、第2オプションが優先的に用いられてもよい。 Alternatively, the identification unit 33B may identify the target person by preferentially using the correlation (that is, option 2) when the person designation is the second designation. By "priority" may mean that option 2 takes precedence over option 1 and option 3. "Priority" may mean that the valuation applied to option 2 is greater than the valuation applied to options 1 and 3. In such a case, since the first term applied for in the text document is the second name such as a nickname, it is highly probable that the person close to the writer is the target person, so the second option is preferentially used. You may.

但し、これらの例は一例に過ぎず、例えば、同定部33Bは、人物呼称が第1呼称であっても、人物呼称が名のみである場合には、記述者に近しい人物が対象人物である蓋然性が高いため、第2オプションを優先的に用いてもよい。 However, these examples are only examples. For example, in the identification unit 33B, even if the person name is the first name, if the person name is only the name, the person close to the writer is the target person. Since the probability is high, the second option may be used preferentially.

(具体例)
以下において、実施形態の具体例について説明する。以下においては、「特許の件については法務室のAAさんにご相談下さい」というテキスト文書を例に挙げて、「AAさん」が示す対象人物の同定方法について説明する。テキスト文書の記述者は「PP QQ」である。
(Concrete example)
Hereinafter, specific examples of the embodiments will be described. In the following, the method of identifying the target person indicated by "Mr. AA" will be explained by taking as an example the text document "Please consult with Mr. AA of the Legal Office regarding patent matters". The author of the text document is "PP QQ".

第1に、抽出部33Aは、図4に示すように、テキスト文書の形態素解析などによって、「特許」、「法務室」、「AAさん」、「ご相談」などの用語を抽出する。「AAさん」は、第1用語の一例である。「特許」、「法務室」及び「ご相談」は、第2用語(周辺語)の一例である。 First, as shown in FIG. 4, the extraction unit 33A extracts terms such as "patent", "legal office", "AA", and "consultation" by morphological analysis of a text document. "AA" is an example of the first term. "Patent", "legal office" and "consultation" are examples of the second term (peripheral language).

第2に、同定部33Bは、図5に示すように、管理部32の人事DB(第1DB)を用いて、第1用語「AAさん」に相当する人物呼称「AA」を特定し、特定された人物呼称に基づいて、第1用語が示す対象人物の同定を試みる。ここでは、図3で例示したように、「AA XX」、「AA YY」、「AA ZZ」の3名が対象人物の候補として特定され、人物呼称のみでは対象人物を同定することができないケースが例示されている。 Second, as shown in FIG. 5, the identification unit 33B identifies and identifies the person name "AA" corresponding to the first term "AA" by using the personnel DB (first DB) of the management unit 32. Attempts to identify the target person indicated by the first term based on the person name given. Here, as illustrated in FIG. 3, three people, "AA XX", "AA YY", and "AA ZZ", are identified as candidates for the target person, and the target person cannot be identified only by the person name. Is illustrated.

上述したオプション1が用いられる場合には、同定部33Bは、図6に示すように、管理部32の人事DB(第2DB)を用いて、第2用語「法務室」に相当する所属呼称「法務室」を特定し、特定された所属呼称「法務室」に基づいて、人物呼称に基づいて特定された対象人物の候補の所属を特定する。同定部33Bは、人物呼称に基づいて特定された対象人物の候補の中から、特定された所属に基づいて対象人物を同定する。ここでは、法務室に所属する「AA YY」が対象人物として同定されてもよい。 When the above-mentioned option 1 is used, the identification unit 33B uses the personnel DB (second DB) of the management unit 32 as shown in FIG. The "legal office" is specified, and the affiliation of the candidate of the target person specified based on the person's name is specified based on the specified affiliation name "legal office". The identification unit 33B identifies the target person based on the specified affiliation from the candidates of the target person identified based on the person name. Here, "AA YY" belonging to the Legal Office may be identified as the target person.

或いは、オプション1に基づいたスコアとして、特定された所属呼称を有する対象人物の候補(ここでは、「AA YY」)のスコア”1”が算出され、特定された所属呼称を有していない対象人物の候補(ここでは、「AA XX」、「AA-ZZ」)のスコア”0”が算出されてもよい。 Alternatively, as a score based on option 1, a score "1" of a candidate for a target person having a specified affiliation name (here, "AA YY") is calculated, and a target having no specified affiliation name. A score "0" of a person candidate (here, "AA XX", "AA-ZZ") may be calculated.

上述したオプション2が用いられる場合には、同定部33Bは、図7に示すように、管理部32の人事DB(第3DB)を用いて、人物呼称に基づいて特定された対象人物の候補と記述者との相関関係を特定する。同定部33Bは、人物呼称に基づいて特定された対象人物の候補の中から、特定された相関関係に基づいて対象人物を同定する。ここでは、記述者「PP QQ」に対する相関距離が最も近い「AA YY」が対象人物として同定されてもよい。 When the above-mentioned option 2 is used, the identification unit 33B uses the personnel DB (third DB) of the management unit 32 as a candidate for the target person specified based on the person name, as shown in FIG. Identify the correlation with the writer. The identification unit 33B identifies the target person based on the identified correlation from the candidates of the target person identified based on the person name. Here, "AA YY", which has the closest correlation distance to the writer "PP QQ", may be identified as the target person.

或いは、オプション2に基づいたスコアとして、相関距離に基づいたスコアが算出されてもよい。相関距離に基づいたスコアは、1/(1+相関距離)で表されてもよい。相関距離は、記述者と対象人物の候補との間のパスの数によって定義されてもよい。例えば、「AA YY」のスコアは、0.5(=1/(1+1))であり、「AA ZZ」のスコアは、0.33(=1/(1+2))であり、「AA XX」のスコアは、0.25(=1/(1+3))であってもよい。 Alternatively, a score based on the correlation distance may be calculated as a score based on option 2. The score based on the correlation distance may be expressed as 1 / (1 + correlation distance). The correlation distance may be defined by the number of paths between the writer and the candidate target person. For example, the score for "AA YY" is 0.5 (= 1 / (1 + 1)), the score for "AA ZZ" is 0.33 (= 1 / (1 + 2)), and "AA X X". The score of may be 0.25 (= 1 / (1 + 3)).

上述したオプション3が用いられる場合には、同定部33Bは、図8に示すように、管理部32の人事DB(第4DB)を用いて、第2用語「特許」に相当する特徴語「特許」を特定する。同定部33Bは、人物呼称に基づいて特定された対象人物の候補の中から、特定された特徴語「特許」に基づいて対象人物を同定する。ここでは、「特許」を特徴語として有する「AA YY」が対象人物として同定されてもよい。 When the above-mentioned option 3 is used, the identification unit 33B uses the personnel DB (4th DB) of the management unit 32 as shown in FIG. 8, and the feature word “patent” corresponding to the second term “patent” is used. To identify. The identification unit 33B identifies the target person based on the specified characteristic word "patent" from the candidates of the target person specified based on the person name. Here, "AA YY" having "patent" as a characteristic word may be identified as the target person.

或いは、オプション3に基づいたスコアとして、特定された特徴語を有する対象人物の候補(ここでは、「AA YY」)のスコア”1”が算出され、特定された特徴語を有していない対象人物の候補(ここでは、「AA XX」、「AA-ZZ」)のスコア”0”が算出されてもよい。 Alternatively, as a score based on option 3, the score "1" of the candidate of the target person having the specified characteristic word (here, "AA YY") is calculated, and the target having no specified characteristic word is calculated. A score "0" of a person candidate (here, "AA XX", "AA-ZZ") may be calculated.

ここで、オプション1~オプション3が組み合わされる場合には、図9に示すように、オプション1~オプション3に基づいたスコアの合計が算出され、スコアの合計が最も大きい対象人物の候補(ここでは、「AA YY」)を対象人物として同定してもよい。 Here, when options 1 to 3 are combined, as shown in FIG. 9, the total score based on options 1 to 3 is calculated, and the candidate for the target person having the largest total score (here, the candidate). , "AA YY") may be identified as the target person.

さらに、上述したように、オプション1~オプション3に基づいたスコアに重付値が適用されてもよい。重付値は、オプション1~オプション3の優先順位を定めるための値である。例えば、人物呼称が第1呼称である場合に、オプション1に適用される重付値がオプション2及びオプション3に適用される重付値よりも大きくてもよい。或いは、人物呼称が第2呼称である場合に、オプション2に適用される重付値がオプション1及びオプション3に適用される重付値よりも大きくてもよい。 Further, as described above, valuations may be applied to the scores based on Options 1 to Option 3. The weighted value is a value for determining the priority of options 1 to 3. For example, when the person designation is the first designation, the weighting value applied to option 1 may be larger than the weighting value applied to options 2 and 3. Alternatively, when the person designation is the second designation, the weighting value applied to option 2 may be larger than the weighting value applied to options 1 and 3.

(エンティティ同定方法)
以下において、実施形態に係るエンティティ同定方法について説明する。ここでは、第1用語に相当する人物呼称によって絞り込まれた対象人物の候補が2名以上であり、オプション1~オプション3を用いて対象人物が同定されるケースについて説明する。
(Entity identification method)
Hereinafter, the entity identification method according to the embodiment will be described. Here, a case where there are two or more candidates for the target person narrowed down by the person designation corresponding to the first term, and the target person is identified using options 1 to 3 will be described.

図10に示すように、ステップS10において、エンティティ同定装置30は、テキスト文書の形態素解析などによって、第1用語及び第2用語(周辺語)を抽出する。 As shown in FIG. 10, in step S10, the entity identification device 30 extracts the first term and the second term (peripheral words) by morphological analysis of a text document or the like.

ステップS12において、エンティティ同定装置30は、管理部32の人事DB(第1DB)を用いて、第1用語に相当する人物呼称を特定する。 In step S12, the entity identification device 30 identifies the person designation corresponding to the first term by using the personnel DB (first DB) of the management unit 32.

ステップS14において、エンティティ同定装置30は、管理部32の人事DB(第2DB)を用いて、第2用語に相当する所属呼称を特定し、特定された所属呼称に基づいて、人物呼称に基づいて特定された対象人物の候補の所属を特定する(オプション1)。 In step S14, the entity identification device 30 identifies the affiliation name corresponding to the second term by using the personnel DB (second DB) of the management unit 32, and based on the identified affiliation name, based on the person name. Identify the affiliation of the identified candidate for the target person (option 1).

ステップS16において、エンティティ同定装置30は、管理部32の人事DB(第3DB)を用いて、人物呼称に基づいて特定された対象人物の候補と記述者との相関関係を特定する(オプション2)。 In step S16, the entity identification device 30 uses the personnel DB (third DB) of the management unit 32 to identify the correlation between the candidate of the target person specified based on the person name and the writer (option 2). ..

ステップS18において、エンティティ同定装置30は、管理部32の人事DB(第4DB)を用いて、第2用語に相当する特徴語を特定する(オプション3)。 In step S18, the entity identification device 30 identifies the feature word corresponding to the second term by using the personnel DB (fourth DB) of the management unit 32 (option 3).

ステップS20において、エンティティ同定装置30は、人物呼称に基づいて特定された対象人物の候補の中から、オプション1~オプション3に基づいたスコアに基づいて対象人物を特定する。オプション1~オプション3に基づいたスコアに重付値が適用されてもよい。 In step S20, the entity identification device 30 identifies the target person based on the scores based on options 1 to 3 from the candidate target persons identified based on the person designation. Valuations may be applied to scores based on Options 1-3.

(作用及び効果)
実施形態では、エンティティ同定装置30は、テキスト文書において出現する人物に関する第1用語を抽出し、第1用語に相当する人物呼称を特定し、特定された人物呼称に基づいて、第1用語が示す対象人物を同定する。このような構成によれば、テキスト文書において出現する対象人物(エンティティ)を適切に同定することができる。
(Action and effect)
In an embodiment, the entity identification device 30 extracts a first term relating to a person appearing in a text document, identifies a person designation corresponding to the first term, and the first term indicates based on the identified person designation. Identify the target person. According to such a configuration, the target person (entity) that appears in the text document can be appropriately identified.

実施形態では、エンティティ同定装置30は、人物呼称に基づいて特定された対象人物の候補の中から、オプション1~オプション3の中から選択された1以上のオプションに基づいて対象人物を特定してもよい。このような構成によれば、第1用語に相当する人物呼称によって絞り込まれた対象人物の候補が2名以上であっても、テキスト文書において出現する対象人物(エンティティ)を適切に同定することができる。 In the embodiment, the entity identification device 30 identifies the target person based on one or more options selected from the options 1 to 3 from the target person candidates identified based on the person designation. May be good. According to such a configuration, even if there are two or more target person candidates narrowed down by the person name corresponding to the first term, it is possible to appropriately identify the target person (entity) that appears in the text document. can.

実施形態では、オプション1~オプション3に基づいたスコアに重付値が適用されてもよい。このような構成によれば、オプション1~オプション3の優先順位を適切に定めることができる。従って、テキスト文書において出現する対象人物(エンティティ)を適切に同定することができる。 In embodiments, weighted values may be applied to scores based on Options 1 to Option 3. With such a configuration, the priority of options 1 to 3 can be appropriately set. Therefore, the target person (entity) that appears in the text document can be appropriately identified.

[その他の実施形態]
本発明は上述した実施形態によって説明したが、この開示の一部をなす論述及び図面は、この発明を限定するものであると理解すべきではない。この開示から当業者には様々な代替実施形態、実施例及び運用技術が明らかとなろう。
[Other embodiments]
Although the invention has been described by embodiments described above, the statements and drawings that form part of this disclosure should not be understood to limit the invention. This disclosure will reveal to those skilled in the art various alternative embodiments, examples and operational techniques.

上述した開示では特に触れていないが、第1用語に相当する人物呼称によって対象人物を1名に絞り込める場合には、オプション1~オプション3は用いられなくてもよい。 Although not specifically mentioned in the above disclosure, options 1 to 3 may not be used when the target person can be narrowed down to one person by the person name corresponding to the first term.

上述した開示では、テキスト文書において出現する対象人物が従業員であるケースについて主として例示した。しかしながら、実施形態はこれに限定されるものではない。対象人物は、第1呼称、第2呼称、所属呼称、相関関係、特徴語などが管理部32によって管理される人物であればよい。例えば、対象人物は、法人の取引業者に属する人物を含んでもよい。 In the above disclosure, the case where the target person appearing in the text document is an employee is mainly illustrated. However, the embodiments are not limited to this. The target person may be a person whose first name, second name, affiliation name, correlation, characteristic word, etc. are managed by the management unit 32. For example, the target person may include a person who belongs to a corporate trader.

上述した開示では特に触れていないが、人物呼称は人称代名詞を含んでもよい。人称代名詞は、上述した第2呼称と同様に取り扱われてもよい。 Although not specifically mentioned in the above disclosure, the person designation may include a personal pronoun. Personal pronouns may be treated in the same way as the second designation described above.

上述した開示では特に触れていないが、「第1用語に相当する人物呼称」、「第2用語に相当する所属呼称」、「第2用語に相当する特徴語」などにおいて、「相当」は、両者の完全一致を意味する用語であってもよく、両者の部分一致を意味する用語であってもよい。或いは、「相当」は、両者の類似度がスコア化可能である場合に、両者の類似度が閾値以上であることを意味してもよい。類似度のスコア化は、各用語のユーグリッド距離を用いたスコア化、各用語のコサイン類似度を用いたスコア化など、既知の方法が用いられてもよい。 Although not specifically mentioned in the above disclosure, "equivalent" is used in "personal name corresponding to the first term", "affiliation name corresponding to the second term", "characteristic name corresponding to the second term", etc. It may be a term meaning an exact match between the two, or it may be a term meaning a partial match between the two. Alternatively, "equivalent" may mean that the similarity between the two is equal to or greater than the threshold value when the similarity between the two can be scored. For scoring the similarity, a known method such as scoring using the Eugrid distance of each term and scoring using the cosine similarity of each term may be used.

上述した開示では、第1DB~第4DBがエンティティ同定装置30に設けられるケースについて例示した。しかしながら、上述した開示はこれに限定されるものではない。第1DB~第4DBは、エンティティ同定装置30とは別体として、エンティティ同定装置30と通信可能な同一の外部サーバに含まれてもよく、エンティティ同定装置30と通信可能な別々の外部サーバに含まれてもよい。第1DB~第4DBの少なくともいずれか1は、SaaS(Service as a Software)によって実現されてもよい。 In the above-mentioned disclosure, the case where the 1st DB to the 4th DB are provided in the entity identification device 30 is illustrated. However, the above disclosure is not limited to this. The 1st DB to the 4th DB may be included in the same external server that can communicate with the entity identification device 30, and may be included in a separate external server that can communicate with the entity identification device 30 as a separate body from the entity identification device 30. It may be. At least one of the first DB to the fourth DB may be realized by SaaS (Service as a Software).

上述した開示では特に触れていないが、エンティティ同定装置30が行う各処理をコンピュータに実行させるプログラムが提供されてもよい。また、プログラムは、コンピュータ読取り可能媒体に記録されていてもよい。コンピュータ読取り可能媒体を用いれば、コンピュータにプログラムをインストールすることが可能である。ここで、プログラムが記録されたコンピュータ読取り可能媒体は、非一過性の記録媒体であってもよい。非一過性の記録媒体は、特に限定されるものではないが、例えば、CD-ROMやDVD-ROM等の記録媒体であってもよい。 Although not specifically mentioned in the above-mentioned disclosure, a program that causes a computer to execute each process performed by the entity identification device 30 may be provided. The program may also be recorded on a computer-readable medium. Computer-readable media can be used to install programs on a computer. Here, the computer-readable medium on which the program is recorded may be a non-transient recording medium. The non-transient recording medium is not particularly limited, but may be, for example, a recording medium such as a CD-ROM or a DVD-ROM.

或いは、エンティティ同定装置30が行う各処理を実行するためのプログラムを記憶するメモリ及びメモリに記憶されたプログラムを実行するプロセッサによって構成されるチップが提供されてもよい。 Alternatively, a chip composed of a memory for storing a program for executing each process performed by the entity identification device 30 and a processor for executing the program stored in the memory may be provided.

10…第1端末、20…第2端末、30…エンティティ同定装置、31…通信部、32…管理部、33…制御部、100…エンティティ同定システム、200…ネットワーク
10 ... 1st terminal, 20 ... 2nd terminal, 30 ... entity identification device, 31 ... communication unit, 32 ... management unit, 33 ... control unit, 100 ... entity identification system, 200 ... network

Claims (7)

テキスト文書において出現する人物に関する第1用語を抽出する抽出部と、
人物に関する呼称を格納するデータベースを用いて、前記第1用語に相当する人物呼称を特定し、特定された人物呼称に基づいて特定された対象人物の候補の中から、前記テキスト文書に関する情報に基づいて、前記第1用語が示す対象人物を同定する同定部と、を備える、エンティティ同定装置。
An extractor that extracts the first term related to a person appearing in a text document,
Using the database that stores the names related to the person, the person names corresponding to the first term are identified, and the candidate of the target person identified based on the specified person names is based on the information about the text document. An entity identification device comprising an identification unit for identifying a target person indicated by the first term.
前記抽出部は、前記テキスト文書において前記第1用語からの距離が所定距離内に出現する第2用語を抽出し、
前記同定部は、
人物の所属に関する呼称を格納するデータベースを用いて、前記第2用語に相当する所属呼称を特定し、特定された所属呼称に基づいて、前記人物呼称に基づいて特定された対象人物の候補の所属を特定し、
前記人物呼称に基づいて特定された対象人物の候補の中から、特定された所属に基づいて前記対象人物を同定する、請求項1に記載のエンティティ同定装置。
The extraction unit extracts the second term in which the distance from the first term appears within a predetermined distance in the text document.
The identification unit is
Using a database that stores names related to the affiliation of a person, the affiliation name corresponding to the second term is specified, and based on the specified affiliation name, the affiliation of the candidate of the target person specified based on the person name. Identify and
The entity identification device according to claim 1, wherein the target person is identified based on the specified affiliation from the candidates of the target person specified based on the person designation.
前記同定部は、前記人物呼称が氏及び名の少なくとも一部を含む第1呼称である場合に、前記特定された所属を優先的に用いて前記対象人物を同定する、請求項2に記載のエンティティ同定装置。 The identification unit according to claim 2, wherein the identification unit identifies the target person by preferentially using the specified affiliation when the person designation is the first designation including at least a part of the name and the name. Entity identification device. 前記テキスト文書は、前記テキスト文書の記述者を特定可能な文書であり、
前記同定部は、
人物の相関に関する相関関係を格納するデータベースを用いて、前記人物呼称に基づいて特定された対象人物の候補と前記記述者との相関関係を特定し、
前記人物呼称に基づいて特定された対象人物の候補の中から、特定された相関関係に基づいて前記対象人物を同定する、請求項1乃至請求項3のいずれか1項に記載のエンティティ同定装置。
The text document is a document that can identify the writer of the text document.
The identification unit is
Using a database that stores the correlations related to the correlation of people, the correlation between the candidate of the target person specified based on the person's name and the writer is identified.
The entity identification device according to any one of claims 1 to 3, wherein the target person is identified based on the specified correlation from the candidates of the target person specified based on the person designation. ..
前記同定部は、前記人物呼称が氏及び名の少なくとも一部を含む呼称以外の第2呼称である場合に、前記特定された相関関係を優先的に用いて前記対象人物を同定する、請求項4に記載のエンティティ同定装置。 The identification unit claims to identify the target person by preferentially using the specified correlation when the person name is a second name other than the name including at least a part of the name and the name. 4. The entity identification device according to 4. 前記抽出部は、前記テキスト文書において前記第1用語からの距離が所定距離内に出現する第2用語を抽出し、
前記同定部は、
人物に関する特徴語を格納するデータベースを用いて、前記第2用語に相当する特徴語を特定し、
前記人物呼称に基づいて特定された対象人物の候補の中から、特定された特徴語に基づいて前記対象人物を同定する、請求項1乃至請求項5のいずれか1項に記載のエンティティ同定装置。
The extraction unit extracts the second term in which the distance from the first term appears within a predetermined distance in the text document.
The identification unit is
Using a database that stores characteristic words related to a person, identify the characteristic words that correspond to the second term, and then identify them.
The entity identification device according to any one of claims 1 to 5, which identifies the target person based on the specified feature word from the candidates of the target person specified based on the person designation. ..
エンティティ同定装置が、テキスト文書において出現する人物に関する第1用語を抽出するステップと、
前記エンティティ同定装置が、人物に関する呼称を格納するデータベースを用いて、前記第1用語に相当する人物呼称を特定するステップと、
前記エンティティ同定装置が、特定された人物呼称に基づいて特定された対象人物の候補の中から、前記テキスト文書に関する情報に基づいて、前記第1用語が示す対象人物を同定するステップと、を備える、エンティティ同定方法。
The step by which the entity identification device extracts the first term for the person appearing in the text document,
A step in which the entity identification device identifies a person's name corresponding to the first term by using a database for storing a person's name.
The entity identification device comprises a step of identifying a target person indicated by the first term from among candidates for a target person identified based on a specified person designation, based on information about the text document . , Entity identification method.
JP2022002448A 2022-01-11 2022-01-11 Entity identification device and entity identification method Active JP7074940B1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2022002448A JP7074940B1 (en) 2022-01-11 2022-01-11 Entity identification device and entity identification method
JP2022078797A JP2023102242A (en) 2022-01-11 2022-05-12 Entity identification device and entity identification method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022002448A JP7074940B1 (en) 2022-01-11 2022-01-11 Entity identification device and entity identification method

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2022078797A Division JP2023102242A (en) 2022-01-11 2022-05-12 Entity identification device and entity identification method

Publications (2)

Publication Number Publication Date
JP7074940B1 true JP7074940B1 (en) 2022-05-24
JP2023102088A JP2023102088A (en) 2023-07-24

Family

ID=81731726

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2022002448A Active JP7074940B1 (en) 2022-01-11 2022-01-11 Entity identification device and entity identification method
JP2022078797A Pending JP2023102242A (en) 2022-01-11 2022-05-12 Entity identification device and entity identification method

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2022078797A Pending JP2023102242A (en) 2022-01-11 2022-05-12 Entity identification device and entity identification method

Country Status (1)

Country Link
JP (2) JP7074940B1 (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005346495A (en) * 2004-06-03 2005-12-15 Oki Electric Ind Co Ltd Information processing system, information processing method, and information processing program
JP2006171876A (en) * 2004-12-13 2006-06-29 Ricoh Co Ltd Information search apparatus
JP2016149154A (en) * 2009-06-29 2016-08-18 真旭 徳山 Program, information processor, and information processing method

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005346495A (en) * 2004-06-03 2005-12-15 Oki Electric Ind Co Ltd Information processing system, information processing method, and information processing program
JP2006171876A (en) * 2004-12-13 2006-06-29 Ricoh Co Ltd Information search apparatus
JP2016149154A (en) * 2009-06-29 2016-08-18 真旭 徳山 Program, information processor, and information processing method

Also Published As

Publication number Publication date
JP2023102242A (en) 2023-07-24
JP2023102088A (en) 2023-07-24

Similar Documents

Publication Publication Date Title
JP7163355B2 (en) Identification of tasks in messages
US11080304B2 (en) Feature vector profile generation for interviews
US11455301B1 (en) Method and system for identifying entities
CA2854263C (en) Systems, methods, and interfaces for analyzing conceptually-related portions of text
US8768686B2 (en) Machine translation with side information
US10803247B2 (en) Intelligent content detection
McCammon Tweeted, deleted: An exploratory study of the US government’s digital memory holes
Swaminathan et al. Wearmail: On-the-go access to information in your email with a privacy-preserving human computation workflow
JP2023168225A (en) Recruitment support device and recruitment support method
Li et al. Development of an intelligent NLP-based audit plan knowledge discovery system
US10574605B2 (en) Validating the tone of an electronic communication based on recipients
JP7074940B1 (en) Entity identification device and entity identification method
WO2021211300A1 (en) System and method for summerization of customer interaction
US6921266B2 (en) Training-curriculum creating system, server, method and computer program for creating a training curriculum
CN116402166B (en) Training method and device of prediction model, electronic equipment and storage medium
EP4187463A1 (en) An artificial intelligence powered digital meeting assistant
US20170339083A1 (en) Validating an Attachment of an Electronic Communication Based on Recipients
JP2023168194A (en) Recruitment support device and recruitment support method
US11734321B2 (en) Method and system for retrieval of prior court cases using witness testimonies
JP2017027168A (en) Taste learning method, taste learning program and taste learning device
CN112597295B (en) Digest extraction method, digest extraction device, computer device, and storage medium
Omoniyi Outsourcing and migrational anxieties in discourse perspectives
US20230196007A1 (en) Method and system for exemplar learning for templatizing documents across data sources
US11829424B2 (en) Discovering latent custodians and documents in an E-discovery system
JP4647442B2 (en) Data display device, data display method, and data display program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220111

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20220111

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220301

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220418

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220509

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220512

R150 Certificate of patent or registration of utility model

Ref document number: 7074940

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150