JP5466376B2 - Information processing apparatus, first and last name identification method, information processing system, and program - Google Patents

Information processing apparatus, first and last name identification method, information processing system, and program Download PDF

Info

Publication number
JP5466376B2
JP5466376B2 JP2008117538A JP2008117538A JP5466376B2 JP 5466376 B2 JP5466376 B2 JP 5466376B2 JP 2008117538 A JP2008117538 A JP 2008117538A JP 2008117538 A JP2008117538 A JP 2008117538A JP 5466376 B2 JP5466376 B2 JP 5466376B2
Authority
JP
Japan
Prior art keywords
morpheme
name
token
last name
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008117538A
Other languages
Japanese (ja)
Other versions
JP2009266110A (en
Inventor
剛志 福田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2008117538A priority Critical patent/JP5466376B2/en
Publication of JP2009266110A publication Critical patent/JP2009266110A/en
Application granted granted Critical
Publication of JP5466376B2 publication Critical patent/JP5466376B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、姓名識別を行う情報処理技術に関し、より詳細にはマルチバイト文字を含む人名の検索をその発音特性を含めて可能とする、情報処理装置、姓名識別方法、情報処理システム、およびプログラムに関する。   The present invention relates to an information processing technique for identifying first and last names, and more specifically, an information processing apparatus, a first and last name identifying method, an information processing system, and a program that enable a search for a person name including multibyte characters including its pronunciation characteristics About.

アルファベットなどのシングルバイト文字で記述された人名を比較して、人名の類似性を、類似性スコアを計算することにより比較する方法は、人名検索のために利用されている。シングルバイト文字で記述された人名を検索するためのシステムとしては、例えば、米国特許第6、963、871B1明細書(特許文献1)には、アルファベットで記述された人名を検索する自動化人名検索システムが開示されている。   A method of comparing the names of persons described by single-byte characters such as alphabets and comparing the similarity of the names by calculating a similarity score is used for searching for names. For example, US Pat. No. 6,963,871B1 (Patent Document 1) discloses an automated personal name search system for searching personal names described in alphabets as a system for searching personal names described in single-byte characters. Is disclosed.

また、http://publibfp.boulder.ibm.com/epubs/pdf/c1912860.pdf(非特許文献1)で指定されるURIには、アルファベット表記された人名についての類似性を使用して、人名検索する、Global
Name Analytics(GNA)システムが開示されている。
In addition, the URI specified in http://publibfp.boulder.ibm.com/epubs/pdf/c1912860.pdf (Non-patent Document 1) uses the similarity of personal names in alphabets, Search, Global
A Name Analytics (GNA) system is disclosed.

一方、日本語など、マルチバイト文字で記述された文書を、設定された単位の語(トークン)に分割して文書検索を行う情報検索装置は、例えば特開2004−206473号公報(特許文献2)に記載されている。さらにマルチバイト文字で記述された人名のうち、姓、名を使用して異なる重み付けを付与して検索する情報検索装置技術も例えば、特開2004−295797号公報(特許文献3)に記載されている。   On the other hand, an information search apparatus for searching a document by dividing a document described in multibyte characters such as Japanese into words (tokens) of a set unit is disclosed in, for example, Japanese Patent Application Laid-Open No. 2004-206473 (Patent Document 2). )It is described in. Furthermore, an information search device technique for searching by assigning different weights using surnames and first names among the names described in multibyte characters is also described in, for example, Japanese Patent Application Laid-Open No. 2004-295797 (Patent Document 3). Yes.

特許文献1〜3、非特許文献1に開示される情報検索は、アルファベットや、その他のシングルバイトコードで記述される人名を検索するには、充分な精度および検索性を提供することができる。また、特許文献2、3では、1文字がマルチバイトコードで定義されるマルチバイト文字で記述された文書を検索し、また文書中から人名を抽出して重み付けに反映させることも可能である。しかしながら、日本語など、マルチバイト文字で記述される言語を使用する文化圏では、同一の文字について異なる発音が割当てられる可能性がある。例えば、日本語で漢字「大」は、人名に使用された場合、「dai」、「hiroshi」などの複数の発音が割当てられることも想定される。   The information retrieval disclosed in Patent Documents 1 to 3 and Non-Patent Document 1 can provide sufficient accuracy and searchability to retrieve personal names described in alphabets or other single byte codes. In Patent Documents 2 and 3, it is also possible to search for a document in which one character is described by a multibyte character defined by a multibyte code, and extract a person name from the document and reflect it in weighting. However, there is a possibility that different pronunciations may be assigned to the same character in a cultural area using a language described in multibyte characters such as Japanese. For example, when the Chinese character “Large” in Japanese is used as a personal name, it is also assumed that a plurality of pronunciations such as “dai” and “hiroshi” are assigned.

また、姓名は、文化圏の相違に大きく依存し、文化圏が異なる場合、姓名同一であっても(Sir Name, Given Name)の並び順が異なることや、漢字などのマルチバイト文字が異なる複数の発音特性を派生させ、この結果、異なるアルファベット表記を生じさせる場合もある。このような場合、特許文献1〜3および非特許文献1に記載された姓名検索技術は、効率的な姓名識別を行うものではない。このため、マルチバイト文字で記述された人名の検索は、シングルバイト文字における人名検索技術とは異なる技術を必要とするということができる。   Also, the first and last names greatly depend on differences in cultural spheres. If the cultural spheres are different, even if the first and last names are the same, the order of (Sir Name, Given Name) is different, and multiple multibyte characters such as kanji are different. May be derived, resulting in different alphabetic notations. In such a case, the first and last name search techniques described in Patent Literatures 1 to 3 and Non-Patent Literature 1 do not perform efficient first and last name identification. For this reason, it can be said that a search for a person name described in multibyte characters requires a technique different from a person name search technique for single-byte characters.

例えば典型的なマルチバイト文字である日本語の漢字で記述された人名について考える。漢字の文字列をローマ字に変換する技術は、種々想定できる。例えば、漢字列に対して形態素解析技術を適用して検索を実行する技術が知られている。形態素解析においては、品詞や頻度情報を含む辞書を参照し、姓および名といった入力文字列を形態素解析して行き、辞書に登録されるエントリ単位にまで分解する。形態素分解のパターンが複数存在する場合は、分割数を最小とするものを優先的に選択する手法や、文法情報や頻度情報を用いて最尤の候補を選択する手法を使用して人名を形態素に分解することによって、姓名の検索が行われる。   For example, consider a person name written in Japanese kanji, which is a typical multibyte character. Various techniques for converting a Chinese character string into a Roman character can be envisaged. For example, a technique for executing a search by applying a morphological analysis technique to a kanji string is known. In morphological analysis, a dictionary including part-of-speech and frequency information is referred to, and an input character string such as a surname and a first name is subjected to morphological analysis, and decomposed into entry units registered in the dictionary. If there are multiple morpheme decomposition patterns, use a method that preferentially selects the one with the smallest number of divisions or a method that selects the most likely candidate using grammatical information and frequency information. The first name and the last name are searched by decomposing.

また、漢字の読みの違い、すなわち発音特性の相違に対応する場合には、漢字の読み方を、漢字に対応して登録した辞書を用いて漢字に対する発音の多様性に対応する方法も知られている。近年、経済活動のグローバル化、交通機関の発達、ネットワーク技術の進歩に伴い、異なる文化圏に属する者が異文化圏において生活したり、経済活動を行ったり、サーバにアクセスするなどの種々の活動が通常に行われている。このため、文化圏を越えて姓名を検索する必要性がますます高まっている。さらに、近年では、年金、銀行口座の統合を目的とする名寄せ、マネーロンダリングなど文化圏が同一の場合や非同一の場合に、これらを総合して姓名の同一性が同一人物であることを示しているか否かを判断する必要性もますます増大してきている。
米国特許第6、963、871B1明細書 特開2004−206473号公報 特開2004−295797号公報 http://publibfp.boulder.ibm.com/epubs/pdf/c1912860.pdf
Also, when dealing with differences in kanji readings, that is, differences in pronunciation characteristics, there is also known a method for dealing with the variety of pronunciations for kanji using a dictionary registered corresponding to kanji. Yes. In recent years, along with the globalization of economic activities, the development of transportation facilities, and the advancement of network technology, various activities such as people in different cultural areas living in different cultural areas, conducting economic activities, accessing servers, etc. Is done normally. For this reason, there is an increasing need to search for first and last names across cultural spheres. Furthermore, in recent years, if the cultural spheres are the same or non-identical, such as name collation and money laundering for the purpose of integrating pensions, bank accounts, etc. The need to determine whether or not it is increasing is also increasing.
US Pat. No. 6,963,871B1 JP 2004-206473 A JP 2004-295797 A http://publibfp.boulder.ibm.com/epubs/pdf/c1912860.pdf

上述したように、漢字などのマルチバイト文字を含む姓名の検索を実行する方法として、形態素解析法および読み方辞書を使用して行う方法が知られている。しかしながら、漢字で書かれた姓名は、アルファベットの姓名とは異なり、スペースやカンマなどの区切り文字で分割されず、一続きで記述される。このため、何処までが姓であり、何処までが名であるのかについて、直接的に判断することはできない。また、姓名には、敬称や役職名などが前後に追加される場合もある。このような漢字で記述された人名を、姓・名・敬称のコンポーネントへ分割することは、多くの知識を有する人間にとっては容易であると考えられるが、複数の分割方法が存在する場合もあり、また再現性や正確性にかけるという問題点がある。一方、コンピュータを使用して姓名分割を自動実行する場合には、分割のパターンを選択しなければならないという曖昧さを解決する必要がある。さらに、漢字には、新字体、旧字体、異字体、略字体などが存在し、これらの相違を統合して人名を識別することが必要とされていた。   As described above, as a method for executing a search for first and last names including multibyte characters such as kanji, a method using a morphological analysis method and a reading dictionary is known. However, unlike the first and last names in the alphabet, the first and last names written in kanji are not divided by a delimiter such as a space or a comma, but are described in one line. For this reason, it is impossible to determine directly where the last name is and where the last name is. In addition, in the first and last names, a title, title, etc. may be added before and after. Dividing a person's name written in Kanji into a surname / first name / honorific component is considered easy for a person with a lot of knowledge, but there may be multiple division methods. In addition, there is a problem of reproducibility and accuracy. On the other hand, in the case of automatically executing first and last name division using a computer, it is necessary to resolve the ambiguity that a division pattern must be selected. Furthermore, there are new fonts, old fonts, variant fonts, abbreviated fonts, etc., and it has been necessary to identify these names by integrating these differences.

さらに、人名の姓、名といった各コンポーネントを仮名またはアルファベット(ローマ字)に転写(transcribe)する場合について考えると、漢字の読み方の多様性や、漢字などの発音特性をアルファベットに変換するパターンの多様性に起因して、数多くの候補が存在する。このため、姓名識別の多様性に加え発音の多様性も加わり、人名検索を行う上で充分な精度および効率を提供することができないという問題もある。   Furthermore, considering the transfer of each component such as the surname and first name of a person name to a kana or alphabet (Roman character), the diversity of how to read kanji and the variety of patterns that convert the pronunciation characteristics of kanji into the alphabet There are many candidates due to For this reason, in addition to the diversity of first and last name identification, there is also a problem in that the diversity of pronunciation is added, and sufficient accuracy and efficiency cannot be provided for performing a person name search.

さらに、同じ漢字を使った名前であっても、文化圏の違いによる表音特性の相違もある。例えば、中国の発音特性および日本の発音特性は、同一の漢字であってもまったく異なるため、単純な辞書引きだけでは正しい発音特性は推定できない。発音特性は、漢字、ハングルで記述された場合、姓名のアルファベット表記や仮名表記に直結することになるので、人名の検索において人名記載の多様性に対応するためにもマルチバイト文字−シングルバイト文字の転写までも含めた検索を行うことが重要であった。   Furthermore, even with names that use the same kanji, there are differences in phonetic characteristics due to differences in cultural spheres. For example, Chinese pronunciation characteristics and Japanese pronunciation characteristics are completely different even for the same kanji, so that a correct pronunciation characteristic cannot be estimated by simple dictionary lookup. When the phonetic character is written in Kanji or Korean, it will be directly linked to the first and last names of the alphabet and kana, so multi-byte characters-single-byte characters can also be used to deal with the diversity of personal names when searching for names. It was important to conduct a search including the transcription of

本発明は、上述した従来技術の問題点に鑑みてなされたものであり、漢字など複数の発音特性を与える可能性があり、漢字、平仮名、カタカナ、ハングルなどで記述された姓名を、アルファベットへの転写の曖昧さを排除して、マルチバイト文字の姓名からアルファベット表記の姓名を生成する、情報処理装置、姓名識別方法、情報処理システム、およびプログラムを提供することを目的とする。   The present invention has been made in view of the above-described problems of the prior art, and may give a plurality of pronunciation characteristics such as kanji, so that first and last names written in kanji, hiragana, katakana, hangul, etc. It is an object to provide an information processing apparatus, a first and last name identification method, an information processing system, and a program for generating first and last names written in alphabet from multi-byte first and last names.

本発明は上記課題を解決するために、姓名を含む文字列について形態素解析を実行する。形態素解析では、文字列に対して形態素トークンを割当て、形態素トークン列とする。形態素解析に使用する形態素辞書には、形態素トークンの他、形態素トークンが姓、名、または姓名に対して付属される「君」、「代表取締役」などの付属語といった属性を示すための属性識別子と、形態素トークンが、日本語圏、韓国語圏、または中国語圏など、どの文化圏の帰属とともに分類されている。   In order to solve the above problems, the present invention performs morphological analysis on a character string including a first name and a last name. In the morpheme analysis, a morpheme token is assigned to a character string to obtain a morpheme token string. In the morpheme dictionary used for morpheme analysis, in addition to morpheme tokens, attribute identifiers to indicate attributes such as “kun” and “representative director” that are attached to the surname, first name, or last name. The morpheme tokens are categorized with the attribution of any cultural sphere, such as Japanese-speaking, Korean-speaking, or Chinese-speaking.

形態素解析の結果は、全部列挙されて、姓名候補作成部に送付される。姓名候補作成部では、姓名候補リストを作成する。姓名候補リストは、形態素トークンと、形態素トークン間の接続関係を示す接続識別子と、形態素トークンが属する文化圏で決定される姓名特性によって指定される文化圏重付け値を少なくとも登録する。文化圏重付け値は、姓名の形態素分割において、当該文化圏の姓名シーケンス順となっていない場合および文化圏特有の文字、例えば日本語圏であっては国字を含む場合に、当該文化圏の特有性を付与された姓名候補について非通常の分類であることを示す値とされる。   All the results of the morphological analysis are listed and sent to the first and last name candidate creation unit. The surname candidate creation section creates a surname candidate list. The first and last name candidate list registers at least a morpheme token, a connection identifier indicating a connection relationship between the morpheme tokens, and a culture area weight value specified by a first and last name characteristic determined in the culture area to which the morpheme token belongs. Cultural area weighting values are used for the morphological division of first and last names in the case where the order of the first and last name sequence of the relevant cultural area is not included, and when the characters unique to the cultural area, for example, Japanese characters are included, include national characters. The first and last name candidates given the uniqueness are values indicating an unusual classification.

また、他の実施形態では、姓名候補リストは、姓名候補の文化圏を陽に示す文化圏識別値を登録することもでき、文化圏ごとに最尤の姓名候補を特定し、文化圏ごとに可能性のあるアルファベット文字列の出力を可能としている。   In another embodiment, the first and last name candidate list can also register a cultural area identification value that explicitly indicates the cultural area of the first and last name candidates, specifies the most likely first and last name candidate for each cultural area, and for each cultural area. Possible alphabetical character string output.

姓名候補リストのフィールドに登録された値には、形態素トークンの姓、名として使用される頻度に対応したスコアが付されている。また、形態素トークン間の属性識別子についてもスコアが割当てられている。当該実施形態の場合、文化圏重付け値は、スコア合計を行うための例えばSQL文、スクリプトなどの設定値として登録することができる。また、他の実施形態では、文化圏重付け値についてのスコアが割当てられていてもよい。   The value registered in the field of the first and last name candidate list is given a score corresponding to the frequency used as the first name and last name of the morpheme token. A score is also assigned to an attribute identifier between morpheme tokens. In the case of the present embodiment, the culture sphere weight value can be registered as a set value for, for example, an SQL sentence or a script for summing up the scores. In another embodiment, a score for the cultural sphere weight value may be assigned.

スコア計算部は、姓名候補リストに登録された形態素トークン、接続識別子、文化圏重付け値のスコア値を合計して、合計スコア値を計算する。合計スコア値は、姓名の先頭から末尾までの距離を示す姓名距離の尺度として使用され、姓名距離の最小の姓名候補が、表記変換部に送付され、アルファベット表記などのシングルバイト文字に変換される。   The score calculation unit calculates the total score value by adding up the score values of the morpheme token, the connection identifier, and the culture area weight value registered in the surname candidate list. The total score value is used as a measure of the first and last name distance indicating the distance from the beginning to the end of the first and last name, and the first and last name candidate with the smallest first and last name distance is sent to the notation conversion unit and converted to single-byte characters such as alphabetic notation .

他の実施形態では、姓名距離の最小のものから設定された数の姓名候補を抽出し、これらについてまとめて表記変換を実行することができる。さらに他の実施形態では、文化圏識別子ごとに生成された姓名候補について、文化圏識別値ごとに最小の姓名距離の姓名候補を抽出し、表記変換を実行することもできる。   In another embodiment, a set number of first and last name candidates can be extracted from those having the smallest first and last name distance, and the notation conversion can be performed collectively on these. In yet another embodiment, for the first and last name candidates generated for each cultural zone identifier, the first and last name candidates with the minimum first and last name distance can be extracted for each cultural zone identification value, and the notation conversion can be performed.

本発明によれば、文化圏ごとに最尤の姓名候補についてシングルバイト文字列への変換を行うことができ、また、本発明によれば、姓名が複数の文化圏にまたがる場合であっても、最尤の発音特性に対応したシングルバイト文字列への変換を可能とする、情報処理装置、姓名識別方法、情報処理システム、およびプログラムを提供することができる。   According to the present invention, the most likely first name surname candidate can be converted into a single-byte character string for each cultural area, and according to the present invention, even if the first and last name spans multiple cultural areas. It is possible to provide an information processing apparatus, a first and last name identification method, an information processing system, and a program that enable conversion into a single-byte character string corresponding to the most likely pronunciation characteristics.

さらに、本発明によれば、マルチバイト文字を使用する文化圏の姓名について最尤のシングルバイト文字列を、既存の姓名識別システムへの入力文字列として使用可能とする、情報処理装置、姓名識別方法、情報処理システム、およびプログラムを提供することができる。   Furthermore, according to the present invention, an information processing apparatus, first name and last name identification that can use a single byte character string that is most likely for a first name and last name in a cultural area that uses multibyte characters as an input character string to an existing first name and last name identification system. A method, an information processing system, and a program can be provided.

以下、本発明を実施形態をもって説明するが、本発明は、後述する実施形態に限定されるものではない。図1は、本実施形態の情報処理装置100について機能ブロックを示す。情報処理装置100は、好ましくは、サーバとして構成することができる。なお、他の実施形態で、処理容量やアプリケション・サイズなどの点で姓名識別処理が可能な場合、ワークステーション、パーソナル・コンピュータとして実装することもできる。   Hereinafter, although this invention is demonstrated with embodiment, this invention is not limited to embodiment mentioned later. FIG. 1 shows functional blocks of the information processing apparatus 100 of the present embodiment. The information processing apparatus 100 can be preferably configured as a server. In other embodiments, if the first and last name identification processing is possible in terms of processing capacity, application size, etc., it can be implemented as a workstation or a personal computer.

以下、情報処理装置100のハードウェア構成について概略的に説明する。情報処理装置100は、オペレーティング・システム(OS)の下で各種処理を管理するシングルコアまたはマルチコアのCPUと、アプリケーションの実行空間を与えるRAMと、初期セットアップ用のブートコード、BIOSなどを格納するROM、およびハードディスク装置などを含んで構成されている。   Hereinafter, a hardware configuration of the information processing apparatus 100 will be schematically described. The information processing apparatus 100 includes a single-core or multi-core CPU that manages various processes under an operating system (OS), a RAM that provides an application execution space, a ROM that stores a boot code for initial setup, a BIOS, and the like. And a hard disk device.

CPUとしては、例えば、PENTIUM(登録商標)、PENTIUM(登録商標)互換チップ、などのCISCアーキテクチャのマイクロプロセッサ、または、POWER PC(登録商標)などのRISCアーキテクチャのマイクロプロセッサをシングルコア、またはマルチコアとして実装することができる。さらに、CPUの処理の命令フェッチ、データフェッチなどの高速化する目的で、L1キャッシュ、L2キャッシュ、L3キャッシュなどの階層キャッシュを実装することができる。   As the CPU, for example, a CISC architecture microprocessor such as PENTIUM (registered trademark), a PENTIUM (registered trademark) compatible chip, or a RISC architecture microprocessor such as POWER PC (registered trademark) is used as a single core or multi-core. Can be implemented. Furthermore, a hierarchical cache such as an L1 cache, an L2 cache, or an L3 cache can be mounted for the purpose of speeding up the instruction fetch and data fetch of the CPU processing.

OSとしては、例えば、WINDOWS(登録商標)200X、UNIX(登録商標)、LINUX(登録商標)、AIX(登録商標)などを使用することができる。また、情報処理装置100は、C++、JAVA(登録商標)、JAVA(登録商標)BEANS、PERL、RUBYなどのプログラミング言語を使用して記述される各種アプリケーションを実行して、入力されたデータを処理し、処理結果を生成させている。情報処理装置100をサーバとして構成する場合、情報処理装置100は、ウェブ・サーバまたはCORBA(Common Object Resource Broker Architecture)などを使用する分散コンピューティング環境を提供するためのサーバとすることができる。   As the OS, for example, WINDOWS (registered trademark) 200X, UNIX (registered trademark), LINUX (registered trademark), AIX (registered trademark), or the like can be used. The information processing apparatus 100 executes various applications described using a programming language such as C ++, JAVA (registered trademark), JAVA (registered trademark) BEANS, PERL, RUBY, and processes input data. The processing result is generated. When the information processing apparatus 100 is configured as a server, the information processing apparatus 100 can be a server for providing a distributed computing environment using a web server or CORBA (Common Object Resource Broker Architecture).

情報処理装置100をネットワークを介してデータを提供するサーバとして構成する場合、情報処理装置100は、LAN、WAN、インターネットなどのネットワーク(図示せず)を介して、HTTP、HTTPSなどのファイル転送プロトコル、RPC、RMIなど手続呼出しやメソッド呼出しを使用して、ネットワークを介して接続されたクライアント・コンピュータ(図示せず)から、姓名に対応する漢字列といったデータを受信し、アプリケーションによる処理を実行する。   When the information processing apparatus 100 is configured as a server that provides data via a network, the information processing apparatus 100 uses a file transfer protocol such as HTTP or HTTPS via a network (not shown) such as a LAN, WAN, or the Internet. Using a procedure call or method call such as RPC or RMI, a client computer (not shown) connected via a network receives data such as a kanji character string corresponding to the first and last name, and executes processing by the application .

情報処理装置100をウェブ・サーバとして構成する場合には、情報処理装置100は、上述したプログラミング言語により記述された、CGI、サーブレット、APACHEなどのサーバ・プログラムを実行し、ウェブ・クライアントに対して処理結果である、姓名識別値、姓名識別値により参照される銀行口座、年金情報などの特定情報などを返す。   When the information processing apparatus 100 is configured as a web server, the information processing apparatus 100 executes a server program such as CGI, servlet, or APACHE described in the programming language described above, and performs a web client. The processing result, such as the first and last name identification value, the bank account referred to by the first and last name identification value, and specific information such as pension information is returned.

図1を参照して情報処理装置100の機能ブロックについて説明する。情報処理装置100の各機能処理部は、上述したハードウェア資源を含むコンピュータ装置110で、プログラムをRAM上に展開することによってコンピュータ上に機能手段として実現することができる。情報処理装置100は、CGIなどを使用して構成された入力インタフェース112を備えている。入力インタフェース112は、外部から入力される姓名と考えられる文字列を受領して、以後の処理を実行するための各機能ブロックを呼出す。本実施形態では、姓名と考えられる文字列としては、マルチバイト文字を含み、例えば、漢字列、カタカナ列、仮名列、ハングル列など、表意文字列でもよいし、表音文字でもよく、表意文字および表音文字の混合文字列であってもよい。   The functional blocks of the information processing apparatus 100 will be described with reference to FIG. Each function processing unit of the information processing apparatus 100 is a computer device 110 including the hardware resources described above, and can be realized as a functional unit on the computer by developing the program on the RAM. The information processing apparatus 100 includes an input interface 112 configured using CGI or the like. The input interface 112 receives a character string that is considered to be a first and last name input from the outside, and calls each functional block for executing subsequent processing. In the present embodiment, the character string considered as the first and last name includes multi-byte characters, and may be an ideographic character string such as a kanji character string, a katakana character string, a kana character character string, a hangul character string, a phonogram character, an ideographic character, for example. And a mixed character string of phonetic characters.

情報処理装置100は、さらに、漢字正規化部114と、形態素解析部116と、姓名候補作成部118とを含んでいる。漢字正規化部114は、文字列が漢字を含む場合、漢字辞書124を参照し、異字体、旧字体、略字体などを、コンピュータが処理するに適切な字体に修正する。適切な字体とは、各文化圏について規格の字体を挙げることができ、日本語については例えば、JIS第1水準、JIS第2水準などで設定された字体に修正し、情報処理装置100が形態素解析において統一して処理を実行する。漢字辞書124は、この目的のため、異字体、旧字体、略字体などを、情報処理装置100が登録する漢字に対応付けたテーブルとして構成される。   The information processing apparatus 100 further includes a Chinese character normalization unit 114, a morpheme analysis unit 116, and a first and last name candidate creation unit 118. When the character string includes a kanji character, the kanji normalization unit 114 refers to the kanji dictionary 124 and corrects the different characters, the old characters, the abbreviated characters, and the like into characters suitable for processing by the computer. Appropriate fonts can include standard fonts for each cultural sphere. For example, Japanese is corrected to a font set according to JIS 1st level, JIS 2nd level, etc. Execute processing in a unified manner in analysis. For this purpose, the kanji dictionary 124 is configured as a table in which different characters, old characters, abbreviations, and the like are associated with kanji registered by the information processing apparatus 100.

形態素解析部116は、正規化処理後の文字列を受領して、形態素トークンを登録した形態素辞書126を参照し、文字列を、形態素トークン列に分解する。また、形態素辞書126は、形態素トークンが帰属される文化圏を示す識別値および当該文化圏で、当該形態素トークンが姓(SN:Sir Name)として使用されるか、名(GN:Given Name)として使用されるかを示す属性識別子を登録する。形態素解析部116は、形態素トークンが帰属される文化圏識別値、姓を示すか、名を示すか、または付属語を示すかの属性識別子を形態素辞書126から取得して、対として後述する姓名候補作成部118に送付する。   The morpheme analysis unit 116 receives the normalized character string, refers to the morpheme dictionary 126 in which the morpheme token is registered, and decomposes the character string into a morpheme token string. In addition, the morpheme dictionary 126 uses an identification value indicating a cultural area to which the morpheme token belongs, and the morpheme token is used as a surname (SN: Sir Name) or as a first name (GN: Given Name). Registers an attribute identifier that indicates whether it is used. The morpheme analysis unit 116 acquires the cultural zone identification value to which the morpheme token belongs, the attribute identifier that indicates the surname, the surname, or the attached word from the morpheme dictionary 126, and the surname and surname described later as a pair It is sent to the candidate creation unit 118.

また、形態素辞書126は、姓名と判断される文字列の前後に付される場合がある、「代表取締役」、「部長」、「課長」、「係長」、「教授」、「君」、「様」、「殿」などの形態素トークンに対し、付属語であることを示す識別子「SX(Suffix)」を付属語とされる可能性のある形態素トークンに割当てて登録する。以下、姓、名、付属語を示すための識別子を、属性識別子として参照する。   In addition, the morpheme dictionary 126 may be added before and after a character string that is determined to be a first name, last name, “representative director”, “department manager”, “section manager”, “section chief”, “professor”, “you”, “ An identifier “SX (Suffix)” indicating that it is an attached word is assigned to a morpheme token that may be an attached word and registered with respect to morpheme tokens such as “sama” and “dono”. Hereinafter, an identifier for indicating a surname, a first name, and an attached word is referred to as an attribute identifier.

なお、形態素辞書126は、異字体、旧字体、略字体など同一の漢字として処理することが可能な形態素トークンを登録する同義漢字辞書(図示せず)を実装することもできる。この場合、形態素辞書126が異字体、旧字体、略字体などの漢字の相違を含め姓名候補を作成することもできる。この実施形態の場合にあっては、漢字正規化部114、漢字辞書124の機能は、形態素辞書126の機能に統合させることができる。   Note that the morpheme dictionary 126 can also be implemented with a synonymous kanji dictionary (not shown) that registers morpheme tokens that can be processed as the same kanji, such as different characters, old characters, and abbreviated characters. In this case, the morpheme dictionary 126 can also create first and last name candidates including differences in kanji such as variant, old font, and abbreviation. In the case of this embodiment, the functions of the kanji normalization unit 114 and the kanji dictionary 124 can be integrated with the functions of the morpheme dictionary 126.

なお、本実施形態では、漢字の字体が異なる文字列であっても、当該文字列に対応するアルファベット表記を出力するので、複数の異字体からなる姓名候補を作成するよりも、漢字正規化部114、漢字辞書124を使用して形態素解析前に文字列を統一して処理することが、後述する姓名候補作成部118以後の処理を効率化する点では好ましい。   In the present embodiment, even if the character string of the kanji is different, the alphabet notation corresponding to the character string is output, so that the kanji normalization unit is more preferable than creating a first and last name candidate consisting of a plurality of different characters. 114, it is preferable to use the kanji dictionary 124 to unify and process the character strings before the morphological analysis from the viewpoint of improving the efficiency of the processing after the first and last name candidate creation unit 118 described later.

形態素解析部116は、文字列を解析し、文字列を、姓に対応する形態素トークン、名に対応する形態素トークン、付属語に対応する形態素トークンに分類し、形態素トークンについて割当てられた属性識別子を、形態素トークンに対応付けて抽出し、文字列に対応する順序で(形態素トークン、属性識別子、形態素トークン、属性識別子、・・・)といったベクトル型式、有向グラフ型式などの適切な型式で解析結果を姓名組合わせとして生成し、姓名候補作成部118に渡す。   The morpheme analysis unit 116 analyzes the character string, classifies the character string into a morpheme token corresponding to the surname, a morpheme token corresponding to the first name, and a morpheme token corresponding to the attached word, and assigns the attribute identifier assigned to the morpheme token. , Extracted in association with the morpheme token, and in the order corresponding to the character string (morpheme token, attribute identifier, morpheme token, attribute identifier, ...) A combination is generated and passed to the first and last name candidate creation unit 118.

姓名候補作成部118は、形態素解析部116が生成した姓名組合わせが抽出した姓名組合わせ情報を受領して、形態素トークンに付された属性識別子について接続を解析する。属性識別子の解析では、連続する形態素トークンに付された属性識別子を抽出し、接続識別子として決定する。そして、姓名候補作成部118は、形態素トークンの接続を特徴付ける接続識別子を、形態素トークン間に挿入する型式で、(形態素トークン−接続識別子−形態素トークン−接続識別子、・・・)のフィールドから構成されるレコードを含む姓名候補リスト(600、800)を、生成された全形態素トークン列について作成する。   The surname candidate creation unit 118 receives surname / name combination information extracted by the surname / name combination generated by the morpheme analysis unit 116, and analyzes the connection of the attribute identifier attached to the morpheme token. In the analysis of attribute identifiers, attribute identifiers attached to successive morpheme tokens are extracted and determined as connection identifiers. The first and last name candidate creation unit 118 is configured to insert a connection identifier characterizing the connection of the morpheme token between the morpheme tokens, and includes a field of (morpheme token-connection identifier-morpheme token-connection identifier,...). A full name candidate list (600, 800) including a record is created for all generated morpheme token strings.

この結果、姓名候補作成部118が作成する姓名候補リスト(600、800)は、特定の姓名候補についての形態素トークンおよび接続識別子が1レコードを構成するフィールドを構成する。また、特定の実施形態では、姓名候補リスト(600、800)は、姓名候補について計算された合計スコア値を登録するフィールドを含んで構成することもできる。合計スコア値を登録するフィールドには、スコア計算部120により形態素トークンの属性識別子および接続識別子を使用して計算された合計スコア値を登録し、処理結果として出力するべき姓名候補を選択するために使用される。   As a result, the first and last name candidate list (600, 800) created by the first and last name candidate creating unit 118 constitutes a field in which a morpheme token and a connection identifier for a specific first and last name candidate constitute one record. Also, in certain embodiments, the first and last name candidate list (600, 800) may be configured to include a field for registering a total score value calculated for the first and last name candidates. In the field for registering the total score value, the total score value calculated by using the attribute identifier and the connection identifier of the morpheme token by the score calculation unit 120 is registered, and a first name surname candidate to be output as a processing result is selected. used.

また、姓名候補作成部118は、入力文字列が、漢字、ハングル、カタカナ、平仮名などを含んで構成される場合、文化圏判断を実行し、文化圏重付け値を生成する。文化圏重付け値は、文字列が漢字、ハングル、カタカナ、平仮名などを含む場合、付属語を除いた姓名候補の先頭に存在する形態素トークンの人名属性識別値が、SNであるか、GNであるかを判断する。また、姓名候補作成部118は、姓名候補の形態素トークンと名候補の形態素トークンとに対し、各形態素トークンがどの文化圏に帰属されるかを判断して、姓、名が同一の文化圏に帰属される場合と、異なる文化圏に帰属される場合でも、姓名シーケンスの場合と同様に、異なる文化圏重付け値を生成して、姓名候補リスト(600、800)に登録する。   Further, if the input character string includes kanji, hangul, katakana, hiragana, etc., the first and last name candidate creation unit 118 performs cultural sphere judgment and generates a cultural sphere weight value. If the character string includes kanji, hangul, katakana, hiragana, etc., the cultural attribute weight value is SN or the morpheme token's personal name attribute identification value at the beginning of the first and last name candidates excluding attached words is SN or GN Determine if there is. Further, the first name surname candidate creation unit 118 determines to which cultural area each morpheme token belongs to the morpheme token of the first name surname candidate and the morpheme token of the first name candidate, and the first name surname and first name are assigned to the same cultural sphere. In the case of belonging to different cultural spheres, different cultural sphere weighting values are generated and registered in the first and last name candidate lists (600, 800) as in the case of the first and last name sequence.

さらに、他の実施形態では、姓名候補作成部118は、姓名候補ごとに文化圏識別値を生成し、後述するスコア計算部120に対し文化圏ごとに最尤の姓名候補を利用可能とすることができる。   Furthermore, in another embodiment, the first and last name candidate creation unit 118 generates a culture area identification value for each first name and last name candidate, and makes it possible to use the most likely first and last name candidate for each culture area for the score calculation unit 120 described later. Can do.

スコア計算部120は、姓名候補リスト(600、800)の特定のレコードについて、当該レコードの値がNULLではないフィールドの値を取得する。その後、スコア計算部120は、スコア・テーブル128を参照して当該フィールド値について割当てられたスコア値を取得し、処理レコードの非NULLのフィールド値について取得されたスコア値を合計する。さらに、スコア計算部120は、文化圏重付け値についてのスコア値を加算して合計スコア値を計算し、姓名候補リスト(600、800)の対応するレコード内に記述する。   The score calculation unit 120 acquires, for a specific record in the surname candidate list (600, 800), the value of a field whose record value is not NULL. After that, the score calculation unit 120 refers to the score table 128, acquires the score value assigned for the field value, and sums the score values acquired for the non-NULL field value of the processing record. Furthermore, the score calculation unit 120 calculates the total score value by adding the score values for the cultural sphere weight values, and describes them in the corresponding records of the first and last name candidate lists (600, 800).

なお、文化圏重付け値は、スコア・テーブル128に登録されている場合、スコア計算部120が計算のために参照されるが、スコア計算部120を記述するSQL文やスクリプトの定数として設定することができる。スコア・テーブル128が登録する各スコア値は、形態素トークン列が与える、姓名候補の文字列の先頭から末尾までの姓名距離を示すものとして利用される。   Note that, when the cultural area weight value is registered in the score table 128, the score calculation unit 120 is referred to for calculation, but is set as a SQL statement or script constant describing the score calculation unit 120. be able to. Each score value registered in the score table 128 is used to indicate the first and last name distance from the beginning to the end of the character string of the first and last name candidate given by the morpheme token string.

好ましい実施形態では、姓名候補リストのレコードの非NULLの値を総和して合計スコア値を計算させ、当該合計スコア値を、文化圏判断を含む姓名の先頭から末尾までのシーケンスの距離を示す値として使用する。また、他の実施形態では、より精度は低くなるが、文化圏重付け値姓および名候補が含む接続識別子の総数を使用して姓名候補の先頭から末尾までの距離の指標として使用することもできる。   In a preferred embodiment, the non-NULL values of the first and last name candidate list records are summed to calculate a total score value, and the total score value is a value indicating the distance of the sequence from the beginning to the end of the first name and last name including the cultural zone judgment. Use as In other embodiments, although less accurate, it may be used as an index of the distance from the beginning to the end of the first and last name candidates using the total number of connection identifiers included in the cultural area weighted surname and first name candidates. it can.

表記変換部122は、合計スコア値の最小な姓名候補を姓名候補リスト(600、800)から最尤の姓名候補として抽出する。表記変換部122は、最尤の姓名候補について、変換辞書130を参照して、最尤の姓名候補について登録されたアルファベット表記を、姓および名について割当て、姓名候補についての最尤のアルファベット表記として出力する。アルファベット表記変換辞書130は、最尤の姓名候補が含む文字が姓または名に使用される統計的確率、または漢字の場合には漢字が国字であるか、非国字であるかを使用して、文化圏ごとに異なるアルファベット表記を登録している。なお、姓名候補リスト(600、800)は、RAMなどの記憶装置内に処理中に生成される例えばビューなどとして構成することができ、その詳細な構成については後述する。   The notation conversion unit 122 extracts the first and last name candidate having the smallest total score value from the first and last name candidate list (600, 800) as the most likely first and last name candidate. The notation conversion unit 122 refers to the conversion dictionary 130 for the most likely first name surname candidate, assigns the alphabet notation registered for the most likely first name surname and the first name, and assigns the last name and first name as the maximum likelihood alphabet notation for the first name surname candidate. Output. The alphabetical notation conversion dictionary 130 uses a statistical probability that the character included in the most likely first name surname candidate is used for the last name or first name, or in the case of a kanji, whether the kanji is a national character or a non-national character, Different alphabets are registered for each cultural area. Note that the first and last name candidate list (600, 800) can be configured as, for example, a view generated during processing in a storage device such as a RAM, and the detailed configuration thereof will be described later.

表記変換部122は、姓名候補の文字列を登録するテーブルを登録した変換辞書130に対して姓名候補の文字列を姓および名について照会する。表記変換部122は、文字列について設定されたアルファベット表記を抽出し、同一の表意文字であっても、文化圏ごとにその表記が異なる可能性に対して対応可能としている。   The notation conversion unit 122 inquires the conversion dictionary 130 that registers a table for registering surname / candidate character strings for surnames and surnames. The notation conversion unit 122 extracts the alphabet notation set for the character string, and can cope with the possibility that the notation is different for each cultural sphere even for the same ideogram.

図1で説明した各機能部は、JAVA(登録商標)、PERL、RUBYなどのプログラミング言語によるサーバ・プログラムとして実装することができる。また、他の実施形態で、DB2(登録商標)、MYSQL、ORACLE(登録商標)などのリレーショナル・データベースや、オブジェクト指向データベース(OODB)が利用できる場合、各種処理を実行するSQL文(Structured Query Language)を使用して作成した機能モジュールとして実装することができる。いずれの形態で実装するかについては、プログラミングの便宜や、データベースの利用性に応じて適宜選択することができる。   Each functional unit described in FIG. 1 can be implemented as a server program in a programming language such as JAVA (registered trademark), PERL, or RUBY. In another embodiment, when a relational database such as DB2 (registered trademark), MYSQL, or ORACLE (registered trademark) or an object-oriented database (OODB) can be used, an SQL statement (Structured Query Language) that executes various processes is used. ) Can be implemented as a function module created using. Which form to implement can be appropriately selected according to the convenience of programming and the usability of the database.

図2は、本実施形態の情報処理装置100の姓名識別方法のフローチャートである。図2に示す処理は、ステップS200から開始し、ステップS201で、姓名であると考えられる文字列について、文字列とともに姓名識別要求を受領したか否かを判断し、姓名識別要求を受領しない場合(no)、姓名識別要求を受領するまで処理をステップS201で待機させる。   FIG. 2 is a flowchart of the first and last name identification method of the information processing apparatus 100 according to the present embodiment. The process shown in FIG. 2 starts from step S200, and in step S201, for a character string that is considered to be a first and last name, it is determined whether a first and last name identification request is received together with the character string, and a first and last name identification request is not received. (No) The process waits in step S201 until a first and last name identification request is received.

ステップS201で姓名識別要求を受領した場合(yes)、ステップS202で文字列を取得し、ステップS203で漢字正規化部114を呼出して、文字列について異字体、旧字体、略字体の正規化処理を実行する。なお、姓名識別を要求する文字列が複数送付された場合、受領した文字列をキューに登録し、受領順に処理を実行する。なお、正規化処理は、日本語の異字体正規化処理の他、中国語と台湾語など、略字体が異なるものの同義語に分類されるべき漢字の正規化も同時に実行する。   When the first and last name identification request is received in step S201 (yes), the character string is acquired in step S202, and the kanji normalization unit 114 is called in step S203 to normalize the different character, old character, and abbreviated character for the character string. Execute. When a plurality of character strings requesting first and last name identification are sent, the received character strings are registered in a queue, and processing is executed in the order of reception. The normalization process simultaneously executes normalization of Japanese characters, as well as normalization of Chinese characters that should be classified as synonyms of different abbreviations such as Chinese and Taiwanese.

ステップS204では、形態素解析部116を呼出して正規化後の文字列に対して形態素辞書126を参照して、姓および名として登録された形態素トークンおよび対応する属性識別値の候補を決定する。ステップS205では、姓名候補作成部118を呼出して、決定された形態素トークンおよび属性識別値を姓名候補リストのレコードの登録し、姓名候補リストを作成する。   In step S204, the morpheme analyzer 116 is called to refer to the morpheme dictionary 126 for the normalized character string, and determine morpheme tokens registered as last names and first names and corresponding attribute identification value candidates. In step S205, the first and last name candidate creating unit 118 is called to register the determined morpheme token and attribute identification value in a record of the first and last name candidate list to create a first and last name candidate list.

ステップS206では、スコア計算部120を呼出してスコア計算を実行させる。計算された合計スコア値は、文字列についての姓名距離として、姓名候補リストの合計対象のレコードの合計スコア値フィールドに登録される。ステップS206では、表記変換部122は、姓名候補リストに登録された姓名候補のうち、姓名距離が最小の姓名候補を検索し、表記変換辞書130を使用して最尤のシングルバイト文字列として、特定の実施形態ではアルファベット表記を決定する。   In step S206, the score calculation unit 120 is called to execute score calculation. The calculated total score value is registered in the total score value field of the records to be summed in the surname candidate list as the surname / name distance for the character string. In step S206, the notation conversion unit 122 searches for a first name surname candidate with the shortest surname surname name registered in the surname surname candidate list, and uses the notation conversion dictionary 130 as a most likely single-byte character string. In certain embodiments, the alphabetic notation is determined.

ステップS207では、決定されたアルファベット表記を、処理結果として出力し、ステップS208では、キューに未処理の文字列が残っているか否かを判断する。未処理の文字列が残っていない場合(no)処理をステップS201に戻し、未処理の文字列がなくなるまで処理を繰り返す。   In step S207, the determined alphabetical notation is output as a processing result, and in step S208, it is determined whether or not an unprocessed character string remains in the queue. If no unprocessed character string remains (no), the process returns to step S201, and the process is repeated until there is no unprocessed character string.

一方、キュー内に未処理の文字列が残っている場合(yes)には、処理をステップS202に戻し、別の文字列に対する姓名候補を決定し、ステップS207でアルファベット表記を出力するまで処理を反復させる。   On the other hand, if an unprocessed character string remains in the queue (yes), the process returns to step S202 to determine a first and last name candidate for another character string, and the process is performed until alphabetical notation is output in step S207. Repeat.

なお、他の実施形態では、ステップS205のスコア計算部120の処理で、姓名距離の小さいものから複数の姓名候補を抽出し、それぞれについてアルファベット表記を割当てることもできる。また、さらに他の実施形態では、例えば文字列が「林子平」などのように、文字列に対して可能性のある複数の姓名候補が異なる文化圏について得られる場合も想定される。この場合、各文化圏について最尤の姓名候補をそれぞれ抽出し、ステップS206、ステップS207の処理を繰り返すことで、文化圏にまたがった複数のアルファベット表記を出力させることもできる。この実施形態では、各文化圏ごとに、最尤の姓名候補から昇順に複数の姓名候補を設定数抽出して、可能性のあるアルファベット表記の選択数を増加させてもよい。   In another embodiment, a plurality of first and last name candidates can be extracted from those having a short last name distance by the processing of the score calculation unit 120 in step S205, and alphabetical notation can be assigned to each. In still another embodiment, a case is also assumed in which a plurality of possible first and last name candidates for a character string are obtained for different cultural areas, such as “Hayashi Kohei”, for example. In this case, by extracting the most likely first and last name candidates for each cultural sphere and repeating the processing of step S206 and step S207, it is possible to output a plurality of alphabetic notations across the cultural spheres. In this embodiment, for each cultural area, a set number of first and last name candidates may be extracted in ascending order from the most likely first and last name candidates to increase the number of possible alphabetic selections.

図3は、図2で説明した処理のステップS204において、本実施形態の形態素解析部116が実行する形態素解析処理により生成される形態素トークン列生成処理の実施形態を示す。なお、図3の実施形態では、正規化後の文字列は、「下鶴間大和君」であるものとして説明を行う。   FIG. 3 shows an embodiment of the morpheme token string generation process generated by the morpheme analysis process executed by the morpheme analysis unit 116 of the present embodiment in step S204 of the process described in FIG. In the embodiment of FIG. 3, the normalized character string is assumed to be “Yama Shimotsuruma”.

文字列が、「下鶴間大和君」である場合、姓名について知識を有する日本人の場合、何処までが姓で、どこまでが名であり、付属語がどれかを判断することは、姓名知識を利用することによってある程度分類可能である。また、例えば、文字列の何文字目までが姓であり、名であるのかについては、姓名についての統計解析により、形態素辞書126に登録しておくことが可能である。また、例えば、短い姓として、「間」、長い姓として、「勅使河原」、「左衛門三郎(サエモンサブロウ」、「勘解由小路(かでのこうじ)」などを例示的に挙げることができ、文字列の何処までを姓とし、何処までを名とするかについては、形態素辞書126で、姓、名として登録された形態素トークンの組合わせから、最尤の組合わせを与えるように姓名分割を実行することができる。   If the character string is “Yamamoto Shimotsuruma”, if you are a Japanese who has knowledge about first and last names, it is important to know where the last name is, where it is the first name, and what the appendix is. It can be classified to some extent by using it. In addition, for example, up to the first character in the character string can be registered in the morpheme dictionary 126 by statistical analysis of the first name and last name. In addition, for example, “Ma” as the short last name, “Seimon Saburo”, “Saemon Saburo”, “Kano Koji” as the long last name can be exemplified. In the morpheme dictionary 126, the first name and the last name are divided so as to give the most likely combination from the combination of the morpheme tokens registered as the last name and the first name. Can be executed.

さらに、他の実施形態では、特に日本人の姓名を分割する場合、形態素辞書126において割当てるべき姓、名の組合わせについて、音声−言語処理で汎用的に利用される、モーラ解析を併用し、最尤の姓名分割を決定してもよい。   Furthermore, in another embodiment, particularly when dividing Japanese surnames, surnames and surnames to be assigned in the morpheme dictionary 126, combined with mora analysis, which is generally used in speech-language processing, The most likely last name split may be determined.

図3に示した実施形態で、文字列が、「下鶴間大和君」の場合、文字列の判断から、文化圏は、日本語、中国語、韓国語のいずれかであると判断される。説明している実施形態では、形態素トークン解析の結果、「下」、「鶴」、「下鶴」、「鶴間」、「下鶴間」、「大」、「和」、「君」、「大和」、「和」、「和君」の形態素トークンが抽出される。   In the embodiment shown in FIG. 3, when the character string is “Yamoto Shimotsuruma”, it is determined from the determination of the character string that the cultural area is any one of Japanese, Chinese, and Korean. In the described embodiment, as a result of the morphological token analysis, “lower”, “crane”, “lower crane”, “tsuruma”, “lower crane”, “large”, “wa”, “you”, “Yamato ”,“ Wa ”, and“ Wa-kun ”morpheme tokens are extracted.

これらの形態素トークンを使用して姓名を再現する場合、形態素解析部116は、文化圏の判断を、各文化圏での姓名として登録されているか否かを判断して、文化圏の判定を行う。図3に示した実施形態では、「下」、「鶴」、「間」、「下鶴」、「鶴間」、「下鶴間」を含む姓は、日本語の文化圏で姓に割当てられた形態素トークンである。なお、形態素トークン「下」および「鶴」については、日本語の文化圏では、名にも割当てられた形態素トークンであるものとして説明を行う。なお、図3には、代表的な属性識別子および当該属性識別子に割り当てたスコアの値を示す。   When reproducing the first and last names using these morpheme tokens, the morpheme analysis unit 116 determines the cultural sphere by determining whether the cultural sphere is registered as a first and last name in each cultural sphere. . In the embodiment shown in FIG. 3, surnames including “lower”, “crane”, “ma”, “shita crane”, “tsuruma”, “shimazuru” are assigned to surnames in the Japanese cultural sphere. It is a morpheme token. Note that the morpheme tokens “lower” and “crane” will be described as morpheme tokens that are also assigned to names in the Japanese cultural sphere. FIG. 3 shows representative attribute identifiers and score values assigned to the attribute identifiers.

本実施形態の情報処理装置100の形態素解析部116は、図3に示す形態素トークン解析で、形態素トークン列をグラフ化する処理を実行する。形態素トークン列のグラフ化は、形態素トークン列について、特定した形態素トークンをノードとし、連続するノードに与えられた属性識別子から、連続する順で接続識別子を生成させて、文字列順に形態素トークンおよび接続識別子を登録することにより実行される。   The morpheme analysis unit 116 of the information processing apparatus 100 according to the present embodiment executes a process of graphing a morpheme token string in the morpheme token analysis shown in FIG. The graphing of morpheme token strings is that the specified morpheme tokens are used as nodes for the morpheme token strings, and the connection identifiers are generated in the sequential order from the attribute identifiers given to the consecutive nodes. It is executed by registering the identifier.

図3に示した実施形態では、文字列「下鶴間大和君」について、形態素辞書126により、「鶴」、「下鶴」、「鶴間」、「下鶴間」、「大」、「和」、「君」、「大和」、「和」、「和君」の形態素トークンが抽出されている。そして、文字列「下鶴間大和君」を、先頭の「下」から末尾の「君」までについて、抽出された形態素トークン列を割当てる。具体的には、形態素トークン「下鶴間」については、「下」、「鶴」、「間」、「下鶴」、「鶴間」、「下鶴間」の6形態素トークンが抽出され、これらの形態素トークンを文字列「下鶴間」に割当てる。   In the embodiment shown in FIG. 3, the character string “Shimotsuru Yamato-kun” is searched by the morpheme dictionary 126 for “Crane”, “Shizuru”, “Tsuruma”, “Shimotsuruma”, “Dai”, “Wa”, The morpheme tokens of “Kimi”, “Yamato”, “Wa” and “Wa Kimi” have been extracted. Then, the extracted morpheme token string is assigned to the character string “Yamata Shimotsuruma” from the first “lower” to the last “kun”. Specifically, for the morpheme token “Shimotsuruma”, six morpheme tokens of “lower”, “crane”, “ma”, “shitazuru”, “tsuruma”, and “shimotsuruma” are extracted, and these morphemes are extracted. Allocate the token to the string “Shimotsuruma”.

図3に示した実施形態では、「下鶴間」に対して、{「下(SN)」−「鶴間(SN)」}、{「下(GN)」−「鶴(GN)」−「間(SN)」}、{「下鶴(SN)」−「間(SN)」}、{「下鶴間(SN)」}の形態素トークン列が割当てられている。そして、図3に示した実施形態では、姓として使用される可能性の高い形態素トークンを含む形態素トークン列がより上方となるようにして、形態素トークン列を配置示している。例えば、「下」、「鶴間」については、スコア1が与えられ、「下鶴間」についてはスコア4が与えられている。   In the embodiment shown in FIG. 3, {"lower (SN)"-"crane (SN)"}, {"lower (GN)"-"crane (GN)"-"between" Shimotsuruma " (SN) "}, {" Shizuru (SN) "-" Between (SN) "}, {" Shimozuru (SN) "} are assigned morpheme token strings. In the embodiment shown in FIG. 3, the morpheme token string is arranged such that the morpheme token string including the morpheme token that is likely to be used as the surname is located higher. For example, a score of 1 is given for “lower” and “Tsuruma”, and a score of 4 is given for “Shimotsuruma”.

形態素辞書126は、当該形態素トークンが、姓(SN)を示すものであるか、または名(GN)を示すものであるかを統計的に解析し、形態素トークンの属性識別子が、形態素トークンに対応付けて登録する。図3に示した実施形態では、形態素トークン「下」および「鶴」は、名(GN)を示す属性識別子が採用されたものとして説明する。なお、形態素トークン「下」を姓とし、「鶴」を、名(GN)とする姓名候補も想定できるが、この場合でも、図3の形態素トークン列に1シリーズが追加されることになるのみで、処理は同様に行うことができる。なお、図3に示した実施形態では、合計スコア値は、破線で囲った形態素トークン列310が最小値を与え、この結果、「下鶴間大和君」の姓名識別の結果、姓=「下鶴間」、名=「大和」、付属語=「君」に分解することが最尤の結果として出力される。   The morpheme dictionary 126 statistically analyzes whether the morpheme token indicates a surname (SN) or a first name (GN), and the attribute identifier of the morpheme token corresponds to the morpheme token. Add and register. In the embodiment shown in FIG. 3, the morpheme tokens “lower” and “crane” will be described assuming that an attribute identifier indicating a name (GN) is adopted. Note that a surname candidate with the morpheme token “lower” as the last name and “crane” as the first name (GN) can be assumed, but even in this case, only one series is added to the morpheme token string of FIG. Thus, the processing can be performed in the same manner. In the embodiment shown in FIG. 3, the total score value is given by the morpheme token string 310 surrounded by a broken line to give the minimum value. ”, Name =“ Yamato ”, and adjunct =“ Kimi ”are output as the most likely result.

図3に示した形態素トークン列を生成させた後、形態素解析部116は、当該形態素トークンの属性識別子、「SN」、「GN」、「SX」を各形態素トークンと対応付けて姓名候補リストに、例えば、「下」−「鶴間」について、{下、SN−鶴間、SN}のシーケンスで登録する。また、「下」−「鶴」−「間」については、{下、GN−鶴、GN−間、SN}のシーケンスで属性識別子を追加しながら登録され、姓名を表す形態素トークン列が姓名候補リスト内に定義される。   After the morpheme token sequence shown in FIG. 3 is generated, the morpheme analysis unit 116 associates the attribute identifiers “SN”, “GN”, and “SX” of the morpheme token with each morpheme token in the surname candidate list. For example, “lower”-“Tsuruma” is registered in the sequence {lower, SN-Tsuruma, SN}. In addition, “lower”-“crane”-“between” are registered while adding attribute identifiers in the sequence {below, GN-crane, GN-between, SN}, and a morpheme token string representing the first and last names is a surname candidate Defined in the list.

図4は、本実施形態の姓名候補作成部118およびスコア計算部120が実行する処理のフローチャートである。図4の処理は、ステップS400から開始し、ステップS401で正規化後の処理対象の文字列についての形態素解析部116の結果を受取り、当該文字列について可能性のある形態素トークン、属性識別値を、姓名候補リストに追加して行く。   FIG. 4 is a flowchart of processing executed by the first and last name candidate creation unit 118 and the score calculation unit 120 of this embodiment. The process of FIG. 4 starts from step S400, receives the result of the morpheme analysis unit 116 for the character string to be processed after normalization in step S401, and obtains a possible morpheme token and attribute identification value for the character string. Go to the first name surname list.

ステップS402では、互いに隣接する形態素トークンの属性識別子を使用して形態素トークン間の接続識別値を生成し、姓名候補リストに登録する。例えば、姓(SN)として構成された形態素トークンが連続する場合SS、姓(SN)名(GN)が連続する場合SG、名(GN)姓(SN)が連続する場合GSなどである。さらに、文化圏の判定を用いて文化圏重付け値を生成し、姓名候補リストに登録する。文化圏の判定は、図3に示した実施形態では、文字列が漢字を含んで構成されている。このため、文字列が姓名に対応する場合、姓が先頭に記述されるのは通常(N:Normal)であり、名が先頭に記述されるシーケンスは、非通常(AN:Abnormal)ということができる。文化圏重付け値は、文化圏を考慮した場合に通常か非通常かを識別して重付けを行うために用いられる値であり、特定の識別文字、フラグ、または他の適切なキャラクタなどを用いることができる。   In step S402, a connection identification value between morpheme tokens is generated using attribute identifiers of adjacent morpheme tokens, and registered in the first and last name candidate list. For example, it is SS when morpheme tokens configured as surnames (SN) are continuous, SG when surnames (SN) and surnames (GN) are contiguous, GS when surnames (GN) surnames (SN) are contiguous, and so on. Furthermore, a culture area weight value is generated using the determination of the culture area, and is registered in the first and last name candidate list. In the embodiment shown in FIG. 3, the character string is configured to include Chinese characters in the determination of the cultural area. For this reason, when a character string corresponds to a surname, the last name is usually written first (N: Normal), and the sequence in which the first name is written first is unusual (AN: Abnormal). it can. Cultural weight is a value that is used to identify normal or non-normal weights when considering cultural spheres, such as specific identification characters, flags, or other suitable characters. Can be used.

また、他の文化圏判定の実施形態では、姓名候補作成部118は、姓および名の形態素トークン分割が終了した段階で姓および名に帰属された形態素トークンの文化圏判定を実行する。この実施形態では、姓に帰属された形態素トークンと名に帰属された形態素トークンとが異なる文化圏の組合わせであると判断した場合、文化圏重付け値として値ANを付し、同一の形態素トークンのみで姓名が分解されている場合に値Nを付して姓名候補リストに登録する。なお、先に文化圏重付け値が設定されている場合には、先の文化圏重付け値の値と、後の文化圏重付け値とを参照し、ANが存在する場合には、ANを付し、ANが存在しない場合Nを付する処理を実行する。   Also, in another cultural area determination embodiment, the first and last name candidate creation unit 118 executes the cultural area determination of the morpheme tokens belonging to the first name and the last name when the morpheme token division of the first name and the first name is completed. In this embodiment, when it is determined that the morpheme token belonging to the surname and the morpheme token belonging to the first name are a combination of different cultural spheres, the value AN is added as the cultural sphere weighting value, and the same morpheme is assigned. When the first and last names are decomposed only with the token, the value N is added and registered in the first and last name candidate list. If the cultural zone weighting value is set first, the previous cultural zone weighting value and the subsequent cultural zone weighting value are referred to. If AN exists, AN If there is no AN, the process of adding N is executed.

その後、ステップS403では、スコア・テーブル128を参照し、形態素トークン、接続識別子のスコア値を取得する。ステップS404では、文字列を形成する形態素トークンの先頭から最後まで、特定の姓名候補についてのレコードのスコア値および文化圏重付け値のスコア値または値を合計して姓名距離を計算する。その後、計算した姓名距離の最も小さい形態素トークン列を有するものを、最尤の姓名候補として決定する。   Thereafter, in step S403, the score table 128 is referred to, and the score values of the morpheme token and the connection identifier are acquired. In step S404, from the beginning to the end of the morpheme token forming the character string, the score value of the record and the score value or the value of the culture area weight value for the specific first and last name candidate are summed to calculate the first and last name distance. Thereafter, the one having the morpheme token string having the smallest calculated first and last name distance is determined as the most likely first and last name candidate.

その後、ステップS405で、表記変換部122に送付して、処理をステップS406で終了する。なお、ステップS404では、上述したように、特定の目的および実装形態に応じて、ランク順、または文化圏別に複数の候補形態素トークン列を姓名候補として、表記変換部122に送付することもできる。   Thereafter, in step S405, the data is sent to the notation conversion unit 122, and the process ends in step S406. In step S404, as described above, a plurality of candidate morpheme token strings can be sent to the notation conversion unit 122 as first and last name candidates according to rank order or culture sphere according to a specific purpose and implementation form.

図5は、本実施形態のスコア計算部120が参照するスコア・テーブル128の実施形態を示す。スコア・テーブル128は、形態素トークン・スコア・テーブル500と、シーケンス・スコア・テーブル550とを含んで構成されている。形態素トークン・スコア・テーブル500は、形態素トークンが姓または名として使用される場合の頻度の高さを、頻度が高いほど低いスコアを割当てたデータ構造として構成されている。例えば、姓として形態素トークン「下」、「間」が使用されることはその頻度は高いと言えるので、スコア=1が割当てられている。   FIG. 5 shows an embodiment of the score table 128 referred to by the score calculation unit 120 of the present embodiment. The score table 128 includes a morpheme token score table 500 and a sequence score table 550. The morpheme token score table 500 is configured as a data structure in which the higher the frequency when a morpheme token is used as a first name or last name, the lower the score is assigned. For example, the use of the morpheme tokens “below” and “between” as surnames can be said to have a high frequency, so score = 1 is assigned.

一方、名について、「下」が使用される頻度はないとは言えないが、それほど頻度は高くないと言えるので、図3に示した実施形態では、スコア=2が割当てられている。また、3文字姓である「下鶴間」については、出現頻度はさらに低いと考えられるので、スコア=4が割当てられており、例えば、「勘解由小路」などについては、さらに大きなスコアを割当てることができる。図5に示した形態素トークン・スコア・テーブル500では、特定の形態素トークンについて、姓(SN)スコア、名(GN)スコアが対として登録され、レコードを構成している。   On the other hand, although it cannot be said that “lower” is frequently used for the name, it can be said that the frequency is not so high. Therefore, in the embodiment shown in FIG. 3, score = 2 is assigned. Also, since the appearance frequency is considered to be lower for the three-letter surname “Shimotsuruma”, a score = 4 is assigned. be able to. In the morpheme token score table 500 shown in FIG. 5, a surname (SN) score and a first name (GN) score are registered as a pair for a specific morpheme token to constitute a record.

また、シーケンス・スコア・テーブル550は、文字列に割当てた形態素トークンの順が、当該文化圏および姓名構造に関連して妥当か否かの統計的判断を使用して形態素トークンの間の接続識別子をスコア付けするために利用されるデータ構造である。図5に示すシーケンス・スコア・テーブル550は、姓−名、姓−姓、名−姓などの形態素トークンの接続関係が、接続識別子SG、SS、GSなどとして登録され当該文化圏に関連して適切か否かの統計的および文化圏の判断から、接続識別子に対して接続スコアが登録されている。   In addition, the sequence score table 550 uses a statistical judgment as to whether or not the order of the morpheme tokens assigned to the character strings is appropriate in relation to the cultural sphere and the first and last name structure. Is a data structure used for scoring. In the sequence score table 550 shown in FIG. 5, connection relationships of morpheme tokens such as surname-first name, surname-surname, surname-surname, etc. are registered as connection identifiers SG, SS, GS, etc. A connection score is registered with respect to the connection identifier based on the determination of whether it is appropriate and the judgment of the cultural area.

スコア計算部120は、姓名候補リストに登録された接続識別子のフィールドに値が登録されている場合、当該値に対応する接続スコア値をシーケンス・スコア・テーブル550から取得して、形態素トークン・スコア・テーブル500に登録された形態素トークンのスコア値とともにスコア計算のために使用する。なお、文化圏重付け値は、上述したようにスコア・テーブル128に登録することもできるし、また、Nの場合0、ANの場合、適切な大数としてプログラム中に設定しておくことができ、適宜、プログラミングの便宜を考慮して実装することができる。   When a value is registered in the connection identifier field registered in the first and last name candidate list, the score calculation unit 120 acquires a connection score value corresponding to the value from the sequence score table 550, and obtains a morpheme token score. Used together with the score value of the morpheme token registered in the table 500 for the score calculation. Note that the cultural sphere weight value can be registered in the score table 128 as described above, or can be set in the program as an appropriate large number in the case of 0 for N and AN. It can be implemented in consideration of the convenience of programming.

図6は、本実施形態で姓名候補作成部118が作成する姓名候補リスト600の実施形態を示す。図6に示した姓名候補リスト600の実施形態では、4種類の姓候補に対してそれぞれ3種類の名候補の組み合わせが全部リストされる。図6に示した実施形態では、レコード・セット610が、「下+鶴間」の姓組合わせに対応し、レコード・セット620が、「下+鶴+間」の姓組合わせに対応する。さらにレコード・セット630は、姓組合わせ「下鶴+間」に対応し、さらにレコード・セット640は、姓組合わせ「下鶴間」に対応する。   FIG. 6 shows an embodiment of the first and last name candidate list 600 created by the first and last name candidate creating unit 118 in this embodiment. In the embodiment of the first and last name candidate list 600 shown in FIG. 6, all combinations of three kinds of first name candidates are listed for each of the four kinds of last name candidates. In the embodiment shown in FIG. 6, the record set 610 corresponds to the surname combination “lower + crane”, and the record set 620 corresponds to the surname combination “lower + crane + ma”. Further, the record set 630 corresponds to the surname combination “Shimotsuru + ma”, and the record set 640 further corresponds to the surname combination “Shimotsuru ma”.

また、姓名候補リスト600は、文化圏重付け値を登録するフィールド650、文字列の開始からの形態素トークンの接続を示す先行形態素トークン接続リスト・フィールド660、文字列の末尾までの残りの形態素トークンの接続を示す後続形態素トークン接続リスト・フィールド680、および先行形態素トークンおよび後続形態素トークンの前後接続を示す前後接続リスト・フィールド670、および合計スコア値フィールド690を含んで構成されている。   The first and last name candidate list 600 includes a field 650 for registering a culture sphere weight value, a preceding morpheme token connection list field 660 indicating connection of morpheme tokens from the start of the character string, and remaining morpheme tokens up to the end of the character string. A subsequent morpheme token connection list field 680 indicating the connection of the preceding morpheme token, a front / rear connection list field 670 indicating the connection before and after the preceding morpheme token and the subsequent morpheme token, and a total score value field 690.

フィールド650は、文化圏判断において、日本人名として判断されたことに対応して、姓名の先頭について、SNの属性識別子を有する形態素トークンが割当てられている場合、姓名候補作成部118が、N:Normalの識別子を設定する。また、レコード・セット620は、「下」について、属性識別子が「GN」が割当てられているので、文化圏判断において、日本語の姓名の通常の記述ではないことから、AN:Abnormalの識別子を設定している。   In the field 650, if a morpheme token having an SN attribute identifier is assigned to the head of the first and last name in response to the judgment as a Japanese name in the cultural sphere judgment, the first and last name candidate creation unit 118 performs N: Sets the normal identifier. In addition, since the attribute identifier “GN” is assigned to “below” in the record set 620, it is not a normal description of Japanese first and last names in the cultural zone judgment. Therefore, the identifier of AN: Abnormal is used. It is set.

スコア計算部120は、図6の姓名候補リスト600のレコードについて、それぞれNULLではないフィールドのスコア値を、スコア・テーブル128を参照して取得して、好ましい実施形態では、下記式(1)を使用して合計スコア値を計算する。   The score calculation unit 120 acquires the score values of the fields that are not NULL for each record in the first and last name candidate list 600 of FIG. 6 with reference to the score table 128, and in a preferred embodiment, the following formula (1) is obtained. Use to calculate the total score value.

Figure 0005466376
上記式(1)中、iは、レコードを指定するサフィックスであり、jは、レコードiのj番目のフィールドを示すサフィックスである。また、SUM_SCORE(i)は、合計スコア値であり、Culture_weight(i)は、文化圏重付け値である。なお、上述したように文化圏重付け値は、スコア・テーブル128の登録項目としておくこともできるし、またSQL文中の条件値として指定しておくこともできる。なお、「君」、「さん」、「殿」などの付属語については、姓名のスコア計算に影響を与えない適切なスコアを割当てることができ、図6に示した実施形態では、付属語「君」についてスコア=1を割当てて合計スコア値であるSUM_SCORE(i)を計算している。なお、付属語については、スコア=0として設定することもできるし、上記式(1)の計算から除外する処理を採用することもできる。
Figure 0005466376
In the above formula (1), i is a suffix that designates a record, and j is a suffix that indicates the jth field of the record i. SUM_SCORE (i) is a total score value, and Culture_weight (i) is a culture area weight value. As described above, the culture sphere weight value can be set as a registered item in the score table 128, or can be specified as a condition value in the SQL sentence. Note that an appropriate score that does not affect the score calculation of the first and last names can be assigned to the ancillary words such as “you”, “san”, and “dono”, and in the embodiment shown in FIG. SUM_SCORE (i) which is a total score value is calculated by assigning score = 1 for “you”. Note that the attached word can be set as score = 0, or a process of excluding it from the calculation of the above formula (1) can be adopted.

図6に示す姓名候補リスト600について、上記式(1)を適用して計算された合計スコア値である、SUM_SCOREijの値が、フィールド690に登録される。なお、合計スコア値内のNおよびANの値は、文化圏判定に関連して例えば、N=0、AN=大数などの値を適宜設定することができる。スコア計算部120は、フィールド690の値を比較し、値が最小のレコードを姓名候補として採用し、表記変換部122に渡す。 In the first and last name candidate list 600 shown in FIG. 6, the value of SUM_SCORE ij , which is the total score value calculated by applying the above formula (1), is registered in the field 690. Note that the values of N and AN in the total score value can be appropriately set to values such as N = 0 and AN = large number, for example, in connection with the cultural zone determination. The score calculation unit 120 compares the values in the field 690, adopts the record with the smallest value as a first name surname candidate, and passes it to the notation conversion unit 122.

さらにスコア計算部120のスコア計算処理の他の実施形態として、下記式(2)を使用して、文化圏重付け値および接続識別子のみを抽出し、そのスコアを合計して合計スコア値として姓名候補リスト600に登録することもできる。   Furthermore, as another embodiment of the score calculation process of the score calculation unit 120, the following formula (2) is used to extract only the cultural area weighting value and the connection identifier, and the scores are summed to give the surname as the total score value It can also be registered in the candidate list 600.

Figure 0005466376
上記式(2)を使用して合計スコア値を計算する場合、形態素トークンが姓を示すか、または名を示すかの判断とは別に、文字列をいくつの形態素トークンで接続したか、および文化圏の判断結果を使用して姓名候補を抽出することが可能となる。この実施形態は、使用される姓、名の頻度を使用するものではないが、姓に利用される文字が比較的限定される場合、姓名候補を効率的に抽出するためには好ましく利用することができる。なお、上記式(2)の計算においても、付属語についての取扱いは、上記式(1)の場合と同様に実行することができる。
Figure 0005466376
When calculating the total score value using equation (2) above, the number of morpheme tokens connected to the string and the culture, apart from determining whether the morpheme token represents a last name or a first name It becomes possible to extract first and last name candidates using the judgment result of the area. This embodiment does not use the last name and the frequency of the first name used, but preferably used in order to efficiently extract the first and last name candidates when the characters used for the last name are relatively limited. Can do. In addition, also in the calculation of the above formula (2), the handling of the attached word can be executed in the same manner as in the case of the above formula (1).

図6に示した実施形態では、文字列=「下鶴間大和君」について、姓=「下鶴間」、名=「大和」、付属語=「君」と分解することが、最小の合計スコア値を与える。表記変換部122は、姓名候補リストを検索し、合計スコア値が最小の姓名候補を最尤の姓名候補とするなど、適切な抽出形態を使用して抽出する。   In the embodiment shown in FIG. 6, regarding the character string = “Yamata Shimotsuruma”, the minimum total score value is to decompose the surname = “Shimotsuruma”, first name = “Yamato”, and adjunct = “you”. give. The notation conversion unit 122 searches the first name surname candidate list, and extracts the first name surname candidate with the smallest total score value as the most likely first name surname candidate using an appropriate extraction form.

図7は、表記変換部122が使用する変換辞書130が登録するテーブル・セット700の実施形態を示す。図7に示したテーブル・セットは、姓テーブル710と、名テーブル750として構成されている。姓テーブル710には、さらに文化圏別にJPセクション720、CNセクション730、KRセクション740が割当てられていて、各セクションには、文化圏に帰属される姓に対応する形態素トークンが、そのアルファベット表記と対として登録されている。なお、姓テーブル710には、同一の文字が複数の文化圏で姓として使用される場合でも、それぞれのセクションにそのアルファベット表記とともに登録されている。   FIG. 7 shows an embodiment of a table set 700 registered by the conversion dictionary 130 used by the notation conversion unit 122. The table set shown in FIG. 7 is configured as a last name table 710 and a first name table 750. The surname table 710 is further allocated with a JP section 720, a CN section 730, and a KR section 740 for each cultural area. In each section, a morpheme token corresponding to the surname belonging to the cultural area is displayed in alphabetical form. Registered as a pair. In the surname table 710, even when the same character is used as a surname in a plurality of cultural spheres, it is registered in each section together with its alphabetical notation.

なお、アルファベット表記といったシングルバイト文字列は、日本人名についてはローマ字を使用することができ、ローマ字の表記方法としては、ISO3602で規定される訓令式の表記方法の他、ヘボン式、日本式ローマ字など表記方式のアルファベット表記を使用することができ、これらは、単独で登録することもできるし、異表記形態候補として並列的にシングルバイト文字列に変換して、出力とすることもできる。   Note that single-byte character strings such as alphabetic characters can use Roman characters for Japanese names. In addition to the ceremonial notation method defined in ISO 3602, the Roman character notation method includes Hebon and Japanese Roman characters. Alphabet notation of a notation system can be used, and these can be registered alone, or can be converted into a single-byte character string in parallel as an alternative notation form candidate and output.

当該実施形態の変換辞書130を実装する場合、例えば、姓「柳」について、姓テーブルを使用して縦断的にアルファベット表記を検索することが可能となる。一方、名についても名テーブルを使用して縦断的にアルファベット表記を検索することが可能となる。一方で、姓について取得されたアルファベット表記と、名について取得されたアルファベット表記とを組合わせる場合、異なる文化圏のアルファベット表記の姓と名とが結合される可能性も発生する。   When the conversion dictionary 130 according to this embodiment is implemented, for example, for the last name “willow”, it is possible to search the alphabet notation longitudinally using the last name table. On the other hand, it is possible to search for alphabetical expressions longitudinally using the name table. On the other hand, when combining the alphabet notation acquired for the surname and the alphabet notation acquired for the first name, there is a possibility that the surname and the first name of the alphabet notation of different cultures will be combined.

しかしながら、上述した場合でも、スコア計算部120が文化圏重付け値を利用して異なる文化圏に帰属される姓と名とが組合わされた姓名候補について高いスコアを付する。このため、文字列が異なる文化圏に帰属される姓および名でしか記述できなかった場合(例えば、異なる文化圏に帰属される男性と女性とが婚姻し、いずれか一方の姓に統一した場合など)を除き、通常では、表記変換部122は、異なる文化圏に帰属される姓名を組合わせる可能性は低い。この結果、表記変換部122は、文化圏に対応したアルファベット表記をシングルバイト文字列として返すことが可能となる。また、この結果、異文化圏の姓名の組合わせしか生成されなかった場合でも、対応するシングルバイト文字列を出力させることができる。   However, even in the above-described case, the score calculation unit 120 assigns a high score to the surname and surname candidates in which surnames and surnames belonging to different cultural spheres are combined using the cultural sphere weighting value. For this reason, if a character string can only be described with last names and first names belonging to different cultural spheres (for example, a man and a woman belonging to different cultural spheres are married and unified to one of the last names) In general, the notation conversion unit 122 is unlikely to combine first and last names belonging to different cultural spheres. As a result, the notation conversion unit 122 can return the alphabet notation corresponding to the cultural sphere as a single-byte character string. As a result, even when only a combination of first and last names in different cultures is generated, a corresponding single-byte character string can be output.

さらに変換辞書130は、他の実施形態では、文化圏ごとに姓、名として使用される形態素トークンと、属性識別子と、アルファベット表記とをJPテーブル、CNテーブル、およびKRテーブルといった文化圏テーブルを含むように実装することができる。   Further, in another embodiment, the conversion dictionary 130 includes cultural zone tables such as a JP table, a CN table, and a KR table that include morpheme tokens used as first and last names, first names, and attribute identifiers for each cultural zone. Can be implemented as follows.

姓テーブル、名テーブルではなく、文化圏テーブルを実装する説明する他の実施形態では、姓および名が同一の文化圏に帰属されるシングルバイト文字列が優先的に検索され、通常の姓名識別においてより効率的な処理を行うことができる。また、姓または名のいずれかが特定の文化圏テーブルのみで検索されたなった場合、検索されなかった姓または名について、JPテーブルから、CNテーブル、KRテーブルへと検索対象テーブルを変更して検索することにより、異文化圏に帰属される姓名についてのアルファベット表記を、シングルバイト文字列として出力させることが可能となる。   In the other embodiment described, which implements a culture table rather than a first name table, a first name table, single-byte strings belonging to the same cultural sphere are searched preferentially in first name and last name identification. More efficient processing can be performed. In addition, when either a surname or a surname is searched only in a specific cultural area table, the search target table is changed from the JP table to the CN table or the KR table for the surname or surname not searched. By performing the search, it is possible to output alphabetical representations of first and last names belonging to different cultures as single-byte character strings.

図8は、姓名と考えられる文字列が、複数の文化圏にわたる可能性がある場合の情報処理装置100の姓名候補作成部118が実行する処理の実施形態を示す。図8に示すように、例えば、入力文字列が、「江澤東」の場合、図8に示すように、「江澤−東」、「江−澤東」、「江−澤−東」の3つの形態素トークン列に分割可能である。この場合、姓名候補リスト800には、江SS澤SG東、江SG澤東、江澤SG東の3つの形態素トークン列で示される姓名候補が作成される。姓として「江」は、日本姓として極めて希であるが、中国姓としては、通常に使われる姓であり、また「澤東」についても中国語で名として使用される可能性がある。   FIG. 8 shows an embodiment of processing executed by the first and last name candidate creation unit 118 of the information processing apparatus 100 when there is a possibility that a character string that is considered to be a first and last name spans a plurality of cultural spheres. As shown in FIG. 8, for example, when the input character string is “Ezawa Higashi”, as shown in FIG. 8, “Ezawa-Higashi”, “Ezawa-Higashi”, “E-zawa-Higashi” 3 It can be divided into one morpheme token sequence. In this case, first and last name candidates indicated by three morpheme token strings of E SS Sawa SG East, E SG Sawa Higashi, and Ezawa SG East are created in the first and last name candidate list 800. “Jiang” as a surname is extremely rare as a Japanese surname, but a Chinese surname is a commonly used surname, and “Sawadong” may also be used as a surname in Chinese.

一方、姓「江澤」は、日本では通常に使われる姓であり、また名「東」についても名として使用される場合がある。このような場合、後述する江−澤東および江澤−東について文化圏重付け値では両者を区別できず、いずれもNとして判断することになる。さらに合計スコア値の点でより低い姓名候補を選択することは、文字列「江澤東」について、日本姓または中国姓のいずれかであるかを強制的に決定し、他方を廃棄することは妥当ではない。なお、「江−澤−東」については、文化圏重付け値および接続識別子の数およびスコアに基づいて、「江澤−東」、「江−澤東」よりも合計スコア値が高くなるので、選択されず、表記変換部122が抽出することはないので詳細な説明は行わない。   On the other hand, the surname “Ezawa” is a surname commonly used in Japan, and the name “East” may also be used as a first name. In such a case, the cultural sphere weights for the later-explained Jiang-Sawahigashi and Ezawa-Higashi cannot be distinguished from each other, and both are determined as N. In addition, selecting a lower surname candidate in terms of the total score value will forcefully determine whether the string “Ezawa Higashi” is either a Japanese surname or a Chinese surname and discard the other. Absent. As for “E-Sawa-Higashi”, the total score value is higher than “Ezawa-Higashi” and “E-Sawa Higashi” based on the weight of the cultural area and the number and score of connection identifiers. The notation conversion unit 122 does not select and is not extracted, and therefore will not be described in detail.

姓名候補「江澤東」について説明するような場合には、姓名候補リスト800に例えば、文化圏識別子を登録するフィールドを設けておき、各形態素トークン列を生成した場合の、先頭形態素トークンが帰属されている文化圏を識別するための識別子、例えばJP、CN、KRなどを記入するフィールドを定義しておくことができる。姓名候補作成部118は、各フィールドへの値の記入が終了した時点で、スコア計算部120を呼出し、姓名候補リスト800の各レコードの値を総和して合計スコア値を計算する。その後、表記変換部122は、JP、CN、KRの識別子ごとに合計スコア値の最小を与える最尤の形態素トークン列を抽出する。   In the case of explaining the first and last name candidate “Ezawa Higashi”, for example, a field for registering a cultural sphere identifier is provided in the first and last name candidate list 800, and when each morpheme token string is generated, the first morpheme token is assigned. A field for entering an identifier for identifying a cultural area, for example, JP, CN, KR, etc., can be defined. The full name candidate creation unit 118 calls the score calculation unit 120 at the time when the entry of the value in each field is completed, and calculates the total score value by summing the values of each record in the full name candidate list 800. After that, the notation conversion unit 122 extracts the maximum likelihood morpheme token string that gives the minimum of the total score value for each identifier of JP, CN, and KR.

表記変換部122は、姓名候補リスト800を参照し、最尤の形態とトークン列を、各文化圏ごとに抽出し、抽出した姓名候補を、一旦キュー・バッファに格納する。さらに表示変換部122は、キュー・バッファが空になるまでJP、CN、KRごとにアルファベット表記を取得して、シングルバイト文字列として出力する。なお、表記変換部122は、各文化圏ごとに合計スコア値の小さいものから順に複数の形態素トークン列を表記変換部122に渡し、さらに多くのシングルバイト文字列変換候補を出力させることもできる。   The notation conversion unit 122 refers to the first and last name candidate list 800, extracts the most likely form and the token string for each cultural area, and temporarily stores the extracted first and last name candidates in the queue buffer. Further, the display conversion unit 122 acquires alphabetical representation for each of JP, CN, and KR until the queue buffer becomes empty, and outputs it as a single-byte character string. Note that the notation conversion unit 122 can also pass a plurality of morpheme token strings to the notation conversion unit 122 in order from the smallest total score value for each cultural area, and output more single-byte character string conversion candidates.

また、図8に示した実施形態で、文字列「金澤雫」は、形態素トークンで、金−澤雫、金澤−雫、金−澤−雫に分割することができる。この実施形態の場合、姓としての「金」は、韓国姓としては普通に使用される姓であり、また姓「金澤」についても、日本姓として普通に使用される姓である。一方「金−澤−雫」は、接続識別子の数および種類を使用して、合計スコアはいずれにしても高くなるので、「江−澤−東」と同様の処理が実行され、表記変換部122には渡されることはないので詳細な説明は省略する。   In the embodiment shown in FIG. 8, the character string “Kanazawa Kaoru” is a morpheme token and can be divided into Kana-Kawazawa, Kanazawa-Kan, and Kana-Sawa-Kan. In this embodiment, “Kin” as a surname is a surname commonly used as a Korean surname, and the surname “Kanazawa” is a surname commonly used as a Japanese surname. On the other hand, “Kin-Sawa-Kin” uses the number and type of connection identifiers, and the total score becomes high anyway. Therefore, the same processing as “E-Sawa-Higashi” is executed, and the notation conversion unit Since it is not passed to 122, detailed description is abbreviate | omitted.

ところで、文字列「金澤雫」に含まれる漢字のうち、「雫」は、日本製の漢字、いわゆる国字である。このため、姓名候補作成部118は、「金−澤雫」をKRとして識別し、「金澤−雫」についてJPとして識別する。そして、文化圏重付け値は、「金−澤雫」について先頭の形態素トークンが「金」であることから文化圏識別子=KRとしてはNであるが、文字属性が文化圏識別子=JPを含んでいるため、ANの値を検出し、この結果、文化圏重付け値としてANを与え、合計スコア値を増加させている。なお、この場合でも、合計スコア値は、「金−澤雫」の方が低いので、JP、KR、CNについてそれぞれ、「江澤東」、「金澤東」、「江澤東」が選択され、それぞれ表記変換部122により抽出される。   By the way, among the Chinese characters included in the character string “Kanazawa Kaoru”, “雫” is a Japanese-made Chinese character, a so-called national character. For this reason, the first and last name candidate creation unit 118 identifies “Kana-Sawa 雫” as KR and “Kanazawa- 澤” as JP. The cultural zone weight is N as the cultural zone identifier = KR because the first morpheme token is "gold" for "Kin-Sawa 雫", but the character attribute includes the cultural zone identifier = JP. Therefore, the value of AN is detected, and as a result, AN is given as the cultural area weighting value, and the total score value is increased. Even in this case, the total score value is lower for “Kana-Sawa Kaoru”. Therefore, “Ezawa Higashi”, “Kanazawa Higashi” and “Ezawa Higashi” are selected for JP, KR, and CN, respectively. Extracted by the unit 122.

図9は、本実施形態の姓名識別方法を実行する情報処理ステム900の実施形態を示す。図9に示した情報処理システム900は、姓名識別処理を実行する情報処理装置である姓名識別サーバ910と、アルファベット表記と姓名候補とを対応付けて姓名識別結果を姓名識別サーバ910に返すデータベース・サーバ960とを含んで構成されている。   FIG. 9 shows an embodiment of an information processing system 900 that executes the first and last name identification method of the present embodiment. The information processing system 900 shown in FIG. 9 includes a first name / name identification server 910 that is an information processing apparatus that performs first name / name identification processing, and a database that returns a first name / first name identification result to the first name / first name identification server 910 in association with alphabetical names and first name / name candidates. A server 960.

姓名識別サーバ910は、ネットワーク920を介してクライアント・コンピュータから姓名識別要求および姓名と考えられる少なくともマルチバイト文字を含む文字列をHTTPプロトコルなどを使用して受信する。受信された姓名識別要求は、ネットワーク・アダプタ930を介してアルファベット変換部940aに送られる。アルファベット変換部940aは、本実施形態の姓名識別処理を実行し、姓名識別サーバのフロントプロセッサとして実装されている。アルファベット変換部940aは、マルチバイト文字を含む文字列を、単一または複数のシングルバイト文字列に変換し、姓名識別部950に送付する。   The first and last name identification server 910 receives a first and last name identification request from the client computer via the network 920 and a character string including at least multibyte characters considered to be a first and last name using an HTTP protocol or the like. The received first and last name identification request is sent to the alphabet conversion unit 940 a via the network adapter 930. The alphabet conversion unit 940a executes the first and last name identification processing of the present embodiment, and is implemented as a front processor of the first and last name identification server. The alphabet conversion unit 940a converts a character string including multi-byte characters into a single or a plurality of single-byte character strings, and sends it to the first and last name identification unit 950.

姓名識別部950は、例えば非特許文献1に記載されたインターナショナル・ビジネス・マシーンズ・コーポレーション製のGlobal Name Analyticsシステムとして実装することができる。姓名識別部950は、アルファベット変換部940aからの出力をその入力文字列として取得する。図9に示した実施形態では、姓名識別部950は、例えば、SQL文などを使用してデータベース・サーバ960に検索クエリーを発行し、シングルバイト文字に対応するマルチバイト文字列の検索を指令する。データベース・サーバ960は、例えばDB2などのリレーショナル・データベース970を管理しており、リレーショナル・データベース970は、シングルバイト文字列で記述された姓名と、当該姓名を固有に特定する姓名識別子とを対応付けたテーブル980aと、姓名識別子とマルチバイト文字列での姓名とを対応付けたテーブル980bとを含んで構成される。   The first and last name identifying unit 950 can be implemented as a Global Name Analytics system manufactured by International Business Machines Corporation described in Non-Patent Document 1, for example. The full name identifying unit 950 acquires the output from the alphabet converting unit 940a as the input character string. In the embodiment shown in FIG. 9, the first and last name identifying unit 950 issues a search query to the database server 960 using, for example, an SQL sentence, and instructs a search for a multibyte character string corresponding to a single byte character. . The database server 960 manages a relational database 970 such as DB2, for example, and the relational database 970 associates a first and last name described by a single-byte character string with a first and last name identifier that uniquely identifies the first and last name. Table 980a and a table 980b in which the first and last name identifiers and the first and last names in the multibyte character string are associated with each other.

データベース・サーバ960は、シングルバイト文字を参照して姓名識別子を特定し、特定された姓名識別子を検索キーとしてテーブル980bを検索し、対応するマルチバイト文字で記述された文字列を姓名として取得する。その後、データベース・サーバ960は、取得した姓名を姓名識別部950に返す。姓名識別部950は、取得したマルチバイト文字列の姓名を、出力処理部940bに渡し、姓名識別要求の送付元に返すべき処理結果を作成させる。出力処理部940bは、例えば、姓名識別部950により識別された姓名について、そのまま姓名識別要求の送付元に送付することもできるし、例えば、姓(SN)と名(SN)との間にスペース、中黒(・)、ハイフン、その他のキャラクタなどを挿入して、検索結果として返すこともできる。さらに他の実施形態では、フォームとして、検索結果を姓フィールド、名フィールドなどに別々に記述して、送信元であるクライアント・コンピュータに送付することもできる。   The database server 960 refers to the single byte character to identify the first and last name identifier, searches the table 980b using the identified first and last name identifier as a search key, and obtains a character string described in the corresponding multibyte character as the first and last name . Thereafter, the database server 960 returns the acquired first and last names to the first and last name identifying unit 950. The first and last name identifying unit 950 passes the obtained first and last name of the multibyte character string to the output processing unit 940b and creates a processing result to be returned to the sender of the first and last name identifying request. For example, the output processing unit 940b can send the first and last name identified by the first and last name identifying unit 950 as it is to the sender of the first and last name identification request, or, for example, a space between the last name (SN) and the first name (SN). , Medium black (•), hyphen, and other characters can be inserted and returned as a search result. In still another embodiment, as a form, the search results can be described separately in the last name field, the first name field, etc., and sent to the client computer that is the transmission source.

さらに他の実施形態では、データベース・サーバ960は、姓名に対応して住所、勤務先、年金情報、銀行口座、経歴などの姓名に関連付けられる情報を管理する情報テーブル990を管理する。当該実施形態では、姓名識別子により特定されたマルチバイト文字およびそのために使用したシングルバイト文字で参照される各種情報を検索し、その検索結果を、姓名識別結果とともに姓名識別部950に返すこともできる。姓名識別部950は、データベース・サーバ960から取得した姓名識別結果と、当該姓名識別結果を使用して検索された他の情報とを、出力処理部940bに送り、ネットワーク・アダプタ930を介して姓名識別要求の送信元であるクライアント・コンピュータに返すことにより、姓名識別および姓名によりタグ付けされる他の情報とを、クライアント・コンピュータに利用させている。   In yet another embodiment, the database server 960 manages an information table 990 that manages information associated with first and last names, such as addresses, offices, pension information, bank accounts, careers, etc. corresponding to first and last names. In this embodiment, it is also possible to search for various types of information referred to by the multi-byte character specified by the first and last name identifier and the single-byte character used therefor, and to return the search result to the first and last name identifying unit 950 together with the first and last name identification result. . The full name identification unit 950 sends the full name identification result obtained from the database server 960 and other information searched using the full name identification result to the output processing unit 940b, and sends the full name through the network adapter 930. By returning to the client computer from which the identification request was sent, the client computer is made available to the first and last name identification and other information tagged with the first and last name.

また、さらに他の実施形態は、姓名を含むと考えられる文字列が、シングルバイト文字と、マルチバイト文字とを含む場合について処理を実行する。シングルバイト文字とマルチバイト文字とを含む文字列が姓名を含むものと考えられる場合、例えば、文字列からシングルバイト文字を削除する処理を実行するプリプロセッサを実装することができる。その後、文字列を検索対象の文字列として使用することで、情報処理装置100または情報処理システム900は、同様の検索を実行することができる。また、アルファベット表記、例えばJane、Johnsなどのアルファベット表記がカタカナなどマルチバイト文字で記述された文字列の場合には、カタカナに相当するコードを削除して検索対象の文字列とするプリプロセッサを実装することで、上述した渡同様の処理を実行し、処理結果を生成することができる。   In still another embodiment, the process is performed when a character string that is considered to include a first and last name includes a single-byte character and a multi-byte character. When a character string including single-byte characters and multi-byte characters is considered to include a first name and last name, for example, a preprocessor that executes processing for deleting a single-byte character from the character string can be implemented. Thereafter, the information processing apparatus 100 or the information processing system 900 can execute the same search by using the character string as the character string to be searched. In addition, in the case of a character string in which an alphabet notation, for example, an alphabet notation such as Jane or Johnson is described in multibyte characters such as katakana, a preprocessor is implemented that deletes the code corresponding to katakana and makes it a character string to be searched. As a result, it is possible to execute the same processing as that described above and generate a processing result.

本実施形態の上記機能は、C++、Java(登録商標)、Java(登録商標)Beans、Java(登録商標)Applet、Java(登録商標)Script、Perl、Rubyなどのオブジェクト指向プログラミング言語などで記述された装置実行可能なプログラムにより実現でき、当該プログラムは、ハードディスク装置、CD−ROM、MO、フレキシブルディスク、EEPROM、EPROMなどの装置可読な記録媒体に格納して頒布することができ、また他装置が可能な形式でネットワークを介して伝送することができる。   The functions of this embodiment are described in an object-oriented programming language such as C ++, Java (registered trademark), Java (registered trademark) Beans, Java (registered trademark) Applet, Java (registered trademark) Script, Perl, and Ruby. The program can be realized by a program executable by the apparatus, and the program can be stored in a device-readable recording medium such as a hard disk device, CD-ROM, MO, flexible disk, EEPROM, EPROM, and distributed. It can be transmitted over the network in a possible format.

これまで本実施形態につき説明してきたが、本発明は、上述した実施形態に限定されるものではなく、他の実施形態、追加、変更、削除など、当業者が想到することができる範囲内で変更することができ、いずれの態様においても本発明の作用・効果を奏する限り、本発明の範囲に含まれるものである。   Although the present embodiment has been described so far, the present invention is not limited to the above-described embodiment, and other embodiments, additions, changes, deletions, and the like can be conceived by those skilled in the art. It can be changed, and any aspect is within the scope of the present invention as long as the effects and effects of the present invention are exhibited.

本実施形態の情報処理装置100について機能ブロックを示した図。The figure which showed the functional block about the information processing apparatus 100 of this embodiment. 本実施形態の情報処理装置100の姓名識別方法のフローチャート。The flowchart of the full name identification method of the information processing apparatus 100 of this embodiment. 図2で説明した処理のステップS204において、本実施形態の形態素解析部116が実行する形態素解析処理により生成される形態素トークン列生成処理の実施形態を示した図。The figure which showed embodiment of the morpheme token sequence generation process produced | generated by the morpheme analysis process which the morpheme analysis part 116 of this embodiment performs in step S204 of the process demonstrated in FIG. 本実施形態の姓名候補作成部118およびスコア計算部120が実行する処理のフローチャート。The flowchart of the process which the full name candidate creation part 118 and the score calculation part 120 of this embodiment perform. 本実施形態のスコア計算部120が参照するスコア・テーブル128の実施形態を示した図。The figure which showed embodiment of the score table 128 which the score calculation part 120 of this embodiment refers. 本実施形態で姓名候補作成部118が作成する姓名候補リスト600の実施形態を示した図。The figure which showed embodiment of the full name candidate list 600 which the full name candidate creation part 118 produces in this embodiment. 表記変換部122が使用する変換辞書130が登録するテーブル・セット700の実施形態を示した図。The figure which showed embodiment of the table set 700 which the conversion dictionary 130 which the notation conversion part 122 uses registers. 姓名と考えられる文字列が、複数の文化圏にわたる可能性がある場合の情報処理装置100の姓名候補作成部118が実行する処理の実施形態を示した図。The figure which showed the embodiment of the process which the surname candidate creation part 118 of the information processing apparatus 100 performs when the character string considered as a surname may extend over several culture spheres. 本実施形態の姓名識別方法を実行する情報処理ステム900の実施形態を示した図。The figure which showed embodiment of the information processing system 900 which performs the full name identification method of this embodiment.

符号の説明Explanation of symbols

100…情報処理装置、110…コンピュータ装置、112入力インタフェース、114…漢字正規化部、116…形態素解析部、118…姓名候補作成部、120…スコア計算部、122…表記変換部、124…漢字辞書、126…形態素辞書、128…スコア・テーブル、130変換辞書、600、800…姓名候補リスト、900…情報処理システム DESCRIPTION OF SYMBOLS 100 ... Information processing apparatus, 110 ... Computer apparatus, 112 input interface, 114 ... Kanji normalization part, 116 ... Morphological analysis part, 118 ... First name surname candidate creation part, 120 ... Score calculation part, 122 ... Notation conversion part, 124 ... Kanji Dictionary, 126 ... Morphological dictionary, 128 ... Score table, 130 conversion dictionary, 600, 800 ... First and last name candidate list, 900 ... Information processing system

Claims (10)

マルチバイト文字で記述された姓名を含む文字列をシングルバイト文字列に変換する情報処理装置であって、前記情報処理装置は、
前記文字列が含むマルチバイト文字を、前記情報処理装置が登録する字体に正規化する漢字正規化部と、
前記漢字正規化部による正規化後の文字列を形態素トークンに分割し、かつ前記形態素トークンが帰属される文化圏を示す文化圏識別値および前記形態素トークンに割当てられた属性識別子を形態素辞書から取得する形態素解析部と、
前記形態素解析部が分割した前記形態素トークンと、前記属性識別子と、前記形態素トークン間の前記属性識別子から接続識別子を生成し、姓名を表す形態素トークンの組み合わせがが通常か非通常かを示す文化圏重付け値を生成して、姓名候補リストとして登録し、各姓名候補の先頭の形態素トークンが帰属される文化圏を当該姓名候補の文化圏とする姓名候補作成部と、
前記形態素トークン、前記接続識別子、および前記文化圏重付け値について割当てられたスコア値を取得し、合計スコア値を計算して、前記姓名の先頭から末尾までの距離の尺度を与える姓名距離を生成し、前記姓名距離の短さを使用して姓名候補とするスコア計算部と、
文化圏別に形態素トークンと、シングルバイト表記とが対として登録された辞書を参照し、前記姓名候補を抽出して、前記姓名候補の文化圏に応じて、前記姓名候補が含む前記形態素トークンの姓および名に対応するシングルバイト文字列を出力する表記変換部と
を含む情報処理装置。
An information processing apparatus that converts a character string including a first and last name described in multibyte characters into a single byte character string, wherein the information processing apparatus includes:
A kanji normalization unit that normalizes multibyte characters included in the character string into a font registered by the information processing apparatus;
The character string after normalization by the kanji normalization unit is divided into morpheme tokens, and the cultural sphere identification value indicating the cultural sphere to which the morpheme token belongs and the attribute identifier assigned to the morpheme token are obtained from the morpheme dictionary. A morphological analyzer that
A culture area that generates a connection identifier from the attribute identifier between the morpheme token divided by the morpheme analysis unit, the attribute identifier, and the morpheme token, and indicates whether the combination of the morpheme token representing the first and last name is normal or unusual A weighted value is generated and registered as a first and last name candidate list, and a first name and last name candidate creating unit having the cultural area to which the first morpheme token of each first name and first name candidate belongs as the cultural area of the first and last name candidate,
Get the assigned score values for the morpheme token, the connection identifier, and the culture weight value, and calculate the total score value to generate a surname distance giving a measure of the distance from the beginning to the end of the surname And a score calculation unit that uses the short name distance as a first name surname candidate,
Refers to a dictionary in which a morpheme token and a single-byte notation are registered as a pair for each cultural area, extracts the first and last name candidates, and the last name of the morpheme token included in the first and last name candidates according to the cultural area of the first and last name candidates And a notation conversion unit that outputs a single-byte character string corresponding to the name.
前記漢字正規化部に対して異字体に対応する登録漢字を対応付けて提供する漢字辞書と、
前記形態素解析部に対して前記姓名を構成するための形態素トークンおよび属性識別値を提供し、前記姓名の属する文化圏に対応付けて形態素トークンおよび前記属性識別子を登録する形態素辞書と、
前記スコア計算部に対して、前記形態素トークンおよび前記接続識別子について割当てたスコア値を提供するためのスコア・テーブルと、
前記形態素トークンの前記姓に対応するシングルバイト文字列および前記名に対応するシングルバイト文字列を登録する変換辞書と
を含む請求項1に記載の情報処理装置。
A kanji dictionary that provides registered kanji corresponding to different character forms in association with the kanji normalization unit;
Providing the morpheme token and attribute identification value for configuring the first and last name to the morpheme analysis unit, and registering the morpheme token and the attribute identifier in association with the cultural sphere to which the first and last name belongs;
A score table for providing the score calculation unit with a score value assigned to the morpheme token and the connection identifier;
The information processing apparatus according to claim 1, further comprising: a single-byte character string corresponding to the surname of the morpheme token and a conversion dictionary that registers a single-byte character string corresponding to the first name.
前記変換辞書は、前記姓についてのシングルバイト文字列を前記文化圏ごとに登録した姓テーブルおよび前記名についてのシングルバイト文字列を前記文化圏ごとに登録した名テーブルを含み、前記文化圏が同一の姓名の組合わせおよび前記文化圏の異なる姓名の組合わせについての前記シングルバイト文字列に変換する、請求項2に記載の情報処理装置。   The conversion dictionary includes a surname table in which a single-byte character string for the surname is registered for each cultural sphere and a name table in which a single-byte character string for the first name is registered for each cultural sphere, and the cultural spheres are the same The information processing apparatus according to claim 2, wherein the information is converted into the single-byte character string for a combination of first and last names and a combination of first and last names of different culture areas. 前記表記変換部は、異なる文化圏ごとに最尤の前記姓および前記名についてのシングルバイト文字列を出力する、請求項1に記載の情報処理装置。   The information processing apparatus according to claim 1, wherein the notation conversion unit outputs a single-byte character string for the last name and the first name that are most likely for each different cultural area. マルチバイト文字で記述された姓名を含む文字列をシングルバイト文字列に変換する情報処理装置が実行する姓名識別方法であって、前記姓名識別方法は、コンピュータが、
漢字辞書を参照して前記文字列が含むマルチバイト文字を、前記情報処理装置が登録する字体に正規化するステップと、
形態素辞書を参照して、漢字正規化部による正規化後の文字列を形態素トークンに分割し、かつ前記形態素トークンが帰属される文化圏を示す文化圏識別値および前記形態素トークンに割当てられた属性識別子を取得し、形態素解析部が分割した前記形態素トークンと、前記属性識別子と、前記形態素トークン間の前記属性識別子から接続識別子を生成し、姓名を表す形態素トークンの組み合わせがが通常か非通常かを示す文化圏重付け値を生成して、前記形態素トークンと、前記接続識別子と、前記文化圏重付け値とを姓名候補リストに記述し、各姓名候補の先頭の形態素トークンが帰属される文化圏を当該姓名候補の文化圏とするステップと、
前記形態素トークン、前記接続識別子、および前記文化圏重付け値について割当てられたスコア値を使用して、合計スコア値を計算して、前記姓名の先頭から末尾までの距離の尺度を与える姓名距離を生成し、前記姓名距離の短さを使用して姓名候補とするステップと、
文化圏別に形態素トークンと、シングルバイト表記とが対として登録された辞書を参照し、前記姓名候補を抽出して、前記姓名候補の文化圏に応じて、前記姓名候補が含む前記形態素トークンの姓および名に対応するシングルバイト文字列を出力するステップと
を実行する、姓名識別方法。
A first and last name identifying method executed by an information processing apparatus that converts a character string including a first and last name described in multibyte characters into a single-byte character string, wherein the first and last name identifying method includes:
Normalizing a multi-byte character included in the character string with reference to a Chinese character dictionary into a character style registered by the information processing device;
Referring to the morpheme dictionary, the character string after normalization by the kanji normalization unit is divided into morpheme tokens, and the culture sphere identification value indicating the culture sphere to which the morpheme token belongs and the attribute assigned to the morpheme token A connection identifier is generated from the attribute identifier between the morpheme token obtained by dividing the morpheme token obtained by the morpheme analyzer, the attribute identifier, and the attribute identifier between the morpheme tokens. A culture area weight value indicating the culture area, the morpheme token, the connection identifier, and the culture area weight value are described in a surname candidate list, and a culture to which the first morpheme token of each surname candidate belongs Making the zone a cultural zone for the first and last candidate ,
Using the score values assigned for the morpheme token, the connection identifier, and the culture weight value, a total score value is calculated to give a first and last name distance that gives a measure of the distance from the beginning to the end of the first and last name. Generating a first and last name candidate using the short first and last distance,
Refers to a dictionary in which a morpheme token and a single-byte notation are registered as a pair for each cultural area, extracts the first and last name candidates, and the last name of the morpheme token included in the first and last name candidates according to the cultural area of the first and last name candidates And a step of outputting a single-byte character string corresponding to the first name and the first and last name identification method.
前記シングルバイト文字列を出力するステップは、
前記姓についてのシングルバイト文字列を前記文化圏ごとに登録した姓テーブルおよび前記名についてのシングルバイト文字列を前記文化圏ごとに登録した名テーブルを参照するステップと、
前記文化圏が同一の姓名の組合わせおよび前記文化圏の異なる姓名の組合わせについての前記シングルバイト文字列に変換する、請求項に記載の姓名識別方法。
The step of outputting the single-byte character string includes:
Referring to a surname table in which a single-byte character string for the surname is registered for each cultural area and a name table in which a single-byte character string for the first name is registered for each cultural area;
6. The method for identifying a first and last name according to claim 5 , wherein the first and last character combinations of the first and last names having the same cultural sphere and the first and last names having different cultural spheres are converted.
姓名識別を実行するための情報処理システムであって、前記情報処理システムは、
ネットワークに接続され、前記ネットワークを介して姓名識別要求および姓名を含むマルチバイト文字列を受領する姓名識別サーバと、
前記姓名識別サーバが受領した前記文字列から変換されたシングルバイト文字列に対応するシングルバイト文字列を検索し、検索された前記シングルバイト文字列に対応付けられたマルチバイト文字の姓および名を前記姓名識別サーバに返すデータベース・サーバとを含み、
前記姓名識別サーバは、
前記文字列を、前記情報処理装置が登録する字体に正規化する漢字正規化部と、
前記漢字正規化部による正規化後の文字列を形態素トークンに分割し、かつ前記形態素トークンが帰属される文化圏を示す文化圏識別値および前記形態素トークンに割当てられた属性識別子を形態素辞書から取得する形態素解析部と、
前記形態素解析部が分割した前記形態素トークンと、前記属性識別子と、前記形態素トークン間の前記属性識別子から接続識別子を生成し、姓名を表す形態素トークンの組み合わせがが通常か非通常かを示す文化圏重付け値を生成し、姓名候補リストとして登録し、各姓名候補の先頭の形態素トークンが帰属される文化圏を当該姓名候補の文化圏とする姓名候補作成部と、
前記形態素トークン、前記接続識別子、および前記文化圏重付け値について割当てられたスコア値を取得し、合計スコア値を計算して、前記姓名の先頭から末尾までの距離の尺度を与える姓名距離を生成し、前記姓名距離の短さを使用して姓名候補とするスコア計算部と、
文化圏別に形態素トークンと、シングルバイト表記とが対として登録された辞書を参照し、前記姓名候補を抽出して、前記姓名候補の文化圏に応じて、前記姓名候補が含む前記形態素トークンの姓および名に対応するシングルバイト文字列を出力する表記変換部と、
前記表記変換部の出力を受領して前記データベース・サーバに照会を発行する氏名識別部と、
前記データベース・サーバの照会結果をマルチバイト文字列の姓名として受領して姓と名とを分離して表示させる処理を実行する出力処理部と
を含む、情報処理システム。
An information processing system for performing first and last name identification,
A first and last name identification server connected to a network and receiving a first and last name identification request and a multibyte string including the first and last name via the network;
The single-byte character string corresponding to the single-byte character string converted from the character string received by the full-name identification server is searched, and the first and last names of the multi-byte characters associated with the searched single-byte character string are obtained. A database server returning to the first and last name identification server,
The first and last name identification server is
A kanji normalization unit that normalizes the character string to a font registered by the information processing apparatus;
The character string after normalization by the kanji normalization unit is divided into morpheme tokens, and the cultural sphere identification value indicating the cultural sphere to which the morpheme token belongs and the attribute identifier assigned to the morpheme token are obtained from the morpheme dictionary. A morphological analyzer that
A culture area that generates a connection identifier from the attribute identifier between the morpheme token divided by the morpheme analysis unit, the attribute identifier, and the morpheme token, and indicates whether the combination of the morpheme token representing the first and last name is normal or unusual A weighted value is generated, registered as a first and last name candidate list, and a first name and last name candidate creation unit having a culture area to which the first morpheme token of each first name and first name attribute belongs as a culture area of the first and last name candidates ,
Get the assigned score values for the morpheme token, the connection identifier, and the culture weight value, and calculate the total score value to generate a surname distance giving a measure of the distance from the beginning to the end of the surname And a score calculation unit that uses the short name distance as a first name surname candidate,
Refers to a dictionary in which a morpheme token and a single-byte notation are registered as a pair for each cultural area, extracts the first and last name candidates, and the last name of the morpheme token included in the first and last name candidates according to the cultural area of the first and last name candidates And a notation conversion unit that outputs a single-byte character string corresponding to the name,
A name identifier that receives the output of the notation converter and issues a query to the database server;
An output processing unit that executes a process of receiving a query result of the database server as a first and last name of a multibyte character string and displaying the first and last names separately.
前記データベース・サーバは、前記シングルバイト文字列に対して前記マルチバイト文字列を対応させるための姓名識別子を登録するテーブルと、
前記姓名に対応付けられた情報を管理する情報テーブルと
を含み、前記テーブルから前記姓および前記名を検索し、前記情報テーブルから関連する前記情報を検索し、検索結果として前記姓名検索サーバに渡す、請求項に記載の情報処理システム。
The database server includes a table for registering a first and last name identifier for associating the multi-byte character string with the single-byte character string;
An information table for managing information associated with the first and last names, searching for the last name and the first name from the table, searching for the related information from the information table, and passing the result to the first name search server as a search result The information processing system according to claim 7 .
マルチバイト文字で記述された姓名を含む文字列をシングルバイト文字列に変換する情報処理方法を実行するためのコンピュータ実行可能なプログラムであって、前記プログラムは、情報処理装置に対し、
前記文字列が含むマルチバイト文字を、前記情報処理装置が登録する字体に正規化する漢字正規化部と、
前記漢字正規化部による正規化後の文字列を形態素トークンに分割し、かつ前記形態素トークンが帰属される文化圏を示す文化圏識別値および前記形態素トークンに割当てられた属性識別子を形態素辞書から取得する形態素解析部と、
前記形態素解析部が分割した前記形態素トークンと、前記属性識別子と、前記形態素トークン間の前記属性識別子から接続識別子を生成し、姓名を表す形態素トークンの組み合わせがが通常か非通常かを示す文化圏重付け値を生成し、姓名候補リストとして登録し、各姓名候補の先頭の形態素トークンが帰属される文化圏を当該姓名候補の文化圏とする姓名候補作成部と、
前記形態素トークン、前記接続識別子、および前記文化圏重付け値について割当てられたスコア値を取得し、合計スコア値を計算して、前記姓名の先頭から末尾までの距離の尺度を与える姓名距離を生成し、前記姓名距離の短さを使用して姓名候補とするスコア計算部と、
文化圏別に形態素トークンと、シングルバイト表記とが対として登録された辞書を参照し、前記姓名候補を抽出して、前記姓名候補の文化圏に応じて、前記姓名候補が含む前記形態素トークンの姓および名に対応するシングルバイト文字列を出力する表記変換部と
を実現する、コンピュータ実行可能なプログラム。
A computer-executable program for executing an information processing method for converting a character string including a first and last name described in multibyte characters into a single-byte character string,
A kanji normalization unit that normalizes multibyte characters included in the character string into a font registered by the information processing apparatus;
The character string after normalization by the kanji normalization unit is divided into morpheme tokens, and the cultural sphere identification value indicating the cultural sphere to which the morpheme token belongs and the attribute identifier assigned to the morpheme token are obtained from the morpheme dictionary. A morphological analyzer that
A culture area that generates a connection identifier from the attribute identifier between the morpheme token divided by the morpheme analysis unit, the attribute identifier, and the morpheme token, and indicates whether the combination of the morpheme token representing the first and last name is normal or unusual A weighted value is generated, registered as a first and last name candidate list, and a first name and last name candidate creation unit having a culture area to which the first morpheme token of each first name and first name attribute belongs as a culture area of the first and last name candidates ,
Get the assigned score values for the morpheme token, the connection identifier, and the culture weight value, and calculate the total score value to generate a surname distance giving a measure of the distance from the beginning to the end of the surname And a score calculation unit that uses the short name distance as a first name surname candidate,
Refers to a dictionary in which a morpheme token and a single-byte notation are registered as a pair for each cultural area, extracts the first and last name candidates, and the last name of the morpheme token included in the first and last name candidates according to the cultural area of the first and last name candidates And a notation converter that outputs a single-byte character string corresponding to a name.
前記表記変換部は、前記姓についてのシングルバイト文字列を前記文化圏ごとに登録した姓テーブルおよび前記名についてのシングルバイト文字列を前記文化圏ごとに登録した名テーブルを含み、前記文化圏が同一の姓名の組合わせおよび前記文化圏の異なる姓名の組合わせについての前記シングルバイト文字列に変換する、請求項に記載のプログラム。 The notation conversion unit includes a surname table in which a single-byte character string for the surname is registered for each cultural sphere, and a name table in which a single-byte character string for the first name is registered for each cultural sphere, The program according to claim 9 , wherein conversion is performed to the single-byte character string for a combination of the same first and last names and a combination of first and last names of different culture areas.
JP2008117538A 2008-04-28 2008-04-28 Information processing apparatus, first and last name identification method, information processing system, and program Expired - Fee Related JP5466376B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008117538A JP5466376B2 (en) 2008-04-28 2008-04-28 Information processing apparatus, first and last name identification method, information processing system, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008117538A JP5466376B2 (en) 2008-04-28 2008-04-28 Information processing apparatus, first and last name identification method, information processing system, and program

Publications (2)

Publication Number Publication Date
JP2009266110A JP2009266110A (en) 2009-11-12
JP5466376B2 true JP5466376B2 (en) 2014-04-09

Family

ID=41391846

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008117538A Expired - Fee Related JP5466376B2 (en) 2008-04-28 2008-04-28 Information processing apparatus, first and last name identification method, information processing system, and program

Country Status (1)

Country Link
JP (1) JP5466376B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101086550B1 (en) * 2009-06-24 2011-11-23 엔에이치엔(주) System and method for recommendding japanese language automatically using tranformatiom of romaji
WO2012174736A1 (en) * 2011-06-24 2012-12-27 Google Inc. Detecting source languages of search queries
JP7200474B2 (en) 2017-09-14 2023-01-10 日本電気株式会社 CONVERSION AID DEVICE, CONVERSION AID SYSTEM, CONVERSION AID METHOD, AND COMPUTER PROGRAM

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03196198A (en) * 1989-12-26 1991-08-27 Matsushita Electric Ind Co Ltd Sound regulation synthesizer
JPH0675956A (en) * 1992-05-06 1994-03-18 Nippon Telegr & Teleph Corp <Ntt> Analysis system for japanese sentence homograph
JP2004021707A (en) * 2002-06-18 2004-01-22 Frost International Corporation System for converting address and name into roman character
JP4036064B2 (en) * 2002-09-12 2008-01-23 富士ゼロックス株式会社 Morphological sequence processing apparatus and method

Also Published As

Publication number Publication date
JP2009266110A (en) 2009-11-12

Similar Documents

Publication Publication Date Title
JP5599662B2 (en) System and method for converting kanji into native language pronunciation sequence using statistical methods
CN109508458B (en) Legal entity identification method and device
US20180293302A1 (en) Natural question generation from query data using natural language processing system
JP2002215619A (en) Translation sentence extracting method from translated document
US11132372B2 (en) Method and apparatus for precise positioning of scholar based on mining of scholar&#39;s scientific research achievement
JP2009205397A (en) Retrieval engine, retrieval system, retrieval method, and program
US20200134537A1 (en) System and method for generating employment candidates
Xu et al. Using SVM to extract acronyms from text
US6373985B1 (en) E-mail signature block analysis
JP5466376B2 (en) Information processing apparatus, first and last name identification method, information processing system, and program
CN115210705A (en) Vector embedding model for relational tables with invalid or equivalent values
JP4953440B2 (en) Morphological analysis device, morphological analysis method, morphological analysis program, and recording medium storing computer program
JP2006227914A (en) Information search device, information search method, program and storage medium
JP5132430B2 (en) Information processing apparatus, information processing method, and program for generating first and last name candidates
JP2010250389A (en) Information retrieval system, method and program, and index generation system, method, and program
JP5348964B2 (en) Information processing apparatus, information processing method, information processing system, and program
JP2001101184A (en) Method and device for generating structurized document and storage medium with structurized document generation program stored therein
JP2001014326A (en) Device and method for retrieving similar document by structure specification
JP2008197700A (en) Document management system and document management method
US8024347B2 (en) Method and apparatus for automatically differentiating between types of names stored in a data collection
CN112015888B (en) Abstract information extraction method and abstract information extraction system
US20240135086A1 (en) System and method for identity data similarity analysis
JP2001034630A (en) System and method for document base retrieval
Yu High accuracy postal address extraction from web pages
JP5412137B2 (en) Machine learning apparatus and method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110119

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121026

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121030

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130723

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20130729

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131122

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20131202

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140107

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140124

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees