JP2009266110A - Information processor, full name identifying method, information processing system, and program - Google Patents
Information processor, full name identifying method, information processing system, and program Download PDFInfo
- Publication number
- JP2009266110A JP2009266110A JP2008117538A JP2008117538A JP2009266110A JP 2009266110 A JP2009266110 A JP 2009266110A JP 2008117538 A JP2008117538 A JP 2008117538A JP 2008117538 A JP2008117538 A JP 2008117538A JP 2009266110 A JP2009266110 A JP 2009266110A
- Authority
- JP
- Japan
- Prior art keywords
- name
- morpheme
- character string
- last name
- last
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、姓名識別を行う情報処理技術に関し、より詳細にはマルチバイト文字を含む人名の検索をその発音特性を含めて可能とする、情報処理装置、姓名識別方法、情報処理システム、およびプログラムに関する。 The present invention relates to an information processing technique for identifying first and last names, and more specifically, an information processing apparatus, a first and last name identifying method, an information processing system, and a program that enable a search for a person name including multibyte characters including its pronunciation characteristics About.
アルファベットなどのシングルバイト文字で記述された人名を比較して、人名の類似性を、類似性スコアを計算することにより比較する方法は、人名検索のために利用されている。シングルバイト文字で記述された人名を検索するためのシステムとしては、例えば、米国特許第6、963、871B1明細書(特許文献1)には、アルファベットで記述された人名を検索する自動化人名検索システムが開示されている。 A method of comparing the names of persons described by single-byte characters such as alphabets and comparing the similarity of the names by calculating a similarity score is used for searching for names. For example, US Pat. No. 6,963,871B1 (Patent Document 1) discloses an automated personal name search system for searching personal names described in alphabets as a system for searching personal names described in single-byte characters. Is disclosed.
また、http://publibfp.boulder.ibm.com/epubs/pdf/c1912860.pdf(非特許文献1)で指定されるURIには、アルファベット表記された人名についての類似性を使用して、人名検索する、Global
Name Analytics(GNA)システムが開示されている。
In addition, the URI specified in http://publibfp.boulder.ibm.com/epubs/pdf/c1912860.pdf (Non-patent Document 1) uses the similarity of the names written in alphabet, Search, Global
A Name Analytics (GNA) system is disclosed.
一方、日本語など、マルチバイト文字で記述された文書を、設定された単位の語(トークン)に分割して文書検索を行う情報検索装置は、例えば特開2004−206473号公報(特許文献2)に記載されている。さらにマルチバイト文字で記述された人名のうち、姓、名を使用して異なる重み付けを付与して検索する情報検索装置技術も例えば、特開2004−295797号公報(特許文献3)に記載されている。 On the other hand, an information search apparatus for searching a document by dividing a document described in multibyte characters such as Japanese into words (tokens) of a set unit is disclosed in, for example, Japanese Patent Application Laid-Open No. 2004-206473 (Patent Document 2). )It is described in. Furthermore, an information search device technique for searching by assigning different weights using surnames and first names among the names described in multibyte characters is also described in, for example, Japanese Patent Application Laid-Open No. 2004-295797 (Patent Document 3). Yes.
特許文献1〜3、非特許文献1に開示される情報検索は、アルファベットや、その他のシングルバイトコードで記述される人名を検索するには、充分な精度および検索性を提供することができる。また、特許文献2、3では、1文字がマルチバイトコードで定義されるマルチバイト文字で記述された文書を検索し、また文書中から人名を抽出して重み付けに反映させることも可能である。しかしながら、日本語など、マルチバイト文字で記述される言語を使用する文化圏では、同一の文字について異なる発音が割当てられる可能性がある。例えば、日本語で漢字「大」は、人名に使用された場合、「dai」、「hiroshi」などの複数の発音が割当てられることも想定される。
The information retrieval disclosed in
また、姓名は、文化圏の相違に大きく依存し、文化圏が異なる場合、姓名同一であっても(Sir Name, Given Name)の並び順が異なることや、漢字などのマルチバイト文字が異なる複数の発音特性を派生させ、この結果、異なるアルファベット表記を生じさせる場合もある。このような場合、特許文献1〜3および非特許文献1に記載された姓名検索技術は、効率的な姓名識別を行うものではない。このため、マルチバイト文字で記述された人名の検索は、シングルバイト文字における人名検索技術とは異なる技術を必要とするということができる。
Also, the first and last names greatly depend on differences in cultural spheres. If the cultural spheres are different, even if the first and last names are the same, the order of (Sir Name, Given Name) is different, and multiple multibyte characters such as kanji are different. May be derived, resulting in different alphabetic notations. In such a case, the first and last name search techniques described in
例えば典型的なマルチバイト文字である日本語の漢字で記述された人名について考える。漢字の文字列をローマ字に変換する技術は、種々想定できる。例えば、漢字列に対して形態素解析技術を適用して検索を実行する技術が知られている。形態素解析においては、品詞や頻度情報を含む辞書を参照し、姓および名といった入力文字列を形態素解析して行き、辞書に登録されるエントリ単位にまで分解する。形態素分解のパターンが複数存在する場合は、分割数を最小とするものを優先的に選択する手法や、文法情報や頻度情報を用いて最尤の候補を選択する手法を使用して人名を形態素に分解することによって、姓名の検索が行われる。 For example, consider a person name written in Japanese kanji, which is a typical multibyte character. Various techniques for converting a Chinese character string into a Roman character can be envisaged. For example, a technique for executing a search by applying a morphological analysis technique to a kanji string is known. In morphological analysis, a dictionary including part-of-speech and frequency information is referred to, and an input character string such as a surname and a first name is subjected to morphological analysis and decomposed into entry units registered in the dictionary. If there are multiple morpheme decomposition patterns, use a method that preferentially selects the one with the smallest number of divisions or a method that selects the most likely candidate using grammatical information and frequency information. The first name and the last name are searched by decomposing.
また、漢字の読みの違い、すなわち発音特性の相違に対応する場合には、漢字の読み方を、漢字に対応して登録した辞書を用いて漢字に対する発音の多様性に対応する方法も知られている。近年、経済活動のグローバル化、交通機関の発達、ネットワーク技術の進歩に伴い、異なる文化圏に属する者が異文化圏において生活したり、経済活動を行ったり、サーバにアクセスするなどの種々の活動が通常に行われている。このため、文化圏を越えて姓名を検索する必要性がますます高まっている。さらに、近年では、年金、銀行口座の統合を目的とする名寄せ、マネーロンダリングなど文化圏が同一の場合や非同一の場合に、これらを総合して姓名の同一性が同一人物であることを示しているか否かを判断する必要性もますます増大してきている。
上述したように、漢字などのマルチバイト文字を含む姓名の検索を実行する方法として、形態素解析法および読み方辞書を使用して行う方法が知られている。しかしながら、漢字で書かれた姓名は、アルファベットの姓名とは異なり、スペースやカンマなどの区切り文字で分割されず、一続きで記述される。このため、何処までが姓であり、何処までが名であるのかについて、直接的に判断することはできない。また、姓名には、敬称や役職名などが前後に追加される場合もある。このような漢字で記述された人名を、姓・名・敬称のコンポーネントへ分割することは、多くの知識を有する人間にとっては容易であると考えられるが、複数の分割方法が存在する場合もあり、また再現性や正確性にかけるという問題点がある。一方、コンピュータを使用して姓名分割を自動実行する場合には、分割のパターンを選択しなければならないという曖昧さを解決する必要がある。さらに、漢字には、新字体、旧字体、異字体、略字体などが存在し、これらの相違を統合して人名を識別することが必要とされていた。 As described above, as a method for executing a search for first and last names including multibyte characters such as kanji, a method using a morphological analysis method and a reading dictionary is known. However, unlike the first and last names in the alphabet, the first and last names written in kanji are not divided by a delimiter such as a space or a comma, but are described in one line. For this reason, it is impossible to determine directly where the last name is and where the last name is. In addition, in the first and last names, a title, title, etc. may be added before and after. Dividing a person's name written in Kanji into a surname / first name / honorific component is considered easy for a person with a lot of knowledge, but there may be multiple division methods. In addition, there is a problem of reproducibility and accuracy. On the other hand, in the case of automatically executing first and last name division using a computer, it is necessary to resolve the ambiguity that a division pattern must be selected. Furthermore, there are new fonts, old fonts, variant fonts, abbreviated fonts, etc., and it has been necessary to identify these names by integrating these differences.
さらに、人名の姓、名といった各コンポーネントを仮名またはアルファベット(ローマ字)に転写(transcribe)する場合について考えると、漢字の読み方の多様性や、漢字などの発音特性をアルファベットに変換するパターンの多様性に起因して、数多くの候補が存在する。このため、姓名識別の多様性に加え発音の多様性も加わり、人名検索を行う上で充分な精度および効率を提供することができないという問題もある。 Furthermore, considering the transfer of each component such as the surname and first name of a person name to a kana or alphabet (Roman character), the diversity of how to read kanji and the variety of patterns that convert the pronunciation characteristics of kanji into the alphabet There are many candidates due to For this reason, in addition to the diversity of first and last name identification, there is also a problem in that the diversity of pronunciation is added, and sufficient accuracy and efficiency cannot be provided for performing a person name search.
さらに、同じ漢字を使った名前であっても、文化圏の違いによる表音特性の相違もある。例えば、中国の発音特性および日本の発音特性は、同一の漢字であってもまったく異なるため、単純な辞書引きだけでは正しい発音特性は推定できない。発音特性は、漢字、ハングルで記述された場合、姓名のアルファベット表記や仮名表記に直結することになるので、人名の検索において人名記載の多様性に対応するためにもマルチバイト文字−シングルバイト文字の転写までも含めた検索を行うことが重要であった。 Furthermore, even with names that use the same kanji, there are differences in phonetic characteristics due to differences in cultural spheres. For example, Chinese pronunciation characteristics and Japanese pronunciation characteristics are completely different even for the same kanji, so that a correct pronunciation characteristic cannot be estimated by simple dictionary lookup. When the phonetic character is written in Kanji or Korean, it will be directly linked to the first and last names of the alphabet and kana, so multi-byte characters-single-byte characters can also be used to deal with the diversity of personal names when searching for names. It was important to conduct a search including the transcription of
本発明は、上述した従来技術の問題点に鑑みてなされたものであり、漢字など複数の発音特性を与える可能性があり、漢字、平仮名、カタカナ、ハングルなどで記述された姓名を、アルファベットへの転写の曖昧さを排除して、マルチバイト文字の姓名からアルファベット表記の姓名を生成する、情報処理装置、姓名識別方法、情報処理システム、およびプログラムを提供することを目的とする。 The present invention has been made in view of the above-described problems of the prior art, and may give a plurality of pronunciation characteristics such as kanji, so that first and last names written in kanji, hiragana, katakana, hangul, etc. It is an object to provide an information processing apparatus, a first and last name identification method, an information processing system, and a program for generating first and last names written in alphabet from multi-byte first and last names.
本発明は上記課題を解決するために、姓名を含む文字列について形態素解析を実行する。形態素解析では、文字列に対して形態素トークンを割当て、形態素トークン列とする。形態素解析に使用する形態素辞書には、形態素トークンの他、形態素トークンが姓、名、または姓名に対して付属される「君」、「代表取締役」などの付属語といった属性を示すための属性識別子と、形態素トークンが、日本語圏、韓国語圏、または中国語圏など、どの文化圏の帰属とともに分類されている。 In order to solve the above problems, the present invention performs morphological analysis on a character string including a first name and a last name. In the morpheme analysis, a morpheme token is assigned to a character string to obtain a morpheme token string. In the morpheme dictionary used for morpheme analysis, in addition to morpheme tokens, attribute identifiers to indicate attributes such as “kun” and “representative director” that are attached to the surname, first name, or last name. The morpheme tokens are categorized with the attribution of any cultural sphere, such as Japanese-speaking, Korean-speaking, or Chinese-speaking.
形態素解析の結果は、全部列挙されて、姓名候補作成部に送付される。姓名候補作成部では、姓名候補リストを作成する。姓名候補リストは、形態素トークンと、形態素トークン間の接続関係を示す接続識別子と、形態素トークンが属する文化圏で決定される姓名特性によって指定される文化圏重付け値を少なくとも登録する。文化圏重付け値は、姓名の形態素分割において、当該文化圏の姓名シーケンス順となっていない場合および文化圏特有の文字、例えば日本語圏であっては国字を含む場合に、当該文化圏の特有性を付与された姓名候補について非通常の分類であることを示す値とされる。 All the results of the morphological analysis are listed and sent to the first and last name candidate creation unit. The surname candidate creation section creates a surname candidate list. The first and last name candidate list registers at least a morpheme token, a connection identifier indicating a connection relationship between the morpheme tokens, and a culture area weight value specified by a first and last name characteristic determined in the culture area to which the morpheme token belongs. Cultural area weighting values are used for the morphological division of first and last names in the case where the order of the first and last name sequence of the relevant cultural area is not included, and when the characters unique to the cultural area, for example, Japanese characters are included, include national characters. The first and last name candidates given the uniqueness are values indicating an unusual classification.
また、他の実施形態では、姓名候補リストは、姓名候補の文化圏を陽に示す文化圏識別値を登録することもでき、文化圏ごとに最尤の姓名候補を特定し、文化圏ごとに可能性のあるアルファベット文字列の出力を可能としている。 In another embodiment, the first and last name candidate list can also register a cultural area identification value that explicitly indicates the cultural area of the first and last name candidates, specifies the most likely first and last name candidate for each cultural area, and for each cultural area. Possible alphabetical character string output.
姓名候補リストのフィールドに登録された値には、形態素トークンの姓、名として使用される頻度に対応したスコアが付されている。また、形態素トークン間の属性識別子についてもスコアが割当てられている。当該実施形態の場合、文化圏重付け値は、スコア合計を行うための例えばSQL文、スクリプトなどの設定値として登録することができる。また、他の実施形態では、文化圏重付け値についてのスコアが割当てられていてもよい。 The value registered in the field of the first and last name candidate list is given a score corresponding to the frequency used as the first name and last name of the morpheme token. A score is also assigned to an attribute identifier between morpheme tokens. In the case of the present embodiment, the culture sphere weight value can be registered as a set value for, for example, an SQL sentence or a script for summing up the scores. In another embodiment, a score for the cultural sphere weight value may be assigned.
スコア計算部は、姓名候補リストに登録された形態素トークン、接続識別子、文化圏重付け値のスコア値を合計して、合計スコア値を計算する。合計スコア値は、姓名の先頭から末尾までの距離を示す姓名距離の尺度として使用され、姓名距離の最小の姓名候補が、表記変換部に送付され、アルファベット表記などのシングルバイト文字に変換される。 The score calculation unit calculates the total score value by adding up the score values of the morpheme token, the connection identifier, and the culture area weight value registered in the surname candidate list. The total score value is used as a measure of the first and last name distance indicating the distance from the beginning to the end of the first and last name, and the first and last name candidate with the smallest first and last name distance is sent to the notation conversion unit and converted to single-byte characters such as alphabetic notation .
他の実施形態では、姓名距離の最小のものから設定された数の姓名候補を抽出し、これらについてまとめて表記変換を実行することができる。さらに他の実施形態では、文化圏識別子ごとに生成された姓名候補について、文化圏識別値ごとに最小の姓名距離の姓名候補を抽出し、表記変換を実行することもできる。 In another embodiment, a set number of first and last name candidates can be extracted from those having the smallest first and last name distance, and the notation conversion can be performed collectively on these. In yet another embodiment, for the first and last name candidates generated for each cultural zone identifier, the first and last name candidates with the minimum first and last name distance can be extracted for each cultural zone identification value, and the notation conversion can be performed.
本発明によれば、文化圏ごとに最尤の姓名候補についてシングルバイト文字列への変換を行うことができ、また、本発明によれば、姓名が複数の文化圏にまたがる場合であっても、最尤の発音特性に対応したシングルバイト文字列への変換を可能とする、情報処理装置、姓名識別方法、情報処理システム、およびプログラムを提供することができる。 According to the present invention, the most likely first name surname candidate for each cultural area can be converted to a single-byte character string, and according to the present invention, even if the first and last name spans multiple cultural areas. It is possible to provide an information processing apparatus, a first and last name identification method, an information processing system, and a program that enable conversion into a single-byte character string corresponding to the most likely pronunciation characteristics.
さらに、本発明によれば、マルチバイト文字を使用する文化圏の姓名について最尤のシングルバイト文字列を、既存の姓名識別システムへの入力文字列として使用可能とする、情報処理装置、姓名識別方法、情報処理システム、およびプログラムを提供することができる。 Furthermore, according to the present invention, an information processing apparatus, first name and last name identification that can use a single byte character string that is most likely for a first name and last name in a cultural area that uses multibyte characters as an input character string to an existing first name and last name identification system. A method, an information processing system, and a program can be provided.
以下、本発明を実施形態をもって説明するが、本発明は、後述する実施形態に限定されるものではない。図1は、本実施形態の情報処理装置100について機能ブロックを示す。情報処理装置100は、好ましくは、サーバとして構成することができる。なお、他の実施形態で、処理容量やアプリケション・サイズなどの点で姓名識別処理が可能な場合、ワークステーション、パーソナル・コンピュータとして実装することもできる。
Hereinafter, although this invention is demonstrated with embodiment, this invention is not limited to embodiment mentioned later. FIG. 1 shows functional blocks of the
以下、情報処理装置100のハードウェア構成について概略的に説明する。情報処理装置100は、オペレーティング・システム(OS)の下で各種処理を管理するシングルコアまたはマルチコアのCPUと、アプリケーションの実行空間を与えるRAMと、初期セットアップ用のブートコード、BIOSなどを格納するROM、およびハードディスク装置などを含んで構成されている。
Hereinafter, a hardware configuration of the
CPUとしては、例えば、PENTIUM(登録商標)、PENTIUM(登録商標)互換チップ、などのCISCアーキテクチャのマイクロプロセッサ、または、POWER PC(登録商標)などのRISCアーキテクチャのマイクロプロセッサをシングルコア、またはマルチコアとして実装することができる。さらに、CPUの処理の命令フェッチ、データフェッチなどの高速化する目的で、L1キャッシュ、L2キャッシュ、L3キャッシュなどの階層キャッシュを実装することができる。 As the CPU, for example, a CISC architecture microprocessor such as PENTIUM (registered trademark), a PENTIUM (registered trademark) compatible chip, or a RISC architecture microprocessor such as POWER PC (registered trademark) is used as a single core or multi-core. Can be implemented. Furthermore, a hierarchical cache such as an L1 cache, an L2 cache, or an L3 cache can be mounted for the purpose of speeding up the instruction fetch and data fetch of the CPU processing.
OSとしては、例えば、WINDOWS(登録商標)200X、UNIX(登録商標)、LINUX(登録商標)、AIX(登録商標)などを使用することができる。また、情報処理装置100は、C++、JAVA(登録商標)、JAVA(登録商標)BEANS、PERL、RUBYなどのプログラミング言語を使用して記述される各種アプリケーションを実行して、入力されたデータを処理し、処理結果を生成させている。情報処理装置100をサーバとして構成する場合、情報処理装置100は、ウェブ・サーバまたはCORBA(Common Object Resource Broker Architecture)などを使用する分散コンピューティング環境を提供するためのサーバとすることができる。
As the OS, for example, WINDOWS (registered trademark) 200X, UNIX (registered trademark), LINUX (registered trademark), AIX (registered trademark), or the like can be used. The
情報処理装置100をネットワークを介してデータを提供するサーバとして構成する場合、情報処理装置100は、LAN、WAN、インターネットなどのネットワーク(図示せず)を介して、HTTP、HTTPSなどのファイル転送プロトコル、RPC、RMIなど手続呼出しやメソッド呼出しを使用して、ネットワークを介して接続されたクライアント・コンピュータ(図示せず)から、姓名に対応する漢字列といったデータを受信し、アプリケーションによる処理を実行する。
When the
情報処理装置100をウェブ・サーバとして構成する場合には、情報処理装置100は、上述したプログラミング言語により記述された、CGI、サーブレット、APACHEなどのサーバ・プログラムを実行し、ウェブ・クライアントに対して処理結果である、姓名識別値、姓名識別値により参照される銀行口座、年金情報などの特定情報などを返す。
When the
図1を参照して情報処理装置100の機能ブロックについて説明する。情報処理装置100の各機能処理部は、上述したハードウェア資源を含むコンピュータ装置110で、プログラムをRAM上に展開することによってコンピュータ上に機能手段として実現することができる。情報処理装置100は、CGIなどを使用して構成された入力インタフェース112を備えている。入力インタフェース112は、外部から入力される姓名と考えられる文字列を受領して、以後の処理を実行するための各機能ブロックを呼出す。本実施形態では、姓名と考えられる文字列としては、マルチバイト文字を含み、例えば、漢字列、カタカナ列、仮名列、ハングル列など、表意文字列でもよいし、表音文字でもよく、表意文字および表音文字の混合文字列であってもよい。
The functional blocks of the
情報処理装置100は、さらに、漢字正規化部114と、形態素解析部116と、姓名候補作成部118とを含んでいる。漢字正規化部114は、文字列が漢字を含む場合、漢字辞書124を参照し、異字体、旧字体、略字体などを、コンピュータが処理するに適切な字体に修正する。適切な字体とは、各文化圏について規格の字体を挙げることができ、日本語については例えば、JIS第1水準、JIS第2水準などで設定された字体に修正し、情報処理装置100が形態素解析において統一して処理を実行する。漢字辞書124は、この目的のため、異字体、旧字体、略字体などを、情報処理装置100が登録する漢字に対応付けたテーブルとして構成される。
The
形態素解析部116は、正規化処理後の文字列を受領して、形態素トークンを登録した形態素辞書126を参照し、文字列を、形態素トークン列に分解する。また、形態素辞書126は、形態素トークンが帰属される文化圏を示す識別値および当該文化圏で、当該形態素トークンが姓(SN:Sir Name)として使用されるか、名(GN:Given Name)として使用されるかを示す属性識別子を登録する。形態素解析部116は、形態素トークンが帰属される文化圏識別値、姓を示すか、名を示すか、または付属語を示すかの属性識別子を形態素辞書126から取得して、対として後述する姓名候補作成部118に送付する。
The
また、形態素辞書126は、姓名と判断される文字列の前後に付される場合がある、「代表取締役」、「部長」、「課長」、「係長」、「教授」、「君」、「様」、「殿」などの形態素トークンに対し、付属語であることを示す識別子「SX(Suffix)」を付属語とされる可能性のある形態素トークンに割当てて登録する。以下、姓、名、付属語を示すための識別子を、属性識別子として参照する。
In addition, the
なお、形態素辞書126は、異字体、旧字体、略字体など同一の漢字として処理することが可能な形態素トークンを登録する同義漢字辞書(図示せず)を実装することもできる。この場合、形態素辞書126が異字体、旧字体、略字体などの漢字の相違を含め姓名候補を作成することもできる。この実施形態の場合にあっては、漢字正規化部114、漢字辞書124の機能は、形態素辞書126の機能に統合させることができる。
Note that the
なお、本実施形態では、漢字の字体が異なる文字列であっても、当該文字列に対応するアルファベット表記を出力するので、複数の異字体からなる姓名候補を作成するよりも、漢字正規化部114、漢字辞書124を使用して形態素解析前に文字列を統一して処理することが、後述する姓名候補作成部118以後の処理を効率化する点では好ましい。
In the present embodiment, even if the character string of the kanji is different, the alphabet notation corresponding to the character string is output, so that the kanji normalization unit is more preferable than creating a first and last name candidate consisting of a plurality of different characters. 114, it is preferable to use the
形態素解析部116は、文字列を解析し、文字列を、姓に対応する形態素トークン、名に対応する形態素トークン、付属語に対応する形態素トークンに分類し、形態素トークンについて割当てられた属性識別子を、形態素トークンに対応付けて抽出し、文字列に対応する順序で(形態素トークン、属性識別子、形態素トークン、属性識別子、・・・)といったベクトル型式、有向グラフ型式などの適切な型式で解析結果を姓名組合わせとして生成し、姓名候補作成部118に渡す。
The
姓名候補作成部118は、形態素解析部116が生成した姓名組合わせが抽出した姓名組合わせ情報を受領して、形態素トークンに付された属性識別子について接続を解析する。属性識別子の解析では、連続する形態素トークンに付された属性識別子を抽出し、接続識別子として決定する。そして、姓名候補作成部118は、形態素トークンの接続を特徴付ける接続識別子を、形態素トークン間に挿入する型式で、(形態素トークン−接続識別子−形態素トークン−接続識別子、・・・)のフィールドから構成されるレコードを含む姓名候補リスト(600、800)を、生成された全形態素トークン列について作成する。
The surname
この結果、姓名候補作成部118が作成する姓名候補リスト(600、800)は、特定の姓名候補についての形態素トークンおよび接続識別子が1レコードを構成するフィールドを構成する。また、特定の実施形態では、姓名候補リスト(600、800)は、姓名候補について計算された合計スコア値を登録するフィールドを含んで構成することもできる。合計スコア値を登録するフィールドには、スコア計算部120により形態素トークンの属性識別子および接続識別子を使用して計算された合計スコア値を登録し、処理結果として出力するべき姓名候補を選択するために使用される。
As a result, the first and last name candidate list (600, 800) created by the first and last name
また、姓名候補作成部118は、入力文字列が、漢字、ハングル、カタカナ、平仮名などを含んで構成される場合、文化圏判断を実行し、文化圏重付け値を生成する。文化圏重付け値は、文字列が漢字、ハングル、カタカナ、平仮名などを含む場合、付属語を除いた姓名候補の先頭に存在する形態素トークンの人名属性識別値が、SNであるか、GNであるかを判断する。また、姓名候補作成部118は、姓名候補の形態素トークンと名候補の形態素トークンとに対し、各形態素トークンがどの文化圏に帰属されるかを判断して、姓、名が同一の文化圏に帰属される場合と、異なる文化圏に帰属される場合でも、姓名シーケンスの場合と同様に、異なる文化圏重付け値を生成して、姓名候補リスト(600、800)に登録する。
Further, if the input character string includes kanji, hangul, katakana, hiragana, etc., the first and last name
さらに、他の実施形態では、姓名候補作成部118は、姓名候補ごとに文化圏識別値を生成し、後述するスコア計算部120に対し文化圏ごとに最尤の姓名候補を利用可能とすることができる。
Furthermore, in another embodiment, the first and last name
スコア計算部120は、姓名候補リスト(600、800)の特定のレコードについて、当該レコードの値がNULLではないフィールドの値を取得する。その後、スコア計算部120は、スコア・テーブル128を参照して当該フィールド値について割当てられたスコア値を取得し、処理レコードの非NULLのフィールド値について取得されたスコア値を合計する。さらに、スコア計算部120は、文化圏重付け値についてのスコア値を加算して合計スコア値を計算し、姓名候補リスト(600、800)の対応するレコード内に記述する。
The
なお、文化圏重付け値は、スコア・テーブル128に登録されている場合、スコア計算部120が計算のために参照されるが、スコア計算部120を記述するSQL文やスクリプトの定数として設定することができる。スコア・テーブル128が登録する各スコア値は、形態素トークン列が与える、姓名候補の文字列の先頭から末尾までの姓名距離を示すものとして利用される。
Note that, when the cultural area weight value is registered in the score table 128, the
好ましい実施形態では、姓名候補リストのレコードの非NULLの値を総和して合計スコア値を計算させ、当該合計スコア値を、文化圏判断を含む姓名の先頭から末尾までのシーケンスの距離を示す値として使用する。また、他の実施形態では、より精度は低くなるが、文化圏重付け値姓および名候補が含む接続識別子の総数を使用して姓名候補の先頭から末尾までの距離の指標として使用することもできる。 In a preferred embodiment, the non-NULL values of the first and last name candidate list records are summed to calculate a total score value, and the total score value is a value indicating the distance of the sequence from the beginning to the end of the first name and last name including the cultural zone judgment. Use as In other embodiments, although less accurate, it may be used as an index of the distance from the beginning to the end of the first and last name candidates using the total number of connection identifiers included in the cultural area weighted surname and first name candidates. it can.
表記変換部122は、合計スコア値の最小な姓名候補を姓名候補リスト(600、800)から最尤の姓名候補として抽出する。表記変換部122は、最尤の姓名候補について、変換辞書130を参照して、最尤の姓名候補について登録されたアルファベット表記を、姓および名について割当て、姓名候補についての最尤のアルファベット表記として出力する。アルファベット表記変換辞書130は、最尤の姓名候補が含む文字が姓または名に使用される統計的確率、または漢字の場合には漢字が国字であるか、非国字であるかを使用して、文化圏ごとに異なるアルファベット表記を登録している。なお、姓名候補リスト(600、800)は、RAMなどの記憶装置内に処理中に生成される例えばビューなどとして構成することができ、その詳細な構成については後述する。
The
表記変換部122は、姓名候補の文字列を登録するテーブルを登録した変換辞書130に対して姓名候補の文字列を姓および名について照会する。表記変換部122は、文字列について設定されたアルファベット表記を抽出し、同一の表意文字であっても、文化圏ごとにその表記が異なる可能性に対して対応可能としている。
The
図1で説明した各機能部は、JAVA(登録商標)、PERL、RUBYなどのプログラミング言語によるサーバ・プログラムとして実装することができる。また、他の実施形態で、DB2(登録商標)、MYSQL、ORACLE(登録商標)などのリレーショナル・データベースや、オブジェクト指向データベース(OODB)が利用できる場合、各種処理を実行するSQL文(Structured Query Language)を使用して作成した機能モジュールとして実装することができる。いずれの形態で実装するかについては、プログラミングの便宜や、データベースの利用性に応じて適宜選択することができる。 Each functional unit described in FIG. 1 can be implemented as a server program in a programming language such as JAVA (registered trademark), PERL, or RUBY. In another embodiment, when a relational database such as DB2 (registered trademark), MYSQL, or ORACLE (registered trademark) or an object-oriented database (OODB) can be used, an SQL statement (Structured Query Language) that executes various processes is used. ) Can be implemented as a function module created using. Which form to implement can be appropriately selected according to the convenience of programming and the usability of the database.
図2は、本実施形態の情報処理装置100の姓名識別方法のフローチャートである。図2に示す処理は、ステップS200から開始し、ステップS201で、姓名であると考えられる文字列について、文字列とともに姓名識別要求を受領したか否かを判断し、姓名識別要求を受領しない場合(no)、姓名識別要求を受領するまで処理をステップS201で待機させる。
FIG. 2 is a flowchart of the first and last name identification method of the
ステップS201で姓名識別要求を受領した場合(yes)、ステップS202で文字列を取得し、ステップS203で漢字正規化部114を呼出して、文字列について異字体、旧字体、略字体の正規化処理を実行する。なお、姓名識別を要求する文字列が複数送付された場合、受領した文字列をキューに登録し、受領順に処理を実行する。なお、正規化処理は、日本語の異字体正規化処理の他、中国語と台湾語など、略字体が異なるものの同義語に分類されるべき漢字の正規化も同時に実行する。
When the first and last name identification request is received in step S201 (yes), the character string is acquired in step S202, and the
ステップS204では、形態素解析部116を呼出して正規化後の文字列に対して形態素辞書126を参照して、姓および名として登録された形態素トークンおよび対応する属性識別値の候補を決定する。ステップS205では、姓名候補作成部118を呼出して、決定された形態素トークンおよび属性識別値を姓名候補リストのレコードの登録し、姓名候補リストを作成する。
In step S204, the
ステップS206では、スコア計算部120を呼出してスコア計算を実行させる。計算された合計スコア値は、文字列についての姓名距離として、姓名候補リストの合計対象のレコードの合計スコア値フィールドに登録される。ステップS206では、表記変換部122は、姓名候補リストに登録された姓名候補のうち、姓名距離が最小の姓名候補を検索し、表記変換辞書130を使用して最尤のシングルバイト文字列として、特定の実施形態ではアルファベット表記を決定する。
In step S206, the
ステップS207では、決定されたアルファベット表記を、処理結果として出力し、ステップS208では、キューに未処理の文字列が残っているか否かを判断する。未処理の文字列が残っていない場合(no)処理をステップS201に戻し、未処理の文字列がなくなるまで処理を繰り返す。 In step S207, the determined alphabetical notation is output as a processing result, and in step S208, it is determined whether or not an unprocessed character string remains in the queue. If no unprocessed character string remains (no), the process returns to step S201, and the process is repeated until there is no unprocessed character string.
一方、キュー内に未処理の文字列が残っている場合(yes)には、処理をステップS202に戻し、別の文字列に対する姓名候補を決定し、ステップS207でアルファベット表記を出力するまで処理を反復させる。 On the other hand, if an unprocessed character string remains in the queue (yes), the process returns to step S202 to determine a first and last name candidate for another character string, and the process is performed until alphabetical notation is output in step S207. Repeat.
なお、他の実施形態では、ステップS205のスコア計算部120の処理で、姓名距離の小さいものから複数の姓名候補を抽出し、それぞれについてアルファベット表記を割当てることもできる。また、さらに他の実施形態では、例えば文字列が「林子平」などのように、文字列に対して可能性のある複数の姓名候補が異なる文化圏について得られる場合も想定される。この場合、各文化圏について最尤の姓名候補をそれぞれ抽出し、ステップS206、ステップS207の処理を繰り返すことで、文化圏にまたがった複数のアルファベット表記を出力させることもできる。この実施形態では、各文化圏ごとに、最尤の姓名候補から昇順に複数の姓名候補を設定数抽出して、可能性のあるアルファベット表記の選択数を増加させてもよい。
In another embodiment, a plurality of first and last name candidates can be extracted from those having a short last name distance by the processing of the
図3は、図2で説明した処理のステップS204において、本実施形態の形態素解析部116が実行する形態素解析処理により生成される形態素トークン列生成処理の実施形態を示す。なお、図3の実施形態では、正規化後の文字列は、「下鶴間大和君」であるものとして説明を行う。
FIG. 3 shows an embodiment of the morpheme token string generation process generated by the morpheme analysis process executed by the
文字列が、「下鶴間大和君」である場合、姓名について知識を有する日本人の場合、何処までが姓で、どこまでが名であり、付属語がどれかを判断することは、姓名知識を利用することによってある程度分類可能である。また、例えば、文字列の何文字目までが姓であり、名であるのかについては、姓名についての統計解析により、形態素辞書126に登録しておくことが可能である。また、例えば、短い姓として、「間」、長い姓として、「勅使河原」、「左衛門三郎(サエモンサブロウ」、「勘解由小路(かでのこうじ)」などを例示的に挙げることができ、文字列の何処までを姓とし、何処までを名とするかについては、形態素辞書126で、姓、名として登録された形態素トークンの組合わせから、最尤の組合わせを与えるように姓名分割を実行することができる。
If the character string is “Yamamoto Shimotsuruma”, if you are a Japanese who has knowledge about first and last names, it is important to know where the last name is, where it is the first name, and what the appendix is. It can be classified to some extent by using it. In addition, for example, up to the first character in the character string can be registered in the
さらに、他の実施形態では、特に日本人の姓名を分割する場合、形態素辞書126において割当てるべき姓、名の組合わせについて、音声−言語処理で汎用的に利用される、モーラ解析を併用し、最尤の姓名分割を決定してもよい。
Furthermore, in another embodiment, particularly when dividing Japanese surnames, surnames and surnames to be assigned in the
図3に示した実施形態で、文字列が、「下鶴間大和君」の場合、文字列の判断から、文化圏は、日本語、中国語、韓国語のいずれかであると判断される。説明している実施形態では、形態素トークン解析の結果、「下」、「鶴」、「下鶴」、「鶴間」、「下鶴間」、「大」、「和」、「君」、「大和」、「和」、「和君」の形態素トークンが抽出される。 In the embodiment shown in FIG. 3, when the character string is “Yamoto Shimotsuruma”, it is determined from the determination of the character string that the cultural area is any one of Japanese, Chinese, and Korean. In the described embodiment, as a result of the morphological token analysis, “lower”, “crane”, “lower crane”, “tsuruma”, “lower crane”, “large”, “wa”, “you”, “Yamato ”,“ Wa ”, and“ Wa-kun ”morpheme tokens are extracted.
これらの形態素トークンを使用して姓名を再現する場合、形態素解析部116は、文化圏の判断を、各文化圏での姓名として登録されているか否かを判断して、文化圏の判定を行う。図3に示した実施形態では、「下」、「鶴」、「間」、「下鶴」、「鶴間」、「下鶴間」を含む姓は、日本語の文化圏で姓に割当てられた形態素トークンである。なお、形態素トークン「下」および「鶴」については、日本語の文化圏では、名にも割当てられた形態素トークンであるものとして説明を行う。なお、図3には、代表的な属性識別子および当該属性識別子に割り当てたスコアの値を示す。
When reproducing the first and last names using these morpheme tokens, the
本実施形態の情報処理装置100の形態素解析部116は、図3に示す形態素トークン解析で、形態素トークン列をグラフ化する処理を実行する。形態素トークン列のグラフ化は、形態素トークン列について、特定した形態素トークンをノードとし、連続するノードに与えられた属性識別子から、連続する順で接続識別子を生成させて、文字列順に形態素トークンおよび接続識別子を登録することにより実行される。
The
図3に示した実施形態では、文字列「下鶴間大和君」について、形態素辞書126により、「鶴」、「下鶴」、「鶴間」、「下鶴間」、「大」、「和」、「君」、「大和」、「和」、「和君」の形態素トークンが抽出されている。そして、文字列「下鶴間大和君」を、先頭の「下」から末尾の「君」までについて、抽出された形態素トークン列を割当てる。具体的には、形態素トークン「下鶴間」については、「下」、「鶴」、「間」、「下鶴」、「鶴間」、「下鶴間」の6形態素トークンが抽出され、これらの形態素トークンを文字列「下鶴間」に割当てる。
In the embodiment shown in FIG. 3, the character string “Shimotsuru Yamato-kun” is searched by the
図3に示した実施形態では、「下鶴間」に対して、{「下(SN)」−「鶴間(SN)」}、{「下(GN)」−「鶴(GN)」−「間(SN)」}、{「下鶴(SN)」−「間(SN)」}、{「下鶴間(SN)」}の形態素トークン列が割当てられている。そして、図3に示した実施形態では、姓として使用される可能性の高い形態素トークンを含む形態素トークン列がより上方となるようにして、形態素トークン列を配置示している。例えば、「下」、「鶴間」については、スコア1が与えられ、「下鶴間」についてはスコア4が与えられている。 In the embodiment shown in FIG. 3, {"lower (SN)"-"crane (SN)"}, {"lower (GN)"-"crane (GN)"-"between" Shimotsuruma " (SN) "}, {" Shizuru (SN) "-" Between (SN) "}, {" Shimozuru (SN) "} are assigned morpheme token strings. In the embodiment shown in FIG. 3, the morpheme token string is arranged such that the morpheme token string including the morpheme token that is likely to be used as the surname is located higher. For example, a score of 1 is given for “lower” and “Tsuruma”, and a score of 4 is given for “Shimotsuruma”.
形態素辞書126は、当該形態素トークンが、姓(SN)を示すものであるか、または名(GN)を示すものであるかを統計的に解析し、形態素トークンの属性識別子が、形態素トークンに対応付けて登録する。図3に示した実施形態では、形態素トークン「下」および「鶴」は、名(GN)を示す属性識別子が採用されたものとして説明する。なお、形態素トークン「下」を姓とし、「鶴」を、名(GN)とする姓名候補も想定できるが、この場合でも、図3の形態素トークン列に1シリーズが追加されることになるのみで、処理は同様に行うことができる。なお、図3に示した実施形態では、合計スコア値は、破線で囲った形態素トークン列310が最小値を与え、この結果、「下鶴間大和君」の姓名識別の結果、姓=「下鶴間」、名=「大和」、付属語=「君」に分解することが最尤の結果として出力される。
The
図3に示した形態素トークン列を生成させた後、形態素解析部116は、当該形態素トークンの属性識別子、「SN」、「GN」、「SX」を各形態素トークンと対応付けて姓名候補リストに、例えば、「下」−「鶴間」について、{下、SN−鶴間、SN}のシーケンスで登録する。また、「下」−「鶴」−「間」については、{下、GN−鶴、GN−間、SN}のシーケンスで属性識別子を追加しながら登録され、姓名を表す形態素トークン列が姓名候補リスト内に定義される。
After the morpheme token sequence shown in FIG. 3 is generated, the
図4は、本実施形態の姓名候補作成部118およびスコア計算部120が実行する処理のフローチャートである。図4の処理は、ステップS400から開始し、ステップS401で正規化後の処理対象の文字列についての形態素解析部116の結果を受取り、当該文字列について可能性のある形態素トークン、属性識別値を、姓名候補リストに追加して行く。
FIG. 4 is a flowchart of processing executed by the first and last name
ステップS402では、互いに隣接する形態素トークンの属性識別子を使用して形態素トークン間の接続識別値を生成し、姓名候補リストに登録する。例えば、姓(SN)として構成された形態素トークンが連続する場合SS、姓(SN)名(GN)が連続する場合SG、名(GN)姓(SN)が連続する場合GSなどである。さらに、文化圏の判定を用いて文化圏重付け値を生成し、姓名候補リストに登録する。文化圏の判定は、図3に示した実施形態では、文字列が漢字を含んで構成されている。このため、文字列が姓名に対応する場合、姓が先頭に記述されるのは通常(N:Normal)であり、名が先頭に記述されるシーケンスは、非通常(AN:Abnormal)ということができる。文化圏重付け値は、文化圏を考慮した場合に通常か非通常かを識別して重付けを行うために用いられる値であり、特定の識別文字、フラグ、または他の適切なキャラクタなどを用いることができる。 In step S402, a connection identification value between morpheme tokens is generated using attribute identifiers of adjacent morpheme tokens, and registered in the first and last name candidate list. For example, it is SS when morpheme tokens configured as surnames (SN) are continuous, SG when surnames (SN) and surnames (GN) are contiguous, GS when surnames (GN) surnames (SN) are contiguous, and so on. Furthermore, a culture area weight value is generated using the determination of the culture area, and is registered in the first and last name candidate list. In the embodiment shown in FIG. 3, the character string is configured to include Chinese characters in the determination of the cultural area. For this reason, when a character string corresponds to a surname, the last name is usually written first (N: Normal), and the sequence in which the first name is written first is unusual (AN: Abnormal). it can. Cultural weight is a value that is used to identify normal or non-normal weights when considering cultural spheres, such as specific identification characters, flags, or other suitable characters. Can be used.
また、他の文化圏判定の実施形態では、姓名候補作成部118は、姓および名の形態素トークン分割が終了した段階で姓および名に帰属された形態素トークンの文化圏判定を実行する。この実施形態では、姓に帰属された形態素トークンと名に帰属された形態素トークンとが異なる文化圏の組合わせであると判断した場合、文化圏重付け値として値ANを付し、同一の形態素トークンのみで姓名が分解されている場合に値Nを付して姓名候補リストに登録する。なお、先に文化圏重付け値が設定されている場合には、先の文化圏重付け値の値と、後の文化圏重付け値とを参照し、ANが存在する場合には、ANを付し、ANが存在しない場合Nを付する処理を実行する。
Also, in another cultural area determination embodiment, the first and last name
その後、ステップS403では、スコア・テーブル128を参照し、形態素トークン、接続識別子のスコア値を取得する。ステップS404では、文字列を形成する形態素トークンの先頭から最後まで、特定の姓名候補についてのレコードのスコア値および文化圏重付け値のスコア値または値を合計して姓名距離を計算する。その後、計算した姓名距離の最も小さい形態素トークン列を有するものを、最尤の姓名候補として決定する。 Thereafter, in step S403, the score table 128 is referred to, and the score values of the morpheme token and the connection identifier are acquired. In step S404, from the beginning to the end of the morpheme token forming the character string, the score value of the record and the score value or the value of the culture area weight value for the specific first and last name candidate are summed to calculate the first and last name distance. Thereafter, the one having the morpheme token string having the smallest calculated first and last name distance is determined as the most likely first and last name candidate.
その後、ステップS405で、表記変換部122に送付して、処理をステップS406で終了する。なお、ステップS404では、上述したように、特定の目的および実装形態に応じて、ランク順、または文化圏別に複数の候補形態素トークン列を姓名候補として、表記変換部122に送付することもできる。
Thereafter, in step S405, the data is sent to the
図5は、本実施形態のスコア計算部120が参照するスコア・テーブル128の実施形態を示す。スコア・テーブル128は、形態素トークン・スコア・テーブル500と、シーケンス・スコア・テーブル550とを含んで構成されている。形態素トークン・スコア・テーブル500は、形態素トークンが姓または名として使用される場合の頻度の高さを、頻度が高いほど低いスコアを割当てたデータ構造として構成されている。例えば、姓として形態素トークン「下」、「間」が使用されることはその頻度は高いと言えるので、スコア=1が割当てられている。
FIG. 5 shows an embodiment of the score table 128 referred to by the
一方、名について、「下」が使用される頻度はないとは言えないが、それほど頻度は高くないと言えるので、図3に示した実施形態では、スコア=2が割当てられている。また、3文字姓である「下鶴間」については、出現頻度はさらに低いと考えられるので、スコア=4が割当てられており、例えば、「勘解由小路」などについては、さらに大きなスコアを割当てることができる。図5に示した形態素トークン・スコア・テーブル500では、特定の形態素トークンについて、姓(SN)スコア、名(GN)スコアが対として登録され、レコードを構成している。 On the other hand, although it cannot be said that “lower” is frequently used for the name, it can be said that the frequency is not so high. Therefore, in the embodiment shown in FIG. 3, score = 2 is assigned. Also, since the appearance frequency is considered to be lower for the three-letter surname “Shimotsuruma”, a score = 4 is assigned. be able to. In the morpheme token score table 500 shown in FIG. 5, a surname (SN) score and a first name (GN) score are registered as a pair for a specific morpheme token to constitute a record.
また、シーケンス・スコア・テーブル550は、文字列に割当てた形態素トークンの順が、当該文化圏および姓名構造に関連して妥当か否かの統計的判断を使用して形態素トークンの間の接続識別子をスコア付けするために利用されるデータ構造である。図5に示すシーケンス・スコア・テーブル550は、姓−名、姓−姓、名−姓などの形態素トークンの接続関係が、接続識別子SG、SS、GSなどとして登録され当該文化圏に関連して適切か否かの統計的および文化圏の判断から、接続識別子に対して接続スコアが登録されている。 In addition, the sequence score table 550 uses a statistical judgment as to whether or not the order of the morpheme tokens assigned to the character strings is appropriate in relation to the cultural sphere and the first and last name structure. Is a data structure used for scoring. In the sequence score table 550 shown in FIG. 5, connection relationships of morpheme tokens such as surname-first name, surname-surname, surname-surname, etc. are registered as connection identifiers SG, SS, GS, etc. A connection score is registered with respect to the connection identifier based on the determination of whether it is appropriate and the judgment of the cultural area.
スコア計算部120は、姓名候補リストに登録された接続識別子のフィールドに値が登録されている場合、当該値に対応する接続スコア値をシーケンス・スコア・テーブル550から取得して、形態素トークン・スコア・テーブル500に登録された形態素トークンのスコア値とともにスコア計算のために使用する。なお、文化圏重付け値は、上述したようにスコア・テーブル128に登録することもできるし、また、Nの場合0、ANの場合、適切な大数としてプログラム中に設定しておくことができ、適宜、プログラミングの便宜を考慮して実装することができる。
When a value is registered in the connection identifier field registered in the first and last name candidate list, the
図6は、本実施形態で姓名候補作成部118が作成する姓名候補リスト600の実施形態を示す。図6に示した姓名候補リスト600の実施形態では、4種類の姓候補に対してそれぞれ3種類の名候補の組み合わせが全部リストされる。図6に示した実施形態では、レコード・セット610が、「下+鶴間」の姓組合わせに対応し、レコード・セット620が、「下+鶴+間」の姓組合わせに対応する。さらにレコード・セット630は、姓組合わせ「下鶴+間」に対応し、さらにレコード・セット640は、姓組合わせ「下鶴間」に対応する。
FIG. 6 shows an embodiment of the first and last
また、姓名候補リスト600は、文化圏重付け値を登録するフィールド650、文字列の開始からの形態素トークンの接続を示す先行形態素トークン接続リスト・フィールド660、文字列の末尾までの残りの形態素トークンの接続を示す後続形態素トークン接続リスト・フィールド680、および先行形態素トークンおよび後続形態素トークンの前後接続を示す前後接続リスト・フィールド670、および合計スコア値フィールド690を含んで構成されている。
The first and last
フィールド650は、文化圏判断において、日本人名として判断されたことに対応して、姓名の先頭について、SNの属性識別子を有する形態素トークンが割当てられている場合、姓名候補作成部118が、N:Normalの識別子を設定する。また、レコード・セット620は、「下」について、属性識別子が「GN」が割当てられているので、文化圏判断において、日本語の姓名の通常の記述ではないことから、AN:Abnormalの識別子を設定している。
In the
スコア計算部120は、図6の姓名候補リスト600のレコードについて、それぞれNULLではないフィールドのスコア値を、スコア・テーブル128を参照して取得して、好ましい実施形態では、下記式(1)を使用して合計スコア値を計算する。
The
図6に示す姓名候補リスト600について、上記式(1)を適用して計算された合計スコア値である、SUM_SCOREijの値が、フィールド690に登録される。なお、合計スコア値内のNおよびANの値は、文化圏判定に関連して例えば、N=0、AN=大数などの値を適宜設定することができる。スコア計算部120は、フィールド690の値を比較し、値が最小のレコードを姓名候補として採用し、表記変換部122に渡す。
In the first and last
さらにスコア計算部120のスコア計算処理の他の実施形態として、下記式(2)を使用して、文化圏重付け値および接続識別子のみを抽出し、そのスコアを合計して合計スコア値として姓名候補リスト600に登録することもできる。
Furthermore, as another embodiment of the score calculation process of the
図6に示した実施形態では、文字列=「下鶴間大和君」について、姓=「下鶴間」、名=「大和」、付属語=「君」と分解することが、最小の合計スコア値を与える。表記変換部122は、姓名候補リストを検索し、合計スコア値が最小の姓名候補を最尤の姓名候補とするなど、適切な抽出形態を使用して抽出する。
In the embodiment shown in FIG. 6, regarding the character string = “Yamata Shimotsuruma”, the minimum total score value is to decompose the surname = “Shimotsuruma”, first name = “Yamato”, and adjunct = “you”. give. The
図7は、表記変換部122が使用する変換辞書130が登録するテーブル・セット700の実施形態を示す。図7に示したテーブル・セットは、姓テーブル710と、名テーブル750として構成されている。姓テーブル710には、さらに文化圏別にJPセクション720、CNセクション730、KRセクション740が割当てられていて、各セクションには、文化圏に帰属される姓に対応する形態素トークンが、そのアルファベット表記と対として登録されている。なお、姓テーブル710には、同一の文字が複数の文化圏で姓として使用される場合でも、それぞれのセクションにそのアルファベット表記とともに登録されている。
FIG. 7 shows an embodiment of a
なお、アルファベット表記といったシングルバイト文字列は、日本人名についてはローマ字を使用することができ、ローマ字の表記方法としては、ISO3602で規定される訓令式の表記方法の他、ヘボン式、日本式ローマ字など表記方式のアルファベット表記を使用することができ、これらは、単独で登録することもできるし、異表記形態候補として並列的にシングルバイト文字列に変換して、出力とすることもできる。 Note that single-byte character strings such as alphabetic characters can use Roman characters for Japanese names. In addition to the ceremonial notation method defined in ISO 3602, the Roman character notation method includes Hebon and Japanese Roman characters. Alphabet notation of a notation system can be used, and these can be registered alone, or can be converted into a single-byte character string in parallel as an alternative notation form candidate and output.
当該実施形態の変換辞書130を実装する場合、例えば、姓「柳」について、姓テーブルを使用して縦断的にアルファベット表記を検索することが可能となる。一方、名についても名テーブルを使用して縦断的にアルファベット表記を検索することが可能となる。一方で、姓について取得されたアルファベット表記と、名について取得されたアルファベット表記とを組合わせる場合、異なる文化圏のアルファベット表記の姓と名とが結合される可能性も発生する。
When the
しかしながら、上述した場合でも、スコア計算部120が文化圏重付け値を利用して異なる文化圏に帰属される姓と名とが組合わされた姓名候補について高いスコアを付する。このため、文字列が異なる文化圏に帰属される姓および名でしか記述できなかった場合(例えば、異なる文化圏に帰属される男性と女性とが婚姻し、いずれか一方の姓に統一した場合など)を除き、通常では、表記変換部122は、異なる文化圏に帰属される姓名を組合わせる可能性は低い。この結果、表記変換部122は、文化圏に対応したアルファベット表記をシングルバイト文字列として返すことが可能となる。また、この結果、異文化圏の姓名の組合わせしか生成されなかった場合でも、対応するシングルバイト文字列を出力させることができる。
However, even in the above-described case, the
さらに変換辞書130は、他の実施形態では、文化圏ごとに姓、名として使用される形態素トークンと、属性識別子と、アルファベット表記とをJPテーブル、CNテーブル、およびKRテーブルといった文化圏テーブルを含むように実装することができる。
Further, in another embodiment, the
姓テーブル、名テーブルではなく、文化圏テーブルを実装する説明する他の実施形態では、姓および名が同一の文化圏に帰属されるシングルバイト文字列が優先的に検索され、通常の姓名識別においてより効率的な処理を行うことができる。また、姓または名のいずれかが特定の文化圏テーブルのみで検索されたなった場合、検索されなかった姓または名について、JPテーブルから、CNテーブル、KRテーブルへと検索対象テーブルを変更して検索することにより、異文化圏に帰属される姓名についてのアルファベット表記を、シングルバイト文字列として出力させることが可能となる。 In the other embodiment described, which implements a culture table rather than a first name table, a first name table, single-byte strings belonging to the same cultural sphere are searched preferentially in first name and last name identification. More efficient processing can be performed. In addition, when either a surname or a surname is searched only in a specific cultural area table, the search target table is changed from the JP table to the CN table or the KR table for the surname or surname not searched. By performing the search, it is possible to output alphabetical representations of first and last names belonging to different cultures as single-byte character strings.
図8は、姓名と考えられる文字列が、複数の文化圏にわたる可能性がある場合の情報処理装置100の姓名候補作成部118が実行する処理の実施形態を示す。図8に示すように、例えば、入力文字列が、「江澤東」の場合、図8に示すように、「江澤−東」、「江−澤東」、「江−澤−東」の3つの形態素トークン列に分割可能である。この場合、姓名候補リスト800には、江SS澤SG東、江SG澤東、江澤SG東の3つの形態素トークン列で示される姓名候補が作成される。姓として「江」は、日本姓として極めて希であるが、中国姓としては、通常に使われる姓であり、また「澤東」についても中国語で名として使用される可能性がある。
FIG. 8 shows an embodiment of processing executed by the first and last name
一方、姓「江澤」は、日本では通常に使われる姓であり、また名「東」についても名として使用される場合がある。このような場合、後述する江−澤東および江澤−東について文化圏重付け値では両者を区別できず、いずれもNとして判断することになる。さらに合計スコア値の点でより低い姓名候補を選択することは、文字列「江澤東」について、日本姓または中国姓のいずれかであるかを強制的に決定し、他方を廃棄することは妥当ではない。なお、「江−澤−東」については、文化圏重付け値および接続識別子の数およびスコアに基づいて、「江澤−東」、「江−澤東」よりも合計スコア値が高くなるので、選択されず、表記変換部122が抽出することはないので詳細な説明は行わない。
On the other hand, the surname “Ezawa” is a surname commonly used in Japan, and the name “East” may also be used as a first name. In such a case, the cultural sphere weights for the later-explained Jiang-Sawahigashi and Ezawa-Higashi cannot be distinguished from each other, and both are determined as N. In addition, selecting a lower surname candidate in terms of the total score value will forcefully determine whether the string “Ezawa Higashi” is either a Japanese surname or a Chinese surname and discard the other. Absent. As for “E-Sawa-Higashi”, the total score value is higher than “Ezawa-Higashi” and “E-Sawa Higashi” based on the weight of the cultural area and the number and score of connection identifiers. The
姓名候補「江澤東」について説明するような場合には、姓名候補リスト800に例えば、文化圏識別子を登録するフィールドを設けておき、各形態素トークン列を生成した場合の、先頭形態素トークンが帰属されている文化圏を識別するための識別子、例えばJP、CN、KRなどを記入するフィールドを定義しておくことができる。姓名候補作成部118は、各フィールドへの値の記入が終了した時点で、スコア計算部120を呼出し、姓名候補リスト800の各レコードの値を総和して合計スコア値を計算する。その後、表記変換部122は、JP、CN、KRの識別子ごとに合計スコア値の最小を与える最尤の形態素トークン列を抽出する。
In the case of explaining the first and last name candidate “Ezawa Higashi”, for example, a field for registering a cultural sphere identifier is provided in the first and last
表記変換部122は、姓名候補リスト800を参照し、最尤の形態とトークン列を、各文化圏ごとに抽出し、抽出した姓名候補を、一旦キュー・バッファに格納する。さらに表示変換部122は、キュー・バッファが空になるまでJP、CN、KRごとにアルファベット表記を取得して、シングルバイト文字列として出力する。なお、表記変換部122は、各文化圏ごとに合計スコア値の小さいものから順に複数の形態素トークン列を表記変換部122に渡し、さらに多くのシングルバイト文字列変換候補を出力させることもできる。
The
また、図8に示した実施形態で、文字列「金澤雫」は、形態素トークンで、金−澤雫、金澤−雫、金−澤−雫に分割することができる。この実施形態の場合、姓としての「金」は、韓国姓としては普通に使用される姓であり、また姓「金澤」についても、日本姓として普通に使用される姓である。一方「金−澤−雫」は、接続識別子の数および種類を使用して、合計スコアはいずれにしても高くなるので、「江−澤−東」と同様の処理が実行され、表記変換部122には渡されることはないので詳細な説明は省略する。 In the embodiment shown in FIG. 8, the character string “Kanazawa Kaoru” is a morpheme token and can be divided into Kana-Kawazawa, Kanazawa-Kan, and Kana-Sawa-Kan. In this embodiment, “Kin” as a surname is a surname commonly used as a Korean surname, and the surname “Kanazawa” is a surname commonly used as a Japanese surname. On the other hand, “Kin-Sawa-Kin” uses the number and type of connection identifiers, and the total score becomes high anyway. Therefore, the same processing as “E-Sawa-Higashi” is executed, and the notation conversion unit Since it is not passed to 122, detailed description is abbreviate | omitted.
ところで、文字列「金澤雫」に含まれる漢字のうち、「雫」は、日本製の漢字、いわゆる国字である。このため、姓名候補作成部118は、「金−澤雫」をKRとして識別し、「金澤−雫」についてJPとして識別する。そして、文化圏重付け値は、「金−澤雫」について先頭の形態素トークンが「金」であることから文化圏識別子=KRとしてはNであるが、文字属性が文化圏識別子=JPを含んでいるため、ANの値を検出し、この結果、文化圏重付け値としてANを与え、合計スコア値を増加させている。なお、この場合でも、合計スコア値は、「金−澤雫」の方が低いので、JP、KR、CNについてそれぞれ、「江澤東」、「金澤東」、「江澤東」が選択され、それぞれ表記変換部122により抽出される。
By the way, among the Chinese characters included in the character string “Kanazawa Kaoru”, “雫” is a Japanese-made Chinese character, a so-called national character. For this reason, the first and last name
図9は、本実施形態の姓名識別方法を実行する情報処理ステム900の実施形態を示す。図9に示した情報処理システム900は、姓名識別処理を実行する情報処理装置である姓名識別サーバ910と、アルファベット表記と姓名候補とを対応付けて姓名識別結果を姓名識別サーバ910に返すデータベース・サーバ960とを含んで構成されている。
FIG. 9 shows an embodiment of an
姓名識別サーバ910は、ネットワーク920を介してクライアント・コンピュータから姓名識別要求および姓名と考えられる少なくともマルチバイト文字を含む文字列をHTTPプロトコルなどを使用して受信する。受信された姓名識別要求は、ネットワーク・アダプタ930を介してアルファベット変換部940aに送られる。アルファベット変換部940aは、本実施形態の姓名識別処理を実行し、姓名識別サーバのフロントプロセッサとして実装されている。アルファベット変換部940aは、マルチバイト文字を含む文字列を、単一または複数のシングルバイト文字列に変換し、姓名識別部950に送付する。
The first and last
姓名識別部950は、例えば非特許文献1に記載されたインターナショナル・ビジネス・マシーンズ・コーポレーション製のGlobal Name Analyticsシステムとして実装することができる。姓名識別部950は、アルファベット変換部940aからの出力をその入力文字列として取得する。図9に示した実施形態では、姓名識別部950は、例えば、SQL文などを使用してデータベース・サーバ960に検索クエリーを発行し、シングルバイト文字に対応するマルチバイト文字列の検索を指令する。データベース・サーバ960は、例えばDB2などのリレーショナル・データベース970を管理しており、リレーショナル・データベース970は、シングルバイト文字列で記述された姓名と、当該姓名を固有に特定する姓名識別子とを対応付けたテーブル980aと、姓名識別子とマルチバイト文字列での姓名とを対応付けたテーブル980bとを含んで構成される。
The first and last
データベース・サーバ960は、シングルバイト文字を参照して姓名識別子を特定し、特定された姓名識別子を検索キーとしてテーブル980bを検索し、対応するマルチバイト文字で記述された文字列を姓名として取得する。その後、データベース・サーバ960は、取得した姓名を姓名識別部950に返す。姓名識別部950は、取得したマルチバイト文字列の姓名を、出力処理部940bに渡し、姓名識別要求の送付元に返すべき処理結果を作成させる。出力処理部940bは、例えば、姓名識別部950により識別された姓名について、そのまま姓名識別要求の送付元に送付することもできるし、例えば、姓(SN)と名(SN)との間にスペース、中黒(・)、ハイフン、その他のキャラクタなどを挿入して、検索結果として返すこともできる。さらに他の実施形態では、フォームとして、検索結果を姓フィールド、名フィールドなどに別々に記述して、送信元であるクライアント・コンピュータに送付することもできる。
The
さらに他の実施形態では、データベース・サーバ960は、姓名に対応して住所、勤務先、年金情報、銀行口座、経歴などの姓名に関連付けられる情報を管理する情報テーブル990を管理する。当該実施形態では、姓名識別子により特定されたマルチバイト文字およびそのために使用したシングルバイト文字で参照される各種情報を検索し、その検索結果を、姓名識別結果とともに姓名識別部950に返すこともできる。姓名識別部950は、データベース・サーバ960から取得した姓名識別結果と、当該姓名識別結果を使用して検索された他の情報とを、出力処理部940bに送り、ネットワーク・アダプタ930を介して姓名識別要求の送信元であるクライアント・コンピュータに返すことにより、姓名識別および姓名によりタグ付けされる他の情報とを、クライアント・コンピュータに利用させている。
In yet another embodiment, the
また、さらに他の実施形態は、姓名を含むと考えられる文字列が、シングルバイト文字と、マルチバイト文字とを含む場合について処理を実行する。シングルバイト文字とマルチバイト文字とを含む文字列が姓名を含むものと考えられる場合、例えば、文字列からシングルバイト文字を削除する処理を実行するプリプロセッサを実装することができる。その後、文字列を検索対象の文字列として使用することで、情報処理装置100または情報処理システム900は、同様の検索を実行することができる。また、アルファベット表記、例えばJane、Johnsなどのアルファベット表記がカタカナなどマルチバイト文字で記述された文字列の場合には、カタカナに相当するコードを削除して検索対象の文字列とするプリプロセッサを実装することで、上述した渡同様の処理を実行し、処理結果を生成することができる。
In still another embodiment, the process is performed for a case where a character string that is considered to include a first and last name includes a single-byte character and a multi-byte character. When a character string including single-byte characters and multi-byte characters is considered to include a first name and last name, for example, a preprocessor that executes processing for deleting a single-byte character from the character string can be implemented. Thereafter, the
本実施形態の上記機能は、C++、Java(登録商標)、Java(登録商標)Beans、Java(登録商標)Applet、Java(登録商標)Script、Perl、Rubyなどのオブジェクト指向プログラミング言語などで記述された装置実行可能なプログラムにより実現でき、当該プログラムは、ハードディスク装置、CD−ROM、MO、フレキシブルディスク、EEPROM、EPROMなどの装置可読な記録媒体に格納して頒布することができ、また他装置が可能な形式でネットワークを介して伝送することができる。 The functions of this embodiment are described in an object-oriented programming language such as C ++, Java (registered trademark), Java (registered trademark) Beans, Java (registered trademark) Applet, Java (registered trademark) Script, Perl, and Ruby. The program can be realized by a program executable by the apparatus, and the program can be stored in a device-readable recording medium such as a hard disk device, CD-ROM, MO, flexible disk, EEPROM, EPROM, and distributed. It can be transmitted over the network in a possible format.
これまで本実施形態につき説明してきたが、本発明は、上述した実施形態に限定されるものではなく、他の実施形態、追加、変更、削除など、当業者が想到することができる範囲内で変更することができ、いずれの態様においても本発明の作用・効果を奏する限り、本発明の範囲に含まれるものである。 Although the present embodiment has been described so far, the present invention is not limited to the above-described embodiment, and other embodiments, additions, changes, deletions, and the like can be conceived by those skilled in the art. It can be changed, and any aspect is within the scope of the present invention as long as the effects and effects of the present invention are exhibited.
100…情報処理装置、110…コンピュータ装置、112入力インタフェース、114…漢字正規化部、116…形態素解析部、118…姓名候補作成部、120…スコア計算部、122…表記変換部、124…漢字辞書、126…形態素辞書、128…スコア・テーブル、130変換辞書、600、800…姓名候補リスト、900…情報処理システム
DESCRIPTION OF
Claims (13)
前記文字列が含むマルチバイト文字を、前記情報処理装置が登録する字体に正規化する漢字正規化部と、
前記漢字正規化部による正規化後の文字列を形態素トークンに分割し、かつ前記形態素トークンに割当てられた属性識別子を取得する形態素解析部と、
前記形態素解析部が分割した前記形態素トークンと、前記属性識別子と、前記形態素トークン間の前記属性識別子から接続識別子を生成し、前記形態素トークンが属する文化圏についての重付けを与える文化圏重付け値を生成して、姓名候補リストとして登録する姓名候補作成部と、
前記形態素トークン、前記接続識別子、および前記文化圏重付け値について割当てられたスコア値を取得し、合計スコア値を計算して、前記姓名の先頭から末尾までの距離の尺度を与える姓名距離を生成し、前記姓名距離の短さを使用して姓名候補とするスコア計算部と、
前記姓名候補を抽出して前記姓名候補が含む前記形態素トークンの姓および名に対応するシングルバイト文字列を出力する表記変換部と
を含む情報処理装置。 An information processing apparatus that converts a character string including a first and last name described in multibyte characters into a single byte character string, wherein the information processing apparatus includes:
A kanji normalization unit that normalizes multibyte characters included in the character string into a font registered by the information processing apparatus;
A character string after normalization by the kanji normalization unit is divided into morpheme tokens, and a morpheme analysis unit that acquires an attribute identifier assigned to the morpheme token;
A culture area weight value that generates a connection identifier from the attribute identifiers between the morpheme tokens divided by the morpheme analysis unit, the attribute identifiers, and the morpheme tokens, and gives weights for the cultural areas to which the morpheme tokens belong A first and last name candidate creation unit for registering as a first and last name candidate list,
Get the assigned score values for the morpheme token, the connection identifier, and the culture weight value, and calculate the total score value to generate a surname distance giving a measure of the distance from the beginning to the end of the surname And a score calculation unit that uses the short name distance as a first name surname candidate,
An information processing apparatus comprising: a notation conversion unit that extracts the first and last name candidates and outputs a single-byte character string corresponding to the first name and last name of the morpheme token included in the first and last name candidates.
前記形態素解析部に対して前記姓名を構成するための形態素トークンおよび属性識別値を提供し、前記姓名の属する文化圏に対応付けて形態素トークンおよび前記属性識別子を登録する形態素辞書と、
前記スコア計算部に対して、前記形態素トークンおよび前記接続識別子について割当てたスコア値を提供するためのスコア・テーブルと、
前記形態素トークンの前記姓に対応するシングルバイト文字列および前記名に対応するシングルバイト文字列を登録する変換辞書と
を含む請求項1に記載の情報処理装置。 A kanji dictionary that provides registered kanji corresponding to different character forms in association with the kanji normalization unit;
Providing the morpheme token and attribute identification value for configuring the first and last name to the morpheme analysis unit, and registering the morpheme token and the attribute identifier in association with the cultural sphere to which the first and last name belongs;
A score table for providing the score calculation unit with a score value assigned to the morpheme token and the connection identifier;
The information processing apparatus according to claim 1, further comprising: a single-byte character string corresponding to the surname of the morpheme token and a conversion dictionary that registers a single-byte character string corresponding to the first name.
漢字辞書を参照して前記文字列が含むマルチバイト文字を、前記情報処理装置が登録する字体に正規化するステップと、
形態素辞書を参照して、漢字正規化部による正規化後の文字列を形態素トークンに分割し、かつ前記形態素トークンに割当てられた属性識別子を取得し、形態素解析部が分割した前記形態素トークンと、前記属性識別子と、前記形態素トークン間の前記属性識別子から接続識別子を生成し、前記形態素トークンが属する文化圏についての重付けを与える文化圏重付け値を生成して、前記形態素トークンと、前記接続識別子と、前記文化圏重付け値とを姓名候補リストに記述するステップと、
前記形態素トークン、前記接続識別子、および前記文化圏重付け値について割当てられたスコア値を使用して、合計スコア値を計算して、前記姓名の先頭から末尾までの距離の尺度を与える姓名距離を生成し、前記姓名距離の短さを使用して姓名候補とするステップと、
前記姓名候補を抽出して前記姓名候補が含む前記形態素トークンの姓および名に対応するシングルバイト文字列を出力するステップと
を含む姓名識別方法。 A first and last name identifying method executed by an information processing apparatus for converting a character string including a first and last name described in multibyte characters into a single byte character string, wherein the first and last name identifying method includes:
Normalizing a multi-byte character included in the character string with reference to a Chinese character dictionary into a character style registered by the information processing device;
Referring to the morpheme dictionary, the character string after normalization by the kanji normalization unit is divided into morpheme tokens, and the attribute identifier assigned to the morpheme token is obtained, and the morpheme token divided by the morpheme analysis unit, A connection identifier is generated from the attribute identifier and the attribute identifier between the morpheme tokens, and a culture sphere weight value for giving a weight for a culture sphere to which the morpheme token belongs is generated, and the morpheme token and the connection Describing the identifier and the culture weight value in the first and last name candidate list;
Using the score values assigned for the morpheme token, the connection identifier, and the culture weight value, a total score value is calculated to give a first and last name distance that gives a measure of the distance from the beginning to the end of the first and last name. Generating a first and last name candidate using the short first and last distance,
Extracting the first and last name candidates and outputting a single-byte character string corresponding to the first name and last name of the morpheme token included in the first and last name candidates.
前記姓についてのシングルバイト文字列を前記文化圏ごとに登録した姓テーブルおよび前記名についてのシングルバイト文字列を前記文化圏ごとに登録した名テーブルを参照するステップと、
前記文化圏が同一の姓名の組合わせおよび前記文化圏の異なる姓名の組合わせについての前記シングルバイト文字列に変換する、請求項6に記載の姓名識別方法。 The step of outputting the single-byte character string includes:
Referring to a surname table in which a single-byte character string for the surname is registered for each cultural area and a name table in which a single-byte character string for the first name is registered for each cultural area;
7. The method for identifying first and last names according to claim 6, wherein the first and last character combinations of the first and last name combinations having the same cultural sphere and the first and last name combinations having different cultural spheres are converted.
ネットワークに接続され、前記ネットワークを介して姓名識別要求および姓名を含むマルチバイト文字列を受領する姓名識別サーバと、
前記姓名識別サーバが受領した前記文字列から変換されたシングルバイト文字列に対応するシングルバイト文字列を検索し、検索された前記シングルバイト文字列に対応付けられたマルチバイト文字の姓および名を前記姓名識別サーバに返すデータベース・サーバとを含み、
前記姓名識別サーバは、
前記文字列を、前記情報処理装置が登録する字体に正規化する漢字正規化部と、
前記漢字正規化部による正規化後の文字列を形態素トークンに分割し、かつ前記形態素トークンに割当てられた属性識別子を取得する形態素解析部と、
前記形態素解析部が分割した前記形態素トークンと、前記属性識別子と、前記形態素トークン間の前記属性識別子から接続識別子を生成し、前記形態素トークンが属する文化圏についての重付けを与える文化圏重付け値を生成し、姓名候補リストとして登録する姓名候補作成部と、
前記形態素トークン、前記接続識別子、および前記文化圏重付け値について割当てられたスコア値を取得し、合計スコア値を計算して、前記姓名の先頭から末尾までの距離の尺度を与える姓名距離を生成し、前記姓名距離の短さを使用して姓名候補とするスコア計算部と、
前記姓名候補を抽出して前記姓名候補が含む前記形態素トークンの姓および名に対応するシングルバイト文字列を出力する表記変換部と、
前記表記変換部の出力を受領して前記データベース・サーバに照会を発行する氏名識別部と、
前記データベース・サーバの照会結果をマルチバイト文字列の姓名として受領して姓と名とを分離して表示させる処理を実行する出力処理部と
を含む、情報処理システム。 An information processing system for performing first and last name identification,
A first and last name identification server connected to a network and receiving a first and last name identification request and a multibyte string including the first and last name via the network;
The single-byte character string corresponding to the single-byte character string converted from the character string received by the full-name identification server is searched, and the first and last names of the multi-byte characters associated with the searched single-byte character string are obtained. A database server returning to the first and last name identification server,
The first and last name identification server is
A kanji normalization unit that normalizes the character string to a font registered by the information processing apparatus;
A character string after normalization by the kanji normalization unit is divided into morpheme tokens, and a morpheme analysis unit that acquires an attribute identifier assigned to the morpheme token;
A culture area weight value that generates a connection identifier from the attribute identifiers between the morpheme tokens divided by the morpheme analysis unit, the attribute identifiers, and the morpheme tokens, and gives weights for the cultural areas to which the morpheme tokens belong And a first and last name candidate creation unit for registering as a first and last name candidate list,
Get the assigned score values for the morpheme token, the connection identifier, and the culture weight value, and calculate the total score value to generate a surname distance giving a measure of the distance from the beginning to the end of the surname And a score calculation unit that uses the short name distance as a first name surname candidate,
A notation conversion unit that extracts the first and last name candidates and outputs a single-byte character string corresponding to the first name and last name of the morpheme token included in the first and last name candidates;
A name identifier that receives the output of the notation converter and issues a query to the database server;
An output processing unit that executes a process of receiving a query result of the database server as a first and last name of a multibyte character string and displaying the first and last names separately.
前記姓名に対応付けられた情報を管理する情報テーブルと
を含み、前記テーブルから前記姓および前記名を検索し、前記情報テーブルから関連する前記情報を検索し、検索結果として前記姓名検索サーバに渡す、請求項9に記載の情報処理システム。 The database server includes a table for registering a first and last name identifier for associating the multi-byte character string with the single-byte character string;
An information table for managing information associated with the first and last names, searching for the last name and the first name from the table, searching for the related information from the information table, and passing the result to the first name search server as a search result The information processing system according to claim 9.
前記文字列が含むマルチバイト文字を、前記情報処理装置が登録する字体に正規化する漢字正規化部と、
前記漢字正規化部による正規化後の文字列を形態素トークンに分割し、かつ前記形態素トークンに割当てられた属性識別子を取得する形態素解析部と、
前記形態素解析部が分割した前記形態素トークンと、前記属性識別子と、前記形態素トークン間の前記属性識別子から接続識別子を生成し、前記形態素トークンが属する文化圏についての重付けを与える文化圏重付け値を生成し、姓名候補リストとして登録する姓名候補作成部と、
前記形態素トークン、前記接続識別子、および前記文化圏重付け値について割当てられたスコア値を取得し、合計スコア値を計算して、前記姓名の先頭から末尾までの距離の尺度を与える姓名距離を生成し、前記姓名距離の短さを使用して姓名候補とするスコア計算部と、
前記姓名候補を抽出して前記姓名候補が含む前記形態素トークンの姓および名に対応するシングルバイト文字列を出力する表記変換部と
を実現する、コンピュータ実行可能なプログラム。 A computer-executable program for executing an information processing method for converting a character string including a first and last name described in multibyte characters into a single-byte character string,
A kanji normalization unit that normalizes multibyte characters included in the character string into a font registered by the information processing apparatus;
A character string after normalization by the kanji normalization unit is divided into morpheme tokens, and a morpheme analysis unit that acquires an attribute identifier assigned to the morpheme token;
A culture area weight value that generates a connection identifier from the attribute identifiers between the morpheme tokens divided by the morpheme analysis unit, the attribute identifiers, and the morpheme tokens, and gives weights for the cultural areas to which the morpheme tokens belong And a first and last name candidate creation unit for registering as a first and last name candidate list,
Get the assigned score values for the morpheme token, the connection identifier, and the culture weight value, and calculate the total score value to generate a surname distance giving a measure of the distance from the beginning to the end of the surname And a score calculation unit that uses the short name distance as a first name surname candidate,
A computer-executable program that realizes a notation conversion unit that extracts the first and last name candidates and outputs a single-byte character string corresponding to the first name and last name of the morpheme token included in the first and last name candidates.
前記表記変換部は、異なる文化圏ごとに最尤の前記姓および前記名についてのシングルバイト文字列を出力する、請求項12に記載のプログラム。 The first name surname candidate creation unit uses the determination of whether the morpheme token that gives the first name and the first name belongs to the cultural sphere to which the morpheme token belongs, and the cultural sphere to which the first and last name included in the character string belongs Generate a cultural zone identifier that indicates
The program according to claim 12, wherein the notation conversion unit outputs a single-byte character string for the last name and the first name that are most likely for each different cultural area.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008117538A JP5466376B2 (en) | 2008-04-28 | 2008-04-28 | Information processing apparatus, first and last name identification method, information processing system, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008117538A JP5466376B2 (en) | 2008-04-28 | 2008-04-28 | Information processing apparatus, first and last name identification method, information processing system, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009266110A true JP2009266110A (en) | 2009-11-12 |
JP5466376B2 JP5466376B2 (en) | 2014-04-09 |
Family
ID=41391846
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008117538A Expired - Fee Related JP5466376B2 (en) | 2008-04-28 | 2008-04-28 | Information processing apparatus, first and last name identification method, information processing system, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5466376B2 (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011008784A (en) * | 2009-06-24 | 2011-01-13 | Nhn Corp | System and method for automatically recommending japanese word by using roman alphabet conversion |
JP2014517428A (en) * | 2011-06-24 | 2014-07-17 | グーグル・インコーポレーテッド | Detect the source language of search queries |
JP7200474B2 (en) | 2017-09-14 | 2023-01-10 | 日本電気株式会社 | CONVERSION AID DEVICE, CONVERSION AID SYSTEM, CONVERSION AID METHOD, AND COMPUTER PROGRAM |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03196198A (en) * | 1989-12-26 | 1991-08-27 | Matsushita Electric Ind Co Ltd | Sound regulation synthesizer |
JPH0675956A (en) * | 1992-05-06 | 1994-03-18 | Nippon Telegr & Teleph Corp <Ntt> | Analysis system for japanese sentence homograph |
JP2004021707A (en) * | 2002-06-18 | 2004-01-22 | Frost International Corporation | System for converting address and name into roman character |
JP2004102856A (en) * | 2002-09-12 | 2004-04-02 | Fuji Xerox Co Ltd | Device and method for morpheme string processing |
-
2008
- 2008-04-28 JP JP2008117538A patent/JP5466376B2/en not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03196198A (en) * | 1989-12-26 | 1991-08-27 | Matsushita Electric Ind Co Ltd | Sound regulation synthesizer |
JPH0675956A (en) * | 1992-05-06 | 1994-03-18 | Nippon Telegr & Teleph Corp <Ntt> | Analysis system for japanese sentence homograph |
JP2004021707A (en) * | 2002-06-18 | 2004-01-22 | Frost International Corporation | System for converting address and name into roman character |
JP2004102856A (en) * | 2002-09-12 | 2004-04-02 | Fuji Xerox Co Ltd | Device and method for morpheme string processing |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011008784A (en) * | 2009-06-24 | 2011-01-13 | Nhn Corp | System and method for automatically recommending japanese word by using roman alphabet conversion |
JP2014517428A (en) * | 2011-06-24 | 2014-07-17 | グーグル・インコーポレーテッド | Detect the source language of search queries |
JP7200474B2 (en) | 2017-09-14 | 2023-01-10 | 日本電気株式会社 | CONVERSION AID DEVICE, CONVERSION AID SYSTEM, CONVERSION AID METHOD, AND COMPUTER PROGRAM |
Also Published As
Publication number | Publication date |
---|---|
JP5466376B2 (en) | 2014-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8812300B2 (en) | Identifying related names | |
US10423649B2 (en) | Natural question generation from query data using natural language processing system | |
CN109508458B (en) | Legal entity identification method and device | |
JP2009205397A (en) | Retrieval engine, retrieval system, retrieval method, and program | |
JP2011018330A (en) | System and method for transforming kanji into vernacular pronunciation string by statistical method | |
CN105550206B (en) | The edition control method and device of structured query sentence | |
CN106502991B (en) | Publication treating method and apparatus | |
US20200134537A1 (en) | System and method for generating employment candidates | |
US20240311432A1 (en) | System and method for search discovery | |
CN113076748A (en) | Method, device and equipment for processing bullet screen sensitive words and storage medium | |
Xu et al. | Using SVM to extract acronyms from text | |
JP5466376B2 (en) | Information processing apparatus, first and last name identification method, information processing system, and program | |
CN115210705A (en) | Vector embedding model for relational tables with invalid or equivalent values | |
JP2011028379A (en) | Program and device for converting data structure | |
JP4953440B2 (en) | Morphological analysis device, morphological analysis method, morphological analysis program, and recording medium storing computer program | |
JP2006227914A (en) | Information search device, information search method, program and storage medium | |
JP2010250389A (en) | Information retrieval system, method and program, and index generation system, method, and program | |
JP5132430B2 (en) | Information processing apparatus, information processing method, and program for generating first and last name candidates | |
JP2001014326A (en) | Device and method for retrieving similar document by structure specification | |
JP2001101184A (en) | Method and device for generating structurized document and storage medium with structurized document generation program stored therein | |
JP2008197700A (en) | Document management system and document management method | |
CN112015888B (en) | Abstract information extraction method and abstract information extraction system | |
JP5137140B2 (en) | Appearance notation record identification apparatus, deletion rule generation apparatus, method, program, and recording medium | |
JP5412137B2 (en) | Machine learning apparatus and method | |
JPH0944521A (en) | Index generating device and document retrieval device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110119 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121026 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121030 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20130723 |
|
RD14 | Notification of resignation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7434 Effective date: 20130729 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131122 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20131202 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140107 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140124 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |