JP5348964B2 - Information processing apparatus, information processing method, information processing system, and program - Google Patents
Information processing apparatus, information processing method, information processing system, and program Download PDFInfo
- Publication number
- JP5348964B2 JP5348964B2 JP2008208297A JP2008208297A JP5348964B2 JP 5348964 B2 JP5348964 B2 JP 5348964B2 JP 2008208297 A JP2008208297 A JP 2008208297A JP 2008208297 A JP2008208297 A JP 2008208297A JP 5348964 B2 JP5348964 B2 JP 5348964B2
- Authority
- JP
- Japan
- Prior art keywords
- similarity
- character
- score
- notation
- information processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、姓名の類似判断技術に関し、より詳細には、インド・ヨーロッパ語、アフロ・アフリカ語、日本語、中国語、韓国語などで記述された姓名から、言語種類にかかわらず姓名の類似性を判断する、情報処理装置、情報処理方法、情報処理システム、およびプログラムに関する。 The present invention relates to a technique for determining similarity between first and last names, and more specifically, from first and last names written in Indo-European, Afro-African, Japanese, Chinese, Korean, etc. The present invention relates to an information processing apparatus, an information processing method, an information processing system, and a program for determining sex.
近年、交通機関や、ネットワーク技術の進歩などにより、国際間での人的活動が活発化している。複数の国にわたって個人や企業が各種の活動を行う場合、当該個人の姓名や、企業の名称を記載して、各種の手続を行う。国際間での活動が増加するにつれ、個人などが手続を行った国以外の国で、その情報を使用して各種の検索を行うことが必要な場合も発生してくるものと考えられる。例示的な場合としては、国際間でのマネーロンダリングなどの場合に、銀行口座などを作成、送金、引出しなどを行った個人の同一性を、複数の国で情報を共有し、なおかつ異なる文化圏に対応する姓名表記に対応して姓名の同一性を損なうことなく認識することが必要な場合を挙げることができる。 In recent years, international human activities have become active due to advances in transportation and network technology. When an individual or a company conducts various activities across multiple countries, the person's first and last name and the name of the company are described and various procedures are performed. As international activities increase, it may be necessary to perform various searches using the information in countries other than the countries where individuals have processed. As an example, in the case of international money laundering, etc., the identity of the person who created, remittance, withdrawal, etc. in the bank account etc. is shared in multiple countries, and different cultures The case where it is necessary to recognize the first and last name corresponding to the category without losing the identity of the first and last name can be given.
また、姓名検索は、必ずしも国際的な行動だけに必要とされるものではない。例えば日本で言えば、銀行口座、健康保険などが同一人物を示しているか否かを判断することが必要な、いわゆる名寄せなどの処理には、取得した姓名から、どのような類似姓名が生じる可能性があるか、またその尤度がどの程度なのかを、高精度かつ効率的に生成させることが必要となる。 Last name search is not always necessary for international action. For example, in Japan, it is necessary to determine whether bank accounts, health insurance, etc. indicate the same person, so what kind of similar surname can be generated from the acquired surname, etc. Therefore, it is necessary to generate the accuracy and the likelihood of the possibility with high accuracy and efficiency.
英語、キリル語、ギリシャ文字などを含むインド・ヨーロッパ語、アフロ・アジア語で記述された姓名は、アルファベットなど表音文字のみで記述されるため、文字列を使用して検索を行うことができ、また検索は、文字列を使用する類似検索を含めて比較的容易である。なお、アルファベットで記述された人名を比較して、人名の類似性を、類似性スコアを計算することにより比較する方法は、人名検索のために利用されている。アルファベットで記述された人名を検索するためのシステム/方法としては、例えば、米国特許第6、963、871B1明細書(特許文献1)に記載される、アルファベットで記述された人名を検索する自動化人名検索システムを挙げることができる。 Surnames written in Indo-European and Afro-Asian languages, including English, Cyrillic, Greek, etc., are written only in phonograms such as alphabets, so you can search using strings. The search is relatively easy including a similar search using a character string. Note that a method of comparing names by comparing the names of the names described in alphabets and calculating the similarity score of the names is used for name search. As a system / method for searching for a person name written in alphabet, for example, an automated person name for searching for a person name written in alphabet is described in US Pat. No. 6,963,871B1 (Patent Document 1). List search systems.
また、http://publibfp.boulder.ibm.com/epubs/pdf/c1912860.pdf(非特許文献1)で指定されるURIには、インド・ヨーロッパ語で表記された人名についての類似性を使用して人名検索する、Global Name Analytics(GNA)システムも開示されている。 In addition, the URI specified in http://publibfp.boulder.ibm.com/epubs/pdf/c1912860.pdf (Non-patent Document 1) uses the similarity of person names written in Indo-European languages. A Global Name Analytics (GNA) system that searches for a person's name is also disclosed.
ところで、CJKV(Chinese, Japanese, Korean, Vietnam)として例示することができる、いわゆる表意文字を使用する文化圏では、異字体が存在し、また同一の文字であっても文字列シーケンスの態様に応じて表音特性が相違する場合がある。このため、表意文字を含む姓名を類似判断を充分な精度で自動実行する際には、インド・ヨーロッパ語文化圏での姓名検索とは異なる問題がある。この様な問題として、例えば下記の掲げる問題点を例示的に挙げることができる。 By the way, in the cultural sphere using so-called ideographs, which can be exemplified as CJKV (Chinese, Japanese, Korean, Vietnam), there are allo-characters, and even the same character depends on the character string sequence. The phonetic characteristics may be different. For this reason, there is a problem different from the first name search in the Indo-European cultural sphere when the similar determination of the first name and the second name including the ideogram is automatically executed with sufficient accuracy. As such problems, for example, the following problems can be exemplified.
(イ)さらに、CJKVとして参照される文化圏では、本来同一の表意文字を表し、またその表音特性も同一となる旧字体、新字体、異字体が存在し、例えば、「斉」、「齊」、「斎」、「齋」など、同一の表音文字で記述された姓名に対して複数の表意文字による表記が存在しうる。したがって、表音文字の同一性や表意文字の同一性、類似性を自動判断することができない。 (B) Furthermore, in the cultural sphere referred to as CJKV, there are old, new, and variant fonts that originally represent the same ideogram and have the same phonetic characteristics. For example, “Sai”, “ There may be a plurality of ideographic characters for the first and last names written in the same phonetic character, such as “齊”, “sai”, “齋”. Therefore, it is not possible to automatically determine the identity of phonetic characters and the identity and similarity of ideographic characters.
(ロ)上述した問題に加え、例えば日本語を、ローマ字表記する場合、「タロウ」の表音文字列に対応し、「Taro」、「Taroh」、「Tarou」など、または「トモロヲ」と「トモロオ」、「トモエ」と「トモゑ」、「トモヱ」として例示される表音表記上の揺らぎが存在する。 (B) In addition to the above-mentioned problems, for example, when Japanese is written in Roman letters, it corresponds to the phonetic character string “Taro”, “Taro”, “Taroh”, “Tarou”, etc., or “Tomoro” and “ There are fluctuations in the phonetic notation exemplified as “Tomoroo”, “Tomoe”, “Tomomo”, and “Tomomo”.
(ハ)さらに、現在、大量の文字情報を処理する場合、OCRなどの光学読み取りシステムが導入され、イメージリーダなどから入力された画像を文字テンプレートなどとビット比較することにより、自動文字認識が普及している。この場合、OCRによる誤認識を考慮して、外見上類似する文字、例えば、「カ」と、「ケ」「萩」と「荻」、「富」と「冨」などの可能性を考慮する必要がある。また、これらの外観上類似した文字は、業務担当者などによる転記ミス、誤記も考慮する必要があり、表意文字および表音文字の両方を有する言語の姓名を、コンピュータを使用して自動判断することは、困難であった。 (C) Furthermore, when processing a large amount of character information at present, an optical reading system such as OCR has been introduced, and automatic character recognition has become widespread by comparing images input from image readers with character templates. doing. In this case, in consideration of misrecognition by OCR, the appearance of similar characters such as “K”, “K”, “」 ”and“ 萩 ”,“ wealth ”and“ 冨 ”, etc. are considered. There is a need. In addition, these characters that are similar in appearance need to take account of transcription mistakes and misprints by business staff, etc., and automatically determine the first and last names of languages that have both ideograms and phonograms using a computer That was difficult.
これまで、漢字列、例えば日本語について姓名を検索する技術が種々知られている。例えば、特開平11−338859号公報(特許文献2)では、フリガナで入力される氏名をローマ字に変換して入力する氏名入力装置であって、漢字綴りの氏名とフリガナとの対応関係を管理するとともに、該フリガナの各文字毎に、規定のローマ字変換を施す必要があるのか否かを示すフリガナ属性情報を管理する氏名辞書と、上記氏名辞書を検索することで、入力されるフリガナの指す氏名を検索するとともに、該氏名の持つフリガナ属性情報を取得する検索手段と、上記検索手段の検索する氏名の中から氏名を1つ選択する選択手段と、上記選択手段の選択する氏名の持つフリガナ属性情報の指示に従って上記規定のローマ字変換を施しつつ、入力されるフリガナをローマ字に変換する変換手段とを備えることを、特徴とする氏名入力装置を開示する。 Up to now, various techniques for searching for first and last names for kanji strings, such as Japanese, are known. For example, Japanese Patent Application Laid-Open No. 11-338859 (Patent Document 2) is a name input device that converts a name input in kana to romaji and inputs the name, and manages the correspondence between the name spelled in kanji and the kana. In addition, a name dictionary for managing the reading attribute information indicating whether or not it is necessary to perform prescribed romaji conversion for each character of the reading, and the name indicated by the input reading by searching the name dictionary Search means for acquiring the reading attribute information of the name, selection means for selecting one name from the names searched by the search means, and the reading attribute of the name selected by the selection means Name conversion, characterized by comprising conversion means for converting the input furigana to romaji while performing the prescribed romaji conversion according to the instructions of the information It discloses an apparatus.
さらに、特開2000−251017号公報(特許文献3)では、団体または個人の名称を表わす「名称」文字列を記憶した第1記憶手段と、個人の姓名の姓を表わす「姓」文字列および名を表わす「名」文字列を、その種別を表わす種別データと共に記憶した第2記憶手段と、一般名称を表わす「一般名称」文字列をその種別を表わす種別データと共に記憶した第3記憶手段と、単語検索の照合に用いる照合用単語辞書を記憶するための第4記憶手段と、前記第1記憶手段内の「名称」文字列の構成要素が前記第2記憶手段内の文字列または前記第3記憶手段内の文字列と一致するかどうか判定し、一致条件の成立した「名称」文字列を一致先の文字列に対応する種別データと共に照合用単語辞書として前記第4記憶手段に記憶せしめる辞書生成手段と、を具備したことを特徴とする単語辞書作成装置を記載する。 Further, in Japanese Patent Laid-Open No. 2000-251017 (Patent Document 3), a first storage means storing a “name” character string representing the name of an organization or an individual, a “last name” character string representing a surname of the individual's first name, and Second storage means for storing a "name" character string representing a name together with type data representing its type; and a third storage means for storing a "general name" character string representing a general name together with type data representing the type; A fourth storage means for storing a word dictionary for collation used for collation of word search, and a constituent element of a “name” character string in the first storage means is a character string in the second storage means or the second 3. It is determined whether or not it matches the character string in the storage means, and the “name” character string for which the matching condition is satisfied is stored in the fourth storage means as a matching word dictionary together with the type data corresponding to the matching destination character string. Remarks A generation unit describes the word dictionary creation device being characterized in that comprises a.
さらに、特開2007−305046号公報(特許文献4)は、漢字と前記漢字の読みを表わす表音文字とを対応させた第1
の情報を予め記憶するため
の手段と、個人の姓名を表わす漢字と前記個人のメールアドレスに含まれる第2
の情報とを取得するための取得手段と、前記第1の情報に基づいて、前記姓名を表わす漢字の読みの候補を生成するための生成手段と、前記第2の情報と前記候補とを照合した結果に基づいて、前記姓名を表わす漢字の読みを決定するための決定手段とを含む、情報処理装置を開示する。
Further, Japanese Patent Laid-Open No. 2007-305046 (Patent Document 4) discloses a first example in which a kanji is associated with a phonetic character representing a reading of the kanji.
Means for storing the information in advance, a kanji representing a person's first and last name, and a second included in the person's e-mail address
The acquisition means for acquiring the information, the generation means for generating a kanji reading candidate representing the first and last names based on the first information, and the second information and the candidate are collated An information processing apparatus is disclosed that includes a determination unit for determining the reading of the kanji representing the first and last names based on the result.
また、特開2004−318699号公報(特許文献5)は、入力された名義の先頭から姓辞書中の単語と前方一致するものを検索する。検索した結果、種別が法人種別や職種の場合はその時点で個人でないとして処理を終了する。種別が姓の場合、入力された名義と後方一致する単語を名辞書から検索する。次に、姓と名の区切り方の候補を1つに絞り込む。最後に、絞り込まれた解が個人かどうか判定する名義解析方法を記載している。 Japanese Patent Laid-Open No. 2004-318699 (Patent Document 5) searches for a word that matches the word in the surname dictionary from the beginning of the input name. As a result of the search, if the type is a corporate type or a job type, the process is terminated because it is not an individual at that time. When the type is a surname, the name dictionary is searched for a word that matches the input name. Next, narrow down the candidates for surnames and surnames to one. Finally, a nominal analysis method for determining whether the narrowed solution is an individual is described.
さらに、特開平10−171799号公報(特許文献6)は、姓名の区切りなしに入力された個人名とフリガナに対して姓と名の区切り及び漢字1文字毎の文字区切りを付与する姓名解析方法において、姓を登録した姓辞書と、名を登録した名辞書を用いて、入力された前記姓名を姓と名に分割し、文字に対する読みを登録した文字辞書を用いて、姓または名の片方しか前記姓辞書、前記名辞書にない場合、あるいは、両方とも該姓・名辞書にない場合には、漢字1文字毎にフリガナの対応を取ることにより漢字1文字毎にフリガナを付与し、読みの多義を解消するための文字の区切り情報に基づいて解が正しいかを判定することを特徴とする姓名解析方法を記載している。 Furthermore, Japanese Patent Laid-Open No. 10-171799 (Patent Document 6) discloses a surname / name analysis method for assigning a surname / name delimiter and a character delimiter for each kanji to an individual name and a reading that are input without a delimiter , Using the surname dictionary where surnames are registered and the surname dictionary where surnames are registered, the entered surname is divided into surnames and surnames, and the surname or one of the surnames is registered using a character dictionary in which the readings for the characters are registered However, if it is not in the surname dictionary, the surname dictionary, or both are not in the surname / name dictionary, the kana is assigned to each kanji by reading the kanji for each kanji. Describes a surname analysis method that determines whether a solution is correct based on character delimiter information for resolving ambiguity.
特許文献2〜特許文献6は、それぞれ姓名をコンピュータにより自動的に解析する技術を開示する。しかしながら、特許文献2に記載された技術は、表音文字と表意文字との間の対応付けを操作者が実行するものであり、コンピュータが表意文字シーケンスと表音文字シーケンスとを自動的に対応付ける技術を開示するものではない。また、特許文献3に記載された技術は、類似可能性を考慮した辞書を作製する点および当該辞書を使用して顧客名を選択することを可能とするものの、類似度をどのように適用して姓名の自動選択をするかについては何ら記載するものではなく、また、表意文字と表音文字との間の対応付けを行うことを目的とするものではない。
さらに、特許文献4は、姓名に対して使用される漢字に適用される表音文字シーケンスを、漢字に適用される頻度の最も高いものとして選択して、表意文字と表音文字との関連づけを行うものである。しかしながら、その時点で処理するべき表意文字シーケンスが、最も頻度の高い表意文字シーケンスで表されるべきか否かについては、何らの判断を行うものではない。また、特許文献4は、漢字表記の姓名とともに、メールアドレスなど姓名を示唆する情報の入力を必要とするため、消音文字と表意文字との間の対応関係について、表音文字または表意文字での姓、名、または姓名が単独で入力された場合には、表音文字と表意文字との対応関係を一義的に定めることはできない。
Further,
さらに、姓名の誤記や転記ミス、または字体の相違などがある場合について、どの字体を使用するべきなのかについて、何ら対応するものではなく、また例えば、「高田俊:タカダタカシ」と、「高田健:タカダタケシ」との間の類似性について何ら基準を与えるものではなく、OCRにおける誤変換の可能性も含めた表意文字−表音文字変換を目的とするものではないし、表音文字シーケンスも表意文字シーケンスも異なる姓名を可能性のある候補として可能性に対応付けるものではない。 Furthermore, there is no correspondence as to which type of character should be used when there is a mistake in the first name, transcription mistake, or difference in character type. For example, "Shun Takada: Takashi Takada" and "Takada Ken : No reference is given to the similarity between ": Takada Takeshi" and it is not intended for ideographic character-phonetic character conversion including the possibility of erroneous conversion in OCR. The sequence also does not associate different first and last names as possible candidates.
さらに、特許文献5〜6についても、漢字と読みとを頻度に対応付けて登録し、それらの間の変換を行うものであって、出現頻度のみを使用して表意文字および表音文字の対応付けを行うものであり、入力された表意文字シーケンスまたは表音文字シーケンスに出現頻度では対応付けられない可能性のある姓名候補を生成させるものではない。
Furthermore, also in
また、特許文献1〜特許文献6に記載された技術は、姓名がインド・ヨーロッパ語、アフロ・アジア語、平仮名、カタカナ、ハングルなどを含む、いかなる表音文字で入力された場合であっても、表意文字で入力された場合であっても、最尤な表意文字シーケンスまたは表音文字シーケンスを含み、当該入力姓名の可能性がある姓名を判断することを課題とするものではない。
In addition, the techniques described in
すなわち、これまで、表意文字シーケンスまたは表音文字シーケンスで入力された姓名の入力に対して、最尤の姓名候補を生成するとともに、当該入力された姓名に対して他言語の表記を考慮して同一または類似する姓名候補の他、表音特性に関連して非類似の姓名を判定することが可能な技術が必要とされていた。 In other words, up to now, the most likely first name surname candidate is generated for the first name surname input in the ideogram sequence or phonetic character sequence, and the notation of other languages is considered for the last name input. In addition to the same or similar candidate names, there is a need for a technique that can determine dissimilar names in relation to phonetic characteristics.
本発明は、上記従来技術の課題に鑑みてなされたものであり、本発明では、情報処理装置は、人名を記述した文字シーケンスを受領して、少なくとも異なる2種の表音文字からなる姓名表記、または少なくとも2種の表音文字および表意文字を含む表記ベクトルを生成する。 The present invention has been made in view of the above-mentioned problems of the prior art. In the present invention, the information processing apparatus receives a character sequence describing a person's name, and displays a first and last name composed of at least two different phonetic characters. Or a notation vector including at least two types of phonetic characters and ideograms.
表記ベクトルの要素は、情報処理装置が管理する漢字シーケンスまたはカナ・シーケンスとそれぞれ類似度が計算され、表記ベクトルが含む複数の姓名表記について計算したスコアを含むスコア・サブマトリックスを生成する。本発明では、さらにさらにスコア・サブマトリックスについて、少なくとも複数の姓名表記間の類似度を考慮した類似スコアが計算され、当該類似スコアを、姓名を構成するフレーズについて、類似度を言語を横断的に判断した類似尺度と使用する。 For the elements of the notation vector, the degree of similarity is calculated with the kanji sequence or kana sequence managed by the information processing apparatus, and a score sub-matrix including the scores calculated for a plurality of first and last names included in the notation vector is generated. In the present invention, for the score sub-matrix, a similarity score is calculated in consideration of the similarity between at least a plurality of first and last names, and the similarity is crossed across languages for the phrases constituting the first and last names. Use with the judged similarity measure.
本発明では、文字シーケンスから少なくとも2種の表音文字による姓名表記が生成され、特定の実施形態では、カナ・シーケンスと、アルファベット・シーケンスとされる。文字シーケンスがカナ・シーケンスである場合には、さらに、漢字といった表意文字による姓表記または名表記が与えられる。 In the present invention, first and last name representations of at least two phonetic characters are generated from a character sequence, and in a specific embodiment, a kana sequence and an alphabet sequence. When the character sequence is a kana sequence, a surname or first name notation by ideographic characters such as kanji is further given.
スコア・サブマトリックスは、姓または名のフレーズに関して統合され、スコア付けマトリックスを構成する。本発明では、スコア付けマトリックスは、姓および名についての翻字についての尤度を判断するために使用され、スコア付けマトリックスに登録された姓および名を統合して姓名候補および姓名候補に対して同音でもなく同字でもない類似姓名候補を生成するために利用される。 The score sub-matrix is integrated with respect to last name or first name phrases to form a scoring matrix. In the present invention, the scoring matrix is used to determine the likelihood of transliteration for first name and last name, and the first name and last name candidates are integrated by integrating the last name and first name registered in the scoring matrix. Used to generate similar first and last name candidates that are neither the same sound nor the same character.
本発明によれば、入力された文字シーケンスを使用して複数の異なる表記についての類似性を判断して姓名候補を生成することができ、さらに、生成された姓名候補について、同音でもなく同字でもない誤記、転記ミス、略記、変換エラーなどの可能性を含めた類似姓名候補を生成することができ、さらには、グローバルな姓名表記に対応可能な、情報処理装置、情報処理方法、情報処理システムおよびプログラムを提供することができる。 According to the present invention, it is possible to determine similarities for a plurality of different notations using an input character sequence to generate first and last name candidates. Information processing device, information processing method, and information processing capable of generating similar first and last name candidates including the possibility of mistyping, transcription mistakes, abbreviations, conversion errors, etc. Systems and programs can be provided.
また、表音文字シーケンスまたは表意文字シーケンスで入力された姓名に対して、多言語での尤度を判断して、目的とする表音文字シーケンスまたは表意文字シーケンスでの姓名候補を重み付けして判断することが可能な情報処理装置、情報処理方法およびプログラムが提供できる。 Also, the likelihood in multiple languages is determined for surnames entered in phonetic character sequences or ideogram sequences, and weighted candidates for surnames in the target phonogram sequence or ideogram sequence are determined. An information processing apparatus, an information processing method, and a program that can be provided can be provided.
加えて、インド・ヨーロッパ語、アフロ・アジア語、日本語、中国語、韓国語、ベトナム語など多言語にわたる姓名の同一・類似判断を行い、さらに表音特性の非類似の姓名を判断することが可能な情報処理装置、情報処理方法およびプログラムが提供できる。 In addition, perform the same / similarity of surnames across multiple languages such as Indo-European, Afro-Asian, Japanese, Chinese, Korean, Vietnamese, etc., and also determine dissimilar surnames with phonetic characteristics An information processing apparatus, an information processing method, and a program capable of performing the above can be provided.
以下、本発明を実施形態を使用して説明するが、本発明は後述する実施形態に限定されるものではない。図1は、本実施形態の情報処理システム100の機能ブロック図である。図1に示した情報処理システム100は、サーバ110と、クライアント・コンピュータ(以下、単にクライアントとして参照する。)150と、サーバ・コンピュータ(以下、単にサーバとして参照する。)110とクライアント150とを接続するネットワーク112とを含んで構成されている、クライアント150は、カナ、漢字、またはインド・ヨーロッパ語、アフロ・アジア語などで記述された姓、名、または姓名と考えられる文字シーケンスの入力を受付け、例えば、HTTPプロトコルなどを使用してサーバ110に検索要求を送付する。
Hereinafter, although this invention is demonstrated using embodiment, this invention is not limited to embodiment mentioned later. FIG. 1 is a functional block diagram of an
なお、用語「カナ」は、本実施形態では、カタカナ、平仮名を含む物として定義する。サーバ110は、LAN、インターネットなどを含んで構成されるネットワーク112を介して姓名照会要求を受領し、姓名生成処理を実行する。サーバ110は、受領した姓名照会要求に含まれる文字シーケンスを使用して、受領した文字シーケンスに対応する他の文字表記、例えば、カナ・シーケンスを受領した場合、インド・ヨーロッパ語の例示としてアルファベット・シーケンスおよび表意文字の例である漢字または漢字シーケンスを生成し、姓名検索のために利用する。
In this embodiment, the term “kana” is defined as a thing including katakana and hiragana. The
サーバ110は、PENTIUM(登録商標)、PENTIUM(登録商標)互換チップなどのCISCアーキテクチャのマイクロプロセッサ、または、POWER PC(登録商標)などのRISCアーキテクチャのマイクロプロセッサを使用することができ、マイクロプロセッサは、シングルコアでもマルチコアの構成のものを採用することができる。また、サーバ110が実装するオペレーティングシステム(OS)としては、WINDOWS(登録商標)200X、UNIX(登録商標)、LINUX(登録商標)などを挙げることができる。
The
また、サーバ110は、C++、JAVA(登録商標)、JAVA(登録商標)BEANS、PERL、RUBYなどのプログラミング言語を使用して実装される、CGI、サーブレット、APACHE、IISなどのサーバ・プログラムを実行し、ネットワーク(図示せず)を介して各種要求を処理する。なお、サーバ110は、ウェブ・サーバとして実装することもできるし、CORBA(Common Object Resource Broker Architecture)を使用した分散コンピューティングを可能とする専用サーバとすることができる。
In addition, the
クライアント150は、パーソナル・コンピュータまたはワークステーションなどを使用して実装され、クライアント150が実装するマイクロプロセッサ(MPU)としては、これまで知られたいかなるシングルコア・プロセッサまたはデュアルコア・プロセッサを挙げることができる。クライアント150は、WINDOWS(登録商標)、UNIX(登録商標)、LINUX(登録商標)、MAC OS(登録商標)などのOSを搭載することができる。
The
また、クライアントがウェブ・クライアントとして機能する場合、Internet Explorer(登録商標)、Mozilla、Opera、Netscape(登録商標) Navigatorなどのブラウザ・ソフトウェアを使用して、HTTPプロトコルを使用してウェブ・サーバにアクセスする。その他、CORBAなどの分散コンピューティング環境を利用する場合、クライアント150は、サーバ110と相互通信するための専用クライアント・プログラムを実装することもできる。
If the client functions as a web client, it uses browser software such as Internet Explorer (registered trademark), Mozilla, Opera, and Netscape (registered trademark) Navigator to access the web server using the HTTP protocol. To do. In addition, when using a distributed computing environment such as CORBA, the
以下、サーバ110の機能ブロック構成について詳細に説明する。サーバ110の機能ブロックは、サーバ110が実装するRAM内にプログラムを展開し、CPUまたはMPUがプログラムを実行してサーバ110を各機能ブロックとして機能させることにより、サーバ110上に実現される機能手段である。
Hereinafter, the functional block configuration of the
サーバ110は、ネットワーク・アダプタ114と、文字シーケンス取得部116と、文字判定部118とを含んでいる。ネットワーク・アダプタ114は、姓名照会要求を受領して、TCP/IPレベルでトランザクションを処理し、本実施形態の姓名候補生成処理を実行する処理部へと姓名照会要求を渡す。文字シーケンス取得部116は、姓名照会要求に含まれる、姓表記、名表記または姓表記および名表記を含む文字シーケンスを、受信パケットのペイロードから取得し、処理対象の文字シーケンスとして適切なメモリに登録する。なお、本実施形態では、姓表記とは、名前の姓(sir Name)に対応する文字列を意味し、名表記とは、名前の名(Second Name)に対応する文字列を意味し、いずれか一方または両方を含む可能性のある文字シーケンスについては、姓名表記として参照する。
The
文字判定部118は、登録した文字シーケンスを構成する文字を解析し、文字シーケンスが、例えば、カタカナ、平仮名、漢字、アルファベットであるか否かを判断する。なお、文字の解析は、文字コードを判定することにより実行することができ、SJIS、GB、UNICODEなどいずれのコード体系でも使用することができる。しかしながら、グローバルな姓名検索を実行する上で、UNICODEを使用することが、判断するべき文字種に適切に対応でき、以下、文字コードの比較を実行する場合、UNICODE(UNICODE2.0など)を使用して比較を実行するものとする。文字判定部118は、受領した文字シーケンスの文字判定を実行した後、受領した文字シーケンスの言語圏を特定し、以後の処理に使用する。
The
さらに、サーバ110は、他表記取得部120と、類似度計算部122と、類似スコア計算部124とを含んで実装されている。他表記取得部120は、受領した文字シーケンスを判断し、受領した文字シーケンスがカナであると判断した場合、本実施形態では、翻字処理を実行し、アルファベットおよび漢字表記を取得する。アルファベット表記には、ヘボン式、訓令式、ISO3602などのローマ字およびインド・ヨーロッパ語圏の姓または名を含む。なお、本実施形態では、情報処理システム100の特定の目的に応じて、アルファベット以外でもギリシャ文字、キリル文字、アラビア文字などの他表記を取得することができる。
Further, the
例えば、他表記取得部120は、文字シーケンスがカナ・シーケンスであると判断した場合、表音文字変換テーブル130を参照し、文字シーケンスを、受領した文字シーケンスに対応する表意文字、より具体的な実施形態では、漢字に変換する本意処理を実行する。表音文字変換テーブル130は、姓および名を端意図し、可能性のあるカナ表記に対して漢字表記を対応付けて登録する姓名辞書として構成することができる。
For example, when the other
さらに本実施形態の表音文字変換テーブル130は、人名に使用される可能性のある漢字を、文化圏によらずに登録し、表音文字−表意文字対応テーブルの他、対応する表意文字が帰属される可能性のある文化圏判断データを含んで構成されている。例えば、入力された文字シーケンスが、「ハリ」である場合、他表記取得部120は、表音文字変換テーブル130を参照して、人名漢字として、「張」を取得し、文化圏判断データを参照し、当該「張」が、日本語圏、中国語圏、朝鮮語圏に帰属される可能性があることを示すコードを生成し、漢字に割当てることもできる。
Furthermore, the phonetic character conversion table 130 according to the present embodiment registers kanji characters that may be used for personal names regardless of cultural spheres, and in addition to the phonetic character-ideographic character correspondence table, the corresponding ideographic characters are displayed. It includes cultural area judgment data that may be attributed. For example, when the input character sequence is “Hari”, the other
さらに、他表記取得部120は、受領した文字シーケンスがカナである場合、漢字を取得する他、アルファベット・シーケンスを生成する。この処理は、文字シーケンスがカナである場合、隠れマルコフモデルを使用したカナ−アルファベット変換により実行され、また、文字シーケンスが、漢字コードであると判断された場合には、表音文字変換テーブル130の逆検索を実行して、カナ表記を取得し、カナ表記をアルファベット変換することにより、{カナ、アルファベット、漢字}の表記ベクトルとして文字シーケンスを登録する。
Further, when the received character sequence is kana, the other
さらに、文字シーケンスがアルファベットである場合、サーバ110は、漢字への変換処理を実行せず、表記ベクトルの{漢字}フィールドをブランクのままとして表記ベクトルを生成する。文字シーケンスがアルファベットである場合のカナ表記の生成は、後述する遷移確率テーブルを生成する際に使用するアルファベット−カナ対応テーブルを参照し、アルファベット・シーケンスに対応するカナが検索できる範囲で変換を行うことができる。また、後述する隠れマルコフモデルを使用してカナを目的系列として処理することで、生成することができる。
Further, when the character sequence is alphabet, the
なお、文字シーケンスとしてアルファベット・シーケンスが入力された場合には、類似度は、GNR処理によって計算するので、カナ、漢字が全く生成されなくとも類似度を使用する処理は、不都合なく実行できる。 When an alphabetic sequence is input as a character sequence, the similarity is calculated by the GNR process. Therefore, even if no kana or kanji is generated, the process using the similarity can be executed without any inconvenience.
他表記取得部120において、文字シーケンスについて対応する可能性のある表記ベクトルのセットが取得された後、表記ベクトルは、類似度計算部122に渡される。類似度計算部122は、複数の方法を使用して、表記ベクトルに含まれるアルファベット、カナ、漢字についてそれぞれ類似度のスコアを計算する。
After the other
表記ベクトルが含む文字種類のうち、漢字の類似度は、表音文字変換テーブル130などを参照して、表記ベクトルが含む漢字と、表音文字変換テーブルに登録された文字コードとが一致しているか否かを使用して行うことができ、例えば、文字コードが完全に一致している場合、1.0を与え、完全に一致していない場合、0を与えるバイナリ基準値を付して行うことができる。 Among the character types included in the notation vector, the similarity of kanji is determined by referring to the phonetic character conversion table 130 and the like so that the kanji included in the notation vector matches the character code registered in the phonetic character conversion table. For example, when the character codes are completely matched, 1.0 is given, and when they are not completely matched, a binary reference value giving 0 is given. be able to.
さらに、サーバ110は、同音異字、同字異音、または同音でもなく同字でもないが、転記ミス、OCRによる変換ミスなどを含む類似姓名候補を生成するために、類似モデル・テーブル132と、異字体テーブル134と、同一・非類似漢字テーブル136とを管理する。上述した類似モデル・テーブル132、異字体テーブル134は、漢字の同一・非類似について、2値基準値以外の、異字体やエラー誘因性を考慮して0〜1までの多値基準値を提供するためにも利用することができる。
Furthermore, the
類似度計算部122は、アルファベット・シーケンスについての類似度についても取得する。類似度計算部122は、アルファベット・シーケンスの類似度を計算する場合、アルファベット・シーケンスを抽出し、特定の実施形態では、サーバ110の処理部として構成されたGNR処理部160に渡し、GNR処理部160が登録するアルファベット名との類似度を取得する。なお、GNR処理部160が実行する類似度判定処理については、例えば特許文献1および非特許文献1にその詳細が開示された方法を使用することができる。
The
なお、他の実施形態では、GNR処理部160ではなく、GNR処理部160を、GNR処理を専ら実行するGNRサーバ140として構成することができる。この場合、類似度計算部122は、類似度を判定するべきアルファベット・シーケンスをネットワーク112を介してGNRサーバ140に送付し、GNRサーバ140からの応答として類似度を取得する。
In other embodiments, the
さらに類似度計算部122は、カナ・シーケンスとカナ・シーケンスとの間の類似度を計算する。この目的のため、類似度計算部122は、表記ベクトルからカナ・シーケンスのコードを抽出し、表音文字変換テーブル130に登録されたカナ・シーケンスとの比較を実行する。さらに他の実施形態では、カナ・シーケンスから生成されたアルファベット・シーケンスを、GNR処理部160やGNRサーバ140に送付し、GNR処理により提供される類似度の値を取得してカナ・シーケンスについての類似度を取得することができる。
Furthermore, the
カナ・シーケンスの比較を実行する場合、類似度判断部122は、文字シーケンスが含む文字列を、表音文字変換テーブル130を参照して可能性のある参照カナ・シーケンスを生成する。例えば、文字シーケンスとして、「タケシ」が入力された場合、対応付けられる漢字「健」を抽出し、各漢字コードに対応付けられたカナ・シーケンスである「ケン」を抽出し、参照カナ・シーケンスとして生成する。そして、類似度判断部122は、生成された「ケン」を他表記取得部120に渡し、対応するアルファベット・シーケンスである「Ken」を生成し、対象シーケンスと参照シーケンスとのスコア計算を可能とする。
When performing kana sequence comparison, the
その後、対象カナ・シーケンスのコードを参照カナ・シーケンスのコードに対し、逐次フォーワード比較などを使用して実行し、文字コードの一致/不一致に対応して例えば(一致した文字コード総数)/(対象カナ・シーケンスおよび参照カナ・シーケンスの文字コード総数)などとしてスコアを計算する。計算された各スコアのセットは、スコア・サブマトリックスとして登録される。 Thereafter, the code of the target kana sequence is executed with respect to the code of the reference kana sequence using sequential forward comparison or the like, and for example, (total number of matched character codes) / ( The score is calculated as the total number of character codes of the target kana sequence and the reference kana sequence. Each calculated set of scores is registered as a score sub-matrix.
なお、本実施形態で、漢字、カナなど対応する文字コードが発見できなかった場合については、例えばOCRなどで使用されるように、イメージデータなどとして文字テンプレートを用意しておき、カナまたは漢字に対して文字テンプレートなどとのビットマップ比較を実行して、その類似度を判定することができる。類似度計算部122は、他表記取得部120が生成した参照表記ベクトルの全セットについてスコア・ベクトルを生成し、RAM、L2キャッシュ、L3キャッシュなどの適切なメモリに格納する。
In this embodiment, when a corresponding character code such as kanji or kana cannot be found, a character template is prepared as image data or the like so as to be used in, for example, OCR. On the other hand, a bitmap comparison with a character template or the like can be performed to determine the degree of similarity. The
サーバ110は、さらに類似スコア計算部124と、姓名候補生成部126とを含んでいる。類似度計算部122が生成したスコア・サブマトリックスは、表記ベクトルと対応付けられて、類似スコア計算部124に送付される。類似スコア計算部124は、受領したサブスコア・マトリックスを、姓または名を構成するフレーズ単位で登録し、スコア付けマトリックスを生成する。説明している実施形態では、スコア付けマトリックスは、3×3のスコア・サブマトリックスが1セットとして登録され、姓について抽出したスコア・サブマトリックスと名について抽出したスコア・サブマトリックスとが姓−名など。設定された順で配置された正方行列として定義される。
その後、類似スコア計算部124は、生成したスコア・サブマトリックスの各要素値を使用して類似スコアを計算する。類似スコアの計算は、スコア・ベクトルの要素と、適切な重みベクトルとを使用する内積計算または、設定されたルールに従って要素を抽出して計算することで取得することができ、その処理については、より詳細に後述する。 Thereafter, the similarity score calculation unit 124 calculates a similarity score using each element value of the generated score sub-matrix. The calculation of the similarity score can be obtained by calculating the inner product using the elements of the score vector and an appropriate weight vector, or by extracting and calculating the elements according to a set rule. More details will be described later.
また、サーバ110は、サーバ110の独立した処理部または後述する姓名候補生成部126の機能モジュールとして実装された姓名類似度計算部128を含んでいる。姓名類似度計算部128は、類似スコア計算部124が生成した姓名候補のうち、合計類似スコアの最大の姓名候補、または他の実施形態ではトップ10の姓名候補を抽出し、抽出された姓名候補について異体字または外観が類似するだけで、表音特性が全く異なる姓名候補を、類似姓名候補として生成する。
The
姓名候補生成部126は、姓名類似度計算部128の出力を受領して、受領した文字シーケンスに対応する姓名候補または類似姓名候補を含む姓名候補リストを生成し、テーブル形式として、クライアント150に返す処理を実行する。
The first and last name
この段階での姓名候補リストは、類似判断基準に対応して同音異字・同字異音の姓名まで考慮することができ、特定の用途に対しては充分な結果を提供することができる。さらに、姓名候補生成部126が、そのモジュールとして姓名類似度計算部128を含んで構成される場合、姓名類似度計算部128は、姓名候補リストの中から合計類似スコアの高い姓名候補について、異字体および外観的に類似し、転記ミス、認識ミス、誤記などの可能性のある姓名候補を生成し、姓名候補リストに追加することができる。
The full name candidate list at this stage can take into account the first name and the second name of the same sound and different letters corresponding to the similarity determination criteria, and can provide sufficient results for a specific application. Further, when the first and last name
さらに他の実施形態では、姓名類似度計算部128を、サーバ110の独立した処理部として実装することができる。説明する当該他の実施形態では、姓名類似度計算部128は、類似スコア計算部124からの漢字での姓名またはクライアント150から送付された漢字を受領し、異体字または外観上類似する可能性のある姓名候補を生成し、クライアント150に類似指標値とともに返す処理を実行する。なお、本実施形態の処理については、当業者により実施できるように、より詳細に後述するが、特願2008−117538号明細書(IBMアトーニードケット番号:JP9080054)、特願2008−141209号明細書(IBMアトーニードケット番号:JP9080081)、および特願2008−168087号明細書(IBMアトーニードケット番号:JP9080115)の記載は、本明細書の一部を構成するものとして全部を含めることができる。
In still another embodiment, the first and last name
図2は、本実施形態のサーバ110が実行する類似度生成のための処理シーケンス200を説明する図である。クライアント150から入力される可能性のある文字シーケンスは、特定の用途に対応しアルファベット、カナ、漢字のいずれかの可能性がある。また、さらに他の実施形態ではアラビア語などアフロ・アジア語圏の文字列の可能性もある。サーバ110は、クライアントから受領した文字シーケンスについて文字コードを判定し、自己以外の文字コードで表現される他表記、例えば、文字シーケンスがカナ210である場合、アルファベット・シーケンス230および漢字220を生成し、類似度計算部122に送付する。
FIG. 2 is a diagram illustrating a
類似度計算部122は、アルファベット・シーケンス230については、ボックス240で示すように、GNR類似検索240を呼び出して処理を依頼する。また、カナ・シーケンス210については、アルファベット・シーケンスへの変換後、ボックス250で示すように、GNR類似検索を実行することもできるし、カナ−カナの文字コード比較を行うこともできるし、さらに他の実施形態では、文字テンプレートとのビットマップ比較を適用することができる。
The
漢字220の場合、ボックス260で示すように、文字コード同士の比較による2値基準値を与えることもできるし、図1に示した各テーブル132、134、136を使用し、コスト値から類似度を示すスコアを計算することもできる。さらにボックス260で示すように、文字コードの比較ができない場合などについては、文字テンプレートなどを使用するビットマップ比較を行うことにより類似度判断を行うことができる。図2に示した処理シーケンス200を使用することにより、クライアント150から受領する文字シーケンスによらず、適切な類似計算処理を使用して効率的で精度の高い姓名検索を実行することができる。
In the case of the
図3は、本実施形態の姓名候補を生成する情報処理方法のフローチャートを示す。図3に示した処理は、ステップS300から開始し、ステップS301で、クライアント150から文字シーケンスを受領する。ステップS302で、受領した文字コードの文字コード判定を実行する。説明する実施形態では、漢字、カナ、アルファベットのいずれかを判断するものとしているが、その他ハングル、アラビア語、ギリシャ語、キリル語など受領するべき文字シーケンスは、姓名候補生成の目的および用途に対応して特に制限されるものではない。
FIG. 3 shows a flowchart of an information processing method for generating first and last name candidates according to this embodiment. The process shown in FIG. 3 starts from step S300, and a character sequence is received from the
ステップS303では、他表記を取得して、漢字、カタカナ、アルファベットの表記ベクトルとして登録し、ない表記、例えば、文字シーケンスがアルファベット表記の場合、アルファベット・シーケンスから漢字を生成することなく、漢字に対応する要素は、ブランクのままとする。ステップS304では、文字シーケンスの文字種類を判断し、漢字、アルファベット(カナ)、またはカナを判断する。文字シーケンスが漢字である場合、ステップS310に処理を渡し、カナである場合には、採用する処理シーケンスに対応して、ステップS305、またはステップS309に処理を渡す。 In step S303, other notations are acquired and registered as kanji, katakana, and alphabet notation vectors. If there is no notation, for example, if the character sequence is an alphabet notation, kanji is supported without generating kanji from the alphabet sequence. Leave the element to be blank. In step S304, the character type of the character sequence is determined, and kanji, alphabet (kana), or kana is determined. If the character sequence is kanji, the process is passed to step S310, and if it is kana, the process is passed to step S305 or step S309 corresponding to the process sequence to be adopted.
また、文字シーケンスがアルファベットの場合には、処理をステップS306に渡す。ステップS305では、カナ・シーケンスをアルファベット変換し、アルファベット・シーケンスをステップS306に渡し、GNR処理部140または160に送付する。ステップS307では、GNR処理部140または160から類似度を受領して処理をステップS308に渡す処理を実行する。
If the character sequence is alphabetic, the process is passed to step S306. In step S305, the kana sequence is converted to alphabet, and the alphabet sequence is transferred to step S306 and sent to the
一方、ステップS309では、漢字同士の文字コード比較を行うか、または文字テンプレートとのビットマップ比較を実行し、その類似判断による類似度をステップS308に渡す。ステップS308では、文字シーケンスの文化圏に対応し、少なくとも2表記についての類似度を使用して、スコアを計算する。この理由は、例えばクライアント150から受領した文字シーケンスがアルファベットである場合、強制的に漢字に変換せず、表記ベクトルの漢字のフィールドがブランクのままとされるためである。さらにステップS308では、計算したスコアから、スコア・サブマトリックスについての類似性の指標を与える類似スコアを計算して姓名候補の抽出を可能とさせ、姓名候補リストを生成する。姓名候補リストの生成が終了した段階で、処理をステップS310に渡し、処理を終了させる。
On the other hand, in step S309, character codes comparison between Chinese characters is performed, or bitmap comparison with character templates is executed, and the similarity based on the similarity determination is passed to step S308. In step S308, a score is calculated using the similarity for at least two notations corresponding to the cultural sphere of the character sequence. This is because, for example, when the character sequence received from the
図3の処理によって、クライアント150のユーザは、入力した文字シーケンスに対応する姓名候補を、その確からしさとともに取得することが可能となり、文字シーケンスから、どのような姓名が候補とされるのかについて判断することが可能となる。
The process of FIG. 3 allows the user of the
図4は、本実施形態の他表記取得部120が実行するカナ−アルファベット変換処理のフローチャートを示す。図4の処理は、ステップS400から開始し、ステップS401でカナ・シーケンスを受領する。ステップS402でカナ・シーケンスを音素分解する。音素分解は、表音文字の音に対応して行われ、長音、促音については、直前の音素に含ませたものとする。例えばカナ・シーケンス=「インフォマーション」の場合、音素分解は、「イ」+「ン」+「フォ」+「メー」+「ショ」+「ン」とされる。
FIG. 4 shows a flowchart of the kana-alphabet conversion process executed by the other
ステップS403では、音素分解の結果に遷移確率モデルを使用して変換尤度χを計算し、ステップS404では、変換尤度χの最も高いアルファベット・シーケンスを取得する。なお、遷移確率モデルは、音素および音素シーケンスを解析し、カナを観測系列とし、アルファベットを目的系列とする隠れマルコフモデルを適用するため、言語解析によって与えることができる。ステップS405では、アルファベット変換結果を類似度計算部122に渡して類似度計算を依頼し、ステップS406で処理を終了させる。
In step S403, the conversion likelihood χ is calculated using the transition probability model for the phoneme decomposition result, and in step S404, the alphabet sequence having the highest conversion likelihood χ is acquired. The transition probability model can be given by language analysis because it analyzes phonemes and phoneme sequences, applies a hidden Markov model with kana as an observation series and alphabet as a target series. In step S405, the alphabet conversion result is passed to the
図5は、図4で説明した隠れマルコフモデルを使用するアルファベット変換の状態遷移図を示す。変換対象の文字シーケンスは、「インフォメーション」であり、他表記取得部120は、音素ごとに音素−音素の遷移確率πiと、音素間の遷移確率pijとを遷移確率テーブルとして登録し、カナ−アルファベット変換を適用する。変換尤度は、図5に示されるように、対数尤度で与えられ、各対数尤度を、音素にわたり積算し、下記式(1)で与えられる変換尤度χを使用して計算し、変換尤度の最も高いアルファベットが類似度計算部122へと出力される。
FIG. 5 shows a state transition diagram of alphabet conversion using the hidden Markov model described in FIG. The character sequence to be converted is “information”, and the other
図6は、図1で説明した、類似モデル・テーブル132、異字体テーブル134、同一・非類似漢字テーブル136の実施形態を示す。図6に示した値は、対応付けられる漢字が類似するものとして判定することのリスクに対応したコストである。図6に示した各テーブルは、姓名類似度計算部128が類似姓名候補を抽出する差異の経路コストを計算するために使用される。
FIG. 6 shows an embodiment of the similar model table 132, the variant character table 134, and the same / dissimilar kanji table 136 described in FIG. The value shown in FIG. 6 is the cost corresponding to the risk of determining that the associated kanji is similar. Each table shown in FIG. 6 is used by the first and last name
また、他の実施形態では、類似モデル・テーブル132および異字体テーブル134は、類似度計算部122が漢字相互の類似度に関する多値基準値を計算するためにも適用することができる。この場合、例えば、図6に示したコストの値を使用して、漢字の類似度についてのスコアを、スコア=1/(コスト+α)(αは、コストの最小値よりも小さくアンダーフロー・オーバーフローを回避することができる適切な定数である。)で与えることもできる。なお、多値基準値を与えるため、さらに適切ないかなる別の定式化を使用してもよい。さらに、図6に示した実施形態では、各テーブル132、134、136は、一体化された単一のテーブルとして構成されているが、それぞれのテーブルを個別に作製し、登録しておくことができる。
In another embodiment, the similarity model table 132 and the variant font table 134 can also be applied to allow the
図6のテーブルのうち、テーブル610の非対角要素が同一・非類似漢字テーブル136の非類似コストを登録する領域であり、テーブル620の非対角要素が異字体テーブル134に対応する。また、テーブル630の非対角要素は、外観上類似する漢字を登録する類似モデル・テーブル132に対応する領域である。図6に示した実施形態は、データ構造を明示的に説明するため、同一・非類似漢字についてのコストまで登録するものとして示す。そして、図6のテーブルの対角要素が、同一・非類似漢字テーブル136の同一テーブルに対応する。 In the table of FIG. 6, the non-diagonal element of the table 610 is an area for registering the dissimilar cost of the same / dissimilar Kanji table 136, and the non-diagonal element of the table 620 corresponds to the variant character table 134. Further, the non-diagonal elements of the table 630 are areas corresponding to the similar model table 132 that registers Kanji characters that are similar in appearance. In the embodiment shown in FIG. 6, in order to explicitly describe the data structure, the cost for the same / dissimilar kanji is shown as being registered. The diagonal elements in the table of FIG. 6 correspond to the same table of the identical / dissimilar Kanji table 136.
図6は説明の目的で全エントリについてコスト値を登録するものとして説明する。本実施形態の好ましい実施形態では、類似モデル・テーブル132および異字体テーブル134のみを陽に実装させ、同一・非類似漢字テーブル136に相当するコストは、テーブルのデータ量を削減するため、プログラムにおける固定値などとして設定し、テーブルのために消費するメモリを削減することもできる。当該実施形態の場合、サーバ110は、同一・非類似の漢字について、類似モデル・テーブル132および異字体テーブル134に登録されていないことに基づいて同一・非類似と判断し、処理を実行することができる。
For the purpose of explanation, FIG. 6 will be described assuming that cost values are registered for all entries. In the preferred embodiment of the present embodiment, only the similar model table 132 and the variant character table 134 are explicitly mounted, and the cost corresponding to the same / dissimilar kanji table 136 is reduced in the program in order to reduce the data amount of the table. It can be set as a fixed value or the like to reduce the memory consumed for the table. In the case of this embodiment, the
また、漢字同士が非類似である場合、コストとしては、2が割当てられ、漢字同士が同一の場合コストは0とされている。また、外観的に類似する漢字は、転記ミス、誤記、OCR変換ミスなどを発生させる可能性が高いことから、当該変換に幅がある。このため、「萩」と「荻」については、完全に異なるわけではなく誤記、OCRによる変換ミスの可能性があり、また表音特性も類似しているので、コスト=0.3が与えられている。一方、漢字「朋」と、「明」については、外観上類似するものの、表音特性が全く異なるため、外観類似であってもより高いコスト=0.4が与えられている。 Further, when the Chinese characters are dissimilar, 2 is assigned as the cost, and when the Chinese characters are the same, the cost is 0. In addition, Kanji characters that are similar in appearance are highly likely to cause transcription mistakes, misprints, OCR conversion mistakes, and the like, and thus there is a range in the conversion. For this reason, “萩” and “荻” are not completely different, but may be erroneously written, there is a possibility of conversion error due to OCR, and the phonetic characteristics are similar, so that cost = 0.3 is given. ing. On the other hand, although the Chinese characters “朋” and “Ming” are similar in appearance, the phonetic characteristics are completely different, so that even if they are similar in appearance, a higher cost = 0.4 is given.
また、「富」と「冨」、「高」と、「▲高▼」(鍋ぶたの下は、縦線2本の間に横線2本)、「斉」、「齊」などについては、略記されがちな異字体として、コスト=0.1が割当てられている。 Also, for “wealth”, “冨”, “high”, “▲ high ▼” (under the hot pot, two horizontal lines between two vertical lines), “Sai”, “齊”, etc. Cost = 0.1 is assigned as a variant that tends to be abbreviated.
図7は、本実施形態で、サーバ110が入力される可能性のある文字シーケンスに対応するスコア・サブマトリックス700の実施形態を示す。行が他表記取得部120が生成した表記ベクトルに対応するスコア・ベクトルであり、図7に示した実施形態では、要素値{Takeshi、タケシ、健}とされる。列は、類似度計算部122がスコア計算を実行する際に表音文字変換テーブル130から抽出したカナ・シーケンスおよび漢字に対応して計算されたスコアである。
FIG. 7 illustrates an embodiment of a
例えば、漢字「健」の場合には、カナ「ケン」、「タケシ」が割当てられ、この結果、スコア・ベクトルは、{Takeshi、タケシ、健}と{Ken、ケン、健}の参照表記ベクトルが生成され、スコア・サブマトリックス710が生成されている。スコア・サブマトリックス710は、アルファベット・シーケンスおよびカナ・シーケンスが不一致なので、一致度=0が与えられている。また、漢字については、漢字「健」の文字コードに対して登録されている読みの範囲で一致し、アルファベット変換でも生成される範囲なので、一致度=1.0が与えられている。
For example, in the case of the Chinese character “Ken”, kana “Ken” and “Takeshi” are assigned. As a result, the score vectors are reference notation vectors of {Takeshi, Takeshi, Ken} and {Ken, Ken, Ken}. Are generated, and a
一方、スコア・サブマトリックス720は、サーバ110が文字シーケンスとしてアルファベットを受領した場合のスコア・サブマトリックス720の実施形態を示す。スコア・サブマトリックス720は、サーバ110が文字シーケンスとして「James」を受領した場合である。スコア・サブマトリックス720では、アルファベット・シーケンスに対応するカナ・シーケンスである「ジェームズ」が見出されたことにより、表記ベクトルは、{James、ジェームズ、null}として生成されている。
On the other hand, the score sub-matrix 720 shows an embodiment of the score sub-matrix 720 when the
この場合、参照表記ベクトルについては、説明している実施形態では、アルファベット・シーケンス「James」に対してカナ・シーケンス「ジェームズ」しか登録されていないので、アルファベット、カナの両方の一致度について一致度=1.0が割当てられ、漢字との類似度については、漢字がブランク(null)のままとされているので、一致度もブランク(null)のままとされている。 In this case, for the reference notation vector, only the kana sequence “James” is registered for the alphabet sequence “James” in the described embodiment. = 1.0 is assigned, and the degree of similarity with the Chinese character is also left blank because the Chinese character is left blank.
そして、スコア・サブマトリックス730は、サーバ110が、文字シーケンスとして漢字の「毛」を受領した場合の実施形態を示す。漢字「毛」に対しては、「モウ」、「ケ」、「ゲ」、「マオ」などがカナとして登録されている。一方、アルファベット変換処理では、Mou、Mao、Ge、Keなどが抽出される。この場合、例示したスコア・サブマトリックス730では、漢字については、常に一致度=1.0が割当てられ、その他については、対応するアルファベット、カナを含む表記ベクトルと参照表記ベクトルとから生成したスコア・サブマトリックスでない限り、一致度=0が与えられる。
The score sub-matrix 730 shows an embodiment in the case where the
さらに、本実施形態では、スコア・サブマトリックス710、720、730には、それぞれ類似スコアを計算し、スコア・サブマトリックス全体の類似度を生成する。図8は、類似スコアを計算する場合の各表記に対応するスコアの割当てを説明するための、割当てマップ800を示す。類似度は、本実施形態では、単純に各スコアの平均値として算出することができる。しかしながら、各表記に対応して、姓名について特有の判断を実行することができることに着目し、本実施形態では、要素ごとに異なる処理を使用して類似スコアを生成することができる。第1の実施形態では、スコア・サブマトリックスから類似度ベクトルを生成する方法である。
Further, in the present embodiment, a similarity score is calculated for each of the
類似度ベクトルは、スコア・ベクトルの要素を、設定された順に抽出し、例えば説明する実施形態では、下記式(2)で与えられる。 The similarity vector is obtained by extracting the elements of the score vector in the set order. For example, in the embodiment described below, the similarity vector is given by the following expression (2).
重み付けの値は、例えばカナ−カナ一致、カナ−漢字一致、アルファベット−
カナ一致を重要視する場合など、特定の用途に応じて適宜設定することができ、例えば、日本人について、カナ表記での姓名一致候補を生成する場合には、S5の重みを高くし、カナ−カナ一致およびカナ−漢字一致の姓名候補を生成する場合には、S5、S6、S8、およびS9の重みを高くする。一方、アルファベット−アルファベット一致およびアルファベット−カナ一致を重要視するべき外国人の場合については、S1、S2、S4の重み付けを高く設定することができ、適宜目的とする姓名候補の生成に対応して、システム設定またはユーザ選択により設定することができる。
The weighting values are, for example, kana-kana match, kana-kanji match, alphabet-
It can be set as appropriate according to the specific application, such as when emphasizing kana matching. For example, when generating surname matching candidates in kana notation for Japanese, the weight of S5 is increased, -When generating surname candidates for kana match and kana-kanji match, the weights of S5, S6, S8, and S9 are increased. On the other hand, for foreigners who should place importance on alphabet-alphabet match and alphabet-kana match, the weighting of S1, S2, and S4 can be set high, corresponding to the generation of first and last name candidates as appropriate. It can be set by system setting or user selection.
以下、スコア・サブマトリックス710、720、730の類似スコアの計算は、他の方法を使用しても計算することができる。以下に他の実施形態の説明を行うが、要素割当てのマッピングは、図8に示すとおりである。特に日本人と、中華民族、朝鮮民族を含む外国人の相違は、カナ表記と漢字表記の一致・不一致に依存する。
Hereinafter, the calculation of the similarity score of the
このため、スコア・サブマトリックスの全体の類似スコアを計算せずに、各要素値の特徴を反映する要素を判断し、文化圏判定を可能とする類似スコアを生成することができる。例えば、上述したように、漢字表記との対応関係を含むS5、S6、S8、S9の各要素値が特徴値となる。このため、各要素値に対してしきい値THjを設定しておき、S8、S9の類似度がいずれもしきい値THjを超えた場合、日本人と判定し、類似スコアを計算する。 Therefore, it is possible to determine an element that reflects the feature of each element value without calculating the overall similarity score of the score sub-matrix, and generate a similarity score that enables cultural zone determination. For example, as described above, each element value of S5, S6, S8, and S9 including the correspondence relationship with the kanji notation is the feature value. For this reason, a threshold value TH j is set for each element value, and if the degree of similarity in S8 and S9 exceeds the threshold value TH j , it is determined that the person is Japanese and a similarity score is calculated.
さらに、類似スコアを計算する第2の実施形態では、外国人、特にインド・ヨーロッパ語圏の民族やアフロ・アフリカ語族に関連する文字シーケンスについては漢字表記を生成しないことに着目し、文化圏の判断を可能とするものである。例えば、図8中、S3、S7がnullの場合には、日本、中国、台湾、韓国、ベトナム、マレーシアなど日本民族、中国民族や朝鮮民族を除く外国人用の類似スコアを計算する。そして、漢字−漢字の類似性が設定したしきい値THkより高く、カナ−カナの類似度が、設定したしきい値THcよりも低い場合には、中国・朝鮮民族の類似スコアを計算させることができる。下記式(5)に、上記判断を使用する場合の処理のための疑似コードを記載する。 Furthermore, in the second embodiment for calculating the similarity score, attention is paid to not generating kanji notation for character sequences related to foreigners, especially ethnic groups of Afro-African languages, especially Indian / European-speaking countries. Judgment is possible. For example, in FIG. 8, when S3 and S7 are null, similar scores for foreigners excluding Japanese, Chinese, and Korean nationals such as Japan, China, Taiwan, South Korea, Vietnam, and Malaysia are calculated. If the similarity between Kanji and Kanji is higher than the set threshold TH k and the Kana-Kana similarity is lower than the set threshold TH c , the similarity score of the Chinese / Korean people is calculated. Can be made. In the following formula (5), pseudo code for processing when the above judgment is used is described.
なお、上記式中、cult_categoryは、文化圏識別値を設定する文化圏識別変数である。サーバ110は、処理の実装形式に対応して、cult_categoryの値を他の処理部に渡し、文化圏識別処理を実行させることができる。さらに他の実施形態では、名前尤度・国字、アクサンデキュ、ウムラウトなど文化圏に特徴的な文字を検出して実行される文化圏判断の結果を補助情報として使用し、類似スコアの計算処理を変更することもできる。
In the above formula, cult_category is a cultural sphere identification variable for setting a cultural sphere identification value. The
図9は、スコア・サブマトリックスを部分マトリックスとして構成される、スコア付けマトリックス900の実施形態を示す。スコア・サブマトリックスは、サーバ110が適切な辞書などを参照して生成する姓または名を構成し、GNRサーバ140またはGNR処理部160が処理可能なフレーズを単位として構成されている。スコア付けマトリックス900は、評価対象の姓・名などのフレーズとして可能性のあるスコア・サブマトリックスを、文字シーケンスの認識順に配列させて生成される。
FIG. 9 illustrates an embodiment of a
特定の文字またはフレーズに対する類似スコアは、スコア付けマトリックス900の例えば、スコア・サブマトリックス910の3×3要素を使用し、上記式(4)または(5)を使用して計算することができる。なお、3×3のスコア・サブマトリックスの位置を示すため、スコア・サブマトリックスを、(Namei,Namej)として参照し、フレーズの単位を、図9では、Name1、Name2、Name3、・・・として示す。上記表記中、Name1は、姓「齊籐」に対応し、Name2は、姓「斎藤」に対応し、Name3は、例えば「西藤」などに対応する。さらに、名についても同様なシーケンスでスコア付けマトリックス900に登録することもできるし、他の実施形態では、名用のスコア付けマトリックスを別に生成し、同洋書方法で類似判断を実行することができる。なお、受領する文字シーケンスがアルファベットの場合、Name1の単位として「James」を使用することができる。
A similarity score for a particular character or phrase can be calculated using the above equation (4) or (5) using, for example, the 3 × 3 element of the score sub-matrix 910 of the scoring
本実施形態の図9に示した実施形態では、スコア・サブマトリックス910に隣接する (Namei,Namej±1)で示されるスコア・サブマトリックスおよびスコア・サブマトリックスの部分要素920および930を使用して、姓名シーケンスの文化圏判断などの一貫性を判断することができる。すなわち、部分要素920、930は、図8のS2、S3、S6に対応する要素値に対応する、上記式(4)および(5)に示すように、S2のカナ−アルファベット類似度および、S3、S6の漢字−カナ対応付けの類似度は、例えば姓目シーケンスを生成する場合の類似度のみではない結合処理を可能とし、より精度の高い姓名候補を生成させることができる。
In the embodiment shown in FIG. 9 of the present embodiment, the score submatrix indicated by (Name i , Name j ± 1 ) adjacent to the score submatrix 910 and the
図9に示したスコア付けマトリックス900に関して、上記式(4)または(5)を使用し、スコア・サブマトリックス(Namei,Namej)についての類似スコアの高い順に例えばトップ3などの姓および名に対応するフレーズを抽出し、姓フレーズと名フレーズとを連結して、合計類似スコアを生成し、合計類似スコアが最高姓名候補、または合計類似スコアのトップK(Kは、正の整数である。)を抽出し、結果リストに登録する。サーバ110は、この段階で、姓名候補リストとして、クライアント150に渡すこともできる。
With respect to the
さらに、図9に示したスコア付けマトリックス900を使用することにより、姓名が同一人物を示すか否かについての判断についても可能とされる。例えばカナ・シーケンスが相違する場合であっても、同一漢字シーケンスに類似する場合には、本来的に別人物である確率Pr(カナ・シーケンス1|カナ・シーケンス2)を統計的に決定しておき、同一人物である確率(1−Pr)を付して姓名候補を表示することもできる。
Further, by using the
本実施形態では、さらに、略記、転記ミス、OCRによる誤認識の可能性を含む姓名候補を生成し、姓名候補リストに追加する構成を採用することができる。この姓名候補は、同音でもなく同字でもない姓名候補を生成させることができる実施形態である。本実施形態では、記載時に略記される可能性が高かったり、転記ミスを生じさせやすかったり、OCRの誤認識の可能性のある姓名候補となる姓名シーケンスを生成させる。 In the present embodiment, it is possible to adopt a configuration in which a first name surname candidate including abbreviations, transcription mistakes, and possibility of misrecognition by OCR is generated and added to the first name surname candidate list. This full name candidate is an embodiment that can generate full name candidates that are neither the same sound nor the same character. In the present embodiment, a first and last name sequence is generated that is a candidate for a first name and last name that is highly likely to be abbreviated at the time of writing, is likely to cause a transcription mistake, or has a possibility of erroneous recognition of OCR.
図10は、本実施形態で、同音でもなく同字でもない類似姓名候補を抽出する処理のフローチャートである。図10の処理は、ステップS1000から開始する。なお、処理は姓名シーケンスを構成するフレーズではなく、漢字ごとについて文字シーケンスの先頭から末尾まで順に判定してゆくものとするが、当該判定は、逆順でもかまわない。ステップS1001では、先頭から末尾まで姓名シーケンスを構成する漢字をチェックし、図6に示したテーブルを参照し、姓名シーケンスが含む漢字について、異字体テーブル134および類似モデル・テーブル132を参照して、参照姓名候補を生成し経路マップを生成する。 FIG. 10 is a flowchart of a process for extracting similar first and last name candidates that are neither the same sound nor the same character in the present embodiment. The process of FIG. 10 starts from step S1000. Note that the processing is not performed for the phrases constituting the first and last name sequence, but for each Chinese character in order from the beginning to the end of the character sequence. However, the determination may be performed in reverse order. In step S1001, the Chinese characters constituting the surname sequence are checked from the beginning to the end, the table shown in FIG. 6 is referred to, the kanji included in the surname sequence is referred to the variant table 134 and the similar model table 132, A reference first name surname candidate is generated and a route map is generated.
この際、参照姓名候補は、姓名候補として生成された姓名が含む漢字を含む可能性のある姓および名を網羅的に抽出し、抽出された姓名に関して図6のテーブルを参照して異体字や外観において類似する可能性のある漢字で、類似する漢字を置換した姓名を類似姓名候補として設定することができる。具体的には、姓=「萩原」には、「萩原」の他、「萩野」、「萩」などの姓が想定でき、外観で類似し、誤りを考慮すれば、「荻原」、「荻野」、「荻」などが可能性のある候補とされる。なお、姓名候補と、参照姓名候補との間で対応付けできない漢字がある場合、例えば、「萩原」に対して「伯耆原」など、適切な大数を設定し、コストを高めることで、類似姓名候補から排除することができる。 At this time, the first and last name candidates are comprehensively extracted with last names and first names that may include kanji included in the first name and last name generated as the first and last name candidates, and with reference to the table of FIG. A surname that can be similar in appearance and replaced the similar kanji can be set as a similar surname candidate. Specifically, the surname = “Hagiwara” can be assumed to be “Hagiwara”, as well as “Sagano”, “Hagi” and other surnames. ”,“ 荻 ”, etc. are possible candidates. If there are kanji characters that cannot be matched between the first and last name candidates and the reference first and last name candidates, for example, by setting an appropriate large number such as “Hakubara” for “Hagiwara”, it is similar by increasing the cost. It can be excluded from first and last name candidates.
図10の処理について、具体的な姓名シーケンスを使用して説明すると、図9で説明した類似スコアの最も高い姓名シーケンスが、「荻野明▲高▼」であり、ステップS1001で「萩原朋高」が生成された場合について具体的に説明する。なお、姓名シーケンス「荻原朋高」については、「荻」、「明」と「萩」、「朋」が類似モデル・テーブル132で設定したしきい値以下のコスト(それぞれ0.3、0.4)で類似し、「高」と「▲高▼」とは、異字体として、コスト=0.1が割当てられ、設定したしきい値以下の値を有しているので、姓名候補として生成される。 The processing of FIG. 10 will be described using a specific surname / name sequence. The surname / name sequence with the highest similarity score explained in FIG. 9 is “Akira Sugano ▲ High ▼”. The case where is generated will be specifically described. For the surname sequence “Hagiwara Takataka”, “荻”, “Ming”, “萩”, and “朋” are costs less than or equal to the threshold values set in the similar model table 132 (0.3, 0.00, respectively). 4) Similar, “High” and “▲ High ▼” are assigned as cost variants of 0.1 as a variant and have a value that is less than or equal to the set threshold value. Is done.
また、姓=「萩野」に対しては、姓=「荻野」、「萩原」が抽出され、漢字「野」と「原」とは類似でもなく、異字体でもないので、コスト=2.0が割当てられている。なお、上述したコストについてのしきい値は、特定の用途、精度、および処理効率を考慮して適宜設定でき、概して低くしすぎると類似姓名候補が制限されることから、姓名候補の列挙精度が低下し、高くしすぎると処理効率が低下する。 Also, for surname = “Sagano”, surname = “Sagano”, “Kashihara” is extracted, and the kanji characters “Sano” and “Hara” are neither similar nor variant, so the cost = 2.0 Is assigned. Note that the above-mentioned threshold value for costs can be set as appropriate in consideration of a specific application, accuracy, and processing efficiency. If the threshold is generally too low, similar name surname candidates are limited. If it is lowered and too high, the processing efficiency is lowered.
姓名候補の「荻野明▲高▼」と、生成された「萩原朋高」について、配列順位ステップS1001で、同一漢字か否かを文字コードを比較することにより、判断し、同一漢字でない場合(no)処理をステップS1002に渡す。また、同一漢字であれば、コスト=0に設定し、処理をステップS1002に渡す。ステップS1002では、処理中の漢字が異体字であるか否かを判断する。異体字でもない場合(no)、処理をステップS1003に渡し、異体字である場合(yes)、ステップS1008で、異体字テーブル134をルックアップして、コストを取得し、処理をステップS1003に渡す。ステップS1003では、比較対象の文字が外観的に類似し、転記ミスや、誤記、または誤認識を生成させるエントリとして登録されているか否かを判断する。 When the first and last name candidates “Akira Sugano ▲ High ▼” and the generated “Hagiwara 朋 高” are determined by comparing the character codes in the sequence ranking step S1001, whether or not they are the same Kanji characters ( no) The process is passed to step S1002. If the same kanji is used, the cost = 0 is set, and the process is passed to step S1002. In step S1002, it is determined whether the kanji being processed is a variant. If it is not a variant character (no), the process is passed to step S1003. If it is a variant character (yes), the variant character table 134 is looked up in step S1008, the cost is acquired, and the process is passed to step S1003. . In step S1003, it is determined whether or not the character to be compared is similar in appearance and is registered as an entry that generates a transcription error, a misprint, or a misrecognition.
処理中の漢字が、当該エントリに登録されていなければ、処理をステップS1005に渡し、登録されている場合(yes)には、ステップS1009で、類似モデル・テーブル132をルックアップして登録されたコストを取得し処理をステップS1005に渡す。ステップS1005では、登録されたコストを経路マップに沿って総和して、経路コストを計算し、コストの最も低い姓名シーケンスを選択して姓名候補に対して類似する類似姓名候補として登録し、ステップS1006で処理を終了させる。なお、他の実施形態では、登録した類似姓名候補は、姓名候補生成部126へと送付され、図3で説明した処理で生成された姓名候補に対する追加情報として、姓名候補リストに追加する。
If the kanji being processed is not registered in the entry, the process is passed to step S1005, and if it is registered (yes), the similar model table 132 is looked up and registered in step S1009. The cost is acquired and the process is passed to step S1005. In step S1005, the registered costs are summed along the route map to calculate the route cost, the lowest name sequence with the lowest cost is selected and registered as a similar first name surname candidate for the first name surname candidate, and step S1006. To end the process. In another embodiment, the registered similar first name surname candidates are sent to the first name surname
図11は、図10の処理で使用する経路コスト計算処理1100の実施形態を示す。図11に示した経路マップ1110は、列方向が、図9で説明した処理によって抽出された姓名候補であり、行方向が、図10に説明した処理で生成された類似姓名候補の姓名シーケンスである。漢字「萩」、「荻」の間のコストは、図6に示すように、0.3であり、音は似ているが、「原」と、「野」は、説明する実施形態では、非類似であるため、経路マップ1110の矩形の辺を通過する。なお。矩形の片については、経路コスト=1.0を与え、図6のテーブルとの対応付けを可能とする。また、漢字「明」と「朋」については、0.4として設定され、漢字「高」と「▲高▼」については、異字体であることから、コスト=0.1が割当てられている。
FIG. 11 shows an embodiment of a route
図11に示した経路マップでは、設定された閾値以下のコストが登録されている場合には、対角線上の経路を進行して最小コスト経路1120に沿った経路コストが計算される。一方、設定されたしきい値以下のコストが登録されていない場合には、対角線の端点を連結する矩形の辺を進行し、漢字列が全く一致していない場合には、最大コスト経路1130で示されるように、最外辺のみを通過する。このため、先頭文字から最終文字まで漢字の類似性に関連して経路を選択してコストの累積計算を実行させることで、経路コスト=2.8が与えられる。なお、当該経路コストは、姓名の類似性を示す類似指標値として使用することができる。
In the route map shown in FIG. 11, when a cost equal to or less than the set threshold is registered, a route cost along the
なお、姓名候補と参照姓名候補とが文字数が異なる場合、対応付け不能な文字が検出された段階で大数で与えられるコストを割当て、類似姓名候補から排除されるようにすることで、「伯耆原」などの候補を除外することができる。なお、経路コストは、説明している実施形態では、低コストの方がより尤度の高い姓名候補となるので、生成された姓名候補のうち、例えば設定したしきい値以下のコストを有する類似姓名候補を、姓名候補リストに追加し、最終的な結果リストを構成する。 In addition, when the first and last name candidates are different from the reference first and last name candidates, a cost given by a large number is assigned at the stage where unmatchable characters are detected, so that they are excluded from similar first and last name candidates. Candidates such as “Hara” can be excluded. In addition, in the embodiment described, since the lower cost is a more likely surname candidate in the described embodiment, among the generated surname candidates, for example, a similar cost having a cost equal to or less than a set threshold value. Add the first and last name candidates to the first name and last name list to construct the final result list.
なお、図11に示した実施形態では、図6のテーブルを使用して対応付けする類似姓名候補および経路マップ1100を予め生成し、経路コストを計算するものとして説明した。さらに他の実施形態では、漢字−漢字間に誤記や転記ミスを生じさせる遷移確率を割当て、Vitabiアルゴリズムを使用して列方向に登録された姓名候補と、行方向に登録された姓名候補との間の経路探索を実行し、対数尤度の最小となる経路を与える姓名候補を、類似姓名候補として生成し、結果リストに追加することができる。
In the embodiment shown in FIG. 11, the description has been given assuming that the similar first and last name candidates and the
また、図10および図11に示した処理は、サーバ110の姓名候補生成部126のモジュールとして構成する他、姓名類似度を判断する姓名類似度計算部128とそして独立した処理部として構成することができる。姓名類似度判断部128は、漢字シーケンスを受領して、各処理を実行した後、受領した漢字文字シーケンスを図11の列に設定し、類似する姓名候補を生成して、行に設定して経路コストを計算し、その結果をクアライアント150に返すことができる。
The processing shown in FIGS. 10 and 11 is configured as a module of the first and last name
図12は、漢字シーケンスの入力を行う場合のGUI1200を示す。例えば、クライアント150は、サーバ110から姓名候補のリストを受領して、可能性のある姓名候補が他にないかどうかを知ることを希望する場合もある。このような場合、クライアント150は、図12に示したGUI1200を表示させ、対象とするべき漢字シーケンスを入力し、可能性のある姓名候補を取得することができる。
FIG. 12 shows a
図12に示したGUI1200には、表示ウィンドウ1210内に、漢字文字列類似度判定を行うためのGUIであることの表示1220が表示されている。クライアントのユーザは、入力フィールド1230に対象とする漢字シーケンスを入力し、「OK」ボタンをクリックしてサーバ110に漢字シーケンスを送付する。サーバは、上述した処理を適用してクライアント150から送付された姓名=「萩野明▲高▼」に類似する類似姓名候補を生成し、そのリストを、類似候補リスト1250としてクライアントに返す構成とすることができる。
In the
なお、姓名類似度計算部128を、姓名候補生成部126のモジュールとして構成するか、または独立した処理部として構成するかについては、特定の用途における目的に応じて適宜選択してサーバ110に実装することができる。
Whether the first and last name
さらに、表意文字シーケンスまたは表音文字シーケンスの姓、名、または姓名の入力のみで、表音特性に関連して同一または類似する姓名候補の他、表音特性に関して非類似の姓名候補を、CJKVおよびインド・ヨーロッパ語など多言語を考慮して類似性を判断することが可能な情報処理装置、情報処理方法およびプログラムが提供できる。 Further, by inputting only the first name, last name, or last name of the ideogram sequence or phonetic character sequence, in addition to the same or similar first name surname candidates related to the phonetic characteristics, the dissimilar first name surname candidates regarding the phonetic characteristics can be changed to CJKV. In addition, an information processing apparatus, an information processing method, and a program capable of determining similarity in consideration of multiple languages such as Indian and European languages can be provided.
以上、本発明によれば、入力された文字シーケンスを使用して複数の異なる表記についての類似性を判断して姓名候補を生成することができ、さらに、生成された姓名候補について、同音でもなく同字でもない誤記、転記ミス、略記、変換エラーなどの可能性を含めた類似姓名候補を生成することができ、さらには、グローバルな姓名表記に対応可能な、情報処理装置、情報処理方法、情報処理システムおよびプログラムを提供することができる。 As described above, according to the present invention, it is possible to generate similar first and last name candidates by judging the similarity of a plurality of different notations using the inputted character sequence, and the generated first and last name candidates are not the same sound. It is possible to generate similar first name surname candidates including the possibility of misprints that are not the same characters, transcription mistakes, abbreviations, conversion errors, etc., and further, an information processing apparatus, information processing method, An information processing system and program can be provided.
本実施形態の上記機能は、C++、Java(登録商標)、Java(登録商標)Beans、Java(登録商標)Applet、Java(登録商標)Script、Perl、Rubyなどのオブジェクト指向プログラミング言語などで記述された装置実行可能なプログラムにより実現でき、当該プログラムは、ハードディスク装置、CD−ROM、MO、フレキシブルディスク、EEPROM、EPROMなどの装置可読な記録媒体に格納して頒布することができ、また他装置が可能な形式でネットワークを介して伝送することができる。 The functions of this embodiment are described in an object-oriented programming language such as C ++, Java (registered trademark), Java (registered trademark) Beans, Java (registered trademark) Applet, Java (registered trademark) Script, Perl, and Ruby. The program can be realized by a program executable by the apparatus, and the program can be stored in a device-readable recording medium such as a hard disk device, CD-ROM, MO, flexible disk, EEPROM, EPROM, and distributed. It can be transmitted over the network in a possible format.
これまで本実施形態につき説明してきたが、本発明は、上述した実施形態に限定されるものではなく、他の実施形態、追加、変更、削除など、当業者が想到することができる範囲内で変更することができ、いずれの態様においても本発明の作用・効果を奏する限り、本発明の範囲に含まれるものである。 Although the present embodiment has been described so far, the present invention is not limited to the above-described embodiment, and other embodiments, additions, changes, deletions, and the like can be conceived by those skilled in the art. It can be changed, and any aspect is within the scope of the present invention as long as the effects and effects of the present invention are exhibited.
100…情報処理システム、110…サーバ、112…ネットワーク、114…ネットワーク・アダプタ、116…文字シーケンス取得部、118…文字判定部、120…他表記取得部、122…類似度計算部、124…類似スコア計算部、126…姓名候補生成部、128…姓名類似度計算部、130…表音文字変換テーブル、132…類似モデル・テーブル、134…異字体テーブル、136…同一・非類似漢字テーブル、140…GNRサーバ、150…クライアント・コンピュータ、160…GNR処理部
DESCRIPTION OF
Claims (17)
姓名を示す文字シーケンスを受領し、受領した前記文字シーケンスを構成する文字種類を判定する文字判定部と、
前記文字シーケンスから、前記文字シーケンスを表意文字または表音文字を含む他の文字種類で記述した他表記を生成し、表音文字を含む少なくとも異なる2種の姓名表記を含む表記ベクトルを生成する他表記取得部と、
前記文字種類に応答して異なる類似判断を実行し、前記表記ベクトルの要素について類似性の尺度を与えるスコアを計算する類似度計算部と、
前記類似度計算部が計算した前記スコアを使用して前記姓名表記について類似スコアを計算する類似スコア計算部と
を含み、
前記他表記取得部は、前記文字シーケンスの文字種がアルファベットであると判断された場合には、前記文字シーケンスに対応する表音文字を使用した前記他表記を生成し、前記文字シーケンスがカナであると判断した場合、表意文字で前記他表記を生成する、情報処理装置。 An information processing apparatus for calculating a first name surname similarity,
A character determination unit that receives a character sequence indicating a first and last name, and determines a character type constituting the received character sequence;
From the character sequence, other notations in which the character sequence is described in other character types including ideograms or phonograms are generated, and a notation vector including at least two different first and last name notations including phonograms is generated. A notation acquisition unit;
A similarity calculation unit that performs a different similarity determination in response to the character type and calculates a score that gives a measure of similarity for the elements of the notation vector;
Using said scores the similarity calculation unit has calculated seen contains a similar score calculation unit for calculating the similarity scores for the first and last name notation,
If the character type of the character sequence is determined to be alphabet, the other notation acquisition unit generates the other notation using a phonetic character corresponding to the character sequence, and the character sequence is kana An information processing apparatus that generates the other notation using ideograms when it is determined .
姓名を示す文字シーケンスを受領し、受領した前記文字シーケンスを構成する文字種類を判定するステップと、
前記文字シーケンスから、前記文字シーケンスを表意文字または表音文字を含む他の文字種類で記述した他表記を生成し、表音文字を含む少なくとも異なる2種の姓名表記を含む表記ベクトルを生成するステップと、
前記文字種類に応答して異なる類似判断を実行し、前記表記ベクトルの要素について類似性の尺度を与えるためのスコアを計算するステップと、
計算した前記スコアを使用して前記姓名表記について類似スコアを計算するステップと
を実行し、
前記表記ベクトルを生成するステップは、前記文字シーケンスの文字種がアルファベットであると判断された場合には、前記文字シーケンスに対応する表音文字を使用した前記他表記を生成し、前記文字シーケンスがカナであると判断した場合、表意文字で前記他表記を生成するステップを含む、情報処理方法。 An information processing method for determining similarity between first and last names executed by an information processing device, wherein the information processing device includes:
Receiving a character sequence indicating a first and last name and determining a character type constituting the received character sequence;
Generating another notation in which the character sequence is described with other character types including ideograms or phonetic characters from the character sequence, and generating a notation vector including at least two different first and last name notations including phonetic characters When,
Performing different similarity decisions in response to the character type and calculating a score to give a measure of similarity for the elements of the notation vector;
Using the calculated score to calculate a similarity score for the first name and last name , and
In the step of generating the notation vector, when it is determined that the character type of the character sequence is alphabet, the other notation using a phonetic character corresponding to the character sequence is generated, and the character sequence is An information processing method including a step of generating the other notation with an ideogram when it is determined that
前記類似スコアを計算するステップは、前記スコア・サブマトリックスのスコアを使用して前記スコア・サブマトリックスの類似度の指標を与える類似スコアを計算するステップを含む、請求項5に記載の情報処理方法。 The step of calculating the score includes generating a score sub-matrix in which scores for the elements of the notation vector to be evaluated are registered,
6. The information processing method according to claim 5 , wherein the step of calculating the similarity score includes a step of calculating a similarity score that gives an index of the similarity of the score sub-matrix using the score of the score sub-matrix. .
姓名を示す文字シーケンスを受領し、受領した前記文字シーケンスを構成する文字種類を判定するステップと、
前記文字シーケンスから、前記文字シーケンスを表意文字または表音文字を含む他の文字種類で記述した他表記を生成し、表音文字を含む少なくとも異なる2種の姓名表記を含む表記ベクトルを生成するステップと、
前記文字種類に応答して異なる類似判断を実行し、前記表記ベクトルの要素について類似性の尺度を与えるためのスコアを計算するステップと、
計算した前記スコアを使用して前記姓名表記について類似スコアを計算するステップと
を実行し、
前記表記ベクトルを生成するステップは、前記文字シーケンスの文字種がアルファベットであると判断された場合には、前記文字シーケンスに対応する表音文字を使用した前記他表記を生成し、前記文字シーケンスがカナであると判断した場合、表意文字で前記他表記を生成するステップを含む、コンピュータ実行可能なプログラム。 An information processing executable program for an information processing device to execute an information processing method for determining first name surname similarity, the information processing device comprising:
Receiving a character sequence indicating a first and last name and determining a character type constituting the received character sequence;
Generating another notation in which the character sequence is described with other character types including ideograms or phonetic characters from the character sequence, and generating a notation vector including at least two different first and last name notations including phonetic characters When,
Performing different similarity decisions in response to the character type and calculating a score to give a measure of similarity for the elements of the notation vector;
Using the calculated score to calculate a similarity score for the first name and last name , and
In the step of generating the notation vector, when it is determined that the character type of the character sequence is alphabet, the other notation using a phonetic character corresponding to the character sequence is generated, and the character sequence is A computer-executable program comprising the step of generating the other notation with ideographic characters when it is determined that
前記類似スコアを計算するステップは、前記スコア・サブマトリックスのスコアを使用して前記スコア・サブマトリックスの類似度の指標を与える類似スコアを計算するステップを含む、請求項9に記載のプログラム。 The step of calculating the score includes generating a score sub-matrix in which scores for the elements of the notation vector to be evaluated are registered,
The program according to claim 9 , wherein the step of calculating the similarity score includes the step of calculating a similarity score that gives an index of similarity of the score sub-matrix using the score of the score sub-matrix.
ネットワークを介して接続されたクライアント・コンピュータと、
前記クライアント・コンピュータから姓名を示す文字シーケンスを受領して、姓名類似を判断するサーバ・コンピュータと、を含み、前記サーバ・コンピュータは、
姓名を示す文字シーケンスを受領し、受領した前記文字シーケンスを構成する文字種類を判定する文字判定部と、
前記文字シーケンスから、前記文字シーケンスを表意文字または表音文字を含む他の文字種類で記述した他表記を生成し、表音文字を含む少なくとも異なる2種の姓名表記を含む表記ベクトルを生成する他表記取得部と、
前記文字種類に応答して異なる類似判断を実行し、前記表記ベクトルの要素について類似性の尺度を与えるためのスコアを計算する類似度計算部と、
前記類似度計算部が計算した前記スコアを使用して前記姓名表記について類似スコアを計算する類似スコア計算部と
を含み、
前記他表記取得部は、前記文字シーケンスの文字種がアルファベットであると判断された場合には、前記文字シーケンスに対応する表音文字を使用した前記他表記を生成し、前記文字シーケンスがカナであると判断した場合、表意文字で前記他表記を生成する、情報処理システム。 An information processing system for calculating first and last name similarity, the information processing system comprising:
A client computer connected via a network;
A server computer that receives a character sequence indicating first and last names from the client computer and determines similarity of the first and last names, the server computer comprising:
A character determination unit that receives a character sequence indicating a first and last name, and determines a character type constituting the received character sequence;
From the character sequence, other notations in which the character sequence is described in other character types including ideograms or phonograms are generated, and a notation vector including at least two different first and last name notations including phonograms is generated. A notation acquisition unit;
A similarity calculation unit that performs a different similarity determination in response to the character type and calculates a score for giving a measure of similarity for the elements of the notation vector;
Using said scores the similarity calculation unit has calculated seen contains a similar score calculation unit for calculating the similarity scores for the first and last name notation,
If the character type of the character sequence is determined to be alphabet, the other notation acquisition unit generates the other notation using a phonetic character corresponding to the character sequence, and the character sequence is kana An information processing system that generates the other notation using ideograms when it is determined that
姓名を示す文字シーケンスを受領し、受領した前記文字シーケンスを構成する文字種類を判定する文字判定部と、
前記文字シーケンスから、前記文字シーケンスを表意文字または表音文字を含む他の文字種類で記述した他表記を生成し、表音文字を含む少なくとも異なる2種の姓名表記を含む表記ベクトルを生成する他表記取得部と、
前記文字種類に応答して異なる類似判断を実行し、前記表記ベクトルの要素について類似性の尺度を与えるスコアを計算する類似度計算部と、
前記類似度計算部が計算した前記スコアを使用して前記姓名表記について類似スコアを計算する類似スコア計算部と
を含み、
前記他表記取得部は、前記文字シーケンスの文字種がアルファベットであると判断された場合には、前記文字シーケンスに対応する表音文字を使用した前記他表記を生成し、前記文字シーケンスがカナであると判断した場合、表意文字で前記他表記を生成し、
前記情報処理装置は、外観の類似する表意文字を対応付ける類似モデル・テーブルと、前記表意文字の異字体を登録する異字体テーブルとを管理し、さらに前記他表記の姓名候補について、前記類似モデル・テーブルおよび異字体テーブルをルックアップして外観類似および字体の相違を含めて経路コストを計算する姓名類似度計算部と、
前記類似スコアを使用して前記姓名候補を選択し、前記文字シーケンスの送付元に姓名候補リストとして送付する姓名候補生成部を含み、
前記姓名類似度計算部は、前記姓名候補生成部のモジュールまたは前記情報処理装置の独立したモジュールであり、
前記類似度計算部は、評価対象である前記表記ベクトルの要素についてのスコアを登録したスコア・サブマトリックスを生成し、前記類似スコア計算部は、前記スコア・サブマトリックスのスコアを使用して前記スコア・サブマトリックスの類似度の指標を与える類似スコアを計算する、情報処理装置。 An information processing apparatus for calculating a first name surname similarity,
A character determination unit that receives a character sequence indicating a first and last name, and determines a character type constituting the received character sequence;
From the character sequence, other notations in which the character sequence is described in other character types including ideograms or phonograms are generated, and a notation vector including at least two different first and last name notations including phonograms is generated. A notation acquisition unit;
A similarity calculation unit that performs a different similarity determination in response to the character type and calculates a score that gives a measure of similarity for the elements of the notation vector;
A similarity score calculation unit that calculates a similarity score for the first and last names using the score calculated by the similarity calculation unit, and
If the character type of the character sequence is determined to be alphabet, the other notation acquisition unit generates the other notation using a phonetic character corresponding to the character sequence, and the character sequence is kana If it is determined, generate the other notation with ideograms,
The information processing apparatus manages a similar model table that associates ideographic characters having similar appearances, and a different character table that registers different characters of the ideographic characters. A first and last name similarity calculator that looks up the table and variant font table to calculate the path cost including appearance similarity and font difference;
Selecting the first and last name candidates using the similarity score, and sending the first and last name candidates to the sender of the character sequence as a first and last name candidate list,
The full name similarity calculation unit is a module of the full name candidate generation unit or an independent module of the information processing device,
The similarity calculation unit generates a score sub-matrix in which scores for the elements of the notation vector to be evaluated are registered, and the similarity score calculation unit uses the score of the score sub-matrix to generate the score An information processing apparatus that calculates a similarity score that gives an index of similarity of sub-matrix.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008208297A JP5348964B2 (en) | 2008-08-13 | 2008-08-13 | Information processing apparatus, information processing method, information processing system, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008208297A JP5348964B2 (en) | 2008-08-13 | 2008-08-13 | Information processing apparatus, information processing method, information processing system, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010044597A JP2010044597A (en) | 2010-02-25 |
JP5348964B2 true JP5348964B2 (en) | 2013-11-20 |
Family
ID=42015928
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008208297A Expired - Fee Related JP5348964B2 (en) | 2008-08-13 | 2008-08-13 | Information processing apparatus, information processing method, information processing system, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5348964B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5676517B2 (en) * | 2012-04-12 | 2015-02-25 | 日本電信電話株式会社 | Character string similarity calculation device, method, and program |
CN111753147A (en) * | 2020-06-27 | 2020-10-09 | 百度在线网络技术(北京)有限公司 | Similarity processing method, device, server and storage medium |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3360693B2 (en) * | 1993-05-17 | 2002-12-24 | 日本電信電話株式会社 | Customer information search method |
JPH11259469A (en) * | 1998-03-13 | 1999-09-24 | Omron Corp | Person name preparation method and its device and storage medium |
-
2008
- 2008-08-13 JP JP2008208297A patent/JP5348964B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2010044597A (en) | 2010-02-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10140371B2 (en) | Providing multi-lingual searching of mono-lingual content | |
JP5599662B2 (en) | System and method for converting kanji into native language pronunciation sequence using statistical methods | |
US8838614B2 (en) | Method and system for document classification or search using discrete words | |
JP4701292B2 (en) | Computer system, method and computer program for creating term dictionary from specific expressions or technical terms contained in text data | |
US10579733B2 (en) | Identifying codemixed text | |
KR101650112B1 (en) | Machine learning for transliteration | |
KR101897060B1 (en) | Named Entity Recognition Model Generation Device and Method | |
Lund et al. | How well does multiple OCR error correction generalize? | |
EP4141818A1 (en) | Document digitization, transformation and validation | |
JP4266222B2 (en) | WORD TRANSLATION DEVICE, ITS PROGRAM, AND COMPUTER-READABLE RECORDING MEDIUM | |
CN107870900B (en) | Method, apparatus and recording medium for providing translated text | |
US7599921B2 (en) | System and method for improved name matching using regularized name forms | |
US10185710B2 (en) | Transliteration apparatus, transliteration method, transliteration program, and information processing apparatus | |
JP5348964B2 (en) | Information processing apparatus, information processing method, information processing system, and program | |
Charton et al. | Improving Entity Linking using Surface Form Refinement. | |
WO2015075920A1 (en) | Input assistance device, input assistance method and recording medium | |
Nguyen-Son et al. | Detecting machine-translated paragraphs by matching similar words | |
JP5466376B2 (en) | Information processing apparatus, first and last name identification method, information processing system, and program | |
JP5132430B2 (en) | Information processing apparatus, information processing method, and program for generating first and last name candidates | |
JP2008059389A (en) | Vocabulary candidate output system, vocabulary candidate output method, and vocabulary candidate output program | |
JP6608119B2 (en) | Drug name output device, drug name output method, and drug name output program | |
JP5583230B2 (en) | Information search apparatus and information search method | |
JP5336779B2 (en) | Information processing apparatus for performing character string conversion, character string conversion method, program, and information processing system | |
JP2006053866A (en) | Detection method of notation variability of katakana character string | |
Sowmya et al. | Transliteration based text input methods for telugu |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110711 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120823 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120828 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121108 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20130226 |
|
RD14 | Notification of resignation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7434 Effective date: 20130228 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130621 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20130701 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130730 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130820 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |