JP3587279B2

JP3587279B2 - 姓名解析方法及び装置

Info

Publication number: JP3587279B2
Application number: JP33400796A
Authority: JP
Inventors: 成人岩瀬
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1996-12-13
Filing date: 1996-12-13
Publication date: 2004-11-10
Anticipated expiration: 2016-12-13
Also published as: JPH10171799A

Description

【０００１】
【発明の属する技術分野】
本発明は、姓名解析方法及び装置に係り、特に、人名を扱う顧客システムで、区切なしに入力された人名を姓と名に分割し、姓や名で検索するような業務や、漢字１文字毎にフリガナを対応させることにより、連濁や音便等の音の変化を考慮した検索キーの派生に使用する姓名解析方法及び装置に関する。
【０００２】
【従来の技術】
従来から、姓名を登録した辞書を準備し、姓名両方とも辞書にある解を出力する方法が特開昭６２−２３７５６７等に開示されている。
姓名の片方しか辞書に登録されていない場合には、特開平６−１６１９９５に開示されているように、単語分割パターンと単語長から姓名の区切位置を求める方法がある。
【０００３】
【発明が解決しようとする課題】
しかしながら、芸名等でかな表記する場合もあること、日本に在住する外国人（特に中国人等、漢字を使用する外国人）の増加、データベースに含まれる間違い等により全ての種類の姓を読みを含めて辞書に登録することは困難である。また、名については、新しい名を付けることは可能なため、辞書に全ての名を登録することは不可能である。
【０００４】
そこで、姓名の片方のみ辞書にある場合の区切り位置の決定方法が重要となる。例えば、「石渡隆瑞（イシワタリユウズイ）」という姓名に対し、姓辞書に「石渡（イシワタリ）」と「石渡（イシワタ）」が存在し、名辞書には存在しないとする。その時、名の部分の漢字と読みの対応を取り、「隆瑞」の読みは「リュウズイ」であることが分からないと、「石渡／隆瑞（イシワタ／リユウズイ）」が正解であることが分からない。
【０００５】
また、姓名の区切りは辞書に存在している姓または、名の長さや出現頻度のみでは決定できない。例えば、「小野寺和（オノデラカズ）」の場合、辞書に「小野」しか無い場合、名が「寺和」が対応するが、単語の先頭の「寺」を「デラ」と読むことはあり得ないので、単に辞書の存在の有無から姓名の区切を正確に求めることはできない。
【０００６】
また、「小野」も「小野寺」も辞書に登録したとしても、出現頻度は「小野」の方が「小野寺」よりも１０倍多いため、やはり「小野／寺和」を選択する。
一方、単語の長さのみで判断を行う方法でも正確な判断はできない。例えば、「羽田野里子（ハタノリコ）」に対して辞書に「羽田」と「羽田野」が存在した場合、長さのみからは、「羽田野／里子」を出力するが、正解は、「羽田／野里子」である。
【０００７】
本発明は、上記の点に鑑みなされたもので、姓名辞書の片方しか辞書にない人名であっても、正しく姓名の区切を付与し、正しい人名の解析を可能とする人名解析方法及び装置を提供することを目的とする。
【０００８】
【課題を解決するための手段】
図１は、本発明の第１の原理を説明するための図である。
本発明は、姓名の区切りなしに入力された個人名とフリガナに対し、表記とフリガナの姓と名の区切り位置及び漢字１文字毎のフリガナの区切り位置を解として得る姓名解析方法において、
姓を登録した姓辞書と、名を登録した名辞書を用いて、姓名区切り解析部が入力された姓名の表記とフリガナを姓と名に分割して姓名の区切り位置を得るステップ（ステップ１）と、
文字に対する読みを登録した文字辞書を用いて、姓または名の片方しか姓辞書、名辞書にない場合には、フリガナ解析部が漢字１文字毎にフリガナの対応を取ることにより漢字１文字毎に入力されたフリガナを区切り、フリガナの区切り位置を得るステップ（ステップ２）と、
区切り位置チェック部が、姓名の区切りと漢字毎のフリガナの区切り位置の対応を取ることにより、両者の対応のとれない解候補を棄却するステップ（ステップ３）からなる。
【００１０】
また、本発明は、フリガナの区切り位置を得るステップにおいて、文字毎に文字の読みの属性を登録した文字辞書を用いてフリガナを区切り、漢字毎の区切り位置を得ると同時に、漢字毎にフリガナの読み属性を得るステップと、
区切り位置チェック部による解候補の棄却を行うステップの後、読み属性チェック部が文字毎の読みの属性を参照し、フリガナの姓名区切り位置が正しくないと判断された場合は正しくない解候補を棄却するステップを有する。
【００１１】
図２は、本発明の第２の原理を説明するため図である。
本発明は、姓辞書及び名辞書に姓・名の出現頻度情報及び姓・名の属性を登録しておき、入力された文字列に対し、姓名の片方しか姓辞書、名辞書にない解候補が複数ある場合は、姓または、名の頻度、辞書に存在した姓または名の長さ、辞書に存在した姓または、名の属性を評価し、最も確からしい解を出力する（ステップ３−３）。
【００１２】
本発明は、姓名の区切りなしに入力された個人名とフリガナに対し、表記とフリガナの姓と名の区切り位置及び漢字１文字毎のフリガナの区切り位置を解として得る姓名解析装置であって、
姓を登録した姓辞書と、
名を登録した名辞書と、
文字に対する読みを登録した文字辞書と、
姓辞書と前記名辞書を用いて、入力された姓名の表記とフリガナを姓と名に分割して姓名の区切り位置の候補を得る姓名区切り解析部と、
文字辞書を用いて、姓または名の片方しか姓辞書、名辞書にない場合には、漢字１文字毎にフリガナの対応をとることにより漢字１文字毎に入力されたフリガナを区切り、フリガナの区切り位置を得るフリガナ解析部と、
フリガナの姓名の区切り位置と漢字毎のフリガナの区切り位置の対応を取ることにより、両者の対応のとれない解候補を棄却する区切り位置チェック部と、を有する。
【００１３】
本発明は、フリガナ解析部において、
文字毎に文字の読みの属性を登録した文字辞書を用いてフリガナを区切り、漢字毎の区切り位置を得ると同時に、漢字毎にフリガナの読み属性を得る手段を有し、
区切り位置チェック部による解候補の棄却を行うステップの後、読み属性チェック部が文字毎の読みの属性を参照し、フリガナの姓名区切り位置が正しくないと判断された場合は正しくない解候補を棄却する読み属性チェック部を有する。
【００１４】
また、上記の姓辞書は、姓の出現頻度情報及び姓の属性を含み、
名辞書は、名の出現頻度情報及び名の属性を含み、
入力された文字列に対し、姓・名の片方しか姓辞書または、名辞書に存在しない解候補が複数ある場合には、該姓または、該名の頻度、該姓辞書または、該名辞書に存在した姓または、名の長さ、属性を評価する長さ・属性評価手段と、
長さ・属性評価手段の評価結果に基づいて最も確からしい解を出力する解出力手段とを更に有する。
【００１５】
上記のように、本発明では、姓名辞書にない場合でも、文字の区切りを付与するために、漢字１文字毎のフリガナを解析し、読みの多義（「石渡」を「イシワタリ」と読むか「イシワタ」と読むか）を解消するための文字の区切り情報に基づいて姓名辞書での検索結果が正しいかチェックすることができる。
【００１６】
また、日本語としてあり得ない区切り方を排除するために漢字１文字毎の読みの属性を求め、属性のチェックをすることが可能となる。
さらに、姓名の長さ、頻度、属性から解候補の評価を行うとで、評価値に基づいた候補の出力が可能となる。
【００１７】
また、姓名のどちらかが辞書にない時は、フリガナを解析し、１文字毎の漢字の読みを求め、漢字とフリガナが対応するかをチェックする。これにより「石渡（イシワタリ）」と「石渡（いしわた）」の様に読みが包含関係にある解のチェックを行うことが可能となる。
【００１８】
次に、漢字１文字毎に読みの属性を求め、姓の末尾にならない読み、名の先頭にならない読み、１文字の単語でしか読まない文字、２文字以上の単語で読む文字等のチェックを行い、矛盾する候補を棄却する。この処理により、「小野寺和」の「寺（デラ）」が先頭になる様な解を棄却する。
【００１９】
最後に、単語の頻度と辞書に存在した単語の長さにより、最も良い評価値の解を出力する。但し、「一郎」「太郎」などの名の場合は、前方に一文字付いて「恵一郎」「栄太郎」のようになる場合が多いので、評価値を下げて評価する。
このように、本発明によれば、姓名辞書の片方にしか存在しない人名でも、フリガナの属性をチェックするので、正しくない解を棄却することができる。また、単語の長さ、頻度、姓名の属性を組み合わせて解の評価を行うので、正しい解を選択することが可能となる。
【００２０】
【発明の実施の形態】
図３は、本発明の第１の姓名解析装置の構成を示す。
同図に示す姓名解析装置の構成は、姓名区切り解析部１０、姓辞書２０、名辞書３０、フリガナ解析部４０、文字辞書５０、区切り位置チェック部６０から構成される。
【００２１】
姓名区切り解析部１０は、姓辞書２０、名辞書３０を参照して入力された姓名を分割する。
姓辞書２０は、姓が登録された辞書である。また、当該姓に対応する属性、出現頻度情報等を併せて登録しておくようにしてもよい。
【００２２】
名辞書３０は、名が登録された辞書である。また、当該名に対応する属性、出現頻度情報等を併せて登録しておくようにしてもよい。
フリガナ解析部４０は、入力された姓名に対して漢字とフリガナの対応をとる。
【００２３】
文字辞書５０は、漢字と読みの対応を登録した辞書である。
区切り位置チェック部６０は、姓辞書２０、名辞書３０による区切りと文字辞書５０による区切りをチェックする。
図４は、本発明の第１の姓名解析装置構成における動作のフローチャートである。
【００２４】
ステップ１０１）まず、姓名区切り解析部１０は、姓辞書２０及び名辞書３０による姓名区切りを解析する。
ステップ１０２）ここで、姓名の両方の解があるかを判定し、ある場合には、ステップ１０３に移行し、ない場合には、ステップ１０４に移行する。
【００２５】
ステップ１０３）姓名の両方ある解が複数ある場合には、姓名の頻度の合計が多い解を出力する。
ステップ１０４）姓名の片方のみ、姓辞書２０または、名辞書３０にある場合には、フリガナ解析部４０において、フリガナの解析を行う。
【００２６】
ステップ１０５）つぎに、区切り位置チェック部６０において、フリガナの区切り位置のチェックを行う。
図５は、本発明の第２の姓名解析装置の構成を示す。
同図に示す構成は、前述の図３の構成に読み属性をチェックする読み属性チェック部７０を加えた構成である。
【００２７】
図６は、本発明の第２の姓名解析装置構成における動作のフローチャートである。
ステップ２０１）まず、姓名区切り解析部１０は、姓辞書２０及び名辞書３０による姓名区切りを解析する。
【００２８】
ステップ２０２）ここで、姓名の両方の解があるかを判定し、ある場合には、ステップ２０３に移行し、ない場合には、ステップ２０４に移行する。
ステップ２０３）姓名の両方ある解が複数ある場合には、姓名の頻度の合計が多い解を出力する。
【００２９】
ステップ２０４）姓名の片方のみ、姓辞書２０または、名辞書３０にある場合には、フリガナ解析部４０において、フリガナの解析を行う。
ステップ２０５）つぎに、区切り位置チェック部６０において、フリガナの区切り位置のチェックを行う。
【００３０】
ステップ２０６）読み属性チェック部７０は、フリガナ解析部４０で取得したフリガナの属性を参照することにより、姓の末尾の文字の読み、名の先頭の文字の読み、姓・名の文字数、読みの種類等をチェックする。
つまり、図４に示す動作に上記のステップ２０６の動作が付加される。
【００３１】
図７は、本発明の第３の姓名解析装置の構成を示す。
同図に示す構成は、前述の図５の構成にさらに、単語の長さ・頻度・属性により解候補を評価し、最も評価の良い解を選択する解評価・選択部８０が加えられた構成である。
【００３２】
図８は、本発明の第３の姓名解析装置構成における動作のフローチャートである。
ステップ３０１）まず、姓名区切り解析部１０は、姓辞書２０及び名辞書３０による姓名区切りを解析する。
【００３３】
ステップ３０２）ここで、姓名の両方の解があるかを判定し、ある場合には、ステップ３０３に移行し、ない場合には、ステップ３０４に移行する。
ステップ３０３）姓名の両方ある解が複数ある場合には、姓名の頻度の合計が多い解を出力する。
【００３４】
ステップ３０４）姓名の片方のみ、姓辞書２０または、名辞書３０にある場合には、フリガナ解析部４０において、フリガナの解析を行う。
ステップ３０５）つぎに、区切り位置チェック部６０において、フリガナの区切り位置のチェックを行う。
【００３５】
ステップ３０６）読み属性チェック部７０は、フリガナ解析部４０で取得したフリガナの属性を参照することにより、姓の末尾の文字の読み、名の先頭の文字の読み、姓・名の文字数、読みの種類等をチェックする。
ステップ３０７）まだ、解が複数あるかを判定し、ある場合には、ステップ３０８に移行する。
【００３６】
ステップ３０８）解評価・選択部８０は、姓辞書２０、名辞書３０のいずれかにある方の単語の長さと頻度、及び名の属性を総合して最もよい解を出力する。
【００３７】
【実施例】
以下、図面と共に本発明の実施例を説明する。
［第１の実施例］
第１の実施例は、前述の図３及び図４に基づいて、図９のフローチャートを用いて説明する。図９のステップ番号は、図４のステップ番号と同様である。
【００３８】
まず、入力された姓名に対して、姓辞書２０、名辞書３０を検索して、姓名の区切りを求める（ステップ１０１）。この例では、以下の区切りが得られたものとする。なお、％は姓名区切りであり、／は文字区切りであるとして説明する。

次に、姓名が姓辞書２０と名辞書３０のいずれか一方にある解が１つの場合には、その解を出力して処理を終了する。姓名が姓辞書２０及び名辞書３０の双方にある解が複数ある場合には姓名の頻度の合計が多い解を出力する（ステップ１０２）。
【００３９】
また、姓名が姓辞書２０、名辞書３０のいずれか片方の辞書にある場合には、フリガナ解析部４０の解析結果に基づいて、区切り位置チェック部６０がフリガナの区切り位置のチェックを行う（ステップ１０４）。
例えば、「石渡隆瑞（イシワタリユウズイ）」に対して「石渡（イシワタリ）」と「石渡（イシワタ）」の姓が辞書に存在する。フリガナ解析部４０による結果は、
「石渡隆瑞（イシ／ワタ／リユウ／ズイ）」
となるので、区切り位置チェック部６０により、「石渡隆瑞（イシワタリ／ユウズイ）」と区切る解は棄却され、「石渡隆瑞（イシワタ／リユウズイ）」が取得される（ステップ１０５）。
【００４０】
［第２の実施例］
前述の図５及び図６に基づいて、図９のフローチャートを用いて説明する。図１０のステップ番号は、図６のステップ番号と同様である。図１０は、本発明の第２の実施例の動作を説明するフローチャートである。
【００４１】
前述の第１の実施例と同様に、姓名区切り解析により、

の２つの解が得られる（ステップ２０１）。ここで、姓名が姓辞書２０、名辞書３０の双方にある解が複数存在するため（ステップ２０２）、第１の実施例と同様にフリガナ解析部４０により、フリガナ解析を行う（ステップ２０４）。例えば、
小野寺和
オ／ノ／デラ／カズ
という解析結果が得られたとする。
【００４２】
次に、区切り位置チェック部６０の、区切り位置チェックにより、
「小野寺／和（オノデラ／カズ）と「小野／寺和（オノ／デラカズ）」
が取得された場合に（ステップ２０５）、読み属性チェック部７０は、「小野寺和（オノデラカズ）」を「小野／寺和」と区切る解は、文字辞書５０を参照することにより、単語の先頭では、「寺」を「デラ」と読まないので、棄却する（ステップ２０６）。
【００４３】
また、「羽田野里子（ハタノリコ）」を「羽田野／里子（ハタノ／リコ）」と区切られた解については、読み属性チェック部７０により、「里（リ）」は名の接尾辞「子」を除いて２文字以上で読むので、棄却される。
図１１に、読み属性チェック部７０による参照された文字辞書５０の例を示す。
【００４４】
［第３の実施例］
次に、本発明の第３の実施例を説明する。
前述の図７及び図８に基づいて、図１２のフローチャートを用いて説明する。図１２のステップ番号は、図８のステップ番号と同様である。図１２は、本発明の第３の実施例の動作を説明するフローチャートである。
【００４５】
図１２のフローチャートにおいて、ステップ３０６の処理は無くても構わない。また、処理結果（ステップ３０６までにおいて）で解候補がなくなれば区切りは無しと判断される。まだ、解がある場合には、読み属性チェック部７０により、辞書にある方の単語の長さと頻度及び名の属性（「一郎」「太郎」等の名の一部になる単語は評価を下げる）を総合して最も良い解を出力する（ステップ３０６）。一般には、頻度よりも単語長を優先させる方が評価関数としては性能がよくなるという実験結果があるので、辞書にあった姓・名が長い解を優先し、同じ長さのとき頻度の多い解を優先させる。
【００４６】
例えば、次のような評価式が考えられる。
（単語の長さ）×１０＋（頻度）
評価式において、（頻度）は単語の頻度ｌｏｇを０から１０までに正規化したものである。なお、この正規化された単語の頻度は、姓辞書２０、名辞書３０に予め登録しておくようにしてもよい。
【００４７】
例として、「森沢繁澄（モリサワシゲスミ）」を解析すると、「森」は頻度９、「森沢」は頻度５なので、頻度情報のみで判断すると、「森／沢繁澄」であるが、上記の評価式を用いると、「森」は１９、「森沢」は２５となり、正解の「森沢／繁澄」を出力する。
【００４８】
但し、「一郎」「太郎」のような名の場合は、当該名の前に一文字付加される可能性があるので、解の評価を悪くするように上記評価式を修正して用いる。
また、名が名辞書３０辞書にあり、姓の部分が長すぎる（例えば、６文字以上）の場合は、その解は間違った所で切れている可能性が高いので、棄却する。
【００４９】
例えば、「アキヤマサダアキ」と仮名で入力された姓名に対し、「アキ」のみが名辞書３０にあった場合、当該名部分を除いた姓部分は「アキヤマサダ」になる。しかし、このような長い姓はないので棄却する。
なお、本発明は、上記の実施例に限定されることなく、特許請求の範囲内で種々変更・応用が可能である。
【００５０】
【発明の効果】
上述のように、本発明の姓名解析方法及び装置によれば、姓名辞書の片方にか辞書にない人名でも１文字毎にフリガナの属性をチェックするので、正しく姓名の区切りを付与することができる。また、単語長と頻度と単語の属性を組み合わせて解の評価を行うので、正確な解を出力することができる。
【００５１】
また、姓名のどちらかが辞書にあれば、解析できるので、解析率が大幅に向上する。例えば、カバー率９５％の姓辞書と名辞書を用いたとしても、姓名両方とも辞書にある確率は、９０％程度に低下する。ところが、本発明で示した方法及び装置によれば、姓名の片方が辞書にあれば解析できるので、カバー率は９９％以上になる。
【図面の簡単な説明】
【図１】本発明の第１の原理を説明するための図である。
【図２】本発明の第２の原理を説明するための図である。
【図３】本発明の第１の姓名解析装置の構成図である。
【図４】本発明の第１の姓名解析装置構成における動作のフローチャートである。
【図５】本発明の第２の姓名解析装置の構成図である。
【図６】本発明の第２の姓名解析装置構成における動作のフローチャートである。
【図７】本発明の第３の姓名解析装置の構成図である。
【図８】本発明の第３の姓名解析装置構成における動作のフローチャートである。
【図９】本発明の第１の実施例の動作を説明するフローチャートである。
【図１０】本発明の第２の実施例の動作を説明するフローチャートである。
【図１１】本発明の第２の実施例の文字辞書の例である。
【図１２】本発明の第３の実施例の動作を説明するフローチャートである。
【符号の説明】
１０姓名区切り解析部
２０姓辞書
３０名辞書
４０フリガナ解析部
５０文字辞書
６０区切り位置チェック部
７０読み属性チェック部
８０解評価部

Claims

姓名の区切りなしに入力された個人名とフリガナに対し、表記とフリガナの姓と名の区切り位置及び漢字１文字毎のフリガナの区切り位置を解として得る姓名解析方法において、
姓を登録した姓辞書と、名を登録した名辞書を用いて、姓名区切り解析部が入力された前記姓名の表記とフリガナを姓と名に分割して姓名の区切り位置の候補を得るステップと、
文字に対する読みを登録した文字辞書を用いて、姓または名の片方しか前記姓辞書、前記名辞書にない場合には、フリガナ解析部が漢字１文字毎にフリガナの対応を取ることにより漢字１文字毎に入力されたフリガナを区切り、フリガナの区切り位置を得るステップと、
区切り位置チェック部が、フリガナの姓名の区切り位置と漢字毎のフリガナの区切り位置の対応を取ることにより、両者の対応のとれない解候補を棄却するステップからなることを特徴とする姓名解析方法。
前記漢字毎のフリガナの区切り位置を得るステップにおいて、文字毎に文字の読みの属性を登録した文字辞書を用いてフリガナを区切り、漢字毎の区切り位置を得ると同時に、漢字毎にフリガナの読み属性を得るステップと、
前記区切り位置チェック部による解候補の棄却を行うステップの後、読み属性チェック部が文字毎の読みの属性を参照し、フリガナの姓名区切り位置が正しくないと判断された場合は正しくない解候補を棄却するステップを有する請求項１記載の姓名解析方法。
前記姓辞書及び前記名辞書に姓・名の出現頻度情報及び姓・名の属性を登録し、入力された文字列に対し、姓名の片方しか前記姓辞書、前記名辞書にない解候補が複数ある場合は、姓または、名の頻度、辞書に存在した姓または名の長さ、前記辞書に存在した姓または、名の属性を評価し、最も確からしい解を出力する請求項１または、２記載の姓名解析方法。
姓名の区切りなしに入力された個人名とフリガナに対し、表記とフリガナの姓と名の区切り位置及び漢字１文字毎のフリガナの区切り位置を解として得る姓名解析装置であって、
姓を登録した姓辞書と、
名を登録した名辞書と、
文字に対する読みを登録した文字辞書と、
前記姓辞書と前記名辞書を用いて、入力された前記姓名の表記とフリガナを姓と名に分割して姓名の区切り位置の候補を得る姓名区切り解析部と、
前記文字辞書を用いて、姓または名の片方しか前記姓辞書、前記名辞書にない場合には、漢字１文字毎にフリガナの対応をとることにより漢字１文字毎に入力されたフリガナを区切り、フリガナの区切り位置を得るフリガナ解析部と、
フリガナの姓名の区切り位置と漢字毎のフリガナの区切り位置の対応を取ることにより、両者の対応のとれない解候補を棄却する区切り位置チェック部と、を有することを特徴とする姓名解析装置。
前記フリガナ解析部において、
文字毎に文字の読みの属性を登録した文字辞書を用いてフリガナを区切り、漢字毎の区切り位置を得ると同時に、漢字毎にフリガナの読み属性を得る手段を有し、
前記区切り位置チェック部による解候補の棄却を行うステップの後、読み属性チェック部が文字毎の読みの属性を参照し、フリガナの姓名区切り位置が正しくないと判断された場合は正しくない解候補を棄却する読み属性チェック部を有する請求項４記載の姓名解析装置。
前記姓辞書は、姓の出現頻度情報及び姓の属性を含み、
前記名辞書は、名の出現頻度情報及び名の属性を含み、
前記入力された文字列に対し、姓・名の片方しか前記姓辞書または、前記名辞書に存在しない解候補が複数ある場合には、該姓または、該名の頻度、該姓辞書または、該名辞書に存在した姓または、名の長さ、属性を評価する長さ・属性評価手段と、
前記長さ・属性評価手段の評価結果に基づいて最も確からしい解を出力する解出力手段とを更に有する請求項４または、５記載の姓名解析装置。