JP4076900B2 - 名義解析方法、装置、およびプログラム - Google Patents

名義解析方法、装置、およびプログラム Download PDF

Info

Publication number
JP4076900B2
JP4076900B2 JP2003114374A JP2003114374A JP4076900B2 JP 4076900 B2 JP4076900 B2 JP 4076900B2 JP 2003114374 A JP2003114374 A JP 2003114374A JP 2003114374 A JP2003114374 A JP 2003114374A JP 4076900 B2 JP4076900 B2 JP 4076900B2
Authority
JP
Japan
Prior art keywords
name
word
type
dictionary
surname
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2003114374A
Other languages
English (en)
Other versions
JP2004318699A (ja
Inventor
成人 岩瀬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2003114374A priority Critical patent/JP4076900B2/ja
Publication of JP2004318699A publication Critical patent/JP2004318699A/ja
Application granted granted Critical
Publication of JP4076900B2 publication Critical patent/JP4076900B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、名義を入力して、個人名・法人名の区別およびその名義がどのような姓名もしくは組織名からなるを解析する名義解析方法および装置に関する。
【0002】
【従来の技術】
組織の区切りなしに入力された企業名を主名義と支店・部課名等の下部組織に分割し、主名義や下部組織名で検索する業務に利用する場合、企業名の末尾語を含まない場合でも区切ることができ、かつ最適な表現を記述することができ、しかもルールの変更も容易にできるようにした企業名解析方法および装置が特許文献1で提案されている。この特許文献1では、単語分割部は、企業名を構成する単語と意味を登録した単語辞書を用いて、入力された企業名を単語に分割し、単語の意味を付与し、ルール照合部は、分割された企業名と組織の区切りを付与する区切りルールを照合し、区切り位置を解析し、区切り付与部は、解析された区切り位置に組織の区切りを付与する。ルール選択部は、ルール記憶部から各ルールの1つを選択して取り出し、適用する。この場合、名義を解析し、個人名か法人名か判断する場合、個人・法人どちらにも対応した辞書を用いる方法と、個人名の解析と法人名の解析を両方行って判断する方法が考えられる。
【0003】
一方、個人名の解析に関しては、例えば、特許文献2に示すように、まず文字列を2分割して姓名辞書を検索し、辞書にない場合、分割点を前後にずらして辞書検索する方法がある。
【0004】
【特許文献1】
特開平10−283355号公報
【特許文献2】
特許第2892376号
【0005】
【発明が解決しようとする課題】
個人・法人どちらにも対応した辞書を用いた解析や、個人名の解析と法人名の解析を両方行って判断すると、法人名は未知語を含む解析になるため時間がかかる。個人名の解析に関しては、前述の方法では、1回の分割で分割点が決定することは少なく、すべての候補を比較しないと分割点を決定できないので、何回も辞書引きをすることになり、時間がかかる。
【0006】
本発明の目的は、個人と法人の判断を高速に行うことができる名義解析方法、装置、およびプログラムを提供することにある。
【0007】
【課題を解決するための手段】
本発明の名義解析装置は、名義を解析し、名義の種別および構成要素を出力する名義解析装置であって、
単語と、該単語の読みと、該単語が個人名を構成しうるか否かを示す種別と、頻度からなるデータが記録され、少なくとも前記種別の一種別として姓を有する姓辞書を記憶している姓辞書記憶手段と、
単語と、該単語の読みと、該単語が個人名を構成しうるか否かを示す種別と、頻度とからなるデータが記録され、少なくとも前記種別の一種別として名を有する名辞書を記憶している名辞書記憶手段と、
名義データを入力するための手段と、
該入力された名義データと単語もしくは読みの一部が前方一致する単語を前記姓辞書からすべて検索し、一致する単語が存在した場合に、その種別によって、該一致する単語が個人名を構成しうる種別であるか否かを判定し、前記一致する単語が個人名を構成しうる種別である(以下、姓候補と記す)場合、前記入力された名義データと単語もしくは読みの一部が後方一致する単語を前記名辞書からすべて検索し、前記一致する単語が個人名を構成しうる種別である単語(以下、名候補と記す)を抽出し、姓候補のみ、または名候補のみ、または姓候補と名候補のみの組み合わせ(姓候補/名候補)のいずれかにより名義データを構成可能な姓候補と名候補が存在するか否かを判定する処理手段と、
該処理手段で存在するとの判定がなされた場合に、名義データが個人名であるとする判定結果を出力する手段を有する構成である。
【0008】
こで、前記処理手段は、名義データを構成可能な姓候補と名候補が複数存在する場合に、前記それぞれの候補に対応する辞書記憶手段に記憶されている頻度を参照し頻度が1番大きいものに絞り込む手段をさらに有していてもよく、
前記処理手段は、姓候補と名候補のみの組み合わせにより名義データを構成可能な姓候補と名候補の組が存在しない場合に、名義データが姓候補にも、名候補にも含まれない文字(以下、未使用文字と記す)を含む組み合わせ(姓候補/未使用文字/名候補)で構成可能な場合、該未使用文字と単語もしくは読みの一部が後方一致する単語を前記名辞書から一度にすべて検索し、前記一致する単語が個人名を構成しうる種別である単語(以下、第2名候補と記す)を抽出し、(姓候補/第2名候補/名候補)の組み合わせにより名義データを構成可能な組が存在するか否かを判定する手段をさらに有していてもよい。
また、前記姓辞書が、登録されている単語の種別として、外国人名、姓読み、英字をさらに有し、
前記処理手段で、前記個人名を構成しうる種別は、姓、外国人名、姓読み、英字のいずれかであってもよく、
前記姓辞書が、複数文字で構成される種別として姓を有する単語に対して、該単語の最後の一字を削除した単語と等しい単語で、かつ種別として姓を有する単語の単語レコードとの相対位置をさらに有し、
前記処理手段は、名義データと単語もしくは読みの一部が前方一致する単語を前記姓辞書から検索する際に、最長の一致単語を1つ見つけることにより、すべての候補を一度で検索する手段を有していてもよい。
さらに、前記姓辞書に登録されている単語の種別として、法人種別、職種を含む企業特有の種別をさらに有し、
前記処理手段は、単語もしくは読みの一部が前方一致する単語を前記姓辞書から一度にすべて検索し、一致する単語が存在し、その種別が企業特有の種別の場合に個人名の解析を終了してもよく、
前記名辞書に登録されている種別として、外国人名、名読み、英字、敬称をさらに有し、
前記個人名を構成しうる種別は、名、外国人名、名読み、英字、敬称のいずれかであってもよい。
また、前記名辞書は、複数文字で構成される種別として名を有する単語に対して、該単語の最初の一字を削除した単語と等しい単語で、かつ種別として名を有する単語の単語レコードとの相対位置がさらに登録されており、
前記処理手段は、名義データと単語もしくは読みの一部が後方一致する単語を前記名辞書から検索する際に、最長の一致単語を1つ見つけることにより、すべての候補を一度で検索する手段を有していてもよい。
【0009】
また、本発明のプログラムは、コンピュータ上記名義解析装置の各手段として機能させることを特徴とするものであり、本発明の記録媒体は、コンピュータ上記名義解析装置の各手段として機能させるプログラムを格納したことを特徴とする。
【0010】
絞り込まれた姓名が個人かどうか判定する。
【0011】
【発明の実施の形態】
次に、本発明の実施の形態について図面を参照して説明する。
【0012】
図1は本発明の一実施形態の名義解析装置の構成図、図2はその処理を示すフローチャートである。
【0013】
姓辞書16には、表1に示すように、単語、読み、種別(姓、外国人名、姓読み、法人種別、職種、英字など)、頻度(出現頻度)からなる情報が格納されている。姓辞書16を検索した結果、種別が姓、外国人名、姓読み、英字の場合は個人名の可能性があるが、法人種別や職種の場合は個人名の可能性がないので、個人名解析を終了し、法人名解析に進む。名辞書17にも、表2に示すように、単語、読み、種別(名、外国人名、名読み、法人種別、敬称、英字)、頻度(出現頻度)からなる情報が格納されている。
【0014】
【表1】
Figure 0004076900
【0015】
【表2】
Figure 0004076900
単語辞書18には、表3に示すように、単語とその品詞、意味等が登録されている。
【0016】
【表3】
Figure 0004076900
個人・法人判断テーブル19には、表4に示すように、項目、点数、例からなる情報が格納されている。これら辞書16〜18および個人/法人判断テーブル19は記憶装置(不図示)に記憶されている。
【0017】
【表4】
Figure 0004076900
名義入力部11は例えばキーボードで名義を入力する(ステップ21)。個人名解析部12は入力された名義を、姓辞書16と名辞書17を用いて姓と名に分割する(ステップ22)。図3はその具体的な処理の流れを示している。まず、入力された名義の先頭から姓辞書16中の単語と一致するものを検索する(ステップ31)。検索した結果、種別が法人種別や職種の場合はその時点で個人ではないと判断して処理を終了する(ステップ32)。検索した結果、種別が姓の場合、入力された名義と後方一致する単語を名辞書17から検索する(ステップ33)。検索した結果は次のいずれかになる。
【0018】
▲1▼姓名ともに辞書にあり、区切り方は1通り
例:佐藤/隆
▲2▼姓名ともに辞書にあり、区切り方は複数
例:平/沢二郎、平沢/二郎
▲3▼姓または名のみに辞書あり(入力された名義と前方一致する単語が姓辞書にあり、後方一致する単語が名辞書にない、または入力された名義と前方一致する単語が姓辞書になく、後方一致する単語が名辞書にある)、1通り
例:小野/敬英(「小野」は姓辞書にあり、「敬英」は名辞書にない)
▲4▼姓または名のみ辞書にあり、複数通り
例:小野/田鶴子、小野田/鶴子(「小野」と「小野田」が姓辞書にあり、「田鶴子」も「鶴子」も名辞書にない)
▲5▼姓も名も辞書にない
▲6▼姓、未使用文字、名(敬称含む)
▲6▼の場合は未使用文字でもう一度名辞書17を検索する。その結果、辞書にあった場合、次の場合が考えられる。これらは▲1▼または▲2▼と同じように扱う。
▲7▼姓、名、名 (連名の場合)
例:鈴木/太郎/花子
▲8▼姓、ミドルネーム、名 (外国人名の場合)
例:クリスティーナ・真理子・アンダーソン
▲9▼姓、名、敬称
例:鈴木/太郎/社長
【0019】
辞書にない場合は、次の場合が考えられる。
A.姓または名が外国人名の場合
ミドルネームと考えられるので、▲1▼▲2▼と同じ扱いになる。
例:クラーク・デビット・ウイリアム
B.それ以外
辞書にない部分は姓または名の一部になると考え▲4▼と同じ扱いをする。
例:「小野安隆」の場合
小野/安/隆(姓辞書16に小野、名辞書17に隆がある)となるが、日本人名なので姓名の組み合わせになるはずなので
小野/安隆
小野安/隆
の2通りの解があると考える。
【0020】
結局、以下の5通りになる。
▲1▼姓名ともに辞書にあり、区切り方は1通り
例:佐藤/隆
▲2▼姓名ともに辞書にあり、区切り方が複数通り
例:平/沢二郎、平沢/二郎
▲3▼姓または名のみ辞書にあり、1通り
例:小野/敬英
▲4▼姓または名のみ辞書にあり、複数通り
例:小野/田鶴子、小野田/鶴子
小野/安隆、小野安/隆
▲5▼姓も名も辞書にない
次に、区切り方の候補を一つにする(ステップ34)。
【0021】
▲2▼の場合は単に、姓名辞書16に登録してある頻度情報が大きい解に絞り込む。▲4▼の場合は未使用文字の少ない解に絞り込む。同じ文字数の場合は頻度情報が大きい解に絞り込む。さらに、個人判定(ステップ35)では、姓も名(ミドルネーム、敬称も含む)辞書にあり、かつ、次のような名と職種と多義のある場合以外は個人と判定する。名と職種の多義の例には、▲1▼銀行(「かねゆき」と読めば個人) ▲2▼信金(「のぶかね」と読めば個人)などがある。
【0022】
個人と判定された場合は法人名解析を行わない。
【0023】
本発明では個人の解析が高速に行われることを前提にしているので、前方一致する単語を1度に求める必要がある。そこで、図5に示すようなNEXTポインタを導入し、次に最長一致する単語へのポインタをあらかじめ登録することによって、実現する。NEXTポインタは後ろから1文字づつを削って、単語が辞書にあった場合のレコード番号を登録する。実際には相対番号を登録することによって領域を小さくすることができる。
【0024】
例えば、「平沢」の場合は後ろから1文字削除した「平」へのポインタを登録しておく。この場合は「平沢」のレコード番号30と「平」のレコード番号10の相対レコード番号である20を登録しておく。
【0025】
名辞書17の場合は後方に一致する単語をすべて求めるため、前から1文字づつ削除した単語へのポインタを登録する(図6)。「喜久二郎」の場合、前から1文字削除した「久二郎」は辞書にないのでさらに削除した「二郎」へのポインタを登録しておく。
【0026】
NEXTポインタをあらかじめ登録しておくことにより「平沢二郎」を姓辞書16で前方一致検索すると、まず「平沢」が見つかり、「平沢」のレコード番号30とNEXTポインタ20から次に一致する単語がレコード番号10にある単語「平」であることがわかり、これをNEXTポインタが0になるまで繰り返すことにより前方一致する単語が一度に求まる。また、名辞書17で後方一致検索をすれば同様にして「沢二郎」と「二郎」が見つかる。
【0027】
個人の解析は辞書に単語があれば、姓と名を2回の検索で終了するはずである。そのために、辞書の構成を工夫して、入力文字列と前方一致する単語を一度に求めるようにすれば可能である。具体的には姓・名辞書16、17に次に最長一致する単語へのポインタを登録しておき、一度辞書を検索するだけで入力文字列と前方一致する単語をすべて求められるようにする。このような辞書を用いれば個人の解析は高速になる。例えば、姓・名辞書16、17がともに95%の単語をカバーしているとすれば、約90%の個人名は2回の辞書検索で終了する。
【0028】
このとき、姓辞書16に企業特有の単語を登録することにより、個人名の判断をすれば、名辞書17を検索する必要がなくなり、さらに高速になる。
【0029】
次に、法人名解析を行う(ステップ23)。まず、単語辞書18により名義を単語分割(ステップ41)、単語の意味を設定する(ステップ42)。
【0030】
具体的には特開平9−44489号公報に記載された方法を用いる。この方法を図7に示すフローチャートにより説明する。入力された文字列に対し最長一致検索を行い、最初の解を求める(ステップ101)入力の最後まで解析した後、解評価ルール(表5)を用い最初の解の評価を行い、文字位置毎にコストを求める(ステップ102)。
【0031】
【表5】
Figure 0004076900
さらに、最後の単語からバックトラックし、別解を求める(ステップ103)。単語辞書18を検索することにより、次に最長一致する単語を検索する(ステップ104)。解評価ルール(表5)を参照して、検索した単語で、その時点のコストを評価する(ステップ105)。評価したコストが最良解の、その文字位置でのコストよりも(評価予測誤差の範囲内で)良い場合は、そのまま解析を続行し、悪い場合には、ステップ103に戻る。
【0032】
現在解析している入力文字列の位置から入力の最後までの評価値は、最良解を参考に決めているものの必ずしも最良解と同じにはならないので、予測誤差を加味し、最良解のコスト+α(αは実際のデータ実験で決定する)と比較すべき値とする(ステップ106)。この値により現在の解候補のコストが悪い場合は、現在のその解候補を棄却し、バックトラックして新しい別解を検索する。現在の解候補のコストが最良解のコストより良い場合には、ステップ107に移行する。文字列が終了すれば(ステップ107)、処理を終了し、評価すべき文字列がある場合には、ステップ108に移行する。ステップ108では次の入力文字の処理としてステップ110に移行する。ステップ104において単語がない場合にはバックトラックを行ない、ステップ103に移行する(ステップ109)。ステップ110では新規の単語辞書18を検索し、ステップ104に移行する。
【0033】
次に、組織区切りルールにより支店名・部門名を分割する(ステップ43)。具体的には特開平10−283355号公報に記載された方法を用いる。この方法を図8に示すフローチャートにより説明する。分割される前の文字列に対して、ルール照合位置を先頭から末尾までずらしがらそれ以下の処理を繰返す(ステップ201)。次に、区切りルール(表6)を記憶した区切りルール記憶部から1つずつルールを取り出し(ステップ202)、入力文の照合位置でそのルールと合致するか否かをチェックする(ステップ203)。
【0034】
【表6】
Figure 0004076900
すなわち、出力された文字列(単語に分割されている)に対して、先頭単語から末尾まで順に区切りルール記憶部から順にルールを取り出し、入力文の照合位置でルールと合致するか否かをチェックする。パターンにマッチしたならば(ステップ205)、次の区切り位置が掲載の末尾であるか否かを判断し(ステップ206)、末尾であれば、区切りを入れずに、次のルールを取り出す(ステップ207)。また、区切り位置が掲載の末尾でなければ、指定された位置で区切る(ステップ204)。例えば、『多摩農協武蔵野支所』という入力に対して単語分割の結果、『多摩/農協/武蔵野/支所』となる。この結果に対して、先ず先頭の単語『多摩』で一致するルールは無いため、次の単語『農協』で一致するルールを探す。その結果、末尾後で一致するルール中の『農協』で区切るルールに一致するので、『多摩農協/武蔵野支所』と組織の区切りを付与する(ステップ204)。ただし、照合した位置が末尾の場合には、そこで区切りを入れても無意味であるため、次のルールに進む。例えば、『多摩農協』の場合には、『農協』の後に区切りを入れても無意味であるため、ここでは区切りを入れずに次のルールに進む。
【0035】
次に、名義に法人固有の単語(職種、法人種別、語尾など)が含まれるときと、支店名や部門名が含まれていたとき法人名と判断する(ステップ44)。それ以外は不明として次に進む。
【0036】
次に、個人名解析と法人名解析の結果を総合して判断する(ステップ24)。判断ルールは個人・法人判断テーブル19(表4)に定義された点数によって行う。ここでは点数が多いほど個人で、少ないほど法人であると定義している。
【0037】
最後に、解析結果をディスプレイ、プリンタ等に出力する(ステップ25)。
【0038】
なお、本発明は専用のハードウェアにより実現されるもの以外に、その機能を実現するためのプログラムを、コンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行するものであってもよい。コンピュータ読み取り可能な記録媒体とは、フロッピーディスク、光磁気ディスクCD―ROM等の記録媒体、コンピュータシステムに内蔵されるハードディスク装置等の記憶装置を指す。さらに、コンピュータ読み取り可能な記録媒体は、インターネットを介してプログラムを送信する場合のように、短時間の間、動的にプログラムを保持するもの(伝送媒体もしくは伝送波)、その場合のサーバとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含む。
【0039】
【発明の効果】
以上説明したように、本発明は、高速に名義の種別を判断し、姓名あるいは支店部門名分割を行うので、名寄せや顧客検索の情報として使用することができる。
【図面の簡単な説明】
【図1】本発明の一実施形態の名義解析装置の構成図である。
【図2】図1に示した名義解析装置の処理の流れを示すフローチャートである。
【図3】個人名解析部の処理の流れを示すフローチャートである。
【図4】法人名解析部の処理の流れを示すフローチャートである。
【図5】姓辞書のNEXTポインタの説明図である。
【図6】名辞書のNEXTポインタの説明図である。
【図7】図4のステップ41、42の具体的処理を示すフローチャートである。
【図8】図4のステップ43の具体的処理を示すフローチャートである。
【符号の説明】
11 名義入力部
12 個人名解析部
13 法人名解析部
14 個人法人判断部
15 解析結果出力部
16 姓辞書
17 名辞書
18 単語辞書
19 個人・法人判断テーブル
21〜25、31〜35、41〜44 ステップ
101〜108、201〜207 ステップ

Claims (10)

  1. 名義を解析し、名義の種別および構成要素を出力する名義解析装置であって、
    単語と、該単語の読みと、該単語が個人名を構成しうるか否かを示す種別と、頻度からなるデータが記録され、少なくとも前記種別の一種別として姓を有する姓辞書を記憶している姓辞書記憶手段と、
    単語と、該単語の読みと、該単語が個人名を構成しうるか否かを示す種別と、頻度とからなるデータが記録され、少なくとも前記種別の一種別として名を有する名辞書を記憶している名辞書記憶手段と、
    名義データを入力するための手段と、
    該入力された名義データと単語もしくは読みの一部が前方一致する単語を前記姓辞書からすべて検索し、一致する単語が存在した場合に、その種別によって、該一致する単語が個人名を構成しうる種別であるか否かを判定し、前記一致する単語が個人名を構成しうる種別である(以下、姓候補と記す)場合、前記入力された名義データと単語もしくは読みの一部が後方一致する単語を前記名辞書からすべて検索し、前記一致する単語が個人名を構成しうる種別である単語(以下、名候補と記す)を抽出し、姓候補のみ、または名候補のみ、または姓候補と名候補のみの組み合わせ(姓候補/名候補)のいずれかにより名義データを構成可能な姓候補と名候補が存在するか否かを判定する処理手段と、
    該処理手段で存在するとの判定がなされた場合に、名義データが個人名であるとする判定結果を出力する手段を有することを特徴とする名義解析装置。
  2. 前記処理手段は、名義データを構成可能な姓候補と名候補が複数存在する場合に、前記それぞれの候補に対応する辞書記憶手段に記憶されている頻度を参照し頻度が1番大きいものに絞り込む手段をさらに有することを特徴とする請求項記載の名義解析装置。
  3. 前記処理手段は、姓候補と名候補のみの組み合わせにより名義データを構成可能な姓候補と名候補の組が存在しない場合に、名義データが姓候補にも、名候補にも含まれない文字(以下、未使用文字と記す)を含む組み合わせ(姓候補/未使用文字/名候補)で構成可能な場合、該未使用文字と単語もしくは読みの一部が後方一致する単語を前記名辞書から一度にすべて検索し、前記一致する単語が個人名を構成しうる種別である単語(以下、第2名候補と記す)を抽出し、(姓候補/第2名候補/名候補)の組み合わせにより名義データを構成可能な組が存在するか否かを判定する手段をさらに有することを特徴とする請求項記載の名義解析装置。
  4. 前記姓辞書が、登録されている単語の種別として、外国人名、姓読み、英字をさらに有し、
    前記処理手段で、前記個人名を構成しうる種別は、姓、外国人名、姓読み、英字のいずれかであることを特徴とする請求項記載の名義解析装置。
  5. 前記姓辞書が、複数文字で構成される種別として姓を有する単語に対して、該単語の最後の一字を削除した単語と等しい単語で、かつ種別として姓を有する単語の単語レコードとの相対位置をさらに有し、
    前記処理手段は、名義データと単語もしくは読みの一部が前方一致する単語を前記姓辞書から検索する際に、最長の一致単語を1つ見つけることにより、すべての候補を一度で検索する手段を有することを特徴とする請求項記載の名義解析装置。
  6. 前記姓辞書に登録されている単語の種別として、法人種別、職種を含む企業特有の種別をさらに有し、
    前記処理手段は、単語もしくは読みの一部が前方一致する単語を前記姓辞書から一度にすべて検索し、一致する単語が存在し、その種別が企業特有の種別の場合に個人名の解析を終了することを特徴とする請求項記載の名義解析装置。
  7. 前記名辞書に登録されている種別として、外国人名、名読み、英字、敬称をさらに有し、
    前記個人名を構成しうる種別は、名、外国人名、名読み、英字、敬称のいずれかであることを特徴とする請求項記載の名義解析装置。
  8. 前記名辞書は、複数文字で構成される種別として名を有する単語に対して、該単語の最初の一字を削除した単語と等しい単語で、かつ種別として名を有する単語の単語レコードとの相対位置がさらに登録されており、
    前記処理手段は、名義データと単語もしくは読みの一部が後方一致する単語を前記名辞書から検索する際に、最長の一致単語を1つ見つけることにより、すべての候補を一度で検索する手段を有することを特徴とする請求項記載の名義解析装置。
  9. コンピュータ、請求項からのいずれか1項記載の名義解析装置の各手段として機能させることを特徴とするプログラム。
  10. コンピュータ、請求項からのいずれか1項記載の名義解析装置の各手段として機能させるプログラムを格納したことを特徴とする記録媒体。
JP2003114374A 2003-04-18 2003-04-18 名義解析方法、装置、およびプログラム Expired - Lifetime JP4076900B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003114374A JP4076900B2 (ja) 2003-04-18 2003-04-18 名義解析方法、装置、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003114374A JP4076900B2 (ja) 2003-04-18 2003-04-18 名義解析方法、装置、およびプログラム

Publications (2)

Publication Number Publication Date
JP2004318699A JP2004318699A (ja) 2004-11-11
JP4076900B2 true JP4076900B2 (ja) 2008-04-16

Family

ID=33473991

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003114374A Expired - Lifetime JP4076900B2 (ja) 2003-04-18 2003-04-18 名義解析方法、装置、およびプログラム

Country Status (1)

Country Link
JP (1) JP4076900B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5537124B2 (ja) * 2009-11-06 2014-07-02 株式会社ミクシィ・リクルートメント 姓名による属性解析方法、プログラム及びシステム
JP6582464B2 (ja) * 2015-03-17 2019-10-02 大日本印刷株式会社 情報入力装置、およびプログラム
CN115270800B (zh) * 2022-09-28 2023-03-24 广州市玄武无线科技股份有限公司 终端门店名称的提取方法、装置、设备和计算机存储介质

Also Published As

Publication number Publication date
JP2004318699A (ja) 2004-11-11

Similar Documents

Publication Publication Date Title
Hill et al. Quantifying the impact of dirty OCR on historical text analysis: Eighteenth Century Collections Online as a case study
US7424421B2 (en) Word collection method and system for use in word-breaking
KR101219366B1 (ko) 명백한 지리적 언급의 분류
US8856119B2 (en) Holistic disambiguation for entity name spotting
CN1975721B (zh) 用于管理内容文件信息的方法和装置
JPS60502175A (ja) 索引項目の発見方法
JP3803961B2 (ja) データベース生成装置、データベース生成処理方法及びデータベース生成プログラム
JP4640593B2 (ja) 多言語文書検索装置および多言語文書検索方法、並びに、多言語文書を検索するプログラム
JPH0782504B2 (ja) 情報検索処理方式および検索ファイル作成装置
JP4076900B2 (ja) 名義解析方法、装置、およびプログラム
US20100205175A1 (en) Cap-sensitive text search for documents
JPH11259515A (ja) 類似文書検索装置、類似文書検索方法、および類似文書検索のためのプログラムが記録された記録媒体
JP2006251975A (ja) テキスト分類方法ならびにその方法によるプログラム、およびテキスト分類装置
JP2005010848A (ja) 情報検索装置、情報検索方法、情報検索プログラム、及び記録媒体
JP3552318B2 (ja) 文書検索方法およびシステム
US9846739B2 (en) Fast database matching
JP2002108888A (ja) ディジタルコンテンツのキーワード抽出装置、方法及びコンピュータ読み取り可能な記録媒体
JP2002183195A (ja) 概念検索方式
JPH07296005A (ja) 日本語テキスト登録・検索装置
JP2000076254A (ja) キーワード抽出装置、このキーワード抽出装置を用いた類似文献検索装置、キーワード抽出方法及び記録媒体
Georgala et al. Record linkage in medieval and early modern text
JP2008518345A (ja) データ処理システム及びデータ処理方法
JP2004506960A (ja) 蓋然論マッチング・エンジン
JPH11259487A (ja) 類似文書検索装置、類似文書検索方法、および類似文書検索のためのプログラムが記録された記録媒体
JPH07109603B2 (ja) 情報検索処理方式および検索ファイル作成装置

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20050617

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050808

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20050808

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20070201

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070704

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070903

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20071024

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071220

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20080109

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080129

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080130

R151 Written notification of patent or utility model registration

Ref document number: 4076900

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110208

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110208

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120208

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130208

Year of fee payment: 5

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term