JP4415768B2 - 住所テーブル生成支援方法及び装置及びプログラム - Google Patents

住所テーブル生成支援方法及び装置及びプログラム Download PDF

Info

Publication number
JP4415768B2
JP4415768B2 JP2004178309A JP2004178309A JP4415768B2 JP 4415768 B2 JP4415768 B2 JP 4415768B2 JP 2004178309 A JP2004178309 A JP 2004178309A JP 2004178309 A JP2004178309 A JP 2004178309A JP 4415768 B2 JP4415768 B2 JP 4415768B2
Authority
JP
Japan
Prior art keywords
character
reading
notation
word
kanji
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2004178309A
Other languages
English (en)
Other versions
JP2006004069A (ja
Inventor
成人 岩瀬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2004178309A priority Critical patent/JP4415768B2/ja
Publication of JP2006004069A publication Critical patent/JP2006004069A/ja
Application granted granted Critical
Publication of JP4415768B2 publication Critical patent/JP4415768B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Description

本発明は、住所テーブル生成支援方法及び装置及びプログラムに係り、特に、住所文字列を解析して住所コードを得るシステムにおいて、住所マスタテーブルから検索用の住所辞書を作る際の異表記データを自動的に得るための住所テーブル生成支援方法及び装置及びプログラムに関する。
従来、入力された文字列と検索すべき住所文字列の双方に対し、清音化(が→「か」等、濁音・半濁音を清音にする)、大文字化(ゃ→「や」等、小文字を大文字する)、ひらがな→カタカナ変換(カナ変換ルール利用)等同じ正規化を施すことにより表記揺らぎに対処している。これにより、例えば、住所マスタテーブルの文字列「ナカシマ」「四ッ谷」「緑ヶ丘」のような地名に対して正規化を施すと、「ナカシマ」「四ツ谷」「緑カ丘」となる。一方、入力文字列「ナカジマ」「四ッ谷」「緑が丘」に対しても正規化することにより、「ナカシマ」「四ツ谷」「緑カ丘」となり、住所テーブルを検索することができる(例えば、非特許文献1,2参照)。
獅々堀正幹、青江順一、1993 「カタカナ異表記の生成及び統一手法」自然言語処理研究会,94-5, 1993 久保村千明、亀田弘之、「片仮名異表記処理能力を備え持つ情報検索システム」電子情報通信学会思考と言語研究会、2000年12月
住所における異表記には主に次のような場合がある。
(1)異体字、ひらがなとカタカナ、仮名の小文字・大文字、漢数字と算用数字(1桁の場合)
(2)「緑が丘、緑ヶ丘、緑丘」「堀ノ内、堀之内、堀内」「四ッ谷、四谷」等の表記揺れ
(3)複合語地名の単位詞省略「条」「通」の省略
(4)2桁数字、代字(「壱弐参」のこと)
(5)複合語地名の「字」「大字」省略
(6)送り仮名
住所文字列の解析では、複数単語を単語の区切り無しに入力することを前提にするため、正規化により表記揺らぎに対処できるのは上記(1)に相当する1文字対1文字の正規化のみである。具体的には「竃」→「釜」等の異字体変換、ひらがな→カタカナ変換、漢数字→算用数字変換(1文字毎)などの正規化を行なえば(1)の表記の揺らぎがあっても住所テーブルを検索できる。しかし、(2)以降の場合に相当する正規化処理を施すとうまく検索できない。特に、単語の区切りを跨いで正規化すると正しく解析できない。
例えば、「茅野市ちの上原」という入力に、(2)に相当する正規化である「の上」→「上」の変換を行うと、「茅野市ち上原」となり、「ち上原」は住所テーブルに存在しないので正しく解析できない。
そこで、入力される可能性のある異表記を派生して住所テーブルに予め登録すれば(2)〜(6)のような複数文字に対する表記ゆらぎがある文字列が入力されても検索できる。しかも住所テーブルで派生する方法は単語単位での変換なので、単語区切を跨ぐ心配がない。そこで、住所マスタテーブルに登録されている住所を解析して住所テーブルに派生した住所を登録することで対処すればよいが、表記文字列だけを参照したり、前後の単語の構成を考えずに派生すると、以下のような問題がある。
まず、(2)については、「緑が丘」→「緑ヶ丘」「緑丘」は、単文字変換及び文字の削除のため問題ないが、「緑丘」に対して「緑が丘」「緑ヶ丘」を派生するためには文字の追加をする必要がある。ところが、「丘」があれば常に「が丘」を派生するとは限らない。さらに、読みに「ガオカ」があっても「永丘:ナガオカ」「春日丘:カスガオカ」の場合は「ヶ」を挿入して派生してはならない。
(3)については、「駅前一丁目(これで字名)」「一番町「一の町」「第1地割」「〜町二条」のように色々な単位詞があり、これらを“丁目”のような感覚で「駅前1−」「1−」「1の」「第1−」「〜町」と省略する。さらに「第」も省略して「第1」→「1−」と省略する。また、「条」だけでは省略されないが、「北三条西二丁目」と複合語になると「北3西2」のように省略する言い方もある。また、「○条通」が「○条」になる場合もある。
(4)については、単に1文字置換ではなく「二十三」→「23」、「十三」→「13」で「十」の扱いを変える必要がある。また、「壱弐参」は一般地名にも使われている(例:「壱町」「周参見」)ので、「壱区」「壱之町」のように単位詞が接続することをチェックする必要がある。
(5)については、「安佐町大字飯室」→「安佐町飯室」のように「字」「大字」を削除して派生するが、読みをチェックしないと間違える場合がある。例えば、「十文字町」「万字寿町」などで「字」を削除して派生してはならない。
(6)については、「中央通」に対して、「中央通り」と入力される場合が相当する。この場合は、送り仮名「り」を追加した表記を登録する必要があるが、「通」があれば常に「り」を追加していいわけではない。例えば、「流通団地」に「通」があるからといって送り仮名「り」を追加してはならない。
以上のように住所表記のみを参照しても必要な異表記のみを派生することができない。
本発明は、上記の点に鑑みなされたもので、複数文字列の揺らぎのある入力に対しても住所を解析できる住所テーブル生成支援方法及び装置及びプログラムを提供することを目的とする。
図1は、本発明の第1の原理を説明するための図である。
本発明(請求項1)は、住所解析装置に用いる住所データを生成する住所テーブル生成支援方法において、
文字情報記憶手段には、1文字の漢字、該1文字の漢字の読み、該読みの中の表記の無い読みについての情報と、該漢字の字種が、該1文字の漢字毎に登録されている文字情報テーブルがあり、
該読みの中の表記の無い読みについての情報には、表記の無い読みの有無と、表記の無い読みがある場合は該表記の無い読みが1文字の漢字の先頭にあるのか末尾にあるのかの情報と、該表記の無い読みが1文字の漢字の末尾にある場合は、該表記の無い読みが送り仮名であるか否かの情報があり、
該1文字の漢字の字種には、漢字であるか、または、派生対象の仮名であるか、または、複合語地名の接頭語であるかの情報があり、
読み解析手段正式住所データが入力されると、
文字情報記憶手段に格納されている文字情報テーブルを用いて、該文字情報テーブルに登録されている1文字の漢字と該1文字の漢字の読みとを、該正式住所データの表記1文字毎の表記と読みに対応付けることにより、該正式住所データの表記1文字に対応付けられた該文字情報テーブルの該表記1文字の漢字に登録されている表記の無い読みについての情報と、該漢字の字種を用いて、
表記の無い読みについての情報が表記の無い読みが1文字の漢字の先頭にあるという場合は、該正式住所データの表記1文字の漢字の前に表記無しの読みがあるとし、
表記の無い読みについての情報が表記の無い読みが1文字の漢字の末尾にあるという場合は、該正規住所データの表記1文字の漢字の後ろに表記無し読みがあるとし、
表記の無い読みについての情報が表記の無い読みが無いという場合は、該正式住所データの表記1文字の漢字には表記無しの読みが見つからないと判断し、
表記の無い読みについての情報が表記の無い読みが1文字の漢字の末尾にあり、該表記の無い読みが送り仮名であるという場合は、該正式住所データの表記1文字の漢字の後ろに送り仮名が無いと判断し、
漢字の字種が複合語地名の接頭語である場合は、該正式住所データの表記1文字の漢字が複合語地名の接頭語であると判断する解析ステップ(ステップ1)と、
異表記手段が解析ステップの判断結果を取得すると、
正式住所データの1文字の読みに対する表記が無い場合の第1の派生ルール、該正式住所データの1文字の表記に対する第2の派生ルール、該正式住所データの1文字の表記と読みに対する第3の派生ルールを格納した派生ルール記憶手段を参照し、解析ステップにおいて、該正式住所データの表記1文字の漢字の前に表記無しの読みがあるとするか、該正式住所データの表記1文字の漢字の後ろに表記無しの読みがあるとした場合は、該第1の派生ルールを用い、
該正式住所データの表記1文字の漢字には表記無しの読みが見つからないと判断した場合は、該第2の派生ルールを用い、
該正式住所データの表記1文字の漢字の後ろに送り仮名が無いと判断した場合、及び、該正式住所データの表記1文字の漢字が複合語地名の接頭語であると判断した場合は、該第3の派生ルールを用いて異表記住所を派生し、住所テーブルに格納する異表記派生ステップ(ステップ2)と、を行う。
また、本発明(請求項2)は、第1の派生ルールは、前記正式住所データの表記1文字の表記の無い読みについての情報が、表記の無い読みが1文字の漢字の先頭または末尾にあるとなった場合に、前記正式住所データの表記1文字の前または後ろに、正式住所データの表記1文字の表記の無い読みに応じた派生文字を派生するルールであり、
第2の派生ルールは、正式住所データの表記1文字の表記の無い読みについての情報が、表記の無い読みが無いとなった場合に、正式住所データの表記1文字について、正式住所データの表記1文字の表記に応じて削除、及び、置換を行うルールであり、
第3の派生ルールは、正式住所データの表記1文字の表記の無い読みについての情報が、表記の無い読みが1文字の漢字の末尾にあり、かつ、該表記の無い読みが送り仮名であるとなった場合に、正式住所データの表記1文字の後ろに、正式住所データの表記1文字の表記に応じた派生文字を派生するルール、
または、
正式住所データの表記1文字の表記についての情報が、字種が複合語地名の接頭語の場合に、正式住所データの表記1文字を削除する派生ルールである。
図2は、本発明の第2の原理を説明するための図である。
本発明(請求項3)は、住所解析装置に用いる住所データを生成する住所テーブル生成支援方法において、
表記解析手段に、正式住所データが入力されると、単語記憶手段に格納されている単語辞書を参照して、該正式住所データを単語に分割し、該単語の品詞を取得する表記解析ステップ(ステップ11)と、
派生ルール記憶手段には単語を削除・変換する派生ルールが格納され、
単語を削除・変換する派生ルールは、
分割された単語と該単語の品詞に基づいて、該単語に漢数字や代字が含まれている場合は、算用数字変換、該単語に接頭語が含まれている場合には該接頭語を削除する接頭語削除、該単語に接尾語が含まれている場合は該接尾語を削除する接尾語削除、該単語に単位詞が含まれている場合には該単位詞を削除する単位詞削除、該単語が複合語であり複合語に単位詞が含まれている場合は該単位詞を削除する複合語削除、該単語に送り仮名が含まれている場合は該送り仮名を削除する送り仮名削除を行うルールであり、
異表記派生手段が、分割された単語を取得すると、該分割された単語と該単語品詞に基づいて、単位詞や接頭語や接尾語や住所付属語に対する派生方法が登録されている、単語を削除・変換する派生ルールを格納した派生ルール記憶手段を参照し、該単語に漢数字や代字が含まれている場合は、該漢数字や代字を算用数字に変換する算用数字変換、該単語に接頭語が含まれている場合は接頭語を削除する接頭削除、該単語に接尾語が含まれている場合は該接尾語を削除する接尾語削除、該単語に単位詞が含まれている場合は該単位詞を削除する単位詞削除、該単語が複合語であり該複合語に単位詞が含まれている場合は該単位詞を削除する複合語単位詞削除、該単語に送り仮名が含まれている場合は該送り仮名を削除する送り仮名削除のいずれかの処理、または、それらを組み合わせた処理を行い、異表記住所を派生し、住所テーブルに登録する異表記派生ステップ(ステップ12)と、
を行う。
図3は、本発明の第1の原理構成図である。
本発明(請求項)は、住所解析装置に用いる住所データを生成する住所テーブル生成支援装置であって、
1文字の漢字、該1文字の漢字の読み、該読みの中の表記の無い読みについての情報と、該漢字の字種が、該1文字の漢字毎に登録されている文字情報テーブルを有する文字情報記憶手段を有し、該文字情報テーブルは、
該読みの中の表記の無い読みについての情報には、表記の無い読みの有無と、表記の無い読みがある場合は該表記の無い読みが1文字の漢字の先頭にあるのか末尾にあるのかの情報と、該表記の無い読みが1文字の漢字の末尾にある場合は、該表記の無い読みが送り仮名であるか否かの情報と、
該1文字の漢字の字種には、漢字であるか、または、派生対象の仮名であるか、または、複合語地名の接頭語であるかの情報と、を有し、
正式住所データが入力されると、
文字情報記憶手段に格納されている文字情報テーブルを用いて、該文字情報テーブルに登録されている1文字の漢字と該1文字の漢字の読みとを、該正式住所データの表記1文字毎の表記と読みに対応付けることにより、該正式住所データの表記1文字に対応付けられた該文字情報テーブルの該表記1文字の漢字に登録されている表記の無い読みについての情報と、該漢字の字種を用いて、
表記の無い読みについての情報が表記の無い読みが1文字の漢字の先頭にあるという場合は、該正式住所データの表記1文字の漢字の前に表記無しの読みがあるとし、
表記の無い読みについての情報が表記の無い読みが1文字の漢字の末尾にあるという場合は、該正規住所データの表記1文字の漢字の後ろに表記無し読みがあるとし、
表記の無い読みについての情報が表記の無い読みが無いという場合は、該正式住所データの表記1文字の漢字には表記無しの読みが見つからないと判断し、
表記の無い読みについての情報が表記の無い読みが1文字の漢字の末尾にあり、該表記の無い読みが送り仮名であるという場合は、該正式住所データの表記1文字の漢字の後ろに送り仮名が無いと判断し、
漢字の字種が複合語地名の接頭語である場合は、該正式住所データの表記1文字の漢字が複合語地名の接頭語であると判断する読み解析手段23と、
正式住所データの1文字の読みに対する表記が無い場合の第1の派生ルール、該正式住所データの1文字の表記に対する第2の派生ルール、該正式住所データの1文字の表記と読みに対する第3の派生ルールを格納した派生ルール記憶手段25を参照し、解析手段23において、該正式住所データの表記1文字の漢字の前に表記無しの読みがあるとするか、該正式住所データの表記1文字の漢字の後ろに表記無しの読みがあるとした場合は、該第1の派生ルールを用い、
該正式住所データの表記1文字の漢字には表記無しの読みが見つからないと判断した場合は、該第2の派生ルールを用い、
該正式住所データの表記1文字の漢字の後ろに送り仮名が無いと判断した場合、及び、該正式住所データの表記1文字の漢字が複合語地名接頭語であると判断した場合は、該第3の派生ルールを用いて異表記住所を派生し、住所テーブルに格納する異表記派生手段24と、を有する。
また、本発明(請求項では、第1の派生ルールが、正式住所データの表記1文字の表記の無い読みについての情報が、表記の無い読みが1文字の漢字の先頭または末尾にあるとなった場合に、正式住所データの表記1文字の前または後ろに、正式住所データの表記1文字の表記の無い読みに応じた派生文字を派生するルールであり、
第2の派生ルールが、正式住所データの表記1文字の表記の無い読みについての情報が、表記の無い読みが無いとなった場合に、正式住所データの表記1文字について、正式住所データの表記1文字の表記に応じて削除、及び、置換を行うルールであり、
第3の派生ルールが、正式住所データの表記1文字の表記の無い読みについての情報が、表記の無い読みが1文字の漢字の末尾にあり、かつ、該表記の無い読みが送り仮名であるとなった場合に、正式住所データの表記1文字の後ろに、正式住所データの表記1文字の表記に応じた派生文字を派生するルール、
または、
正式住所データの表記1文字の表記についての情報が、字種が複合語地名の接頭語の場合に、正式住所データの表記1文字を削除する派生ルールである。
図4は、本発明の第2の原理構成図である。
本発明(請求項)は、住所解析装置に用いる住所データを生成する住所テーブル生成支援装置であって、
正式住所データが入力されると、単語記憶手段82に格納されている単語辞書を参照して、該正式住所データを単語に分割し、該単語の品詞を取得する表記解析手段83と、
分割された単語と該単語の品詞に基づいて、該単語に漢数字や代字が含まれている場合は、算用数字変換、該単語に接頭語が含まれている場合には該接頭語を削除する接頭語削除、該単語に接尾語が含まれている場合は該接尾語を削除する接尾語削除、該単語に単位詞が含まれている場合には該単位詞を削除する単位詞削除、該単語が複合語であり複合語に単位詞が含まれている場合は該単位詞を削除する複合語削除、該単語に送り仮名が含まれている場合は該送り仮名を削除する送り仮名削除を行う派生ルールを格納した派生ルール記憶手段85と、
分割された単語を取得すると、該分割された単語と該単語品詞に基づいて派生ルール記憶手段85を参照し、該単語に漢数字や代字が含まれている場合は、該漢数字や代字を算用数字に変換する算用数字変換、該単語に接頭語が含まれている場合は接頭語を削除する接頭削除、該単語に接尾語が含まれている場合は該接尾語を削除する接尾語削除、該単語に単位詞が含まれている場合は該単位詞を削除する単位詞削除、該単語が複合語であり該複合語に単位詞が含まれている場合は該単位詞を削除する複合語単位詞削除、該単語に送り仮名が含まれている場合は該送り仮名を削除する送り仮名削除のいずれかの処理、または、それらを組み合わせた処理を行い、異表記住所を派生し、住所テーブルに登録する異表記派生手段84と、を有する。
本発明(請求項)は、請求項4乃至6のいずれか1項に記載の住所テーブル生成支援装置を構成する各手段としてコンピュータを機能させるための住所テーブル生成支援プログラムである。

上記のように、本発明によれば、異表記を自動的に派生することにより、複数文字列の揺らぎのある入力に対しても住所を解析できるようになる。
また、正式住所の表記と読みを用いて異表記を派生するので、不必要な異表記を派生することはない。
さらに、正規化と派生を組み合わせて住所テーブルを生成し、頻度が多い単文字の揺らぎは正規化により実現するので、住所テーブルのサイズが極端に大きくなることもない。その結果、正規化のように余分な解を出力することなく、住所の解析を高精度に行なうことができる。
以下、図面と共に本発明の実施の形態を説明する。
図5は、住所解析システムの基本構成を示す。同図に示すシステムは、テーブル生成系100と解析系200及び住所テーブル300からなる。従来の手法では、住所マスタファイル101に登録されている正式住所を文字列正規化装置103で正規化して解析用住所テーブル300に登録する。解析時は、住所入力手段201で入力された入力住所を文字列正規化装置202で正規化し、住所テーブル検索装置203で住所テーブル300を検索し、該当する住所コードを求める。
これに対し、本発明では、住所マスタファイル101に登録されている住所を正規化する前に、住所派生部102で揺らぎの可能性のある異表記を正式住所から派生して、住所テーブル300に予め登録する。これにより、複数の揺らぎを持つ入力に対しても解析できるようになる。本発明は、図5における住所派生装置102に対応する。
以下に、詳細に説明する。
[第1の実施の形態]
図6は、本発明の第1の実施の形態における住所テーブル生成支援装置の構成を示す。
住所テーブル生成装置20は、住所の表記と読みを入力する入力部21、住所表記の読みを解析する読み解析部23、漢字1文字毎の読みを登録した文字情報記憶部22、異表記派生部24、派生ルールを登録した派生ルール記憶部25から構成される。
次に、上記の構成における動作を説明する。
図7は、本発明の第1の形態における住所テーブル生成支援処理のフローチャートである。
ステップ101) 入力部21により住所の表記と読みを読み込む。
ステップ102) 次に、読み解析部23が文字情報記憶部22に登録されている文字情報を用いて表記1文字毎の表記の読みの対応付けを行なう。
ステップ103) ステップ102により、「読みに対応する表記がない」、「読みに対する表記あり」、「表記と読みがある」等の結果に基づいて、異表記派生部24において、単語に対する派生ルール記憶部25の派生ルールを検索する。
ステップ104) 異表記派生部24は、検索した結果に基づいて異表記住所を派生する。
以下に、上記の処理を具体的に説明する。
文字情報記憶部22には、図8に示すような内容が登録されている。例えば、「緑丘:ミドリガオカ」が入力されると、「緑→ミドリ」、「丘→ガオカ:先頭に表記なし読みあり」となる(ステップ102)。
次に、異表記派生部24において派生ルール記憶部25に登録された読みに対する派生ルール(図9)を検索し(ステップ103)、住所の異表記を求める(ステップ104)。「緑丘:ミドリガオカ」の場合、表記なしの読み「ガ」が漢字「丘」の先頭にあるので「緑が丘」と「緑ヶ丘」を派生する。その後、文字列正規化装置103の処理により、平仮名→片仮名、小文字→大文字の正規化で「緑ガ丘」「緑ケ丘」となり、これが住所テーブル300に登録される。その結果、「緑が丘」と入力しても正規化で「緑ガ丘」となり、この表記は住所テーブル300に登録されているので正しい住所「緑丘」を求めることができる。
上記の処理の結果を図12に示す。
逆に、「緑ヶ丘」という正式住所に対しては、読み解析処理(ステップ102)では表記なしの読みは見つからない。異表記派生処理(ステップ103,104)では表記に対する派生ルール記憶部25の派生ルール(図10)を参照すると、「ヶ」に対しては「ヶ」を削除した「緑丘」、「ヶ」を「が」の変換した「緑が丘」を派生するルールが見つかる。文字列正規化装置103において、さらに正規化して「緑が丘」を住所テーブル300に登録する。
次に、「緑丘」「緑が丘」と入力された場合、文字列正規化装置103による正規化で「緑丘」「緑が丘」となり、これらの表記は住所テーブル300に登録されているので正しい住所「緑ヶ丘」を求めることができる。
また、正式住所「駅前通」が「駅前通り」となるような送り仮名の揺らぎについても、文字情報に送り仮名付きかを登録し、読み解析処理(ステップ102)で表記に送り仮名があるか判断する。表記に送り仮名がない場合、送り仮名付きの表記を図11に示すように派生する。この場合は、「駅前通り」を派生して住所テーブル300に登録する。一方、「流通団地」の場合は読みが「トオリ」でも「ドオリ」でもないので派生しない。
複合地名に含まれる接頭語「字」の場合も文字情報記憶部22に読みを登録しておくことにより、接頭語の「字」が含まれているか判断し(ステップ102)、含まれている場合は異表記派生で「字」を省略した表記を派生する(ステップ104)。例えば、正式住所「西与賀町字乙」に対して「西与賀町乙」を派生して住所テーブル300に登録する。一方、「十文字町」「万字寿町」「阿字ヶ浦」等の場合は、「字」の読みが「アザ」ではないので派生しない。
上記のような処理を行なうことにより、前述の発明が解決しようとする課題の欄の(2)、(5)の「字」、(6)の「通」の場合が解決する。
[第2の実施の形態]
図13は、本発明の第2の実施の形態における住所テーブル生成装置の構成を示す。
同図に示す住所テーブル生成装置は、図6に示す読み解析部23の代わりに表記解析部83、文字情報記憶部22の代わりに図14に示すような単語記憶部82が備えられ、派生ルール記憶部85には、図15に示すような単位詞や接頭語等に対する派生方法を登録しておく。
図16は、本発明の第2の実施の形態における住所テーブル生成処理のフローチャートである。
ステップ201)入力部21により住所の表記と読みを読み込む。
ステップ202) 次に、表記解析部83が入力された地名に基づいて単語記憶部82を参照し、単語毎に品詞を取得する。
ステップ203) 異表記派生部84は、ステップ202で得られた単語に基づいて派生ルール記憶部85の単語を削除・変換する派生ルールを参照する。
ステップ204) 異表記派生部84は、異表記住所を派生する。
以下に、上記の処理を具体的に説明する。
異表記派生処理では、漢数字や代字を算用数字に変換した地名及び派生ルールに登録された地名を派生する。例えば、「壱之町」という入力に対して表記解析処理(ステップ202)では「之町」は単位詞なので、「壱」は代字となる。異表記派生処理(ステップ203,204)では、図14に示す単位詞削除ルールを参照することにより、算用数字変換と単位詞削除、「の町」変換が行われ、「一之町」「一の町」「1−」が派生される。このような処理結果を図17に示す。
また、「第12地割」の場合、表記解析処理(ステップ202)で「地割」が単位詞であることが分かる。異表記派生処理(ステップ203,204)では、図15に示す派生ルールにより「第」省略と「地割」省略が見つかる。その結果、「12地割」「12」が派生される。
「北二十三条西」の場合は、異表記派生処理(ステップ203,204)により、図15に示す派生ルールを参照すると、漢数字変換、複合語の条削除により「北23条西」「北23西」が派生される。
「安佐町大字飯室」の場合には、同様に異表記派生処理(ステップ203,204)により「大字」の派生ルール(削除)により「安佐町飯室」が派生される。
「駅前通り」の場合も「通り」の派生ルール(送り仮名削除)により「駅前通」が派生される。
上記により、前述の発明の解決する課題の欄の(3)、(4)(5)の「大字」、(6)の「通り」の場合が解決する。
また、本発明は、上記の第1の実施の形態と第2の実施の形態を組み合わせて実現することも可能である。
また、上記の動作及び図7、図16の動作をプログラムとして構築し、住所テーブル生成装置として利用されるコンピュータにインストールし、CPU等の制御手段で実行させる、または、ネットワークを介して流通させることも可能である。
なお、本発明は、上記の実施の形態及び実施例に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
本発明は、自然言語処理システムにおける住所解析処理に適用可能である。
本発明の第1の原理を説明するための図である。 本発明の第2の原理を説明するための図である。 本発明の第1の原理構成図である。 本発明の第2の原理構成図である。 住所解析システムの基本構成図である。 本発明の第1の実施の形態における住所テーブル生成支援装置の構成図である。 本発明の第1の実施の形態における住所テーブル生成支援処理のフローチャートである。 本発明の第1の実施の形態における文字情報記憶部のデータの例である。 本発明の第1の実施の形態における派生ルール記憶部の読みに対する派生ルールの例である。 本発明の第1の実施の形態における派生ルール記憶部の表記に対する派生ルールの例である。 本発明の第1の実施の形態における派生した表記の例である。 本発明の第1の実施の形態における実行例である。 本発明の第2の実施の形態における住所テーブル生成支援装置の構成図である。 本発明の第2の実施の形態における単語辞書の例である。 本発明の第2の実施の形態における派生ルール記憶部の単位詞・接頭語の派生ルールである。 本発明の第2の実施の形態における住所テーブル生成支援処理のフローチャートである。 本発明の第2の実施の形態における実行例である。
符号の説明
21 入力手段、入力部
22 文字情報記憶手段、文字情報記憶部
23 読み解析手段、読み解析部
24 異表記派生手段、異表記派生部
25 派生ルール記憶手段、派生ルール記憶部
81 入力手段、入力部
82 単語記憶手段、単語記憶部
83 表記解析手段、表記解析部
84 異表記派生手段、異表記派生部
85 派生ルール記憶手段、派生ルール記憶部
100 テーブル生成系
101 住所マスタファイル
102 住所派生装置
103 文字列正規化装置
104 住所登録装置
200 解析系
201 住所入力手段
202 文字列正規化装置
203 住所テーブル検索装置
300 住所テーブル

Claims (7)

  1. 住所解析装置に用いる住所データを生成する住所テーブル生成支援方法において、
    文字情報記憶手段には、1文字の漢字、該1文字の漢字の読み、該読みの中の表記の無い読みについての情報と、該漢字の字種が、該1文字の漢字毎に登録されている文字情報テーブルがあり、
    該読みの中の表記の無い読みについての情報には、表記の無い読みの有無と、表記の無い読みがある場合は該表記の無い読みが1文字の漢字の先頭にあるのか末尾にあるのかの情報と、該表記の無い読みが1文字の漢字の末尾にある場合は、該表記の無い読みが送り仮名であるか否かの情報があり、
    該1文字の漢字の字種には、漢字であるか、または、派生対象の仮名であるか、または、複合語地名の接頭語であるかの情報があり、
    読み解析手段正式住所データが入力されると、
    文字情報記憶手段に格納されている前記文字情報テーブルを用いて、該文字情報テーブルに登録されている1文字の漢字と該1文字の漢字の読みとを、該正式住所データの表記1文字毎の表記と読み対応付けることにより、該正式住所データの表記1文字に対応付けられた該文字情報テーブルの該表記1文字の漢字に登録されている表記の無い読みについての情報と、該漢字の字種を用いて、
    表記の無い読みについての情報が表記の無い読みが1文字の漢字の先頭にあるという場合は、該正式住所データの表記1文字の漢字の前に表記無しの読みがあるとし、
    表記の無い読みについての情報が表記の無い読みが1文字の漢字の末尾にあるという場合は、該正規住所データの表記1文字の漢字の後ろに表記無し読みがあるとし、
    表記の無い読みについての情報が表記の無い読みが無いという場合は、該正式住所データの表記1文字の漢字には表記無しの読みが見つからないと判断し、
    表記の無い読みについての情報が表記の無い読みが1文字の漢字の末尾にあり、該表記の無い読みが送り仮名であるという場合は、該正式住所データの表記1文字の漢字の後ろに送り仮名が無いと判断し、
    漢字の字種が複合語地名の接頭語である場合は、該正式住所データの表記1文字の漢字が複合語地名の接頭語であると判断する解析ステップと、
    異表記手段が前記解析ステップの判断結果を取得すると、
    前記正式住所データの1文字の読みに対する表記が無い場合の第1の派生ルール、該正式住所データの1文字の表記に対する第2の派生ルール、該正式住所データの1文字の表記と読みに対する第3の派生ルールを格納した派生ルール記憶手段を参照し、前記解析ステップにおいて、該正式住所データの表記1文字の漢字の前に表記無しの読みがあるとするか、該正式住所データの表記1文字の漢字の後ろに表記無しの読みがあるとした場合は、該第1の派生ルールを用い、
    該正式住所データの表記1文字の漢字には表記無しの読みが見つからないと判断した場合は、該第2の派生ルールを用い、
    該正式住所データの表記1文字の漢字の後ろに送り仮名が無いと判断した場合、及び、該正式住所データの表記1文字の漢字が複合語地名の接頭語であると判断した場合は、該第3の派生ルールを用いて異表記住所を派生し、住所テーブルに格納する異表記派生ステップと、
    を行うことを特徴とする住所テーブル生成支援方法。
  2. 前記第1の派生ルールは、前記正式住所データの表記1文字の表記の無い読みについての情報が、表記の無い読みが1文字の漢字の先頭または末尾にあるとなった場合に、前記正式住所データの表記1文字の前または後ろに、前記正式住所データの表記1文字の表記の無い読みに応じた派生文字を派生するルールであり、
    前記第2の派生ルールは、前記正式住所データの表記1文字の表記の無い読みについての情報が、表記の無い読みが無いとなった場合に、前記正式住所データの表記1文字について、前記正式住所データの表記1文字の表記に応じて削除、及び、置換を行うルールであり、
    前記第3の派生ルールは、前記正式住所データの表記1文字の表記の無い読みについての情報が、表記の無い読みが1文字の漢字の末尾にあり、かつ、該表記の無い読みが送り仮名であるとなった場合に、該正式住所データの表記1文字の後ろに、該正式住所データの表記1文字の表記に応じた派生文字を派生するルール、
    または、
    前記正式住所データの表記1文字の表記についての情報が、字種が複合語地名の接頭語の場合に、該正式住所データの表記1文字を削除する派生ルールである
    請求項1記載の住所テーブル生成支援方法。
  3. 住所解析装置に用いる住所データを生成する住所テーブル生成支援方法において、
    表記解析手段に、正式住所データが入力されると、単語記憶手段に格納されている単語辞書を参照して、該正式住所データを単語に分割し、該単語の品詞を取得する表記解析ステップと、
    派生ルール記憶手段には単語を削除・変換する派生ルールが格納され、
    前記単語を削除・変換する派生ルールは、
    前記分割された単語と該単語の品詞に基づいて、該単語に漢数字や代字が含まれている場合は、算用数字変換、該単語に接頭語が含まれている場合には該接頭語を削除する接頭語削除、該単語に接尾語が含まれている場合は該接尾語を削除する接尾語削除、該単語に単位詞が含まれている場合には該単位詞を削除する単位詞削除、該単語が複合語であり複合語に単位詞が含まれている場合は該単位詞を削除する複合語削除、該単語に送り仮名が含まれている場合は該送り仮名を削除する送り仮名削除を行うルールであり、
    異表記派生手段が、前記分割された単語を取得すると、該分割された単語と該単語品詞に基づいて、単位詞や接頭語や接尾語や住所付属語に対する派生方法が登録されている、前記単語を削除・変換する派生ルールを格納した派生ルール記憶手段を参照し、該単語に漢数字や代字が含まれている場合は、該漢数字や代字を算用数字に変換する算用数字変換、該単語に接頭語が含まれている場合は接頭語を削除する接頭削除、該単語に接尾語が含まれている場合は該接尾語を削除する接尾語削除、該単語に単位詞が含まれている場合は該単位詞を削除する単位詞削除、該単語が複合語であり該複合語に単位詞が含まれている場合は該単位詞を削除する複合語単位詞削除、該単語に送り仮名が含まれている場合は該送り仮名を削除する送り仮名削除のいずれかの処理、または、それらを組み合わせた処理を行い、異表記住所を派生し、住所テーブルに登録する異表記派生ステップと、
    を行うことを特徴とする住所テーブル生成支援方法。
  4. 住所解析装置に用いる住所データを生成する住所テーブル生成支援装置であって、
    1文字の漢字、該1文字の漢字の読み、該読みの中の表記の無い読みについての情報と、該漢字の字種が、該1文字の漢字毎に登録されている文字情報テーブルを有する文字情報記憶手段を有し、該文字情報テーブルは、
    該読みの中の表記の無い読みについての情報には、表記の無い読みの有無と、表記の無い読みがある場合は該表記の無い読みが1文字の漢字の先頭にあるのか末尾にあるのかの情報と、該表記の無い読みが1文字の漢字の末尾にある場合は、該表記の無い読みが送り仮名であるか否かの情報と、
    該1文字の漢字の字種には、漢字であるか、または、派生対象の仮名であるか、または、複合語地名の接頭語であるかの情報と、を有し、
    正式住所データが入力されると、
    文字情報記憶手段に格納されている前記文字情報テーブルを用いて、該文字情報テーブルに登録されている1文字の漢字と該1文字の漢字の読みとを、該正式住所データの表記1文字毎の表記と読みに対応付けることにより、該正式住所データの表記1文字に対応付けられた該文字情報テーブルの該表記1文字の漢字に登録されている表記の無い読みについての情報と、該漢字の字種を用いて、
    表記の無い読みについての情報が表記の無い読みが1文字の漢字の先頭にあるという場合は、該正式住所データの表記1文字の漢字の前に表記無しの読みがあるとし、
    表記の無い読みについての情報が表記の無い読みが1文字の漢字の末尾にあるという場合は、該正規住所データの表記1文字の漢字の後ろに表記無し読みがあるとし、
    表記の無い読みについての情報が表記の無い読みが無いという場合は、該正式住所データの表記1文字の漢字には表記無しの読みが見つからないと判断し、
    表記の無い読みについての情報が表記の無い読みが1文字の漢字の末尾にあり、該表記の無い読みが送り仮名であるという場合は、該正式住所データの表記1文字の漢字の後ろに送り仮名が無いと判断し、
    漢字の字種が複合語地名の接頭語である場合は、該正式住所データの表記1文字の漢字が複合語地名の接頭語であると判断する読み解析手段と、
    前記正式住所データの1文字の読みに対する表記が無い場合の第1の派生ルール、該正式住所データの1文字の表記に対する第2の派生ルール、該正式住所データの1文字の表記と読みに対する第3の派生ルールを格納した派生ルール記憶手段を参照し、前記解析手段において、該正式住所データの表記1文字の漢字の前に表記無しの読みがあるとするか、該正式住所データの表記1文字の漢字の後ろに表記無しの読みがあるとした場合は、該第1の派生ルールを用い、
    該正式住所データの表記1文字の漢字には表記無しの読みが見つからないと判断した場合は、該第2の派生ルールを用い、
    該正式住所データの表記1文字の漢字の後ろに送り仮名が無いと判断した場合、及び、該正式住所データの表記1文字の漢字が複合語地名の接頭語であると判断した場合は、該第3の派生ルールを用いて異表記住所を派生し、住所テーブルに格納する異表記派生手段と、
    を有することを特徴とする住所テーブル生成支援装置。
  5. 前記第1の派生ルールは、前記正式住所データの表記1文字の表記の無い読みについての情報が、表記の無い読みが1文字の漢字の先頭または末尾にあるとなった場合に、前記正式住所データの表記1文字の前または後ろに、前記正式住所データの表記1文字の表記の無い読みに応じた派生文字を派生するルールであり、
    前記第2の派生ルールは、前記正式住所データの表記1文字の表記の無い読みについての情報が、表記の無い読みが無いとなった場合に、前記正式住所データの表記1文字について、前記正式住所データの表記1文字の表記に応じて削除、及び、置換を行うルールであり、
    前記第3の派生ルールは、前記正式住所データの表記1文字の表記の無い読みについての情報が、表記の無い読みが1文字の漢字の末尾にあり、かつ、該表記の無い読みが送り仮名であるとなった場合に、前記正式住所データの表記1文字の後ろに、前記正式住所データの表記1文字の表記に応じた派生文字を派生するルール、
    または、
    前記正式住所データの表記1文字の表記についての情報が、字種が複合語地名の接頭語の場合に、前記正式住所データの表記1文字を削除する派生ルールである
    請求項4記載の住所テーブル生成支援装置。
  6. 住所解析装置に用いる住所データを生成する住所テーブル生成支援装置であって、
    正式住所データが入力されると、単語記憶手段に格納されている単語辞書を参照して、該正式住所データを単語に分割し、該単語の品詞を取得する表記解析手段と、
    前記分割された単語と該単語の品詞に基づいて、該単語に漢数字や代字が含まれている場合は、算用数字変換、該単語に接頭語が含まれている場合には該接頭語を削除する接頭語削除、該単語に接尾語が含まれている場合は該接尾語を削除する接尾語削除、該単語に単位詞が含まれている場合には該単位詞を削除する単位詞削除、該単語が複合語であり複合語に単位詞が含まれている場合は該単位詞を削除する複合語削除、該単語に送り仮名が含まれている場合は該送り仮名を削除する送り仮名削除を行う派生ルールを格納した派生ルール記憶手段と、
    前記分割された単語を取得すると、該分割された単語と該単語品詞に基づいて、前記派生ルール記憶手段を参照し、該単語に漢数字や代字が含まれている場合は、該漢数字や該代字を算用数字に変換する算用数字変換、該単語に接頭語が含まれている場合は接頭語を削除する接頭語削除、該単語に接尾語が含まれている場合は該接尾語を削除する接尾語削除、該単語に単位詞が含まれている場合は該単位詞を削除する単位詞削除、該単語が複合語であり該複合語に単位詞が含まれている場合は該単位詞を削除する複合語単位詞削除、該単語に送り仮名が含まれている場合は該送り仮名を削除する送り仮名削除のいずれかの処理、または、それらを組み合わせた処理を行い、異表記住所を派生し、住所テーブルに登録する異表記派生手段と、
    を有することを特徴とする住所テーブル生成支援装置。
  7. 請求項4乃至6のいずれか1項に記載の住所テーブル生成支援装置を構成する各手段としてコンピュータを機能させるための住所テーブル生成支援プログラム。
JP2004178309A 2004-06-16 2004-06-16 住所テーブル生成支援方法及び装置及びプログラム Expired - Lifetime JP4415768B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004178309A JP4415768B2 (ja) 2004-06-16 2004-06-16 住所テーブル生成支援方法及び装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004178309A JP4415768B2 (ja) 2004-06-16 2004-06-16 住所テーブル生成支援方法及び装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2006004069A JP2006004069A (ja) 2006-01-05
JP4415768B2 true JP4415768B2 (ja) 2010-02-17

Family

ID=35772431

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004178309A Expired - Lifetime JP4415768B2 (ja) 2004-06-16 2004-06-16 住所テーブル生成支援方法及び装置及びプログラム

Country Status (1)

Country Link
JP (1) JP4415768B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009258293A (ja) * 2008-04-15 2009-11-05 Mitsubishi Electric Corp 音声認識語彙辞書作成装置
JP6217414B2 (ja) * 2014-01-30 2017-10-25 富士通株式会社 読み生成装置、方法、及びプログラム

Also Published As

Publication number Publication date
JP2006004069A (ja) 2006-01-05

Similar Documents

Publication Publication Date Title
JP4401292B2 (ja) グリフレット
US9645979B2 (en) Device, method and program for generating accurate corpus data for presentation target for searching
JP2000231563A (ja) 文書検索方法及び文書検索システム及び文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体
CN103970751A (zh) 多国语言网页转换系统及方法
US20110298719A1 (en) Method and apparatus for inputting chinese characters
JP5107556B2 (ja) 改善された中国語−英語翻訳ツール
WO2008038416A1 (fr) Dispositif de recherche de document et procédé de recherche de document
KR100326936B1 (ko) 외국어로 표기된 한글을 한글표기로 변환하여 검색하는 시스템및 그 방법
JP4415768B2 (ja) 住所テーブル生成支援方法及び装置及びプログラム
JP2007179347A (ja) プログラム検証支援システム
US7503036B2 (en) Testing multi-byte data handling using multi-byte equivalents to single-byte characters in a test string
WO2015075920A1 (ja) 入力支援装置、入力支援方法及び記録媒体
JP4734400B2 (ja) 文書検索装置およびプログラム
JP2007133682A (ja) 全文検索システム、及び、その全文検索方法
JP5184987B2 (ja) 索引情報作成装置、索引情報作成方法及びプログラム
JP2008210229A (ja) 知的財産情報検索装置、知的財産情報検索方法及び知的財産情報検索プログラム
JP6076285B2 (ja) 翻訳装置、翻訳方法及び翻訳プログラム
CN112417851A (zh) 文本纠错分词方法、系统及电子设备
JP4382634B2 (ja) 住所解析装置、住所解析方法及び住所解析プログラム
JP2015176541A (ja) 翻訳装置、翻訳方法及び翻訳プログラム
Lindsay Literate programming.
JP4069093B2 (ja) 読替パターン生成装置、方法及びプログラム
CN113268600B (zh) 检索名称的错别字纠正方法、装置、电子设备和存储介质
JP7200474B2 (ja) 変換補助装置、変換補助システム、変換補助方法及びコンピュータプログラム
JP2009230705A (ja) テンプレート作成装置、文書データ作成装置、その作成方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060720

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20081121

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081202

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090202

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090303

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090501

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091104

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

R150 Certificate of patent or registration of utility model

Ref document number: 4415768

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091117

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121204

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121204

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131204

Year of fee payment: 4

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term