JP4415768B2 - 住所テーブル生成支援方法及び装置及びプログラム - Google Patents
住所テーブル生成支援方法及び装置及びプログラム Download PDFInfo
- Publication number
- JP4415768B2 JP4415768B2 JP2004178309A JP2004178309A JP4415768B2 JP 4415768 B2 JP4415768 B2 JP 4415768B2 JP 2004178309 A JP2004178309 A JP 2004178309A JP 2004178309 A JP2004178309 A JP 2004178309A JP 4415768 B2 JP4415768 B2 JP 4415768B2
- Authority
- JP
- Japan
- Prior art keywords
- character
- reading
- notation
- word
- kanji
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims description 34
- 238000009795 derivation Methods 0.000 claims description 107
- 240000000220 Panda oleosa Species 0.000 claims description 48
- 235000016496 Panda oleosa Nutrition 0.000 claims description 48
- 238000003860 storage Methods 0.000 claims description 48
- 150000001875 compounds Chemical class 0.000 claims description 43
- 238000012217 deletion Methods 0.000 claims description 17
- 230000037430 deletion Effects 0.000 claims description 17
- 238000006243 chemical reaction Methods 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 12
- 230000005540 biological transmission Effects 0.000 claims description 2
- 238000010606 normalization Methods 0.000 description 21
- 238000010586 diagram Methods 0.000 description 9
- 238000004519 manufacturing process Methods 0.000 description 4
- 238000009826 distribution Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 102100033806 Alpha-protein kinase 3 Human genes 0.000 description 1
- 101710082399 Alpha-protein kinase 3 Proteins 0.000 description 1
- 235000016796 Euonymus japonicus Nutrition 0.000 description 1
- 240000006570 Euonymus japonicus Species 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- QIQXTHQIDYTFRH-UHFFFAOYSA-N octadecanoic acid Chemical compound CCCCCCCCCCCCCCCCCC(O)=O QIQXTHQIDYTFRH-UHFFFAOYSA-N 0.000 description 1
Images
Landscapes
- Document Processing Apparatus (AREA)
Description
獅々堀正幹、青江順一、1993 「カタカナ異表記の生成及び統一手法」自然言語処理研究会,94-5, 1993 久保村千明、亀田弘之、「片仮名異表記処理能力を備え持つ情報検索システム」電子情報通信学会思考と言語研究会、2000年12月
(2)「緑が丘、緑ヶ丘、緑丘」「堀ノ内、堀之内、堀内」「四ッ谷、四谷」等の表記揺れ
(3)複合語地名の単位詞省略「条」「通」の省略
(4)2桁数字、代字(「壱弐参」のこと)
(5)複合語地名の「字」「大字」省略
(6)送り仮名
住所文字列の解析では、複数単語を単語の区切り無しに入力することを前提にするため、正規化により表記揺らぎに対処できるのは上記(1)に相当する1文字対1文字の正規化のみである。具体的には「竃」→「釜」等の異字体変換、ひらがな→カタカナ変換、漢数字→算用数字変換(1文字毎)などの正規化を行なえば(1)の表記の揺らぎがあっても住所テーブルを検索できる。しかし、(2)以降の場合に相当する正規化処理を施すとうまく検索できない。特に、単語の区切りを跨いで正規化すると正しく解析できない。
文字情報記憶手段には、1文字の漢字、該1文字の漢字の読み、該読みの中の表記の無い読みについての情報と、該漢字の字種が、該1文字の漢字毎に登録されている文字情報テーブルがあり、
該読みの中の表記の無い読みについての情報には、表記の無い読みの有無と、表記の無い読みがある場合は該表記の無い読みが1文字の漢字の先頭にあるのか末尾にあるのかの情報と、該表記の無い読みが1文字の漢字の末尾にある場合は、該表記の無い読みが送り仮名であるか否かの情報があり、
該1文字の漢字の字種には、漢字であるか、または、派生対象の仮名であるか、または、複合語地名の接頭語であるかの情報があり、
読み解析手段に正式住所データが入力されると、
文字情報記憶手段に格納されている文字情報テーブルを用いて、該文字情報テーブルに登録されている1文字の漢字と該1文字の漢字の読みとを、該正式住所データの表記1文字毎の表記と読みに対応付けることにより、該正式住所データの表記1文字に対応付けられた該文字情報テーブルの該表記1文字の漢字に登録されている表記の無い読みについての情報と、該漢字の字種を用いて、
表記の無い読みについての情報が表記の無い読みが1文字の漢字の先頭にあるという場合は、該正式住所データの表記1文字の漢字の前に表記無しの読みがあるとし、
表記の無い読みについての情報が表記の無い読みが1文字の漢字の末尾にあるという場合は、該正規住所データの表記1文字の漢字の後ろに表記無し読みがあるとし、
表記の無い読みについての情報が表記の無い読みが無いという場合は、該正式住所データの表記1文字の漢字には表記無しの読みが見つからないと判断し、
表記の無い読みについての情報が表記の無い読みが1文字の漢字の末尾にあり、該表記の無い読みが送り仮名であるという場合は、該正式住所データの表記1文字の漢字の後ろに送り仮名が無いと判断し、
漢字の字種が複合語地名の接頭語である場合は、該正式住所データの表記1文字の漢字が複合語地名の接頭語であると判断する解析ステップ(ステップ1)と、
異表記手段が解析ステップの判断結果を取得すると、
正式住所データの1文字の読みに対する表記が無い場合の第1の派生ルール、該正式住所データの1文字の表記に対する第2の派生ルール、該正式住所データの1文字の表記と読みに対する第3の派生ルールを格納した派生ルール記憶手段を参照し、解析ステップにおいて、該正式住所データの表記1文字の漢字の前に表記無しの読みがあるとするか、該正式住所データの表記1文字の漢字の後ろに表記無しの読みがあるとした場合は、該第1の派生ルールを用い、
該正式住所データの表記1文字の漢字には表記無しの読みが見つからないと判断した場合は、該第2の派生ルールを用い、
該正式住所データの表記1文字の漢字の後ろに送り仮名が無いと判断した場合、及び、該正式住所データの表記1文字の漢字が複合語地名の接頭語であると判断した場合は、該第3の派生ルールを用いて異表記住所を派生し、住所テーブルに格納する異表記派生ステップ(ステップ2)と、を行う。
また、本発明(請求項2)では、第1の派生ルールは、前記正式住所データの表記1文字の表記の無い読みについての情報が、表記の無い読みが1文字の漢字の先頭または末尾にあるとなった場合に、前記正式住所データの表記1文字の前または後ろに、正式住所データの表記1文字の表記の無い読みに応じた派生文字を派生するルールであり、
第2の派生ルールは、正式住所データの表記1文字の表記の無い読みについての情報が、表記の無い読みが無いとなった場合に、正式住所データの表記1文字について、正式住所データの表記1文字の表記に応じて削除、及び、置換を行うルールであり、
第3の派生ルールは、正式住所データの表記1文字の表記の無い読みについての情報が、表記の無い読みが1文字の漢字の末尾にあり、かつ、該表記の無い読みが送り仮名であるとなった場合に、正式住所データの表記1文字の後ろに、正式住所データの表記1文字の表記に応じた派生文字を派生するルール、
または、
正式住所データの表記1文字の表記についての情報が、字種が複合語地名の接頭語の場合に、正式住所データの表記1文字を削除する派生ルールである。
表記解析手段に、正式住所データが入力されると、単語記憶手段に格納されている単語辞書を参照して、該正式住所データを単語に分割し、該単語の品詞を取得する表記解析ステップ(ステップ11)と、
派生ルール記憶手段には単語を削除・変換する派生ルールが格納され、
単語を削除・変換する派生ルールは、
分割された単語と該単語の品詞に基づいて、該単語に漢数字や代字が含まれている場合は、算用数字変換、該単語に接頭語が含まれている場合には該接頭語を削除する接頭語削除、該単語に接尾語が含まれている場合は該接尾語を削除する接尾語削除、該単語に単位詞が含まれている場合には該単位詞を削除する単位詞削除、該単語が複合語であり複合語に単位詞が含まれている場合は該単位詞を削除する複合語削除、該単語に送り仮名が含まれている場合は該送り仮名を削除する送り仮名削除を行うルールであり、
異表記派生手段が、分割された単語を取得すると、該分割された単語と該単語品詞に基づいて、単位詞や接頭語や接尾語や住所付属語に対する派生方法が登録されている、単語を削除・変換する派生ルールを格納した派生ルール記憶手段を参照し、該単語に漢数字や代字が含まれている場合は、該漢数字や該代字を算用数字に変換する算用数字変換、該単語に接頭語が含まれている場合は接頭語を削除する接頭語削除、該単語に接尾語が含まれている場合は該接尾語を削除する接尾語削除、該単語に単位詞が含まれている場合は該単位詞を削除する単位詞削除、該単語が複合語であり該複合語に単位詞が含まれている場合は該単位詞を削除する複合語単位詞削除、該単語に送り仮名が含まれている場合は該送り仮名を削除する送り仮名削除のいずれかの処理、または、それらを組み合わせた処理を行い、異表記住所を派生し、住所テーブルに登録する異表記派生ステップ(ステップ12)と、
を行う。
1文字の漢字、該1文字の漢字の読み、該読みの中の表記の無い読みについての情報と、該漢字の字種が、該1文字の漢字毎に登録されている文字情報テーブルを有する文字情報記憶手段を有し、該文字情報テーブルは、
該読みの中の表記の無い読みについての情報には、表記の無い読みの有無と、表記の無い読みがある場合は該表記の無い読みが1文字の漢字の先頭にあるのか末尾にあるのかの情報と、該表記の無い読みが1文字の漢字の末尾にある場合は、該表記の無い読みが送り仮名であるか否かの情報と、
該1文字の漢字の字種には、漢字であるか、または、派生対象の仮名であるか、または、複合語地名の接頭語であるかの情報と、を有し、
正式住所データが入力されると、
文字情報記憶手段に格納されている文字情報テーブルを用いて、該文字情報テーブルに登録されている1文字の漢字と該1文字の漢字の読みとを、該正式住所データの表記1文字毎の表記と読みに対応付けることにより、該正式住所データの表記1文字に対応付けられた該文字情報テーブルの該表記1文字の漢字に登録されている表記の無い読みについての情報と、該漢字の字種を用いて、
表記の無い読みについての情報が表記の無い読みが1文字の漢字の先頭にあるという場合は、該正式住所データの表記1文字の漢字の前に表記無しの読みがあるとし、
表記の無い読みについての情報が表記の無い読みが1文字の漢字の末尾にあるという場合は、該正規住所データの表記1文字の漢字の後ろに表記無し読みがあるとし、
表記の無い読みについての情報が表記の無い読みが無いという場合は、該正式住所データの表記1文字の漢字には表記無しの読みが見つからないと判断し、
表記の無い読みについての情報が表記の無い読みが1文字の漢字の末尾にあり、該表記の無い読みが送り仮名であるという場合は、該正式住所データの表記1文字の漢字の後ろに送り仮名が無いと判断し、
漢字の字種が複合語地名の接頭語である場合は、該正式住所データの表記1文字の漢字が複合語地名の接頭語であると判断する読み解析手段23と、
正式住所データの1文字の読みに対する表記が無い場合の第1の派生ルール、該正式住所データの1文字の表記に対する第2の派生ルール、該正式住所データの1文字の表記と読みに対する第3の派生ルールを格納した派生ルール記憶手段25を参照し、解析手段23において、該正式住所データの表記1文字の漢字の前に表記無しの読みがあるとするか、該正式住所データの表記1文字の漢字の後ろに表記無しの読みがあるとした場合は、該第1の派生ルールを用い、
該正式住所データの表記1文字の漢字には表記無しの読みが見つからないと判断した場合は、該第2の派生ルールを用い、
該正式住所データの表記1文字の漢字の後ろに送り仮名が無いと判断した場合、及び、該正式住所データの表記1文字の漢字が複合語地名の接頭語であると判断した場合は、該第3の派生ルールを用いて異表記住所を派生し、住所テーブルに格納する異表記派生手段24と、を有する。
また、本発明(請求項5)では、第1の派生ルールが、正式住所データの表記1文字の表記の無い読みについての情報が、表記の無い読みが1文字の漢字の先頭または末尾にあるとなった場合に、正式住所データの表記1文字の前または後ろに、正式住所データの表記1文字の表記の無い読みに応じた派生文字を派生するルールであり、
第2の派生ルールが、正式住所データの表記1文字の表記の無い読みについての情報が、表記の無い読みが無いとなった場合に、正式住所データの表記1文字について、正式住所データの表記1文字の表記に応じて削除、及び、置換を行うルールであり、
第3の派生ルールが、正式住所データの表記1文字の表記の無い読みについての情報が、表記の無い読みが1文字の漢字の末尾にあり、かつ、該表記の無い読みが送り仮名であるとなった場合に、正式住所データの表記1文字の後ろに、正式住所データの表記1文字の表記に応じた派生文字を派生するルール、
または、
正式住所データの表記1文字の表記についての情報が、字種が複合語地名の接頭語の場合に、正式住所データの表記1文字を削除する派生ルールである。
正式住所データが入力されると、単語記憶手段82に格納されている単語辞書を参照して、該正式住所データを単語に分割し、該単語の品詞を取得する表記解析手段83と、
分割された単語と該単語の品詞に基づいて、該単語に漢数字や代字が含まれている場合は、算用数字変換、該単語に接頭語が含まれている場合には該接頭語を削除する接頭語削除、該単語に接尾語が含まれている場合は該接尾語を削除する接尾語削除、該単語に単位詞が含まれている場合には該単位詞を削除する単位詞削除、該単語が複合語であり複合語に単位詞が含まれている場合は該単位詞を削除する複合語削除、該単語に送り仮名が含まれている場合は該送り仮名を削除する送り仮名削除を行う派生ルールを格納した派生ルール記憶手段85と、
分割された単語を取得すると、該分割された単語と該単語品詞に基づいて、派生ルール記憶手段85を参照し、該単語に漢数字や代字が含まれている場合は、該漢数字や該代字を算用数字に変換する算用数字変換、該単語に接頭語が含まれている場合は接頭語を削除する接頭語削除、該単語に接尾語が含まれている場合は該接尾語を削除する接尾語削除、該単語に単位詞が含まれている場合は該単位詞を削除する単位詞削除、該単語が複合語であり該複合語に単位詞が含まれている場合は該単位詞を削除する複合語単位詞削除、該単語に送り仮名が含まれている場合は該送り仮名を削除する送り仮名削除のいずれかの処理、または、それらを組み合わせた処理を行い、異表記住所を派生し、住所テーブルに登録する異表記派生手段84と、を有する。
図6は、本発明の第1の実施の形態における住所テーブル生成支援装置の構成を示す。
図13は、本発明の第2の実施の形態における住所テーブル生成装置の構成を示す。
22 文字情報記憶手段、文字情報記憶部
23 読み解析手段、読み解析部
24 異表記派生手段、異表記派生部
25 派生ルール記憶手段、派生ルール記憶部
81 入力手段、入力部
82 単語記憶手段、単語記憶部
83 表記解析手段、表記解析部
84 異表記派生手段、異表記派生部
85 派生ルール記憶手段、派生ルール記憶部
100 テーブル生成系
101 住所マスタファイル
102 住所派生装置
103 文字列正規化装置
104 住所登録装置
200 解析系
201 住所入力手段
202 文字列正規化装置
203 住所テーブル検索装置
300 住所テーブル
Claims (7)
- 住所解析装置に用いる住所データを生成する住所テーブル生成支援方法において、
文字情報記憶手段には、1文字の漢字、該1文字の漢字の読み、該読みの中の表記の無い読みについての情報と、該漢字の字種が、該1文字の漢字毎に登録されている文字情報テーブルがあり、
該読みの中の表記の無い読みについての情報には、表記の無い読みの有無と、表記の無い読みがある場合は該表記の無い読みが1文字の漢字の先頭にあるのか末尾にあるのかの情報と、該表記の無い読みが1文字の漢字の末尾にある場合は、該表記の無い読みが送り仮名であるか否かの情報があり、
該1文字の漢字の字種には、漢字であるか、または、派生対象の仮名であるか、または、複合語地名の接頭語であるかの情報があり、
読み解析手段に正式住所データが入力されると、
文字情報記憶手段に格納されている前記文字情報テーブルを用いて、該文字情報テーブルに登録されている1文字の漢字と該1文字の漢字の読みとを、該正式住所データの表記1文字毎の表記と読みに対応付けることにより、該正式住所データの表記1文字に対応付けられた該文字情報テーブルの該表記1文字の漢字に登録されている表記の無い読みについての情報と、該漢字の字種を用いて、
表記の無い読みについての情報が表記の無い読みが1文字の漢字の先頭にあるという場合は、該正式住所データの表記1文字の漢字の前に表記無しの読みがあるとし、
表記の無い読みについての情報が表記の無い読みが1文字の漢字の末尾にあるという場合は、該正規住所データの表記1文字の漢字の後ろに表記無し読みがあるとし、
表記の無い読みについての情報が表記の無い読みが無いという場合は、該正式住所データの表記1文字の漢字には表記無しの読みが見つからないと判断し、
表記の無い読みについての情報が表記の無い読みが1文字の漢字の末尾にあり、該表記の無い読みが送り仮名であるという場合は、該正式住所データの表記1文字の漢字の後ろに送り仮名が無いと判断し、
漢字の字種が複合語地名の接頭語である場合は、該正式住所データの表記1文字の漢字が複合語地名の接頭語であると判断する解析ステップと、
異表記手段が前記解析ステップの判断結果を取得すると、
前記正式住所データの1文字の読みに対する表記が無い場合の第1の派生ルール、該正式住所データの1文字の表記に対する第2の派生ルール、該正式住所データの1文字の表記と読みに対する第3の派生ルールを格納した派生ルール記憶手段を参照し、前記解析ステップにおいて、該正式住所データの表記1文字の漢字の前に表記無しの読みがあるとするか、該正式住所データの表記1文字の漢字の後ろに表記無しの読みがあるとした場合は、該第1の派生ルールを用い、
該正式住所データの表記1文字の漢字には表記無しの読みが見つからないと判断した場合は、該第2の派生ルールを用い、
該正式住所データの表記1文字の漢字の後ろに送り仮名が無いと判断した場合、及び、該正式住所データの表記1文字の漢字が複合語地名の接頭語であると判断した場合は、該第3の派生ルールを用いて異表記住所を派生し、住所テーブルに格納する異表記派生ステップと、
を行うことを特徴とする住所テーブル生成支援方法。 - 前記第1の派生ルールは、前記正式住所データの表記1文字の表記の無い読みについての情報が、表記の無い読みが1文字の漢字の先頭または末尾にあるとなった場合に、前記正式住所データの表記1文字の前または後ろに、前記正式住所データの表記1文字の表記の無い読みに応じた派生文字を派生するルールであり、
前記第2の派生ルールは、前記正式住所データの表記1文字の表記の無い読みについての情報が、表記の無い読みが無いとなった場合に、前記正式住所データの表記1文字について、前記正式住所データの表記1文字の表記に応じて削除、及び、置換を行うルールであり、
前記第3の派生ルールは、前記正式住所データの表記1文字の表記の無い読みについての情報が、表記の無い読みが1文字の漢字の末尾にあり、かつ、該表記の無い読みが送り仮名であるとなった場合に、該正式住所データの表記1文字の後ろに、該正式住所データの表記1文字の表記に応じた派生文字を派生するルール、
または、
前記正式住所データの表記1文字の表記についての情報が、字種が複合語地名の接頭語の場合に、該正式住所データの表記1文字を削除する派生ルールである
請求項1記載の住所テーブル生成支援方法。 - 住所解析装置に用いる住所データを生成する住所テーブル生成支援方法において、
表記解析手段に、正式住所データが入力されると、単語記憶手段に格納されている単語辞書を参照して、該正式住所データを単語に分割し、該単語の品詞を取得する表記解析ステップと、
派生ルール記憶手段には単語を削除・変換する派生ルールが格納され、
前記単語を削除・変換する派生ルールは、
前記分割された単語と該単語の品詞に基づいて、該単語に漢数字や代字が含まれている場合は、算用数字変換、該単語に接頭語が含まれている場合には該接頭語を削除する接頭語削除、該単語に接尾語が含まれている場合は該接尾語を削除する接尾語削除、該単語に単位詞が含まれている場合には該単位詞を削除する単位詞削除、該単語が複合語であり複合語に単位詞が含まれている場合は該単位詞を削除する複合語削除、該単語に送り仮名が含まれている場合は該送り仮名を削除する送り仮名削除を行うルールであり、
異表記派生手段が、前記分割された単語を取得すると、該分割された単語と該単語品詞に基づいて、単位詞や接頭語や接尾語や住所付属語に対する派生方法が登録されている、前記単語を削除・変換する派生ルールを格納した派生ルール記憶手段を参照し、該単語に漢数字や代字が含まれている場合は、該漢数字や該代字を算用数字に変換する算用数字変換、該単語に接頭語が含まれている場合は接頭語を削除する接頭語削除、該単語に接尾語が含まれている場合は該接尾語を削除する接尾語削除、該単語に単位詞が含まれている場合は該単位詞を削除する単位詞削除、該単語が複合語であり該複合語に単位詞が含まれている場合は該単位詞を削除する複合語単位詞削除、該単語に送り仮名が含まれている場合は該送り仮名を削除する送り仮名削除のいずれかの処理、または、それらを組み合わせた処理を行い、異表記住所を派生し、住所テーブルに登録する異表記派生ステップと、
を行うことを特徴とする住所テーブル生成支援方法。 - 住所解析装置に用いる住所データを生成する住所テーブル生成支援装置であって、
1文字の漢字、該1文字の漢字の読み、該読みの中の表記の無い読みについての情報と、該漢字の字種が、該1文字の漢字毎に登録されている文字情報テーブルを有する文字情報記憶手段を有し、該文字情報テーブルは、
該読みの中の表記の無い読みについての情報には、表記の無い読みの有無と、表記の無い読みがある場合は該表記の無い読みが1文字の漢字の先頭にあるのか末尾にあるのかの情報と、該表記の無い読みが1文字の漢字の末尾にある場合は、該表記の無い読みが送り仮名であるか否かの情報と、
該1文字の漢字の字種には、漢字であるか、または、派生対象の仮名であるか、または、複合語地名の接頭語であるかの情報と、を有し、
正式住所データが入力されると、
文字情報記憶手段に格納されている前記文字情報テーブルを用いて、該文字情報テーブルに登録されている1文字の漢字と該1文字の漢字の読みとを、該正式住所データの表記1文字毎の表記と読みに対応付けることにより、該正式住所データの表記1文字に対応付けられた該文字情報テーブルの該表記1文字の漢字に登録されている表記の無い読みについての情報と、該漢字の字種を用いて、
表記の無い読みについての情報が表記の無い読みが1文字の漢字の先頭にあるという場合は、該正式住所データの表記1文字の漢字の前に表記無しの読みがあるとし、
表記の無い読みについての情報が表記の無い読みが1文字の漢字の末尾にあるという場合は、該正規住所データの表記1文字の漢字の後ろに表記無し読みがあるとし、
表記の無い読みについての情報が表記の無い読みが無いという場合は、該正式住所データの表記1文字の漢字には表記無しの読みが見つからないと判断し、
表記の無い読みについての情報が表記の無い読みが1文字の漢字の末尾にあり、該表記の無い読みが送り仮名であるという場合は、該正式住所データの表記1文字の漢字の後ろに送り仮名が無いと判断し、
漢字の字種が複合語地名の接頭語である場合は、該正式住所データの表記1文字の漢字が複合語地名の接頭語であると判断する読み解析手段と、
前記正式住所データの1文字の読みに対する表記が無い場合の第1の派生ルール、該正式住所データの1文字の表記に対する第2の派生ルール、該正式住所データの1文字の表記と読みに対する第3の派生ルールを格納した派生ルール記憶手段を参照し、前記解析手段において、該正式住所データの表記1文字の漢字の前に表記無しの読みがあるとするか、該正式住所データの表記1文字の漢字の後ろに表記無しの読みがあるとした場合は、該第1の派生ルールを用い、
該正式住所データの表記1文字の漢字には表記無しの読みが見つからないと判断した場合は、該第2の派生ルールを用い、
該正式住所データの表記1文字の漢字の後ろに送り仮名が無いと判断した場合、及び、該正式住所データの表記1文字の漢字が複合語地名の接頭語であると判断した場合は、該第3の派生ルールを用いて異表記住所を派生し、住所テーブルに格納する異表記派生手段と、
を有することを特徴とする住所テーブル生成支援装置。 - 前記第1の派生ルールは、前記正式住所データの表記1文字の表記の無い読みについての情報が、表記の無い読みが1文字の漢字の先頭または末尾にあるとなった場合に、前記正式住所データの表記1文字の前または後ろに、前記正式住所データの表記1文字の表記の無い読みに応じた派生文字を派生するルールであり、
前記第2の派生ルールは、前記正式住所データの表記1文字の表記の無い読みについての情報が、表記の無い読みが無いとなった場合に、前記正式住所データの表記1文字について、前記正式住所データの表記1文字の表記に応じて削除、及び、置換を行うルールであり、
前記第3の派生ルールは、前記正式住所データの表記1文字の表記の無い読みについての情報が、表記の無い読みが1文字の漢字の末尾にあり、かつ、該表記の無い読みが送り仮名であるとなった場合に、前記正式住所データの表記1文字の後ろに、前記正式住所データの表記1文字の表記に応じた派生文字を派生するルール、
または、
前記正式住所データの表記1文字の表記についての情報が、字種が複合語地名の接頭語の場合に、前記正式住所データの表記1文字を削除する派生ルールである
請求項4記載の住所テーブル生成支援装置。 - 住所解析装置に用いる住所データを生成する住所テーブル生成支援装置であって、
正式住所データが入力されると、単語記憶手段に格納されている単語辞書を参照して、該正式住所データを単語に分割し、該単語の品詞を取得する表記解析手段と、
前記分割された単語と該単語の品詞に基づいて、該単語に漢数字や代字が含まれている場合は、算用数字変換、該単語に接頭語が含まれている場合には該接頭語を削除する接頭語削除、該単語に接尾語が含まれている場合は該接尾語を削除する接尾語削除、該単語に単位詞が含まれている場合には該単位詞を削除する単位詞削除、該単語が複合語であり複合語に単位詞が含まれている場合は該単位詞を削除する複合語削除、該単語に送り仮名が含まれている場合は該送り仮名を削除する送り仮名削除を行う派生ルールを格納した派生ルール記憶手段と、
前記分割された単語を取得すると、該分割された単語と該単語品詞に基づいて、前記派生ルール記憶手段を参照し、該単語に漢数字や代字が含まれている場合は、該漢数字や該代字を算用数字に変換する算用数字変換、該単語に接頭語が含まれている場合は接頭語を削除する接頭語削除、該単語に接尾語が含まれている場合は該接尾語を削除する接尾語削除、該単語に単位詞が含まれている場合は該単位詞を削除する単位詞削除、該単語が複合語であり該複合語に単位詞が含まれている場合は該単位詞を削除する複合語単位詞削除、該単語に送り仮名が含まれている場合は該送り仮名を削除する送り仮名削除のいずれかの処理、または、それらを組み合わせた処理を行い、異表記住所を派生し、住所テーブルに登録する異表記派生手段と、
を有することを特徴とする住所テーブル生成支援装置。 - 請求項4乃至6のいずれか1項に記載の住所テーブル生成支援装置を構成する各手段としてコンピュータを機能させるための住所テーブル生成支援プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004178309A JP4415768B2 (ja) | 2004-06-16 | 2004-06-16 | 住所テーブル生成支援方法及び装置及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004178309A JP4415768B2 (ja) | 2004-06-16 | 2004-06-16 | 住所テーブル生成支援方法及び装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006004069A JP2006004069A (ja) | 2006-01-05 |
JP4415768B2 true JP4415768B2 (ja) | 2010-02-17 |
Family
ID=35772431
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004178309A Expired - Lifetime JP4415768B2 (ja) | 2004-06-16 | 2004-06-16 | 住所テーブル生成支援方法及び装置及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4415768B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009258293A (ja) * | 2008-04-15 | 2009-11-05 | Mitsubishi Electric Corp | 音声認識語彙辞書作成装置 |
JP6217414B2 (ja) * | 2014-01-30 | 2017-10-25 | 富士通株式会社 | 読み生成装置、方法、及びプログラム |
-
2004
- 2004-06-16 JP JP2004178309A patent/JP4415768B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JP2006004069A (ja) | 2006-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4401292B2 (ja) | グリフレット | |
US9645979B2 (en) | Device, method and program for generating accurate corpus data for presentation target for searching | |
JP2000231563A (ja) | 文書検索方法及び文書検索システム及び文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
CN103970751A (zh) | 多国语言网页转换系统及方法 | |
US20110298719A1 (en) | Method and apparatus for inputting chinese characters | |
JP5107556B2 (ja) | 改善された中国語−英語翻訳ツール | |
WO2008038416A1 (fr) | Dispositif de recherche de document et procédé de recherche de document | |
KR100326936B1 (ko) | 외국어로 표기된 한글을 한글표기로 변환하여 검색하는 시스템및 그 방법 | |
JP4415768B2 (ja) | 住所テーブル生成支援方法及び装置及びプログラム | |
JP2007179347A (ja) | プログラム検証支援システム | |
US7503036B2 (en) | Testing multi-byte data handling using multi-byte equivalents to single-byte characters in a test string | |
WO2015075920A1 (ja) | 入力支援装置、入力支援方法及び記録媒体 | |
JP4734400B2 (ja) | 文書検索装置およびプログラム | |
JP2007133682A (ja) | 全文検索システム、及び、その全文検索方法 | |
JP5184987B2 (ja) | 索引情報作成装置、索引情報作成方法及びプログラム | |
JP2008210229A (ja) | 知的財産情報検索装置、知的財産情報検索方法及び知的財産情報検索プログラム | |
JP6076285B2 (ja) | 翻訳装置、翻訳方法及び翻訳プログラム | |
CN112417851A (zh) | 文本纠错分词方法、系统及电子设备 | |
JP4382634B2 (ja) | 住所解析装置、住所解析方法及び住所解析プログラム | |
JP2015176541A (ja) | 翻訳装置、翻訳方法及び翻訳プログラム | |
Lindsay | Literate programming. | |
JP4069093B2 (ja) | 読替パターン生成装置、方法及びプログラム | |
CN113268600B (zh) | 检索名称的错别字纠正方法、装置、电子设备和存储介质 | |
JP7200474B2 (ja) | 変換補助装置、変換補助システム、変換補助方法及びコンピュータプログラム | |
JP2009230705A (ja) | テンプレート作成装置、文書データ作成装置、その作成方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060720 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20081121 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081202 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090202 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090303 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090501 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20091104 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4415768 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20091117 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121204 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121204 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131204 Year of fee payment: 4 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
EXPY | Cancellation because of completion of term |