JP2007140781A

JP2007140781A - 名義解析装置、名義解析方法及び名義解析プログラム

Info

Publication number: JP2007140781A
Application number: JP2005331923A
Authority: JP
Inventors: Shigeto Iwase; 成人岩瀬
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2005-11-16
Filing date: 2005-11-16
Publication date: 2007-06-07

Abstract

【課題】外国語や当て字等の難読語を含む名義文字列から、精度の良い照合結果を得ることのできる検索・照合用の名義キーを作成すること。
【解決手段】単語分割手段４により、入力された名義文字列を単語辞書を用いて単語に分割し、各単語にその品詞、意味及び字種情報を付与した名義単語列を作成し、読み付与手段５により、名義単語列中の各単語について字種情報が難読語か通常語かを判定し、難読語であれば読み辞書より対応する読みを取得・付与して読み付与済みの名義単語列に変換し、名義キー作成手段６により、読み付与済みの名義単語列から重要語抽出テーブルを用いて重要語を抽出し、その字種情報が難読語か通常語かを判定し、難読語であれば読み付与済みの名義単語列中の全ての重要語の表記を入力されたままとした単語列とともに、重要語のうち難読語の表記のみを読みに置き換えた単語列を名義キーとして出力する。
【選択図】図１

Description

本発明は、入力された名義文字列を解析し、当該名義文字列から検索・照合用のキーである名義キーを作成する技術に関する。

従来より、顧客データベースには名義や住所、電話番号等の顧客に関する様々な情報が文字列（文字コード列）として登録され、検索ソフトウェアの名義入力欄や住所入力欄、電話番号入力欄等に入力された文字列と前記顧客データベースに登録された文字列との間で照合を行うことにより、所望の顧客の情報にアクセスすることが可能であった。

この際、データベースに登録された文字列や検索ソフトウェアの入力欄に入力される文字列にはそれぞれの情報、つまり名義文字列には名義情報、住所文字列には住所情報、電話番号文字列には電話番号情報が、一般的な日本語表記の文字列で含まれることを前提として、文字列一致、単語一致、あるいは主要語一致等の手法で照合を行っていた（特許文献１参照）。
特開２００３−１７３３４５号公報（「データベース生成装置、データベース生成方法及びデータベース生成処理プログラム」）特開２００２−１８３１１８号公報（「略注記表示文字列作成法、及び略注記表示文字列作成用装置、並びに略注記表示文字列作成用プログラム格納記録媒体」）

しかし、顧客が個人以外の組織や団体、例えば飲食店であるような場合、名義（名義文字列）中に外国語（ＷＥＳＴ：ウエスト）、当て字（９９９：スリーナイン）、通常、カナ表記する単語（亜細亜：アジア）、難読単語（敦煌：トンコウ）のような読み方の難しい語句（以下、これらをまとめて難読語と呼ぶ。）を含むことがあった。また、これらの名義文字列は難読語のままの表記でなく、カナ表記（読み）でデータベース等に登録されることも多かった。

一方、入力された名義文字列には通常、読み（カナ表記）は含まれないので、名義文字列が読みで登録されていた場合、文字列一致、単語一致、あるいは主要語一致のいずれの手法でも照合することができなかった。例えば、入力された名義文字列「レストランＷＥＳＴ」に対して、登録された名義文字列「レストランウエスト」を照合させることはできなかった。

本発明の目的は、外国語や当て字等の難読語を含む名義文字列から、精度の良い照合結果を得ることのできる検索・照合用の名義キーを作成することにある。

本発明では、前記課題を解決するため、単語分割のための単語辞書の登録情報として、一般的な品詞や意味とともに、その単語が難読語であるか、それ以外の語句（以下、通常語と呼ぶ。）であるかを区別するための字種情報を登録しておき、入力された名義文字列を分割した各単語に品詞や意味とともに字種情報を付与する。

一方、難読語についてはその読みを登録情報とする読み辞書を用意しておき、分割後の単語中に難読語の字種情報が付与された単語があればその読みを追加して付与する。

その後、公知の手法で名義文字列を構成する単語中から重要語（主要語）を抽出し、この重要語が難読語であれば、その表記を入力された名義文字列のままとした名義キーを作成するとともに、表記を読み（カナ表記）に置き換えた名義キーを派生して作成する。

本発明によれば、難読語で表記された重要語を含む名義文字列であっても、表記通りの重要語からなる名義キーとともに、読み（カナ表記）に置き換えられた重要語を含む名義キーを作成することができるため、難読語がそのまま入力されても、読み（カナ表記）で入力されても照合することができ、精度の良い照合結果を得ることができる。

以下、本発明の実施の形態を図面により説明する。

図１は本発明の名義解析装置の実施の形態の一例を示すもので、図中、１は単語辞書記憶部、２は読み辞書記憶部、３は重要語抽出テーブル記憶部、４は単語分割手段、５は読み付与手段、６は名義キー作成手段、７は一時記憶部である。

単語辞書記憶部１は、図２に示すような、多数の単語をそれぞれ、その品詞、意味及び難読語であるか通常語であるかを示す字種情報とともに登録してなる単語辞書を記憶している。

読み辞書記憶部２は、図３に示すような、複数の難読語をそれぞれ、その読みとともに登録してなる読み辞書を記憶している。

重要語抽出テーブル記憶部３は、図４に示すような、名義文字列を構成する単語の中から重要語を抽出するための重要語抽出ルール、ここでは重要語として抽出すべき単語の意味を単語列中に出現する語順で記述した重要語抽出ルールとともに、重要語のうち最も重要な単語が先頭になるように語順を正規化するための語順正規化規則を登録してなる重要語抽出テーブルを記憶している。

単語分割手段４は、図示しないキーボード等から直接入力され又は記憶媒体から読み出されて入力され又は通信媒体を介して他の装置から入力された名義文字列を、単語辞書記憶部１に記憶された単語辞書を用いて単語に分割し、分割した各単語にその品詞、意味及び字種情報を付与した単語列（名義単語列）を作成し、これを一時記憶部７に記憶する。

読み付与手段５は、一時記憶部７に記憶された名義単語列中の各単語について字種情報が難読語か通常語かを判定し、難読語であれば読み辞書記憶部２に記憶された読み辞書より対応する読みを取得して当該単語に付与し、また、通常語であれば何もせず、読み付与済みの名義単語列に変換する。

名義キー作成手段６は、一時記憶部７に記憶された読み付与済みの名義単語列から重要語抽出テーブル記憶部３に記憶された重要語抽出テーブルを用いて重要語を抽出し、さらに当該重要語の字種情報が難読語か通常語かを判定し、重要語が通常語であれば読み付与済みの名義単語列に含まれる全ての重要語の表記を入力された名義文字列のままとした単語からなる単語列を名義キーとして出力し、また、重要語が難読語であれば読み付与済みの名義単語列に含まれる全ての重要語の表記を入力された名義文字列のままとした単語からなる単語列とともに、読み付与済みの名義単語列に含まれる重要語のうち、難読語の重要語の表記のみを読みに置き換え、残りの重要語の表記を入力された名義文字列のままとした単語からなる単語列を名義キーとして出力する。

なお、１つの名義文字列（名義単語列）中に難読語の重要語が２つ以上含まれる場合は、全ての難読語の重要語の表記を読みに置き換えたものの他、それぞれの難読語の重要語の表記を読みに置き換えたものも含めて（特に難読語の重要語が３つ以上であれば、同時に２つもしくはそれ以上のあらゆる難読語の重要語の組み合わせについて、その表記を読みに置き換えたものも含めて）出力するものとする。

図５は前述した名義解析装置の処理フローであり、以下、動作を説明する。

まず、単語分割手段４により、入力された名義文字列を前記単語辞書を用いて単語に分割し、分割した各単語にその品詞、意味及び字種情報を付与した名義単語列を作成し、これを一時記憶部７に記憶する（Ｓ１）。

以上の処理が単語分割処理であるが、本発明で新たに導入した字種情報を、一般的な品詞や意味とともに分割後の各単語に付与する点を除いて、周知の単語分割処理と同一である。

次に、読み付与手段５により、一時記憶部７に記憶された名義単語列から単語を１つ取り出し（Ｓ２１）、該取り出した単語の字種情報が難読語か通常語かを判定し（Ｓ２２）、この際、難読語であれば前記読み辞書よりその読みを取得して当該単語に追加して付与し（Ｓ２３）、通常語であればそのまま何もしない。これを一時記憶部７に記憶された名義単語列中の全ての単語に対して繰り返し行い（Ｓ２４）、読み付与済みの名義単語列に変換する。

以上の処理が読み付与処理ステップＳ２を構成する。

最後に、名義キー作成手段６により、一時記憶部７に記憶された読み付与済みの名義単語列から前記重要語抽出テーブルを用いて重要語を抽出し（Ｓ３１）、さらに当該重要語の字種情報が難読語か通常語かを判定し（Ｓ３２）、重要語が通常語であれば読み付与済みの名義単語列に含まれる全ての重要語の表記を入力された名義文字列のままとした単語からなる単語列を名義キーとして出力し（Ｓ３３）、また、重要語が難読語であれば読み付与済みの名義単語列に含まれる全ての重要語の表記を入力された名義文字列のままとした単語からなる単語列とともに、読み付与済みの名義単語列に含まれる重要語のうち、難読語の重要語の表記のみを読みに置き換え、残りの重要語の表記を入力された名義文字列のままとした単語からなる単語列を名義キーとして出力する（Ｓ３４）。

以上の処理が名義キー作成処理ステップＳ３を構成する。なお、読み付与済みの名義単語列から重要語を抽出する重要語抽出処理Ｓ３１の詳細については、例えば特許文献２に記載されている。

ここで、例えば、名義文字列として「レストランＷＥＳＴ」が入力されると、単語分割処理ステップで「レストラン／ＷＥＳＴ」と単語分割され、「ＷＥＳＴ」には難読語の字種情報が付与される。次に、読み付与処理ステップで「ＷＥＳＴ」に対して「ウエスト」という読み（カナ表記）が付与される。最後に、名義キー作成処理ステップで重要語「ＷＥＳＴ／ウエスト」及び「レストラン」が抽出され、全ての重要語の表記が入力されたままの名義キー「ＷＥＳＴレストラン」と、難読語の表記が読みに置き換えられた名義キー「ウエストレストラン」とが作成される（なお、ここでは前述した重要語抽出テーブルにおける語順正規化規則に従い、単語（重要語）の順序も企業名（法人を識別する最も重要な単語）が先頭になるように変更されている。）。

このようにして作成した名義キーを用いて、例えば特許文献１に記載の照合を行うことにより、入力された名義文字列が「レストランＷＥＳＴ」であっても、「レストランウエスト」であっても照合することが可能となる。

なお、本発明は、周知のコンピュータに媒体もしくは通信回線を介して、図５の流れ図に示された手順を備えるプログラムをインストールすることによっても実現可能である。

顧客データベースにおける顧客データの検索や重複チェック、複数の顧客データベースの統合（名寄せ）に利用可能な名義キーの作成等の業務に使用できる。特に飲食店のように、名義文字列中に外国語や当て字等の難読語が多用される場合に有効である。

本発明の名義解析装置の実施の形態の一例を示す構成図単語辞書の一例を示す説明図読み辞書の一例を示す説明図重要語抽出テーブルの一例を示す説明図本発明の名義解析装置における処理の流れ図

符号の説明

１：単語辞書記憶部、２：読み辞書記憶部、３：重要語抽出テーブル記憶部、４：単語分割手段、５：読み付与手段、６：名義キー作成手段、７：一時記憶部。

Claims

入力された名義文字列を解析し、当該名義文字列から検索・照合用の名義キーを作成する名義解析装置であって、
多数の単語をそれぞれ、少なくともその品詞、意味及び難読語か通常語かを示す字種情報とともに登録してなる単語辞書を記憶した単語辞書記憶手段と、
複数の難読語をそれぞれ、その読みとともに登録してなる読み辞書を記憶した読み辞書記憶手段と、
名義文字列を構成する単語の中から重要語を抽出するための重要語抽出ルールを登録してなる重要語抽出テーブルを記憶した重要語抽出テーブル記憶手段と、
入力された名義文字列を前記単語辞書を用いて単語に分割し、分割した各単語にその品詞、意味及び字種情報を付与した名義単語列を出力する単語分割手段と、
名義単語列中の各単語について字種情報が難読語か通常語かを判定し、難読語であれば前記読み辞書より対応する読みを取得して当該単語に付与する読み付与手段と、
読み付与済みの名義単語列から前記重要語抽出テーブルを用いて重要語を抽出し、さらに当該重要語の字種情報が難読語か通常語かを判定し、重要語が通常語であれば読み付与済みの名義単語列に含まれる全ての重要語の表記を入力された名義文字列のままとした単語列を名義キーとして出力し、また、重要語が難読語であれば読み付与済みの名義単語列に含まれる全ての重要語の表記を入力された名義文字列のままとした単語列とともに、読み付与済みの名義単語列に含まれる重要語のうち難読語の重要語の表記のみを読みに置き換え、残りの重要語の表記を入力された名義文字列のままとした単語列を名義キーとして出力する名義キー作成手段とを備えた
ことを特徴とする名義解析装置。
入力された名義文字列を解析し、当該名義文字列から検索・照合用の名義キーを作成する名義解析方法において、
多数の単語をそれぞれ、少なくともその品詞、意味及び難読語か通常語かを示す字種情報とともに登録してなる単語辞書を記憶した単語辞書記憶手段と、複数の難読語をそれぞれ、その読みとともに登録してなる読み辞書を記憶した読み辞書記憶手段と、名義文字列を構成する単語の中から重要語を抽出するための重要語抽出ルールを登録してなる重要語抽出テーブルを記憶した重要語抽出テーブル記憶手段と、単語分割手段と、読み付与手段と、名義キー作成手段とを用い、
単語分割手段が、入力された名義文字列を前記単語辞書を用いて単語に分割し、分割した各単語にその品詞、意味及び字種情報を付与した名義単語列を出力する単語分割処理ステップと、
読み付与手段が、名義単語列中の各単語について字種情報が難読語か通常語かを判定し、難読語であれば前記読み辞書より対応する読みを取得して当該単語に付与する読み付与処理ステップと、
名義キー作成手段が、読み付与済みの名義単語列から前記重要語抽出テーブルを用いて重要語を抽出し、さらに当該重要語の字種情報が難読語か通常語かを判定し、重要語が通常語であれば読み付与済みの名義単語列に含まれる全ての重要語の表記を入力された名義文字列のままとした単語列を名義キーとして出力し、また、重要語が難読語であれば読み付与済みの名義単語列に含まれる全ての重要語の表記を入力された名義文字列のままとした単語列とともに、読み付与済みの名義単語列に含まれる重要語のうち難読語の重要語の表記のみを読みに置き換え、残りの重要語の表記を入力された名義文字列のままとした単語列を名義キーとして出力する名義キー作成処理ステップとを実行する
ことを特徴とする名義解析方法。
入力された名義文字列を解析し、当該名義文字列から検索・照合用の名義キーを作成する名義解析プログラムであって、
多数の単語をそれぞれ、少なくともその品詞、意味及び難読語か通常語かを示す字種情報とともに登録してなる単語辞書を記憶した単語辞書記憶手段と、複数の難読語をそれぞれ、その読みとともに登録してなる読み辞書を記憶した読み辞書記憶手段と、名義文字列を構成する単語の中から重要語を抽出するための重要語抽出ルールを登録してなる重要語抽出テーブルを記憶した重要語抽出テーブル記憶手段とを有するコンピュータに、
入力された名義文字列を前記単語辞書を用いて単語に分割し、分割した各単語にその品詞、意味及び字種情報を付与した名義単語列を出力する単語分割処理ステップと、
名義単語列中の各単語について字種情報が難読語か通常語かを判定し、難読語であれば前記読み辞書より対応する読みを取得して当該単語に付与する読み付与処理ステップと、
読み付与済みの名義単語列から前記重要語抽出テーブルを用いて重要語を抽出し、さらに当該重要語の字種情報が難読語か通常語かを判定し、重要語が通常語であれば読み付与済みの名義単語列に含まれる全ての重要語の表記を入力された名義文字列のままとした単語列を名義キーとして出力し、また、重要語が難読語であれば読み付与済みの名義単語列に含まれる全ての重要語の表記を入力された名義文字列のままとした単語列とともに、読み付与済みの名義単語列に含まれる重要語のうち難読語の重要語の表記のみを読みに置き換え、残りの重要語の表記を入力された名義文字列のままとした単語列を名義キーとして出力する名義キー作成処理ステップとを実行させるための名義解析プログラム。