JP2007140781A - 名義解析装置、名義解析方法及び名義解析プログラム - Google Patents

名義解析装置、名義解析方法及び名義解析プログラム Download PDF

Info

Publication number
JP2007140781A
JP2007140781A JP2005331923A JP2005331923A JP2007140781A JP 2007140781 A JP2007140781 A JP 2007140781A JP 2005331923 A JP2005331923 A JP 2005331923A JP 2005331923 A JP2005331923 A JP 2005331923A JP 2007140781 A JP2007140781 A JP 2007140781A
Authority
JP
Japan
Prior art keywords
word
nominal
string
important
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005331923A
Other languages
English (en)
Inventor
Shigeto Iwase
成人 岩瀬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2005331923A priority Critical patent/JP2007140781A/ja
Publication of JP2007140781A publication Critical patent/JP2007140781A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】外国語や当て字等の難読語を含む名義文字列から、精度の良い照合結果を得ることのできる検索・照合用の名義キーを作成すること。
【解決手段】単語分割手段4により、入力された名義文字列を単語辞書を用いて単語に分割し、各単語にその品詞、意味及び字種情報を付与した名義単語列を作成し、読み付与手段5により、名義単語列中の各単語について字種情報が難読語か通常語かを判定し、難読語であれば読み辞書より対応する読みを取得・付与して読み付与済みの名義単語列に変換し、名義キー作成手段6により、読み付与済みの名義単語列から重要語抽出テーブルを用いて重要語を抽出し、その字種情報が難読語か通常語かを判定し、難読語であれば読み付与済みの名義単語列中の全ての重要語の表記を入力されたままとした単語列とともに、重要語のうち難読語の表記のみを読みに置き換えた単語列を名義キーとして出力する。
【選択図】図1

Description

本発明は、入力された名義文字列を解析し、当該名義文字列から検索・照合用のキーである名義キーを作成する技術に関する。
従来より、顧客データベースには名義や住所、電話番号等の顧客に関する様々な情報が文字列(文字コード列)として登録され、検索ソフトウェアの名義入力欄や住所入力欄、電話番号入力欄等に入力された文字列と前記顧客データベースに登録された文字列との間で照合を行うことにより、所望の顧客の情報にアクセスすることが可能であった。
この際、データベースに登録された文字列や検索ソフトウェアの入力欄に入力される文字列にはそれぞれの情報、つまり名義文字列には名義情報、住所文字列には住所情報、電話番号文字列には電話番号情報が、一般的な日本語表記の文字列で含まれることを前提として、文字列一致、単語一致、あるいは主要語一致等の手法で照合を行っていた(特許文献1参照)。
特開2003−173345号公報(「データベース生成装置、データベース生成方法及びデータベース生成処理プログラム」) 特開2002−183118号公報(「略注記表示文字列作成法、及び略注記表示文字列作成用装置、並びに略注記表示文字列作成用プログラム格納記録媒体」)
しかし、顧客が個人以外の組織や団体、例えば飲食店であるような場合、名義(名義文字列)中に外国語(WEST:ウエスト)、当て字(999:スリーナイン)、通常、カナ表記する単語(亜細亜:アジア)、難読単語(敦煌:トンコウ)のような読み方の難しい語句(以下、これらをまとめて難読語と呼ぶ。)を含むことがあった。また、これらの名義文字列は難読語のままの表記でなく、カナ表記(読み)でデータベース等に登録されることも多かった。
一方、入力された名義文字列には通常、読み(カナ表記)は含まれないので、名義文字列が読みで登録されていた場合、文字列一致、単語一致、あるいは主要語一致のいずれの手法でも照合することができなかった。例えば、入力された名義文字列「レストランWEST」に対して、登録された名義文字列「レストランウエスト」を照合させることはできなかった。
本発明の目的は、外国語や当て字等の難読語を含む名義文字列から、精度の良い照合結果を得ることのできる検索・照合用の名義キーを作成することにある。
本発明では、前記課題を解決するため、単語分割のための単語辞書の登録情報として、一般的な品詞や意味とともに、その単語が難読語であるか、それ以外の語句(以下、通常語と呼ぶ。)であるかを区別するための字種情報を登録しておき、入力された名義文字列を分割した各単語に品詞や意味とともに字種情報を付与する。
一方、難読語についてはその読みを登録情報とする読み辞書を用意しておき、分割後の単語中に難読語の字種情報が付与された単語があればその読みを追加して付与する。
その後、公知の手法で名義文字列を構成する単語中から重要語(主要語)を抽出し、この重要語が難読語であれば、その表記を入力された名義文字列のままとした名義キーを作成するとともに、表記を読み(カナ表記)に置き換えた名義キーを派生して作成する。
本発明によれば、難読語で表記された重要語を含む名義文字列であっても、表記通りの重要語からなる名義キーとともに、読み(カナ表記)に置き換えられた重要語を含む名義キーを作成することができるため、難読語がそのまま入力されても、読み(カナ表記)で入力されても照合することができ、精度の良い照合結果を得ることができる。
以下、本発明の実施の形態を図面により説明する。
図1は本発明の名義解析装置の実施の形態の一例を示すもので、図中、1は単語辞書記憶部、2は読み辞書記憶部、3は重要語抽出テーブル記憶部、4は単語分割手段、5は読み付与手段、6は名義キー作成手段、7は一時記憶部である。
単語辞書記憶部1は、図2に示すような、多数の単語をそれぞれ、その品詞、意味及び難読語であるか通常語であるかを示す字種情報とともに登録してなる単語辞書を記憶している。
読み辞書記憶部2は、図3に示すような、複数の難読語をそれぞれ、その読みとともに登録してなる読み辞書を記憶している。
重要語抽出テーブル記憶部3は、図4に示すような、名義文字列を構成する単語の中から重要語を抽出するための重要語抽出ルール、ここでは重要語として抽出すべき単語の意味を単語列中に出現する語順で記述した重要語抽出ルールとともに、重要語のうち最も重要な単語が先頭になるように語順を正規化するための語順正規化規則を登録してなる重要語抽出テーブルを記憶している。
単語分割手段4は、図示しないキーボード等から直接入力され又は記憶媒体から読み出されて入力され又は通信媒体を介して他の装置から入力された名義文字列を、単語辞書記憶部1に記憶された単語辞書を用いて単語に分割し、分割した各単語にその品詞、意味及び字種情報を付与した単語列(名義単語列)を作成し、これを一時記憶部7に記憶する。
読み付与手段5は、一時記憶部7に記憶された名義単語列中の各単語について字種情報が難読語か通常語かを判定し、難読語であれば読み辞書記憶部2に記憶された読み辞書より対応する読みを取得して当該単語に付与し、また、通常語であれば何もせず、読み付与済みの名義単語列に変換する。
名義キー作成手段6は、一時記憶部7に記憶された読み付与済みの名義単語列から重要語抽出テーブル記憶部3に記憶された重要語抽出テーブルを用いて重要語を抽出し、さらに当該重要語の字種情報が難読語か通常語かを判定し、重要語が通常語であれば読み付与済みの名義単語列に含まれる全ての重要語の表記を入力された名義文字列のままとした単語からなる単語列を名義キーとして出力し、また、重要語が難読語であれば読み付与済みの名義単語列に含まれる全ての重要語の表記を入力された名義文字列のままとした単語からなる単語列とともに、読み付与済みの名義単語列に含まれる重要語のうち、難読語の重要語の表記のみを読みに置き換え、残りの重要語の表記を入力された名義文字列のままとした単語からなる単語列を名義キーとして出力する。
なお、1つの名義文字列(名義単語列)中に難読語の重要語が2つ以上含まれる場合は、全ての難読語の重要語の表記を読みに置き換えたものの他、それぞれの難読語の重要語の表記を読みに置き換えたものも含めて(特に難読語の重要語が3つ以上であれば、同時に2つもしくはそれ以上のあらゆる難読語の重要語の組み合わせについて、その表記を読みに置き換えたものも含めて)出力するものとする。
図5は前述した名義解析装置の処理フローであり、以下、動作を説明する。
まず、単語分割手段4により、入力された名義文字列を前記単語辞書を用いて単語に分割し、分割した各単語にその品詞、意味及び字種情報を付与した名義単語列を作成し、これを一時記憶部7に記憶する(S1)。
以上の処理が単語分割処理であるが、本発明で新たに導入した字種情報を、一般的な品詞や意味とともに分割後の各単語に付与する点を除いて、周知の単語分割処理と同一である。
次に、読み付与手段5により、一時記憶部7に記憶された名義単語列から単語を1つ取り出し(S21)、該取り出した単語の字種情報が難読語か通常語かを判定し(S22)、この際、難読語であれば前記読み辞書よりその読みを取得して当該単語に追加して付与し(S23)、通常語であればそのまま何もしない。これを一時記憶部7に記憶された名義単語列中の全ての単語に対して繰り返し行い(S24)、読み付与済みの名義単語列に変換する。
以上の処理が読み付与処理ステップS2を構成する。
最後に、名義キー作成手段6により、一時記憶部7に記憶された読み付与済みの名義単語列から前記重要語抽出テーブルを用いて重要語を抽出し(S31)、さらに当該重要語の字種情報が難読語か通常語かを判定し(S32)、重要語が通常語であれば読み付与済みの名義単語列に含まれる全ての重要語の表記を入力された名義文字列のままとした単語からなる単語列を名義キーとして出力し(S33)、また、重要語が難読語であれば読み付与済みの名義単語列に含まれる全ての重要語の表記を入力された名義文字列のままとした単語からなる単語列とともに、読み付与済みの名義単語列に含まれる重要語のうち、難読語の重要語の表記のみを読みに置き換え、残りの重要語の表記を入力された名義文字列のままとした単語からなる単語列を名義キーとして出力する(S34)。
以上の処理が名義キー作成処理ステップS3を構成する。なお、読み付与済みの名義単語列から重要語を抽出する重要語抽出処理S31の詳細については、例えば特許文献2に記載されている。
ここで、例えば、名義文字列として「レストランWEST」が入力されると、単語分割処理ステップで「レストラン/WEST」と単語分割され、「WEST」には難読語の字種情報が付与される。次に、読み付与処理ステップで「WEST」に対して「ウエスト」という読み(カナ表記)が付与される。最後に、名義キー作成処理ステップで重要語「WEST/ウエスト」及び「レストラン」が抽出され、全ての重要語の表記が入力されたままの名義キー「WESTレストラン」と、難読語の表記が読みに置き換えられた名義キー「ウエストレストラン」とが作成される(なお、ここでは前述した重要語抽出テーブルにおける語順正規化規則に従い、単語(重要語)の順序も企業名(法人を識別する最も重要な単語)が先頭になるように変更されている。)。
このようにして作成した名義キーを用いて、例えば特許文献1に記載の照合を行うことにより、入力された名義文字列が「レストランWEST」であっても、「レストランウエスト」であっても照合することが可能となる。
なお、本発明は、周知のコンピュータに媒体もしくは通信回線を介して、図5の流れ図に示された手順を備えるプログラムをインストールすることによっても実現可能である。
顧客データベースにおける顧客データの検索や重複チェック、複数の顧客データベースの統合(名寄せ)に利用可能な名義キーの作成等の業務に使用できる。特に飲食店のように、名義文字列中に外国語や当て字等の難読語が多用される場合に有効である。
本発明の名義解析装置の実施の形態の一例を示す構成図 単語辞書の一例を示す説明図 読み辞書の一例を示す説明図 重要語抽出テーブルの一例を示す説明図 本発明の名義解析装置における処理の流れ図
符号の説明
1:単語辞書記憶部、2:読み辞書記憶部、3:重要語抽出テーブル記憶部、4:単語分割手段、5:読み付与手段、6:名義キー作成手段、7:一時記憶部。

Claims (3)

  1. 入力された名義文字列を解析し、当該名義文字列から検索・照合用の名義キーを作成する名義解析装置であって、
    多数の単語をそれぞれ、少なくともその品詞、意味及び難読語か通常語かを示す字種情報とともに登録してなる単語辞書を記憶した単語辞書記憶手段と、
    複数の難読語をそれぞれ、その読みとともに登録してなる読み辞書を記憶した読み辞書記憶手段と、
    名義文字列を構成する単語の中から重要語を抽出するための重要語抽出ルールを登録してなる重要語抽出テーブルを記憶した重要語抽出テーブル記憶手段と、
    入力された名義文字列を前記単語辞書を用いて単語に分割し、分割した各単語にその品詞、意味及び字種情報を付与した名義単語列を出力する単語分割手段と、
    名義単語列中の各単語について字種情報が難読語か通常語かを判定し、難読語であれば前記読み辞書より対応する読みを取得して当該単語に付与する読み付与手段と、
    読み付与済みの名義単語列から前記重要語抽出テーブルを用いて重要語を抽出し、さらに当該重要語の字種情報が難読語か通常語かを判定し、重要語が通常語であれば読み付与済みの名義単語列に含まれる全ての重要語の表記を入力された名義文字列のままとした単語列を名義キーとして出力し、また、重要語が難読語であれば読み付与済みの名義単語列に含まれる全ての重要語の表記を入力された名義文字列のままとした単語列とともに、読み付与済みの名義単語列に含まれる重要語のうち難読語の重要語の表記のみを読みに置き換え、残りの重要語の表記を入力された名義文字列のままとした単語列を名義キーとして出力する名義キー作成手段とを備えた
    ことを特徴とする名義解析装置。
  2. 入力された名義文字列を解析し、当該名義文字列から検索・照合用の名義キーを作成する名義解析方法において、
    多数の単語をそれぞれ、少なくともその品詞、意味及び難読語か通常語かを示す字種情報とともに登録してなる単語辞書を記憶した単語辞書記憶手段と、複数の難読語をそれぞれ、その読みとともに登録してなる読み辞書を記憶した読み辞書記憶手段と、名義文字列を構成する単語の中から重要語を抽出するための重要語抽出ルールを登録してなる重要語抽出テーブルを記憶した重要語抽出テーブル記憶手段と、単語分割手段と、読み付与手段と、名義キー作成手段とを用い、
    単語分割手段が、入力された名義文字列を前記単語辞書を用いて単語に分割し、分割した各単語にその品詞、意味及び字種情報を付与した名義単語列を出力する単語分割処理ステップと、
    読み付与手段が、名義単語列中の各単語について字種情報が難読語か通常語かを判定し、難読語であれば前記読み辞書より対応する読みを取得して当該単語に付与する読み付与処理ステップと、
    名義キー作成手段が、読み付与済みの名義単語列から前記重要語抽出テーブルを用いて重要語を抽出し、さらに当該重要語の字種情報が難読語か通常語かを判定し、重要語が通常語であれば読み付与済みの名義単語列に含まれる全ての重要語の表記を入力された名義文字列のままとした単語列を名義キーとして出力し、また、重要語が難読語であれば読み付与済みの名義単語列に含まれる全ての重要語の表記を入力された名義文字列のままとした単語列とともに、読み付与済みの名義単語列に含まれる重要語のうち難読語の重要語の表記のみを読みに置き換え、残りの重要語の表記を入力された名義文字列のままとした単語列を名義キーとして出力する名義キー作成処理ステップとを実行する
    ことを特徴とする名義解析方法。
  3. 入力された名義文字列を解析し、当該名義文字列から検索・照合用の名義キーを作成する名義解析プログラムであって、
    多数の単語をそれぞれ、少なくともその品詞、意味及び難読語か通常語かを示す字種情報とともに登録してなる単語辞書を記憶した単語辞書記憶手段と、複数の難読語をそれぞれ、その読みとともに登録してなる読み辞書を記憶した読み辞書記憶手段と、名義文字列を構成する単語の中から重要語を抽出するための重要語抽出ルールを登録してなる重要語抽出テーブルを記憶した重要語抽出テーブル記憶手段とを有するコンピュータに、
    入力された名義文字列を前記単語辞書を用いて単語に分割し、分割した各単語にその品詞、意味及び字種情報を付与した名義単語列を出力する単語分割処理ステップと、
    名義単語列中の各単語について字種情報が難読語か通常語かを判定し、難読語であれば前記読み辞書より対応する読みを取得して当該単語に付与する読み付与処理ステップと、
    読み付与済みの名義単語列から前記重要語抽出テーブルを用いて重要語を抽出し、さらに当該重要語の字種情報が難読語か通常語かを判定し、重要語が通常語であれば読み付与済みの名義単語列に含まれる全ての重要語の表記を入力された名義文字列のままとした単語列を名義キーとして出力し、また、重要語が難読語であれば読み付与済みの名義単語列に含まれる全ての重要語の表記を入力された名義文字列のままとした単語列とともに、読み付与済みの名義単語列に含まれる重要語のうち難読語の重要語の表記のみを読みに置き換え、残りの重要語の表記を入力された名義文字列のままとした単語列を名義キーとして出力する名義キー作成処理ステップとを実行させるための名義解析プログラム。
JP2005331923A 2005-11-16 2005-11-16 名義解析装置、名義解析方法及び名義解析プログラム Pending JP2007140781A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005331923A JP2007140781A (ja) 2005-11-16 2005-11-16 名義解析装置、名義解析方法及び名義解析プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005331923A JP2007140781A (ja) 2005-11-16 2005-11-16 名義解析装置、名義解析方法及び名義解析プログラム

Publications (1)

Publication Number Publication Date
JP2007140781A true JP2007140781A (ja) 2007-06-07

Family

ID=38203570

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005331923A Pending JP2007140781A (ja) 2005-11-16 2005-11-16 名義解析装置、名義解析方法及び名義解析プログラム

Country Status (1)

Country Link
JP (1) JP2007140781A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012073951A (ja) * 2010-09-29 2012-04-12 Fujitsu Ltd 文字列比較プログラム、文字列比較装置及び文字列比較方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012073951A (ja) * 2010-09-29 2012-04-12 Fujitsu Ltd 文字列比較プログラム、文字列比較装置及び文字列比較方法

Similar Documents

Publication Publication Date Title
US7979268B2 (en) String matching method and system and computer-readable recording medium storing the string matching method
US6738741B2 (en) Segmentation technique increasing the active vocabulary of speech recognizers
JP4570509B2 (ja) 読み生成装置、読み生成方法及びコンピュータプログラム
JP3372532B2 (ja) 感情情報抽出方法および感情情報抽出プログラムの計算機読み取り可能な記録媒体
JP2017097062A (ja) 読み付与装置、音声認識装置、読み付与方法、音声認識方法、およびプログラム
JP2009205357A (ja) 中国語の品詞を判定する装置、方法およびプログラム
JP2008299675A (ja) かな混在表記抽出装置、方法及びプログラム
CN116360794A (zh) 数据库语言解析方法、装置、计算机设备及存储介质
JP5224767B2 (ja) 大規模タグ付きコーパス作成方法、その装置およびプログラム
JP2008225846A (ja) 単語意味タグ付与装置および方法、プログラム並びに記録媒体
KR20000039018A (ko) 한글로 표기된 외래어 코드화 방법 및 그를 이용한 검색 방법
CN1830022B (zh) 语音应答系统及其方法
JP2007140781A (ja) 名義解析装置、名義解析方法及び名義解析プログラム
JP2008059389A (ja) 語彙候補出力システム、語彙候補出力方法及び語彙候補出力プログラム
JP7135730B2 (ja) 要約生成方法及び要約生成プログラム
CN106250354A (zh) 处理文书的信息处理装置、信息处理方法以及程序
JP4387324B2 (ja) プロパティ変換装置
JP2002197097A (ja) 記事要約文生成装置,記事要約文生成処理方法および記事要約文生成処理プログラムの記録媒体
JP2008210229A (ja) 知的財産情報検索装置、知的財産情報検索方法及び知的財産情報検索プログラム
JP2009104475A (ja) 類似文書検索装置、類似文書検索方法およびプログラム
JP2019008477A (ja) 判別プログラム、判別装置及び判別方法
JP4382634B2 (ja) 住所解析装置、住所解析方法及び住所解析プログラム
US20240037129A1 (en) Search device, search method, and recording medium
JP2006178865A (ja) 固有表現抽出装置、方法、プログラム及びそれを記録した記録媒体
JP4069093B2 (ja) 読替パターン生成装置、方法及びプログラム