JP3446866B2 - データベース作成装置および方法 - Google Patents
データベース作成装置および方法Info
- Publication number
- JP3446866B2 JP3446866B2 JP04636097A JP4636097A JP3446866B2 JP 3446866 B2 JP3446866 B2 JP 3446866B2 JP 04636097 A JP04636097 A JP 04636097A JP 4636097 A JP4636097 A JP 4636097A JP 3446866 B2 JP3446866 B2 JP 3446866B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- name
- probability
- individuals
- explanation information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
ための説明情報データベースを作成するデータベース作
成装置および方法に関し、更に詳しくは、曖昧性を伴っ
て出現する確率が少ない対象、すなわち曖昧性を排除す
るための説明情報が必要ない対象を説明情報データベー
スから排除し得るデータベース作成装置および方法に関
する。
に対応する名義をデータベース(以下、DBと略称す
る)から検索した結果、「新井」「荒井」「新居」など
の同音異字、すなわち曖昧性を有する複数の名義が出力
されてしまうような場合、これらの複数の名義の中から
所望の名義を得るために各名義を区別するための補足説
明である説明情報、例えば「新井」に対する説明情報と
しては「新しいの新、井戸の井」などのような説明情報
を各名義とともに格納したデータベースとして説明情報
データベース(以下、説明情報DBと略称する)が提案
されている。
みで名義を入力された情報検索装置において名義の同音
異字という曖昧性を排除するために、上述したように名
義とその名義の同音異字を排除する説明情報を格納する
説明情報DBを作成するのに、第1の方法では、膨大な
数の名義(元データ)をすべて説明情報DBに格納して
おり、また第2の方法では、膨大な数の名義(元デー
タ)のうち、元データ中に存在する数の多い名義のみを
説明情報DBに格納している。
報DBを作成する従来の方法のうち、第1の方法では、
膨大な数の名義をすべて説明情報DBに格納するため
に、実際には同音異字が存在しない(つまり、同音異字
を排除する説明情報の必要がない)名義までも説明情報
DBに格納してしまうので膨大なディスク容量が必要と
なり、検索時の計算機への負担も増大するという問題が
ある。
(元データ)のうち、元データ中に存在する数の多い名
義のみを説明情報DBに格納するために、元データ中に
存在する数が多ければ、同音異字が存在しない(つま
り、説明情報データの必要のない)名義であっても、説
明情報DBに格納してしまう。逆に、元データ中に存在
する数が少ない名義は、同音異字を伴って検索される確
率が高くても、説明情報DBに格納できないという問題
がある。
その目的とするところは、説明情報DBに格納しようと
する膨大な数の対象のうち曖昧性や同音異字を伴って出
現する確率が高い対象のみを説明情報DBに格納するデ
ータベース作成装置および方法を提供することにある。
に、請求項1記載の本発明は、利用者の仮名入力による
名義の検索要求を受けて、利用者の希望する検索結果を
出力する情報検索装置において同音異字という曖昧性を
排除するために同音異字という曖昧性を排除するような
説明情報を格納する曖昧性排除説明情報データベースを
作成するデータベース作成装置であって、前記説明情報
データベースに格納すべき複数のデータであり、それぞ
れの名義を含む複数のデータを受け取る入力手段と、該
入力手段により受け取った各データの名義について、該
各データの名義と同じ仮名読みで、かつ異なる漢字表記
を持つ名義のデータ個体数と前記情報検索装置における
全ての名義のデータ個体数とを用いて当該各データの名
義の同音異字出現確率を計算する同音異字出現確率計算
手段と、前記複数のデータの内、前記同音異字出現確率
計算手段により計算された同音異字出現確率の大きさの
大きいデータを上位から所定数抽出する抽出手段と、該
抽出手段により抽出された所定数のデータに対する同音
異字を排除する説明情報を作成する説明情報作成手段
と、前記抽出手段により抽出された所定数のデータおよ
び前記説明情報作成手段により作成された該所定数のデ
ータに対応する説明情報を前記説明情報データベースに
格納する格納手段と、を有することを要旨とする。
った各データの名義について、該各データの名義と同じ
仮名読みで、かつ異なる漢字表記を持つ名義のデータ個
体数と前記情報検索装置における全ての名義のデータ個
体数とを用いて当該各データの名義の同音異字出現確率
が計算され、前記複数のデータの内、計算された同音異
字出現確率の大きさの大きいデータが上位から所定数抽
出され、抽出された所定数のデータに対する同音異字を
排除する説明情報が作成され、抽出された所定数のデー
タおよび作成された該所定数のデータに対応する説明情
報が前記説明情報データベースに格納される。
現確率計算手段が、前記各データの名義と同じ仮名読み
を持つ名義のデータ個体数をM、前記各データの名義と
同じ仮名読みで、かつ同じ漢字表記を持つ名義のデータ
個体数をL、前記全ての名義のデータ個体数をNおよび
該前記各データの名義の同音異字出現確率をPでそれぞ
れ表した場合、前記各データの名義と同じ仮名読みで、
かつ異なる漢字表記を持つデータ個体数を前記M−Lと
して計算し、この計算したM−Lを用いて、前記同音異
字出現確率Pを、下式
データの名義と同じ仮名読みで、かつ同じ漢字表記を持
つ名義のデータ個体数がL、前記全ての名義のデータ個
体数がNおよび該前記各データの名義の同音異字出現確
率がPでそれぞれ表された場合、前記各データの名義と
同じ仮名読みで、かつ異なる漢字表記を持つデータ個体
数が前記M−Lとして計算され、この計算されたM−L
を用いて、前記同音異字出現確率Pが上式を用いて計算
される。
の本発明は、利用者の仮名入力による名義の検索要求を
受けて、利用者の希望する検索結果を出力する情報検索
装置において同音異字という曖昧性を排除するために同
音異字という曖昧性を排除するような説明情報を格納す
る曖昧性排除説明情報データベースを作成するデータベ
ース作成方法であって、前記説明情報データベースに格
納すべき複数のデータであり、それぞれの名義を含む複
数のデータを受け取り、受け取った各データの名義につ
いて、その各データの名義と同じ仮名読みで、かつ異な
る漢字表記を持つ名義のデータ個体数と前記情報検索装
置における全ての名義のデータ個体数とを用いて当該各
データの名義の同音異字出現確率を計算し、前記複数の
データの内、前記計算された同音異字出現確率の大きさ
の大きいデータを上位から所定数抽出し、抽出された所
定数のデータに対する同音異字を排除する説明情報を作
成し、抽出された所定数のデータおよび作成された該所
定数のデータに対応する説明情報を前記説明情報データ
ベースに格納することを要旨とする。
った各データの名義について、該各データの名義と同じ
仮名読みで、かつ異なる漢字表記を持つ名義のデータ個
体数と前記情報検索装置における全ての名義のデータ個
体数とを用いて当該各データの名義の同音異字出現確率
が計算され、前記複数のデータの内、計算された同音異
字出現確率の大きさの大きいデータが上位から所定数抽
出され、抽出された所定数のデータに対する同音異字を
排除する説明情報が作成され、抽出された所定数のデー
タおよび作成された該所定数のデータに対応する説明情
報が前記説明情報データベースに格納される。
現確率計算ステップが、前記各データの名義と同じ仮名
読みを持つ名義のデータ個体数をM、前記各データの名
義と同じ仮名読みで、かつ同じ漢字表記を持つ名義のデ
ータ個体数をL、前記全ての名義のデータ個体数をNお
よび該前記各データの名義の同音異字出現確率をPでそ
れぞれ表した場合、前記各データの名義と同じ仮名読み
で、かつ異なる漢字表記を持つデータ個体数を前記M−
Lとして計算し、この計算したM−Lを用いて、前記同
音異字出現確率Pを、下式
データの名義と同じ仮名読みで、かつ同じ漢字表記を持
つ名義のデータ個体数がL、前記全ての名義のデータ個
体数がNおよび該前記各データの名義の同音異字出現確
率がPでそれぞれ表された場合、前記各データの名義と
同じ仮名読みで、かつ異なる漢字表記を持つデータ個体
数が前記M−Lとして計算され、この計算されたM−L
を用いて、前記同音異字出現確率Pが上式を用いて計算
される。
の形態について説明する。
ベース作成装置の構成を示すブロック図である。同図に
示すデータベース作成装置は、説明情報DB6に格納す
べきデータのうち、同音異字出現確率が高いものを説明
情報DB6に格納して説明情報DB6を作成するもので
あり、説明情報DB6に格納すべきデータを受け取る入
力部1、該入力部1で受け取ったデータの同音異字出現
確率を計算する確率計算部2、入力部1で受け取ったデ
ータを確率計算部2で計算した同音異字出現確率の大き
さの順にソートし、該データの中から、同音異字出現確
率の大きいものを上位から所定数、例えばM件(MはD
B作成者が決めた任意の数)だけ、抽出する確率上位デ
ータ抽出部3、該確率上位データ抽出部3で抽出された
同音異字出現確率の大きさが大きいもの上位M件のデー
タに対する、その同音異字を排除するための補足説明情
報を作成する説明情報作成部4、および確率上位データ
抽出部3で抽出された同音異字出現確率の大きさが大き
いもの上位M件のデータと説明情報作成部4で作成され
た同音異字を排除するための説明情報を説明情報DB6
に格納するDB格納部5から構成されている。
て、図1に示すデータベース作成装置の作用を説明す
る。
元データの入力を受け取る(ステップS10)。確率計
算部2では、入力部1で受け取った説明情報DB6に格
納すべき元データについて情報検索装置において同音異
字を伴って検索される確率(以下、同音異字出現確率)
を計算する(ステップS20)。確率上位データ抽出部
3は、確率計算部2で計算された同音異字出現確率の大
きさの順に、入力部1で入力された元データをソート
し、同音異字出現確率が大きいもの上位M件(Mは、D
B作成者が決めた任意の数)のデータを入力部1から得
た説明情報DBに格納すべき元データから抽出する(ス
テップS30)。
出された同音異字出現確率が大きいもの上位M件のデー
タに対する、そのデータの同音異字を排除するための補
足説明情報を作成する(ステップS40)。DB格納部
5では、ステップS30で抽出された同音異字出現確率
が大きいもの上位M件のデータと、ステップS40で受
け取ったデータの同音異字を排除するための補足説明情
報を説明情報DB6に格納する(ステップS50)。
めの補足説明情報の使用頻度が高い、同音異字出現確率
の大きいデータのみを格納した説明情報DBを作成する
ことができる。
ついて説明する。
部1から例えば図3に示すような元データが入力され
る。この図3に示す例では、元データとして名義の漢字
とその読みが使用されている。
入力されると、確率計算部2は、これらの元データにつ
いて次式(1)に示す同音異字出現確率の計算式に従っ
て同音異字出現確率を計算する。
数、Mはある名義と同じ仮名読みを持つ個体の数、Lは
ある名義と同じ仮名読みで同じ漢字表記を持つ個体の数
である。
藤」「斎藤」についての同音異字出現確率のイメージの
ように、「鈴木」が79人、「鱸」が1人、「斎藤」が
12人、「斉藤」が8人とすると、元データの中の名義
の数では、「スズキ」の数が80人であるのに対して、
「サイトウ」の数は20人であって、「スズキ」の方が
「サイトウ」の数よりも多くなっているが、この場合の
同音異字出現確率を上式(1)によって計算すると、次
のようになる。
木」よりも高い。これは、「鈴木」の同音異字である
「鱸」という名義を持った人の数が少ないため、「すず
き」の同音異字を伴って出現する可能性は小さいからで
ある。従って、元データ中の数では、多い「鈴木」も同
音異字を伴って検索される確率は小さいので、説明情報
DB6に格納する必要はないのである。
うに確率計算部2で計算された同音異字出現確率の大き
い順に図5に示すようにソートする。そして、このよう
に同音異字出現確率の大きい順にソートした後、この同
音異字出現確率の大きさが大きいもの上位M件のデータ
を入力部1で入力された元データから抽出する。図5に
示す同音異字出現確率の計算結果では、「斎藤」「斉
藤」「伊藤」「伊東」などは同音異字出現確率が大きい
ので抽出されるが、「鈴木」「鱸」は同音異字出現確率
が小さいので、抽出されないことになる。
率の高いデータは、説明情報作成部4においてその同音
異字を排除するための補足説明情報を作成され、DB格
納部5によって説明情報DB6に格納される。
された各名義とその説明情報を示しているものである。
同音異字を伴って検索される確率の高いデータである各
名義に対応して、各名義を他の名義と区別するための説
明情報が格納されている。
音異字出現確率について説明したが、本発明はこれに限
定されるものでなく、このような同音異字および同音異
字出現確率に対応する上位概念のものとして、例えば曖
昧性および曖昧性出現確率、検索確率等も含むものであ
る。曖昧性出現確率は同音異字の出現も含んで、検索さ
れた候補に曖昧性が生じる確率であり、また検索確率は
あらゆる検索条件(例えば、人名の検索の場合、「名字
の読み」「住所」などを組み合わせた実際にありうるす
べての検索状態)を前提として、着目する用語が候補と
して選択される確率である。また、これらの概念の上下
関係は、検索確率が最も上位であり、次が曖昧性出現確
率であり、同音異字出現確率が最も低いものであり、す
なわち上下関係は、検索確率>曖昧性出現確率>同音異
字出現確率である。
膨大な数のすべての元データを説明情報データベースに
格納する必要がなく、同音異字が存在しないデータ、す
なわち説明情報の必要ないデータを説明情報データベー
スから排除することができるので、ディスク容量を低減
することができ、経済化を図ることができるとともに、
また説明情報データベース検索時の計算機にかかる負担
も軽減することができ、検索処理を高速化することがで
きる。更に、元データ中の存在数が少ないデータであっ
ても、同音異字を伴って検索される確率が高い場合に
は、説明情報データベースに格納することができる。
置の構成を示すブロック図である。
フローチャートである。
ータの一例を示す説明図である。
音異字出現確率のイメージを示す図である。
確率上位データ抽出部により同音異字出現確率の大きい
順にソートされた結果を示す図である。
例を示す図である。
Claims (4)
- 【請求項1】 利用者の仮名入力による名義の検索要求
を受けて、利用者の希望する検索結果を出力する情報検
索装置において同音異字という曖昧性を排除するために
同音異字という曖昧性を排除するような説明情報を格納
する曖昧性排除説明情報データベースを作成するデータ
ベース作成装置であって、前記説明情報データベースに格納すべき複数のデータで
あり、それぞれの名義を含む複数のデータを受け取る入
力手段と、 該入力手段により受け取った各データの名義について 、
該各データの名義と同じ仮名読みで、かつ異なる漢字表
記を持つ名義のデータ個体数と前記情報検索装置におけ
る全ての名義のデータ個体数とを用いて当該各データの
名義の同音異字出現確率を計算する同音異字出現確率計
算手段と、 前記複数のデータの内、前記同音異字出現確率計算手段
により計算された同音異字出現確率の大きさの大きいデ
ータを上位から所定数抽出する抽出手段と 、該抽出手段により抽出された所定数のデータに対する 同
音異字を排除する説明情報を作成する説明情報作成手段
と、前記抽出手段により抽出された所定数のデータおよび前
記説明情報作成手段により作成された該所定数のデータ
に対応する説明情報 を前記説明情報データベースに格納
する格納手段と、を有することを特徴とするデータベー
ス作成装置。 - 【請求項2】 前記同音異字出現確率計算手段は、前記
各データの名義と同じ仮名読みを持つ名義のデータ個体
数をM、前記各データの名義と同じ仮名読みで、かつ同
じ漢字表記を持つ名義のデータ個体数をL、前記全ての
名義のデータ個体数をNおよび該前記各データの名義の
同音異字出現確率をPでそれぞれ表した場合、前記各デ
ータの名義と同じ仮名読みで、かつ異なる漢字表記を持
つデータ個体数を前記M−Lとして計算し、この計算し
たM−Lを用いて、前記同音異字出現確率Pを、下式 【数1】 を用いて計算する手段を備えたことを特徴とする請求項
1記載のデータベース作成装置。 - 【請求項3】 利用者の仮名入力による名義の検索要求
を受けて、利用者の希望する検索結果を出力する情報検
索装置において同音異字という曖昧性を排除するために
同音異字という曖昧性を排除するような説明情報を格納
する曖昧性排除説明情報データベースを作成するデータ
ベース作成方法であって、前記説明情報データベースに格納すべき複数のデータで
あり、それぞれの名義を含む複数のデータを受け取り、 受け取った各データの名義について 、その各データの名
義と同じ仮名読みで、かつ異なる漢字表記を持つ名義の
データ個体数と前記情報検索装置における全ての名義の
データ個体数とを用いて当該各データの名義の同音異字
出現確率を計算し、 前記複数のデータの内、前記計算された同音異字出現確
率の大きさの大きいデータを上位から所定数抽出し 、抽出された所定数のデータに対する 同音異字を排除する
説明情報を作成し、抽出された所定数のデータおよび作成された該所定数の
データに対応する説明情報 を前記説明情報データベース
に格納することを特徴とするデータベース作成方法。 - 【請求項4】 前記同音異字出現確率計算ステップは、
前記各データの名義と同じ仮名読みを持つ名義のデータ
個体数をM、前記各データの名義と同じ仮名読みで、か
つ同じ漢字表記を持つ名義のデータ個体数をL、前記全
ての名義のデータ個体数をNおよび該前記各データの名
義の同音異字出現確率をPでそれぞれ表した場合、前記
各データの名義と同じ仮名読みで、かつ異なる漢字表記
を持つデータ個体数を前記M−Lとして計算し、この計
算したM−Lを用いて、前記同音異字出現確率Pを、下
式 【数2】 を用いて計算することを特徴とする請求項3記載のデー
タベース作成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP04636097A JP3446866B2 (ja) | 1997-02-28 | 1997-02-28 | データベース作成装置および方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP04636097A JP3446866B2 (ja) | 1997-02-28 | 1997-02-28 | データベース作成装置および方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH10240729A JPH10240729A (ja) | 1998-09-11 |
JP3446866B2 true JP3446866B2 (ja) | 2003-09-16 |
Family
ID=12744994
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP04636097A Expired - Fee Related JP3446866B2 (ja) | 1997-02-28 | 1997-02-28 | データベース作成装置および方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3446866B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7289956B2 (en) * | 2003-05-27 | 2007-10-30 | Microsoft Corporation | System and method for user modeling to enhance named entity recognition |
-
1997
- 1997-02-28 JP JP04636097A patent/JP3446866B2/ja not_active Expired - Fee Related
Non-Patent Citations (2)
Title |
---|
加藤 他,読めない姓や同音語の多い名を簡単入力,NTT技術ジャーナル,日本,社団法人電気通信協会,1991年 2月 1日,Vol.3,No.2,p.54−57 |
大山 他,姓名漢字表記を説明する対話システムの試作と評価,電子情報通信学会技術研究報告(NLC96−45,SP96−76),日本,社団法人電子情報通信学会,1996年12月12日,Vol.96,No.419,p.53−58 |
Also Published As
Publication number | Publication date |
---|---|
JPH10240729A (ja) | 1998-09-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108287843B (zh) | 一种兴趣点信息检索的方法和装置、及导航设备 | |
JP3041268B2 (ja) | 中国語誤り検査(cec)システム | |
US8606779B2 (en) | Search method, similarity calculation method, similarity calculation, same document matching system, and program thereof | |
US6622139B1 (en) | Information retrieval apparatus and computer-readable recording medium having information retrieval program recorded therein | |
JP3258063B2 (ja) | データベース検索システム及び方法 | |
JP3360693B2 (ja) | 顧客情報検索方式 | |
JP3446866B2 (ja) | データベース作成装置および方法 | |
JPH064584A (ja) | 文章検索装置 | |
JPH08287086A (ja) | 適合度順画像強調表示方法及び装置 | |
KR20080082985A (ko) | 데이터 파일 조작 방법 및 장치 | |
JPH07182333A (ja) | 日本語処理装置 | |
JPH1166078A (ja) | 検索要求具体化方法及び装置及び検索要求具体化プログラムを格納した記憶媒体 | |
JP3275704B2 (ja) | 入力文字列推測認識装置 | |
JP2682448B2 (ja) | 索引検索方式 | |
JPH1069490A (ja) | 文書絞り込み検索装置、文書絞り込み検索方法及び文書検索装置 | |
JP2000076254A (ja) | キーワード抽出装置、このキーワード抽出装置を用いた類似文献検索装置、キーワード抽出方法及び記録媒体 | |
JP3498635B2 (ja) | 情報検索方法及びその装置並びにコンピュータ可読記録媒体 | |
JPH0756945A (ja) | 全文データベースシステム | |
JPH0944521A (ja) | インデックス作成装置および文書検索装置 | |
JP2002334045A (ja) | 電子メール分類方法及びその実施装置並びにその処理プログラム | |
JP2000331027A (ja) | 類似文書検索装置と類似文書検索方法 | |
JPH08249341A (ja) | 文書データベースの文書格納・検索装置 | |
JP3241854B2 (ja) | 単語スペル自動補正装置 | |
JPH10105578A (ja) | 点数を利用した類似単語検索方法 | |
JPH05158984A (ja) | 文字列抽出装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080704 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080704 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090704 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090704 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100704 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110704 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120704 Year of fee payment: 9 |
|
LAPS | Cancellation because of no payment of annual fees |