JP3446866B2

JP3446866B2 - データベース作成装置および方法

Info

Publication number: JP3446866B2
Application number: JP04636097A
Authority: JP
Inventors: 健吾藤岡; 雅博奥
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1997-02-28
Filing date: 1997-02-28
Publication date: 2003-09-16
Anticipated expiration: 2017-02-28
Also published as: JPH10240729A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、曖昧性を排除する
ための説明情報データベースを作成するデータベース作
成装置および方法に関し、更に詳しくは、曖昧性を伴っ
て出現する確率が少ない対象、すなわち曖昧性を排除す
るための説明情報が必要ない対象を説明情報データベー
スから排除し得るデータベース作成装置および方法に関
する。

【０００２】

【従来の技術】例えば、片仮名で入力される「アライ」
に対応する名義をデータベース（以下、ＤＢと略称す
る）から検索した結果、「新井」「荒井」「新居」など
の同音異字、すなわち曖昧性を有する複数の名義が出力
されてしまうような場合、これらの複数の名義の中から
所望の名義を得るために各名義を区別するための補足説
明である説明情報、例えば「新井」に対する説明情報と
しては「新しいの新、井戸の井」などのような説明情報
を各名義とともに格納したデータベースとして説明情報
データベース（以下、説明情報ＤＢと略称する）が提案
されている。

【０００３】従来のデータベース作成装置では、仮名読
みで名義を入力された情報検索装置において名義の同音
異字という曖昧性を排除するために、上述したように名
義とその名義の同音異字を排除する説明情報を格納する
説明情報ＤＢを作成するのに、第１の方法では、膨大な
数の名義（元データ）をすべて説明情報ＤＢに格納して
おり、また第２の方法では、膨大な数の名義（元デー
タ）のうち、元データ中に存在する数の多い名義のみを
説明情報ＤＢに格納している。

【０００４】

【発明が解決しようとする課題】上述したように説明情
報ＤＢを作成する従来の方法のうち、第１の方法では、
膨大な数の名義をすべて説明情報ＤＢに格納するため
に、実際には同音異字が存在しない（つまり、同音異字
を排除する説明情報の必要がない）名義までも説明情報
ＤＢに格納してしまうので膨大なディスク容量が必要と
なり、検索時の計算機への負担も増大するという問題が
ある。

【０００５】また、第２の方法では、膨大な数の名義
（元データ）のうち、元データ中に存在する数の多い名
義のみを説明情報ＤＢに格納するために、元データ中に
存在する数が多ければ、同音異字が存在しない（つま
り、説明情報データの必要のない）名義であっても、説
明情報ＤＢに格納してしまう。逆に、元データ中に存在
する数が少ない名義は、同音異字を伴って検索される確
率が高くても、説明情報ＤＢに格納できないという問題
がある。

【０００６】本発明は、上記に鑑みてなされたもので、
その目的とするところは、説明情報ＤＢに格納しようと
する膨大な数の対象のうち曖昧性や同音異字を伴って出
現する確率が高い対象のみを説明情報ＤＢに格納するデ
ータベース作成装置および方法を提供することにある。

【０００７】

【課題を解決するための手段】上記目的を達成するため
に、請求項１記載の本発明は、利用者の仮名入力による
名義の検索要求を受けて、利用者の希望する検索結果を
出力する情報検索装置において同音異字という曖昧性を
排除するために同音異字という曖昧性を排除するような
説明情報を格納する曖昧性排除説明情報データベースを
作成するデータベース作成装置であって、前記説明情報
データベースに格納すべき複数のデータであり、それぞ
れの名義を含む複数のデータを受け取る入力手段と、該
入力手段により受け取った各データの名義について、該
各データの名義と同じ仮名読みで、かつ異なる漢字表記
を持つ名義のデータ個体数と前記情報検索装置における
全ての名義のデータ個体数とを用いて当該各データの名
義の同音異字出現確率を計算する同音異字出現確率計算
手段と、前記複数のデータの内、前記同音異字出現確率
計算手段により計算された同音異字出現確率の大きさの
大きいデータを上位から所定数抽出する抽出手段と、該
抽出手段により抽出された所定数のデータに対する同音
異字を排除する説明情報を作成する説明情報作成手段
と、前記抽出手段により抽出された所定数のデータおよ
び前記説明情報作成手段により作成された該所定数のデ
ータに対応する説明情報を前記説明情報データベースに
格納する格納手段と、を有することを要旨とする。

【０００８】請求項１記載の本発明にあっては、受け取
った各データの名義について、該各データの名義と同じ
仮名読みで、かつ異なる漢字表記を持つ名義のデータ個
体数と前記情報検索装置における全ての名義のデータ個
体数とを用いて当該各データの名義の同音異字出現確率
が計算され、前記複数のデータの内、計算された同音異
字出現確率の大きさの大きいデータが上位から所定数抽
出され、抽出された所定数のデータに対する同音異字を
排除する説明情報が作成され、抽出された所定数のデー
タおよび作成された該所定数のデータに対応する説明情
報が前記説明情報データベースに格納される。

【０００９】請求項２記載の本発明は、前記同音異字出
現確率計算手段が、前記各データの名義と同じ仮名読み
を持つ名義のデータ個体数をＭ、前記各データの名義と
同じ仮名読みで、かつ同じ漢字表記を持つ名義のデータ
個体数をＬ、前記全ての名義のデータ個体数をＮおよび
該前記各データの名義の同音異字出現確率をＰでそれぞ
れ表した場合、前記各データの名義と同じ仮名読みで、
かつ異なる漢字表記を持つデータ個体数を前記Ｍ−Ｌと
して計算し、この計算したＭ−Ｌを用いて、前記同音異
字出現確率Ｐを、下式

【数３】を用いて計算する手段を備えたことを要旨とする。

【００１０】請求項２記載の本発明にあっては、前記各
データの名義と同じ仮名読みで、かつ同じ漢字表記を持
つ名義のデータ個体数がＬ、前記全ての名義のデータ個
体数がＮおよび該前記各データの名義の同音異字出現確
率がＰでそれぞれ表された場合、前記各データの名義と
同じ仮名読みで、かつ異なる漢字表記を持つデータ個体
数が前記Ｍ−Ｌとして計算され、この計算されたＭ−Ｌ
を用いて、前記同音異字出現確率Ｐが上式を用いて計算
される。

【００１１】上記目的を達成するために、請求項３記載
の本発明は、利用者の仮名入力による名義の検索要求を
受けて、利用者の希望する検索結果を出力する情報検索
装置において同音異字という曖昧性を排除するために同
音異字という曖昧性を排除するような説明情報を格納す
る曖昧性排除説明情報データベースを作成するデータベ
ース作成方法であって、前記説明情報データベースに格
納すべき複数のデータであり、それぞれの名義を含む複
数のデータを受け取り、受け取った各データの名義につ
いて、その各データの名義と同じ仮名読みで、かつ異な
る漢字表記を持つ名義のデータ個体数と前記情報検索装
置における全ての名義のデータ個体数とを用いて当該各
データの名義の同音異字出現確率を計算し、前記複数の
データの内、前記計算された同音異字出現確率の大きさ
の大きいデータを上位から所定数抽出し、抽出された所
定数のデータに対する同音異字を排除する説明情報を作
成し、抽出された所定数のデータおよび作成された該所
定数のデータに対応する説明情報を前記説明情報データ
ベースに格納することを要旨とする。

【００１２】請求項３記載の本発明にあっては、受け取
った各データの名義について、該各データの名義と同じ
仮名読みで、かつ異なる漢字表記を持つ名義のデータ個
体数と前記情報検索装置における全ての名義のデータ個
体数とを用いて当該各データの名義の同音異字出現確率
が計算され、前記複数のデータの内、計算された同音異
字出現確率の大きさの大きいデータが上位から所定数抽
出され、抽出された所定数のデータに対する同音異字を
排除する説明情報が作成され、抽出された所定数のデー
タおよび作成された該所定数のデータに対応する説明情
報が前記説明情報データベースに格納される。

【００１３】請求項４記載の本発明は、前記同音異字出
現確率計算ステップが、前記各データの名義と同じ仮名
読みを持つ名義のデータ個体数をＭ、前記各データの名
義と同じ仮名読みで、かつ同じ漢字表記を持つ名義のデ
ータ個体数をＬ、前記全ての名義のデータ個体数をＮお
よび該前記各データの名義の同音異字出現確率をＰでそ
れぞれ表した場合、前記各データの名義と同じ仮名読み
で、かつ異なる漢字表記を持つデータ個体数を前記Ｍ−
Ｌとして計算し、この計算したＭ−Ｌを用いて、前記同
音異字出現確率Ｐを、下式

【数４】を用いて計算することを要旨とする。

【００１４】請求項４記載の本発明にあっては、前記各
データの名義と同じ仮名読みで、かつ同じ漢字表記を持
つ名義のデータ個体数がＬ、前記全ての名義のデータ個
体数がＮおよび該前記各データの名義の同音異字出現確
率がＰでそれぞれ表された場合、前記各データの名義と
同じ仮名読みで、かつ異なる漢字表記を持つデータ個体
数が前記Ｍ−Ｌとして計算され、この計算されたＭ−Ｌ
を用いて、前記同音異字出現確率Ｐが上式を用いて計算
される。

【００１５】

【発明の実施の形態】以下、図面を用いて本発明の実施
の形態について説明する。

【００１６】図１は、本発明の一実施形態に係るデータ
ベース作成装置の構成を示すブロック図である。同図に
示すデータベース作成装置は、説明情報ＤＢ６に格納す
べきデータのうち、同音異字出現確率が高いものを説明
情報ＤＢ６に格納して説明情報ＤＢ６を作成するもので
あり、説明情報ＤＢ６に格納すべきデータを受け取る入
力部１、該入力部１で受け取ったデータの同音異字出現
確率を計算する確率計算部２、入力部１で受け取ったデ
ータを確率計算部２で計算した同音異字出現確率の大き
さの順にソートし、該データの中から、同音異字出現確
率の大きいものを上位から所定数、例えばＭ件（ＭはＤ
Ｂ作成者が決めた任意の数）だけ、抽出する確率上位デ
ータ抽出部３、該確率上位データ抽出部３で抽出された
同音異字出現確率の大きさが大きいもの上位Ｍ件のデー
タに対する、その同音異字を排除するための補足説明情
報を作成する説明情報作成部４、および確率上位データ
抽出部３で抽出された同音異字出現確率の大きさが大き
いもの上位Ｍ件のデータと説明情報作成部４で作成され
た同音異字を排除するための説明情報を説明情報ＤＢ６
に格納するＤＢ格納部５から構成されている。

【００１７】次に、図２に示すフローチャートを参照し
て、図１に示すデータベース作成装置の作用を説明す
る。

【００１８】入力部１は、説明情報ＤＢ６に格納すべき
元データの入力を受け取る（ステップＳ１０）。確率計
算部２では、入力部１で受け取った説明情報ＤＢ６に格
納すべき元データについて情報検索装置において同音異
字を伴って検索される確率（以下、同音異字出現確率）
を計算する（ステップＳ２０）。確率上位データ抽出部
３は、確率計算部２で計算された同音異字出現確率の大
きさの順に、入力部１で入力された元データをソート
し、同音異字出現確率が大きいもの上位Ｍ件（Ｍは、Ｄ
Ｂ作成者が決めた任意の数）のデータを入力部１から得
た説明情報ＤＢに格納すべき元データから抽出する（ス
テップＳ３０）。

【００１９】説明情報作成部４は、ステップＳ３０で抽
出された同音異字出現確率が大きいもの上位Ｍ件のデー
タに対する、そのデータの同音異字を排除するための補
足説明情報を作成する（ステップＳ４０）。ＤＢ格納部
５では、ステップＳ３０で抽出された同音異字出現確率
が大きいもの上位Ｍ件のデータと、ステップＳ４０で受
け取ったデータの同音異字を排除するための補足説明情
報を説明情報ＤＢ６に格納する（ステップＳ５０）。

【００２０】以上のようにして、同音異字を排除するた
めの補足説明情報の使用頻度が高い、同音異字出現確率
の大きいデータのみを格納した説明情報ＤＢを作成する
ことができる。

【００２１】次に、図３乃至図６を参照して、具体例に
ついて説明する。

【００２２】説明情報ＤＢ６を作成するためには、入力
部１から例えば図３に示すような元データが入力され
る。この図３に示す例では、元データとして名義の漢字
とその読みが使用されている。

【００２３】入力部１から図３に示すような元データが
入力されると、確率計算部２は、これらの元データにつ
いて次式（１）に示す同音異字出現確率の計算式に従っ
て同音異字出現確率を計算する。

【００２４】

【数１】ここで、Ｐは同音異字出現確率、Ｎはすべての個体の
数、Ｍはある名義と同じ仮名読みを持つ個体の数、Ｌは
ある名義と同じ仮名読みで同じ漢字表記を持つ個体の数
である。

【００２５】例えば、図４に示す「鈴木」「鱸」「斉
藤」「斎藤」についての同音異字出現確率のイメージの
ように、「鈴木」が７９人、「鱸」が１人、「斎藤」が
１２人、「斉藤」が８人とすると、元データの中の名義
の数では、「スズキ」の数が８０人であるのに対して、
「サイトウ」の数は２０人であって、「スズキ」の方が
「サイトウ」の数よりも多くなっているが、この場合の
同音異字出現確率を上式（１）によって計算すると、次
のようになる。

【００２６】

【数２】名義「鈴木」の同音異字出現確率＝２×７９×（８０−７９）／１００×（１００−１）＝０．０１５９６名義「斎藤」の同音異字出現確率＝２×１２×（２０−１２）／１００×（１００−１）＝０．０１９３９すなわち、同音異字出現確率は、「斎藤」の方が「鈴
木」よりも高い。これは、「鈴木」の同音異字である
「鱸」という名義を持った人の数が少ないため、「すず
き」の同音異字を伴って出現する可能性は小さいからで
ある。従って、元データ中の数では、多い「鈴木」も同
音異字を伴って検索される確率は小さいので、説明情報
ＤＢ６に格納する必要はないのである。

【００２７】確率上位データ抽出部３では、上述したよ
うに確率計算部２で計算された同音異字出現確率の大き
い順に図５に示すようにソートする。そして、このよう
に同音異字出現確率の大きい順にソートした後、この同
音異字出現確率の大きさが大きいもの上位Ｍ件のデータ
を入力部１で入力された元データから抽出する。図５に
示す同音異字出現確率の計算結果では、「斎藤」「斉
藤」「伊藤」「伊東」などは同音異字出現確率が大きい
ので抽出されるが、「鈴木」「鱸」は同音異字出現確率
が小さいので、抽出されないことになる。

【００２８】このようにして抽出された同音異字出現確
率の高いデータは、説明情報作成部４においてその同音
異字を排除するための補足説明情報を作成され、ＤＢ格
納部５によって説明情報ＤＢ６に格納される。

【００２９】図６は、このように説明情報ＤＢ６に格納
された各名義とその説明情報を示しているものである。
同音異字を伴って検索される確率の高いデータである各
名義に対応して、各名義を他の名義と区別するための説
明情報が格納されている。

【００３０】なお、上記実施形態は、同音異字および同
音異字出現確率について説明したが、本発明はこれに限
定されるものでなく、このような同音異字および同音異
字出現確率に対応する上位概念のものとして、例えば曖
昧性および曖昧性出現確率、検索確率等も含むものであ
る。曖昧性出現確率は同音異字の出現も含んで、検索さ
れた候補に曖昧性が生じる確率であり、また検索確率は
あらゆる検索条件（例えば、人名の検索の場合、「名字
の読み」「住所」などを組み合わせた実際にありうるす
べての検索状態）を前提として、着目する用語が候補と
して選択される確率である。また、これらの概念の上下
関係は、検索確率が最も上位であり、次が曖昧性出現確
率であり、同音異字出現確率が最も低いものであり、す
なわち上下関係は、検索確率＞曖昧性出現確率＞同音異
字出現確率である。

【００３１】

【発明の効果】以上説明したように、本発明によれば、
膨大な数のすべての元データを説明情報データベースに
格納する必要がなく、同音異字が存在しないデータ、す
なわち説明情報の必要ないデータを説明情報データベー
スから排除することができるので、ディスク容量を低減
することができ、経済化を図ることができるとともに、
また説明情報データベース検索時の計算機にかかる負担
も軽減することができ、検索処理を高速化することがで
きる。更に、元データ中の存在数が少ないデータであっ
ても、同音異字を伴って検索される確率が高い場合に
は、説明情報データベースに格納することができる。

【図面の簡単な説明】

【図１】本発明の一実施形態に係るデータベース作成装
置の構成を示すブロック図である。

【図２】図１に示すデータベース作成装置の作用を示す
フローチャートである。

【図３】図１のデータベース作成装置で使用される元デ
ータの一例を示す説明図である。

【図４】「鈴木」「鱸」「斉藤」「斎藤」についての同
音異字出現確率のイメージを示す図である。

【図５】図１のデータベース作成装置に使用されている
確率上位データ抽出部により同音異字出現確率の大きい
順にソートされた結果を示す図である。

【図６】説明情報ＤＢに格納された名義と説明情報の一
例を示す図である。

【符号の説明】

１入力部２確率計算部３確率上位データ抽出部４説明情報作成部５ＤＢ格納部６説明情報ＤＢ

フロントページの続き (56)参考文献特開平６−19887（ＪＰ，Ａ) 特開平６−332799（ＪＰ，Ａ) 大山他，姓名漢字表記を説明する対話システムの試作と評価，電子情報通信学会技術研究報告（ＮＬＣ96−45，ＳＰ 96−76），日本，社団法人電子情報通信学会，1996年12月12日，Ｖｏｌ．96，Ｎｏ．419，ｐ．53−58 加藤他，読めない姓や同音語の多い名を簡単入力，ＮＴＴ技術ジャーナル, 日本，社団法人電気通信協会，1991年２月１日，Ｖｏｌ．３，Ｎｏ．２, ｐ．54−57 (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 17/30 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】利用者の仮名入力による名義の検索要求
を受けて、利用者の希望する検索結果を出力する情報検
索装置において同音異字という曖昧性を排除するために
同音異字という曖昧性を排除するような説明情報を格納
する曖昧性排除説明情報データベースを作成するデータ
ベース作成装置であって、前記説明情報データベースに格納すべき複数のデータで
あり、それぞれの名義を含む複数のデータを受け取る入
力手段と、該入力手段により受け取った各データの名義について、
該各データの名義と同じ仮名読みで、かつ異なる漢字表
記を持つ名義のデータ個体数と前記情報検索装置におけ
る全ての名義のデータ個体数とを用いて当該各データの
名義の同音異字出現確率を計算する同音異字出現確率計
算手段と、前記複数のデータの内、前記同音異字出現確率計算手段
により計算された同音異字出現確率の大きさの大きいデ
ータを上位から所定数抽出する抽出手段と、該抽出手段により抽出された所定数のデータに対する同
音異字を排除する説明情報を作成する説明情報作成手段
と、前記抽出手段により抽出された所定数のデータおよび前
記説明情報作成手段により作成された該所定数のデータ
に対応する説明情報を前記説明情報データベースに格納
する格納手段と、を有することを特徴とするデータベー
ス作成装置。
【請求項２】前記同音異字出現確率計算手段は、前記
各データの名義と同じ仮名読みを持つ名義のデータ個体
数をＭ、前記各データの名義と同じ仮名読みで、かつ同
じ漢字表記を持つ名義のデータ個体数をＬ、前記全ての
名義のデータ個体数をＮおよび該前記各データの名義の
同音異字出現確率をＰでそれぞれ表した場合、前記各デ
ータの名義と同じ仮名読みで、かつ異なる漢字表記を持
つデータ個体数を前記Ｍ−Ｌとして計算し、この計算し
たＭ−Ｌを用いて、前記同音異字出現確率Ｐを、下式【数１】を用いて計算する手段を備えたことを特徴とする請求項
１記載のデータベース作成装置。
【請求項３】利用者の仮名入力による名義の検索要求
を受けて、利用者の希望する検索結果を出力する情報検
索装置において同音異字という曖昧性を排除するために
同音異字という曖昧性を排除するような説明情報を格納
する曖昧性排除説明情報データベースを作成するデータ
ベース作成方法であって、前記説明情報データベースに格納すべき複数のデータで
あり、それぞれの名義を含む複数のデータを受け取り、受け取った各データの名義について、その各データの名
義と同じ仮名読みで、かつ異なる漢字表記を持つ名義の
データ個体数と前記情報検索装置における全ての名義の
データ個体数とを用いて当該各データの名義の同音異字
出現確率を計算し、前記複数のデータの内、前記計算された同音異字出現確
率の大きさの大きいデータを上位から所定数抽出し、抽出された所定数のデータに対する同音異字を排除する
説明情報を作成し、抽出された所定数のデータおよび作成された該所定数の
データに対応する説明情報を前記説明情報データベース
に格納することを特徴とするデータベース作成方法。
【請求項４】前記同音異字出現確率計算ステップは、
前記各データの名義と同じ仮名読みを持つ名義のデータ
個体数をＭ、前記各データの名義と同じ仮名読みで、か
つ同じ漢字表記を持つ名義のデータ個体数をＬ、前記全
ての名義のデータ個体数をＮおよび該前記各データの名
義の同音異字出現確率をＰでそれぞれ表した場合、前記
各データの名義と同じ仮名読みで、かつ異なる漢字表記
を持つデータ個体数を前記Ｍ−Ｌとして計算し、この計
算したＭ−Ｌを用いて、前記同音異字出現確率Ｐを、下
式【数２】を用いて計算することを特徴とする請求項３記載のデー
タベース作成方法。