JP4136055B2 - 類似文字列検索システムおよび記録媒体 - Google Patents

類似文字列検索システムおよび記録媒体 Download PDF

Info

Publication number
JP4136055B2
JP4136055B2 JP07106498A JP7106498A JP4136055B2 JP 4136055 B2 JP4136055 B2 JP 4136055B2 JP 07106498 A JP07106498 A JP 07106498A JP 7106498 A JP7106498 A JP 7106498A JP 4136055 B2 JP4136055 B2 JP 4136055B2
Authority
JP
Japan
Prior art keywords
character string
shortening
conversion means
similar
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP07106498A
Other languages
English (en)
Other versions
JPH10334122A (ja
Inventor
雅信 古川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu FIP Corp
Original Assignee
Fujitsu FIP Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu FIP Corp filed Critical Fujitsu FIP Corp
Priority to JP07106498A priority Critical patent/JP4136055B2/ja
Publication of JPH10334122A publication Critical patent/JPH10334122A/ja
Application granted granted Critical
Publication of JP4136055B2 publication Critical patent/JP4136055B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、文字列をもとにデータベースから類似文字列を検索する類似文字列検索システムおよび記録媒体に関するものである。
【0002】
【従来の技術】
従来、商品名などのカタカナからなる文字列と類似の文字列がデータベースに登録されているか否かの類似検索を行う場合、入力された文字列についてデータベースを検索する際に、類似辞書を参照して
・「ウ”」(ウの濁点を表す)を「ブ」
・「ヂ」を「ジ」
・「オオ」、「オウ」、「オー」を「オオ」
・「コオ」、「コウ」、「コー」を「コウ」
などに変換した後に、データベースを検索して同一の類似文字列が存在する否かをチェックするようにしていた。また、新たな類似文字と判断された場合には、類似辞書に追加登録してデータベースの全部を再検索するようにしていた。
【0003】
【発明が解決しようとする課題】
上述したようにカタカナからなる文字列と類似の文字列をデータベースから検索する場合、類似辞書を参照して類似文字に変換した後に、データベースを検索して同一の類似文字列があるか否かをチェックしていたため、類似辞書に登録されていない類似文字列は検索できなく、しかも文字列の類似検索にバラツキが発生してしまうという問題があった。
【0004】
本発明は、これらの問題を解決するため、文字列から特定の子音部を削除および連続母音についてテーブルを参照して変換し文字列の短縮を行った後、データベースを検索して類似文字列を見つけ、類似辞書なしにデータベースからバラツキなく類似文字列の検索を実現することを目的としている。
【0005】
【課題を解決するための手段】
図1を参照して課題を解決するための手段を説明する。
図1において、文字列削除手段2は、入力された文字列中の特定の子音を削除するものである。
【0006】
文字列短縮手段3は、入力された文字列について変換テーブル4を参照して少ない文字列に短縮するものである。
変換テーブル4は、文字列中に含まれる短縮する対象の文字列と短縮後の文字列を対応づけて登録するものであって、例えば文字列中に含まれる短縮する対象の連続母音と短縮後の母音を対応づけて登録するものである。
【0007】
データベース5は、商品名などの文字列を登録したものである。
次に、動作を説明する。
文字列短縮手段3が入力された文字列について変換テーブル4を参照して少ない文字列に短縮し、短縮した後の文字列をもとにデータベース5を検索して類似文字列を見つけるようにしている。
【0008】
また、文字列削除手段2が入力された文字列中の特定の子音を削除した後、文字列短縮手段3が削除後の文字列について変換テーブル4を参照して少ない文字列に短縮し、短縮した後の文字列をもとにデータベース5を検索して類似文字列を見つけるようにしている。
【0009】
これらの際に、変換テーブル4に文字列中に含まれる短縮する対象の連続母音と短縮後の母音を対応づけて登録するようにしている。
また、データベース5内の文字列について、予め特定の子音を削除および変換テーブル4を参照して少ない文字列に短縮し、対応づけて登録するようにしている。
【0010】
従って、入力された文字列から特定の子音部を削除および連続母音について変換テーブル4を参照して変換し文字列の短縮を行った後、データベース5を検索して類似文字列を見つけることにより、従来の類似辞書なしにデータベース5からバラツキなく類似文字列を精度高く迅速に検索することが可能となる。
【0011】
【発明の実施の形態】
次に、図1から図6を用いて本発明の実施の形態および動作を順次詳細に説明する。ここで、記録媒体から読み出したプログラムあるいは外部記憶装置であるハードディスク装置などから読み出したプログラム、またはセンタの外部記憶装置から読み出して回線を介して転送を受けたプログラムを主記憶にローディングして起動し、以下に説明する各種処理を行うようにしている。
【0012】
図1は、本発明のシステム構成図を示す。
図1において、検索装置1は、プログラムに従ってデータベース5を検索して商品名などの文字列と同一および類似の文字列を検索するものであって、ここでは、文字列削除手段2、文字列短縮手段3、および変換テーブル4から構成されるものである。
【0013】
文字列削除手段2は、入力された文字列から特定の子音(例えばY、Wの削除)を行うものである(図3を用いて後述する)。
文字列短縮手段3は、入力された文字列中の連続母音について変換テーブル4を参照して母音に変換などした文字列を短縮するものである。
【0014】
変換テーブル4は、文字列中に含まれる短縮する対象の文字列(例えば連続母音)と短縮後の文字列(母音)とを対応づけて登録したものである(図3の(c)参照)。
【0015】
データベース5は、商品名などの文字列およびその類似名を対応づけて登録したものである。
表示装置6は、入力された文字列や類似検索結果を表示したりするものである。
【0016】
入力装置7は、検索対象の文字列を入力したりなどを行うものである。
次に、図2のフローチャートに示す順序に従い、図1の構成の動作を詳細に説明する。
【0017】
図2は、本発明の動作説明フローチャートを示す。
図2において、S1は、名前を入力する。これは、商品名や競馬における競走馬名などの類似検索対象の名前を入力する。
【0018】
S2は、発音文字に変換する。これは、後述する図3のフローチャートに従い、入力文字をカタカナに変換し、長音(−)や「ン」の削除、拗音、促音の大文字化、特定の子音部(Y、W)の削除、VをB、JをDに変換、連続母音を変換テーブル4を参照して母音に変換した短縮した後、カタカナに逆変換し、短縮した文字列(類似文字列)を得る(図3ないし図4を用いて後述する)。
【0019】
S3は、名前DBを検索する。この際、変換名(S2で変換した類似文字列)をキーに名前DB(例えば図1のデータベース5)を検索する。
S4は、類似変換名のあり、なしを判別する。ありの場合には、S2で変換した類似変換名(類似文字列)と一致する類似名とその登録名を取りだし、S6で登録済みの変換名(登録名)と類似名を表示(例えば後述する図5参照)し、S7に進む。一方、S4のNOの場合には、変換名(類似文字列)と一致するものがデータベース5になかったので、S5で類似名なしとしての通知を行い、S7に進む。
【0020】
S7は、名前DBへの追加指示の有無を促す。
S8は、追加するという指示があったか判別する。YESの場合には、S9で名前DB(図1のデータベース5)への追加情報の入力を行い、S10で名前DBへ登録する。例えば後述する図5に示すように、登録名に対応づけて類似名(変換名)を図1のデータベース5に追加登録する。一方、S8のNOの場合には、追加登録の指示がなかったので、終了する。
【0021】
以上によって、名前(文字列)を入力するのみで、システムが自動的にS2で後述する図3および図4のフローチャートに示す手順に従い文字列の短縮を行って類似文字列に変換し、変換後の類似文字列をキーとして、データベース5を検索して一致する類似名を持つエントリの登録名と当該類似名(類似文字列)を例えば後述する図5に示すように表示する。表示された類似する文字列のうちの登録名に類似するものが見つからないときは、追加登録し、データベース5を更新する。
【0022】
図3は、本発明の発音文字変換ルールの説明図を示す。これは、既述した図2のS2の発音文字に変換するときの手順を詳細に説明したものである。以下説明する。
【0023】
図3の(a)は、フローチャートを示す。
図3の(a)において、▲1▼は、入力(カタカナ)する。ここでは、例えば右側の図3の(b)に記載したように、文字列
・アヤカジュニア
を入力する。
【0024】
▲2▼は、長音(−)、(ン)の削除、および拗音、促音の大文字化を行う。ここでは、拗音は例えば「ジュニア」中の「ュ」であり、これを大文字「ユ」に変換する。促音は例えば「マック」中の「ッ」であり、これを大文字「ツ」に変換する。ここでは、例えば右側の図3の(b)に記載したように、文字列
・アヤカジユニア
と変換する。
【0025】
▲3▼は、ローマ字変換し、子音と母音を分離する。ここでは、例えば右側の図3の(b)に記載したように、ローマ字変換し
・AYAKAZIYUNIA
とし、子音と母音を分離する。
【0026】
▲4▼は、子音部の削除・変換(Y、Wの削除、V→B、J→D)する。ここでは、例えば右側の図3の(b)に記載したように、子音を削除し
・AAKAZIUNIA
とする。
【0027】
▲5▼は、連続母音の変換(変換テーブルによる)を行う。ここでは、例えば右側の図3の(b)に記載したように、図3の(c)の変換テーブル4を参照してAAをA、IUをU、IAをAに変換し、
・AKAZUNA
とする。
【0028】
▲6▼は、カタカナに変換する。ここでは、例えば右側の図3の(b)に記載したように、ローマ字をカタカナ読みにして
・アカズナ
とする。
【0029】
▲7▼は、出力(カタカナ)する。
以上の▲1▼ないし▲7▼の処理によって、入力文字列「アヤカジュニア」が類似文字「アカズナ」に短縮されて出力されることとなる。
【0030】
図3の(b)は、変換例を示す。これは、入力文字「アヤカジュニア」を▲1▼ないし▲7▼の処理によって変換される要素をそれぞれ示したものである。
図3の(c)は、変換テーブル例を示す。この変換テーブル4の左側の縦は1文字目を表し、上側の横は2文字目を表す。この変換テーブル4により、連続する2母音単位に1文字の母音に短縮されることとなる。例えば3連続母音「AIU」は、第1回目に先頭の2連続母音「AI」を「A」に短縮し、第2回目にこれと残りを併せた2連続母音「AU」を「A」に更に短縮し、結果として3連続母音「AIU」を1母音「A」に短縮できたこととなる。
【0031】
図4は、本発明の連続母音の変換フローチャート(図3の▲5▼の詳細説明)を示す。
図4において、S11は、連続母音を見つける。例えば既述した図3の(a)の▲3▼の右側の図3の(b)の文字列
・AAKAZIUNIA
中から「AA」、「IU」、「IA」の3つの2連続母音をそれぞれ見つけ、先頭から順にS12以降の処理を行う。
【0032】
S12は、変換テーブル4を参照して短縮する。これは、S11で見つけた例えば連続母音「AA」について、図3の(c)の変換テーブル4を参照し、「A」に短縮する。
【0033】
S13は、連続母音がなくなったか判別する。YESの場合には、終了する。NOの場合には、S11に戻り繰り返す。
以上によって、既述した図3の(a)の▲4▼の右側の図3の(b)の
・AAKAZIUNIA

・AKAZUNA
に短縮されることとなる。
【0034】
図5は、本発明の類似名の検索例を示す。これは、入力文字列「アヤカジュニア」について、既述した図3の(b)の変換例によって変換した類似文字列「アカズナ」をキーに図1のデータベース5を検索し、一致する類似名を持つエントリの登録名と当該類似名、番号を取り出してそのリストを表示したものである。
【0035】
以上のように、入力文字列「アヤカジュニア」について図3の(a)のフローチャートに従い類似文字列「アカズナ」に変換した後、この類似文字列「アカズナ」をキーにデータベース5中から一致する類似名を検索するのみで当該類似名に対応づけて登録されている登録名を図示の下記のように極めて迅速に検索して表示することが可能となる。
【0036】
Figure 0004136055
図6は、本発明のデータベースへの類似名の登録フローチャートを示す。
【0037】
図6において、S21は、データベースをアクセスする。これは、商品名などの文字列が登録されている既存のデータベースをアクセスする。
S22は、文字列を1つ取り出す。
【0038】
S23は、類似名に変換する。これは、S22で取り出した文字列について、既述した図3および図4の手順に従い、類似名(類似文字列)に変換する。例えば文字列「アヤカジュニア」を類似名「アカズナ」に変換する。
【0039】
S24は、追加登録する。これは、S22で取り出した文字列とS23で変換した類似名を対応づけてデータベース5に追加登録する。
以上によって、データベース5中の文字列に対応づけてS23で変換した類似名が登録されるので、検索時に類似名をキーに一致検索を行い、類似名が一致するエントリの当該類似名と登録名を既述した図5に示すように検索して表示することが可能となる。この際、類似名をキーに一致する類似名を検索し、当該類似名とその登録名を全て取り出して表示するのみで、類似検索ができ、極めて高速にデータベース5中から類似する文字列を検索することが可能となった。
【0040】
【発明の効果】
以上説明したように、本発明によれば、入力された文字列から特定の子音部を削除および連続母音について変換テーブル4を参照して変換し文字列の短縮を行った後、データベース5を検索して類似文字列を見つける構成を採用しているため、従来の類似辞書なしにデータベース5からバラツキなく類似文字列を精度高く極めて高速に検索して表示できる。これらにより、
(1) 従来の類似音を類似辞書登録により判定検索していた場合に比し、検索もれが少なくなった。
【0041】
(2) また、従来では例えばウ”(ウの濁点を表す)→ブ、ヂ→ジ、オオ、オウ、オ→オオ、コオ、コウ、コ→コオなどを類似辞書登録して統一的に変換を行ってからデータベース検索していたため、類似音が見つかる毎に類似辞書登録してからデータベースを全件検索する必要があり、検索に手間がかかると共に検索速度が遅かった問題点について、本発明では類似辞書を不要としこれらの問題を解決できた。
【図面の簡単な説明】
【図1】本発明のシステム構成図である。
【図2】本発明の動作説明フローチャートである。
【図3】本発明の発音文字変換ルールの説明図である。
【図4】本発明の連続母音の変換フローチャートである。
【図5】本発明の類似名の検索例である。
【図6】本発明のデータベースへの類似名の登録フローチャートである。
【符号の説明】
1:検索装置
2:文字列削除手段
3:文字列短縮手段
4:変換テーブル
5:データベース
6:表示装置
7:入力装置

Claims (2)

  1. 文字列をもとにデータベースから類似文字列を検索する類似文字列検索システムにおいて、
    短縮前のカナの文字列と短縮後のカナの文字列とを対応づけて登録するためのデータベースと、
    前記データベースから類似文字列を検索する検索条件としてのカナの文字列に含まれる長音、撥音を削除した後、拗音、促音を大文字にする第1の変換手段と、
    前記第1の変換手段によって変換した後のカナの文字列を、ローマ字の文字列に変換する第2の変換手段と、
    前記第2の変換手段によって変換した後のローマ字の文字列に含まれる子音であるY、Wを少なくとも削除、およびVをB、JをDに少なくとも変換する第3の変換手段と、
    前記第3の変換手段によって削除あるいは変換した後のローマ字の文字列に含まれる連続母音について、連続する2つの母音を1つの母音に変換して短縮する規則を登録した変換テーブルを参照し、短縮する短縮手段と、
    前記短縮手段によって短縮後のローマ字の文字列を、カナの文字列に逆変換する第4の変換手段と、
    前記第4の変換手段によって逆変換した後の短縮後のカナの文字列を検索キーとして、前記データベースを検索して一致する短縮後のカナの文字列を見つけ、当該見つけた短縮後のカナの文字列に対応づけて登録されている短縮前のカナの文字列を抽出して出力し、利用者により登録指示されると、短縮前のカナの文字列に基づいて、短縮後のカナの文字列に対応づけて短縮前のカナの文字列をデータベースに追加登録する検索・登録手段と
    を有することを特徴とする類似文字列検索システム。
  2. コンピュータを、
    短縮前のカナの文字列と短縮後のカナの文字列とを対応づけて登録するデータベースから類似文字列を検索する検索条件としてのカナの文字列に含まれる長音、撥音を削除した後、拗音、促音を大文字にする第1の変換手段と、
    前記第1の変換手段によって変換した後のカナの文字列を、ローマ字の文字列に変換する第2の変換手段と、
    前記第2の変換手段によって変換した後のローマ字の文字列に含まれる子音であるY、Wを少なくとも削除、およびVをB、JをDに少なくとも変換する第3の変換手段と、
    前記第3の変換手段によって削除あるいは変換した後のローマ字の文字列に含まれる連続母音について、連続する2つの母音を1つの母音に変換する規則を登録した変換テーブルを参照し、短縮する第1の短縮手段と、
    前記第1の短縮手段によって短縮後のローマ字の文字列を、カナの文字列に変換する第4の変換手段と、
    前記第4の変換手段によって逆変換した後の短縮後のカナの文字列を検索キーとして、前記データベースを検索して一致する短縮後のカナの文字列を見つけ、当該見つけた短縮後のカナの文字列に対応づけて登録されている短縮前のカナの文字列を抽出して出力し、利用者により登録指示されると、短縮前のカナの文字列に基づいて、短縮後のカナの文字列に対応づけて短縮前のカナの文字列をデータベースに追加登録する検索・登録手段と
    して機能させるプログラムを記録したコンピュータ読取可能な記録媒体。
JP07106498A 1997-03-31 1998-03-19 類似文字列検索システムおよび記録媒体 Expired - Fee Related JP4136055B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP07106498A JP4136055B2 (ja) 1997-03-31 1998-03-19 類似文字列検索システムおよび記録媒体

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP7926097 1997-03-31
JP9-79260 1997-03-31
JP07106498A JP4136055B2 (ja) 1997-03-31 1998-03-19 類似文字列検索システムおよび記録媒体

Publications (2)

Publication Number Publication Date
JPH10334122A JPH10334122A (ja) 1998-12-18
JP4136055B2 true JP4136055B2 (ja) 2008-08-20

Family

ID=26412184

Family Applications (1)

Application Number Title Priority Date Filing Date
JP07106498A Expired - Fee Related JP4136055B2 (ja) 1997-03-31 1998-03-19 類似文字列検索システムおよび記録媒体

Country Status (1)

Country Link
JP (1) JP4136055B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4489459B2 (ja) * 2004-02-27 2010-06-23 トッパン・フォームズ株式会社 音声変換システム
JP5132430B2 (ja) * 2008-05-29 2013-01-30 インターナショナル・ビジネス・マシーンズ・コーポレーション 姓名候補を生成する情報処理装置、情報処理方法、およびプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07113925B2 (ja) * 1988-08-31 1995-12-06 インターナショナル・ビジネス・マシーンズ・コーポレーション 文字表記結果の対応関係判定システム

Also Published As

Publication number Publication date
JPH10334122A (ja) 1998-12-18

Similar Documents

Publication Publication Date Title
JP4136055B2 (ja) 類似文字列検索システムおよび記録媒体
JPS5821287B2 (ja) カナ漢字変換装置
JP2595934B2 (ja) 仮名漢字変換処理装置
JPH08339376A (ja) 外国語検索装置及び情報検索システム
JPS58123129A (ja) 仮名漢字変換装置
JPH0353378A (ja) 同音異字および異字同音の姓を検索する氏名検索方式
JPS63308665A (ja) 仮名漢字変換装置
JPH05189485A (ja) キーワード検索方式
JP2738386B2 (ja) 仮名漢字変換装置
JPS62212877A (ja) 漢字かな変換装置
JP3537888B2 (ja) かな漢字変換装置
JP3048793B2 (ja) 文字変換装置
JPS63133228A (ja) 情報抽出装置
JPH1091627A (ja) 漢字よみがな自動変換方法およびシステム
JPH0721212A (ja) 文書処理装置
JPS60124768A (ja) 単語抽出方式
JPH02289900A (ja) 日本語音声入力支援装置
JPH03208162A (ja) 入力装置
JPH10154141A (ja) かな漢字変換装置
JPS6243769A (ja) 仮名漢字変換装置
JP2001034606A (ja) 中国語入力装置及び中国語入力方法
JPH07129568A (ja) 文字処理方法及び装置
JPS60140460A (ja) カナ漢字変換装置における短縮変換方式
JPS6177954A (ja) 仮名漢字変換方式
JPH0744548A (ja) 文書作成装置およびその方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050517

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050719

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050830

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051028

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20051109

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20051228

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080410

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080603

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110613

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110613

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313532

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110613

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110613

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140613

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees