JPH10334122A - 類似名検索システムおよび記録媒体 - Google Patents

類似名検索システムおよび記録媒体

Info

Publication number
JPH10334122A
JPH10334122A JP10071064A JP7106498A JPH10334122A JP H10334122 A JPH10334122 A JP H10334122A JP 10071064 A JP10071064 A JP 10071064A JP 7106498 A JP7106498 A JP 7106498A JP H10334122 A JPH10334122 A JP H10334122A
Authority
JP
Japan
Prior art keywords
character string
similar
character
name
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP10071064A
Other languages
English (en)
Other versions
JP4136055B2 (ja
Inventor
Masanobu Furukawa
雅信 古川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu FIP Corp
Original Assignee
Fujitsu FIP Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu FIP Corp filed Critical Fujitsu FIP Corp
Priority to JP07106498A priority Critical patent/JP4136055B2/ja
Publication of JPH10334122A publication Critical patent/JPH10334122A/ja
Application granted granted Critical
Publication of JP4136055B2 publication Critical patent/JP4136055B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 本発明は、文字列をもとにデータベースから
類似文字列を検索する類似名検索システムおよび記録媒
体に関し、文字列から特定の子音部を削除および連続母
音についてテーブルを参照して変換し文字列の短縮を行
った後、データベースを検索して類似文字列を見つけ、
類似辞書なしにデータベースからバラツキなく類似文字
列の検索を実現することを目的とする。 【解決手段】 文字列中に含まれる短縮する対象の文字
列と短縮後の文字列を対応づけて登録するテーブルと、
入力された文字列についてテーブルを参照して少ない文
字列に短縮する文字列短縮手段と、短縮した後の文字列
をもとにデータベースを検索して類似文字列を見つける
手段とを備えるように構成する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文字列をもとにデ
ータベースから類似文字列を検索する類似名検索システ
ムおよび記録媒体に関するものである。
【0002】
【従来の技術】従来、商品名などのカタカナからなる文
字列と類似の文字列がデータベースに登録されているか
否かの類似検索を行う場合、入力された文字列について
データベースを検索する際に、類似辞書を参照して ・「ウ”」(ウの濁点を表す)を「ブ」 ・「ヂ」を「ジ」 ・「オオ」、「オウ」、「オー」を「オオ」 ・「コオ」、「コウ」、「コー」を「コウ」 などに変換した後に、データベースを検索して同一の類
似文字列が存在する否かをチェックするようにしてい
た。また、新たな類似文字と判断された場合には、類似
辞書に追加登録してデータベースの全部を再検索するよ
うにしていた。
【0003】
【発明が解決しようとする課題】上述したようにカタカ
ナからなる文字列と類似の文字列をデータベースから検
索する場合、類似辞書を参照して類似文字に変換した後
に、データベースを検索して同一の類似文字列があるか
否かをチェックしていたため、類似辞書に登録されてい
ない類似文字列は検索できなく、しかも文字列の類似検
索にバラツキが発生してしまうという問題があった。
【0004】本発明は、これらの問題を解決するため、
文字列から特定の子音部を削除および連続母音について
テーブルを参照して変換し文字列の短縮を行った後、デ
ータベースを検索して類似文字列を見つけ、類似辞書な
しにデータベースからバラツキなく類似文字列の検索を
実現することを目的としている。
【0005】
【課題を解決するための手段】図1を参照して課題を解
決するための手段を説明する。図1において、文字列削
除手段2は、入力された文字列中の特定の子音を削除す
るものである。
【0006】文字列短縮手段3は、入力された文字列に
ついて変換テーブル4を参照して少ない文字列に短縮す
るものである。変換テーブル4は、文字列中に含まれる
短縮する対象の文字列と短縮後の文字列を対応づけて登
録するものであって、例えば文字列中に含まれる短縮す
る対象の連続母音と短縮後の母音を対応づけて登録する
ものである。
【0007】データベース5は、商品名などの文字列を
登録したものである。次に、動作を説明する。文字列短
縮手段3が入力された文字列について変換テーブル4を
参照して少ない文字列に短縮し、短縮した後の文字列を
もとにデータベース5を検索して類似文字列を見つける
ようにしている。
【0008】また、文字列削除手段2が入力された文字
列中の特定の子音を削除した後、文字列短縮手段3が削
除後の文字列について変換テーブル4を参照して少ない
文字列に短縮し、短縮した後の文字列をもとにデータベ
ース5を検索して類似文字列を見つけるようにしてい
る。
【0009】これらの際に、変換テーブル4に文字列中
に含まれる短縮する対象の連続母音と短縮後の母音を対
応づけて登録するようにしている。また、データベース
5内の文字列について、予め特定の子音を削除および変
換テーブル4を参照して少ない文字列に短縮し、対応づ
けて登録するようにしている。
【0010】従って、入力された文字列から特定の子音
部を削除および連続母音について変換テーブル4を参照
して変換し文字列の短縮を行った後、データベース5を
検索して類似文字列を見つけることにより、従来の類似
辞書なしにデータベース5からバラツキなく類似文字列
を精度高く迅速に検索することが可能となる。
【0011】
【発明の実施の形態】次に、図1から図6を用いて本発
明の実施の形態および動作を順次詳細に説明する。ここ
で、記録媒体から読み出したプログラムあるいは外部記
憶装置であるハードディスク装置などから読み出したプ
ログラム、またはセンタの外部記憶装置から読み出して
回線を介して転送を受けたプログラムを主記憶にローデ
ィングして起動し、以下に説明する各種処理を行うよう
にしている。
【0012】図1は、本発明のシステム構成図を示す。
図1において、検索装置1は、プログラムに従ってデー
タベース5を検索して商品名などの文字列と同一および
類似の文字列を検索するものであって、ここでは、文字
列削除手段2、文字列短縮手段3、および変換テーブル
4から構成されるものである。
【0013】文字列削除手段2は、入力された文字列か
ら特定の子音(例えばY、Wの削除)を行うものである
(図3を用いて後述する)。文字列短縮手段3は、入力
された文字列中の連続母音について変換テーブル4を参
照して母音に変換などした文字列を短縮するものであ
る。
【0014】変換テーブル4は、文字列中に含まれる短
縮する対象の文字列(例えば連続母音)と短縮後の文字
列(母音)とを対応づけて登録したものである(図3の
(c)参照)。
【0015】データベース5は、商品名などの文字列お
よびその類似名を対応づけて登録したものである。表示
装置6は、入力された文字列や類似検索結果を表示した
りするものである。
【0016】入力装置7は、検索対象の文字列を入力し
たりなどを行うものである。次に、図2のフローチャー
トに示す順序に従い、図1の構成の動作を詳細に説明す
る。
【0017】図2は、本発明の動作説明フローチャート
を示す。図2において、S1は、名前を入力する。これ
は、商品名や競馬における競走馬名などの類似検索対象
の名前を入力する。
【0018】S2は、発音文字に変換する。これは、後
述する図3のフローチャートに従い、入力文字をカタカ
ナに変換し、長音(−)や「ン」の削除、拗音、促音の
大文字化、特定の子音部(Y、W)の削除、VをB、J
をDに変換、連続母音を変換テーブル4を参照して母音
に変換した短縮した後、カタカナに逆変換し、短縮した
文字列(類似文字列)を得る(図3ないし図4を用いて
後述する)。
【0019】S3は、名前DBを検索する。この際、変
換名(S2で変換した類似文字列)をキーに名前DB
(例えば図1のデータベース5)を検索する。S4は、
類似変換名のあり、なしを判別する。ありの場合には、
S2で変換した類似変換名(類似文字列)と一致する類
似名とその登録名を取りだし、S6で登録済みの変換名
(登録名)と類似名を表示(例えば後述する図5参照)
し、S7に進む。一方、S4のNOの場合には、変換名
(類似文字列)と一致するものがデータベース5になか
ったので、S5で類似名なしとしての通知を行い、S7
に進む。
【0020】S7は、名前DBへの追加指示の有無を促
す。S8は、追加するという指示があったか判別する。
YESの場合には、S9で名前DB(図1のデータベー
ス5)への追加情報の入力を行い、S10で名前DBへ
登録する。例えば後述する図5に示すように、登録名に
対応づけて類似名(変換名)を図1のデータベース5に
追加登録する。一方、S8のNOの場合には、追加登録
の指示がなかったので、終了する。
【0021】以上によって、名前(文字列)を入力する
のみで、システムが自動的にS2で後述する図3および
図4のフローチャートに示す手順に従い文字列の短縮を
行って類似文字列に変換し、変換後の類似文字列をキー
として、データベース5を検索して一致する類似名を持
つエントリの登録名と当該類似名(類似文字列)を例え
ば後述する図5に示すように表示する。表示された類似
する文字列のうちの登録名に類似するものが見つからな
いときは、追加登録し、データベース5を更新する。
【0022】図3は、本発明の発音文字変換ルールの説
明図を示す。これは、既述した図2のS2の発音文字に
変換するときの手順を詳細に説明したものである。以下
説明する。
【0023】図3の(a)は、フローチャートを示す。
図3の(a)において、は、入力(カタカナ)する。
ここでは、例えば右側の図3の(b)に記載したよう
に、文字列 ・アヤカジュニア を入力する。
【0024】は、長音(−)、(ン)の削除、および
拗音、促音の大文字化を行う。ここでは、拗音は例えば
「ジュニア」中の「ュ」であり、これを大文字「ユ」に
変換する。促音は例えば「マック」中の「ッ」であり、
これを大文字「ツ」に変換する。ここでは、例えば右側
の図3の(b)に記載したように、文字列 ・アヤカジユニア と変換する。
【0025】は、ローマ字変換し、子音と母音を分離
する。ここでは、例えば右側の図3の(b)に記載した
ように、ローマ字変換し ・AYAKAZIYUNIA とし、子音と母音を分離する。
【0026】は、子音部の削除・変換(Y、Wの削
除、V→B、J→D)する。ここでは、例えば右側の図
3の(b)に記載したように、子音を削除し ・AAKAZIUNIA とする。
【0027】は、連続母音の変換(変換テーブルによ
る)を行う。ここでは、例えば右側の図3の(b)に記
載したように、図3の(c)の変換テーブル4を参照し
てAAをA、IUをU、IAをAに変換し、 ・AKAZUNA とする。
【0028】は、カタカナに変換する。ここでは、例
えば右側の図3の(b)に記載したように、ローマ字を
カタカナ読みにして ・アカズナ とする。
【0029】は、出力(カタカナ)する。以上のな
いしの処理によって、入力文字列「アヤカジュニア」
が類似文字「アカズナ」に短縮されて出力されることと
なる。
【0030】図3の(b)は、変換例を示す。これは、
入力文字「アヤカジュニア」をないしの処理によっ
て変換される要素をそれぞれ示したものである。図3の
(c)は、変換テーブル例を示す。この変換テーブル4
の左側の縦は1文字目を表し、上側の横は2文字目を表
す。この変換テーブル4により、連続する2母音単位に
1文字の母音に短縮されることとなる。例えば3連続母
音「AIU」は、第1回目に先頭の2連続母音「AI」
を「A」に短縮し、第2回目にこれと残りを併せた2連
続母音「AU」を「A」に更に短縮し、結果として3連
続母音「AIU」を1母音「A」に短縮できたこととな
る。
【0031】図4は、本発明の連続母音の変換フローチ
ャート(図3のの詳細説明)を示す。図4において、
S11は、連続母音を見つける。例えば既述した図3の
(a)のの右側の図3の(b)の文字列 ・AAKAZIUNIA 中から「AA」、「IU」、「IA」の3つの2連続母
音をそれぞれ見つけ、先頭から順にS12以降の処理を
行う。
【0032】S12は、変換テーブル4を参照して短縮
する。これは、S11で見つけた例えば連続母音「A
A」について、図3の(c)の変換テーブル4を参照
し、「A」に短縮する。
【0033】S13は、連続母音がなくなったか判別す
る。YESの場合には、終了する。NOの場合には、S
11に戻り繰り返す。以上によって、既述した図3の
(a)のの右側の図3の(b)の ・AAKAZIUNIA が ・AKAZUNA に短縮されることとなる。
【0034】図5は、本発明の類似名の検索例を示す。
これは、入力文字列「アヤカジュニア」について、既述
した図3の(b)の変換例によって変換した類似文字列
「アカズナ」をキーに図1のデータベース5を検索し、
一致する類似名を持つエントリの登録名と当該類似名、
番号を取り出してそのリストを表示したものである。
【0035】以上のように、入力文字列「アヤカジュニ
ア」について図3の(a)のフローチャートに従い類似
文字列「アカズナ」に変換した後、この類似文字列「ア
カズナ」をキーにデータベース5中から一致する類似名
を検索するのみで当該類似名に対応づけて登録されてい
る登録名を図示の下記のように極めて迅速に検索して表
示することが可能となる。
【0036】 図6は、本発明のデータベースへの類似名の登録フロー
チャートを示す。
【0037】図6において、S21は、データベースを
アクセスする。これは、商品名などの文字列が登録され
ている既存のデータベースをアクセスする。S22は、
文字列を1つ取り出す。
【0038】S23は、類似名に変換する。これは、S
22で取り出した文字列について、既述した図3および
図4の手順に従い、類似名(類似文字列)に変換する。
例えば文字列「アヤカジュニア」を類似名「アカズナ」
に変換する。
【0039】S24は、追加登録する。これは、S22
で取り出した文字列とS23で変換した類似名を対応づ
けてデータベース5に追加登録する。以上によって、デ
ータベース5中の文字列に対応づけてS23で変換した
類似名が登録されるので、検索時に類似名をキーに一致
検索を行い、類似名が一致するエントリの当該類似名と
登録名を既述した図5に示すように検索して表示するこ
とが可能となる。この際、類似名をキーに一致する類似
名を検索し、当該類似名とその登録名を全て取り出して
表示するのみで、類似検索ができ、極めて高速にデータ
ベース5中から類似する文字列を検索することが可能と
なった。
【0040】
【発明の効果】以上説明したように、本発明によれば、
入力された文字列から特定の子音部を削除および連続母
音について変換テーブル4を参照して変換し文字列の短
縮を行った後、データベース5を検索して類似文字列を
見つける構成を採用しているため、従来の類似辞書なし
にデータベース5からバラツキなく類似文字列を精度高
く極めて高速に検索して表示できる。これらにより、 (1) 従来の類似音を類似辞書登録により判定検索し
ていた場合に比し、検索もれが少なくなった。
【0041】(2) また、従来では例えばウ”(ウの
濁点を表す)→ブ、ヂ→ジ、オオ、オウ、オ→オオ、コ
オ、コウ、コ→コオなどを類似辞書登録して統一的に変
換を行ってからデータベース検索していたため、類似音
が見つかる毎に類似辞書登録してからデータベースを全
件検索する必要があり、検索に手間がかかると共に検索
速度が遅かった問題点について、本発明では類似辞書を
不要としこれらの問題を解決できた。
【図面の簡単な説明】
【図1】本発明のシステム構成図である。
【図2】本発明の動作説明フローチャートである。
【図3】本発明の発音文字変換ルールの説明図である。
【図4】本発明の連続母音の変換フローチャートであ
る。
【図5】本発明の類似名の検索例である。
【図6】本発明のデータベースへの類似名の登録フロー
チャートである。
【符号の説明】
1:検索装置 2:文字列削除手段 3:文字列短縮手段 4:変換テーブル 5:データベース 6:表示装置 7:入力装置

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】文字列をもとにデータベースから類似文字
    列を検索する類似名検索システムにおいて、 文字列中に含まれる短縮する対象の文字列と短縮後の文
    字列を対応づけて登録するテーブルと、 入力された文字列について上記テーブルを参照して少な
    い文字列に短縮する文字列短縮手段と、 短縮した後の文字列をもとにデータベースを検索して類
    似文字列を見つける手段とを備えたことを特徴とする類
    似名検索システム。
  2. 【請求項2】上記入力された文字列中の特定の子音を削
    除する削除手段を備えたことを特徴とする請求項1記載
    の類似名検索システム。
  3. 【請求項3】上記テーブルに文字列中に含まれる短縮す
    る対象の連続母音と短縮後の母音を対応づけて登録した
    ことを特徴とする請求項1あるいは請求項2記載の類似
    名検索システム。
  4. 【請求項4】上記データベース内の文字列について、予
    め特定の子音を削除および上記テーブルを参照して少な
    い文字列に短縮し、対応づけて登録したことを特徴とす
    る請求項1ないし請求項3記載のいずれかの類似名検索
    システム。
  5. 【請求項5】文字列中に含まれる短縮する対象の文字列
    と短縮後の文字列を対応づけてテーブルに登録する手段
    と、 入力された文字列について上記テーブルを参照して少な
    い文字列に短縮する文字列短縮手段と、 短縮した後の文字列をもとにデータベースを検索して類
    似文字列を見つける手段として機能させるプログラムを
    記録したコンピュータ読取可能な記録媒体。
JP07106498A 1997-03-31 1998-03-19 類似文字列検索システムおよび記録媒体 Expired - Fee Related JP4136055B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP07106498A JP4136055B2 (ja) 1997-03-31 1998-03-19 類似文字列検索システムおよび記録媒体

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP7926097 1997-03-31
JP9-79260 1997-03-31
JP07106498A JP4136055B2 (ja) 1997-03-31 1998-03-19 類似文字列検索システムおよび記録媒体

Publications (2)

Publication Number Publication Date
JPH10334122A true JPH10334122A (ja) 1998-12-18
JP4136055B2 JP4136055B2 (ja) 2008-08-20

Family

ID=26412184

Family Applications (1)

Application Number Title Priority Date Filing Date
JP07106498A Expired - Fee Related JP4136055B2 (ja) 1997-03-31 1998-03-19 類似文字列検索システムおよび記録媒体

Country Status (1)

Country Link
JP (1) JP4136055B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005242112A (ja) * 2004-02-27 2005-09-08 Toppan Forms Co Ltd 音声変換システム
JP2009289052A (ja) * 2008-05-29 2009-12-10 Internatl Business Mach Corp <Ibm> 姓名候補を生成する情報処理装置、情報処理方法、およびプログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07113925B2 (ja) * 1988-08-31 1995-12-06 インターナショナル・ビジネス・マシーンズ・コーポレーション 文字表記結果の対応関係判定システム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07113925B2 (ja) * 1988-08-31 1995-12-06 インターナショナル・ビジネス・マシーンズ・コーポレーション 文字表記結果の対応関係判定システム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005242112A (ja) * 2004-02-27 2005-09-08 Toppan Forms Co Ltd 音声変換システム
JP4489459B2 (ja) * 2004-02-27 2010-06-23 トッパン・フォームズ株式会社 音声変換システム
JP2009289052A (ja) * 2008-05-29 2009-12-10 Internatl Business Mach Corp <Ibm> 姓名候補を生成する情報処理装置、情報処理方法、およびプログラム

Also Published As

Publication number Publication date
JP4136055B2 (ja) 2008-08-20

Similar Documents

Publication Publication Date Title
KR101744861B1 (ko) 합성어 분할
JPH0778183A (ja) デ−タベ−ス検索システム
JP4084515B2 (ja) アルファベット文字・日本語読み対応付け装置と方法およびアルファベット単語音訳装置と方法ならびにその処理プログラムを記録した記録媒体
JPH10334122A (ja) 類似名検索システムおよび記録媒体
JP2595934B2 (ja) 仮名漢字変換処理装置
JPH08339376A (ja) 外国語検索装置及び情報検索システム
JPH06124305A (ja) 文書検索方法
JP2003228578A (ja) 情報検索方法及び情報検索装置及び情報検索装置の制御プログラム
JP3585944B2 (ja) データ処理方法及びその装置
JP3035932B2 (ja) 仮名漢字変換装置
JPS63308665A (ja) 仮名漢字変換装置
JPH1091627A (ja) 漢字よみがな自動変換方法およびシステム
JPS58214931A (ja) 単語切り出し装置
JP3048793B2 (ja) 文字変換装置
JPH08249341A (ja) 文書データベースの文書格納・検索装置
JP2695772B2 (ja) 仮名漢字変換装置
JPH07152756A (ja) 文書処理装置
JP2001125907A (ja) 辞書検索方法、装置、および辞書検索プログラムを記録した記録媒体
JPH0350669A (ja) 情報処理装置
JPH08190565A (ja) データベース検索方式
JPH10261049A (ja) 文字認識装置
JPS6243769A (ja) 仮名漢字変換装置
JPH06161995A (ja) 氏名データ整形方法および装置
JP2001034606A (ja) 中国語入力装置及び中国語入力方法
JPH0750487B2 (ja) 情報抽出装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050517

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050719

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050830

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051028

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20051109

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20051228

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080410

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080603

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110613

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110613

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313532

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110613

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110613

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140613

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees