JP2927706B2 - 類似文字列の展開方法、検索方法及びそれらの装置 - Google Patents

類似文字列の展開方法、検索方法及びそれらの装置

Info

Publication number
JP2927706B2
JP2927706B2 JP7144726A JP14472695A JP2927706B2 JP 2927706 B2 JP2927706 B2 JP 2927706B2 JP 7144726 A JP7144726 A JP 7144726A JP 14472695 A JP14472695 A JP 14472695A JP 2927706 B2 JP2927706 B2 JP 2927706B2
Authority
JP
Japan
Prior art keywords
derived
character string
character
similar
expansion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP7144726A
Other languages
English (en)
Other versions
JPH08339378A (ja
Inventor
野 祐 司 菅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP7144726A priority Critical patent/JP2927706B2/ja
Priority to EP03022267A priority patent/EP1380966A3/en
Priority to DE69633595T priority patent/DE69633595T2/de
Priority to EP96104420A priority patent/EP0749076B1/en
Priority to US08/626,108 priority patent/US5835892A/en
Publication of JPH08339378A publication Critical patent/JPH08339378A/ja
Application granted granted Critical
Publication of JP2927706B2 publication Critical patent/JP2927706B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Machine Translation (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、類似文字列の展開方
法、検索方法及びそれらの装置、とりわけ商品・サービ
スに対する商標や有機化合物名、地名、人名、書籍名、
競争馬名等各種の名前のデータベースの類似検索技術に
関するものである。
【0002】
【従来の技術】近年、ワードプロセッサ、パーソナルコ
ンピュータなどの日本語入出力装置やCD−ROMなど
の記憶媒体の普及に伴い、文字列形式のデータを集積し
た大規模なテキストデータベースが様々な分野で作成さ
れ、身近に利用されるようになりつつある。このような
大規模テキストデータベースを高速に検索するための技
術もまた、近年産業界で注目されている。このようなテ
キストデータベースのうち、商品やサービスのマークを
表わす商標や有機化合物の名前、書籍名など、物事の名
前を表わす文字列を含むデータベースを、外から与えた
類似基準に従って検索し、質問した名前と似ている名前
を持つデータを高速に検索する技術が知られている。
【0003】従来、このような類似基準に従ったデータ
ベースの類似検索では、類似基準に従って全ての類似文
字列を作成し、作成した1つ1つの類似文字列について
データベース中にあるかどうかを調べる方法が取られて
きた。この点を、商標データベースからの類似称呼での
検索を例にとって、類似文字列展開方法、索引作成方
法、類似文字列検索方法について説明する。まず、類似
基準を用いる従来の類似文字列展開方法について説明す
る。図20は類似基準を用いる従来の類似文字列展開方
法の一実施列を示すブロック図である。図20におい
て、101は利用者が入力したカタカナ表記の質問称呼
文字列、102は質問称呼と類似な展開称呼を機械的に
全て求める形に称呼類似基準を具現化した称呼展開規則
の1つを手続きとして組み込み、質問称呼文字列1に組
み込んだ称呼展開規則に照らして類似な称呼文字列を全
て求めて出力する第1の称呼展開手段、103、10
4、105、106はそれぞれ組み込む称呼展開規則の
みが異なる第1の称呼展開手段102と同様な第2、第
3、第4、第5の称呼展開手段、107は第1の称呼展
開手段102から第5の称呼展開手段106の5種の称
呼展開手段が出力した展開称呼文字列群を1つの群にま
とめ、かつ辞書順に整列する展開称呼併合整列手段、1
08は展開称呼併合整列手段107が併合し整列した展
開称呼文字列群中で、同一の展開称呼文字列が2つ以上
ある場合に1つを残して他を削除する重複称呼除去手
段、109は重複称呼除去手段108が出力する最終的
な展開称呼文字列群である。また、図21は、称呼類似
基準の例、図22は、この称呼類似基準を質問称呼と類
似な展開称呼を機械的に全て求める形に具現化した称呼
展開規則の例である。
【0004】以上のように構成された類似文字列検索方
法について、以下その動作を説明する。いま、質問称呼
文字列101として、4音の称呼「ナショナル」が入力
されたとする。
【0005】第1の称呼展開手段102には、図22の
No.1からNo.5までの5種類の称呼展開規則のそ
れぞれと1対1に対応した称呼展開手続きが組み込まれ
ており、それぞれの展開動作を行なって、展開称呼併合
整列手段107に出力する。具体的には、第1の称呼展
開手段102では、「ナ、ヌ、ル」のうちで、質問称呼
「ナショナル」に含まれる音「ナ」のうち、語頭以外の
音である第3音の「ナ」を削除した展開称呼文字列「ナ
ショル」、および第4音「ル」を削除した展開称呼文字
列「ナショナ」の2個の展開称呼文字列を出力する。
【0006】第2の称呼展開手段103では、「ナ、
ヌ、ル」を、質問称呼「ナショナル」の語頭以外の音と
して挿入した12個の展開称呼文字列 「ナナショナル」、「ナヌショナル」、「ナルショナ
ル」、「ナショナナル」、「ナショヌナル」、「ナショ
ルナル」、「ナショナナル」、「ナショナヌル」、「ナ
ショナルル」、「ナショナルナ」、「ナショナルヌ」、
「ナショナルル」 を出力する。
【0007】第3の称呼展開手段104では、「ナ、
ヌ、ル」のうちで、質問称呼「ナショナル」に含まれる
音「ナ」および「ル」を「ナ、ヌ、ル」のリスト中の別
の音に置き換えた、6個の展開称呼文字列 「ヌショナル」、「ルショナル」、「ナショヌル」、
「ナショルル」、「ナショナナ」、「ナショナヌ」 を出力する。
【0008】第4の称呼展開手段105では、質問称呼
「ナショナル」のいずれか1音を、その同行音で置き換
えた、14個の展開称呼文字列 「ニショナル」、「ヌショナル」、「ネショナル」、
「ノショナル」、「ナシャナル」、「ナシュナル」、
「ナショニル」、「ナショヌル」、「ナショネル」、
「ナショノル」、「ナショナラ」、「ナショナリ」、
「ナショナレ」、「ナショナロ」 を出力する。
【0009】第5の称呼展開手段106では、質問称呼
「ナショナル」が5音に満たないため、展開称呼は出力
されない。
【0010】このようにして5種類の称呼展開手段から
出力された合計34個の展開称呼文字列は、展開称呼併
合整列手段107により1つに併合され、辞書順に整列
されて、 「ナショナ」、 「ナショナナ」、 「ナショナナル」、 「ナショナナル」、 「ナショナヌ」、 「ナショナヌル」、 「ナショナラ」、 「ナショナリ」、 「ナショナルナ」、 「ナショナルヌ」、 「ナショナルル」、 「ナショナルル」、 「ナシャナル」、 「ナシュナル」、 「ナショナレ」、 「ナショナロ」 「ナショニル」、 「ナショヌナル」、 「ナショヌル」、 「ナショヌル」、 「ナショネル」、 「ナショノル」、 「ナショル」、 「ナショルル」、 「ナショルナル」、 「ナナショナル」、 「ナヌショナル」、 「ナルショナル」、 「ニショナル」、 「ヌショナル」、 「ヌショナル」、 「ネショナル」、 「ノショナル」、 「ルショナル」 が出力される。
【0011】この出力が、重複称呼除去手段108に入
力されると、重複する4組の称呼「ナショナナル」、
「ナショナルル」、「ナショヌル」、「ヌショナル」が
検出され、重複称呼が1つにされて、30個の展開称呼
文字列 「ナショナ」、 「ナショナナ」、 「ナショナナル」、 「ナショナヌ」、 「ナショナヌル」、 「ナショナラ」、 「ナショナリ」、 「ナショナルナ」、 「ナショナルヌ」、 「ナショナルル」、 「ナシャナル」、 「ナシュナル」、 「ナショナレ」、 「ナショナロ」 「ナショニル」、 「ナショヌナル」、 「ナショヌル」、 「ナショネル」、 「ナショノル」、 「ナショル」、 「ナショルル」、 「ナショルナル」、 「ナナショナル」、 「ナヌショナル」、 「ナルショナル」、 「ニショナル」、 「ヌショナル」、 「ネショナル」、 「ノショナル」、 「ルショナル」 が最終的な展開称呼文字列群8として出力される。
【0012】以上のようにして、従来の類似文字列展開
方法は、類似基準に従って、入力文字列と類似な展開文
字列群を、もれなく算出できる。
【0013】次に、従来の索引作成方法について説明す
る。図23は従来の索引作成方法の一実施列を示すブロ
ック図である。図23において、111は登録済みの複
数の商標について、その商標を一意に特定する一連番号
である商標番号とその商標の称呼のうちの1つとの対を
商標データとして格納した商標データベース、112は
商標データベース111の各商標データを称呼の辞書順
に整列する整列手段、113は整列手段112が出力す
る整列済み商標データ、114は称呼ID付与手段手段
であり、整列済み商標データ113から称呼に固有の一
連番号である称呼番号が付与され、重複称呼が削除され
た称呼番号対称呼データ115、および各称呼番号に対
応する称呼を持つ商標番号のリストを記した称呼番号対
商標番号リスト表116を作成する。117は称呼番号
対称呼データ115から、TRIEの形式で称呼データ
の索引を求めるTRIE索引作成手段、118はTRI
E索引作成手段117が出力した称呼索引である。ま
た、図24は商標データベースの例、図25は整列済み
商標データの例、図26は称呼番号対称呼データの例、
図27は、称呼番号対商標番号リスト表の例、図28は
TRIE形式の称呼索引の例である。
【0014】以上のように構成された索引作成方法につ
いて、以下その動作を説明する。いま、商標データベー
スとして、図24の20個の商標データから称呼索引を
作成するとする。商標データベース111の20個の商
標データは、整列手段112によって称呼の辞書順に整
列され、図23のような順序に変更される。この整列済
み商標データ113が、称呼ID付与手段114によっ
て分析され、重複した称呼を1つにまとめ、1から始ま
る一連番号を称呼番号として付与した図26のような内
容の称呼番号対称呼データ115、および付与した各称
呼番号に対応する称呼を持つ1個以上の商標データの登
録番号を求め、称呼番号とともに図27のような称呼番
号対商標番号リスト表116を作成する。その後、称呼
番号対称呼データ115から、TRIE索引作成手段1
17が、称呼文字列群中の各位置の音をノードとし、称
呼番号をノードの付随データとする図28のような称呼
索引118を通常の方法によって作成する。以上の動作
によって、称呼検索に用いる称呼索引118および称呼
番号対商標番号表116が作成される。ただし、図28
において、黒丸はルートノードを表し、音のはいった丸
はノードを表わし、ハッチングのノードは、付随データ
を持つことを表わす。この場合、当該ノードの脇に記さ
れた括弧に入った数値が付随データである称呼番号とな
る。
【0015】続いて、従来の類似文字列検索方法につい
て説明する。図29は従来の類似文字列検索方法の一実
施例である、類似商標検索方法を示すブロック図であ
る。図29において、121は利用者が入力した、検索
の鍵となる質問称呼、122は図20の構成を持つ類似
文字列展開方法を用い、称呼展開規則に従った展開結果
を出力する類似称呼展開手段、123は類似称呼展開手
段122が出力する展開称呼文字列群、124は商標デ
ータベースから作成されたTRIE構造の称呼索引、1
25はやはり商標データベースから作成された称呼番号
と登録番号の対応を示す称呼番号対商標番号リスト表、
126は称呼検索手段であり、展開称呼文字列群123
中の各称呼文字列を鍵として称呼索引124を検索して
称呼番号を求め、さらに称呼番号対登録番号表125を
検索して求まった称呼番号から登録番号のリストを求め
る検索動作を展開称呼文字列群3中の称呼文字列につい
て次々に行う。127は称呼検索手段126が出力する
展開称呼文字列群123中の称呼に対する検索結果であ
る商標番号リスト、128は商標番号リスト127中で
重複している商標番号を1つにする重複番号除去手段、
129は重複番号除去手段128が出力する重複が削除
された最終的な検索結果である。
【0016】以上のように構成された類似文字列検索方
法について、以下その動作を説明する。いま、称呼索引
124および称呼番号対商標番号リスト表125が、図
24の商標データから作成され、図28、および図27
のような内容を持つとする。そして、質問称呼121と
して「ナショナル」が入力されたとする。類似称呼展開
手段122は、従来の類似文字列展開方法の説明で述べ
たようにして、合計30個の展開称呼文字列を展開称呼
文字列群123として出力する。次に、称呼検索手段1
26が、30個の展開称呼文字列の1つ1つについて順
に称呼検索を行ない、商標番号リストを出力する。ま
ず、「ナショナ」を鍵として称呼索引124を検索す
る。図28のTRIEのルートノードから先頭音「ナ」
のノードをたどり、次に「ナ」のノードから第2音「シ
ョ」のノードをたどり、「ショ」のノードから、第3音
「ナ」のノードをたどり、このノードの付随データであ
る称呼番号「8」を得る。そして、この称呼番号「8」
を鍵にして、称呼番号対商標番号リスト表125で、称
呼番号「8」を持つ商標番号リスト「1100359,
1101022」を得、この2つの番号を登録番号リス
ト127として出力して、「ナショナ」についての検索
動作を終了する。「ナショナ」以外の29個の展開称呼
文字列についても同様の検索動作を行い、登録番号リス
ト127に次々に蓄積する。ただし、称呼索引124の
検索時に、たどるべきTRIEのノードが存在しない場
合や、最終音に対応するノードに登録番号が付随してい
ない場合には、称呼索引124の検索結果は無いものと
して、当該展開称呼での検索動作を打ち切り、次の展開
称呼に対する検索動作に移る。
【0017】称呼番号8,9,7,14の4個の展開称
呼「ナショナ」、「ナショナラ」、「ナシャナル」、
「ニショナル」がヒットし、蓄積された商標番号のリス
トは、「1100359,1101022,11010
22,1113044,1101492,110643
0,」となる。このリストから、重複番号除去手段8に
よって、2個以上含まれている商標番号が1個になるま
で除去され、最終的に、「1100359,11010
22,1113044,1101492,110643
0,」の5個の商標番号からなるリストが、検索結果と
して出力される。
【0018】以上、商標データベースからの類似称呼で
の検索を例にとって、従来の類似文字列展開方法、従来
の索引作成方法、従来の類似文字列検索方法を説明し
た。
【0019】
【発明が解決しようとする課題】しかしながら上記の従
来の類似文字列展開方法では、展開基準に従って、実際
に質問となる文字列に類似な文字列を全て求めた後、整
列・併合するため、展開基準が複雑で、多数の文字列が
展開される場合には、展開処理に時間がかかり、展開結
果を記憶するための記憶容量も大きくなるという課題を
有していた。
【0020】また、上記の従来の索引作成方法では、一
度に複数個の文字列を鍵として検索可能な索引を作成す
ることができないという課題を有していた。
【0021】さらに、上記の従来の類似文字列検索方法
では、類似文字列の展開処理の時間の課題のほかに、展
開結果の文字列1つ1つに対し順次検索処理を行うた
め、多数の文字列が展開される場合には、検索処理全体
に時間がかかるという課題を有していた。
【0022】特に、我が国で、出願商標の審査に用いら
れている実際の類似基準は、例えば「商標審査基準(特
許庁商標課編、社団法人発明協会刊、ISBN4−82
71−0334−8)」の122ページから125ペー
ジに掲載されているように、かなり複雑であり、この類
似基準に相当する展開規則もまた複雑となり、その展開
規則を用いた、質問称呼の展開では、数万個から数千万
個の展開称呼が得られる。一方、実際に国内で出願中あ
るいは登録済みの商標は数百万種あり、それぞれに数個
の称呼が対応するため、称呼データベースも大規模とな
り、上述したTRIEなどを用いた称呼索引の検索処理
時間も、数千分の1秒程度が限界である。従って、実際
の商標データベースから、実際の類似基準に従って、類
似の商標データを検索しようとすると、数分から数時間
の検索時間がかかることになり、高々数秒の待ち時間で
解答が得られるような、高速な類似検索装置の作成が極
めて困難であるという問題があった。
【0023】また、上記の類似文字列展開方法では、個
々の展開規則を展開手段という手続きとして作りこんで
いるため、類似基準が変更されると、相当する新たな展
開規則を手続きの形で、再び展開手段に作りこむ必要が
あり、類似基準の変更に即座には対応できないという課
題を有していた。
【0024】本発明は上記の従来技術の課題を解決する
もので、展開時間が短くて展開結果格納用の記憶容量が
小さく、類似基準の変更に伴う変更の手間が少ない類似
文字列展開方法と、1度に多数の鍵で同時に検索するこ
とのできる索引を作成できる索引作成方法と、高速な検
索が可能な類似文字列検索方法とを提供することを目的
とする。
【0025】
【課題を解決するための手段】本発明では、展開時間が
短くて展開結果格納用の記憶容量が小さく、類似基準の
変更に伴う変更の手間が少ない類似文字列展開を達成す
るために、展開文字列の各位置の文字が前記質問の文字
列から派生する仕方を示す記号である派生型の列のパタ
ーンを表す、1個以上の正規表現との組で表現した前記
類似基準と、類似基準読み込み手段と、派生要素生成手
段と、オートマトン生成手段とを有し、また派生型指定
生成手段、派生型リスト番号生成手段とを有する類似文
字列展開装置を要旨とする。
【0026】さらに、本発明では、高速な類似文字列検
索を実現するために、類似文字列展開装置によって生成
された派生要素表を格納する派生要素表格納手段と、類
似文字列展開装置によって生成された状態遷移表を格納
する状態遷移表格納手段と、派生要素表格納手段からの
派生要素の列を1音目から順に発生する派生要素表生成
手段と、派生要素列生成手段から生成した派生要素の列
を、状態遷移表格納手段のデータを参照して前記派生要
素列が展開規則に合致したものであるか否かを判断する
派生要素列検査手段と、派生要素列の派生音リストの列
を受け取ってデータベースを検索し文字列番号リストを
出力する称呼検索手段と、称呼検索手段によって検索さ
れる称呼索引と、称呼索引の検索結果である称呼番号を
文字列番号に変換するための称呼番号対文字列番号リス
ト表とを備えた類似文字列検索装置を要旨とする。
【0027】
【作用】本発明は上記構成によって、1ないし2文字の
文字列について、その文字列と類似関係にある文字を記
録した1種以上の類似文字表と、前記展開文字列の各位
置の文字が前記質問の文字列から派生する仕方を示す記
号である派生型の列のパターンを表す、1個以上の正規
表現との組で表現した前記類似基準を、類似基準読み込
み手段が、初期化時に読み込み、前記質問に対して、展
開文字列の各文字位置について、前記類似基準に基づい
て、当該文字の派生に用いた1つ以上の派生型の並んだ
派生型リストと、前記派生型リストを持つ派生文字リス
トの組である派生要素の集合を派生要素生成手段が求
め、同時に、展開文字列の各文字位置で、前記派生要素
の許される組み合わせを表す、派生型を遷移条件とする
有限状態オートマトンを、オートマトン生成手段が、前
記正規表現から求め、この派生要素の集合と、有限状態
オートマトンの組を、前記質問の展開結果として出力す
ることができる。
【0028】また、本発明は、上記構成によって、派生
要素生成手段、およびオートマトン生成手段が、展開文
字列の文字数毎に、別々の派生要素と有限状態オートマ
トンの組を作成し、その全体を展開結果として出力する
ことができる。
【0029】また、本発明は、1ないし2文字の文字列
について、その文字列と類似関係にある文字を記録した
1種以上の類似文字表と、前記展開文字列の各位置の文
字が前記質問の文字列から派生する仕方を示す記号であ
る派生型の列のパターンを表す正規表現と、前記正規表
現に対応する分類番号との組の集合とで表現した前記類
似基準を類似基準読み込み手段が初期化時に読み込み、
前記質問に対して、展開文字列の各文字位置について、
前記類似基準に基づいて、当該文字の派生に用いた1つ
以上の派生型の並んだ派生型リストと、前記派生型リス
トを持つ派生文字リストの組である派生要素の集合を派
生要素生成手段が求め、同時に、展開文字列の各文字位
置で、前記派生要素の許される組み合わせを表す、派生
型を遷移条件とする有限状態オートマトンを、オートマ
トン生成手段が、分類番号が前記類似基準セット中に含
まれている前記正規表現から求め、この派生要素の集合
と、有限状態オートマトンの組を、前記質問の、前記類
似基準セットを用いた展開結果として出力することがで
きる。
【0030】また、本発明では、初期化時に、類似基準
読み込み手段が類似基準を読み込んだ後、各文字数の質
問から、各文字数の展開文字列の各文字位置の派生文字
を求める際に使用する可能性のある派生型の一覧を派生
型指定として、前記派生型指定生成手段が予め求めてお
き、質問に対して、前記質問の文字数と、派生文字位置
が一致する派生型指定中の派生型を用いて、派生要素生
成手段が派生要素の集合を求めることができる。
【0031】また、本発明では、展開時に、派生要素生
成手段がある文字位置の派生要素の集合を求めた後、前
記派生型リスト番号生成手段が、各派生要素の第1要素
である派生型リストを、同一内容のものは同一番号にな
るような一連番号である派生型リスト番号に変換し、オ
ートマトン生成手段が、読み込んだ類似基準中の正規表
現の集合から、派生型リスト番号を遷移条件とする有限
状態オートマトンを求めることができる。
【0032】また、本発明では、状態スタックを、有限
状態オートマトンの初期状態ただ1つに初期化し、次い
で、現在文字位置を1に初期化した後、現在文字位置と
して1音目の最初の派生要素を取得し、次に、撰択した
派生要素の派生型リスト中の各派生型での、状態スタッ
ク中の各状態からの遷移先を、前記有限状態オートマト
ンを参照して求めさせ、有効な遷移先状態が1つもない
場合には、次の派生要素を撰択させ、有効な遷移先状態
が1つでもあれば、有効な遷移先を全て、次の状態群と
してプッシュしてデータベース検索手段を呼び出し、デ
ータベース検索手段をして、1文字目から現在の文字位
置までの派生要素の連鎖を構成する文字集合の列の中
で、データベース中にはない組み合わせを消去せしめ、
その結果、有効な文字集合の列がなくなった場合には、
状態スタックから現在の状態群をポップして、次の派生
要素を撰択させる一方、有効な文字集合の列がある場合
には、前記現在文字位置を1だけ増やして、次の文字位
置での派生要素を撰択させることにより、最終文字位置
まで状態遷移したデータベース中にあった文字列集合の
列を全てマージして、検索結果とすることができる。
【0033】
【実施例】
(実施例1)以下、本発明の第1の実施例について、図
面を参照しながら説明する。図1は本発明の類似文字列
展開方法を実施するための第1の実施例における類似文
字列展開装置の全体構成を示すブロック図である。図1
において、1は利用者から入力された質問称呼文字列、
2は称呼類似基準から作成された称呼展開規則の格納さ
れた称呼展開規則ファイル、3は称呼展開規則ファイル
2を読み込んで内部に蓄積する動作を行なう展開規則読
み込み部、4は称呼展開規則ファイル2に記述されてい
る1個またはそれ以上の類似音の表を格納する類似音表
格納域、5は称呼展開規則ファイル2に記述されている
1個またはそれ以上の正規表現および適用音数範囲を格
納する正規表現格納域、6は質問称呼文字列を一時的に
保持する質問称呼保持域、7は質問称呼の音数を数える
音数カウント部、8は質問称呼文字列1の展開称呼の各
音位置に出現し得る音すなわち派生音と、当該派生音の
派生の由来を表す派生型リストとの組を生成する派生要
素生成部、9は派生要素生成部8で選別された正規表現
格納部5の正規表現および検索音数範囲の集合から、派
生型を遷移条件とする有限状態オートマトンを生成する
オートマトン生成部、10は派生要素生成部8が生成し
た音位置毎の派生要素表、11はオートマトン生成部9
が生成した決定性の有限状態オートマトンの状態遷移表
である。
【0034】図1中符号12は正規表現に対応する分類
番号を格納する分類番号格納部である。この分類番号格
納部12に、上記正規表現に対応する分類番号がリスト
形式格納されており、類似基準セット中に分類番号を含
ませることができるようになっている。
【0035】また、図1中符号13は派生型指定生成部
である。この派生型指定生成部13は、各文字数の質問
から各文字数の展開文字列の各文字位置の派生文字を求
める際に使用する可能性のある派生型を、一覧形式に生
成する。そして、上記派生型は、この類似文字列展開装
置の初期化時に、類似基準読み込み手段である展開規則
読み込み部が類似基準を読み込んだ後、各文字数の質問
から、各文字数の展開文字列の各文字位置の派生文字を
求める際に使用する可能性のある派生型が選択される。
【0036】さらに、図1中符号14は派生型リスト番
号生成部である。この派生型リスト番号生成部14は、
類似文字列展開時に、派生要素生成部8がある文字位置
の派生要素の集合を求めた後、前記派生型リスト番号生
成部14が、各派生要素の第1要素である派生型リスト
を、同一内容のものは同一番号になるような一連番号で
ある派生型リスト番号に変換し、オートマトン生成部9
が、読み込んだ類似基準中の正規表現の集合から、派生
型リスト番号を遷移条件とする有限状態オートマトンを
求めることを可能にするものである。
【0037】以上のように構成された類似称呼展開装置
について、以下その動作を説明する。なお、動作の説明
の理解を助けるため、まず、本実施例での音の派生のモ
デルとその表現方法、およびそのモデルを用いた展開規
則の表現について説明する。図2は本実施例での音の派
生のモデルを例示したものであり、質問称呼「ナショナ
ル」から展開称呼「ナショーノ」が派生する際の、展開
称呼の第4音「 ノ」の派生の仕方もしくは派生の由来
を、3種類の変形操作の組み合わせで説明している。す
なわち、質問称呼の着目音である第3音「ナ」に対し
て、次の3つの条件を満たす。 (1)制約条件 :着目音の次の音「ル」が、図4の表
J0を着目音「ナ」で引いた結果である「ナ、ヌ、ル」
の中の音である。 (2)音の変化 :派生音「ノ」が、図4の表d0を着
目音「ナ」で引いた結果である「ニ、ヌ、ネ、ノ」の中
の音である。 (3)位置の変化:派生音「ノ」は、着目音「ナ」の位
置(第3音)から1音後方の音位置(第4音)を占め
る。 これを派生音「ノ」の派生の由来ととらえ、「ノ」の
「派生型」と呼ぶことにする。
【0038】このように、展開称呼の各音は、以下のモ
デルによって、質問称呼のいずれかの着目音から派生さ
れるものとする。 (Y )前後の音構成に関する制約条件を満たす、質問
称呼の着目音が、(XX)類似音表を着目音で引いて得
られる音に変化し、(ZZ)展開称呼中で、着目音の位
置から何音かずれた位置に現れる。以下、派生型を、上
記Y,XX,ZZを組み合わせた5文字またはその前後
に「<」と「>」を付与した、 XXYZZ または <XXYZZ> で表す。ただし、XXは音変化に用いる表の名前を2文
字で表し、Yは後述する制約条件を1文字で表し、ZZ
は位置のずれを正負の数で表す。例えば、上記の「ノ」
の派生型は、音変化の類似音表の名前が「d0」で、制
約条件が「J」で、音位置のずれが「+1」であるの
で、派生型はd0J+1、または、<d0J+1>とな
る。
【0039】また、上記の「Y」で表わされる制約条件
は、以下の検査を、1種以上行ない、全て成り立つ場合
に制約条件の条件の成立とする。 (AA)質問称呼の着目音からAAだけ離れた質問称呼
の音で、(VV)類似音表のVVを引いて得られる音の
リスト中に、(BB)質問称呼の着目音からBBだけ離
れた質問称呼の音が含まれるか否か。ただし、AAおよ
びBBの部分の形式は、それぞれ上記の派生型のZZ部
と同じとする。以下、制約条件を、上記AA,VV,B
Bを組み合わせた6文字であるAAVVBBを1個以上
カンマでつないだ表記で表わす。例えば、上記「ノ」の
派生の場合に用いた制約条件Jは、質問称呼の着目音
「ナ」で類似音表のJ0を引き、その結果である音リス
ト「ナ、ヌ、ル」中に、「ナ」の1音後方の音「ル」が
含まれるか否かを調べるので、制約条件Jは、上記表記
法では、+0J0+1と表わされることになる。
【0040】本実施例の展開規則のモデルは、この音の
派生モデルを用いて、以下のように表わすことができ
る。 (1)展開称呼の各音には、上記の派生型が1つ以上付
随する。 (2)展開規則は、規則に合致する、展開称呼の各音に
付随する派生型のいずれか1つを選択して、音順に並べ
た「派生型の列」の集合として表現される。 (3)「派生型の列」の集合は、派生型の正規表現およ
び適用音数範囲の組みの集合で、さらに簡潔に表現でき
る。
【0041】図3はこのことを例示するものである。図
3の上部には、上記(2)に相当する派生型の列の集合
の内容が記述されている。この内容に合致する列を実際
に構成すると、中段の「派生型の列の例」のような多数
の列ができる。これらを一括して、3段目の正規表現
で、音数範囲とともに表わすことができ、その解釈は、
下段の説明文のようになる。ここで、正規表現とは、パ
ソコン、ワークステーションの、grepなどの文字列
検索ツールなどの検索対照文字列のパターンを表わすた
めなどに広く用いられているもので、ここでは、文字列
ではなく、派生型の列のパターンを表わすために用いて
いる。正規表現の詳細な解説は、例えば、福村、稲垣
著、「情報科学6・オートマトン・形式言語理論と計算
論」(岩波書店、1982年刊)など多数の文献でなさ
れているので、ここでは割愛する。
【0042】以上の準備のもとに、以下、本実施例の動
作を具体的な例を用いて説明する。まず、称呼展開動作
に先立って、称呼展開規則ファイル2が読み込まれる。
称呼展開規則ファイル2には、音の派生および制約条件
の検査に用いる幾つかの類似音表と、派生型で用いる制
約条件の定義および正規表現と適用音数範囲の組が複数
個記述される。いま、元になる称呼類似基準は、図21
であるとすると、これを元にして上記のモデルを当ては
め、図7、図8のような展開規則を人手で作成すること
ができる。ただし、図中の派生型に使用されている類似
音表は、図4から、図6までの内容を持つものとし、派
生型に使用されている制約条件は、「0」が+0s0+
0、「J」が+0j0+1であるものとする。そして、
図7、図8の展開規則を、図9のような形式で称呼展開
規則ファイル2に記述しておく。図9で、例えば「j0
(ア)=ナ、ヌ、ル」とあるのは、表j0を音「ア」で
引いた値が、音リスト「ナ、ヌ、ル」であることを表
し、「J=+0j0+1」とあるのは、制約条件文字
「J]の定義が「+0j0+1」であることを表し、 「2−10 <s00+0>* <s0J+0> <s
00−1>*」 とあるのは、2音から10音の音数の範囲の質問称呼に
対して、このような正規表現で表現される派生型の列の
集合に属する派生型列が付随する展開称呼を生成しなさ
い、という展開規則を表わしている。
【0043】こうした内容の称呼展開規則ファイル2
が、展開規則読み込み部3によって読み込まれ、類似音
表の部分が、高速な表引きが可能な内部形式で、類似音
表格納域4に格納され、制約条件の定義と正規表現の部
分が、正規表現格納域5に格納される。この読み込み・
格納動作が終了した後で、「ナショナル」という質問称
呼文字列1が入力された場合の称呼展開を考える。ま
ず、質問称呼文字列1は、質問称呼保持域6に保持さ
れ、御数カウント部7でその音数がカウントされて、派
生要素生成部8に出力される。派生要素生成部8では、
図14に示す流れ図に従った動作が行なわれて、図10
に示すような、音位置毎の派生要素表10を出力し、オ
ートマトン生成部9に、図11のようなオートマトンの
元になる正規表現の集合を出力する。オートマトン生成
部9では、派生要素生成部8から受け取った正規表現
と、音数範囲の組みの集合から、図12に示すような遷
移グラフを持つ決定性の有限状態オートマトンを生成
し、その状態遷移表11を、図13のような形式で出力
して、「ナショナル」に対する称呼展開動作を終了す
る。
【0044】なお、図11の正規表現の集合から図12
の有限状態オートマトンを作成する手順は、集合中の全
ての正規表現をOR「|」で結合した1つの正規表現を
作り、これを上記参考文献などに記述のある、部分集合
構成法によって有限状態オートマトンに変換すればよ
い。
【0045】本実施例による類似文字列展開装置は、上
記展開結果から明らかなように、個々の展開規則を別々
に適用するのでなく、全ての規則を一括して適用するた
め、展開規則の個数が数十個で、展開個数も数百万個以
上になる場合には、展開時間が短くて済み、個々の展開
結果を文字列形式で別々に出力せずに、派生要素表と状
態遷移表の形式で出力するため、展開結果の容量も小さ
くて済むという効果が得られる。また、本実施例による
類似文字列展開装置は、展開規則を「作り付け」にせ
ず、展開規則ファイルの形で初期化時に外部から読み込
む。しかも、規則自体の記述も簡潔なため、類似基準の
変更に伴う変更作業の手間が少ないという効果がある。
【0046】なお本実施例に係る類似文字列展開装置に
おいて、正規表現に対応する分類番号を格納する分類番
号格納部12を設けた場合は、類似基準セット中に分類
番号を含ませることができる。この場合、オートマトン
生成部9は、上記分類番号が類似基準セット中に含まれ
ている正規表現の集合に基づいて、展開文字列の各文字
位置で、派生要素の許される組み合わせを表す派生型を
遷移条件とする有限状態オートマトンを求めることがで
きる。
【0047】また、本実施例に係る類似文字列展開装置
において、派生型指定生成部13を設けた場合は、この
類似文字列展開装置における初期化時に、展開規則読み
込み部3が称呼展開規則ファイル2から称呼展開規則を
読み込んで類似基準を生成した後、各文字数の質問から
各文字数の展開文字列の各文字位置の派生文字を求める
際に使用する可能性のある派生型の一覧を派生型指定と
して、前記派生型指定生成部13が予め求めておく。そ
して、質問に対して、前記質問の文字数と、派生文字位
置が一致する派生型指定中の派生型を用いて、派生要素
生成部10が派生要素の集合を求める。
【0048】さらに、本実施例に係る類似文字列展開装
置において、派生型リスト番号生成部14を設けた場合
は、この類似文字列展開装置における類似文字列展開動
作時に、派生要素生成部10がある文字位置の派生要素
の集合を求めた後、前記派生型リスト番号生成部14
が、各派生要素の第1要素である派生型リストを、同一
内容のものは同一番号になるような一連番号である派生
型リスト番号に変換する。そして、オートマトン生成部
9は、読み込んだ類似基準中の正規表現の集合から、派
生型リスト番号を遷移条件とする有限状態オートマトン
を求めることができる。
【0049】なお、派生要素生成部10が、派生要素の
集合を求める動作を第1文字から展開文字列の末尾に向
かって順に行なう事例は上記実施例に挙げて説明した
が、この派生要素生成部10はさらに、派生要素生成動
作に当たって派生文字の派生に関与する質問の文字位置
を、展開文字列の派生文字位置からの相対位置で表現し
てもよく、また派生に当たって、質問が満たすべき制約
条件が、質問の文字列のみで判定可能にすることもでき
る。
【0050】(実施例2)次に、本発明の第2の実施例
について、図面を参照しながら説明する。図15は本発
明の第2の実施例における類似文字列検索方法を実施す
るための類似文字列検索装置の全体構成を示すブロック
図である。この実施例において、類似文字列検索装置
は、類似文字列として類似商標の検索を行なうために用
いられる装置であるものとする。したがって、以下の説
明において「商標」の表現は、商標以外の文字列(名
前)に置換可能である。
【0051】図20において、21は上記第1の実施例
の称呼展開装置によって生成された派生要素表と状態遷
移表からなる称呼展開結果、22は称呼展開結果21の
派生要素表の部分を高速に表引きできる形式で格納する
派生要素表格納域、23は称呼展開結果21の状態遷移
表の部分を高速に表引き(すなわち、状態遷移表の要素
(遷移先状態など)を現在の状態番号と派生型とから求
めること)できる形式で格納する状態遷移表格納域、2
4は派生要素表格納域22を参照して、派生要素の列を
1音目から順に系統的に発生する派生要素列生成手段、
25は派生要素列生成手段24から生成した派生要素の
列を受け取り、状態遷移表格納域23を参照して、当該
派生要素列が展開規則に合致したものであるか否かを判
定する派生要素列検査手段、26は派生要素列検査手段
25が展開規則に合致したと判定した派生要素列の派生
音リストの列を受け取って商標データベースを検索し、
商標番号リストを出力する称呼検索手段、27は称呼検
索手段26によって検索される称呼索引、28は称呼索
引の検索結果である称呼番号を商標番号に変換するため
の称呼番号対商標番号リスト表、29は称呼検索手段2
6が出力する検索結果である商標番号リスト、30は商
標番号リスト29中に含まれる重複した商標番号を除去
して1つだけにする重複番号除去手段、31は重複番号
除去手段30が出力した最終的な検索結果である。
【0052】以上のような構成において、以下その動作
を具体的な例を用いて説明する。まず、商標データベー
スは、図24の20個の称呼を含むものであるとし、従
来の技術の項で説明したような方法で、図28の内容の
称呼索引7と、図27の内容の称呼番号対商標番号リス
ト表28が作成される。次に、第1の実施例で説明した
ようにして展開された質問称呼「ナショナル」に対する
展開結果である図10の内容の派生要素表と、図13の
内容の状態遷移表が称呼展開結果21として読み込ま
れ、派生要素表格納域22および状態遷移表格納域23
に格納される。以降は、図16に示す流れ図に従って検
索処理が進められる。まず、派生要素列検査手段25内
の状態スタックが初期状態1のみにセットされ、派生要
素列生成手段24の「生成音位置」が1にセットされ
る。次に、派生要素列生成手段24が派生要素表格納域
22を参照して、生成音位置である1音目の最初の派生
要素 ( <s00+0> 「ナ」) を取得し、この派生要素1つだけの列を生成する。この
列は派生要素列検査手段25に渡され、状態遷移表格納
域23と状態スタック先頭の状態番号「1」とを用い
て、状態1からの派生型<s00+0>での状態遷移が
行なわれ、新たな状態2への遷移が成功する。そこで、
派生要素列検査手段5は、この新たな状態2を状態スタ
ックにプッシュする。
【0053】状態2は、照合対照音数範囲が定義されて
いないので、称呼検索手段26への検索の指示は出され
ず、派生要素列生成手段24に2音目以降を生成するよ
う指示が出される。そこで、派生要素生成手段24は生
成音位置を1増やして2とし、派生要素表格納域22を
参照して、2音目の最初の派生要素、 ( <s00+0>,<s0J+0> 「ショ」) を取得し、1音目として選択した派生要素とつなげた派
生要素列 ( ( <s00+0> 「ナ」) ( <s00+0>,<s0J+0> 「ショ」)) を生成する。この列は派生要素列検査手段25に渡さ
れ、状態遷移表格納域23と、状態スタック先頭の状態
番号「2」とを用いて、状態2からの派生型<s00+
0>および<s0J+0>での状態遷移が行なわれ、そ
れぞれ新たな状態2および3への遷移が成功する。そこ
で、派生要素列検査手段25は、この新たな状態2およ
び3のリスト「2、3」を状態スタックにプッシュす
る。
【0054】状態2は、状態遷移表に照合対照音数範囲
が定義されていないが、状態3は、状態遷移表に照合対
照範囲が1音から9音までと指定されており、生成音位
置の2がこの照合対照範囲内であるので、「ナ」と「シ
ョ」をつなげた「ナショ」での称呼検索が称呼検索手段
26に指示され、称呼検索手段26は、称呼索引27を
「ナショ」で検索する。この場合には、データベース中
に「ナショ」がないため、称呼検索手段26での検索は
打ち切られ、派生要素検査手段25は、さらに次の音の
派生を指示する。このような派生と検査および検索の様
子を示したのが図17から図19であり、この図から分
かるように、最終的に称呼番号8,9,7,14の4個
の展開称呼「ナショナ」、「ナショナラ」、「ナシャナ
ル」、「ニショナル」がヒットし、蓄積された商標番号
のリストは、「1100359,1101022,11
01022,1113044,1101492,110
6430,」となる。
【0055】このリストから、重複番号除去手段30に
よって、2個以上含まれている商標番号が、1個になる
まで除去され、最終的に、「1100359,1101
022,1113044,1101492,11064
30,」の5個の商標番号からなるリストが、検索結果
として出力される。
【0056】以上のように、本発明の類似文字列検索装
置は、個々の展開文字列を鍵にしてデータベースを検索
することをせずに、派生型リストの列が等しい複数個の
展開文字列群を鍵にして、一括してデータベースを検索
できるため、展開個数が数百万個以上になり、データベ
ースも数百万件と大きな場合には、類似文字列の検索処
理が高速になるという効果がある。
【0057】なお、上記第1および第2の実施例では、
商標の称呼を対照にしたが、本発明は有機化合物名、地
名、人名、書籍名など、他の名前のデータベースにも適
用できることは言うまでもない。
【0058】
【発明の効果】以上のように、本発明の類似文字列展開
装置は、個々の展開規則を別々に適用するのでなく、全
ての規則を一括して適用することにより、展開規則の個
数が数十個で、展開個数も数百万個以上になる場合に
は、展開時間が短くて済み、個々の展開結果を文字列形
式で別々に出力せずに、派生要素表と状態遷移表の形式
で出力することにより、展開結果の容量も小さくて済む
という効果が得られる。また、本発明の類似文字列展開
装置は、展開規則を「作り付け」にせず、展開規則ファ
イルの形で初期化時に外部から読み込み、。しかも、規
則自体の記述が簡潔なため、類似基準の変更に伴う、変
更作業の手間が少ないという効果があるすぐれた方法を
提供できる。
【0059】また、本発明の類似文字列検索方法は、個
々の展開文字列を鍵にしてデータベースを検索すること
をせずに、派生型リストの列が等しい、複数個の展開文
字列群を鍵にして、一括してデータベースを検索できる
ため、展開個数が数百万個以上になり、データベースも
数百万件と大きな場合には、類似文字列の検索処理が高
速になるという効果があるすぐれた方法を提供する。
【図面の簡単な説明】
【図1】本発明の第1の実施例における類似称呼展開方
法を実施するための類似文字列展開装置の全体構成を示
すブロック図
【図2】第1の実施例における音の派生のモデルを例示
する一覧図
【図3】第1の実施例における称呼展開規則の表記法を
例示する一覧図
【図4】第1の実施例における類似音表を例示する一覧
【図5】第1の実施例における類似音表を例示する一覧
図(続き)
【図6】第1の実施例における類似音表を例示する一覧
図(続き)
【図7】第1の実施例における称呼展開規則を例示する
一覧図
【図8】第1の実施例における称呼展開規則を例示する
一覧図(続き)
【図9】第1の実施例における称呼展開規則ファイルの
内容を例示する一覧図
【図10】第1の実施例における派生要素表を例示する
一覧図
【図11】第1の実施例における、オートマトン生成部
が受け取る正規表現の集合を例示する一覧図
【図12】第1の実施例における、作成された有限状態
オートマトンの遷移グラフを例示する模式図
【図13】第1の実施例における出力された状態遷移表
を例示する一覧図
【図14】第1の実施例における派生要素生成部での派
生要素作成の流れ図
【図15】第2の実施例における類似称呼検索装置の全
体構成を示すブロック図
【図16】第2の実施例における類似称呼検索の処理の
概要を示す流れ図
【図17】第2の実施例における類似称呼検索の処理の
進行に伴う中間結果の変化を例示する一覧図
【図18】第2の実施例における類似称呼検索の処理の
進行に伴う中間結果の変化を例示する一覧図(続き)
【図19】第2の実施例における類似称呼検索の処理の
進行に伴う中間結果の変化を例示する一覧図(続き)
【図20】従来の類似称呼展開装置の全体構成を示すブ
ロック図
【図21】称呼類似基準を例示する一覧図
【図22】従来の称呼展開規則を例示する一覧図
【図23】従来の称呼索引作成装置の全体構成を示すブ
ロック図
【図24】商標データベースを例示する一覧図
【図25】整列された商標データベースを例示する一覧
【図26】称呼番号対称呼データを例示する一覧図
【図27】称呼番号対商標番号リスト表を例示する一覧
【図28】称呼索引を例示する模式図
【図29】従来の類似称呼展開装置の全体構成を示すブ
ロック図
【符号の説明】
1 質問称呼文字列 2 称呼展開規則ファイル 3 展開規則読み込み部 4 類似音表格納域 5 正規表現格納域 6 質問称呼保持域 7 音数カウント部 8 派生要素生成部 9 オートマトン生成部 10 派生要素表 11 状態遷移表 21 称呼展開結果 22 派生要素表格納域 23 状態遷移表格納域 24 派生要素列生成手段 25 派生要素列検査手段 26 称呼検索手段 27 称呼索引 28 称呼番号対商標番号リスト表 29 商標番号リスト 30 重複番号除去手段 31 検索結果

Claims (19)

    (57)【特許請求の範囲】
  1. 【請求項1】 データベース検索の鍵となる、利用者か
    ら入力された文字列形式の質問に対して、前記質問の文
    字列に類似する展開文字列を表現した展開結果を、予め
    用意した類似基準に従って求めるに当たり、類似基準
    は、1ないし2文字の文字列についてその文字列と称呼
    の上で類似関係にある文字を記録した1種以上の類似文
    字表と、前記展開文字列の各位置の文字が前記質問の文
    字列から派生する仕方を示す記号である派生型の列のパ
    ターンを表す1個以上の正規表現との組で構成され、こ
    の類似基準に基づき、前記質問に対する展開文字列の各
    文字位置について、当該文字の派生に用いた1つ以上の
    派生型の並んだ派生型リストと前記派生型リストを持つ
    派生文字リストとの組である派生要素の集合、およびオ
    ートマトンの元になる正規表現の集合を求め、次いで、
    前記正規表現の集合に基づいて、展開文字列の各文字位
    置で、前記派生要素の許される組み合わせを表す派生型
    を遷移条件とする有限状態オートマトンを求め、前記派
    生要素の集合と有限状態オートマトンの組を、前記質問
    の展開結果として出力することを特徴とする類似文字列
    展開方法。
  2. 【請求項2】 データベース検索の鍵となる、利用者か
    ら入力された文字列形式の質問に対して、前記質問の文
    字列に類似する展開文字列を表現した展開結果を、予め
    用意した類似基準に従って求めるに当たり、類似基準
    は、1ないし2文字の文字列についてその文字列と称呼
    の上で類似関係にある文字を記録した1種以上の類似文
    字表と、前記展開文字列の各位置の文字が前記質問の文
    字列から派生する仕方を示す記号である派生型の列のパ
    ターンを表す正規表現と、この正規表現に対応する分類
    番号との組で構成され、この類似基準に基づき、前記質
    問に対する展開文字列の各文字位置について、当該文字
    の派生に用いた1つ以上の派生型の並んだ派生型リスト
    と前記派生型リストを持つ派生文字リストとの組である
    派生要素の集合、およびオートマトンの元になる正規表
    現の集合を求め、次いで、前記分類番号が類似基準セッ
    ト中に含まれている正規表現の集合に基づいて、展開文
    字列の各文字位置で、前記派生要素の許される組み合わ
    せを表す派生型を遷移条件とする有限状態オートマトン
    を求め、前記派生要素の集合と有限状態オートマトンと
    の組を、前記質問の、前記類似基準セットを用いた展開
    結果として出力することを特徴とする類似文字列展開方
    法。
  3. 【請求項3】 類似基準は初期化動作時に展開規則を読
    み込むことにより生成されることを特徴とする請求項1
    または2記載の類似文字列展開方法。
  4. 【請求項4】 派生型を、展開文字列の各位置の派生文
    字の派生に関与する、質問の文字位置と、前記文字位置
    からの1ないし2文字の文字列を、前記派生文字に変化
    させる類似文字表の種類と、派生に当たって、質問が満
    たすべき制約条件の3種の情報の組で表現したことを特
    徴とする請求項1乃至3のいずれかに記載の類似文字列
    展開方法。
  5. 【請求項5】 利用者から入力された文字列形式の質問
    を保持する手段と、前記質問の文字列に類似している展
    開文字列を得るための展開規則を格納する称呼展開規則
    格納手段と、1ないし2文字の文字列についてその文字
    列と称呼の上で類似関係にある文字を記録した1種以上
    の類似文字表を格納する類似音表格納手段と、この類似
    文字列表と組み合わさって類似基準を構成し、前記展開
    文字列の各位置の文字が前記質問の文字列から派生する
    仕方を示す記号である派生型の列のパターンを表す、1
    個以上の正規表現を格納する正規表現格納手段と、称呼
    展開規則格納手段の展開規則を読み込み、前記類似音表
    格納手段および正規表現格納手段に送付してその展開規
    則に応じた類似基準を生成させる展開規則読み込み手段
    と、 前記質問に対して、展開文字列の各文字位置につ
    いて、前記類似基準に基づいて、当該文字の派生に用い
    た1つ以上の派生型の並んだ派生型リストと、前記派生
    型リストを持つ派生文字リストの組である派生要素の集
    合を算定する派生要素生成手段と、展開文字列の各文字
    位置で、前記派生要素の許される組み合わせを表す、派
    生型を遷移条件とする有限状態オートマトンを算定する
    オートマトン生成手段とを備え、前記派生要素の集合
    と、有限状態オートマトンの組を、前記質問の展開結果
    として出力することを特徴とする類似文字列展開装置。
  6. 【請求項6】 派生要素生成手段は、前記派生要素の集
    合を算定するのに加え、オートマトンの元になる正規表
    現の集合を求めることを特徴とする請求項5記載の類似
    文字列展開装置。
  7. 【請求項7】 正規表現に対応する分類番号を格納する
    分類番号格納手段をさらに有し、類似基準セット中に分
    類番号を含ませるとともに、オートマトン生成手段は、
    前記分類番号が類似基準セット中に含まれている正規表
    現の集合に基づいて、展開文字列の各文字位置で、前記
    派生要素の許される組み合わせを表す派生型を遷移条件
    とする有限状態オートマトンを求めることを特徴とする
    請求項5または6記載の類似文字列展開装置。
  8. 【請求項8】 派生要素生成手段、およびオートマトン
    生成手段が、展開文字列の文字数毎に、別々の派生要素
    と有限状態オートマトンの組を作成し、その全体を展開
    結果として出力することを特徴とする請求項5乃至7記
    載の類似文字列展開装置。
  9. 【請求項9】 派生型指定生成手段をさらに備え、初期
    化時に、類似基準読み込み手段が類似基準を読み込んだ
    後、各文字数の質問から、各文字数の展開文字列の各文
    字位置の派生文字を求める際に使用する可能性のある派
    生型の一覧を派生型指定として、前記派生型指定生成手
    段が予め求めておき、質問に対して、前記質問の文字数
    と、派生文字位置が一致する派生型指定中の派生型を用
    いて、派生要素生成手段が派生要素の集合を求めること
    を特徴とする請求項5乃至8記載の類似文字列展開装
    置。
  10. 【請求項10】 派生型リスト番号生成手段をさらに備
    え、展開時に、派生要素生成手段がある文字位置の派生
    要素の集合を求めた後、前記派生型リスト番号生成手段
    が、各派生要素の第1要素である派生型リストを、同一
    内容のものは同一番号になるような一連番号である派生
    型リスト番号に変換し、オートマトン生成手段が、読み
    込んだ類似基準中の正規表現の集合から、派生型リスト
    番号を遷移条件とする有限状態オートマトンを求めるこ
    とを特徴とする請求項5乃至9記載の類似文字列展開装
    置。
  11. 【請求項11】 派生要素生成手段は、派生要素の集合
    を求める動作を、第1文字から、展開文字列の末尾に向
    かって順に行なうことを特徴とする請求項5乃至10記
    載の類似文字列展開装置。
  12. 【請求項12】 派生文字の派生に関与する質問の文字
    位置を、展開文字列の派生文字位置からの相対位置で表
    現したことを特徴とする請求項5乃至11記載の類似文
    字列展開装置。
  13. 【請求項13】 派生に当たって、質問が満たすべき制
    約条件が、質問の文字列のみで判定可能であることを特
    徴とする請求項5乃至12記載の類似文字列展開装置。
  14. 【請求項14】 データベース検索の鍵となる、利用者
    から入力された文字列形式の質問に対して、前記質問の
    文字列に類似する展開文字列を表現すべく得られた派生
    要素の集合と、有限状態オートマトンの組を参照して、
    データベース中で前記展開結果と合致するデータを、前
    記データベースに対して作成された索引を検索して求め
    るに際し、先ず状態スタックを、前記有限状態オートマ
    トンの初期状態ただ1つに初期化し、次いで、現在文字
    位置を1に初期化した後、現在文字位置として1音目の
    最初の派生要素を取得し、次に、撰択した派生要素の派
    生型リスト中の各派生型での、状態スタック中の各状態
    からの遷移先を、前記有限状態オートマトンを参照して
    求めさせ、有効な遷移先状態が1つもない場合には、次
    の派生要素を撰択させ、有効な遷移先状態が1つでもあ
    れば、有効な遷移先を全て、次の状態群としてプッシュ
    してデータベース検索手段を呼び出し、データベース検
    索手段をして、1文字目から現在の文字位置までの派生
    要素の連鎖を構成する文字集合の列の中で、データベー
    ス中にはない組み合わせを消去せしめ、その結果、有効
    な文字集合の列がなくなった場合には、状態スタックか
    ら現在の状態群をポップして、次の派生要素を撰択させ
    る一方、有効な文字集合の列がある場合には、前記現在
    文字位置を1だけ増やして、次の文字位置での派生要素
    を撰択させることにより、最終文字位置まで状態遷移し
    たデータベース中にあった文字列集合の列を全てマージ
    して、検索結果とする類似文字列検索方法。
  15. 【請求項15】 検索の結果得られた複数の被検索文字
    列の中から重複した被検索文字列を1個になるまで除去
    する処理を最終の段階で実行することを特徴とする請求
    項14記載の類似文字列検索方法。
  16. 【請求項16】 類似文字列展開装置によって生成され
    た派生要素表を格納する派生要素表格納手段と、類似文
    字列展開装置によって生成された状態遷移表を格納する
    状態遷移表格納手段と、派生要素表格納手段からの派生
    要素の列を1音目から順に発生する派生要素表生成手段
    と、派生要素列生成手段から生成した派生要素の列を、
    状態遷移表格納手段のデータを参照して前記派生要素列
    が展開規則に合致したものであるか否かを判断する派生
    要素列検査手段と、派生要素列の派生音リストの列を受
    け取ってデータベースを検索し文字列番号リストを出力
    する称呼検索手段と、称呼検索手段によって検索される
    称呼索引と、称呼索引の検索結果である称呼番号を文字
    列番号に変換するための称呼番号対文字列番号リスト表
    とを備えた類似文字列検索装置。
  17. 【請求項17】 称呼検索手段から出力された文字列番
    号リストを入力し重複した文字列番号を1個になるまで
    除去する重複番号除去手段をさらに備えた請求項16記
    載の類似文字列検索装置。
  18. 【請求項18】 データベース検索の鍵となる、利用者
    から入力された文字列形式の質問に対して、前記質問の
    文字列に類似する展開文字列を表現した展開結果を、予
    め用意した類似基準に従って求めた後、検索するに当た
    り、類似基準を、1ないし2文字の文字列についてその
    文字列と称呼の上で類似関係にある文字を記録した1種
    以上の類似文字表と、前記展開文字列の各位置の文字が
    前記質問の文字列から派生する仕方を示す記号である派
    生型の列のパターンを表す1個以上の正規表現との組で
    構成しておき、この類似基準に基づき、前記質問に対す
    る展開文字列の各文字位置について、当該文字の派生に
    用いた1つ以上の派生型の並んだ派生型リストと前記派
    生型リストを持つ派生文字リストとの組である派生要素
    の集合、およびオートマトンの元になる正規表現の集合
    を求め、次いで、前記正規表現の集合に基づいて、展開
    文字列の各文字位置で、前記派生要素の許される組み合
    わせを表す派生型を遷移条件とする有限状態オートマト
    ンを求め、前記派生要素の集合と有限状態オートマトン
    の組を、前記質問の展開結果として出力し、その後、展
    開結果である派生要素の集合と、有限状態オートマトン
    の組を参照して、前記データベース中で前記展開結果と
    合致するデータを、前記データベースに対して作成され
    た索引を検索して求めるに際し、先ず状態スタックを、
    前記有限状態オートマトンの初期状態ただ1つに初期化
    し、次いで、現在文字位置を1に初期化した後、現在文
    字位置として1音目の最初の派生要素を取得し、次に、
    撰択した派生要素の派生型リスト中の各派生型での、状
    態スタック中の各状態からの遷移先を、前記有限状態オ
    ートマトンを参照して求めさせ、有効な遷移先状態が1
    つもない場合には、次の派生要素を撰択させ、有効な遷
    移先状態が1つでもあれば、有効な遷移先を全て、次の
    状態群としてプッシュしてデータベース検索手段を呼び
    出し、データベース検索手段をして、1文字目から現在
    の文字位置までの派生要素の連鎖を構成する文字集合の
    列の中で、データベース中にはない組み合わせを消去せ
    しめ、その結果、有効な文字集合の列がなくなった場合
    には、状態スタックから現在の状態群をポップして、次
    の派生要素を撰択させる一方、有効な文字集合の列があ
    る場合には、前記現在文字位置を1だけ増やして、次の
    文字位置での派生要素を撰択させることにより、最終文
    字位置まで状態遷移したデータベース中にあった文字列
    集合の列を全てマージして、検索結果とする類似文字列
    展開・検索方法。
  19. 【請求項19】 利用者から入力された文字列形式の質
    問を保持する手段と、前記質問の文字列に類似している
    展開文字列を得るための展開規則を格納する称呼展開規
    則格納手段と、1ないし2文字の文字列についてその文
    字列と称呼の上で類似関係にある文字を記録した1種以
    上の類似文字表を格納する類似音表格納手段と、この類
    似文字列表と組み合わさって類似基準を構成し、前記展
    開文字列の各位置の文字が前記質問の文字列から派生す
    る仕方を示す記号である派生型の列のパターンを表す、
    1個以上の正規表現を格納する正規表現格納手段と、称
    呼展開規則格納手段の展開規則を読み込み、前記類似音
    表格納手段および正規表現格納手段に送付してその展開
    規則に応じた類似基準を生成させる展開規則読み込み手
    段と、 前記質問に対して、展開文字列の各文字位置に
    ついて、前記類似基準に基づいて、当該文字の派生に用
    いた1つ以上の派生型の並んだ派生型リストと、前記派
    生型リストを持つ派生文字リストの組である派生要素の
    集合を算定する派生要素生成手段と、展開文字列の各文
    字位置で、前記派生要素の許される組み合わせを表す、
    派生型を遷移条件とする有限状態オートマトンを算定す
    るオートマトン生成手段とを備え、前記派生要素の集合
    と、有限状態オートマトンの組を、前記質問の展開結果
    として出力する類似文字列展開部と、類似文字列展開部
    によって生成された派生要素表を格納する派生要素表格
    納手段と、類似文字列展開部によって生成された状態遷
    移表を格納する状態遷移表格納手段と、派生要素表格納
    手段からの派生要素の列を1音目から順に発生する派生
    要素表生成手段と、派生要素列生成手段から生成した派
    生要素の列を、状態遷移表格納手段のデータを参照して
    前記派生要素列が展開規則に合致したものであるか否か
    を判断する派生要素列検査手段と、派生要素列の派生音
    リストの列を受け取ってデータベースを検索し文字列番
    号リストを出力する称呼検索手段と、称呼検索手段によ
    って検索される称呼索引と、称呼索引の検索結果である
    称呼番号を文字列番号に変換するための称呼番号対文字
    列番号リスト表とを備えた類似文字列検索部とから成る
    類似文字列展開・検索装置。
JP7144726A 1995-06-12 1995-06-12 類似文字列の展開方法、検索方法及びそれらの装置 Expired - Fee Related JP2927706B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP7144726A JP2927706B2 (ja) 1995-06-12 1995-06-12 類似文字列の展開方法、検索方法及びそれらの装置
EP03022267A EP1380966A3 (en) 1995-06-12 1996-03-20 Method and apparatus for expanding similar character strings similar to a question character string
DE69633595T DE69633595T2 (de) 1995-06-12 1996-03-20 Verfahren und Gerät zur Erweiterung und Wiedergewinnung von ähnlichen Zeichenfolgen.
EP96104420A EP0749076B1 (en) 1995-06-12 1996-03-20 Similar character string expanding and retrieving method and apparatus
US08/626,108 US5835892A (en) 1995-06-12 1996-04-03 Method and apparatus for expanding similar character strings

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7144726A JP2927706B2 (ja) 1995-06-12 1995-06-12 類似文字列の展開方法、検索方法及びそれらの装置

Publications (2)

Publication Number Publication Date
JPH08339378A JPH08339378A (ja) 1996-12-24
JP2927706B2 true JP2927706B2 (ja) 1999-07-28

Family

ID=15368901

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7144726A Expired - Fee Related JP2927706B2 (ja) 1995-06-12 1995-06-12 類似文字列の展開方法、検索方法及びそれらの装置

Country Status (4)

Country Link
US (1) US5835892A (ja)
EP (2) EP0749076B1 (ja)
JP (1) JP2927706B2 (ja)
DE (1) DE69633595T2 (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6363342B2 (en) * 1998-12-18 2002-03-26 Matsushita Electric Industrial Co., Ltd. System for developing word-pronunciation pairs
US7143350B2 (en) * 1999-06-30 2006-11-28 Microsoft Corporation Method and system for character sequence checking according to a selected language
US6742164B1 (en) 1999-09-01 2004-05-25 International Business Machines Corporation Method, system, and program for generating a deterministic table to determine boundaries between characters
US6626960B1 (en) 1999-09-01 2003-09-30 International Business Machines Corporation Method, system, and program for generating a table to determine boundaries between characters
US6804650B2 (en) * 2000-12-20 2004-10-12 Bellsouth Intellectual Property Corporation Apparatus and method for phonetically screening predetermined character strings
JP2002351892A (ja) * 2001-05-30 2002-12-06 A & D:Kk 商標検索システム及び商標出願支援システム
JP4519521B2 (ja) * 2004-05-28 2010-08-04 ブランディインターナショナル株式会社 商標サーバ装置および商標抽出方法
US20060136195A1 (en) * 2004-12-22 2006-06-22 International Business Machines Corporation Text grouping for disambiguation in a speech application
US7502788B2 (en) * 2005-11-08 2009-03-10 International Business Machines Corporation Method for retrieving constant values using regular expressions
US8046372B1 (en) 2007-05-25 2011-10-25 Amazon Technologies, Inc. Duplicate entry detection system and method
US7814107B1 (en) * 2007-05-25 2010-10-12 Amazon Technologies, Inc. Generating similarity scores for matching non-identical data strings
US7908279B1 (en) 2007-05-25 2011-03-15 Amazon Technologies, Inc. Filtering invalid tokens from a document using high IDF token filtering
US7895225B1 (en) 2007-12-06 2011-02-22 Amazon Technologies, Inc. Identifying potential duplicates of a document in a document corpus
US8266135B2 (en) * 2009-01-05 2012-09-11 International Business Machines Corporation Indexing for regular expressions in text-centric applications
JP5182767B2 (ja) * 2010-02-16 2013-04-17 トムソン・ロイター・プロフェッショナル株式会社 商標サーバ装置および商標抽出方法
US8688608B2 (en) 2011-06-28 2014-04-01 International Business Machines Corporation Verifying correctness of regular expression transformations that use a post-processor
CN107968892B (zh) * 2016-10-19 2020-11-24 阿里巴巴集团控股有限公司 应用于即时通讯应用的分机号码分配方法及装置
CN115801020B (zh) * 2023-02-13 2023-04-11 鹏城实验室 确定有限状态自动机压缩方法、匹配方法、设备及介质

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2226078A5 (ja) * 1973-04-13 1974-11-08 Sodema
US5452451A (en) * 1989-06-15 1995-09-19 Hitachi, Ltd. System for plural-string search with a parallel collation of a first partition of each string followed by finite automata matching of second partitions
US5255310A (en) * 1989-08-11 1993-10-19 Korea Telecommunication Authority Method of approximately matching an input character string with a key word and vocally outputting data
US5138669A (en) * 1990-06-29 1992-08-11 Hitachi, Ltd. Range-conditional character string retrieving method and system
JPH0573536A (ja) * 1991-09-13 1993-03-26 Brother Ind Ltd かな漢字変換装置
US5357431A (en) * 1992-01-27 1994-10-18 Fujitsu Limited Character string retrieval system using index and unit for making the index
JP2534600B2 (ja) * 1992-06-19 1996-09-18 松下電器産業株式会社 文字列照合装置
JPH06149791A (ja) * 1992-11-13 1994-05-31 Hitachi Ltd 漢字文章入力装置
JP2994926B2 (ja) * 1993-10-29 1999-12-27 松下電器産業株式会社 有限状態機械作成方法とパターン照合機械作成方法とこれらを変形する方法および駆動方法
JPH07200615A (ja) * 1993-12-28 1995-08-04 Noriko Yoshii 言語抽出方法
JP2758826B2 (ja) * 1994-03-02 1998-05-28 株式会社リコー 文書検索装置
JP2929963B2 (ja) * 1995-03-15 1999-08-03 松下電器産業株式会社 文書検索装置および単語索引作成方法および文書検索方法

Also Published As

Publication number Publication date
JPH08339378A (ja) 1996-12-24
EP0749076B1 (en) 2004-10-13
DE69633595T2 (de) 2005-10-13
US5835892A (en) 1998-11-10
EP0749076A1 (en) 1996-12-18
EP1380966A2 (en) 2004-01-14
EP1380966A3 (en) 2005-03-09
DE69633595D1 (de) 2004-11-18

Similar Documents

Publication Publication Date Title
JP2927706B2 (ja) 類似文字列の展開方法、検索方法及びそれらの装置
Nestorov et al. Representative objects: Concise representations of semistructured, hierarchical data
US6853992B2 (en) Structured-document search apparatus and method, recording medium storing structured-document searching program, and method of creating indexes for searching structured documents
JP4639077B2 (ja) 語彙と文法を有する言語の上のストリングの内部構造の各レベルにインデックス付けを行うためのシステム及び方法
US20020010714A1 (en) Method and apparatus for processing free-format data
JP2000315216A (ja) 自然言語検索方法および装置
JP2002197096A (ja) 文書の一般テキストサマリを作成する方法およびシステム
JP3565239B2 (ja) 情報検索装置
RU2004127924A (ru) Способ перевода данных и устройство для осуществления этого способа
CN114579605A (zh) 表格问答数据处理方法、电子设备及计算机存储介质
JP4497337B2 (ja) 概念検索装置およびコンピュータプログラムを記録した記録媒体
JPH05233704A (ja) キーワード拡張検索方式
JPH04340164A (ja) マルチキーワード情報検索処理方式および検索ファイル作成装置
JP2003288366A (ja) 類似テキスト検索装置
JPH11259482A (ja) 複合名詞の機械翻訳方式
AU774729B2 (en) Method and apparatus for processing free-format data
JP2903941B2 (ja) データ検索装置
JPH08115340A (ja) 文書検索装置およびそれに用いるインデックスファイルの作成装置
JPH04123264A (ja) 関連語テーブル作成装置及び文書検索装置
JPH1145250A (ja) 情報検索装置,検索結果を利用した検索条件の生成方法およびその方法をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2606541B2 (ja) 知識獲得方式
JPH09138809A (ja) 全文検索方法
JPH0540783A (ja) 自然言語解析装置
JP2001325293A (ja) 全文検索方法及び装置及び全文検索プログラムを格納した記憶媒体
JPH08287083A (ja) 辞書未登録語展開方法及び装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090514

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees