JPH0315980A

JPH0315980A - 文字列検索装置

Info

Publication number: JPH0315980A
Application number: JP1149630A
Authority: JP
Inventors: Atsushi Hatakeyama; 敦畠山; Hiromichi Fujisawa; 浩道藤澤; Kanji Kato; 加藤　寛次; Hisamitsu Kawaguchi; 川口　久光; Masaaki Fujinawa; 藤縄　雅章; Hidefumi Masuzaki; 増崎　秀文
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1989-06-14
Filing date: 1989-06-14
Publication date: 1991-01-24
Anticipated expiration: 2013-08-27
Also published as: JP2791106B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】【産業上の利用分野】

本発明は、テキストデータベースを指定した文字列で検
索する装置に係わり、特に統制されていないキーワード
（自由語と呼ぶ）を用いて検索する際に、同義語や表記
法の違いによる検索漏れをなくすのに好適な文字列検索
装置に関する。

【従来の技術）近年，文献情報や特許情報などの２次情報（書誌情報）
のみならず，１次情報（本文）をも含む大規模データベ
ース・サービスの重要性が増している．このようなデー
タベース（ＤＢと略すこともある）の情報検索では、従
来からキーワードや分類コードによる方法が用いられて
きている。キーワードは、データベースへの情報登録時
に、キーワードを付与する（インデキシングと言う）専
門家が統制語集（シソーラスと呼ぶ）から選んで付けて
いる。そして、ＤＢ検索者もこのシソーラスからキーワ
ードを選び出して検索を行なう方式がとられている．し
かしながら、このキーワード付与作業は、非常に煩雑な
作業を伴う．すなわち、登録すべき文書の内容を読み，
この内容を表現する適切な語量をシソーラスから選び出
す必要がある．もしインデキシングを適切に行なわなけ
れば、データベースから正しい情報が得られないことに
なる．従って、このインデキシングには文書の内容に関
する専門知識を持ち、かつシソーラスに登録されている
語負にも糟通した専門家が必要になるという問題がある
．また、検索時にも同様に、シソーラスに則った適切な
語欠をキーワードとして指定しなければ、要求する文書
を呼び出せなかったり、あるいは呼び出した文書の中に
不要なものが混じり込むという問題がある。また，このシソーラスにおいては、分類体系自体が年月
と共に変化するため、常にキーワードや分類コードを更
新しなければならないという問題も生じてくる．更に、
インデキシングには時間がかかるため、新たな文書はバ
ッチ処理によりかなりの量をまとめて登録することにな
る．そのため，検索できる情報は常に一定期間のおくれ
を持つという問題もある。このようなことから、ＤＢの
普及に伴い．ＤＢの専門家でなくとも、シソーラス等に
拘束されることなく、簡単に自由語（非統制語ともいう
）で、文書の登録、検索が行なえるシステムが望まれて
きた。このような自由語による検索の過程では、しばしばユー
ザの指定するキーワードすなわち検索文字列と、検索対
象であるＤＢ中で用いられている言葉が同一の内容を示
すのにもかかわらず、表記あるいは表現が食い違ってい
るために検索漏れを生ずる場合がある．例えば、 ″ピアノ”という言葉を“ピャノ″ と記述したり、また “インターフェイス”という言葉を “インタフェース”インタフェイス” あるいは″インターフェース” と記述したりすることがある．このように微妙な音節表
記法のバリエーションの違いにより，所望する情報を検
索できない場合がある．以下，表記法の異なる文字列に展開することを異表記展
開と呼び，辞書を用いて他の文字列へ展開することを同
義語展開と呼ぶ．また、表記法の異なる文字列のことを
異表記と呼ぶ．このような異表記や同義語の問題を解決する方法として
、特開昭６　２−０　１　１　９　３　２を提案した。なお、この引例の中では、異表記展開のことを異表記発
生と呼び、同義語展開のことを類似語抽出と呼んでいる
・第２図に、この引例の構威をブロック図で示す。この構成では、ローマ字やカタカナ表現で入力した検索
文字列を、一旦全てカタカナの標準化された表記の文字
列に変換する．すなわち、異表記発生の逆の操作により
、腹数個の表記法を一つにまとめる表記標準化処理をま
ず最初に行なう．また，アルファベット表現で入力され
た検索文字列も外来語カナ変換により，カタカナ表現に
統一される．こうして、一旦標準化したカタカナ文字列を、同義語辞
書を用いて類似語展開し、入力したカタカナ文字列と同
義の単語をカタカナ文字列として出力する。類似語抽出
した後のカタカナ文字列は、カナ漢字変換を行ない漢字
文字列へ、カナ外来語変換を行ないアルファベット表現
の外国語に、カナローマ字変換を施してローマ字文字列
へ変換する。このようにして、類似語抽出の結果であるカタカナ文字
列を、漢字，ローマ字、カタカナ、外国語の各表現に変
換して、それぞれ異表記展開する。【発明が解決しようとする課題】しかし上記引例では、表記を標準化する際に、元の文字
列が持つ情報を変えてしまうため、期待する展開結果が
得られないことがあった。このことを、カタカナの部分
文字列の変換ルール「“ホオ″→“ホウ″］を例にして説明する．この変換ルールは文字列“ジョウ
ホオ″ を ″ジョウホウ″（情報）と正しく標準化する。しかしこの同じ変換ルールを用い
ても “ジョウホオン″（定保温）が入力された場合には “ジョウホウン″ と誤った文字列へ標準化してしまう。このことは、標準
化処理の後の同義語展開処理、更にその後に続く異表記
展開処理に影響をおよぼし，期待する展開結果が得られ
ないことになる．本発明の第１の課題は上記の標準化を避け，常に期待す
る展開結果を得ることにある．また上記引例では、同義
語辞書によって“計算機″から″コンピュータ”に文字
列を同義語展開するときに、ユーザが入力する検索文字
列を、一旦すべてカタカナ表現に変換してから同義語展
開し、そのあとでカナ漢字変換、カナローマ字変換及び
カナ外四語変換をする構戒となっている．そのため、同
義語辞書は必ずカタカナ文字列からカタカナ文字列へ展
開するようなものでなければならなかった．すなわち、見出しｍ：　″コンピュータ” 同義語１：“ケイサンキ″ 同義語２：″ジョウホウショリソウチ”などと、単語間
の同義関係を常にカタカナ文字列で記述しなければなら
なかった．このことは、同義語展開後のカナ漢字変換辞
書及びカナ外来語変換辞書でも、必ずこれらに対応する
表現の文字列を出力するよう登録しておかなければなら
ないために、辞書が大きくなるという問題がある．また
、日本語には同じ読みを持っていても、意味の異なる同
音異義語が多く存在し、これが同義語展開時に弊害を生
じる．例えば“ケンサク″という文字列は“検索″とも
解釈できるし″研削″とも解釈できるので、カタカナ表
現のみによる同義語辞書では両者を区別できないという
問題がある。さらに、同義ｇ展開後のカタカナ漢字変換
において、同音異義語の選択をユーザが対話的に行わな
ければならないという問題があった。また、検索文字列をカタカナ表現に変換するための外国
語カナ変換辞書や、同義語展開した後のカナ漢字変換辞
書及びカナ外国語変換辞書が必要であり、多種類の大規
模な辞書を使うためにその作成と保守が大変となる．本発明の第２の課題は上記のカナ漢字変換、カナ外国語
変換時における同音異義語の問題と、これらの変換に用
いる大規模な辞書の作或、保守の問題を解決することに
ある。

【課題を解決するための手段】

上記課題を解決するために、第１図のようにキーボード
から入力した文字列を一旦異表記展開し，異表記展開さ
れた各々の文字列に対し、同義語辞書を参照して同義語
展開をし、更に同義ｒ６展開で得た各々の文字列に対し
て異表記展開する構成とする．この異表記及び同義語展開処理の概略を第３図に示す．
ユーザが指定した検索文字列３０１は一旦異表記展開し
、その展開した文字列群３０２に対して，次に同ｔ＆語
辞書３１０を用いて同ｍ語展開する．その後、この同義
語展開で得られた文字列３０３に対して、さらに異表記
展開し，最終の展開結果として文字列群３０４を得る。このように同義語展開の前に異表記展開することにより
，表記の標準化によって情報を変更することなく展開処
理が可能となる。同義語辞書中の文字列の表現や表記に
配慮することなく辞書が構或できるため、辞書の作或や
編集が容易になる。また、同義語展開した文字列についても異表記展開をす
ることにより，同義語展開で新しく得られた文字列につ
いても異表記を得ることができる．次に本発明における
重要な手段の一つである異表記展開について説明する．
異表記展開では、まず最初に入力文字列を文字種毎に分
割し，漢字及びひらがな文字列、カタカナ文字列、アル
ファベット文字列の３種類の部分文字列へ分割する．次
に分割した部分文字列毎に変換ルールテーブルを用いて
文字列の置き換え処理を行い，漢字，カタカナの各文字
種の異表記展開をしていく．アルファベット文字種につ
いては変換ルールテーブルは用いずに、入力文字列中の
アルファベット文字を大文字から小文字，小文字から大
文字へコード変換する．ここで変換ルールテーブルとは入力文字列中の該当文字
列を文字列のリストへ置き換えることを指示した変換ル
ールを複数個蓄えたものである。変換ルールは、例えば文字列″イウ″を″イウ′″と“
ユウ”とに展開する場合には、［゛′イウ″→（″イウＩＴ，１１ユウ″′）］と記述
する．また部分文字列を文字列リストへ変換することを
、ここでは′置き換え′と呼ぶことにする．漢字、カタカナの各文字種の異表記展開用の異表記展開
用の変換ルールには例えば次のようなものが考えられる
。（１）漢字及びひらがな文字列の場合（．）漢字の新字体と旧字体の表記による展開に関する
変換ルール例：［“′斉′”→（゛″斉″，″“斎”，″齋＋１　
，　＋１斉″）］（ｂ）漢字の送りがな表記の違う展開
に関する変換ルール例：［″′読み取り″→（″読み取り＃，Ｒ読取”）］
（２）カタカナの場合・類似音節の様々な表記に展開する変換ルール例＝［″
ピア″→（″ピア７１　，　ｌ／ピャ″）］このように
、漢字ひらがな文字種，カタカナ文字種については，変
換ルールテーブルを用いて異表記展開する。次にローマ字の異表記展開について説明する。ローマ字の異表記としては．ヘボン式表記法と訓令式表
記法あるいはこれらの表記法の混在したものが考えられ
る．従って、ここでは変換ルールとしてヘボン式表記法
と訓令式表記法の音節表記を併記したルールを作るもの
とする。例えばヘボン弐表記法の “ＳＨＩ” を訓令式表記法及びヘボン式表記法の音節表記の“ＳＩ
”と”　Ｓ　Ｈ　Ｉ” という２つの部分文字列のリストに置き換える変換ルー
ル［”ＳＨＩ”→（　”　Ｓ　Ｉ　″　　　“ＳＨＩ”）
］を作ることによりローマ字の異表記展開を実現する。あるいは、別な方法としてローマ字の全文字列を一端カ
タカナ表記に変換し、カタカナ文字列中の各音節をヘボ
ン式表記法と訓令式表記法の両方で置き換える方法もあ
る．例えば，ローマ字文字列の “Ｓ　Ｉ　ＳＲＡＭ○” を一端カタカナ文字列の “シシャモ″ に変換し、次に［′゛シ”→（”ＳＩ”　　　”ＳＨ工”）］などの変
換ルールでローマ字化する方法もある。以上の文字種毎の展開の後，最初に文字種によって分割
した文字列の順序に従って展開した文字列を組み合せて
、異表記展開の最終出力とする．以上異表記展開処理を
まとめると、（１）漢字及びひらがな文字列に関する異表記展開（送
りがな、新旧字体）、（２）カタカナ文字列に関する異表記展開、（３）ロー
マ字文字列に関する異表記展開（ヘボン式，訓令式表記
），（４）アルファベット文字に関する異表記展開（大小文
字）がある。しかし、常時これらの異表記展開をする必要が
ない場合もある。この場合、使用する変換ルールテーブ
ルの種類をユーザが選択できる手段を合わせ持つことに
よって、むだな展開処理を省き、かつユーザの望む検索
処理が可能となる．次に本発明におけるもう一つの重要
な手段である同義語展開について説明する。同義語展開
では、入力文字列を同義語辞書を用いて次の４種類の展
開を行う。（１）同位語展開概念的に同位のＩｍへの展開例：“計算機″から“コンピュータ″ ″情報処理装置″′に展開する。（２）上位語展開上位の意味を持つ語紮への展開例：″計算機″から″電子機器″に展開する。（３）下位語展開下位の意味を持つ語愈への展開例；“計算機″′から“電子卓上計算機″に展開する．（４）関連語展開関連した意味を持つｍｆ＆への展開例：“計算機″から “オフィスオートメイション”に展開する。また、同義語展開でも異表記展開と同様に上記４種類の
語禽への展開を選択する手段を持つことによって，より
柔軟なユーザの望み通りの検索が可能となる．（作用１以上の手段によってユーザの入力する検索文字列をまず
最初に異表記展開し、異表記展開した文字列群の中の各
々の文字列を一つずつ同義語展開し、さらに同義語展開
して得られた新しい文字列に対して異表記展開を行う．このように異表記展開を同義語展開の前で行なうことに
より，表記の標準化による情報の欠落を避け、常に期待
する展開結果を得ることができる．また、同義語辞書内
での表記も統一化する必要がなく、辞書の作或と保守を
簡易化できる。また，同義語展開の後でも異表記展開を
行うために、同義語辞書に表記のバリエーションを色々
と記述しておく必要がなく辞書を小さくすることができ
る．

【実施例】

図面を用いて本発明の構或、作用を説明する．第４図は
本発明の実施例の構戒を示すブロック図である。本実施
例は，コンソール４００．対話制御部４０１，異表記展
開処理部４０２及び４０５、同義語展開処理部４０３、
同義語辞書ファイル４０４，文字列統合処理部４０６、
文字列検索処理部４０７，テキストデータベース４０８
から構威されている．コンソール４００から入力された
検索文字列４０は、対話制御部４０１を介して異表記展
開処理部４０２へ送られる。異表記展開処理部４０２で
展開した文字列群４１は、同義語展開処理部４０３へ送
られると共に、文字列統合処理部４０６へも送られる．
同義語展開処理部４０３では，同義語辞ｌＩ４０４を参
照し送られてきた文字列群４１の各文字列と辞書の見出
しとのマッチングをとり、一致した文字列が存在すれば
、同義語展開モード制御信号４１０に従い、辞書に記載
してある見出しに対応する言葉を出力し、異表記展開処
理部４０５へ文字列群４２を送る。異表記展開処理部４０５では、同ｆ＆語展開された文字
列４２に対し，異表記展開処理部４０３と全く同じ処理
方法で異表記展開して，文字列群４３を文字列統合処理
部４０６へ出力する。文字列統合処理部４０６は、異表
記展開処理部４０２と４０５から受け取った文字列群４
１と文字列群４３を、一つの文字列群４４にまとめて文
字列検受け取った文字列群４４のうちのいずれかの文字
列が存在するものをテキストＤＢから検索して，ヒット
した文書の識別子情報などを、対話制御部４０１へ検索
結果４５として出力する．対話制御部４０１は、この検
索結果４５を受けて、検索結果件数４６や、テキスト情
報４６を適宜コンソール４００へ出力する．異表記展開処理部４０２と４０５は、全く同一のもので
ある。文字列検索部４０７は公知の技術で、例えば特開
昭６３−３１１５３０を用いて実現できる．テキストＤ
Ｂ４０８は，文字コード情報であれば、新聞記事データ
でも、ワープロで作成した文書のデータでも、電子ファ
イリングシステムの書誌事項データでも構わない。以下、異表記展開処理部４０２．４０５と同義語展開処
理部４０３の構成作用について詳細に説明する．まず，異表記展開処理の概要を第５図を用いて説明する
．ここでは、最初に入力文字列５０１を異なる字種の間
で切断し、部分文字列へ分割する．例えば，入力文字列
５０１ “卓上型インタフオーン″ の場合には、漢字文字列５０２ “卓上型” と、カタカナ文字列５０３ “インタフォーン” 八文字種に従って分割する。次に，分割した文字列毎に
異表記展開を行ない、漢字異表記文字列リスト５０４．
カタカナ異表記文字列リスト５０５を得る，その後．漢
字異表記文字列リスト５０４及びカタカナ異表記文字列
リスト５０５をそれぞれ展開し．２つの文字種で別々に
展開した文字列群を１つに組み合せて最終結果５０６と
して出力する８次に，第６図を用いて異表記展開の処理内容を詳細に説
明する．第６図は本発明における異表記展開手段の実施
例を示すブロック図である．本実施例の構或は、文字種
分割・選別部６０１，ローマ字判別部６０２，ローマ字
カナ変換部６０３、漢字異表記展開部６０４、カタカナ
異表記展開部６０５、アルファベット異表記展開部６０
６、カナローマ字変換部６０７、分割文字列統合部６１
０よりなる．異表記展開処理部４０２あるいは４０５への入力文字列
６２０は、まず文字種分割・選別部６０１へ送られる．
文字種分割・選別部６０１では入力文字列６２０を、上
述したように漢字及びひらがな文字列６３１、カタカナ
文字列６３２、アルファベット文字列６３３、それ以外
の文字列６３０の４種類の部分文字列に分割する．分割
した部分文字列をそれぞれの文字種に従って分類し、別
々の展開処理を施す。以下文字種別に、その展開処理の
概要を示す。（１）漢字・ひらがな・カタカナ・アルファベット以外
の文字列この文字種には数字．記号、特殊文字あるいは外字コー
ド等が当たる．本実施例ではこれらの文字種を、展開せ
ずに入力した文字列６３０をそのまま分割文字列統合部
６１０へ出力している。しかし数字に関して英数字を漢
数字に変換したり、英記号に関して記号″・″を′゛一
”やＩＩ　，／１１に展開することなども考えられる．（２）漢字・ひらがな文字列これらの文字種に関しては、文字列６３１を漢字異表記
展開部６０４にて、漢字の新旧字体及び送りがなについ
ての異表記展開をする．漢字異表記展開部６０４の出力
文学列６４１は、分割文字列統合部６１０へ送られる．（３）カタカナ文字列この文字種に関しては、文字列６３２をカタカナ異表記
展開部６０５にて，類似音節の表記について異表記展開
を行う．展開した文字列６４２は、分割文字列統合部６
１０へ送られる．また、同時にカナローマ字変換部６０
７へも送られる，カナローマ字変換部６０７でローマ字
へ変換された文字列６５３は、アルファベット異表記展
開部６０６にて、アルファベットの大小文字に関する異
表記展開が行なわれ、文字列６４３として分割文字列統
合部６１０へ送られる。（４）アルファベット文字列この文字種に関しては、日本語のローマ字表現の場合と
，外国語の原語の場合の２つの場合がある。ここでは、まずローマ字判別部６０２で、文字列６３３
がローマ字か外国語かの判定をする．この判定基準には
、ローマ字の表記法を用いている．すなわち，アルファ
ベット文字の並びがローマ字の表記法に合っていればロ
ーマ字と判定し、ローマ字として解釈不能の場合は外国
語と判定する。この判定は、ローマ字カナ変換部６０３で兼ねることも
できる。すなわち、ローマ字カナ変換ができれば、ロー
マ字と判定し、そうでない場合に外国語と判定する。ま
た、この判定には本実施例の方法以外にも，外国語辞書
を使うといった方法も用いることが可能である．ローマ字判別部６０２でローマ字と判定した文字列６５
１は，ローマ字カナ変換部６０３に送られ、ここでカタ
カナ文字列６５２に変換され，これを更にカタカナ異表
記展開部６０５で，類似音節に関する異表記展開を行い
文字列群６４２を得る。文字列群６４２に対するこの後
の処理は、（３）のカタカナ文字列の処理と同じである
。すなわち、カタカナ異表記展開された文字列群６４２
は、分割文字列統合部６１０へ送られると共に、カナロ
ーマ字変換部６０７へも送り出される。カタカナ文字列
群６４２は、カナローマ字変換部６０７で各々ローマ字
へ変換され，ローマ字文字列群６５３としてアルファベ
ット異表記展開部６０６に送られる。該ローマ字文字列
群６５３は、アルファベット異表記展開部６０６でアル
ファベットの大小文字に関する異表記展開を施された後
、分割文字列統合部６１０へ送られる。一方、ローマ字判別部６０２で外国語と判定された文字
列６３４は、ローマ字カナ変換せずに、アルファベット
異表記展開部６０６へ送られ，その出力文字列６４３は
分割文字列統合部６１０へ送られる．以上、異表記展開処理の流れについて説明した。続いて、この異表記展開処理における各処理ブロックの
詳細について説明する。まず始めにカタカナ異表記展開部６０５の処理について
説明する．第７図は異表記展開部における処理をカタカ
ナ文字列を例にして説明した図である。ここでは， “インタフオーン” という入力文字列を例としている。異表記展開処理は、
変換ルールを参照して行う。また、その変換処理は、入
力文字列中の部分文字列として変換対象となり得るもの
があれば、該変換ルールを参照して他の表記に置き換え
るものである。この変換ルールのテーブル形式も本図に
示されている。この変換ルールテーブルは、見出し部と展開文字列リス
ト部から構戒されている。入力文字列中に、変換ルール
テーブルの見出し部分に相当するものが存在すれば、該
当部分を展開文字列リスト部に記述された異表記文字列
群で順次置き換えていく。この見出し文字列の探索は，入力文字列の先頭から最長
一致法により行なう．すなわち本図に示したように、入
力文字列中の “フォー” という部分文字列と “フォ” という部分文字列の両方が見出しにある場合には、より
長い見出しの “フォー” のほうの変換ルールを適用する．第７図の例を用いて、この見出し文字列探索及び展開文
字列リストへの置き換え処理を説明する。見出し文字列探索において，入力文字列中の部分文字列
と見出し文字列との照合のため、探索ポインタを設定す
る．入力文字列と見出し文字列の照合時には、探索ポイ
ンタの位置を動かしながら，入力文字列中の探索ポイン
タを先頭とする文字列と、見出し文字列との照合を行な
っていく。まず探索ポインタを入力文字列の先頭文字に
セットする。従って、この例では文字“イ″から見出し
文字列の探索を開始することになる。該当する見出しが
存在しないので、探索ポインタを１文字移動して“ン″
を先頭とする文字列からもう一度見出し文字列を探索す
る。また該当する見出しが存在しないので，もうｌ文字
探索ポインタを移動して″夕″の文字から見出し文字列
を探索する。今度は ″夕″ の見出し文字列が見つかるので、 “タ″ の部分を展開文字列リスト部に記述された“タ”と“夕
一に置き換える。そして探索ポインタを見出し″夕″ の文字数分，すなわち１文字分移動する。次に″フ″の
文字から見出し文字列探索し、該当する見出し ″フォー″と″フオ” を得る。今度は２つの見出し文字列が照合するが，この
ように複数個の照合した見出し文字列がある場合、最長
一致法に従い、最も長い見出し文字列のある変換ルール
を採用する．この例では、見出し “フォーのほうが “フォ” より長いので， “フォーを展開用変換ルールとして採用し、入力文字列内の部分
文字列 “フォー” を展開文字列リスト部に記述された “フォー″、′フォ″、“ホー′″及び“ホ′″に置き
換える。そして探索ポインタを見出し１１フォー″ の文字数分、すなわち３文字分移動する。最後に入力文
字列中の最終文字，″ン″から見出し探索を行なうこと
になるが、該当する見出しがないので文字′゛ン″は，
展開処理が施されずそのままとなる．こうして探索ポイ
ンタが入力文字列の最終位置に来たので処理を終了する
。以上の処理の結果として生或された展開リストを含む文
字列 “イン（タ，ター）（フォー，フオ，ホー，ホ）ン″の
展開リストを組み合せることによって最終的な異表記展
開文字列が得られる。この例では、“タ”の部分で２通
り、 “フォー″′の部分で４通りに展開するので展開結果は２×４の８通りの文字列、す
なわち１）″インタフォーン′″ ２）“インタフォン” ３）“インタホーン” ４）“インタホン” ５）“インターフォーン″ ６）“インターフォン” ７）“インターホーン″ ８）“インターホン″ となる。以上の見出し文字列探索と展開文字列リストへの置き換
え処理を第８図に示すＰＡＤ図で説明する．まず探索ポ
インタを入力文字列の先頭にセットする。次に現在の探
索ポインタを先頭とする文字列で、変換ルールの見出し
文字列があるかどうかを探索する．もしもマッチングす
る見出しがなければ、探索ポインタを１文字後方に移動
してから、再び探索ポインタを先頭とする文字列でマッ
チングする見出し文字列を探索する．マッチングする見
出しが存在する場合には，マッチングした見出しのうち
最も長い見出しを採用して、該当部分を展開文字列リス
トで置き換える。置き換えがすんだら探索ポインタをマ
ッチングした見出し文字列の文字数分後方に移動する．
そして、探索ポインタが入力文字列の最終位置に来るま
で、上記の見出し文字列探索と展開リストへの置き換え
処理を繰り返す．いままで説明してきた異表記展開における見出し文字列
の探索方法に関するもう一つの実施例について第９図を
用いて説明する．本実施例では、見出し文字列の探索に
オートマトンを用いている６以下，その手順について述
べる。まず変換ルールにより，図に示すようなオートマ
トンを生戊する．異表記展開処理は、このオートマトン
に入力文字列を１文字ずつ入力して，そのオートマトン
の動作出力から第７図で説明した展開文字列リストを含
む文字列を得る，以下、具体的にその動作内容について説明する．本図に
おいて記号ａは入力文字を、丸はオートマトンを構或す
る各状態を，丸の中の数字はその状態番号を示す．線上
の文字は、その文字が入力されたとき，矢印の方向へ状
態を遷移することを示す。記号′１′は、その後に続く
文字以外の文字を表す。また、記号′→′は、以下に続
く文字列を出力することを示す。このオートマトンは，
その動作を制御するための状態遷移テーブルと、各状態
の出力を記述する出力テーブルからなる。状態遷移テー
ブルは、第１０図に示すものとなる。ここでは，各状態における入力文字とその文字が入力さ
れれたときに遷移する遷移先の状態番号が対として記述
されている。但し状態０へ遷移する場合は記述を省略し
てある．すなわち、各状態において状態遷移テーブルに
記述されていない文字が入力した場合には，状態Ｏへ遷
移するものとしている。出力テーブルには第工１図に示
すように，オートマトンの各状態において，出力する文
字列リストが記述されている．オートマトンが動作する
場合、状態Ｏ以外の状態から状態Ｏへ遷移する場合のみ
、この出力テーブルを参照して該当する展開文字列を出
力する．そして出力がすんだら、もう一度状態０への遷
移を引き起こした文字をオートマトンへ入力し、状態遷
移テーブルを参照してオートマトンを再遷移させる。状
態Ｏから状態０へ戻る場合には，入力文字をそのまま出
力する。以上、オートマトン方式における状態遷移の制御及び出
力について説明した。次に、具体例をもとに、この動作
を詳細に説明する．以下、第９図の入力例゛′インタフ
ォーン″の文字列が１文字入力される毎の動作について
記述する．最初，オートマトンの状態は、状態Ｏにある
。（１）文字″イ″が入力されると状態遷移テーブルに状態０からの遷移先が登録されてい
ないので、そのまま “イ” が出力され状態は０のままとなる。（２）文字゛ン″′が入力されると状態遷移テーブルに状態Ｏからの遷移先が登録されてい
ないので，そのまま “ン” が出力され状態は０のままとなる。（３）文字“夕”が入力されると状態遷移テーブルを参照し、現在の状態Ｏから遷移先と
して状態番号６が読み出され，状態は６に移る．（４）文字″フ”が入力されると状態遷移テーブルからは状態６から１′フ”で遷移する
遷移先が得られない．かつ現在の状態は０でないので、
出力テーブルが参照され状ＭＡ６での出力文字列 “タ”と“夕一” が出力される．その後、状態は０に移動する．さらに、
この新しい伏態Ｏでもう一度入力文字の″フ”をオート
マトンに入力する．その結果、状ｊ！Ｉｉ！！移テーブ
ルの内容に従って状態Ｏから状態１に状態が移動する．（５）文字“オ”が入力されると状態遷移テーブルの内容から、状態ｌより状態２へ状態
が移動する．（６）文字“一”が入力されると状態遷移テーブルの内容から、状態２より状態３へ状態
が移動する．（７）文字″ン′″が入力されると状態遷移テーブルからは状態３から“ン”で遷移する遷
移先状態番号が得られない。かつ現在の状態は状態Ｏで
ないので、出力テーブルが参照され，状態３での出力文
字列 “フォー”フォ”ホー”及び“ホ” が出力される．その後、状態がＯに移り、もう一度入力
文字の“ン”がオートマトンに入力される。ここでは、状態遷移テーブルから遷移先が得られないの
で入力文字の “ン” がそのまま出力される．８）入力文字列の最終文字まで来たので、処理を終了す
る．こうして展開リストを含む文字列 ″イン（タ，ター）（フォー，フォ，ホー，ホ）ン”が
得られる．次に、この見出し文字列探索用オートマトンの生成方式
を第１２図を用いて説明する．このオートマトン生成は
、実際に入力文字列が送られてくる前に一度作っておけ
ば良い．本図は探索オートマトンの生或方式、すなわち
状態遷移テーブル及び出力テーブルの作或方式をＰＡＤ
図で表したもので、以下この内容について説明する．ま
ず状態遷移テーブル及び出力テーブルを初期化する．次
に、一つずつルールを取り出しながら変換ルールの終わ
りまで以下の処理を繰り返す．（１）状態番号をＯにセット（２）見出し文字列の終わりまでｌ文字ずつ文字を取り
出しながら状態遷移テーブルを作っていく．すなわち状
態遷移テーブルを参照し、取り出した文字による遷移先
が登録されていれば遷移先状態に移動する。遷移先が登
録されていなければ、新しい状態番号を生威し、状態遷
移テーブルに追加登録する．そして、今の状態を新しい
状態に移動する．さらに出力テーブルに状態０から今の
状態へ遷移させてきた文字列を登録する。（３）見出し文字列の全文字について（２）の処理が終
了した後，出力テーブルに現在の状態番号と、変換ルー
ルの展開文字列リストを登録する。具体的な処理の流れを２つの変換ルール［“フォー″→ （゛′フォー″′フォＩｔ　，　Ｉｔホー″″ホ″）コ
と［″フォ”→ （“フォー”，″フオ″″ホー”，′゛ホ″）］を使っ
て説明する．まず１番目の変換ルールの見出し文字列“フォー” について処理する．（１）文字“フ”の入力状態遷移テーブルは最初初期化されているため、遷移先
状態番号は一つも登録されていない．従って新しい状態
番号１を生威し、状態を１に移動する。そして，出力テ
ーブルに状態０から状態１への遷移を引き起こす文字列 “フ” を状態番号１の出力として登録する．（２）文字“オ″の入力状態遷移テーブルに今の状態１からの遷移先は定義され
ていない．従って新しい状態番号２を生威し、状態を２
に移動する６そして出力テーブルに状態Ｏから状態２に
至るまでの文字列″フォ” を状態番号２の出力として登録する６（３）文字ＩＩ　−　＃の入力状態遷移テーブルに今の状態２からの遷移先は定義され
ていない．従って新しい状態番号３を生威し、状態を３
に移動する．そして出力テーブルに状態Ｏから状ａ３に
至るまでの文字列“フォー” を状態番号３の出力として登録する。また、これで見出
し文字列の最終文字であるので、変換ルールの展開文字
列リスト（“フォーｐｔ，ｉｔフォ〃，″ホー″″ホ″）を、先
に登録した出力文字列 “フォーを入れ替える形で、状態３の出力として出力テーブルに
登録する．次に２番目の変換ルールの見出し文字列“フォ” についての処理を実行する．処理に先立ち，状態はＯに
戻る。（４）文字″フ”の入力先に登録した状態遷移テーブルを参照して，遷移先の状
態番号ｌを得、状態を１に移動する．（５）文字″オ″
′の入力状態遷移テーブルを参照して、遷移先の状態番号２を得
、状態を２へ移動する。出力テーブルに状態２の出力は
既に登録されているが、見出し文字列の最終であるので
、出力テーブルに状７１ｌ２の出力として既に登録され
ている “フォ” を、変換ルールの展開文字列リスト（″フォー″゛フォ”，′ホー”　　″ホｎ）に書き替
える。以上の処理により、上記二つの変換ルールを探索するオ
ートマトンを作戒することができる．具体例で示した２
つの変換ルール以外についても、これと全く同様の手順
でオートマトンにすることができる。以上，例で説明してきたカタカナ異表記展開用の変換ル
ールテーブルの詳細を第１３図に示す．この他、変換ル
ールテーブルの作或には、カタカナ文字列の類似音節表
記に関してその表記の原則を定めた「昭和２９年国語審
議会報告　外来語の表記」を利用することができる．す
なわち上記報告書ではカタカナ文字列の異表記が示され
、その表記を統一化するための原則が述べられているが
、これを逆に利用して変換ルールを作或することができ
る。今までカタカナ文字列の異表記展開について例をあげて
説明してきたが、漢字文字列の異表記展開についても、
漢字文字列用の変換ルールテーブルを用いるだけで全く
同じ処理で実現できる．漢字の新旧字体に関する異表記
展開用の変換ルールテーブルの例を第１４図に示し，送
りがなに関する異表記展開ルールの例を第１５図に示す
．また、第工３図から第１５図に示した異表記展開ルー
ルテーブルは、必要に応じて追加修正が可能であり、従
ってユーザの望む異表記展開が可能となる．以上が漢字異表記展開部６０４、カタカナ異表記展開部
６０５の処理の詳細である．次にローマ字の異表記展開に関する説明をする．本実施
例では，ローマ字の異表記展開をするのに、ローマ字で
入力された文字列を一旦カタカナ文字列へ変換した後，
これをカタカナ異表記展開し、もう一度カナローマ字変
換によりローマ字に戻すという方法を採っている．従っ
て、ローマ字の異表記展開に関する部分は、第６図のロ
ーマ字カナ変換部６０３とカナローマ字変換部６０７（
７）２つとなる．まずローマ字カナ変換部の処理内容について説明する．
アルファベット文字列が入力されると、まずローマ字カ
ナ変換が行われる．ローマ字カナ変換部６０３では，第
１６図に示すようなローマ字とカタカナの対応表を用い
て、ローマ字カナ変換が行われる．同図において、例え
ばｌ番目のレコードではローマ字の“Ａ”がカタカナの“ア” に対応することを示している．ローマ字の項目中に複数
個の文字列が並んでいるレコードに関しては、複数個並
んでいる全ての文字列がカタカナの項目に対応している
ことを示している。例えば、ローマ字の “ＳＹＡ”及び“ＳＨＡ” が、カタカナの “シャ” に対応する．これらは、それぞれローマ字の訓令式表記
法と、ヘボン式表記法に対応している．従って、このロ
ーマ字カナ変換部６０３では訓令式でもヘボン式でもあ
るいはこれらの混合したような表記法の文字列でもカタ
カナへ変換されることになる．変換方法は，前述した漢
字異表記展開、カタカナ異表記展開と同様である．すな
わち、入力文字列と対応表のローマ字文字列を最長一致
で探索して、順次対応するカタカナ文字列に置き換えて
いく。もし、対応するローマ字文字列が対応表に見つか
らないときには、入力文字列はローマ字でないと判断し
，カタカナ文字列の出力を行わない．次にカナローマ字変換部６０７の説明をする。ここでも第１６図の対応表をそのまま用いる。こんどは
逆に入力文字列と対応表のカタカナ文字列とを最長一致
でマッチングを取りながら順次ローマ字へ入力文字列を
置き換えていく．前述の“シャ” の例のように対応するローマ字表記が複数個存在すると
きには、該当部分を部分文字列のリストとして置き換え
ていく．すなわち、カタカナの入力文字列に対し、異表
記展開の処理と同様に展開リストを含む文字列に展開し
、その展開リストの部分を組み合せることによってロー
マ字異表記展開の結果を得ることができる．これを “シシャモ” というカタカナ文字列が入力された場合を例にして説明
する．この時、入力文字列 “シシャモ“ に対してカタカナローマ字対応表とのマッチング処理に
より、 “（Ｓｒ，ＳＨＩ）（ＳＹＡ，ＳＨＡ）ＭＯ”という展
開リストを含む文字列が得られる。従って、展開リスト
の組み合せにより、１）“ＳＩＳＹＡＭＯ” ２）“Ｓ　Ｉ　ＳＲＡＭＯ” ３）“ＳＨＩＳＹＡＭＯ” ４）“ＳＨｒＳＲＡＭＯ“ という４種類のローマ字異表記文字列が得られることに
なる．以上が異表記展開方式の処理に関する説明である。これまで、説明してきた異表記展開の実施例においては
、漢字ひらがな文字列、カタカナ文字列、ローマ字文字
列，及びアルファベット文字列の全てについて展開処理
を行っているが、これらの処理を選択的に行うことも可
能である。すなわち，異表記展開後の出力文字列の種類
を、１）漢字ひらがな文字列２）カタカナ文字列３）ローマ字文字列４）アルファベット文字列のいずれかもしくは，これらの混合した文字列を異表記
展開結果として出力するように制御することができる．
こうして、異表記展開を文字種毎に選択可能にすること
により、むだな展開処理を省き，かつユーザの要求に応
じた検索処理が可能となる。以下，この異表記展開結果の文字種制御方法について説
明する。この出力文字種の制御は第工７図に示すように、第６図
の実施例の構或に更にアルファベット文字列６３４の出
力制御を行うスイッチａ６０８、及びカタカナ文字列群
６４２の出力制御を行うスイッチｂ６０９を設けること
で実現する。また、漢字異表記展開部６０４、カタカナ
異表記展開部６０５、カナローマ字変換部６０７、スイ
ッチａ６０８，及びスイッチｂ６０９の出力を制御する
制御信号線６６１，６６２．６６３、６６４、６６５を
それぞれ設ける．そして、ユーザが設定する異表記展開
結果出力文字種の指定モードにより該制御信号をＯＮ、
ＯＦＦすることでモードに応じた異表記展開を実現する
。例えば、ローマ字異表記展開が不要な場合にはカナロ
ーマ字変換部６０７の制御信号６６３を○ＦＦＬて出力
を止める。このような展開モードによる各変換部、展開
部、スイッチの制御信号の組み合せを第１８図に示す。図において、展開モードはそれぞれＣ：漢字及びひらが
な異表記展開ｋ：カタカナ異表記展開ｒ：ローマ字異表記展開ａ：アルファベット異表記展開を実施し、出力することを示している．複数文字では複
数の異表記の出力指定を表す。例えば、展開モード ’ｃｋａ’ は漢字ひらがな、カタカナ及びアルファベットの各異表
記を異表記展開結果として出力するモードであることを
表す。また、表中の０は該当モジュールが文字列を出力
することを示す。逆に０がついていないところは、文字
列を出力しない．例えば， ’ｃ　ｋ　ａ’ という文字列展開モードでは、ローマ字カナ変換部６０
３、漢字異表記展開部６０４、カタカナ異表記展開部６
０５が展開文字列を出力し、スイッチａ６０８．及びス
イッチｂ６０９が入力文字列を通すが，カナローマ字変
換部６０７は文字列を出力しないことを示す．最後に同義語展開処理について説明する．同義語展開処
理部４０３は、第１９図に示すような同義語辞書を持つ
．図において、レコード番号とは、辞書中の各見出し文
字列に付与されている一連番一号である．各見出し文字
列には、それぞ・れ同位語、上位語、下位語，関連語が
定義されている。同図の同位語、上位語、下位語、関連
語の項目に記述されている番号は全て同辞書のレコード
番号を示す。例えば見出し ″計算機″ は、同位語としてレコード番号２および３、すなわち ″コンピュータ″と゛′情報処理装置″を持っているこ
とを表している。同義語展開では辞書中のどの項目を用
いて展開するか、同義語展開モード制御信号４１０によ
りユーザがモードを設定できるようにしている。設定可
能なモードは次の通りである。すなわち，Ｕ：同位語を使った展開ｂ＝上位語を使った展開ｎ：下位語を使った展開ｒ：関連語を使った展開およびｕ，ｂ，ｎ，ｒの各モードを組み合せた展開がで
きるようにしている。字列中に存在する辞書の見出し文字列を探索することに
よって行う．すなわち、異表記展開処理における変換ル
ールの見出し文字列の探索の場合と同様に，入力文字列
の先頭から最長一致により見出し文字列を探索する．そ
して、同位語展開の場合には入力文字列において照合さ
れた部分文字列を、順次同位語文字列のリストで置き換
えていく。この際、照合した見出し文字列をも加えて書き替えを行
う。上位語展開、下位語展開，関連語展開の場合には、
入力文字列と見出し文字列が完全に一致した時に限って
、上述の置き換え出力を行う。すなわち、入力文字列中で部分的に一致しただけでは、
展開を行わない。これは、上位語展開、下位語展開、関
連語展開において部分的な文字列の置き換えは意味のな
い単語を作ってしまうためである．同位語展開の処理を例を用いて説明する。入力文字列が ″大型計算機″ ことにより、入力文字列の３文字目から見出し文字列 ′゛計算機” が照合する．同義語辞書のレコード番号１の“計算機” から、同位語としてレコード番号２の “コンピュータ” とレコード番号３の゛′情報処理装置″′ が同位語リスト（“計算機ｎ，ｕコンピュータ″ ″情報処理装置”）として得られる．入力文字列の該当部分をこのリストで
置き換えることにより、異表記展開処理の場合と同様に
，展開リストを含む文字列″大型（計算機，コンピュー
タ，情報処理装置）″が得られる。この展開リストを組
み合せて（この場合は一つしかりストがないが）（１）“大型計算機″ （２）“大型コンピュータ” （３）”大型情報処理装置″ の３つの同位語文字列が得られることになる。次に上位語展開の処理について例をあげて説明する．入力文字列が ″計算機″ の場合、同義語辞書の見出し文字列探索で入力文字列と
見出し文字列 “計算機” が完全一致する。そこで、上位語としてレコード番号４
の “電子機器″ が出力される．この場合には上位語が一つしかないが、
もちろん複数個あってもよい。複数個の上位語が存在す
る場合には、前述のようにリストとして出力する．下位語、関連語についても上位語展開と全く同じ処理と
なる。なお、同義語展開において辞書中に該当する文字
列が存在しないときは同義語展開以上同義語展開の処理
方式の実施例について説明した．ところで同義語展開で
は，辞書を使用するために辞書のレコード数が多くなる
と見出し文字列探索に時間が掛ることがある。この問題
の解決として、辞書の見出し文字列をインデクステーブ
ルを用いて探索する方法がある。第２０図にこの方式の
概要を示す．同義語辞書は、予めその見出し文字列にて
アルファベット順に並べておく．そして，同義語辞書と
は別に見出し文字列の第一番目の文字だけを集め、その
文字から始まる見出しが辞書のどの部分から始まるかを
登録したインデクステーブルを持つ。例えば文字“Ａ′
で始まる見出しはレコード番号１から存在していること
を示している。見出し文字列探索をするときには，まず
このインデクステーブルを参照し、レコード番号を求め
，次にこれに基づいて同義語辞書にアクセスする．こう
することにより、同義語辞書の全見出し文字列をスキャ
ンする必要がなくなるため，処理時間が短縮できる．例
えば，文字″計″で始まる文字列を探索しようとした場
合、インデクステーブルにより、″計”で始まる文字列
が辞書のレコード番号５０１から存在することがわかる
。従って、それ以前の無駄な文字列探索を省くことがで
きる。さらに、見出し文字列をアルファベット順に並べ
ることにより、見出し文字列の探索中に先頭文字の異な
る見出しまで探索したら後の探索は省略できる。例えば
“計″で始まる見出し文字列を探索していれば、″計”
以外の文字で始まる見出し゛情報処理装置″ まで探索すれば後の不要な探索を行わなくとも済む。また．インデクステーブル及び辞書中の同位語などの記
述にレコード番号を用いたが，これを辞書中での位置を
特定するアドレスで記述することにより、辞書へのアク
セスを更に高速化できる。アドレスとは、辞書の該当する見出し文字列が存在する
最初の位置を示すもので、例えば辞書の先頭からのバイ
ト数がある。こうすることにより、辞書へのアクセスが
直に特定できるため、レコード番号を指定するよりも更
に高速化が可能となる．【発明の効果］本発明の効果を以下に個条書きに示す．１）異表記展開
部に漢字ひらがな混じりの文字種で構或される文字列の
展開手段を設けたことにより、漢字の新旧字体や送りが
なに関する異表記を許容する文字列探索が可能となった
。２）表現を一旦カタカナに統一せずに、一度異表記展開
してから同義語展開するために、同義語辞書をカタカナ
文字列に統一する必要がなくなった。また、むりなカタカナ文字列の標準化処理がないために
、同義語辞書の見出し文字列に自然な言葉を使うことが
できるようになった。さらに、同義語辞書の見出しには
漢字やアルファベットなどの各種の表現による文字列を
使用できるようになり，かつ表記に関しても異表記に配
慮する必要がないので，辞書の作成、保守が容易になっ
た。３）外国語カナ変換辞書や、同義語展開した後のカナ漢
字変換辞書およびカナ外国語変換辞書が不）になるため
に、多種類の大規模な辞書を保守する必要がなくなり、
辞書の作成，保守が容易になった・４）同義語辞書展開した後にも異表記展開することによ
り、同義語展開により新しく得られた文字列についても
異表記を得ることができるようになった・５）異表記展開における変換ルールは、置き換え部分文
字列の併記という形態をとるため、変換ルールの登録，
変更，削除が容易となった．同様に同義語辞書について
も、容易に編集が可能となった．６）展開モードを設定可能として、異表記展開処理部で
出力文字種を制御し，同義語展開処理部で展開語索を制
御することにより、ユーザの求める柔軟な検索処理が可
能となった。７）同義語辞書に同位語、上位語、下位語、関連語を併
記する形態をとったために、辞書の編集が容易となった
．

【図面の簡単な説明】

第１図は本発明の構或を示すブロック図、第２図は公知
例の構成を示すブロック図、第３図は本発明の処理の概
略を説明した図、第４図は本発明の実施例の構或を示す
ブロック図、第５＠は異表記展開処理の過程を例により
説明した図、第６図は本発明における異表記展開手段の
実施例を示すブロック図、第７図は異表記展開処理部に
おける変換ルールの適用の処理をカタカナ文字列の例で
説明した図、第８図は異表記展開処理を示すＰＡＤ図、
第９図は見出し文字列探索をオートマトンを用いて実行
する実施例を説明する図、第１０図はオートマトンの状
態遷移テーブルを表す図、第１１図はオートマトンの出
力テーブルを表す図，第１２図は探索オートマトンの状
態遷移テーブル及び出力テーブルの作威力式を表したＰ
ＡＤ図、第１３図はカタカナの異表記変換ルールテーブ
ルの例、第１４図は漢字の新旧字体に関する異表記変換
ルールテーブルの例，第１５図は送りがなに関する異表
記変換ルールテーブルの例、第１６図はローマ字とカタ
カナの対応表の例、第党本図は本発明における異表記展
開手段の展開モードを設定可能とする実施例のブロック
図、第１８図は異表記展開における各変換部、展開部５
スイッチの出力を制御する様子を示す図、第１９図は同
義語辞書を表す図、第２０図は同義語辞書の見出し文字
列をインデクステーブルを用いて探索する方式の概要を
示す図。茶３図〆−一人一一）２−一一な−一一一、名／Ｏ図Ｚ／／図ネ／３図噺／乙周

Claims

【特許請求の範囲】

１．一文字以上の文字列からなる見出し文字列と、見出
し文字列に対応する少なくとも一つの他の文字列を格納
した変換ルールテーブルを持ち、入力した文字列の中で
該変換ルールテーブルの見出し文字列に合致する部分を
全て、見出し文字列と見出し文字列に対応した他の文字
列からなる文字列リストに変換し、次に文字列リストを
組合せて入力した文字列から他の文字列群へ展開するこ
とを特徴とした文字列展開方法。
２．第１項記載の文字列展開方法において、文字列展開
に用いる変換ルールとして、漢字の新旧字体あるいは送
りがな、外来語のカタカナ表記、ローマ字のヘボン式あ
るいは訓令式表記のうち、少なくとも一つの表記法に基
づいた変換ルールテーブルを用いて展開することを特徴
とする文字列展開方法。
３．第１項記載の文字列展開方法において、変換ルール
テーブルを用いた展開の他に、アルファベット文字列を
入力した場合には、一個の入力文字列に対しすべてが大
文字で構成される文字列、最初の一文字が大文字で残り
が小文字の文字列、及びすべてが小文字の文字列の３種
の文字列の少なくとも一種に展開することを特徴とする
文字列展開方法。
４．第１項記載の文字列展開方法において、入力文字列
中の部分文字列を他の文字列へ置き換える指示を記述し
た変換ルールテーブルは、ユーザも再定義可能であるこ
とを特徴とする文字列展開方法。
５．入力した文字列から部分文字列の変換ルールを利用
して音節表記など表記法の異なる他の文字列に展開する
第１の異表記展開ステップと、異表記展開された各々の
文字列に対し、同義語辞書を参照して同義関係を持つ他
の文字列へ展開する第２の同義語展開ステップと、同義
語展開で得た各々の文字列に対して、第１の異表記展開
ステップと同様に変換ルールを利用して他の文字列へ展
開する第３の異表記展開ステップからなることを特徴と
する異表記及び同義語展開方法。
６．第５項記載の異表記及び同義語展開方法において、
第１及び第３の異表記展開ステップでは、漢字の新旧字
体あるいは送りがな、外来語のカタカナ表記、ローマ字
のヘボン式あるいは訓令式表記、アルファベット文字の
大小文字の表記法のうち少なくとも一つの表記法につい
て展開し、第２の同義語展開ステップでは、同義語文字
列として同位語、上位語、下位語、関連語の少なくとも
一つの語群へ展関することを特徴とする異表記及び同義
語展開方法。
７．第６項記載の異表記及び同義語展開方法において、
異表記展開ステップで漢字の新旧字体及び送りがな、外
来語のカタカナ表記、ローマ字のヘボン式及び訓令式表
記、アルファベット文字の大小文字の表記のうちどれと
どの展開を行なうかを、さらに同義語展開ステップで同
位語、上位語、下位語、関連語のうち、どれとどの語群
へ展関するのかを、ユーザが設定可能なモードにより選
択することを特徴とする異表記及び同義語展開方法。
８．第５項記載の異表記及び同義語展開方法において、
同義語展開に用いる辞書として、見出し文字列と見出し
文字列に対応する同位語、下位語、上位語、関連語を併
記した形式の辞書を用いることを特徴とする文字列検索
装置。
９．テキストデータを文献単位などのデータ単位で格納
する手段と、検索文字列を入力する手段と、格納された
テキストデータの中から該検索文字列を検索する手段を
持つ検索装置において、入力文字列から音節表記など表
記法のバリエーションを持つ文字列群に展開する異表記
展開手段と、同義語辞書を持ち入力文字列から該同義語
辞書を参照して、同義語文字列群に展開する同義語展開
手段と、上記二つの文字列展開手段により得られる文字
列群を統合する統合手段を持ち、ユーザの入力する検索
文字列から一旦前記異表記展開手段により表記の異なる
文字列群Ａに展開し、該文字列群Ａの各々の文字列に対
し前記同義語展開手段により同義語の文字列群Ｂに展開
し、該文字列群Ｂの各々の文字列についてさらに前記異
表記展開手段を用いて表記の異なる文字列群Ｃに展開し
、前記統合手段により文字列群Ａと文字列群Ｃとを統合
して文字列群Ｄを求め、該文字列群Ｄのうちのいずれか
の文字列が存在するテキストデータ中のデータ単位を検
索することを特徴とする文字列検索装置。