JPH0315980A - 文字列検索装置 - Google Patents

文字列検索装置

Info

Publication number
JPH0315980A
JPH0315980A JP1149630A JP14963089A JPH0315980A JP H0315980 A JPH0315980 A JP H0315980A JP 1149630 A JP1149630 A JP 1149630A JP 14963089 A JP14963089 A JP 14963089A JP H0315980 A JPH0315980 A JP H0315980A
Authority
JP
Japan
Prior art keywords
character string
string
character
expansion
synonym
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP1149630A
Other languages
English (en)
Other versions
JP2791106B2 (ja
Inventor
Atsushi Hatakeyama
敦 畠山
Hiromichi Fujisawa
浩道 藤澤
Kanji Kato
加藤 寛次
Hisamitsu Kawaguchi
川口 久光
Masaaki Fujinawa
藤縄 雅章
Hidefumi Masuzaki
増崎 秀文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP1149630A priority Critical patent/JP2791106B2/ja
Priority to PCT/JP1990/000774 priority patent/WO1990016036A1/ja
Priority to DE69032712T priority patent/DE69032712T2/de
Priority to EP90909360A priority patent/EP0437615B1/en
Priority to US07/555,483 priority patent/US5168533A/en
Publication of JPH0315980A publication Critical patent/JPH0315980A/ja
Priority to US07/843,162 priority patent/US5469354A/en
Priority to US07/914,334 priority patent/US5220625A/en
Priority to US07/985,795 priority patent/US5519857A/en
Priority to US08/031,700 priority patent/US5454105A/en
Priority to US08/031,625 priority patent/US5471610A/en
Priority to US08/444,842 priority patent/US5748953A/en
Priority to US08/839,407 priority patent/US6094647A/en
Application granted granted Critical
Publication of JP2791106B2 publication Critical patent/JP2791106B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 【産業上の利用分野】
本発明は、テキストデータベースを指定した文字列で検
索する装置に係わり、特に統制されていないキーワード
(自由語と呼ぶ)を用いて検索する際に、同義語や表記
法の違いによる検索漏れをなくすのに好適な文字列検索
装置に関する。
【従来の技術) 近年,文献情報や特許情報などの2次情報(書誌情報)
のみならず,1次情報(本文)をも含む大規模データベ
ース・サービスの重要性が増している.このようなデー
タベース(DBと略すこともある)の情報検索では、従
来からキーワードや分類コードによる方法が用いられて
きている。キーワードは、データベースへの情報登録時
に、キーワードを付与する(インデキシングと言う)専
門家が統制語集(シソーラスと呼ぶ)から選んで付けて
いる。そして、DB検索者もこのシソーラスからキーワ
ードを選び出して検索を行なう方式がとられている.し
かしながら、このキーワード付与作業は、非常に煩雑な
作業を伴う.すなわち、登録すべき文書の内容を読み,
この内容を表現する適切な語量をシソーラスから選び出
す必要がある.もしインデキシングを適切に行なわなけ
れば、データベースから正しい情報が得られないことに
なる.従って、このインデキシングには文書の内容に関
する専門知識を持ち、かつシソーラスに登録されている
語負にも糟通した専門家が必要になるという問題がある
.また、検索時にも同様に、シソーラスに則った適切な
語欠をキーワードとして指定しなければ、要求する文書
を呼び出せなかったり、あるいは呼び出した文書の中に
不要なものが混じり込むという問題がある。 また,このシソーラスにおいては、分類体系自体が年月
と共に変化するため、常にキーワードや分類コードを更
新しなければならないという問題も生じてくる.更に、
インデキシングには時間がかかるため、新たな文書はバ
ッチ処理によりかなりの量をまとめて登録することにな
る.そのため,検索できる情報は常に一定期間のおくれ
を持つという問題もある。このようなことから、DBの
普及に伴い.DBの専門家でなくとも、シソーラス等に
拘束されることなく、簡単に自由語(非統制語ともいう
)で、文書の登録、検索が行なえるシステムが望まれて
きた。 このような自由語による検索の過程では、しばしばユー
ザの指定するキーワードすなわち検索文字列と、検索対
象であるDB中で用いられている言葉が同一の内容を示
すのにもかかわらず、表記あるいは表現が食い違ってい
るために検索漏れを生ずる場合がある.例えば、 ″ピアノ”という言葉を“ピャノ″ と記述したり、また “インターフェイス”という言葉を “インタフェース”インタフェイス” あるいは″インターフェース” と記述したりすることがある.このように微妙な音節表
記法のバリエーションの違いにより,所望する情報を検
索できない場合がある. 以下,表記法の異なる文字列に展開することを異表記展
開と呼び,辞書を用いて他の文字列へ展開することを同
義語展開と呼ぶ.また、表記法の異なる文字列のことを
異表記と呼ぶ. このような異表記や同義語の問題を解決する方法として
、特開昭6 2−0 1 1 9 3 2を提案した。 なお、この引例の中では、異表記展開のことを異表記発
生と呼び、同義語展開のことを類似語抽出と呼んでいる
・ 第2図に、この引例の構威をブロック図で示す。 この構成では、ローマ字やカタカナ表現で入力した検索
文字列を、一旦全てカタカナの標準化された表記の文字
列に変換する.すなわち、異表記発生の逆の操作により
、腹数個の表記法を一つにまとめる表記標準化処理をま
ず最初に行なう.また,アルファベット表現で入力され
た検索文字列も外来語カナ変換により,カタカナ表現に
統一される. こうして、一旦標準化したカタカナ文字列を、同義語辞
書を用いて類似語展開し、入力したカタカナ文字列と同
義の単語をカタカナ文字列として出力する。類似語抽出
した後のカタカナ文字列は、カナ漢字変換を行ない漢字
文字列へ、カナ外来語変換を行ないアルファベット表現
の外国語に、カナローマ字変換を施してローマ字文字列
へ変換する。 このようにして、類似語抽出の結果であるカタカナ文字
列を、漢字,ローマ字、カタカナ、外国語の各表現に変
換して、それぞれ異表記展開する。 【発明が解決しようとする課題】 しかし上記引例では、表記を標準化する際に、元の文字
列が持つ情報を変えてしまうため、期待する展開結果が
得られないことがあった。このことを、カタカナの部分
文字列の変換ルール「“ホオ″→“ホウ″] を例にして説明する.この変換ルールは文字列“ジョウ
ホオ″ を ″ジョウホウ″(情報) と正しく標準化する。しかしこの同じ変換ルールを用い
ても “ジョウホオン″(定保温) が入力された場合には “ジョウホウン″ と誤った文字列へ標準化してしまう。このことは、標準
化処理の後の同義語展開処理、更にその後に続く異表記
展開処理に影響をおよぼし,期待する展開結果が得られ
ないことになる. 本発明の第1の課題は上記の標準化を避け,常に期待す
る展開結果を得ることにある.また上記引例では、同義
語辞書によって“計算機″から″コンピュータ”に文字
列を同義語展開するときに、ユーザが入力する検索文字
列を、一旦すべてカタカナ表現に変換してから同義語展
開し、そのあとでカナ漢字変換、カナローマ字変換及び
カナ外四語変換をする構戒となっている.そのため、同
義語辞書は必ずカタカナ文字列からカタカナ文字列へ展
開するようなものでなければならなかった.すなわち、 見出しm: ″コンピュータ” 同義語1:“ケイサンキ″ 同義語2:″ジョウホウショリソウチ”などと、単語間
の同義関係を常にカタカナ文字列で記述しなければなら
なかった.このことは、同義語展開後のカナ漢字変換辞
書及びカナ外来語変換辞書でも、必ずこれらに対応する
表現の文字列を出力するよう登録しておかなければなら
ないために、辞書が大きくなるという問題がある.また
、日本語には同じ読みを持っていても、意味の異なる同
音異義語が多く存在し、これが同義語展開時に弊害を生
じる.例えば“ケンサク″という文字列は“検索″とも
解釈できるし″研削″とも解釈できるので、カタカナ表
現のみによる同義語辞書では両者を区別できないという
問題がある。さらに、同義g展開後のカタカナ漢字変換
において、同音異義語の選択をユーザが対話的に行わな
ければならないという問題があった。 また、検索文字列をカタカナ表現に変換するための外国
語カナ変換辞書や、同義語展開した後のカナ漢字変換辞
書及びカナ外国語変換辞書が必要であり、多種類の大規
模な辞書を使うためにその作成と保守が大変となる. 本発明の第2の課題は上記のカナ漢字変換、カナ外国語
変換時における同音異義語の問題と、これらの変換に用
いる大規模な辞書の作或、保守の問題を解決することに
ある。
【課題を解決するための手段】
上記課題を解決するために、第1図のようにキーボード
から入力した文字列を一旦異表記展開し,異表記展開さ
れた各々の文字列に対し、同義語辞書を参照して同義語
展開をし、更に同義r6展開で得た各々の文字列に対し
て異表記展開する構成とする. この異表記及び同義語展開処理の概略を第3図に示す.
ユーザが指定した検索文字列301は一旦異表記展開し
、その展開した文字列群302に対して,次に同t&語
辞書310を用いて同m語展開する.その後、この同義
語展開で得られた文字列303に対して、さらに異表記
展開し,最終の展開結果として文字列群304を得る。 このように同義語展開の前に異表記展開することにより
,表記の標準化によって情報を変更することなく展開処
理が可能となる。同義語辞書中の文字列の表現や表記に
配慮することなく辞書が構或できるため、辞書の作或や
編集が容易になる。 また、同義語展開した文字列についても異表記展開をす
ることにより,同義語展開で新しく得られた文字列につ
いても異表記を得ることができる.次に本発明における
重要な手段の一つである異表記展開について説明する.
異表記展開では、まず最初に入力文字列を文字種毎に分
割し,漢字及びひらがな文字列、カタカナ文字列、アル
ファベット文字列の3種類の部分文字列へ分割する.次
に分割した部分文字列毎に変換ルールテーブルを用いて
文字列の置き換え処理を行い,漢字,カタカナの各文字
種の異表記展開をしていく.アルファベット文字種につ
いては変換ルールテーブルは用いずに、入力文字列中の
アルファベット文字を大文字から小文字,小文字から大
文字へコード変換する. ここで変換ルールテーブルとは入力文字列中の該当文字
列を文字列のリストへ置き換えることを指示した変換ル
ールを複数個蓄えたものである。 変換ルールは、例えば文字列″イウ″を″イウ′″と“
ユウ”とに展開する場合には、 [゛′イウ″→(″イウIT,11ユウ″′)]と記述
する.また部分文字列を文字列リストへ変換することを
、ここでは′置き換え′と呼ぶことにする. 漢字、カタカナの各文字種の異表記展開用の異表記展開
用の変換ルールには例えば次のようなものが考えられる
。 (1)漢字及びひらがな文字列の場合 (.)漢字の新字体と旧字体の表記による展開に関する
変換ルール 例:[“′斉′”→(゛″斉″,″“斎”,″齋+1 
, +1斉″)](b)漢字の送りがな表記の違う展開
に関する変換ルール 例:[″′読み取り″→(″読み取り#,R読取”)]
(2)カタカナの場合 ・類似音節の様々な表記に展開する変換ルール例=[″
ピア″→(″ピア71 , l/ピャ″)]このように
、漢字ひらがな文字種,カタカナ文字種については,変
換ルールテーブルを用いて異表記展開する。 次にローマ字の異表記展開について説明する。 ローマ字の異表記としては.ヘボン式表記法と訓令式表
記法あるいはこれらの表記法の混在したものが考えられ
る.従って、ここでは変換ルールとしてヘボン式表記法
と訓令式表記法の音節表記を併記したルールを作るもの
とする。例えばヘボン弐表記法の “SHI” を訓令式表記法及びヘボン式表記法の音節表記の“SI
”と” S H I” という2つの部分文字列のリストに置き換える変換ルー
ル [”SHI”→( ” S I ″   “SHI”)
]を作ることによりローマ字の異表記展開を実現する。 あるいは、別な方法としてローマ字の全文字列を一端カ
タカナ表記に変換し、カタカナ文字列中の各音節をヘボ
ン式表記法と訓令式表記法の両方で置き換える方法もあ
る.例えば,ローマ字文字列の “S I SRAM○” を一端カタカナ文字列の “シシャモ″ に変換し、次に [′゛シ”→(”SI”   ”SH工”)]などの変
換ルールでローマ字化する方法もある。 以上の文字種毎の展開の後,最初に文字種によって分割
した文字列の順序に従って展開した文字列を組み合せて
、異表記展開の最終出力とする.以上異表記展開処理を
まとめると、 (1)漢字及びひらがな文字列に関する異表記展開(送
りがな、新旧字体)、 (2)カタカナ文字列に関する異表記展開、(3)ロー
マ字文字列に関する異表記展開(ヘボン式,訓令式表記
), (4)アルファベット文字に関する異表記展開(大小文
字) がある。しかし、常時これらの異表記展開をする必要が
ない場合もある。この場合、使用する変換ルールテーブ
ルの種類をユーザが選択できる手段を合わせ持つことに
よって、むだな展開処理を省き、かつユーザの望む検索
処理が可能となる.次に本発明におけるもう一つの重要
な手段である同義語展開について説明する。同義語展開
では、入力文字列を同義語辞書を用いて次の4種類の展
開を行う。 (1)同位語展開 概念的に同位のImへの展開 例:“計算機″から“コンピュータ″ ″情報処理装置″′に展開する。 (2)上位語展開 上位の意味を持つ語紮への展開 例:″計算機″から″電子機器″に展開する。 (3)下位語展開 下位の意味を持つ語愈への展開 例;“計算機″′から“電子卓上計算機″に展開する. (4)関連語展開 関連した意味を持つmf&への展開 例:“計算機″から “オフィスオートメイション”に展開する。 また、同義語展開でも異表記展開と同様に上記4種類の
語禽への展開を選択する手段を持つことによって,より
柔軟なユーザの望み通りの検索が可能となる. (作用1 以上の手段によってユーザの入力する検索文字列をまず
最初に異表記展開し、異表記展開した文字列群の中の各
々の文字列を一つずつ同義語展開し、さらに同義語展開
して得られた新しい文字列に対して異表記展開を行う. このように異表記展開を同義語展開の前で行なうことに
より,表記の標準化による情報の欠落を避け、常に期待
する展開結果を得ることができる.また、同義語辞書内
での表記も統一化する必要がなく、辞書の作或と保守を
簡易化できる。また,同義語展開の後でも異表記展開を
行うために、同義語辞書に表記のバリエーションを色々
と記述しておく必要がなく辞書を小さくすることができ
る.
【実施例】
図面を用いて本発明の構或、作用を説明する.第4図は
本発明の実施例の構戒を示すブロック図である。本実施
例は,コンソール400.対話制御部401,異表記展
開処理部402及び405、同義語展開処理部403、
同義語辞書ファイル404,文字列統合処理部406、
文字列検索処理部407,テキストデータベース408
から構威されている.コンソール400から入力された
検索文字列40は、対話制御部401を介して異表記展
開処理部402へ送られる。異表記展開処理部402で
展開した文字列群41は、同義語展開処理部403へ送
られると共に、文字列統合処理部406へも送られる.
同義語展開処理部403では,同義語辞lI404を参
照し送られてきた文字列群41の各文字列と辞書の見出
しとのマッチングをとり、一致した文字列が存在すれば
、同義語展開モード制御信号410に従い、辞書に記載
してある見出しに対応する言葉を出力し、異表記展開処
理部405へ文字列群42を送る。 異表記展開処理部405では、同f&語展開された文字
列42に対し,異表記展開処理部403と全く同じ処理
方法で異表記展開して,文字列群43を文字列統合処理
部406へ出力する。文字列統合処理部406は、異表
記展開処理部402と405から受け取った文字列群4
1と文字列群43を、一つの文字列群44にまとめて文
字列検受け取った文字列群44のうちのいずれかの文字
列が存在するものをテキストDBから検索して,ヒット
した文書の識別子情報などを、対話制御部401へ検索
結果45として出力する.対話制御部401は、この検
索結果45を受けて、検索結果件数46や、テキスト情
報46を適宜コンソール400へ出力する. 異表記展開処理部402と405は、全く同一のもので
ある。文字列検索部407は公知の技術で、例えば特開
昭63−311530を用いて実現できる.テキストD
B408は,文字コード情報であれば、新聞記事データ
でも、ワープロで作成した文書のデータでも、電子ファ
イリングシステムの書誌事項データでも構わない。 以下、異表記展開処理部402.405と同義語展開処
理部403の構成作用について詳細に説明する. まず,異表記展開処理の概要を第5図を用いて説明する
.ここでは、最初に入力文字列501を異なる字種の間
で切断し、部分文字列へ分割する.例えば,入力文字列
501 “卓上型インタフオーン″ の場合には、漢字文字列502 “卓上型” と、カタカナ文字列503 “インタフォーン” 八文字種に従って分割する。次に,分割した文字列毎に
異表記展開を行ない、漢字異表記文字列リスト504.
カタカナ異表記文字列リスト505を得る,その後.漢
字異表記文字列リスト504及びカタカナ異表記文字列
リスト505をそれぞれ展開し.2つの文字種で別々に
展開した文字列群を1つに組み合せて最終結果506と
して出力する8 次に,第6図を用いて異表記展開の処理内容を詳細に説
明する.第6図は本発明における異表記展開手段の実施
例を示すブロック図である.本実施例の構或は、文字種
分割・選別部601,ローマ字判別部602,ローマ字
カナ変換部603、漢字異表記展開部604、カタカナ
異表記展開部605、アルファベット異表記展開部60
6、カナローマ字変換部607、分割文字列統合部61
0よりなる. 異表記展開処理部402あるいは405への入力文字列
620は、まず文字種分割・選別部601へ送られる.
文字種分割・選別部601では入力文字列620を、上
述したように漢字及びひらがな文字列631、カタカナ
文字列632、アルファベット文字列633、それ以外
の文字列630の4種類の部分文字列に分割する.分割
した部分文字列をそれぞれの文字種に従って分類し、別
々の展開処理を施す。以下文字種別に、その展開処理の
概要を示す。 (1)漢字・ひらがな・カタカナ・アルファベット以外
の文字列 この文字種には数字.記号、特殊文字あるいは外字コー
ド等が当たる.本実施例ではこれらの文字種を、展開せ
ずに入力した文字列630をそのまま分割文字列統合部
610へ出力している。しかし数字に関して英数字を漢
数字に変換したり、英記号に関して記号″・″を′゛一
”やII ,/11に展開することなども考えられる. (2)漢字・ひらがな文字列 これらの文字種に関しては、文字列631を漢字異表記
展開部604にて、漢字の新旧字体及び送りがなについ
ての異表記展開をする.漢字異表記展開部604の出力
文学列641は、分割文字列統合部610へ送られる. (3)カタカナ文字列 この文字種に関しては、文字列632をカタカナ異表記
展開部605にて,類似音節の表記について異表記展開
を行う.展開した文字列642は、分割文字列統合部6
10へ送られる.また、同時にカナローマ字変換部60
7へも送られる,カナローマ字変換部607でローマ字
へ変換された文字列653は、アルファベット異表記展
開部606にて、アルファベットの大小文字に関する異
表記展開が行なわれ、文字列643として分割文字列統
合部610へ送られる。 (4)アルファベット文字列 この文字種に関しては、日本語のローマ字表現の場合と
,外国語の原語の場合の2つの場合がある。 ここでは、まずローマ字判別部602で、文字列633
がローマ字か外国語かの判定をする.この判定基準には
、ローマ字の表記法を用いている.すなわち,アルファ
ベット文字の並びがローマ字の表記法に合っていればロ
ーマ字と判定し、ローマ字として解釈不能の場合は外国
語と判定する。 この判定は、ローマ字カナ変換部603で兼ねることも
できる。すなわち、ローマ字カナ変換ができれば、ロー
マ字と判定し、そうでない場合に外国語と判定する。ま
た、この判定には本実施例の方法以外にも,外国語辞書
を使うといった方法も用いることが可能である. ローマ字判別部602でローマ字と判定した文字列65
1は,ローマ字カナ変換部603に送られ、ここでカタ
カナ文字列652に変換され,これを更にカタカナ異表
記展開部605で,類似音節に関する異表記展開を行い
文字列群642を得る。文字列群642に対するこの後
の処理は、(3)のカタカナ文字列の処理と同じである
。すなわち、カタカナ異表記展開された文字列群642
は、分割文字列統合部610へ送られると共に、カナロ
ーマ字変換部607へも送り出される。カタカナ文字列
群642は、カナローマ字変換部607で各々ローマ字
へ変換され,ローマ字文字列群653としてアルファベ
ット異表記展開部606に送られる。該ローマ字文字列
群653は、アルファベット異表記展開部606でアル
ファベットの大小文字に関する異表記展開を施された後
、分割文字列統合部610へ送られる。 一方、ローマ字判別部602で外国語と判定された文字
列634は、ローマ字カナ変換せずに、アルファベット
異表記展開部606へ送られ,その出力文字列643は
分割文字列統合部610へ送られる. 以上、異表記展開処理の流れについて説明した。 続いて、この異表記展開処理における各処理ブロックの
詳細について説明する。 まず始めにカタカナ異表記展開部605の処理について
説明する.第7図は異表記展開部における処理をカタカ
ナ文字列を例にして説明した図である。ここでは, “インタフオーン” という入力文字列を例としている。異表記展開処理は、
変換ルールを参照して行う。また、その変換処理は、入
力文字列中の部分文字列として変換対象となり得るもの
があれば、該変換ルールを参照して他の表記に置き換え
るものである。この変換ルールのテーブル形式も本図に
示されている。 この変換ルールテーブルは、見出し部と展開文字列リス
ト部から構戒されている。入力文字列中に、変換ルール
テーブルの見出し部分に相当するものが存在すれば、該
当部分を展開文字列リスト部に記述された異表記文字列
群で順次置き換えていく。 この見出し文字列の探索は,入力文字列の先頭から最長
一致法により行なう.すなわち本図に示したように、入
力文字列中の “フォー” という部分文字列と “フォ” という部分文字列の両方が見出しにある場合には、より
長い見出しの “フォー” のほうの変換ルールを適用する. 第7図の例を用いて、この見出し文字列探索及び展開文
字列リストへの置き換え処理を説明する。 見出し文字列探索において,入力文字列中の部分文字列
と見出し文字列との照合のため、探索ポインタを設定す
る.入力文字列と見出し文字列の照合時には、探索ポイ
ンタの位置を動かしながら,入力文字列中の探索ポイン
タを先頭とする文字列と、見出し文字列との照合を行な
っていく。まず探索ポインタを入力文字列の先頭文字に
セットする。従って、この例では文字“イ″から見出し
文字列の探索を開始することになる。該当する見出しが
存在しないので、探索ポインタを1文字移動して“ン″
を先頭とする文字列からもう一度見出し文字列を探索す
る。また該当する見出しが存在しないので,もうl文字
探索ポインタを移動して″夕″の文字から見出し文字列
を探索する。今度は ″夕″ の見出し文字列が見つかるので、 “タ″ の部分を展開文字列リスト部に記述された“タ”と“夕
一 に置き換える。そして探索ポインタを見出し″夕″ の文字数分,すなわち1文字分移動する。次に″フ″の
文字から見出し文字列探索し、該当する見出し ″フォー″と″フオ” を得る。今度は2つの見出し文字列が照合するが,この
ように複数個の照合した見出し文字列がある場合、最長
一致法に従い、最も長い見出し文字列のある変換ルール
を採用する.この例では、見出し “フォー のほうが “フォ” より長いので, “フォー を展開用変換ルールとして採用し、入力文字列内の部分
文字列 “フォー” を展開文字列リスト部に記述された “フォー″、′フォ″、“ホー′″及び“ホ′″に置き
換える。そして探索ポインタを見出し11フォー″ の文字数分、すなわち3文字分移動する。最後に入力文
字列中の最終文字,″ン″から見出し探索を行なうこと
になるが、該当する見出しがないので文字′゛ン″は,
展開処理が施されずそのままとなる.こうして探索ポイ
ンタが入力文字列の最終位置に来たので処理を終了する
。 以上の処理の結果として生或された展開リストを含む文
字列 “イン(タ,ター)(フォー,フオ,ホー,ホ)ン″の
展開リストを組み合せることによって最終的な異表記展
開文字列が得られる。この例では、“タ”の部分で2通
り、 “フォー″′の部分で4通り に展開するので展開結果は2×4の8通りの文字列、す
なわち 1)″インタフォーン′″ 2)“インタフォン” 3)“インタホーン” 4)“インタホン” 5)“インターフォーン″ 6)“インターフォン” 7)“インターホーン″ 8)“インターホン″ となる。 以上の見出し文字列探索と展開文字列リストへの置き換
え処理を第8図に示すPAD図で説明する.まず探索ポ
インタを入力文字列の先頭にセットする。次に現在の探
索ポインタを先頭とする文字列で、変換ルールの見出し
文字列があるかどうかを探索する.もしもマッチングす
る見出しがなければ、探索ポインタを1文字後方に移動
してから、再び探索ポインタを先頭とする文字列でマッ
チングする見出し文字列を探索する.マッチングする見
出しが存在する場合には,マッチングした見出しのうち
最も長い見出しを採用して、該当部分を展開文字列リス
トで置き換える。置き換えがすんだら探索ポインタをマ
ッチングした見出し文字列の文字数分後方に移動する.
そして、探索ポインタが入力文字列の最終位置に来るま
で、上記の見出し文字列探索と展開リストへの置き換え
処理を繰り返す. いままで説明してきた異表記展開における見出し文字列
の探索方法に関するもう一つの実施例について第9図を
用いて説明する.本実施例では、見出し文字列の探索に
オートマトンを用いている6以下,その手順について述
べる。まず変換ルールにより,図に示すようなオートマ
トンを生戊する.異表記展開処理は、このオートマトン
に入力文字列を1文字ずつ入力して,そのオートマトン
の動作出力から第7図で説明した展開文字列リストを含
む文字列を得る, 以下、具体的にその動作内容について説明する.本図に
おいて記号aは入力文字を、丸はオートマトンを構或す
る各状態を,丸の中の数字はその状態番号を示す.線上
の文字は、その文字が入力されたとき,矢印の方向へ状
態を遷移することを示す。記号′1′は、その後に続く
文字以外の文字を表す。また、記号′→′は、以下に続
く文字列を出力することを示す。このオートマトンは,
その動作を制御するための状態遷移テーブルと、各状態
の出力を記述する出力テーブルからなる。状態遷移テー
ブルは、第10図に示すものとなる。 ここでは,各状態における入力文字とその文字が入力さ
れれたときに遷移する遷移先の状態番号が対として記述
されている。但し状態0へ遷移する場合は記述を省略し
てある.すなわち、各状態において状態遷移テーブルに
記述されていない文字が入力した場合には,状態Oへ遷
移するものとしている。出力テーブルには第工1図に示
すように,オートマトンの各状態において,出力する文
字列リストが記述されている.オートマトンが動作する
場合、状態O以外の状態から状態Oへ遷移する場合のみ
、この出力テーブルを参照して該当する展開文字列を出
力する.そして出力がすんだら、もう一度状態0への遷
移を引き起こした文字をオートマトンへ入力し、状態遷
移テーブルを参照してオートマトンを再遷移させる。状
態Oから状態0へ戻る場合には,入力文字をそのまま出
力する。 以上、オートマトン方式における状態遷移の制御及び出
力について説明した。次に、具体例をもとに、この動作
を詳細に説明する.以下、第9図の入力例゛′インタフ
ォーン″の文字列が1文字入力される毎の動作について
記述する.最初,オートマトンの状態は、状態Oにある
。 (1)文字″イ″が入力されると 状態遷移テーブルに状態0からの遷移先が登録されてい
ないので、そのまま “イ” が出力され状態は0のままとなる。 (2)文字゛ン″′が入力されると 状態遷移テーブルに状態Oからの遷移先が登録されてい
ないので,そのまま “ン” が出力され状態は0のままとなる。 (3)文字“夕”が入力されると 状態遷移テーブルを参照し、現在の状態Oから遷移先と
して状態番号6が読み出され,状態は6に移る. (4)文字″フ”が入力されると 状態遷移テーブルからは状態6から1′フ”で遷移する
遷移先が得られない.かつ現在の状態は0でないので、
出力テーブルが参照され状MA6での出力文字列 “タ”と“夕一” が出力される.その後、状態は0に移動する.さらに、
この新しい伏態Oでもう一度入力文字の″フ”をオート
マトンに入力する.その結果、状j!Ii!!移テーブ
ルの内容に従って状態Oから状態1に状態が移動する. (5)文字“オ”が入力されると 状態遷移テーブルの内容から、状態lより状態2へ状態
が移動する. (6)文字“一”が入力されると 状態遷移テーブルの内容から、状態2より状態3へ状態
が移動する. (7)文字″ン′″が入力されると 状態遷移テーブルからは状態3から“ン”で遷移する遷
移先状態番号が得られない。かつ現在の状態は状態Oで
ないので、出力テーブルが参照され,状態3での出力文
字列 “フォー”フォ”ホー”及び“ホ” が出力される.その後、状態がOに移り、もう一度入力
文字の“ン”がオートマトンに入力される。 ここでは、状態遷移テーブルから遷移先が得られないの
で入力文字の “ン” がそのまま出力される. 8)入力文字列の最終文字まで来たので、処理を終了す
る. こうして展開リストを含む文字列 ″イン(タ,ター)(フォー,フォ,ホー,ホ)ン”が
得られる. 次に、この見出し文字列探索用オートマトンの生成方式
を第12図を用いて説明する.このオートマトン生成は
、実際に入力文字列が送られてくる前に一度作っておけ
ば良い.本図は探索オートマトンの生或方式、すなわち
状態遷移テーブル及び出力テーブルの作或方式をPAD
図で表したもので、以下この内容について説明する.ま
ず状態遷移テーブル及び出力テーブルを初期化する.次
に、一つずつルールを取り出しながら変換ルールの終わ
りまで以下の処理を繰り返す. (1)状態番号をOにセット (2)見出し文字列の終わりまでl文字ずつ文字を取り
出しながら状態遷移テーブルを作っていく.すなわち状
態遷移テーブルを参照し、取り出した文字による遷移先
が登録されていれば遷移先状態に移動する。遷移先が登
録されていなければ、新しい状態番号を生威し、状態遷
移テーブルに追加登録する.そして、今の状態を新しい
状態に移動する.さらに出力テーブルに状態0から今の
状態へ遷移させてきた文字列を登録する。 (3)見出し文字列の全文字について(2)の処理が終
了した後,出力テーブルに現在の状態番号と、変換ルー
ルの展開文字列リストを登録する。 具体的な処理の流れを2つの変換ルール[“フォー″→ (゛′フォー″′フォIt , Itホー″″ホ″)コ
と [″フォ”→ (“フォー”,″フオ″″ホー”,′゛ホ″)]を使っ
て説明する. まず1番目の変換ルールの見出し文字列“フォー” について処理する. (1)文字“フ”の入力 状態遷移テーブルは最初初期化されているため、遷移先
状態番号は一つも登録されていない.従って新しい状態
番号1を生威し、状態を1に移動する。そして,出力テ
ーブルに状態0から状態1への遷移を引き起こす文字列 “フ” を状態番号1の出力として登録する. (2)文字“オ″の入力 状態遷移テーブルに今の状態1からの遷移先は定義され
ていない.従って新しい状態番号2を生威し、状態を2
に移動する6そして出力テーブルに状態Oから状態2に
至るまでの文字列″フォ” を状態番号2の出力として登録する6 (3)文字II − #の入力 状態遷移テーブルに今の状態2からの遷移先は定義され
ていない.従って新しい状態番号3を生威し、状態を3
に移動する.そして出力テーブルに状態Oから状a3に
至るまでの文字列“フォー” を状態番号3の出力として登録する。また、これで見出
し文字列の最終文字であるので、変換ルールの展開文字
列リスト (“フォーpt,itフォ〃,″ホー″″ホ″)を、先
に登録した出力文字列 “フォー を入れ替える形で、状態3の出力として出力テーブルに
登録する. 次に2番目の変換ルールの見出し文字列“フォ” についての処理を実行する.処理に先立ち,状態はOに
戻る。 (4)文字″フ”の入力 先に登録した状態遷移テーブルを参照して,遷移先の状
態番号lを得、状態を1に移動する.(5)文字″オ″
′の入力 状態遷移テーブルを参照して、遷移先の状態番号2を得
、状態を2へ移動する。出力テーブルに状態2の出力は
既に登録されているが、見出し文字列の最終であるので
、出力テーブルに状71l2の出力として既に登録され
ている “フォ” を、変換ルールの展開文字列リスト (″フォー″゛フォ”,′ホー”  ″ホn)に書き替
える。 以上の処理により、上記二つの変換ルールを探索するオ
ートマトンを作戒することができる.具体例で示した2
つの変換ルール以外についても、これと全く同様の手順
でオートマトンにすることができる。 以上,例で説明してきたカタカナ異表記展開用の変換ル
ールテーブルの詳細を第13図に示す.この他、変換ル
ールテーブルの作或には、カタカナ文字列の類似音節表
記に関してその表記の原則を定めた「昭和29年国語審
議会報告 外来語の表記」を利用することができる.す
なわち上記報告書ではカタカナ文字列の異表記が示され
、その表記を統一化するための原則が述べられているが
、これを逆に利用して変換ルールを作或することができ
る。 今までカタカナ文字列の異表記展開について例をあげて
説明してきたが、漢字文字列の異表記展開についても、
漢字文字列用の変換ルールテーブルを用いるだけで全く
同じ処理で実現できる.漢字の新旧字体に関する異表記
展開用の変換ルールテーブルの例を第14図に示し,送
りがなに関する異表記展開ルールの例を第15図に示す
.また、第工3図から第15図に示した異表記展開ルー
ルテーブルは、必要に応じて追加修正が可能であり、従
ってユーザの望む異表記展開が可能となる. 以上が漢字異表記展開部604、カタカナ異表記展開部
605の処理の詳細である. 次にローマ字の異表記展開に関する説明をする.本実施
例では,ローマ字の異表記展開をするのに、ローマ字で
入力された文字列を一旦カタカナ文字列へ変換した後,
これをカタカナ異表記展開し、もう一度カナローマ字変
換によりローマ字に戻すという方法を採っている.従っ
て、ローマ字の異表記展開に関する部分は、第6図のロ
ーマ字カナ変換部603とカナローマ字変換部607(
7)2つとなる. まずローマ字カナ変換部の処理内容について説明する.
アルファベット文字列が入力されると、まずローマ字カ
ナ変換が行われる.ローマ字カナ変換部603では,第
16図に示すようなローマ字とカタカナの対応表を用い
て、ローマ字カナ変換が行われる.同図において、例え
ばl番目のレコードでは ローマ字の“A”がカタカナの“ア” に対応することを示している.ローマ字の項目中に複数
個の文字列が並んでいるレコードに関しては、複数個並
んでいる全ての文字列がカタカナの項目に対応している
ことを示している。例えば、ローマ字の “SYA”及び“SHA” が、カタカナの “シャ” に対応する.これらは、それぞれローマ字の訓令式表記
法と、ヘボン式表記法に対応している.従って、このロ
ーマ字カナ変換部603では訓令式でもヘボン式でもあ
るいはこれらの混合したような表記法の文字列でもカタ
カナへ変換されることになる.変換方法は,前述した漢
字異表記展開、カタカナ異表記展開と同様である.すな
わち、入力文字列と対応表のローマ字文字列を最長一致
で探索して、順次対応するカタカナ文字列に置き換えて
いく。もし、対応するローマ字文字列が対応表に見つか
らないときには、入力文字列はローマ字でないと判断し
,カタカナ文字列の出力を行わない. 次にカナローマ字変換部607の説明をする。 ここでも第16図の対応表をそのまま用いる。こんどは
逆に入力文字列と対応表のカタカナ文字列とを最長一致
でマッチングを取りながら順次ローマ字へ入力文字列を
置き換えていく.前述の“シャ” の例のように対応するローマ字表記が複数個存在すると
きには、該当部分を部分文字列のリストとして置き換え
ていく.すなわち、カタカナの入力文字列に対し、異表
記展開の処理と同様に展開リストを含む文字列に展開し
、その展開リストの部分を組み合せることによってロー
マ字異表記展開の結果を得ることができる.これを “シシャモ” というカタカナ文字列が入力された場合を例にして説明
する.この時、入力文字列 “シシャモ“ に対してカタカナローマ字対応表とのマッチング処理に
より、 “(Sr,SHI)(SYA,SHA)MO”という展
開リストを含む文字列が得られる。従って、展開リスト
の組み合せにより、 1)“SISYAMO” 2)“S I SRAMO” 3)“SHISYAMO” 4)“SHrSRAMO“ という4種類のローマ字異表記文字列が得られることに
なる. 以上が異表記展開方式の処理に関する説明である。 これまで、説明してきた異表記展開の実施例においては
、漢字ひらがな文字列、カタカナ文字列、ローマ字文字
列,及びアルファベット文字列の全てについて展開処理
を行っているが、これらの処理を選択的に行うことも可
能である。すなわち,異表記展開後の出力文字列の種類
を、 1)漢字ひらがな文字列 2)カタカナ文字列 3)ローマ字文字列 4)アルファベット文字列 のいずれかもしくは,これらの混合した文字列を異表記
展開結果として出力するように制御することができる.
こうして、異表記展開を文字種毎に選択可能にすること
により、むだな展開処理を省き,かつユーザの要求に応
じた検索処理が可能となる。 以下,この異表記展開結果の文字種制御方法について説
明する。 この出力文字種の制御は第工7図に示すように、第6図
の実施例の構或に更にアルファベット文字列634の出
力制御を行うスイッチa608、及びカタカナ文字列群
642の出力制御を行うスイッチb609を設けること
で実現する。また、漢字異表記展開部604、カタカナ
異表記展開部605、カナローマ字変換部607、スイ
ッチa608,及びスイッチb609の出力を制御する
制御信号線661,662.663、664、665を
それぞれ設ける.そして、ユーザが設定する異表記展開
結果出力文字種の指定モードにより該制御信号をON、
OFFすることでモードに応じた異表記展開を実現する
。例えば、ローマ字異表記展開が不要な場合にはカナロ
ーマ字変換部607の制御信号663を○FFLて出力
を止める。このような展開モードによる各変換部、展開
部、スイッチの制御信号の組み合せを第18図に示す。 図において、展開モードはそれぞれC:漢字及びひらが
な異表記展開 k:カタカナ異表記展開 r:ローマ字異表記展開 a:アルファベット異表記展開 を実施し、出力することを示している.複数文字では複
数の異表記の出力指定を表す。例えば、展開モード ’cka’ は漢字ひらがな、カタカナ及びアルファベットの各異表
記を異表記展開結果として出力するモードであることを
表す。また、表中の0は該当モジュールが文字列を出力
することを示す。逆に0がついていないところは、文字
列を出力しない.例えば, ’c k a’ という文字列展開モードでは、ローマ字カナ変換部60
3、漢字異表記展開部604、カタカナ異表記展開部6
05が展開文字列を出力し、スイッチa608.及びス
イッチb609が入力文字列を通すが,カナローマ字変
換部607は文字列を出力しないことを示す. 最後に同義語展開処理について説明する.同義語展開処
理部403は、第19図に示すような同義語辞書を持つ
.図において、レコード番号とは、辞書中の各見出し文
字列に付与されている一連番一号である.各見出し文字
列には、それぞ・れ同位語、上位語、下位語,関連語が
定義されている。同図の同位語、上位語、下位語、関連
語の項目に記述されている番号は全て同辞書のレコード
番号を示す。例えば見出し ″計算機″ は、同位語としてレコード番号2および3、すなわち ″コンピュータ″と゛′情報処理装置″を持っているこ
とを表している。同義語展開では辞書中のどの項目を用
いて展開するか、同義語展開モード制御信号410によ
りユーザがモードを設定できるようにしている。設定可
能なモードは次の通りである。すなわち, U:同位語を使った展開 b=上位語を使った展開 n:下位語を使った展開 r:関連語を使った展開 およびu,b,n,rの各モードを組み合せた展開がで
きるようにしている。 字列中に存在する辞書の見出し文字列を探索することに
よって行う.すなわち、異表記展開処理における変換ル
ールの見出し文字列の探索の場合と同様に,入力文字列
の先頭から最長一致により見出し文字列を探索する.そ
して、同位語展開の場合には入力文字列において照合さ
れた部分文字列を、順次同位語文字列のリストで置き換
えていく。 この際、照合した見出し文字列をも加えて書き替えを行
う。上位語展開、下位語展開,関連語展開の場合には、
入力文字列と見出し文字列が完全に一致した時に限って
、上述の置き換え出力を行う。 すなわち、入力文字列中で部分的に一致しただけでは、
展開を行わない。これは、上位語展開、下位語展開、関
連語展開において部分的な文字列の置き換えは意味のな
い単語を作ってしまうためである. 同位語展開の処理を例を用いて説明する。 入力文字列が ″大型計算機″ ことにより、入力文字列の3文字目から見出し文字列 ′゛計算機” が照合する.同義語辞書のレコード番号1の“計算機” から、同位語としてレコード番号2の “コンピュータ” とレコード番号3の ゛′情報処理装置″′ が同位語リスト (“計算機n,uコンピュータ″ ″情報処理装置”) として得られる.入力文字列の該当部分をこのリストで
置き換えることにより、異表記展開処理の場合と同様に
,展開リストを含む文字列″大型(計算機,コンピュー
タ,情報処理装置)″が得られる。この展開リストを組
み合せて(この場合は一つしかりストがないが) (1)“大型計算機″ (2)“大型コンピュータ” (3)”大型情報処理装置″ の3つの同位語文字列が得られることになる。 次に上位語展開の処理について例をあげて説明する. 入力文字列が ″計算機″ の場合、同義語辞書の見出し文字列探索で入力文字列と
見出し文字列 “計算機” が完全一致する。そこで、上位語としてレコード番号4
の “電子機器″ が出力される.この場合には上位語が一つしかないが、
もちろん複数個あってもよい。複数個の上位語が存在す
る場合には、前述のようにリストとして出力する. 下位語、関連語についても上位語展開と全く同じ処理と
なる。なお、同義語展開において辞書中に該当する文字
列が存在しないときは同義語展開以上同義語展開の処理
方式の実施例について説明した.ところで同義語展開で
は,辞書を使用するために辞書のレコード数が多くなる
と見出し文字列探索に時間が掛ることがある。この問題
の解決として、辞書の見出し文字列をインデクステーブ
ルを用いて探索する方法がある。第20図にこの方式の
概要を示す.同義語辞書は、予めその見出し文字列にて
アルファベット順に並べておく.そして,同義語辞書と
は別に見出し文字列の第一番目の文字だけを集め、その
文字から始まる見出しが辞書のどの部分から始まるかを
登録したインデクステーブルを持つ。例えば文字“A′
で始まる見出しはレコード番号1から存在していること
を示している。見出し文字列探索をするときには,まず
このインデクステーブルを参照し、レコード番号を求め
,次にこれに基づいて同義語辞書にアクセスする.こう
することにより、同義語辞書の全見出し文字列をスキャ
ンする必要がなくなるため,処理時間が短縮できる.例
えば,文字″計″で始まる文字列を探索しようとした場
合、インデクステーブルにより、″計”で始まる文字列
が辞書のレコード番号501から存在することがわかる
。従って、それ以前の無駄な文字列探索を省くことがで
きる。さらに、見出し文字列をアルファベット順に並べ
ることにより、見出し文字列の探索中に先頭文字の異な
る見出しまで探索したら後の探索は省略できる。例えば
“計″で始まる見出し文字列を探索していれば、″計”
以外の文字で始まる見出し ゛情報処理装置″ まで探索すれば後の不要な探索を行わなくとも済む。 また.インデクステーブル及び辞書中の同位語などの記
述にレコード番号を用いたが,これを辞書中での位置を
特定するアドレスで記述することにより、辞書へのアク
セスを更に高速化できる。 アドレスとは、辞書の該当する見出し文字列が存在する
最初の位置を示すもので、例えば辞書の先頭からのバイ
ト数がある。こうすることにより、辞書へのアクセスが
直に特定できるため、レコード番号を指定するよりも更
に高速化が可能となる.【発明の効果] 本発明の効果を以下に個条書きに示す.1)異表記展開
部に漢字ひらがな混じりの文字種で構或される文字列の
展開手段を設けたことにより、漢字の新旧字体や送りが
なに関する異表記を許容する文字列探索が可能となった
。 2)表現を一旦カタカナに統一せずに、一度異表記展開
してから同義語展開するために、同義語辞書をカタカナ
文字列に統一する必要がなくなった。 また、むりなカタカナ文字列の標準化処理がないために
、同義語辞書の見出し文字列に自然な言葉を使うことが
できるようになった。さらに、同義語辞書の見出しには
漢字やアルファベットなどの各種の表現による文字列を
使用できるようになり,かつ表記に関しても異表記に配
慮する必要がないので,辞書の作成、保守が容易になっ
た。 3)外国語カナ変換辞書や、同義語展開した後のカナ漢
字変換辞書およびカナ外国語変換辞書が不)になるため
に、多種類の大規模な辞書を保守する必要がなくなり、
辞書の作成,保守が容易になった・ 4)同義語辞書展開した後にも異表記展開することによ
り、同義語展開により新しく得られた文字列についても
異表記を得ることができるようになった・ 5)異表記展開における変換ルールは、置き換え部分文
字列の併記という形態をとるため、変換ルールの登録,
変更,削除が容易となった.同様に同義語辞書について
も、容易に編集が可能となった. 6)展開モードを設定可能として、異表記展開処理部で
出力文字種を制御し,同義語展開処理部で展開語索を制
御することにより、ユーザの求める柔軟な検索処理が可
能となった。 7)同義語辞書に同位語、上位語、下位語、関連語を併
記する形態をとったために、辞書の編集が容易となった
【図面の簡単な説明】
第1図は本発明の構或を示すブロック図、第2図は公知
例の構成を示すブロック図、第3図は本発明の処理の概
略を説明した図、第4図は本発明の実施例の構或を示す
ブロック図、第5@は異表記展開処理の過程を例により
説明した図、第6図は本発明における異表記展開手段の
実施例を示すブロック図、第7図は異表記展開処理部に
おける変換ルールの適用の処理をカタカナ文字列の例で
説明した図、第8図は異表記展開処理を示すPAD図、
第9図は見出し文字列探索をオートマトンを用いて実行
する実施例を説明する図、第10図はオートマトンの状
態遷移テーブルを表す図、第11図はオートマトンの出
力テーブルを表す図,第12図は探索オートマトンの状
態遷移テーブル及び出力テーブルの作威力式を表したP
AD図、第13図はカタカナの異表記変換ルールテーブ
ルの例、第14図は漢字の新旧字体に関する異表記変換
ルールテーブルの例,第15図は送りがなに関する異表
記変換ルールテーブルの例、第16図はローマ字とカタ
カナの対応表の例、第党本図は本発明における異表記展
開手段の展開モードを設定可能とする実施例のブロック
図、第18図は異表記展開における各変換部、展開部5
スイッチの出力を制御する様子を示す図、第19図は同
義語辞書を表す図、第20図は同義語辞書の見出し文字
列をインデクステーブルを用いて探索する方式の概要を
示す図。 茶 3 図 〆−一人一一)2−一一な−一一一、 名 /O 図 Z // 図 ネ /3 図 噺 /乙 周

Claims (9)

    【特許請求の範囲】
  1. 1.一文字以上の文字列からなる見出し文字列と、見出
    し文字列に対応する少なくとも一つの他の文字列を格納
    した変換ルールテーブルを持ち、入力した文字列の中で
    該変換ルールテーブルの見出し文字列に合致する部分を
    全て、見出し文字列と見出し文字列に対応した他の文字
    列からなる文字列リストに変換し、次に文字列リストを
    組合せて入力した文字列から他の文字列群へ展開するこ
    とを特徴とした文字列展開方法。
  2. 2.第1項記載の文字列展開方法において、文字列展開
    に用いる変換ルールとして、漢字の新旧字体あるいは送
    りがな、外来語のカタカナ表記、ローマ字のヘボン式あ
    るいは訓令式表記のうち、少なくとも一つの表記法に基
    づいた変換ルールテーブルを用いて展開することを特徴
    とする文字列展開方法。
  3. 3.第1項記載の文字列展開方法において、変換ルール
    テーブルを用いた展開の他に、アルファベット文字列を
    入力した場合には、一個の入力文字列に対しすべてが大
    文字で構成される文字列、最初の一文字が大文字で残り
    が小文字の文字列、及びすべてが小文字の文字列の3種
    の文字列の少なくとも一種に展開することを特徴とする
    文字列展開方法。
  4. 4.第1項記載の文字列展開方法において、入力文字列
    中の部分文字列を他の文字列へ置き換える指示を記述し
    た変換ルールテーブルは、ユーザも再定義可能であるこ
    とを特徴とする文字列展開方法。
  5. 5.入力した文字列から部分文字列の変換ルールを利用
    して音節表記など表記法の異なる他の文字列に展開する
    第1の異表記展開ステップと、異表記展開された各々の
    文字列に対し、同義語辞書を参照して同義関係を持つ他
    の文字列へ展開する第2の同義語展開ステップと、同義
    語展開で得た各々の文字列に対して、第1の異表記展開
    ステップと同様に変換ルールを利用して他の文字列へ展
    開する第3の異表記展開ステップからなることを特徴と
    する異表記及び同義語展開方法。
  6. 6.第5項記載の異表記及び同義語展開方法において、
    第1及び第3の異表記展開ステップでは、漢字の新旧字
    体あるいは送りがな、外来語のカタカナ表記、ローマ字
    のヘボン式あるいは訓令式表記、アルファベット文字の
    大小文字の表記法のうち少なくとも一つの表記法につい
    て展開し、第2の同義語展開ステップでは、同義語文字
    列として同位語、上位語、下位語、関連語の少なくとも
    一つの語群へ展関することを特徴とする異表記及び同義
    語展開方法。
  7. 7.第6項記載の異表記及び同義語展開方法において、
    異表記展開ステップで漢字の新旧字体及び送りがな、外
    来語のカタカナ表記、ローマ字のヘボン式及び訓令式表
    記、アルファベット文字の大小文字の表記のうちどれと
    どの展開を行なうかを、さらに同義語展開ステップで同
    位語、上位語、下位語、関連語のうち、どれとどの語群
    へ展関するのかを、ユーザが設定可能なモードにより選
    択することを特徴とする異表記及び同義語展開方法。
  8. 8.第5項記載の異表記及び同義語展開方法において、
    同義語展開に用いる辞書として、見出し文字列と見出し
    文字列に対応する同位語、下位語、上位語、関連語を併
    記した形式の辞書を用いることを特徴とする文字列検索
    装置。
  9. 9.テキストデータを文献単位などのデータ単位で格納
    する手段と、検索文字列を入力する手段と、格納された
    テキストデータの中から該検索文字列を検索する手段を
    持つ検索装置において、入力文字列から音節表記など表
    記法のバリエーションを持つ文字列群に展開する異表記
    展開手段と、同義語辞書を持ち入力文字列から該同義語
    辞書を参照して、同義語文字列群に展開する同義語展開
    手段と、上記二つの文字列展開手段により得られる文字
    列群を統合する統合手段を持ち、ユーザの入力する検索
    文字列から一旦前記異表記展開手段により表記の異なる
    文字列群Aに展開し、該文字列群Aの各々の文字列に対
    し前記同義語展開手段により同義語の文字列群Bに展開
    し、該文字列群Bの各々の文字列についてさらに前記異
    表記展開手段を用いて表記の異なる文字列群Cに展開し
    、前記統合手段により文字列群Aと文字列群Cとを統合
    して文字列群Dを求め、該文字列群Dのうちのいずれか
    の文字列が存在するテキストデータ中のデータ単位を検
    索することを特徴とする文字列検索装置。
JP1149630A 1989-06-14 1989-06-14 文字列検索装置 Expired - Lifetime JP2791106B2 (ja)

Priority Applications (12)

Application Number Priority Date Filing Date Title
JP1149630A JP2791106B2 (ja) 1989-06-14 1989-06-14 文字列検索装置
PCT/JP1990/000774 WO1990016036A1 (en) 1989-06-14 1990-06-14 Hierarchical presearch-type document retrieval method, apparatus therefor, and magnetic disc device for this apparatus
DE69032712T DE69032712T2 (de) 1989-06-14 1990-06-14 Hierarchischer vorsuch-typ dokument suchverfahren, vorrichtung dazu, sowie eine magnetische plattenanordnung für diese vorrichtung
EP90909360A EP0437615B1 (en) 1989-06-14 1990-06-14 Hierarchical presearch-type document retrieval method, apparatus therefor, and magnetic disc device for this apparatus
US07/555,483 US5168533A (en) 1989-06-14 1990-08-09 Hierarchical presearch type text search method and apparatus and magnetic disk unit used in the apparatus
US07/843,162 US5469354A (en) 1989-06-14 1992-02-28 Document data processing method and apparatus for document retrieval
US07/914,334 US5220625A (en) 1989-06-14 1992-07-17 Information search terminal and system
US07/985,795 US5519857A (en) 1989-06-14 1992-11-30 Hierarchical presearch type text search method and apparatus and magnetic disk unit used in the apparatus
US08/031,700 US5454105A (en) 1989-06-14 1993-03-15 Document information search method and system
US08/031,625 US5471610A (en) 1989-06-14 1993-03-15 Method for character string collation with filtering function and apparatus
US08/444,842 US5748953A (en) 1989-06-14 1995-05-18 Document search method wherein stored documents and search queries comprise segmented text data of spaced, nonconsecutive text elements and words segmented by predetermined symbols
US08/839,407 US6094647A (en) 1989-06-14 1997-04-11 Presearch type document search method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1149630A JP2791106B2 (ja) 1989-06-14 1989-06-14 文字列検索装置

Publications (2)

Publication Number Publication Date
JPH0315980A true JPH0315980A (ja) 1991-01-24
JP2791106B2 JP2791106B2 (ja) 1998-08-27

Family

ID=15479427

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1149630A Expired - Lifetime JP2791106B2 (ja) 1989-06-14 1989-06-14 文字列検索装置

Country Status (1)

Country Link
JP (1) JP2791106B2 (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07152778A (ja) * 1993-11-29 1995-06-16 Sanyo Electric Co Ltd 文書検索装置
US5469355A (en) * 1992-11-24 1995-11-21 Fujitsu Limited Near-synonym generating method
US5521473A (en) * 1992-07-29 1996-05-28 Kabushiki Kaisha Tokai-Rika-Denki-Seisakusho Apparatus for driving and controlling power window while prohibiting drive of the motor during an initial period
JPH08314903A (ja) * 1995-05-19 1996-11-29 Brother Ind Ltd 文書処理装置
JPH1074205A (ja) * 1996-08-30 1998-03-17 Matsushita Electric Ind Co Ltd 類似名称検索装置
JP2002092018A (ja) * 2000-09-18 2002-03-29 Nec Software Hokkaido Ltd 片仮名平仮名も含めた検索システム
JP2009116737A (ja) * 2007-11-08 2009-05-28 Honda Motor Co Ltd 情報検索装置
JP2009223894A (ja) * 2008-03-14 2009-10-01 Nhn Corp 日本語エイリアスデータベースを利用して長音及び促音に対するエラーを減らし、日本語入力機の使用の際に単字検索機能を提供する方法及びシステム
DE102010014110A1 (de) 2009-04-24 2010-10-28 Shin-Etsu Handotai Co., Ltd. Verfahren zur Herstellung eines Halbleiter-Einkristalls und Vorrichtung zur Herstellung des Halbleiter-Einkristalls
JP2011008784A (ja) * 2009-06-24 2011-01-13 Nhn Corp ローマ字変換を用いる日本語自動推薦システムおよび方法
JP2011138440A (ja) * 2009-12-30 2011-07-14 National Institute Of Information & Communication Technology 異表記取得装置、異表記取得方法、およびプログラム
JP2012108575A (ja) * 2010-11-15 2012-06-07 Nec System Technologies Ltd データ分類システム、データ分類方法およびプログラム

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5521473A (en) * 1992-07-29 1996-05-28 Kabushiki Kaisha Tokai-Rika-Denki-Seisakusho Apparatus for driving and controlling power window while prohibiting drive of the motor during an initial period
US5469355A (en) * 1992-11-24 1995-11-21 Fujitsu Limited Near-synonym generating method
JPH07152778A (ja) * 1993-11-29 1995-06-16 Sanyo Electric Co Ltd 文書検索装置
JPH08314903A (ja) * 1995-05-19 1996-11-29 Brother Ind Ltd 文書処理装置
JPH1074205A (ja) * 1996-08-30 1998-03-17 Matsushita Electric Ind Co Ltd 類似名称検索装置
JP2002092018A (ja) * 2000-09-18 2002-03-29 Nec Software Hokkaido Ltd 片仮名平仮名も含めた検索システム
JP2009116737A (ja) * 2007-11-08 2009-05-28 Honda Motor Co Ltd 情報検索装置
JP2009223894A (ja) * 2008-03-14 2009-10-01 Nhn Corp 日本語エイリアスデータベースを利用して長音及び促音に対するエラーを減らし、日本語入力機の使用の際に単字検索機能を提供する方法及びシステム
DE102010014110A1 (de) 2009-04-24 2010-10-28 Shin-Etsu Handotai Co., Ltd. Verfahren zur Herstellung eines Halbleiter-Einkristalls und Vorrichtung zur Herstellung des Halbleiter-Einkristalls
JP2011008784A (ja) * 2009-06-24 2011-01-13 Nhn Corp ローマ字変換を用いる日本語自動推薦システムおよび方法
JP2011138440A (ja) * 2009-12-30 2011-07-14 National Institute Of Information & Communication Technology 異表記取得装置、異表記取得方法、およびプログラム
JP2012108575A (ja) * 2010-11-15 2012-06-07 Nec System Technologies Ltd データ分類システム、データ分類方法およびプログラム

Also Published As

Publication number Publication date
JP2791106B2 (ja) 1998-08-27

Similar Documents

Publication Publication Date Title
JP2515726B2 (ja) 情報検索方法及び装置
JPS63231674A (ja) コンピュータによる形態論的テキスト解析方法
JP2791106B2 (ja) 文字列検索装置
JP3352799B2 (ja) 機械翻訳方法及び機械翻訳装置
JPS60176169A (ja) 文章処理装置
JP2002132789A (ja) 文書検索方法
JPS61248160A (ja) 文書情報登録方式
JPH06266770A (ja) 文書情報検索装置及び検索装置及び機械翻訳装置及び文書作成装置
JP3498635B2 (ja) 情報検索方法及びその装置並びにコンピュータ可読記録媒体
JPS6134668A (ja) 仮名漢字変換処理方式
JPH0118467B2 (ja)
JPS6246029B2 (ja)
JPH0793345A (ja) 文書検索装置
JP3508312B2 (ja) キーワード抽出装置
JPH04290158A (ja) 文書作成装置
JP3022080B2 (ja) 全文データベースシステム
JP2024031263A (ja) 日本語入力システムのkearm詳細変換
JPH08263508A (ja) 文書検索方法
JP2744241B2 (ja) 文字処理装置
CN114528379A (zh) 专利句对语料库检索系统及方法
JP2675298B2 (ja) 情報処理装置
JPH0131229B2 (ja)
JPS6198475A (ja) 日本語文章入力装置
JPH09146937A (ja) 文字列変換装置および文字列変換方法
JPH0521264B2 (ja)

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080612

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080612

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090612

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100612

Year of fee payment: 12

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100612

Year of fee payment: 12