JPH03150668A - 検索システムの入力文字列正規化方式 - Google Patents

検索システムの入力文字列正規化方式

Info

Publication number
JPH03150668A
JPH03150668A JP1290714A JP29071489A JPH03150668A JP H03150668 A JPH03150668 A JP H03150668A JP 1290714 A JP1290714 A JP 1290714A JP 29071489 A JP29071489 A JP 29071489A JP H03150668 A JPH03150668 A JP H03150668A
Authority
JP
Japan
Prior art keywords
word
character string
search
formal
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP1290714A
Other languages
English (en)
Other versions
JP2535629B2 (ja
Inventor
Seiji Nakano
誠二 中野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP1290714A priority Critical patent/JP2535629B2/ja
Publication of JPH03150668A publication Critical patent/JPH03150668A/ja
Application granted granted Critical
Publication of JP2535629B2 publication Critical patent/JP2535629B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [概要] 入力文字列をキーワードとしてデータベース等の記録フ
ァイルを検索する検索システムの入力文字列正規化方式
に関し、 正しい綴りでない略称等を用いた入力文字列による検索
が簡単にできることを目的とし、入力文字列から切り出
した単語に対応する正式単語を単語辞書から検索し、正
式単語の組合せにより1又は複数の正規化文字列を作成
してデータ検索させるように構成する。
[産業上の利用分野] 本発明は、入力文字列をキーワードとしてデータベース
等の記録ファイルを検索する検索システムの入力文字列
正規化方式に関する。
テレックス電文等による相手先会社名等を検索キーワー
ドとして口座番号等の必要なデータをデータベース等の
記録ファイルから取り出す検索システムにあっては、検
索キーワードとして使用される会社名等の入力文字列が
正しく綴られていなければならない。
しかし、検索キーワードとして使用する入力文字列には
往々にして略称が使用され、正式名称に加えて使用が予
測される略称をキーワードとして登録しておくことが考
えられるが、キーワードを増やすことなく略称であって
も正式名称と同様にデータ検索が簡単にできるシステム
が望まれる。
[従来の技術] 従来、銀行取引等に使用する海外からのテレックス電文
等を自動的に解析して処理するシステムが考えられてい
る。
このような電文自動解析システムにあっては、電文中に
綴られた相手先会社名等を検索キーワードとし、口座番
号等の情報を記録したデータベースを検索し、必要な相
手先データを取り出すようにしている。
[発明が解決しようとする課題] しかしながら、会社名等の入力文字列を検索キーワード
として使用する検索システムにあっては、相手先会社名
が正式名称の通り入力されてくることはまれであり、電
文骨は取り側の担当者が識別できれば十分であるため、
様々に省略して送られてくる。例えば英単語を省略した
もの、会社名の先頭語の固有名詞部分のみを入力してく
るもの、会社名を構成する単語の先頭文字を拾い出して
並べたもの等、様々である。
更に、日本語を英字表記する場合には、綴り方は1つの
みではなく、例えば「東京」はrTOKYo J又はr
TOKIOJのどちらも使用される。
このような入力文字列の略称や異なる綴りに対しては、
様々な形の略称文字列を考えて登録する必要がある。
しかし、相手先会社名の多様な入力に対応した名前を用
意しておくことには限界があり、想定可能な綴りを全て
登録するには膨大な人的労力を要し、検索辞書が巨大と
なってプログラムの実行領域を圧迫し、更に検索効率も
低下する問題があった。
本発明は、このような従来の問題点に鑑みてなされたも
ので、正しい綴りでない略称等を用いた入力文字列によ
る検索が簡単にできる検索システムの入力文字列正規化
方式を提供することを目的とする。
[課題を解決するための手段] 第1図は本発明の原理説明図である。
まず本発明は、処理データ格納手段10からの入力文字
列を検索キーワードとして検索処理手段12により記録
ファイル14を検索して対応するデータを出力する検索
システムを対象とする。
このような検索システムにつき本発明にあっては、入力
文字列を構成する略称等に対応する正しい綴りの正式単
語を格納した単語辞書16と、処理データ格納手段10
からの入力文字列を単語単位に切り出し、各切り出し単
語毎に単語辞書16から1又は複数の正式単語を検索し
、該正式単語の組合せによる1又は複数の正規化文字列
を作成して検索手段12に出力するように構成する。
[作用] このような構成を備えた本発明による検索システムの入
力文字列正規化方式によれば、略称等の正しい綴りの単
語でない入力文字列であっても、検索前処理として単語
辞書から略称に対応する正式単語を検索し、正式単語の
組合せによる正規化文字列が作り出され、この正規化文
字列をキーワードして検索処理が行われるため、単語単
位で略称や綴りの変化を考えておけば正しい綴りの正式
名称を含む正規化文字列を生成し、データ検索を有効に
行うことができる。
[実施例] 第2図は本発明の一実施例を示した実施例構成図である
第2図において、10は検索対象データファイルであり
、テレックス、電文等のデータがオンライン処理または
バッジ処理により格納されている。
20はホスト計算機であり、本発明による文字列正規化
処理部18の機能と検索処理部12の機能を有する。ホ
スト計算機20の文字列正規化処理部18に対しては単
語辞書ファイル16が設けられ、また検索処理部12に
対しては検索データベース14が設けられる。更にホス
ト計算機20の検索処理部12による検索結果はCRT
1プリンタ等の出力装置22に出力される。
ホスト計算機20は検索対象データファイル10から処
理対象となるテレックス、電文を取り出し、テレックス
、電文に含まれる相手先会社名を表わす入力文字列を文
字列正規化処理部18に与え、入力文字列に使用されて
いる略称を単語辞書ファイル16の参照により正しい綴
りの単語に変換した正規化文字列を生成する。
文字列正規化処理部18での正規化処理に使用される単
語辞書ファイル16には、入力文字列を構成する略称等
に対応する正しい綴りの正式単語が格納されている。即
ち、テレックス、電文の相手先会社名となる企業名は業
種、扱う商品、地名情報等を表わす語と、固有名詞から
構成されていると考えられる。そこで単語辞書ファイル
16には企業名を構成する固有名詞以外の語を、その語
の省略形と併せて登録している。例えば正規の綴りrB
ANKJに対しては略称としてrBKJrBNKJ  
rGINKOJ等が使用されることから、各略称単語に
つき正しい綴りの正式単語が検索できるように登録を行
なっている。
文字列正規化処理部18による正規化処理の概要は次の
通りである。
まず検索対象データファイル10から得られた入力文字
列を単語単位に区切る単語切り出しを行なう。次に各切
り出し単語等に単語辞書ファイル16を検索し、対応す
る1または複数の正式単語を検索する。そして最終的に
単語辞書ファイル16から得られた正式単語の組合せに
より1または複数の正規化文字列を作成して検索処理部
12に引き渡し、検索処理部12において正規化文字列
をキーワードとした検索データベース14の検索処理を
行なわせる。即ち、本発明の文字列正規化処理は検索処
理部12でキーワードとして使用される相手先会社名等
の入力文字列の前処理として行なわれることになる。
次に第3A、3B図を参照して第2図の文字列正規化処
理部18の処理動作を説明する。
第3A図において、まずステップ81(以下、ステップ
は省略する)において、検索対象データファイル10か
ら得られた入力文字列をデリミタで分割して入力語群に
セットする。例えば第4図に示すように入力文字列が rN I PP0N  置  +  置Jであったとす
ると、客語のスペースとしてのデミリタで入力文字列を
4つに分割し、客語を入力語群に格納する。
次にS2に進み、入力語群数Nに入力語群の数をセット
する。第4図の場合は入力語群数N=4となる。次に8
3で入力語群数N=0、即ち正規化処理が終了したか否
か判定し、最初、入力語群数N=4であることから84
に進む。
S4にあっては、入力語群の入力語群数N=4の位置の
語、例えば第4図の右から4番目の語rN[PP0NJ
を検索語にセットし、次に85で検索語rNIPPON
Jをキーワードとして単語辞書ファイル16を検索する
。検索語「NlPP0NJは固有名詞であることから、
この実施例にあっては単語辞書ファイル16には登録さ
れておらず、このためS6から87に進み、検索語rN
IPPONJに対応したデータをそのまま取得し、次の
88で第5図に示すような単語格納領域の入力語群イン
デックス1の位置にS7で取得したデータrNIPPO
NJを格納する。
続いて、S9で入力語群数NをN=4−1=3としてS
3を経由して再びS4に戻り、検索語に入力語群の入力
語群数N=3となる位置の語、即ち第4図の右から3番
目の語装置Jをセットし、次のS5で検索語r置Jをキ
ーワードとして単語辞書ファイル16を検索する。この
単語辞書ファイル16の検索により検索語「置」につい
ては、正式単語r置EPHONEJとr置EGRAMJ
の2つが得られる。S6にあっては、単語辞書ファイル
に検索語と一致する語が存在することからSIOに進み
、第5図に示す単語格納領域の入力語群インデックス2
の位置にS5で検索された2つの検索語を図示のように
格納する。
以下、入力語群数N=2については、第4図の右から2
番目のrPLUsJを検索語とした単語辞書ファイル1
6の検索でrANDJとrPLUS」の2つが得られ、
第5図の入力語群数インデックス3の位置に図示のよう
に格納され、更に入力語群数N=1となる最後の処理に
あっても、1回目の処理と同様、検索語r置Jについて
2つの語が検索され、第5図の入力語群数インデックス
4の位置に示すように検索語が格納される。
このような入力文字列のデミリタで区切られたすべてに
ついて単語辞書ファイル16の検索処理が終了すると、
S3で入力語群数N=0が判別され、第3B図のsii
に進む。
Sllにあっては、入力語数インデックスに入力語群の
数N=4をセットし、次にSi2に進み、第5図に示し
た単語格納領域のインデックス4の位置から順番に1語
ずつ取り出し、813でインデックスを1つ減らし、S
14でインデックスが0、即ち4つの語が取り出された
か否か判定し、4つの語の取出しが済んでいなければ再
びS12に戻って、次のインデックス3の語を取り出し
、以下、インデックス=0となるまで順番に単語取出し
を繰り返す。4つの語の取出しが終了するとインデック
ス=0となることから815に進み、第5図の単語格納
領域から取り出された4つの語の組合せで成る正規化文
字列を文字列格納領域に格納する。続いてS16で文字
列格納領域に全パターンが格納済みか否かチエツクし、
格納済みでなければ再びS11に戻ってインデックスに
再度入力語群の数N=4をセットし、次のパターンの取
出しを行なう。
S16で文字列格納領域に全パターンが格納されたこと
が判定されると817に進み、文字列格納領域の格納デ
ータを検索処理部12に引き渡し、検索処理部12は文
字列正規化処理部18から引き渡された文字列格納領域
の正規化文字列をキーワードとして検索データベース1
4の検索処理を実行するようになる。
第6図は第3B図における811〜S17の処理で第5
図に示した単語格納領域の格納データから作り出された
正規化文字列の格納状態を示す。
即ち、第5図に示すように、第4図の入力文字列につい
ては辞書ファイルの検索により第5図に示すインデック
ス1〜4で示す正しい綴りの単語が検索されていること
から、これらの組合せにより第6図の■〜■に示す8つ
の正規化文字列のパターンが生成される。
この第6図に示すように生成された8つのパターンは検
索処理部12において順次キーワードとして検索データ
ベース14の検索に使用され、正しい正規化文字列であ
れば検索結果が得られることになる。第6図の場合、パ
ターン■が正式名称であることから、■の正規化文字列
をキーワードとした検索処理で対応する検索結果を得る
ことができる。
[発明の効果] 以上説明してきたように本発明によれば、記録ファイル
の検索キーワードとして正しい綴りの入力文字列のみを
有効としていても、略称を使用した入力文字列につき、
正規化処理により正しい綴りの文字列に変換することで
略称を使用した入力文字列であっても対応する検索結果
を得ることができ、検索エラーを減少させて無駄なオペ
レーションを低減し、検索性能を向上することができる
【図面の簡単な説明】
第1図は本発明の原理説明図; 第2図は本発明の実施例構成図; 第3A図及び第3B図は本発明の文字列正規化処理フロ
ー図; 第4図は入力文字列説明図; 第5図は入力語数インデックスと検索データ格納説明図
; 第6図は文字列格納領域説明図である。 図中、 10:処理データ格納手段(検索対象データファイル) 12:検索処理手段 14:データベース(検索データベース)16:単語辞
書(単語辞書ファイル) 18:文字列正規化手段 20:ホスト計算機 22:出力装置

Claims (1)

    【特許請求の範囲】
  1. (1)処理データ格納手段(10)からの入力文字列を
    検索キーワードとして検索処理手段(12)により記録
    データベース(14)を検索して対応するデータを出力
    する検索システムに於いて、 入力文字列を構成する略称等に対応する正しい綴りの正
    式単語を格納した単語辞書(16)と;前記処理データ
    格納手段(10)から入力文字列をを単語単位に切り出
    し、各切り出し単語毎に前記単語辞書(16)から1又
    は複数の正式単語を検索し、該正式単語の組合せにより
    1又は複数の正規化文字列を作成して前記検索手段(1
    2)に出力する文字列正規化手段(18)と; を設けたことを特徴とする検索システムの入力文字列正
    規化方式。
JP1290714A 1989-11-08 1989-11-08 検索システムの入力文字列正規化方式 Expired - Fee Related JP2535629B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1290714A JP2535629B2 (ja) 1989-11-08 1989-11-08 検索システムの入力文字列正規化方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1290714A JP2535629B2 (ja) 1989-11-08 1989-11-08 検索システムの入力文字列正規化方式

Publications (2)

Publication Number Publication Date
JPH03150668A true JPH03150668A (ja) 1991-06-27
JP2535629B2 JP2535629B2 (ja) 1996-09-18

Family

ID=17759572

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1290714A Expired - Fee Related JP2535629B2 (ja) 1989-11-08 1989-11-08 検索システムの入力文字列正規化方式

Country Status (1)

Country Link
JP (1) JP2535629B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11272701A (ja) * 1998-03-23 1999-10-08 Oki Electric Ind Co Ltd 情報抽出装置
JPH11353316A (ja) * 1998-06-04 1999-12-24 Oki Electric Ind Co Ltd 省略語補完装置
US6469643B1 (en) 1999-10-28 2002-10-22 Fujitsu Limited Information processing system
US6738763B1 (en) 1999-10-28 2004-05-18 Fujitsu Limited Information retrieval system having consistent search results across different operating systems and data base management systems
CN113239054A (zh) * 2021-05-11 2021-08-10 北京百度网讯科技有限公司 信息生成方法、相关装置及计算机程序产品

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61267827A (ja) * 1985-05-23 1986-11-27 Matsushita Electric Ind Co Ltd 情報登録検索装置
JPH02181269A (ja) * 1989-01-05 1990-07-16 Toshiba Corp 住所認識方式

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61267827A (ja) * 1985-05-23 1986-11-27 Matsushita Electric Ind Co Ltd 情報登録検索装置
JPH02181269A (ja) * 1989-01-05 1990-07-16 Toshiba Corp 住所認識方式

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11272701A (ja) * 1998-03-23 1999-10-08 Oki Electric Ind Co Ltd 情報抽出装置
JPH11353316A (ja) * 1998-06-04 1999-12-24 Oki Electric Ind Co Ltd 省略語補完装置
US6469643B1 (en) 1999-10-28 2002-10-22 Fujitsu Limited Information processing system
US6738763B1 (en) 1999-10-28 2004-05-18 Fujitsu Limited Information retrieval system having consistent search results across different operating systems and data base management systems
CN113239054A (zh) * 2021-05-11 2021-08-10 北京百度网讯科技有限公司 信息生成方法、相关装置及计算机程序产品
CN113239054B (zh) * 2021-05-11 2024-05-07 北京百度网讯科技有限公司 信息生成方法及相关装置

Also Published As

Publication number Publication date
JP2535629B2 (ja) 1996-09-18

Similar Documents

Publication Publication Date Title
US4775956A (en) Method and system for information storing and retrieval using word stems and derivative pattern codes representing familes of affixes
CN101978348B (zh) 管理关于近似串匹配的档案
JP3160201B2 (ja) 情報検索方法、情報検索装置
US6876998B2 (en) Method for cross-linguistic document retrieval
JP4544674B2 (ja) 選択文字列に関連する情報を提供するシステム
US8027994B2 (en) Searching a multi-lingual database
US20070106500A1 (en) Multi-language document search and retrieval system
JP2742115B2 (ja) 類似文書検索装置
EP0378848A2 (en) Method for use of morphological information to cross reference keywords used for information retrieval
EP0241717A2 (en) Linguistic analysis method and apparatus
JP2693914B2 (ja) 検索システム
JPH03150668A (ja) 検索システムの入力文字列正規化方式
JPH08314947A (ja) キーワード自動抽出装置
JPH06348757A (ja) 文書検索装置および方法
JP3253657B2 (ja) 文書検索方法
JP2783622B2 (ja) 複合データベースシステム
JP2000231560A (ja) 文書自動分類方式
JP3016040B2 (ja) 自然言語処理システム
JP3325677B2 (ja) 文書検索装置
JP2002132789A (ja) 文書検索方法
JPH04340164A (ja) マルチキーワード情報検索処理方式および検索ファイル作成装置
Valantin CDS/ISIS and MINISIS: a functional analysis and comparison
WO1992009960A1 (en) Data retrieving device
JP2000311170A (ja) テキスト情報抽出方法
JPH04123264A (ja) 関連語テーブル作成装置及び文書検索装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees