JPH07105232A - 文字列検索方法 - Google Patents

文字列検索方法

Info

Publication number
JPH07105232A
JPH07105232A JP5250353A JP25035393A JPH07105232A JP H07105232 A JPH07105232 A JP H07105232A JP 5250353 A JP5250353 A JP 5250353A JP 25035393 A JP25035393 A JP 25035393A JP H07105232 A JPH07105232 A JP H07105232A
Authority
JP
Japan
Prior art keywords
character string
word
input
conversion
word dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5250353A
Other languages
English (en)
Inventor
Toshiyuki Iida
敏幸 飯田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP5250353A priority Critical patent/JPH07105232A/ja
Publication of JPH07105232A publication Critical patent/JPH07105232A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 片仮名からなる種々の表記の文字列が与えら
れても、単語辞書に登録されている対応する単語を適確
に検索することができる文字列検索方法を提供する。 【構成】 記憶装置3に記憶された文字列の変換規則3
1に基づいて、入出力装置1から与えられた片仮名から
なる文字列から表記可能な文字列を作成し、この文字列
を単語辞書34と比較して、与えられた文字列に対応す
る単語を単語辞書から検索する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文献検索システムや翻
訳システム等のような日本語処理システムに使用され、
片仮名からなる外来語等の文字列が単語辞書内の単語と
同一であるか否かを判定検索する文字列検索方法に関す
る。
【0002】
【従来の技術】文献検索システムや翻訳システムのよう
に日本語を処理するシステムにおいては、日本語で表現
された文や単語列に含まれる単語を扱えるかどうかを判
定する必要がある。従来は、システムが保持する単語の
辞書にその単語が登録されているか否かによって判定し
ていた。
【0003】外来語のように片仮名で表される単語、す
なわち片仮名および「・」や「=」等のような片仮名と
片仮名を接続する記号(以下、単に記号と称する)から
なる文字列である単語は、元の単語の読みを片仮名で表
現するために、表記方法が通常は1つには定まらない。
例えば、英語の「processor」という単語は
「プロセサ」、「プロセッサ」、「プロセサー」、「プ
ロセッサー」のようにいくつもの表現が可能である。外
来語の表記に関するよりどころとして、例えば官報の告
示(平成3年6月28日号外第95号)があり、公共の
機関の文書は統一されている可能性はあるが、一般には
統一されていない。上記日本語を処理するシステムにお
いて、複数個ある表記を扱えるようにするためには、単
語辞書に可能なすべての表記をそれぞれ個別の単語とし
て登録しておく必要があった。
【0004】
【発明が解決しようとする課題】上述したように、片仮
名からなる外来語等の文字列は表記方法が必ずしも統一
されてなく、複数の表記方法があるものがあるが、これ
らの複数の表記の単語を単語辞書に登録すると、単語辞
書の規模が大きくなるばかりでなく、予期しない表記の
単語を与えられると、未知語として処理されてしまうと
いう問題がある。
【0005】本発明は、上記に鑑みてなされたもので、
その目的とするところは、片仮名からなる種々の表記の
文字列が与えられても、単語辞書に登録されている対応
する単語を適確に検索することができる文字列検索方法
を提供することにある。
【0006】
【課題を解決するための手段】上記目的を達成するた
め、本発明の文字列検索方法は、文字列の変換規則に基
づいて、片仮名および片仮名と片仮名とを接続する記号
からなる所与の文字列から表記可能な文字列を作成し、
この作成された文字列を単語辞書と比較することによ
り、前記所与の文字列に対応する単語を単語辞書から検
索することを要旨とする。
【0007】
【作用】本発明の文字列検索方法では、文字列の変換規
則に基づいて、片仮名からなる所与の文字列から表記可
能な文字列を作成し、この文字列を単語辞書と比較し
て、所与の文字列に対応する単語を単語辞書から検索す
ることができる。
【0008】
【実施例】以下、図面を用いて本発明の実施例を説明す
る。
【0009】図1は、本発明の一実施例に係わる文字列
検索方法を実施するシステムの構成を示すブロック図で
ある。図1において、1は単語を入力したり処理結果を
表示するための入出力装置、2は入出力装置1に入力さ
れた単語を受け取ったり、処理結果を入出力装置に表示
出力するための入出力制御機構21と本発明に関わる文
字列検索機構22から構成される制御装置、3は単語辞
書検索機構22の処理に必要な規則や変換の途中で生成
された文字列データを格納する記憶装置である。文字列
検索機構22は記憶装置3に格納された変換規則31、
変換禁止規則32を読み込み、作成された表記可能な文
字列データを生成語テーブル33に格納し、単語辞書3
4中の単語と比較し、合致すれば入出力機構21を通し
て入出力装置1に表示出力する。
【0010】図3は、図1の変換規則31の一実施例の
詳細を示したものである。方向の欄が0の場合は文字列
1を文字列2で変換できることを、1の場合は文字列1
を文字列2で変換できることと、文字列2を文字列1で
変換できることを示している。
【0011】図4は、図1の変換禁止規則32の一実施
例の詳細を示したものである。位置の欄が空白の場合、
文字列の欄の文字列が変換後の文字列に現われてはなら
ないことを示している。位置の欄が末尾か先頭の場合、
文字列の欄の文字列が変換後の文字列のそれぞれの末尾
か先頭に現われてはならないことを示している。
【0012】図5は、図1の生成語テーブル33の一実
施例の詳細を示したものである。
【0013】図2は図1における文字列検索機構21の
処理動作のフローチャートを示したものである。
【0014】入出力機構から文字列検索機構22に対
し、文字列「ウィンドー」が与えられた場合を例にとっ
て、図2のフローチャートに従って説明する。なお、変
換規則と変換禁止規則はそれぞれ図3と図4の通りであ
る。また、単語辞書には英単語「window」に対し
て「ウインドウ」のみが入っているものとする。
【0015】文字列検索機構に「ウィンドー」が与えら
れると、この文字列を生成語テーブルの先頭に格納し、
この文字列に着目するように初期設定する(ステップ1
01)。この文字列の先頭の文字「ウ」に着目し(ステ
ップ102)、更に先頭の変換規則に着目する(ステッ
プ103)。変換規則番号1の文字列1は2文字であり
ステップ102で着目した文字と次の文字「イ」の並び
が変換規則の文字列1の文字列と一致するかを調べる
(ステップ104)。一致するので変換規則が適用でき
る。変換規則を適用して生成された語は変換禁止規則に
合致しないので(ステップ105)、生成された語が生
成語テーブルにあるか調べる(ステップ106)。生成
語テーブルには「ウィンドー」しかないので、次に単語
辞書の中に「ウインドー」があるか調べ(ステップ10
7)、単語辞書にはないので生成語テーブルに「ウイン
ドー」を登録する(ステップ108)。
【0016】次に、次の変換規則があるかを調べる(ス
テップ109)。次の変換規則があるので、2番目の変
換規則に着目し(ステップ110)、ステップ104に
戻る。先頭の文字「ウ」に対してすべての変換規則につ
いて調べ終わると、次の文字があるかを調べる(ステッ
プ111)。次に、「ウィンドー」の2番目の文字
「イ」に着目し(ステップ112)、ステップ103に
戻る。「ウィンドー」の最後の文字「ー」についてすべ
ての変換規則を調べ終わると、「ウインドー」、「ウィ
ーンドー」、「ウィンードー」、「ウィンドウ」、「ウ
ィンド」の5種類の文字列が生成語テーブルに登録され
る。変換規則番号3により、「ウーィンドー」と「ウィ
ンドー」の2つの文字列が生成されるが、変換禁止規則
に合致するために生成語テーブルには登録されない。生
成語テーブルに次の単語があるかを調べ(ステップ11
3)、2番目の文字列「ウインドー」に着目し(ステッ
プ114)、ステップ102に戻る。「ウインドー」か
らは、まず、「ウィンドー」が生成されるが、生成語テ
ーブルの第1番目の文字列と一致するために、生成語テ
ーブルには登録されない。このようにして、「ウーイン
ドー」、「ウイーンドー」、「ウインードー」が生成語
テーブルに登録され、次に生成される「ウインドウ」が
単語辞書中にあるので、処理を終了し、最初に与えられ
た文字列「ウィンドー」が「ウインドウ」と一致するこ
とを入出力制御機構に返す。
【0017】以上説明したように、本実施例の文字列検
索方法では、変換規則と変換禁止規則に従って与えられ
た片仮名と記号からなる文字列から表記可能な文字列を
生成し、これをもとに単語辞書の中の単語と比較するこ
とにより単語辞書に登録された単語に対応づけることが
できる。本実施例では無駄な文字列の生成をしないよう
に変換禁止規則を利用したが、この変換禁止規則を利用
しなくとも、多少効率は落ちるが、同様の処理が可能で
ある。
【0018】なお、本発明は図1〜図5を用いて説明し
た実施例に限定されるものではない。また、本実施例で
は片仮名と記号だけから構成された単語の処理方法につ
いて説明したが、「ディジタル信号」のように漢字や平
仮名が混ざった単語についても、その単語から連続した
片仮名の部分を抽出することにより、「デジタル信号」
と合致することが判定可能となる。
【0019】
【発明の効果】以上説明したように、本発明によれば、
文字列の変換規則に基づいて、片仮名からなる所与の文
字列から表記可能な文字列を作成し、この文字列を単語
辞書と比較して、所与の文字列に対応する単語を単語辞
書から検索するので、外来語のすべての読みを単語辞書
に登録する必要がなく、1つまたは小数の読みを登録し
ておけばよいため、単語辞書の規模を小さくすることが
できるとともに、また予期しない表記に対しても柔軟に
対応することができる。
【図面の簡単な説明】
【図1】本発明の一実施例に係わる文字列検索方法を実
施するシステムの構成を示すブロック図である。
【図2】図1のシステムに使用されている文字列検索機
構の作用を示すフローチャートである。
【図3】図1のシステムに使用されている変換規則の一
例を示す図である。
【図4】図1のシステムに使用されている変換禁止規則
の一例を示す図である。
【図5】図1のシステムに使用されている生成語テーブ
ルの一例を示す図である。
【符号の説明】
1 入出力装置 2 制御装置 3 記憶装置 21 入出力制御機構 22 文字列検索機構 31 変換規則 32 変換禁止規則 33 生成語テーブル 34 単語辞書
フロントページの続き (51)Int.Cl.6 識別記号 庁内整理番号 FI 技術表示箇所 G06F 17/28 7315−5L G06F 15/20 590 E 8125−5L 15/38 C

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 文字列の変換規則に基づいて、片仮名お
    よび片仮名と片仮名とを接続する記号からなる所与の文
    字列から表記可能な文字列を作成し、この作成された文
    字列を単語辞書と比較することにより、前記所与の文字
    列に対応する単語を単語辞書から検索することを特徴と
    する文字列検索方法。
  2. 【請求項2】 前記文字列を作成するステップは、前記
    文字列の変換規則に加えて、文字列の変換禁止規則も参
    照して、表記可能な文字列を作成することを特徴とする
    請求項1記載の文字列検索方法。
JP5250353A 1993-10-06 1993-10-06 文字列検索方法 Pending JPH07105232A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5250353A JPH07105232A (ja) 1993-10-06 1993-10-06 文字列検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5250353A JPH07105232A (ja) 1993-10-06 1993-10-06 文字列検索方法

Publications (1)

Publication Number Publication Date
JPH07105232A true JPH07105232A (ja) 1995-04-21

Family

ID=17206660

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5250353A Pending JPH07105232A (ja) 1993-10-06 1993-10-06 文字列検索方法

Country Status (1)

Country Link
JP (1) JPH07105232A (ja)

Similar Documents

Publication Publication Date Title
JPH08314910A (ja) 異種コード文字列転記装置および電子辞書
JPH07105232A (ja) 文字列検索方法
JPH08339376A (ja) 外国語検索装置及び情報検索システム
JPS58123129A (ja) 仮名漢字変換装置
JPH08115330A (ja) 類似文書検索方法および装置
JP2002073656A (ja) 異表記正規化処理・異表記展開処理方法および該処理方法による文書検索方法、該処理装置および文書検索装置並びにプログラム記録媒体
JP3285149B2 (ja) 外国語電子辞書検索方法及び装置
JPS63278174A (ja) 翻訳装置
JPS6211385B2 (ja)
JPS58123126A (ja) 辞書検索装置
JP3585944B2 (ja) データ処理方法及びその装置
JP3273778B2 (ja) 仮名漢字変換装置及び仮名漢字変換方法
JP3045886B2 (ja) 手書き入力機能付き文字処理装置
JPH0785040A (ja) 表記不統一検出方法およびかな漢字変換方法
JPH05189414A (ja) 文書作成装置及び方式
JP3048793B2 (ja) 文字変換装置
JPS60189573A (ja) 文字変換装置
JP2003178263A (ja) 文字認識装置及び記録媒体
JPH02136970A (ja) 英単語検索装置
JPH07168848A (ja) 単語辞書検索装置
JPH05324610A (ja) 住所表記漢字入力装置
JPS6275761A (ja) 文字列処理装置
JPH0695330B2 (ja) 文書作成装置
JPH08263472A (ja) 文章検索方法及び装置
JPH02289028A (ja) 異種文字列変換機能付き手書き文字認識装置