JPH09305594A - 単語辞書、この単語辞書を作成するための辞書作成方法及び装置、この単語辞書を用いた文字列検索方法 - Google Patents

単語辞書、この単語辞書を作成するための辞書作成方法及び装置、この単語辞書を用いた文字列検索方法

Info

Publication number
JPH09305594A
JPH09305594A JP8120476A JP12047696A JPH09305594A JP H09305594 A JPH09305594 A JP H09305594A JP 8120476 A JP8120476 A JP 8120476A JP 12047696 A JP12047696 A JP 12047696A JP H09305594 A JPH09305594 A JP H09305594A
Authority
JP
Japan
Prior art keywords
kanji
identification number
dictionary
character string
heading
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8120476A
Other languages
English (en)
Inventor
Toshiya Tamura
俊哉 田村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP8120476A priority Critical patent/JPH09305594A/ja
Publication of JPH09305594A publication Critical patent/JPH09305594A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】辞書容量を増大させることなく、また、変換効
率を低下することなく、漢字混じりかな文字列を検索可
能とする。 【解決手段】漢字とその漢字に対応する読みの組合せ毎
に識別番号が割り当てられた状態テーブル11と、この
状態テーブルの上記識別番号によって登録語の見出しと
読みが記述された見出しテーブル12とからなる単語辞
書を作成しておく。変換対象となる漢字混じり文字列が
入力されたときに、状態テーブル11を参照して当該入
力文字列を識別番号列に置き換え、この識別番号列に基
づいて見出しテーブル12から当該入力文字列を検索す
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、例えば日本語ワー
ドプロセッサや、ワープロソフトを搭載したパーソナル
コンピュータ等の文書作成装置において、漢字混じりか
な文字列を入力とした漢字混じりかな漢字変換処理等の
日本語処理に用いられる単語辞書、この単語辞書の作成
するための辞書作成方法及び装置、この単語辞書を用い
た文字列検索方法に関する。
【0002】
【従来の技術】従来、例えば日本語ワードプロセッサ
や、ワープロソフトを搭載したパーソナルコンピュータ
等の文書作成装置では、かな漢字変換の対象となる漢字
混じりかな文字列が入力されたとき、読みとそれに対応
する見出し語(変換語)が登録された単語辞書の中から
該当する文字列を検索するこにより、かな漢字変換を行
うものがある。
【0003】漢字混じりかな文字列とは、例えば「すず
虫」といったように入力文字列の中に漢字が含まれるも
のであり、その入力方法としては手書き入力方式や、漢
字入力可能なキーボード等がある。
【0004】ここで、このような漢字混じりかな文字列
を入力とした単語辞書の検索では、文献「情報処理学会
論文誌,Vol.33 No.7,1992」で報告さ
れているように、入力文字列中の漢字を一旦ある特定の
代表的な読みに置換し、かな文字列に直して検索する方
法や、文献「情報処理学会論文誌,Vol.35 N
o.6,1994」で報告されているように、漢字表記
を含む単語を登録した単語辞書を用い、入力された漢字
混じりかな文字列を直接検索する方法が採られていた。
【0005】
【発明が解決しようとする課題】上記したように、従
来、漢字混じりかな文字列を入力とした単語辞書の検索
では、入力文字列中の漢字を一旦ある特定の代表的な読
みに直して検索する方法や、漢字表記を含む単語を登録
した単語辞書を用いて入力文字列(漢字混じりかな文字
列)の漢字部分を読みに戻さずに直接検索する方法が採
られていた。
【0006】しかしながら、前者の方法では、例えば
「文じ」を「もじ」といったように、漢字を代表的な読
みに置換するため、その読みの選び方によっては存在し
えない表記が検索されることがある。
【0007】例えばユーザが「文字」という単語を意識
して「文じ」といった漢字混じりかな文字列を入力した
場合において、その入力文字列の漢字部分「文」を「ぶ
ん」にして、「ぶんじ」といった読みに置換してしまう
と、所望の変換結果が得られなくなる。
【0008】なお、このような問題を解決するため、入
力文字列の漢字部分を正しい読みに直すためのルールを
適用する方法がある。しかしながら、このようなルール
を適用すると、常にルールとの照合を必要とするため、
検索効率が著しく低下する問題がある。
【0009】一方、後者の方法は、単語辞書において、
例えば「文字」といった見出し語に対し、「もじ」だけ
でなく、「文じ」、「も字」といった漢字表記の検索イ
ンデックスも対応付けておく方法である。このため、同
じ単語であっても表記が異なるもの全てを単語辞書に登
録しておく必要があり、辞書容量が増大するといった問
題がある。
【0010】なお、このような漢字混じりかな文字列を
入力とした単語辞書の検索は、上述したようなかな漢字
変換処理に限らず、例えば日英翻訳等の翻訳処理でも行
われる。日英翻訳では、入力(読み)を日本語、出力
(見出し語)を英語とした単語辞書が用いられる。
【0011】本発明は上記のような点に鑑みなされたも
ので、辞書容量を増大させることなく、また、変換効率
を低下することなく、漢字混じりかな文字列を検索可能
な日本語処理用の単語辞書、この単語辞書を作成するた
めの辞書作成方法及び装置、この単語辞書を用いた文字
列検索方法を提供することを目的とする。
【0012】
【課題を解決するための手段】
(1)本発明の単語辞書は、漢字とその漢字に対応する
読みの組合せ毎に識別番号が割り当てられた状態テーブ
ルと、この状態テーブルの上記識別番号によって登録語
の見出しと読みが記述された見出しテーブルとを具備し
たものである。
【0013】このような単語辞書によれば、漢字かな混
じりかな文字列を検索可能にするためのかな文字列用、
漢字混じりかな文字列用のそれぞれの付加的なインデッ
クスを必要としないため、辞書容量の増加を抑制するこ
とができる。また、漢字を特定の読みに変換する必要が
なく、不確かな単語検索の可能性を削減することが可能
である。
【0014】(2)本発明の辞書作成方法は、漢字とそ
の漢字に対応する読みを持った漢字辞書を参照して、漢
字とその漢字に対応する読みの組合せ毎に識別番号を割
り当て、登録語の見出しと読みを上記識別番号によって
記述するものである。
【0015】このような辞書作成方法によれば、上述し
た状態テーブルと見出しテーブルとからなる単語辞書を
既存の漢字辞書から自動的に作成することが可能であ
る。 (3)本発明の辞書作成装置は、漢字とその漢字に対応
する読みを持った漢字辞書と、この漢字辞書を参照し
て、漢字とその漢字に対応する読みの組合せ毎に識別番
号を割り当てる状態テーブル作成手段と、登録語の見出
しと読みを上記識別番号によって記述する見出しテーブ
ル作成手段とを具備したものである。
【0016】このような辞書作成装置によれば、上述し
た状態テーブルと見出しテーブルとからなる単語辞書を
既存の漢字辞書から自動的に作成することが可能であ
る。 (4)本発明の文字列検索方法は、漢字とその漢字に対
応する読みの組合せ毎に識別番号が割り当てられた状態
テーブルと、この状態テーブルの上記識別番号によって
登録語の見出しと読みが記述された見出しテーブルとか
らなる単語辞書を有し、変換対象となる漢字混じり文字
列が入力されたときに、上記単語辞書の上記状態テーブ
ルを参照して当該入力文字列を識別番号列に置き換え、
この識別番号列に基づいて上記見出しテーブルから当該
入力文字列を検索するものである。
【0017】このような文字列検索方法によれば、上述
した状態テーブルと見出しテーブルとからなる単語辞書
を用いて、入力された漢字混じりかな文字列を特に付加
的な専用の検索インデックスを必要とせずに検索するこ
とが可能である。
【0018】(5)本発明の文字列検索方法は、漢字と
その漢字に対応する読みの組合せ毎に識別番号が割り当
てられた状態テーブルと、この状態テーブルの上記識別
番号によって登録語の見出しと読みが記述された見出し
テーブルとからなる単語辞書を有し、変換対象となる漢
字混じり文字列が入力されたときに、上記単語辞書の上
記状態テーブルを参照して当該入力文字列を識別番号列
に置き換え、この識別番号列に基づいて上記見出しテー
ブルから当該入力文字列を検索し、その検索の際に、上
記見出しテーブルに登録されていない識別番号列があれ
ば、その識別番号列を組合せテーブルに格納しておき、
以後、上記状態テーブルを参照して入力文字列を識別番
号列に置き換えたときに、その識別番号列の候補の中か
ら上記組合せテーブルに格納された識別番号列を除くも
のである。
【0019】このような文字列検索方法によれば、上述
した状態テーブルと見出しテーブルとからなる単語辞書
を用いて、入力された漢字混じりかな文字列を特に付加
的な専用の検索インデックスを必要とせずに検索するこ
とが可能であり、さらに辞書に登録されていない識別番
号列に置換する機会を削減することができるので、効率
良く検索することが可能である。
【0020】
【発明の実施の形態】以下、図面を参照して本発明の一
実施形態を説明する。まず、本発明の単語辞書の構成に
ついて説明する。図1は本発明の単語辞書の一実施形態
を示したものである。ここでは、漢字混じりかな文字列
を変換対象として、その入力文字列をかな漢字変換する
ための単語辞書を例として説明する。本発明の単語辞書
は、図1に示すように、状態テーブル11と見出しテー
ブル12とからなる。
【0021】状態テーブル11は、漢字とその漢字に対
応する読みの組合せ毎に識別番号を割り当てたテーブル
である。例えば「字」という単語に関しては、「じ」と
「あざ」といった読みがあり、「字/じ」には識別番号
「00x00ab」、「字/あざ」には識別番号「00
x00ac」が割り当てられている。同様に、「文」と
いう単語に関しては、「ぶん」と「も」といった読みが
あり、「文/ぶん」には識別番号「0x0100」、
「文/も」には識別番号「0x0101」が割り当てら
れている。
【0022】見出しテーブル12は、登録語の見出しと
読みを状態テーブル11の識別番号を用いて記述し、か
つ、登録語を識別番号によってソートしたテーブルあ
る。例えば「文字」という単語に関しては、見出しが
「文字」、読みが「もじ」であり、漢字と読みの対応は
「文/も」,「字/じ」である。状態テーブル11にお
いて、「文/も」には識別番号「0x0101」、「字
/じ」には識別番号「0x00ab」がそれぞれ割り当
てられているので、見出しテーブル12ではこの識別番
号を用いて、「0x0101,0x00ab」という識
別番号列で記述されている。
【0023】図2は本発明の単語辞書及び文字列検索方
法を用いた文書作成装置の一実施形態を示したブロック
図である。入力装置101は、手書きタブレット等から
得られる座標から手書き文字を認識することで漢字混じ
りかな文字列を入力することができ、入力情報を文字コ
ードとして出力する装置である。なお、この入力装置1
01としては、例えば漢字入力可能なキーボードでも良
い。
【0024】表示装置116は、CRT (Cathode Ray
Tube) 、LCD (Liquid Crystal Display) 等の画面表
示装置であり、利用者はこれらにより対話的に文書の作
成作業を進めることができる。
【0025】入力制御部102は、入力装置101から
入力される文字データを入力バッファ103に変換処理
待ちなどの間一旦バッファリングして漢字混じりかな文
字列を作り、それを辞書検索部105へと送る。
【0026】単語辞書109は、図1に示すように、漢
字とその漢字に対応する読みの組合せ毎に割り当てられ
た識別番号を格納した状態テーブル11と、この状態テ
ーブル11の識別番号を用いて登録語の見出しと読みが
記述され、かつ、登録語が識別番号によってソートされ
た見出しテーブル12で構成されている。
【0027】組合せテーブル108は、単語辞書109
に未登録であることが既知である識別番号列を格納した
テーブルである。表記変換部106は、単語辞書109
の状態テーブル11と組合せテーブル108を参照し
て、辞書登録されていないことが既知である識別番号列
(組合せテーブル108に格納された識別番号列)を除
いて、入力された漢字混じりかな文字列を識別番号列に
置換し、置換可能な全ての識別番号列の候補を変換バッ
ファ107に格納する。検索の際に、辞書登録されてい
ない識別番号列の組合せがあれば、それを組合せテーブ
ル108に格納する。
【0028】辞書検索部105は、入力制御部102か
らの漢字混じりかな文字列を受け取ると、表記変換部1
06に指示してそれを識別番号列に置換する。そして、
変換バッファ107に格納された全ての識別番号列の候
補について単語辞書109の見出しテーブル12を検索
し、辞書検索結果を変換制御部110へと送る。
【0029】変換制御部110は、接続評価部111に
指示して辞書検索部105によって検索された単語の接
続判定を行い、接続可能と判定された変換候補の識別番
号列を単語辞書109の状態テーブル11を参照して、
見出しに置換して候補バッファ112に格納する。続い
て、変換候補を呈示して利用者に候補選択処理を促し、
利用者によって選択された変換候補を文書バッファ11
3に格納する。
【0030】表示制御部114は、文書バッファ113
に格納されたデータを予め書式設定部104にて設定さ
れた書式に従って表示用バッファ115に展開し、表示
装置116へと送る。
【0031】次に、同実施形態の動作を説明する。図3
は本発明の単語辞書及び文字列検索方法を用いた文書作
成装置の一実施形態における文字入力から変換候補の選
択までの処理の流れを示したフローチャートである。ま
ず、入力装置101を通じて変換対象となる漢字混じり
かな文字列を1文字ずつ入力する(ステップ201)。
この入力装置101から入力された文字データは、入力
制御部102において入力バッファ103にバッファリ
ングされて文字列を形成し、それが変換対象となった後
に辞書検索部105へと送られる(ステップ202、2
03)。
【0032】辞書検索部105は、入力文字列を受け取
ると、その表記を変換するように表記変換部106に指
示する。この指示により、表記変換部106は単語辞書
109の状態テーブル11を参照して、当該入力文字列
を識別番号列に置き換えて変換バッファ107に格納す
る(ステップ204〜206)。その際、表記変換部1
06は単語辞書109の組合せテーブル108を参照す
ることにより、識別番号列の候補の中から単語辞書10
9に登録されていない識別番号列を除くようにする。
【0033】続いて、辞書検索部105は、変換バッフ
ァ107に格納された全ての識別番号列について単語辞
書109の見出しテーブル12を検索する。このとき、
単語辞書109の見出しテーブル12に未登録の識別番
号列があれば、その識別番号列を組合せテーブル108
に格納して、以後、その識別番号列を除くようにする
(ステップ207〜210)。
【0034】辞書検索が終了すると、変換制御部110
は検索された全ての識別番号列の接続判定を行う(ステ
ップ211)。その結果、接続可能な識別番号列に関
し、変換制御部110は単語辞書109の状態テーブル
11を参照して、その識別番号列を見出しに置き換え、
これを候補バッファ112に格納する(ステップ21
2、213)。
【0035】続いて、変換候補を表示して利用者の候補
選択処理を待つ(ステップ214)。利用者によって選
択された候補は文書バッファ113に格納される(ステ
ップ215)。表示制御部114は、この文書バッファ
113に格納された候補を書式設定部104にて予め設
定された書式に従って画面表示する(ステップ21
6)。さらに、次の入力・変換処理に備えて各バッファ
が初期化される(ステップ217)。
【0036】ここで、本発明の文字列検索方法を具体例
を挙げて説明する。図4(a)、(b)は漢字とその漢
字に対応する読みの組合せ毎に識別番号が割り当てられ
た状態テーブル11と、その識別番号を用いて登録語の
見出しと読みを記述した見出しテーブル12から構成さ
れた単語辞書109を示したものである。
【0037】同図(c)は単語辞書109に登録されて
いないことが既知である識別番号列を格納した組合せテ
ーブル108を示したものである。初期状態(t=t)
において、この組合せテーブル108には何も格納され
ていない。
【0038】同図(d)は入力装置101により入力さ
れた漢字混じりかな文字列である。漢字混じりかな文字
列が入力されると、表記変換部106は単語辞書109
の状態テーブル11と組合せテーブル108を参照し
て、入力された漢字混じりかな文字列を識別番号列に置
き換える。
【0039】同図(e)は置き換え可能な全ての識別番
号列が格納された変換バッファ107を示したものであ
る。辞書検索部105は、変換バッファ107に格納さ
れた識別番号列について単語辞書109の見出しテーブ
ル12を検索する。検索された識別番号列は変換制御部
110に送られ、接続評価部111において接続判定さ
れる。接続可能と判定された識別番号列は変換制御部1
10にて見出しに置換され、変換候補として候補バッフ
ァ112に格納される。
【0040】同図(f)は変換候補が格納された候補バ
ッファ112を示したものである。また、辞書検索部1
05における検索の結果、単語辞書109に未登録であ
った識別番号列は組合せテーブル108に格納される。
【0041】同図(g)は未登録の識別番号を格納した
組合せテーブル108を示したものである。例えば「文
じ」といった漢字混じりかな文字列の入力では、「文」
を「ぶん」と読んだ場合と「も」と読んだ場合とで、
「0x0100,0x00ab」(文/ぶん,字/じ)
といった識別番号列と、「0x0101,0x00a
b」(文/も,字/じ)といった識別番号列が得られ
る。
【0042】ここで、初期状態には組合せテーブル10
8は空なので、上記2つの識別番号列は共に変換バッフ
ァ107に格納され、接続判定により、「0x010
1,0x00ab」(文/も,字/じ)といった識別番
号列が選ばれる。その際、もう一方の識別番号列「0x
0100,0x00ab」(文/ぶん,字/じ)」は単
語辞書109にはないので、未登録語として組合せテー
ブル108に格納される。
【0043】これにより、以降の検索において、例えば
「文字」、「文じ」、「ぶん字」といったように、「0
x0100,0x00ab」という識別番号列に置き換
え可能な文字列が入力された場合でも、その入力文字列
は「0x0100,0x00ab」という識別番号列に
置き換えられることはない。言い換えれば、不必要な識
別番号列を除いて検索処理を行うことができるものであ
り、処理の高速化を図ることができる。
【0044】次に、本発明の辞書作成装置について説明
する。図5は本発明の辞書作成装置の一実施形態を示し
たブロック図である。この辞書作成装置は、図1に示す
ような状態テーブル11と見出しテーブル12からなる
単語辞書を作成するための装置である。状態テーブル1
1は、漢字とその漢字に対応する読みの組合せ毎に識別
番号を割り当てたテーブルである。見出しテーブル12
は、登録語の見出しと読みを状態テーブル11の識別番
号を用いて記述したテーブルある。
【0045】図5において、入力部301は、指定され
た辞書ファイルをオープンして、作成対象となる単語辞
書の情報を入力バッファ302に読み出す。漢字辞書3
05は、漢字とその漢字に対応する読みに関する情報を
持った辞書である。状態テーブル作成部304は、入力
された単語辞書の情報と漢字辞書305の情報を参照し
て、単語辞書の全ての登録語に含まれる漢字とその漢字
に対応する読みの組合せに識別番号を付与して状態テー
ブル306に格納する。
【0046】見出しテーブル作成部307は、単語辞書
の全ての登録語について、状態テーブル306を参照し
て見出しを識別番号列に置き換え、これを見出しテーブ
ル308に格納する。辞書作成部303は、状態テーブ
ル作成部304、見出しテーブル作成部307に指示し
て作成した状態テーブル306、見出しテーブル308
を結合して単語辞書を作成し、その情報を出力バッファ
309に格納する。出力部310は、出力バッファ30
9に格納された辞書情報を辞書ファイルに書き込み、出
力する。
【0047】次に、辞書作成処理の動作を説明する。図
6は本発明の辞書作成装置の一実施形態における辞書フ
ァイルの読み出しから辞書ファイルの書き込みまでの処
理の流れを示したフローチャートである。入力部301
において、指定された辞書ファイルがオープンされ(ス
テップ401)、作成対象となる単語辞書の情報が入力
バッファ302に読み出される(ステップ402)。
【0048】ここで、辞書作成部303は、状態テーブ
ル作成部304に状態テーブル306の作成を指示す
る。これにより、状態テーブル作成部304は入力バッ
ファ302に格納された単語辞書の情報と漢字辞書30
5の情報から、全ての漢字とその漢字に対応する読みを
重複しないように状態テーブル306に格納した後(ス
テップ403〜405)、その漢字と読みの組合せに識
別番号を付与する(ステップ406)。
【0049】続いて、辞書作成部303は見出しテーブ
ル作成部307に見出しテーブル308の作成を指示す
る。これにより、見出しテーブル作成部307は入力バ
ッファ302に格納された単語辞書の全ての登録語につ
いて上記状態テーブル306を参照して見出しと読みを
併合した識別番号列に置き換え、これを見出しテーブル
308に格納する(ステップ407〜409)。
【0050】次に、辞書作成部303は状態テーブル3
06と見出しテーブル308を結合し、それを辞書情報
として出力バッファ309に格納する(ステップ41
0)。出力部310では、出力バッファ309に格納さ
れた辞書情報を辞書ファイルに書き込んだ後(ステップ
411)、その辞書ファイルをクローズする(ステップ
412)。
【0051】このようにして、漢字とその漢字に対応す
る読みの組合せ毎に識別番号が割り当てられた状態テー
ブルと、その識別番号によって登録語の見出しと読みが
記述された見出しテーブルとからなる単語辞書が作成さ
れ、以後、この単語辞書を用いて上述したような文字列
検索を行うことができる。
【0052】なお、本発明は、漢字混じりかな漢字変換
や形態素・構文・意味解析等の単語辞書及び文字列検索
を要する日本語処理技術において応用可能である。既存
の文章を解析する場合において、どの部分を漢字表記す
るかは書き手に依存してくるものであり、漢字混じりか
な文字列の辞書検索は必至である。本発明によって、単
語辞書の容量を増大させることなく、入力文字列(漢字
混じりかな文字列)を効率良く検索することが可能とな
り、その結果、各種解析の処理効率を向上させることが
できるものである。
【0053】
【発明の効果】以上のように本発明の単語辞書によれ
ば、漢字とその漢字に対応する読みの組合せ毎に識別番
号が割り当てられた状態テーブルと、この状態テーブル
の上記識別番号によって登録語の見出しと読みが記述さ
れた見出しテーブルとを有することにより、漢字かな混
じりかな文字列を検索可能にするためのかな文字列用、
漢字混じりかな文字列用のそれぞれの付加的なインデッ
クスを必要とせず、辞書容量の増加を抑制することがで
きる。また、漢字を特定の読みに変換する必要がなく、
不確かな単語検索の可能性を削減することができる。
【0054】また、本発明の辞書作成方法及び装置によ
れば、漢字とその漢字に対応する読みを持った漢字辞書
を参照して、漢字とその漢字に対応する読みの組合せ毎
に識別番号を割り当て、登録語の見出しと読みを上記識
別番号によって記述することにより、上述した状態テー
ブルと見出しテーブルとからなる単語辞書を既存の漢字
辞書から自動的に作成することができる。
【0055】また、本発明の文字列検索方法は、漢字と
その漢字に対応する読みの組合せ毎に識別番号が割り当
てられた状態テーブルと、この状態テーブルの上記識別
番号によって登録語の見出しと読みが記述された見出し
テーブルとからなる単語辞書を有し、変換対象となる漢
字混じり文字列が入力されたときに、上記単語辞書の上
記状態テーブルを参照して当該入力文字列を識別番号列
に置き換え、この識別番号列に基づいて上記見出しテー
ブルから当該入力文字列を検索することにより、上述し
た状態テーブルと見出しテーブルとからなる単語辞書を
用いて、入力された漢字混じりかな文字列を特に付加的
な専用の検索インデックスを必要とせずに検索すること
ができる。
【0056】また、本発明の文字列検索方法は、漢字と
その漢字に対応する読みの組合せ毎に識別番号が割り当
てられた状態テーブルと、この状態テーブルの上記識別
番号によって登録語の見出しと読みが記述された見出し
テーブルとからなる単語辞書を有し、変換対象となる漢
字混じり文字列が入力されたときに、上記単語辞書の上
記状態テーブルを参照して当該入力文字列を識別番号列
に置き換え、この識別番号列に基づいて上記見出しテー
ブルから当該入力文字列を検索し、その検索の際に、上
記見出しテーブルに登録されていない識別番号列があれ
ば、その識別番号列を組合せテーブルに格納しておき、
以後、上記状態テーブルを参照して入力文字列を識別番
号列に置き換えたときに、その識別番号列の候補の中か
ら上記組合せテーブルに格納された識別番号列を除くこ
とにより、上述した状態テーブルと見出しテーブルとか
らなる単語辞書を用いて、入力された漢字混じりかな文
字列を特に付加的な専用の検索インデックスを必要とせ
ずに検索することができ、さらに辞書に登録されていな
い識別番号列に置換する機会を削減することができるの
で、効率良く検索することが可能である。
【図面の簡単な説明】
【図1】本発明の単語辞書の一実施形態を示した図。
【図2】本発明の単語辞書及び文字列検索方法を用いた
文書作成装置の一実施形態を示したブロック図。
【図3】上記文書作成装置の一実施形態における文字入
力から変換候補の選択までの処理の流れを示したフロー
チャート。
【図4】本発明の文字列検索方法を説明するための具体
例。
【図5】本発明の辞書作成装置の一実施形態を示したブ
ロック図。
【図6】上記辞書作成装置の一実施形態における辞書フ
ァイルの読み出しから辞書ファイルの書き込みまでの処
理の流れを示したフローチャート。
【符号の説明】
11…状態テーブル 12…見出しテーブル 101…入力装置 102…入力制御部 103…入力バッファ 104…書式設定部 105…辞書検索部 106…表記変換部 107…変換バッファ 108…組合せテーブル 109…単語辞書 110…変換制御部 111…接続評価部 112…候補バッファ 113…文書バッファ 114…表示制御部 115…表示用バッファ 116…表示装置

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 漢字とその漢字に対応する読みの組合せ
    毎に識別番号が割り当てられた状態テーブルと、 この状態テーブルの上記識別番号によって登録語の見出
    しと読みが記述された見出しテーブルとを具備したこと
    を特徴とする単語辞書。
  2. 【請求項2】 漢字とその漢字に対応する読みを持った
    漢字辞書を参照して、漢字とその漢字に対応する読みの
    組合せ毎に識別番号を割り当て、 登録語の見出しと読みを上記識別番号によって記述する
    ことを特徴とする辞書作成方法。
  3. 【請求項3】 漢字とその漢字に対応する読みを持った
    漢字辞書と、 この漢字辞書を参照して、漢字とその漢字に対応する読
    みの組合せ毎に識別番号を割り当てる状態テーブル作成
    手段と、 登録語の見出しと読みを上記識別番号によって記述する
    見出しテーブル作成手段とを具備したことを特徴とする
    辞書作成装置。
  4. 【請求項4】 漢字とその漢字に対応する読みの組合せ
    毎に識別番号が割り当てられた状態テーブルと、 この状態テーブルの上記識別番号によって登録語の見出
    しと読みが記述された見出しテーブルとからなる単語辞
    書を有し、 変換対象となる漢字混じり文字列が入力されたときに、 上記単語辞書の上記状態テーブルを参照して当該入力文
    字列を識別番号列に置き換え、 この識別番号列に基づいて上記見出しテーブルから当該
    入力文字列を検索することを特徴とする文字列検索方
    法。
  5. 【請求項5】 漢字とその漢字に対応する読みの組合せ
    毎に識別番号が割り当てられた状態テーブルと、 この状態テーブルの上記識別番号によって登録語の見出
    しと読みが記述された見出しテーブルとからなる単語辞
    書を有し、 変換対象となる漢字混じり文字列が入力されたときに、 上記単語辞書の上記状態テーブルを参照して当該入力文
    字列を識別番号列に置き換え、 この識別番号列に基づいて上記見出しテーブルから当該
    入力文字列を検索し、 その検索の際に、上記見出しテーブルに登録されていな
    い識別番号列があれば、その識別番号列を組合せテーブ
    ルに格納しておき、 以後、上記状態テーブルを参照して入力文字列を識別番
    号列に置き換えたときに、その識別番号列の候補の中か
    ら上記組合せテーブルに格納された識別番号列を除くこ
    とを特徴とする文字列検索方法。
JP8120476A 1996-05-15 1996-05-15 単語辞書、この単語辞書を作成するための辞書作成方法及び装置、この単語辞書を用いた文字列検索方法 Pending JPH09305594A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8120476A JPH09305594A (ja) 1996-05-15 1996-05-15 単語辞書、この単語辞書を作成するための辞書作成方法及び装置、この単語辞書を用いた文字列検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8120476A JPH09305594A (ja) 1996-05-15 1996-05-15 単語辞書、この単語辞書を作成するための辞書作成方法及び装置、この単語辞書を用いた文字列検索方法

Publications (1)

Publication Number Publication Date
JPH09305594A true JPH09305594A (ja) 1997-11-28

Family

ID=14787127

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8120476A Pending JPH09305594A (ja) 1996-05-15 1996-05-15 単語辞書、この単語辞書を作成するための辞書作成方法及び装置、この単語辞書を用いた文字列検索方法

Country Status (1)

Country Link
JP (1) JPH09305594A (ja)

Similar Documents

Publication Publication Date Title
KR100330801B1 (ko) 언어식별장치및언어식별방법
JP3689954B2 (ja) 異種コード文字列転記装置および電子辞書
JPH0630107B2 (ja) 文書処理装置
JPH09305594A (ja) 単語辞書、この単語辞書を作成するための辞書作成方法及び装置、この単語辞書を用いた文字列検索方法
JPH10232867A (ja) 文書処理方法および文書処理装置ならびに文書処理プログラムを記録した記録媒体
JPH0612548B2 (ja) 文書処理装置
JP2002132764A (ja) 機械翻訳前処理装置
JP3847869B2 (ja) 文字列変換装置及び方法
JPH11203279A (ja) かな漢字変換装置、かな漢字変換方法、及び記憶媒体
JPH0697455B2 (ja) 仮名漢字変換装置
JPS58151637A (ja) 日本語ワ−ドプロセツサ
JPH10198664A (ja) 日本語入力システム及び日本語入力プログラムを記録した媒体
JPH06266765A (ja) 文章検索装置
JPH06187371A (ja) 圧縮地名データの格納方法及び読み出し方法
JPH09218868A (ja) 漢字指定方法及び装置
JPH0682366B2 (ja) 文字列訂正方式
JPH08339365A (ja) 文書作成装置及び文書作成方法
JPH0981555A (ja) 文書処理装置及びその方法
JPH06131329A (ja) 日本語文字処理装置
JPH11338859A (ja) 氏名入力装置及びプログラム記録媒体
JPH04253262A (ja) フリガナ付加方式
JPS60207948A (ja) カナ漢字変換処理装置
JPS58155440A (ja) 日本語処理装置
JPH06282567A (ja) 翻訳支援装置
JPH08212210A (ja) 文書作成装置及び漢字混じりかな漢字変換方法、辞書作成装置及び辞書作成方法