JP3021224B2 - 辞書検索装置 - Google Patents

辞書検索装置

Info

Publication number
JP3021224B2
JP3021224B2 JP5042579A JP4257993A JP3021224B2 JP 3021224 B2 JP3021224 B2 JP 3021224B2 JP 5042579 A JP5042579 A JP 5042579A JP 4257993 A JP4257993 A JP 4257993A JP 3021224 B2 JP3021224 B2 JP 3021224B2
Authority
JP
Japan
Prior art keywords
word
character
unit
dictionary
reading
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP5042579A
Other languages
English (en)
Other versions
JPH06259465A (ja
Inventor
峻慧 周
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP5042579A priority Critical patent/JP3021224B2/ja
Priority to CN93119216A priority patent/CN1048346C/zh
Publication of JPH06259465A publication Critical patent/JPH06259465A/ja
Application granted granted Critical
Publication of JP3021224B2 publication Critical patent/JP3021224B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、中国語の辞書検索装置
に関する。
【0002】
【従来の技術】従来の辞書検索装置としては、例えば、
中華民国出願75105839号公報に示されているようなもの
がある。図5は、この辞書検索装置を備えた漢字変換装
置の構成図である。図5に示すように、この漢字変換装
置は、入力部100、音節コード変換部110、漢字変
換部120、辞書検索部130、辞書部140、出力部
150より構成されている。入力手段100は、キーボ
ード等を構成要素とし、検索しようとする単語の各文字
列の読み記号を入力する。音節コード変換部110は、
入力手段100から送られてきた読み記号列を内部処理
に使われる音節コードに変換する。辞書部140は、メ
モリを主構成要素とし、音節コードを用いて表わされた
中国語の単語の読みとその単語に対応する文字コードと
の組を格納する。辞書検索部130は、マイクロコンピ
ュータを内蔵し、上記音節コード変換部110で変換さ
れた音節コードにより辞書部140内を検索し、対応す
る単語の文字コードを検出する。漢字変換手段120
は、上記辞書検索部130で検出された読み記号列に対
応する単語の文字コードを出力部150に出力させるた
めの文字列に変換する。出力部150は、プリンター、
CRT等を構成要素とし、漢字変換手段から受け取った
信号をもとに具体的に検索対象たる単語を構成する文字
列を出力する。
【0003】
【発明が解決しようとする課題】しかしながら、上記の
従来例の漢字変換装置に使われる辞書部の基本構造は単
語ごとにその単語を構成する各文字の読み記号及び文字
コードを記憶するものである。ところで、中国語の文字
とは漢字であり、しかも常用漢字の総数は一万以上あ
る。このため、各文字のコードは2バイト(16ビット、
16=65536)の記憶資源を要する。例えば、中国
語を処理するコンピュータによく使うBig5コードには1
3,051個の文字が収録され、各文字は2バイトの資源を
使用して格納されている。従って、このコードを利用し
て5万の単語を記憶している辞書部を例にとると、各単
語が平均して2.5 個の文字から構成されているとして、
単語を構成する各文字の読み記号及び文字コードにそれ
ぞれ2バイトが必要なため、全体では(2.5 ×(2+2) ×
50,000=)500 Kバイトの記憶資源を必要とする。
【0004】本発明は、このような点に鑑み、検索に供
する単語を少ない記憶資源で記憶できる大変利便な辞書
検索装置を提供することを目的とする。
【0005】
【課題を解決するための手段】上記目的を達成するため
に、本発明は中国語の各文字の読み記号及びこの読み記
号に対応する全ての同音異義字を順序付けをして配列し
た上で対応して記憶している字典部と、単語毎に、単語
を構成する各文字の読み記号及び各文字の前記字典部内
での同音異義字の配列順序の番号を読み記号若しくは単
語を構成する順に並べたものを対応して記憶している辞
書部と、検索しようとする単語の読み記号をもとに前記
辞書部内の対応する単語を検索し、検索した単語の各構
成文字の前記字典部内での同音異義字の配列順序の番号
を取り出す辞書検索部と、各文字の読み記号及び前記辞
書検索部の検索結果たる各文字の前記字典部内での同音
異義字の配列順序の番号により前記字典部を検索し、該
当する文字を取り出す字典検索部と、前記字典検索部で
取り出された各文字を取り出した上でこれらを検索のた
め入力された単語の読み記号の順若しくは辞書部内の配
列順序の番号の配列順に並べることにより、検索対象の
単語を組み立てる単語組立部とを備えたことを特徴とす
る辞書検索装置としている。
【0006】
【作用】上記構成により、字典部は、中国語の各文字の
読み記号及びこの読み記号に対応する全ての同音異義字
を順序付けをして配列した上で対応して記憶している。
辞書部は、単語毎に単語を構成する各文字の読み記号及
び各文字の字典内での同音異義字の配列順序の番号を読
み記号順に並べたものを対応して記憶している。適用業
務プログラム若しくは使用者が、検索しようとする単語
に相応した文字の読み記号を入力部より入力すると、辞
書検索部は、この入力された読み記号を検索キーとして
辞書部に対応する単語が記憶されているか否かを検索す
る。そのうえで、検索した単語を構成する各文字の字典
部内での同音異義字の配列順序の番号を取り出し、これ
を字典検索部に送る。字典検索部は、入力された各文字
の読み記号及び辞書検索部で検索された同音異義字の配
列順序の番号の情報をもとに字典部内を検索して、対応
する文字を順に取り出し、これを単語組立部に送る。単
語組立部は、字典検索部により取り出された各文字を入
力された読み記号に相応する順若しくは辞書部内の配列
順序の番号の配列順に並べることにより、検索対象の単
語を組み立てる。
【0007】
【実施例】以下、本発明を実施例に基づき説明する。図
1は、本発明の一実施例を利用した漢字変換装置の構成
図である。本漢字変換装置は、図1に示すように入力部
10、辞書検索部11、辞書部12、単語組立部13、
字典検索部14、字典部15、出力部16より構成され
る。入力部10は検索しようとする単語のキーを入力す
るものである。本実施例では入力はキーボードによりな
され、音節コードを構成する読み記号を検索キーとす
る。また、ファイルから抽出した中国語を検索キーとす
ることも可能である。字典部15は、中国語の各文字の
読み記号及び対応するすべての同音異義字を順序付けて
配列した上で対応して記憶する。辞書部12は、中国語
の各単語について、単語を構成する各文字の読み記号を
順に並べたものと各文字の字典部15内での同音異義字
の配列順序の番号を読み記号順に並べたものの対応表か
らなる。辞書検索部11は、検索しようとする単語の読
み記号列を検索キーとして電子的に辞書部12内を検索
し、対応する単語があれば、その単語の読み記号に対応
して記憶されている各文字の字典部15内での同音異義字
の配列順序の番号を取り出す。字典検索部14は、取り
出された各文字の読み記号及び各文字の字典部15内での
同音異義字の配列順序の番号により字典部15内を電子的
に検索し、対応する文字を検出する。単語組立部13
は、字典検索部14が検出した各文字を入力された読み
記号列の順に結果的には辞書部12内に配列された同音
異義字の配列番号順に並べることにより、検索対象の単
語を組み立てる。出力部16は、印刷機、CRT等を構
成要素とし、単語組立部13で組み立てられた単語を外部
へ出力若しくは表示する。
【0008】次に、辞書部及び字典部内のデータ構造、
すなわちメモリ上での格納方式について説明する。中国
語の各文字の読みについては、これに特定の番号を与え
た上で一定の長さの記憶資源を使用することにより、各
文字とその読みを対応づけて記憶することが可能であ
る。このため、容易に図4に示すような「ba ba 」、
「ba(図6の1)(以下、電子情報処理システムの都合
もあり、外字は図6にまとめて示し、その順番で特定す
るものとする。例えば、(図6の1)とは、図6の1番
目の外字若しくは複数の外字からなる外字列を指すもの
とする)」などの読み記号による格納方式を実現でき
る。同じく単語を構成する各文字の字典部内での多数の
同音異義字の配列を示す番号も一定の長さの2進法によ
り表わすことが可能である。さて、中国語の読みは、1,
230 種類があり、その中では、読み「(図6の3)」の
同音異義字が145 個と、一番多い。しかしながら、バイ
トを単位として格納すれば、中国語のすべての読みを2
バイトで格納することが可能であり、更にもう1バイト
を使用すれば、全ての同音異義字の組に対してその配列
の番号を格納することが可能とな。(210=1024<1230
<2048=211、27 =128<145 <256 =28 。)。な
お、ここにバイトを単位としているのは、2進法で処理
する要請からCPU、汎用のメモリー等ではバイト単位
とするのが普通であることに整合させたものである。
【0009】以下に、図4に示されている「ba(図6の
1)」という単語を例として格納方式を説明する。格納
は、「00100110 01010001 01011101 00110010 0000
0001 00000011」という形となる。一番目、二番目の二
バイト「00100110 01010001」は「ba」の読みを表わ
す。三番目、四番目の二バイト「01011101 00110010」
は「(図6の1)」の読みを表わす。五番目の「000000
01」は「八」の同音異義字の配列順序の番号を表わす。
六番目の「00000011」は「寶」の同音異義字の配列順序
の番号を表わす。そして、本実施例における辞書部は、
中国語のすべての読みを2バイトで、同音異義字の番号
を1バイトで格納している。
【0010】図2は、本実施例に係る漢字変換装置の処
理流れ図である。本図をもとに、以下その処理を説明す
る。まず検索しようとする中国語の単語の読み記号を順
に入力する(S1)。次に、辞書検索部が入力された読
み記号に対応する単語が辞書部内にあるか否かを検索す
る(S2)。もし、対応する単語がない場合には検索動
作を終え、この旨の表示が出力される。もし、対応する
単語があれば、その単語を構成する各文字の字典内での
同音異義字の配列順序の番号を取り出す(S3)。字典
検索部が単語の各文字の読み記号及び上記辞書検索部に
より取り出された同音異義字の配列順序の番号により字
典部内を検索することにより、検索対象の単語を構成す
る各文字をもとめる(S4)。単語組立部が、検索され
た単語を構成する各文字を入力された読み記号の順に並
べることにより求める単語を組み立てる(S5)。最後
に出力部が組み立てられた検索対象の単語を外部へ出力
する(S6)。
【0011】次に、以上の処理の内容を、単語を具体的
にとって示す。図3は本実施例における字典のデータ構
造の概念図である。本字典部は、各文字の読み記号及び
この読み記号に対応するすべての同音異義字を順序づけ
て配列したものからなる。図3は、読み記号をローマへ
い音記号により、同音異義字は電子メール等他用途の都
合もあり文字コード順(傾向的、概念的に言うならば、
字体が簡単な順)に配列した上で順に格納している様子
の一部を概念的に示したものである。本図においては、
例えば、読み記号「ba」に対応する同音異義字として
は、上から第1行に示すように、「八」「巴」…と並ん
で格納されている。そのうち、「八」は第一番目を占め
ているので、同音異義字の配列順序の番号は1となる。
同じく、「巴」の順序は第二番目であるため、その番号
は2となる。第2行以下に続く各読み記号に対応する複
数(全て)の同音異義字もこの方法で配列された上で順
次その番号を設定されている。
【0012】図4は、本実施例の辞書部のデータ構造の
概念図である。本辞書部は、単語の読み記号及び該単語
を構成する各文字の字典部内での同音異義字の配列順序
の番号を順に並べたものの対応表からなる。例えば、読
み記号は「ba(図6の1)」という単語を構成する各文
字の字典15内での同音異義字の配列順序の番号は「1,
3」で表示される。つまり、「ba(図6の1)」という
単語は、「ba」の字典部の同音異義字の配列順序の番号
の「1」に相応する「八」と、「(図6の1)」の字典
部の同音異義字の配列順序の番号の「3」に相応する
「寶」とで構成される。即ち「ba(図6の1)」という
読み記号列を入力すると、最終的には「八寶」という文
字列に変換される。
【0013】以下に、他の例をとって本実施例の辞書検
索装置の動作を説明する。入力手段から「ba(図6の
2)zhi jiao」が入力される(S1)と、辞書検索部
は、辞書部内を検索し、「ba(図6の2)zhi jiao」に
対応する単語が格納されているか否かを調べる(S
2)。辞書部には対応する単語があるので、この検出さ
れた単語を構成する各文字の字典部内での同音異義字の
配列順序の番号「1,2,1,1」を取り出してから
(S3)、読み記号「ba(図6の2)zhi jiao」と共に
字典検索部に渡す。字典検索部は、この「ba(図6の
2)zhi jiao」と「1,2,1,1」に基づいて、「b
a」と「1」、「(図6の2)」と「2」、「zhi 」と
「1」、「jiao」と「1」という読み記号と同音異義字
の配列順序の番号の組合を作成した上で字典部内を検索
し、各読み記号に該当する多数の文字(漢字)から
「八」、「拜」、「之」、「交」を抽出する(S4)。
単語組立部はこれらの検索された文字を入手し、その上
でこれらを入力された読み記号順に並べることにより、
求める単語「八拜之交」を組み立てる(S5)。出力手
段16は、この組み立てされた単語を外部に出力する(S
6)。以上の動作により単語の検索処理を完成する。
【0014】次に、本辞書検索装置は検索が字典部と辞
書部の2種になるため、検索時間が長くなるのではない
かという懸念が生じるため、これについて説明する。さ
て、従来の辞書検索装置の大部分の動作時間は、検索し
ようとする入力キーを辞書部の各単語の読み記号と比較
し、もし一致する読み記号があれば直接にその対応する
単語を抽出することに費やされる。一方、本発明の辞書
検索装置でも、大部分の動作時間は同じく検索しようと
する入力キーを辞書検索部が辞書部の各単語の読み記号
と比較するものである。そして、対応する単語がある場
合に、該単語を構成する各文字を更に字典部から逐一抽
出する時間は、同音異義字の数が辞書部内の単語の数に
比較してはるかに少ないため、問題とならないどころ
か、後に効果の欄で数値をあげて説明するように辞書部
の容量そのものが小さくなるため辞書部内の検索がかえ
って早くなる事が多い。このため、処理時間において
も、従来の辞書検索装置と実用上遜色がないどころか、
かえって早くなる事が多い。
【0015】以上、本発明を実施例に基づき説明してき
たが、本発明は何も上記実施例に限定されないのは勿論
である。すなわち、その要旨を変更しない範囲内で適当
に変形、応用して実施してもよい。例えば、 辞書部のデータ構造は、単語の各読み記号、次に各文
字の同音異義字の配列順序の番号という順序でなく、等
価な格納方法であるならば、どのようなものでもよい。
具体的には、「ba(図6の1)」は、以下のようにして
も格納できる。
【0016】「00100110 01010001 00000001 010111
01 00110010 00000011」 ここで、一番目、二番目の二バイト「00100110 010100
01」は「ba」の読みを表わす。三番目の「00000001」は
「八」の同音異義字の番号を表わす。四番目、五番目の
二バイト「01011101 00110010」は「(図6の1)」の
読みを表わす。六番目の「00000011」は「寶」の同音異
義字の番号を表わす。 同音異義字の配列の順序は、使用頻度や字画数による
等他の手段であってもよい。また、同音異義字の「配列
の順序」とは複数の同音異義字の配列の中から特定の字
を指定可能としえるものであるならば、何も順番を示す
数字には限定されず、記憶位置の座標やこれを示す符号
等であってもよいのは勿論である。なお、配列の順序に
使用頻度を採用すれば、検索速度がより向上するであろ
う。 文字は漢字、文字列は中国語の単語であるのが原則で
あるが、「峠」のごとき外国(勿論、中国からみて)製
の漢字や「あ」、「い」のごとき外国の文字であっても
よいし、「特許」、「発明協会」のごとく外国語や外国
語の固有名詞等であってもよいのは勿論である。 用途は、中国語ワードプロセッサー、ディスク等に格
納された中国語の電子的な辞書、中国語に関する自動翻
訳装置等その種類を問わないのは勿論である。 読み記号は、中華民国で用いられている注音符号や注
音符号第二式等他のものであってもよい。 製造等の都合で、複数の構成要素を物理的に一体的な
物としてもよい。逆に、一の構成要素を物理的に複数の
物に分割してもよい。 更に、上海語、広東語等の各種中国語方言の辞書部や
字典部を有し、文字入力者がいずれの方言の辞書部や字
典部を使用するかを選択可能とする機能が付加されてい
てもよい。勿論、換装可能であってもよい。
【0017】
【発明の効果】以上説明したように本発明の辞書検索装
置によれば、辞書部には単語の各文字の内部コードに代
えて、各文字の字典の同音異義字の配列順序の番号を読
み記号の順に相応して記憶する。この際、もし各単語は
平均2.5 個文字で構成されているとすれば、本発明を採
用すれば5万個の単語を格納している辞書部は、その記
憶資源として、2.5 ×(2+1) ×50,000=375 Kバイトで
足りる。これは、発明が解決しようとする課題欄で説明
した従来の辞書部に比較して、25%の必要記憶資源の減
少となる。実際には、辞書検索装置を使用する装置その
ものの用途によって異なるものの、その辞書部内に格納
されている単語は5万やそこらでは済まないことが多
い。このため、減少多能な記憶資源の絶対量は更に大き
くなり、その経済上の効果は極めて大きなものとなる。
また、辞書部そのものも小型化しえるため、辞書内の検
索速度も早くなり、このため処理速度も向上する。
【図面の簡単な説明】
【図1】本発明に係る辞書検索装置の一実施例の構成図
である。
【図2】上記実施例における辞書検索装置の動作処理図
である。
【図3】上記実施例における字典部のデータ構造の概念
図である。
【図4】上記実施例における辞書部のデータ構造の概念
図である。
【図5】辞書部及び辞書検索手段を備た従来技術に係る
漢字変換装置の構成図である。
【図6】外字の一覧である。
【符号の説明】
10 入力部 11 辞書検索部 12 辞書部 13 単語組立部 14 字典検索部 15 字典部 16 出力部
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 昭63−12024(JP,A) 特開 昭62−93744(JP,A) 特開 昭63−136163(JP,A) 特開 平3−22169(JP,A) (58)調査した分野(Int.Cl.7,DB名) G06F 17/20 - 17/28

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】 中国語の各文字の読み記号及びこの読み
    記号に対応する全ての同音異義字を順序付けをして配列
    した上で対応して記憶している字典部と、 単語毎に、単語を構成する各文字の読み記号及び各文字
    の前記字典部内での同音異義字の配列順序の番号を読み
    記号若しくは単語を構成する順に並べたものを対応して
    記憶している辞書部と、 検索しようとする単語の読み記号をもとに前記辞書部内
    の対応する単語を検索し、検索した単語の各構成文字の
    前記字典部内での同音異義字の配列順序の番号を取り出
    す辞書検索部と、 各文字の読み記号及び前記辞書検索部の検索結果たる各
    文字の前記字典部内での同音異義字の配列順序の番号に
    より前記字典部を検索し、該当する文字を取り出す字典
    検索部と、 前記字典検索部で取り出された各文字を取り出した上で
    これらを検索のため入力された読み記号の順若しくは辞
    書部内の配列順序の番号の配列順に並べることにより、
    検索対象の単語を組み立てる単語組立部とを備えたこと
    を特徴とする辞書検索装置。
JP5042579A 1993-03-03 1993-03-03 辞書検索装置 Expired - Fee Related JP3021224B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP5042579A JP3021224B2 (ja) 1993-03-03 1993-03-03 辞書検索装置
CN93119216A CN1048346C (zh) 1993-03-03 1993-10-18 词典检索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5042579A JP3021224B2 (ja) 1993-03-03 1993-03-03 辞書検索装置

Publications (2)

Publication Number Publication Date
JPH06259465A JPH06259465A (ja) 1994-09-16
JP3021224B2 true JP3021224B2 (ja) 2000-03-15

Family

ID=12639987

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5042579A Expired - Fee Related JP3021224B2 (ja) 1993-03-03 1993-03-03 辞書検索装置

Country Status (2)

Country Link
JP (1) JP3021224B2 (ja)
CN (1) CN1048346C (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2413055C (en) 2002-07-03 2006-08-22 2012244 Ontario Inc. Method and system of creating and using chinese language data and user-corrected data

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0468402B1 (en) * 1990-07-23 2000-05-10 Hitachi, Ltd. Character string retrieving system and method
US5287493A (en) * 1990-08-31 1994-02-15 International Business Machines Corporation Database interactive prompted query system having named database tables linked together by a user through join statements
US5388196A (en) * 1990-09-07 1995-02-07 Xerox Corporation Hierarchical shared books with database

Also Published As

Publication number Publication date
CN1048346C (zh) 2000-01-12
JPH06259465A (ja) 1994-09-16
CN1091845A (zh) 1994-09-07

Similar Documents

Publication Publication Date Title
JP2741575B2 (ja) 文字認識文字補完方法及びコンピュータ・システム
JP2937521B2 (ja) 文書検索装置
JP3021224B2 (ja) 辞書検索装置
JPH08339376A (ja) 外国語検索装置及び情報検索システム
JP3056810B2 (ja) 文書検索方法および装置
JPS6162970A (ja) 仮名漢字変換装置
JP3585944B2 (ja) データ処理方法及びその装置
JP2831837B2 (ja) 文書検索装置
JP3045886B2 (ja) 手書き入力機能付き文字処理装置
JPS646499B2 (ja)
JP3935374B2 (ja) 辞書構築支援方法、装置及びプログラム
JPH0746355B2 (ja) かな漢字変換装置
JP3847801B2 (ja) 文字処理装置及びその処理方法
JPH0140370B2 (ja)
JP2795038B2 (ja) データ検索装置
JPH0863487A (ja) 文書検索方法及び文書検索装置
JP4139805B2 (ja) 字句をデータに変換する装置、方法及びプログラム
JP2833650B2 (ja) 文書処理装置
JPH0271362A (ja) 仮名漢字変換装置
JP3273778B2 (ja) 仮名漢字変換装置及び仮名漢字変換方法
JPH026098B2 (ja)
JPH0991304A (ja) 情報検索方法、情報検索システム及び情報検索用記憶媒体
JPH0727526B2 (ja) かな漢字変換装置
JPH06187371A (ja) 圧縮地名データの格納方法及び読み出し方法
JPS61210473A (ja) 文書作成装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees