JPH11238051A - 中国語入力変換処理装置、中国語入力変換処理方法、中国語入力変換処理プログラムを記録した記録媒体 - Google Patents

中国語入力変換処理装置、中国語入力変換処理方法、中国語入力変換処理プログラムを記録した記録媒体

Info

Publication number
JPH11238051A
JPH11238051A JP10040449A JP4044998A JPH11238051A JP H11238051 A JPH11238051 A JP H11238051A JP 10040449 A JP10040449 A JP 10040449A JP 4044998 A JP4044998 A JP 4044998A JP H11238051 A JPH11238051 A JP H11238051A
Authority
JP
Japan
Prior art keywords
word
input
conversion
chinese
pinyin
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10040449A
Other languages
English (en)
Inventor
Kaitou Rai
海涛 雷
Shigemi Nakazato
茂美 中里
Yasushi Ishizuka
靖 石塚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP10040449A priority Critical patent/JPH11238051A/ja
Priority to CN 99102310 priority patent/CN1106619C/zh
Publication of JPH11238051A publication Critical patent/JPH11238051A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】中国語の読みであるピンイン文字列に対応する
同音語の変換候補が抽出された際に、中国語特有の言語
現象を反映させた変換候補を選び出す。 【解決手段】各単語毎にピンインとそれに対応する漢字
を記憶した単語辞書24と中国語の言語上互いに接続関
係にある単語の情報を記憶した単語間接続情報記憶部2
7とを備え、入力部21を通じて複数の単語の読みを示
すピンイン文字列が入力された際に、辞書検索部23に
より入力ピンイン文字列の各文節に対応する単語を単語
辞書24から変換候補として検索する。この変換候補の
中で単語間接続情報記憶部27に記憶された単語と一致
する単語(互いに接続関係にある単語)を単語間接続情
報検出部25により検出し、出力部29により優先出力
する。これにより、中国語の言語現象を反映させた変換
結果を優先的に得ることができる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、中国語文書の作成
に用いられる中国語ワードプロセッサ等の中国語入力変
換処理装置に係り、特に入力した読みに該当する単語の
同音語候補の出力に際し、隣接または先後(例えば2、
3文節において)の単語同士の隣接関係や「離合詞」と
呼ばれる中国語特有の言語現象を反映させて、より正確
な変換候補を出力可能とする中国語入力変換処理装置
と、この中国語入力変換処理装置に用いられる中国語入
力変換処理方法、中国語入力変換処理プログラムを記録
した記録媒体に関する。
【0002】
【従来の技術】従来、中国語ワードプロセッサ等の中国
語入力変換処理装置では、中国語の漢字とその読みを表
す表音記号(以下、ピンインと称す)とを対応付けた辞
書を用い、中国語の読みをピンインで入力し、これを漢
字に変換して出力する機能を備えている。これをピンイ
ン漢字変換機能(日本語ワードプロセッサのかな漢字変
換機能に相当)と呼ぶ。
【0003】このようなピンイン漢字変換機能に関する
先行技術として、例えば特開平6−290182号公報
や、特開平7−141354号公報などに記載されてい
るものが知られている。
【0004】特開平6−290182号公報には、4音
節(=4文字)分の読みを処理単位とし、それが中国語
の言語現象である「重辞」というケースに合致するかど
うかをチェックし、当てはまれば、重辞の形で変換候補
を生成することが開示されている。重辞とは、一般的に
は2文字単語「AB」は「ABAB」や「AABB」の
ような形にし、表現を和らげ、または曖昧にする効果が
ある。例えば、「研究」を「研究研究」としたり、「上
下」を「上上下下」とする。前者は文書的表現、後者は
口語的表現となる。
【0005】また、特開平7−141354号公報に
は、2音節の候補語間の意味類似度及び使用頻度に基づ
き漢字変換の正確率を向上させることが開示されてい
る。これらの先行技術は、固定した単語調(4文字分)
で限定パターンの言語表現に基づいて入力読みを検索
し、該当の変換候補を決定するものであったり、変換候
補語の意味類似度というグルーピングした単語の意味コ
ードを用いて、意味コード上に似た者同士の変換候補を
出力するものである。
【0006】これらの先行技術を用いることにより、ピ
ンイン読みに対応している単語の同音語の候補選択はよ
り正しくすることができ、より効率的に入力するには一
定の効果があると思われる。しかし、自然言語の表現は
まさに多様多彩で、全て一意的に決定する訳にはいかな
いものであり、中国語は勿論その例外ではない。この場
合、上記のように単語長を固定したり、意味上で似た者
同士の結合をチェックすることは、多様な言語表現を処
理するのには限界がある。
【0007】
【発明が解決しようとする課題】中国語では、1つの漢
字の発音は必ず1音節になっている。1つの音節はさら
に「声母」と呼ばれる先頭子音(音節の先頭にくる子
音)と、「韻母」と呼ばれる「声母」を除いた部分(母
音、二重母音、鼻音化母音などがある)とで構成されて
いる。また、音節の抑揚を表わす「四声」と呼ばれる声
調(日本語のアクセントに似たようなもの)があり、1
つの音節は声母、韻母と四声の3要素から構成される。
【0008】声母の例:b,p,m,f,d,t,n,
l,zh,ch,sh,… 韻母の例:a,o,e,i,u,ai,en,ang,
iong,… 表記上では、日本語ローマ字の子音母音と違い、ローマ
字母の長さが一定ではないことが特徴の1つである。
【0009】また、中国語の単語には、1文字から4文
字までの単語がほとんどであり、それ以上の文字数を持
つ単語は合成語や名称などであって、常用単語の中には
少数である(北京師範大学現代化教育技術研究所の統計
結果に基づく)。また、2文字以上の単語の場合には、
同音語(特に四声を含んだ時)の語彙が少ないのに対し
て、1文字単語の場合は同音語が多く、一意的に決まら
ない場合が多いことが中国語の特徴と言える。
【0010】例えば、読みとして入力されたピンイン文
字列が「chi/yu」の場合(“/”は音節の区切り
を示すものとする)、ユーザが期待する単語が図17
(a)に示すようなものであっても、同図(b)に示す
ように、各文節毎に膨大な数の同音語が変換候補として
上る。
【0011】この場合、上記特開平7−141354号
公報による手法を用いると、意味の類似度から、同図
(c)または同図(d)に示すような変換候補(下線は
ユーザが期待する単語を示す)が正しいと判断される可
能性があり、結局優先候補を見出さない。なお、同図
(c)または同図(d)に示す変換候補は意味的には正
しいが、中国語の言語的には通常使われないものであ
る。
【0012】このように、上述した従来の技術では、中
国語のピンイン読みに対応する同音語候補を絞り込むに
は限界があり、膨大な言語現象に対応することが不可能
なことが明らかである。これをできるだけ多様多彩な言
語現象に対応できるような措置を施さない限り、ユーザ
が入力したピンインを正確に中国語単語に変換すること
は困難であるという問題があった。
【0013】本発明は上記のような点に鑑みなされたも
ので、中国語の読みであるピンイン文字列に対応する同
音語の変換候補が抽出された際に、中国語特有の言語現
象に対応して、より正確な変換候補を選び出すことので
きる中国語入力変換処理装置、中国語入力変換処理方
法、中国語入力変換処理プログラムを記録した記録媒体
を提供することを目的とする。
【0014】
【課題を解決するための手段】本発明の中国語入力変換
処理装置は、中国語の読みをピンインで入力し、その入
力されたピンインを漢字に変換する中国語入力変換処理
装置であって、複数の単語の読みを示すピンイン文字列
を入力する入力手段と、各単語毎にピンインとそれに対
応する漢字を記憶した標準辞書と、上記入力手段によっ
て入力されたピンイン文字列の各文節に対応する単語を
上記標準辞書から変換候補として検索する辞書検索手段
と、中国語の言語上互いに接続関係にある単語の情報を
記憶した拡張辞書と、上記辞書検索手段によって検索さ
れた変換候補の中で上記拡張辞書に記憶された単語と一
致する単語を検出する単語検出手段と、この単語検出手
段によって検出された単語を優先して変換候補を出力す
る出力手段とを具備したことを特徴とする(請求項
1)。
【0015】このような構成によれば、入力ピンイン文
字列の各文節に対応する単語が変換候補として抽出され
ると、それらの変換候補の中の隣接する単語間(請求項
2)または非隣接の単語間(請求項3)で中国語の言語
上互いに接続関係にある単語が検出され、その単語が変
換候補として優先的に出力される。したがって、中国語
の読みであるピンイン文字列に対応する同音語の変換候
補が抽出された際に、中国語特有の言語現象に対応し
て、より正確な変換候補をユーザに提示することができ
る。
【0016】また、本発明の中国語入力変換処理装置
は、中国語の読みをピンインで入力し、その入力された
ピンインを漢字に変換する中国語入力変換処理装置であ
って、複数の単語の読みを示すピンイン文字列を入力す
る入力手段と、各単語毎にピンインとそれに対応する漢
字を記憶した標準辞書と、上記入力手段によって入力さ
れたピンイン文字列の各文節に対応する単語を上記標準
辞書から変換候補として検索する辞書検索手段と、中国
語の言語現象の変形パターンに関する単語の情報を記憶
した拡張辞書と、上記辞書検索手段によって検索された
変換候補の中で上記拡張辞書に記憶された単語と一致す
る単語を検出する単語検出手段と、この単語検出手段に
よって検出された単語を優先して変換候補を出力する出
力手段とを具備したことを特徴とする(請求項4)。
【0017】このような構成によれば、入力ピンイン文
字列の各文節に対応する単語が変換候補として抽出され
ると、それらの変換候補の中から例えば中国語の離合詞
の関係にある単語が検出され(請求項5)、その単語が
変換候補として優先的に出力される。したがって、中国
語の読みであるピンイン文字列に対応する同音語の変換
候補が抽出された際に、中国語特有の言語現象に対応し
て、より正確な変換候補をユーザに提示することができ
る。
【0018】
【発明の実施の形態】以下、図面を参照して本発明の一
実施形態を説明する。図1は本発明の一実施形態に係る
中国語入力変換処理装置のシステム構成を示すブロック
図である。なお、本実施形態における中国語入力変換処
理装置は、例えば磁気ディスク等の記録媒体に記録され
たプログラムを読み込み、このプログラムによって動作
が制御されるコンピュータによって実現される。
【0019】図1に示すように、本実施形態における中
国語入力変換処理装置は、CPU11、メモリ12、入
力装置13、表示装置14、外部記憶装置15、印刷装
置16、通信装置17によって構成される。
【0020】CPU11は、本装置の動作全体を制御す
るものであり、メモリ12に格納されたプログラムの起
動で動作する。なお、メモリ12に格納されたプログラ
ムに基づいて実現される機能としては、アプリケーショ
ンプログラムによるワードプロセッサ等がある。
【0021】メモリ12は、例えばROMやRAMから
なり、本装置で使用される各種プログラムやフォント
(中国語フォントを含む)等のデータを格納する。この
メモリ12には、ワードプロセッサを実現するアプリケ
ーションプログラムなどのプログラムデータを格納する
ためのプログラム領域12aの他、入力バッファ12
b、候補バッファ12c、文書バッファ12dなどが設
けられている。
【0022】入力バッファ12bは、文書作成のために
入力された中国語漢字の読みであるピンイン文字列を格
納する。候補バッファ12cは、ピンイン漢字変換によ
って得られた変換候補を格納する。文書バッファ12d
は、ピンイン漢字変換によって得られた中国語漢字から
なる文書データを格納する。
【0023】入力装置13は、キーボードからなり、本
装置に対する指示やデータの入力を行うものであり、ピ
ンイン文字列の入力や、その入力されたピンイン文字列
に対するピンイン漢字変換指示(「変換」キーの操作に
よる指示)などを行うためのものである。
【0024】表示装置14は、例えばCRT (Cathode
Ray Tube) やLCD (Liquid Crystal Display) からな
り、入力装置13を通じて入力されたピンイン文字列や
ピンイン漢字変換結果などの表示を行う。
【0025】外部記憶装置15は、例えばHDD (Hard
Disk Drive) やCD−ROM (Compact Disc Read On
ly Memory) からなり、各種プログラムや文書などのデ
ータを保存する。この外部記憶装置15には、ワードプ
ロセッサを実現するためのアプリケーションプログラム
の他、ピンイン漢字変換処理で使用する辞書などのデー
タも含まれる。
【0026】印刷装置16は、文書の印刷等を行うため
に用いられる。この印刷装置16としては、本装置に内
蔵されたものでも、外付けにて接続されるものでも良
い。また、通信装置17は、例えば構内LAN (Local
Area Network) や通信ネットワーク等を介して外部装置
とのデータの送受信制御を行う。
【0027】次に、図1に示すシステム構成によって実
現される中国語入力変換処理装置の機能構成について説
明する。図2は図1のシステム構成によって実現される
中国語入力変換処理装置の機能構成を示すブロック図で
ある。図2に示すように、本実施形態における中国語入
力変換処理装置は、入力部21、制御部22、辞書検索
部23、単語辞書24、単語間接続情報検出部25、単
語変形情報検出部26、単語間接続情報記憶部27、単
語変形情報記憶部28、出力部29を有する。
【0028】入力部21は、入力装置13から入力され
るピンイン文字列や変換指示等の入力処理を行う。制御
部22は、システム全体の制御を行う。この制御部22
には、入力ピンインから漢字への変換を司る変換エンジ
ンが含まれる。
【0029】辞書検索部23は、入力されたピンイン文
字列に基づいて単語辞書24(標準辞書)を検索し、入
力ピンイン文字列の各文節に対応する単語を単語辞書2
4から抽出する。この辞書検索部23によって抽出され
た単語は、入力ピンイン文字列に対する変換候補として
各文節毎にメモリ12の候補バッファ12cに格納され
る。
【0030】単語辞書24は、ピンイン漢字変換に用い
られるものであって、各単語毎にピンインとそれに対応
する漢字、品詞など、ピンイン漢字変換処理に必要な情
報を記憶している。この単語辞書24は、標準辞書とし
て外部記憶装置15に格納される。
【0031】単語間接続情報検出部25は、単語辞書2
4の検索結果である単語見出しの変換候補(同音語候補
群)に対して、単語間接続情報記憶部27(拡張辞書)
に記憶された単語間接続情報に基づいて互いに接続関係
にある単語を検出する。単語変形情報検出部26は、単
語辞書24の検索結果である単語見出しの変換候補(同
音語候補群)に対して、単語変形情報記憶部28(拡張
辞書)に記憶された単語の変形情報に基づいて特定の変
形のパターン(例えば「離合詞」)に合致する単語を検
出する。
【0032】単語間接続情報記憶部27は、中国語の言
語上互いに接続関係にある単語の情報を記憶している
(図3参照)。単語変形情報記憶部28は、例えば「離
合詞」など、中国語特有の言語現象の変形パターンに関
する単語の情報を記憶している(図4参照)。これらの
単語間接続情報記憶部27および単語変形情報記憶部2
8は、拡張辞書として外部記憶装置15に格納され、ピ
ンイン漢字変換時に単語辞書24と共に参照される。
【0033】出力部29は、入力されたピンインの文字
列や、その入力ピンイン文字列に対応する変換結果等を
表示装置14に表示するなどの出力処理を行う。図3は
単語間接続情報記憶部27の構成を示す図である。
【0034】中国語では、例えば「去」(動詞)といっ
た単語に対して「学校」(名詞)といった単語が接続さ
れるなど、言語上互いに接続関係にある単語が存在す
る。このような単語間の接続情報を記憶したものが単語
間接続情報記憶部27である。この単語間接続情報記憶
部27には、前方と後方の単語の見出しと品詞が予め登
録されている。前方と後方の単語とは、隣接する単語の
場合もあるし、非隣接の単語の場合もある。また、ここ
では、2つの単語間の接続を示しているが、3つ以上の
単語間の接続も同様である。
【0035】図4は単語変形情報記憶部28の構成を示
す図である。中国語では、1つの単語を前半と後半に分
けてその間に他の語彙を入れ、単語の表現を具体化、ま
たは程度や状態を修飾する役割を果たすという特有な表
現の方法があり、これは一般に「離合詞」と呼ばれ、元
の単語は2文字動詞(日本語のサ変名詞のような語彙)
の場合が多い。このような離合詞のパターンを記憶した
ものが単語変形情報記憶部28である。この単語変形情
報記憶部28には、離合詞として用いられる元の単語と
その離合パターンが予め登録されている。
【0036】なお、図中の離合表現は離合パターンを分
かり易くするための一例であり、実際には単語変形情報
記憶部28に記憶されていない。次に、本装置の動作を
説明する。
【0037】まず、本発明の第1の実施形態としての変
換処理動作を説明する。図5は本発明の第1の実施形態
としての変換処理動作を示すフローチャートである。第
1の実施形態では、図3に示す単語間接続情報記憶部2
7を用いて、隣接する単語で互い接続関係にある単語を
変換候補として優先出力することを特徴とする。
【0038】まず、入力部21を通じて中国語の漢字の
読みがピンイン(アルファベットの文字列)で入力され
る。この入力されたピンイン文字列は、図1に示す入力
バッファ12bに格納される(ステップA11)。
【0039】ここで、変換キーの押下により変換指示が
出されると、制御部22は入力バッファ12bに入力ピ
ンイン文字列を辞書検索部23に送る。辞書検索部23
では、標準辞書である単語辞書24の中から入力ピンイ
ン文字列の各文節(1単語分の読み)に対応する単語
(見出し)を検索し、これを見出しの変換候補として抽
出する(ステップA12)。このとき抽出された変換候
補は、図1に示す候補バッファ12cに格納される。そ
の際、各単語毎に同音語(同じ読みで異なる漢字)の候
補がある場合には、それらの全ての候補も候補バッファ
12cに格納する。
【0040】次に、制御部22は同じ入力ピンイン文字
列を単語間接続情報検出部25に送る。単語間接続情報
検出部25は、拡張辞書である単語間接続情報記憶部2
7を参照して、候補バッファ12cの中で単語間接続情
報に該当する単語を検出する(ステップA13)。この
場合、単語間接続情報記憶部27には、図3に示すよう
に前方と後方の見出しおよび品詞が入っており、第1の
実施形態では、変換候補の中の隣接する単語を対象とし
て、候補バッファ12cの中に互いに接続関係にある単
語があるかどうかを検出する。
【0041】この検出処理の結果、候補バッファ12c
の中に該当する単語(変換候補)があれば(ステップA
14のYes)、単語間接続情報検出部25はその変換
候補を優先候補として制御部22に通知する(ステップ
A15)。
【0042】制御部22は、単語間接続情報記憶部27
からの検出結果を受け、その検出結果に基づいて候補バ
ッファ12c内の各変換候補の出力順位を決定するなど
の変換処理を行う(ステップA16)。この場合、各単
語毎の同音語候補の中で上記互いに接続関係にある単語
があれば、その単語を第1位とする。その他の単語につ
いては、単語辞書24に設定されている優先順位に従
い、同音語候補の中でその順位が最も高い単語を第1位
とする。
【0043】各変換候補の出力順位が決定されると、制
御部22はその出力順位に従って各変換候補を変換結果
として出力部29に送る(ステップA19)。出力部2
9では、入力ピンイン文字列を第1位の変換候補に換え
て表示したり、その他の変換候補を候補エリアに表示す
るなどの処理を行う。
【0044】次に、上述した処理を具体例を挙げて説明
する。入力部21でキーボードなどから入力されたピン
イン文字列(ローマ字母)を制御部22により辞書検索
部23に送る。ここでユーザから「変換」キーが押下さ
れると、辞書検索部23では、入力されたピンイン文字
列に対して、標準辞書である単語辞書24の中に存在す
る見出し候補を検索し、これらの候補をすべて変換候補
として候補バッファ12cに蓄える。
【0045】ここで、候補バッファ12c中の変換候補
を単語間接続情報検出部25に送り、図3に示すような
単語間接続情報を参照して、該当の単語接続があるかど
うかを検出する。単語間接続情報は、前方と後方の見出
しおよび品詞からなり、見出しの変換候補に対してこの
接続情報の中に該当するものがあるかどうかを検出し、
該当があればその候補の優先順位を高めるよう制御部2
2に出力する。
【0046】例えば、「tachiyu」といったピン
イン文字列が読み情報として入力されたとする。このピ
ンイン文字列を「ta/chi/yu」といったように
(“/”は音節の区切りを示すものとする)、各文節毎
に区切り、それぞれに対応する単語を単語辞書24から
変換候補として抽出することにより、図6に示すような
変換候補群が得られる。
【0047】ここで、単語間接続情報検出部25では、
このような変換候補群の組み合わせに対して、図7に示
すように、単語間接続情報記憶部27に記憶された単語
間接続情報を参照し()、その前方見出し情報と後方
見出し情報と一致する隣接単語を検出する(と)。
該当する単語(変換候補)がある場合には、その変換候
補を優先候補として制御部22に出力する()。
【0048】最後に、図8に示すような変換結果を出力
部29を通じてユーザに提示する。この場合、互いに接
続関係にある単語が第1位として表示され、その他は単
語辞書24の中の第1位の単語が表示される。なお、図
中の下線はユーザが期待する単語を示すものであり、実
際には表示されない。
【0049】このように、中国語の言語上互いに接続関
係にある単語が変換結果として優先出力される。これに
より、ピンイン入力により言語上正しい変換結果を得
て、中国語の文章を効率良く作成することができるよう
になる。
【0050】ところで、上記の例では、隣接している単
語同士に対して、その接続関係をチェックするものであ
ったが、実際の中国語文章では、関連している表現は
2、3文節に離れている場合が少なくない。例えば、
「動詞+目的語」のパターンは、「動詞+〜+目的語」
まで発展するケースがよくある。この「〜」は助詞、副
詞または数詞組などである。
【0051】以下、このような非隣接の単語間における
接続関係をチェックする場合の処理を第2の実施形態と
して説明する。図9は本発明の第2の実施形態としての
変換処理動作を示すフローチャートである。第2の実施
形態では、図3に示す単語間接続情報記憶部27を用い
て、非隣接の単語で互い接続関係にある単語を変換候補
として優先出力することを特徴とする。
【0052】まず、入力部21を通じて中国語の漢字の
読みがピンイン(アルファベットの文字列)で入力され
る。この入力されたピンイン文字列は、図1に示す入力
バッファ12bに格納される(ステップB11)。
【0053】ここで、変換キーの押下により変換指示が
出されると、制御部22は入力バッファ12bに格納さ
れた入力ピンイン文字列を辞書検索部23に送る。辞書
検索部23では、標準辞書である単語辞書24の中から
入力ピンイン文字列の各文節(1単語分の読み)に対応
する単語(見出し)を検索し、これを見出しの変換候補
として抽出する(ステップB12)。このとき抽出され
た変換候補は、図1に示す候補バッファ12cに格納さ
れる。その際、各単語毎に同音語(同じ読みで異なる漢
字)の候補がある場合には、それらの全ての候補も候補
バッファ12cに格納する。
【0054】次に、制御部22は同じ入力ピンイン文字
列を単語間接続情報検出部25に送る。単語間接続情報
検出部25は、拡張辞書である単語間接続情報記憶部2
7を参照して、候補バッファ12cの中で単語間接続情
報に該当する単語を検出する(ステップB13)。この
場合、単語間接続情報記憶部27には、図3に示すよう
に前方と後方の見出しおよび品詞が入っており、第2の
実施形態では、変換候補の中の非隣接の単語を対象とし
て、候補バッファ12cの中に互いに接続関係にある単
語があるかどうかを検出する。
【0055】この検出処理の結果、候補バッファ12c
の中に該当する単語(変換候補)があれば(ステップB
14のYes)、単語間接続情報検出部25はその変換
候補を優先候補として制御部22に通知する(ステップ
B15)。
【0056】制御部22は、単語間接続情報記憶部27
からの検出結果を受け、その検出結果に基づいて候補バ
ッファ12c内の各変換候補の出力順位を決定するなど
の変換処理を行う(ステップB16)。この場合、各単
語毎の同音語候補の中で上記互いに接続関係にある単語
があれば、その単語を第1位とする。その他の単語につ
いては、単語辞書24に設定されている優先順位に従
い、同音語候補の中でその順位が最も高い単語を第1位
とする。
【0057】各変換候補の出力順位が決定されると、制
御部22はその出力順位に従って各変換候補を変換結果
として出力部29に送る(ステップB19)。出力部2
9では、入力ピンイン文字列を第1位の変換候補に換え
て表示したり、その他の変換候補を候補エリアに表示す
るなどの処理を行う。
【0058】次に、上述した処理を具体例を挙げて説明
する。例えば、「tachileyitiaoyu」と
いったピンイン文字列が読み情報として入力されたとす
る。
【0059】このピンイン文字列を「ta/chi/l
e/yitiao/yu」といったように(“/”は音
節の区切りを示すものとする)、各文節毎に区切り、そ
れぞれに対応する単語を単語辞書24から変換候補とし
て抽出することにより、図10に示すような変換候補群
が得られる。
【0060】ここで、単語間接続情報検出部25では、
このような変換候補群の組み合わせに対して、図11に
示すように、まず、変換候補群の中で各候補毎に順に検
出対象として設定される候補を前方見出し候補とし、そ
の候補を単語間接続情報記憶部27に記憶された単語間
接続情報の前方見出し情報と照合する()。その結
果、一致するものであれば、その候補(単語)を新しく
設けた前方見出し候補バッファに蓄える()。
【0061】次に、単語間接続情報の後方見出し情報を
参照し、上記前方見出し候補バッファの中の単語を対象
とし、一致する単語があるかを検出する(と)。該
当する単語(変換候補)がある場合には、その変換候補
を優先候補として制御部22に出力する()。
【0062】最後に、図12に示すような変換結果を出
力部29を通じてユーザに提示する。この場合、互いに
接続関係にある単語が第1位として表示され、その他は
単語辞書24の中の第1位の単語が表示される。なお、
図中の下線はユーザが期待する単語を示すものであり、
実際には表示されない。
【0063】このように、隣接する単語間に限らず、非
隣接の単語間でも上記第1の実施形態と同様に単語間接
続情報を参照することで、該当する単語を変換候補とし
て優先出力することができ、その結果、ピンイン漢字変
換による変換率をさらに向上させることができる。
【0064】なお、単語間は何語まで離れて処理するか
については、確かに離れる語数が増えれば、実際の文章
表現(=ユーザ所望の変換結果)と異なる変換候補を生
成する可能性が高くなり、ピンイン変換の効果を低下さ
せる恐れがある。したがって、離れる語数を固定値にせ
ず、可変値(=指定オプション)の形などの措置を講じ
ることが好ましい。
【0065】また、中国語には、1つの単語を前半と後
半に分けてその間に他の語彙を入れ、単語の表現を具体
化、または程度や状態を修飾する役割を果たすという特
有な表現の仕方の方法がある。一般的には、「離合詞」
と呼ばれるものであり、例えば図4に示すようなものが
ある。
【0066】以下、このような離合パターンをチェック
する場合の処理を第3の実施形態として説明する。図1
3は本発明の第3の実施形態としての変換処理動作を示
すフローチャートである。第3の実施形態では、図4に
示す単語変形情報記憶部28を用いて、中国語の離合詞
の関係にある単語を変換候補として優先出力することを
特徴とする。
【0067】まず、入力部21を通じて中国語の漢字の
読みがピンイン(アルファベットの文字列)で入力され
る。この入力されたピンイン文字列は、図1に示す入力
バッファ12bに格納される(ステップC11)。
【0068】ここで、変換キーの押下により変換指示が
出されると、制御部22は入力バッファ12bに格納さ
れた入力ピンイン文字列を辞書検索部23に送る。辞書
検索部23では、標準辞書である単語辞書24の中から
入力ピンイン文字列の各文節(1単語分の読み)に対応
する単語(見出し)を検索し、これを見出しの変換候補
として抽出する(ステップC12)。このとき抽出され
た変換候補は、図1に示す候補バッファ12cに格納さ
れる。その際、各単語毎に同音語(同じ読みで異なる漢
字)の候補がある場合には、それらの全ての候補も候補
バッファ12cに格納する。
【0069】次に、制御部22は同じ入力ピンイン文字
列を単語変形情報検出部26に送る。単語変形情報検出
部26は、拡張辞書である単語変形情報記憶部28を参
照して、候補バッファ12cの中で中国語の離合詞の関
係にある単語を検出する(ステップC13)。この場
合、単語変形情報記憶部28には、図4に示すように元
の単語とその単語の離合パターンが入っており、第3の
実施形態では、候補バッファ12cの中に離合パターン
に当てはまる単語があるかどうかを検出する。
【0070】この検出処理の結果、候補バッファ12c
の中に該当する単語があれば(ステップC14のYe
s)、単語変形情報検出部26はその変換候補を優先候
補として制御部22に通知する(ステップC15)。
【0071】制御部22は、単語間接続情報記憶部27
からの検出結果を受け、その検出結果に基づいて候補バ
ッファ12c内の各変換候補の出力順位を決定するなど
の変換処理を行う(ステップC16)。この場合、各単
語毎の同音語候補の中で上記離合パターンに当てはまる
単語があれば、その単語を第1位とする。その他の単語
については、単語辞書24に設定されている優先順位に
従い、同音語候補の中でその順位が最も高い単語を第1
位とする。
【0072】各変換候補の出力順位が決定されると、制
御部22はその出力順位に従って各変換候補を変換結果
として出力部29に送る(ステップC19)。出力部2
9では、入力ピンイン文字列を第1位の変換候補に換え
て表示したり、その他の変換候補を候補エリアに表示す
るなどの処理を行う。
【0073】次に、上述した処理を具体例を挙げて説明
する。例えば、「wobangtademang」とい
ったピンイン文字列が読み情報として入力されたとす
る。
【0074】このピンイン文字列を「wo/bang/
ta/de/mang」といったように(“/”は音節
の区切りを示すものとする)、各文節毎に区切り、それ
ぞれに対応する単語を単語辞書24から変換候補として
抽出することにより、図14に示すような変換候補群が
得られる。
【0075】ここで、単語変形情報検出部26では、こ
のような変換候補群の組み合わせに対して、図15に示
すように、まず、変換候補群の中で各候補毎に順に検出
対象として設定される候補を前方見出し候補とし、単語
変形情報記憶部28に記憶された離合パターンの先頭文
字(1文字目)と照合する()。その結果、一致する
ものであれば、その候補(単語)を新しく設けた離合詞
先頭候補バッファに蓄える()。
【0076】次に、離合パターンの後方文字(2文字
目)を基に現在位置以降の変換候補との照合を行い、一
致する単語があるかを検出する(と)。該当する単
語(変換候補)がある場合には、その変換候補を優先候
補として制御部22に出力する()。
【0077】最後に、図16に示すような変換結果を出
力部29を通じてユーザに提示する。この場合、互いに
離合関係にある単語が第1位として表示され、その他は
単語辞書24の中の第1位の単語が表示される。なお、
図中の下線はユーザが期待する単語を示すものであり、
実際には表示されない。
【0078】このように、離合詞と呼ばれる中国語特有
の言語現象を反映させて変換候補の絞り込みを行って、
該当する単語を変換候補として優先出力することができ
る。したがって、中国語の文章をピンイン入力により効
率良く作成することができるようになる。
【0079】なお、上記各実施形態では、標準辞書であ
る単語辞書24とは別に設けられた単語間接続情報記憶
部27や単語変形情報記憶部28を拡張辞書として用い
て、ピンイン変換処理を行う構成としたが、単語辞書2
4の中に単語間接続情報や単語変形情報を登録すること
により、1つの辞書として構成し、この辞書を参照して
上述したようなピンイン変換処理を行うことも可能であ
る。
【0080】また、上記各実施形態で説明した変換処理
を1つまとめ、一連の変換処理として実行することも可
能である。この場合、入力されたピンイン文字列に基づ
いて単語辞書24、単語間接続情報記憶部27、単語変
形情報記憶部28をそれぞれ検索し、隣接する単語間ま
たは非隣接の単語で互い接続関係にある単語を検出する
と共に、離合詞のような特定の変形パターンに相当する
単語を検出し、その単語を変換候補として優先出力する
ような処理を行えば良い。
【0081】また、上述した各実施形態において記載し
た手法は、コンピュータに実行させることのできるプロ
グラムとして、例えば磁気ディスク(フロッピーディス
ク、ハードディスク等)、光ディスク(CD−ROM、
DVD等)、半導体メモリなどの記録媒体に書き込んで
各種装置に適用したり、通信媒体により伝送して各種装
置に適用することも可能である。本装置を実現するコン
ピュータは、記録媒体に記録されたプログラムを読み込
み、このプログラムによって動作が制御されることによ
り、上述した処理を実行する。
【0082】
【発明の効果】以上のように本発明によれば、中国語の
言語上互いに接続関係にある単語の情報を記憶した拡張
辞書を用いて、入力ピンイン文字列に対応する同音語の
変換候補の絞り込みを行うようにしたため、中国語の言
語現象を反映させた変換結果を優先的に得て、中国語の
文章を効率良く作成することができる。
【0083】また、隣接している単語に限らず、数語に
離れている単語間でも同音語の絞り込みを行うことで、
より広範囲に正しい変換結果を得るができる。また、中
国語の言語現象の変形パターンに関する単語の情報を記
憶した拡張辞書を用いて、入力ピンイン文字列に対応す
る同音語の変換候補の絞り込みを行うようにしたため、
例えば「離合詞」などの特定のパターンに対応する単語
を変換結果として優先的に得ることができ、変換の成功
率を一層高めることができる。
【図面の簡単な説明】
【図1】本発明の一実施形態に係る中国語入力変換処理
装置のシステム構成を示すブロック図。
【図2】上記図1のシステム構成によって実現される中
国語入力変換処理装置の機能構成を示すブロック図。
【図3】上記図2の中国語入力変換処理装置に設けられ
る単語間接続情報記憶部の構成を示す図。
【図4】上記図2の中国語入力変換処理装置に設けられ
る単語変形情報記憶部の構成を示す図。
【図5】本発明の第1の実施形態としての変換処理動作
を示すフローチャート。
【図6】上記第1の実施形態としての変換処理動作を具
体的に説明するための図であり、入力ピンイン文字列に
対応する変換候補群を示す図。
【図7】上記図6の変換候補群に対する隣接単語間の接
続情報検出処理を説明するための図。
【図8】上記図7の単語間接続情報検出処理によって得
られる変換結果を説明するための図。
【図9】本発明の第2の実施形態としての変換処理動作
を示すフローチャート。
【図10】上記第2の実施形態としての変換処理動作を
具体的に説明するための図であり、入力ピンイン文字列
に対応する変換候補群を示す図。
【図11】上記図10の変換候補群に対する非隣接単語
間の接続情報検出処理を説明するための図。
【図12】上記図11の単語間接続情報検出処理によっ
て得られる変換結果を説明するための図。
【図13】本発明の第3の実施形態としての変換処理動
作を示すフローチャート。
【図14】上記第3の実施形態としての変換処理動作を
具体的に説明するための図であり、入力ピンイン文字列
に対応する変換候補群を示す図。
【図15】上記図14の変換候補群に対する単語変形情
報検出処理を説明するための図。
【図16】上記図15の単語変形情報検出処理によって
得られる変換結果を説明するための図。
【図17】従来の中国語入力変換処理装置によって得ら
れる変換候補を具体的に説明するための図。
【符号の説明】
11…CPU 12…メモリ 12a…プログラム領域 12b…入力バッファ 12c…候補バッファ 12d…文書バッファ 13…入力装置 14…表示装置 15…外部記憶装置 16…印刷装置 17…通信装置 21…入力部 22…制御部 23…辞書検索部 24…単語辞書 25…単語間接続情報検出部 26…単語変形情報検出部 27…単語間接続情報記憶部 28…単語変形情報記憶部 29…出力部

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 中国語の読みをピンインで入力し、その
    入力されたピンインを漢字に変換する中国語入力変換処
    理装置であって、 複数の単語の読みを示すピンイン文字列を入力する入力
    手段と、 各単語毎にピンインとそれに対応する漢字を記憶した標
    準辞書と、 上記入力手段によって入力されたピンイン文字列の各文
    節に対応する単語を上記標準辞書から変換候補として検
    索する辞書検索手段と、 中国語の言語上互いに接続関係にある単語の情報を記憶
    した拡張辞書と、 上記辞書検索手段によって検索された変換候補の中で上
    記拡張辞書に記憶された単語と一致する単語を検出する
    単語検出手段と、 この単語検出手段によって検出された単語を優先して変
    換候補を出力する出力手段とを具備したことを特徴とす
    る中国語入力変換処理装置。
  2. 【請求項2】 上記単語検出手段は、変換候補の中の隣
    接する単語間で上記拡張辞書に記憶された単語と一致す
    る単語を検出することを特徴とする請求項1記載の中国
    語入力変換処理装置。
  3. 【請求項3】 上記検出手段は、変換候補の中の非隣接
    の単語間で上記拡張辞書に記憶された単語と一致する単
    語を検出することを特徴とする請求項1記載の中国語入
    力変換処理装置。
  4. 【請求項4】 中国語の読みをピンインで入力し、その
    入力されたピンインを漢字に変換する中国語入力変換処
    理装置であって、 複数の単語の読みを示すピンイン文字列を入力する入力
    手段と、 各単語毎にピンインとそれに対応する漢字を記憶した標
    準辞書と、 上記入力手段によって入力されたピンイン文字列の各文
    節に対応する単語を上記標準辞書から変換候補として検
    索する辞書検索手段と、 中国語の言語現象の変形パターンに関する単語の情報を
    記憶した拡張辞書と、 上記辞書検索手段によって検索された変換候補の中で上
    記拡張辞書に記憶された単語と一致する単語を検出する
    単語検出手段と、 この単語検出手段によって検出された単語を優先して変
    換候補を出力する出力手段とを具備したことを特徴とす
    る中国語入力変換処理装置。
  5. 【請求項5】 上記拡張辞書は、中国語の離合詞の関係
    にある単語の情報を記憶していることを特徴とする請求
    項4記載の中国語入力変換処理装置。
  6. 【請求項6】 中国語の読みをピンインで入力し、その
    入力されたピンインを漢字に変換する中国語入力変換処
    理方法であって、 各単語毎にピンインとそれに対応する漢字を記憶した標
    準辞書および中国語の言語上互いに接続関係にある単語
    の情報を記憶した拡張辞書を備え、 複数の単語の読みを示すピンイン文字列が入力された際
    に、上記入力ピンイン文字列の各文節に対応する単語を
    上記標準辞書から変換候補として検索し、 この検索された変換候補の中で上記拡張辞書に記憶され
    た単語と一致する単語を検出し、 この検出された単語を優先して変換候補を出力すること
    を特徴とする中国語入力変換処理方法。
  7. 【請求項7】 中国語の読みをピンインで入力し、その
    入力されたピンインを漢字に変換する中国語入力変換処
    理方法であって、 各単語毎にピンインとそれに対応する漢字を記憶した標
    準辞書および中国語の言語現象の変形パターンに関する
    単語の情報を記憶した拡張辞書を備え、 複数の単語の読みを示すピンイン文字列が入力された際
    に、上記入力ピンイン文字列の各文節に対応する単語を
    上記標準辞書から変換候補として検索し、 この検索された変換候補の中で上記拡張辞書に記憶され
    た単語と一致する単語を検出し、 この検出された単語を優先して変換候補を出力すること
    を特徴とする中国語入力変換処理方法。
  8. 【請求項8】 中国語の読みをピンインで入力し、その
    入力されたピンインを漢字に変換するための中国語入力
    変換処理プログラムを記録した記録媒体であって、 各単語毎にピンインとそれに対応する漢字を記憶した標
    準辞書および中国語の言語上互いに接続関係にある単語
    の情報を記憶した拡張辞書を備え、 複数の単語の読みを示すピンイン文字列が入力された際
    に、上記入力ピンイン文字列の各文節に対応する単語を
    上記標準辞書から変換候補として検索させる手順と、 この検索された変換候補の中で上記拡張辞書に記憶され
    た単語と一致する単語を検出させる手順と、 この検出された単語を優先して変換候補を出力させる手
    順とをコンピュータに実行させるプログラムを記憶した
    コンピュータ読取り可能な記録媒体。
  9. 【請求項9】 中国語の読みをピンインで入力し、その
    入力されたピンインを漢字に変換するための中国語入力
    変換処理プログラムを記録した記録媒体であって、 各単語毎にピンインとそれに対応する漢字を記憶した標
    準辞書および中国語の言語現象の変形パターンに関する
    単語の情報を記憶した拡張辞書を備え、 複数の単語の読みを示すピンイン文字列が入力された際
    に、上記入力ピンイン文字列の各文節に対応する単語を
    上記標準辞書から変換候補として検索させる手順と、 この検索された変換候補の中で上記拡張辞書に記憶され
    た単語と一致する単語を検出させる手順と、 この検出された単語を優先して変換候補を出力させる手
    順とをコンピュータに実行させるプログラムを記憶した
    コンピュータ読取り可能な記録媒体。
JP10040449A 1998-02-23 1998-02-23 中国語入力変換処理装置、中国語入力変換処理方法、中国語入力変換処理プログラムを記録した記録媒体 Pending JPH11238051A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP10040449A JPH11238051A (ja) 1998-02-23 1998-02-23 中国語入力変換処理装置、中国語入力変換処理方法、中国語入力変換処理プログラムを記録した記録媒体
CN 99102310 CN1106619C (zh) 1998-02-23 1999-02-13 汉语输入变换处理装置和汉语输入变换处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10040449A JPH11238051A (ja) 1998-02-23 1998-02-23 中国語入力変換処理装置、中国語入力変換処理方法、中国語入力変換処理プログラムを記録した記録媒体

Publications (1)

Publication Number Publication Date
JPH11238051A true JPH11238051A (ja) 1999-08-31

Family

ID=12580961

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10040449A Pending JPH11238051A (ja) 1998-02-23 1998-02-23 中国語入力変換処理装置、中国語入力変換処理方法、中国語入力変換処理プログラムを記録した記録媒体

Country Status (2)

Country Link
JP (1) JPH11238051A (ja)
CN (1) CN1106619C (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030044138A (ko) * 2001-11-28 2003-06-09 인벤텍 코오포레이션 보조 라이팅 모델을 제공하는 중국어 입력 방법
KR20040036333A (ko) * 2002-10-24 2004-04-30 인벤텍 코오포레이션 음성인식 중국어 입력시스템 및 그 방법
KR100476100B1 (ko) * 2001-11-28 2005-03-10 인벤텍 코오포레이션 실용적인 중국어 입력 방법
CN109917927A (zh) * 2017-12-13 2019-06-21 北京搜狗科技发展有限公司 一种候选项确定方法和装置
CN110162681A (zh) * 2018-10-08 2019-08-23 腾讯科技(深圳)有限公司 文本识别、文本处理方法、装置、计算机设备和存储介质
CN110245331A (zh) * 2018-03-09 2019-09-17 中兴通讯股份有限公司 一种语句转换方法、装置、服务器及计算机存储介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4476609B2 (ja) * 2003-12-10 2010-06-09 株式会社東芝 中国語解析装置、中国語解析方法および中国語解析プログラム
CN100592249C (zh) * 2007-09-21 2010-02-24 上海汉翔信息技术有限公司 快速输入相关词的方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030044138A (ko) * 2001-11-28 2003-06-09 인벤텍 코오포레이션 보조 라이팅 모델을 제공하는 중국어 입력 방법
KR100476100B1 (ko) * 2001-11-28 2005-03-10 인벤텍 코오포레이션 실용적인 중국어 입력 방법
KR20040036333A (ko) * 2002-10-24 2004-04-30 인벤텍 코오포레이션 음성인식 중국어 입력시스템 및 그 방법
CN109917927A (zh) * 2017-12-13 2019-06-21 北京搜狗科技发展有限公司 一种候选项确定方法和装置
CN110245331A (zh) * 2018-03-09 2019-09-17 中兴通讯股份有限公司 一种语句转换方法、装置、服务器及计算机存储介质
CN110162681A (zh) * 2018-10-08 2019-08-23 腾讯科技(深圳)有限公司 文本识别、文本处理方法、装置、计算机设备和存储介质
CN110162681B (zh) * 2018-10-08 2023-04-18 腾讯科技(深圳)有限公司 文本识别、文本处理方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN1106619C (zh) 2003-04-23
CN1227369A (zh) 1999-09-01

Similar Documents

Publication Publication Date Title
JP3277123B2 (ja) 中国語テキストを処理するためのシステムおよび方法
Habash et al. MADA+ TOKAN: A toolkit for Arabic tokenization, diacritization, morphological disambiguation, POS tagging, stemming and lemmatization
Trujillo Translation engines: techniques for machine translation
US8346537B2 (en) Input apparatus, input method and input program
JP2515726B2 (ja) 情報検索方法及び装置
US7630880B2 (en) Japanese virtual dictionary
JPH03224055A (ja) 同時通訳向き音声認識システムおよびその音声認識方法
JPH03172966A (ja) 類似文書検索装置
WO2005089215B1 (en) Phonetic and stroke input methods of chinese characters and phrases
JPH11238051A (ja) 中国語入力変換処理装置、中国語入力変換処理方法、中国語入力変換処理プログラムを記録した記録媒体
Sharma et al. Word prediction system for text entry in Hindi
JP3952964B2 (ja) 読み情報決定方法及び装置及びプログラム
KR101777141B1 (ko) 한글 입력 키보드를 이용한 훈민정음 기반 중국어 및 외국어 입력 장치 및 방법
JP2621999B2 (ja) 文書処理装置
JP3873305B2 (ja) 仮名漢字変換装置および仮名漢字変換方法
JP3935374B2 (ja) 辞書構築支援方法、装置及びプログラム
JP2009075748A (ja) 機械翻訳装置及びプログラム
JPH08272780A (ja) 中国語入力処理装置及び中国語入力処理方法及び言語処理装置及び言語処理方法
JP2002297592A (ja) 自然文マッチング装置、自然文マッチング方法、及び自然文マッチングプログラム
KR100268297B1 (ko) 중국어 텍스트 처리 컴퓨터 시스템, 형태 처리에 의한 단어 스트링 처리 방법, 중국어 어구 분석 방법
JP3873299B2 (ja) 仮名漢字変換装置および仮名漢字変換方法
JPH0546612A (ja) 文章誤り検出装置
JPH08241315A (ja) 文書処理装置の単語登録機構
JPH01114973A (ja) 文書作成・校正支援装置
JPS5840650A (ja) 日本文入力方式