JPH10269204A - 中国語文書自動校正方法及びその装置 - Google Patents

中国語文書自動校正方法及びその装置

Info

Publication number
JPH10269204A
JPH10269204A JP9077354A JP7735497A JPH10269204A JP H10269204 A JPH10269204 A JP H10269204A JP 9077354 A JP9077354 A JP 9077354A JP 7735497 A JP7735497 A JP 7735497A JP H10269204 A JPH10269204 A JP H10269204A
Authority
JP
Japan
Prior art keywords
character
candidate
word
document
reading
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9077354A
Other languages
English (en)
Inventor
Shunkitsu Kaku
俊桔 郭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP9077354A priority Critical patent/JPH10269204A/ja
Priority to TW86119972A priority patent/TW420774B/zh
Priority to CN98104404A priority patent/CN1195142A/zh
Publication of JPH10269204A publication Critical patent/JPH10269204A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 中国語文書中の誤字、脱字を自動的に検出、
修正する中国語文書自動校正方法及びその装置を提供す
る。 【解決手段】 文字対読み変換部200は、入力された原
始文書を読み記号列に変換する。候補語検出部300は、
前記読み記号列に対して音節を切り出してそれを検索キ
ーとして可能な候補語及び関連情報を検出する。類似候
補語検出部400は、マスク手段により類似ビットをマス
クした後の読み記号列を検索キーとして可能な候補語及
び関連情報を検出する。最適候補文字列決定部500は、
原始文書に対応する各候補語の開始、終了位置を検索キ
ーとして各候補語を連接して有向ネットを作り、使用頻
度重み+語長重み+原始文書類似度重み+意味類似度重
みの累計最大値を評価関数として動的計画法により最適
な経路を取り出す。マッチング部600は、前記最適経路
の文字列と原始文書とをマッチングして相異字を検出、
マークする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は文書自動校正方法及
びその装置に関し、特に、中国語文書中の誤字、脱字を
自動的に検出、修正する中国語文書自動校正方法及びそ
の装置に関する。
【0002】
【従来の技術】中国人が文書を書く時、よく誤字になる
原因は以下に示されている。 (一)同音異義字、または同音異形字 例えば、[幼苗長得像筆]の[得]は、よく“的”と書
き間違えられる。また
【外1】 (二)字画の間違い 例えば、[帽子]の[帽]は気が付かないとよく“昌”
等の字と書き間違えられる。また、“目”もよく“日”
と書き間違えられる。そのほかに、複雑な字画数をもつ
文字、例えば、“龜”、“鬱”等もよく書き間違えられ
る。 (三)字形類似 例えば、[宰相]の[宰]について、その一部分である
“宀”はよく“冖”と書き間違えられる。若しくは、
“辛”は“幸”と書き間違えられる。その外、[
【外2】 ]もよく部首の“犬”と書き間違えられる。 (四)脱字 書くスピードが速すぎるから、或は気が付かないと、よ
く脱字になる。例えば、[辛辛苦苦]は[辛苦苦]と書
き間違えられる。 (五)当て字 間違った字を使用する。例えば、[家庭]は[家廷]
と、[亭亭玉立]は[
【外3】
【0003】この十何年以来、電子計算機の進歩と普及
に伴い、中国語入力法も種々提案されている。コードに
よる方式の中国語の入力法には大別すると、一般キーボ
ードと専用入力装置などがある。一般のキーボードを利
用する入力方式は次に示されている。(一)漢字の読み
による入力方式、(二)漢字の字形による入力方式、
(三)字形と読みの組み合わせによる入力方式、(四)
文字コードによる入力方式、(五)部首若しくは字画数
による入力方式等である。専用入力装置は例えば、専用
の大きいキーボードやOCR(光学文字認識装置)等であ
る。
【0004】中国語入力法は漢字を書くときの困難さを
解消できる方法を提供している。しかし、コンピュータ
より入力された中国語の文書ファイルにおいて、従来よ
りよく間違えられるものの中、例えば、字画の書き間違
いなどの問題を解消することはできるが、ほかの誤りを
避けることはやはりできない。一般的に言えば、中国語
文書ファイルにおける誤字になる原因は以下に示すよう
に分けられる。 (一)読み記号と字形の組み合わせを正しく入力できな
いこと 一般的に、中国語の読み記号を声母、韻母、介音、声調
に区分することができる。 声母:b,p,m,... 介音:i,u,yu,iu,... 韻母:a,o,e,... 声調:1(一声)、2(二声)、3(三声)、4(四声)、
0(軽声) 例えば、[形]の読み記号が[xing2]である。[字]
の読み記号が[z4]である。そのうち、中国人にとって
よく間違えられた読み記号セットは次に示されている。 声母部分:[sh]と[s]または[q]と[x]等 介音部分:[i]と[yu] 韻母部分:[eng]と[(en]または[an]と[ang]等 声調部分:よく間違えられる。特に中国人以外の外国人
にとって正しい声調を発音するのは難しいことである。
例えば、[興趣](xing4qyu4)がよく(xing4qi4)と
発音されるから、入力すると、“性器”になる。[學
生](xyue2sheng1)と[寫生](xie3sheng1)もよく
お互いに誤用される。なお、字形入力の場合、類似した
字形の組み合わせ或は間違った組み合わせを入力する
と、正しい結果が得られない。例えば、[日]と
[曰]、[受]と[愛]などの字形組み合わせコードが
よく類似している。 (二)同音異義字 間違った同音異義字、語を選択する。例えば、[同音異
義字]の場合、よく[同音意義字]、[同音異議字]と
選択される。 (三)参照辞書の誤り いずれの入力法においても参照辞書を利用して変換を行
う。この参照辞書の内容に誤りがあった場合、入力結果
はもちろん誤りになる。例えば、参照辞書には、[形影
不離]という諺が[行影不離]と登録されたならば、前
の読み記号が入力されると、その変換結果も必ず[行影
不離]という誤変換になる。 (四)入力操作の誤り 普通、文書を作成するには各種の文書編集ソフトウェア
を利用する。しかし、[挿入]または[削除]などの編
集機能を実行する場合、注意深く操作しないと、文書に
おける余り字または脱字を惹起する可能性が高い。
【0005】中国語文書ファイルにおいて、誤字は、文
書の品質に大きな影響を及ぼす。それで、如何に効率的
に中国語文書ファイル内の誤りを検出して自動的に訂正
するかは重要な課題である。従来の中国語文書自動校正
方法及びその装置としては、例えば、中華民国公告番号
260772号に示されているようなものがある。図17は、
この従来例の構成図である。同図において、100は処
理しようとする中国語文書を入力する入力装置である。
110は処理しようとする中国語文書を格納している中
国語文書ファイルである。120は、総合類似字集を参
照して入力された中国語文書における文字毎に、類似文
字に変換し、変換された類似文字から複数の候補文字列
を組み合わせる総合類似字形置換装置である。130は
中国語文字の字形や字音や意味や入力コード類似の文字
等を記憶している総合類似字集である。以下はその例で
ある(S:字形類似、P:字音類似、M:意味類似、
I:入力コード類似)。人:入S
【外4】 己:已S、巳S、乙S 干:甘P、乾P、千S 弋:戈S 冶:治S
【0006】140は各候補文字列に評価を与えて評価
された各候補文字列から一番評価が高い候補文字列を検
出する言語パターン評価装置である。150は評価装置
であり、(a)言語パターン統計データベースと(b)評価装
置からなる。(a)言語パターン統計データベースは各言
語単位の使用頻度、言語単位間の接続使用頻度を記録
し、且つ、各語の頻度を記録する中国語知識ベースを含
む。(b)評価装置は一文字列に対してその言語単位及び
言語パターン統計データベースにより、該文字列に点数
を付ける。そのうえ、該原始文文書ファイルにない文字
に対して点数を減ずる。160は動的計画法により、一
番評価が高い候補文字列を検出する最高評価候補文字列
検出装置である。170は逐字マッチング方式により、
該最高評価候補文字列と該文書ファイルにおける文字列
を照合して相異の文字を誤字として表示する誤字判定装
置である。180は表示終了の文字列を表示後の文書フ
ァイルに出力する表示結果出力装置である。190は表
示された文字列を格納している表示後文書ファイルであ
る。以下、この従来例の動作を説明する。
【0007】入力装置100により、中国語文書ファイ
ル110から処理しようとする中国語文書を入力する。
区切りの位置により、前記入力された中国語文書をいく
つかの処理単位に分けて総合類似字形置換装置120に
入る。総合類似字形置換装置120では、各処理単位に
よって総合類似字集130を参照して全ての字形、字
音、意味または入力コード類似の類似文字を取り出して
複数の候補文字列を組み合わてから、言語パターン評価
装置140に入る。言語パターン評価装置140では、
評価装置150における統計的言語パターンにより、各
候補文字列に評価を与え、言語パターン評価により、原
始文書ファイルにない文字に対して点数を減ずる。最高
評価候補文字列検出装置160では、動的計画法によ
り、最高評価候補文字列を検出してから、誤字判定装置
170に入る。誤字判定装置170では、最高評価の候
補文字列と入力された原文書ファイルとを逐次に照合
(マッチング)して相異文字があったところを誤字とし
て表示して表示結果出力装置180に入る。表示結果出
力装置180は、表示文字列を表示後文書ファイル19
0へ出力する。
【0008】
【発明が解決しようとする課題】しかしながら、前記従
来の技術に係る方法及びその装置においては、以下のよ
うな問題点がある。 (1)総合類似字集に登録されていない文字を検出、訂
正することはできない。そのために、知識ベースを作
り、保守するには多くの工数と資源や経費を必要とす
る。 (2)言語パターン評価装置において、各語の出現頻度
と言語単位間の接続使用頻度のみを考え、意味情報を利
用していないため、検出率と訂正率は高くならない。 (3)中国語文書における脱字、余り字、文字順序エラ
ーなどの問題を効率的に解消できない。
【0009】
【課題を解決するための手段】前記の目的を達成するた
めに、請求項1の発明においては、コンピュータで電子
化中国語文書を自動的に校正する中国語文書自動校正方
法において、中国語の各文字の配列順序を記憶する文字
順序配列表とそれに対応する読み記号を記憶する読み記
号表とを、前記読み記号表に対応する全ての候補単語及
びその読み記号とともに格納した破音字典部と、中国語
の文字記号とそれに対応するデフォルトの読み記号及び
その他の可能な読み記号を格納した字音辞書部と、中国
語の読み記号とそれに対応する全ての同音異義字、語及
びそのすべての同音異義字、語の使用頻度重み、意味コ
ードを格納した音字辞書部とを予め設ける辞書部作成ス
テップと、前記の破音字典部及び字音辞書部を参照して
入力装置より入力された原始文書における文字列を読み
記号列に変換する文字対読み変換ステップと、前記文字
対読み変換ステップで得られた読み記号列に対して音節
を切り出して前記切り出された音節を検索キーとして前
記音字辞書部を参照して全ての可能な候補語及びその関
連情報を検出する候補語検出ステップと、連続漢字候補
音節に対してマスク手段により、類似ビットをマスクし
た後の読み記号列を検索キーとして前記音字辞書部を参
照して全ての可能な候補語及びその関連情報を検出する
類似候補語検出ステップと、原始文書の文字列に対応す
る各候補語の開始位置、終了位置を検索キーとして各候
補語を連接して有向ネットを形成したうえで、計算手段
により、各候補語の類似度重み、語長重みを計算し、使
用頻度重みと語長重みと原始文書類似度重みとの累計最
大値を評価関数として動的計画法により、最適な経路を
取り出す最適候補文字列決定ステップと、前記取り出さ
れた最適な経路における文字列と原始文書文字列とをマ
ッチングして相異字を検出してからマークするマッチン
グステップとを有していることを特徴とする。
【0010】請求項2の発明においては、コンピュータ
により電子化中国語文書を自動的に校正する中国語文書
自動校正装置において、中国語の各文字の配列順序を記
憶する文字順序配列表とそれに対応する読み記号を記憶
する読み記号表とを、前記読み記号表に対応する全ての
候補単語及びその読み記号とともに格納している破音字
典部と、文字記号とそれに対応するデフォルトの読み記
号及びその他の可能な読み記号を格納している字音辞書
部と、読み記号とそれに対応する全ての同音異義字、語
及びそのすべての同音異義字、語の使用頻度重み、意味
コードを格納している音字辞書部と、前記の破音字典部
及び字音辞書部を参照して入力装置より入力された原始
文書における文字列を読み記号列に変換する文字対読み
変換部と、前記文字対読み変換部で得られた読み記号列
に対して音節を切り出して前記切り出された音節を検索
キーとして前記音字辞書部を参照して全ての可能な候補
語及びその関連情報を検出する候補語検出部と、連続漢
字候補音節に対してマスク手段により、類似ビットをマ
スクした後の読み記号列を検索キーとして前記音字辞書
部を参照して全ての可能な候補語及びその関連情報を検
出する類似候補語検出部と、原始文書の文字列に対応す
る各候補語の開始位置、終了位置を検索キーとして各候
補語を連接して有向ネットを形成したうえで、計算手段
により、各候補語の類似度重み、語長重みを計算し、使
用頻度重みと語長重みと原始文書類似度重みとの累計最
大値を評価関数として動的計画法により、最適な経路を
取り出す最適候補文字列決定部と、前記取り出された最
適な経路における文字列と原始文書文字列とをマッチン
グして相異字を検出してからマークするマッチング部と
を有していることを特徴とする。
【0011】請求項3の発明は、請求項2において、メ
モリで学習された相隣接する後続語の意味コードと先行
語の意味コードとの組み合わせを格納している意味学習
辞書部を設け、上記最適候補文字列決定手段は原始文書
の文字列に対応する各候補語の開始位置、終了位置を検
索キーとして各候補語を連接して有向ネットを形成した
うえで、計算手段により、各候補語の類似度重み、語長
重みを計算し、前記意味学習辞書部を参照して使用頻度
重みと語長重みと原始文書類似度重みと意味類似度重み
との累計最大値を評価関数として動的計画法により、最
適な経路を取り出すものであることを特徴とする。
【0012】
【作用】上記構成により、請求項1の発明においては、
コンピュータで電子化中国語文書を自動的に校正する中
国語文書自動校正方法において、辞書部作成ステップで
は、中国語の各文字の配列順序を記憶する文字順序配列
表とそれに対応する読み記号を記憶する読み記号表と
を、前記読み記号表に対応する全ての候補単語及びその
読み記号とともに格納した破音字典部を設ける。また、
中国語の文字記号とそれに対応するデフォルトの読み記
号及びその他の可能な読み記号を格納した字音辞書部を
設ける。さらに、中国語の読み記号とそれに対応する全
ての同音異義字、語及びそのすべての同音異義字、語の
使用頻度重み、意味コードを格納した音字辞書部を設け
る。文字対読み変換ステップでは、前記の破音字典部及
び字音辞書部を参照して入力装置より入力された原始文
書における文字列を読み記号列に変換する。候補語検出
ステップでは、前記文字対読み変換ステップで得られた
読み記号列に対して音節を切り出して前記切り出された
音節を検索キーとして前記音字辞書部を参照して全ての
可能な候補語及びその関連情報を検出する。類似候補語
検出ステップでは、連続漢字候補音節に対してマスク手
段により、類似ビットをマスクした後の読み記号列を検
索キーとして前記音字辞書部を参照して全ての可能な候
補語及びその関連情報を検出する。最適候補文字列決定
ステップでは、原始文書の文字列に対応する各候補語の
開始位置、終了位置を検索キーとして各候補語を連接し
て有向ネットを形成したうえで、計算手段により、各候
補語の類似度重み、語長重みを計算し、使用頻度重みと
語長重みと原始文書類似度重みとの累計最大値を評価関
数として動的計画法により、最適な経路を取り出す。マ
ッチングステップでは、前記取り出された最適な経路に
おける文字列と原始文書文字列とをマッチングして相異
字を検出してからマークする。
【0013】請求項2の発明においては、コンピュータ
により電子化中国語文書を自動的に校正する中国語文書
自動校正装置において、破音字典部は、中国語の各文字
の配列順序を記憶する文字順序配列表とそれに対応する
読み記号を記憶する読み記号表を、前記読み記号表に対
応する全ての候補単語及びその読み記号とともに格納し
ている。字音辞書部は、文字記号とそれに対応するデフ
ォルトの読み記号及びその他の可能な読み記号を格納し
ている。音字辞書部は読み記号とそれに対応する全ての
同音異義字、語及びそのすべての同音異義字、語の使用
頻度重み、意味コードを格納している。文字対読み変換
部は、前記の破音字典部及び字音辞書部を参照して入力
装置より入力された原始文書における文字列を読み記号
列に変換する。候補語検出部は、前記文字対読み変換部
で得られた読み記号列に対して音節を切り出して前記切
り出された音節を検索キーとして前記音字辞書部を参照
して全ての可能な候補語及びその関連情報を検出する。
類似候補語検出部は、連続漢字候補音節に対してマスク
手段により、類似ビットをマスクした後の読み記号列を
検索キーとして前記音字辞書部を参照して全ての可能な
候補語及びその関連情報を検出する。最適候補文字列決
定部は、原始文書の文字列に対応する各候補語の開始位
置、終了位置を検索キーとして各候補語を連接して有向
ネットを形成したうえで、計算手段により、各候補語の
類似度重み、語長重みを計算し、使用頻度重みと語長重
みと原始文書類似度重みとの累計最大値を評価関数とし
て動的計画法により、最適な経路を取り出す。マッチン
グ部は、前記取り出された最適な経路における文字列と
原始文書文字列とをマッチングして相異字を検出してか
らマークする。
【0014】請求項3の発明においては、意味学習辞書
部は、学習された相隣接する後続語の意味コードと先行
語の意味コードとの組み合わせを格納している。上記最
適候補文字列決定手段は原始文書の文字列に対応する各
候補語の開始位置、終了位置を検索キーとして各候補語
を連接して有向ネットを形成したうえで、計算手段によ
り、各候補語の類似度重み、語長重みを計算し、前記意
味学習辞書部を参照して使用頻度重みと語長重みと原始
文書類似度重みと意味類似度重みとの累計最大値を評価
関数として動的計画法により、最適な経路を取り出す。
【0015】
【発明の実施の形態及び実施例】「意味」は形態素自身
の意味(或は意味コードという)である。以下に示す実
施例では、角川書店から出版された類語辞典(1985年)
に示されている意味分類方法を採用した。この意味分類
方法は、一つの形態素のすべての分類情報を大分類(一
桁目)、中分類(二桁目)、小分類(三桁目)、細分類
(四桁目)の16進の4桁の数字により示すものである。
なお、ここに16進の数字を採用したのは、計算機で16進
(2バイト)の数字が広く採用されていることと、16進
なら1桁で各分類に充分対応可能なことによる。この類
語辞典はすべての漢字、単語等を「自然」、「性状」、
「変動」、「行動」、「心情」、「人物」、「成功」、
「社会」、「学芸」、「物品」の十個の大分類に分け、
また各大分類を十個の中分類とし、各中分類、小分類も
同様の方法により、より細く分類される。本実施例では
この四桁数字の前にsを加えて、以下のように表現す
る。 s0 (“自然”類に属する) s02 (“自然”類の“気象”に属する) s028 (“自然”類の“風”に属する) s028a (“自然”類の“強弱”に属する) このような階層的分類コードは例えば、図13に示され
ている。このような階層的分類コードにおいて、上位の
意味コードの意味範囲は下位より広い。つまり、より下
位の意味コードの意味範囲は狭い。従って、実際の必要
に合わせて意味コードを利用すればよいこととなり、あ
らかじめ必要もないのに一々登録する必要性がなく、メ
モリを節約することができる。また、この意味コードは
数字で表わすので、数学の演算、例えば集合論理積によ
り、意味コードを処理する場合、意味コードから生じる
より価値のある情報を獲得することが可能となる。な
お、意味コードに関する詳しい説明は、特開平3-202954
号公報に掲載されているため、省略する。
【0016】中国語の漢字の読みの種類は約1300があ
り、それを符号化すれば、せいぜい2バイト(バイトを
単位化する場合)で済むが、そのうち、声母(子音)は
22、介音は3、韻母(母音)は14、声調は5がある。2バ
イトの中国語の漢字の読みの構造を図1に示す。第1バ
イトは声母(ビット2〜ビット6)と介音(ビット0〜1)
を、第2バイトは声調(ビット4〜ビット6)と韻母(ビ
ット0〜3)を含む。それで、例えば、第1バイトの介音
領域をマスクして論理積演算手段を使って、同じ声母、
韻母、声調を持っている文字が検出される。マスク手段
により、各領域における類似音を処理するために、各領
域における類似した音韻要素同士のビットパターン間の
距離は1となっている。その例を図2に示す。中国語の
読みコンパクコードと類似ビット配置の詳しい説明につ
いては、特公平7-60433号“漢字変換装置”を参照され
たい。編集上のミスからの余り字、脱字、文字順序エラ
ー等の問題を処理したい場合、本実施例におけるマスク
手段は前記のビットのマスクを行えるほか、完全的に文
字をマスクすることもできる。“ting2 yu4 li4”を例
として、“ting2* yu4 li4”もしくは“*ting2 yu4 li
4”(*:マスクされた文字を表わす。即ち、何れの文字
でもよい)を検索キーとして音字辞書を参照することに
より、“亭亭玉立”を検出できる。なお、特公平7-6043
4号“漢字変換装置”を参照すると、読み記号列(表音
記号列)を文字列(漢字列)に変換する場合、文字数の
多い単語(単語の長さ、ここで語長と呼ばれている)は
一つの重要な評価要因とされることがわかる。このため
に、本実施例において、語長重みも評価関数の一つとさ
れる。その計算式を以下に示す。例えば、候補語が“大
家”である場合、その語長重みが(2−1)*2=2と
なる。 語長重み=(候補語の文字数−1)*2
【0017】また、原始文書における文字情報を利用し
て最適な経路を効率的に取り出すために、本実施例にお
いて、原始文書類似度重みを評価関数の一つとする。そ
の計算式を以下に示す。 原始文書類似度重み=(原始文書の文字とそれに対応す
る候補語をマッチングして同じ文字を持つ数)/候補語
の字数 例えば、原始文書の文字“亭玉立”に対応する候補語が
“亭亭玉立”である場合、この候補語の原始文書類似度
の重みは3/4(0.75)となる。
【0018】本実施例において、先行語、後続語の意味
情報も導入されている。例えば、図12に示すように、
この単語の意味はマークした後の大型コパスから単語の
先行語、後続語の意味を参照して自動的に学習して獲得
するものである。若しくは、領域別にマークされた後の
文書の集まりから学習して獲得するものである。意味コ
ードは階層的定義方式を採用するために、先行語、後続
語の意味類似度計算は集合論理積の演算を行うことによ
り得られる。例えば、意味コード[7140]と[714a]と
の集合論理積の演算結果は[714]となる。この場合、
三つのコードが一致しているので、意味コード類似度は
3/4となる。なお、全部のコードが一致している場
合、意味類似度は1、二つのコードが一致している場合
には、意味類似度は2/4、一つのコードが一致してい
る場合には、意味類似度は1/4、全てが一致しない場
合には、0とする。
【0019】図3は、本発明の一実施例の構成図であ
る。同図において、250は、中国語の各文字の配列順
序を記憶する文字順序配列表とそれに対応する読み記号
を記憶する読み記号表と前記読み記号表に対応する全て
の候補単語及びその読み記号を格納している破音字典部
である。破音字典の概念図を図9に示す。260は、文
字記号とそれに対応するデフォルトの読み記号及びその
他の可能な読み記号を格納している字音辞書である。字
音辞書部のデータ構造の概念図を図10に示す。450
は、読み記号とそれに対応する全ての同音異義字、語及
びそのすべての同音異義字、語の使用頻度重み(長期学
習)、意味コードを格納している音字辞書部である。音
字辞書部のデータ構造の概念図を図11に示す。550
は、学習された相隣接する後続語の意味コードと先行語
の意味コードとの組み合わせを格納している意味学習辞
書部である。意味学習辞書部のデータ構造の概念図を図
12に示す。350は、中間処理データを一時記録して
いるバッファである。100は、例えば、ハードディス
ク、キーボードなどの入力装置により、原始文書を入力
する入力部である。200は、前記の破音字典部250
及び字音辞書部260を参照して入力装置より入力され
た原始文書における文字列を読み記号列に変換する文字
対読み変換部である。300は、前記文字対読み変換部
200で得られた読み記号列に対して音節を切り出して
前記切り出された音節を検索キーとして前記音字辞書部
450を参照して全ての可能な候補語及びその関連情報
を検出する候補語検出部である。400は、連続漢字候
補音節に対してマスク手段により、類似ビットをマスク
した後の読み記号列を検索キーとして前記音字辞書部4
50を参照して全ての可能な候補語及びその関連情報を
検出する類似候補語検出部である。500は、原始文書
の文字列に対応する各候補語の開始位置、終了位置を検
索キーとして各候補語を連接して有向ネットを形成した
うえで、計算手段により、各候補語の類似度重み、語長
重みを計算し、前記意味学習辞書部550を参照して使
用頻度重み+語長重み+原始文書類似度重み+意味類似
度重みの累計最大値を評価関数として動的計画法によ
り、最適な経路を取り出す最適候補文字列決定部であ
る。600は、前記取り出された最適な経路における文
字列と原始文書文字列とをマッチングして相異字を検出
してからマークするマッチング部である。700は、前
記最適文字列とマークされた後の原始文書の文字列を出
力する出力部である。
【0020】本実施例における文字対読み変換部200
の動作流れを図4に示す。以下、同図を参照しつつその
動作を説明する。 (S201) 入力部100により原始文書の文字を入
力してからバッファ350に記録する。 (S202) 字音辞書部260を参照して原始文書の
文字を音節毎に切り出してから、(S203)の処理に
入る。 (S203) バッファ350に記録されている各音節
を各々取り出して、字音辞書部260を参照して非破音
字の文字を読み記号に変換した後、バッファ350に記
録する。 (S204) バッファ350に記録されている破音字
がある文字を破音字典部250を参照して、破音字を該
当する読み記号に変換する。 (S205) バッファ350の原始文書の文字を参照
して、中国語の語法に基づき、バッファ350の各文字
の読み記号を修正する。例えば、「媽」の読みは「ma
1」であるが、「媽媽」の二番目の「媽」の声調は1声
(四声の中で最も高い)で読まなくて軽声(音節が連続
するため固有の声調を失って、弱く軽く発音される)で
読むべき「ma0」)なので二番目の「媽」の読み記号
を修正する。以上により、文字対読み変換部200の処
理が終了する。
【0021】本実施例における候補語検出部300の動
作流れを図5に示す。以下、同図を参照しつつその動作
を説明する。 (S301) 文字対読み変換部200により得られた
原始文書の読み記号を入力する。音字辞書部450を参
照して読み記号について音節になれる可能性のあるすべ
ての音節を切り出してから、(S302)の処理に入
る。 (S302) 切り出された音節を検索キーとして音字
辞書部450からすべての候補語とその使用頻度重み、
意味コードを取り出す。 (S303) 候補語及びその関連情報をバッファ35
0に記録した後、処理を終了する。
【0022】本実施例における類似候補語検出部400
の動作流れを図6に示す。以下、同図を参照しつつその
動作を説明する。 (S401) 候補語検出部300より読み記号列とす
べての候補語及びその関連情報を入力してから(S40
2)へ行く。 (S402) 未処理の連続単音節候補があるか否かを
判断する。未処理の連続単音節候補がまだある場合に
は、(S403)に入る。未処理の連続単音節候補がな
い場合には、類似候補語検出部400の処理を終了す
る。 (S403) 連続単音節の候補読み音と類似音マスク
手段により、音字辞書部450を参照して類似語とその
関連情報を取り出してから、(S404)に入る。 (S404) 前記取り出された類似候補語に対して読
み記号列を参照して各類似候補語の開始位置、終了位置
を計算してから、(S402)の処理に戻る。
【0023】本実施例における最適候補文字列決定部5
00の動作流れを図7に示す。以下、同図を参照しつつ
その動作を説明する。 (S501) 類似候補語検出部400より類似候補語
及びその関連情報を入力してから(S502)へ行く。 (S502) バッファ350から候補語とその関連情
報を取り出してから、(S503)の処理に入る。 (S503) 各候補語の開始、終了位置を検索キーと
して候補語の有向ネットを作成する。 (S504) バッファ350から原始文書の文字列を
取り出して、各候補語の開始位置、終了位置を検索キー
として原始文書の類似度重み、語長重みを計算してか
ら、(S505)の処理に入る。 (S505) 使用頻度重み+語長重み+原始文書類似
度重み+意味類似度重みの累計最大値を評価関数として
動的計画法によって最適な経路を取り出す。それから、
(S506)へ行く。 (S506) 最適な経路における候補語が取り出され
てから出力される。
【0024】本実施例における参照マッチング部600
の動作流れを図8に示す。以下、同図を参照しつつその
動作を説明する。 (S601) 最適候補文字列決定部500より最適な
経路における文字列Aを入力してから、(S602)へ
行く。 (S602) バッファ350に記録されている原始文
書の文字列Bを取り出してから、(S603)の処理に
入る。 (S603) マッチング手段により、文字列Aと文字
列Bとをマッチしてから、原始文書における誤りがあっ
た字、語をマークしてから、(S604)処理に入る。 (S604) 前記マークされた後の原始文書の文字列
と最適経路における文字列は出力部700へ送り出され
る。
【0025】以上のように構成された本実施例につい
て、以下、具体的に「多語資料庫係統」が入力された場
合を例にとってその動作を説明する。入力部100から
「多語資料庫係統」という原始文書が入力されると、文
字対読み変換部200は字音辞書部260と破音字典部
250を参照して、前記入力された原始文書を以下のよ
うな読み記号“duo1yu3z1liao4ku4xi4tueng3”に変換し
てから、バッファ350に記録する。次に、候補語検出
部は以上の読み記号について音節になる可能性のあるす
べての音節を切り出す。図14の(3)に示すように、
前記切り出された音節を検索キーとして音字辞書部45
0を参照して全ての可能性がある候補語とその関連情報
を検出する。そして、類似候補語検出部400に入る。
“duo1 yu3”という音節には候補字のみがあるから、前
記の二つ音節に対して前記の音節コンパク手段とマスク
手段により、音字辞書部450を参照して図14の
(4)に示すような類似候補語とその関連情報を検出し
てから、最適候補文字列選択部500の処理に入る。最
適候補文字列選択部500は、まず、原始文書の文字列
に対応する各候補語の開始位置、終了位置を検索キーと
して各候補語を連接して図15の(5)に示すような有
向ネットを作る。そして、意味学習辞書部550を参照
して使用頻度重み+語長重み+原始文書類似度重み+意
味類似度重みの累計最大値を評価関数として動的計画法
により、図15の(5)に示すような最適な経路を検出
できる。それから、マッチング部600の処理に入る。
マッチング部600は、バッファ350に記録されてい
る原始文書の文字列を取り出す。マッチング手段によ
り、前記取り出された原始文書文字列と前記最適な経路
における文字列とをマッチングする。図16の(6)に
示すように、マーク記号(*:脱字、[]:誤字)で前
記マッチングで見い出された相異個所をマークする。そ
れから、出力部700により前記の最適な経路における
文字列とマークされた後の文字列を出力する。以上、本
発明を実施例に基づいて説明してきたが、本発明は前記
実施例に限定されず、その要旨を変更しない範囲で、適
宜変形して実施してよいのは勿論である。即ち、例え
ば、辞書における読み記号は直接に2バイトのコンパク
記号で表示される。また、字音辞書と破音字典を合併し
て使用しえる。
【0026】
【発明の効果】以上説明したように、本発明の中国語文
書自動校正方法及びその装置によれば、従来の問題点を
解決し、以下に示すような効果が得られる。 (1)中国語の文書に対して効率的にミス検出や訂正な
どが行える。小学校のテキストからなるコパスより実験
のデータを一万字取り出す。そして、人手でわざと誤り
のあった文書を作ってから、その誤りがあった位置を記
録する。本発明によれば、ミス検出率及び訂正率は少な
くとも87%以上とすることができる。 (2)言語パターンと特別な知識データベースを設ける
必要がない。ひいては、知識データベースの集め及び保
守に対して、多くの工数の削除等を図れ、経費削除とも
なる。 (3)中国語入力法または文字認識装置における後処理
に応用できる。例えば、「流血事件是可怕的。」という
文字列を入力したい場合、「流血事件」までは正しい変
換であるが、「是可怕的。」を入力すると、「流血是見
識可怕的。」というような誤変換が生じる。本発明によ
れば、上記のように後続語を入力すると、正確に変換さ
れた先行語が誤変換になってしまうという問題点を解消
できる。以上のことから明らかなように、本発明の実用
性は非常に高いものである。
【図面の簡単な説明】
【図1】 2バイトの中国語の漢字の読みの構造を示す
構造図である。
【図2】 類似した音韻要素同士のビットパターン間の
距離を例示する説明図である。
【図3】 本発明の一実施例の構成図である。
【図4】 前記実施例における文字対読み変換部の動作
流れである。
【図5】 前記実施例における候補語検出部の動作流れ
である。
【図6】 前記実施例における類似候補語検出部の動作
流れである。
【図7】 前記実施例における最適候補文字列決定部の
動作流れである。
【図8】 前記実施例におけるマッチング部の動作流れ
である。
【図9】 前記実施例における破音字典部の概念図であ
る。
【図10】 前記実施例における字音辞書部のデータ構
造の概念図である。
【図11】 前記実施例における音字辞書部のデータ構
造の概念図である。
【図12】 前記実施例における意味学習辞書部のデー
タ構造の概念図である。
【図13】 前記実施例における階層的な意味分類の概
念図である。
【図14】 前記実施例における処理の内容を具体例を
基にした説明図である。
【図15】 図14の続きの説明図である。
【図16】 図14の続きの説明図である。
【図17】 従来の中国語文書自動校正方法及びその装
置の構成図である。
【符号の説明】
100 入力部 200 文字対読み変換部 250 破音字典部 260 字音辞書部 300 候補語検出部 350 バッファ 400 類似候補語検出部 450 音字辞書部 500 最適候補文字列決定部 550 意味学習辞書部 600 マッチング部 700 出力部

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 コンピュータで電子化中国語文書を自動
    的に校正する中国語文書自動校正方法において、 中国語の各文字の配列順序を記憶する文字順序配列表と
    それに対応する読み記号を記憶する読み記号表とを、前
    記読み記号表に対応する全ての候補単語及びその読み記
    号とともに格納した破音字典部と、中国語の文字記号と
    それに対応するデフォルトの読み記号及びその他の可能
    な読み記号を格納した字音辞書部と、中国語の読み記号
    とそれに対応する全ての同音異義字、語及びそのすべて
    の同音異義字、語の使用頻度重み、意味コードを格納し
    た音字辞書部とを予め設ける辞書部作成ステップと、 前記の破音字典部及び字音辞書部を参照して入力装置よ
    り入力された原始文書における文字列を読み記号列に変
    換する文字対読み変換ステップと、 前記文字対読み変換ステップで得られた読み記号列に対
    して音節を切り出して前記切り出された音節を検索キー
    として前記音字辞書部を参照して全ての可能な候補語及
    びその関連情報を検出する候補語検出ステップと、 連続漢字候補音節に対してマスク手段により、類似ビッ
    トをマスクした後の読み記号列を検索キーとして前記音
    字辞書部を参照して全ての可能な候補語及びその関連情
    報を検出する類似候補語検出ステップと、 原始文書の文字列に対応する各候補語の開始位置、終了
    位置を検索キーとして各候補語を連接して有向ネットを
    形成したうえで、計算手段により、各候補語の類似度重
    み、語長重みを計算し、使用頻度重みと語長重みと原始
    文書類似度重みとの累計最大値を評価関数として動的計
    画法により、最適な経路を取り出す最適候補文字列決定
    ステップと、 前記取り出された最適な経路における文字列と原始文書
    文字列とをマッチングして相異字を検出してからマーク
    するマッチングステップとを有していることを特徴とす
    る中国語文書自動校正方法。
  2. 【請求項2】 コンピュータにより電子化中国語文書を
    自動的に校正する中国語文書自動校正装置において、 中国語の各文字の配列順序を記憶する文字順序配列表と
    それに対応する読み記号を記憶する読み記号表とを、前
    記読み記号表に対応する全ての候補単語及びその読み記
    号とともに格納している破音字典部と、 文字記号とそれに対応するデフォルトの読み記号及びそ
    の他の可能な読み記号を格納している字音辞書部と、 読み記号とそれに対応する全ての同音異義字、語及びそ
    のすべての同音異義字、語の使用頻度重み、意味コード
    を格納している音字辞書部と、 前記の破音字典部及び字音辞書部を参照して入力装置よ
    り入力された原始文書における文字列を読み記号列に変
    換する文字対読み変換部と、 前記文字対読み変換部で得られた読み記号列に対して音
    節を切り出して前記切り出された音節を検索キーとして
    前記音字辞書部を参照して全ての可能な候補語及びその
    関連情報を検出する候補語検出部と、 連続漢字候補音節に対してマスク手段により、類似ビッ
    トをマスクした後の読み記号列を検索キーとして前記音
    字辞書部を参照して全ての可能な候補語及びその関連情
    報を検出する類似候補語検出部と、 原始文書の文字列に対応する各候補語の開始位置、終了
    位置を検索キーとして各候補語を連接して有向ネットを
    形成したうえで、計算手段により、各候補語の類似度重
    み、語長重みを計算し、使用頻度重みと語長重みと原始
    文書類似度重みとの累計最大値を評価関数として動的計
    画法により、最適な経路を取り出す最適候補文字列決定
    部と、 前記取り出された最適な経路における文字列と原始文書
    文字列とをマッチングして相異字を検出してからマーク
    するマッチング部とを有していることを特徴とする中国
    語文書自動校正装置。
  3. 【請求項3】 メモリで学習された相隣接する後続語の
    意味コードと先行語の意味コードとの組み合わせを格納
    している意味学習辞書部を設け、 上記最適候補文字列決定手段は原始文書の文字列に対応
    する各候補語の開始位置、終了位置を検索キーとして各
    候補語を連接して有向ネットを形成したうえで、計算手
    段により、各候補語の類似度重み、語長重みを計算し、
    前記意味学習辞書部を参照して使用頻度重みと語長重み
    と原始文書類似度重みと意味類似度重みとの累計最大値
    を評価関数として動的計画法により、最適な経路を取り
    出すものであることを特徴とする請求項2記載の中国語
    文書自動校正装置。
JP9077354A 1997-03-28 1997-03-28 中国語文書自動校正方法及びその装置 Pending JPH10269204A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP9077354A JPH10269204A (ja) 1997-03-28 1997-03-28 中国語文書自動校正方法及びその装置
TW86119972A TW420774B (en) 1997-03-28 1997-12-30 Method and apparatus for automatically correcting documents in chinese language
CN98104404A CN1195142A (zh) 1997-03-28 1998-02-12 汉语文档自动校正方法及其装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9077354A JPH10269204A (ja) 1997-03-28 1997-03-28 中国語文書自動校正方法及びその装置

Publications (1)

Publication Number Publication Date
JPH10269204A true JPH10269204A (ja) 1998-10-09

Family

ID=13631584

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9077354A Pending JPH10269204A (ja) 1997-03-28 1997-03-28 中国語文書自動校正方法及びその装置

Country Status (3)

Country Link
JP (1) JPH10269204A (ja)
CN (1) CN1195142A (ja)
TW (1) TW420774B (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008504605A (ja) * 2004-06-23 2008-02-14 グーグル、インコーポレイテッド 非ローマ文字および単語のスペル修正のためのシステムおよび方法
CN110427619A (zh) * 2019-07-23 2019-11-08 西南交通大学 一种基于多通道融合与重排序的中文文本自动校对方法
CN110807319A (zh) * 2019-10-31 2020-02-18 北京奇艺世纪科技有限公司 一种文本内容检测方法、检测装置、电子设备及存储介质
CN111008531A (zh) * 2019-12-06 2020-04-14 北京金山数字娱乐科技有限公司 语句选词模型的训练方法及装置、语句选词方法及装置

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7031911B2 (en) * 2002-06-28 2006-04-18 Microsoft Corporation System and method for automatic detection of collocation mistakes in documents
CN104750672B (zh) * 2013-12-27 2017-11-21 重庆新媒农信科技有限公司 一种应用于搜索中的中文词汇纠错方法及其装置
TWI553491B (zh) * 2014-11-21 2016-10-11 財團法人工業技術研究院 問句處理系統及其方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008504605A (ja) * 2004-06-23 2008-02-14 グーグル、インコーポレイテッド 非ローマ文字および単語のスペル修正のためのシステムおよび方法
JP2012069142A (ja) * 2004-06-23 2012-04-05 Google Inc 非ローマ文字および単語のスペル修正のためのシステムおよび方法
CN110427619A (zh) * 2019-07-23 2019-11-08 西南交通大学 一种基于多通道融合与重排序的中文文本自动校对方法
CN110427619B (zh) * 2019-07-23 2022-06-21 西南交通大学 一种基于多通道融合与重排序的中文文本自动校对方法
CN110807319A (zh) * 2019-10-31 2020-02-18 北京奇艺世纪科技有限公司 一种文本内容检测方法、检测装置、电子设备及存储介质
CN110807319B (zh) * 2019-10-31 2023-07-25 北京奇艺世纪科技有限公司 一种文本内容检测方法、检测装置、电子设备及存储介质
CN111008531A (zh) * 2019-12-06 2020-04-14 北京金山数字娱乐科技有限公司 语句选词模型的训练方法及装置、语句选词方法及装置
CN111008531B (zh) * 2019-12-06 2023-05-26 北京金山数字娱乐科技有限公司 语句选词模型的训练方法及装置、语句选词方法及装置

Also Published As

Publication number Publication date
TW420774B (en) 2001-02-01
CN1195142A (zh) 1998-10-07

Similar Documents

Publication Publication Date Title
US6490563B2 (en) Proofreading with text to speech feedback
US7636083B2 (en) Method and apparatus for text input in various languages
US5995934A (en) Method for recognizing alpha-numeric strings in a Chinese speech recognition system
JP4738847B2 (ja) データ検索装置および方法
JP2002149643A (ja) 日本語の表意文字の読み方を予測する方法
JPH10269204A (ja) 中国語文書自動校正方法及びその装置
JP2001229162A (ja) 中国語文書自動校正方法及び装置
CN105511636B (zh) 改进的全部汉字汉词简易无重码统一输入法
CN100561469C (zh) 创建和使用中文语言数据和用户自纠正数据的方法和系统
KR101777141B1 (ko) 한글 입력 키보드를 이용한 훈민정음 기반 중국어 및 외국어 입력 장치 및 방법
JP3366253B2 (ja) 音声合成装置
JP2002207728A (ja) 表音文字生成装置及びそれを実現するためのプログラムを記録した記録媒体
JP3758241B2 (ja) 音声情報検索装置
JP2004309928A (ja) 音声認識装置、電子辞書装置、音声認識方法、検索方法、及びプログラム
JPS62251986A (ja) 誤読文字訂正処理装置
JPS58123129A (ja) 仮名漢字変換装置
JP3284976B2 (ja) 音声合成装置及びコンピュータ可読記録媒体
JP2008249761A (ja) 統計的言語モデル生成装置及び方法、及びこれを用いた音声認識装置
KR100564742B1 (ko) 문자의 음성변환장치 및 방법
JP2997151B2 (ja) 漢字変換装置
JP2002189490A (ja) ピンイン音声入力の方法
JPH06103457B2 (ja) 音声タイプライタ
JPS61122781A (ja) 音声ワ−ドプロセツサ
JP3888701B2 (ja) 文字変換装置
JPH11344991A (ja) 音声認識装置および記憶媒体