JP2010067250A

JP2010067250A - 中国語文章誤り検出装置、中国語文章誤り検出方法および記録媒体

Info

Publication number: JP2010067250A
Application number: JP2008304955A
Authority: JP
Inventors: Tsun Ku; ▲じゅん▼ 谷; Shih-Hung Wu; 世弘呉; Wen-Nan Wang; 文男王; Wen-Tai Hsieh; 文泰謝; Ta-Hung Hung; 大弘洪
Original assignee: Institute for Information Industry
Current assignee: Institute for Information Industry
Priority date: 2008-09-09
Filing date: 2008-11-28
Publication date: 2010-03-25
Anticipated expiration: 2028-11-28
Also published as: KR101049525B1; TW201011566A; US8374847B2; JP4796118B2; KR20100030547A; TWI391832B; US20100063798A1

Abstract

【課題】中国語文章誤り検出装置を提供する。
【解決手段】本発明の装置は、第１の誤り文字列を第１の文字の組に切り分ける文章切り分けモジュール、複数の第１の正しい文字列及び複数の第１のインデックスを有するデータベース、第１の文字の組に対応する第１のインデックスを得ると共に対応する第１の正しい文字列を得る候補語生成モジュール、最適候補センテンスを生成する候補センテンス生成及び得点付けモジュール、中国語文字と最適候補センテンスを表示する表示装置を有する。なお、第１の文字の組は第１の誤り文字列中の任意の２つの連続するおよび連続しない文字からなり、第１のインデックスは第１の正しい文字列中の任意の２つの連続するおよび連続しない文字からなる。
【選択図】図１

Description

本発明は、中国語文章誤り検出装置に関し、特にバイグラム（bi-gram）切り分けメカニズムの中国語文章誤り検出装置に関する。

コンピュータの使用がますます普及してきている昨今では、文書の作成もコンピュータに頼ることが多くなっている。中国語は、同音の文字が多く、また、同じパーツを持つ似通った文字も多い。このため、中国語の文字は煩瑣かつ複雑となっており、文書作成者は文章中に誤った文字を使い易い。
よって、中国語が煩瑣であることによって起こる誤記の問題を解決できるような中国語文章の誤りを検出可能なシステムおよび方法が必要である。

上述に鑑みて、本発明の目的は中国語文章誤り検出装置、中国語文章誤り検出方法および記録媒体を提供することにある。

本発明は、第１の位置に位置する第１の誤り文字列を含む中国語文字列を処理するのに適用される中国語文章誤り検出装置を開示する。該装置は、文章切り分けモジュール、データベース、候補語生成モジュール、候補センテンス生成および得点付けモジュール、ならびに表示装置を含む。文章切り分けモジュールは、第１の誤り文字列を複数の第１の文字の組に切り分ける。第１の文字の組は、第１の誤り文字列中の任意の２つの連続するおよび連続しない文字からなる。データベースは、複数の第１の正しい文字列および第１の正しい文字列に対応する複数の第１のインデックスを有する。第１のインデックスは、第１の正しい文字列中の任意の２つの連続するおよび連続しない文字からなる。候補語生成モジュールは、第１の文字の組に対応する第１のインデックスを得ると共に、得られた第１のインデックスに基づいて対応する第１の正しい文字列を得る。候補センテンス生成および得点付けモジュールは、得られた第１の正しい文字列に基づいて最適候補センテンスを生成する。表示装置は中国語文字列および上記最適候補センテンスを表示する。

また、本発明は、第１の位置に位置する第１の誤り文字列を含む中国語文字列を処理するのに適用される中国語文章誤り検出方法を提供する。該方法は次の工程を含む。第１の誤り文字列を複数の第１の文字の組に切り分ける。第１の文字の組は、第１の誤り文字列中の任意の２つの連続するおよび連続しない文字からなる。複数の第１の正しい文字列、および第１の正しい文字列に対応する複数の第１のインデックスを有するデータベースを提供する。第１のインデックスは、第１の正しい文字列中の任意の２つの連続するおよび連続しない文字からなる。第１の文字の組に基づいて第１の文字の組に対応する第１のインデックスを得ると共に、得られた第１のインデックスに基づいて対応する第１の正しい文字列を得る。得られた第１の正しい文字列に基づいて最適候補センテンスを生成する。最後に表示装置に中国語文字列および最適候補センテンスを表示する。

また本発明は、コンピュータシステムにロードされてコンピュータシステムに中国語文章誤り検出方法を実行させる複数のプログラムコードを含む中国語文章誤り検出プログラムを格納した記録媒体をも開示する。該中国語文章誤り検出方法は、第１の位置に位置する第１の誤り文字列を含む中国語文字列を処理するのに適用され、次の工程を含む。第１の誤り文字列を複数の第１の文字の組に切り分ける。第１の文字の組は、第１の誤り文字列中の任意の２つの連続するおよび連続しない文字からなる。複数の第１の正しい文字列、および第１の正しい文字列に対応する複数の第１のインデックスを格納する。第１のインデックスは、第１の正しい文字列中の任意の２つの連続するおよび連続しない文字からなる。第１の文字の組に基づいて第１の文字の組に対応する第１のインデックスを得ると共に、得られた第１のインデックスに基づいて対応する第１の正しい文字列を得る。得られた第１の正しい文字列に基づいて最適候補センテンスを生成する。最後に中国語文字列および最適候補センテンスを表示する。

本発明によれば、中国語が煩瑣であることに起因する誤記の問題を解決できる中国語文章誤り検出装置、中国語文章誤り検出方法および記録媒体を提供できる。

上述した本発明の目的、特徴および長所がより明りょうに理解されるよう、以下に好ましい実施形態を挙げ、添付の図面に対応させながら、本発明をより詳細に説明する。

図１は、本発明による中国語文章誤り検出装置１００の実施形態を示している。中国語文章誤り検出装置１００は、文章受信モジュール１１０、文章切り分けモジュール１２０、正用データベース１３０、誤用データベース１４０、候補語生成モジュール１５０、候補センテンス生成および得点付けモジュール１６０、類似文字データベース１７０、同音文字データベース１８０、言語モデルデータベース１９０、文章表示モジュール２００、ならびに表示装置２１０を含む。

文章受信モジュール１１０は中国語文章Ａｒｔを受け取ってから中国語文章Ａｒｔを文章切り分けモジュール１２０へ伝送し、文章切り分けモジュール１２０が文章の切り分けを実行する。

正用データベース１３０は、成語、俗語、固有名詞、詩（これらは例示に過ぎない）の正しい表記を格納するものであり、かつ複数の第１の正しい文字列および第１の正しい文字列に対応する複数の第１のインデックスを有している。

誤用データベース１４０は、よく見られる語句の誤りとその正しい表記を格納するものであり、かつ複数の第２のインデックスおよび第２のインデックスと対応する複数の第２の正しい文字列を有している。

候補語生成モジュール１５０は、第１の正しい文字列を得ると共に第１の正しい文字列を第１の候補語として設定し、かつ第２の正しい文字列を得ると共に第２の正しい文字列を第２の候補語として設定する。

候補センテンス生成および得点付けモジュール１６０は、第１の候補語と第２の候補語に基づいて複数の候補センテンスを生成し、かつ候補センテンス得点付けメカニズムを用い、類似文字データベース１７０、同音文字データベース１８０および言語モデルデータベース１９０のデータに基づいて候補センテンスを得点付けすることにより最適候補センテンスを生成する。

文章表示モジュール２００は、中国語文章Ａｒｔおよび最適候補センテンスを表示装置２１０上に表示する。

以上は中国語文章誤り検出装置１００の簡単な紹介である。そのすべての構成要素の動作の流れを以下詳細に説明する。

図２は、本発明による中国語文章誤り検出装置１００の動作流れ図を示している。
工程Ｓ１００において、文章受信モジュール１１０が中国語文章Ａｒｔを受け取る。

工程Ｓ１１０において、文章切り分けモジュール１２０が文章Ａｒｔの切り分けを実行する。文章切り分けモジュール１２０は先ず文章Ａｒｔを句読点に基づいて複数の中国語センテンスに切り分ける。

各センテンスはそれぞれ中国語文字列である。例えば、中国語文章Ａｒｔの記述が「外面的世界充滿旌旗，令他忍不住躍躍浴室，也因此▲ロ嘗▼扁各種酸甜苦臘。」である場合、文章切り分けモジュール１２０は句読点（この場合は読点と句点）に基づいて、中国語文章Ａｒｔを３つの中国語文字列：「外面的世界充滿旌旗」、「令他忍不住躍躍浴室」、および「也因此▲ロ嘗▼扁各種酸甜苦臘」に切り分ける。中国語文章Ａｒｔを複数の中国語文字列に切り分けたら、続いて個々の中国語文字列の切り分け処理を行う。

中国語文字列の切り分けに先立ち、先ずその関連する定義を説明する。中国語文字列Ｓｔｒ「也因此▲ロ嘗▼扁各種酸甜苦臘」を例にとると、この文字列は、第１の位置に位置する第１の誤り文字列「酸甜苦臘」と第２の位置に位置する第２の誤り文字列「▲ロ嘗▼扁」とを有している。図３に示されるように、第１の位置は中国語文字列Ｓｔｒ中の８から１１個目の文字の位置を表し、第２の位置は中国語文字列Ｓｔｒ中の４から５個目の文字の位置を表す。

本実施形態において、文章切り分けモジュール１２０は、スキップ式バイグラム（bi-gram）のメカニズムを用いて切り分けを行う。つまり、中国語文字列Ｓｔｒ中の任意の２つの連続するおよび連続しない文字を複数の第１の文字の組に切り分ける。

中国語文字列Ｓｔｒ中の任意の２つの連続する文字とは、次に挙げる第１の文字の組：１２，２３，３４…のことである。このうち、１２は中国語文字列Ｓｔｒ中の１および２個目の文字からなる第１の文字の組を表し、２３は中国語文字列Ｓｔｒ中の２および３個目の文字からなる第１の文字の組を表す。以降についてはこれにしたがって類推されたい。

また、中国語文字列Ｓｔｒ中の任意の２つの連続しない文字とは、次に挙げる第１の文字の組：１３，３５，５７…２４，４６，６８…のことであってよい。このうち、１３は中国語文字列Ｓｔｒ中の１および３個目の文字からなる第１の文字の組を表し、３５は中国語文字列Ｓｔｒ中の３および５個目の文字からなる第１の文字の組を表す。つまりは１文字おきの２つの文字である。

また、中国語文字列Ｓｔｒ中の任意の２つの連続しない文字は、次に挙げる第１の文字の組：１４，４７…２５，５８…３６，６９…のことであってもよい。このうち、１４は中国語文字列Ｓｔｒ中の１および４個目の文字からなる第１の文字の組を表し、４７は中国語文字列Ｓｔｒ中の４および７個目の文字からなる第１の文字の組を表す。つまりは２文字おきの２つの文字である。

以上より、中国語文字列Ｓｔｒ「也因此▲ロ嘗▼扁各種酸甜苦臘」を以下の第１の文字の組に切り分けることができる。

表中、Ｎは、中国語文字列Ｓｔｒを第１の文字の組に切り分けるときに、中国語文字列Ｓｔｒにおける第１の文字の組の２つの文字の間にある文字の数を表す。Ｎ＝０は中国語文字列Ｓｔｒにおける第１の文字の組の２つの文字の間にある文字の数が０であることを示し、Ｎ＝１は中国語文字列Ｓｔｒにおける第１の文字の組の２つの文字の間にある文字の数が１であることを示し、Ｎ＝２は中国語文字列Ｓｔｒにおける第１の文字の組の２つの文字の間にある文字の数が２であることを示す。

工程Ｓ１１０の中国語文章Ａｒｔの切り分けが完了したら、続いて工程Ｓ１２０において正用データベース１３０および誤用データベース１４０を提供する。留意すべきは、工程Ｓ１２０においては、正用データベース１３０および誤用データベース１４０に格納される関連データを有した１つのデータベースだけを提供してもよいという点である。よって、上述の第１および第２のデータベースは説明の便宜上挙げたにすぎず、本発明を限定するものではない。

上述したように、正用データベース１３０は複数の第１の正しい文字列および第１の正しい文字列に対応する複数の第１のインデックスを有している。第１の正しい文字列に対応する複数の第１のインデックスは、文章切り分けモジュール１２０が中国語文字列Ｓｔｒを切り分けて表１に示した第１の文字の組を得たのと同じように、上記バイグラム（bi-gram）のメカニズムによって第１の正しい文字列を切り分けて得られるものである。

例えば、正用データベース１３０が成語「酸甜苦辣」および固有名詞「乙太網路」の２組の第１の正しい文字列（２組としたのは例示にすぎず、これより多くの組であってもよい）を有しているとする。この場合、正用データベース１３０に格納されるデータは表２に示すようになる。

工程Ｓ１３０において、候補語生成モジュール１５０は、第１の文字の組に基づいて第１の文字の組に対応する第１のインデックスを得ると共に、得られた第１のインデックスに基づいて対応する第１の正しい文字列を得る。

より詳しく説明すると、候補語生成モジュール１５０は、表１に示された第１の文字の組に基づき、表２に同じ第１のインデックスがあるか否かをサーチし、ある場合はその第１のインデックスを得てから、その第１のインデックスと対応する第１の正しい文字列を得る。

例えば、候補語生成モジュール１５０は先ず表１における第１の文字の組「也因」に基づき、表２中にこれと同じ第１のインデックスがあるか否かをサーチする。表２には「也因」の第１のインデックスはないため、候補語生成モジュール１５０は引き続き次の第１の文字の組「因此」に基づいて、表２中にこれと同じ第１のインデックスがあるか否かをサーチする。同様に、表２には「因此」の第１のインデックスはないため、候補語生成モジュール１５０は引き続き次の第１の文字の組「此▲ロ嘗▼」に基づいて、表２中にこれと同じ第１のインデックスがあるか否かをサーチする。

このようにして、第１の文字の組すべてについてサーチが終わるまで上記工程を繰り返す。この期間において、第１の文字の組「酸甜」を処理するに至ったとき、候補語生成モジュール１５０は表２中に第１のインデックス「酸甜」を見つける。よって、候補語生成モジュール１５０は該第１のインデックス（つまり「酸甜」）を得る動作を実行する。

該第１のインデックスを得た後、候補語生成モジュール１５０は得られた第１のインデックス「酸甜」に基づいて、これに対応する第１の正しい文字列、つまり「酸甜苦辣」を得る。同様に、第１の文字の組「酸苦」を処理するに至ったとき、候補語生成モジュール１５０は表２中に第１のインデックス「酸苦」を見つけ、よって同じように第１の正しい文字列「酸甜苦辣」を得る。

対応する第１の正しい文字列「酸甜苦辣」を得たら、続いて工程Ｓ１４０において、得られた第１の正しい文字列に対し、元の語類似度によるフィルタリングを行い、抽出された第１の正しい文字列を第１の候補語として設定する。

フィルタリングの方式は、得られた第１の正しい文字列の、中国語文字列Ｓｔｒ中に出現する文字の数によってその元の語類似度を決定し、その元の語類似度が経験的閾値よりも大きいか否かを判断するというものである。この例の場合、得られた４文字の第１の正しい文字列「酸甜苦辣」では、中国語文字列Ｓｔｒ「也因此▲ロ嘗▼扁各種酸甜苦臘」中に「酸甜苦」の３文字が出現し、「辣」のみが出現しない。よってその元の語類似度は７５％であり（４文字中３文字出現）であり、予め設定されていた経験的閾値は６０％である（これに限定はされない）ので、得られた第１の正しい文字列「酸甜苦辣」の元の語類似度は経験的閾値よりも大きいということになる。したがって、得られた第１の正しい文字列「酸甜苦辣」を第１の候補語に設定することができる。

第１の候補語は図３における第１の誤り文字列および第１の位置に対応している。該第１の候補語は最適候補センテンスを決定するために用いられるが、この点については以下に詳しく説明する。

以上の処理プロセスは中国語文字列Ｓｔｒ中の第１の誤り文字列「酸甜苦臘」についてのものである。以下に、中国語文字列Ｓｔｒ中の第２の誤り文字列「▲ロ嘗▼扁」の処理について詳細に述べていく。

上述したように、誤用データベース１４０は、複数の第２のインデックスおよび第２のインデックスと対応する複数の第２の正しい文字列を有している。この場合に、下の表３に示されるように、誤用データベース１４０が５組の第２のインデックスおよびその対応する２組の第２の正しい文字列を格納しているとする（説明のための例示にすぎず、実際にはより多くの組であってもよい）。

表中、第２のインデックスは一般ユーザーがよく書き誤る語句であり、第２の正しい文字列はそれらよく書き誤る語句と対応する正しい表記を表している。表３の場合では、第２の正しい文字列の「粽子」は正しい表記であり、ユーザーは「粽子」を「棕子」または「綜子」と書き誤ることが多い。かかる誤りの主な原因となっているのは、誤記である「棕子」または「綜子」と正しい表記「粽子」とが同形特性を有している（いずれも “宗”のパーツを有している）ことである。

同じように、ユーザーは「▲ロ嘗▼遍」を「▲ロ嘗▼扁」（同形特性のため）または「▲ロ嘗▼片」（同音特性のため）と書き誤ることも多い。こうした状況に際し、本発明では、書き誤ることの多い語句「棕子」および「綜子」を事前に第２のインデックスとして定義して誤用データベース１４０中に格納しておき、さらにその対応する正しい表記を第２の正しい文字列として定義し誤用データベース１４０中に格納する。
以上誤用データベース１４０に格納されるデータフォーマットを説明した。続いて工程Ｓ１５０に進む。

工程Ｓ１５０において、候補語生成モジュール１５０は第２のインデックスに基づいて第２の候補語を生成する。第２の候補語生成のプロセスは次のとおりである。
先ず、候補語生成モジュール１５０が、第２の誤り文字列が第２のインデックスと同じであるか否かを判断し、第２の誤り文字列が第２のインデックスのうちの１つと同じである場合、第２の誤り文字列と同じ第２のインデックスと対応する第２の正しい文字列を得ると共に、得られた第２の正しい文字列を第２の候補語として設定する。上述の例の場合、候補語生成モジュール１５０は先ず表１における第１の文字の組「也因」が表３における第２のインデックスと同じであるか否かを判断する。表３における５組の第２のインデックス中に「也因」と同じ文字はないので、候補語生成モジュール１５０は引き続き次の第１の文字の組「因此」が表３中の第２のインデックスと同じであるか否かを判断する。

同様に、表３における５組の第２のインデックス中に「因此」と同じ文字はないため、候補語生成モジュール１５０は引き続き次の第１の文字の組「此▲ロ嘗▼」が表３中の第２のインデックスと同じであるか否かを判断する。
このようにして、第１の文字の組すべてについて判断が終わるまで上記工程を繰り返す。この期間において、第１の文字の組「▲ロ嘗▼扁」（すなわち第２の誤り文字列）を処理するに至ったとき、候補語生成モジュール１５０は第２の誤り文字列（▲ロ嘗▼扁）が確かに第２のインデックスのうちの１つと同じであると判断し、これにより第２の誤り文字列と同じ第２のインデックスと対応する第２の正しい文字列を得る、つまり第２の正しい文字列「▲ロ嘗▼遍」を得る。

続いて、候補語生成モジュール１５０は得られた第２の正しい文字列「▲ロ嘗▼遍」を第２の候補語として設定する。この第２の候補語は図３における第２の誤り文字列および第２の位置に対応している。

第２の候補語が生成されたので、今、第１の候補語と第２の候補語が得られた。よって、続く工程Ｓ１６０において第１の候補語および第２の候補語の処理を行う。

工程Ｓ１６０において、候補センテンス生成および得点付けモジュール１６０が第１の誤り文字列、第２の誤り文字列、第１の候補語および第２の候補語に基づいて複数の候補センテンスを生成し、さらに最適候補センテンスを生成する。候補センテンス生成のプロセスは次のとおりである。候補センテンス生成および得点付けモジュール１６０は先ず、第１の誤り文字列、第２の誤り文字列、第１の候補語および第２の候補語をそれら各々の対応する位置に基づき中国語文字列Ｓｔｒにおける第１の位置および第２の位置へ置き換えて、各種可能な組み合わせの複数の候補センテンスを生成した後、候補センテンス得点付けメカニズムにより複数の候補センテンスを得点付けし、最高得点を得た候補センテンスを最適候補センテンスとして設定する。

図４は、本発明の１実施形態による中国語文字列Ｓｔｒのすべての可能な候補センテンスの組み合わせを示している。図４に示されるように、候補センテンス生成および得点付けモジュール１６０は、第１の誤り文字列、第２の誤り文字列、第１の候補語および第２の候補語に基づいて、次の４組の候補センテンス：「也因此▲ロ嘗▼扁各種酸甜苦臘」、「也因此▲ロ嘗▼扁各種酸甜苦辣」、「也因此▲ロ嘗▼遍各種酸甜苦臘」および「也因此▲ロ嘗▼遍各種酸甜苦辣」を生成することができる。

図５は、本発明による候補センテンス得点付けメカニズムの実施形態を示している。生成された４組の候補センテンスに基づき、候補センテンス生成および得点付けモジュール１６０は、候補センテンスの使用頻度（ＰＰＬ）、候補センテンスと中国語文字列Ｓｔｒ（元のセンテンス）との間のセンテンス類似度（ＳＳ）、音類似度（ＰＳ）、および形類似度（ＷＳ）を用いて４組の候補センテンスを得点付けすることができる。

ここで、候補センテンスの使用頻度は、例えば医学、天文学のような各種知識分野などの特定分野の言語モデルを表すものである。候補センテンスおよび元のセンテンスの間のセンテンス類似度は、候補センテンスの文字数と候補センテンスおよび元のセンテンスで異なる文字の数との差の、元のセンテンスの文字数に対する割合、つまり式（１）

によって定義される。

候補センテンスおよび元のセンテンスの間の音類似度は、候補センテンスの文字数と候補センテンスおよび元のセンテンス間の非同音文字の数との差の、元のセンテンスの文字数に対する割合、つまり式（２）

によって定義される。

候補センテンスおよび元のセンテンスの間の形類似度は、候補センテンスの文字数と候補センテンスおよび元のセンテンス間の非同形文字の数との差の、元のセンテンスの文字数に対する割合、つまり式（３）

によって定義される。

以上より、上記４つの要素に基づいて候補センテンスを得点付けする。得点付けのＳＣＯＲＥ計算式は次の式（４）のとおりである。

式中、ｗ１は候補センテンスの使用頻度の重みを表し、ｗ２は候補センテンスと元のセンテンスとのセンテンス類似度の重みを表し、ｗ３は候補センテンスと元のセンテンスとの音類似度の重みを表し、ｗ４は候補センテンスと元のセンテンスとの形類似度の重みを表す。

また、候補センテンスの使用頻度は複数の分野の言語モデルを含んでいてもよい。したがって、図５によれば、候補センテンスの使用頻度ＰＰＬは次の式（５）により計算することができる。

式中、ＰＰＬ_１は第１の言語モデルを表し、ＰＰＬ_２は第２の言語モデルを表す。
上式により候補センテンスを得点付けすると、実験で与えられるパラメータは次の式（６）のとおりとなる。

そして図４におけるセンテンスＤ「也因此▲ロ嘗▼遍各種酸甜苦辣」が最高得点を得たため、続いて候補センテンス生成および得点付けモジュール１６０は該候補センテンスを最適候補センテンスとして設定する。

最後に、工程Ｓ１７０において、文章表示モジュール２００が表示装置２１０上に元のセンテンスと最適候補センテンスとの間で修正された部分を表示する。

本発明の動作を上のように詳述したが、本発明の精神を逸脱しない限りにおいては、上に詳述した流れに変更を加えることができる点に注意されたい。例えば、必ずしも、先に第１の候補語を生成してから第２の候補語を生成しなければならないということはなく、第１および第２の候補語はこれと逆の順で生成されても、または同時に生成されてもよい。

さらに、上述した実施形態において、第２の誤り文字列は「▲ロ嘗▼扁」であって、２つの文字からなっている。しかし、別の状況においては、それはより多くの文字から構成されていることもある。例として、中国語文字列「想用著美味的佳▲食肴▼」を考えてみる。「想用」自体は正しい表現であるが、１センテンス中に「想用」と「佳▲食肴▼」が同時に出現する場合に、「想用」は誤りとなろう。正しい用法は「享用著美味的佳▲食肴▼」であるからである。「享」および「想」の同音特性のために、ユーザーは同音の誤った文字を使い易いのである。このような問題に対し、本発明の以下の実施形態は解決法を提供する。

本実施形態では、以下の表４に示すように、誤用データベース１４０の表３をそのまま用いると共に、新たなパラメータおよび内容を追加する。

誤用データベース１４０中、１および２行目は表３にて示した元の内容であり、３および４行目は本実施形態で新たに追加した内容である。よって３および４行目の第２のインデックスは第２の正しい文字列と対応する他、コンテクストとも対応している。なお、当然に、以上のデータは説明のために挙げたにすぎず、本発明を限定するものではない。

上の中国語文字列「想用著美味的佳▲食肴▼」では、「佳佳」および「想用」はそれ自体単独で見ると正しい表現であるので、「▲ロ嘗▼扁」および「綜子」のようにそれ自体が誤りであって直ちに正しい表記「▲ロ嘗▼遍」および「粽子」を見つけることができるというものではない。こういった場合、「佳佳」および「想用」自体は正しい表現であるが、センテンス中に特定の文字列が出現したときに、「佳佳」および「想用」は誤った表現となる。よって本発明の実施形態では、それら特定の文字列をコンテクストと定義し（表４の３列目に示すとおり）、誤用データベース１４０に予め格納しておく。以下に本発明の誤り検出工程を説明する。

先ず、中国語文字列「想用著美味的佳▲食肴▼」には誤り文字列「想用」がある。上述したのと同じように、バイグラム（bi-gram）により複数の文字の組に切り分ける。切り分けの原理と結果は表１と同じであるので、その説明は省く。最初に、候補語生成モジュール１５０は、文字の組「想用」が表４の第２のインデックスと同じであるか否かを判断する。

表４には第２のインデックス「想用」があるため、候補語生成モジュール１５０は該第２のインデックスと対応するコンテクストを得る、つまり、コンテクスト「佳▲食肴▼」を得る。次いで、候補語生成モジュール１５０は中国語文字列中に得られたコンテクスト（佳▲食肴▼）が含まれているか否かを判断する。含まれていれば「想用」は誤り文字列ということであり、また、含まれていなければ「想用」は正しい文字列ということであるので、引き続いてその他の文字の組の処理を行う。

中国語文字列には確かに文字列「佳▲食肴▼」が含まれているので、候補語生成モジュール１５０は続いて誤り文字列（想用）と同じ第２のインデックス（想用）と対応する第２の正しい文字列（享用）を得ると共に、得られた第２の正しい文字列を第２の候補語として設定する。

本実施形態において、中国語文字列「想用著美味的佳▲食肴▼」には１つの誤り文字列「想用」があるだけなので、候補語を１つだけ生成することができる。上述の工程では第２の候補語を生成したが、第２の候補語は唯一の候補語でもある。本発明では、１中国語文字列中にＮ個の誤り文字列があったなら、Ｎ個の候補語を生成すると共にＮ個の候補語に基づいて２^Ｎ個の組み合わせの候補センテンス（元のセンテンスを含む）を生成するということを、当業者は理解するべきである。

また、本発明の中国語文章誤り検出方法は、上記フローの動作が実行できるようにプログラムの形式で記録媒体（例えば光ディスク、フレキシブルディスクディスクおよびリムーバブルハードディスクなど）に格納され得る。中国語文章誤り検出方法のプログラムは基本的に多数のプログラムコードから構成され、かつこれらプログラムコードの機能は上記方法の工程および上記システムの機能ブロック図に対応付けられる。

本発明を好適な実施形態により以上のように開示したが、これは本発明の範囲を限定するものではなく、当業者であれば、本発明の精神および範囲を逸脱しない限りにおいていくらかの変更や修飾を加えることができる。よって、本発明の保護範囲は添付の特許請求の範囲で定義されたものが基準となる。

図１は、本発明による中国語文章誤り検出装置１００の実施形態を示す。図２は、本発明による中国語文章誤り検出装置１００の動作流れ図である。図３は、本発明の１実施形態による中国語文字列Ｓｔｒの構造説明図である。図４は、本発明の１実施形態による複数の候補センテンスの生成メカニズムを示す。図５は、本発明の１実施形態による候補センテンス得点付けメカニズムの説明図である。

符号の説明

１１０文章受信モジュール
１２０文章切り分けモジュール
１３０正用データベース
１４０誤用データベース
１５０候補語生成モジュール
１６０候補センテンス生成および得点付けモジュール
１７０類似文字データベース
１８０同音文字データベース
１９０言語モデルデータベース
２００文章表示モジュール
２１０表示装置
Ａｒｔ中国語文章
Ｓｔｒ中国語文字列

Claims

第１の位置に位置する第１の誤り文字列を含む中国語文字列を処理するのに適用される中国語文章誤り検出方法であって、
前記第１の誤り文字列を、それぞれが前記第１の誤り文字列中の任意の２つの連続するおよび連続しない文字からなる複数の第１の文字の組に切り分ける工程、
複数の第１の正しい文字列と、前記第１の正しい文字列に対応し、それぞれが前記第１の正しい文字列中の任意の２つの連続するおよび連続しない文字からなる複数の第１のインデックスとを有するデータベースを提供する工程、
前記第１の文字の組に基づいて前記第１の文字の組に対応する前記第１のインデックスを得ると共に、得られた前記第１のインデックスに基づいて対応する前記第１の正しい文字列を得る工程、
得られた前記第１の正しい文字列に基づいて最適候補センテンスを生成する工程、ならびに、
表示装置に前記中国語文字列および前記最適候補センテンスを表示する工程、
を含む中国語文章誤り検出方法。
前記最適候補センテンスの生成が、前記中国語文字列中の前記第１の誤り文字列を、得られた前記第１の正しい文字列で置き換えることによってなされる請求項１記載の中国語文章誤り検出方法。
前記中国語文字列が第２の位置に位置する第２の誤り文字列をさらに含み、前記データベースが複数の第２のインデックスおよび前記第２のインデックスと対応する複数の第２の正しい文字列をさらに有し、前記方法がさらに、得られた前記第１の正しい文字列を第１の候補語として設定し、かつ前記第２のインデックスに基づいて第２の候補語を生成する請求項１記載の中国語文章誤り検出方法。
前記第２の誤り文字列が前記第２のインデックスと同じであるか否かを判断する工程をさらに含む請求項３記載の中国語文章誤り検出方法。
前記第２の誤り文字列と前記第２のインデックスのうちの１つとが同じであるときに、前記第２の誤り文字列と同じ前記第２のインデックスと対応する前記第２の正しい文字列を得ると共に、得られた前記第２の正しい文字列を前記第２の候補語として設定する請求項４記載の中国語文章誤り検出方法。
前記第１の誤り文字列、前記第２の誤り文字列、前記第１の候補語および前記第２の候補語をそれら各々の対応する位置に基づき前記中国語文字列中の前記第１の位置および前記第２の位置へ置き換えて、各種可能な組み合わせの複数の候補センテンスを生成する工程をさらに含む請求項５記載の中国語文章誤り検出方法。
候補センテンス得点付けメカニズムにより前記候補センテンスを得点付けして前記最佳候補センテンスを生成する工程をさらに含む請求項６記載の中国語文章誤り検出方法。
前記候補センテンス得点付けメカニズムが、前記候補センテンスの使用頻度、前記候補センテンスと前記中国語文字列との間のセンテンス類似度、音類似度、および形類似度によって前記候補センテンスを得点付けするものであり、かつ前記使用頻度が少なくとも１つの言語モデルを含む請求項７記載の中国語文章誤り検出方法。
前記データベースが、前記第２のインデックスと対応する複数のコンテクストをさらに有し、前記第２の誤り文字列と前記第２のインデックスのうちの１つとが同じであるときに、前記第２の誤り文字列と同じ前記第２のインデックスと対応する前記コンテクストを得ると共に、前記中国語文字列中に得られた前記コンテクストが含まれているか否かを判断する請求項４記載の中国語文章誤り検出方法。
前記中国語文字列中に得られた前記コンテクストが含まれているときに、前記第２の誤り文字列と同じ前記第２のインデックスと対応する前記第２の正しい文字列を得ると共に、得られた前記第２の正しい文字列を前記第２の候補語として設定する工程をさらに含む請求項９記載の中国語文章誤り検出方法。
第１の位置に位置する第１の誤り文字列を含む中国語文字列を処理するのに適用される中国語文章誤り検出装置であって、
前記第１の誤り文字列を、それぞれが前記第１の誤り文字列中の任意の２つの連続するおよび連続しない文字からなる複数の第１の文字の組に切り分ける文章切り分けモジュール、
複数の第１の正しい文字列と、前記第１の正しい文字列に対応し、それぞれが前記第１の正しい文字列中の任意の２つの連続するおよび連続しない文字からなる複数の第１のインデックスとを有するデータベース、
前記第１の文字の組に基づいて前記第１の文字の組に対応する前記第１のインデックスを得ると共に、得られた前記第１のインデックスに基づいて対応する前記第１の正しい文字列を得る候補語生成モジュール、
得られた前記第１の正しい文字列に基づいて最適候補センテンスを生成する候補センテンス生成および得点付けモジュール、ならびに、
前記中国語文字列および前記最適候補センテンスを表示する表示装置、
を含む中国語文章誤り検出装置。
前記最適候補センテンスの生成が、前記中国語文字列中の前記第１の誤り文字列を、得られた前記第１の正しい文字列で置き換えることによってなされる請求項１１記載の中国語文章誤り検出装置。
前記中国語文字列が第２の位置に位置する第２の誤り文字列をさらに含み、前記データベースが複数の第２のインデックスおよび前記第２のインデックスと対応する複数の第２の正しい文字列をさらに有し、前記候補語生成モジュールがさらに、得られた前記第１の正しい文字列を第１の候補語として設定し、かつ前記第２のインデックスに基づいて第２の候補語を生成する請求項１１記載の中国語文章誤り検出装置。
前記候補語生成モジュールがさらに、前記第２の誤り文字列が前記第２のインデックスと同じであるか否かを判断する請求項１３記載の中国語文章誤り検出装置。
前記第２の誤り文字列と前記第２のインデックスのうちの１つとが同じであるときに、前記候補語生成モジュールが、前記第２の誤り文字列と同じ前記第２のインデックスと対応する前記第２の正しい文字列を得ると共に、得られた前記第２の正しい文字列を前記第２の候補語として設定する請求項１４記載の中国語文章誤り検出装置。
前記候補センテンス生成および得点付けモジュールがさらに、前記第１の誤り文字列、前記第２の誤り文字列、前記第１の候補語および前記第２の候補語をそれら各々の対応する位置に基づき前記中国語文字列中の前記第１の位置および前記第２の位置へ置き換えて、各種可能な組み合わせの複数の候補センテンスを生成する請求項１５記載の中国語文章誤り検出装置。
前記候補センテンス生成および得点付けモジュールがさらに、候補センテンス得点付けメカニズムにより前記候補センテンスを得点付けして前記最佳候補センテンスを生成する請求項１６記載の中国語文章誤り検出装置。
類似文字データベース、同音文字データベースおよび少なくとも１つの言語モデルデータベースをさらに含み、前記候補センテンス得点付けメカニズムが、前記候補センテンスと前記中国語文字列との間のセンテンス類似度、前記類似文字データベース、前記同音文字データベースおよび少なくとも１つの前記言語モデルデータベースのデータによって前記候補センテンスを得点付けするものである請求項１７記載の中国語文章誤り検出装置。
前記データベースが、前記第２のインデックスと対応する複数のコンテクストをさらに有し、前記第２の誤り文字列と前記第２のインデックスのうちの１つとが同じであるときに、前記候補語生成モジュールが、前記第２の誤り文字列と同じ前記第２のインデックスと対応する前記コンテクストを得ると共に、前記中国語文字列中に得られた前記コンテクストが含まれているか否かを判断する請求項１４記載の中国語文章誤り検出装置。
前記中国語文字列中に得られた前記コンテクストが含まれているときに、前記候補語生成モジュールは、前記第２の誤り文字列と同じ前記第２のインデックスと対応する前記第２の正しい文字列を得ると共に、得られた前記第２の正しい文字列を前記第２の候補語として設定する請求項１９記載の中国語文章誤り検出装置。
コンピュータシステムにロードされて前記コンピュータシステムに中国語文章誤り検出方法を実行させる複数のプログラムコードを含む中国語文章誤り検出プログラムを格納した記録媒体であって、
前記中国語文章誤り検出方法が、第１の位置に位置する第１の誤り文字列を含む中国語文字列を処理するのに適用され、
前記第１の誤り文字列を、それぞれが前記第１の誤り文字列中の任意の２つの連続するおよび連続しない文字からなる複数の第１の文字の組に切り分ける工程、
複数の第１の正しい文字列と、前記第１の正しい文字列に対応し、それぞれが前記第１の正しい文字列中の任意の２つの連続するおよび連続しない文字からなる複数の第１のインデックスとを格納する工程、
前記第１の文字の組に基づいて前記第１の文字の組に対応する前記第１のインデックスを得ると共に、得られた前記第１のインデックスに基づいて対応する前記第１の正しい文字列を得る工程、
得られた前記第１の正しい文字列に基づいて最適候補センテンスを生成する工程、ならびに、
前記中国語文字列および前記最適候補センテンスを表示する工程、
を含む、記録媒体。