JP7366984B2

JP7366984B2 - テキスト誤り訂正処理方法、装置、電子機器及び記憶媒体

Info

Publication number: JP7366984B2
Application number: JP2021193157A
Authority: JP
Inventors: チャオパン; シャオファンワン; ユースン; ジュリー
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-12-22
Filing date: 2021-11-29
Publication date: 2023-10-23
Anticipated expiration: 2041-11-29
Also published as: US20210397780A1; JP2022028887A; CN112597753A

Description

本開示は、コンピュータ技術の分野に関し、具体的には、深層学習及び自然言語処理などの人工知能の分野に関し、特に、テキスト誤り訂正処理方法、装置、電子機器及び記憶媒体に関する。

現在、スペリング誤り訂正の目標は、自然言語のスペリング誤りを訂正することであり、検索最適化、機械翻訳、品詞タグ付けなどの多くの潜在的な自然言語処理アプリケーションに広く使用されている。

関連技術において、中国語スペリング誤り訂正方法は、一般的に、生産ラインの形式で行われ、先ず、誤り認識を行って候補を生成し、最後に候補を選択し、このような方式のトレーニングコーパスは、手動でラベル付けする必要があり、数が一般的に小さく、一対一の誤りタイプしか処理できず、例えば、単語逆順、単語補完などの誤りを認識できないため、誤り訂正効率も効果も劣る。

本開示は、誤り訂正処理方法、装置、機器及び記憶媒体を提供する。

本開示の第１の態様によれば、テキスト誤り訂正処理方法を提供し、
元のテキストを取得し、前記元のテキストを前処理してトレーニングテキストを取得するステップと、
前記トレーニングテキストの各文字に対応する複数の特徴ベクトルを抽出し、前記複数の特徴ベクトルを処理して入力ベクトルを取得するステップと、
前記入力ベクトルをテキスト誤り訂正モデルに入力してターゲットテキストを取得し、前記ターゲットテキストと前記元のテキストとの差に基づいて、前記テキスト誤り訂正モデルのパラメータを調整するステップと、を含む。

本開示の他の態様によれば、テキスト誤り訂正処理装置を提供し、
元のテキストを取得するための第１の取得モジュールと、
前記元のテキストを前処理してトレーニングテキストを取得するための前処理モジュールと、
前記トレーニングテキストの各文字に対応する複数の特徴ベクトルを抽出するための抽出モジュールと、
前記複数の特徴ベクトルを処理して入力ベクトルを取得するための第２の取得モジュールと、
前記入力ベクトルをテキスト誤り訂正モデルに入力してターゲットテキストを取得し、前記ターゲットテキストと前記元のテキストとの差に基づいて、前記テキスト誤り訂正モデルのパラメータを調整するための処理モジュールと、を含む。

第３の態様によれば、電子機器を提供し、少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサに通信可能に接続されるメモリと、を含み、前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも１つのプロセッサが上記実施例に記載のテキスト誤り訂正処理方法を実行できるように、少なくとも１つのプロセッサによって実行される。

第４の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提案し、前記コンピュータ命令は、コンピュータに上記実施例に記載のテキスト誤り訂正処理方法を実行させる。

第５の態様によれば、コンピュータプログラム製品を提案し、前記コンピュータプログラム製品の命令がプロセッサによって実行される場合、サーバが第１の態様の実施例に記載のテキスト誤り訂正処理方法を実現できるようにする。
第６の態様によれば、コンピュータプログラムを提案し、前記コンピュータプログラムがプロセッサによって実行される場合、第１の態様の実施例に記載のテキスト誤り訂正処理方法を実現する。

なお、本部分に記載された内容は、本出願の実施例の肝心または重要な特徴を限定することを意図するものではなく、本出願の範囲を限定するものでもない。本出願の他の特徴は、以下の説明によって容易に理解されやすくなる。

図面は、本技術案をよりよく理解するために使用され、本出願を限定するものではない。
本開示の第１の実施例に係るテキスト誤り訂正処理方法のフローチャートである。本開示の第２の実施例に係るテキスト誤り訂正処理方法のフローチャートである。本開示の実施例に係る字形特徴ベクトルの抽出の概略図である。本開示の実施例に係る字音特徴ベクトルの抽出の概略図である。本開示の実施例に係るテキスト誤り訂正処理モデルの概略図である。本開示の第３の実施例に係るテキスト誤り訂正処理方法のフローチャートである。本開示の第４の実施例に係るテキスト誤り訂正処理装置の概略構成図である。本開示の第５の実施例に係るテキスト誤り訂正処理装置の概略構成図である。本開示の実施例のテキスト誤り訂正処理方法を実現するための電子機器のブロック図である。

以下、図面と組み合わせて本出願の例示的な実施例を説明し、理解を容易にするためにその中には本出願の実施例の様々な詳細事項が含まれ、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本出願の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができる。同様に、わかりやすくかつ簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。

実際の応用において、例えば、検索最適化、機械翻訳などは、テキストに対して誤り訂正処理を行う必要があり、関連技術において、誤り認識を行って候補を生成し、最後に候補を選択することで、テキスト誤り訂正を実現し、このような方式は、一対一の誤りタイプしか処理できず、誤り訂正効率も効果も劣る。

上記問題に対して、本開示は、テキスト誤り訂正処理方法を提案し、元のテキストを取得し、元のテキストを前処理してトレーニングテキストを取得し、トレーニングテキストの各文字に対応する複数の特徴ベクトルを抽出し、複数の特徴ベクトルを処理して入力ベクトルを取得し、入力ベクトルをテキスト誤り訂正モデルに入力してターゲットテキストを取得し、ターゲットテキストと元のテキストとの差に基づいて、テキスト誤り訂正モデルのパラメータを調整する。

これにより、元のテキストを前処理してトレーニングテキストを生成し、テキスト誤り訂正モデルをトレーニングすることで、トレーニングテキストの生成効率を向上させるとともに、テキスト誤り訂正モデルが異なる誤りタイプに対して正確に処理できるようにする。

先ず、図１は、本開示の第１の実施例に係るテキスト誤り訂正処理方法のフローチャートであり、テキスト誤り訂正処理方法が電子機器に応用され、ここで、電子機器は、いずれも計算能力を有するデバイス、例えば、パソコン（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ、ＰＣと略称する）、モバイル端末などであってもよく、モバイル端末は、例えば、携帯電話、タブレット、パーソナルデジタルアシスタント、ウェアラブル機器、車載機器などの各種オペレーティングシステム、タッチスクリーン及び／又はディスプレイを備えるハードウェア機器であってもよい。

図１に示すように、当該方法は、以下のステップを含む。

ステップ１０１において、元のテキストを取得し、元のテキストを前処理してトレーニングテキストを取得する。

本開示の実施例において、元のテキストを前処理する方式は、たくさんの種類があり、応用シーンに応じて設定することができ、以下のように例を挙げて説明する。

第１の例として、元のテキストの単語の順序を調整し、元のテキストに単語を追加し、元のテキストの１つ又は複数の単語を削除する。

第２の例として、元のテキストのいずれかの単語をいずれかの単語に対応するピンインの完全なスペリングに置き換え、元のテキストのいずれかの単語をいずれかの単語に対応するピンインの略語に置き換える。

第３の例として、元のテキストのいずれかの単語をいずれかの単語に対応する類似単語又は類似ピンインに対応する単語に置き換える。

ステップ１０２において、トレーニングテキストの各文字に対応する複数の特徴ベクトルを抽出し、複数の特徴ベクトルを処理して入力ベクトルを取得する。

本開示の実施例において、実際の応用シーンの必要に応じてトレーニングテキストの各文字に対応する複数の特徴ベクトルを抽出することができ、例えば、各文字に対応する字形特徴ベクトル、字音特徴ベクトル、位置特徴ベクトル、意味ベクトル及びテキストベクトルなどのうちの１つ又は複数を抽出する。

以下のように例を挙げて説明する。

第１の例として、各文字に対応する五筆コーディングを取得し、五筆コーディングにおける各コーディングアルファベットベクトルを加算して完全接続ネットワークに入力し、字形特徴ベクトルを取得する。

第２の例として、各文字に対応するピンインアルファベットを取得し、ピンインアルファベットにおける声母ベクトルと韻母ベクトルを加算して完全接続ネットワークに入力し、字音特徴ベクトルを取得する。

さらに、複数の特徴ベクトルを処理して入力ベクトルを取得し、例えば、各文字に対応する字形特徴ベクトル、字音特徴ベクトル、位置特徴ベクトル、意味ベクトル及びテキストベクトルを加算処理して、入力ベクトルを取得する。

ステップ１０３において、入力ベクトルをテキスト誤り訂正モデルに入力してターゲットテキストを取得し、ターゲットテキストと元のテキストとの差に基づいて、テキスト誤り訂正モデルのパラメータを調整する。

本開示の実施例において、入力ベクトルをテキスト誤り訂正モデルに入力する方式は、たくさんの種類があり、実際の応用シーンの必要に応じて設定することができ、以下のように例を挙げて説明する。

第１の例として、エンコーダによって入力ベクトルをコーディングし、コーディングベクトルを取得し、デコーダによってコーディングベクトルをデコーディングし、意味ベクトルを取得し、意味ベクトルに基づいて、ターゲットテキストを取得する。

第２の例として、入力ベクトルをディープニューラルネットワークを介して直接処理し、ターゲットテキストを取得する。

さらに、ターゲットテキストと元のテキストとの差に基づいて、テキスト誤り訂正モデルのパラメータを調整し、具体的には、ターゲットテキストと元のテキストとの誤差値を損失関数によって算出し、誤差値に基づいてテキスト誤り訂正モデルのパラメータを調整し続けることにより、ターゲットテキストと元のテキストとの誤差値が一定の範囲内にあることを保証し、テキスト誤り訂正モデルの誤り訂正能力を向上させる。

本開示の実施例に係るテキスト誤り訂正処理方法は、元のテキストを取得し、元のテキストを前処理してトレーニングテキストを取得し、トレーニングテキストの各文字に対応する複数の特徴ベクトルを抽出し、複数の特徴ベクトルを処理して入力ベクトルを取得し、入力ベクトルをテキスト誤り訂正モデルに入力してターゲットテキストを取得し、ターゲットテキストと元のテキストとの差に基づいて、テキスト誤り訂正モデルのパラメータを調整する。これにより、元のテキストを前処理してトレーニングテキストを生成し、テキスト誤り訂正モデルをトレーニングすることで、トレーニングテキストの生成効率を向上させるとともに、テキスト誤り訂正モデルが異なる誤りタイプに対して正確に処理できるようにする。

図２は、本開示の第２の実施例に係るテキスト誤り訂正処理方法のフローチャートであり、図２に示すように、当該方法は、以下のステップを含む。

ステップ２０１において、元のテキストを取得し、元のテキストの単語の順序を調整し、元のテキストに単語を追加し、元のテキストの１つ又は複数の単語を削除する。

本開示の実施例において、従来の手動でラベル付けされたトレーニングテキストが必要なエンドツーエンドの誤り訂正モデルと異なり、入手しやすい大量の教師なしテキスト、例えば、単語逆順、単語補完などのみが必要であり、元のテキストの単語をランダムに打ち散らしたり、漢字をランダムに加減したりすることにより、誤りテキストを生成し、トレーニングテキストを取得することができる。

ステップ２０２において、元のテキストのいずれかの単語をいずれかの単語に対応するピンインの完全なスペリングに置き換え、元のテキストのいずれかの単語をいずれかの単語に対応するピンインの略語に置き換える。

本開示の実施例において、中国語ピンインの完全なスペリング、中国語ピンインの略語などに対して、元のテキストにおけるいくつかの漢字又は語句を、それに対応する完全なスペリング又は略語に置き換えることにより、誤りテキストを生成し、トレーニングテキストを取得することができる。

ステップ２０３において、元のテキストのいずれかの単語をいずれかの単語に対応する類似単語又は類似ピンインに対応する単語に置き換える。

本開示の実施例において、語呂合わせ単語、混同単語及び形似字の誤りなどについては、元のテキストの単語と漢字を混同しやすい単語又は字音や字形が近い漢字に置き換えることにより、誤りテキストを生成し、トレーニングテキストを取得することができる。

これにより、元のテキストを前処理してトレーニングテキストを生成し、手動でラベル付けする必要がなく、トレーニングテキストの生成効率を向上させるとともに、テキスト誤り訂正モデルが異なる誤りタイプに対して正確に処理できるようにする。

ステップ２０４において、トレーニングテキストの各文字に対応する字形特徴ベクトル、字音特徴ベクトル、位置特徴ベクトル、意味ベクトル及びテキストベクトルを抽出し、複数の特徴ベクトルを処理して入力ベクトルを取得する。

なお、中国語スペリング誤り訂正においてよく見られる誤りの１つは、漢字をその字音又は字形に近い漢字に書くことであるため、本開示の実施例において、各文字に対応する五筆コーディングを取得し、五筆コーディングにおける各コーディングアルファベットベクトルを加算して完全接続ネットワークに入力し、字形特徴ベクトルを取得し、各文字に対応するピンインアルファベットを取得し、ピンインアルファベットにおける声母ベクトルと韻母ベクトルを加算して完全接続ネットワークに入力し、字音特徴ベクトルを取得することができる。

具体的には、中国語ピンインは、よく見られた字音コーディングであり、声母と韻母との２つの部分からなり、図４に示すように、「新」の中国語ピンインは、「ｘｉｎ」であり、声母はｘで、韻母はｉｎであり、同じ漢字に対して声母及び韻母のベクトル表現をそれぞれ検索し、声母ベクトルと韻母ベクトルを加算し、さらに完全接続ネットワークを介して、最終的な漢字の字音特徴ベクトルを取得する。

本開示の実施例において、字形特徴ベクトル及び字音特徴ベクトルにおける各要素のベクトル表現、及び対応する完全接続ネットワークのパラメータは、モデル全体とともにトレーニング・最適化することができる。これにより、字音や字形の情報が増加し、字音や字形が近い文字の誤りに対するモデルの処理能力を向上させ、また、デコーディング段階でセットを混同する必要はない。

さらに、複数の特徴ベクトルを処理して入力ベクトルを取得し、すなわち、各文字に対応する字形特徴ベクトル、字音特徴ベクトル、位置特徴ベクトル、意味ベクトル及びテキストベクトルを加算処理して、入力ベクトルを取得する。

ステップ２０５において、エンコーダによって入力ベクトルをコーディングし、コーディングベクトルを取得し、デコーダによってコーディングベクトルをデコーディングし、意味ベクトルを取得し、意味ベクトルに基づいて、ターゲットテキストを取得し、ターゲットテキストと元のテキストとの差に基づいて、テキスト誤り訂正モデルのパラメータを調整する。

本開示の実施例において、コピーメカニズムを有するエンコーダ－デコーダのモデル構造に基づいて、大規模な教師なしコーパスで事前トレーニングを行うため、モデルがほとんどの誤りタイプに対して強い誤り訂正能力を有しており、処理された正しいベクトルを直接コピーし、コーディング処理を再実行する必要がなく、トレーニング効率を向上させる。

具体的には、図５に示すようなコピーメカニズムを有するエンコーダ－デコーダのモデル構造は、トレーニングテキスト、すなわち、誤りテキストを入力とし、正しいテキストを出力とし、大量のコーパスでトレーニングすることにより、モデルが誤り訂正能力を有するようにする。

したがって、大量のラベル付けされていないテキストで事前トレーニングを行うことにより、テキスト誤り訂正モデルは、ほとんどの誤りタイプに対して強い誤り訂正能力を有することができる。なお、手動でラベル付けされた誤り訂正コーパスがある場合、事前にトレーニングされたモデルを微調整することにより、モデルの効果をさらに向上させることができる。

本開示の実施例に係るテキスト誤り訂正処理方法は、元のテキストを取得し、元のテキストの単語の順序を調整し、元のテキストに単語を追加し、元のテキストの１つ又は複数の単語を削除し、元のテキストのいずれかの単語をいずれかの単語に対応するピンインの完全なスペリングに置き換え、元のテキストのいずれかの単語をいずれかの単語に対応するピンインの略語に置き換え、元のテキストのいずれかの単語をいずれかの単語に対応する類似単語又は類似ピンインに対応する単語に置き換え、トレーニングテキストの各文字に対応する字形特徴ベクトル、字音特徴ベクトル、位置特徴ベクトル、意味ベクトル及びテキストベクトルを抽出し、複数の特徴ベクトルを処理して入力ベクトルを取得し、エンコーダによって入力ベクトルをコーディングし、コーディングベクトルを取得し、デコーダによってコーディングベクトルをデコーディングし、意味ベクトルを取得し、意味ベクトルに基づいて、ターゲットテキストを取得し、ターゲットテキストと元のテキストとの差に基づいて、テキスト誤り訂正モデルのパラメータを調整する。これにより、大量の教師なしテキストにより複数のノイズ付加処理を行い、データを手動でラベル付けする必要がなく、１つのエンドツーエンドモデルにより複数の誤りタイプの誤り訂正を処理し、テキスト誤り訂正モデルの誤り訂正能力を向上させる。

上記実施例に基づいて、テキスト誤り訂正モデルのパラメータを調整し後、すなわち、テキスト誤り訂正モデルが事前トレーニングを完了してテキストに対して誤り訂正処理を行うことができ、以下に、図６と組み合わせて詳細に説明する。

図６は、本開示の第３の実施例に係るテキスト誤り訂正処理方法のフローチャートであり、図６に示すように、当該方法は、ステップ１０３の後に、以下のステップをさらに含む。

ステップ３０１において、処理対象のテキストを取得する。

ステップ３０２において、処理対象のテキストの各文字に対応する複数の処理対象の特徴ベクトルを抽出し、複数の処理対象の特徴ベクトルを処理して、処理対象のベクトルを取得する。

本開示の実施例において、実際の応用シーンの必要に応じて処理対象のテキストの各文字に対応する複数の特徴ベクトルを抽出することができ、例えば、各文字に対応する字形特徴ベクトル、字音特徴ベクトル、位置特徴ベクトル、意味ベクトル及びテキストベクトルなどのうちの１つ又は複数を抽出する。

以下のように例を挙げて説明する。

さらに、複数の特徴ベクトルを処理して処理対象のベクトルを取得し、例えば、各文字に対応する字形特徴ベクトル、字音特徴ベクトル、位置特徴ベクトル、意味ベクトル及びテキストベクトルを加算処理して、処理対象のベクトルを取得する。

ステップ３０３において、処理対象のベクトルをテキスト誤り訂正モデルに入力して処理し、訂正テキストを取得する。

本開示の実施例において、エンコーダによって処理対象のベクトルをコーディングし、コーディングベクトルを取得し、デコーダによってコーディングベクトルをデコーディングし、意味ベクトルを取得し、意味ベクトルに基づいて、訂正テキストを取得する。

本開示の実施例に係るテキスト誤り訂正処理方法は、処理対象のテキストを取得し、処理対象のテキストの各文字に対応する複数の処理対象の特徴ベクトルを抽出し、複数の処理対象の特徴ベクトルを処理して、処理対象のベクトルを取得し、処理対象のベクトルをテキスト誤り訂正モデルに入力して処理し、訂正テキストを取得する。これにより、テキスト誤り訂正モデルを用いてテキストに対して誤り訂正処理を行い、テキスト誤り訂正効率及び精度を向上させる。

上記実施例を実現するために、本開示は、テキスト誤り訂正処理装置をさらに提案する。図７は、本開示の第４の実施例に係るテキスト誤り訂正処理装置の概略構成図であり、図７に示すように、当該テキスト誤り訂正処理装置は、第１の取得モジュール７０１、前処理モジュール７０２、抽出モジュール７０３、第２の取得モジュール７０４及び処理モジュール７０５を含む。

ここで、第１の取得モジュール７０１は、元のテキストを取得する。

前処理モジュール７０２は、元のテキストを前処理してトレーニングテキストを取得する。

抽出モジュール７０３は、トレーニングテキストの各文字に対応する複数の特徴ベクトルを抽出する。

第２の取得モジュール７０４は、複数の特徴ベクトルを処理して入力ベクトルを取得する。

処理モジュール７０５は、入力ベクトルをテキスト誤り訂正モデルに入力してターゲットテキストを取得し、ターゲットテキストと元のテキストとの差に基づいて、テキスト誤り訂正モデルのパラメータを調整する。

本開示の実施例において、前処理モジュール７０２は、具体的には、前記元のテキストの単語の順序を調整することと、前記元のテキストに単語を追加することと、前記元のテキストの１つ又は複数の単語を削除することと、前記元のテキストのいずれかの単語を前記いずれかの単語に対応するピンインの完全なスペリングに置き換えることと、前記元のテキストのいずれかの単語を前記いずれかの単語に対応するピンインの略語に置き換えることと、前記元のテキストのいずれかの単語を前記いずれかの単語に対応する類似単語又は類似ピンインに対応する単語に置き換えることとのうちの１つ又は組合せを実行する。

本開示の実施例において、抽出モジュール７０３は、具体的には、前記各文字に対応する五筆コーディングを取得し、前記五筆コーディングにおける各コーディングアルファベットベクトルを加算して完全接続ネットワークに入力し、前記字形特徴ベクトルを取得する。

本開示の実施例において、抽出モジュール７０３は、具体的には、前記各文字に対応するピンインアルファベットを取得し、前記ピンインアルファベットにおける声母ベクトルと韻母ベクトルを加算して完全接続ネットワークに入力し、前記字音特徴ベクトルを取得する。

本開示の実施例において、処理モジュール７０５は、具体的には、エンコーダによって前記入力ベクトルをコーディングし、コーディングベクトルを取得し、デコーダによって前記コーディングベクトルをデコーディングし、意味ベクトルを取得し、前記意味ベクトルに基づいて、ターゲットテキストを取得する。

本開示の実施例に係るテキスト誤り訂正処理装置は、元のテキストを取得し、元のテキストを前処理してトレーニングテキストを取得し、トレーニングテキストの各文字に対応する複数の特徴ベクトルを抽出し、複数の特徴ベクトルを処理して入力ベクトルを取得し、入力ベクトルをテキスト誤り訂正モデルに入力してターゲットテキストを取得し、ターゲットテキストと元のテキストとの差に基づいて、テキスト誤り訂正モデルのパラメータを調整する。これにより、元のテキストを前処理してトレーニングテキストを生成し、テキスト誤り訂正モデルをトレーニングすることで、トレーニングテキストの生成効率を向上させるとともに、テキスト誤り訂正モデルが異なる誤りタイプに対して正確に処理できるようにする。

上記実施例を実現するために、本開示は、テキスト誤り訂正処理装置をさらに提案する。図８は、本開示の第５の実施例に係るテキスト誤り訂正処理装置の概略構成図であり、図８に示すように、当該テキスト誤り訂正処理装置は、第３の取得モジュール８０１、第４の取得モジュール８０２及び訂正モジュール８０３を含む。

ここで、第３の取得モジュール８０１は、処理対象のテキストを取得する。

第４の取得モジュール８０２は、前記処理対象のテキストの各文字に対応する複数の処理対象の特徴ベクトルを抽出し、前記複数の処理対象の特徴ベクトルを処理して、処理対象のベクトルを取得する。

訂正モジュール８０３は、前記処理対象のベクトルを前記テキスト誤り訂正モデルに入力して処理し、訂正テキストを取得する。

本開示の実施例に係るテキスト誤り訂正処理装置は、処理対象のテキストを取得し、処理対象のテキストの各文字に対応する複数の処理対象の特徴ベクトルを抽出し、複数の処理対象の特徴ベクトルを処理して、処理対象のベクトルを取得し、処理対象のベクトルをテキスト誤り訂正モデルに入力して処理し、訂正テキストを取得する。これにより、テキスト誤り訂正モデルを用いてテキストに対して誤り訂正処理を行い、テキスト誤り訂正効率及び精度を向上させる。

本開示の実施例によれば、本開示は、電子機器、読み取り可能な記憶媒体及びコンピュータプログラム製品をさらに提供する。
本開示の実施例によれば、本開示は、コンピュータプログラムを提供し、コンピュータプログラムがプロセッサによって実行される場合、本開示によって提供されるテキスト誤り訂正処理方法を実現する。

図９に示すように、本開示の実施例を実現できる例示的な電子機器９００の概略ブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタルプロセッサ、携帯電話、スマートフォン、ウェアラブルデバイス、他の同様のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び／又は要求される本開示の実現を制限するものではない。

図９に示すように、機器９００は、リードオンリーメモリ（ＲＯＭ）９０２に記憶されているコンピュータプログラム、又は記憶ユニット９０８からランダムアクセスメモリ（ＲＡＭ）９０３にロッドされたコンピュータプログラムに基づいて、様々な適切な動作及び処理を実行できる計算ユニット９０１を含む。ＲＡＭ９０３には、機器９００の動作に必要な様々なプログラム及びデータも記憶されてもよい。計算ユニット９０１、ＲＯＭ９０２、ＲＡＭ９０３は、バス９０４を介して互いに接続されている。入力／出力（Ｉ／Ｏ）インタフェース９０５もバス９０４に接続されている。

機器９００内の複数のコンポーネントは、Ｉ／Ｏインタフェース９０５に接続され、キーボード、マウスなどの入力ユニット９０６と、様々なタイプのディスプレイ、スピーカなどの出力ユニット９０７と、磁気ディスク、光ディスクなどの記憶ユニット９０８と、ネットワークカード、モデム、無線通信トランシーバなどの通信ユニット９０９と、を含む。通信ユニット９０９は、機器９００がインタネットなどのコンピュータネットワーク及び／又は様々な電気通信ネットワークを介して他の機器と情報／データを交換することを可能にする。

計算ユニット９０１は、処理及び計算能力を有する様々な汎用及び／又は専用処理コンポーネントであってもよい。計算ユニット９０１のいくつかの例は、中央処理ユニット（ＣＰＵ）、グラフィックス処理ユニット（ＧＰＵ）、様々な専用人工知能（ＡＩ）計算チップ、機械学習モデルアルゴリズムを実行する様々な計算ユニット、デジタルシグナルプロセッサ（ＤＳＰ）、及びいずれかの適宜なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット９０１は、上述した各方法及び処理、例えば、テキスト誤り訂正処理方法を実行する。例えば、いくつかの実施例では、テキスト誤り訂正処理方法は、記憶ユニット９０９のような機械読み取り可能な媒体に有形に含まれるコンピュータソフトウェアプログラムとして実装されてもよい。いくつかの実施例では、コンピュータプログラムの一部又は全部は、ＲＯＭ９０２及び／又は通信ユニット９０９を介して機器９００にロッド及び／又はインストールすることができる。コンピュータプログラムがＲＡＭ９０３にロッドされ、計算ユニット９０１によって実行される場合、上述したテキスト誤り訂正処理方法の１つ又は複数のステップを実行することができる。選択的に、他の実施例では、計算ユニット９０１は、テキスト誤り訂正処理方法を実行するように、他の任意の適切な形態で（例えば、ファーとウェアを介する）構成されてもよい。

本明細書で上述したシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、コンプレックス・プログラマブル・ロジック・デバイス（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア及び／又はそれらの組合せで実現されてもよい。これらの様々な実施形態は、少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステム上で実行及び／又は解釈されることができる１つ又は複数のコンピュータプログラムで実現されてもよく、当該プログラマブルプロセッサは、専用及び／又は汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及び命令を受信し、当該記憶システム、当該少なくとも１つの入力装置、及び当該少なくとも１つの出力装置にデータ及び命令を伝送することができる。

本開示の方法を実施するためのプログラムコードは、１つ又は複数のプログラミング言語の任意の組み合わせで書くことができる。これらのプログラムコードは、プロセッサ又はコントローラによって実行されると、フローチャート及び／又はブロック図に規定された機能／動作が実施されるように、汎用コンピュータ、専用コンピュータ、又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されてもよい。プログラムコードは、完全に機械上で実行されてもよく、部分的に機械上で実行されてもよく、スタンドアロンパッケージとして、部分的に機械上で実行され、かつ部分的にリモート機械上で実行されるか、又は完全にリモート機械又はサーバ上で実行されてもよい。

本開示の文脈では、機械読み取り可能な媒体は、命令実行システム、装置、又は機器によって使用されるために、又は命令実行システム、装置、又は機器と組み合わせて使用するためのプログラムを含むか、又は記憶することが可能な有形媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体又は機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子的、磁気的、光学的、電磁気的、赤外線的、又は半導体システム、装置又は機器、又はこれらの任意の適切な組み合わせを含むことができるが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は、１つ又は複数のワイヤによる電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、消去可能プログラマブルリードオンリーメモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスクリードオンリーメモリ（ＣＤ－ＲＯＭ）、光学記憶機器、磁気記憶機器、又はこれらの任意の適切な組み合わせを含む。

ユーザとのインタラクションを提供するために、ここで説明されているシステム及び技術をコンピュータ上で実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及びポインティングデバイス（例えば、マウス又はトラックボール）とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、任意の形式（音響入力と、音声入力と、触覚入力とを含む）でユーザからの入力を受信することができる。

ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム（例えば、データサーバとする）、又はミドルウェアコンポーネントを含むコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンドコンポーネントを含むコンピューティングシステム（例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータであり、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションする）、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施することができる。任意の形式又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）と、ワイドエリアネットワーク（ＷＡＮ）と、インターネットと、ブロックチェーンネットワークとを含む。

コンピュータシステムは、クライアントとサーバとを含むことができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、且つ互いにクライアント-サーバ関係を有するコンピュータプログラムによって、クライアントとサーバとの関係が生成される。サーバは、クラウドコンピューティングサーバ又はクラウドホストとも呼ばれるクラウドサーバであってもよく、従来の物理ホスト及びＶＰＳサービス（「ＶｉｒｔｕａｌＰｒｉｖａｔｅＳｅｒｖｅｒ」、又は「ＶＰＳ」と略称する）における、管理難度が大きく、ビジネスの拡張性が低いという欠点を解決するクラウドコンピューティングサービスシステムのホスト製品の１つである。

上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができる。例えば、本開示に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本開示で開示されている技術案が所望の結果を実現することができれば、本明細書では限定しない。

上記の具体的な実施形態は、本開示の保護範囲を制限するものではない。当業者は、設計要件と他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。本開示の精神と原則内で行われる任意の修正、同等の置換、及び改善などは、いずれも本開示の保護範囲内に含まれるべきである。

Claims

テキスト誤り訂正処理装置によって実行されるテキスト誤り訂正処理方法であって、
元のテキストを取得し、前記元のテキストを前処理してトレーニングテキストを取得するステップと、
前記トレーニングテキストの各文字に対応する複数の特徴ベクトルを抽出し、前記複数の特徴ベクトルを処理して入力ベクトルを取得するステップと、
前記入力ベクトルをテキスト誤り訂正モデルに入力してターゲットテキストを取得し、前記ターゲットテキストと前記元のテキストとの差に基づいて、前記テキスト誤り訂正モデルのパラメータを調整するステップと、を含み、
前記各文字に対応する特徴ベクトルを抽出するステップは、
前記各文字に対応する五筆コーディングを取得するステップと、
前記五筆コーディングにおける各コーディングアルファベットベクトルを加算して完全接続ネットワークに入力し、字形特徴ベクトルを取得するステップと、を含む、
ことを特徴とするテキスト誤り訂正処理方法。
前記元のテキストを前処理するステップは、
前記元のテキストの単語の順序を調整するステップと、
前記元のテキストに単語を追加するステップと、
前記元のテキストの１つ又は複数の単語を削除するステップと、
前記元のテキストのいずれかの単語を前記いずれかの単語に対応するピンインの完全なスペリングに置き換えるステップと、
前記元のテキストのいずれかの単語を前記いずれかの単語に対応するピンインの略語に置き換えるステップと、
前記元のテキストのいずれかの単語を前記いずれかの単語に対応する類似単語又は類似ピンインに対応する単語に置き換えるステップとのうちの１つ又は組合せを含む、
ことを特徴とする請求項１に記載の方法。
前記各文字に対応する特徴ベクトルを抽出するステップは、
前記各文字に対応するピンインアルファベットを取得するステップと、
前記ピンインアルファベットにおける声母ベクトルと韻母ベクトルを加算して完全接続ネットワークに入力し、字音特徴ベクトルを取得するステップと、を含む、
ことを特徴とする請求項１に記載の方法。
前記テキスト誤り訂正モデルのパラメータを調整するステップの後に、
処理対象のテキストを取得するステップと、
前記処理対象のテキストの各文字に対応する複数の処理対象の特徴ベクトルを抽出し、前記複数の処理対象の特徴ベクトルを処理して、処理対象のベクトルを取得するステップと、
前記処理対象のベクトルを前記テキスト誤り訂正モデルに入力して処理し、訂正テキストを取得するステップと、をさらに含む、
ことを特徴とする請求項１～３のいずれかに記載の方法。
テキスト誤り訂正処理装置であって、
元のテキストを取得するための第１の取得モジュールと、
前記元のテキストを前処理してトレーニングテキストを取得するための前処理モジュールと、
前記トレーニングテキストの各文字に対応する複数の特徴ベクトルを抽出するための抽出モジュールと、
前記複数の特徴ベクトルを処理して入力ベクトルを取得するための第２の取得モジュールと、
前記入力ベクトルをテキスト誤り訂正モデルに入力してターゲットテキストを取得し、前記ターゲットテキストと前記元のテキストとの差に基づいて、前記テキスト誤り訂正モデルのパラメータを調整するための処理モジュールと、を含み、
前記抽出モジュールが、
前記各文字に対応する五筆コーディングを取得し、
前記五筆コーディングにおける各コーディングアルファベットベクトルを加算して完全接続ネットワークに入力し、字形特徴ベクトルを取得する、
ことを特徴とするテキスト誤り訂正処理装置。
前記前処理モジュールが、
前記元のテキストの単語の順序を調整することと、
前記元のテキストに単語を追加することと、
前記元のテキストの１つ又は複数の単語を削除することと、
前記元のテキストのいずれかの単語を前記いずれかの単語に対応するピンインの完全なスペリングに置き換えることと、
前記元のテキストのいずれかの単語を前記いずれかの単語に対応するピンインの略語に置き換えることと、
前記元のテキストのいずれかの単語を前記いずれかの単語に対応する類似単語又は類似ピンインに対応する単語に置き換えることとのうちの１つ又は組合せを実行する、
ことを特徴とする請求項５に記載の装置。
前記抽出モジュールが、
前記各文字に対応するピンインアルファベットを取得し、
前記ピンインアルファベットにおける声母ベクトルと韻母ベクトルを加算して完全接続ネットワークに入力し、字音特徴ベクトルを取得する、
ことを特徴とする請求項５に記載の装置。
処理対象のテキストを取得するための第３の取得モジュールと、
前記処理対象のテキストの各文字に対応する複数の処理対象の特徴ベクトルを抽出し、前記複数の処理対象の特徴ベクトルを処理して、処理対象のベクトルを取得するための第４の取得モジュールと、
前記処理対象のベクトルを前記テキスト誤り訂正モデルに入力して処理し、訂正テキストを取得するための訂正モジュールと、をさらに含む、
ことを特徴とする請求項５～７のいずれかに記載の装置。
電子機器であって、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信可能に接続されるメモリと、を含み、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも１つのプロセッサが請求項１～４のいずれかに記載のテキスト誤り訂正処理方法を実行できるように、少なくとも１つのプロセッサによって実行される、
ことを特徴とする電子機器。
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令は、コンピュータに請求項１～４のいずれかに記載のテキスト誤り訂正処理方法を実行させる、
ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。
コンピュータプログラムであって、
前記コンピュータプログラムがプロセッサによって実行される場合、請求項１～４のいずれかに記載のテキスト誤り訂正処理方法を実現する、
ことを特徴とするコンピュータプログラム。