JP2022028887A - テキスト誤り訂正処理方法、装置、電子機器及び記憶媒体 - Google Patents

テキスト誤り訂正処理方法、装置、電子機器及び記憶媒体 Download PDF

Info

Publication number
JP2022028887A
JP2022028887A JP2021193157A JP2021193157A JP2022028887A JP 2022028887 A JP2022028887 A JP 2022028887A JP 2021193157 A JP2021193157 A JP 2021193157A JP 2021193157 A JP2021193157 A JP 2021193157A JP 2022028887 A JP2022028887 A JP 2022028887A
Authority
JP
Japan
Prior art keywords
text
vector
error correction
word
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021193157A
Other languages
English (en)
Other versions
JP7366984B2 (ja
Inventor
チャオ パン
Chao Pang
シャオファン ワン
Xiaofeng Wang
ユー スン
Yu Sun
ジュ リー
Zhi Li
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2022028887A publication Critical patent/JP2022028887A/ja
Application granted granted Critical
Publication of JP7366984B2 publication Critical patent/JP7366984B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

【課題】異なる誤りタイプに対して正確に処理できるテキスト誤り訂正処理方法、装置、電子機器及び記憶媒体を提供する。【解決手段】テキスト誤り訂正処理方法は、元のテキストを取得し、元のテキストを前処理してトレーニングテキストを取得し、トレーニングテキストの各文字に対応する複数の特徴ベクトルを抽出し、複数の特徴ベクトルを処理して入力ベクトルを取得し、入力ベクトルをテキスト誤り訂正モデルに入力してターゲットテキストを取得し、ターゲットテキストと元のテキストとの差に基づいて、テキスト誤り訂正モデルのパラメータを調整するる。【選択図】図1

Description

本開示は、コンピュータ技術の分野に関し、具体的には、深層学習及び自然言語処理などの人工知能の分野に関し、特に、テキスト誤り訂正処理方法、装置、電子機器及び記憶媒体に関する。
現在、スペリング誤り訂正の目標は、自然言語のスペリング誤りを訂正することであり、検索最適化、機械翻訳、品詞タグ付けなどの多くの潜在的な自然言語処理アプリケーションに広く使用されている。
関連技術において、中国語スペリング誤り訂正方法は、一般的に、生産ラインの形式で行われ、先ず、誤り認識を行って候補を生成し、最後に候補を選択し、このような方式のトレーニングコーパスは、手動でラベル付けする必要があり、数が一般的に小さく、一対一の誤りタイプしか処理できず、例えば、単語逆順、単語補完などの誤りを認識できないため、誤り訂正効率も効果も劣る。
本開示は、誤り訂正処理方法、装置、機器及び記憶媒体を提供する。
本開示の第1の態様によれば、テキスト誤り訂正処理方法を提供し、
元のテキストを取得し、前記元のテキストを前処理してトレーニングテキストを取得するステップと、
前記トレーニングテキストの各文字に対応する複数の特徴ベクトルを抽出し、前記複数の特徴ベクトルを処理して入力ベクトルを取得するステップと、
前記入力ベクトルをテキスト誤り訂正モデルに入力してターゲットテキストを取得し、前記ターゲットテキストと前記元のテキストとの差に基づいて、前記テキスト誤り訂正モデルのパラメータを調整するステップと、を含む。
本開示の他の態様によれば、テキスト誤り訂正処理装置を提供し、
元のテキストを取得するための第1の取得モジュールと、
前記元のテキストを前処理してトレーニングテキストを取得するための前処理モジュールと、
前記トレーニングテキストの各文字に対応する複数の特徴ベクトルを抽出するための抽出モジュールと、
前記複数の特徴ベクトルを処理して入力ベクトルを取得するための第2の取得モジュールと、
前記入力ベクトルをテキスト誤り訂正モデルに入力してターゲットテキストを取得し、前記ターゲットテキストと前記元のテキストとの差に基づいて、前記テキスト誤り訂正モデルのパラメータを調整するための処理モジュールと、を含む。
第3の態様によれば、電子機器を提供し、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサに通信可能に接続されるメモリと、を含み、前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも1つのプロセッサが上記実施例に記載のテキスト誤り訂正処理方法を実行できるように、少なくとも1つのプロセッサによって実行される。
第4の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提案し、前記コンピュータ命令は、コンピュータに上記実施例に記載のテキスト誤り訂正処理方法を実行させる。
第5の態様によれば、コンピュータプログラム製品を提案し、前記コンピュータプログラム製品の命令がプロセッサによって実行される場合、サーバが第1の態様の実施例に記載のテキスト誤り訂正処理方法を実現できるようにする。
第6の態様によれば、コンピュータプログラムを提案し、前記コンピュータプログラムがプロセッサによって実行される場合、第1の態様の実施例に記載のテキスト誤り訂正処理方法を実現する。
なお、本部分に記載された内容は、本出願の実施例の肝心または重要な特徴を限定することを意図するものではなく、本出願の範囲を限定するものでもない。本出願の他の特徴は、以下の説明によって容易に理解されやすくなる。
図面は、本技術案をよりよく理解するために使用され、本出願を限定するものではない。
本開示の第1の実施例に係るテキスト誤り訂正処理方法のフローチャートである。 本開示の第2の実施例に係るテキスト誤り訂正処理方法のフローチャートである。 本開示の実施例に係る字形特徴ベクトルの抽出の概略図である。 本開示の実施例に係る字音特徴ベクトルの抽出の概略図である。 本開示の実施例に係るテキスト誤り訂正処理モデルの概略図である。 本開示の第3の実施例に係るテキスト誤り訂正処理方法のフローチャートである。 本開示の第4の実施例に係るテキスト誤り訂正処理装置の概略構成図である。 本開示の第5の実施例に係るテキスト誤り訂正処理装置の概略構成図である。 本開示の実施例のテキスト誤り訂正処理方法を実現するための電子機器のブロック図である。
以下、図面と組み合わせて本出願の例示的な実施例を説明し、理解を容易にするためにその中には本出願の実施例の様々な詳細事項が含まれ、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本出願の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができる。同様に、わかりやすくかつ簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。
実際の応用において、例えば、検索最適化、機械翻訳などは、テキストに対して誤り訂正処理を行う必要があり、関連技術において、誤り認識を行って候補を生成し、最後に候補を選択することで、テキスト誤り訂正を実現し、このような方式は、一対一の誤りタイプしか処理できず、誤り訂正効率も効果も劣る。
上記問題に対して、本開示は、テキスト誤り訂正処理方法を提案し、元のテキストを取得し、元のテキストを前処理してトレーニングテキストを取得し、トレーニングテキストの各文字に対応する複数の特徴ベクトルを抽出し、複数の特徴ベクトルを処理して入力ベクトルを取得し、入力ベクトルをテキスト誤り訂正モデルに入力してターゲットテキストを取得し、ターゲットテキストと元のテキストとの差に基づいて、テキスト誤り訂正モデルのパラメータを調整する。
これにより、元のテキストを前処理してトレーニングテキストを生成し、テキスト誤り訂正モデルをトレーニングすることで、トレーニングテキストの生成効率を向上させるとともに、テキスト誤り訂正モデルが異なる誤りタイプに対して正確に処理できるようにする。
先ず、図1は、本開示の第1の実施例に係るテキスト誤り訂正処理方法のフローチャートであり、テキスト誤り訂正処理方法が電子機器に応用され、ここで、電子機器は、いずれも計算能力を有するデバイス、例えば、パソコン(Personal Computer、PCと略称する)、モバイル端末などであってもよく、モバイル端末は、例えば、携帯電話、タブレット、パーソナルデジタルアシスタント、ウェアラブル機器、車載機器などの各種オペレーティングシステム、タッチスクリーン及び/又はディスプレイを備えるハードウェア機器であってもよい。
図1に示すように、当該方法は、以下のステップを含む。
ステップ101において、元のテキストを取得し、元のテキストを前処理してトレーニングテキストを取得する。
Figure 2022028887000002
本開示の実施例において、元のテキストを前処理する方式は、たくさんの種類があり、応用シーンに応じて設定することができ、以下のように例を挙げて説明する。
第1の例として、元のテキストの単語の順序を調整し、元のテキストに単語を追加し、元のテキストの1つ又は複数の単語を削除する。
第2の例として、元のテキストのいずれかの単語をいずれかの単語に対応するピンインの完全なスペリングに置き換え、元のテキストのいずれかの単語をいずれかの単語に対応するピンインの略語に置き換える。
第3の例として、元のテキストのいずれかの単語をいずれかの単語に対応する類似単語又は類似ピンインに対応する単語に置き換える。
ステップ102において、トレーニングテキストの各文字に対応する複数の特徴ベクトルを抽出し、複数の特徴ベクトルを処理して入力ベクトルを取得する。
本開示の実施例において、実際の応用シーンの必要に応じてトレーニングテキストの各文字に対応する複数の特徴ベクトルを抽出することができ、例えば、各文字に対応する字形特徴ベクトル、字音特徴ベクトル、位置特徴ベクトル、意味ベクトル及びテキストベクトルなどのうちの1つ又は複数を抽出する。
以下のように例を挙げて説明する。
第1の例として、各文字に対応する五筆コーディングを取得し、五筆コーディングにおける各コーディングアルファベットベクトルを加算して完全接続ネットワークに入力し、字形特徴ベクトルを取得する。
第2の例として、各文字に対応するピンインアルファベットを取得し、ピンインアルファベットにおける声母ベクトルと韻母ベクトルを加算して完全接続ネットワークに入力し、字音特徴ベクトルを取得する。
さらに、複数の特徴ベクトルを処理して入力ベクトルを取得し、例えば、各文字に対応する字形特徴ベクトル、字音特徴ベクトル、位置特徴ベクトル、意味ベクトル及びテキストベクトルを加算処理して、入力ベクトルを取得する。
ステップ103において、入力ベクトルをテキスト誤り訂正モデルに入力してターゲットテキストを取得し、ターゲットテキストと元のテキストとの差に基づいて、テキスト誤り訂正モデルのパラメータを調整する。
本開示の実施例において、入力ベクトルをテキスト誤り訂正モデルに入力する方式は、たくさんの種類があり、実際の応用シーンの必要に応じて設定することができ、以下のように例を挙げて説明する。
第1の例として、エンコーダによって入力ベクトルをコーディングし、コーディングベクトルを取得し、デコーダによってコーディングベクトルをデコーディングし、意味ベクトルを取得し、意味ベクトルに基づいて、ターゲットテキストを取得する。
第2の例として、入力ベクトルをディープニューラルネットワークを介して直接処理し、ターゲットテキストを取得する。
さらに、ターゲットテキストと元のテキストとの差に基づいて、テキスト誤り訂正モデルのパラメータを調整し、具体的には、ターゲットテキストと元のテキストとの誤差値を損失関数によって算出し、誤差値に基づいてテキスト誤り訂正モデルのパラメータを調整し続けることにより、ターゲットテキストと元のテキストとの誤差値が一定の範囲内にあることを保証し、テキスト誤り訂正モデルの誤り訂正能力を向上させる。
本開示の実施例に係るテキスト誤り訂正処理方法は、元のテキストを取得し、元のテキストを前処理してトレーニングテキストを取得し、トレーニングテキストの各文字に対応する複数の特徴ベクトルを抽出し、複数の特徴ベクトルを処理して入力ベクトルを取得し、入力ベクトルをテキスト誤り訂正モデルに入力してターゲットテキストを取得し、ターゲットテキストと元のテキストとの差に基づいて、テキスト誤り訂正モデルのパラメータを調整する。これにより、元のテキストを前処理してトレーニングテキストを生成し、テキスト誤り訂正モデルをトレーニングすることで、トレーニングテキストの生成効率を向上させるとともに、テキスト誤り訂正モデルが異なる誤りタイプに対して正確に処理できるようにする。
図2は、本開示の第2の実施例に係るテキスト誤り訂正処理方法のフローチャートであり、図2に示すように、当該方法は、以下のステップを含む。
ステップ201において、元のテキストを取得し、元のテキストの単語の順序を調整し、元のテキストに単語を追加し、元のテキストの1つ又は複数の単語を削除する。
本開示の実施例において、従来の手動でラベル付けされたトレーニングテキストが必要なエンドツーエンドの誤り訂正モデルと異なり、入手しやすい大量の教師なしテキスト、例えば、単語逆順、単語補完などのみが必要であり、元のテキストの単語をランダムに打ち散らしたり、漢字をランダムに加減したりすることにより、誤りテキストを生成し、トレーニングテキストを取得することができる。
ステップ202において、元のテキストのいずれかの単語をいずれかの単語に対応するピンインの完全なスペリングに置き換え、元のテキストのいずれかの単語をいずれかの単語に対応するピンインの略語に置き換える。
本開示の実施例において、中国語ピンインの完全なスペリング、中国語ピンインの略語などに対して、元のテキストにおけるいくつかの漢字又は語句を、それに対応する完全なスペリング又は略語に置き換えることにより、誤りテキストを生成し、トレーニングテキストを取得することができる。
ステップ203において、元のテキストのいずれかの単語をいずれかの単語に対応する類似単語又は類似ピンインに対応する単語に置き換える。
本開示の実施例において、語呂合わせ単語、混同単語及び形似字の誤りなどについては、元のテキストの単語と漢字を混同しやすい単語又は字音や字形が近い漢字に置き換えることにより、誤りテキストを生成し、トレーニングテキストを取得することができる。
これにより、元のテキストを前処理してトレーニングテキストを生成し、手動でラベル付けする必要がなく、トレーニングテキストの生成効率を向上させるとともに、テキスト誤り訂正モデルが異なる誤りタイプに対して正確に処理できるようにする。
ステップ204において、トレーニングテキストの各文字に対応する字形特徴ベクトル、字音特徴ベクトル、位置特徴ベクトル、意味ベクトル及びテキストベクトルを抽出し、複数の特徴ベクトルを処理して入力ベクトルを取得する。
なお、中国語スペリング誤り訂正においてよく見られる誤りの1つは、漢字をその字音又は字形に近い漢字に書くことであるため、本開示の実施例において、各文字に対応する五筆コーディングを取得し、五筆コーディングにおける各コーディングアルファベットベクトルを加算して完全接続ネットワークに入力し、字形特徴ベクトルを取得し、各文字に対応するピンインアルファベットを取得し、ピンインアルファベットにおける声母ベクトルと韻母ベクトルを加算して完全接続ネットワークに入力し、字音特徴ベクトルを取得することができる。
Figure 2022028887000003
具体的には、中国語ピンインは、よく見られた字音コーディングであり、声母と韻母との2つの部分からなり、図4に示すように、「新」の中国語ピンインは、「xin」であり、声母はxで、韻母はinであり、同じ漢字に対して声母及び韻母のベクトル表現をそれぞれ検索し、声母ベクトルと韻母ベクトルを加算し、さらに完全接続ネットワークを介して、最終的な漢字の字音特徴ベクトルを取得する。
本開示の実施例において、字形特徴ベクトル及び字音特徴ベクトルにおける各要素のベクトル表現、及び対応する完全接続ネットワークのパラメータは、モデル全体とともにトレーニング・最適化することができる。これにより、字音や字形の情報が増加し、字音や字形が近い文字の誤りに対するモデルの処理能力を向上させ、また、デコーディング段階でセットを混同する必要はない。
さらに、複数の特徴ベクトルを処理して入力ベクトルを取得し、すなわち、各文字に対応する字形特徴ベクトル、字音特徴ベクトル、位置特徴ベクトル、意味ベクトル及びテキストベクトルを加算処理して、入力ベクトルを取得する。
ステップ205において、エンコーダによって入力ベクトルをコーディングし、コーディングベクトルを取得し、デコーダによってコーディングベクトルをデコーディングし、意味ベクトルを取得し、意味ベクトルに基づいて、ターゲットテキストを取得し、ターゲットテキストと元のテキストとの差に基づいて、テキスト誤り訂正モデルのパラメータを調整する。
本開示の実施例において、コピーメカニズムを有するエンコーダ-デコーダのモデル構造に基づいて、大規模な教師なしコーパスで事前トレーニングを行うため、モデルがほとんどの誤りタイプに対して強い誤り訂正能力を有しており、処理された正しいベクトルを直接コピーし、コーディング処理を再実行する必要がなく、トレーニング効率を向上させる。
具体的には、図5に示すようなコピーメカニズムを有するエンコーダ-デコーダのモデル構造は、トレーニングテキスト、すなわち、誤りテキストを入力とし、正しいテキストを出力とし、大量のコーパスでトレーニングすることにより、モデルが誤り訂正能力を有するようにする。
したがって、大量のラベル付けされていないテキストで事前トレーニングを行うことにより、テキスト誤り訂正モデルは、ほとんどの誤りタイプに対して強い誤り訂正能力を有することができる。なお、手動でラベル付けされた誤り訂正コーパスがある場合、事前にトレーニングされたモデルを微調整することにより、モデルの効果をさらに向上させることができる。
本開示の実施例に係るテキスト誤り訂正処理方法は、元のテキストを取得し、元のテキストの単語の順序を調整し、元のテキストに単語を追加し、元のテキストの1つ又は複数の単語を削除し、元のテキストのいずれかの単語をいずれかの単語に対応するピンインの完全なスペリングに置き換え、元のテキストのいずれかの単語をいずれかの単語に対応するピンインの略語に置き換え、元のテキストのいずれかの単語をいずれかの単語に対応する類似単語又は類似ピンインに対応する単語に置き換え、トレーニングテキストの各文字に対応する字形特徴ベクトル、字音特徴ベクトル、位置特徴ベクトル、意味ベクトル及びテキストベクトルを抽出し、複数の特徴ベクトルを処理して入力ベクトルを取得し、エンコーダによって入力ベクトルをコーディングし、コーディングベクトルを取得し、デコーダによってコーディングベクトルをデコーディングし、意味ベクトルを取得し、意味ベクトルに基づいて、ターゲットテキストを取得し、ターゲットテキストと元のテキストとの差に基づいて、テキスト誤り訂正モデルのパラメータを調整する。これにより、大量の教師なしテキストにより複数のノイズ付加処理を行い、データを手動でラベル付けする必要がなく、1つのエンドツーエンドモデルにより複数の誤りタイプの誤り訂正を処理し、テキスト誤り訂正モデルの誤り訂正能力を向上させる。
上記実施例に基づいて、テキスト誤り訂正モデルのパラメータを調整し後、すなわち、テキスト誤り訂正モデルが事前トレーニングを完了してテキストに対して誤り訂正処理を行うことができ、以下に、図6と組み合わせて詳細に説明する。
図6は、本開示の第3の実施例に係るテキスト誤り訂正処理方法のフローチャートであり、図6に示すように、当該方法は、ステップ103の後に、以下のステップをさらに含む。
ステップ301において、処理対象のテキストを取得する。
ステップ302において、処理対象のテキストの各文字に対応する複数の処理対象の特徴ベクトルを抽出し、複数の処理対象の特徴ベクトルを処理して、処理対象のベクトルを取得する。
Figure 2022028887000004
本開示の実施例において、実際の応用シーンの必要に応じて処理対象のテキストの各文字に対応する複数の特徴ベクトルを抽出することができ、例えば、各文字に対応する字形特徴ベクトル、字音特徴ベクトル、位置特徴ベクトル、意味ベクトル及びテキストベクトルなどのうちの1つ又は複数を抽出する。
以下のように例を挙げて説明する。
第1の例として、各文字に対応する五筆コーディングを取得し、五筆コーディングにおける各コーディングアルファベットベクトルを加算して完全接続ネットワークに入力し、字形特徴ベクトルを取得する。
第2の例として、各文字に対応するピンインアルファベットを取得し、ピンインアルファベットにおける声母ベクトルと韻母ベクトルを加算して完全接続ネットワークに入力し、字音特徴ベクトルを取得する。
さらに、複数の特徴ベクトルを処理して処理対象のベクトルを取得し、例えば、各文字に対応する字形特徴ベクトル、字音特徴ベクトル、位置特徴ベクトル、意味ベクトル及びテキストベクトルを加算処理して、処理対象のベクトルを取得する。
ステップ303において、処理対象のベクトルをテキスト誤り訂正モデルに入力して処理し、訂正テキストを取得する。
本開示の実施例において、エンコーダによって処理対象のベクトルをコーディングし、コーディングベクトルを取得し、デコーダによってコーディングベクトルをデコーディングし、意味ベクトルを取得し、意味ベクトルに基づいて、訂正テキストを取得する。
本開示の実施例に係るテキスト誤り訂正処理方法は、処理対象のテキストを取得し、処理対象のテキストの各文字に対応する複数の処理対象の特徴ベクトルを抽出し、複数の処理対象の特徴ベクトルを処理して、処理対象のベクトルを取得し、処理対象のベクトルをテキスト誤り訂正モデルに入力して処理し、訂正テキストを取得する。これにより、テキスト誤り訂正モデルを用いてテキストに対して誤り訂正処理を行い、テキスト誤り訂正効率及び精度を向上させる。
上記実施例を実現するために、本開示は、テキスト誤り訂正処理装置をさらに提案する。図7は、本開示の第4の実施例に係るテキスト誤り訂正処理装置の概略構成図であり、図7に示すように、当該テキスト誤り訂正処理装置は、第1の取得モジュール701、前処理モジュール702、抽出モジュール703、第2の取得モジュール704及び処理モジュール705を含む。
ここで、第1の取得モジュール701は、元のテキストを取得する。
前処理モジュール702は、元のテキストを前処理してトレーニングテキストを取得する。
抽出モジュール703は、トレーニングテキストの各文字に対応する複数の特徴ベクトルを抽出する。
第2の取得モジュール704は、複数の特徴ベクトルを処理して入力ベクトルを取得する。
処理モジュール705は、入力ベクトルをテキスト誤り訂正モデルに入力してターゲットテキストを取得し、ターゲットテキストと元のテキストとの差に基づいて、テキスト誤り訂正モデルのパラメータを調整する。
本開示の実施例において、前処理モジュール702は、具体的には、前記元のテキストの単語の順序を調整することと、前記元のテキストに単語を追加することと、前記元のテキストの1つ又は複数の単語を削除することと、前記元のテキストのいずれかの単語を前記いずれかの単語に対応するピンインの完全なスペリングに置き換えることと、前記元のテキストのいずれかの単語を前記いずれかの単語に対応するピンインの略語に置き換えることと、前記元のテキストのいずれかの単語を前記いずれかの単語に対応する類似単語又は類似ピンインに対応する単語に置き換えることとのうちの1つ又は組合せを実行する。
本開示の実施例において、抽出モジュール703は、具体的には、前記各文字に対応する五筆コーディングを取得し、前記五筆コーディングにおける各コーディングアルファベットベクトルを加算して完全接続ネットワークに入力し、前記字形特徴ベクトルを取得する。
本開示の実施例において、抽出モジュール703は、具体的には、前記各文字に対応するピンインアルファベットを取得し、前記ピンインアルファベットにおける声母ベクトルと韻母ベクトルを加算して完全接続ネットワークに入力し、前記字音特徴ベクトルを取得する。
本開示の実施例において、処理モジュール705は、具体的には、エンコーダによって前記入力ベクトルをコーディングし、コーディングベクトルを取得し、デコーダによって前記コーディングベクトルをデコーディングし、意味ベクトルを取得し、前記意味ベクトルに基づいて、ターゲットテキストを取得する。
本開示の実施例に係るテキスト誤り訂正処理装置は、元のテキストを取得し、元のテキストを前処理してトレーニングテキストを取得し、トレーニングテキストの各文字に対応する複数の特徴ベクトルを抽出し、複数の特徴ベクトルを処理して入力ベクトルを取得し、入力ベクトルをテキスト誤り訂正モデルに入力してターゲットテキストを取得し、ターゲットテキストと元のテキストとの差に基づいて、テキスト誤り訂正モデルのパラメータを調整する。これにより、元のテキストを前処理してトレーニングテキストを生成し、テキスト誤り訂正モデルをトレーニングすることで、トレーニングテキストの生成効率を向上させるとともに、テキスト誤り訂正モデルが異なる誤りタイプに対して正確に処理できるようにする。
上記実施例を実現するために、本開示は、テキスト誤り訂正処理装置をさらに提案する。図8は、本開示の第5の実施例に係るテキスト誤り訂正処理装置の概略構成図であり、図8に示すように、当該テキスト誤り訂正処理装置は、第3の取得モジュール801、第4の取得モジュール802及び訂正モジュール803を含む。
ここで、第3の取得モジュール801は、処理対象のテキストを取得する。
第4の取得モジュール802は、前記処理対象のテキストの各文字に対応する複数の処理対象の特徴ベクトルを抽出し、前記複数の処理対象の特徴ベクトルを処理して、処理対象のベクトルを取得する。
訂正モジュール803は、前記処理対象のベクトルを前記テキスト誤り訂正モデルに入力して処理し、訂正テキストを取得する。
本開示の実施例に係るテキスト誤り訂正処理装置は、処理対象のテキストを取得し、処理対象のテキストの各文字に対応する複数の処理対象の特徴ベクトルを抽出し、複数の処理対象の特徴ベクトルを処理して、処理対象のベクトルを取得し、処理対象のベクトルをテキスト誤り訂正モデルに入力して処理し、訂正テキストを取得する。これにより、テキスト誤り訂正モデルを用いてテキストに対して誤り訂正処理を行い、テキスト誤り訂正効率及び精度を向上させる。
本開示の実施例によれば、本開示は、電子機器、読み取り可能な記憶媒体及びコンピュータプログラム製品をさらに提供する。
本開示の実施例によれば、本開示は、コンピュータプログラムを提供し、コンピュータプログラムがプロセッサによって実行される場合、本開示によって提供されるテキスト誤り訂正処理方法を実現する。
図9に示すように、本開示の実施例を実現できる例示的な電子機器900の概略ブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタルプロセッサ、携帯電話、スマートフォン、ウェアラブルデバイス、他の同様のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び/又は要求される本開示の実現を制限するものではない。
図9に示すように、機器900は、リードオンリーメモリ(ROM)902に記憶されているコンピュータプログラム、又は記憶ユニット908からランダムアクセスメモリ(RAM)903にロッドされたコンピュータプログラムに基づいて、様々な適切な動作及び処理を実行できる計算ユニット901を含む。RAM903には、機器900の動作に必要な様々なプログラム及びデータも記憶されてもよい。計算ユニット901、ROM902、RAM903は、バス904を介して互いに接続されている。入力/出力(I/O)インタフェース905もバス904に接続されている。
機器900内の複数のコンポーネントは、I/Oインタフェース905に接続され、キーボード、マウスなどの入力ユニット906と、様々なタイプのディスプレイ、スピーカなどの出力ユニット907と、磁気ディスク、光ディスクなどの記憶ユニット908と、ネットワークカード、モデム、無線通信トランシーバなどの通信ユニット909と、を含む。通信ユニット909は、機器900がインタネットなどのコンピュータネットワーク及び/又は様々な電気通信ネットワークを介して他の機器と情報/データを交換することを可能にする。
計算ユニット901は、処理及び計算能力を有する様々な汎用及び/又は専用処理コンポーネントであってもよい。計算ユニット901のいくつかの例は、中央処理ユニット(CPU)、グラフィックス処理ユニット(GPU)、様々な専用人工知能(AI)計算チップ、機械学習モデルアルゴリズムを実行する様々な計算ユニット、デジタルシグナルプロセッサ(DSP)、及びいずれかの適宜なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット901は、上述した各方法及び処理、例えば、テキスト誤り訂正処理方法を実行する。例えば、いくつかの実施例では、テキスト誤り訂正処理方法は、記憶ユニット909のような機械読み取り可能な媒体に有形に含まれるコンピュータソフトウェアプログラムとして実装されてもよい。いくつかの実施例では、コンピュータプログラムの一部又は全部は、ROM902及び/又は通信ユニット909を介して機器900にロッド及び/又はインストールすることができる。コンピュータプログラムがRAM903にロッドされ、計算ユニット901によって実行される場合、上述したテキスト誤り訂正処理方法の1つ又は複数のステップを実行することができる。選択的に、他の実施例では、計算ユニット901は、テキスト誤り訂正処理方法を実行するように、他の任意の適切な形態で(例えば、ファーとウェアを介する)構成されてもよい。
本明細書で上述したシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、コンプレックス・プログラマブル・ロジック・デバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア及び/又はそれらの組合せで実現されてもよい。これらの様々な実施形態は、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行及び/又は解釈されることができる1つ又は複数のコンピュータプログラムで実現されてもよく、当該プログラマブルプロセッサは、専用及び/又は汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、当該記憶システム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置にデータ及び命令を伝送することができる。
本開示の方法を実施するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせで書くことができる。これらのプログラムコードは、プロセッサ又はコントローラによって実行されると、フローチャート及び/又はブロック図に規定された機能/動作が実施されるように、汎用コンピュータ、専用コンピュータ、又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されてもよい。プログラムコードは、完全に機械上で実行されてもよく、部分的に機械上で実行されてもよく、スタンドアロンパッケージとして、部分的に機械上で実行され、かつ部分的にリモート機械上で実行されるか、又は完全にリモート機械又はサーバ上で実行されてもよい。
本開示の文脈では、機械読み取り可能な媒体は、命令実行システム、装置、又は機器によって使用されるために、又は命令実行システム、装置、又は機器と組み合わせて使用するためのプログラムを含むか、又は記憶することが可能な有形媒体であってもよい。機械読み取り可能な媒体は、機械読み取り可能な信号媒体又は機械読み取り可能な記憶媒体であってもよい。機械読み取り可能な媒体は、電子的、磁気的、光学的、電磁気的、赤外線的、又は半導体システム、装置又は機器、又はこれらの任意の適切な組み合わせを含むことができるが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は、1つ又は複数のワイヤによる電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能プログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスクリードオンリーメモリ(CD-ROM)、光学記憶機器、磁気記憶機器、又はこれらの任意の適切な組み合わせを含む。
ユーザとのインタラクションを提供するために、ここで説明されているシステム及び技術をコンピュータ上で実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形式(音響入力と、音声入力と、触覚入力とを含む)でユーザからの入力を受信することができる。
ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータであり、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションする)、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施することができる。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットと、ブロックチェーンネットワークとを含む。
コンピュータシステムは、クライアントとサーバとを含むことができる。クライアントとサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、且つ互いにクライアント-サーバ関係を有するコンピュータプログラムによって、クライアントとサーバとの関係が生成される。サーバは、クラウドコンピューティングサーバ又はクラウドホストとも呼ばれるクラウドサーバであってもよく、従来の物理ホスト及びVPSサービス(「Virtual Private Server」、又は「VPS」と略称する)における、管理難度が大きく、ビジネスの拡張性が低いという欠点を解決するクラウドコンピューティングサービスシステムのホスト製品の1つである。
上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除することができる。例えば、本開示に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本開示で開示されている技術案が所望の結果を実現することができれば、本明細書では限定しない。
上記の具体的な実施形態は、本開示の保護範囲を制限するものではない。当業者は、設計要件と他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション、及び代替を行うことができる。本開示の精神と原則内で行われる任意の修正、同等の置換、及び改善などは、いずれも本開示の保護範囲内に含まれるべきである。

Claims (16)

  1. テキスト誤り訂正処理方法であって、
    元のテキストを取得し、前記元のテキストを前処理してトレーニングテキストを取得するステップと、
    前記トレーニングテキストの各文字に対応する複数の特徴ベクトルを抽出し、前記複数の特徴ベクトルを処理して入力ベクトルを取得するステップと、
    前記入力ベクトルをテキスト誤り訂正モデルに入力してターゲットテキストを取得し、前記ターゲットテキストと前記元のテキストとの差に基づいて、前記テキスト誤り訂正モデルのパラメータを調整するステップと、を含む、
    ことを特徴とするテキスト誤り訂正処理方法。
  2. 前記元のテキストを前処理するステップは、
    前記元のテキストの単語の順序を調整するステップと、
    前記元のテキストに単語を追加するステップと、
    前記元のテキストの1つ又は複数の単語を削除するステップと、
    前記元のテキストのいずれかの単語を前記いずれかの単語に対応するピンインの完全なスペリングに置き換えるステップと、
    前記元のテキストのいずれかの単語を前記いずれかの単語に対応するピンインの略語に置き換えるステップと、
    前記元のテキストのいずれかの単語を前記いずれかの単語に対応する類似単語又は類似ピンインに対応する単語に置き換えるステップとのうちの1つ又は組合せを含む、
    ことを特徴とする請求項1に記載の方法。
  3. 前記各文字に対応する特徴ベクトルを抽出するステップは、
    前記各文字に対応する五筆コーディングを取得するステップと、
    前記五筆コーディングにおける各コーディングアルファベットベクトルを加算して完全接続ネットワークに入力し、字形特徴ベクトルを取得するステップと、を含む、
    ことを特徴とする請求項1に記載の方法。
  4. 前記各文字に対応する特徴ベクトルを抽出するステップは、
    前記各文字に対応するピンインアルファベットを取得するステップと、
    前記ピンインアルファベットにおける声母ベクトルと韻母ベクトルを加算して完全接続ネットワークに入力し、字音特徴ベクトルを取得するステップと、を含む、
    ことを特徴とする請求項1に記載の方法。
  5. 前記入力ベクトルをテキスト誤り訂正モデルに入力してターゲットテキストを取得するステップは、
    エンコーダによって前記入力ベクトルをコーディングして、コーディングベクトルを取得するステップと、
    デコーダによって前記コーディングベクトルをデコーディングして、意味ベクトルを取得するステップと、
    前記意味ベクトルに基づいて、ターゲットテキストを取得するステップと、を含む、
    ことを特徴とする請求項1~4のいずれかに記載の方法。
  6. 前記テキスト誤り訂正モデルのパラメータを調整するステップの後に、
    処理対象のテキストを取得するステップと、
    前記処理対象のテキストの各文字に対応する複数の処理対象の特徴ベクトルを抽出し、前記複数の処理対象の特徴ベクトルを処理して、処理対象のベクトルを取得するステップと、
    前記処理対象のベクトルを前記テキスト誤り訂正モデルに入力して処理し、訂正テキストを取得するステップと、をさらに含む、
    ことを特徴とする請求項1~4のいずれかに記載の方法。
  7. テキスト誤り訂正処理装置であって、
    元のテキストを取得するための第1の取得モジュールと、
    前記元のテキストを前処理してトレーニングテキストを取得するための前処理モジュールと、
    前記トレーニングテキストの各文字に対応する複数の特徴ベクトルを抽出するための抽出モジュールと、
    前記複数の特徴ベクトルを処理して入力ベクトルを取得するための第2の取得モジュールと、
    前記入力ベクトルをテキスト誤り訂正モデルに入力してターゲットテキストを取得し、前記ターゲットテキストと前記元のテキストとの差に基づいて、前記テキスト誤り訂正モデルのパラメータを調整するための処理モジュールと、を含む、
    ことを特徴とするテキスト誤り訂正処理装置。
  8. 前記前処理モジュールが、
    前記元のテキストの単語の順序を調整することと、
    前記元のテキストに単語を追加することと、
    前記元のテキストの1つ又は複数の単語を削除することと、
    前記元のテキストのいずれかの単語を前記いずれかの単語に対応するピンインの完全なスペリングに置き換えることと、
    前記元のテキストのいずれかの単語を前記いずれかの単語に対応するピンインの略語に置き換えることと、
    前記元のテキストのいずれかの単語を前記いずれかの単語に対応する類似単語又は類似ピンインに対応する単語に置き換えることとのうちの1つ又は組合せを実行する、
    ことを特徴とする請求項7に記載の装置。
  9. 前記抽出モジュールが、
    前記各文字に対応する五筆コーディングを取得し、
    前記五筆コーディングにおける各コーディングアルファベットベクトルを加算して完全接続ネットワークに入力し、前記字形特徴ベクトルを取得する、
    ことを特徴とする請求項7に記載の装置。
  10. 前記抽出モジュールが、
    前記各文字に対応するピンインアルファベットを取得し、
    前記ピンインアルファベットにおける声母ベクトルと韻母ベクトルを加算して完全接続ネットワークに入力し、前記字音特徴ベクトルを取得する、
    ことを特徴とする請求項7に記載の装置。
  11. 前記処理モジュールが、
    エンコーダによって前記入力ベクトルをコーディングして、コーディングベクトルを取得し、
    デコーダによって前記コーディングベクトルをデコーディングして、意味ベクトルを取得し、
    前記意味ベクトルに基づいて、ターゲットテキストを取得する、
    ことを特徴とする請求項7~10のいずれかに記載の装置。
  12. 処理対象のテキストを取得するための第3の取得モジュールと、
    前記処理対象のテキストの各文字に対応する複数の処理対象の特徴ベクトルを抽出し、前記複数の処理対象の特徴ベクトルを処理して、処理対象のベクトルを取得するための第4の取得モジュールと、
    前記処理対象のベクトルを前記テキスト誤り訂正モデルに入力して処理し、訂正テキストを取得するための訂正モジュールと、をさらに含む、
    ことを特徴とする請求項7~10のいずれかに記載の装置。
  13. 電子機器であって、
    少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサに通信可能に接続されるメモリと、を含み、
    前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも1つのプロセッサが請求項1~6のいずれかに記載のテキスト誤り訂正処理方法を実行できるように、少なくとも1つのプロセッサによって実行される、
    ことを特徴とする電子機器。
  14. コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
    前記コンピュータ命令は、コンピュータに請求項1~6のいずれかに記載のテキスト誤り訂正処理方法を実行させる、
    ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。
  15. コンピュータプログラムを含むコンピュータプログラム製品であって、
    前記コンピュータプログラムがプロセッサによって実行される場合、請求項1~6のいずれかに記載のテキスト誤り訂正処理方法を実現する、
    ことを特徴とするコンピュータプログラム製品。
  16. コンピュータプログラムであって、
    前記コンピュータプログラムがプロセッサによって実行される場合、請求項1~6のいずれかに記載のテキスト誤り訂正処理方法を実現する、
    ことを特徴とするコンピュータプログラム。
JP2021193157A 2020-12-22 2021-11-29 テキスト誤り訂正処理方法、装置、電子機器及び記憶媒体 Active JP7366984B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202011533483.3A CN112597753A (zh) 2020-12-22 2020-12-22 文本纠错处理方法、装置、电子设备和存储介质
CN202011533483.3 2020-12-22

Publications (2)

Publication Number Publication Date
JP2022028887A true JP2022028887A (ja) 2022-02-16
JP7366984B2 JP7366984B2 (ja) 2023-10-23

Family

ID=75200328

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021193157A Active JP7366984B2 (ja) 2020-12-22 2021-11-29 テキスト誤り訂正処理方法、装置、電子機器及び記憶媒体

Country Status (3)

Country Link
US (1) US20210397780A1 (ja)
JP (1) JP7366984B2 (ja)
CN (1) CN112597753A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023100291A1 (ja) * 2021-12-01 2023-06-08 日本電信電話株式会社 言語処理装置、言語処理方法、及びプログラム

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113192497B (zh) * 2021-04-28 2024-03-01 平安科技(深圳)有限公司 基于自然语言处理的语音识别方法、装置、设备及介质
CN113255330B (zh) * 2021-05-31 2021-09-24 中南大学 一种基于字符特征分类器与软输出的中文拼写检查方法
CN113536776B (zh) * 2021-06-22 2024-06-14 深圳价值在线信息科技股份有限公司 混淆语句的生成方法、终端设备及计算机可读存储介质
CN113343678A (zh) * 2021-06-25 2021-09-03 北京市商汤科技开发有限公司 一种文本纠错的方法、装置、电子设备及存储介质
CN113535975A (zh) * 2021-06-29 2021-10-22 南京中新赛克科技有限责任公司 一种基于汉字知识图谱的多维度智能纠错方法
CN113255332B (zh) * 2021-07-15 2021-12-24 北京百度网讯科技有限公司 文本纠错模型的训练与文本纠错方法、装置
CN113591440B (zh) * 2021-07-29 2023-08-01 百度在线网络技术(北京)有限公司 一种文本处理方法、装置及电子设备
CN114118065B (zh) * 2021-10-28 2024-06-25 国网江苏省电力有限公司电力科学研究院 一种电力领域中文文本纠错方法、装置、存储介质及计算设备
CN114218940B (zh) * 2021-12-23 2023-08-04 北京百度网讯科技有限公司 文本信息处理、模型训练方法、装置、设备及存储介质
CN114417834A (zh) * 2021-12-24 2022-04-29 深圳云天励飞技术股份有限公司 文本的处理方法、装置、电子设备及可读存储介质
CN114676251A (zh) * 2022-03-15 2022-06-28 青岛海尔科技有限公司 分类模型确定方法、装置、设备及存储介质
CN114550185B (zh) * 2022-04-19 2022-07-19 腾讯科技(深圳)有限公司 一种文档生成的方法、相关装置、设备以及存储介质
CN114896965B (zh) * 2022-05-17 2023-09-12 马上消费金融股份有限公司 文本纠正模型训练方法及装置、文本纠正方法及装置
CN115062611B (zh) * 2022-05-23 2023-05-05 广东外语外贸大学 一种语法纠错模型的训练方法、装置、设备及存储介质
CN114970503A (zh) * 2022-05-30 2022-08-30 哈尔滨工业大学 一种基于预训练的字音字形知识增强的中文拼写纠正方法
CN115270770B (zh) * 2022-07-08 2023-04-07 名日之梦(北京)科技有限公司 基于文本数据的纠错模型的训练方法及装置
CN115268664B (zh) * 2022-08-01 2024-08-09 腾讯科技(深圳)有限公司 一种纠错词展示的控制方法、装置、设备以及存储介质
CN115270771B (zh) * 2022-10-08 2023-01-17 中国科学技术大学 细粒度自适应字音预测任务辅助的中文拼写纠错方法
CN116306596B (zh) * 2023-03-16 2023-09-19 北京语言大学 一种结合多重特征进行中文文本拼写检查的方法及装置
CN118395960A (zh) * 2023-03-29 2024-07-26 比亚迪股份有限公司 文本增强、模型训练方法、装置、电子设备及存储介质
CN116415569B (zh) * 2023-04-14 2024-08-13 华润数字科技有限公司 文本纠错方法和装置、设备及存储介质
CN116306598B (zh) * 2023-05-22 2023-09-08 上海蜜度信息技术有限公司 针对不同领域字词的定制化纠错方法、系统、设备及介质
CN116991874B (zh) * 2023-09-26 2024-03-01 海信集团控股股份有限公司 一种文本纠错、基于大模型的sql语句生成方法及设备
CN117174084B (zh) * 2023-11-02 2024-05-31 摩尔线程智能科技(北京)有限责任公司 一种训练数据构建方法及装置、电子设备和存储介质
CN117828007B (zh) * 2024-01-02 2024-08-23 长江勘测规划设计研究有限责任公司 基于自然语言处理的建设征地移民档案管理方法及系统
CN118228722B (zh) * 2024-04-15 2024-09-24 长春职业技术学院 基于知识库的中文文本自动校错系统及方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190370323A1 (en) * 2018-06-01 2019-12-05 Apple Inc. Text correction

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5555317A (en) * 1992-08-18 1996-09-10 Eastman Kodak Company Supervised training augmented polynomial method and apparatus for character recognition
US6014615A (en) * 1994-08-16 2000-01-11 International Business Machines Corporaiton System and method for processing morphological and syntactical analyses of inputted Chinese language phrases
US20020146810A1 (en) * 1999-12-23 2002-10-10 Pranela Rameshwar Human preprotachykinin gene promoter
US7774193B2 (en) * 2006-12-05 2010-08-10 Microsoft Corporation Proofing of word collocation errors based on a comparison with collocations in a corpus
WO2011143827A1 (en) * 2010-05-21 2011-11-24 Google Inc. Input method editor
CN104412203A (zh) * 2012-06-29 2015-03-11 微软公司 跨语言输入法编辑器
CN107451106A (zh) * 2017-07-26 2017-12-08 阿里巴巴集团控股有限公司 文本纠正方法及装置、电子设备
CN107678561A (zh) * 2017-09-29 2018-02-09 百度在线网络技术(北京)有限公司 基于人工智能的语音输入纠错方法及装置
CN108874174B (zh) * 2018-05-29 2020-04-24 腾讯科技(深圳)有限公司 一种文本纠错方法、装置以及相关设备
CN111523306A (zh) * 2019-01-17 2020-08-11 阿里巴巴集团控股有限公司 文本的纠错方法、装置和系统
CN110162785B (zh) * 2019-04-19 2024-07-16 腾讯科技(深圳)有限公司 数据处理方法和代词消解神经网络训练方法
CN110489760B (zh) * 2019-09-17 2023-09-22 达观数据有限公司 基于深度神经网络文本自动校对方法及装置
CN111382260A (zh) * 2020-03-16 2020-07-07 腾讯音乐娱乐科技(深圳)有限公司 一种检索文本纠错方法、装置和存储介质
CN112001169B (zh) * 2020-07-17 2022-03-25 北京百度网讯科技有限公司 文本纠错的方法、装置、电子设备和可读存储介质
CN111862977B (zh) * 2020-07-27 2021-08-10 北京嘀嘀无限科技发展有限公司 一种语音对话处理方法和系统
CN111985213B (zh) * 2020-09-07 2024-05-28 科大讯飞华南人工智能研究院(广州)有限公司 一种语音客服文本纠错的方法和装置
CN111931490B (zh) * 2020-09-27 2021-01-08 平安科技(深圳)有限公司 文本纠错方法、装置及存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190370323A1 (en) * 2018-06-01 2019-12-05 Apple Inc. Text correction

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BO ZHENG 他3名: "Chinese Grammatical Error Diagnosis with Long Short-Term Memory Networks", PROCEEDINGS OF THE 3RD WORKSHOP ON NATURAL LANGUAGE PROCESSING TECHNIQUES FOR EDUCATIONAL APPLICATIO, JPN6022042020, 12 December 2016 (2016-12-12), pages 49 - 56, ISSN: 0004889581 *
YI WANG 他6名: "Chinese Grammatical Error Correction Based on Hybrid Models with Data Augumentation", PROCEEDINGS OF THE 6TH WORKSHOP ON NATURAL LANGUAGE PROCESSING TECHNIQUES FOR EDUCATIONAL APPLICATIO, JPN6022042019, 4 December 2020 (2020-12-04), pages 78 - 86, ISSN: 0004889580 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023100291A1 (ja) * 2021-12-01 2023-06-08 日本電信電話株式会社 言語処理装置、言語処理方法、及びプログラム

Also Published As

Publication number Publication date
US20210397780A1 (en) 2021-12-23
JP7366984B2 (ja) 2023-10-23
CN112597753A (zh) 2021-04-02

Similar Documents

Publication Publication Date Title
JP7366984B2 (ja) テキスト誤り訂正処理方法、装置、電子機器及び記憶媒体
US11769480B2 (en) Method and apparatus for training model, method and apparatus for synthesizing speech, device and storage medium
US11488577B2 (en) Training method and apparatus for a speech synthesis model, and storage medium
JP7312799B2 (ja) 情報抽出方法、抽出モデル訓練方法、装置及び電子機器
CN111078865B (zh) 文本标题生成方法和装置
CN112633017B (zh) 翻译模型训练、翻译处理方法、装置、设备和存储介质
JP7413630B2 (ja) 要約生成モデルの訓練方法、装置、デバイス及び記憶媒体
CN112489637A (zh) 语音识别方法和装置
JP2023012522A (ja) クロスモーダル情報に基づく文書読解モデルトレーニング方法及び装置
US20210326538A1 (en) Method, apparatus, electronic device for text translation and storage medium
US20220068265A1 (en) Method for displaying streaming speech recognition result, electronic device, and storage medium
US20220375453A1 (en) Method and apparatus for speech synthesis, and storage medium
EP4170542A2 (en) Method for sample augmentation
JP2023007373A (ja) 意図識別モデルの訓練及び意図識別の方法及び装置
US20240202499A1 (en) Element text processing method and apparatus, electronic device, and storage medium
JP2023062150A (ja) 文字認識モデルトレーニング、文字認識方法、装置、機器及び媒体
CN110728156A (zh) 翻译方法、装置、电子设备及可读存储介质
US20240153484A1 (en) Massive multilingual speech-text joint semi-supervised learning for text-to-speech
CN111667828B (zh) 语音识别方法和装置、电子设备和存储介质
US20230153550A1 (en) Machine Translation Method and Apparatus, Device and Storage Medium
CN115357710B (zh) 表格描述文本生成模型的训练方法、装置及电子设备
JP7204861B2 (ja) 中国語と英語の混在音声の認識方法、装置、電子機器及び記憶媒体
Singh et al. An integrated model for text to text, image to text and audio to text linguistic conversion using machine learning approach
CN113204966A (zh) 语料增广方法、装置、设备及存储介质
CN112100335A (zh) 问题生成方法、模型训练方法、装置、设备和存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211129

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220930

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221004

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221228

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230411

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230814

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20230817

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230926

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231011

R150 Certificate of patent or registration of utility model

Ref document number: 7366984

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150