JP7286737B2 - テキスト誤り訂正方法、装置、電子デバイス、記憶媒体及びプログラム - Google Patents

テキスト誤り訂正方法、装置、電子デバイス、記憶媒体及びプログラム Download PDF

Info

Publication number
JP7286737B2
JP7286737B2 JP2021184446A JP2021184446A JP7286737B2 JP 7286737 B2 JP7286737 B2 JP 7286737B2 JP 2021184446 A JP2021184446 A JP 2021184446A JP 2021184446 A JP2021184446 A JP 2021184446A JP 7286737 B2 JP7286737 B2 JP 7286737B2
Authority
JP
Japan
Prior art keywords
phrase
error correction
current
word
processor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021184446A
Other languages
English (en)
Other versions
JP2022091121A (ja
Inventor
ジャン,ルイキン
ジャン,チャンキアン
フー,ゾンジュン
リー,ジー
ウー,フア
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2022091121A publication Critical patent/JP2022091121A/ja
Application granted granted Critical
Publication of JP7286737B2 publication Critical patent/JP7286737B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Description

本開示はコンピュータ技術分野に関し、特に自然言語処理及びディープラーニング等の人工知能技術分野に関し、具体的にはテキスト誤り訂正方法、装置、電子デバイス、記憶媒体及びプログラムに関する。
自然言語処理(Natural Language Processing;NLP)はコンピュータ科学分野と人工知能分野における重要な方向である。
テキストの誤り訂正はNLPの基本的な問題であり、通常、テキスト検索、テキスト分類、機械翻訳、シーケンス標識などの他のNLPタスクに先行することで、入力テキストの有効性を高め、スペルミスによる悪影響を防ぐことができる。現在主流となっているテキスト誤り訂正の原理は、1つのテキストを語句の粒度で分割することである。分割後の各語句については、カスケード方式で誤り訂正を行う。例えば、最初に誤り検出を行い、即ちその語句の中でどの文字が誤りであるかを検出し、次に誤りの候補を生成し、すなわち、検出された誤字ごとに、正しい可能性のある候補文字を生成し、最後に候補抽出を行い、即ち生成された候補文字ごとに最終的な正解文字を抽出する。
本開示は、テキスト誤り訂正方法、装置、電子デバイス、記憶媒体及びプログラムを提供する。
第1の態様によれば、現在語句と、前記現在語句の所属の文章における履歴語句とを取得し、前記現在語句と前記履歴語句とに基づいて、前記現在語句に対してテキスト誤り訂正処理を行うことを含むテキスト誤り訂正方法が提供される。
第2の態様によれば、現在語句と、前記現在語句の所属の文章における履歴語句とを取得する取得モジュールと、前記現在語句と前記履歴語句とに基づいて、前記現在語句に対してテキスト誤り訂正処理を行う誤り訂正モジュールとを備えるテキスト誤り訂正装置が提供される。
第3の態様によれば、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサと通信可能に接続されたメモリとを備え、前記メモリに前記少なくとも1つのプロセッサにより実行可能なコマンドが記憶されており、前記コマンドが前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに前記方法を実行させる電子デバイスが提供される。
第4の態様によれば、コンピュータに前記方法を実行させるためのコンピュータコマンドを記憶する非一時的なコンピュータ可読記憶媒体が提供される。
本開示の技術によれば、現在語句の文章における履歴語句である上文情報に基づいて、現在語句のテキスト誤り訂正を行うことができるため、誤り訂正情報が豊富になり、誤り訂正結果がより正確になる。
ここで説明される内容は、本開示の実施形態の肝心なまたは重要な特徴を識別することを意図しておらず、本開示の範囲を制限することを意図していないことが理解されるべきである。本開示の他の特徴は、以下の明細書により容易に理解されるであろう。
図面は、本技術案をより良く理解するためのものであり、本開示に制限されない。図面において、
本開示の第1実施形態に係る模式図である。 本開示の第2実施形態に係る模式図である。 本開示の第3実施形態に係る模式図である。 本開示のテキスト誤り訂正方法における符号化原理の模式図である。 本開示の第4実施形態に係る模式図である。 本開示の第5実施形態に係る模式図である。 本開示の実施形態のテキスト誤り訂正方法を実施するための電子デバイスのブロック図である。
以下、図面に基づいて、本開示の例示的な実施例を説明する。理解を容易にするために、本開示の実施例の様々な詳細が含まれており、それらは単なる例示と見なされるべきである。従って、当業者は、本開示の範囲及び精神から逸脱することなく、本明細書に記載の実施形態に対して様々な変更及び修正を行うことができることを認識するはずである。同様に、簡明のために、以下の説明では、よく知られた機能と構造の説明は省略される。
図1は本開示の第1実施形態に係る模式図である。図1に示すように、本実施形態はテキスト誤り訂正方法を提供し、具体的には以下のステップを含むことができる。
S101において、現在語句と、現在語句の所属の文章における履歴語句とを取得する。
S102において、現在語句と履歴語句とに基づいて、現在語句に対してテキスト誤り訂正処理を行う。
本実施形態のテキスト誤り訂正方法の実行主体は、テキスト誤り訂正装置であって良い。当該テキスト誤り訂正装置は、1つの実体の電子装置であってもよく、ソフトウェア統合のアプリケーションであってもよい。適用される場合に、現在語句と、現在語句と同じ文章に属する履歴語句とに基づいて、現在語句のテキスト誤り訂正処理を行うことができる。
本実施例の履歴語句は、文章における現在語句よりも前のすべての語句であり、あるいは文章が特に長い場合には、文章における現在語句よりも前の最も近い連続のN個の語句を取ってもよい。例えば、ここでのNは、実際の必要に応じて8、10、20、その他の正整数を取ってもよいが、ここでは詳しく挙げない。ここで、この履歴語句は、文章における現在語句の上文にあるため、現在語句の上文情報と呼ぶこともできる。
以上のことからわかるように、好適には、本実施形態の現在語句は1つの文章の先頭語句ではいけない。文章の先頭語句には上文情報がないため、本実施形態の技術案を採用して、履歴語句と現在語句とに基づいて現在語句のテキスト誤り訂正処理を行うことはできない。また、実際の応用において、現在語句を現在語句として使用することもできる。この場合に履歴語句はヌルに設定すれば良い。
例えば、以下の表1の語句を例として、本実施形態の技術案を説明する。
Figure 0007286737000001
上記表1におけるS3は現在語句、S1とS2は現在語句の履歴語句である。第1行はソーステキスト、第2行は本実施例の技術案による誤り訂正後のテキストである。既存の技術案により、履歴語句を参照せずに誤り訂正を行う場合に、現在語句であるS3「口が有利か確認しよ」を単独で解析すると、その語句が間違っているかどうかは判断できず、誤りを訂正する必要がある。一方、本実施形態の技術案を採用する場合には、S1「大変よね」とS2「この早口言葉は、口を開けることですね」とを参照した上で、現在語句であるS3「口が有利か確認しよ」を解析する。この場合に、現在語句を誤り訂正することができ、例えば前記の表1のように、誤り訂正時にS3における「有利」を「流暢」に変更可能である。
本実施形態のテキスト誤り訂正方法は、現在語句と、現在語句の所属の文章における履歴語句とを取得し、現況語句と履歴語句とに基づいて現在語句のテキスト誤り訂正処理を行うことにより、現在語句の文章における履歴語句である上文情報に基づいて現在語句のテキスト誤り訂正を行うことができるため、誤り訂正情報が豊富になり、誤り訂正結果がより正確になる。
図2は本開示の第2実施形態に係る模式図である。図2に示すように、本実施形態のテキスト誤り訂正方法は、前記図1に示す実施形態の技術案を基に、本開示の技術案をさらに詳細に説明する。図2に示すように、本実施形態のテキスト誤り訂正方法は、具体的には以下のステップを含むことができる。
S201において、現在語句と、現在語句の所属の文章における履歴語句を取得する。
S202において、現在語句と現在語句の所属の文章における履歴語句に基づいて符号化を行い、現在語句に対応する誤り訂正語句を取得する。
S203において、誤り訂正語句と現在語句とが一致するか否かを検出し、一致しない場合にステップS204を実行し、一致すれば、現在語句に誤り訂正が必要ないと判断して終了する。
S204において、現在語句を誤り訂正語句で置き換えて終了する。
本実施形態のステップS202~S204は、前記図1に示した実施形態のステップS102の一実施形態である。
本実施形態では、文章中のいずれかの現在語句を例にしてテキスト誤り訂正処理を行う。実際の応用では、本実施形態の技術案によれば、文章中の各語句を現在語句としてテキスト誤り訂正処理を行うことで、文章の先頭語句以外のすべての語句に対してテキスト誤り訂正処理を行うことが可能となる。
また、オプションとして、本実施形態のステップS202~S204は、実現の過程において、現在語句及び履歴語句に基づいて、予め訓練されたテキスト誤り訂正モデルを用いて、現在語句に対してテキスト誤り訂正処理を行うことができる。
例えば、テキスト誤り訂正モデルを用いてテキスト誤り訂正処理を行う場合、テキスト誤り訂正モデルには、現在語句と、現在語句に対応する履歴語句とが入力される。テキスト誤り訂正モデルの内部において、現在語句と、現在語句の所属の文章における履歴語句とに基づいて符号化し、現在語句に対応する誤り訂正語句を取得することができる。そして、誤り訂正語句と現在語句とを比較して、両者が一致するか否かを判断し、一致しない場合に現在語句に誤り訂正が必要と判断し、現在語句を直接に誤り訂正語句で置き換えればよい。さもなければ、両者が一致すれば、現在語句に誤り訂正が必要ないと判断する。オプションとして、上記の技術案は、テキスト誤り訂正モデルから独立して実現されてもよく、実現原理は同じであるため、ここでは再度言及しない。
本実施形態のテキスト誤り訂正方法は、上記の技術案を採用することにより、現在語句の文章における履歴語句である上文情報に基づいて、現在語句に対するテキスト誤り訂正を行うことができるため、誤り訂正情報がより豊富になり、誤り訂正結果がより正確になる。また、本実施形態のテキスト誤り訂正方案は、予め訓練されたテキスト誤り訂正モデルに基づいて実現することができるため、テキスト誤り訂正の知能性及び正確性をさらに向上させることができる。
図3は本開示の第3実施形態に係る模式図である。図3に示すように、本実施形態のテキスト誤り訂正方法は、前記図2に示す実施形態の技術案を基に、本開示の技術案をさらに詳細に説明する。図3に示すように、本実施形態のテキスト誤り訂正方法は、具体的には以下のステップを含むことができる。
S301において、文章における各語句を前から順に、文章におけるテキスト誤り訂正が未実行の現在語句と、現在語句の所属の文章における履歴語句とを取得する。
本実施例の現在語句が文章中の先頭語句である場合、履歴語句はヌルである。現在語句が先頭語句以外の語句である場合、履歴語句は文章における現在語句より前のすべての語句である。具体的には、前から順に各語句を現在語句として順次取得し、本実施形態の技術案に従ってテキスト誤り訂正を行う。
S302において、現在語句の特徴表現を取得する。
例えば、オプションとして、このステップからステップS309までのテキスト誤り訂正の実行プロセスは、何れも事前に訓練されたテキスト誤り訂正モデルを使用して実施されてよい。この場合、ステップS301で取得された現在語句および履歴語句をテキスト誤り訂正モデルに入力してよい。
具体的には、現在語句における各文字に基づいてベクトル表現を行い、例えば1×dというベクトルとして表現可能である。現在語句におけるT個の文字について、T×dという行列として表現される現在語句の特徴を取得することができる。説明すべきなのは、各文字のベクトル表現に使用されるネットワークパラメータもこのテキスト誤り訂正モデルの事前訓練時に決定される。
S303において、履歴語句の状態特徴表現を取得する。
本実施例では、履歴語句が十分に長く含まれる語句が多いことを考慮した上で、履歴語句の状態特徴表現を1×dというベクトルで標識することができる。具体的には、再帰畳み込みニューラルネットワークを用いて履歴語句を符号化して履歴語句の状態特徴表現を得ることができる。
S304において、現在語句の特徴表現と履歴語句の状態特徴表現とに基づいて符号化を行って符号化結果を取得する。
本実施形態では、現在語句の特徴表現と履歴語句の状態特徴表現とに基づいて符号化を行う過程で、履歴語句の状態特徴表現と現在語句の特徴表現とをスプライシングして(1+T)×dという行列を得ることができる。そして、この行列をエンコーダ(Encoder)を用いて符号化し、符号化結果を得て出力することができる。この符号化結果も(1+T)×dという行列である。例えば、本実施形態のエンコーダはTransformerエンコーダを用いることができる。
S305において、符号化結果に基づいて、現在語句に対応する誤り訂正語句を取得する。
たとえば、上記の符号化結果である(1+T)×dという行列では、最初の位置が履歴語句の状態特徴表現の符号化結果である。その後のT個の位置は現在語句の特徴表現の符号化結果である。そして、その後のT個の位置の符号化結果の後にフルリンクfcorrを接続して単語ごとの誤り訂正を行い、語句に対応する誤り訂正語句を得る。
本実施形態のステップS302~S305は、上述した図2に示す実施形態のステップS202の一実施形態である。
S306において、誤り訂正語句と現在語句とが一致しているかどうかを検出し、一致しない場合にステップS307を実行し、一致である場合にステップS311を実行し、終了する。
S307において、現在語句を誤り訂正語句で置き換え、ステップS308を実行する。
S308において、現在語句が文章中の最後の語句であるか否かを判断し、肯定の場合に終了し、否定の場合にステップS309を実行する。
S309において、置き換えられた現在語句の特徴表現を取得し、ステップS310を実行する。
S310において、置き換えられた現在語句の特徴表現と履歴語句の状態特徴表現とを用いて、次の現在語句の履歴語句の状態特徴表現を更新し、ステップS301に戻ってテキスト誤り訂正を継続する。
S311において、現在語句が文章中の最後の語句であるか否かを判断し、肯定の場合に終了し、否定の場合にステップS312を実行する。
S312において、現在語句の特徴表現と履歴語句の状態特徴表現とを用いて、次の現在語句の履歴語句の状態特徴表現を更新し、ステップS301に戻ってテキスト誤り訂正を継続する。
例えば、図4は、本開示のテキスト誤り訂正方法における符号化原理の模式図である。図4に示すように、上記表1のソーステキストを例にする。ここで、S3は文章におけるいずれかの現在語句、S1およびS2は現在語句S3の履歴語句である。
なお、ステップS304の実行手順は、以下の式(1)で示されて良い。
Figure 0007286737000002
ここで、Encoder(Ci-1,Si)は、現在語句Siと履歴語句Ci-1とに基づいて符号化を行うことを示す。上記実施形態で示したように、具体的に、現在語句Siの特徴表現と履歴語句Ci-1の状態特徴表現とに基づいて符号化を行い、その後に符号化結果の最後のTビットを取り、全連結fcorr処理を用いて現在語句の誤り訂正語句Si’を得る。ここで、Ci-1∈Rdであり、履歴語句Ci-1の状態特徴表現が1×d次元のベクトルで表現されると示し、Si∈RT×dであり、現在語句Siの特徴表現がT×d次元の行列で表現されると示す。
次に、誤り訂正語句と現在語句とが一致するか否かを更に検出し、一致しない場合は、次の式(2)を用いて誤り訂正処理を行う。
Figure 0007286737000003
図4に示すように、現在語句S3「口が有利か確認しよ」に対して誤り訂正を行って「口が流暢か確認しよ」というS3’が得られる。即ち、それに対応してS3←S3’を採用する。
さらに、現在語句に続く次の語句についてもさらに誤り訂正を行う必要があるので、それに応じて履歴語句も更新する必要がある。この場合に応じてS4が出現する。この場合に応じて、S1、S2およびS3を現在語句S4の履歴語句とする。このように現在語句S4の誤り訂正を実現する。
具体的には、履歴語句の状態特徴表現の更新は、次の式(3)で表すことができる。
Figure 0007286737000004
たとえば、Encoder(エンコーダ)の最終層の1番目の位置を、Siが読取られた履歴語句の状態特徴表現として使用してCiを更新することができる。つまり、fsの実現は、Encoder(Ci-1,Si)[1,:]のように定義される。
説明すべきなのは、現在語句Siにテキスト誤り訂正が発生していない場合、上記式(3)で次の現在語句Si+1の履歴語句Ciの状態特徴表現を更新する際に採用されるSiは式(1)と同じである。一方、現在語句Siにテキスト誤り訂正が発生した場合には、それに応じて式(2)で誤り訂正置換が行われており、この場合に式(3)におけるSiは上記式(1)のSi’である。
また、説明すべきなのは、上記実施形態におけるテキスト誤り訂正モデルはニューラルネットワークモデルである。このモデルはエンドツーエンドのモデルであってもよく、使用する際には、ステップS301で取得した現在語句および履歴語句を入力すればよい。それに応じて、出力に誤り訂正語句および更新された次の現在語句の履歴語句の状態特徴表現を設定して良い。あるいは、オプションとして、この更新された次の現在語句の履歴語句の状態特徴表現を外部出力せずに、次の現在語句のテキスト誤り訂正時に直接に呼び出せれば良い。また、説明すべきなのは、このテキスト誤り訂正モデルは、使用前に事前訓練を受ける必要がある。事前訓練のプロセスは、上記モデルの使用プロセスの原理と類似する。ただし、このテキスト誤り訂正モデルの訓練は教師付き訓練であり、訓練サンプルをあらかじめ構築しておく必要がある。なお、上記表1に述べた語句を例として、次の表2に示す複数の訓練サンプルを構築する。
Figure 0007286737000005
訓練サンプルを構築する際には、文章中の各語句を現在語句とし、現在語句の前の語句を履歴語句とすることができる。一部の現在語句について、対応する標準誤り訂正語句はそれ自体であっても良い。一部の現行語句について、更に、誤りサンプルを構築し、すなわち誤った現行語句を生成し、上記訓練サンプル3のように、正しい標準誤り訂正語句を用いて誤り訂正訓練を行うこともできる。
訓練時に、各訓練サンプルを用いてテキスト誤り訂正モデルを訓練し、各訓練サンプル中の現在語句、履歴語句及び現在語句に対応する標準誤り訂正語句をすべてテキスト誤り訂正モデルに入力する。テキスト誤り訂正モデルはまず現在語句と履歴語句に基づいて誤り訂正処理を行って予測された誤り訂正語句を取得し、次に予測された誤り訂正語句と標準誤り訂正語句とに基づいて損失関数を構築し、勾配降下法に基づいてテキスト誤り訂正モデルのパラメータを調整する。例えば、本実施形態のテキスト誤り訂正モデルのパラメータは、現在語句に対して特徴表現を行う場合のネットワークパラメータ、履歴語句に対して状態特徴表現を行う場合のネットワークパラメータ、符号化する場合の符号化パラメータ、誤り訂正語句を生成する場合の全接続ネットワーク層のパラメータなどを含んで良い。損失関数が収束するまで、数本の訓練サンプルを用いてテキスト誤り訂正モデルを継続的に訓練し、テキスト誤り訂正モデルのパラメータを決定し、さらにテキスト誤り訂正モデルを決定する。
本実施形態のテキスト誤り訂正方法は、上記技術案を採用することにより、現在文章の文章における履歴語句である上文情報に基づいて、現在語句に対してテキスト誤り訂正を行うことにより、誤り訂正情報をより豊富にし、誤り訂正結果をより正確にすることができる。また、本実施形態のテキスト誤り訂正の技術案は、予め訓練されたテキスト誤り訂正モデルに基づいて実現することができるため、テキスト誤り訂正の知能性と正確性をさらに向上させることができる。
図5は本開示の第4実施形態に係る模式図である。図5に示すように、本実施形態は、具体的に、現在語句と、現在語句の所属の文章における履歴語句とを取得する取得モジュール501と、現在語句と履歴語句とに基づいて、現在語句に対してテキスト誤り訂正処理を行う誤り訂正モジュール502とを備え得るテキスト誤り訂正装置500を提供する。
本実施形態のテキスト誤り訂正装置500は、上述したモジュールを用いてテキスト誤り訂正を実現する実現原理及び技術効果は、上述した関連方法の実施形態の実現と同様であり、詳細は上述した関連方法の実施形態の記載を参照でき、ここでは再度言及しない。
図6は本開示の第5実施形態に係る模式図である。図6に示すように、本実施形態のテキスト誤り訂正装置600は、上述した図5に示すテキスト誤り訂正装置500を基に、本開示の技術案をより詳細に説明する。図6に示される取得モジュール601および誤り訂正モジュール602は、それぞれ図5の取得モジュール501および誤り訂正モジュール502に対応して機能が一致する。
図6に示すように、本実施形態のテキスト誤り訂正装置600において、誤り訂正モジュール602は、現在語句と履歴語句とに基づいて、予め訓練されたテキスト誤り訂正モデルを用いて、現在語句に対してテキスト誤り訂正処理を行う。
さらにオプションとして、図6に示すように、本実施形態のテキスト誤り訂正装置600において、誤り訂正モジュール602は、現在語句と、現在語句の所属の文章における履歴語句とに基づいて符号化して現在語句に対応する誤り訂正語句を取得する符号化部6021と、誤り訂正語句と現在語句とが一致するか否かを検出する誤り訂正部6022と、一致しない場合、現在語句を誤り訂正語句で置換する置換部6023とを備える。
さらにオプションとして、符号化部6021は、現在語句の特徴表現を取得し、履歴語句の状態特徴表現を取得し、現在語句の特徴表現と履歴語句の状態特徴表現とに基づいて符号化を行って符号化結果を取得し、符号化結果に基づいて、現在語句に対応する誤り訂正語句を取得する。
さらにオプションとして、図6に示すように、本実施形態のテキスト誤り訂正装置600は、置換された現在語句の特徴表現を取得し、置換後の現在語句の特徴表現と履歴語句の状態特徴表現とを用いて、次の現在語句の履歴語句の状態特徴表現を更新する更新モジュール603をさらに備える。
さらにオプションとして、更新モジュール603は、更に、誤り訂正語句が現在語句と一致すると検出された場合、現在語句の特徴表現と履歴語句の状態特徴表現とを用いて、次の現在語句の履歴語句の状態特徴表現を更新する。
本実施形態のテキスト誤り訂正装置600が上記モジュールを用いてテキスト誤り訂正を実現する実現原理及び技術的効果は、上記関連方法の実施形態の実現と同様であり、詳細は上記関連方法の実施形態の記載を参照することができるため、ここでは言及しない。
本開示の実施形態によれば、本開示は更に電子デバイスおよび可読記憶媒体を提供する。
図7に示すように、本開示の実施形態によるテキスト誤り訂正方法を実現する電子デバイスのブロック図である。電子デバイスは、様々な形式のデジタルコンピュータ、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、PDA、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータであることが意図される。電子デバイスは、様々な形式のモバイル装置、例えば、PDA、携帯電話、スマートフォン、ウェアラブルデバイス、及び他の類似するコンピューティング装置を示してもよい。本文で示された構成要素、それらの接続及び関係、ならびにそれらの機能は例示にすぎなく、本明細書において説明及び/又は請求される本開示の実現を限定することが意図されない。
図7に示すように、この電子デバイスは、一つ又は複数のプロセッサ701、メモリ702、及び各構成要素に接続するための高速インターフェース及び低速インターフェースを含むインターフェースを備える。各構成要素は、異なるバスで相互接続され、そして、共通マザーボードに、又は必要に応じて、他の態様で実装されてもよい。プロセッサは、電子デバイス内で実行されるコマンドを処理してもよく、メモリに記憶される又はメモリ上で外部入力/出力装置(例えば、インターフェースに結合される表示装置)にグラフィカルユーザインターフェースのグラフィカル情報を表示するコマンドを含む。他の実施形態において、必要な場合に、複数のプロセッサ及び/又は複数のバスが、複数のメモリとともに用いられてもよい。同様に、複数の電子デバイスが接続されてもよく、それぞれのデバイスが必要な操作の一部を提供する(例えば、サーババンク、ブレードサーバの集まり、又はマルチプロセッサシステムとする)。図7において、一つのプロセッサ701を例とする。
メモリ702は、本開示で提供される非一時的なコンピュータ可読記憶媒体である。なお、前記メモリには、少なくとも1つのプロセッサが本開示に提供されたテキスト誤り訂正方法を実行するように、前記少なくとも1つのプロセッサに実行可能なコマンドが記憶されている。本開示の非一時的コンピュータ可読記憶媒体は、本開示に提供されたテキスト誤り訂正方法をコンピュータに実行させるためのコンピュータコマンドを記憶している。
メモリ702は、非一時的コンピュータ可読記憶媒体として、非一時的ソフトウェアプログラム、非一時的コンピュータに実行可能なプログラム、モジュール、例えば、本開示の実施例におけるテキスト誤り訂正方法に対応するプログラムコマンド/モジュール(例えば、図4及び図5に示された関連モジュール)を記憶するために用いられる。プロセッサ701は、メモリ702に記憶されている非一時的ソフトウェアプログラム、コマンド及びモジュールを実行することで、サーバの様々な機能アプリケーション及びデータ処理を実行し、即ち、上記の方法実施例におけるテキスト誤り訂正方法を実現する。
メモリ702は、プログラム記憶領域及びデータ記憶領域を含んでもよく、プログラム記憶領域はオペレーティングシステム、少なくとも一つの機能に必要なアプリケーションプログラムを記憶してもよく、データ記憶領域はテキスト誤り訂正方法を実現する電子デバイスの使用により作成されたデータなどを記憶してもよい。また、メモリ702は、高速ランダムアクセスメモリを含んでもよく、さらに非一時的メモリ、例えば、少なくとも一つの磁気ディスク記憶装置、フラッシュメモリ装置、又は他の非一時的固体記憶装置を含んでもよい。幾つかの実施例において、メモリ702は、プロセッサ701に対して遠隔設置されたメモリを選択的に含んでもよく、これらのリモートメモリは、ネットワークを介してテキスト誤り訂正方法を実現する電子デバイスに接続されてもよい。上記のネットワークの実例には、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びそれらの組み合わせが含まれるが、これらに限定されない。
テキスト誤り訂正方法を実現する電子デバイスは、更に、入力装置703と出力装置704とを備えても良い。プロセッサ701、メモリ702、入力装置703及び出力装置704は、バス又は他の手段により接続されても良く、図7においてバスによる接続を例とする。
入力装置703は、入力された数字又はキャラクタ情報を受信し、テキスト誤り訂正方法を実現する電子デバイスのユーザ設定及び機能制御に関連するキー信号入力を生成でき、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、一つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置704は、表示装置、補助照明装置(例えば、LED)、触覚フィードバック装置(例えば、振動モータ)などを含むことができる。当該表示装置は、液晶ディスプレイ(LCD)、発光ダイオードディスプレイ(LED)、及びプラズマディスプレイを含み得るが、これらに限定されない。いくつかの実施形態では、表示装置はタッチパネルであってもよい。
本明細書に説明されるシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、専用ASIC(専用集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにおいて実現することができる。これらの様々な実施形態は、記憶システム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及びコマンドを受信し、当該記憶システム、当該少なくとも一つの入力装置、及び当該少なくとも一つの出力装置にデータ及びコマンドを送信するようにつなげられた、特殊用途でもよく一般用途でもよい少なくとも一つのプログラマブルプロセッサを含む、プログラマブルシステム上で実行可能及び/又は解釈可能な一つ又は複数のコンピュータプログラムにおける実行を含んでもよい。
これらのコンピューティングプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又は、コードとも称される)は、プログラマブルプロセッサの機械命令を含み、高水準のプロセス及び/又はオブジェクト向けプログラミング言語、及び/又はアセンブリ/機械言語で実行されることができる。本明細書で用いられる「機械可読媒体」及び「コンピュータ可読媒体」という用語は、機械可読信号としての機械命令を受け取る機械可読媒体を含むプログラマブルプロセッサに機械命令及び/又はデータを提供するのに用いられる任意のコンピュータプログラム製品、機器、及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、及びプログラマブル論理デバイス(PLD))を指す。「機械可読信号」という用語は、プログラマブルプロセッサに機械命令及び/又はデータを提供するために用いられる任意の信号を指す。
ユーザとのインタラクティブを提供するために、本明細書に説明されるシステムと技術は、ユーザに対して情報を表示するための表示装置(例えば、CRT(ブラウン管)又はLCD(液晶ディスプレイ)モニタ)、ユーザがコンピュータに入力を与えることができるキーボード及びポインティングデバイス(例えば、マウスや、トラックボール)を有するコンピュータ上に実施されることが可能である。その他の種類の装置は、さらに、ユーザとのインタラクションを提供するために使用されることが可能であり、例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック(例えば、視覚的なフィードバック、聴覚的なフィードバック、又は触覚的なフィードバック)であり得、ユーザからの入力は、任意の形態で(音響、音声又は触覚による入力を含む)受信され得る。
本明細書に説明されるシステムと技術は、バックエンド構成要素を含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェア構成要素を含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンド構成要素を含むコンピューティングシステム(例えば、グラフィカルユーザインターフェースもしくはウェブブラウザを有するクライアントコンピュータであり、ユーザは、当該グラフィカルユーザインターフェースもしくは当該ウェブブラウザを通じて本明細書で説明されるシステムと技術の実施形態とインタラクションすることができる)、そのようなバックエンド構成要素、ミドルウェア構成要素、もしくはフロントエンド構成要素の任意の組合せを含むコンピューティングシステムに実施されることが可能である。システムの構成要素は、任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によって相互に接続されることが可能である。通信ネットワークの例は、ローカルエリアネットワーク(「LAN」)、ワイド・エリア・ネットワーク(「WAN」)、インターネットワークを含む。
コンピュータシステムは、クライアントとサーバーを含み得る。クライアントとサーバーは、一般的に互いから遠く離れており、通常は、通信ネットワークを通じてインタラクトする。クライアントとサーバとの関係は、相応するコンピュータ上で実行され、互いにクライアント-サーバの関係を有するコンピュータプログラムによって生じる。
本開示の実施形態の技術案によれば、現在語句の文章における履歴語句である上文情報に基づいて、現在語句のテキスト誤り訂正を行うことができるため、誤り訂正情報がより豊富になり、誤り訂正結果がより正確になる。
さらに、本開示の実施形態の技術案によれば、事前に訓練されたテキスト誤り訂正モデルに基づいて実現することができるため、テキスト誤り訂正の知能性及び正確性をさらに向上させることができる。
以上で示された様々な形式のフローを使用して、ステップを並べ替え、追加、又は削除できることを理解されたい。例えば、本開示に説明される各ステップは、並列の順序又は順次的な順序で実施されてもよいし、又は異なる順序で実行されてもよく、本開示で開示された技術案の望ましい結果が達成できる限り、ここで制限されない。
上記の具体的な実施形態は本開示の保護範囲に対する制限を構成しない。設計要件及び他の要因に従って、様々な修正、組み合わせ、部分的組み合わせ及び置換を行うことができることを当業者は理解するべきである。本開示の精神及び原則の範囲内で行われる修正、同等の置換、改善は、何れも本開示の保護範囲内に含まれるべきである。

Claims (11)

  1. プロセッサを備えるコンピュータにより実行される、テキスト誤り訂正方法であって、
    前記プロセッサが取得モジュールとして、現在語句と、前記現在語句の所属の文章における履歴語句とを取得することと、
    前記プロセッサが誤り訂正モジュールとして、前記現在語句と前記履歴語句とに基づいて、前記現在語句に対してテキスト誤り訂正処理を行うことと、
    を含み、
    前記プロセッサが誤り訂正モジュールとして、前記現在語句と前記履歴語句とに基づいて、前記現在語句に対してテキスト誤り訂正処理を行うことは、
    前記プロセッサが符号化部として、前記現在語句と、前記現在語句の所属の文章における履歴語句とに基づいて符号化を行って前記現在語句に対応する誤り訂正語句を取得し、
    前記プロセッサが誤り訂正部として、前記誤り訂正語句と前記現在語句とが一致するか否かを検出し、
    前記プロセッサが置換部として、一致しない場合に、前記現在語句を前記誤り訂正語句で置換することを含み、
    前記プロセッサが符号化部として、現在語句と前記現在語句の所属の文章における履歴語句に基づいて符号化を行って前記現在語句に対応する誤り訂正語句を取得することは、
    T×dの行列である、前記現在語句の特徴表現を取得し、ここで、Tは前記現在語句の文字数を表し、前記現在語句における各文字が1×dのベクトルで表現され、
    1×dのベクトルで標識される、前記履歴語句の状態特徴表現を取得し、
    前記現在語句の特徴表現と前記履歴語句の状態特徴表現とに基づいて符号化を行って符号化結果を取得し、前記符号化結果は、(1+T)×dの行列で表され、最初の位置が前記履歴語句の状態特徴表現の符号化結果であり、後のT個の位置が前記現在語句の特徴表現の符号化結果であり、
    前記符号化結果に基づいて、前記現在語句に対応する前記誤り訂正語句を取得することを含み、
    前記符号化結果に基づいて、前記現在語句に対応する前記誤り訂正語句を取得することは、
    前記後のT個の位置の符号化結果の後にフルリンクf corr を接続して単語ごとの誤り訂正を行い、前記現在語句に対応する前記誤り訂正語句を得ることを含む、
    テキスト誤り訂正方法。
  2. 前記プロセッサが誤り訂正モジュールとして、前記現在語句と前記履歴語句とに基づいて、前記現在語句に対してテキスト誤り訂正処理を行うことは、
    前記現在語句と前記履歴語句とに基づいて、予め訓練されたテキスト誤り訂正モデルを用いて、前記現在語句に対してテキスト誤り訂正処理を行う、
    ことを含む請求項1に記載のテキスト誤り訂正方法。
  3. 前記現在語句を前記誤り訂正語句で置換した後に、
    前記プロセッサが更新モジュールとして、置換された前記現在語句の特徴表現を取得し、
    置換後の前記現在語句の特徴表現と前記履歴語句の状態特徴表現とを用いて、次の現在語句の履歴語句の状態特徴表現を更新する、
    ことをさらに含む請求項に記載のテキスト誤り訂正方法。
  4. 前記誤り訂正語句が前記現在語句と一致すると検出された場合、
    前記プロセッサが更新モジュールとして、前記現在語句の特徴表現と前記履歴語句の状態特徴表現とを用いて、次の現在語句の履歴語句の状態特徴表現を更新する、
    ことをさらに含む請求項1又は3に記載のテキスト誤り訂正方法。
  5. プロセッサを備えるコンピュータにより実現されるテキスト誤り訂正装置であって、
    前記プロセッサが取得モジュールとして、現在語句と、前記現在語句の所属の文章における履歴語句とを取得
    前記プロセッサが誤り訂正モジュールとして、前記現在語句と前記履歴語句とに基づいて、前記現在語句に対してテキスト誤り訂正処理を行
    前記誤り訂正モジュールにおいて、
    前記プロセッサが符号化部として、前記現在語句と、前記現在語句の所属の文章における履歴語句とに基づいて符号化を行って前記現在語句に対応する誤り訂正語句を取得し、
    前記プロセッサが誤り訂正部として、前記誤り訂正語句と前記現在語句とが一致するか否かを検出し、
    前記プロセッサが置換部として、一致しない場合に、前記現在語句を前記誤り訂正語句で置換し、
    前記プロセッサが前記符号化部として、
    T×dの行列である、前記現在語句の特徴表現を取得し、ここで、Tは前記現在語句の文字数を表し、前記現在語句における各文字が1×dのベクトルで表現され、
    1×dのベクトルで標識される、前記履歴語句の状態特徴表現を取得し、
    前記現在語句の特徴表現と前記履歴語句の状態特徴表現とに基づいて符号化を行って符号化結果を取得し、前記符号化結果は、(1+T)×dの行列で表され、最初の位置が前記履歴語句の状態特徴表現の符号化結果であり、後のT個の位置が前記現在語句の特徴表現の符号化結果であり、
    前記符号化結果に基づいて、前記現在語句に対応する前記誤り訂正語句を取得し、
    前記プロセッサが前記符号化部として、
    前記後のT個の位置の符号化結果の後にフルリンクf corr を接続して単語ごとの誤り訂正を行い、前記現在語句に対応する前記誤り訂正語句を得る、
    テキスト誤り訂正装置。
  6. 前記プロセッサが前記誤り訂正モジュールとして
    前記現在語句と前記履歴語句とに基づいて、予め訓練されたテキスト誤り訂正モデルを用いて、前記現在語句に対してテキスト誤り訂正処理を行う、
    請求項に記載のテキスト誤り訂正装置。
  7. 前記プロセッサはさらに更新モジュールとして、
    置換された前記現在語句の特徴表現を取得し、
    置換後の前記現在語句の特徴表現と前記履歴語句の状態特徴表現とを用いて、次の現在語句の履歴語句の状態特徴表現を更新する
    請求項に記載のテキスト誤り訂正装置。
  8. 前記プロセッサが前記更新モジュールとして、さらに、
    前記誤り訂正語句が前記現在語句と一致すると検出された場合に、前記現在語句の特徴表現と前記履歴語句の状態特徴表現とを用いて、次の現在語句の履歴語句の状態特徴表現を更新する、
    請求項に記載のテキスト誤り訂正装置。
  9. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサと通信接続されたメモリとを備え、
    前記メモリに前記少なくとも1つのプロセッサにより実行可能なコマンドが記憶されており、前記コマンドが前記少なくとも1つのプロセッサにより実行されると、前記少なくとも1つのプロセッサに請求項1~のいずれか1項に記載の方法を実行させる電子デバイス。
  10. コンピュータに請求項1~のいずれか1項に記載の方法を実行させるためのコンピュータコマンドを記憶した非一時的なコンピュータ可読記憶媒体。
  11. コンピュータに請求項1~のいずれか1項に記載の方法を実行させるためのコンピュータプログラム。
JP2021184446A 2020-12-08 2021-11-12 テキスト誤り訂正方法、装置、電子デバイス、記憶媒体及びプログラム Active JP7286737B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202011445288.5 2020-12-08
CN202011445288.5A CN112541342B (zh) 2020-12-08 2020-12-08 文本纠错方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
JP2022091121A JP2022091121A (ja) 2022-06-20
JP7286737B2 true JP7286737B2 (ja) 2023-06-05

Family

ID=75018295

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021184446A Active JP7286737B2 (ja) 2020-12-08 2021-11-12 テキスト誤り訂正方法、装置、電子デバイス、記憶媒体及びプログラム

Country Status (3)

Country Link
US (1) US20220180058A1 (ja)
JP (1) JP7286737B2 (ja)
CN (1) CN112541342B (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113255332B (zh) * 2021-07-15 2021-12-24 北京百度网讯科技有限公司 文本纠错模型的训练与文本纠错方法、装置
CN114970504A (zh) * 2022-06-24 2022-08-30 北京有竹居网络技术有限公司 篇章纠错方法、装置、电子设备及存储介质
CN118278394B (zh) * 2024-05-28 2024-08-09 华东交通大学 一种中文拼写纠错方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180349327A1 (en) 2017-06-05 2018-12-06 Baidu Online Network Technology (Beijing)Co., Ltd. Text error correction method and apparatus based on recurrent neural network of artificial intelligence
CN110489737A (zh) 2019-05-23 2019-11-22 深圳龙图腾创新设计有限公司 词语纠错提示方法、装置、计算机设备及可读存储介质
JP2019212115A (ja) 2018-06-06 2019-12-12 大日本印刷株式会社 検査装置、検査方法、プログラム及び学習装置
CN111126072A (zh) 2019-12-13 2020-05-08 北京声智科技有限公司 一种Seq2Seq模型训练方法、装置、介质和设备
CN111460793A (zh) 2020-03-10 2020-07-28 平安科技(深圳)有限公司 纠错方法、装置、设备及存储介质
CN112002311A (zh) 2019-05-10 2020-11-27 Tcl集团股份有限公司 文本纠错方法、装置、计算机可读存储介质及终端设备

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5864805A (en) * 1996-12-20 1999-01-26 International Business Machines Corporation Method and apparatus for error correction in a continuous dictation system
US6424983B1 (en) * 1998-05-26 2002-07-23 Global Information Research And Technologies, Llc Spelling and grammar checking system
US7509560B2 (en) * 2003-12-29 2009-03-24 Intel Corporation Mechanism for adjacent-symbol error correction and detection
KR100680473B1 (ko) * 2005-04-11 2007-02-08 주식회사 하이닉스반도체 액세스 시간이 감소된 플래시 메모리 장치
US8438443B2 (en) * 2011-01-12 2013-05-07 Himax Media Solutions, Inc. Pattern-dependent error correction method and system
US20140214401A1 (en) * 2013-01-29 2014-07-31 Tencent Technology (Shenzhen) Company Limited Method and device for error correction model training and text error correction
CN106610930B (zh) * 2015-10-22 2019-09-03 科大讯飞股份有限公司 外语写作自动纠错方法及系统
US10235517B2 (en) * 2016-05-13 2019-03-19 Regents Of The University Of Minnesota Robust device authentication
CN108052499B (zh) * 2017-11-20 2021-06-11 北京百度网讯科技有限公司 基于人工智能的文本纠错方法、装置及计算机可读介质
US11264094B2 (en) * 2018-03-05 2022-03-01 Intel Corporation Memory cell including multi-level sensing
CN108595412B (zh) * 2018-03-19 2020-03-27 百度在线网络技术(北京)有限公司 纠错处理方法及装置、计算机设备及可读介质
US11386266B2 (en) * 2018-06-01 2022-07-12 Apple Inc. Text correction
CN109446534B (zh) * 2018-09-21 2020-07-31 清华大学 机器翻译方法及装置
CN110969012B (zh) * 2019-11-29 2023-04-07 北京字节跳动网络技术有限公司 文本纠错方法、装置、存储介质及电子设备
CN113095072B (zh) * 2019-12-23 2024-06-28 华为技术有限公司 文本处理方法及装置
CN111191441A (zh) * 2020-01-06 2020-05-22 广东博智林机器人有限公司 文本纠错方法、装置及存储介质
CN111696557A (zh) * 2020-06-23 2020-09-22 深圳壹账通智能科技有限公司 语音识别结果的校准方法、装置、设备及存储介质
CN111753530B (zh) * 2020-06-24 2024-05-31 上海依图网络科技有限公司 一种语句处理方法、装置、设备及介质
CN112001169B (zh) * 2020-07-17 2022-03-25 北京百度网讯科技有限公司 文本纠错的方法、装置、电子设备和可读存储介质
CN111832288B (zh) * 2020-07-27 2023-09-29 网易有道信息技术(北京)有限公司 文本修正方法及装置、电子设备、存储介质
US11748555B2 (en) * 2021-01-22 2023-09-05 Bao Tran Systems and methods for machine content generation

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180349327A1 (en) 2017-06-05 2018-12-06 Baidu Online Network Technology (Beijing)Co., Ltd. Text error correction method and apparatus based on recurrent neural network of artificial intelligence
JP2019212115A (ja) 2018-06-06 2019-12-12 大日本印刷株式会社 検査装置、検査方法、プログラム及び学習装置
CN112002311A (zh) 2019-05-10 2020-11-27 Tcl集团股份有限公司 文本纠错方法、装置、计算机可读存储介质及终端设备
CN110489737A (zh) 2019-05-23 2019-11-22 深圳龙图腾创新设计有限公司 词语纠错提示方法、装置、计算机设备及可读存储介质
CN111126072A (zh) 2019-12-13 2020-05-08 北京声智科技有限公司 一种Seq2Seq模型训练方法、装置、介质和设备
CN111460793A (zh) 2020-03-10 2020-07-28 平安科技(深圳)有限公司 纠错方法、装置、设备及存储介质

Also Published As

Publication number Publication date
JP2022091121A (ja) 2022-06-20
US20220180058A1 (en) 2022-06-09
CN112541342B (zh) 2022-07-22
CN112541342A (zh) 2021-03-23

Similar Documents

Publication Publication Date Title
JP7317791B2 (ja) エンティティ・リンキング方法、装置、機器、及び記憶媒体
US11403468B2 (en) Method and apparatus for generating vector representation of text, and related computer device
US11574133B2 (en) Method, electronic device, and storage medium for training text generation model
JP7286737B2 (ja) テキスト誤り訂正方法、装置、電子デバイス、記憶媒体及びプログラム
JP7098853B2 (ja) ラベルラベリングモデルを確立する方法、装置、電子機器、プログラム及び可読記憶媒体
US20210303772A1 (en) Method and Apparatus for Constructing Document Heading Tree, Electronic Device and Storage Medium
US20220019736A1 (en) Method and apparatus for training natural language processing model, device and storage medium
US20210390260A1 (en) Method, apparatus, device and storage medium for matching semantics
JP7234483B2 (ja) エンティティリンキング方法、装置、電子デバイス、記憶媒体及びプログラム
JP7179123B2 (ja) 言語モデルの訓練方法、装置、電子デバイス及び可読記憶媒体
JP7222162B2 (ja) 機械翻訳におけるモデルトレーニング方法、装置、電子機器、プログラム及び記憶媒体
US11537792B2 (en) Pre-training method for sentiment analysis model, and electronic device
JP2022003539A (ja) テキスト誤り訂正方法、装置、電子機器及び記憶媒体
WO2022095563A1 (zh) 文本纠错的适配方法、装置、电子设备及存储介质
JP7178441B2 (ja) 要約生成方法、装置、プログラム、電子デバイス及び記憶媒体
CN111079945B (zh) 端到端模型的训练方法及装置
CN111831814A (zh) 摘要生成模型的预训练方法、装置、电子设备和存储介质
JP7133002B2 (ja) 句読点予測方法および装置
JP2021099798A (ja) 構造化処理方法、装置、コンピュータ機器及び媒体
US20210406467A1 (en) Method and apparatus for generating triple sample, electronic device and computer storage medium
US11562150B2 (en) Language generation method and apparatus, electronic device and storage medium
US20210312308A1 (en) Method for determining answer of question, computing device and storage medium
CN111310481B (zh) 语音翻译方法、装置、计算机设备和存储介质
CN112329429A (zh) 文本相似度学习方法、装置、设备以及存储介质
US11893977B2 (en) Method for recognizing Chinese-English mixed speech, electronic device, and storage medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211112

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221028

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221101

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230124

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230512

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230524

R150 Certificate of patent or registration of utility model

Ref document number: 7286737

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150