JP7267365B2 - テキスト誤り訂正方法、装置、電子機器及び記憶媒体 - Google Patents

テキスト誤り訂正方法、装置、電子機器及び記憶媒体 Download PDF

Info

Publication number
JP7267365B2
JP7267365B2 JP2021145558A JP2021145558A JP7267365B2 JP 7267365 B2 JP7267365 B2 JP 7267365B2 JP 2021145558 A JP2021145558 A JP 2021145558A JP 2021145558 A JP2021145558 A JP 2021145558A JP 7267365 B2 JP7267365 B2 JP 7267365B2
Authority
JP
Japan
Prior art keywords
text
error
corrected
error correction
pinyin
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021145558A
Other languages
English (en)
Other versions
JP2022003539A (ja
Inventor
ルイチン ツァン
チュアンチャン ツァン
チョンジュン へ
ツィ リ
ファ ウ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2022003539A publication Critical patent/JP2022003539A/ja
Application granted granted Critical
Publication of JP7267365B2 publication Critical patent/JP7267365B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本出願は、コンピュータ技術分野に関し、具体的には自然言語処理及び深層学習などの人工知能の技術分野に関し、特にテキスト誤り訂正方法、装置、電子機器及び記憶媒体に関する。
テキスト誤り訂正は、テキスト内の誤りを誤り訂正するプロセスである。人工知能が継続的に発展するにつれて、テキスト誤り訂正は、最初の手動誤り訂正から知能誤り訂正に変更された。しかしながら、関連技術では、効果の高いテキスト誤り訂正方法がない。
本出願は、テキスト誤り訂正方法、装置、電子機器及び記憶媒体を提供する。
本出願の一態様によれば、
誤り訂正対象のテキストを取得するステップと、
前記誤り訂正対象のテキストのピンインシーケンスを取得するステップと、
前記誤り訂正対象のテキスト及び前記ピンインシーケンスをテキスト誤り訂正モデルに入力することによって、誤り訂正された誤り訂正済みテキストを取得するステップと、を含むテキスト誤り訂正方法を提供する。
本出願の別の一態様によれば、
誤り訂正対象のテキストを取得するための第1の取得モジュールと、
前記誤り訂正対象のテキストのピンインシーケンスを取得するための第2の取得モジュールと、
前記誤り訂正対象のテキスト及び前記ピンインシーケンスをテキスト誤り訂正モデルに入力することによって、誤り訂正された誤り訂正済みテキストを取得するための誤り訂正モジュールと、を含むテキスト誤り訂正装置を提供する。
本出願の別の態様によれば、電子機器を提供し、前記電子機器は、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信可能に接続されたメモリと、を備え、
前記メモリには、前記少なくとも1つのプロセッサにより実行可能な命令が記憶されており、前記命令は、前記少なくとも1つのプロセッサが上記の一態様の実施例に記載のテキスト誤り訂正方法を実行できるように、前記少なくとも1つのプロセッサにより実行される。
本出願の別の態様によれば、コンピュータ命令が記憶された非一時的コンピュータ読み取り可能な記憶媒体を提供し、それにコンピュータプログラムが記憶されており、前記コンピュータ命令は、前記コンピュータに上記の一態様の実施例に記載のテキスト誤り訂正方法を実行させることに用いられる。
本出願の別の態様によれば、コンピュータプログラムを含むコンピュータプログラム製品を提供し、前記コンピュータプログラムは、プロセッサにより実行されると、上記の一態様の実施例に記載のテキスト誤り訂正方法を実現する。
本出願の別の態様によれば、コンピュータプログラムを提供し、前記コンピュータプログラムは、コンピュータに上記の一態様の実施例に記載のテキスト誤り訂正方法を実行させる。
上記の好ましい形態が備える他の効果は、具体的な実施例と併せて以下に説明する。
図面は、本手段をより良好に理解するためのものであり、本出願を限定するものではない。
本出願の実施例にて提供されるテキスト誤り訂正方法のフローチャートの概略図である。 本出願の実施例にて提供されるテキスト誤り訂正モデルにより誤り訂正済みテキストを生成するフローチャートの概略図である。 本出願の実施例にて提供されるテキスト誤り訂正方法の原理図である。 本出願の実施例にて提供される別のテキスト誤り訂正方法のフローチャートの概略図である。 本出願の実施例にて提供される別のテキスト誤り訂正方法のフローチャートの概略図である。 本出願の実施例にて提供されるテキスト誤り訂正装置の構造の概略図である。 本出願の実施例にて提供される別のテキスト誤り訂正装置の構造の概略図である。 本出願の実施例によるテキスト誤り訂正方法の電子機器のブロック図である。
以下、添付の図面を参照して本出願の例示的な実施例を説明し、理解を容易にするために、この説明には、本出願の実施例の様々な詳細が含まれ、それらの詳細は単に例示的なものとみなされるべきである。したがって、当業者であれば、本出願の範囲及び精神から逸脱することなく、本明細書に記載された実施例に対して様々な変更及び誤り訂正を行うことができることを認識されたい。また、以下の説明では、説明の明確さ及び簡素さから、周知の機能及び構造についての記載は省略する。
以下、図面を参照しながら、本出願の実施例のテキスト誤り訂正方法、装置、電子機器及び記憶媒体を説明する。
人工知能は、コンピュータを用いて人間のある思考過程や知能行動(例えば、学習、推論、思考、企画など)をシミュレーションすることを研究した学科であり、ハードウェアレベルの技術分野があるとともに、ソフトウェアレベルの技術もある。人工知能ハードウェア技術は、一般的に、センサ、専用人工知能チップ、クラウドコンピューティング、分散記憶、ビッグデータ処理などの技術を含み、人工知能ソフトウェア技術は、コンピュータビジョン技術、音声認識技術、自然言語処理技術、及び、深層学習、ビッグデータ処理技術、知識グラフ技術など、いくつかの主な方向を含む。
自然言語処理は、コンピュータ科学の分野と人工知能の分野において重要な方向である。それは人間とコンピュータとの間で自然言語による効率的なコミュニケーションを実現するための種々の理論と方法を研究している。自然言語処理は、言語学、コンピュータ科学、数学が統合された科学である。
深層学習は、機械学習の分野における新たな研究の方向である。深層学習は、サンプルデータの固有の規則性と表現の階層を学習するものであり、これらの学習過程で得られる情報は、文字、画像、音声などのデータの解釈に大きく寄与する。その最終的な目的は、機械が人間のように分析学習能力を有することを可能にし、文字、画像や音声などのデータを認識可能にすることである。深層学習は、複雑な機械学習アルゴリズムであり、音声認識や画像認識の点で取得した効果が従来の技術をはるかに上回る。
本出願の実施例にて提供されるテキスト誤り訂正方法は、電子機器で実行されてもよく、当該電子機器は、PC(Personal Computer,パーソナルコンピュータ)コンピュータ、タブレットコンピュータ又はパームトップコンピュータなどであってもよく、ここでは、何ら限定されない。
本出願の実施例では、電子機器は、処理コンポーネント、記憶コンポーネント及び駆動コンポーネントを設置することができる。好ましくは、当該駆動コンポーネント及び処理コンポーネントは、一体的に設置されてもよく、当該記憶コンポーネントは、オペレーティングシステム、アプリケーションプログラム、又は他のプログラムモジュールを記憶してもよく、当該処理コンポーネントは、記憶コンポーネントに記憶されたアプリケーションプログラムを実行することにより、本出願の実施例にて提供されるテキスト誤り訂正方法を実現する。
図1は、本出願の実施例にて提供されるテキスト誤り訂正方法のフローチャートの概略図である。
本出願の実施例のテキスト誤り訂正方法は、本出願の実施例にて提供されるテキスト誤り訂正装置で実行されてもよく、当該装置は電子機器に配置されて、誤り訂正対象のテキスト及び誤り訂正対象のテキストのピンインシーケンスを取得し、誤り訂正対象のテキスト及びピンインシーケンスをテキスト誤り訂正モデルに入力することによって、誤り訂正された誤り訂正済みテキストを取得することができる。
1つの可能な形態として、本出願の実施例のテキスト誤り訂正方法は、さらにサーバ側で実行されてもよく、サーバは、クラウドサーバであってもよく、クラウド側で当該テキスト誤り訂正方法を実行してもよい。
図1に示すように、当該テキスト誤り訂正方法は、以下のステップを含むことができる。
ステップ101、誤り訂正対象のテキストを取得する。なお、当該実施例で説明した誤り訂正対象のテキストは、種々の書記言語で表現されたテキストであってもよく、例えば、中国語のテキストであってもよい。誤り訂正対象のテキストには、ニュース記事などの文、段落、又は章節が含まれてもよい。
本出願の実施例では、誤り訂正テキストは、ユーザが音声認識により入力したテキスト情報、及びユーザが入力方法により入力方法システムに入力した入力内容を含んでもよく、入力方法システムは、ユーザの現在の入力方式に基づいて、入力内容を入力された文字の単語候補に変換し、ユーザにより選択されるようにユーザに提供し、ユーザは、例えばキーボード、タッチパネル、マウスなどのような複数の入力手段によりテキスト情報の入力を行うことができるとともに、例えばピンイン、五筆字型入力方法、筆画、手書きなどのような任意の入力方式を選択してテキスト情報の入力を行うことができるが、ここでは、何ら限定されない。
1つの可能な形態として、上記の誤り訂正テキストは、ユーザがコピーアンドペーストで取得したテキスト情報をさらに含んでもよい。
具体的には、電子機器は、例えば、ユーザが
Figure 0007267365000001
と入力した場合など、ユーザが入力方法により入力方法システムに入力した入力内容を取得することができる。
ステップ102、誤り訂正対象のテキストのピンインシーケンスを取得する。
本出願の実施例では、誤り訂正対象のテキストが漢字からなる場合、漢字のピンインを誤り訂正対象のテキストのピンインシーケンスとしてもよく、誤り訂正対象のテキストが漢字と非漢字からなる場合、漢字のピンインと非漢字自体からなる全体を誤り訂正対象のテキストのピンインシーケンスとしてもよく、ここで、非漢字には、数字、英単語、及び/又はピンインが含まれる。
例えば、誤り訂正対象のテキストが
Figure 0007267365000002
である場合、誤り訂正対象のテキストのピンインシーケンスは「ta de yu shuo de hen hao」であってもよい。例えば、誤り訂正対象のテキストが
Figure 0007267365000003
である場合、誤り訂正対象のテキストのピンインシーケンスは「ta de yu shuo de hen hao」であってもよい。例えば、誤り訂正対象のテキストが
Figure 0007267365000004
である場合、誤り訂正対象のテキストのピンインシーケンスは「wo lao po gei wo mai le yi shuang adidas yun dong xie」であってもよい。
なお、当該実施例で説明したピンインシーケンス内のピンインは声調記号をつけてもよく、上記の例には示されていない。
1つの可能な形態として、誤り訂正対象のテキストをピンイン抽出モデルに入力し、当該ピンイン抽出モデルにより誤り訂正対象のテキスト内のピンイン情報を抽出して、誤り訂正対象のテキストのピンインシーケンスを得ることができる。
なお、当該実施例で説明したピンイン抽出モデルは、呼び出して応用することを容易にするために、電子機器のメモリ空間に予め記憶することができ、当該メモリ空間は、エンティティに基づくメモリ空間、例えばハードディスクに限定されず、上記のメモリ空間は、電子機器に接続されたネットワークハードディスクのメモリ空間(クラウドメモリ空間)であってもよい。
ステップ103、誤り訂正対象のテキスト及びピンインシーケンスをテキスト誤り訂正モデルに入力することによって、誤り訂正された誤り訂正済みテキストを取得する。
なお、当該実施例で説明したテキスト誤り訂正モデルは、呼び出して応用することを容易にするために、事前にトレーニングして、電子機器のメモリ空間に予め記憶することができる。また、当該実施例で説明したテキスト誤り訂正モデルは、トレーニングコーパスに基づいてニューラルネットワークモデルをトレーニングすることにより得られるものであってもよく、ここで、当該ニューラルネットワークモデルは、複数の層を含み得る。
具体的には、電子機器は、誤り訂正対象のテキスト及び誤り訂正対象のテキストのピンインシーケンスを取得した後、誤り訂正対象のテキスト及び誤り訂正対象のテキストのピンインシーケンスをテキスト誤り訂正モデルに入力することで、当該テキスト誤り訂正モデルにより誤り訂正対象のテキスト及び誤り訂正対象のテキストのピンインシーケンスを処理して、誤り訂正対象のテキストに対する誤り訂正された誤り訂正済みテキストを取得することができる。
本出願の実施例では、まず、誤り訂正対象のテキスト及び誤り訂正対象のテキストのピンインシーケンスを取得し、続いて、誤り訂正対象のテキスト及びピンインシーケンスをテキスト誤り訂正モデルに入力することによって、誤り訂正された誤り訂正済みテキストを取得する。これにより、テキストの誤り訂正を効果的に行うことができ、さらに誤り訂正済みテキストの正確性を向上させることができる。
上記の実施例を明確に説明するために、本出願の一実施例では、誤り訂正対象のテキスト及びピンインシーケンスをテキスト誤り訂正モデルに入力することによって、誤り訂正された誤り訂正済みテキストを取得することは、誤り訂正対象のテキスト及びピンインシーケンスをテキスト誤り訂正モデルに入力することを含んでもよく、ここで、図2に示すように、テキスト誤り訂正モデルは、以下のステップにより誤り訂正済みテキストを生成することができる。
ステップ201、テキスト誤り訂正モデルは、誤り訂正対象のテキスト内の誤字を検出することによって、誤り訂正対象のテキスト内の誤字を決定する。
本出願の実施例では、テキスト誤り訂正モデルには、エンコーダネットワーク層が含まれてもよく、当該エンコーダネットワーク層により、誤り訂正対象のテキスト内の誤字を検出することによって、誤り訂正対象のテキスト内の誤字を決定することができる。
ステップ202、テキスト誤り訂正モデルは、誤字に対応するピンインシーケンス内のピンインを取得し、誤字をピンインに置き換えて、誤り訂正対象のピンインテキストを取得する。及び
ステップ203、テキスト誤り訂正モデルは誤り訂正対象のピンインテキストを誤り訂正して、誤り訂正済みテキストを取得する。
本出願の実施例では、テキスト誤り訂正モデルは、誤り訂正ネットワーク層をさらに含んでもよく、当該誤り訂正ネットワーク層により誤り訂正対象のピンインテキストを誤り訂正して、誤り訂正済みテキストを取得することができる。
具体的には、電子機器は、誤り訂正対象のテキスト及び誤り訂正対象のテキストのピンインシーケンスを取得した後、誤り訂正対象のテキスト及び誤り訂正対象のテキストのピンインシーケンスをテキスト誤り訂正モデルに入力してもよく、続いて、当該テキスト誤り訂正モデルのエンコーダネットワーク層が誤り訂正対象のテキスト内の誤字を検出し、誤り訂正対象のテキスト内の誤字を決定した後、誤り訂正対象のテキストと1対1で対応する誤り検出ラベリングシーケンスを生成することができ、ここで、当該誤り検出ラベリングシーケンスはセカンドクラスシーケンスのラベリングシーケンスであってもよく、例えば、当該誤り検出ラベリングシーケンスはクラス0及びクラス1を含み、誤り訂正対象のテキスト内の各字は1つのクラスのみに対するものであり、クラス0は、対応する字に問題がないことを表し(例えば、図3における誤り検出ラベリングシーケンス内の色の浅い丸)、クラス1は、対応する字に問題があることを表し(例えば、図3における誤り検出ラベリングシーケンス内の色の深い丸)、改正(誤り訂正)すべきである。
誤り訂正対象のテキスト内の誤字を決定して誤り検出ラベリングシーケンスを得た後、当該誤り検出ラベリングシーケンスに基づいて当該誤字に対応するピンインシーケンス内のピンインを取得し、誤り訂正対象のテキスト内の当該誤字をピンインに置き換えて、誤り訂正対象のピンインテキストを取得することができ、例えば、図3における誤り訂正対象のピンインテキスト
Figure 0007267365000005
を得ることができる。最後に、テキスト誤り訂正モデルの誤り訂正ネットワーク層は誤り訂正対象のピンインテキストを誤り訂正して、誤り訂正済みテキストを得て、例えば、図3における
Figure 0007267365000006
を得る。したがって、上記のテキスト誤り訂正モデルにより、従来技術において誤ったリコールやリコールの見逃しを引き起こす可能性がある候補生成ステップが削除され、事前混同セットの不正確による問題が回避される。
上記の一実施例を明確に説明するために、本出願の一実施例では、以下の式で誤り訂正対象のピンインテキストを取得する。
wp=W*Odet+X*(1-Odet) (1)
ここで、Xwpは誤り訂正対象のピンインテキストであってもよく、Wは誤り訂正対象のテキストであってもよく、Xはピンインシーケンスであってもよく、Odetは誤り訂正対象のテキストの誤り検出ラベリングシーケンスであってもよく、誤り検出ラベリングシーケンスは誤り訂正対象のテキストと1対1で対応する。
具体的には、誤り訂正対象のテキスト内の誤字を決定して誤り検出ラベリングシーケンスを得た後、上記の式(1)により、誤り訂正対象のテキスト内の誤字を対応するピンインシーケンス内のピンインに置き換えて、誤り訂正対象のピンインテキストを取得することができ、これにより誤り訂正対象のピンインテキストを正確に得ることができ、テキスト誤り訂正の正確性をさらに向上させることができる。
テキスト誤り訂正の正確性をさらに向上させるために、本出願の一実施例では、図4に示すように、テキスト誤り訂正モデルは、以下の方式でトレーニングされて得られる。
ステップ401、サンプルテキスト及びサンプルテキストに対応するサンプルピンインシーケンスを取得する。ここで、サンプルテキスト及びそれに対応するサンプルピンインシーケンスは複数であってもよい。
本出願の実施例では、サンプルテキスト及びそれに対応するサンプルピンインシーケンスを取得するための手段は複数があり、ここで、電子機器によりテキスト誤り訂正が行われる度のテキスト及びそれに対応するピンインシーケンスを、サンプルテキスト及びそれに対応するサンプルピンインシーケンスとする手段もあれば、エンジニアにより直接提供される専門的なサンプルテキスト及びそれに対応するサンプルピンインシーケンスとする手段もあり、ここでは、何ら限定されない。
ステップ402、サンプルテキストのターゲットテキストを取得する。
本出願の実施例では、サンプルテキストのターゲットテキストは、トレーニングを担当するエンジニアにより提供されてもよい。
ステップ403、サンプルテキスト及びサンプルピンインシーケンスをテキスト誤り訂正モデルに入力して、予測されたサンプル誤り訂正テキストを生成する。
ステップ404、予測された誤り訂正テキスト及びターゲットテキストに基づいて損失値を生成し、損失値に基づいてテキスト誤り訂正モデルをトレーニングする。
具体的には、サンプルテキスト及びサンプルテキストに対応するサンプルピンインシーケンス、サンプルテキストのターゲットテキストを取得した後、サンプルテキスト及びサンプルピンインシーケンスをテキスト誤り訂正モデルに入力して、予測されたサンプル誤り訂正テキストを生成し、予測された誤り訂正テキスト及びターゲットテキストに基づいて損失値を生成し、損失値に基づいてテキスト誤り訂正モデルをトレーニングすることで、テキスト誤り訂正モデルを最適化してテキスト誤り訂正の精度を向上させることができる。
本出願の実施例では、テキスト誤り訂正モデルのトレーニングと生成は、関連するサーバにより行われ、当該サーバは、クラウドサーバであってもよいし、コンピュータのホストであってもよく、当該サーバと、実行可能な出願の実施例にて提供される電子機器との間に、通信接続が確立され、当該通信接続は、無線ネットワーク接続と有線ネットワーク接続の少なくとも1つであってもよい。サーバは、電子機器の計算圧力を大幅に低減するために、電子機器が必要に応じて呼び出すように、トレーニング済みテキスト誤り訂正モデルを電子機器に送信することができる。
本出願の別の実施例では、図5に示すように、テキスト誤り訂正モデルは、以下の方式でトレーニングされて得られる。
ステップ501、サンプルテキスト及びサンプルテキストに対応するサンプルピンインシーケンスを取得する。ここで、サンプルテキスト及びそれに対応するサンプルピンインシーケンスは複数であってもよい。
本出願の実施例では、サンプルテキスト及びそれに対応するサンプルピンインシーケンスを取得するための手段は複数があり、ここで、電子機器によりテキスト誤り訂正が行われる度のテキスト及びそれに対応するピンインシーケンスを、サンプルテキスト及びそれに対応するサンプルピンインシーケンスとする手段もあれば、エンジニアにより直接提供される専門的なサンプルテキスト及びそれに対応するサンプルピンインシーケンスとする手段もあり、ここでは、何ら限定されない。
ステップ502、サンプルテキストのターゲットピンインテキスト及びターゲットテキストを取得する。
本出願の実施例では、サンプルテキストのターゲットピンインテキスト及びターゲットテキストは、トレーニングを担当するエンジニアにより提供されてもよい。
ステップ503、サンプルテキスト及びサンプルピンインシーケンスをテキスト誤り訂正モデルに入力して、予測されたサンプルピンインテキスト及び予測されたサンプル誤り訂正テキストを生成する。
本出願の実施例では、関連するトレーニングエンジニアは技術案により、テキスト誤り訂正モデルが、作業中に生成したサンプルピンインテキストを、最後に出力されたサンプル誤り訂正テキストと共に出力するようにすることができる。
ステップ504、予測されたサンプルピンインテキスト及びターゲットピンインテキストに基づいて第1の損失値を生成し、予測されたサンプル誤り訂正テキスト及びターゲットテキストに基づいて第2の損失値を生成する。
ステップ505、第1の損失値及び第2の損失値に基づいてテキスト誤り訂正モデルをトレーニングする。
具体的には、サンプルテキスト及びサンプルテキストに対応するサンプルピンインシーケンス、サンプルテキストのターゲットテキストを取得した後、サンプルテキスト及びサンプルピンインシーケンスをテキスト誤り訂正モデルに入力して予測されたサンプルピンインテキスト及び予測されたサンプル誤り訂正テキストを生成し、続いて、予測されたサンプルピンインテキスト及びターゲットピンインテキストに基づいて第1の損失値を生成し、予測されたサンプル誤り訂正テキスト及びターゲットテキストに基づいて第2の損失値を生成し、及び第1の損失値及び第2の損失値に基づいてテキスト誤り訂正モデルをトレーニングすることができる。これにより、テキスト誤り訂正モデルの最終的な出力結果、及び作業中にテキスト誤り訂正モデルにより生成されたサンプルピンインテキストを同時にトレーニングすることで、テキスト誤り訂正モデルをさらに最適化して、テキスト誤り訂正の精度を大幅に向上させることができる。
本出願の一実施例では、上記のサンプルテキストは、マスクサンプルテキスト、紛らわしい字のサンプルテキスト、及び紛らわしい字のピンインサンプルテキストのうちの1つ以上を含むことができる。例えば、
Figure 0007267365000007
のマスクサンプルテキストは、
Figure 0007267365000008
であってもよく、
Figure 0007267365000009
の紛らわしい字のサンプルテキストは、
Figure 0007267365000010
であってもよく、
Figure 0007267365000011
のピンインサンプルテキストは、
Figure 0007267365000012
であってもよい。これにより、異なる種類のサンプルを取得してテキスト誤り訂正モデルをトレーニングすることで、テキスト誤り訂正モデルの精度を大幅に最適化することができる。
図6は、本出願の実施例にて提供されるテキスト誤り訂正装置の構造の概略図である。
本出願の実施例のテキスト誤り訂正装置は、電子機器に配置されて、誤り訂正対象のテキスト及び誤り訂正対象のテキストのピンインシーケンスを取得し、誤り訂正対象のテキスト及びピンインシーケンスをテキスト誤り訂正モデルに入力することによって、誤り訂正された誤り訂正済みテキストを取得することができる。
図6に示すように、当該テキスト誤り訂正装置600は、第1の取得モジュール610と、第2の取得モジュール620と、誤り訂正モジュール630と、を含むことができる。
ここで、第1の取得モジュール610は、誤り訂正対象のテキストを取得することに用いられる。なお、当該実施例で説明した誤り訂正対象のテキストは、種々の書記言語で表現されたテキストであってもよく、例えば、中国語のテキストであってもよい。誤り訂正対象のテキストには、ニュース記事などの文、段落、又は章節が含まれてもよい。
本出願の実施例では、誤り訂正テキストは、ユーザが音声認識により入力したテキスト情報、及びユーザが入力方法により入力方法システムに入力した入力内容を含んでもよく、入力方法システムは、ユーザの現在の入力方式に基づいて、入力内容を入力された文字の単語候補に変換し、ユーザにより選択されるようにユーザに提供し、ユーザは、例えばキーボード、タッチパネル、マウスなどのような複数の入力手段によりテキスト情報の入力を行うことができるとともに、例えばピンイン、五筆字型入力方法、筆画、手書きなどのような任意の入力方式を選択してテキスト情報の入力を行うこともできるが、ここでは、何ら限定されない。
1つの可能な形態として、上記の誤り訂正テキストは、ユーザがコピーアンドペーストで取得したテキスト情報をさらに含むことができる。
具体的には、第1の取得モジュール610は、例えば、ユーザが入力方法により
Figure 0007267365000013
と入力した場合など、ユーザが入力方法により入力方法システムに入力した入力内容を取得することができる。
第2の取得モジュール620は、誤り訂正対象のテキストのピンインシーケンスを取得することに用いられる。
本出願の実施例では、誤り訂正対象のテキストが漢字からなる場合、第2の取得モジュール620は、漢字のピンインを誤り訂正対象のテキストのピンインシーケンスとしてもよく、誤り訂正対象のテキストが漢字と非漢字からなる場合、第2の取得モジュール620は、漢字のピンインと非漢字自体からなる全体を誤り訂正対象のテキストのピンインシーケンスとしてもよく、ここで、非漢字には、数字、英単語、及び/又はピンインが含まれる。
例えば、誤り訂正対象のテキストが
Figure 0007267365000014
である場合、誤り訂正対象のテキストのピンインシーケンスは「ta de yu shuo de hen hao」であってもよい。例えば、誤り訂正対象のテキストが
Figure 0007267365000015
である場合、誤り訂正対象のテキストのピンインシーケンスは「ta de yu shuo de hen hao」であってもよい。例えば、誤り訂正対象のテキストが
Figure 0007267365000016
である場合、誤り訂正対象のテキストのピンインシーケンスは「wo lao po gei wo mai le yi shuang adidas yun dong xie」であってもよい。
なお、当該実施例で説明したピンインシーケンス内のピンインは声調記号をつけてもよく
、上記の例には示されていない。
1つの可能な形態として、第2の取得モジュール620は、誤り訂正対象のテキストをピンイン抽出モデルに入力し、当該ピンイン抽出モデルにより誤り訂正対象のテキスト内のピンイン情報を抽出して、誤り訂正対象のテキストのピンインシーケンスを得ることができる。
なお、当該実施例で説明したピンイン抽出モデルは、呼び出して応用することを容易にするために電子機器のメモリ空間に予め記憶することができ、当該メモリ空間は、エンティティに基づくメモリ空間、例えばハードディスクに限定されず、上記のメモリ空間は、電子機器に接続されたネットワークハードディスクのメモリ空間(クラウドメモリ空間)であってもよい。
誤り訂正モジュール630は、誤り訂正対象のテキスト及びピンインシーケンスをテキスト誤り訂正モデルに入力することによって、誤り訂正された誤り訂正済みテキストを取得することに用いられる。
なお、当該実施例で説明したテキスト誤り訂正モデルは、呼び出して応用することを容易にするために、事前にトレーニングして、電子機器のメモリ空間に予め記憶することができる。また、当該実施例で説明したテキスト誤り訂正モデルは、トレーニングコーパスに基づいてニューラルネットワークモデルをトレーニングすることにより得られるものであってもよく、ここで、当該ニューラルネットワークモデルは、複数の層を含み得る。
具体的には、第1の取得モジュール610は、誤り訂正対象のテキストを取得し、第2の取得モジュール620は、誤り訂正テキストのピンインシーケンスを取得した後、誤り訂正モジュール630は、誤り訂正対象のテキスト及び誤り訂正対象のテキストのピンインシーケンスをテキスト誤り訂正モデルに入力することで、当該テキスト誤り訂正モデルにより誤り訂正対象のテキスト及び誤り訂正対象のテキストのピンインシーケンスを処理して、誤り訂正対象のテキストに対する誤り訂正された誤り訂正済みテキストを取得することができる。
本出願の実施例では、第1の取得モジュールにより誤り訂正対象のテキストを取得し、第2の取得モジュールにより誤り訂正対象のテキストのピンインシーケンスを取得し、誤り訂正モジュールにより誤り訂正対象のテキスト及びピンインシーケンスをテキスト誤り訂正モデルに入力することによって、誤り訂正された誤り訂正済みテキストを取得する。これにより、テキストの誤り訂正を効果的に行うことができ、さらに誤り訂正済みテキストの正確性を向上させることができる。
本出願の一実施例では、図6に示すように、誤り訂正モジュール630は、誤り訂正対象のテキスト及びピンインシーケンスをテキスト誤り訂正モデルに入力するために用いられ、ここで、テキスト誤り訂正モデルは、テキスト誤り訂正モデルが誤り訂正対象のテキスト内の誤字を検出することによって、誤り訂正対象のテキスト内の誤字を決定するステップと、テキスト誤り訂正モデルが誤字に対応するピンインシーケンス内のピンインを取得し、誤字をピンインに置き換えて、誤り訂正対象のピンインテキストを取得するステップと、テキスト誤り訂正モデルが誤り訂正対象のピンインテキストを誤り訂正して、誤り訂正済みテキストを取得するステップと、により誤り訂正済みテキストを生成する。なお、当該実施例で説明したテキスト誤り訂正モデルは、テキスト誤り訂正装置600に即時に呼び出されるように、テキスト誤り訂正装置600に設置されてもよい。
本出願の一実施例では、テキスト誤り訂正モデルは、以下の式で誤り訂正対象のピンインテキストXwp=W*Odet+X*(1-Odet)を取得することができ、ここで、Xwpは誤り訂正対象のピンインテキストであってもよく、Wは誤り訂正対象のテキストであってもよく、Xはピンインシーケンスであってもよく、Odetは誤り訂正対象のテキストの誤り検出ラベリングシーケンスであってもよく、誤り検出ラベリングシーケンスは誤り訂正対象のテキストと1対1で対応する。
本出願の別の実施例では、図7に示すように、テキスト誤り訂正装置700は、第1の取得モジュール710と、第2の取得モジュール720と、誤り訂正モジュール730と、第1のトレーニングモジュール740と、を含むことができ、ここで、第1のトレーニングモジュール740は、サンプルテキスト及びサンプルテキストに対応するサンプルピンインシーケンスを取得し、サンプルテキストのターゲットテキストを取得し、サンプルテキスト及びサンプルピンインシーケンスをテキスト誤り訂正モデルに入力して、予測されたサンプル誤り訂正テキストを生成し、予測された誤り訂正テキスト及びターゲットテキストに基づいて損失値を生成し、損失値に基づいてテキスト誤り訂正モデルをトレーニングすることに用いられる。
なお、上記の実施例で説明した第1の取得モジュール610及び第1の取得モジュール710、第2の取得モジュール620及び第2の取得モジュール720、誤り訂正モジュール630及び誤り訂正モジュール730は、同じ機能及び構造を有し得る。
本出願の別の実施例では、図7に示すように、上記のテキスト誤り訂正装置700は、第2のトレーニングモジュール750をさらに含むことができ、ここで、第2のトレーニングモジュール750は、サンプルテキスト及びサンプルテキストに対応するサンプルピンインシーケンスを取得し、サンプルテキストのターゲットピンインテキスト及びターゲットテキストを取得し、サンプルテキスト及びサンプルピンインシーケンスをテキスト誤り訂正モデルに入力して、予測されたサンプルピンインテキスト及び予測されたサンプル誤り訂正テキストを生成し、予測されたサンプルピンインテキスト及びターゲットピンインテキストに基づいて第1の損失値を生成し、予測されたサンプル誤り訂正テキスト及びターゲットテキストに基づいて第2の損失値を生成し、第1の損失値及び第2の損失値に基づいてテキスト誤り訂正モデルをトレーニングすることに用いられる。
本出願の一実施例では、サンプルテキストは、マスクサンプルテキスト、紛らわしい字のサンプルテキスト、及び紛らわしい字のピンインサンプルテキストのうちの1つ以上を含むことができる。
なお、上述したテキスト誤り訂正方法の実施例に対する解釈や説明は、当該実施例のテキスト誤り訂正装置にも適用可能であり、ここでは繰り返して説明しない。
本出願の実施例のテキスト誤り訂正装置は、第1の取得モジュールにより誤り訂正対象のテキストを取得し、第2の取得モジュールにより誤り訂正対象のテキストのピンインシーケンスを取得し、誤り訂正モジュールにより誤り訂正対象のテキスト及びピンインシーケンスをテキスト誤り訂正モデルに入力することによって、誤り訂正された誤り訂正済みテキストを取得する。これにより、テキストの誤り訂正を効果的に行うことができ、さらに誤り訂正済みテキストの正確性を向上させることができる。
本出願の実施例によれば、本出願は、電子機器、読み取り可能な記憶媒体及びコンピュータプログラム製品をさらに提供する。
本出願の実施例によれば、本出願は、コンピュータプログラムを提供し、コンピュータプログラムは、コンピュータに本出願によって提供されるテキスト誤り訂正方法を実行させる。
図8は、本出願の実施例を実施するための例示的な電子機器800の概略的なブロック図を示す。電子機器は、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを意図している。電子機器は、さらに、例えば、パーソナルデジタルプロセッシング、携帯電話、スマートフォン、ウェアラブル機器、及び他の類似のコンピューティング装置などの様々な形態のモバイル装置を表すことができる。本明細書に示される構成要素、それらの接続及び関係、並びにそれらの機能は、単なる例であり、本明細書に説明及び/又は要求される本出願の実現を限定することを意図しない。
図8に示すように、機器800は、リードオンリーメモリ(ROM)802に記憶されたコンピュータプログラム又は記憶ユニット808からランダムアクセスメモリ(RAM)803にロードされたコンピュータプログラムにより、様々な適切な動作及び処理を実行することができる計算ユニット801を含む。RAM803には、機器800の操作に必要な様々なプログラム及びデータも記憶されてもよい。計算ユニット801、ROM 802及びRAM 803は、バス804を介して互いに接続される。入力/出力(I/O)インタフェース808もバス804に接続される。
機器800の複数の構成要素はI/Oインタフェース808に接続され、キーボード、マウスなどの入力ユニット806と、様々なタイプのディスプレイ、スピーカーなどの出力ユニット807と、磁気ディスク、光ディスクなどの記憶ユニット808と、ネットワークカード、モデム、無線通信送受信機などの通信ユニット809と、を含む。通信ユニット809は、機器800がインターネットなどのコンピュータネットワーク及び/又は様々な電気通信ネットワークを介して、他の機器と情報/データを交換することを可能にする。
計算ユニット801は、処理及び計算能力を有する様々な汎用及び/又は専用処理コンポーネントであり得る。計算ユニット801のいくつかの例は、中央処理ユニット(CPU)、グラフィック処理ユニット(GPU)、様々な専用人工知能(AI)計算チップ、様々な機械学習モデルアルゴリズムを実行する計算ユニット、デジタルシグナルプロセッサ(DSP)、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット801は、上述した各方法と処理、例えば、テキスト誤り訂正方法を実行する。例えば、いくつかの実施例では、テキスト誤り訂正方法は、記憶ユニット808などの機械読み取り可能な媒体に有形に組み込まれたコンピュータソフトウェアプログラムとして実現され得る。いくつかの実施例では、コンピュータプログラムの一部又は全部は、ROM 802及び/又は通信ユニット809を介して機器800にロード及び/又はインストールされ得る。コンピュータプログラムがRAM 803にロードされ、計算ユニット801により実行される時、上述したテキスト誤り訂正方法の1つ以上のステップが実行され得る。選択可能に、他の実施例では、計算ユニット801は、他の任意の適切な方式(例えば、ファームウェアを介して)でテキスト誤り訂正方法を実行するように構成されてもよい。
本明細書で説明したシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、負荷プログラマブル論理デバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせで実現され得る。これらの様々な実施形態は1つ以上のコンピュータプログラムで実施されることを含むことができ、この1つ以上のコンピュータプログラムは、専用又は汎用のプログラマブルプロセッサであり得る少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行及び/又は解釈することができ、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、当該記憶システム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置にデータ及び命令を送信することを含み得る。
本出願の方法を実施するためのプログラムコードは、1つ以上のプログラミング言語の任意の組み合わせでプログラミングすることができる。これらのプログラムコードは、汎用コンピュータ、特定用途向けコンピュータ、又は他のプログラム可能なデータ処理装置のプロセッサ又はコントローラに提供され、プログラムコードがプロセッサ又はコントローラにより実行されると、フローチャート及び/又はブロック図において特定された機能/操作が実施されるようにしてもよい。プログラムコードは、完全にマシン上で実行されてもよく、部分的にマシン上で実行されてもよく、独立型ソフトウェアパッケージとして一部がマシン上で実行され、一部がリモートマシン上で実行され、又は完全にリモートマシン又はサーバ上で実行されてもよい。
本出願の文脈において、機械読み取り可能な媒体は、命令実行システム、装置、又は機器により、又は命令実行システム、装置、又は機器と組み合わせて使用されるプログラムを含む、又は記憶することができる有形媒体であり得る。機械読み取り可能な媒体は、機械読み取り可能な信号媒体又は機械読み取り可能な記憶媒体であり得る。機械読み取り可能な媒体は、電子的、磁気的、光学的、電磁的、赤外線、又は半導体システム、装置、又は機器、又は上記の任意の適切な組み合わせを含むが、これらに限定されない。機械読み取り可能な記憶媒体のより具体的な例は、1つ以上の配線に基づく電気接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能なプログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスクリードオンリーメモリ(CD-ROM)、光記憶機器、磁気記憶機器、又は上記の任意の適切な組み合わせを含むが、これらに限定されない。
ユーザとのインタラクションを提供するために、ここで説明されるシステム及び技術をコンピュータ上で実施することができ、当該コンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティング装置(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティング装置により入力をコンピュータに提供することができる。他のタイプの装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、ユーザからの入力は任意の形態(音入力、音声入力、又は触覚入力を含む)で受信することができる。
ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとして)、又はミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータであり、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによりここで説明されるシステム及び技術の実施形態とインタラクションする)、又はこのようなバックエンドコンポーネント、ミドルウェアコンポーネント、又はフロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施することができる。任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によりシステムのコンポーネントを相互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)とインターネットと、インターネットとブロックチェーンネットワークと、を含む。
コンピュータシステムは、クライアント及びサーバを含み得る。クライアント及びサーバは、一般的に、互いに離れており、通常、通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、かつ互いにクライアント-サーバの関係を有するコンピュータプログラムにより、クライアントとサーバとの関係が生成される。サーバは、クラウドコンピューティングサーバ又はクラウドホストとも称され、クラウドコンピューティングサービスシステムにおけるホスト製品の1つであるクラウドサーバであってもよく、従来の物理ホスト及びVPSサービス(「Virtual Private Server」又は「VPS」と略称される)における、管理の困難さが大きく、サービスの拡張性が弱いという欠点を解決する。サーバは、分散システムのサーバ、又は、ブロックチェーンと組み合わせたサーバであってもよい。
なお、上記に示される様々な形態のフローを使用して、ステップを並べ替えたり、追加したり、又は削除したりすることができる。例えば、本出願に記載されている各ステップは、並列に実行されてもよいし、順次実行されてもよいし、異なる順序で実行されてもよいが、本出願で開示されている技術的解決手段の所望の結果を実現することができれば、本明細書では限定されない。
上記の具体的な実施形態は、本出願の保護範囲を限定するものではない。当業者であれば、設計要件と他の要因に基づいて、様々な誤り訂正、組み合わせ、サブコンビネーション、及び代替を行うことができる。本出願の精神と原則内で行われる任意の誤り訂正、同等の置換、及び改善などは、いずれも本出願の保護範囲内に含まれるべきである。

Claims (11)

  1. テキスト誤り訂正方法であって、
    誤り訂正対象のテキストを取得するステップと、
    前記誤り訂正対象のテキストのピンインシーケンスを取得するステップと、
    前記誤り訂正対象のテキスト及び前記ピンインシーケンスをテキスト誤り訂正モデルに入力して、誤り訂正された誤り訂正済みテキストを取得するステップと、を含み、
    前記誤り訂正対象のテキスト及び前記ピンインシーケンスをテキスト誤り訂正モデルに入力して、誤り訂正された誤り訂正済みテキストを取得するステップは、
    前記誤り訂正対象のテキスト及び前記ピンインシーケンスを前記テキスト誤り訂正モデルに入力するステップを含み、前記テキスト誤り訂正モデルが以下の方式で誤り訂正済みテキストを生成し、前記方式は、
    前記テキスト誤り訂正モデルが、前記誤り訂正対象のテキスト内の誤字を検出して、前記誤り訂正対象のテキスト内の誤字を決定し、
    前記テキスト誤り訂正モデルが、前記誤字に対応する前記ピンインシーケンス内のピンインを取得し、前記誤字を前記ピンインに置き換えて、誤り訂正対象のピンインテキストを取得し、
    前記テキスト誤り訂正モデルが、前記誤り訂正対象のピンインテキストを誤り訂正して、前記誤り訂正済みテキストを取得するステップにより前記誤り訂正済みテキストを生成し、
    以下の式で前記誤り訂正対象のピンインテキストを取得し、
    wp =W *O det +X *(1-O det )、
    前記Xw は、前記誤り訂正対象のピンインテキストであり、前記W は、前記誤り訂正対象のテキストであり、前記Xpは、前記ピンインシーケンスであり、前記O det は、前記誤り訂正対象のテキストの誤り検出ラベリングシーケンスであり、前記誤り検出ラベリングシーケンスが前記誤り訂正対象のテキストと1対1で対応し、
    前記テキスト誤り訂正モデルは、エンコーダネットワーク層と誤り訂正ネットワーク層とを含み、テキスト誤り訂正モデルのエンコーダネットワーク層は、誤り訂正対象のテキスト内の誤字を検出することによって、誤り訂正対象のテキスト内の誤字を決定し、誤り訂正対象のテキスト内の誤字を決定した後、誤り訂正対象のテキストと1対1で対応する誤り検出ラベリングシーケンスを生成する、
    ことを特徴とするテキスト誤り訂正方法。
  2. 前記テキスト誤り訂正モデルは、
    サンプルテキスト及び前記サンプルテキストに対応するサンプルピンインシーケンスを取得するステップと、
    前記サンプルテキストのターゲットテキストを取得するステップと、
    前記サンプルテキスト及び前記サンプルピンインシーケンスを前記テキスト誤り訂正モデルに入力して、予測されたサンプル誤り訂正テキストを生成するステップと、
    前記予測された誤り訂正テキスト及び前記ターゲットテキストに基づいて損失値を生成し、前記損失値に基づいて前記テキスト誤り訂正モデルをトレーニングするステップと、を含む方式でトレーニングされて得られる、
    ことを特徴とする請求項1に記載のテキスト誤り訂正方法。
  3. 前記テキスト誤り訂正モデルは、
    サンプルテキスト及び前記サンプルテキストに対応するサンプルピンインシーケンスを取得するステップと、
    前記サンプルテキストのターゲットピンインテキスト及びターゲットテキストを取得するステップと、
    前記サンプルテキスト及び前記サンプルピンインシーケンスを前記テキスト誤り訂正モデルに入力して、予測されたサンプルピンインテキスト及び予測されたサンプル誤り訂正テキストを生成するステップと、
    前記予測されたサンプルピンインテキスト及び前記ターゲットピンインテキストに基づいて第1の損失値を生成し、前記予測されたサンプル誤り訂正テキスト及び前記ターゲットテキストに基づいて第2の損失値を生成するステップと、
    前記第1の損失値及び前記第2の損失値に基づいて前記テキスト誤り訂正モデルをトレーニングするステップと、を含む方式でトレーニングされて得られる、
    ことを特徴とする請求項1に記載のテキスト誤り訂正方法。
  4. 前記サンプルテキストは、マスクサンプルテキスト、紛らわしい字のサンプルテキスト、及び紛らわしい字のピンインサンプルテキストのうちの1つまたは複数を含む、
    ことを特徴とする請求項に記載のテキスト誤り訂正方法。
  5. テキスト誤り訂正装置であって、
    誤り訂正対象のテキストを取得するための第1の取得モジュールと、
    前記誤り訂正対象のテキストのピンインシーケンスを取得するための第2の取得モジュールと、
    前記誤り訂正対象のテキスト及び前記ピンインシーケンスをテキスト誤り訂正モデルに入力して、誤り訂正された誤り訂正済みテキストを取得するための誤り訂正モジュールと、を含
    前記誤り訂正モジュールが、
    前記誤り訂正対象のテキスト及び前記ピンインシーケンスを前記テキスト誤り訂正モデルに入力し、
    前記テキスト誤り訂正モデルが以下の方式で誤り訂正済みテキストを生成し、前記方式は、
    前記テキスト誤り訂正モデルが、前記誤り訂正対象のテキスト内の誤字を検出して、前記誤り訂正対象のテキスト内の誤字を決定し、
    前記テキスト誤り訂正モデルが、前記誤字に対応する前記ピンインシーケンス内のピンインを取得し、前記誤字を前記ピンインに置き換えて、誤り訂正対象のピンインテキストを取得し、
    前記テキスト誤り訂正モデルが、前記誤り訂正対象のピンインテキストを誤り訂正して、前記誤り訂正済みテキストを取得するステップにより前記誤り訂正済みテキストを生成し、
    前記テキスト誤り訂正モデルが、以下の式で前記誤り訂正対象のピンインテキストを取得し、
    wp =W *O det +X *(1-O det )、
    前記X wp は、前記誤り訂正対象のピンインテキストであり、前記W は、前記誤り訂正対象のテキストであり、前記X は、前記ピンインシーケンスであり、前記O det は、前記誤り訂正対象のテキストの誤り検出ラベリングシーケンスであり、前記誤り検出ラベリングシーケンスが前記誤り訂正対象のテキストと1対1で対応し、
    前記テキスト誤り訂正モデルは、エンコーダネットワーク層と誤り訂正ネットワーク層とを含み、テキスト誤り訂正モデルのエンコーダネットワーク層は、誤り訂正対象のテキスト内の誤字を検出することによって、誤り訂正対象のテキスト内の誤字を決定し、誤り訂正対象のテキスト内の誤字を決定した後、誤り訂正対象のテキストと1対1で対応する誤り検出ラベリングシーケンスを生成する、
    ことを特徴とするテキスト誤り訂正装置。
  6. 第1のトレーニングモジュールをさらに含み、前記第1のトレーニングモジュールが、サンプルテキスト及び前記サンプルテキストに対応するサンプルピンインシーケンスを取得し、前記サンプルテキストのターゲットテキストを取得し、前記サンプルテキスト及び前記サンプルピンインシーケンスを前記テキスト誤り訂正モデルに入力して、予測されたサンプル誤り訂正テキストを生成し、前記予測された誤り訂正テキスト及び前記ターゲットテキストに基づいて損失値を生成し、前記損失値に基づいて前記テキスト誤り訂正モデルをトレーニングする、
    ことを特徴とする請求項に記載のテキスト誤り訂正装置。
  7. 第2のトレーニングモジュールをさらに含み、前記第2のトレーニングモジュールが、サンプルテキスト及び前記サンプルテキストに対応するサンプルピンインシーケンスを取得し、前記サンプルテキストのターゲットピンインテキスト及びターゲットテキストを取得し、前記サンプルテキスト及び前記サンプルピンインシーケンスを前記テキスト誤り訂正モデルに入力して、予測されたサンプルピンインテキスト及び予測されたサンプル誤り訂正テキストを生成し、前記予測されたサンプルピンインテキスト及び前記ターゲットピンインテキストに基づいて第1の損失値を生成し、前記予測されたサンプル誤り訂正テキスト及び前記ターゲットテキストに基づいて第2の損失値を生成し、前記第1の損失値及び前記第2の損失値に基づいて前記テキスト誤り訂正モデルをトレーニングする、
    ことを特徴とする請求項に記載のテキスト誤り訂正装置。
  8. 前記サンプルテキストは、マスクサンプルテキスト、紛らわしい字のサンプルテキスト、及び紛らわしい字のピンインサンプルテキストのうちの1つまたは複数を含む、
    ことを特徴とする請求項に記載のテキスト誤り訂正装置。
  9. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサに通信可能に接続されるメモリと、を備え、
    前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも1つのプロセッサが請求項1~のいずれか1項に記載のテキスト誤り訂正方法を実行できるように、前記少なくとも1つのプロセッサによって実行される、
    ことを特徴とする電子機器。
  10. コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
    前記コンピュータ命令は、コンピュータに請求項1~のいずれか1項に記載のテキスト誤り訂正方法を実行させる、
    ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。
  11. コンピュータプログラムであって、
    前記コンピュータプログラムは、コンピュータに請求項1~のいずれか1項に記載のテキスト誤り訂正方法を実行させる、
    ことを特徴とするコンピュータプログラム。
JP2021145558A 2020-12-11 2021-09-07 テキスト誤り訂正方法、装置、電子機器及び記憶媒体 Active JP7267365B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202011442447.6 2020-12-11
CN202011442447.6A CN112232062A (zh) 2020-12-11 2020-12-11 文本纠错方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
JP2022003539A JP2022003539A (ja) 2022-01-11
JP7267365B2 true JP7267365B2 (ja) 2023-05-01

Family

ID=74124193

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021145558A Active JP7267365B2 (ja) 2020-12-11 2021-09-07 テキスト誤り訂正方法、装置、電子機器及び記憶媒体

Country Status (3)

Country Link
US (1) US11423222B2 (ja)
JP (1) JP7267365B2 (ja)
CN (1) CN112232062A (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112735396A (zh) * 2021-02-05 2021-04-30 北京小米松果电子有限公司 语音识别纠错方法、装置及存储介质
CN113192497B (zh) * 2021-04-28 2024-03-01 平安科技(深圳)有限公司 基于自然语言处理的语音识别方法、装置、设备及介质
CN113571041A (zh) * 2021-07-21 2021-10-29 北京淇瑀信息科技有限公司 语音识别文本处理方法、装置和电子设备
CN113743101B (zh) * 2021-08-17 2023-05-23 北京百度网讯科技有限公司 文本纠错方法、装置、电子设备和计算机存储介质
CN113626563A (zh) * 2021-08-30 2021-11-09 京东方科技集团股份有限公司 训练自然语言处理模型和自然语言处理的方法、电子设备
CN113779972B (zh) * 2021-09-10 2023-09-15 平安科技(深圳)有限公司 语音识别纠错方法、系统、装置及存储介质
CN113782030B (zh) * 2021-09-10 2024-02-02 平安科技(深圳)有限公司 基于多模态语音识别结果纠错方法及相关设备
CN114239559B (zh) * 2021-11-15 2023-07-11 北京百度网讯科技有限公司 文本纠错和文本纠错模型的生成方法、装置、设备和介质
CN114218937B (zh) * 2021-11-24 2022-12-02 中国科学院深圳先进技术研究院 数据纠错方法、装置及电子设备
CN115358217A (zh) * 2022-09-02 2022-11-18 美的集团(上海)有限公司 词句的纠错方法、装置、可读存储介质和计算机程序产品
CN115437511B (zh) * 2022-11-07 2023-02-21 北京澜舟科技有限公司 一种拼音汉字转换方法、转换模型训练方法及存储介质
CN116127953B (zh) * 2023-04-18 2023-07-25 之江实验室 一种基于对比学习的中文拼写纠错方法、装置和介质
CN117591634A (zh) * 2023-12-04 2024-02-23 广东南方智媒科技有限公司 一种文本纠错方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008504605A (ja) 2004-06-23 2008-02-14 グーグル、インコーポレイテッド 非ローマ文字および単語のスペル修正のためのシステムおよび方法
US20200184953A1 (en) 2016-07-26 2020-06-11 Baidu Online Network Technology (Beijing) Co., Ltd Method, device, and storage medium for correcting error in speech recognition result
CN111859921A (zh) 2020-07-08 2020-10-30 金蝶软件(中国)有限公司 文本纠错方法、装置、计算机设备和存储介质
CN111985213A (zh) 2020-09-07 2020-11-24 科大讯飞华南人工智能研究院(广州)有限公司 一种语音客服文本纠错的方法和装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110032722A (zh) * 2018-01-12 2019-07-19 北京京东尚科信息技术有限公司 文本纠错方法和装置
CN111523306A (zh) * 2019-01-17 2020-08-11 阿里巴巴集团控股有限公司 文本的纠错方法、装置和系统
CN110765772A (zh) * 2019-10-12 2020-02-07 北京工商大学 拼音作为特征的中文语音识别后的文本神经网络纠错模型
CN111783433A (zh) * 2019-12-26 2020-10-16 北京沃东天骏信息技术有限公司 一种文本检索纠错方法和装置
CN111985234B (zh) * 2020-09-08 2022-02-01 四川长虹电器股份有限公司 语音文本纠错方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008504605A (ja) 2004-06-23 2008-02-14 グーグル、インコーポレイテッド 非ローマ文字および単語のスペル修正のためのシステムおよび方法
US20200184953A1 (en) 2016-07-26 2020-06-11 Baidu Online Network Technology (Beijing) Co., Ltd Method, device, and storage medium for correcting error in speech recognition result
CN111859921A (zh) 2020-07-08 2020-10-30 金蝶软件(中国)有限公司 文本纠错方法、装置、计算机设备和存储介质
CN111985213A (zh) 2020-09-07 2020-11-24 科大讯飞华南人工智能研究院(广州)有限公司 一种语音客服文本纠错的方法和装置

Also Published As

Publication number Publication date
US11423222B2 (en) 2022-08-23
CN112232062A (zh) 2021-01-15
US20210248309A1 (en) 2021-08-12
JP2022003539A (ja) 2022-01-11

Similar Documents

Publication Publication Date Title
JP7267365B2 (ja) テキスト誤り訂正方法、装置、電子機器及び記憶媒体
JP7228662B2 (ja) イベント抽出方法、装置、電子機器及び記憶媒体
US8930176B2 (en) Interactive multilingual word-alignment techniques
JP7113097B2 (ja) テキストエンティティの語義記述処理方法、装置及び機器
US11928435B2 (en) Event extraction method, event extraction device, and electronic device
CN113220836B (zh) 序列标注模型的训练方法、装置、电子设备和存储介质
JP7133002B2 (ja) 句読点予測方法および装置
CN111079945B (zh) 端到端模型的训练方法及装置
KR102456535B1 (ko) 의료 사실 검증 방법, 장치, 전자 기기, 저장 매체 및 프로그램
EP3855339A1 (en) Method and apparatus for generating text based on semantic representation
EP4170542A2 (en) Method for sample augmentation
CN111079449B (zh) 平行语料数据的获取方法、装置、电子设备和存储介质
JP7286737B2 (ja) テキスト誤り訂正方法、装置、電子デバイス、記憶媒体及びプログラム
CN109597881B (zh) 匹配度确定方法、装置、设备和介质
JP2022106980A (ja) クエリ文の生成方法、装置、電子機器及び記憶媒体
US11531814B2 (en) Method and device for generating modified statement
EP3869382A2 (en) Method and device for determining answer of question, storage medium and computer program product
EP3822813A1 (en) Similarity processing method, apparatus, server and storage medium
CN113743101A (zh) 文本纠错方法、装置、电子设备和计算机存储介质
CN112507705A (zh) 一种位置编码的生成方法、装置及电子设备
JP2023002730A (ja) テキスト誤り訂正とテキスト誤り訂正モデルの生成方法、装置、機器及び媒体
CN114282551B (zh) 翻译方法、装置、电子设备及存储介质
JP2023162104A (ja) 機械翻訳方法、装置、デバイス及び記憶媒体
CN113221566A (zh) 实体关系抽取方法、装置、电子设备和存储介质
CN114091483B (zh) 翻译处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210907

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220826

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220906

AA91 Notification that invitation to amend document was cancelled

Free format text: JAPANESE INTERMEDIATE CODE: A971091

Effective date: 20220927

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221004

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221228

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230404

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230419

R150 Certificate of patent or registration of utility model

Ref document number: 7267365

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150