JP7349523B2 - 音声認識方法、音声認識装置、電子機器、記憶媒体コンピュータプログラム製品及びコンピュータプログラム - Google Patents

音声認識方法、音声認識装置、電子機器、記憶媒体コンピュータプログラム製品及びコンピュータプログラム Download PDF

Info

Publication number
JP7349523B2
JP7349523B2 JP2022057924A JP2022057924A JP7349523B2 JP 7349523 B2 JP7349523 B2 JP 7349523B2 JP 2022057924 A JP2022057924 A JP 2022057924A JP 2022057924 A JP2022057924 A JP 2022057924A JP 7349523 B2 JP7349523 B2 JP 7349523B2
Authority
JP
Japan
Prior art keywords
pinyin
recognition result
corrected
character string
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022057924A
Other languages
English (en)
Other versions
JP2022088586A (ja
Inventor
ロン リウ,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Apollo Intelligent Connectivity Beijing Technology Co Ltd
Original Assignee
Apollo Intelligent Connectivity Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Apollo Intelligent Connectivity Beijing Technology Co Ltd filed Critical Apollo Intelligent Connectivity Beijing Technology Co Ltd
Publication of JP2022088586A publication Critical patent/JP2022088586A/ja
Application granted granted Critical
Publication of JP7349523B2 publication Critical patent/JP7349523B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Character Discrimination (AREA)

Description

本開示は、コンピュータ技術の分野に関し、より詳しくは、音声認識、自然言語処理などの人工知能技術の分野に関し、特に音声認識方法、音声認識装置、電子機器、記憶媒体、コンピュータプログラム製品及びコンピュータプログラムに関する。
現在、音声インタラクションは、ヒューマンマシンインタラクションでよく使用されているインタラクション方法である。例えば、車載シーンでは、自然言語理解技術によりユーザの音声命令を認識することにより、車両のサンルーフを開けたり、エアコンをつけたりする操作を実現し、より便利で正確で人間らしい運転サービスを提供し、運転体験を向上させることができる。
音声インタラクションにとって、オフライン音声認識は不可欠な機能であり、オフライン音声認識では、製品がローカル認識により音声をテキストに変換できる必要があるだけでなく、ユーザの意図を正しく理解し、それに応じてフィードバックすることが可能な機能も必要であるため、オフライン音声認識結果の精度を向上させることが特に重要である。
本開示は、音声認識方法、音声認識装置、電子機器、記憶媒体、コンピュータプログラム製品及びコンピュータプログラムを提供する。
本開示の第1の態様では、認識対象文の音声認識を行って、初期認識結果を取得するステップと、前記初期認識結果における各文字に対応する少なくとも1つの候補文字ピンイン文字列を取得するステップと、各前記文字に対応する少なくとも1つの前記候補文字ピンイン文字列に基づいて、前記初期認識結果に対応する少なくとも1つの文ピンイン文字列を決定するステップと、少なくとも1つの前記文ピンイン文字列に基づいて、前記初期認識結果のピンイン修正を行って、ピンイン修正された認識結果を生成するステップと
固有名詞データベースに基づいて前記ピンイン修正された認識結果を、固有名詞修正された認識結果として決定するステップと、前記固有名詞修正された認識結果と、全文修正データベース内の複数の修正対象全文認識結果とをマッチングするステップであって、前記全文修正データベースには、複数の前記修正対象全文認識結果と、該修正対象全文認識結果のそれぞれに対応する修正後の全文認識結果とが含まれるステップと、前記全文修正データベースには、前記固有名詞修正された認識結果とマッチングする前記修正対象全文認識結果が存在する場合、前記固有名詞修正された認識結果とマッチングする前記修正対象全文認識結果を、ターゲット修正対象全文認識結果として決定するステップと、前記ターゲット修正対象全文認識結果に対応する前記修正後の全文認識結果を、全文修正された認識結果として決定するステップとを含む音声認識方法が提供される。
本開示の第2の態様では、音声認識装置であって、認識対象文の音声認識を行って、初期認識結果を取得する認識モジュールと、前記初期認識結果における各文字に対応する少なくとも1つの候補文字ピンイン文字列を取得する取得モジュールと、各前記文字に対応する少なくとも1つの前記候補文字ピンイン文字列に基づいて、前記初期認識結果に対応する少なくとも1つの文ピンイン文字列を決定する第1の決定モジュールと、少なくとも1つの前記文ピンイン文字列に基づいて、前記初期認識結果のピンイン修正を行って、ピンイン修正された認識結果を生成する生成モジュールとを備え、前記装置は、固有名詞データベースに基づいて前記ピンイン修正された認識結果を、固有名詞修正された認識結果として決定し、前記装置は、前記固有名詞修正された認識結果と、全文修正データベース内の複数の修正対象全文認識結果とをマッチングさせる第2のモジュールであって、前記全文修正データベースには、複数の前記修正対象全文認識結果と、該修正対象全文認識結果のそれぞれに対応する修正後の全文認識結果とが含まれる第2のマッチングモジュールと、前記全文修正データベースには、前記固有名詞修正された認識結果とマッチングする前記修正対象全文認識結果が存在する場合、前記固有名詞修正された認識結果とマッチングする前記修正対象全文認識結果を、ターゲット修正対象全文認識結果として決定する第4の決定モジュールと、前記ターゲット修正対象全文認識結果に対応する修正後の全文認識結果を、全文修正された認識結果として決定する第5の決定モジュールとをさらに備える音声認識装置が提供される。
本開示の第3の態様では、少なくとも1つのプロセッサと、少なくとも1つの該プロセッサと通信可能に接続されたメモリとを備え、該メモリには、少なくとも1つの前記プロセッサによって実行可能な命令が記憶されており、該命令が少なくとも1つの前記プロセッサによって実行される場合、少なくとも1つの前記プロセッサが上記の音声認識方法を実行する電子機器が提供される。
本開示の第4の態様では、コンピュータに、上記の音声認識方法を実行させるためのコンピュータ命令を記憶した非一時的なコンピュータ読み取り可能な記憶媒体が提供される。
本開示の第5の態様では、プロセッサによって実行される場合、上記の音声認識方法を実現するコンピュータプログラムを含むコンピュータプログラム製品が提供される。
本開示の第6の態様では、プロセッサによって実行される場合、上記の音声認識方法を実現するコンピュータプログラムを含むコンピュータプログラム製品が提供される。
本開示の第7の態様では、プロセッサによって実行される場合、上記の音声認識方法を実現するコンピュータプログラムが提供される。
なお、ここの概要部分に記載された内容は、本開示の実施例のキー特徴または重要な特徴を特定することを意図するものではなく、本開示の範囲を限定することを意図するものでもないことを理解されたい。本開示の他の特徴は下記の明細書の記載によって理解しやすくなる。
図面は、本開示をより良く理解するためのものであり、本開示を限定するものではない。
本開示の第1の実施例に係る音声認識方法の概略フローチャートである。 本開示の第2の実施例に係る音声認識方法の概略フローチャートである。 本開示の第3の実施例に係る音声認識方法の概略フローチャートである。 本開示の第4の実施例に係る音声認識方法の概略フローチャートである。 本開示の第5の実施例に係る音声認識装置の概略構成図である。 本開示の第6の実施例に係る音声認識装置の概略構成図である。 本開示の実施例の音声認識方法を実現するための電子機器のブロック図である。
本開示の例示的な実施例について、図面を参照して以下に説明する。理解を容易にするために、その中に本発明の実施例の様々な詳細が含まれ、それらは単なる例示と見なされるべきである。したがって、当業者は、本発明の範囲及び意図から逸脱することなく、本明細書に記載の実施例に様々な変更及び修正を加えることができる。また、わかりやすくかつ簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。
なお、音声インタラクションにとって、オフライン音声認識は不可欠な機能であり、オフライン音声認識では、製品がローカル認識により音声をテキストに変換できる必要が存在するだけでなく、ユーザの意図を正しく理解し、それに応じてフィードバックすることが可能な機能も必要であるため、オフライン音声認識結果の精度を向上させることが特に重要である。
本開示は、音声認識結果の精度を向上させるために、音声認識方法を提供する。本音声認識方法では、まず、認識対象文の音声認識を行って、初期認識結果を取得し、次に、初期認識結果における各文字に対応する少なくとも1つの候補文字ピンイン文字列を取得し、次に、各文字に対応する少なくとも1つの候補文字ピンイン文字列に基づいて、初期認識結果に対応する少なくとも1つの文ピンイン文字列を決定し、次に、少なくとも1つの文ピンイン文字列に基づいて、初期認識結果のピンイン修正を行って、ピンイン修正された認識結果を生成する。これにより、音声認識結果の精度が向上する。
以下、図面を参照して、本開示の実施例の音声認識方法、音声認識装置、電子機器、非一時的コンピュータ読み取り可能な記憶媒体、コンピュータプログラム製品及びコンピュータプログラムを説明する。
まず、図1を組み合わせて、本開示に係る音声認識方法を詳細に説明する。
図1は、本開示の第1の実施例に係る音声認識方法の概略フローチャートである。本実施例に係る音声認識方法では、実行主体は音声認識装置であり、この音声認識装置は、電子機器であってもよいし、電子機器内に配置されてもよい。これにより、音声認識結果の精度を向上させることができ、本開示の実施例では、音声認識装置が電子機器内に配置されることを一例として説明する。
ここで、電子機器は、ノートパソコン、スマートフォン、ウェアラブルデバイスなどのモバイルコンピューティングデバイス、またはデスクトップコンピュータなどの固定コンピューティングデバイス、またはサーバ、またはその他の種類のコンピューティングデバイスなど、データ処理が可能な任意の固定またはモバイルコンピューティングデバイスであってもよいが、本開示はこれらに限定されない。
図1に示すように、音声認識方法は、以下のステップ101からステップ104を含む。
ステップ101では、認識対象文の音声認識を行って、初期認識結果を取得する。
ここで、初期認識結果は、音声認識装置による認識対象文のオフライン音声認識によって得られてもよいし、音声認識装置による認識対象文のオンライン音声認識によって得られてもよいが、本開示はこれらに限定されない。
相応に、本開示の音声認識方法は、オフライン音声認識結果の精度の向上にも適用可能であり、オンライン認識結果の精度の向上にも適用可能であるが、本開示は、音声認識方法の適用シーンに限定されるものではない。
ステップ102では、初期認識結果における各文字に対応する少なくとも1つの候補文字ピンイン文字列を取得する。
ここで文字ピンイン文字列は、文字に対応するピンインの各アルファベットから構成される。例えば、「実」に対応するピンイン文字列は「shi」であり、「打」に対応するピンイン文字列は「da」である。
例示的な実施例では、音声認識装置は、初期認識結果に対して、文字ごとにピンイン変換を行って、初期認識結果における各文字をピンインに変換することができる。なお、ピンイン変換の過程では、初期認識結果における各文字について、この文字がポリフォニック文字である場合、及び「l」と「r」が区別されない、「h」と「f」が区別されない、前後の鼻音が区別されないなどの発音の欠陥によって、1つの文字が複数のピンイン文字列に対応するということを考慮して、初期認識結果における各文字に対応する少なくとも1つの候補文字ピンイン文字列を取得する必要が存在する。
例えば、車載シーンにおいて、音声認識装置によって得られた認識対象文の初期認識結果は、「打開思思路況」である。この場合、音声認識装置は、この初期認識結果における各文字をピンインに変換することができ、「打」、「開」、「路」、「況」という文字はポリフォニック文字ではなく、通常は発音エラーがないため、「打」に対応する1つの候補文字ピンイン文字列「da」、「開」に対応する1つの候補文字ピンイン文字列「kai」、「路」に対応する1つの候補文字ピンイン文字列「lu」、及び「況」に対応する1つの候補文字ピンイン文字列「kuang」を取得することができる。2つの「思」については、ユーザが発音したときに「sh」と「s」が区別されない場合が存在するため、それぞれの「思」に対応する2つの候補文字ピンイン文字列「shi」と「si」を取得することができる。
または、音声認識装置によって得られた認識対象文の初期認識結果は、「打開音楽」である。この場合、音声認識装置は、この初期認識結果における各文字をピンインに変換することができ、「打」、「開」、「音」という文字はポリフォニック文字ではなく、通常は発音エラーがないため、「打」に対応する1つの候補文字ピンイン文字列「da」、「開」に対応する1つの候補文字ピンイン文字列「kai」、及び「音」に対応する1つの候補文字ピンイン文字列「yin」を取得することができる。「楽」については、この文字は「le」と「yue」の発音を含むポリフォニック文字であるため、「楽」に対応する2つの候補文字ピンイン文字列「le」と「yue」を取得することができる。
ステップ103では、各文字に対応する少なくとも1つの候補文字ピンイン文字列に基づいて、初期認識結果に対応する少なくとも1つの文ピンイン文字列を決定する。
ここで、文ピンイン文字列は、初期認識結果の全文に対応するピンイン文字列である。例えば、「調整座椅」(日本語の意味:座席を調整)は、1つの文ピンイン文字列「tiaozhengzuoyi」に対応する。
例示的な実施例では、初期認識結果における各文字に対応する少なくとも1つの候補文字ピンイン文字列を決定した後、初期認識結果における各文字のそれぞれに対応する少なくとも1つの候補文字ピンイン文字列に基づいて、初期認識結果に対応する少なくとも1つの文ピンイン文字列を取得することができる。ここで、初期認識結果には、各文字のそれぞれが1つの候補文字ピンイン文字列に対応する場合、初期認識結果に対応する1つの文ピンイン文字列を決定することができる。初期認識結果には、少なくとも1つの文字が複数の文字ピンイン文字列に対応する存在する場合、初期認識結果に対応する複数の文ピンイン文字列を決定することができる。
例えば、上記の例を継続し、初期認識結果「打開思思路況」における各文字のそれぞれに対応する少なくとも1つの候補文字ピンイン文字列を取得した場合、「打」に対応する1つの候補文字ピンイン文字列「da」、「開」に対応する1つの候補文字ピンイン文字列「kai」、2つの「思」のそれぞれに対応する2つの候補文字ピンイン文字列「shi」と「si」、「路」に対応する1つの候補文字ピンイン文字列「lu」、及び「況」に対応する1つの候補文字ピンイン文字列「kuang」に基づいて、初期認識結果「打開思思路況」に対応する4つの文ピンイン文字列「dakaisisilukuang」、「dakaishishilukuang」、「dakaishisilukuang」、及び「dakaisishilukuang」を取得することができる。同様に、初期認識結果「打開音楽」(日本語の意味:音楽をオンに)に対応する2つの文ピンイン文字列「dakaiyinyue」と「dakaiyinle」を取得することができる。
ステップ104では、少なくとも1つの文ピンイン文字列に基づいて、初期認識結果のピンイン修正を行って、ピンイン修正された認識結果を生成する。
例示的な実施例では、ピンイン修正データベースを事前に設定することができ、ピンイン修正データベースには、複数のピンイン文字列と、ピンイン文字列のそれぞれに対応する認識結果とが含まれる。これにより、初期認識結果に対応する少なくとも1つの文ピンイン文字列を決定した後、少なくとも1つの文ピンイン文字列と、予め設定されたピンイン修正データベース内の各ピンイン文字列とをマッチングし、初期認識結果に対応する少なくとも1つの文ピンイン文字列とマッチングするピンイン修正データベース内のピンイン文字列に対応する認識結果をピンイン修正された認識結果とすることにより、初期認識結果のピンイン修正を実現ことができる。
例えば、予め設定されたピンイン修正データベースには、複数のピンイン文字列と、ピンイン文字列のそれぞれに対応する認識結果とが含まれ、ここで、ピンイン文字列「dakaishishilukuang」、及びこのピンイン文字列に対応する認識結果「打開実時路況」が含まれ、得られた初期認識結果「打開思思路況」に対応する文ピンイン文字列には、「dakaisisilukuang」、「dakaishisilukuang」、「dakaisishilukuang」、「dakaishishilukuang」が含まれる場合、初期認識結果に対応する4つの文ピンイン文字列と、予め設定されたピンイン修正データベース内の複数のピンイン文字列とをマッチングすることができる。初期認識結果に対応する「dakaishishilukuang」が、ピンイン修正データベース内の「dakaishishilukuang」とマッチングするため、「dakaishishilukuang」に対応する認識結果「打開実時路況」をピンイン修正された認識結果とすることにより、初期認識結果「打開思思路況」を「打開実時路況」に修正することができる。
本開示の実施例に係る音声認識方法では、認識対象文の初期認識結果を取得した後、初期認識結果のピンイン修正を行い、ピンインを修正するときにポリフォニック文字と発音の欠陥などのことを考慮して、初期認識結果における各文字に対応する少なくとも1つの候補文字ピンイン文字列を取得し、そして初期認識結果に対応する少なくとも1つの文ピンイン文字列を取得し、少なくとも1つの文ピンイン文字列に基づいて、初期認識結果のピンイン修正を行うため、ポリフォニック文字、発音の欠陥などに起因する発音の不正確な欠陥が存在する存在する認識対象文の正確な音声認識を実現し、音声認識結果の精度を向上させることができる。
本開示の実施例に係る音声認識方法では、まず、認識対象文の音声認識を行って、初期認識結果を取得し、次に、初期認識結果における各文字に対応する少なくとも1つの候補文字ピンイン文字列を取得して、各文字に対応する少なくとも1つの候補文字ピンイン文字列に基づいて、初期認識結果に対応する少なくとも1つの文ピンイン文字列を決定し、少なくとも1つの文ピンイン文字列に基づいて、初期認識結果のピンイン修正を行って、ピンイン修正された認識結果を生成する。これにより、音声認識結果の精度が向上する。
上記の分析から分かるように、本開示の実施例では、認識対象文の音声認識を行って、初期認識結果を取得した後、初期認識結果のピンイン修正を行い、ピンイン修正された認識結果を生成することができる。以下、図2を組み合わせて、本開示に係る音声認識方法における初期認識結果のピンイン修正を行う過程をさらに説明する。
図2は、本開示の第2の実施例に係る音声認識方法の概略フローチャートである。図2に示すように、音声認識方法は、以下のステップ201からステップ206を含む。
ステップ201では、認識対象文の音声認識を行って、初期認識結果を取得する。
ステップ202では、初期認識結果における各文字に対応する少なくとも1つの候補文字ピンイン文字列を取得する。
ここで、上記のステップ201からステップ202の具体的な実現過程及び原理について、上記の実施例の説明を参照することができ、ここでは説明を省略する。
ステップ203では、各文字に対応する少なくとも1つの候補文字ピンイン文字列に基づいて、初期認識結果に対応する少なくとも1つの文ピンイン文字列を決定する。
例示的な実施例では、ステップ203は、以下の方式で実現することができる。
文字ごとに、この文字に対応する少なくとも1つの候補文字ピンイン文字列から、1つの候補文字ピンイン文字列をターゲット文字ピンイン文字列として選択し、初期認識結果における複数の文字の並び順に従って、選択された複数の文字のそれぞれに対応するターゲット文字ピンイン文字列をスプライシングし、スプライシングされたピンイン文字列を、初期認識結果に対応する文ピンイン文字列として決定する。
例えば、初期認識結果は「打開思思路況」であり、初期認識結果の「打」に対応する1つの候補文字ピンイン文字列「da」、「開」に対応する1つの候補文字ピンイン文字列「kai」、2つの「思」のそれぞれに対応する2つの候補文字ピンイン文字列「shi」と「si、「路」に対応する1つの候補文字ピンイン文字列「lu」、及び「況」に対応する1つの候補文字ピンイン文字列「kuang」を取得した場合、文字ごとに、この文字に対応する少なくとも1つの候補文字ピンイン文字列から、1つの候補文字ピンイン文字列をターゲット文字ピンイン文字列として選択することができ、「da」、「kai」、「si」、「si」、「lu」、及び「kuang」を、ターゲット文字ピンイン文字列として選択する場合、「打」、「開」、「思」、「思」、「路」、「況」の並び順に、選択された複数のターゲット文字ピンイン文字列をスプライシングして、初期認識結果に対応する文ピンイン文字列「dakaisisilukuang」を取得することができる。
同様に、「da」、「kai」、「shi」、「si」、「lu」、及び「kuang」を、ターゲット文字ピンイン文字列として選択し、これらのターゲット文字ピンイン文字列を、「打」、「開」、「思」、「思」、「路」、「況」の並び順にスプライシングして、初期認識結果に対応する文ピンイン文字列「dakaishisilukuang」を取得することができる。「da」、「kai」、「si」、「shi」、「lu」、及び「kuang」を、ターゲット文字ピンイン文字列として選択し、こられのターゲット文字ピンイン文字列を、「打」、「開」、「思」、「思」、「路」、「況」の順にスプライシングして、初期認識結果に対応する文ピンイン文字列「dakaisishilukuang」を取得する。「da」、「kai」、「shi」、「shi」、「lu」、及び「kuang」を、ターゲット文字ピンイン文字列として選択し、ターゲット文字ピンイン文字列を、「打」、「開」、「思」、「思」、「路」、「況」の順にスプライシングして、初期認識結果に対応する文ピンイン文字列「dakaishishilukuang」を取得する。
上記の例から分かるように、本開示の実施例では、初期認識結果に対応する各文字のうち、各文字のそれぞれが1つの文字ピンイン文字列に対応する場合、初期認識結果は、1つの文ピンイン文字列に対応する。初期認識結果に対応する各文字のうち、少なくとも1つの文字が、複数の文字ピンイン文字列に対応する場合、初期認識結果は複数の文ピンイン文字列に対応し、文ピンイン文字列の数は、初期認識結果に対応する各文字のそれぞれに対応する文字ピンイン文字列の数の積である。
以下、初期認識結果が複数の文ピンイン文字列に対応することを例として、複数の文ピンイン文字列に基づいて、初期認識結果のピンイン修正を行う過程を説明する。
ステップ204では、複数の文ピンイン文字列のそれぞれについて、文ピンイン文字列と、ピンイン修正データベース内の複数の修正対象ピンイン文字列とをマッチングし、ピンイン修正データベースには、複数の修正対象ピンイン文字列と、修正対象ピンイン文字列のそれぞれに対応する修正後のピンイン文字列と、修正後のピンイン文字列に対応する認識結果とが含まれる。
ステップ205では、ピンイン修正データベースには、文ピンイン文字列とマッチングする修正対象ピンイン文字列が存在する場合、文ピンイン文字列とマッチングする修正対象ピンイン文字列に対応する修正後のピンイン文字列を、ターゲット修正後のピンイン文字列として決定する。
ステップ206では、ターゲット修正後のピンイン文字列に対応する認識結果を、ピンイン修正された認識結果として決定する。
例示的な実施例では、ピンイン修正データベースを事前に設定することができ、ピンイン修正データベースには、複数の修正対象ピンイン文字列と、修正対象ピンイン文字列のそれぞれに対応する修正後のピンイン文字列と、修正後のピンイン文字列に対応する認識結果とが含まれる。これにより、初期認識結果に対応する複数の文ピンイン文字列を決定した後、複数の文ピンイン文字列のそれぞれについて、文ピンイン文字列と、ピンイン修正データベース内の複数の修正対象ピンイン文字列とをマッチングし、ピンイン修正データベースには、文ピンイン文字列とマッチングする修正対象ピンイン文字列が存在する場合、文ピンイン文字列とマッチングする修正対象ピンイン文字列に対応する修正後のピンイン文字列を、ターゲット修正後のピンイン文字列として決定し、そしてターゲット修正後のピンイン文字列に対応する認識結果を、ピンイン修正された認識結果として決定し、これにより、初期認識結果のピンイン修正を行うことができる。
例えば、下記の表1に示すように、予め設定されたピンイン修正データベースには、複数の修正対象ピンイン文字列と、修正対象ピンイン文字列のそれぞれに対応する修正後のピンイン文字列と、修正後のピンイン文字列に対応する認識結果とが含まれる。
初期認識結果「打開思思路況」に対応する文ピンイン文字列は、「dakaisisilukuang」、「dakaishisilukuang」、「dakaisishilukuang」、及び「dakaishishilukuang」を含むとすると、初期認識結果に対応する4つの文ピンイン文字列における各文ピンイン文字列と、予め設定されたピンイン修正データベース内の複数の修正対象ピンイン文字列とをマッチングすることができる。上記の4つの文ピンイン文字列について、修正対象ピンインデータベースには、この4つの文ピンイン文字列のそれぞれとマッチングする修正対象ピンイン文字列が存在する場合、4つの文ピンイン文字列とマッチングする修正対象ピンイン文字列に対応する修正後のピンイン文字列を、ターゲット修正後のピンイン文字列として決定することができる。4つの文ピンイン文字列とマッチングする修正対象ピンイン文字列に対応する修正後のピンイン文字列はいずれも「dakaishishilukuang」である場合、「dakaishishilukuang」を、ターゲット修正後のピンイン文字列として決定し、「dakaishishilukuang」に対応する認識結果「打開実時路況」を、ピンイン修正された認識結果として決定することができる。
なお、初期認識結果が、複数の文ピンイン文字列に対応する場合、複数の文ピンイン文字列のそれぞれについて、文ピンイン文字列と、ピンイン修正データベース内の複数の修正対象ピンイン文字列とをマッチングした後、ピンイン修正データベースには、複数の文ピンイン文字列のそれぞれとマッチングする修正対象ピンイン文字列があり、かつ複数の修正対象ピンイン文字列が、異なる修正後のピンイン文字列に対応する場合、複数の異なる修正後のピンイン文字列のそれぞれに対応する認識結果をピンイン修正された認識結果とする。
本開示の実施例の音声認識方法では、初期認識結果における各文字に対応する少なくとも1つの候補文字ピンイン文字列を取得した後、文字ごとに、文字に対応する少なくとも1つの候補文字ピンイン文字列から、1つの候補文字ピンイン文字列をターゲット文字ピンイン文字列として選択し、初期認識結果における複数の文字の並び順に従って、選択された複数の文字のそれぞれに対応するターゲット文字ピンイン文字列をスプライシングし、スプライシングされたピンイン文字列を、初期認識結果に対応する文ピンイン文字列として決定することができる。初期認識結果の少なくとも1つの文字が複数の文字ピンイン文字列に対応する場合、初期認識結果に対応する複数の文ピンイン文字列を取得し、複数の文ピンイン文字列のそれぞれと、ピンイン修正データベース内の複数の修正対象ピンイン文字列とをマッチングし、マッチング結果に基づいて、ピンイン修正された認識結果を取得することができる。中国語のマッチングにより、初期認識結果を、データベース内の修正対象認識結果及び修正後の認識結果と直接にマッチングして、初期認識結果を修正する方法と比較して、本開示では文ピンイン文字列を、ピンイン修正データベース内の修正対象ピンイン文字列とマッチングすることの成功率がより高くなり、これにより、初期認識結果の修正率が向上し、音声認識結果の精度が向上する。
上記の分析から分かるように、本開示の実施例では、認識対象文の音声認識を行って、初期認識結果を取得した後、初期認識結果のピンイン修正を行って、ピンイン修正された認識結果を生成することができる。例示的な実施例では、ピンイン修正された認識結果には、ピンイン修正が失敗する場合があり、例えばピンイン修正データベースには、初期認識結果に対応する文ピンイン文字列とマッチングする修正対象ピンイン文字列が存在しない場合があり、または、「後備箱」を「後背線」として認識したなど、ピンイン修正された認識結果には固有名詞の誤りが含まれる場合が存在する。以下、上記のことを考慮して、図3を組み合わせて、本開示に係る音声認識方法をさらに説明する。
図3は、本開示の第3の実施例に係る音声認識方法の概略フローチャートである。図3に示すように、音声認識方法は、以下のステップ301からステップ307を含む。
ステップ301では、認識対象文の音声認識を行って、初期認識結果を取得する。
ステップ302では、初期認識結果における各文字に対応する少なくとも1つの候補文字ピンイン文字列を取得する。
ステップ303では、各文字に対応する少なくとも1つの候補文字ピンイン文字列に基づいて、初期認識結果に対応する少なくとも1つの文ピンイン文字列を決定する。
ステップ304では、少なくとも1つの文ピンイン文字列に基づいて、初期認識結果のピンイン修正を行って、ピンイン修正された認識結果を生成する。
ここで、ステップ301からステップ304の具体的な実現過程及び原理について、上記の実施例の説明を参照することができ、ここでは説明を省略する。
ステップ305では、ピンイン修正された認識結果と、固有名詞データベース内の複数の修正対象認識結果とをマッチングし、固有名詞データベースには、複数の修正対象認識結果と、修正対象認識結果のそれぞれに対応する修正後の認識結果とが含まれる。
ここで、固有名詞とは、「後備箱」(日本語の意味:トランク)、「座椅」(日本語の意味:シート)など、人、場所、物などを表す固有の名詞である。
ステップ306では、固有名詞データベースには、ピンイン修正された認識結果とマッチングする修正対象認識結果が存在する場合、ピンイン修正された認識結果とマッチングする修正対象認識結果を、ターゲット修正対象認識結果として決定する。
ステップ307では、ターゲット修正対象認識結果に対応する修正後の認識結果を、固有名詞修正された認識結果として決定する。
例示的な実施例では、固有名詞データベースを事前に設定することができ、固有名詞データベースには、複数の修正対象認識結果と、修正対象認識結果のそれぞれに対応する修正後の認識結果とが含まれるため、ピンイン修正された認識結果が決定された後、ピンイン修正された認識結果と、固有名詞データベース内の複数の修正対象認識結果とをマッチングし、固有名詞データベースには、ピンイン修正された認識結果とマッチングする修正対象認識結果が存在する場合、ピンイン修正された認識結果とマッチングする修正対象認識結果を、ターゲット修正対象認識結果として決定し、そしてターゲット修正対象認識結果に対応する修正後の認識結果を、固有名詞修正された認識結果として決定することができる。
なお、本開示の実施例では、初期認識結果に対応する文ピンイン文字列のそれぞれと、予め設定されたピンイン修正データベースの修正対象ピンイン文字列とをマッチングする上記の実施例の方法を使用して、初期認識結果のピンイン修正を行って、ピンイン修正された認識結果を取得することができる。可能な一実現形態では、初期認識結果に対応する1つまたは複数の文ピンイン文字列について、ピンイン修正データベースには、マッチングする修正対象ピンイン文字列が存在する可能性があり、この場合、マッチングする修正対象ピンイン文字列に対応する修正後のピンイン文字列を、ターゲット修正後のピンイン文字列として決定し、ターゲット修正後のピンイン文字列に対応する認識結果を、ピンイン修正された認識結果として決定し、ピンイン修正された認識結果と固有名詞データベース内の複数の修正対象認識結果とをマッチングすることができる。別の可能な実現形態では、ピンイン修正データベースには、初期認識結果に対応する文ピンイン文字列とマッチングする修正対象ピンイン文字列が存在しない可能性があり、即ち、ターゲット修正後のピンイン文字列が取得されず、この場合、初期認識結果をピンイン修正された認識結果とし、固有名詞データベース内の複数の修正対象認識結果とマッチングすることができる。
即ち、本開示の実施例では、ピンイン修正により初期認識結果のピンイン修正された認識結果が得られた後、ピンイン修正された認識結果に対して固有名詞修正をさらに行うことができる。ピンイン修正により初期認識結果のピンイン修正された認識結果が得られない場合、初期認識結果に対して固有名詞修正を直接行うこともできる。
例えば、予め設定された固有名詞データベースには、複数の修正対象認識結果と、修正対象認識結果のそれぞれに対応する修正後の認識結果とが含まれ、ここで、修正対象認識結果「開開後備線」、及び対応する認識結果「開開後備箱」が含まれるものとする。初期認識結果は「開開後背線」であり、ピンイン修正を行うときに、ピンイン修正データベースには、「開開後背線」に対応する少なくとも1つの文ピンイン文字列のいずれかとマッチングする修正対象ピンイン文字列が存在しない場合、即ち、ピンイン修正によって初期認識結果のピンイン修正された認識結果が得られない場合、初期認識結果「開開後背線」をピンイン修正された認識結果として、固有名詞データベース内の複数の修正対象認識結果とマッチングすることができる。固有名詞データベースには、「開開後背線」とマッチングする修正対象認識結果が存在する場合、「開開後背線」とマッチングする修正対象認識結果を、ターゲット修正対象認識結果として決定し、修正対象認識結果に対応する修正後の認識結果「開開後備箱」を、固有名詞修正された認識結果として決定することができる。
本開示に係る音声認識方法では、認識対象文の音声認識を行って、初期認識結果を取得し、初期認識結果における各文字に対応する少なくとも1つの候補文字ピンイン文字列を取得し、各文字に対応する少なくとも1つの候補文字ピンイン文字列に基づいて、初期認識結果に対応する少なくとも1つの文ピンイン文字列を決定し、少なくとも1つの文ピンイン文字列に基づいて、初期認識結果のピンイン修正を行って、ピンイン修正された認識結果を生成した後、ピンイン修正された認識結果と、固有名詞データベース内の複数の修正対象認識結果とをマッチングし、固有名詞データベースには、ピンイン修正された認識結果とマッチングする修正対象認識結果が存在する場合、ピンイン修正された認識結果とマッチングする修正対象認識結果を、ターゲット修正対象認識結果として決定し、そしてターゲット修正対象認識結果に対応する修正後の認識結果を、固有名詞修正された認識結果として決定することにより、音声認識結果の精度がさらに向上する。
上記の分析から分かるように、本開示の実施例では、認識対象文の音声認識を行って、初期認識結果を取得した後、初期認識結果のピンイン修正を行って、ピンイン修正された認識結果を生成し、ピンイン修正された認識結果に対して固有名詞修正を行うことにより、音声認識結果の精度をさらに向上させることができる。例示的な実施例では、固有名詞修正された認識結果には全文のエラーが含まれる場合があり、例えば、ユーザが車両のサンルーフを開ける必要が存在する「
」(日本語の意味:私は息苦しいです)という文を「我很忙」(日本語の意味:私は忙しいです)として認識したことなど、実際の音声認識の適用シーンと一致しない場合が存在する。以下、上記
の問題を考慮して、図4を組み合わせて、本開示に係る音声認識方法をさらに説明する。
図4は、本開示の第4の実施例に係る音声認識方法の概略フローチャートである。図4に示すように、音声認識方法は、以下のステップ401からステップ410を含む。
ステップ401では、認識対象文の音声認識を行って、初期認識結果を取得する。
ステップ402では、初期認識結果における各文字に対応する少なくとも1つの候補文字ピンイン文字列を取得する。
ステップ403では、各文字に対応する少なくとも1つの候補文字ピンイン文字列に基づいて、初期認識結果に対応する少なくとも1つの文ピンイン文字列を決定する。
ステップ404では、少なくとも1つの文ピンイン文字列に基づいて、初期認識結果のピンイン修正を行って、ピンイン修正された認識結果を生成する。
ステップ405では、ピンイン修正された認識結果と、固有名詞データベース内の複数の修正対象認識結果とをマッチングし、固有名詞データベースには、複数の修正対象認識結果と、修正対象認識結果のそれぞれに対応する修正後の認識結果とが含まれる。
ステップ406では、固有名詞データベースには、ピンイン修正された認識結果とマッチングする修正対象認識結果が存在する場合、ピンイン修正された認識結果とマッチングする修正対象認識結果を、ターゲット修正対象認識結果として決定する。
ステップ407では、ターゲット修正対象認識結果に対応する修正後の認識結果を、固有名詞修正された認識結果として決定する。
ここで、上記のステップ401からステップ407の具体的な実現過程及び原理について、上記の実施例の説明を参照することができ、ここでは説明を省略する。
ステップ408では、固有名詞修正された認識結果と、全文修正データベース内の複数の修正対象全文認識結果とをマッチングし、全文修正データベースには、複数の修正対象全文認識結果と、修正対象全文認識結果のそれぞれに対応する修正後の全文認識結果とが含まれる。
ステップ409では、全文修正データベースには、固有名詞修正された認識結果とマッチングする修正対象全文認識結果が存在する場合、固有名詞修正された認識結果とマッチングする修正対象全文認識結果を、ターゲット修正対象全文認識結果として決定する。
ステップ410では、ターゲット修正対象全文認識結果に対応する修正後の全文認識結果を、全文修正された認識結果として決定する。
例示的な実施例では、全文修正データベースを事前に設定することができ、全文修正データベースには、複数の修正対象全文認識結果と、修正対象全文認識結果のそれぞれに対応する修正後の全文認識結果とが含まれるため、固有名詞修正された認識結果が決定された後、固有名詞修正された認識結果と、全文修正データベース内の複数の修正対象全文認識結果とをマッチングし、全文修正データベースには、固有名詞修正された認識結果とマッチングする修正対象全文認識結果が存在する場合、固有名詞修正された認識結果とマッチングする修正対象全文認識結果を、ターゲット修正対象全文認識結果として決定し、そしてターゲット修正対象全文認識結果に対応する修正後の全文認識結果を、全文修正された認識結果として決定することができる。
ここで、全文修正データベース内の複数の修正対象全文認識結果、及び修正対象全文認識結果のそれぞれに対応する修正後の全文認識結果は、音声認識の適用シーンにおける各インタラクティブ文、及び対応するよく見られるエラー認識結果に合わせて設定することができる。例えば、車載シーンでは、「
」(日本語の意味:私は息苦しいです)に対応する車両への操作は、窓を開けることであり、「
」は、「我很笨」(日本語の意味:私は不器用です)、「我很忙」(日本語の意味:私は忙しいです)と誤認識されることが多いため、全文修正データベースには、修正対象全文認識結果「我很笨」、「我很忙」、及び対応する修正後の全文認識結果「
」が含まれる。
なお、本開示の実施例では、固有名詞データベースには、ピンイン修正された認識結果とマッチングする修正対象認識結果が存在する場合、ピンイン修正された認識結果とマッチングする修正対象認識結果を、ターゲット修正対象認識結果として決定し、そしてターゲット修正対象認識結果に対応する修正後の認識結果を、固有名詞修正された認識結果として決定する。固有名詞データベースには、ピンイン修正された認識結果とマッチングする修正対象認識結果が存在しない場合、ピンイン修正された認識結果を固有名詞修正された認識結果とし、全文修正データベース内の複数の修正対象全文認識結果とマッチングすることができる。
即ち、本開示の実施例では、固有名詞修正により、固有名詞修正された認識結果が得られた後、固有名詞修正された認識結果に対して全文修正をさらに行うことができ、固有名詞修正により、固有名詞修正された認識結果が得られない場合、ピンイン修正された認識結果に対して全文修正を直接に行うこともできる。ここでのピンイン修正された認識結果は、ピンイン修正により得られたピンイン修正された認識結果であってもよいし、ピンイン修正が失敗したときの初期認識結果であってもよいが、本願ではこれが限定されない。
例えば、予め設定された全文修正データベースには、複数の修正対象全文認識結果と、修正対象全文認識結果のそれぞれに対応する修正後の全文認識結果とが含まれ、ここで、修正対象全文認識結果「我很笨」、「我很忙」、及び対応する修正後の全文認識結果「
」が含まれるものとする。固有名詞修正された認識結果は「我很忙」である場合、固有名詞修正された認識結果「我很忙」と、全文修正データベース内の複数の修正対象全文認識結果とをマッチングすることができる。全文修正データベースには、「我很忙」とマッチングする修正対象全文認識結果が存在するため、「我很忙」とマッチングする修正対象全文認識結果を、ターゲット修正対象全文認識結果として決定し、「我很忙」に対応する修正後の全文認識結果「
」を、全文修正された認識結果として決定し、これにより、車両のサンルーフを開ける操作を行うことができる。
本開示の実施例に係る音声認識方法では、認識対象文の音声認識を行って、初期認識結果を取得し、初期認識結果のピンイン修正、及び固有名詞修正を行った後、固有名詞修正された認識結果と、全文修正データベース内の複数の修正対象全文認識結果とをマッチングし、全文修正データベースには、固有名詞修正された認識結果とマッチングする修正対象全文認識結果が存在する場合、固有名詞修正された認識結果とマッチングする修正対象全文認識結果を、ターゲット修正対象全文認識結果として決定し、そしてターゲット修正対象全文認識結果に対応する修正後の全文認識結果を、全文修正された認識結果として決定することにより、音声認識結果の精度がさらに向上する。また、本開示の実施例に係る音声認識方法では、認識対象文の音声認識を行って初期認識結果を取得した後、予め設定されたピンイン修正データベース、固有名詞データベース、及び全文修正データベースに対してデータベースのクエリ操作を行うことを組み合わせて、初期認識結果のピンイン修正、固有名詞修正、及び全文修正を行うことにより、音声認識エンジンは認識結果セットを提供する機能を有することが不要になり、音声認識するときの音声認識エンジンへの依存度が低下し、音声認識の柔軟性が向上し、かつ初期認識結果の修正プロセスがすべてデータベースのクエリ操作であるため、パフォーマンスリソースの消費が少なくなる。
以下、図5を組み合わせて、本開示に係る音声認識装置を説明する。
図5は、本開示の第5の実施例に係る音声認識装置の概略構成図である。
図5に示すように、本開示に係る音声認識装置500は、認識モジュール501、取得モジュール502、第1の決定モジュール503、及び生成モジュール504を備える。
ここで、認識モジュール501は、認識対象文の音声認識を行って、初期認識結果を取得するように構成される。
取得モジュール502は、初期認識結果における各文字に対応する少なくとも1つの候補文字ピンイン文字列を取得するように構成される。
第1の決定モジュール503は、各文字に対応する少なくとも1つの候補文字ピンイン文字列に基づいて、初期認識結果に対応する少なくとも1つの文ピンイン文字列を決定するように構成される。
生成モジュール504は、少なくとも1つの文ピンイン文字列に基づいて、初期認識結果のピンイン修正を行って、ピンイン修正された認識結果を生成するように構成される。
なお、本実施例に係る音声認識装置は、上記の実施例に記載の音声認識方法を実行することができる。ここで、音声認識装置は電子機器であってもよいし、電子機器内に配置されるものであってもよく、音声認識結果の精度を向上させることができる。
ここで、電子機器は、ノートパソコン、スマートフォン、ウェアラブルデバイスなどのモバイルコンピューティングデバイス、またはデスクトップコンピュータなどの固定コンピューティングデバイス、またはサーバ、またはその他の種類のコンピューティングデバイスなど、データ処理が可能な任意の固定またはモバイルコンピューティングデバイスであってもよいが、本開示はこれに限定されない。
なお、音声認識方法の実施例の上記の説明は、本開示に係る音声認識装置にも適用可能であり、ここでは説明を省略する。
本開示の実施例に係る音声認識装置は、まず、認識対象文の音声認識を行って、初期認識結果を取得し、次に、初期認識結果における各文字に対応する少なくとも1つの候補文字ピンイン文字列を取得して、各文字に対応する少なくとも1つの候補文字ピンイン文字列に基づいて、初期認識結果に対応する少なくとも1つの文ピンイン文字列を決定し、少なくとも1つの文ピンイン文字列に基づいて、初期認識結果のピンイン修正を行って、ピンイン修正された認識結果を生成する。これにより、音声認識結果の精度が向上する。
以下、図6を組み合わせて、本開示に係る音声認識装置を説明する。
図6は、本開示の第6の実施例に係る音声認識装置の概略構成図である。
図6に示すように、音声認識装置600は、具体的に、認識モジュール601、取得モジュール602、第1の決定モジュール603、及び生成モジュール604を備える。
ここで、図6の認識モジュール601、取得モジュール602、第1の決定モジュール603、及び生成モジュール604は、図5の認識モジュール501、取得モジュール502、第1の決定モジュール503、及び生成モジュール504と同じ機能と構成を有する。
例示的な実施例では、第1の決定モジュール603は、文字ごとに、文字に対応する少なくとも1つの候補文字ピンイン文字列から1つの候補文字ピンイン文字列をターゲット文字ピンイン文字列として選択する選択ユニットと、初期認識結果における複数の文字の並び順に従って、選択された複数の文字のそれぞれに対応するターゲット文字ピンイン文字列をスプライシングするスプライシングユニットと、スプライシングされたピンイン文字列を、初期認識結果に対応する文ピンイン文字列として決定する第1の決定ユニットとを備える。
例示的な実施例では、文ピンイン文字列は複数であり、ここで、生成モジュールは、複数の文ピンイン文字列のそれぞれについて、文ピンイン文字列と、ピンイン修正データベース内の複数の修正対象ピンイン文字列とをマッチングするマッチングユニットであって、ピンイン修正データベースには、複数の修正対象ピンイン文字列と、修正対象ピンイン文字列のそれぞれに対応する修正後のピンイン文字列と、修正後のピンイン文字列に対応する認識結果とが含まれるマッチングユニットと、ピンイン修正データベースには、文ピンイン文字列とマッチングする修正対象ピンイン文字列が存在する場合、文ピンイン文字列とマッチングする修正対象ピンイン文字列に対応する修正後のピンイン文字列を、ターゲット修正後のピンイン文字列として決定する第2の決定ユニットと、ターゲット修正後のピンイン文字列に対応する認識結果を、ピンイン修正された認識結果として決定する第3の決定ユニットとを備える。
例示的な実施例では、上記の音声認識装置600は、ピンイン修正された認識結果と、固有名詞データベース内の複数の修正対象認識結果とをマッチングする第1のマッチングモジュール605であって、固有名詞データベースには、複数の修正対象認識結果と、修正対象認識結果のそれぞれに対応する修正後の認識結果とが含まれる第1のマッチングモジュール605と、固有名詞データベースには、ピンイン修正された認識結果とマッチングする修正対象認識結果が存在する場合、ピンイン修正された認識結果とマッチングする修正対象認識結果を、ターゲット修正対象認識結果として決定する第2の決定モジュール606と、ターゲット修正対象認識結果に対応する修正後の認識結果を、固有名詞修正された認識結果として決定する第3の決定モジュール607とをさらに備える。
例示的な実施例では、上記の音声認識装置600は、固有名詞修正された認識結果と、全文修正データベース内の複数の修正対象全文認識結果とをマッチングする第2のマッチングモジュール608であって、全文修正データベースには、複数の修正対象全文認識結果と、修正対象全文認識結果のそれぞれに対応する修正後の全文認識結果とが含まれる第2のマッチングモジュール608と、全文修正データベースには、固有名詞修正された認識結果とマッチングする修正対象全文認識結果が存在する場合、固有名詞修正された認識結果とマッチングする修正対象全文認識結果を、ターゲット修正対象全文認識結果として決定する第4の決定モジュール609と、ターゲット修正対象全文認識結果に対応する修正後の全文認識結果を、全文修正された認識結果として決定する第5の決定モジュール610とをさらに備える。
なお、音声認識方法の実施例の上記の説明は、本開示に係る音声認識装置にも適用可能であり、ここでは説明を省略する。
本開示の実施例に係る音声認識装置は、まず、認識対象文の音声認識を行って、初期認識結果を取得し、次に、初期認識結果における各文字に対応する少なくとも1つの候補文字ピンイン文字列を取得し、各文字に対応する少なくとも1つの候補文字ピンイン文字列に基づいて、初期認識結果に対応する少なくとも1つの文ピンイン文字列を決定し、少なくとも1つの文ピンイン文字列に基づいて、初期認識結果のピンイン修正を行って、ピンイン修正された認識結果を生成する。これにより、音声認識結果の精度が向上する。
本開示の実施例によれば、本開示は、電子機器、読み取り可能な記憶媒体、コンピュータプログラム製品及びコンピュータプログラムをさらに提供する。
図7は、本開示の実施例を実施可能な例示的な電子機器700の概略ブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことが意図される。電子機器はまた、パーソナルデジタルプロセシング、セルラー電話、スマートフォン、ウェアラブルデバイス、及び他の同様のコンピューティングデバイスなど、様々な形態のモバイルデバイスを表してもよい。本明細書に示される構成要素、それらの接続及び関係、並びにそれらの機能は、単なる例であり、本明細書に記載及び/または特許請求される本願の実現を限定することを意図しない。
図7に示すように、電子機器700は、リードオンリーメモリ(ROM)702に記憶されたコンピュータプログラム命令、または記憶ユニット708からランダムアクセス/アクセスメモリ(RAM)703にローディングされたコンピュータプログラム命令に基づいて、各種の適切な動作と処理を実行できる計算ユニット701を備える。RAM703には、電子機器700の動作に必要な各種のプログラム及びデータをさらに記憶することができる。計算ユニット701と、ROM702と、RAM703とは、バス704を介して互いに接続されている。入力/出力(I/O)インタフェース705もバス704に接続されている。
電子機器700における複数のコンポーネントは、I/Oインタフェース705に接続されており、その複数のコンポーネントは、キーボードやマウスなどの入力ユニット706と、種々なディスプレイやスピーカなどの出力ユニット707と、磁気ディスクや光学ディスクなどの記憶ユニット708と、ネットワークカード、モデム、無線通信トランシーバーなどの通信ユニット709とを備える。通信ユニット709は、電子機器700がインターネットのようなコンピュータネット及び/または種々なキャリアネットワークを介して他の機器と情報/データを交換することを許可する。
計算ユニット701は、処理及び計算能力を有する様々な汎用及び/または専用の処理コンポーネントであってもよい。計算ユニット701のいくつかの一例としては、中央処理ユニット(CPU)、グラフィックス処理ユニット(GPU)、様々な専用の人工知能(AI)計算チップ、様々な機械学習モデルアルゴリズムを実行する計算ユニット、デジタ信号プロセッサ(DSP)、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを備えるが、これらに限定されない。計算ユニット601は、上述で説明された各方法及び処理、例えば音声認識方法を実行する。例えば、いくつかの実施形態では、音声認識方法を、記憶ユニット708のような機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウエアプログラムとして実現することができる。一部の実施形態では、コンピュータプログラムの一部または全ては、ROM702及び/または通信ユニット709を介して、電子機器700にロード及び/またはインストールすることができる。コンピュータプログラムがRAM703にロードされて計算ユニット701によって実行される場合に、前述した音声認識方法の少なくとも1つのステップを実行することができる。追加可能に、他の実施例では、計算ユニット701は、他の任意の適当な方式(例えば、ファームウェア)により音声認識方法を実行するように構成することができる。
ここで記載されているシステムまたは技術の各種の実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、専用集積回路(ASIC)、専用標準品(ASSP)、システムオンチップ(SOC)、コンプレックスプログラマブルロジックデバイス(CPLD)、コンピュータのハードウェア、ファームウェア、ソフトウェア、及び/またはこれらの組み合わせによって実現することができる。これらの各実施形態は、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムにて実行及び/または解釈される少なくとも1つのコンピュータプログラムにより実行することを含み、当該プログラマブルプロセッサは、ストレージシステム、少なくとも1つの入力デバイス、及び少なくとも1つの出力デバイスからデータ及び命令を受け取り、データ及び命令を該ストレージシステム、当該少なくとも1つの入力デバイス、及び当該少なくとも1つの出力デバイスに転送することができる専用または汎用のプログラマブルプロセッサであってもよい。
本開示の方法を実施するためのプログラムコードは、少なくとも1つのプログラミング言語の組み合わせで記述されていてもよい。これらのプログラムコードを汎用コンピュータや専用コンピュータ等のプログラマブルデータ処理装置のプロセッサやコントローラに供給し、プロセッサやコントローラで実行することにより、フローチャート及び/またはブロック図で規定された機能/動作を実現することができる。プログラムコードは、機械上で完全に実行されるものであってもよいし、機械上で部分的に実行されるものであってもよいし、独立したソフトウェアパッケージとして機械上で部分的に実行されるとともにリモートマシン上で部分的に実行されるものであってもよいし、リモートマシンまたはサーバ上で完全に実行されるものであってもよい。
本開示の説明において、本発明において、機械的に読み取り可能な媒体は、指令実行システム、装置または装置が使用する、または指令実行システム、装置または装置と組み合わせて使用するプログラムを含む、または記憶した有形の媒体であってもよい。機械的に読み取り可能な媒体は、機械的に読み取り可能な信号媒体であってもよいし、機械的に読み取り可能な記憶媒体であってもよい。機械的に読み取り可能な媒体としては、電子的、磁気的、光学的、電磁的、赤外線的、半導体システム、装置、デバイス、またはこれらの任意の適切な組み合わせが挙げられるが、これらに限定されるものではない。コンピュータ読み取り可能な記憶媒体のより具体的な一例としては、少なくとも1つのラインに基づく電気的接続、可搬型コンピュータディスク、ハードディスク、ランダムアクセスメモリRAM、読み取り専用メモリROM、消去可能なプログラム可能なリードオンリーメモリ(EPROMまたはフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ(CD-ROM)、光記憶装置、磁気記憶装置、またはこれらの任意の適切な組み合わせが挙げられる。
ユーザとのインタラクションを提供するために、ここで説明されているシステム及び技術をコンピュータで実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)またはLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウスまたはトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクションを提供するために用いられることもでき、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック)であってもよく、任意の形式(音響入力と、音声入力と、触覚入力とを含む)でユーザからの入力を受信することができる。
ここで説明されるシステム及び技術は、バックエンドコンポーネントを備えるコンピューティングシステム(例えば、データサーバとする)、またはミドルウェアコンポーネントを備えるコンピューティングシステム(例えば、アプリケーションサーバー)、またはフロントエンドコンポーネントを備えるコンピューティングシステム(例えば、グラフィカルユーザインタフェースまたはウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインタフェースまたは当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションする)、またはこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを備えるコンピューティングシステムで実施することができる。任意の形式または媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを互いに接続することができる。通信ネットワークの一例は、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットと、ブロックチェーンネットワークとを含む。
コンピュータシステムは、クライアントとサーバとを備えることができる。クライアントとサーバは、一般的に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータで実行され、互いにクライアント-サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。ここで、サーバはクラウドサーバであってもよく、クラウドコンピューティングサーバまたはクラウドホストとも呼ばれ、クラウドコンピューティングサービス体系のうちのホスト製品であり、従来の物理ホストとVPS(Virtual Private Server、また、「VPS」と略記する)サービスでは、管理が難しく、業務拡張性が弱いという欠点を解決している。サーバは、分散システムのサーバ、またはブロックチェーンを結合したサーバであってもよい。
本開示は、コンピュータ技術の分野に関し、特に音声認識、自然言語処理などの人工知能技術分野に関する。
なお、人工知能はコンピュータが人間の思考過程とインテリジェントな挙動(例えば学習、推論、考え、計画など)を模擬するように研究する学科であり、ハードウェアレベルの技術もソフトウェアレベルの技術も存在する。人工知能のハードウェア技術は、一般的に、例えばセンサ、人工知能専用チップ、クラウドコンピューティング、分散記憶、ビッグデータ処理などの技術を含み、人工知能のソフトウェア技術は、主に、コンピュータビジョン技術、音声認識技術、自然言語処理技術及び機械学習/深層学習、ビッグデータ処理技術、知識マップ技術などのいくつかの面を含む。
本開示の実施例の技術案によれば、まず、認識対象文の音声認識を行って、初期認識結果を取得し、次に、初期認識結果における各文字に対応する少なくとも1つの候補文字ピンイン文字列を取得し、次に、各文字に対応する少なくとも1つの候補文字ピンイン文字列に基づいて、初期認識結果に対応する少なくとも1つの文ピンイン文字列を決定し、次に、少なくとも1つの文ピンイン文字列に基づいて、初期認識結果のピンイン修正を行って、ピンイン修正された認識結果を生成する。これにより、音声認識結果の精度が向上する。
なお、上述した様々な形態のフローを用いて、ステップを並び替え、追加または削除を行うことができることを理解されるべきである。例えば、本開示に記載された各ステップは、本願に開示された技術方案の所望の結果が達成できる限り、並行して実行されてもよく、順番に実行されてもよく、異なる順序で実行されてもよい。本明細書はここについて限定しない。
上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブ組合、及び代替を行うことができることは理解される。本願の精神及び原理内で行われたあらゆる補正、均等な置換及び改善などは、いずれも本開示の保護範囲内に含まれるべきである。

Claims (12)

  1. 認識対象文の音声認識を行って、初期認識結果を取得するステップと、
    前記初期認識結果における各文字に対応する少なくとも1つの候補文字ピンイン文字列を取得するステップと、
    各前記文字に対応する少なくとも1つの前記候補文字ピンイン文字列に基づいて、前記初期認識結果に対応する少なくとも1つの文ピンイン文字列を決定するステップと、
    少なくとも1つの前記文ピンイン文字列に基づいて、前記初期認識結果のピンイン修正を行って、ピンイン修正された認識結果を生成するステップと
    固有名詞データベースに基づいて前記ピンイン修正された認識結果を、固有名詞修正された認識結果として決定するステップと、
    前記固有名詞修正された認識結果と、全文修正データベース内の複数の修正対象全文認識結果とをマッチングするステップであって、前記全文修正データベースには、複数の前記修正対象全文認識結果と、該修正対象全文認識結果のそれぞれに対応する修正後の全文認識結果とが含まれるステップと、
    前記全文修正データベースには、前記固有名詞修正された認識結果とマッチングする前記修正対象全文認識結果が存在する場合、前記固有名詞修正された認識結果とマッチングする前記修正対象全文認識結果を、ターゲット修正対象全文認識結果として決定するステップと、
    前記ターゲット修正対象全文認識結果に対応する前記修正後の全文認識結果を、全文修正された認識結果として決定するステップとを含む音声認識方法。
  2. 各前記文字に対応する少なくとも1つの前記候補文字ピンイン文字列に基づいて、前記初期認識結果に対応する少なくとも1つの前記文ピンイン文字列を決定するステップは、
    前記文字ごとに、該文字に対応する少なくとも1つの前記候補文字ピンイン文字列から1つの前記候補文字ピンイン文字列をターゲット文字ピンイン文字列として選択するステップと、
    前記初期認識結果における複数の前記文字の並び順に従って、選択された複数の前記文字のそれぞれに対応する前記ターゲット文字ピンイン文字列をスプライシングするステップと、
    スプライシングされたピンイン文字列を、前記初期認識結果に対応する前記文ピンイン文字列として決定するステップとを含む請求項1に記載の音声認識方法。
  3. 前記文ピンイン文字列は複数であり、少なくとも1つの前記文ピンイン文字列に基づいて、前記初期認識結果のピンイン修正を行って、前記ピンイン修正された認識結果を生成するステップは、
    複数の前記文ピンイン文字列のそれぞれについて、前記文ピンイン文字列と、ピンイン修正データベース内の複数の修正対象ピンイン文字列とをマッチングするステップであって、前記ピンイン修正データベースには、複数の前記修正対象ピンイン文字列と、該修正対象ピンイン文字列のそれぞれに対応する修正後のピンイン文字列と、前記修正後のピンイン文字列に対応する認識結果とが含まれるステップと、
    前記ピンイン修正データベースには、前記文ピンイン文字列とマッチングする前記修正対象ピンイン文字列が存在する場合、前記文ピンイン文字列とマッチングする前記修正対象ピンイン文字列に対応する前記修正後のピンイン文字列を、ターゲット修正後のピンイン文字列として決定するステップと、
    前記ターゲット修正後のピンイン文字列に対応する認識結果を、前記ピンイン修正された認識結果として決定するステップとを含む請求項1または請求項2に記載の音声認識方法。
  4. 前記固有名詞データベースに基づいて前記ピンイン修正された認識結果を、固有名詞修正された認識結果として決定するステップは、
    前記ピンイン修正された認識結果と、固有名詞データベース内の複数の修正対象認識結果とをマッチングするステップであって、前記固有名詞データベースには、複数の前記修正対象認識結果と、該修正対象認識結果のそれぞれに対応する修正後の認識結果とが含まれるステップと、
    前記固有名詞データベースには、前記ピンイン修正された認識結果とマッチングする前記修正対象認識結果が存在する場合、前記ピンイン修正された認識結果とマッチングする前記修正対象認識結果を、ターゲット修正対象認識結果として決定するステップと、
    前記ターゲット修正対象認識結果に対応する前記修正後の認識結果を、固有名詞修正された認識結果として決定するステップとをさらに含む請求項1に記載の音声認識方法。
  5. 音声認識装置であって、
    認識対象文の音声認識を行って、初期認識結果を取得する認識モジュールと、
    前記初期認識結果における各文字に対応する少なくとも1つの候補文字ピンイン文字列を取得する取得モジュールと、
    各前記文字に対応する少なくとも1つの前記候補文字ピンイン文字列に基づいて、前記初期認識結果に対応する少なくとも1つの文ピンイン文字列を決定する第1の決定モジュールと、
    少なくとも1つの前記文ピンイン文字列に基づいて、前記初期認識結果のピンイン修正を行って、ピンイン修正された認識結果を生成する生成モジュールとを備え
    前記装置は、固有名詞データベースに基づいて前記ピンイン修正された認識結果を、固有名詞修正された認識結果として決定し、前記装置は、
    前記固有名詞修正された認識結果と、全文修正データベース内の複数の修正対象全文認識結果とをマッチングさせる第2のモジュールであって、前記全文修正データベースには、複数の前記修正対象全文認識結果と、該修正対象全文認識結果のそれぞれに対応する修正後の全文認識結果とが含まれる第2のマッチングモジュールと、
    前記全文修正データベースには、前記固有名詞修正された認識結果とマッチングする前記修正対象全文認識結果が存在する場合、前記固有名詞修正された認識結果とマッチングする前記修正対象全文認識結果を、ターゲット修正対象全文認識結果として決定する第4の決定モジュールと、
    前記ターゲット修正対象全文認識結果に対応する修正後の全文認識結果を、全文修正された認識結果として決定する第5の決定モジュールとをさらに備える音声認識装置。
  6. 前記第1の決定モジュールは、
    前記文字ごとに、前記文字に対応する少なくとも1つの前記候補文字ピンイン文字列から1つの前記候補文字ピンイン文字列をターゲット文字ピンイン文字列として選択する選択ユニットと、
    前記初期認識結果における複数の前記文字の並び順に従って、選択された複数の前記文字のそれぞれに対応する前記ターゲット文字ピンイン文字列をスプライシングするスプライシングユニットと、
    スプライシングされたピンイン文字列を、前記初期認識結果に対応する前記文ピンイン文字列として決定する第1の決定ユニットとを備える請求項に記載の音声認識装置。
  7. 前記文ピンイン文字列は複数であり、前記生成モジュールは、
    複数の前記文ピンイン文字列のそれぞれについて、前記文ピンイン文字列と、ピンイン修正データベース内の複数の修正対象ピンイン文字列とをマッチングするマッチングユニットであって、前記ピンイン修正データベースには、複数の前記修正対象ピンイン文字列と、該修正対象ピンイン文字列のそれぞれに対応する修正後のピンイン文字列と、前記修正後のピンイン文字列に対応する認識結果とが含まれるマッチングユニットと、
    前記ピンイン修正データベースには、前記文ピンイン文字列とマッチングする前記修正対象ピンイン文字列が存在する場合、前記文ピンイン文字列とマッチングする前記修正対象ピンイン文字列に対応する前記修正後のピンイン文字列を、ターゲット修正後のピンイン文字列として決定する第2の決定ユニットと、
    前記ターゲット修正後のピンイン文字列に対応する認識結果を、前記ピンイン修正された認識結果として決定する第3の決定ユニットとを備える請求項または請求項に記載の音声認識装置。
  8. 前記ピンイン修正された認識結果と、固有名詞データベース内の複数の修正対象認識結果とをマッチングする第1のマッチングモジュールであって、前記固有名詞データベースには、複数の前記修正対象認識結果と、該修正対象認識結果のそれぞれに対応する修正後の認識結果とが含まれる第1のマッチングモジュールと、
    前記固有名詞データベースには、前記ピンイン修正された認識結果とマッチングする前記修正対象認識結果が存在する場合、前記ピンイン修正された認識結果とマッチングする前記修正対象認識結果を、ターゲット修正対象認識結果として決定する第2の決定モジュールと、
    前記ターゲット修正対象認識結果に対応する前記修正後の認識結果を、固有名詞修正された認識結果として決定する第3の決定モジュールとをさらに備える請求項に記載の音声認識装置。
  9. 電子機器であって、
    少なくとも1つのプロセッサと、
    少なくとも1つの該プロセッサと通信可能に接続されたメモリとを備え、
    該メモリには、少なくとも1つの前記プロセッサによって実行可能な命令が記憶されており、該命令が少なくとも1つの前記プロセッサによって実行される場合、少なくとも1つの前記プロセッサが請求項1から請求項のいずれかに記載の音声認識方法を実行可能である電子機器。
  10. コンピュータに、請求項1から請求項のいずれかに記載の音声認識方法を実行させるためのコンピュータ命令を記憶した非一時的なコンピュータ読み取り可能な記憶媒体。
  11. プロセッサによって実行される場合、請求項1から請求項のいずれかに記載の音声認識方法を実現するコンピュータプログラムを含むコンピュータプログラム製品。
  12. プロセッサによって実行される場合、請求項1から請求項のいずれかに記載の音声認識方法を実現するコンピュータプログラム。
JP2022057924A 2021-04-12 2022-03-31 音声認識方法、音声認識装置、電子機器、記憶媒体コンピュータプログラム製品及びコンピュータプログラム Active JP7349523B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110391076.1A CN113129894A (zh) 2021-04-12 2021-04-12 语音识别方法、装置、电子设备以及存储介质
CN202110391076.1 2021-04-12

Publications (2)

Publication Number Publication Date
JP2022088586A JP2022088586A (ja) 2022-06-14
JP7349523B2 true JP7349523B2 (ja) 2023-09-22

Family

ID=76776598

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022057924A Active JP7349523B2 (ja) 2021-04-12 2022-03-31 音声認識方法、音声認識装置、電子機器、記憶媒体コンピュータプログラム製品及びコンピュータプログラム

Country Status (5)

Country Link
US (1) US20220230633A1 (ja)
EP (1) EP4027337B1 (ja)
JP (1) JP7349523B2 (ja)
KR (1) KR20220052875A (ja)
CN (1) CN113129894A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116312509B (zh) * 2023-01-13 2024-03-01 山东三宏信息科技有限公司 一种基于语音识别的终端id文本的校正方法、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018045001A (ja) 2016-09-12 2018-03-22 株式会社リコー 音声認識システム、情報処理装置、プログラム、音声認識方法
CN108021554A (zh) 2017-11-14 2018-05-11 无锡小天鹅股份有限公司 语音识别方法、装置以及洗衣机
JP2019526080A (ja) 2016-07-26 2019-09-12 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 音声認識結果の修正方法及び装置
CN110765763A (zh) 2019-09-24 2020-02-07 金蝶软件(中国)有限公司 语音识别文本的纠错方法、装置、计算机设备和存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107300970B (zh) * 2017-06-05 2020-12-11 百度在线网络技术(北京)有限公司 虚拟现实交互方法和装置
CN110110041B (zh) * 2019-03-15 2022-02-15 平安科技(深圳)有限公司 错词纠正方法、装置、计算机装置及存储介质
CN110164435B (zh) * 2019-04-26 2024-06-25 平安科技(深圳)有限公司 语音识别方法、装置、设备及计算机可读存储介质
CN111739514B (zh) * 2019-07-31 2023-11-14 北京京东尚科信息技术有限公司 一种语音识别方法、装置、设备及介质
CN111444705A (zh) * 2020-03-10 2020-07-24 中国平安人寿保险股份有限公司 纠错方法、装置、设备及可读存储介质
CN112509566B (zh) * 2020-12-22 2024-03-19 阿波罗智联(北京)科技有限公司 一种语音识别方法、装置、设备、存储介质及程序产品

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019526080A (ja) 2016-07-26 2019-09-12 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 音声認識結果の修正方法及び装置
JP2018045001A (ja) 2016-09-12 2018-03-22 株式会社リコー 音声認識システム、情報処理装置、プログラム、音声認識方法
CN108021554A (zh) 2017-11-14 2018-05-11 无锡小天鹅股份有限公司 语音识别方法、装置以及洗衣机
CN110765763A (zh) 2019-09-24 2020-02-07 金蝶软件(中国)有限公司 语音识别文本的纠错方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
EP4027337A1 (en) 2022-07-13
CN113129894A (zh) 2021-07-16
EP4027337B1 (en) 2024-02-14
JP2022088586A (ja) 2022-06-14
US20220230633A1 (en) 2022-07-21
KR20220052875A (ko) 2022-04-28

Similar Documents

Publication Publication Date Title
US11769480B2 (en) Method and apparatus for training model, method and apparatus for synthesizing speech, device and storage medium
CN111859994B (zh) 机器翻译模型获取及文本翻译方法、装置及存储介质
US20210280190A1 (en) Human-machine interaction
US9558741B2 (en) Systems and methods for speech recognition
US11488577B2 (en) Training method and apparatus for a speech synthesis model, and storage medium
US9589578B1 (en) Invoking application programming interface calls using voice commands
US11270686B2 (en) Deep language and acoustic modeling convergence and cross training
EP3251114B1 (en) Transcription correction using multi-token structures
EP3732629A1 (en) Training sequence generation neural networks using quality scores
US11942091B2 (en) Alphanumeric sequence biasing for automatic speech recognition using a grammar and a speller finite state transducer
JP7314450B2 (ja) 音声合成方法、装置、機器、及びコンピュータ記憶媒体
US11397856B2 (en) Phonetic patterns for fuzzy matching in natural language processing
WO2023045186A1 (zh) 意图识别方法、装置、电子设备和存储介质
JP7349523B2 (ja) 音声認識方法、音声認識装置、電子機器、記憶媒体コンピュータプログラム製品及びコンピュータプログラム
US20220005461A1 (en) Method for recognizing a slot, and electronic device
KR102621436B1 (ko) 음성 합성 방법, 장치, 전자 기기 및 저장 매체
CN109036379B (zh) 语音识别方法、设备及存储介质
US20230131494A1 (en) Voice generating method and apparatus, electronic device and storage medium
US20230085458A1 (en) Dialog data generating
KR102632872B1 (ko) 음성인식 오류 교정 방법 및 그 시스템
US20240185844A1 (en) Context-aware end-to-end asr fusion of context, acoustic and text presentations
US20220138435A1 (en) Method and apparatus for generating a text, and storage medium
US20220310061A1 (en) Regularizing Word Segmentation
JP2022105498A (ja) 音声認識結果処理方法および装置、電子機器、コンピュータ可読記憶媒体並びにコンピュータプログラム
KR20210127613A (ko) 대화 생성 방법, 장치, 전자 기기 및 기록 매체

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220331

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230308

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230314

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230613

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230905

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230911

R150 Certificate of patent or registration of utility model

Ref document number: 7349523

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150