JP7349523B2

JP7349523B2 - 音声認識方法、音声認識装置、電子機器、記憶媒体コンピュータプログラム製品及びコンピュータプログラム

Info

Publication number: JP7349523B2
Application number: JP2022057924A
Authority: JP
Inventors: ロンリウ，
Original assignee: Apollo Intelligent Connectivity Beijing Technology Co Ltd
Current assignee: Apollo Intelligent Connectivity Beijing Technology Co Ltd
Priority date: 2021-04-12
Filing date: 2022-03-31
Publication date: 2023-09-22
Anticipated expiration: 2042-03-31
Also published as: EP4027337A1; CN113129894A; EP4027337B1; JP2022088586A; US20220230633A1; KR20220052875A

Description

本開示は、コンピュータ技術の分野に関し、より詳しくは、音声認識、自然言語処理などの人工知能技術の分野に関し、特に音声認識方法、音声認識装置、電子機器、記憶媒体、コンピュータプログラム製品及びコンピュータプログラムに関する。

現在、音声インタラクションは、ヒューマンマシンインタラクションでよく使用されているインタラクション方法である。例えば、車載シーンでは、自然言語理解技術によりユーザの音声命令を認識することにより、車両のサンルーフを開けたり、エアコンをつけたりする操作を実現し、より便利で正確で人間らしい運転サービスを提供し、運転体験を向上させることができる。

音声インタラクションにとって、オフライン音声認識は不可欠な機能であり、オフライン音声認識では、製品がローカル認識により音声をテキストに変換できる必要があるだけでなく、ユーザの意図を正しく理解し、それに応じてフィードバックすることが可能な機能も必要であるため、オフライン音声認識結果の精度を向上させることが特に重要である。

本開示は、音声認識方法、音声認識装置、電子機器、記憶媒体、コンピュータプログラム製品及びコンピュータプログラムを提供する。

本開示の第１の態様では、認識対象文の音声認識を行って、初期認識結果を取得するステップと、前記初期認識結果における各文字に対応する少なくとも１つの候補文字ピンイン文字列を取得するステップと、各前記文字に対応する少なくとも１つの前記候補文字ピンイン文字列に基づいて、前記初期認識結果に対応する少なくとも１つの文ピンイン文字列を決定するステップと、少なくとも１つの前記文ピンイン文字列に基づいて、前記初期認識結果のピンイン修正を行って、ピンイン修正された認識結果を生成するステップと、
固有名詞データベースに基づいて前記ピンイン修正された認識結果を、固有名詞修正された認識結果として決定するステップと、前記固有名詞修正された認識結果と、全文修正データベース内の複数の修正対象全文認識結果とをマッチングするステップであって、前記全文修正データベースには、複数の前記修正対象全文認識結果と、該修正対象全文認識結果のそれぞれに対応する修正後の全文認識結果とが含まれるステップと、前記全文修正データベースには、前記固有名詞修正された認識結果とマッチングする前記修正対象全文認識結果が存在する場合、前記固有名詞修正された認識結果とマッチングする前記修正対象全文認識結果を、ターゲット修正対象全文認識結果として決定するステップと、前記ターゲット修正対象全文認識結果に対応する前記修正後の全文認識結果を、全文修正された認識結果として決定するステップとを含む音声認識方法が提供される。

本開示の第２の態様では、音声認識装置であって、認識対象文の音声認識を行って、初期認識結果を取得する認識モジュールと、前記初期認識結果における各文字に対応する少なくとも１つの候補文字ピンイン文字列を取得する取得モジュールと、各前記文字に対応する少なくとも１つの前記候補文字ピンイン文字列に基づいて、前記初期認識結果に対応する少なくとも１つの文ピンイン文字列を決定する第１の決定モジュールと、少なくとも１つの前記文ピンイン文字列に基づいて、前記初期認識結果のピンイン修正を行って、ピンイン修正された認識結果を生成する生成モジュールとを備え、前記装置は、固有名詞データベースに基づいて前記ピンイン修正された認識結果を、固有名詞修正された認識結果として決定し、前記装置は、前記固有名詞修正された認識結果と、全文修正データベース内の複数の修正対象全文認識結果とをマッチングさせる第２のモジュールであって、前記全文修正データベースには、複数の前記修正対象全文認識結果と、該修正対象全文認識結果のそれぞれに対応する修正後の全文認識結果とが含まれる第２のマッチングモジュールと、前記全文修正データベースには、前記固有名詞修正された認識結果とマッチングする前記修正対象全文認識結果が存在する場合、前記固有名詞修正された認識結果とマッチングする前記修正対象全文認識結果を、ターゲット修正対象全文認識結果として決定する第４の決定モジュールと、前記ターゲット修正対象全文認識結果に対応する修正後の全文認識結果を、全文修正された認識結果として決定する第５の決定モジュールとをさらに備える音声認識装置が提供される。

本開示の第３の態様では、少なくとも１つのプロセッサと、少なくとも１つの該プロセッサと通信可能に接続されたメモリとを備え、該メモリには、少なくとも１つの前記プロセッサによって実行可能な命令が記憶されており、該命令が少なくとも１つの前記プロセッサによって実行される場合、少なくとも１つの前記プロセッサが上記の音声認識方法を実行する電子機器が提供される。

本開示の第４の態様では、コンピュータに、上記の音声認識方法を実行させるためのコンピュータ命令を記憶した非一時的なコンピュータ読み取り可能な記憶媒体が提供される。

本開示の第５の態様では、プロセッサによって実行される場合、上記の音声認識方法を実現するコンピュータプログラムを含むコンピュータプログラム製品が提供される。
本開示の第６の態様では、プロセッサによって実行される場合、上記の音声認識方法を実現するコンピュータプログラムを含むコンピュータプログラム製品が提供される。
本開示の第７の態様では、プロセッサによって実行される場合、上記の音声認識方法を実現するコンピュータプログラムが提供される。

なお、ここの概要部分に記載された内容は、本開示の実施例のキー特徴または重要な特徴を特定することを意図するものではなく、本開示の範囲を限定することを意図するものでもないことを理解されたい。本開示の他の特徴は下記の明細書の記載によって理解しやすくなる。

図面は、本開示をより良く理解するためのものであり、本開示を限定するものではない。
本開示の第１の実施例に係る音声認識方法の概略フローチャートである。本開示の第２の実施例に係る音声認識方法の概略フローチャートである。本開示の第３の実施例に係る音声認識方法の概略フローチャートである。本開示の第４の実施例に係る音声認識方法の概略フローチャートである。本開示の第５の実施例に係る音声認識装置の概略構成図である。本開示の第６の実施例に係る音声認識装置の概略構成図である。本開示の実施例の音声認識方法を実現するための電子機器のブロック図である。

本開示の例示的な実施例について、図面を参照して以下に説明する。理解を容易にするために、その中に本発明の実施例の様々な詳細が含まれ、それらは単なる例示と見なされるべきである。したがって、当業者は、本発明の範囲及び意図から逸脱することなく、本明細書に記載の実施例に様々な変更及び修正を加えることができる。また、わかりやすくかつ簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。

なお、音声インタラクションにとって、オフライン音声認識は不可欠な機能であり、オフライン音声認識では、製品がローカル認識により音声をテキストに変換できる必要が存在するだけでなく、ユーザの意図を正しく理解し、それに応じてフィードバックすることが可能な機能も必要であるため、オフライン音声認識結果の精度を向上させることが特に重要である。

本開示は、音声認識結果の精度を向上させるために、音声認識方法を提供する。本音声認識方法では、まず、認識対象文の音声認識を行って、初期認識結果を取得し、次に、初期認識結果における各文字に対応する少なくとも１つの候補文字ピンイン文字列を取得し、次に、各文字に対応する少なくとも１つの候補文字ピンイン文字列に基づいて、初期認識結果に対応する少なくとも１つの文ピンイン文字列を決定し、次に、少なくとも１つの文ピンイン文字列に基づいて、初期認識結果のピンイン修正を行って、ピンイン修正された認識結果を生成する。これにより、音声認識結果の精度が向上する。

以下、図面を参照して、本開示の実施例の音声認識方法、音声認識装置、電子機器、非一時的コンピュータ読み取り可能な記憶媒体、コンピュータプログラム製品及びコンピュータプログラムを説明する。

まず、図１を組み合わせて、本開示に係る音声認識方法を詳細に説明する。

図１は、本開示の第１の実施例に係る音声認識方法の概略フローチャートである。本実施例に係る音声認識方法では、実行主体は音声認識装置であり、この音声認識装置は、電子機器であってもよいし、電子機器内に配置されてもよい。これにより、音声認識結果の精度を向上させることができ、本開示の実施例では、音声認識装置が電子機器内に配置されることを一例として説明する。

ここで、電子機器は、ノートパソコン、スマートフォン、ウェアラブルデバイスなどのモバイルコンピューティングデバイス、またはデスクトップコンピュータなどの固定コンピューティングデバイス、またはサーバ、またはその他の種類のコンピューティングデバイスなど、データ処理が可能な任意の固定またはモバイルコンピューティングデバイスであってもよいが、本開示はこれらに限定されない。

図１に示すように、音声認識方法は、以下のステップ１０１からステップ１０４を含む。

ステップ１０１では、認識対象文の音声認識を行って、初期認識結果を取得する。

ここで、初期認識結果は、音声認識装置による認識対象文のオフライン音声認識によって得られてもよいし、音声認識装置による認識対象文のオンライン音声認識によって得られてもよいが、本開示はこれらに限定されない。

相応に、本開示の音声認識方法は、オフライン音声認識結果の精度の向上にも適用可能であり、オンライン認識結果の精度の向上にも適用可能であるが、本開示は、音声認識方法の適用シーンに限定されるものではない。

ステップ１０２では、初期認識結果における各文字に対応する少なくとも１つの候補文字ピンイン文字列を取得する。

ここで文字ピンイン文字列は、文字に対応するピンインの各アルファベットから構成される。例えば、「実」に対応するピンイン文字列は「ｓｈｉ」であり、「打」に対応するピンイン文字列は「ｄａ」である。

例示的な実施例では、音声認識装置は、初期認識結果に対して、文字ごとにピンイン変換を行って、初期認識結果における各文字をピンインに変換することができる。なお、ピンイン変換の過程では、初期認識結果における各文字について、この文字がポリフォニック文字である場合、及び「ｌ」と「ｒ」が区別されない、「ｈ」と「ｆ」が区別されない、前後の鼻音が区別されないなどの発音の欠陥によって、１つの文字が複数のピンイン文字列に対応するということを考慮して、初期認識結果における各文字に対応する少なくとも１つの候補文字ピンイン文字列を取得する必要が存在する。

例えば、車載シーンにおいて、音声認識装置によって得られた認識対象文の初期認識結果は、「打開思思路況」である。この場合、音声認識装置は、この初期認識結果における各文字をピンインに変換することができ、「打」、「開」、「路」、「況」という文字はポリフォニック文字ではなく、通常は発音エラーがないため、「打」に対応する１つの候補文字ピンイン文字列「ｄａ」、「開」に対応する１つの候補文字ピンイン文字列「ｋａｉ」、「路」に対応する１つの候補文字ピンイン文字列「ｌｕ」、及び「況」に対応する１つの候補文字ピンイン文字列「ｋｕａｎｇ」を取得することができる。２つの「思」については、ユーザが発音したときに「ｓｈ」と「ｓ」が区別されない場合が存在するため、それぞれの「思」に対応する２つの候補文字ピンイン文字列「ｓｈｉ」と「ｓｉ」を取得することができる。

または、音声認識装置によって得られた認識対象文の初期認識結果は、「打開音楽」である。この場合、音声認識装置は、この初期認識結果における各文字をピンインに変換することができ、「打」、「開」、「音」という文字はポリフォニック文字ではなく、通常は発音エラーがないため、「打」に対応する１つの候補文字ピンイン文字列「ｄａ」、「開」に対応する１つの候補文字ピンイン文字列「ｋａｉ」、及び「音」に対応する１つの候補文字ピンイン文字列「ｙｉｎ」を取得することができる。「楽」については、この文字は「ｌｅ」と「ｙｕｅ」の発音を含むポリフォニック文字であるため、「楽」に対応する２つの候補文字ピンイン文字列「ｌｅ」と「ｙｕｅ」を取得することができる。

ステップ１０３では、各文字に対応する少なくとも１つの候補文字ピンイン文字列に基づいて、初期認識結果に対応する少なくとも１つの文ピンイン文字列を決定する。

ここで、文ピンイン文字列は、初期認識結果の全文に対応するピンイン文字列である。例えば、「調整座椅」（日本語の意味：座席を調整）は、１つの文ピンイン文字列「ｔｉａｏｚｈｅｎｇｚｕｏｙｉ」に対応する。

例示的な実施例では、初期認識結果における各文字に対応する少なくとも１つの候補文字ピンイン文字列を決定した後、初期認識結果における各文字のそれぞれに対応する少なくとも１つの候補文字ピンイン文字列に基づいて、初期認識結果に対応する少なくとも１つの文ピンイン文字列を取得することができる。ここで、初期認識結果には、各文字のそれぞれが１つの候補文字ピンイン文字列に対応する場合、初期認識結果に対応する１つの文ピンイン文字列を決定することができる。初期認識結果には、少なくとも１つの文字が複数の文字ピンイン文字列に対応する存在する場合、初期認識結果に対応する複数の文ピンイン文字列を決定することができる。

例えば、上記の例を継続し、初期認識結果「打開思思路況」における各文字のそれぞれに対応する少なくとも１つの候補文字ピンイン文字列を取得した場合、「打」に対応する１つの候補文字ピンイン文字列「ｄａ」、「開」に対応する１つの候補文字ピンイン文字列「ｋａｉ」、２つの「思」のそれぞれに対応する２つの候補文字ピンイン文字列「ｓｈｉ」と「ｓｉ」、「路」に対応する１つの候補文字ピンイン文字列「ｌｕ」、及び「況」に対応する１つの候補文字ピンイン文字列「ｋｕａｎｇ」に基づいて、初期認識結果「打開思思路況」に対応する４つの文ピンイン文字列「ｄａｋａｉｓｉｓｉｌｕｋｕａｎｇ」、「ｄａｋａｉｓｈｉｓｈｉｌｕｋｕａｎｇ」、「ｄａｋａｉｓｈｉｓｉｌｕｋｕａｎｇ」、及び「ｄａｋａｉｓｉｓｈｉｌｕｋｕａｎｇ」を取得することができる。同様に、初期認識結果「打開音楽」（日本語の意味：音楽をオンに）に対応する２つの文ピンイン文字列「ｄａｋａｉｙｉｎｙｕｅ」と「ｄａｋａｉｙｉｎｌｅ」を取得することができる。

ステップ１０４では、少なくとも１つの文ピンイン文字列に基づいて、初期認識結果のピンイン修正を行って、ピンイン修正された認識結果を生成する。

例示的な実施例では、ピンイン修正データベースを事前に設定することができ、ピンイン修正データベースには、複数のピンイン文字列と、ピンイン文字列のそれぞれに対応する認識結果とが含まれる。これにより、初期認識結果に対応する少なくとも１つの文ピンイン文字列を決定した後、少なくとも１つの文ピンイン文字列と、予め設定されたピンイン修正データベース内の各ピンイン文字列とをマッチングし、初期認識結果に対応する少なくとも１つの文ピンイン文字列とマッチングするピンイン修正データベース内のピンイン文字列に対応する認識結果をピンイン修正された認識結果とすることにより、初期認識結果のピンイン修正を実現ことができる。

例えば、予め設定されたピンイン修正データベースには、複数のピンイン文字列と、ピンイン文字列のそれぞれに対応する認識結果とが含まれ、ここで、ピンイン文字列「ｄａｋａｉｓｈｉｓｈｉｌｕｋｕａｎｇ」、及びこのピンイン文字列に対応する認識結果「打開実時路況」が含まれ、得られた初期認識結果「打開思思路況」に対応する文ピンイン文字列には、「ｄａｋａｉｓｉｓｉｌｕｋｕａｎｇ」、「ｄａｋａｉｓｈｉｓｉｌｕｋｕａｎｇ」、「ｄａｋａｉｓｉｓｈｉｌｕｋｕａｎｇ」、「ｄａｋａｉｓｈｉｓｈｉｌｕｋｕａｎｇ」が含まれる場合、初期認識結果に対応する４つの文ピンイン文字列と、予め設定されたピンイン修正データベース内の複数のピンイン文字列とをマッチングすることができる。初期認識結果に対応する「ｄａｋａｉｓｈｉｓｈｉｌｕｋｕａｎｇ」が、ピンイン修正データベース内の「ｄａｋａｉｓｈｉｓｈｉｌｕｋｕａｎｇ」とマッチングするため、「ｄａｋａｉｓｈｉｓｈｉｌｕｋｕａｎｇ」に対応する認識結果「打開実時路況」をピンイン修正された認識結果とすることにより、初期認識結果「打開思思路況」を「打開実時路況」に修正することができる。

本開示の実施例に係る音声認識方法では、認識対象文の初期認識結果を取得した後、初期認識結果のピンイン修正を行い、ピンインを修正するときにポリフォニック文字と発音の欠陥などのことを考慮して、初期認識結果における各文字に対応する少なくとも１つの候補文字ピンイン文字列を取得し、そして初期認識結果に対応する少なくとも１つの文ピンイン文字列を取得し、少なくとも１つの文ピンイン文字列に基づいて、初期認識結果のピンイン修正を行うため、ポリフォニック文字、発音の欠陥などに起因する発音の不正確な欠陥が存在する存在する認識対象文の正確な音声認識を実現し、音声認識結果の精度を向上させることができる。

本開示の実施例に係る音声認識方法では、まず、認識対象文の音声認識を行って、初期認識結果を取得し、次に、初期認識結果における各文字に対応する少なくとも１つの候補文字ピンイン文字列を取得して、各文字に対応する少なくとも１つの候補文字ピンイン文字列に基づいて、初期認識結果に対応する少なくとも１つの文ピンイン文字列を決定し、少なくとも１つの文ピンイン文字列に基づいて、初期認識結果のピンイン修正を行って、ピンイン修正された認識結果を生成する。これにより、音声認識結果の精度が向上する。

上記の分析から分かるように、本開示の実施例では、認識対象文の音声認識を行って、初期認識結果を取得した後、初期認識結果のピンイン修正を行い、ピンイン修正された認識結果を生成することができる。以下、図２を組み合わせて、本開示に係る音声認識方法における初期認識結果のピンイン修正を行う過程をさらに説明する。

図２は、本開示の第２の実施例に係る音声認識方法の概略フローチャートである。図２に示すように、音声認識方法は、以下のステップ２０１からステップ２０６を含む。

ステップ２０１では、認識対象文の音声認識を行って、初期認識結果を取得する。

ステップ２０２では、初期認識結果における各文字に対応する少なくとも１つの候補文字ピンイン文字列を取得する。

ここで、上記のステップ２０１からステップ２０２の具体的な実現過程及び原理について、上記の実施例の説明を参照することができ、ここでは説明を省略する。

ステップ２０３では、各文字に対応する少なくとも１つの候補文字ピンイン文字列に基づいて、初期認識結果に対応する少なくとも１つの文ピンイン文字列を決定する。

例示的な実施例では、ステップ２０３は、以下の方式で実現することができる。
文字ごとに、この文字に対応する少なくとも１つの候補文字ピンイン文字列から、１つの候補文字ピンイン文字列をターゲット文字ピンイン文字列として選択し、初期認識結果における複数の文字の並び順に従って、選択された複数の文字のそれぞれに対応するターゲット文字ピンイン文字列をスプライシングし、スプライシングされたピンイン文字列を、初期認識結果に対応する文ピンイン文字列として決定する。

例えば、初期認識結果は「打開思思路況」であり、初期認識結果の「打」に対応する１つの候補文字ピンイン文字列「ｄａ」、「開」に対応する１つの候補文字ピンイン文字列「ｋａｉ」、２つの「思」のそれぞれに対応する２つの候補文字ピンイン文字列「ｓｈｉ」と「ｓｉ、「路」に対応する１つの候補文字ピンイン文字列「ｌｕ」、及び「況」に対応する１つの候補文字ピンイン文字列「ｋｕａｎｇ」を取得した場合、文字ごとに、この文字に対応する少なくとも１つの候補文字ピンイン文字列から、１つの候補文字ピンイン文字列をターゲット文字ピンイン文字列として選択することができ、「ｄａ」、「ｋａｉ」、「ｓｉ」、「ｓｉ」、「ｌｕ」、及び「ｋｕａｎｇ」を、ターゲット文字ピンイン文字列として選択する場合、「打」、「開」、「思」、「思」、「路」、「況」の並び順に、選択された複数のターゲット文字ピンイン文字列をスプライシングして、初期認識結果に対応する文ピンイン文字列「ｄａｋａｉｓｉｓｉｌｕｋｕａｎｇ」を取得することができる。

同様に、「ｄａ」、「ｋａｉ」、「ｓｈｉ」、「ｓｉ」、「ｌｕ」、及び「ｋｕａｎｇ」を、ターゲット文字ピンイン文字列として選択し、これらのターゲット文字ピンイン文字列を、「打」、「開」、「思」、「思」、「路」、「況」の並び順にスプライシングして、初期認識結果に対応する文ピンイン文字列「ｄａｋａｉｓｈｉｓｉｌｕｋｕａｎｇ」を取得することができる。「ｄａ」、「ｋａｉ」、「ｓｉ」、「ｓｈｉ」、「ｌｕ」、及び「ｋｕａｎｇ」を、ターゲット文字ピンイン文字列として選択し、こられのターゲット文字ピンイン文字列を、「打」、「開」、「思」、「思」、「路」、「況」の順にスプライシングして、初期認識結果に対応する文ピンイン文字列「ｄａｋａｉｓｉｓｈｉｌｕｋｕａｎｇ」を取得する。「ｄａ」、「ｋａｉ」、「ｓｈｉ」、「ｓｈｉ」、「ｌｕ」、及び「ｋｕａｎｇ」を、ターゲット文字ピンイン文字列として選択し、ターゲット文字ピンイン文字列を、「打」、「開」、「思」、「思」、「路」、「況」の順にスプライシングして、初期認識結果に対応する文ピンイン文字列「ｄａｋａｉｓｈｉｓｈｉｌｕｋｕａｎｇ」を取得する。

上記の例から分かるように、本開示の実施例では、初期認識結果に対応する各文字のうち、各文字のそれぞれが１つの文字ピンイン文字列に対応する場合、初期認識結果は、１つの文ピンイン文字列に対応する。初期認識結果に対応する各文字のうち、少なくとも１つの文字が、複数の文字ピンイン文字列に対応する場合、初期認識結果は複数の文ピンイン文字列に対応し、文ピンイン文字列の数は、初期認識結果に対応する各文字のそれぞれに対応する文字ピンイン文字列の数の積である。

以下、初期認識結果が複数の文ピンイン文字列に対応することを例として、複数の文ピンイン文字列に基づいて、初期認識結果のピンイン修正を行う過程を説明する。

ステップ２０４では、複数の文ピンイン文字列のそれぞれについて、文ピンイン文字列と、ピンイン修正データベース内の複数の修正対象ピンイン文字列とをマッチングし、ピンイン修正データベースには、複数の修正対象ピンイン文字列と、修正対象ピンイン文字列のそれぞれに対応する修正後のピンイン文字列と、修正後のピンイン文字列に対応する認識結果とが含まれる。

ステップ２０５では、ピンイン修正データベースには、文ピンイン文字列とマッチングする修正対象ピンイン文字列が存在する場合、文ピンイン文字列とマッチングする修正対象ピンイン文字列に対応する修正後のピンイン文字列を、ターゲット修正後のピンイン文字列として決定する。

ステップ２０６では、ターゲット修正後のピンイン文字列に対応する認識結果を、ピンイン修正された認識結果として決定する。

例示的な実施例では、ピンイン修正データベースを事前に設定することができ、ピンイン修正データベースには、複数の修正対象ピンイン文字列と、修正対象ピンイン文字列のそれぞれに対応する修正後のピンイン文字列と、修正後のピンイン文字列に対応する認識結果とが含まれる。これにより、初期認識結果に対応する複数の文ピンイン文字列を決定した後、複数の文ピンイン文字列のそれぞれについて、文ピンイン文字列と、ピンイン修正データベース内の複数の修正対象ピンイン文字列とをマッチングし、ピンイン修正データベースには、文ピンイン文字列とマッチングする修正対象ピンイン文字列が存在する場合、文ピンイン文字列とマッチングする修正対象ピンイン文字列に対応する修正後のピンイン文字列を、ターゲット修正後のピンイン文字列として決定し、そしてターゲット修正後のピンイン文字列に対応する認識結果を、ピンイン修正された認識結果として決定し、これにより、初期認識結果のピンイン修正を行うことができる。

例えば、下記の表１に示すように、予め設定されたピンイン修正データベースには、複数の修正対象ピンイン文字列と、修正対象ピンイン文字列のそれぞれに対応する修正後のピンイン文字列と、修正後のピンイン文字列に対応する認識結果とが含まれる。

初期認識結果「打開思思路況」に対応する文ピンイン文字列は、「ｄａｋａｉｓｉｓｉｌｕｋｕａｎｇ」、「ｄａｋａｉｓｈｉｓｉｌｕｋｕａｎｇ」、「ｄａｋａｉｓｉｓｈｉｌｕｋｕａｎｇ」、及び「ｄａｋａｉｓｈｉｓｈｉｌｕｋｕａｎｇ」を含むとすると、初期認識結果に対応する４つの文ピンイン文字列における各文ピンイン文字列と、予め設定されたピンイン修正データベース内の複数の修正対象ピンイン文字列とをマッチングすることができる。上記の４つの文ピンイン文字列について、修正対象ピンインデータベースには、この４つの文ピンイン文字列のそれぞれとマッチングする修正対象ピンイン文字列が存在する場合、４つの文ピンイン文字列とマッチングする修正対象ピンイン文字列に対応する修正後のピンイン文字列を、ターゲット修正後のピンイン文字列として決定することができる。４つの文ピンイン文字列とマッチングする修正対象ピンイン文字列に対応する修正後のピンイン文字列はいずれも「ｄａｋａｉｓｈｉｓｈｉｌｕｋｕａｎｇ」である場合、「ｄａｋａｉｓｈｉｓｈｉｌｕｋｕａｎｇ」を、ターゲット修正後のピンイン文字列として決定し、「ｄａｋａｉｓｈｉｓｈｉｌｕｋｕａｎｇ」に対応する認識結果「打開実時路況」を、ピンイン修正された認識結果として決定することができる。

なお、初期認識結果が、複数の文ピンイン文字列に対応する場合、複数の文ピンイン文字列のそれぞれについて、文ピンイン文字列と、ピンイン修正データベース内の複数の修正対象ピンイン文字列とをマッチングした後、ピンイン修正データベースには、複数の文ピンイン文字列のそれぞれとマッチングする修正対象ピンイン文字列があり、かつ複数の修正対象ピンイン文字列が、異なる修正後のピンイン文字列に対応する場合、複数の異なる修正後のピンイン文字列のそれぞれに対応する認識結果をピンイン修正された認識結果とする。

本開示の実施例の音声認識方法では、初期認識結果における各文字に対応する少なくとも１つの候補文字ピンイン文字列を取得した後、文字ごとに、文字に対応する少なくとも１つの候補文字ピンイン文字列から、１つの候補文字ピンイン文字列をターゲット文字ピンイン文字列として選択し、初期認識結果における複数の文字の並び順に従って、選択された複数の文字のそれぞれに対応するターゲット文字ピンイン文字列をスプライシングし、スプライシングされたピンイン文字列を、初期認識結果に対応する文ピンイン文字列として決定することができる。初期認識結果の少なくとも１つの文字が複数の文字ピンイン文字列に対応する場合、初期認識結果に対応する複数の文ピンイン文字列を取得し、複数の文ピンイン文字列のそれぞれと、ピンイン修正データベース内の複数の修正対象ピンイン文字列とをマッチングし、マッチング結果に基づいて、ピンイン修正された認識結果を取得することができる。中国語のマッチングにより、初期認識結果を、データベース内の修正対象認識結果及び修正後の認識結果と直接にマッチングして、初期認識結果を修正する方法と比較して、本開示では文ピンイン文字列を、ピンイン修正データベース内の修正対象ピンイン文字列とマッチングすることの成功率がより高くなり、これにより、初期認識結果の修正率が向上し、音声認識結果の精度が向上する。

上記の分析から分かるように、本開示の実施例では、認識対象文の音声認識を行って、初期認識結果を取得した後、初期認識結果のピンイン修正を行って、ピンイン修正された認識結果を生成することができる。例示的な実施例では、ピンイン修正された認識結果には、ピンイン修正が失敗する場合があり、例えばピンイン修正データベースには、初期認識結果に対応する文ピンイン文字列とマッチングする修正対象ピンイン文字列が存在しない場合があり、または、「後備箱」を「後背線」として認識したなど、ピンイン修正された認識結果には固有名詞の誤りが含まれる場合が存在する。以下、上記のことを考慮して、図３を組み合わせて、本開示に係る音声認識方法をさらに説明する。

図３は、本開示の第３の実施例に係る音声認識方法の概略フローチャートである。図３に示すように、音声認識方法は、以下のステップ３０１からステップ３０７を含む。

ステップ３０１では、認識対象文の音声認識を行って、初期認識結果を取得する。

ステップ３０２では、初期認識結果における各文字に対応する少なくとも１つの候補文字ピンイン文字列を取得する。

ステップ３０３では、各文字に対応する少なくとも１つの候補文字ピンイン文字列に基づいて、初期認識結果に対応する少なくとも１つの文ピンイン文字列を決定する。

ステップ３０４では、少なくとも１つの文ピンイン文字列に基づいて、初期認識結果のピンイン修正を行って、ピンイン修正された認識結果を生成する。

ここで、ステップ３０１からステップ３０４の具体的な実現過程及び原理について、上記の実施例の説明を参照することができ、ここでは説明を省略する。

ステップ３０５では、ピンイン修正された認識結果と、固有名詞データベース内の複数の修正対象認識結果とをマッチングし、固有名詞データベースには、複数の修正対象認識結果と、修正対象認識結果のそれぞれに対応する修正後の認識結果とが含まれる。

ここで、固有名詞とは、「後備箱」（日本語の意味：トランク）、「座椅」（日本語の意味：シート）など、人、場所、物などを表す固有の名詞である。

ステップ３０６では、固有名詞データベースには、ピンイン修正された認識結果とマッチングする修正対象認識結果が存在する場合、ピンイン修正された認識結果とマッチングする修正対象認識結果を、ターゲット修正対象認識結果として決定する。

ステップ３０７では、ターゲット修正対象認識結果に対応する修正後の認識結果を、固有名詞修正された認識結果として決定する。

例示的な実施例では、固有名詞データベースを事前に設定することができ、固有名詞データベースには、複数の修正対象認識結果と、修正対象認識結果のそれぞれに対応する修正後の認識結果とが含まれるため、ピンイン修正された認識結果が決定された後、ピンイン修正された認識結果と、固有名詞データベース内の複数の修正対象認識結果とをマッチングし、固有名詞データベースには、ピンイン修正された認識結果とマッチングする修正対象認識結果が存在する場合、ピンイン修正された認識結果とマッチングする修正対象認識結果を、ターゲット修正対象認識結果として決定し、そしてターゲット修正対象認識結果に対応する修正後の認識結果を、固有名詞修正された認識結果として決定することができる。

なお、本開示の実施例では、初期認識結果に対応する文ピンイン文字列のそれぞれと、予め設定されたピンイン修正データベースの修正対象ピンイン文字列とをマッチングする上記の実施例の方法を使用して、初期認識結果のピンイン修正を行って、ピンイン修正された認識結果を取得することができる。可能な一実現形態では、初期認識結果に対応する１つまたは複数の文ピンイン文字列について、ピンイン修正データベースには、マッチングする修正対象ピンイン文字列が存在する可能性があり、この場合、マッチングする修正対象ピンイン文字列に対応する修正後のピンイン文字列を、ターゲット修正後のピンイン文字列として決定し、ターゲット修正後のピンイン文字列に対応する認識結果を、ピンイン修正された認識結果として決定し、ピンイン修正された認識結果と固有名詞データベース内の複数の修正対象認識結果とをマッチングすることができる。別の可能な実現形態では、ピンイン修正データベースには、初期認識結果に対応する文ピンイン文字列とマッチングする修正対象ピンイン文字列が存在しない可能性があり、即ち、ターゲット修正後のピンイン文字列が取得されず、この場合、初期認識結果をピンイン修正された認識結果とし、固有名詞データベース内の複数の修正対象認識結果とマッチングすることができる。

即ち、本開示の実施例では、ピンイン修正により初期認識結果のピンイン修正された認識結果が得られた後、ピンイン修正された認識結果に対して固有名詞修正をさらに行うことができる。ピンイン修正により初期認識結果のピンイン修正された認識結果が得られない場合、初期認識結果に対して固有名詞修正を直接行うこともできる。

例えば、予め設定された固有名詞データベースには、複数の修正対象認識結果と、修正対象認識結果のそれぞれに対応する修正後の認識結果とが含まれ、ここで、修正対象認識結果「開開後備線」、及び対応する認識結果「開開後備箱」が含まれるものとする。初期認識結果は「開開後背線」であり、ピンイン修正を行うときに、ピンイン修正データベースには、「開開後背線」に対応する少なくとも１つの文ピンイン文字列のいずれかとマッチングする修正対象ピンイン文字列が存在しない場合、即ち、ピンイン修正によって初期認識結果のピンイン修正された認識結果が得られない場合、初期認識結果「開開後背線」をピンイン修正された認識結果として、固有名詞データベース内の複数の修正対象認識結果とマッチングすることができる。固有名詞データベースには、「開開後背線」とマッチングする修正対象認識結果が存在する場合、「開開後背線」とマッチングする修正対象認識結果を、ターゲット修正対象認識結果として決定し、修正対象認識結果に対応する修正後の認識結果「開開後備箱」を、固有名詞修正された認識結果として決定することができる。

本開示に係る音声認識方法では、認識対象文の音声認識を行って、初期認識結果を取得し、初期認識結果における各文字に対応する少なくとも１つの候補文字ピンイン文字列を取得し、各文字に対応する少なくとも１つの候補文字ピンイン文字列に基づいて、初期認識結果に対応する少なくとも１つの文ピンイン文字列を決定し、少なくとも１つの文ピンイン文字列に基づいて、初期認識結果のピンイン修正を行って、ピンイン修正された認識結果を生成した後、ピンイン修正された認識結果と、固有名詞データベース内の複数の修正対象認識結果とをマッチングし、固有名詞データベースには、ピンイン修正された認識結果とマッチングする修正対象認識結果が存在する場合、ピンイン修正された認識結果とマッチングする修正対象認識結果を、ターゲット修正対象認識結果として決定し、そしてターゲット修正対象認識結果に対応する修正後の認識結果を、固有名詞修正された認識結果として決定することにより、音声認識結果の精度がさらに向上する。

上記の分析から分かるように、本開示の実施例では、認識対象文の音声認識を行って、初期認識結果を取得した後、初期認識結果のピンイン修正を行って、ピンイン修正された認識結果を生成し、ピンイン修正された認識結果に対して固有名詞修正を行うことにより、音声認識結果の精度をさらに向上させることができる。例示的な実施例では、固有名詞修正された認識結果には全文のエラーが含まれる場合があり、例えば、ユーザが車両のサンルーフを開ける必要が存在する「
」（日本語の意味：私は息苦しいです）という文を「我很忙」（日本語の意味：私は忙しいです）として認識したことなど、実際の音声認識の適用シーンと一致しない場合が存在する。以下、上記
の問題を考慮して、図４を組み合わせて、本開示に係る音声認識方法をさらに説明する。

図４は、本開示の第４の実施例に係る音声認識方法の概略フローチャートである。図４に示すように、音声認識方法は、以下のステップ４０１からステップ４１０を含む。

ステップ４０１では、認識対象文の音声認識を行って、初期認識結果を取得する。

ステップ４０２では、初期認識結果における各文字に対応する少なくとも１つの候補文字ピンイン文字列を取得する。

ステップ４０３では、各文字に対応する少なくとも１つの候補文字ピンイン文字列に基づいて、初期認識結果に対応する少なくとも１つの文ピンイン文字列を決定する。

ステップ４０４では、少なくとも１つの文ピンイン文字列に基づいて、初期認識結果のピンイン修正を行って、ピンイン修正された認識結果を生成する。

ステップ４０５では、ピンイン修正された認識結果と、固有名詞データベース内の複数の修正対象認識結果とをマッチングし、固有名詞データベースには、複数の修正対象認識結果と、修正対象認識結果のそれぞれに対応する修正後の認識結果とが含まれる。

ステップ４０６では、固有名詞データベースには、ピンイン修正された認識結果とマッチングする修正対象認識結果が存在する場合、ピンイン修正された認識結果とマッチングする修正対象認識結果を、ターゲット修正対象認識結果として決定する。

ステップ４０７では、ターゲット修正対象認識結果に対応する修正後の認識結果を、固有名詞修正された認識結果として決定する。

ここで、上記のステップ４０１からステップ４０７の具体的な実現過程及び原理について、上記の実施例の説明を参照することができ、ここでは説明を省略する。

ステップ４０８では、固有名詞修正された認識結果と、全文修正データベース内の複数の修正対象全文認識結果とをマッチングし、全文修正データベースには、複数の修正対象全文認識結果と、修正対象全文認識結果のそれぞれに対応する修正後の全文認識結果とが含まれる。

ステップ４０９では、全文修正データベースには、固有名詞修正された認識結果とマッチングする修正対象全文認識結果が存在する場合、固有名詞修正された認識結果とマッチングする修正対象全文認識結果を、ターゲット修正対象全文認識結果として決定する。

ステップ４１０では、ターゲット修正対象全文認識結果に対応する修正後の全文認識結果を、全文修正された認識結果として決定する。

例示的な実施例では、全文修正データベースを事前に設定することができ、全文修正データベースには、複数の修正対象全文認識結果と、修正対象全文認識結果のそれぞれに対応する修正後の全文認識結果とが含まれるため、固有名詞修正された認識結果が決定された後、固有名詞修正された認識結果と、全文修正データベース内の複数の修正対象全文認識結果とをマッチングし、全文修正データベースには、固有名詞修正された認識結果とマッチングする修正対象全文認識結果が存在する場合、固有名詞修正された認識結果とマッチングする修正対象全文認識結果を、ターゲット修正対象全文認識結果として決定し、そしてターゲット修正対象全文認識結果に対応する修正後の全文認識結果を、全文修正された認識結果として決定することができる。

ここで、全文修正データベース内の複数の修正対象全文認識結果、及び修正対象全文認識結果のそれぞれに対応する修正後の全文認識結果は、音声認識の適用シーンにおける各インタラクティブ文、及び対応するよく見られるエラー認識結果に合わせて設定することができる。例えば、車載シーンでは、「
」（日本語の意味：私は息苦しいです）に対応する車両への操作は、窓を開けることであり、「
」は、「我很笨」（日本語の意味：私は不器用です）、「我很忙」（日本語の意味：私は忙しいです）と誤認識されることが多いため、全文修正データベースには、修正対象全文認識結果「我很笨」、「我很忙」、及び対応する修正後の全文認識結果「
」が含まれる。

なお、本開示の実施例では、固有名詞データベースには、ピンイン修正された認識結果とマッチングする修正対象認識結果が存在する場合、ピンイン修正された認識結果とマッチングする修正対象認識結果を、ターゲット修正対象認識結果として決定し、そしてターゲット修正対象認識結果に対応する修正後の認識結果を、固有名詞修正された認識結果として決定する。固有名詞データベースには、ピンイン修正された認識結果とマッチングする修正対象認識結果が存在しない場合、ピンイン修正された認識結果を固有名詞修正された認識結果とし、全文修正データベース内の複数の修正対象全文認識結果とマッチングすることができる。

即ち、本開示の実施例では、固有名詞修正により、固有名詞修正された認識結果が得られた後、固有名詞修正された認識結果に対して全文修正をさらに行うことができ、固有名詞修正により、固有名詞修正された認識結果が得られない場合、ピンイン修正された認識結果に対して全文修正を直接に行うこともできる。ここでのピンイン修正された認識結果は、ピンイン修正により得られたピンイン修正された認識結果であってもよいし、ピンイン修正が失敗したときの初期認識結果であってもよいが、本願ではこれが限定されない。

例えば、予め設定された全文修正データベースには、複数の修正対象全文認識結果と、修正対象全文認識結果のそれぞれに対応する修正後の全文認識結果とが含まれ、ここで、修正対象全文認識結果「我很笨」、「我很忙」、及び対応する修正後の全文認識結果「
」が含まれるものとする。固有名詞修正された認識結果は「我很忙」である場合、固有名詞修正された認識結果「我很忙」と、全文修正データベース内の複数の修正対象全文認識結果とをマッチングすることができる。全文修正データベースには、「我很忙」とマッチングする修正対象全文認識結果が存在するため、「我很忙」とマッチングする修正対象全文認識結果を、ターゲット修正対象全文認識結果として決定し、「我很忙」に対応する修正後の全文認識結果「
」を、全文修正された認識結果として決定し、これにより、車両のサンルーフを開ける操作を行うことができる。

本開示の実施例に係る音声認識方法では、認識対象文の音声認識を行って、初期認識結果を取得し、初期認識結果のピンイン修正、及び固有名詞修正を行った後、固有名詞修正された認識結果と、全文修正データベース内の複数の修正対象全文認識結果とをマッチングし、全文修正データベースには、固有名詞修正された認識結果とマッチングする修正対象全文認識結果が存在する場合、固有名詞修正された認識結果とマッチングする修正対象全文認識結果を、ターゲット修正対象全文認識結果として決定し、そしてターゲット修正対象全文認識結果に対応する修正後の全文認識結果を、全文修正された認識結果として決定することにより、音声認識結果の精度がさらに向上する。また、本開示の実施例に係る音声認識方法では、認識対象文の音声認識を行って初期認識結果を取得した後、予め設定されたピンイン修正データベース、固有名詞データベース、及び全文修正データベースに対してデータベースのクエリ操作を行うことを組み合わせて、初期認識結果のピンイン修正、固有名詞修正、及び全文修正を行うことにより、音声認識エンジンは認識結果セットを提供する機能を有することが不要になり、音声認識するときの音声認識エンジンへの依存度が低下し、音声認識の柔軟性が向上し、かつ初期認識結果の修正プロセスがすべてデータベースのクエリ操作であるため、パフォーマンスリソースの消費が少なくなる。

以下、図５を組み合わせて、本開示に係る音声認識装置を説明する。

図５は、本開示の第５の実施例に係る音声認識装置の概略構成図である。

図５に示すように、本開示に係る音声認識装置５００は、認識モジュール５０１、取得モジュール５０２、第１の決定モジュール５０３、及び生成モジュール５０４を備える。

ここで、認識モジュール５０１は、認識対象文の音声認識を行って、初期認識結果を取得するように構成される。

取得モジュール５０２は、初期認識結果における各文字に対応する少なくとも１つの候補文字ピンイン文字列を取得するように構成される。

第１の決定モジュール５０３は、各文字に対応する少なくとも１つの候補文字ピンイン文字列に基づいて、初期認識結果に対応する少なくとも１つの文ピンイン文字列を決定するように構成される。

生成モジュール５０４は、少なくとも１つの文ピンイン文字列に基づいて、初期認識結果のピンイン修正を行って、ピンイン修正された認識結果を生成するように構成される。

なお、本実施例に係る音声認識装置は、上記の実施例に記載の音声認識方法を実行することができる。ここで、音声認識装置は電子機器であってもよいし、電子機器内に配置されるものであってもよく、音声認識結果の精度を向上させることができる。

ここで、電子機器は、ノートパソコン、スマートフォン、ウェアラブルデバイスなどのモバイルコンピューティングデバイス、またはデスクトップコンピュータなどの固定コンピューティングデバイス、またはサーバ、またはその他の種類のコンピューティングデバイスなど、データ処理が可能な任意の固定またはモバイルコンピューティングデバイスであってもよいが、本開示はこれに限定されない。

なお、音声認識方法の実施例の上記の説明は、本開示に係る音声認識装置にも適用可能であり、ここでは説明を省略する。

本開示の実施例に係る音声認識装置は、まず、認識対象文の音声認識を行って、初期認識結果を取得し、次に、初期認識結果における各文字に対応する少なくとも１つの候補文字ピンイン文字列を取得して、各文字に対応する少なくとも１つの候補文字ピンイン文字列に基づいて、初期認識結果に対応する少なくとも１つの文ピンイン文字列を決定し、少なくとも１つの文ピンイン文字列に基づいて、初期認識結果のピンイン修正を行って、ピンイン修正された認識結果を生成する。これにより、音声認識結果の精度が向上する。

以下、図６を組み合わせて、本開示に係る音声認識装置を説明する。

図６は、本開示の第６の実施例に係る音声認識装置の概略構成図である。

図６に示すように、音声認識装置６００は、具体的に、認識モジュール６０１、取得モジュール６０２、第１の決定モジュール６０３、及び生成モジュール６０４を備える。
ここで、図６の認識モジュール６０１、取得モジュール６０２、第１の決定モジュール６０３、及び生成モジュール６０４は、図５の認識モジュール５０１、取得モジュール５０２、第１の決定モジュール５０３、及び生成モジュール５０４と同じ機能と構成を有する。

例示的な実施例では、第１の決定モジュール６０３は、文字ごとに、文字に対応する少なくとも１つの候補文字ピンイン文字列から１つの候補文字ピンイン文字列をターゲット文字ピンイン文字列として選択する選択ユニットと、初期認識結果における複数の文字の並び順に従って、選択された複数の文字のそれぞれに対応するターゲット文字ピンイン文字列をスプライシングするスプライシングユニットと、スプライシングされたピンイン文字列を、初期認識結果に対応する文ピンイン文字列として決定する第１の決定ユニットとを備える。

例示的な実施例では、文ピンイン文字列は複数であり、ここで、生成モジュールは、複数の文ピンイン文字列のそれぞれについて、文ピンイン文字列と、ピンイン修正データベース内の複数の修正対象ピンイン文字列とをマッチングするマッチングユニットであって、ピンイン修正データベースには、複数の修正対象ピンイン文字列と、修正対象ピンイン文字列のそれぞれに対応する修正後のピンイン文字列と、修正後のピンイン文字列に対応する認識結果とが含まれるマッチングユニットと、ピンイン修正データベースには、文ピンイン文字列とマッチングする修正対象ピンイン文字列が存在する場合、文ピンイン文字列とマッチングする修正対象ピンイン文字列に対応する修正後のピンイン文字列を、ターゲット修正後のピンイン文字列として決定する第２の決定ユニットと、ターゲット修正後のピンイン文字列に対応する認識結果を、ピンイン修正された認識結果として決定する第３の決定ユニットとを備える。

例示的な実施例では、上記の音声認識装置６００は、ピンイン修正された認識結果と、固有名詞データベース内の複数の修正対象認識結果とをマッチングする第１のマッチングモジュール６０５であって、固有名詞データベースには、複数の修正対象認識結果と、修正対象認識結果のそれぞれに対応する修正後の認識結果とが含まれる第１のマッチングモジュール６０５と、固有名詞データベースには、ピンイン修正された認識結果とマッチングする修正対象認識結果が存在する場合、ピンイン修正された認識結果とマッチングする修正対象認識結果を、ターゲット修正対象認識結果として決定する第２の決定モジュール６０６と、ターゲット修正対象認識結果に対応する修正後の認識結果を、固有名詞修正された認識結果として決定する第３の決定モジュール６０７とをさらに備える。

例示的な実施例では、上記の音声認識装置６００は、固有名詞修正された認識結果と、全文修正データベース内の複数の修正対象全文認識結果とをマッチングする第２のマッチングモジュール６０８であって、全文修正データベースには、複数の修正対象全文認識結果と、修正対象全文認識結果のそれぞれに対応する修正後の全文認識結果とが含まれる第２のマッチングモジュール６０８と、全文修正データベースには、固有名詞修正された認識結果とマッチングする修正対象全文認識結果が存在する場合、固有名詞修正された認識結果とマッチングする修正対象全文認識結果を、ターゲット修正対象全文認識結果として決定する第４の決定モジュール６０９と、ターゲット修正対象全文認識結果に対応する修正後の全文認識結果を、全文修正された認識結果として決定する第５の決定モジュール６１０とをさらに備える。

本開示の実施例に係る音声認識装置は、まず、認識対象文の音声認識を行って、初期認識結果を取得し、次に、初期認識結果における各文字に対応する少なくとも１つの候補文字ピンイン文字列を取得し、各文字に対応する少なくとも１つの候補文字ピンイン文字列に基づいて、初期認識結果に対応する少なくとも１つの文ピンイン文字列を決定し、少なくとも１つの文ピンイン文字列に基づいて、初期認識結果のピンイン修正を行って、ピンイン修正された認識結果を生成する。これにより、音声認識結果の精度が向上する。

本開示の実施例によれば、本開示は、電子機器、読み取り可能な記憶媒体、コンピュータプログラム製品及びコンピュータプログラムをさらに提供する。

図７は、本開示の実施例を実施可能な例示的な電子機器７００の概略ブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことが意図される。電子機器はまた、パーソナルデジタルプロセシング、セルラー電話、スマートフォン、ウェアラブルデバイス、及び他の同様のコンピューティングデバイスなど、様々な形態のモバイルデバイスを表してもよい。本明細書に示される構成要素、それらの接続及び関係、並びにそれらの機能は、単なる例であり、本明細書に記載及び／または特許請求される本願の実現を限定することを意図しない。

図７に示すように、電子機器７００は、リードオンリーメモリ（ＲＯＭ）７０２に記憶されたコンピュータプログラム命令、または記憶ユニット７０８からランダムアクセス/アクセスメモリ（ＲＡＭ）７０３にローディングされたコンピュータプログラム命令に基づいて、各種の適切な動作と処理を実行できる計算ユニット７０１を備える。ＲＡＭ７０３には、電子機器７００の動作に必要な各種のプログラム及びデータをさらに記憶することができる。計算ユニット７０１と、ＲＯＭ７０２と、ＲＡＭ７０３とは、バス７０４を介して互いに接続されている。入力／出力（Ｉ／Ｏ）インタフェース７０５もバス７０４に接続されている。

電子機器７００における複数のコンポーネントは、Ｉ／Ｏインタフェース７０５に接続されており、その複数のコンポーネントは、キーボードやマウスなどの入力ユニット７０６と、種々なディスプレイやスピーカなどの出力ユニット７０７と、磁気ディスクや光学ディスクなどの記憶ユニット７０８と、ネットワークカード、モデム、無線通信トランシーバーなどの通信ユニット７０９とを備える。通信ユニット７０９は、電子機器７００がインターネットのようなコンピュータネット及び／または種々なキャリアネットワークを介して他の機器と情報／データを交換することを許可する。

計算ユニット７０１は、処理及び計算能力を有する様々な汎用及び／または専用の処理コンポーネントであってもよい。計算ユニット７０１のいくつかの一例としては、中央処理ユニット（ＣＰＵ）、グラフィックス処理ユニット（ＧＰＵ）、様々な専用の人工知能（ＡＩ）計算チップ、様々な機械学習モデルアルゴリズムを実行する計算ユニット、デジタ信号プロセッサ（ＤＳＰ）、及び任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを備えるが、これらに限定されない。計算ユニット６０１は、上述で説明された各方法及び処理、例えば音声認識方法を実行する。例えば、いくつかの実施形態では、音声認識方法を、記憶ユニット７０８のような機械読み取り可能な媒体に有形的に含まれるコンピュータソフトウエアプログラムとして実現することができる。一部の実施形態では、コンピュータプログラムの一部または全ては、ＲＯＭ７０２及び／または通信ユニット７０９を介して、電子機器７００にロード及び／またはインストールすることができる。コンピュータプログラムがＲＡＭ７０３にロードされて計算ユニット７０１によって実行される場合に、前述した音声認識方法の少なくとも１つのステップを実行することができる。追加可能に、他の実施例では、計算ユニット７０１は、他の任意の適当な方式（例えば、ファームウェア）により音声認識方法を実行するように構成することができる。

ここで記載されているシステムまたは技術の各種の実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、専用集積回路（ＡＳＩＣ）、専用標準品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、コンプレックスプログラマブルロジックデバイス（ＣＰＬＤ）、コンピュータのハードウェア、ファームウェア、ソフトウェア、及び／またはこれらの組み合わせによって実現することができる。これらの各実施形態は、少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステムにて実行及び／または解釈される少なくとも１つのコンピュータプログラムにより実行することを含み、当該プログラマブルプロセッサは、ストレージシステム、少なくとも１つの入力デバイス、及び少なくとも１つの出力デバイスからデータ及び命令を受け取り、データ及び命令を該ストレージシステム、当該少なくとも１つの入力デバイス、及び当該少なくとも１つの出力デバイスに転送することができる専用または汎用のプログラマブルプロセッサであってもよい。

本開示の方法を実施するためのプログラムコードは、少なくとも１つのプログラミング言語の組み合わせで記述されていてもよい。これらのプログラムコードを汎用コンピュータや専用コンピュータ等のプログラマブルデータ処理装置のプロセッサやコントローラに供給し、プロセッサやコントローラで実行することにより、フローチャート及び／またはブロック図で規定された機能／動作を実現することができる。プログラムコードは、機械上で完全に実行されるものであってもよいし、機械上で部分的に実行されるものであってもよいし、独立したソフトウェアパッケージとして機械上で部分的に実行されるとともにリモートマシン上で部分的に実行されるものであってもよいし、リモートマシンまたはサーバ上で完全に実行されるものであってもよい。

本開示の説明において、本発明において、機械的に読み取り可能な媒体は、指令実行システム、装置または装置が使用する、または指令実行システム、装置または装置と組み合わせて使用するプログラムを含む、または記憶した有形の媒体であってもよい。機械的に読み取り可能な媒体は、機械的に読み取り可能な信号媒体であってもよいし、機械的に読み取り可能な記憶媒体であってもよい。機械的に読み取り可能な媒体としては、電子的、磁気的、光学的、電磁的、赤外線的、半導体システム、装置、デバイス、またはこれらの任意の適切な組み合わせが挙げられるが、これらに限定されるものではない。コンピュータ読み取り可能な記憶媒体のより具体的な一例としては、少なくとも１つのラインに基づく電気的接続、可搬型コンピュータディスク、ハードディスク、ランダムアクセスメモリＲＡＭ、読み取り専用メモリＲＯＭ、消去可能なプログラム可能なリードオンリーメモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、光記憶装置、磁気記憶装置、またはこれらの任意の適切な組み合わせが挙げられる。

ユーザとのインタラクションを提供するために、ここで説明されているシステム及び技術をコンピュータで実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置（例えば、ＣＲＴ（陰極線管）またはＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及びポインティングデバイス（例えば、マウスまたはトラックボール）とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクションを提供するために用いられることもでき、例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック）であってもよく、任意の形式（音響入力と、音声入力と、触覚入力とを含む）でユーザからの入力を受信することができる。

ここで説明されるシステム及び技術は、バックエンドコンポーネントを備えるコンピューティングシステム（例えば、データサーバとする）、またはミドルウェアコンポーネントを備えるコンピューティングシステム（例えば、アプリケーションサーバー）、またはフロントエンドコンポーネントを備えるコンピューティングシステム（例えば、グラフィカルユーザインタフェースまたはウェブブラウザを有するユーザコンピュータ、ユーザは、当該グラフィカルユーザインタフェースまたは当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションする）、またはこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを備えるコンピューティングシステムで実施することができる。任意の形式または媒体のデジタルデータ通信（例えば、通信ネットワーク）によってシステムのコンポーネントを互いに接続することができる。通信ネットワークの一例は、ローカルエリアネットワーク（ＬＡＮ）と、ワイドエリアネットワーク（ＷＡＮ）と、インターネットと、ブロックチェーンネットワークとを含む。

コンピュータシステムは、クライアントとサーバとを備えることができる。クライアントとサーバは、一般的に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータで実行され、互いにクライアント－サーバ関係を有するコンピュータプログラムによってクライアントとサーバとの関係が生成される。ここで、サーバはクラウドサーバであってもよく、クラウドコンピューティングサーバまたはクラウドホストとも呼ばれ、クラウドコンピューティングサービス体系のうちのホスト製品であり、従来の物理ホストとＶＰＳ（ＶｉｒｔｕａｌＰｒｉｖａｔｅＳｅｒｖｅｒ、また、「ＶＰＳ」と略記する）サービスでは、管理が難しく、業務拡張性が弱いという欠点を解決している。サーバは、分散システムのサーバ、またはブロックチェーンを結合したサーバであってもよい。

本開示は、コンピュータ技術の分野に関し、特に音声認識、自然言語処理などの人工知能技術分野に関する。

なお、人工知能はコンピュータが人間の思考過程とインテリジェントな挙動（例えば学習、推論、考え、計画など）を模擬するように研究する学科であり、ハードウェアレベルの技術もソフトウェアレベルの技術も存在する。人工知能のハードウェア技術は、一般的に、例えばセンサ、人工知能専用チップ、クラウドコンピューティング、分散記憶、ビッグデータ処理などの技術を含み、人工知能のソフトウェア技術は、主に、コンピュータビジョン技術、音声認識技術、自然言語処理技術及び機械学習／深層学習、ビッグデータ処理技術、知識マップ技術などのいくつかの面を含む。

本開示の実施例の技術案によれば、まず、認識対象文の音声認識を行って、初期認識結果を取得し、次に、初期認識結果における各文字に対応する少なくとも１つの候補文字ピンイン文字列を取得し、次に、各文字に対応する少なくとも１つの候補文字ピンイン文字列に基づいて、初期認識結果に対応する少なくとも１つの文ピンイン文字列を決定し、次に、少なくとも１つの文ピンイン文字列に基づいて、初期認識結果のピンイン修正を行って、ピンイン修正された認識結果を生成する。これにより、音声認識結果の精度が向上する。

なお、上述した様々な形態のフローを用いて、ステップを並び替え、追加または削除を行うことができることを理解されるべきである。例えば、本開示に記載された各ステップは、本願に開示された技術方案の所望の結果が達成できる限り、並行して実行されてもよく、順番に実行されてもよく、異なる順序で実行されてもよい。本明細書はここについて限定しない。

上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブ組合、及び代替を行うことができることは理解される。本願の精神及び原理内で行われたあらゆる補正、均等な置換及び改善などは、いずれも本開示の保護範囲内に含まれるべきである。

Claims

認識対象文の音声認識を行って、初期認識結果を取得するステップと、
前記初期認識結果における各文字に対応する少なくとも１つの候補文字ピンイン文字列を取得するステップと、
各前記文字に対応する少なくとも１つの前記候補文字ピンイン文字列に基づいて、前記初期認識結果に対応する少なくとも１つの文ピンイン文字列を決定するステップと、
少なくとも１つの前記文ピンイン文字列に基づいて、前記初期認識結果のピンイン修正を行って、ピンイン修正された認識結果を生成するステップと、
固有名詞データベースに基づいて前記ピンイン修正された認識結果を、固有名詞修正された認識結果として決定するステップと、
前記固有名詞修正された認識結果と、全文修正データベース内の複数の修正対象全文認識結果とをマッチングするステップであって、前記全文修正データベースには、複数の前記修正対象全文認識結果と、該修正対象全文認識結果のそれぞれに対応する修正後の全文認識結果とが含まれるステップと、
前記全文修正データベースには、前記固有名詞修正された認識結果とマッチングする前記修正対象全文認識結果が存在する場合、前記固有名詞修正された認識結果とマッチングする前記修正対象全文認識結果を、ターゲット修正対象全文認識結果として決定するステップと、
前記ターゲット修正対象全文認識結果に対応する前記修正後の全文認識結果を、全文修正された認識結果として決定するステップとを含む音声認識方法。
各前記文字に対応する少なくとも１つの前記候補文字ピンイン文字列に基づいて、前記初期認識結果に対応する少なくとも１つの前記文ピンイン文字列を決定するステップは、
前記文字ごとに、該文字に対応する少なくとも１つの前記候補文字ピンイン文字列から１つの前記候補文字ピンイン文字列をターゲット文字ピンイン文字列として選択するステップと、
前記初期認識結果における複数の前記文字の並び順に従って、選択された複数の前記文字のそれぞれに対応する前記ターゲット文字ピンイン文字列をスプライシングするステップと、
スプライシングされたピンイン文字列を、前記初期認識結果に対応する前記文ピンイン文字列として決定するステップとを含む請求項１に記載の音声認識方法。
前記文ピンイン文字列は複数であり、少なくとも１つの前記文ピンイン文字列に基づいて、前記初期認識結果のピンイン修正を行って、前記ピンイン修正された認識結果を生成するステップは、
複数の前記文ピンイン文字列のそれぞれについて、前記文ピンイン文字列と、ピンイン修正データベース内の複数の修正対象ピンイン文字列とをマッチングするステップであって、前記ピンイン修正データベースには、複数の前記修正対象ピンイン文字列と、該修正対象ピンイン文字列のそれぞれに対応する修正後のピンイン文字列と、前記修正後のピンイン文字列に対応する認識結果とが含まれるステップと、
前記ピンイン修正データベースには、前記文ピンイン文字列とマッチングする前記修正対象ピンイン文字列が存在する場合、前記文ピンイン文字列とマッチングする前記修正対象ピンイン文字列に対応する前記修正後のピンイン文字列を、ターゲット修正後のピンイン文字列として決定するステップと、
前記ターゲット修正後のピンイン文字列に対応する認識結果を、前記ピンイン修正された認識結果として決定するステップとを含む請求項１または請求項２に記載の音声認識方法。
前記固有名詞データベースに基づいて前記ピンイン修正された認識結果を、固有名詞修正された認識結果として決定するステップは、
前記ピンイン修正された認識結果と、固有名詞データベース内の複数の修正対象認識結果とをマッチングするステップであって、前記固有名詞データベースには、複数の前記修正対象認識結果と、該修正対象認識結果のそれぞれに対応する修正後の認識結果とが含まれるステップと、
前記固有名詞データベースには、前記ピンイン修正された認識結果とマッチングする前記修正対象認識結果が存在する場合、前記ピンイン修正された認識結果とマッチングする前記修正対象認識結果を、ターゲット修正対象認識結果として決定するステップと、
前記ターゲット修正対象認識結果に対応する前記修正後の認識結果を、固有名詞修正された認識結果として決定するステップとをさらに含む請求項１に記載の音声認識方法。
音声認識装置であって、
認識対象文の音声認識を行って、初期認識結果を取得する認識モジュールと、
前記初期認識結果における各文字に対応する少なくとも１つの候補文字ピンイン文字列を取得する取得モジュールと、
各前記文字に対応する少なくとも１つの前記候補文字ピンイン文字列に基づいて、前記初期認識結果に対応する少なくとも１つの文ピンイン文字列を決定する第１の決定モジュールと、
少なくとも１つの前記文ピンイン文字列に基づいて、前記初期認識結果のピンイン修正を行って、ピンイン修正された認識結果を生成する生成モジュールとを備え、
前記装置は、固有名詞データベースに基づいて前記ピンイン修正された認識結果を、固有名詞修正された認識結果として決定し、前記装置は、
前記固有名詞修正された認識結果と、全文修正データベース内の複数の修正対象全文認識結果とをマッチングさせる第２のモジュールであって、前記全文修正データベースには、複数の前記修正対象全文認識結果と、該修正対象全文認識結果のそれぞれに対応する修正後の全文認識結果とが含まれる第２のマッチングモジュールと、
前記全文修正データベースには、前記固有名詞修正された認識結果とマッチングする前記修正対象全文認識結果が存在する場合、前記固有名詞修正された認識結果とマッチングする前記修正対象全文認識結果を、ターゲット修正対象全文認識結果として決定する第４の決定モジュールと、
前記ターゲット修正対象全文認識結果に対応する修正後の全文認識結果を、全文修正された認識結果として決定する第５の決定モジュールとをさらに備える音声認識装置。
前記第１の決定モジュールは、
前記文字ごとに、前記文字に対応する少なくとも１つの前記候補文字ピンイン文字列から１つの前記候補文字ピンイン文字列をターゲット文字ピンイン文字列として選択する選択ユニットと、
前記初期認識結果における複数の前記文字の並び順に従って、選択された複数の前記文字のそれぞれに対応する前記ターゲット文字ピンイン文字列をスプライシングするスプライシングユニットと、
スプライシングされたピンイン文字列を、前記初期認識結果に対応する前記文ピンイン文字列として決定する第１の決定ユニットとを備える請求項５に記載の音声認識装置。
前記文ピンイン文字列は複数であり、前記生成モジュールは、
複数の前記文ピンイン文字列のそれぞれについて、前記文ピンイン文字列と、ピンイン修正データベース内の複数の修正対象ピンイン文字列とをマッチングするマッチングユニットであって、前記ピンイン修正データベースには、複数の前記修正対象ピンイン文字列と、該修正対象ピンイン文字列のそれぞれに対応する修正後のピンイン文字列と、前記修正後のピンイン文字列に対応する認識結果とが含まれるマッチングユニットと、
前記ピンイン修正データベースには、前記文ピンイン文字列とマッチングする前記修正対象ピンイン文字列が存在する場合、前記文ピンイン文字列とマッチングする前記修正対象ピンイン文字列に対応する前記修正後のピンイン文字列を、ターゲット修正後のピンイン文字列として決定する第２の決定ユニットと、
前記ターゲット修正後のピンイン文字列に対応する認識結果を、前記ピンイン修正された認識結果として決定する第３の決定ユニットとを備える請求項５または請求項６に記載の音声認識装置。
前記ピンイン修正された認識結果と、固有名詞データベース内の複数の修正対象認識結果とをマッチングする第１のマッチングモジュールであって、前記固有名詞データベースには、複数の前記修正対象認識結果と、該修正対象認識結果のそれぞれに対応する修正後の認識結果とが含まれる第１のマッチングモジュールと、
前記固有名詞データベースには、前記ピンイン修正された認識結果とマッチングする前記修正対象認識結果が存在する場合、前記ピンイン修正された認識結果とマッチングする前記修正対象認識結果を、ターゲット修正対象認識結果として決定する第２の決定モジュールと、
前記ターゲット修正対象認識結果に対応する前記修正後の認識結果を、固有名詞修正された認識結果として決定する第３の決定モジュールとをさらに備える請求項５に記載の音声認識装置。
電子機器であって、
少なくとも１つのプロセッサと、
少なくとも１つの該プロセッサと通信可能に接続されたメモリとを備え、
該メモリには、少なくとも１つの前記プロセッサによって実行可能な命令が記憶されており、該命令が少なくとも１つの前記プロセッサによって実行される場合、少なくとも１つの前記プロセッサが請求項１から請求項４のいずれかに記載の音声認識方法を実行可能である電子機器。
コンピュータに、請求項１から請求項４のいずれかに記載の音声認識方法を実行させるためのコンピュータ命令を記憶した非一時的なコンピュータ読み取り可能な記憶媒体。
プロセッサによって実行される場合、請求項１から請求項４のいずれかに記載の音声認識方法を実現するコンピュータプログラムを含むコンピュータプログラム製品。
プロセッサによって実行される場合、請求項１から請求項４のいずれかに記載の音声認識方法を実現するコンピュータプログラム。