JP7204861B2

JP7204861B2 - 中国語と英語の混在音声の認識方法、装置、電子機器及び記憶媒体

Info

Publication number: JP7204861B2
Application number: JP2021179448A
Authority: JP
Inventors: ヂィーヂェンワン; シェンチェン; チィーツァン
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-12-01
Filing date: 2021-11-02
Publication date: 2023-01-16
Anticipated expiration: 2041-11-02
Also published as: US11893977B2; JP2022020061A; CN112652311B; CN112652311A; US20220139369A1

Description

本出願は、コンピュータ技術分野に関し、特に音声技術分野、自然言語処理分野、ディープラーニング分野等の人工知能分野に関し、具体的には、中国語と英語の混在音声の認識方法、装置、電子機器及び記憶媒体に関する。

複数の音声認識のアプリケーションにいずれも中国語と英語を混ぜて話す状況がある。例えば、発話のコンテンツが

であり、「迪欧」、「第二」のような中国語の発音の語呂合わせのために、実際には、英語の単語「ｄｅａｌ」とよく似ている。関連技術において、音声認識モデルに基づいてこのような中国語と英語の混在音声を直接認識して選別することが一般的である。ただし、中国語の語呂合わせの単語が存在し、同時に言語モデルの区別はこのような語呂合わせ及び英語単語において違いが大きくないため、最終的な音声認識結果が実際には意図したような英語単語ではなくなり、認識効果が低いという問題がある。

本出願は、中国語と英語の混在音声の認識方法、装置、電子機器及び記憶媒体を提供する。

本出願の第１の態様によれば、中国語と英語の混在音声の認識方法を提供し、
音声情報が受信されたことに応答して、前記音声情報の発音情報及び言語モデルスコアを決定するステップと、
前記発音情報に基づいて前記音声情報のコンテンツに英語単語があるか否かを決定するステップと、
前記音声情報のコンテンツに英語単語があることに応答して、予め設定された中国語と英語のマッピングテーブルに基づいて前記英語単語に対応する中国語単語を決定するステップであって、前記中国語と英語のマッピングテーブルには少なくとも１ペアの英語単語と中国語単語とのマッピング関係が含まれるステップと、
前記英語単語に対応する中国語単語のスコアを決定し、前記言語モデルスコア内の前記英語単語のスコアを前記中国語単語のスコアに置き換えるステップと、
置き換えられた言語モデルスコアに基づいて、前記音声情報に対する音声認識結果を取得するステップと、を含む。

本出願の第２の態様によれば、中国語と英語の混在音声の認識装置を提供し、
音声情報が受信されたことに応答して、前記音声情報の発音情報及び言語モデルスコアを決定するための第１の決定モジュールと、
前記発音情報に基づいて前記音声情報のコンテンツに英語単語があるか否かを決定するための第２の決定モジュールと、
前記音声情報のコンテンツに英語単語があることに応答して、予め設定された中国語と英語のマッピングテーブルに基づいて前記英語単語に対応する中国語単語を決定するための第３の決定モジュールであって、前記中国語と英語のマッピングテーブルには少なくとも１ペアの英語単語と中国語単語とのマッピング関係が含まれる第３の決定モジュールと、
前記英語単語に対応する中国語単語のスコアを決定するための第４の決定モジュールと、
前記言語モデルスコア内の前記英語単語のスコアを前記中国語単語のスコアに置き換えるための置き換えモジュールと、
置き換えられた言語モデルスコアに基づいて、前記音声情報に対する音声認識結果を取得するための第１の取得モジュールと、を含む。

本出願の第３の態様によれば、電子機器を提供し、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと通信可能に接続されたメモリと、を含み、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶されており、前記命令は、前記少なくとも１つのプロセッサが、前述した第１の態様の実施例に記載の中国語と英語の混在音声の認識方法を実行できるように、前記少なくとも１つのプロセッサによって実行される。

本出願の第４の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、ここで、前記コンピュータ命令は、前記コンピュータに前述した第１の態様の実施例に記載の中国語と英語の混在音声の認識方法を実行させるために用いられる。
本出願の第５の態様によれば、コンピュータプログラムを提供し、前記コンピュータプログラムは、コンピュータに前述した第１の態様の実施例に記載の中国語と英語の混在音声の認識方法を実行させる。

本出願の技術的解決手段によれば、中国語と英語のマッピングテーブルにおいて英語単語と中国語単語とのマッピング関係に基づいて、音響モデルが音声情報の発音情報を認識し、かつ発音情報に基づいて対応する単語を出力する時、音声コンテンツの中の英語単語に対応する中国語単語のスコアを用いて言語モデルスコアを検索し、検索された中国語単語のスコアを該言語モデルスコア内の英語単語のスコアに置き換え、該英語単語のスコアが位置するパスのスコアを高め、さらに該英語単語のテキストがモデルに出力されて音声情報の中の英語コンテンツに対応する音声認識結果とするように保証することができ、中国語と英語の混在音声の全体的な認識効果を高める。

本文に説明されたコンテンツは、本出願の実施例における肝心な又は重要な特徴を示すためのものではなく、本出願の範囲を制限するためのものでもないと理解すべきである。本出願の他の特徴は、以下の明細書からわかりやすくなる。

図面は、本技術的解決手段をよりよく理解するために用いられ、本出願を限定するものではない。
本出願の実施例に基づく音声認識の処理プロセス１００を示す概略図である。本出願の実施例により提供される中国語と英語の混在音声の認識方法のフローチャートである。本出願の実施例により提供される別の中国語と英語の混在音声の認識方法のフローチャートである。本出願の実施例により提供されるもう１つの中国語と英語の混在音声の認識方法のフローチャートである。本出願の実施例に基づく言語モデルの構図空間を構築するフローチャートである。本出願の実施例により提供される中国語と英語の混在音声の認識装置の構造ブロック図である。本出願の実施例により提供される別の中国語と英語の混在音声の認識装置の構造ブロック図である。本出願の実施例における中国語と英語の混在音声の認識方法に基づく電子機器のブロック図である。

以下、図面と組み合わせて本出願の例示的な実施例を説明し、理解を容易にするために、その中には本出願の実施例の様々な詳細事項が含まれており、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本出願の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができる。同様に、わかりやすくかつ簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。

以下は図面を参照しながら本出願の実施例における中国語と英語の混在音声の認識方法、装置、電子機器及び記憶媒体を説明する。

図１は、本出願の実施例に基づく音声認識の処理プロセス１００の概略図を示す。一般的には、音声認識システムは、音響モデル、言語モデル及びデコーダ等のコンポーネントを含むことができる。図１に示すように、収集された音声信号１１０を取得すると、後での音響モデル等が処理することに備えるために、ブロック１２０において、音声信号１１０に対して信号処理と特徴抽出を行い、入力された音声信号１１０から特徴を抽出することを含む。又は、特徴抽出プロセスには、さらに他の信号処理技術が含まれており、それによって環境騒音又は他の要素が特徴に与える影響を低減させる。

図１を参照し、特徴抽出１２０を完了すると、抽出された特徴をデコーダ１３０に入力し、かつデコーダ１３０を介して処理してテキスト認識結果１４０を出力する。具体的には、デコーダ１３０は、音響モデル１３２及び言語モデル１３４に基づいて最大確率で出力された音声信号のテキストシーケンスを求め、ここで、音響モデル１３２は、音声から発音セグメントへの変換を実現することができ、それに対して言語モデル１３４は、発音セグメントからテキストへの変換を実現することができる。

音響モデル１３２は、発音セグメントに対して音響及び言語の連合モデリングを行うために用いられ、そのモデリングユニットは例えば音節であってもよく、本出願のいくつかの実施例において、音響モデル１３２はストリーミング多層切断注意力モデル（ＳｔｒｅａｍｉｎｇＭｕｌｔｉ－ＬａｙｅｒＴｒｕｎｃａｔｅｄＡｔｔｅｎｔｉｏｎ、ＳＭＬＴＡと略する）であってもよい。ここで、ＳＭＬＴＡモデルはＣＴＣ（ＣｏｎｎｅｃｔｉｏｎｉｓｔＴｅｍｐｏｒａｌＣｌａｓｓｉｆｉｃａｔｉｏｎ、コネクショニスト時系列分類法）モデルのピーク情報を利用し、音声を複数の小セグメントに切断し、それにより注意力モデルのモデリングと復号を各小セグメントに展開させることができる。このようなＳＭＬＴＡモデルは、リアルタイムなストリーミング音声認識をサポートし、かつ高い認識精度を実現することができる。

言語モデル１３４は、言語をモデリングするために用いられる。一般的には、統計的なＮグラム文法（Ｎ－Ｇｒａｍ）を用いることができ、すなわち前後Ｎ個のワードが出現する確率を統計する。任意の既知の又は将来開発される言語モデルを、本出願の実施例と組み合わせて使用することができると理解すべきである。いくつかの実施例において、音響モデル１３２は、音声データベースに基づいてトレーニングを行い及び／又は動作することができ、言語モデル１３４はテキストデータベースに基づいてトレーニングを行い及び／又は動作することができる。

デコーダ１３０は、音響モデル１３２及び言語モデル１３４の出力認識結果に基づいて、動的に復号することを実現することができる。例えば、デコーダ上で可能な認識パスを拡張し、最後には特徴スコアリング結果が最も高いパスを最終的な認識結果として選択する。ある音声認識のシーンでは、ユーザがそのユーザデバイスに対して話しており、ユーザが発した音声（及び声）はユーザデバイスに収集され、例えば、ユーザデバイスの音声収集機器（例えばマイク）を介して音声を収集することができる。ユーザデバイスは、音声信号を収集することができる任意の電子機器であってもよく、スマートフォン、タブレットコンピュータ、デスクトップコンピュータ、ノートパソコン、スマートウェアラブルデバイス（例えばスマートウォッチ、スマートグラス）、ナビゲーションデバイス、マルチメディアプレイヤーデバイス、教育用機器、ゲームデバイス、スマートスピーカ等を含むが、これらに限定されない。ユーザデバイスは、収集する過程において、ネットワークを介して音声をセグメント分けでサーバに送信することができ、サーバは音声認識モデルを含み、それはリアルタイムかつ正確な音声認識を実現することができ、認識を完了した後、ネットワークを介して認識結果をユーザデバイスに送信することができる。本発明の実施例に基づくストリーミング音声認識結果の表示方法は、ユーザデバイスにおいて実行されてもよく、サーバにおいて実行されてもよく、又はその一部がユーザデバイスにおいて実行されるが、もう一部がサーバにおいて実行されると理解すべきである。

図２は、本出願の実施例により提供される中国語と英語の混在音声の認識方法のフローチャートである。説明すべきこととして、本出願の実施例における中国語と英語の混在音声の認識方法は、本出願の実施例における中国語と英語の混在音声の認識装置に適用され、該中国語と英語の混在音声の認識装置は電子機器に配置されてもよい。図２に示すように、該中国語と英語の混在音声の認識方法はステップ２０１～２０５を含むことができる。

ステップ２０１では、音声情報が受信されたことに応答して、音声情報の発音情報及び言語モデルスコアを決定する。

本出願のいくつかの実施例において、電子機器は、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータ等の様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、例えば、パーソナルデジタルプロセッサ、携帯電話、スマートフォン、ウェアラブルデバイス、他の類似するコンピューティングデバイス等の様々な形態のモバイルデバイスを表すこともできる。一例として、該電子機器はユーザデバイスであってもよい。

ある音声認識のシーンでは、ユーザがそのユーザデバイスに対して話しており、ユーザが発した音声（及び声）はユーザデバイスに収集され、例えば、ユーザデバイスの音声収集機器（例えばマイク）を介して音声を収集することができる。ユーザデバイスが収集した音声情報を受信する時、受信した音声情報に応答して、該音声情報の発音情報及び言語モデルスコアを決定することができる。

いくつかの実施例において、予め確立された音響モデルによって該音声情報の発音情報を決定することができる。例えば、該音声情報を音響モデルに入力し、かつ音響モデルから出力された発音情報を取得することができる。ここで、いくつかの実施例において、該発音情報は、対応する音声フレームのピッチ、対応する音声フレームに対応する対象音素のコンテンツ、対象音素に隣接する音素のコンテンツ及び連音指示記号を含むことができる。

本出願のいくつかの実施例において、言語モデルによって該音声情報の言語モデルスコアを決定することができる。ここで、該言語モデルはＮ－Ｇｒａｍモデルであってもよい。

ステップ２０２では、発音情報に基づいて音声情報のコンテンツに英語単語があるか否かを決定する。

一例として、本出願の実施例は、音響モデルが音声情報の発音情報を認識し、かつ発音情報に基づいて対応する単語を出力する時、該音声情報のコンテンツに英語単語があるか否かを認識することであってもよい。

いくつかの実施例において、英語単語のコンテンツはいずれもアルファベットで始まる文字列であるため、該発音情報に基づいて該音声情報のコンテンツにはアルファベットで始まる単語があるか否かを決定することができ、アルファベットで始まる単語がある場合、該音声情報のコンテンツには英語単語があると決定し、該音声情報のコンテンツにはアルファベットで始まる単語がない場合、該音声情報のコンテンツには英語単語がないと決定することができる。

ステップ２０３では、音声情報のコンテンツに英語単語があることに応答して、予め設定された中国語と英語のマッピングテーブルに基づいて英語単語に対応する中国語単語を決定する。

ここで、本出願のいくつかの実施例において、中国語と英語のマッピングテーブルには少なくとも１ペアの英語単語と中国語単語とのマッピング関係が含まれる。例えば、英語単語「ｄｅａｌ」と中国語単語「合同（契約）」とはマッピング関係を有し、英語単語「ｂｅｈａｖｉｏｒ」と中国語単語

とはマッピング関係を有する。

いくつかの実施例において、音声情報のコンテンツに英語単語がある場合、該中国語と英語のマッピングテーブルにおいて英語単語と中国語単語とのマッピング関係に基づいて、該音声情報のコンテンツの中の英語単語に対応する中国語単語を決定することができる。例えば、音声コンテンツ

を例として、音声コンテンツには英語単語「ｄｅａｌ」と英語単語「ｂｅｈａｖｉｏｒ」があることを決定することができ、該中国語と英語のマッピングテーブルにおいて英語単語と中国語単語とのマッピング関係に基づいて、該音声コンテンツの中の英語単語「ｄｅａｌ」に対応する中国語単語が「合同」であり、該音声コンテンツの中の英語単語「ｂｅｈａｖｉｏｒ」に対応する中国語単語が

であると決定することができる。

ステップ２０４では、英語単語に対応する中国語単語のスコアを決定し、言語モデルスコア内の英語単語のスコアを中国語単語のスコアに置き換える。

本出願のいくつかの実施例において、予め確立された言語モデルスコアコーパスから、前記英語単語に対応する中国語のスコアを取得することができる。すなわち、言語モデルスコアコーパスにおいて多くの中国語単語及びその中国語単語に対応するスコアがある。本ステップでは、該中国語と英語のマッピングテーブルにおいて英語単語と中国語単語とのマッピング関係に基づいて、該音声情報のコンテンツの中の英語単語に対応する中国語単語を決定する時、該言語モデルスコアコーパスから、該中国語単語のスコアを取得し、かつ該言語モデルスコア内の英語単語のスコアを中国語単語のスコアに置き換えることができる。

すなわち、音声情報のコンテンツに英語単語があると決定する場合、該英語単語に対応する中国語単語のスコアを取得することができ、かつ該音声情報の言語モデルスコア内の英語単語のスコアを該中国語単語のスコアに置き換えることができ、即ち英語単語に対応する中国語単語を用いて言語モデルスコアを検索することにより、該英語単語のスコアが位置するパスのスコアを高め、さらに該英語単語のテキストがモデルに出力されて音声情報の中の英語コンテンツに対応する音声認識結果とするように保証することがでる。

説明すべきこととして、本出願の実施例において、言語モデルスコア内の英語単語のスコアを中国語単語のスコアに置き換えることは、中国語単語のスコアを用いて該言語モデルスコア内の英語単語のスコアを置き換え、該英語単語に対応するテキスト単語を置き換えないと理解することができる。

ステップ２０５では、置き換えられた言語モデルスコアに基づいて、音声情報に対する音声認識結果を取得する。

選択的に、置き換えられた言語モデルスコアに基づいて、復号パスから特徴スコアリング結果が最も高いパスを選択し、該スコアリング結果が最も高いパスの中のノードに対応する単語シーケンスを該音声情報の音声認識結果とする。

本出願の実施例における中国語と英語の混在音声の認識方法は、音声情報が受信されたことに応答して、音声情報の発音情報及び言語モデルスコアを決定し、かつ発音情報に基づいて音声情報のコンテンツに英語単語があるか否かを決定し、音声情報のコンテンツに英語単語があることに応答して、予め設定された中国語と英語のマッピングテーブルに基づいて英語単語に対応する中国語単語を決定し、かつ英語単語に対応する中国語単語のスコアを決定し、言語モデルスコア内の英語単語のスコアを中国語単語のスコアに置き換え、置き換えられた言語モデルスコアに基づいて、音声情報に対する音声認識結果を取得する。これにより、本出願の実施例は、中国語と英語のマッピングテーブルにおいて英語単語と中国語単語とのマッピング関係に基づいて、音響モデルが音声情報の発音情報を認識し、かつ発音情報に基づいて対応する単語を出力する時、音声コンテンツの中の英語単語に対応する中国語単語のスコアを用いて言語モデルスコアを検索し、検索された中国語単語のスコアを該言語モデルスコア内の英語単語のスコアに置き換え、該英語単語のスコアが位置するパスのスコアを高め、さらに該英語単語のテキストがモデルに出力されて音声情報の中の英語コンテンツに対応する音声認識結果とするように保証することができ、中国語と英語の混在音声の全体的な認識効果を高める。

説明すべきこととして、該音声情報のコンテンツに英語単語がないと決定する場合、言語情報の言語モデルスコアを復号結果の認識に直接用いることができる。いくつかの実施例において、図３に示すように、該中国語と英語の混在音声の認識方法はステップ３０１～３０６を含むことができる。

ステップ３０１では、音声情報が受信されたことに応答して、音声情報の発音情報及び言語モデルスコアを決定する。

本出願の実施例において、ステップ３０１はそれぞれ本出願の各実施例におけるいずれかの手段を用いて実現することができ、本出願の実施例はこれを限定せず、説明を省略する。

ステップ３０２では、発音情報に基づいて音声情報のコンテンツに英語単語があるか否かを決定する。

いくつかの実施例において、英語単語のコンテンツはいずれもアルファベットで始まる文字列であるため、該発音情報に基づいて該音声情報のコンテンツにはアルファベットで始まる単語があるか否かを決定することができ、アルファベットで始まる単語がある場合、該音声情報のコンテンツには英語単語があると決定し、この時にステップ３０３を実行することができる。該音声情報のコンテンツにはアルファベットで始まる単語がない場合、該音声情報のコンテンツには英語単語がないと決定することができ、この時にステップ３０６を実行することができる。

ステップ３０３では、音声情報のコンテンツに英語単語があることに応答して、予め設定された中国語と英語のマッピングテーブルに基づいて英語単語に対応する中国語単語を決定する。

本出願の実施例において、ステップ３０３はそれぞれ本出願の各実施例におけるいずれかの手段を用いて実現することができ、本出願の実施例はこれを限定せず、説明を省略する。

ステップ３０４では、英語単語に対応する中国語単語のスコアを決定し、言語モデルスコア内の英語単語のスコアを中国語単語のスコアに置き換える。

本出願の実施例において、ステップ３０４はそれぞれ本出願の各実施例におけるいずれかの手段を用いて実現することができ、本出願の実施例はこれを限定せず、説明を省略する。

ステップ３０５では、置き換えられた言語モデルスコアに基づいて、音声情報に対する音声認識結果を取得する。

本出願の実施例において、ステップ３０５はそれぞれ本出願の各実施例におけるいずれかの手段を用いて実現することができ、本出願の実施例はこれを限定せず、説明を省略する。

ステップ３０６では、音声情報のコンテンツに英語単語がないことに応答して、言語モデルスコアに基づいて音声情報に対する音声認識結果を取得する。

選択的に、該音声情報のコンテンツに英語単語がないと決定する場合、音声情報の言語モデルスコアに基づいて、復号パスから特徴スコアリング結果が最も高いパスを選択し、該スコアリング結果が最も高いパスの中のノードに対応する単語シーケンスを該音声情報の音声認識結果とする。

本出願の実施例における中国語と英語の混在音声の認識方法は、音声情報の発音情報に基づいて音声情報のコンテンツに英語単語があるか否かを決定することができ、音声情報のコンテンツに英語単語がある場合、予め設定された中国語と英語のマッピングテーブルに基づいて英語単語に対応する中国語単語を決定し、かつ英語単語に対応する中国語単語のスコアを決定し、言語モデルスコア内の英語単語のスコアを中国語単語のスコアに置き換え、置き換えられた言語モデルスコアに基づいて、音声情報に対する音声認識結果を取得する。該音声情報のコンテンツに英語単語がないと決定する場合、音声情報の言語モデルスコアに基づいて音声情報の音声認識結果を取得することができる。これにより、本出願は、中国語と英語の混在音声の認識シーンに適用することができ、また非混在の音声認識シーンにも適用することができ、例えば、現在のシーンが非混在の音声認識シーンであると認識すると、音声情報の言語モデルスコアに基づいて音声情報に対する音声認識結果を直接取得することができる。現在のシーンが中国語と英語の混在音声の認識シーンであると認識すると、中国語と英語のマッピングテーブルにおいて英語単語と中国語単語とのマッピング関係に基づいて、音響モデルが音声情報の発音情報を認識し、かつ発音情報に基づいて対応する単語を出力する時、音声コンテンツの中の英語単語に対応する中国語単語のスコアを用いて言語モデルスコアを検索し、検索された中国語単語のスコアを該言語モデルスコア内の英語単語のスコアに置き換え、該英語単語のスコアが位置するパスのスコアを高め、さらに該英語単語のテキストがモデルに出力されて音声情報の中の英語コンテンツに対応する音声認識結果とするように保証することができ、中国語と英語の混在音声の全体的な認識効果を高める。

いくつかの実施例において、本出願の実施例における中国語と英語の混在音声の認識方法は、端末機器におけるローカル音声認識シーンに適用されることができ、中国語と英語の混在音声の全体的な認識効果をさらに高めるために、ローカル音声認識は、認識する前に予め認識されたテキストに対して言語モデルの構図空間を構築し、即ちユーザが音声を入力するすべての可能なパスを確立し、音声認識を行う時に、該構図空間を走査し、本出願の実施例の音声認識アルゴリズムを組み合わせ、入力された音声に最適なマッチングパスを検索し、該パスは認識の最終結果を戻す。本出願のいくつかの実施例において、図４に示すように、該中国語と英語の混在音声の認識方法はステップ４０１～４０８を含むことができる。

ステップ４０１では、言語モデルリソースを取得する。

いくつかの実施例において、認識する前に予め認識されたテキストに対して言語モデルの構図空間を構築し、該構図空間を構築する時に、まず言語モデルリソースを取得する必要がある。例えば、該言語モデルリソースは端末機器に記憶されることができ、該構図空間を構築する時に、該言語モデルリソースを読み取ることができる。

ステップ４０２では、言語モデルリソース、及び中国語と英語のマッピングテーブルに基づいて言語モデルの構図空間を構築し、構図空間は複数の復号パスを含む。

選択的に、言語モデルリソースに基づいて言語モデルの初期構図空間を構築し、かつ中国語と英語のマッピングテーブルにおいて中国語単語と英語単語とのマッピング関係に基づいて、中国語単語の言語モデルスコアを用いて該初期構図空間において英語単語を含むパスのスコアを置き換え、置き換えられた初期構図空間を前記言語モデルの構図空間とする。

本出願のいくつかの実施例において、図５に示すように、前記言語モデルリソース及び前記中国語と英語のマッピングテーブルに基づいて言語モデルの構図空間を構築する具体的な実現過程は、ステップ５０１～５０５を含むことができる。

ステップ５０１では、言語モデルリソースに基づいて言語モデルの初期構図空間を構築する。

ここで、いくつかの実施例において、該初期構図空間は複数の復号パスを含むことができる。各復号パスにおけるノードは対応する単語及び該単語のスコアを有する。ここで、前記複数の復号パスの少なくとも１つの復号パスに英語単語のスコアがある。

ステップ５０２では、中国語と英語のマッピングテーブルにおける各英語単語に対応する中国語単語を決定する。

ステップ５０３では、予め確立された言語モデルスコアコーパスから、各英語単語に対応する各中国語単語のスコアを取得する。

ステップ５０４では、各英語単語に対応する各中国語単語のスコアに基づいて、初期構図空間における英語単語ノードのスコアを、英語単語ノードに対応する中国語単語のスコアに置き換える。

ステップ５０５では、置き換えられた初期構図空間を、言語モデルの構図空間とする。

これにより、ステップ５０１～ステップ５０５によって言語モデルの構図空間を構築することができ、それによってユーザが音声を入力するすべての可能なパスを確立し、このように、音声認識を行う時に、該構図空間を走査して入力された音声に最適なマッチングパスを検索することができ、該パスは認識の最終結果を戻す。

ステップ４０３では、音声情報が受信されたことに応答して、音声情報の発音情報及び言語モデルスコアを決定する。

本出願の実施例において、ステップ４０３はそれぞれ本出願の各実施例におけるいずれかの手段を用いて実現することができ、本出願の実施例はこれを限定せず、説明を省略する。

ステップ４０４では、発音情報に基づいて音声情報のコンテンツに英語単語があるか否かを決定する。

本出願の実施例において、ステップ４０４はそれぞれ本出願の各実施例におけるいずれかの手段を用いて実現することができ、本出願の実施例はこれを限定せず、説明を省略する。

ステップ４０５では、音声情報のコンテンツに英語単語が存在することに応答して、予め設定された中国語と英語のマッピングテーブルに基づいて英語単語に対応する中国語単語を決定する。

本出願の実施例において、ステップ４０５はそれぞれ本出願の各実施例におけるいずれかの手段を用いて実現することができ、本出願の実施例はこれを限定せず、説明を省略する。

ステップ４０６では、英語単語に対応する中国語単語のスコアを決定し、言語モデルスコア内の英語単語のスコアを中国語単語のスコアに置き換える。

本出願の実施例において、ステップ４０６はそれぞれ本出願の各実施例におけるいずれかの手段を用いて実現することができ、本出願の実施例はこれを限定せず、説明を省略する。

ステップ４０７では、置き換えられた言語モデルスコアに基づいて、音声情報に対する音声認識結果を取得する。

本発明のいくつかの実施例において、置き換えられた言語モデルスコアに基づいて、構図空間の複数の復号パスからすべてのノードのスコアの合計が最大の復号パスを選択し、かつすべてのノードのスコアの合計が最大の復号パスに対応する単語シーケンスを選択し、音声情報に対する音声認識結果として決定する。

ステップ４０８では、音声情報のコンテンツに英語単語がないことに応答して、言語モデルスコアに基づいて音声情報に対する音声認識結果を取得する。

選択的に、音声情報のコンテンツに英語単語がないと決定する場合、該音声情報の言語モデルスコアに基づいて、構図空間における複数の復号パスから、すべてのノードのスコアの合計が最大の復号パスを選択し、かつすべてのノードのスコアの合計が最大の復号パスに対応する単語シーケンスを、音声情報に対する音声認識結果として決定する。

本出願の実施例における中国語と英語の混在音声の認識方法は、認識する前に予め認識されたテキストに対して言語モデルの構図空間を構築し、すなわちユーザが音声を入力する可能なすべてのパスを確立し、音声認識を行う時に、該構図空間を走査し、本出願の実施例の音声認識アルゴリズムを組み合わせ、入力された音声に最適なマッチングパスを検索し、該パスは認識の最終結果を戻し、それにより中国語と英語の混在音声の全体的な認識効果をさらに高めることができる。

図６は、本出願の実施例により提供される中国語と英語の混在音声の認識装置の構造ブロック図である。図６に示すように、該中国語と英語の混在音声の認識装置５００は、第１の決定モジュール６０１、第２の決定モジュール６０２、第３の決定モジュール６０３、第４の決定モジュール６０４、置き換えモジュール６０５及び第１の取得モジュール６０６を含むことができる。

具体的には、第１の決定モジュール６０１は、音声情報が受信されたことに応答して、音声情報の発音情報及び言語モデルスコアを決定するために用いられる。

第２の決定モジュール６０２は、発音情報に基づいて音声情報のコンテンツに英語単語があるか否かを決定するために用いられる。

第３の決定モジュール６０３は、音声情報のコンテンツに英語単語があることに応答して、予め設定された中国語と英語のマッピングテーブルに基づいて英語単語に対応する中国語単語を決定するために用いられ、ここで、中国語と英語のマッピングテーブルには少なくとも１ペアの英語単語と中国語単語とのマッピング関係が含まれる。

第４の決定モジュール６０４は、英語単語に対応する中国語単語のスコアを決定するために用いられる。

置き換えモジュール６０５は、言語モデルスコア内の英語単語のスコアを中国語単語のスコアに置き換えるために用いられる。

第１の取得モジュール６０６は、置き換えられた言語モデルスコアに基づいて、音声情報に対する音声認識結果を取得するために用いられる。

本出願のいくつかの実施例において、第１の取得モジュール６０６は、さらに音声情報のコンテンツに英語単語がないことに応答して、言語モデルスコアに基づいて音声情報に対する音声認識結果を取得するために用いられる。

本出願のいくつかの実施例において、図７に示すように、該中国語と英語の混在音声の認識装置７００は、さらに構図モジュール７０７を含むことができる。ここで、構図モジュール７０７は、第１の決定モジュール７０１が音声情報の発音情報及び言語モデルスコアを決定する前に、言語モデルリソースを取得し、かつ言語モデルリソース、及び中国語と英語のマッピングテーブルに基づいて言語モデルの構図空間を構築するために用いられ、構図空間は複数の復号パスを含む。

いくつかの実施例において、構図モジュール７０７は、具体的には、言語モデルリソースに基づいて言語モデルの初期構図空間を構築し、中国語と英語のマッピングテーブルにおける各英語単語に対応する中国語単語を決定し、予め確立された言語モデルスコアコーパスから、各英語単語に対応する各中国語単語のスコアを取得し、各英語単語に対応する各中国語単語のスコアに基づいて、初期構図空間における英語単語ノードのスコアを、英語単語ノードに対応する中国語単語のスコアに置き換え、置き換えられた初期構図空間を言語モデルの構図空間とすることに用いられる。

いくつかの実施例において、第１の取得モジュール７０６は、置き換えられた言語モデルスコアに基づいて、音声情報に対する音声認識結果を取得する具体的な実現過程は、置き換えられた言語モデルスコアに基づいて、構図空間における複数の復号パスから、すべてのノードのスコアの合計が最大の復号パスを選択し、すべてのノードのスコアの合計が最大の復号パスに対応する単語シーケンスを、音声情報に対する音声認識結果として決定することである。

ここで、図７における７０１～７０６と図６における６０１～６０６は、同じ機能と構造を有する。

上記実施例における装置については、そのうちの各モジュールが動作を実行する具体的な形態は、既に該方法に係る実施例において詳細に説明し、ここでは詳細に説明しない。

本出願の実施例における中国語と英語の混在音声の認識装置は、中国語と英語のマッピングテーブルにおいて英語単語と中国語単語とのマッピング関係に基づいて、音響モデルが音声情報の発音情報を認識し、かつ発音情報に基づいて対応する単語を出力する時、音声コンテンツの中の英語単語に対応する中国語単語のスコアを用いて言語モデルスコアを検索し、検索された中国語単語のスコアを該言語モデルスコア内の英語単語のスコアに置き換え、該英語単語のスコアが位置するパスのスコアを高め、さらに該英語単語のテキストがモデルに出力されて音声情報の中の英語コンテンツに対応する音声認識結果とするように保証することができ、中国語と英語の混在音声の全体的な認識効果を高める。

本出願の実施例によれば、本出願は、さらに電子機器及び読み取り可能な記憶媒体を提供する。
本出願の実施例によれば、本出願は、コンピュータプログラムを提供し、コンピュータプログラムは、コンピュータに本出願によって提供される中国語と英語の混在音声の認識方法を実行させる。

図８に示すように、本出願の実施例における中国語と英語の混在音声の認識方法を実現するための電子機器のブロック図である。電子機器は、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータ等の様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、例えば、パーソナルデジタルプロセッサ、携帯電話、スマートフォン、ウェアラブルデバイス、他の類似するコンピューティングデバイス等の様々な形態のモバイルデバイスを表すこともできる。本明細書で示される部材、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び／又はリクエストされる本出願の実現を制限することを意図したものではない。

図８に示すように、該電子機器は、１つ又は複数のプロセッサ８０１と、メモリ８０２と、高速インターフェース及び低速インターフェースを含む、各部材を接続するためのインターフェースと、を含む。各部材は、互いに異なるバスで接続されており、共通のマザーボード上に実装されていてもよく、必要に応じて実装されていてもよい。プロセッサは、電子機器内で実行される命令を処理することができ、当該命令は、外部入力／出力装置（例えば、インターフェースに結合されたディスプレイデバイス等）にＧＵＩの図形情報をディスプレイするためにメモリ内又はメモリに記憶されている命令を含む。他の実施形態では、必要に応じて、複数のプロセッサ及び／又は複数のバスを、複数のメモリとともに用いてもよい。同様に、複数の電子機器を接続することができ、各機器は、一部の必要な操作（例えば、サーバアレイ、１グループのブレードサーバ、又はマルチプロセッサシステムとする）を提供することができる。図８において、１つのプロセッサ８０１を例とする。

メモリ８０２は、すなわち本出願が提供する非一時的なコンピュータ読み取り可能な記憶媒体である。ここで、前記メモリには、前記少なくとも１つのプロセッサが、本出願によって提供される中国語と英語の混在音声の認識方法を実行できるように、少なくとも１つのプロセッサによって実行可能な命令が記憶されている。本出願の非一時的なコンピュータ読み取り可能な記憶媒体はコンピュータ命令を記憶し、該コンピュータ命令はコンピュータに本出願の提供する中国語と英語の混在音声の認識方法を実行させるために用いられる。

メモリ８０２は非一時的なコンピュータ読み取り可能な記憶媒体として、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュール、例えば本出願の実施例における中国語と英語の混在音声の認識方法に対応するプログラム命令／モジュール（例えば、図６に示す第１の決定モジュール６０１、第２の決定モジュール６０２、第３の決定モジュール６０３、第４の決定モジュール６０４、置き換えモジュール６０５及び第１の取得モジュール６０６）を記憶するために用いられる。プロセッサ８０１はメモリ８０２に記憶された非一時的なソフトウェアプログラム、命令及びモジュールを実行することにより、サーバの各種類の機能アプリケーション及びデータ処理を実行し、即ち上記方法の実施例における中国語と英語の混在音声の認識方法を実現する。

メモリ８０２は、プログラムストレージエリアとデータストレージエリアとを含むことができ、ここで、プログラムストレージエリアは、オペレーティングシステム、少なくとも１つの機能に必要なアプリケーションプログラムを記憶することができ、データストレージエリアは、中国語と英語の混在音声の認識方法の電子機器の使用によって作成されたデータ等を記憶することができる。また、メモリ８０２は、例えば、少なくとも１つのディスクストレージデバイス、フラッシュメモリ、又はその他の非一時的な不揮発性ストレージデバイス、高速ランダムアクセスメモリを含んでもよく、さらに非一時的なメモリを含んでもよい。いくつかの実施例において、メモリ８０２はプロセッサ８０１に対して遠隔に設けられたメモリを選択的に含み、これらの遠隔メモリはネットワークを介して中国語と英語の混在音声の認識方法の電子機器に接続することができる。上記ネットワークの例は、インターネット、企業のイントラネット、ローカルエリアネットワーク、移動通信網及びその組み合わせを含むが、それらに限定されるものではない。

中国語と英語の混在音声の認識方法を実現するための電子機器はさらに入力装置８０３と、出力装置８０４と、を含むことができる。プロセッサ８０１、メモリ８０２、入力装置８０３及び出力装置８０４は、バスを介して又はほかの形態で接続され、図８において、バス接続を例とする。

入力装置８０３は入力された数字又は文字情報を受信し、中国語と英語の混在音声の認識方法を実現する電子機器のユーザ設定及び機能制御に関連するキー信号入力を生成することができ、例えば、タッチスクリーン、キーボード、マウス、トラックパッド、タッチパネル、指示レバー、１つ又は複数のマウスボタン、トラックボール、ジョイスティック等の入力装置である。出力装置８０４は、表示機器、補助照明装置（例えば、ＬＥＤ）、触覚フィードバックデバイス（例えば、振動モータ）等を含むことができる。当該表示機器は、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ、及びプラズマディスプレイを含むことができるが、これらに限定されない。いくつかの実施形態で、表示機器は、タッチスクリーンであってもよい。

本明細書で説明されるシステムと技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせで実現することができる。これらの様々な実施形態は、１つ又は複数のコンピュータプログラムで実施され、当該１つ又は複数のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステムで実行及び／又は解釈することができ、当該プログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであってもよく、ストレージシステム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも１つの入力装置、及び当該少なくとも１つの出力装置に伝送することができる。

これらのコンピューティングプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる）は、プログラマブルプロセッサの機械命令を含むことができ、高レベルのプロセス及び／又は対象指向のプログラミング言語、及び／又はアセンブリ／機械言語でこれらのコンピューティングプログラムを実施することができる。本明細書に使用されるような、「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」という用語は、機械命令及び／又はデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、機器、及び／又は装置（例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス（ＰＬＤ））を指し、機械読み取り可能な信号である機械命令を受信する機械読み取り可能な媒体を含む。「機械読み取り可能な信号」という用語は、機械命令及び／又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。

ユーザとのインタラクションを提供するために、ここで説明されているシステム及び技術をコンピュータ上で実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及びポインティングデバイス（例えば、マウス又はトラックボール）とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、任意の形態（音響入力と、音声入力と、触覚入力とを含む）でユーザからの入力を受信することができる。

ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム（例えば、データサーバとする）、又はミドルウェアコンポーネントを含むコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンドコンポーネントを含むコンピューティングシステム（例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータであり、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションする）、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施することができる。任意の形態又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）と、ワイドエリアネットワーク（ＷＡＮ）と、インターネットと、ブロックチェーンネットワークと、を含む。

コンピュータシステムは、クライアントとサーバとを含むことができる。クライアントとサーバは、一般的には、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、かつ互いにクライアント－サーバの関係を有するコンピュータプログラムによって、クライアントとサーバとの関係が生成される。サーバはクラウドサーバであってもよく、クラウドコンピューティングサーバ又はクラウドホストコンピュータと呼ばれ、クラウドコンピューティングサービスシステムにおけるホスト製品であり、従来の物理ホストとＶＰＳサービス（「ＶｉｒｔｕａｌＰｒｉｖａｔｅＳｅｒｖｅｒ」、又は「ＶＰＳ」と略称する）において、管理の難度が大きく、トラフィックの拡張性が弱いという欠点を解決する。サーバは分散型システムのサーバであってもよく、又はブロックチェーンを結合したサーバであってもよい。

なお、上に示される様々な形態のフローを使用して、ステップを並べ替え、追加し、又は削除することができる。例えば、本出願に記載されている各ステップは、並列に実行されてもよく、順次的に実行されてもよく、異なる順序で実行されてもよいが、本出願で開示されている技術的解決手段の所望の結果を実現することができれば、本明細書では限定されない。

上記発明を実施するための形態は、本出願の保護範囲を制限するものではない。当業者は、設計要件と他の要因に基づいて、様々な修正、組み合わせ、サブコンビネーション、及び置き換えを行うことができる。本出願の精神と原則内で行われる任意の修正、同等の置き換え、及び改善等は、いずれも本出願の保護範囲内に含まれるべきである。

Claims

中国語と英語の混在音声の認識方法であって、
音声情報が受信されたことに応答して、前記音声情報の発音情報及び言語モデルスコアを決定するステップと、
前記発音情報に基づいて前記音声情報のコンテンツに英語単語があるか否かを決定するステップと、
前記音声情報のコンテンツに英語単語があることに応答して、予め設定された中国語と英語のマッピングテーブルに基づいて前記英語単語に対応する中国語単語を決定するステップであって、前記中国語と英語のマッピングテーブルには、少なくとも１ペアの英語単語と中国語単語とのマッピング関係が含まれるステップと、
前記英語単語に対応する中国語単語のスコアを決定し、前記言語モデルスコア内の前記英語単語のスコアを前記中国語単語のスコアに置き換えるステップと、
置き換えられた言語モデルスコアに基づいて、前記音声情報に対する音声認識結果を取得するステップと、を含む、
ことを特徴とする中国語と英語の混在音声の認識方法。
前記音声情報のコンテンツに英語単語がないことに応答して、前記言語モデルスコアに基づいて前記音声情報に対する音声認識結果を取得するステップをさらに含む、
ことを特徴とする請求項１に記載の中国語と英語の混在音声の認識方法。
前記音声情報の発音情報及び言語モデルスコアを決定するステップの前に、
言語モデルリソースを取得するステップと、
前記言語モデルリソース及び前記中国語と英語のマッピングテーブルに基づいて言語モデルの構図空間を構築するステップであって、前記構図空間が複数の復号パスを含むステップと、をさらに含む、
ことを特徴とする請求項１または２に記載の中国語と英語の混在音声の認識方法。
前記言語モデルリソース及び前記中国語と英語のマッピングテーブルに基づいて言語モデルの構図空間を構築するステップは、
前記言語モデルリソースに基づいて言語モデルの初期構図空間を構築するステップと、
前記中国語と英語のマッピングテーブルにおける各英語単語に対応する中国語単語を決定するステップと、
予め確立された言語モデルスコアコーパスから、前記各英語単語に対応する各中国語単語のスコアを取得するステップと、
前記各英語単語に対応する各中国語単語のスコアに基づいて、前記初期構図空間における英語単語ノードのスコアを、前記英語単語ノードに対応する中国語単語のスコアに置き換えるステップと、
置き換えられた初期構図空間を前記言語モデルの構図空間とするステップと、を含む、
ことを特徴とする請求項３に記載の中国語と英語の混在音声の認識方法。
前記置き換えられた言語モデルスコアに基づいて、前記音声情報に対する音声認識結果を取得するステップは、
置き換えられた言語モデルスコアに基づいて、前記構図空間の複数の復号パスから、すべてのノードのスコアの合計が最大の復号パスを選択するステップと、
前記すべてのノードのスコアの合計が最大の復号パスに対応する単語シーケンスを、前記音声情報に対する音声認識結果として決定するステップと、を含む、
ことを特徴とする請求項３に記載の中国語と英語の混在音声の認識方法。
中国語と英語の混在音声の認識装置であって、
音声情報が受信されたことに応答して、前記音声情報の発音情報及び言語モデルスコアを決定するための第１の決定モジュールと、
前記発音情報に基づいて前記音声情報のコンテンツに英語単語があるか否かを決定するための第２の決定モジュールと、
前記音声情報のコンテンツに英語単語があることに応答して、予め設定された中国語と英語のマッピングテーブルに基づいて前記英語単語に対応する中国語単語を決定するための第３の決定モジュールであって、前記中国語と英語のマッピングテーブルには、少なくとも１ペアの英語単語と中国語単語とのマッピング関係が含まれる第３の決定モジュールと、
前記英語単語に対応する中国語単語のスコアを決定するための第４の決定モジュールと、
前記言語モデルスコア内の前記英語単語のスコアを前記中国語単語のスコアに置き換えるための置き換えモジュールと、
置き換えられた言語モデルスコアに基づいて、前記音声情報に対する音声認識結果を取得するための第１の取得モジュールと、を含む、
ことを特徴とする中国語と英語の混在音声の認識装置。
前記第１の取得モジュールが、さらに、前記音声情報のコンテンツに英語単語がないことに応答して、前記言語モデルスコアに基づいて前記音声情報に対する音声認識結果を取得する、
ことを特徴とする請求項６に記載の中国語と英語の混在音声の認識装置。
前記第１の決定モジュールが前記音声情報の発音情報及び言語モデルスコアを決定する前に、言語モデルリソースを取得し、前記言語モデルリソース及び前記中国語と英語のマッピングテーブルに基づいて言語モデルの構図空間を構築するための構図モジュールであって、前記構図空間が複数の復号パスを含む構図モジュールをさらに含む、
ことを特徴とする請求項６または７に記載の中国語と英語の混在音声の認識装置。
前記構図モジュールが、
前記言語モデルリソースに基づいて言語モデルの初期構図空間を構築し、
前記中国語と英語のマッピングテーブルにおける各英語単語に対応する中国語単語を決定し、
予め確立された言語モデルスコアコーパスから、前記各英語単語に対応する各中国語単語のスコアを取得し、
前記各英語単語に対応する各中国語単語のスコアに基づいて、前記初期構図空間における英語単語ノードのスコアを、前記英語単語ノードに対応する中国語単語のスコアに置き換え、
置き換えられた初期構図空間を前記言語モデルの構図空間とする、
ことを特徴とする請求項８に記載の中国語と英語の混在音声の認識装置。
前記第１の取得モジュールが、
置き換えられた言語モデルスコアに基づいて、前記構図空間の複数の復号パスから、すべてのノードのスコアの合計が最大の復号パスを選択し、
前記すべてのノードのスコアの合計が最大の復号パスに対応する単語シーケンスを、前記音声情報に対する音声認識結果として決定する、
ことを特徴とする請求項８に記載の中国語と英語の混在音声の認識装置。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと通信可能に接続されるメモリと、を含み、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも１つのプロセッサが請求項１～５のいずれかに記載の中国語と英語の混在音声の認識方法を実行できるように、前記少なくとも１つのプロセッサによって実行される、
ことを特徴とする電子機器。
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令は、コンピュータに請求項１～５のいずれかに記載の中国語と英語の混在音声の認識方法を実行させる、
ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。
コンピュータプログラムであって、
前記コンピュータプログラムは、コンピュータに請求項１～５のいずれかに記載の中国語と英語の混在音声の認識方法を実行させる、
ことを特徴とするコンピュータプログラム。