JP7204861B2 - 中国語と英語の混在音声の認識方法、装置、電子機器及び記憶媒体 - Google Patents

中国語と英語の混在音声の認識方法、装置、電子機器及び記憶媒体 Download PDF

Info

Publication number
JP7204861B2
JP7204861B2 JP2021179448A JP2021179448A JP7204861B2 JP 7204861 B2 JP7204861 B2 JP 7204861B2 JP 2021179448 A JP2021179448 A JP 2021179448A JP 2021179448 A JP2021179448 A JP 2021179448A JP 7204861 B2 JP7204861 B2 JP 7204861B2
Authority
JP
Japan
Prior art keywords
english
chinese
language model
word
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021179448A
Other languages
English (en)
Other versions
JP2022020061A (ja
Inventor
ヂィーヂェン ワン
シェン チェン
チィー ツァン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2022020061A publication Critical patent/JP2022020061A/ja
Application granted granted Critical
Publication of JP7204861B2 publication Critical patent/JP7204861B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Description

本出願は、コンピュータ技術分野に関し、特に音声技術分野、自然言語処理分野、ディープラーニング分野等の人工知能分野に関し、具体的には、中国語と英語の混在音声の認識方法、装置、電子機器及び記憶媒体に関する。
複数の音声認識のアプリケーションにいずれも中国語と英語を混ぜて話す状況がある。例えば、発話のコンテンツが
Figure 0007204861000001
であり、「迪欧」、「第二」のような中国語の発音の語呂合わせのために、実際には、英語の単語「deal」とよく似ている。関連技術において、音声認識モデルに基づいてこのような中国語と英語の混在音声を直接認識して選別することが一般的である。ただし、中国語の語呂合わせの単語が存在し、同時に言語モデルの区別はこのような語呂合わせ及び英語単語において違いが大きくないため、最終的な音声認識結果が実際には意図したような英語単語ではなくなり、認識効果が低いという問題がある。
本出願は、中国語と英語の混在音声の認識方法、装置、電子機器及び記憶媒体を提供する。
本出願の第1の態様によれば、中国語と英語の混在音声の認識方法を提供し、
音声情報が受信されたことに応答して、前記音声情報の発音情報及び言語モデルスコアを決定するステップと、
前記発音情報に基づいて前記音声情報のコンテンツに英語単語があるか否かを決定するステップと、
前記音声情報のコンテンツに英語単語があることに応答して、予め設定された中国語と英語のマッピングテーブルに基づいて前記英語単語に対応する中国語単語を決定するステップであって、前記中国語と英語のマッピングテーブルには少なくとも1ペアの英語単語と中国語単語とのマッピング関係が含まれるステップと、
前記英語単語に対応する中国語単語のスコアを決定し、前記言語モデルスコア内の前記英語単語のスコアを前記中国語単語のスコアに置き換えるステップと、
置き換えられた言語モデルスコアに基づいて、前記音声情報に対する音声認識結果を取得するステップと、を含む。
本出願の第2の態様によれば、中国語と英語の混在音声の認識装置を提供し、
音声情報が受信されたことに応答して、前記音声情報の発音情報及び言語モデルスコアを決定するための第1の決定モジュールと、
前記発音情報に基づいて前記音声情報のコンテンツに英語単語があるか否かを決定するための第2の決定モジュールと、
前記音声情報のコンテンツに英語単語があることに応答して、予め設定された中国語と英語のマッピングテーブルに基づいて前記英語単語に対応する中国語単語を決定するための第3の決定モジュールであって、前記中国語と英語のマッピングテーブルには少なくとも1ペアの英語単語と中国語単語とのマッピング関係が含まれる第3の決定モジュールと、
前記英語単語に対応する中国語単語のスコアを決定するための第4の決定モジュールと、
前記言語モデルスコア内の前記英語単語のスコアを前記中国語単語のスコアに置き換えるための置き換えモジュールと、
置き換えられた言語モデルスコアに基づいて、前記音声情報に対する音声認識結果を取得するための第1の取得モジュールと、を含む。
本出願の第3の態様によれば、電子機器を提供し、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信可能に接続されたメモリと、を含み、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、前記命令は、前記少なくとも1つのプロセッサが、前述した第1の態様の実施例に記載の中国語と英語の混在音声の認識方法を実行できるように、前記少なくとも1つのプロセッサによって実行される。
本出願の第4の態様によれば、コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体を提供し、ここで、前記コンピュータ命令は、前記コンピュータに前述した第1の態様の実施例に記載の中国語と英語の混在音声の認識方法を実行させるために用いられる。
本出願の第5の態様によれば、コンピュータプログラムを提供し、前記コンピュータプログラムは、コンピュータに前述した第1の態様の実施例に記載の中国語と英語の混在音声の認識方法を実行させる。
本出願の技術的解決手段によれば、中国語と英語のマッピングテーブルにおいて英語単語と中国語単語とのマッピング関係に基づいて、音響モデルが音声情報の発音情報を認識し、かつ発音情報に基づいて対応する単語を出力する時、音声コンテンツの中の英語単語に対応する中国語単語のスコアを用いて言語モデルスコアを検索し、検索された中国語単語のスコアを該言語モデルスコア内の英語単語のスコアに置き換え、該英語単語のスコアが位置するパスのスコアを高め、さらに該英語単語のテキストがモデルに出力されて音声情報の中の英語コンテンツに対応する音声認識結果とするように保証することができ、中国語と英語の混在音声の全体的な認識効果を高める。
本文に説明されたコンテンツは、本出願の実施例における肝心な又は重要な特徴を示すためのものではなく、本出願の範囲を制限するためのものでもないと理解すべきである。本出願の他の特徴は、以下の明細書からわかりやすくなる。
図面は、本技術的解決手段をよりよく理解するために用いられ、本出願を限定するものではない。
本出願の実施例に基づく音声認識の処理プロセス100を示す概略図である。 本出願の実施例により提供される中国語と英語の混在音声の認識方法のフローチャートである。 本出願の実施例により提供される別の中国語と英語の混在音声の認識方法のフローチャートである。 本出願の実施例により提供されるもう1つの中国語と英語の混在音声の認識方法のフローチャートである。 本出願の実施例に基づく言語モデルの構図空間を構築するフローチャートである。 本出願の実施例により提供される中国語と英語の混在音声の認識装置の構造ブロック図である。 本出願の実施例により提供される別の中国語と英語の混在音声の認識装置の構造ブロック図である。 本出願の実施例における中国語と英語の混在音声の認識方法に基づく電子機器のブロック図である。
以下、図面と組み合わせて本出願の例示的な実施例を説明し、理解を容易にするために、その中には本出願の実施例の様々な詳細事項が含まれており、それらは単なる例示的なものと見なされるべきである。したがって、当業者は、本出願の範囲及び精神から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができる。同様に、わかりやすくかつ簡潔にするために、以下の説明では、周知の機能及び構造の説明を省略する。
以下は図面を参照しながら本出願の実施例における中国語と英語の混在音声の認識方法、装置、電子機器及び記憶媒体を説明する。
図1は、本出願の実施例に基づく音声認識の処理プロセス100の概略図を示す。一般的には、音声認識システムは、音響モデル、言語モデル及びデコーダ等のコンポーネントを含むことができる。図1に示すように、収集された音声信号110を取得すると、後での音響モデル等が処理することに備えるために、ブロック120において、音声信号110に対して信号処理と特徴抽出を行い、入力された音声信号110から特徴を抽出することを含む。又は、特徴抽出プロセスには、さらに他の信号処理技術が含まれており、それによって環境騒音又は他の要素が特徴に与える影響を低減させる。
図1を参照し、特徴抽出120を完了すると、抽出された特徴をデコーダ130に入力し、かつデコーダ130を介して処理してテキスト認識結果140を出力する。具体的には、デコーダ130は、音響モデル132及び言語モデル134に基づいて最大確率で出力された音声信号のテキストシーケンスを求め、ここで、音響モデル132は、音声から発音セグメントへの変換を実現することができ、それに対して言語モデル134は、発音セグメントからテキストへの変換を実現することができる。
音響モデル132は、発音セグメントに対して音響及び言語の連合モデリングを行うために用いられ、そのモデリングユニットは例えば音節であってもよく、本出願のいくつかの実施例において、音響モデル132はストリーミング多層切断注意力モデル(Streaming Multi-Layer Truncated Attention、SMLTAと略する)であってもよい。ここで、SMLTAモデルはCTC(Connectionist Temporal Classification、コネクショニスト時系列分類法)モデルのピーク情報を利用し、音声を複数の小セグメントに切断し、それにより注意力モデルのモデリングと復号を各小セグメントに展開させることができる。このようなSMLTAモデルは、リアルタイムなストリーミング音声認識をサポートし、かつ高い認識精度を実現することができる。
言語モデル134は、言語をモデリングするために用いられる。一般的には、統計的なNグラム文法(N-Gram)を用いることができ、すなわち前後N個のワードが出現する確率を統計する。任意の既知の又は将来開発される言語モデルを、本出願の実施例と組み合わせて使用することができると理解すべきである。いくつかの実施例において、音響モデル132は、音声データベースに基づいてトレーニングを行い及び/又は動作することができ、言語モデル134はテキストデータベースに基づいてトレーニングを行い及び/又は動作することができる。
デコーダ130は、音響モデル132及び言語モデル134の出力認識結果に基づいて、動的に復号することを実現することができる。例えば、デコーダ上で可能な認識パスを拡張し、最後には特徴スコアリング結果が最も高いパスを最終的な認識結果として選択する。ある音声認識のシーンでは、ユーザがそのユーザデバイスに対して話しており、ユーザが発した音声(及び声)はユーザデバイスに収集され、例えば、ユーザデバイスの音声収集機器(例えばマイク)を介して音声を収集することができる。ユーザデバイスは、音声信号を収集することができる任意の電子機器であってもよく、スマートフォン、タブレットコンピュータ、デスクトップコンピュータ、ノートパソコン、スマートウェアラブルデバイス(例えばスマートウォッチ、スマートグラス)、ナビゲーションデバイス、マルチメディアプレイヤーデバイス、教育用機器、ゲームデバイス、スマートスピーカ等を含むが、これらに限定されない。ユーザデバイスは、収集する過程において、ネットワークを介して音声をセグメント分けでサーバに送信することができ、サーバは音声認識モデルを含み、それはリアルタイムかつ正確な音声認識を実現することができ、認識を完了した後、ネットワークを介して認識結果をユーザデバイスに送信することができる。本発明の実施例に基づくストリーミング音声認識結果の表示方法は、ユーザデバイスにおいて実行されてもよく、サーバにおいて実行されてもよく、又はその一部がユーザデバイスにおいて実行されるが、もう一部がサーバにおいて実行されると理解すべきである。
図2は、本出願の実施例により提供される中国語と英語の混在音声の認識方法のフローチャートである。説明すべきこととして、本出願の実施例における中国語と英語の混在音声の認識方法は、本出願の実施例における中国語と英語の混在音声の認識装置に適用され、該中国語と英語の混在音声の認識装置は電子機器に配置されてもよい。図2に示すように、該中国語と英語の混在音声の認識方法はステップ201~205を含むことができる。
ステップ201では、音声情報が受信されたことに応答して、音声情報の発音情報及び言語モデルスコアを決定する。
本出願のいくつかの実施例において、電子機器は、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータ等の様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、例えば、パーソナルデジタルプロセッサ、携帯電話、スマートフォン、ウェアラブルデバイス、他の類似するコンピューティングデバイス等の様々な形態のモバイルデバイスを表すこともできる。一例として、該電子機器はユーザデバイスであってもよい。
ある音声認識のシーンでは、ユーザがそのユーザデバイスに対して話しており、ユーザが発した音声(及び声)はユーザデバイスに収集され、例えば、ユーザデバイスの音声収集機器(例えばマイク)を介して音声を収集することができる。ユーザデバイスが収集した音声情報を受信する時、受信した音声情報に応答して、該音声情報の発音情報及び言語モデルスコアを決定することができる。
いくつかの実施例において、予め確立された音響モデルによって該音声情報の発音情報を決定することができる。例えば、該音声情報を音響モデルに入力し、かつ音響モデルから出力された発音情報を取得することができる。ここで、いくつかの実施例において、該発音情報は、対応する音声フレームのピッチ、対応する音声フレームに対応する対象音素のコンテンツ、対象音素に隣接する音素のコンテンツ及び連音指示記号を含むことができる。
本出願のいくつかの実施例において、言語モデルによって該音声情報の言語モデルスコアを決定することができる。ここで、該言語モデルはN-Gramモデルであってもよい。
ステップ202では、発音情報に基づいて音声情報のコンテンツに英語単語があるか否かを決定する。
一例として、本出願の実施例は、音響モデルが音声情報の発音情報を認識し、かつ発音情報に基づいて対応する単語を出力する時、該音声情報のコンテンツに英語単語があるか否かを認識することであってもよい。
いくつかの実施例において、英語単語のコンテンツはいずれもアルファベットで始まる文字列であるため、該発音情報に基づいて該音声情報のコンテンツにはアルファベットで始まる単語があるか否かを決定することができ、アルファベットで始まる単語がある場合、該音声情報のコンテンツには英語単語があると決定し、該音声情報のコンテンツにはアルファベットで始まる単語がない場合、該音声情報のコンテンツには英語単語がないと決定することができる。
ステップ203では、音声情報のコンテンツに英語単語があることに応答して、予め設定された中国語と英語のマッピングテーブルに基づいて英語単語に対応する中国語単語を決定する。
ここで、本出願のいくつかの実施例において、中国語と英語のマッピングテーブルには少なくとも1ペアの英語単語と中国語単語とのマッピング関係が含まれる。例えば、英語単語「deal」と中国語単語「合同(契約)」とはマッピング関係を有し、英語単語「behavior」と中国語単語
Figure 0007204861000002
とはマッピング関係を有する。
いくつかの実施例において、音声情報のコンテンツに英語単語がある場合、該中国語と英語のマッピングテーブルにおいて英語単語と中国語単語とのマッピング関係に基づいて、該音声情報のコンテンツの中の英語単語に対応する中国語単語を決定することができる。例えば、音声コンテンツ
Figure 0007204861000003
を例として、音声コンテンツには英語単語「deal」と英語単語「behavior」があることを決定することができ、該中国語と英語のマッピングテーブルにおいて英語単語と中国語単語とのマッピング関係に基づいて、該音声コンテンツの中の英語単語「deal」に対応する中国語単語が「合同」であり、該音声コンテンツの中の英語単語「behavior」に対応する中国語単語が
Figure 0007204861000004
であると決定することができる。
ステップ204では、英語単語に対応する中国語単語のスコアを決定し、言語モデルスコア内の英語単語のスコアを中国語単語のスコアに置き換える。
本出願のいくつかの実施例において、予め確立された言語モデルスコアコーパスから、前記英語単語に対応する中国語のスコアを取得することができる。すなわち、言語モデルスコアコーパスにおいて多くの中国語単語及びその中国語単語に対応するスコアがある。本ステップでは、該中国語と英語のマッピングテーブルにおいて英語単語と中国語単語とのマッピング関係に基づいて、該音声情報のコンテンツの中の英語単語に対応する中国語単語を決定する時、該言語モデルスコアコーパスから、該中国語単語のスコアを取得し、かつ該言語モデルスコア内の英語単語のスコアを中国語単語のスコアに置き換えることができる。
すなわち、音声情報のコンテンツに英語単語があると決定する場合、該英語単語に対応する中国語単語のスコアを取得することができ、かつ該音声情報の言語モデルスコア内の英語単語のスコアを該中国語単語のスコアに置き換えることができ、即ち英語単語に対応する中国語単語を用いて言語モデルスコアを検索することにより、該英語単語のスコアが位置するパスのスコアを高め、さらに該英語単語のテキストがモデルに出力されて音声情報の中の英語コンテンツに対応する音声認識結果とするように保証することがでる。
説明すべきこととして、本出願の実施例において、言語モデルスコア内の英語単語のスコアを中国語単語のスコアに置き換えることは、中国語単語のスコアを用いて該言語モデルスコア内の英語単語のスコアを置き換え、該英語単語に対応するテキスト単語を置き換えないと理解することができる。
ステップ205では、置き換えられた言語モデルスコアに基づいて、音声情報に対する音声認識結果を取得する。
選択的に、置き換えられた言語モデルスコアに基づいて、復号パスから特徴スコアリング結果が最も高いパスを選択し、該スコアリング結果が最も高いパスの中のノードに対応する単語シーケンスを該音声情報の音声認識結果とする。
本出願の実施例における中国語と英語の混在音声の認識方法は、音声情報が受信されたことに応答して、音声情報の発音情報及び言語モデルスコアを決定し、かつ発音情報に基づいて音声情報のコンテンツに英語単語があるか否かを決定し、音声情報のコンテンツに英語単語があることに応答して、予め設定された中国語と英語のマッピングテーブルに基づいて英語単語に対応する中国語単語を決定し、かつ英語単語に対応する中国語単語のスコアを決定し、言語モデルスコア内の英語単語のスコアを中国語単語のスコアに置き換え、置き換えられた言語モデルスコアに基づいて、音声情報に対する音声認識結果を取得する。これにより、本出願の実施例は、中国語と英語のマッピングテーブルにおいて英語単語と中国語単語とのマッピング関係に基づいて、音響モデルが音声情報の発音情報を認識し、かつ発音情報に基づいて対応する単語を出力する時、音声コンテンツの中の英語単語に対応する中国語単語のスコアを用いて言語モデルスコアを検索し、検索された中国語単語のスコアを該言語モデルスコア内の英語単語のスコアに置き換え、該英語単語のスコアが位置するパスのスコアを高め、さらに該英語単語のテキストがモデルに出力されて音声情報の中の英語コンテンツに対応する音声認識結果とするように保証することができ、中国語と英語の混在音声の全体的な認識効果を高める。
説明すべきこととして、該音声情報のコンテンツに英語単語がないと決定する場合、言語情報の言語モデルスコアを復号結果の認識に直接用いることができる。いくつかの実施例において、図3に示すように、該中国語と英語の混在音声の認識方法はステップ301~306を含むことができる。
ステップ301では、音声情報が受信されたことに応答して、音声情報の発音情報及び言語モデルスコアを決定する。
本出願の実施例において、ステップ301はそれぞれ本出願の各実施例におけるいずれかの手段を用いて実現することができ、本出願の実施例はこれを限定せず、説明を省略する。
ステップ302では、発音情報に基づいて音声情報のコンテンツに英語単語があるか否かを決定する。
一例として、本出願の実施例は、音響モデルが音声情報の発音情報を認識し、かつ発音情報に基づいて対応する単語を出力する時、該音声情報のコンテンツに英語単語があるか否かを認識することであってもよい。
いくつかの実施例において、英語単語のコンテンツはいずれもアルファベットで始まる文字列であるため、該発音情報に基づいて該音声情報のコンテンツにはアルファベットで始まる単語があるか否かを決定することができ、アルファベットで始まる単語がある場合、該音声情報のコンテンツには英語単語があると決定し、この時にステップ303を実行することができる。該音声情報のコンテンツにはアルファベットで始まる単語がない場合、該音声情報のコンテンツには英語単語がないと決定することができ、この時にステップ306を実行することができる。
ステップ303では、音声情報のコンテンツに英語単語があることに応答して、予め設定された中国語と英語のマッピングテーブルに基づいて英語単語に対応する中国語単語を決定する。
本出願の実施例において、ステップ303はそれぞれ本出願の各実施例におけるいずれかの手段を用いて実現することができ、本出願の実施例はこれを限定せず、説明を省略する。
ステップ304では、英語単語に対応する中国語単語のスコアを決定し、言語モデルスコア内の英語単語のスコアを中国語単語のスコアに置き換える。
本出願の実施例において、ステップ304はそれぞれ本出願の各実施例におけるいずれかの手段を用いて実現することができ、本出願の実施例はこれを限定せず、説明を省略する。
ステップ305では、置き換えられた言語モデルスコアに基づいて、音声情報に対する音声認識結果を取得する。
本出願の実施例において、ステップ305はそれぞれ本出願の各実施例におけるいずれかの手段を用いて実現することができ、本出願の実施例はこれを限定せず、説明を省略する。
ステップ306では、音声情報のコンテンツに英語単語がないことに応答して、言語モデルスコアに基づいて音声情報に対する音声認識結果を取得する。
選択的に、該音声情報のコンテンツに英語単語がないと決定する場合、音声情報の言語モデルスコアに基づいて、復号パスから特徴スコアリング結果が最も高いパスを選択し、該スコアリング結果が最も高いパスの中のノードに対応する単語シーケンスを該音声情報の音声認識結果とする。
本出願の実施例における中国語と英語の混在音声の認識方法は、音声情報の発音情報に基づいて音声情報のコンテンツに英語単語があるか否かを決定することができ、音声情報のコンテンツに英語単語がある場合、予め設定された中国語と英語のマッピングテーブルに基づいて英語単語に対応する中国語単語を決定し、かつ英語単語に対応する中国語単語のスコアを決定し、言語モデルスコア内の英語単語のスコアを中国語単語のスコアに置き換え、置き換えられた言語モデルスコアに基づいて、音声情報に対する音声認識結果を取得する。該音声情報のコンテンツに英語単語がないと決定する場合、音声情報の言語モデルスコアに基づいて音声情報の音声認識結果を取得することができる。これにより、本出願は、中国語と英語の混在音声の認識シーンに適用することができ、また非混在の音声認識シーンにも適用することができ、例えば、現在のシーンが非混在の音声認識シーンであると認識すると、音声情報の言語モデルスコアに基づいて音声情報に対する音声認識結果を直接取得することができる。現在のシーンが中国語と英語の混在音声の認識シーンであると認識すると、中国語と英語のマッピングテーブルにおいて英語単語と中国語単語とのマッピング関係に基づいて、音響モデルが音声情報の発音情報を認識し、かつ発音情報に基づいて対応する単語を出力する時、音声コンテンツの中の英語単語に対応する中国語単語のスコアを用いて言語モデルスコアを検索し、検索された中国語単語のスコアを該言語モデルスコア内の英語単語のスコアに置き換え、該英語単語のスコアが位置するパスのスコアを高め、さらに該英語単語のテキストがモデルに出力されて音声情報の中の英語コンテンツに対応する音声認識結果とするように保証することができ、中国語と英語の混在音声の全体的な認識効果を高める。
いくつかの実施例において、本出願の実施例における中国語と英語の混在音声の認識方法は、端末機器におけるローカル音声認識シーンに適用されることができ、中国語と英語の混在音声の全体的な認識効果をさらに高めるために、ローカル音声認識は、認識する前に予め認識されたテキストに対して言語モデルの構図空間を構築し、即ちユーザが音声を入力するすべての可能なパスを確立し、音声認識を行う時に、該構図空間を走査し、本出願の実施例の音声認識アルゴリズムを組み合わせ、入力された音声に最適なマッチングパスを検索し、該パスは認識の最終結果を戻す。本出願のいくつかの実施例において、図4に示すように、該中国語と英語の混在音声の認識方法はステップ401~408を含むことができる。
ステップ401では、言語モデルリソースを取得する。
いくつかの実施例において、認識する前に予め認識されたテキストに対して言語モデルの構図空間を構築し、該構図空間を構築する時に、まず言語モデルリソースを取得する必要がある。例えば、該言語モデルリソースは端末機器に記憶されることができ、該構図空間を構築する時に、該言語モデルリソースを読み取ることができる。
ステップ402では、言語モデルリソース、及び中国語と英語のマッピングテーブルに基づいて言語モデルの構図空間を構築し、構図空間は複数の復号パスを含む。
選択的に、言語モデルリソースに基づいて言語モデルの初期構図空間を構築し、かつ中国語と英語のマッピングテーブルにおいて中国語単語と英語単語とのマッピング関係に基づいて、中国語単語の言語モデルスコアを用いて該初期構図空間において英語単語を含むパスのスコアを置き換え、置き換えられた初期構図空間を前記言語モデルの構図空間とする。
本出願のいくつかの実施例において、図5に示すように、前記言語モデルリソース及び前記中国語と英語のマッピングテーブルに基づいて言語モデルの構図空間を構築する具体的な実現過程は、ステップ501~505を含むことができる。
ステップ501では、言語モデルリソースに基づいて言語モデルの初期構図空間を構築する。
ここで、いくつかの実施例において、該初期構図空間は複数の復号パスを含むことができる。各復号パスにおけるノードは対応する単語及び該単語のスコアを有する。ここで、前記複数の復号パスの少なくとも1つの復号パスに英語単語のスコアがある。
ステップ502では、中国語と英語のマッピングテーブルにおける各英語単語に対応する中国語単語を決定する。
ステップ503では、予め確立された言語モデルスコアコーパスから、各英語単語に対応する各中国語単語のスコアを取得する。
ステップ504では、各英語単語に対応する各中国語単語のスコアに基づいて、初期構図空間における英語単語ノードのスコアを、英語単語ノードに対応する中国語単語のスコアに置き換える。
ステップ505では、置き換えられた初期構図空間を、言語モデルの構図空間とする。
これにより、ステップ501~ステップ505によって言語モデルの構図空間を構築することができ、それによってユーザが音声を入力するすべての可能なパスを確立し、このように、音声認識を行う時に、該構図空間を走査して入力された音声に最適なマッチングパスを検索することができ、該パスは認識の最終結果を戻す。
ステップ403では、音声情報が受信されたことに応答して、音声情報の発音情報及び言語モデルスコアを決定する。
本出願の実施例において、ステップ403はそれぞれ本出願の各実施例におけるいずれかの手段を用いて実現することができ、本出願の実施例はこれを限定せず、説明を省略する。
ステップ404では、発音情報に基づいて音声情報のコンテンツに英語単語があるか否かを決定する。
本出願の実施例において、ステップ404はそれぞれ本出願の各実施例におけるいずれかの手段を用いて実現することができ、本出願の実施例はこれを限定せず、説明を省略する。
ステップ405では、音声情報のコンテンツに英語単語が存在することに応答して、予め設定された中国語と英語のマッピングテーブルに基づいて英語単語に対応する中国語単語を決定する。
本出願の実施例において、ステップ405はそれぞれ本出願の各実施例におけるいずれかの手段を用いて実現することができ、本出願の実施例はこれを限定せず、説明を省略する。
ステップ406では、英語単語に対応する中国語単語のスコアを決定し、言語モデルスコア内の英語単語のスコアを中国語単語のスコアに置き換える。
本出願の実施例において、ステップ406はそれぞれ本出願の各実施例におけるいずれかの手段を用いて実現することができ、本出願の実施例はこれを限定せず、説明を省略する。
ステップ407では、置き換えられた言語モデルスコアに基づいて、音声情報に対する音声認識結果を取得する。
本発明のいくつかの実施例において、置き換えられた言語モデルスコアに基づいて、構図空間の複数の復号パスからすべてのノードのスコアの合計が最大の復号パスを選択し、かつすべてのノードのスコアの合計が最大の復号パスに対応する単語シーケンスを選択し、音声情報に対する音声認識結果として決定する。
ステップ408では、音声情報のコンテンツに英語単語がないことに応答して、言語モデルスコアに基づいて音声情報に対する音声認識結果を取得する。
選択的に、音声情報のコンテンツに英語単語がないと決定する場合、該音声情報の言語モデルスコアに基づいて、構図空間における複数の復号パスから、すべてのノードのスコアの合計が最大の復号パスを選択し、かつすべてのノードのスコアの合計が最大の復号パスに対応する単語シーケンスを、音声情報に対する音声認識結果として決定する。
本出願の実施例における中国語と英語の混在音声の認識方法は、認識する前に予め認識されたテキストに対して言語モデルの構図空間を構築し、すなわちユーザが音声を入力する可能なすべてのパスを確立し、音声認識を行う時に、該構図空間を走査し、本出願の実施例の音声認識アルゴリズムを組み合わせ、入力された音声に最適なマッチングパスを検索し、該パスは認識の最終結果を戻し、それにより中国語と英語の混在音声の全体的な認識効果をさらに高めることができる。
図6は、本出願の実施例により提供される中国語と英語の混在音声の認識装置の構造ブロック図である。図6に示すように、該中国語と英語の混在音声の認識装置500は、第1の決定モジュール601、第2の決定モジュール602、第3の決定モジュール603、第4の決定モジュール604、置き換えモジュール605及び第1の取得モジュール606を含むことができる。
具体的には、第1の決定モジュール601は、音声情報が受信されたことに応答して、音声情報の発音情報及び言語モデルスコアを決定するために用いられる。
第2の決定モジュール602は、発音情報に基づいて音声情報のコンテンツに英語単語があるか否かを決定するために用いられる。
第3の決定モジュール603は、音声情報のコンテンツに英語単語があることに応答して、予め設定された中国語と英語のマッピングテーブルに基づいて英語単語に対応する中国語単語を決定するために用いられ、ここで、中国語と英語のマッピングテーブルには少なくとも1ペアの英語単語と中国語単語とのマッピング関係が含まれる。
第4の決定モジュール604は、英語単語に対応する中国語単語のスコアを決定するために用いられる。
置き換えモジュール605は、言語モデルスコア内の英語単語のスコアを中国語単語のスコアに置き換えるために用いられる。
第1の取得モジュール606は、置き換えられた言語モデルスコアに基づいて、音声情報に対する音声認識結果を取得するために用いられる。
本出願のいくつかの実施例において、第1の取得モジュール606は、さらに音声情報のコンテンツに英語単語がないことに応答して、言語モデルスコアに基づいて音声情報に対する音声認識結果を取得するために用いられる。
本出願のいくつかの実施例において、図7に示すように、該中国語と英語の混在音声の認識装置700は、さらに構図モジュール707を含むことができる。ここで、構図モジュール707は、第1の決定モジュール701が音声情報の発音情報及び言語モデルスコアを決定する前に、言語モデルリソースを取得し、かつ言語モデルリソース、及び中国語と英語のマッピングテーブルに基づいて言語モデルの構図空間を構築するために用いられ、構図空間は複数の復号パスを含む。
いくつかの実施例において、構図モジュール707は、具体的には、言語モデルリソースに基づいて言語モデルの初期構図空間を構築し、中国語と英語のマッピングテーブルにおける各英語単語に対応する中国語単語を決定し、予め確立された言語モデルスコアコーパスから、各英語単語に対応する各中国語単語のスコアを取得し、各英語単語に対応する各中国語単語のスコアに基づいて、初期構図空間における英語単語ノードのスコアを、英語単語ノードに対応する中国語単語のスコアに置き換え、置き換えられた初期構図空間を言語モデルの構図空間とすることに用いられる。
いくつかの実施例において、第1の取得モジュール706は、置き換えられた言語モデルスコアに基づいて、音声情報に対する音声認識結果を取得する具体的な実現過程は、置き換えられた言語モデルスコアに基づいて、構図空間における複数の復号パスから、すべてのノードのスコアの合計が最大の復号パスを選択し、すべてのノードのスコアの合計が最大の復号パスに対応する単語シーケンスを、音声情報に対する音声認識結果として決定することである。
ここで、図7における701~706と図6における601~606は、同じ機能と構造を有する。
上記実施例における装置については、そのうちの各モジュールが動作を実行する具体的な形態は、既に該方法に係る実施例において詳細に説明し、ここでは詳細に説明しない。
本出願の実施例における中国語と英語の混在音声の認識装置は、中国語と英語のマッピングテーブルにおいて英語単語と中国語単語とのマッピング関係に基づいて、音響モデルが音声情報の発音情報を認識し、かつ発音情報に基づいて対応する単語を出力する時、音声コンテンツの中の英語単語に対応する中国語単語のスコアを用いて言語モデルスコアを検索し、検索された中国語単語のスコアを該言語モデルスコア内の英語単語のスコアに置き換え、該英語単語のスコアが位置するパスのスコアを高め、さらに該英語単語のテキストがモデルに出力されて音声情報の中の英語コンテンツに対応する音声認識結果とするように保証することができ、中国語と英語の混在音声の全体的な認識効果を高める。
本出願の実施例によれば、本出願は、さらに電子機器及び読み取り可能な記憶媒体を提供する。
本出願の実施例によれば、本出願は、コンピュータプログラムを提供し、コンピュータプログラムは、コンピュータに本出願によって提供される中国語と英語の混在音声の認識方法を実行させる。
図8に示すように、本出願の実施例における中国語と英語の混在音声の認識方法を実現するための電子機器のブロック図である。電子機器は、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータ等の様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、例えば、パーソナルデジタルプロセッサ、携帯電話、スマートフォン、ウェアラブルデバイス、他の類似するコンピューティングデバイス等の様々な形態のモバイルデバイスを表すこともできる。本明細書で示される部材、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び/又はリクエストされる本出願の実現を制限することを意図したものではない。
図8に示すように、該電子機器は、1つ又は複数のプロセッサ801と、メモリ802と、高速インターフェース及び低速インターフェースを含む、各部材を接続するためのインターフェースと、を含む。各部材は、互いに異なるバスで接続されており、共通のマザーボード上に実装されていてもよく、必要に応じて実装されていてもよい。プロセッサは、電子機器内で実行される命令を処理することができ、当該命令は、外部入力/出力装置(例えば、インターフェースに結合されたディスプレイデバイス等)にGUIの図形情報をディスプレイするためにメモリ内又はメモリに記憶されている命令を含む。他の実施形態では、必要に応じて、複数のプロセッサ及び/又は複数のバスを、複数のメモリとともに用いてもよい。同様に、複数の電子機器を接続することができ、各機器は、一部の必要な操作(例えば、サーバアレイ、1グループのブレードサーバ、又はマルチプロセッサシステムとする)を提供することができる。図8において、1つのプロセッサ801を例とする。
メモリ802は、すなわち本出願が提供する非一時的なコンピュータ読み取り可能な記憶媒体である。ここで、前記メモリには、前記少なくとも1つのプロセッサが、本出願によって提供される中国語と英語の混在音声の認識方法を実行できるように、少なくとも1つのプロセッサによって実行可能な命令が記憶されている。本出願の非一時的なコンピュータ読み取り可能な記憶媒体はコンピュータ命令を記憶し、該コンピュータ命令はコンピュータに本出願の提供する中国語と英語の混在音声の認識方法を実行させるために用いられる。
メモリ802は非一時的なコンピュータ読み取り可能な記憶媒体として、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュール、例えば本出願の実施例における中国語と英語の混在音声の認識方法に対応するプログラム命令/モジュール(例えば、図6に示す第1の決定モジュール601、第2の決定モジュール602、第3の決定モジュール603、第4の決定モジュール604、置き換えモジュール605及び第1の取得モジュール606)を記憶するために用いられる。プロセッサ801はメモリ802に記憶された非一時的なソフトウェアプログラム、命令及びモジュールを実行することにより、サーバの各種類の機能アプリケーション及びデータ処理を実行し、即ち上記方法の実施例における中国語と英語の混在音声の認識方法を実現する。
メモリ802は、プログラムストレージエリアとデータストレージエリアとを含むことができ、ここで、プログラムストレージエリアは、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションプログラムを記憶することができ、データストレージエリアは、中国語と英語の混在音声の認識方法の電子機器の使用によって作成されたデータ等を記憶することができる。また、メモリ802は、例えば、少なくとも1つのディスクストレージデバイス、フラッシュメモリ、又はその他の非一時的な不揮発性ストレージデバイス、高速ランダムアクセスメモリを含んでもよく、さらに非一時的なメモリを含んでもよい。いくつかの実施例において、メモリ802はプロセッサ801に対して遠隔に設けられたメモリを選択的に含み、これらの遠隔メモリはネットワークを介して中国語と英語の混在音声の認識方法の電子機器に接続することができる。上記ネットワークの例は、インターネット、企業のイントラネット、ローカルエリアネットワーク、移動通信網及びその組み合わせを含むが、それらに限定されるものではない。
中国語と英語の混在音声の認識方法を実現するための電子機器はさらに入力装置803と、出力装置804と、を含むことができる。プロセッサ801、メモリ802、入力装置803及び出力装置804は、バスを介して又はほかの形態で接続され、図8において、バス接続を例とする。
入力装置803は入力された数字又は文字情報を受信し、中国語と英語の混在音声の認識方法を実現する電子機器のユーザ設定及び機能制御に関連するキー信号入力を生成することができ、例えば、タッチスクリーン、キーボード、マウス、トラックパッド、タッチパネル、指示レバー、1つ又は複数のマウスボタン、トラックボール、ジョイスティック等の入力装置である。出力装置804は、表示機器、補助照明装置(例えば、LED)、触覚フィードバックデバイス(例えば、振動モータ)等を含むことができる。当該表示機器は、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、及びプラズマディスプレイを含むことができるが、これらに限定されない。いくつかの実施形態で、表示機器は、タッチスクリーンであってもよい。
本明細書で説明されるシステムと技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせで実現することができる。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムで実施され、当該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムで実行及び/又は解釈することができ、当該プログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであってもよく、ストレージシステム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置に伝送することができる。
これらのコンピューティングプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる)は、プログラマブルプロセッサの機械命令を含むことができ、高レベルのプロセス及び/又は対象指向のプログラミング言語、及び/又はアセンブリ/機械言語でこれらのコンピューティングプログラムを実施することができる。本明細書に使用されるような、「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」という用語は、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、機器、及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を指し、機械読み取り可能な信号である機械命令を受信する機械読み取り可能な媒体を含む。「機械読み取り可能な信号」という用語は、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。
ユーザとのインタラクションを提供するために、ここで説明されているシステム及び技術をコンピュータ上で実施することができ、当該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを有し、ユーザは、当該キーボード及び当該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形態(音響入力と、音声入力と、触覚入力とを含む)でユーザからの入力を受信することができる。
ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータであり、ユーザは、当該グラフィカルユーザインタフェース又は当該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションする)、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施することができる。任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットと、ブロックチェーンネットワークと、を含む。
コンピュータシステムは、クライアントとサーバとを含むことができる。クライアントとサーバは、一般的には、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、かつ互いにクライアント-サーバの関係を有するコンピュータプログラムによって、クライアントとサーバとの関係が生成される。サーバはクラウドサーバであってもよく、クラウドコンピューティングサーバ又はクラウドホストコンピュータと呼ばれ、クラウドコンピューティングサービスシステムにおけるホスト製品であり、従来の物理ホストとVPSサービス(「Virtual Private Server」、又は「VPS」と略称する)において、管理の難度が大きく、トラフィックの拡張性が弱いという欠点を解決する。サーバは分散型システムのサーバであってもよく、又はブロックチェーンを結合したサーバであってもよい。
なお、上に示される様々な形態のフローを使用して、ステップを並べ替え、追加し、又は削除することができる。例えば、本出願に記載されている各ステップは、並列に実行されてもよく、順次的に実行されてもよく、異なる順序で実行されてもよいが、本出願で開示されている技術的解決手段の所望の結果を実現することができれば、本明細書では限定されない。
上記発明を実施するための形態は、本出願の保護範囲を制限するものではない。当業者は、設計要件と他の要因に基づいて、様々な修正、組み合わせ、サブコンビネーション、及び置き換えを行うことができる。本出願の精神と原則内で行われる任意の修正、同等の置き換え、及び改善等は、いずれも本出願の保護範囲内に含まれるべきである。

Claims (13)

  1. 中国語と英語の混在音声の認識方法であって、
    音声情報が受信されたことに応答して、前記音声情報の発音情報及び言語モデルスコアを決定するステップと、
    前記発音情報に基づいて前記音声情報のコンテンツに英語単語があるか否かを決定するステップと、
    前記音声情報のコンテンツに英語単語があることに応答して、予め設定された中国語と英語のマッピングテーブルに基づいて前記英語単語に対応する中国語単語を決定するステップであって、前記中国語と英語のマッピングテーブルには、少なくとも1ペアの英語単語と中国語単語とのマッピング関係が含まれるステップと、
    前記英語単語に対応する中国語単語のスコアを決定し、前記言語モデルスコア内の前記英語単語のスコアを前記中国語単語のスコアに置き換えるステップと、
    置き換えられた言語モデルスコアに基づいて、前記音声情報に対する音声認識結果を取得するステップと、を含む、
    ことを特徴とする中国語と英語の混在音声の認識方法。
  2. 前記音声情報のコンテンツに英語単語がないことに応答して、前記言語モデルスコアに基づいて前記音声情報に対する音声認識結果を取得するステップをさらに含む、
    ことを特徴とする請求項1に記載の中国語と英語の混在音声の認識方法。
  3. 前記音声情報の発音情報及び言語モデルスコアを決定するステップの前に、
    言語モデルリソースを取得するステップと、
    前記言語モデルリソース及び前記中国語と英語のマッピングテーブルに基づいて言語モデルの構図空間を構築するステップであって、前記構図空間が複数の復号パスを含むステップと、をさらに含む、
    ことを特徴とする請求項1または2に記載の中国語と英語の混在音声の認識方法。
  4. 前記言語モデルリソース及び前記中国語と英語のマッピングテーブルに基づいて言語モデルの構図空間を構築するステップは、
    前記言語モデルリソースに基づいて言語モデルの初期構図空間を構築するステップと、
    前記中国語と英語のマッピングテーブルにおける各英語単語に対応する中国語単語を決定するステップと、
    予め確立された言語モデルスコアコーパスから、前記各英語単語に対応する各中国語単語のスコアを取得するステップと、
    前記各英語単語に対応する各中国語単語のスコアに基づいて、前記初期構図空間における英語単語ノードのスコアを、前記英語単語ノードに対応する中国語単語のスコアに置き換えるステップと、
    置き換えられた初期構図空間を前記言語モデルの構図空間とするステップと、を含む、
    ことを特徴とする請求項3に記載の中国語と英語の混在音声の認識方法。
  5. 前記置き換えられた言語モデルスコアに基づいて、前記音声情報に対する音声認識結果を取得するステップは、
    置き換えられた言語モデルスコアに基づいて、前記構図空間の複数の復号パスから、すべてのノードのスコアの合計が最大の復号パスを選択するステップと、
    前記すべてのノードのスコアの合計が最大の復号パスに対応する単語シーケンスを、前記音声情報に対する音声認識結果として決定するステップと、を含む、
    ことを特徴とする請求項3に記載の中国語と英語の混在音声の認識方法。
  6. 中国語と英語の混在音声の認識装置であって、
    音声情報が受信されたことに応答して、前記音声情報の発音情報及び言語モデルスコアを決定するための第1の決定モジュールと、
    前記発音情報に基づいて前記音声情報のコンテンツに英語単語があるか否かを決定するための第2の決定モジュールと、
    前記音声情報のコンテンツに英語単語があることに応答して、予め設定された中国語と英語のマッピングテーブルに基づいて前記英語単語に対応する中国語単語を決定するための第3の決定モジュールであって、前記中国語と英語のマッピングテーブルには、少なくとも1ペアの英語単語と中国語単語とのマッピング関係が含まれる第3の決定モジュールと、
    前記英語単語に対応する中国語単語のスコアを決定するための第4の決定モジュールと、
    前記言語モデルスコア内の前記英語単語のスコアを前記中国語単語のスコアに置き換えるための置き換えモジュールと、
    置き換えられた言語モデルスコアに基づいて、前記音声情報に対する音声認識結果を取得するための第1の取得モジュールと、を含む、
    ことを特徴とする中国語と英語の混在音声の認識装置。
  7. 前記第1の取得モジュールが、さらに、前記音声情報のコンテンツに英語単語がないことに応答して、前記言語モデルスコアに基づいて前記音声情報に対する音声認識結果を取得する、
    ことを特徴とする請求項6に記載の中国語と英語の混在音声の認識装置。
  8. 前記第1の決定モジュールが前記音声情報の発音情報及び言語モデルスコアを決定する前に、言語モデルリソースを取得し、前記言語モデルリソース及び前記中国語と英語のマッピングテーブルに基づいて言語モデルの構図空間を構築するための構図モジュールであって、前記構図空間が複数の復号パスを含む構図モジュールをさらに含む、
    ことを特徴とする請求項6または7に記載の中国語と英語の混在音声の認識装置。
  9. 前記構図モジュールが、
    前記言語モデルリソースに基づいて言語モデルの初期構図空間を構築し、
    前記中国語と英語のマッピングテーブルにおける各英語単語に対応する中国語単語を決定し、
    予め確立された言語モデルスコアコーパスから、前記各英語単語に対応する各中国語単語のスコアを取得し、
    前記各英語単語に対応する各中国語単語のスコアに基づいて、前記初期構図空間における英語単語ノードのスコアを、前記英語単語ノードに対応する中国語単語のスコアに置き換え、
    置き換えられた初期構図空間を前記言語モデルの構図空間とする、
    ことを特徴とする請求項8に記載の中国語と英語の混在音声の認識装置。
  10. 前記第1の取得モジュールが、
    置き換えられた言語モデルスコアに基づいて、前記構図空間の複数の復号パスから、すべてのノードのスコアの合計が最大の復号パスを選択し、
    前記すべてのノードのスコアの合計が最大の復号パスに対応する単語シーケンスを、前記音声情報に対する音声認識結果として決定する、
    ことを特徴とする請求項8に記載の中国語と英語の混在音声の認識装置。
  11. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサと通信可能に接続されるメモリと、を含み、
    前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも1つのプロセッサが請求項1~5のいずれかに記載の中国語と英語の混在音声の認識方法を実行できるように、前記少なくとも1つのプロセッサによって実行される、
    ことを特徴とする電子機器。
  12. コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
    前記コンピュータ命令は、コンピュータに請求項1~5のいずれかに記載の中国語と英語の混在音声の認識方法を実行させる、
    ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。
  13. コンピュータプログラムであって、
    前記コンピュータプログラムは、コンピュータに請求項1~5のいずれかに記載の中国語と英語の混在音声の認識方法を実行させる、
    ことを特徴とするコンピュータプログラム。
JP2021179448A 2020-12-01 2021-11-02 中国語と英語の混在音声の認識方法、装置、電子機器及び記憶媒体 Active JP7204861B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202011399785.6A CN112652311B (zh) 2020-12-01 2020-12-01 中英文混合语音识别方法、装置、电子设备和存储介质
CN202011399785.6 2020-12-01

Publications (2)

Publication Number Publication Date
JP2022020061A JP2022020061A (ja) 2022-01-31
JP7204861B2 true JP7204861B2 (ja) 2023-01-16

Family

ID=75350273

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021179448A Active JP7204861B2 (ja) 2020-12-01 2021-11-02 中国語と英語の混在音声の認識方法、装置、電子機器及び記憶媒体

Country Status (3)

Country Link
US (1) US11893977B2 (ja)
JP (1) JP7204861B2 (ja)
CN (1) CN112652311B (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114998881B (zh) * 2022-05-27 2023-11-07 北京百度网讯科技有限公司 深度学习模型的训练方法、文本识别方法、装置和设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006048058A (ja) 2004-08-06 2006-02-16 Motorola Inc 多言語による名称の音声認識のための方法とシステム
JP2006163592A (ja) 2004-12-03 2006-06-22 Internatl Business Mach Corp <Ibm> 混合言語表現のための言語モデリング方法、システムおよびコンピュータ・プログラム
JP2009300573A (ja) 2008-06-11 2009-12-24 Nippon Syst Wear Kk 多言語対応音声認識装置、システム、音声の切り替え方法およびプログラム
JP2011164175A (ja) 2010-02-05 2011-08-25 Nippon Hoso Kyokai <Nhk> 言語モデル生成装置、そのプログラムおよび音声認識システム
US20130238336A1 (en) 2012-03-08 2013-09-12 Google Inc. Recognizing speech in multiple languages
US20150120277A1 (en) 2013-10-31 2015-04-30 Tencent Technology (Shenzhen) Company Limited Method, Device And System For Providing Language Service
CN111369978A (zh) 2018-12-26 2020-07-03 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000222406A (ja) * 1999-01-27 2000-08-11 Sony Corp 音声認識翻訳装置及び方法
CN101727901B (zh) * 2009-12-10 2011-11-09 清华大学 嵌入式系统的汉英双语语音识别方法
CN101826325B (zh) * 2010-03-10 2012-04-18 华为终端有限公司 对中英文语音信号进行识别的方法和装置
US10042845B2 (en) * 2014-10-31 2018-08-07 Microsoft Technology Licensing, Llc Transfer learning for bilingual content classification
CN106294460B (zh) * 2015-05-29 2019-10-22 中国科学院声学研究所 一种基于字和词混合语言模型的汉语语音关键词检索方法
CN105632485B (zh) * 2015-12-28 2019-05-31 浙江大学 一种基于语种识别系统的语言距离关系的获取方法
US10839404B2 (en) * 2016-06-06 2020-11-17 Epiance Software Pvt. Ltd. Intelligent, interactive, and self-learning robotic process automation system
TWI610294B (zh) * 2016-12-13 2018-01-01 財團法人工業技術研究院 語音辨識系統及其方法、詞彙建立方法與電腦程式產品
CN108510976B (zh) * 2017-02-24 2021-03-19 芋头科技(杭州)有限公司 一种多语言混合语音识别方法
CN108932941B (zh) * 2017-10-13 2020-07-03 北京猎户星空科技有限公司 语音识别方法、装置及计算机设备、存储介质及程序产品
CN107910004A (zh) * 2017-11-10 2018-04-13 科大讯飞股份有限公司 语音翻译处理方法及装置
US10679615B2 (en) * 2018-04-16 2020-06-09 Google Llc Adaptive interface in a voice-based networked system
CN110895932B (zh) * 2018-08-24 2022-05-03 中国科学院声学研究所 基于语言种类和语音内容协同分类的多语言语音识别方法
WO2020146873A1 (en) * 2019-01-11 2020-07-16 Applications Technology (Apptek), Llc System and method for direct speech translation system
CN110211588A (zh) * 2019-06-03 2019-09-06 北京达佳互联信息技术有限公司 语音识别方法、装置及电子设备
CN110517668B (zh) * 2019-07-23 2022-09-27 普强时代(珠海横琴)信息技术有限公司 一种中英文混合语音识别系统及方法
CN110675854B (zh) * 2019-08-22 2022-10-28 厦门快商通科技股份有限公司 一种中英文混合语音识别方法及装置
CN110428820B (zh) * 2019-08-27 2022-02-15 深圳大学 一种中英文混合语音识别方法及装置
CN110634487B (zh) * 2019-10-24 2022-05-17 科大讯飞股份有限公司 一种双语种混合语音识别方法、装置、设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006048058A (ja) 2004-08-06 2006-02-16 Motorola Inc 多言語による名称の音声認識のための方法とシステム
JP2006163592A (ja) 2004-12-03 2006-06-22 Internatl Business Mach Corp <Ibm> 混合言語表現のための言語モデリング方法、システムおよびコンピュータ・プログラム
JP2009300573A (ja) 2008-06-11 2009-12-24 Nippon Syst Wear Kk 多言語対応音声認識装置、システム、音声の切り替え方法およびプログラム
JP2011164175A (ja) 2010-02-05 2011-08-25 Nippon Hoso Kyokai <Nhk> 言語モデル生成装置、そのプログラムおよび音声認識システム
US20130238336A1 (en) 2012-03-08 2013-09-12 Google Inc. Recognizing speech in multiple languages
US20150120277A1 (en) 2013-10-31 2015-04-30 Tencent Technology (Shenzhen) Company Limited Method, Device And System For Providing Language Service
CN111369978A (zh) 2018-12-26 2020-07-03 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置

Also Published As

Publication number Publication date
US11893977B2 (en) 2024-02-06
JP2022020061A (ja) 2022-01-31
CN112652311B (zh) 2021-09-03
CN112652311A (zh) 2021-04-13
US20220139369A1 (en) 2022-05-05

Similar Documents

Publication Publication Date Title
US11769480B2 (en) Method and apparatus for training model, method and apparatus for synthesizing speech, device and storage medium
JP7366984B2 (ja) テキスト誤り訂正処理方法、装置、電子機器及び記憶媒体
JP7317791B2 (ja) エンティティ・リンキング方法、装置、機器、及び記憶媒体
CN111859994B (zh) 机器翻译模型获取及文本翻译方法、装置及存储介质
JP7130194B2 (ja) ユーザ意図認識方法、装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム
CN111754978B (zh) 韵律层级标注方法、装置、设备和存储介质
CN112489637B (zh) 语音识别方法和装置
KR102565673B1 (ko) 시멘틱 표현 모델의 생성 방법, 장치, 전자 기기 및 저장 매체
KR102554758B1 (ko) 기계 번역에서 모델 트레이닝 방법, 장치, 전자 기기 및 기록 매체
US11907671B2 (en) Role labeling method, electronic device and storage medium
CN112509552B (zh) 语音合成方法、装置、电子设备和存储介质
CN112365880A (zh) 语音合成方法、装置、电子设备及存储介质
JP7308903B2 (ja) ストリーミング音声認識結果の表示方法、装置、電子機器及び記憶媒体
JP2021192290A (ja) 機械翻訳モデルのトレーニング方法、装置及び電子機器
JP2021111334A (ja) 検索データに基づくヒューマンコンピュータ対話型インタラクションの方法、装置及び電子機器
JP7395553B2 (ja) 文章翻訳方法、装置、電子機器及び記憶媒体
KR20230086737A (ko) 단순화된 스트리밍 및 비스트리밍 스피치 인식을 위한 캐스케이드 인코더들
CN111858883A (zh) 三元组样本的生成方法、装置、电子设备及存储介质
JP7204861B2 (ja) 中国語と英語の混在音声の認識方法、装置、電子機器及び記憶媒体
JP2022028889A (ja) 対話生成方法、装置、電子機器及び記憶媒体
JP7349523B2 (ja) 音声認識方法、音声認識装置、電子機器、記憶媒体コンピュータプログラム製品及びコンピュータプログラム
CN112687271B (zh) 语音翻译方法、装置、电子设备和存储介质
JP2022020063A (ja) 対話処理方法、装置、電子機器及び記憶媒体
JP7268113B2 (ja) 音声認識方法、装置、電子機器及び記憶媒体
JP7403569B2 (ja) 音声認識結果処理方法および装置、電子機器、コンピュータ可読記憶媒体並びにコンピュータプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211102

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221202

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221220

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221228

R150 Certificate of patent or registration of utility model

Ref document number: 7204861

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150