JP6974421B2 - 音声認識方法及び装置 - Google Patents

音声認識方法及び装置 Download PDF

Info

Publication number
JP6974421B2
JP6974421B2 JP2019218463A JP2019218463A JP6974421B2 JP 6974421 B2 JP6974421 B2 JP 6974421B2 JP 2019218463 A JP2019218463 A JP 2019218463A JP 2019218463 A JP2019218463 A JP 2019218463A JP 6974421 B2 JP6974421 B2 JP 6974421B2
Authority
JP
Japan
Prior art keywords
frame
acoustic score
voice
audio
quiet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019218463A
Other languages
English (en)
Other versions
JP2020187340A (ja
Inventor
シャオ,ジュンヤオ
キアン,シェン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2020187340A publication Critical patent/JP2020187340A/ja
Application granted granted Critical
Publication of JP6974421B2 publication Critical patent/JP6974421B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)

Description

本願の実施例は、コンピュータの技術分野に関し、具体的には、音声認識方法及び装置に関する。
音声認識とは、人工知能技術分野における重要な研究方向の一つである。音声認識アルゴリズムのフローでは、まず音響特徴を抽出して音響スコアを算出し、そして、デコーダにより音響スコアに応じて各音声フレームに対し、時間次元で復号し、復号パスに応じて対応する言語モデルスコアを付け、最終フレームの復号が完了した後に最適な復号パスを認識結果として選択する。
デコーダの復号速度は音声認識システムの速度に大きく影響する。デコーダの復号速度を最適化することにより、ユーザ体験が向上するだけでなく、システムの演算圧力を低減することができる。
本願の実施例は、音声認識方法及び装置を提供する。
第1態様において、音声認識方法であって、音声信号における音声フレームの音響スコアに基づいて、前記音声信号における非静音フレームを特定することと、前記音声フレームの音響スコアに基づいて、隣接する非静音フレーム間に、対応するモデリングユニットが語句の先頭または終了を表すバッファフレームを特定することと、前記音声信号からバッファフレームが除去された音声フレームを復号し、音声認識結果を得ることと、を含む音声認識方法を提供する。
幾つかの実施例において、前記音響スコアは、前記音声フレームが空白モデリングユニットに対応する確率を表す第1の音響スコアと、前記音声フレームがプリセット非空白モデリングユニットに対応する確率を表す少なくとも1つの第2の音響スコアとを、含み、音声信号における音声フレームの音響スコアに基づいて、前記音声信号における非静音フレームを特定することは、前記音声信号における音声フレームの第1の音響スコアと第2の音響スコアとの間の差に基づいて、前記音声信号における非静音フレームを特定することを含む。
幾つかの実施例において、前記音声信号における音声フレームの第1の音響スコアと第2の音響スコアとの間の差に基づいて、前記音声信号における非静音フレームを特定することは、前記音声フレームの第1の音響スコアと各第2の音響スコアにおける最大値の間の差が第1のプリセット閾値以下であると判定することに応答して、前記音声フレームを非静音フレームとして特定することを含む。
幾つかの実施例において、前記音声信号における音声フレームの第1の音響スコアと第2の音響スコアとの間の差に基づいて、前記音声信号における非静音フレームを特定することは、前記音声フレームの第1の音響スコアと各第2の音響スコアにおける最大値の間の差が第2のプリセット閾値以上であると判定することに応答して、前記音声フレームを静音フレームにマーキングし、前記音声信号における静音フレームにマーキングされない音声フレームを非静音フレームとして特定することを含む。
幾つかの実施例において、前記方法は、音声信号における音声フレームの音響スコアに基づいて、前記音声信号における静音フレームを特定すること、を含み、前記音声信号からバッファフレームが除去された音声フレームを復号することは、前記音声信号から前記バッファフレーム及び前記静音フレームが除去された音声フレームを復号することを含む。
第2態様において、音声認識装置であって、音声信号における音声フレームの音響スコアに基づいて、前記音声信号における非静音フレームを特定するように構成される第1の特定ユニットと、前記音声フレームの音響スコアに基づいて隣接する非静音フレームの間に、対応するモデリングユニットが語句の先頭または終了を表すバッファフレームを特定するように構成される第2の特定ユニットと、前記音声信号から前記バッファフレームが除去された音声フレームを復号し、音声認識結果を得るように構成される復号ユニットとを含む音声認識装置を提供する。
幾つかの実施例において、前記音響スコアは、音声フレームが空白モデリングユニットに対応する確率を表す第1の音響スコアと、前記音声フレームがプリセット非空白モデリングユニットに対応する確率を表す少なくとも1つの第2の音響スコアとを、含み、前記第1の特定ユニットは、さらに、前記音声信号における音声フレームの第1の音響スコアと第2の音響スコアとの間の差に基づいて前記音声信号における非静音フレームを特定するように構成される。
幾つかの実施例において、前記第1の特定ユニットは、さらに、前記音声フレームの第1の音響スコアと各第2の音響スコアにおける最大値の間の差が第1のプリセット閾値以下であると判定することに応答して、前記音声フレームを非静音フレームとして特定することにより、前記音声信号における非静音フレームを特定するように構成される。
幾つかの実施例において、前記第1の特定ユニットは、さらに、前記音声フレームの第1の音響スコアと各第2の音響スコアにおける最大値の間の差が第2のプリセット閾値以上であると判定することに応答して、前記音声フレームを静音フレームにマーキングし、前記音声信号における静音フレームにマーキングされない音声フレームを非静音フレームとして特定することにより、前記音声信号における非静音フレームを特定するように構成される。
幾つかの実施例において、前記装置は、音声信号における音声フレームの音響スコアに基づいて、前記音声信号における静音フレームを特定するように構成される第3の特定ユニットを、さらに含み、前記復号ユニットは、さらに前記音声信号から前記バッファフレーム及び前記静音フレームが除去された音声フレームを復号するように構成される。
第3態様において、電子機器であって、一つまたは複数のプロセッサと、一つまたは複数のプログラムを記憶する記憶装置と、を含み、前記一つまたは複数のプログラムが前記一つまたは複数のプロセッサにより実行されると、前記一つまたは複数のプロセッサに、第1態様に記載の方法を実行させる電子機器を提供する。
第4態様において、コンピュータプログラムを格納したコンピュータ可読媒体であって、前記プログラムは、プロセッサにより実行されると、第1態様に記載の方法を実行させるコンピュータ可読媒体を提供する。
以下の図面を参照して行われた限定的ではない実施例の詳細な説明により、本願の他の特徴、目的及び利点がより明らかになる。
本開示の一実施形態を適用可能で例示的なシステムアーキテクチャ図である。 本開示の音声認識方法による一実施形態のフローチャートである。 本開示の音声認識方法による他の実施形態のフローチャートである。 本開示の音声認識装置の一実施形態の構造概略図である。 本願の実施例の電子機器を実現するためのコンピュータシステムの構造概略図である。
以下、図面及び実施例を合わせて本願をさらに詳細に説明する。なお、ここで説明された具体的な実施例は本発明を解釈するためのものだけで、この発明を限定するものではないと理解されるべきである。なお、図面には、説明の便宜上、発明に関連するユニット分のみが示されている。
なお、対立しない場合、本願における実施例及び実施例における特徴は、互いに組み合わせることができる。以下、図面を参照しながら実施例を合わせて本願を詳細に説明する。
図1は、本開示の一実施形態を適用可能で例示的なシステムアーキテクチャ図100である。
図1に示すように、システムアーキテクチャ100は、端末装置101、102、103と、ネットワーク104と、サーバ105とを含んでもよい。ネットワーク104は、端末装置101、102、103とサーバ105との間に通信リンクを提供するための媒体である。ネットワーク104は、有線、無線通信リンク、または光ファイバケーブル等の各種接続タイプを含んでもよい。
端末装置101、102、103は、ネットワーク104を介してサーバ105とインタラクティブし、ワードやオーディオメッセージ等を受信または送信することができる。端末装置101、102、103には、例えば、音声アシスタントアプリケーション、情報検索アプリケーション、地図アプリケーション、ソーシャルプラットフォームアプリケーション、オーディオ再生アプリケーション等の各種情報インタラクティブアプリケーションがインストールされていてもよい。
端末装置101、102、103は、オーディオ信号収集機能を有する装置であってもよく、マイクロフォンを有し、インターネットアクセスをサポートする様々な電子機器であってもよく、スマートスピーカー、スマートフォン、タブレット、スマートウォッチ、ノートパソコン、ラップトップ携帯型コンピュータ、電子ブックリーダーなどを含むが、これらに限定されない。
サーバ105は、オーディオ信号処理サービスを提供するサーバあってもよく、例えば音声認識サーバであってもよい。サーバ105は、端末機器101、102、103が送信した音声信号を解析してもよく、音声認識アルゴリズムにより音声信号を対応するテキストに変換してもよい。サーバ105は、音声信号の認識結果を、ネットワーク104を介して端末装置101、102、103にフィードバックしてもよい。
なお、本願の実施例が提供する音声認識方法は、サーバ105により実行されてもよく、その分、音声認識装置がサーバ105に設けられてもよい。
なお、サーバは、ハードウェアであってもよいが、ソフトウェアであってもよい。サーバがハードウェアである場合、複数のサーバからなる分散型サーバクラスタとして実現してもよいが、1つのサーバとして実現してもよい。サーバがソフトウェアである場合、複数のソフトウェアまたはソフトウェアモジュール(例えば分散サービスを提供するための複数のソフトウェアモジュール)として実現してもよいが、1つのソフトウェアまたはソフトウェアモジュールとして実現してもよい。ここでは特に限定されない。
端末機器が物理演算を実行するための部材(例えばGPUなどのプロセッサ)を含む場合、本願の実施例が提供する音声認識方法は、端末装置101、102、103により実行されてもよく、その分、端末装置101、102、103に設けられてもよい。
図1における端末装置、ネットワーク、サーバの数は、ただ例示的なものであると理解されるべきである。実現の必要に応じて、任意の数の端末装置、ネットワーク、サーバを有していてもよい。
続いて、図2を参照すると、本願の音声認識方法の一実施例によるフロー200を示す。該音声認識方法は、以下のステップを含む。
ステップ201は、音声信号における音声フレームの音響スコアに基づいて、音声信号における非静音フレームを特定する。
本実施例において、音声認識方法の実行主体は、音声信号を取得し、該音声信号は認識待ち音声信号であり、音収集部材で話者が発した音を信号収集して生成された信号であり、音声信号に対して音響特徴抽出を行うことができる。なお、音響特徴は、音声信号のシーケンス特性と周波数特性を示す特徴であってもよい。具体的には、時間領域の音声信号を周波数領域の信号に変換し、その中のスペクトル特性を抽出することができ、例えば、基本周波数特徴、メル周波数特徴等を抽出することができる。
音声信号は、時間的に連続する信号であり、音声信号を一定の時間周期で複数の音声フレームに区切ってもよいが、一定の時間長度の音声フレームを時間次元で接続して形成されるものであってもよい。本実施形態において、音響特徴抽出は、これらの音声フレームの強度と周波数特性を表す特徴であってもよい。
音響特徴を抽出した後、音響モデルで音響採点を行ってもよい。音響モデルは、音響特徴の分布をGMM(Gaussian Mixed Model,ガウス混合モデル)または隠れマルコフモデルに基づいて音響特徴の分布にモデル化し、音響特徴を対応する音響モデリングユニットにマッピングして各音響モデリングユニットに対応するスコアを計算するために用いられる。音響特徴を音響モデルに入力し、異なる音響モデリングユニットに対応する音響スコアを得ることができる。ここで、音響モデリングユニットは、空白モデリングユニットと非空白モデリングユニットを含んでもよい。非空白モデリングユニットが発音の最小ユニットに対応してもよく、例えば1つの音素に対応し、一例として漢語の1つの声母または1つの韻母を1つの音素とし、各非空白モデリングユニットが1つの声母または1つの韻母に対応し、空白モデリングユニットは静音または非音声を示す。
本実施例において、各音声フレームの音響スコアに従って非静音フレームを特定してもよい。非静音フレームは、話者の発音による音声情報を含む音声フレームであり、非空白モデリングユニットに対応する。具体的には、異なる音響モデリングユニットに対応する音声フレームの音響スコアに基づいて、複数の方式で音声フレームが非静音フレームであるか否かを判定してもよい。いくつかの代替実施形態において、1つの音声フレームがいずれかの非空白モデリングユニットに対応する音響スコアがプリセット閾値よりも高ければ、該音声フレームが非静音フレームであると判定してもよいが、あるいは、1つの音声フレームが少なくとも2つの非空白モデリングユニットに対応する音響スコアが0より大きい場合、その音声フレームが非静音フレームであると判定してもよい。
本実施例のいくつかの代替実施形態において、音声フレームの音響スコアは、音声フレームが空白モデリングユニットに対応する確率を表す第1の音響スコアと、前記音声フレームがプリセット非空白モデリングユニットに対応する確率を表す少なくとも1つの第2の音響スコアとを含む。ここで、同一の音声フレームの異なる第2の音響スコアは、異なる音声フレームが異なる非空白モデリングユニットに対応する確率を示す。このとき、音声信号における音声フレームの第1の音響スコアと第2の音響スコアとの差に基づいて、音声信号における非静音フレームを特定してもよい。
実際には、第1の音響スコアと第2の音響スコアとの差が大きいと、音声フレームが空白モデリングユニットに対応する確率と非空白モデリングユニットに対応する確率が大きく、音声フレームを非静音フレームまたは静音フレームとして特定する誤差が小さい。第1の音響スコアと第2の音響スコアとの差が小さいと、音声フレームが空白モデリングユニットに対応する確率と非空白モデリングユニットに対応する確率が小さく、音声フレームを非静音フレームまたは静音フレームとして特定する誤差が大きい。
具体的には、いくつかの代替実施形態において、音声フレームの第1の音響スコアと各第2の音響スコアにおける最大値の間の差が第1のプリセット閾値以下であると判断することに応じて、音声フレームが非静音フレームであると判定してもよい。すなわち、音声フレームの第1の音響スコアと各第2の音響スコアとの差が第1のプリセット閾値以下である場合、該音声フレームが静音フレームである確率と非静音フレームである確率との差が小さく、該音声フレームが非静音フレームであると判定できる。
別の代替実施形態において、音声フレームの第1の音響スコアと各第2の音響スコアにおける最大値の間の差が第2のプリセット閾値以上であることに応じて、音声フレームを非静音フレームにマーキングし、音声信号における静音フレームにマーキングされない音声フレームを非静音フレームに判定してもよい。このような実装形態において、まず、第1の音響スコアと各第2の音響スコアとの差が第2のプリセット閾値以上である音声フレームが静音フレームであると判定し、それ以外の他の音声フレームを非静音フレームに判定してもよい。
上記第1のプリセット閾値及び第2のプリセット閾値は統計結果または経験に基づいて設定された値であってもよく、第1のプリセット閾値と第2のプリセット閾値は等しくてもよい。
一例として、「今日の天気」の音声信号における各音声フレーム(番号はそれぞれ1〜14である)の第1の音響スコアと各第2の音響スコアにおける最大値の間の差を[表1]に示す。1行目は音声フレームの番号を示し、2行目は音声フレームの音響スコアが最も高いモデリングユニット(ここでは漢字をモデリングユニットとする)を示し、3行目は音声フレームに対応する第1の音響スコアと各第2の音響スコアとの最大値の差gapを示す。
[表1]
Figure 0006974421
ここで、「<S>」、「</S>」が文頭及び文末に対応するモデリングユニットを示し、「B」が空白モデリングユニットを示す。上記第1のプリセット閾値と第2のプリセット閾値を4とすると、gap≦4の音声フレーム、すなわち0、3、4、5、8、9、10、11、14番目のフレームが非静音フレーム、gap>4の音声フレーム、すなわち1、2、6、7、12、13番目のフレームが静音フレームに判定される。
ステップ202は、音声フレームの音響スコアに基づいて隣接する非静音フレーム間にバッファフレームを特定する。
ここで、バッファフレームに対応するモデリングユニットが語句の先頭または終了を表す。上記表1の例では、第1フレームと第14フレームはそれぞれ「<S>」、「</S>」であり、それぞれ語句の先頭と終了を示す。音声信号の任意の位置が<「<S>」、「</S>」のジャンプを行うことができることを確保するために、各非静音フレームの後に2つのバッファフレームを予約する。
本実施形態において、ステップ201により判定された非静音フレームに基づいて、非静音フレームの後に予約する2つの音声フレームが上記バッファフレームであると判定してもよい。漢字をモデリングユニットとし、各漢字が1つの音声フレームに対応すれば、各非静音フレームの後の2つのフレームがバッファフレームであると判定してもよい。声母、韻母等の音素をモデリングユニットとすると、各要因が1つの音声フレームに対応し、少なくとも一つの音声フレームに対応する非静音フレームを合わせて形成される非静音フレーム列の後の2フレームをバッファフレームとしてもよく、例えば「n」、「i」に対応する非静音フレームを合わせて形成される非静音フレーム「ni」の後の2フレームをバッファフレームとして特定する。
ステップ203は、音声信号からバッファフレームが除去された後の音声フレームを復号し、音声認識結果を得る。
各音声フレームの音響スコアに基づいて、デコーダで音声信号に対して復号し、復号の時、上記バッファフレームをスキップしてもよい。具体的には、上記バッファフレームの音響スコアを0として発音辞書、音響モデルおよび言語パターンに基づいて構築されるネットワークにおいて、復号パスを探索し、確率が最も大きい経路を得て音声認識の結果とし、あるいは、音声信号から上記バッファフレームを削除し、残りの音声フレームにより形成された系列をフレーム毎に復号してもよい。
あるいは、上記バッファフレームをマーキングし、フレーム毎に復号するときに、対象フレームがバッファフレームにマーキングされた場合、対象フレームをスキップして次のフレームをフレーム毎に復号してもよい。
復号する時に上記バッファフレームをスキップし、復号する必要がある音声フレームの数が減少するため、本開示の上記実施例の音声認識方法は、デコーダの演算圧力を低減し、復号速度を向上させ、音声認識効率を向上させることができる。
続いて、図3を参照すると、本開示による音声認識方法の他の実施例のフローチャートを示す。図3に示すように、音声認識方法のフロー300は、以下のステップを含む。
ステップ301は、音声信号における音声フレームの音響スコアに基づいて、音声信号における非静音フレームと静音フレームを特定する。
本実施例において、音声認識方法の実行主体は、音声信号を取得し、音声信号から音響特徴を抽出し、音響モデルを入力して採点し、音声フレームの音響スコアを得ることができる。ここで、音声フレームの音響スコアは、音声フレームが異なる音響モデリングユニットに対応する音響スコアを含んでもよい。音響モデリングユニットは、空白モデリングユニットと非空白モデリングユニットとを含んでもよい。非空白モデリングユニットは音素または漢字に対応し、空白モデリングユニットは静音を示してもよい。音響スコアは、音声フレームが各プリセット非空白モデリングユニットに対応する音響スコア及び空白モデリングユニットに対応する音響スコアを含んでもよい。
本実施例において、音声フレームが各プリセットの非空白モデリングユニットに対応する音響スコアと、空白モデリングユニットに対応する音響スコアに基づいて、複数の方式で各音声フレームが静音フレームまたは非静音フレームであると判定してもよい。一代替実施形態において、各音声フレームに対応する音響スコアが最大となるモデリングユニットに従って、音声フレームが静音フレームであるか否かを判定し、例えば、空白モデリングユニットと非空白モデリングユニット1、非空白モデリングユニット2に対応する音声フレーム、…の音響スコアが順次S1、S2、S3であってもよい、…最大値がS1であると、空白モデリングユニットに対応する該音声フレームの音響スコアが最も高く、該音声フレームが静音フレームであると判定することができる、最大値がS2であると、いずれかの非空白モデリングユニットに対応する該音声フレームの音響スコアが最も高く、その音声フレームが非静音フレームであると判定することができる。
別の代替実施形態において、いずれかの非空白モデリングユニットに対応する1つの音声フレームの音響スコアがプリセット閾値よりも高ければ、該音声フレームが非静音フレームであると判定してもよく、あるいは、少なくとも2つの非空白モデリングユニットに対応する1つの音声フレームの音響スコアが0より大きい場合、その音声フレームが非静音フレームであると判定してもよい。
別の代替実施形態において、音声フレームが空白モデリングユニットに対応する確率を表す第1の音響スコアと、前記音声フレームがプリセット非空白モデリングユニットに対応する確率を表す少なくとも1つの第2の音響スコアとを含み、ここで、同一の音声フレームの異なる第2の音響スコアは、音声フレームが異なる非空白モデリングユニットに対応する確率を表す。音声信号における音声フレームの第1の音響スコアと第2の音響スコアとの差に基づいて、音声信号における非静音フレームを特定することができる。具体的には、音声フレームの第1の音響スコアと各第2の音響スコアにおける最大値の間の差が第1のプリセット閾値以下であると判定することに応じて、音声フレームが非静音フレームであると判定してもよいが、また、音声フレームの第1の音響スコアと各第2の音響スコアにおける最大値の間の差が第2のプリセットの閾値以上であると判定することに応じて、音声フレームを静音フレームにマーキングし、音声信号における静音フレームにマーキングされない音声フレームを非静音フレームと判定してもよい。
例として、上記表1の例において、モデリングユニットが「B」であることは、対応する音声フレームが静音フレームであることを示し、モデリングユニットが漢字であることは、対応する音声フレームが非静音フレームであることを示す。
ステップ302は、音声フレームの音響スコアに基づいて、隣接する非静音フレーム間にバッファフレームを特定する。
バッファフレームに対応するモデリングユニットは、語句の先頭または終了を表し、「<S>」、「</S>」で示してもよい。音声信号の任意の位置が<「<S>」、「</S>」のジャンプを行うことができることを確保するために、各非静音フレームの後に2つのバッファフレームを予約する。
本実施例のステップ302は、前述した実施例のステップ202と一致し、ステップ302の具体的な実現形態は前述した実施例におけるステップ202の説明を参照してもよいが、ここで説明を省略する。
ステップ303は、音声信号からバッファフレームと静音フレームが除去された音声フレームを復号し、音声認識結果を得る。
各音声フレームの音響スコアに基づいて、デコーダで音声信号を復号してもよい。上記音声信号における静音フレームとバッファフレームを削除した後に残りの非静音フレームにより形成される系列をデコーダで復号してもよい。あるいは、復号する時に、上記バッファフレームと上記静音フレームをスキップしてもよい。具体的には、ステップ301およびステップ302において、それぞれ静音フレームまたはバッファフレームをマーキングしてもよく、フレーム毎に復号する時に、対象フレームが静音フレームまたはバッファフレームにマーキングされる場合、対象フレームをスキップし、次のフレームが静音フレームまたはバッファフレームであるか否かを判断する。対象フレームが静音フレームまたはバッファフレームにマーキングされない場合、対象フレームが発音辞書、音響モデルおよび言語モデルに基づいて構築されるネットワークをトラバースすることに基づいて、対象フレーム位置の最大確率経路を探索してもよい。音声信号における全ての音声フレームをトラバースして経路を検索した後、音声識別結果を得る。
実際の復号する過程において、静音フレームの数が非静音フレームの数よりもはるかに大きいが、復号する時に静音フレームとバッファフレームをスキップすることで、復号する必要がある音声フレームの数を低減し、復号する過程においてネットワークでのトラバース過程を簡略化し、復号速度をさらに向上させることができる。
さらに、図4を参照して、上記各図において示される方法の実現として、本願は、音声認識装置の一実施例を提供し、該装置の実施例は、図2または図3おいて示される方法実施例に対応し、該装置は、具体的には、各種電子機器に適用可能である。
図4に示すように、本実施形態の音声認識装置400は、第1の特定ユニット4001と、第2の特定ユニット402と、および復号ユニット403とを含む。ここで、第1の特定ユニット401は、音声信号における音声フレームの音響スコアに基づいて、音声信号における非静音フレームを特定するように構成され、第2の特定ユニット402は、音声フレームの音響スコアに基づいて、隣接する非静音フレーム間に対応するモデリングユニットが語句の先頭または終了を表すバッファフレームを特定するように構成され、復号ユニット403は、音声信号からバッファフレームが除去された音声フレームを復号し、音声認識結果を得るように構成される。
いくつかの実施形態において、上記音響スコアは、音声フレームが空白モデリングユニットに対応する確率を表す第1の音響スコアと、前記音声フレームがプリセット非空白モデリングユニットに対応する確率を表す少なくとも1つの第2の音響スコアと含み、上記第1の特定ユニット401は、さらに、音声信号における音声フレームの第1の音響スコアと第2の音響スコアとの差に基づいて、音声信号における非静音フレームを特定するように構成される。
いくつかの実施形態において、上記第1の特定ユニット401は、さらに以下の方式で音声信号における非静音フレームを特定するように構成され、音声フレームの第1の音響スコアと各第2の音響スコアにおける最大値の間の差が第1のプリセット閾値以下であると判定することに応じて、音声フレームが非静音フレームであると判定する。
いくつかの実施形態において、上記第1の特定ユニット401は、さらに、以下の方式で音声信号における非静音フレームを特定するように構成され、音声フレームの第1の音響スコアと各第2の音響スコアにおける最大値の間の差が第2のプリセット閾値以上であると判定することに応じて、音声フレームを静音フレームにマーキングし、音声信号における静音フレームにマーキングされない音声フレームを非静音フレームとして特定する。
いくつかの実施形態において、上記装置400は、音声信号における音声フレームの音響スコアに基づいて、音声信号における静音フレームを特定するように構成される第3の特定ユニットをさらに含んでもよいが、上記復号ユニット403は、さらに、音声信号からバッファフレームと静音フレームが除去された音声フレームを復号するように構成されてもよい。
本発明の上記実施例の音声識別装置400は、音声信号における音声フレームの音響スコアに基づいて、音声信号における非静音フレームを特定し、音声フレームの音響スコアに基づいて隣接する非静音フレーム間に対応するモデリングユニットが語句の先頭または終了を表すバッファフレームを特定し、音声信号からバッファフレームが除去された音声フレームを復号し、音声認識結果を得ることにより、復号する必要がある音声フレームの数を効果的に減少させ、デコーダの演算圧力を低減し、復号速度を向上させ、音声認識速度を向上させることができる。
以下、図5を参照して、本開示の実施例を実現するための電子機器(例えば図1における検索エンジンサーバ)500の構造概略図を示す。図5において示される電子機器は一例に過ぎず、本開示の実施形態の機能および使用範囲にいかなる制限も与えるべきではない。
図5に示すように、電子機器500は、処理装置(例えば、中央プロセッサ、グラフィックプロセッサなど)501を含んでもよく、リードオンリーメモリ(ROM)502に格納されたプログラム、または記憶装置508からランダムアクセスメモリ(RAM)503にロードされたプログラムに従って、適切な動作、処理を実行してもよい。また、RAM503において、電子機器500の動作に必要な各種プログラムやデータが格納される。処理装置501、ROM502、およびRAM503は、バス504により互いに接続される。バス504にはまた、入力/出力インタフェース505も接続されている。
一般的に、以下の装置は、I/Oインターフェース505に接続されてもよいが、例えば、タッチパネル、タッチパッド、キーボード、マウス、カメラ、マイクロフォン、加速度計、ジャイロ等の入力装置506と、液晶ディスプレイ(LCD)、スピーカ、バイブレータ等の出力装置507と、ハードディスク等の記憶装置508と、及び通信装置509とを含む。通信装置509は、データを交換できるように、電子機器500が他の装置と無線または有線通信を行うことを許可してもよい。図5は、種々の装置を有する電子機器500を示すが、必ずしも全ての示される装置を実施しまたは備えることを要求するものではないことが理解されるべきである。代替的に実施するかまたはより少ない装置を備えることができる。図5に示される各ブロックは、1つの装置を示してもよいが、必要に応じて複数の装置を示してもよい。
特に、本開示の実施例によれば、上記したフローチャートを参照して説明された処理を、コンピュータのソフトウェアプログラムとして実現することができる。例えば、本開示の実施例は、コンピュータ可読媒体にベアラされるコンピュータプログラムを含むコンピュータプログラム製品を含み、該コンピュータプログラムは、フローチャートに示される方法を実行するためのプログラムコードを含む。このような実施例において、該コンピュータプログラムは、通信装置509を介してネットワークからダウンロードされてインストールされ、または記憶装置508からインストールされ、またはROM502からインストールされてもよい。該コンピュータプログラムが、処理装置501により実行される場合、本開示の実施例に説明された方法に限定された上記機能が実行される。
なお、本開示の実施例に説明されたコンピュータ可読媒体は、コンピュータ可読信号媒体であっても、コンピュータ可読記憶媒体であってもよいが、上記両者の任意の組み合わせであってもよい。コンピュータ可読記憶媒体は、例えば電気、磁気、光、電磁、赤外線、または半導体のシステム、装置またはデバイス、または任意の組み合わせであってもよいがこれらに限定されない。コンピュータ可読記憶媒体のより具体的な例は、一つまたは複数の導線を有する電気的接続、携帯型コンピュータ磁気ディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、消去可能なプログラマブル読み出し専用メモリ(CD-ROM)、光記憶デバイス、磁気記憶デバイス、または上記任意の適切な組み合わせを含むがこれらに限定されない。本発明の実施例において、コンピュータ可読記憶媒体は、プログラムを含みまたは記憶する実体のある記憶媒体であってよく、該プログラムは、命令実行システム、装置またはデバイスにより使用されるかまたはそれを組み合わせて使用されてもよい。しかしながら、本開示の実施例において、コンピュータ可読信号媒体は、ベースバンドにおけるまたはキャリアの部分として伝搬するデータ信号を含んでもよく、ここでコンピュータが可読プログラムコードをベアラする。このような伝搬するデータ信号は、多種の形式を採用してもよく、電磁信号、光信号、または上記任意の適切な組み合わせを含むがこれらに限定されない。コンピュータ可読信号媒体は、コンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体であってもよく、該コンピュータ可読媒体は、命令実行システム、装置またはデバイスにより使用されるかまたはそれを組み合わせて使用されるためのプログラムを送信、伝搬または伝送してもよい。コンピュータ可読媒体に含まれるプログラムコードは、任意の適切な媒体で伝送されてもよく、電線、光ケーブル、RF高周波)等、または上記任意の適切な組み合わせを含むがこれに限定されない。
上記コンピュータ可読媒体は、上記電子機器に含まれるものであってもよいが、単独で存在し該電子機器に組み込まれなくてもよい。上記コンピュータ可読媒体は、一つまたは複数のプログラムをベアラし、上記一つまたは複数のプログラムが該電子機器により実行される場合、該電子機器に、音声信号における音声フレームの音響スコアに基づいて、音声信号における非静音フレームを特定し、音声フレームの音響スコアに基づいて隣接する非静音フレーム間に対応するモデリングユニットが語句の先頭または終了を表すバッファフレームを特定し、音声信号からバッファフレームが除去された音声フレームを復号し、音声認識結果を得ることを実現させる。
本発明の実施例の動作を実行するためのコンピュータプログラムコードを一つまたは複数のプログラミング言語またはその組み合わせで書いてもよく、プログラミング言語はオブジェクト指向プログラミング言語であるjava、Smalltalk、C++等のプログラミング言語を含み、「C」言語等の一般的なプロセス式のプログラミング言語をさらに含む。プログラムコードは、完全にユーザーコンピュータで実行してもよいが、部分的にユーザーコンピュータで実行してもよく、独立したソフトウェアパッケージとして実行してもよいが、部分的にユーザーコンピュータで部分的に遠隔コンピュータで実行してもよく、または完全に遠隔コンピュータまたはサーバで実行してもよい。遠隔コンピュータに係る場合、遠隔コンピュータは、ローカルエリアネットワーク(LAN)やワイドエリアネットワーク(WAN)を含む任意の種類のネットワークを介してユーザコンピュータに接続されてもよいが、インターネットを介して外部のコンピュータに接続されてもよい(例えばインターネットサービス事業者を利用してインターネットで接続される)。
図面におけるフローチャート及びブロック図は本願の様々な実施例によるシステム、方法及びコンピュータプログラム製品の実現可能なシステムアーキテクチャ、機能及び動作を示す。ここで、フローチャートまたはブロック図における各ブロックは、1つのモジュール、プログラムブロック、またはコードの一部を示してもよく、該モジュール、プログラムブロック、またはコードの一部は、所定の論理機能を実現するための一つまたは複数の実行可能命令を含む。なお、代替の実現において、ブロックに付された機能は、図中に付された順序とは異なる順序で発生してもよい。例えば、2つの連続して示されるブロックは、実質的に並列的に実行されてもよいが、それらが逆の順序で実行されてもよく、係る機能に依存する場合もある。なお、ブロック図及び/またはフローチャートにおける各ブロック、及びブロック図及び/またはフローチャートにおけるブロックの組み合わせは、所定の機能または動作を実行する専用のハードウェアによるシステムで実現してもよいが、専用ハードウェアとコンピュータ命令との組み合わせで実現してもよい。
本願の実施例に係るユニットは、ソフトウェアの形態で実現されてもよいが、ハードウェアの形態で実現されてもよい。なお、説明された各ユニットは、プロセッサに設けられていてもよく、例えば、第1の特定ユニットと、第2の特定ユニットと、復号ユニットとを含むプロセッサのように構成されてもよい。ここで、これらの各ユニットの名称は、場合によって該ユニット自体を限定するものではなく、例えば、「音声信号における音声フレームの音響スコアに基づいて、音声信号における非静音フレームユニットを判定する」と説明されてもよい。
以上の説明は、本願の好適な実施例及び運用技術原理の説明である。当業者であれば、本願に係る発明の範囲は、上記技術的特徴の特定の組み合わせで形成される技術的解決手段に限定されるものではないと同時に、上記発明の構想から逸脱せず、上記技術的特徴とその均等の特徴から任意に組み合わせて形成される他の技術的解決手段も含むものである。例えば、上記特徴は、本願において開示される(ただし、特許請求の範囲に記載された)類似した機能を有する技術的特徴を相互に入れ替えて形成されたものである。

Claims (13)

  1. 音声認識方法であって、
    音声信号における音声フレームの音響スコアに基づいて、前記音声信号における非静音フレームを特定することと、
    前記音声フレームの音響スコアに基づいて、隣接する非静音フレーム間に、対応するモデリングユニットが語句の先頭または終了を表すバッファフレームを特定することと、
    前記音声信号からバッファフレームが除去された音声フレームを復号し、音声認識結果を得ることと、
    を含む音声認識方法。
  2. 前記音響スコアは、
    前記音声フレームが空白モデリングユニットに対応する確率を表す第1の音響スコアと、
    前記音声フレームがプリセット非空白モデリングユニットに対応する確率を表す少なくとも1つの第2の音響スコアとを、含み、
    前記音声信号における音声フレームの音響スコアに基づいて、前記音声信号における非静音フレームを特定することは、
    前記音声信号における音声フレームの第1の音響スコアと第2の音響スコアとの間の差に基づいて、前記音声信号における非静音フレームを特定することを含む請求項1に記載の方法。
  3. 前記音声信号における音声フレームの第1の音響スコアと第2の音響スコアとの間の差に基づいて、前記音声信号における非静音フレームを特定することは、
    前記音声フレームの第1の音響スコアと各第2の音響スコアにおける最大値の間の差が第1のプリセット閾値以下であると判定することに応答して、前記音声フレームを非静音フレームとして特定することを含む請求項2に記載の方法。
  4. 前記音声信号における音声フレームの第1の音響スコアと第2の音響スコアとの間の差に基づいて、前記音声信号における非静音フレームを特定することは、
    前記音声フレームの第1の音響スコアと各第2の音響スコアにおける最大値の間の差が第2のプリセット閾値以上であると判定することに応答して、前記音声フレームを静音フレームにマーキングし、
    前記音声信号における静音フレームにマーキングされない音声フレームを非静音フレームとして特定することを含む、請求項2に記載の方法。
  5. 前記方法は、
    前記音声信号における音声フレームの音響スコアに基づいて、前記音声信号における静音フレームを特定すること、を含み、
    前記音声信号からバッファフレームが除去された音声フレームを復号することは、
    前記音声信号から前記バッファフレーム及び前記静音フレームが除去された音声フレームを復号することを含む、
    請求項1〜4のいずれか1項に記載の方法。
  6. 音声認識装置であって、
    音声信号における音声フレームの音響スコアに基づいて、前記音声信号における非静音フレームを特定するように構成される第1の特定ユニットと、
    前記音声フレームの音響スコアに基づいて隣接する非静音フレームの間に、対応するモデリングユニットが語句の先頭または終了を表すバッファフレームを特定するように構成される第2の特定ユニットと、
    前記音声信号から前記バッファフレームが除去された音声フレームを復号し、音声認識結果を得るように構成される復号ユニットと、
    を含む音声認識装置。
  7. 前記音響スコアは、音声フレームが空白モデリングユニットに対応する確率を表す第1の音響スコアと、
    前記音声フレームがプリセット非空白モデリングユニットに対応する確率を表す少なくとも1つの第2の音響スコアとを、含み、
    前記第1の特定ユニットは、さらに、
    前記音声信号における音声フレームの第1の音響スコアと第2の音響スコアとの間の差に基づいて前記音声信号における非静音フレームを特定するように構成される請求項6に記載の装置。
  8. 前記第1の特定ユニットは、さらに、前記音声フレームの第1の音響スコアと各第2の音響スコアにおける最大値の間の差が第1のプリセット閾値以下であると判定することに応答して、前記音声フレームを非静音フレームとして特定することにより、前記音声信号における非静音フレームを特定するように構成される、請求項7に記載の装置。
  9. 前記第1の特定ユニットは、さらに、前記音声フレームの第1の音響スコアと各第2の音響スコアにおける最大値の間の差が第2のプリセット閾値以上であると判定することに応答して、前記音声フレームを静音フレームにマーキングし、前記音声信号における静音フレームにマーキングされない音声フレームを非静音フレームとして特定することにより、前記音声信号における非静音フレームを特定するように構成される、請求項7に記載の装置。
  10. 前記装置は、
    前記音声信号における音声フレームの音響スコアに基づいて、前記音声信号における静音フレームを特定するように構成される第3の特定ユニットを、さらに含み、
    前記復号ユニットは、さらに
    前記音声信号から前記バッファフレーム及び前記静音フレームが除去された音声フレームを復号するように構成される、
    請求項6〜9のいずれか1項に記載の装置。
  11. 電子機器であって、
    一つまたは複数のプロセッサと、
    一つまたは複数のプログラムを記憶する記憶装置と、を含み、
    前記一つまたは複数のプログラムが前記一つまたは複数のプロセッサにより実行されると、前記一つまたは複数のプロセッサに、請求項1〜5のいずれか1項に記載の方法を実行させる電子機器。
  12. コンピュータプログラムを格納したコンピュータ可読媒体であって、
    前記コンピュータプログラムは、プロセッサにより実行されると、請求項1〜5のいずれか1項に記載の方法を実行させるコンピュータ可読媒体。
  13. コンピュータプログラムであって、
    前記コンピュータプログラムは、プロセッサにより実行されると、請求項1〜5のいずれか1項に記載の方法を実行させるコンピュータプログラム。
JP2019218463A 2019-05-16 2019-12-03 音声認識方法及び装置 Active JP6974421B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910405521.8A CN110136715B (zh) 2019-05-16 2019-05-16 语音识别方法和装置
CN201910405521.8 2019-05-16

Publications (2)

Publication Number Publication Date
JP2020187340A JP2020187340A (ja) 2020-11-19
JP6974421B2 true JP6974421B2 (ja) 2021-12-01

Family

ID=67574320

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019218463A Active JP6974421B2 (ja) 2019-05-16 2019-12-03 音声認識方法及び装置

Country Status (3)

Country Link
US (1) US11393458B2 (ja)
JP (1) JP6974421B2 (ja)
CN (1) CN110136715B (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112002338A (zh) * 2020-09-01 2020-11-27 北京百瑞互联技术有限公司 一种优化音频编码量化次数的方法及系统
CN112382285B (zh) * 2020-11-03 2023-08-15 北京百度网讯科技有限公司 语音控制方法、装置、电子设备和存储介质
CN112382278B (zh) * 2020-11-18 2021-08-17 北京百度网讯科技有限公司 流式语音识别结果显示方法、装置、电子设备和存储介质
CN113707137B (zh) * 2021-08-30 2024-02-20 普强时代(珠海横琴)信息技术有限公司 解码实现方法及装置
CN116153294B (zh) * 2023-04-14 2023-08-08 京东科技信息技术有限公司 语音识别方法、装置、系统、设备及介质

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5822545A (ja) 1981-07-30 1983-02-09 松下電器産業株式会社 二次電池充電器
JPH01260496A (ja) 1988-04-12 1989-10-17 Matsushita Electric Ind Co Ltd 単語認識装置
US6711536B2 (en) * 1998-10-20 2004-03-23 Canon Kabushiki Kaisha Speech processing apparatus and method
US7542897B2 (en) * 2002-08-23 2009-06-02 Qualcomm Incorporated Condensed voice buffering, transmission and playback
JP5385876B2 (ja) 2010-08-30 2014-01-08 日本電信電話株式会社 音声区間検出方法、音声認識方法、音声区間検出装置、音声認識装置、そのプログラム及び記録媒体
CN103165127B (zh) * 2011-12-15 2015-07-22 佳能株式会社 声音分段设备和方法以及声音检测系统
JP5988077B2 (ja) 2012-03-02 2016-09-07 国立研究開発法人情報通信研究機構 発話区間検出装置及び発話区間検出のためのコンピュータプログラム
US9437186B1 (en) * 2013-06-19 2016-09-06 Amazon Technologies, Inc. Enhanced endpoint detection for speech recognition
US20160275968A1 (en) 2013-10-22 2016-09-22 Nec Corporation Speech detection device, speech detection method, and medium
CN104751852B (zh) * 2015-03-20 2018-07-24 广东小天才科技有限公司 一种声音处理的方法和装置
CN107564512B (zh) * 2016-06-30 2020-12-25 展讯通信(上海)有限公司 语音活动侦测方法及装置
CN106710606B (zh) * 2016-12-29 2019-11-08 百度在线网络技术(北京)有限公司 基于人工智能的语音处理方法及装置
JP6336219B1 (ja) 2017-03-24 2018-06-06 三菱電機株式会社 音声認識装置および音声認識方法
WO2018173293A1 (ja) * 2017-03-24 2018-09-27 ヤマハ株式会社 音声端末、音声コマンド生成システム、及び音声コマンド生成システムの制御方法
JP6791816B2 (ja) 2017-07-21 2020-11-25 株式会社デンソーアイティーラボラトリ 音声区間検出装置、音声区間検出方法、およびプログラム
CN108877776B (zh) * 2018-06-06 2023-05-16 平安科技(深圳)有限公司 语音端点检测方法、装置、计算机设备和存储介质
JP6462936B1 (ja) 2018-06-18 2019-01-30 菱洋エレクトロ株式会社 音声認識システム、及び音声認識装置

Also Published As

Publication number Publication date
US20200365144A1 (en) 2020-11-19
CN110136715B (zh) 2021-04-06
US11393458B2 (en) 2022-07-19
JP2020187340A (ja) 2020-11-19
CN110136715A (zh) 2019-08-16

Similar Documents

Publication Publication Date Title
JP6974421B2 (ja) 音声認識方法及び装置
CN108428446A (zh) 语音识别方法和装置
US20240021202A1 (en) Method and apparatus for recognizing voice, electronic device and medium
CN111489735B (zh) 语音识别模型训练方法及装置
CN112397056B (zh) 语音评测方法及计算机存储介质
CN112927674B (zh) 语音风格的迁移方法、装置、可读介质和电子设备
CN114895817B (zh) 交互信息处理方法、网络模型的训练方法及装置
CN110070859A (zh) 一种语音识别方法及装置
CN111508478B (zh) 语音识别方法和装置
CN112259089A (zh) 语音识别方法及装置
CN109697978B (zh) 用于生成模型的方法和装置
JP2023059937A (ja) データインタラクション方法、装置、電子機器、記憶媒体、および、プログラム
US11893813B2 (en) Electronic device and control method therefor
CN110647613A (zh) 一种课件构建方法、装置、服务器和存储介质
CN111933119B (zh) 用于生成语音识别网络的方法、装置、电子设备和介质
CN113012683A (zh) 语音识别方法及装置、设备、计算机可读存储介质
CN113314096A (zh) 语音合成方法、装置、设备和存储介质
CN109213466B (zh) 庭审信息的显示方法及装置
CN112397053B (zh) 语音识别方法、装置、电子设备及可读存储介质
CN115312032A (zh) 语音识别训练集的生成方法及装置
CN113241061B (zh) 语音识别结果的处理方法、装置、电子设备和存储介质
EP4336854A2 (en) Multimedia processing method and apparatus, electronic device, and storage medium
CN110808035B (zh) 用于训练混合语言识别模型的方法和装置
CN113345431B (zh) 跨语言语音转换方法、装置、设备及介质
CN110634475B (zh) 语音识别方法、装置、电子设备和计算机可读存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200330

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200330

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210302

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211019

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211104

R150 Certificate of patent or registration of utility model

Ref document number: 6974421

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150