JP2019527852A - 音声認識処理方法及び装置 - Google Patents

音声認識処理方法及び装置 Download PDF

Info

Publication number
JP2019527852A
JP2019527852A JP2019502659A JP2019502659A JP2019527852A JP 2019527852 A JP2019527852 A JP 2019527852A JP 2019502659 A JP2019502659 A JP 2019502659A JP 2019502659 A JP2019502659 A JP 2019502659A JP 2019527852 A JP2019527852 A JP 2019527852A
Authority
JP
Japan
Prior art keywords
acoustic model
mandarin acoustic
dialect
model
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019502659A
Other languages
English (en)
Other versions
JP6774551B2 (ja
Inventor
シェンガン リー,
シェンガン リー,
ビン ジャン,
ビン ジャン,
Original Assignee
バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド
バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド, バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド filed Critical バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド
Publication of JP2019527852A publication Critical patent/JP2019527852A/ja
Application granted granted Critical
Publication of JP6774551B2 publication Critical patent/JP6774551B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

音声認識処理方法及び装置であって、方法は、全国の全ての地域の音声サンプルデータに基づいて、予め設定された処理モデルで訓練して、共通のマンダリン音響モデルを生成するステップS110と、各省の音声サンプルデータに基づいて、共通のマンダリン音響モデルで自己適応訓練をそれぞれ行って、各省に対応する方言アクセント付きのマンダリン音響モデルを生成するステップS120とを含む。異なる地域のユーザのアクセントの差異に基づいて方言アクセント付きのマンダリン音響モデルを構築して、音声認識の性能を向上させる。【選択図】図1

Description

優先権情報
本出願は、バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッドが2016年7月22日付に中国国家知識産権局に提出した特許発明名称が「音声認識処理方法及び装置」、特許出願番号が201610585160.6である特許出願の優先権を主張するものであり、当該中国特許出願の全ての内容は参照により本明細書に組み入れられる。
本発明は、音声認識技術分野に関し、特に、音声認識処理方法及び装置に関する。
音声認識の性能は、音声認識製品の実用化に影響を与える重要な要因の1つであり、音響モデルは、音声認識の主要な構成要素として、音声認識の性能の悪良に重要な役割を果たしている。音響モデルの訓練において、如何に様々な情報を総合的に活用して音響モデルの表現及び普及能力を高めるのかは、音声認識業界にとって重要な理論的研究価値及び実用的価値を有する。
通常の場合、ユーザのマンダリン発音には、ある程度の方言アクセントが付いている可能性がある。例えば、湖南アクセント付きのユーザのマンダリン発音において、「h」と「f」を区別しないことがよくある。マンダリン音声認識製品における音響モデルの全てが全国のユーザ向けのものであり、ユーザのマンダリン中のアクセントの違いについて考慮していない。
本発明は、少なくとも1つの上記技術的課題をある程度解決することを目的とする。
そのため、本発明は、異なる地域のユーザのアクセントの差異に基づいて方言アクセント付きのマンダリン音響モデルを構築して、音声認識の性能を向上させる音声認識処理方法を提供することを第1の目的とする。
本発明は、音声認識処理装置を提供することを第2の目的とする。
本発明は、デバイスを提供することを第3の目的とする。
本発明は、不揮発性コンピュータ記憶媒体を提供することを第4の目的とする。
上記目的を達成するために、本発明の第1態様の実施形態は、全国の全ての地域の音声サンプルデータに基づいて、予め設定された処理モデルで訓練して、共通のマンダリン音響モデルを生成するステップと、各省の音声サンプルデータに基づいて、前記共通のマンダリン音響モデルで自己適応訓練をそれぞれ行って、各前記省に対応する方言アクセント付きのマンダリン音響モデルを生成するステップとを含む音声認識処理方法を提供する。
本発明の実施形態に係る音声認識処理方法は、各省の音声テストデータに基づいて、共通のマンダリン音響モデル及び方言アクセント付きのマンダリン音響モデルをそれぞれテストして評価し、共通のマンダリン音響モデルより方言アクセント付きのマンダリン音響モデルの認識性能が高い場合に、方言アクセント付きのマンダリン音響モデルをオンラインに配置する。これにより、共通のマンダリン音響モデルより認識性能が高い方言アクセント付きのマンダリン音響モデルがオンラインに配置され、音声認識処理方法の実用性が確保される。
また、本発明の実施形態に係る音声認識処理方法は、以下の付加的な技術的特徴をさらに有する。
本発明の一実施例において、全国の全ての地域の前記音声サンプルデータに基づいて、予め設定された前記処理モデルで訓練して、前記共通のマンダリン音響モデルを生成するステップは、全国の全ての地域の前記音声サンプルデータに基づいて、予め設定されたディープニューラルネットワークモデルで訓練して、深層のロング・ショート・ターム・メモリ(LSTM)ユニットに基づくモデル構造を有し、且つ時系列分類フレームワークに結ばれる音響モデルを生成するステップを含んでいてもよい。
本発明の一実施例において、前記共通のマンダリン音響モデルで前記自己適応訓練をそれぞれ行うステップは、比較的小さい学習率で基本モデルを最適に調整する自己適応訓練方式、または、モデルパラメータの一部のみを最適に調整する自己適応訓練方式、または、新しい特徴を導入する自己適応訓練方式を含んでいてもよい。
本発明の一実施例において、各前記省に対応する前記方言アクセント付きのマンダリン音響モデルを生成するステップの後に、各前記省の音声テストデータに基づいて、前記共通のマンダリン音響モデル及び前記方言アクセント付きのマンダリン音響モデルをそれぞれテストして評価するステップと、前記共通のマンダリン音響モデルより前記方言アクセント付きのマンダリン音響モデルの認識性能が高い場合に、前記方言アクセント付きのマンダリン音響モデルをオンラインに配置するステップとをさらに含んでいてもよい。
本発明の一実施例において、前記方言アクセント付きのマンダリン音響モデルをオンラインに配置するステップの後に、ユーザによって送信されたネットワークアドレス情報付きの音声情報を受信するステップと、前記ネットワークアドレス情報に基づいて前記ユーザが位置する省の情報を決定するステップと、前記省の情報に対応する前記方言アクセント付きのマンダリン音響モデルが配置されているか否かを判断するステップと、配置されている場合に、前記音声情報を前記省の情報に対応する前記方言アクセント付きのマンダリン音響モデルに入力して音声認識するステップと、配置されていない場合に、前記音声情報を前記共通のマンダリン音響モデルに入力して音声認識するステップとをさらに含んでいてもよい。
上記目的を実現するために、本発明の第2態様の実施形態として、全国の全ての地域の音声サンプルデータに基づいて、予め設定された処理モデルで訓練して、共通のマンダリン音響モデルを生成する第1生成モジュールと、各省の音声サンプルデータに基づいて、前記共通のマンダリン音響モデルで自己適応訓練をそれぞれ行って、各前記省に対応する方言アクセント付きのマンダリン音響モデルを生成するための第2生成モジュールとを備える音声認識処理装置を提供する。
本発明の実施形態に係る音声認識処理装置は、各省の音声テストデータに基づいて、共通のマンダリン音響モデル及び方言アクセント付きのマンダリン音響モデルをそれぞれテストして評価し、共通のマンダリン音響モデルより方言アクセント付きのマンダリン音響モデルの認識性能が高い場合に、方言アクセント付きのマンダリン音響モデルをオンラインに配置する。これにより、共通のマンダリン音響モデルより認識性能が高い方言アクセント付きのマンダリン音響モデルがオンラインに配置され、音声認識処理方法の実用性が確保される。
また、本発明の実施形態に係る音声認識処理装置は、以下の付加的な技術的特徴をさらに有する。
本発明の一実施例において、前記第1生成モジュールは、全国の全ての地域の前記音声サンプルデータに基づいて、予め設定されたディープニューラルネットワークモデルで訓練して、深層のロング・ショート・ターム・メモリ(LSTM)ユニットに基づくモデル構造を有し、且つ時系列分類フレームワークに結ばれる音響モデルを生成してもよい。
本発明の一実施例において、前記第2生成モジュールが前記共通のマンダリン音響モデルで前記自己適応訓練をそれぞれ行うことは、比較的小さい学習率で基本モデルを最適に調整する自己適応訓練方式、または、モデルパラメータの一部のみを最適に調整する自己適応訓練方式、または、新しい特徴を導入する自己適応訓練方式を含んでいてもよい。
本発明の一実施例において、各前記省の前記音声テストデータに基づいて、前記共通のマンダリン音響モデル及び前記方言アクセント付きのマンダリン音響モデルをそれぞれテストして評価するための評価モジュールと、前記共通のマンダリン音響モデルより前記方言アクセント付きのマンダリン音響モデルの認識性能が高い場合に、前記方言アクセント付きのマンダリン音響モデルをオンラインに配置するための配置モジュールとをさらに備えていてもよい。
本発明の一実施例において、ユーザによって送信されたネットワークアドレス情報付きの音声情報を受信するための受信モジュールと、前記ネットワークアドレス情報に基づいて前記ユーザが位置する省の情報を決定するための決定モジュールと、前記省の情報に対応する前記方言アクセント付きのマンダリン音響モデルが配置されているか否かを判断するための判断モジュールと、前記省の情報に対応する前記方言アクセント付きのマンダリン音響モデルが配置されている場合に、前記音声情報を前記省の情報に対応する前記方言アクセント付きのマンダリン音響モデルに入力して音声認識するための処理モジュールとを備え、該処理モジュールが、さらに、前記省の情報に対応する前記方言アクセント付きのマンダリン音響モデルが配置されていない場合に、前記音声情報を前記共通のマンダリン音響モデルに入力して音声認識してもよい。
本発明の付加的特徴及び利点は、一部が下記の説明の中にあり、一部が下記の説明により明らかになり、または本発明の実践により理解される。
上記目的を実現するために、本発明の第3態様の実施形態として、少なくとも1つのプロセッサと、メモリと、少なくとも1つのプログラムとを備えるデバイスであって、少なくとも1つの前記プログラムが前記メモリに記憶されており、少なくとも1つの前記プロセッサにより実行される場合に、全国の全ての地域の音声サンプルデータに基づいて、予め設定された処理モデルで訓練して、共通のマンダリン音響モデルを生成するステップと、各省の音声サンプルデータに基づいて、前記共通のマンダリン音響モデルで自己適応訓練をそれぞれ行って、各前記省に対応する方言アクセント付きのマンダリン音響モデルを生成するステップと、が実行されるデバイスをさらに提供する。
上記目的を実現するために、本発明の第4態様の実施形態として、少なくとも1つのプログラムが記憶されている非揮発性コンピュータ記憶媒体であってし、少なくとも1つの前記プログラムが1つのデバイスにより実行される場合に、該デバイスに、全国の全ての地域の音声サンプルデータに基づいて、予め設定された処理モデルで訓練して、共通のマンダリン音響モデルを生成するステップと、各省の音声サンプルデータに基づいて、前記共通のマンダリン音響モデルで自己適応訓練をそれぞれ行って、各前記省に対応する方言アクセント付きのマンダリン音響モデルを生成するステップとを実行させる非揮発性コンピュータ記憶媒体を提供する。
本発明の上記及び/または付加的な特徴及び利点は、下記の図面を参照して実施例を説明することにより、明らかになり、理解され易くなる。
本発明の一実施形態に係る音声認識処理方法のフローチャートである。 本発明の一実施形態に係るアクセント付きのマンダリン音響モデルを生成するフローチャートである。 本発明の一実施形態の変形例に係る音声認識処理方法のフローチャートである。 本発明の一実施形態の変形例に係る音声認識処理方法のフローチャートである。 本発明の一実施形態に係る音声認識処理装置の概略構成図である。 本発明の一実施形態の変形例に係る音声認識処理装置の概略構成図である。 本発明の一実施形態の変形例に係る音声認識処理装置の概略構成図である。
以下、例示的な実施形態を詳細に説明し、上記実施形態の一例が図面に示されており、そのうち、同一数字または類似の符号は、常に同一または類似の要素または同一または類似の機能を有する要素を示す。図面を参照して以下に説明される実施形態は、例示するものであり、本発明を解釈するためのものであり、本発明を限定するものであると理解してはいけない。
以下、図面を参照しながら本発明の一実施形態に係る音声認識処理方法及び装置を説明する。
図1は、本発明の一実施形態に係る音声認識処理方法のフローチャートである。図1に示されるように、当該方法は、以下のステップS110と、ステップS120とを含む。
ステップS110において、全国の全ての地域の音声サンプルデータに基づいて、予め設定された処理モデルで訓練して、共通のマンダリン音響モデルを生成する。
具体的には、マンダリン音響モデルを訓練で生成するための処理モデルを1つ予め設定する。例えば、1つのディープニューラルネットワークモデルを予め設定し、全国の全ての地域の音声サンプルデータを収集し、音声サンプルデータを予め設定された処理モデルに入力する。
さらに、処理モデルは、音声サンプルデータにおける音声特徴を抽出し、音声特徴を言語基本ユニットにマッピングして、共通のマンダリン音響モデルを生成し、共通のマンダリン音響モデルに基づいて全国のユーザの音声を認識することができる。
ステップS120において、各省の音声サンプルデータに基づいて、共通のマンダリン音響モデルで自己適応訓練をそれぞれ行って、各省に対応する方言アクセント付きのマンダリン音響モデルを生成する。
なお、実際の使用時に、ユーザのマンダリン発音には、ある程度の方言アクセントが付いている可能性がある。例えば、四川のアクセント付きのマンダリン発音において、その「c」と「ch」の発音は同じであるが、マンダリン音響モデルにおいて、「c」と「ch」には明確な区分境界線があるため、ユーザの音声データを正確に識別することができない。
上記課題を解決するために、本発明の一実施形態に係る音声認識処理方法は、元の共通のマンダリン音響モデルのもとで訓練し、異なる省の方言アクセントの発音特徴に基づいて、共通のマンダリン音響モデルを最適化する。異なる方言アクセントごとに、対応する方言アクセント付きのマンダリン音響モデルを構築するため、異なる方言アクセント付きのマンダリン音響モデルにより、ユーザによって入力された音声データを正確に識別することができる。
具体的には、実際の使用中に、全国各省の音声サンプルデータを収集して自己適応データとする。そのうち、各省によって収集された音声サンプルデータは、数が相対的に少なく、例えば、数百時間の音声数のレベルである可能性があり、各省によって収集された音声サンプルデータに基づいて、共通のマンダリン音響モデルで自己適応訓練をそれぞれ行い、各省のために自己適応訓練をそれぞれ行って、対応するマンダリン音響モデルを取得する。
ここで、上記自己適応訓練とは、収集された全国各省の音声サンプルデータを処理して分析するプロセスにおいて、音声サンプルデータのデータ特徴に基づいて、マンダリン音響モデルの処理パラメータ、境界条件または拘束条件などを自動的に調整することにより、共通のマンダリンモデルを、各省の音声サンプルデータの統計分布特徴や構成特徴に適応するマンダリン音響モデルに最適化する。
一例を挙げると、図2に示されるように、広東、河北、河南、広西、四川の5つの省のアクセント付きのマンダリン音響モデルを生成する場合に、収集された上記5つの省の音声サンプルデータを共通のマンダリン音響モデルにそれぞれ入力し、各省の音声サンプルデータに基づいて、共通のマンダリン音響モデルで自己適応訓練をそれぞれ行い、上記5つの省に対応する河南アクセント付きのマンダリン音響モデル、河北アクセント付きのマンダリン音響モデルなどを生成する。
以上により、本発明の一実施形態に係る音声認識処理方法は、全国の全ての地域の音声サンプルデータに基づいて、予め設定された処理モデルで訓練して、共通のマンダリン音響モデルを生成し、各省の音声サンプルデータに基づいて、共通のマンダリン音響モデルで自己適応訓練をそれぞれ行って、各省に対応する方言アクセント付きのマンダリン音響モデルを生成する。これにより、異なる地域のユーザのアクセントの差異に基づいて、方言アクセント付きのマンダリン音響モデルを構築し、音声認識の性能を向上させる。
上記一実施形態に基づいて、音声認識処理方法の実用性をさらに確保するために、各省に対応する方言アクセント付きのマンダリン音響モデルを生成した後、生成された方言アクセント付きの音響モデルの性能を検証することができ、これにより、普通の音響モデルより性能が向上した方言アクセント付きのマンダリン音響モデルのみがオンラインに配置される。
図3は、本発明の他の一実施形態に係る音声認識処理方法のフローチャートである。図3に示されるように、当該方法は、以下のステップS310と、ステップS320と、ステップS330と、ステップS340とを含む。
ステップS310において、全国の全ての地域の音声サンプルデータに基づいて、予め設定されたディープニューラルネットワークモデルで訓練して、深層のロング・ショート・ターム・メモリ(LSTM)ユニットに基づくモデル構造を有し、且つ時系列分類フレームワークに結ばれる音響モデルを生成する。
本発明の一実施例においては、ディープニューラルネットワークモデルを予め設定することができ、ディープニューラルネットワークモデルの入力は、単一のフレームまたは複数のフレームによってスティッチングされた音声音響特徴であり、出力はコンテキストに関連する子音・母音ユニットである。すなわち、入力された音響特徴に基づいてコンテキストに関連する子音・母音ユニットを分類して、関連音響モデルを生成する。
具体的には、全国の全ての地域の音声サンプルデータをディープニューラルネットワークモデルに入力して訓練し、入力された音声サンプルデータの音響特徴に基づいて、コンテキストに関連する子音・母音ユニットの分類などを訓練して処理し、深層のロング・ショート・ターム・メモリ(LSTM)ユニットに基づくモデル構造を有し、且つ時系列分類フレームワークに結ばれる音響モデルを生成する。
ステップS320において、各省の音声サンプルデータに基づいて、共通のマンダリン音響モデルで自己適応訓練をそれぞれ行って、各省に対応する方言アクセント付きのマンダリン音響モデルを生成する。
なお、具体的な応用場面の違いに応じて、複数の種類の自己適応訓練方式を採用して共通のマンダリン音響モデルで自己適応訓練を行ってもよい。
第1実施例としては、比較的低い学習率で基本モデルを最適に調整する自己適応訓練方式を採用して、共通のマンダリン音響モデルで自己適応訓練を行うことができる。
本実施例において、共通のマンダリン音響モデルを最適に調整する場合に、アクセント付きの音声サンプルデータを利用して共通のマンダリン音響モデルで比較的低い学習率で微調整する。
しかし、現在の共通のマンダリン音響モデルのオンラインでのモデルパラメータが大きすぎるため、一般的には小さいデータ量の学習によってモデルがオーバーフィッティングされ易くなり、普及性がよくないため、自己適応訓練を行う場合に、L2ノルム正則化及びKL分散正則化という自己適応更新方法を用いて自己適応訓練を行うことができる。
ここで、上記2つの自己適応更新方法は、標準クロスエントロピー基準と誤差逆伝播法とを用いて更新することができる。正則化された目的関数は、
Figure 2019527852

に示すことができ、E(w)は目的関数を示し、wはモデルパラメータを示し、KL分散正則での目的関数は、
Figure 2019527852
に示される。
ここで、
Figure 2019527852
であり、αは、正則化係数を示し、Оは、t番目のフレームのサンプルの特徴を示し、qは、t番目のフレームのサンプルに対応するマークを示し、Wは、モデルパラメータを示し、Wは、現在のモデルパラメータを示す。KL分散正則において、目標の確率表現式は、更新する必要のあるモデルの分布及び自己適応データの本物のマークでの分布の線形補間である。
第2実施例としては、モデルパラメータの一部のみを最適に調整する自己適応訓練方式を用いて共通のマンダリン音響モデルで自己適応訓練を行うことができる。
本実施例において、モデルパラメータの大部分が元の共通のモデルと一致するように保持し、出力層または隠れ層のオフセットのみを調整する。また、更新されたパラメータの規模が大きくないため、一般にはオーバーフィッティングされるのは容易ではない。
具体的な実施プロセスにおいて、出力層のパラメータのみを更新すること、及び特異値分解の方法でディープボトルネック層を追加することを用いて比較的少ないパラメータの自己適応更新を行い、自己適応モデルが更新する必要のあるモデルパラメータ量を減らすことができる。
第3実施例としては、新しい特徴を導入する自己適応訓練方式を用いて、共通のマンダリン音響モデルで自己適応訓練を行うことができる。
本実施例における自己適応訓練方式は、方言アクセントの特殊性を考慮し、声紋及び自己適応訓練において比較的典型的なivector及びスピーカーコーディングの方式を導入し、方言音声のそれぞれに対して各種類の複雑な情報を含む特徴ベクトルを抽出して入力特徴に加えて自己適応訓練を行う。
そのうち、ivectorの抽出において、リアルタイムのivector抽出法を用いて、実際の復号において各パケットの音声データに対して対応するivectorベクトルを抽出して復号する。具体的には、式М=m+Tを用いてivectorを抽出することができる。
ただし、Mは全ての訓練コーパスの平均スーパーベクトルであり、mは現在のパケットデータに累積された目標音声の平均スーパーベクトルであり、Tは負荷マトリックスであり、wは取得する必要のあるivectorである。
現在のコーパスデータにおけるivectorを取得した後、各フレーム特徴にivector特徴をスティッチングして新しい特徴を形成して音響モデルを再訓練する。訓練中に、元のモデルパラメータを変更せず保持して、ivector特徴部分のモデルパラメータの重みのみを更新して、モデルがオーバーフィッティングされないことを確保するとともに、更新されたモデルが元のモデルより大きく変更されないことを確保し、生成された方言アクセント付きのマンダリン音響モデルの普及効果を確保する。
ステップS330において、各省の音声テストデータに基づいて、共通のマンダリン音響モデル及び方言アクセント付きのマンダリン音響モデルをそれぞれテストして評価する。
具体的には、生成された各省に対応する方言アクセント付きのマンダリン音響モデルは、共通のマンダリン音響モデルに偏り過ぎておらず、しかも、実際の使用時に、共通のマンダリン音響モデルより方言アクセント付きのマンダリン音響モデルの性能が高くない可能性がある。
従って、オンラインに配置された音響モデルの性能の向上を確保するために、各省の音声テストデータに基づいて、共通のマンダリン音響モデル及び方言アクセント付きのマンダリン音響モデルをそれぞれテストして評価する必要がある。
例えば、共通のマンダリン音響モデル及び河南アクセント付きのマンダリン音響モデルに河南アクセント付きの音声テストデータをそれぞれ入力し、共通のマンダリン音響モデル及び河南アクセント付きのマンダリン音響モデルの音声認識の正確率に基づいてその性能をテストして評価する。
ステップS340において、共通のマンダリン音響モデルより方言アクセント付きのマンダリン音響モデルの認識性能が高い場合に、方言アクセント付きのマンダリン音響モデルをオンラインに配置する。
具体的には、共通のマンダリン音響モデルより方言アクセント付きのマンダリン音響モデルの認識性能が高い場合に、共通のマンダリン音響モデルにより方言アクセント付きのマンダリン音響モデルが、方言アクセント付きのマンダリンをより正確に認識することができることを表しているので、方言アクセント付きのマンダリン音響モデルをオンラインに配置する。
以上により、本発明の一実施形態に係る音声認識処理方法は、各省の音声テストデータに基づいて、共通のマンダリン音響モデル及び方言アクセント付きのマンダリン音響モデルをそれぞれテストして評価し、共通のマンダリン音響モデルより方言アクセント付きのマンダリン音響モデルの認識性能が高い場合に、方言アクセント付きのマンダリン音響モデルをオンラインに配置する。これにより、共通のマンダリン音響モデルより認識性能が高い方言アクセント付きのマンダリン音響モデルがオンラインに配置され、音声認識処理方法の実用性が確保される。
上記の説明に基づいて、実際の使用中に、方言アクセント付きのマンダリン音響モデルをオンラインに配置した後、複数の種類の方式でユーザが該当する方言アクセントを決定することができ、方言アクセントに対応するマンダリン音響モデルに基づいて、ユーザによって入力された音声情報を認識する。
第1実施例においては、ユーザの個人情報を取得し、個人情報における出生地が属する省に基づいてユーザが該当する方言アクセントを決定して、方言アクセントに対応するマンダリン音響モデルに基づいて、ユーザによって入力された音声情報を認識する。
第2実施例においては、ユーザによって送信された音声認識要求が属するネットワークアドレス情報を取得し、ネットワークアドレス情報が属する省を決定して、ユーザが該当する方言アクセントを取得することにより、方言アクセントに対応するマンダリン音響モデルに基づいてユーザによって入力された音声情報を認識する。
如何にユーザが属する方言アクセントを決定して、方言アクセントに対応するマンダリン音響モデルに基づいてユーザによって入力された音声情報を認識するのかをより明確に説明するために、上記第2実施例に基づく具体的な実施プロセスについて、図4を参照して以下に一例を挙げて説明する。
図4は、本発明の一実施形態の変形例に係る音声認識処理方法のフローチャートである。図4に示されるように、図3に示されるステップS340の後に、当該方法は、以下のステップS410と、ステップS420と、ステップS430と、ステップS440と、ステップS450とを含む。
ステップS410において、ユーザによって送信されたネットワークアドレス情報付きの音声情報を受信する。
ステップS420において、ネットワークアドレス情報に基づいてユーザが位置する省の情報を決定する。
具体的には、ユーザによって送信されたネットワークアドレス情報付きの音声情報を受信することができ、ネットワークアドレス情報に基づいてその位置する省を検索して決定することができる。例えば、ネットワークアドレス情報におけるIPアドレスに基づいてその属する省の情報を決定することができる。
ステップS430において、省の情報に対応する方言アクセント付きのマンダリン音響モデルが配置されているか否かを判断する。
ステップS440において、配置されている場合に、音声データを省の情報に対応する方言アクセント付きのマンダリン音響モデルに入力して音声認識する。
ステップS450において、配置されていない場合に、音声データを共通のマンダリン音響モデルに入力して音声認識する。
具体的には、ユーザが位置する省の情報を決定した後、省の情報に対応する方言アクセント付きのマンダリン音響モデルが配置されているか否かを判断することができ、配置されている場合に、マンダリン音響モデルより音声認識性能が高い、省の情報に対応する方言アクセント付きのマンダリン音響モデルが存在することを表しているので、音声データを省の情報に対応する方言アクセント付きのマンダリン音響モデルに入力して音声認識する。
配置されていない場合に、マンダリン音響モデルより音声認識性能が高い、省の情報に対応する方言アクセント付きのマンダリン音響モデルが存在しないことを表しているので、音声データを共通のマンダリン音響モデルに入力して音声認識する。
以上により、本発明の一実施形態に係る音声認識処理方法は、ユーザによって送信されたネットワークアドレス情報付きの音声情報に基づいて、ユーザが位置する省の情報を決定し、省の情報に対応する方言アクセント付きのマンダリン音響モデルが配置されている場合に、方言アクセント付きのマンダリン音響モデルを用いてユーザの音声情報を認識する。これにより、音声認識の性能を向上させる。
上記実施形態を実現するために、本発明は、音声認識処理装置をさらに提供する。図5は、本発明の一実施形態に係る音声認識処理装置の概略構成図である。図5に示されるように、当該装置は、第1生成モジュール10と第2生成モジュール20とを備える。
ここで、第1生成モジュール10は、全国の全ての地域の音声サンプルデータに基づいて、予め設定された処理モデルで訓練して、共通のマンダリン音響モデルを生成するためのものである。
具体的には、マンダリン音響モデルを訓練で生成するための処理モデルを1つ予め設定する。例えば、1つのディープニューラルネットワークモデルを予め設定し、全国の全ての地域の音声サンプルデータを収集し、音声サンプルデータを予め設定された処理モデルに入力する。
さらに、第1生成モジュール10は、処理モデルにより、音声サンプルデータにおける音声特徴を抽出して、音声特徴を言語基本ユニットにマッピングし、共通のマンダリン音響モデルを生成し、共通のマンダリン音響モデルに基づいて全国のユーザの音声を認識することができる。
第2生成モジュール20は、各省の音声サンプルデータに基づいて、共通のマンダリン音響モデルで自己適応訓練をそれぞれ行って、各省に対応する方言アクセント付きのマンダリン音響モデルを生成する。
具体的には、実際の使用中に、全国各省の音声サンプルデータを収集して自己適応データとする。そのうち、各省によって収集された音声サンプルデータは、数が相対的に少なく、例えば、数百時間の音声数のレベルである可能性があり、第2生成モジュール20は、各省によって収集された音声サンプルデータに基づいて、共通のマンダリン音響モデルで自己適応訓練をそれぞれ行い、各省のために自己適応訓練をそれぞれ行って、対応するマンダリン音響モデルを取得する。
なお、一実施形態に係る音声認識処理方法の解釈説明は、本実施形態に係る音声認識処理装置にも適し、その実現原理は類似しているので、ここでは説明を省略する。
以上により、本発明の一実施形態に係る音声認識処理装置は、全国の全ての地域の音声サンプルデータに基づいて、予め設定された処理モデルで訓練して、共通のマンダリン音響モデルを生成し、各省の音声サンプルデータに基づいて、共通のマンダリン音響モデルで自己適応訓練をそれぞれ行って、各省に対応する方言アクセント付きのマンダリン音響モデルを生成する。これにより、異なる地域のユーザのアクセントの差異に基づいて、方言アクセント付きのマンダリン音響モデルを構築し、音声認識の性能を向上させる。
上記実施形態に基づいて、音声認識処理方法の実用性をさらに確保するために、各省に対応する方言アクセント付きのマンダリン音響モデルを生成した後、生成された方言アクセント付きの音響モデルの性能を検証することができる。これにより、普通の音響モデルより性能が向上した方言アクセント付きのマンダリン音響モデルのみがオンラインに配置される。
図6は、本発明の一実施形態の変形例に係る音声認識処理装置の概略構成図である。図6に示されるように、図5に示されるものに加えて、当該装置は、評価モジュール30と配置モジュール40とをさらに備える。
ここで、評価モジュール30は、各省の音声テストデータに基づいて、共通のマンダリン音響モデル及び方言アクセント付きのマンダリン音響モデルをそれぞれテストして評価するためのものである。
配置モジュール40は、共通のマンダリン音響モデルより方言アクセント付きのマンダリン音響モデルの認識性能が高い場合に、方言アクセント付きのマンダリン音響モデルをオンラインに配置するためのものである。
本発明の一実施形態において、第1生成モジュール10は、さらに、全国の全ての地域の音声サンプルデータをディープニューラルネットワークモデルに入力して訓練し、入力された音声サンプルデータの音響特徴に基づいて、コンテキストに関連する子音・母音ユニットの分類などを訓練して処理し、深層のロング・ショート・ターム・メモリ(LSTM)ユニットに基づくモデル構造を有し、且つ時系列分類フレームワークに結ばれる音響モデルを生成する。
さらに、第2生成モジュール20は、比較的小さい学習率で基本モデルを最適に調整する自己適応訓練方式、モデルパラメータの一部のみを最適に調整する自己適応訓練方式、新しい特徴を導入する自己適応訓練方式を用いて共通のマンダリン音響モデルで自己適応訓練を行ってアクセント方言付きのマンダリン音響モデルを生成する。
オンラインに配置された音響モデルの性能の向上を確保するために、評価モジュール30は、各省の音声テストデータに基づいて、共通のマンダリン音響モデル及び方言アクセント付きのマンダリン音響モデルをそれぞれテストして評価する必要がある。
さらに、共通のマンダリン音響モデルより方言アクセント付きのマンダリン音響モデルの認識性能が高い場合に、共通のマンダリン音響モデルにより方言アクセント付きのマンダリン音響モデルが、方言アクセント付きのマンダリンをより正確に認識することができることを表しているので、配置モジュール40は、方言アクセント付きのマンダリン音響モデルをオンラインに配置する。
なお、一実施形態に係る音声認識処理方法の解釈説明は、本実施形態に係る音声認識処理装置にも適し、その実現原理は類似しているので、ここでは説明を省略する。
以上により、本発明の一実施形態に係る音声認識処理装置は、各省の音声テストデータに基づいて、共通のマンダリン音響モデル及び方言アクセント付きのマンダリン音響モデルをそれぞれテストして評価し、共通のマンダリン音響モデルより方言アクセント付きのマンダリン音響モデルの認識性能が高い場合に、方言アクセント付きのマンダリン音響モデルをオンラインに配置する。これにより、共通のマンダリン音響モデルより認識性能が高い方言アクセント付きのマンダリン音響モデルがオンラインに配置され、音声認識処理方法の実用性が確保される。
上記の説明に基づいて、実際の使用中に、方言アクセント付きのマンダリン音響モデルをオンラインに配置した後、複数の種類の方式でユーザが該当する方言アクセントを決定することができ、方言アクセントに対応するマンダリン音響モデルに基づいて、ユーザによって入力された音声情報を認識する。
図7は、本発明の一実施形態の変形例に係る音声認識処理装置の概略構成図である。図7に示されるように、図6に示されるものに加えて、当該装置は、受信モジュール50と、決定モジュール60と、判断モジュール70と、処理モジュール80とをさらに備えている。
ここで、受信モジュール50は、ユーザによって送信されたネットワークアドレス情報付きの音声情報を受信するためのものである。
決定モジュール60は、ネットワークアドレス情報に基づいてユーザが位置する省の情報を決定するためのものである。
具体的には、受信モジュール50は、ユーザによって送信されたネットワークアドレス情報付きの音声情報を受信することができ、決定モジュール60は、ネットワークアドレス情報に基づいてその位置する省を検索して決定することができる。例えば、ネットワークアドレス情報におけるIPアドレスに基づいてその属する省の情報を決定することができる。
判断モジュール70は、省の情報に対応する方言アクセント付きのマンダリン音響モデルが配置されているか否かを判断するためのものである。
処理モジュール80は、省の情報に対応する方言アクセント付きのマンダリン音響モデルが配置されている場合に、音声データを省の情報に対応する方言アクセント付きのマンダリン音響モデルに入力して音声認識するためのものである。
処理モジュール80は、さらに、省の情報に対応する方言アクセント付きのマンダリン音響モデルが配置されていない場合に、音声データを共通のマンダリン音響モデルに入力して音声認識する。
具体的には、ユーザが位置する省の情報を決定した後、判断モジュール70は、省の情報に対応する方言アクセント付きのマンダリン音響モデルが配置されているか否かを判断することができ、配置されている場合に、マンダリン音響モデルより音声認識性能が高い、省の情報に対応する方言アクセント付きのマンダリン音響モデルが存在することを表しているので、処理モジュール80は、音声データを省の情報に対応する方言アクセント付きのマンダリン音響モデルに入力して音声認識する。
配置されていない場合に、マンダリン音響モデルより音声認識性能が高い、省の情報に対応する方言アクセント付きのマンダリン音響モデルが存在しないことを表しているので、処理モジュール80は、音声データを共通のマンダリン音響モデルに入力して音声認識する。
なお、一実施形態に係る音声認識処理方法の解釈説明は、本実施形態に係る音声認識処理装置にも適し、その実現原理は類似しているので、ここでは説明を省略する。
以上により、本発明の一実施形態に係る音声認識処理装置は、ユーザによって送信されたネットワークアドレス情報付きの音声情報に基づいて、ユーザが位置する省の情報を決定し、省の情報に対応する方言アクセント付きのマンダリン音響モデルが配置されている場合に、方言アクセント付きのマンダリン音響モデルを用いてユーザの音声情報を認識する。これにより、音声認識の性能を向上させる。
本発明の説明において、「一実施形態例」、「一部の実施例」、「一例」、「具体的な例」、または「変形例」などの用語を参照した説明は、実施形態または実施例に合わせて説明された具体的な特徴、構成、材料または特性が、本発明の少なくとも一つの実施形態または実施例に含まれることを意味する。本明細書において、上記用語に対する例示的な説明は、必ずしも同じ実施形態または実施例を指すことではない。また、説明された具体的な特徴、構成、材料または特性は、いずれか一つまたは複数の実施形態または実施例において適切に結合することができる。また、互い矛盾しない場合、当業者は、本発明の説明に説明された異なる実施形態及び異なる実施例または実施例における特徴を結合及び組み合わせすることができる。
以上に、本発明の実施例を示して説明したが、なお、上記実施例は、例示するものであり、本発明を限定するものと理解してはいけない。当業者は、本発明の範囲内で上記実施例に対して変更、修正、取り替え及び変形を行うことができる。

Claims (12)

  1. 全国の全ての地域の音声サンプルデータに基づいて、予め設定された処理モデルで訓練して、共通のマンダリン音響モデルを生成するステップと、
    各省の音声サンプルデータに基づいて、前記共通のマンダリン音響モデルで自己適応訓練をそれぞれ行って、各前記省に対応する方言アクセント付きのマンダリン音響モデルを生成するステップとを含む音声認識処理方法。
  2. 全国の全ての地域の前記音声サンプルデータに基づいて、予め設定された前記処理モデルで訓練して、前記共通のマンダリン音響モデルを生成するステップは、
    全国の全ての地域の前記音声サンプルデータに基づいて、予め設定されたディープニューラルネットワークモデルで訓練して、深層のロング・ショート・ターム・メモリ(LSTM)ユニットに基づくモデル構造を有し、且つ時系列分類フレームワークに結ばれる音響モデルを生成するステップを含む請求項1に記載の音声認識処理方法。
  3. 前記共通のマンダリン音響モデルで前記自己適応訓練をそれぞれ行うステップは、
    比較的小さい学習率で基本モデルを最適に調整する自己適応訓練方式、または、
    モデルパラメータの一部のみを最適に調整する自己適応訓練方式、または、
    新しい特徴を導入する自己適応訓練方式を含む請求項1または請求項2に記載の音声認識処理方法。
  4. 各前記省に対応する前記方言アクセント付きのマンダリン音響モデルを生成するステップの後に、
    各前記省の音声テストデータに基づいて、前記共通のマンダリン音響モデル及び前記方言アクセント付きのマンダリン音響モデルをそれぞれテストして評価するステップと、
    前記共通のマンダリン音響モデルより前記方言アクセント付きのマンダリン音響モデルの認識性能が高い場合に、前記方言アクセント付きのマンダリン音響モデルをオンラインに配置するステップとをさらに含む請求項1から請求項3のいずれかに記載の音声認識処理方法。
  5. 前記方言アクセント付きのマンダリン音響モデルをオンラインに配置するステップの後に、
    ユーザによって送信されたネットワークアドレス情報付きの音声情報を受信するステップと、
    前記ネットワークアドレス情報に基づいて前記ユーザが位置する省の情報を決定するステップと、
    前記省の情報に対応する前記方言アクセント付きのマンダリン音響モデルが配置されているか否かを判断するステップと、
    配置されている場合に、前記音声情報を前記省の情報に対応する前記方言アクセント付きのマンダリン音響モデルに入力して音声認識するステップと、
    配置されていない場合に、前記音声情報を前記共通のマンダリン音響モデルに入力して音声認識するステップとをさらに含む請求項1から請求項4のいずれかに記載の音声認識処理方法。
  6. 全国の全ての地域の音声サンプルデータに基づいて、予め設定された処理モデルで訓練して、共通のマンダリン音響モデルを生成する第1生成モジュールと、
    各省の音声サンプルデータに基づいて、前記共通のマンダリン音響モデルで自己適応訓練をそれぞれ行って、各前記省に対応する方言アクセント付きのマンダリン音響モデルを生成する第2生成モジュールとを備える音声認識処理装置。
  7. 前記第1生成モジュールは、
    全国の全ての地域の前記音声サンプルデータに基づいて、予め設定されたディープニューラルネットワークモデルで訓練して、深層のロング・ショート・ターム・メモリ(LSTM)ユニットに基づくモデル構造を有し、且つ時系列分類フレームワークに結ばれる音響モデルを生成する請求項6に記載の音声認識処理装置。
  8. 前記第2生成モジュールが前記共通のマンダリン音響モデルで前記自己適応訓練をそれぞれ行うことは、
    比較的小さい学習率で基本モデルを最適に調整する自己適応訓練方式、または、
    モデルパラメータの一部のみを最適に調整する自己適応訓練方式、または、
    新しい特徴を導入する自己適応訓練方式を含む請求項6または請求項7に記載の音声認識処理装置。
  9. 各前記省の前記音声テストデータに基づいて、前記共通のマンダリン音響モデル及び前記方言アクセント付きのマンダリン音響モデルをそれぞれテストして評価するための評価モジュールと、
    前記共通のマンダリン音響モデルより前記方言アクセント付きのマンダリン音響モデルの認識性能が高い場合に、前記方言アクセント付きのマンダリン音響モデルをオンラインに配置するための配置モジュールとをさらに備える請求項6から請求項8のいずれかに記載の音声認識処理装置。
  10. ユーザによって送信されたネットワークアドレス情報付きの音声情報を受信するための受信モジュールと、
    前記ネットワークアドレス情報に基づいて前記ユーザが位置する省の情報を決定するための決定モジュールと、
    前記省の情報に対応する前記方言アクセント付きのマンダリン音響モデルが配置されているか否かを判断するための判断モジュールと、
    前記省の情報に対応する前記方言アクセント付きのマンダリン音響モデルが配置されている場合に、前記音声情報を前記省の情報に対応する前記方言アクセント付きのマンダリン音響モデルに入力して音声認識するための処理モジュールとを備え、
    該処理モジュールが、さらに、前記省の情報に対応する前記方言アクセント付きのマンダリン音響モデルが配置されていない場合に、前記音声情報を前記共通のマンダリン音響モデルに入力して音声認識する請求項6から請求項9のいずれかに記載の音声認識処理装置。
  11. 少なくとも1つのプロセッサと、メモリと、少なくとも1つのプログラムとを備えるデバイスであって、
    少なくとも1つの前記プログラムが前記メモリに記憶されており、少なくとも1つの前記プロセッサにより実行される場合に、
    全国の全ての地域の音声サンプルデータに基づいて、予め設定された処理モデルで訓練して、共通のマンダリン音響モデルを生成するステップと、
    各省の音声サンプルデータに基づいて、前記共通のマンダリン音響モデルで自己適応訓練をそれぞれ行って、各前記省に対応する方言アクセント付きのマンダリン音響モデルを生成するステップとが実行されるデバイス。
  12. 少なくとも1つのプログラムが記憶されている非揮発性コンピュータ記憶媒体であって、
    少なくとも1つの前記プログラムが1つのデバイスにより実行される場合に、該デバイスに、
    全国の全ての地域の音声サンプルデータに基づいて、予め設定された処理モデルで訓練して、共通のマンダリン音響モデルを生成するステップと、
    各省の音声サンプルデータに基づいて、前記共通のマンダリン音響モデルで自己適応訓練をそれぞれ行って、各前記省に対応する方言アクセント付きのマンダリン音響モデルを生成するステップとを実行させる非揮発性コンピュータ記憶媒体。
JP2019502659A 2016-07-22 2016-11-08 音声認識処理方法及び装置 Active JP6774551B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201610585160.6 2016-07-22
CN201610585160.6A CN106251859B (zh) 2016-07-22 2016-07-22 语音识别处理方法和装置
PCT/CN2016/105080 WO2018014469A1 (zh) 2016-07-22 2016-11-08 语音识别处理方法和装置

Publications (2)

Publication Number Publication Date
JP2019527852A true JP2019527852A (ja) 2019-10-03
JP6774551B2 JP6774551B2 (ja) 2020-10-28

Family

ID=57604542

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019502659A Active JP6774551B2 (ja) 2016-07-22 2016-11-08 音声認識処理方法及び装置

Country Status (4)

Country Link
US (1) US11138967B2 (ja)
JP (1) JP6774551B2 (ja)
CN (1) CN106251859B (ja)
WO (1) WO2018014469A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020067658A (ja) * 2018-10-19 2020-04-30 三星電子株式会社Samsung Electronics Co.,Ltd. 音声を認識する装置及び方法、音声認識モデルをトレーニングする装置及び方法
JP2021524615A (ja) * 2018-07-13 2021-09-13 グーグル エルエルシーGoogle LLC エンドツーエンドストリーミングキーワードスポッティング

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108269568B (zh) * 2017-01-03 2021-07-30 中国科学院声学研究所 一种基于ctc的声学模型训练方法
CN108281137A (zh) * 2017-01-03 2018-07-13 中国科学院声学研究所 一种全音素框架下的通用语音唤醒识别方法及系统
CN106887226A (zh) * 2017-04-07 2017-06-23 天津中科先进技术研究院有限公司 一种基于人工智能识别的语音识别算法
US10446136B2 (en) * 2017-05-11 2019-10-15 Ants Technology (Hk) Limited Accent invariant speech recognition
CN107481717B (zh) * 2017-08-01 2021-03-19 百度在线网络技术(北京)有限公司 一种声学模型训练方法及系统
CN107909715A (zh) * 2017-09-29 2018-04-13 嘉兴川森智能科技有限公司 自动售货机中的语音识别系统及方法
CN108039168B (zh) * 2017-12-12 2020-09-11 科大讯飞股份有限公司 声学模型优化方法及装置
CN108417203A (zh) * 2018-01-31 2018-08-17 广东聚晨知识产权代理有限公司 一种人体语音识别传输方法及系统
CN108735199B (zh) * 2018-04-17 2021-05-28 北京声智科技有限公司 一种声学模型的自适应训练方法及系统
CN108670128A (zh) * 2018-05-21 2018-10-19 深圳市沃特沃德股份有限公司 语音控制扫地机器人的方法和扫地机器人
CN110600032A (zh) * 2018-05-23 2019-12-20 北京语智科技有限公司 一种语音识别方法及装置
CN108877784B (zh) * 2018-09-05 2022-12-06 河海大学 一种基于口音识别的鲁棒语音识别方法
CN109243461B (zh) * 2018-09-21 2020-04-14 百度在线网络技术(北京)有限公司 语音识别方法、装置、设备及存储介质
CN110941188A (zh) * 2018-09-25 2020-03-31 珠海格力电器股份有限公司 智能家居控制方法及装置
CN111063338B (zh) * 2018-09-29 2023-09-19 阿里巴巴集团控股有限公司 音频信号识别方法、装置、设备、系统和存储介质
CN109291049B (zh) * 2018-09-30 2021-03-05 北京木业邦科技有限公司 数据处理方法、装置及控制设备
CN111107380B (zh) * 2018-10-10 2023-08-15 北京默契破冰科技有限公司 一种用于管理音频数据的方法、设备和计算机存储介质
CN111031329B (zh) * 2018-10-10 2023-08-15 北京默契破冰科技有限公司 一种用于管理音频数据的方法、设备和计算机存储介质
CN109346059B (zh) * 2018-12-20 2022-05-03 广东小天才科技有限公司 一种方言语音的识别方法及电子设备
CN109979439B (zh) * 2019-03-22 2021-01-29 泰康保险集团股份有限公司 基于区块链的语音识别方法、装置、介质及电子设备
CN109887497B (zh) * 2019-04-12 2021-01-29 北京百度网讯科技有限公司 语音识别的建模方法、装置及设备
CN110033760B (zh) 2019-04-15 2021-01-29 北京百度网讯科技有限公司 语音识别的建模方法、装置及设备
CN111354349A (zh) * 2019-04-16 2020-06-30 深圳市鸿合创新信息技术有限责任公司 一种语音识别方法及装置、电子设备
CN110223674B (zh) * 2019-04-19 2023-05-26 平安科技(深圳)有限公司 语音语料训练方法、装置、计算机设备和存储介质
CN110047467B (zh) * 2019-05-08 2021-09-03 广州小鹏汽车科技有限公司 语音识别方法、装置、存储介质及控制终端
CN112116909A (zh) * 2019-06-20 2020-12-22 杭州海康威视数字技术股份有限公司 语音识别方法、装置及系统
CN112133290A (zh) * 2019-06-25 2020-12-25 南京航空航天大学 一种针对民航陆空通话领域的基于迁移学习的语音识别方法
CN110349571B (zh) * 2019-08-23 2021-09-07 北京声智科技有限公司 一种基于连接时序分类的训练方法及相关装置
CN110570837B (zh) * 2019-08-28 2022-03-11 卓尔智联(武汉)研究院有限公司 一种语音交互方法、装置及存储介质
CN110534116B (zh) * 2019-08-29 2022-06-03 北京安云世纪科技有限公司 应用于智能设备的语音识别模型设置方法及装置
CN110930995B (zh) * 2019-11-26 2022-02-11 中国南方电网有限责任公司 一种应用于电力行业的语音识别模型
CN110956954B (zh) * 2019-11-29 2020-12-11 百度在线网络技术(北京)有限公司 一种语音识别模型训练方法、装置以及电子设备
CN111477234A (zh) * 2020-03-05 2020-07-31 厦门快商通科技股份有限公司 一种声纹数据注册方法和装置以及设备
CN111599349B (zh) * 2020-04-01 2023-04-18 云知声智能科技股份有限公司 一种训练语言模型的方法及系统
CN111816165A (zh) * 2020-07-07 2020-10-23 北京声智科技有限公司 语音识别方法、装置及电子设备
WO2021189980A1 (zh) * 2020-10-26 2021-09-30 平安科技(深圳)有限公司 语音数据生成方法、装置、计算机设备及存储介质
CN112614485A (zh) * 2020-12-30 2021-04-06 竹间智能科技(上海)有限公司 识别模型构建方法、语音识别方法、电子设备及存储介质
CN112802455B (zh) * 2020-12-31 2023-04-11 北京捷通华声科技股份有限公司 语音识别方法及装置
CN113593525A (zh) * 2021-01-26 2021-11-02 腾讯科技(深圳)有限公司 口音分类模型训练和口音分类方法、装置和存储介质
CN113345451B (zh) * 2021-04-26 2023-08-22 北京搜狗科技发展有限公司 一种变声方法、装置及电子设备
CN113223542B (zh) * 2021-04-26 2024-04-12 北京搜狗科技发展有限公司 音频的转换方法、装置、存储介质及电子设备
CN113192491B (zh) * 2021-04-28 2024-05-03 平安科技(深圳)有限公司 声学模型生成方法、装置、计算机设备及存储介质
CN113593534B (zh) * 2021-05-28 2023-07-14 思必驰科技股份有限公司 针对多口音语音识别的方法和装置
CN114596845A (zh) * 2022-04-13 2022-06-07 马上消费金融股份有限公司 语音识别模型的训练方法、语音识别方法及装置
CN115496916B (zh) * 2022-09-30 2023-08-22 北京百度网讯科技有限公司 图像识别模型的训练方法、图像识别方法以及相关装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06266384A (ja) * 1993-03-16 1994-09-22 A T R Jido Honyaku Denwa Kenkyusho:Kk 音響モデル適応方式
CN104036774A (zh) * 2014-06-20 2014-09-10 国家计算机网络与信息安全管理中心 藏语方言识别方法及系统
US20150073793A1 (en) * 2009-12-15 2015-03-12 At&T Intellectual Property I, L.P. System and method for combining geographic metadata in automatic speech recognition language and acoustic models
JP2015102806A (ja) * 2013-11-27 2015-06-04 国立研究開発法人情報通信研究機構 統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム
JP2016520879A (ja) * 2013-12-19 2016-07-14 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 地方なまりを区別する音声データ認識方法、装置及びサーバ

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080147404A1 (en) * 2000-05-15 2008-06-19 Nusuara Technologies Sdn Bhd System and methods for accent classification and adaptation
US8468012B2 (en) * 2010-05-26 2013-06-18 Google Inc. Acoustic model adaptation using geographic information
US9966064B2 (en) * 2012-07-18 2018-05-08 International Business Machines Corporation Dialect-specific acoustic language modeling and speech recognition
US9842585B2 (en) * 2013-03-11 2017-12-12 Microsoft Technology Licensing, Llc Multilingual deep neural network
US9153231B1 (en) * 2013-03-15 2015-10-06 Amazon Technologies, Inc. Adaptive neural network speech recognition models
US9190053B2 (en) * 2013-03-25 2015-11-17 The Governing Council Of The Univeristy Of Toronto System and method for applying a convolutional neural network to speech recognition
CN103310788B (zh) * 2013-05-23 2016-03-16 北京云知声信息技术有限公司 一种语音信息识别方法及系统
CN105336323B (zh) * 2015-10-14 2018-12-28 清华大学 维语语音识别方法和装置
US10319374B2 (en) * 2015-11-25 2019-06-11 Baidu USA, LLC Deployed end-to-end speech recognition
CN105632501B (zh) * 2015-12-30 2019-09-03 中国科学院自动化研究所 一种基于深度学习技术的自动口音分类方法及装置
US10229672B1 (en) * 2015-12-31 2019-03-12 Google Llc Training acoustic models using connectionist temporal classification
US20180018973A1 (en) * 2016-07-15 2018-01-18 Google Inc. Speaker verification
US10431206B2 (en) * 2016-08-22 2019-10-01 Google Llc Multi-accent speech recognition
US10629192B1 (en) * 2018-01-09 2020-04-21 Electronic Arts Inc. Intelligent personalized speech recognition
US10388272B1 (en) * 2018-12-04 2019-08-20 Sorenson Ip Holdings, Llc Training speech recognition systems using word sequences
US11170761B2 (en) * 2018-12-04 2021-11-09 Sorenson Ip Holdings, Llc Training of speech recognition systems
US10839788B2 (en) * 2018-12-13 2020-11-17 i2x GmbH Systems and methods for selecting accent and dialect based on context

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06266384A (ja) * 1993-03-16 1994-09-22 A T R Jido Honyaku Denwa Kenkyusho:Kk 音響モデル適応方式
US20150073793A1 (en) * 2009-12-15 2015-03-12 At&T Intellectual Property I, L.P. System and method for combining geographic metadata in automatic speech recognition language and acoustic models
JP2015102806A (ja) * 2013-11-27 2015-06-04 国立研究開発法人情報通信研究機構 統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム
JP2016520879A (ja) * 2013-12-19 2016-07-14 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 地方なまりを区別する音声データ認識方法、装置及びサーバ
CN104036774A (zh) * 2014-06-20 2014-09-10 国家计算机网络与信息安全管理中心 藏语方言识别方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
""官話"", [ONLINE], JPN6020011578, 3 January 2016 (2016-01-03), ISSN: 0004245071 *
久保 陽太郎: ""ニューラルネットワーク研究のフロンティア"", 人工知能, vol. 第31巻 第2号, JPN6020011581, 1 March 2016 (2016-03-01), JP, ISSN: 0004245072 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021524615A (ja) * 2018-07-13 2021-09-13 グーグル エルエルシーGoogle LLC エンドツーエンドストリーミングキーワードスポッティング
JP2020067658A (ja) * 2018-10-19 2020-04-30 三星電子株式会社Samsung Electronics Co.,Ltd. 音声を認識する装置及び方法、音声認識モデルをトレーニングする装置及び方法
JP7171532B2 (ja) 2018-10-19 2022-11-15 三星電子株式会社 音声を認識する装置及び方法、音声認識モデルをトレーニングする装置及び方法

Also Published As

Publication number Publication date
JP6774551B2 (ja) 2020-10-28
US20190189112A1 (en) 2019-06-20
WO2018014469A1 (zh) 2018-01-25
CN106251859B (zh) 2019-05-31
US11138967B2 (en) 2021-10-05
CN106251859A (zh) 2016-12-21

Similar Documents

Publication Publication Date Title
JP2019527852A (ja) 音声認識処理方法及び装置
Zhou et al. Deep Speaker Embedding Extraction with Channel-Wise Feature Responses and Additive Supervision Softmax Loss Function.
JP6902010B2 (ja) 音声評価方法、装置、機器及び読み取り可能な記憶媒体
CN111048064B (zh) 基于单说话人语音合成数据集的声音克隆方法及装置
CN108711421A (zh) 一种语音识别声学模型建立方法及装置和电子设备
CN108711422A (zh) 语音识别方法、装置、计算机可读存储介质和计算机设备
CN110349597B (zh) 一种语音检测方法及装置
CN106971709A (zh) 统计参数模型建立方法和装置、语音合成方法和装置
CN108364662B (zh) 基于成对鉴别任务的语音情感识别方法与系统
US20160365096A1 (en) Training classifiers using selected cohort sample subsets
JP2019159654A (ja) 時系列情報の学習システム、方法およびニューラルネットワークモデル
CN110895935B (zh) 语音识别方法、系统、设备和介质
Blanchard et al. Getting the subtext without the text: Scalable multimodal sentiment classification from visual and acoustic modalities
CN111833848B (zh) 用于识别语音的方法、装置、电子设备和存储介质
CN112331207A (zh) 服务内容监控方法、装置、电子设备和存储介质
CN110751941B (zh) 语音合成模型的生成方法、装置、设备及存储介质
CN114360552A (zh) 用于说话人识别的网络模型训练方法、装置及存储介质
US11961510B2 (en) Information processing apparatus, keyword detecting apparatus, and information processing method
CN111833842A (zh) 合成音模板发现方法、装置以及设备
Wang et al. I-vector based speaker gender recognition
Sarker et al. Emotion recognition from speech based on relevant feature and majority voting
Shi et al. Speech classification based on cuckoo algorithm and support vector machines
Li et al. Non-Parallel Many-to-Many Voice Conversion with PSR-StarGAN.
Si et al. Boosting StarGANs for voice conversion with contrastive discriminator
Gao et al. Duration refinement by jointly optimizing state and longer unit likelihood.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190118

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200331

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200625

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200923

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201002

R150 Certificate of patent or registration of utility model

Ref document number: 6774551

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250