JP2019527852A

JP2019527852A - 音声認識処理方法及び装置

Info

Publication number: JP2019527852A
Application number: JP2019502659A
Authority: JP
Inventors: シェンガンリー，; ビンジャン，
Original assignee: バイドゥオンラインネットワークテクノロジー（ベイジン）カンパニーリミテッド
Priority date: 2016-07-22
Filing date: 2016-11-08
Publication date: 2019-10-03
Anticipated expiration: 2036-11-08
Also published as: JP6774551B2; US20190189112A1; WO2018014469A1; CN106251859B; US11138967B2; CN106251859A

Abstract

音声認識処理方法及び装置であって、方法は、全国の全ての地域の音声サンプルデータに基づいて、予め設定された処理モデルで訓練して、共通のマンダリン音響モデルを生成するステップＳ１１０と、各省の音声サンプルデータに基づいて、共通のマンダリン音響モデルで自己適応訓練をそれぞれ行って、各省に対応する方言アクセント付きのマンダリン音響モデルを生成するステップＳ１２０とを含む。異なる地域のユーザのアクセントの差異に基づいて方言アクセント付きのマンダリン音響モデルを構築して、音声認識の性能を向上させる。【選択図】図１

Description

優先権情報

本出願は、バイドゥオンラインネットワークテクノロジー（ベイジン）カンパニーリミテッドが２０１６年７月２２日付に中国国家知識産権局に提出した特許発明名称が「音声認識処理方法及び装置」、特許出願番号が２０１６１０５８５１６０.６である特許出願の優先権を主張するものであり、当該中国特許出願の全ての内容は参照により本明細書に組み入れられる。

本発明は、音声認識技術分野に関し、特に、音声認識処理方法及び装置に関する。

音声認識の性能は、音声認識製品の実用化に影響を与える重要な要因の１つであり、音響モデルは、音声認識の主要な構成要素として、音声認識の性能の悪良に重要な役割を果たしている。音響モデルの訓練において、如何に様々な情報を総合的に活用して音響モデルの表現及び普及能力を高めるのかは、音声認識業界にとって重要な理論的研究価値及び実用的価値を有する。

通常の場合、ユーザのマンダリン発音には、ある程度の方言アクセントが付いている可能性がある。例えば、湖南アクセント付きのユーザのマンダリン発音において、「ｈ」と「ｆ」を区別しないことがよくある。マンダリン音声認識製品における音響モデルの全てが全国のユーザ向けのものであり、ユーザのマンダリン中のアクセントの違いについて考慮していない。

本発明は、少なくとも１つの上記技術的課題をある程度解決することを目的とする。
そのため、本発明は、異なる地域のユーザのアクセントの差異に基づいて方言アクセント付きのマンダリン音響モデルを構築して、音声認識の性能を向上させる音声認識処理方法を提供することを第１の目的とする。
本発明は、音声認識処理装置を提供することを第２の目的とする。
本発明は、デバイスを提供することを第３の目的とする。
本発明は、不揮発性コンピュータ記憶媒体を提供することを第４の目的とする。

上記目的を達成するために、本発明の第１態様の実施形態は、全国の全ての地域の音声サンプルデータに基づいて、予め設定された処理モデルで訓練して、共通のマンダリン音響モデルを生成するステップと、各省の音声サンプルデータに基づいて、前記共通のマンダリン音響モデルで自己適応訓練をそれぞれ行って、各前記省に対応する方言アクセント付きのマンダリン音響モデルを生成するステップとを含む音声認識処理方法を提供する。

本発明の実施形態に係る音声認識処理方法は、各省の音声テストデータに基づいて、共通のマンダリン音響モデル及び方言アクセント付きのマンダリン音響モデルをそれぞれテストして評価し、共通のマンダリン音響モデルより方言アクセント付きのマンダリン音響モデルの認識性能が高い場合に、方言アクセント付きのマンダリン音響モデルをオンラインに配置する。これにより、共通のマンダリン音響モデルより認識性能が高い方言アクセント付きのマンダリン音響モデルがオンラインに配置され、音声認識処理方法の実用性が確保される。

また、本発明の実施形態に係る音声認識処理方法は、以下の付加的な技術的特徴をさらに有する。

本発明の一実施例において、全国の全ての地域の前記音声サンプルデータに基づいて、予め設定された前記処理モデルで訓練して、前記共通のマンダリン音響モデルを生成するステップは、全国の全ての地域の前記音声サンプルデータに基づいて、予め設定されたディープニューラルネットワークモデルで訓練して、深層のロング・ショート・ターム・メモリ（ＬＳＴＭ）ユニットに基づくモデル構造を有し、且つ時系列分類フレームワークに結ばれる音響モデルを生成するステップを含んでいてもよい。

本発明の一実施例において、前記共通のマンダリン音響モデルで前記自己適応訓練をそれぞれ行うステップは、比較的小さい学習率で基本モデルを最適に調整する自己適応訓練方式、または、モデルパラメータの一部のみを最適に調整する自己適応訓練方式、または、新しい特徴を導入する自己適応訓練方式を含んでいてもよい。

本発明の一実施例において、各前記省に対応する前記方言アクセント付きのマンダリン音響モデルを生成するステップの後に、各前記省の音声テストデータに基づいて、前記共通のマンダリン音響モデル及び前記方言アクセント付きのマンダリン音響モデルをそれぞれテストして評価するステップと、前記共通のマンダリン音響モデルより前記方言アクセント付きのマンダリン音響モデルの認識性能が高い場合に、前記方言アクセント付きのマンダリン音響モデルをオンラインに配置するステップとをさらに含んでいてもよい。

本発明の一実施例において、前記方言アクセント付きのマンダリン音響モデルをオンラインに配置するステップの後に、ユーザによって送信されたネットワークアドレス情報付きの音声情報を受信するステップと、前記ネットワークアドレス情報に基づいて前記ユーザが位置する省の情報を決定するステップと、前記省の情報に対応する前記方言アクセント付きのマンダリン音響モデルが配置されているか否かを判断するステップと、配置されている場合に、前記音声情報を前記省の情報に対応する前記方言アクセント付きのマンダリン音響モデルに入力して音声認識するステップと、配置されていない場合に、前記音声情報を前記共通のマンダリン音響モデルに入力して音声認識するステップとをさらに含んでいてもよい。

上記目的を実現するために、本発明の第２態様の実施形態として、全国の全ての地域の音声サンプルデータに基づいて、予め設定された処理モデルで訓練して、共通のマンダリン音響モデルを生成する第１生成モジュールと、各省の音声サンプルデータに基づいて、前記共通のマンダリン音響モデルで自己適応訓練をそれぞれ行って、各前記省に対応する方言アクセント付きのマンダリン音響モデルを生成するための第２生成モジュールとを備える音声認識処理装置を提供する。

本発明の実施形態に係る音声認識処理装置は、各省の音声テストデータに基づいて、共通のマンダリン音響モデル及び方言アクセント付きのマンダリン音響モデルをそれぞれテストして評価し、共通のマンダリン音響モデルより方言アクセント付きのマンダリン音響モデルの認識性能が高い場合に、方言アクセント付きのマンダリン音響モデルをオンラインに配置する。これにより、共通のマンダリン音響モデルより認識性能が高い方言アクセント付きのマンダリン音響モデルがオンラインに配置され、音声認識処理方法の実用性が確保される。

また、本発明の実施形態に係る音声認識処理装置は、以下の付加的な技術的特徴をさらに有する。

本発明の一実施例において、前記第１生成モジュールは、全国の全ての地域の前記音声サンプルデータに基づいて、予め設定されたディープニューラルネットワークモデルで訓練して、深層のロング・ショート・ターム・メモリ（ＬＳＴＭ）ユニットに基づくモデル構造を有し、且つ時系列分類フレームワークに結ばれる音響モデルを生成してもよい。

本発明の一実施例において、前記第２生成モジュールが前記共通のマンダリン音響モデルで前記自己適応訓練をそれぞれ行うことは、比較的小さい学習率で基本モデルを最適に調整する自己適応訓練方式、または、モデルパラメータの一部のみを最適に調整する自己適応訓練方式、または、新しい特徴を導入する自己適応訓練方式を含んでいてもよい。

本発明の一実施例において、各前記省の前記音声テストデータに基づいて、前記共通のマンダリン音響モデル及び前記方言アクセント付きのマンダリン音響モデルをそれぞれテストして評価するための評価モジュールと、前記共通のマンダリン音響モデルより前記方言アクセント付きのマンダリン音響モデルの認識性能が高い場合に、前記方言アクセント付きのマンダリン音響モデルをオンラインに配置するための配置モジュールとをさらに備えていてもよい。

本発明の一実施例において、ユーザによって送信されたネットワークアドレス情報付きの音声情報を受信するための受信モジュールと、前記ネットワークアドレス情報に基づいて前記ユーザが位置する省の情報を決定するための決定モジュールと、前記省の情報に対応する前記方言アクセント付きのマンダリン音響モデルが配置されているか否かを判断するための判断モジュールと、前記省の情報に対応する前記方言アクセント付きのマンダリン音響モデルが配置されている場合に、前記音声情報を前記省の情報に対応する前記方言アクセント付きのマンダリン音響モデルに入力して音声認識するための処理モジュールとを備え、該処理モジュールが、さらに、前記省の情報に対応する前記方言アクセント付きのマンダリン音響モデルが配置されていない場合に、前記音声情報を前記共通のマンダリン音響モデルに入力して音声認識してもよい。

本発明の付加的特徴及び利点は、一部が下記の説明の中にあり、一部が下記の説明により明らかになり、または本発明の実践により理解される。

上記目的を実現するために、本発明の第３態様の実施形態として、少なくとも１つのプロセッサと、メモリと、少なくとも１つのプログラムとを備えるデバイスであって、少なくとも１つの前記プログラムが前記メモリに記憶されており、少なくとも１つの前記プロセッサにより実行される場合に、全国の全ての地域の音声サンプルデータに基づいて、予め設定された処理モデルで訓練して、共通のマンダリン音響モデルを生成するステップと、各省の音声サンプルデータに基づいて、前記共通のマンダリン音響モデルで自己適応訓練をそれぞれ行って、各前記省に対応する方言アクセント付きのマンダリン音響モデルを生成するステップと、が実行されるデバイスをさらに提供する。

上記目的を実現するために、本発明の第４態様の実施形態として、少なくとも１つのプログラムが記憶されている非揮発性コンピュータ記憶媒体であってし、少なくとも１つの前記プログラムが１つのデバイスにより実行される場合に、該デバイスに、全国の全ての地域の音声サンプルデータに基づいて、予め設定された処理モデルで訓練して、共通のマンダリン音響モデルを生成するステップと、各省の音声サンプルデータに基づいて、前記共通のマンダリン音響モデルで自己適応訓練をそれぞれ行って、各前記省に対応する方言アクセント付きのマンダリン音響モデルを生成するステップとを実行させる非揮発性コンピュータ記憶媒体を提供する。

本発明の上記及び／または付加的な特徴及び利点は、下記の図面を参照して実施例を説明することにより、明らかになり、理解され易くなる。
本発明の一実施形態に係る音声認識処理方法のフローチャートである。本発明の一実施形態に係るアクセント付きのマンダリン音響モデルを生成するフローチャートである。本発明の一実施形態の変形例に係る音声認識処理方法のフローチャートである。本発明の一実施形態の変形例に係る音声認識処理方法のフローチャートである。本発明の一実施形態に係る音声認識処理装置の概略構成図である。本発明の一実施形態の変形例に係る音声認識処理装置の概略構成図である。本発明の一実施形態の変形例に係る音声認識処理装置の概略構成図である。

以下、例示的な実施形態を詳細に説明し、上記実施形態の一例が図面に示されており、そのうち、同一数字または類似の符号は、常に同一または類似の要素または同一または類似の機能を有する要素を示す。図面を参照して以下に説明される実施形態は、例示するものであり、本発明を解釈するためのものであり、本発明を限定するものであると理解してはいけない。

以下、図面を参照しながら本発明の一実施形態に係る音声認識処理方法及び装置を説明する。

図１は、本発明の一実施形態に係る音声認識処理方法のフローチャートである。図１に示されるように、当該方法は、以下のステップＳ１１０と、ステップＳ１２０とを含む。

ステップＳ１１０において、全国の全ての地域の音声サンプルデータに基づいて、予め設定された処理モデルで訓練して、共通のマンダリン音響モデルを生成する。

具体的には、マンダリン音響モデルを訓練で生成するための処理モデルを１つ予め設定する。例えば、１つのディープニューラルネットワークモデルを予め設定し、全国の全ての地域の音声サンプルデータを収集し、音声サンプルデータを予め設定された処理モデルに入力する。

さらに、処理モデルは、音声サンプルデータにおける音声特徴を抽出し、音声特徴を言語基本ユニットにマッピングして、共通のマンダリン音響モデルを生成し、共通のマンダリン音響モデルに基づいて全国のユーザの音声を認識することができる。

ステップＳ１２０において、各省の音声サンプルデータに基づいて、共通のマンダリン音響モデルで自己適応訓練をそれぞれ行って、各省に対応する方言アクセント付きのマンダリン音響モデルを生成する。

なお、実際の使用時に、ユーザのマンダリン発音には、ある程度の方言アクセントが付いている可能性がある。例えば、四川のアクセント付きのマンダリン発音において、その「ｃ」と「ｃｈ」の発音は同じであるが、マンダリン音響モデルにおいて、「ｃ」と「ｃｈ」には明確な区分境界線があるため、ユーザの音声データを正確に識別することができない。

上記課題を解決するために、本発明の一実施形態に係る音声認識処理方法は、元の共通のマンダリン音響モデルのもとで訓練し、異なる省の方言アクセントの発音特徴に基づいて、共通のマンダリン音響モデルを最適化する。異なる方言アクセントごとに、対応する方言アクセント付きのマンダリン音響モデルを構築するため、異なる方言アクセント付きのマンダリン音響モデルにより、ユーザによって入力された音声データを正確に識別することができる。

具体的には、実際の使用中に、全国各省の音声サンプルデータを収集して自己適応データとする。そのうち、各省によって収集された音声サンプルデータは、数が相対的に少なく、例えば、数百時間の音声数のレベルである可能性があり、各省によって収集された音声サンプルデータに基づいて、共通のマンダリン音響モデルで自己適応訓練をそれぞれ行い、各省のために自己適応訓練をそれぞれ行って、対応するマンダリン音響モデルを取得する。

ここで、上記自己適応訓練とは、収集された全国各省の音声サンプルデータを処理して分析するプロセスにおいて、音声サンプルデータのデータ特徴に基づいて、マンダリン音響モデルの処理パラメータ、境界条件または拘束条件などを自動的に調整することにより、共通のマンダリンモデルを、各省の音声サンプルデータの統計分布特徴や構成特徴に適応するマンダリン音響モデルに最適化する。

一例を挙げると、図２に示されるように、広東、河北、河南、広西、四川の５つの省のアクセント付きのマンダリン音響モデルを生成する場合に、収集された上記５つの省の音声サンプルデータを共通のマンダリン音響モデルにそれぞれ入力し、各省の音声サンプルデータに基づいて、共通のマンダリン音響モデルで自己適応訓練をそれぞれ行い、上記５つの省に対応する河南アクセント付きのマンダリン音響モデル、河北アクセント付きのマンダリン音響モデルなどを生成する。

以上により、本発明の一実施形態に係る音声認識処理方法は、全国の全ての地域の音声サンプルデータに基づいて、予め設定された処理モデルで訓練して、共通のマンダリン音響モデルを生成し、各省の音声サンプルデータに基づいて、共通のマンダリン音響モデルで自己適応訓練をそれぞれ行って、各省に対応する方言アクセント付きのマンダリン音響モデルを生成する。これにより、異なる地域のユーザのアクセントの差異に基づいて、方言アクセント付きのマンダリン音響モデルを構築し、音声認識の性能を向上させる。

上記一実施形態に基づいて、音声認識処理方法の実用性をさらに確保するために、各省に対応する方言アクセント付きのマンダリン音響モデルを生成した後、生成された方言アクセント付きの音響モデルの性能を検証することができ、これにより、普通の音響モデルより性能が向上した方言アクセント付きのマンダリン音響モデルのみがオンラインに配置される。

図３は、本発明の他の一実施形態に係る音声認識処理方法のフローチャートである。図３に示されるように、当該方法は、以下のステップＳ３１０と、ステップＳ３２０と、ステップＳ３３０と、ステップＳ３４０とを含む。

ステップＳ３１０において、全国の全ての地域の音声サンプルデータに基づいて、予め設定されたディープニューラルネットワークモデルで訓練して、深層のロング・ショート・ターム・メモリ（ＬＳＴＭ）ユニットに基づくモデル構造を有し、且つ時系列分類フレームワークに結ばれる音響モデルを生成する。

本発明の一実施例においては、ディープニューラルネットワークモデルを予め設定することができ、ディープニューラルネットワークモデルの入力は、単一のフレームまたは複数のフレームによってスティッチングされた音声音響特徴であり、出力はコンテキストに関連する子音・母音ユニットである。すなわち、入力された音響特徴に基づいてコンテキストに関連する子音・母音ユニットを分類して、関連音響モデルを生成する。

具体的には、全国の全ての地域の音声サンプルデータをディープニューラルネットワークモデルに入力して訓練し、入力された音声サンプルデータの音響特徴に基づいて、コンテキストに関連する子音・母音ユニットの分類などを訓練して処理し、深層のロング・ショート・ターム・メモリ（ＬＳＴＭ）ユニットに基づくモデル構造を有し、且つ時系列分類フレームワークに結ばれる音響モデルを生成する。

ステップＳ３２０において、各省の音声サンプルデータに基づいて、共通のマンダリン音響モデルで自己適応訓練をそれぞれ行って、各省に対応する方言アクセント付きのマンダリン音響モデルを生成する。

なお、具体的な応用場面の違いに応じて、複数の種類の自己適応訓練方式を採用して共通のマンダリン音響モデルで自己適応訓練を行ってもよい。

第１実施例としては、比較的低い学習率で基本モデルを最適に調整する自己適応訓練方式を採用して、共通のマンダリン音響モデルで自己適応訓練を行うことができる。

本実施例において、共通のマンダリン音響モデルを最適に調整する場合に、アクセント付きの音声サンプルデータを利用して共通のマンダリン音響モデルで比較的低い学習率で微調整する。

しかし、現在の共通のマンダリン音響モデルのオンラインでのモデルパラメータが大きすぎるため、一般的には小さいデータ量の学習によってモデルがオーバーフィッティングされ易くなり、普及性がよくないため、自己適応訓練を行う場合に、Ｌ２ノルム正則化及びＫＬ分散正則化という自己適応更新方法を用いて自己適応訓練を行うことができる。

ここで、上記２つの自己適応更新方法は、標準クロスエントロピー基準と誤差逆伝播法とを用いて更新することができる。正則化された目的関数は、

に示すことができ、Ｅ（ｗ）は目的関数を示し、ｗはモデルパラメータを示し、ＫＬ分散正則での目的関数は、

に示される。
ここで、

であり、αは、正則化係数を示し、О_ｔは、ｔ番目のフレームのサンプルの特徴を示し、ｑ_ｔは、ｔ番目のフレームのサンプルに対応するマークを示し、Ｗは、モデルパラメータを示し、Ｗ_０は、現在のモデルパラメータを示す。ＫＬ分散正則において、目標の確率表現式は、更新する必要のあるモデルの分布及び自己適応データの本物のマークでの分布の線形補間である。

第２実施例としては、モデルパラメータの一部のみを最適に調整する自己適応訓練方式を用いて共通のマンダリン音響モデルで自己適応訓練を行うことができる。

本実施例において、モデルパラメータの大部分が元の共通のモデルと一致するように保持し、出力層または隠れ層のオフセットのみを調整する。また、更新されたパラメータの規模が大きくないため、一般にはオーバーフィッティングされるのは容易ではない。

具体的な実施プロセスにおいて、出力層のパラメータのみを更新すること、及び特異値分解の方法でディープボトルネック層を追加することを用いて比較的少ないパラメータの自己適応更新を行い、自己適応モデルが更新する必要のあるモデルパラメータ量を減らすことができる。

第３実施例としては、新しい特徴を導入する自己適応訓練方式を用いて、共通のマンダリン音響モデルで自己適応訓練を行うことができる。

本実施例における自己適応訓練方式は、方言アクセントの特殊性を考慮し、声紋及び自己適応訓練において比較的典型的なｉｖｅｃｔｏｒ及びスピーカーコーディングの方式を導入し、方言音声のそれぞれに対して各種類の複雑な情報を含む特徴ベクトルを抽出して入力特徴に加えて自己適応訓練を行う。

そのうち、ｉｖｅｃｔｏｒの抽出において、リアルタイムのｉｖｅｃｔｏｒ抽出法を用いて、実際の復号において各パケットの音声データに対して対応するｉｖｅｃｔｏｒベクトルを抽出して復号する。具体的には、式М＝ｍ＋Ｔ_ｗを用いてｉｖｅｃｔｏｒを抽出することができる。
ただし、Ｍは全ての訓練コーパスの平均スーパーベクトルであり、ｍは現在のパケットデータに累積された目標音声の平均スーパーベクトルであり、Ｔは負荷マトリックスであり、ｗは取得する必要のあるｉｖｅｃｔｏｒである。

現在のコーパスデータにおけるｉｖｅｃｔｏｒを取得した後、各フレーム特徴にｉｖｅｃｔｏｒ特徴をスティッチングして新しい特徴を形成して音響モデルを再訓練する。訓練中に、元のモデルパラメータを変更せず保持して、ｉｖｅｃｔｏｒ特徴部分のモデルパラメータの重みのみを更新して、モデルがオーバーフィッティングされないことを確保するとともに、更新されたモデルが元のモデルより大きく変更されないことを確保し、生成された方言アクセント付きのマンダリン音響モデルの普及効果を確保する。

ステップＳ３３０において、各省の音声テストデータに基づいて、共通のマンダリン音響モデル及び方言アクセント付きのマンダリン音響モデルをそれぞれテストして評価する。

具体的には、生成された各省に対応する方言アクセント付きのマンダリン音響モデルは、共通のマンダリン音響モデルに偏り過ぎておらず、しかも、実際の使用時に、共通のマンダリン音響モデルより方言アクセント付きのマンダリン音響モデルの性能が高くない可能性がある。

従って、オンラインに配置された音響モデルの性能の向上を確保するために、各省の音声テストデータに基づいて、共通のマンダリン音響モデル及び方言アクセント付きのマンダリン音響モデルをそれぞれテストして評価する必要がある。

例えば、共通のマンダリン音響モデル及び河南アクセント付きのマンダリン音響モデルに河南アクセント付きの音声テストデータをそれぞれ入力し、共通のマンダリン音響モデル及び河南アクセント付きのマンダリン音響モデルの音声認識の正確率に基づいてその性能をテストして評価する。

ステップＳ３４０において、共通のマンダリン音響モデルより方言アクセント付きのマンダリン音響モデルの認識性能が高い場合に、方言アクセント付きのマンダリン音響モデルをオンラインに配置する。

具体的には、共通のマンダリン音響モデルより方言アクセント付きのマンダリン音響モデルの認識性能が高い場合に、共通のマンダリン音響モデルにより方言アクセント付きのマンダリン音響モデルが、方言アクセント付きのマンダリンをより正確に認識することができることを表しているので、方言アクセント付きのマンダリン音響モデルをオンラインに配置する。

以上により、本発明の一実施形態に係る音声認識処理方法は、各省の音声テストデータに基づいて、共通のマンダリン音響モデル及び方言アクセント付きのマンダリン音響モデルをそれぞれテストして評価し、共通のマンダリン音響モデルより方言アクセント付きのマンダリン音響モデルの認識性能が高い場合に、方言アクセント付きのマンダリン音響モデルをオンラインに配置する。これにより、共通のマンダリン音響モデルより認識性能が高い方言アクセント付きのマンダリン音響モデルがオンラインに配置され、音声認識処理方法の実用性が確保される。

上記の説明に基づいて、実際の使用中に、方言アクセント付きのマンダリン音響モデルをオンラインに配置した後、複数の種類の方式でユーザが該当する方言アクセントを決定することができ、方言アクセントに対応するマンダリン音響モデルに基づいて、ユーザによって入力された音声情報を認識する。

第１実施例においては、ユーザの個人情報を取得し、個人情報における出生地が属する省に基づいてユーザが該当する方言アクセントを決定して、方言アクセントに対応するマンダリン音響モデルに基づいて、ユーザによって入力された音声情報を認識する。

第２実施例においては、ユーザによって送信された音声認識要求が属するネットワークアドレス情報を取得し、ネットワークアドレス情報が属する省を決定して、ユーザが該当する方言アクセントを取得することにより、方言アクセントに対応するマンダリン音響モデルに基づいてユーザによって入力された音声情報を認識する。

如何にユーザが属する方言アクセントを決定して、方言アクセントに対応するマンダリン音響モデルに基づいてユーザによって入力された音声情報を認識するのかをより明確に説明するために、上記第２実施例に基づく具体的な実施プロセスについて、図４を参照して以下に一例を挙げて説明する。

図４は、本発明の一実施形態の変形例に係る音声認識処理方法のフローチャートである。図４に示されるように、図３に示されるステップＳ３４０の後に、当該方法は、以下のステップＳ４１０と、ステップＳ４２０と、ステップＳ４３０と、ステップＳ４４０と、ステップＳ４５０とを含む。

ステップＳ４１０において、ユーザによって送信されたネットワークアドレス情報付きの音声情報を受信する。
ステップＳ４２０において、ネットワークアドレス情報に基づいてユーザが位置する省の情報を決定する。
具体的には、ユーザによって送信されたネットワークアドレス情報付きの音声情報を受信することができ、ネットワークアドレス情報に基づいてその位置する省を検索して決定することができる。例えば、ネットワークアドレス情報におけるＩＰアドレスに基づいてその属する省の情報を決定することができる。

ステップＳ４３０において、省の情報に対応する方言アクセント付きのマンダリン音響モデルが配置されているか否かを判断する。
ステップＳ４４０において、配置されている場合に、音声データを省の情報に対応する方言アクセント付きのマンダリン音響モデルに入力して音声認識する。
ステップＳ４５０において、配置されていない場合に、音声データを共通のマンダリン音響モデルに入力して音声認識する。

具体的には、ユーザが位置する省の情報を決定した後、省の情報に対応する方言アクセント付きのマンダリン音響モデルが配置されているか否かを判断することができ、配置されている場合に、マンダリン音響モデルより音声認識性能が高い、省の情報に対応する方言アクセント付きのマンダリン音響モデルが存在することを表しているので、音声データを省の情報に対応する方言アクセント付きのマンダリン音響モデルに入力して音声認識する。
配置されていない場合に、マンダリン音響モデルより音声認識性能が高い、省の情報に対応する方言アクセント付きのマンダリン音響モデルが存在しないことを表しているので、音声データを共通のマンダリン音響モデルに入力して音声認識する。

以上により、本発明の一実施形態に係る音声認識処理方法は、ユーザによって送信されたネットワークアドレス情報付きの音声情報に基づいて、ユーザが位置する省の情報を決定し、省の情報に対応する方言アクセント付きのマンダリン音響モデルが配置されている場合に、方言アクセント付きのマンダリン音響モデルを用いてユーザの音声情報を認識する。これにより、音声認識の性能を向上させる。

上記実施形態を実現するために、本発明は、音声認識処理装置をさらに提供する。図５は、本発明の一実施形態に係る音声認識処理装置の概略構成図である。図５に示されるように、当該装置は、第１生成モジュール１０と第２生成モジュール２０とを備える。

ここで、第１生成モジュール１０は、全国の全ての地域の音声サンプルデータに基づいて、予め設定された処理モデルで訓練して、共通のマンダリン音響モデルを生成するためのものである。

さらに、第１生成モジュール１０は、処理モデルにより、音声サンプルデータにおける音声特徴を抽出して、音声特徴を言語基本ユニットにマッピングし、共通のマンダリン音響モデルを生成し、共通のマンダリン音響モデルに基づいて全国のユーザの音声を認識することができる。

第２生成モジュール２０は、各省の音声サンプルデータに基づいて、共通のマンダリン音響モデルで自己適応訓練をそれぞれ行って、各省に対応する方言アクセント付きのマンダリン音響モデルを生成する。

具体的には、実際の使用中に、全国各省の音声サンプルデータを収集して自己適応データとする。そのうち、各省によって収集された音声サンプルデータは、数が相対的に少なく、例えば、数百時間の音声数のレベルである可能性があり、第２生成モジュール２０は、各省によって収集された音声サンプルデータに基づいて、共通のマンダリン音響モデルで自己適応訓練をそれぞれ行い、各省のために自己適応訓練をそれぞれ行って、対応するマンダリン音響モデルを取得する。

なお、一実施形態に係る音声認識処理方法の解釈説明は、本実施形態に係る音声認識処理装置にも適し、その実現原理は類似しているので、ここでは説明を省略する。

以上により、本発明の一実施形態に係る音声認識処理装置は、全国の全ての地域の音声サンプルデータに基づいて、予め設定された処理モデルで訓練して、共通のマンダリン音響モデルを生成し、各省の音声サンプルデータに基づいて、共通のマンダリン音響モデルで自己適応訓練をそれぞれ行って、各省に対応する方言アクセント付きのマンダリン音響モデルを生成する。これにより、異なる地域のユーザのアクセントの差異に基づいて、方言アクセント付きのマンダリン音響モデルを構築し、音声認識の性能を向上させる。

上記実施形態に基づいて、音声認識処理方法の実用性をさらに確保するために、各省に対応する方言アクセント付きのマンダリン音響モデルを生成した後、生成された方言アクセント付きの音響モデルの性能を検証することができる。これにより、普通の音響モデルより性能が向上した方言アクセント付きのマンダリン音響モデルのみがオンラインに配置される。

図６は、本発明の一実施形態の変形例に係る音声認識処理装置の概略構成図である。図６に示されるように、図５に示されるものに加えて、当該装置は、評価モジュール３０と配置モジュール４０とをさらに備える。

ここで、評価モジュール３０は、各省の音声テストデータに基づいて、共通のマンダリン音響モデル及び方言アクセント付きのマンダリン音響モデルをそれぞれテストして評価するためのものである。

配置モジュール４０は、共通のマンダリン音響モデルより方言アクセント付きのマンダリン音響モデルの認識性能が高い場合に、方言アクセント付きのマンダリン音響モデルをオンラインに配置するためのものである。

本発明の一実施形態において、第１生成モジュール１０は、さらに、全国の全ての地域の音声サンプルデータをディープニューラルネットワークモデルに入力して訓練し、入力された音声サンプルデータの音響特徴に基づいて、コンテキストに関連する子音・母音ユニットの分類などを訓練して処理し、深層のロング・ショート・ターム・メモリ（ＬＳＴＭ）ユニットに基づくモデル構造を有し、且つ時系列分類フレームワークに結ばれる音響モデルを生成する。

さらに、第２生成モジュール２０は、比較的小さい学習率で基本モデルを最適に調整する自己適応訓練方式、モデルパラメータの一部のみを最適に調整する自己適応訓練方式、新しい特徴を導入する自己適応訓練方式を用いて共通のマンダリン音響モデルで自己適応訓練を行ってアクセント方言付きのマンダリン音響モデルを生成する。

オンラインに配置された音響モデルの性能の向上を確保するために、評価モジュール３０は、各省の音声テストデータに基づいて、共通のマンダリン音響モデル及び方言アクセント付きのマンダリン音響モデルをそれぞれテストして評価する必要がある。

さらに、共通のマンダリン音響モデルより方言アクセント付きのマンダリン音響モデルの認識性能が高い場合に、共通のマンダリン音響モデルにより方言アクセント付きのマンダリン音響モデルが、方言アクセント付きのマンダリンをより正確に認識することができることを表しているので、配置モジュール４０は、方言アクセント付きのマンダリン音響モデルをオンラインに配置する。

以上により、本発明の一実施形態に係る音声認識処理装置は、各省の音声テストデータに基づいて、共通のマンダリン音響モデル及び方言アクセント付きのマンダリン音響モデルをそれぞれテストして評価し、共通のマンダリン音響モデルより方言アクセント付きのマンダリン音響モデルの認識性能が高い場合に、方言アクセント付きのマンダリン音響モデルをオンラインに配置する。これにより、共通のマンダリン音響モデルより認識性能が高い方言アクセント付きのマンダリン音響モデルがオンラインに配置され、音声認識処理方法の実用性が確保される。

図７は、本発明の一実施形態の変形例に係る音声認識処理装置の概略構成図である。図７に示されるように、図６に示されるものに加えて、当該装置は、受信モジュール５０と、決定モジュール６０と、判断モジュール７０と、処理モジュール８０とをさらに備えている。

ここで、受信モジュール５０は、ユーザによって送信されたネットワークアドレス情報付きの音声情報を受信するためのものである。
決定モジュール６０は、ネットワークアドレス情報に基づいてユーザが位置する省の情報を決定するためのものである。
具体的には、受信モジュール５０は、ユーザによって送信されたネットワークアドレス情報付きの音声情報を受信することができ、決定モジュール６０は、ネットワークアドレス情報に基づいてその位置する省を検索して決定することができる。例えば、ネットワークアドレス情報におけるＩＰアドレスに基づいてその属する省の情報を決定することができる。

判断モジュール７０は、省の情報に対応する方言アクセント付きのマンダリン音響モデルが配置されているか否かを判断するためのものである。
処理モジュール８０は、省の情報に対応する方言アクセント付きのマンダリン音響モデルが配置されている場合に、音声データを省の情報に対応する方言アクセント付きのマンダリン音響モデルに入力して音声認識するためのものである。
処理モジュール８０は、さらに、省の情報に対応する方言アクセント付きのマンダリン音響モデルが配置されていない場合に、音声データを共通のマンダリン音響モデルに入力して音声認識する。

具体的には、ユーザが位置する省の情報を決定した後、判断モジュール７０は、省の情報に対応する方言アクセント付きのマンダリン音響モデルが配置されているか否かを判断することができ、配置されている場合に、マンダリン音響モデルより音声認識性能が高い、省の情報に対応する方言アクセント付きのマンダリン音響モデルが存在することを表しているので、処理モジュール８０は、音声データを省の情報に対応する方言アクセント付きのマンダリン音響モデルに入力して音声認識する。
配置されていない場合に、マンダリン音響モデルより音声認識性能が高い、省の情報に対応する方言アクセント付きのマンダリン音響モデルが存在しないことを表しているので、処理モジュール８０は、音声データを共通のマンダリン音響モデルに入力して音声認識する。

以上により、本発明の一実施形態に係る音声認識処理装置は、ユーザによって送信されたネットワークアドレス情報付きの音声情報に基づいて、ユーザが位置する省の情報を決定し、省の情報に対応する方言アクセント付きのマンダリン音響モデルが配置されている場合に、方言アクセント付きのマンダリン音響モデルを用いてユーザの音声情報を認識する。これにより、音声認識の性能を向上させる。

本発明の説明において、「一実施形態例」、「一部の実施例」、「一例」、「具体的な例」、または「変形例」などの用語を参照した説明は、実施形態または実施例に合わせて説明された具体的な特徴、構成、材料または特性が、本発明の少なくとも一つの実施形態または実施例に含まれることを意味する。本明細書において、上記用語に対する例示的な説明は、必ずしも同じ実施形態または実施例を指すことではない。また、説明された具体的な特徴、構成、材料または特性は、いずれか一つまたは複数の実施形態または実施例において適切に結合することができる。また、互い矛盾しない場合、当業者は、本発明の説明に説明された異なる実施形態及び異なる実施例または実施例における特徴を結合及び組み合わせすることができる。

以上に、本発明の実施例を示して説明したが、なお、上記実施例は、例示するものであり、本発明を限定するものと理解してはいけない。当業者は、本発明の範囲内で上記実施例に対して変更、修正、取り替え及び変形を行うことができる。

Claims

全国の全ての地域の音声サンプルデータに基づいて、予め設定された処理モデルで訓練して、共通のマンダリン音響モデルを生成するステップと、
各省の音声サンプルデータに基づいて、前記共通のマンダリン音響モデルで自己適応訓練をそれぞれ行って、各前記省に対応する方言アクセント付きのマンダリン音響モデルを生成するステップとを含む音声認識処理方法。
全国の全ての地域の前記音声サンプルデータに基づいて、予め設定された前記処理モデルで訓練して、前記共通のマンダリン音響モデルを生成するステップは、
全国の全ての地域の前記音声サンプルデータに基づいて、予め設定されたディープニューラルネットワークモデルで訓練して、深層のロング・ショート・ターム・メモリ（ＬＳＴＭ）ユニットに基づくモデル構造を有し、且つ時系列分類フレームワークに結ばれる音響モデルを生成するステップを含む請求項１に記載の音声認識処理方法。
前記共通のマンダリン音響モデルで前記自己適応訓練をそれぞれ行うステップは、
比較的小さい学習率で基本モデルを最適に調整する自己適応訓練方式、または、
モデルパラメータの一部のみを最適に調整する自己適応訓練方式、または、
新しい特徴を導入する自己適応訓練方式を含む請求項１または請求項２に記載の音声認識処理方法。
各前記省に対応する前記方言アクセント付きのマンダリン音響モデルを生成するステップの後に、
各前記省の音声テストデータに基づいて、前記共通のマンダリン音響モデル及び前記方言アクセント付きのマンダリン音響モデルをそれぞれテストして評価するステップと、
前記共通のマンダリン音響モデルより前記方言アクセント付きのマンダリン音響モデルの認識性能が高い場合に、前記方言アクセント付きのマンダリン音響モデルをオンラインに配置するステップとをさらに含む請求項１から請求項３のいずれかに記載の音声認識処理方法。
前記方言アクセント付きのマンダリン音響モデルをオンラインに配置するステップの後に、
ユーザによって送信されたネットワークアドレス情報付きの音声情報を受信するステップと、
前記ネットワークアドレス情報に基づいて前記ユーザが位置する省の情報を決定するステップと、
前記省の情報に対応する前記方言アクセント付きのマンダリン音響モデルが配置されているか否かを判断するステップと、
配置されている場合に、前記音声情報を前記省の情報に対応する前記方言アクセント付きのマンダリン音響モデルに入力して音声認識するステップと、
配置されていない場合に、前記音声情報を前記共通のマンダリン音響モデルに入力して音声認識するステップとをさらに含む請求項１から請求項４のいずれかに記載の音声認識処理方法。
全国の全ての地域の音声サンプルデータに基づいて、予め設定された処理モデルで訓練して、共通のマンダリン音響モデルを生成する第１生成モジュールと、
各省の音声サンプルデータに基づいて、前記共通のマンダリン音響モデルで自己適応訓練をそれぞれ行って、各前記省に対応する方言アクセント付きのマンダリン音響モデルを生成する第２生成モジュールとを備える音声認識処理装置。
前記第１生成モジュールは、
全国の全ての地域の前記音声サンプルデータに基づいて、予め設定されたディープニューラルネットワークモデルで訓練して、深層のロング・ショート・ターム・メモリ（ＬＳＴＭ）ユニットに基づくモデル構造を有し、且つ時系列分類フレームワークに結ばれる音響モデルを生成する請求項６に記載の音声認識処理装置。
前記第２生成モジュールが前記共通のマンダリン音響モデルで前記自己適応訓練をそれぞれ行うことは、
比較的小さい学習率で基本モデルを最適に調整する自己適応訓練方式、または、
モデルパラメータの一部のみを最適に調整する自己適応訓練方式、または、
新しい特徴を導入する自己適応訓練方式を含む請求項６または請求項７に記載の音声認識処理装置。
各前記省の前記音声テストデータに基づいて、前記共通のマンダリン音響モデル及び前記方言アクセント付きのマンダリン音響モデルをそれぞれテストして評価するための評価モジュールと、
前記共通のマンダリン音響モデルより前記方言アクセント付きのマンダリン音響モデルの認識性能が高い場合に、前記方言アクセント付きのマンダリン音響モデルをオンラインに配置するための配置モジュールとをさらに備える請求項６から請求項８のいずれかに記載の音声認識処理装置。
ユーザによって送信されたネットワークアドレス情報付きの音声情報を受信するための受信モジュールと、
前記ネットワークアドレス情報に基づいて前記ユーザが位置する省の情報を決定するための決定モジュールと、
前記省の情報に対応する前記方言アクセント付きのマンダリン音響モデルが配置されているか否かを判断するための判断モジュールと、
前記省の情報に対応する前記方言アクセント付きのマンダリン音響モデルが配置されている場合に、前記音声情報を前記省の情報に対応する前記方言アクセント付きのマンダリン音響モデルに入力して音声認識するための処理モジュールとを備え、
該処理モジュールが、さらに、前記省の情報に対応する前記方言アクセント付きのマンダリン音響モデルが配置されていない場合に、前記音声情報を前記共通のマンダリン音響モデルに入力して音声認識する請求項６から請求項９のいずれかに記載の音声認識処理装置。
少なくとも１つのプロセッサと、メモリと、少なくとも１つのプログラムとを備えるデバイスであって、
少なくとも１つの前記プログラムが前記メモリに記憶されており、少なくとも１つの前記プロセッサにより実行される場合に、
全国の全ての地域の音声サンプルデータに基づいて、予め設定された処理モデルで訓練して、共通のマンダリン音響モデルを生成するステップと、
各省の音声サンプルデータに基づいて、前記共通のマンダリン音響モデルで自己適応訓練をそれぞれ行って、各前記省に対応する方言アクセント付きのマンダリン音響モデルを生成するステップとが実行されるデバイス。
少なくとも１つのプログラムが記憶されている非揮発性コンピュータ記憶媒体であって、
少なくとも１つの前記プログラムが１つのデバイスにより実行される場合に、該デバイスに、
全国の全ての地域の音声サンプルデータに基づいて、予め設定された処理モデルで訓練して、共通のマンダリン音響モデルを生成するステップと、
各省の音声サンプルデータに基づいて、前記共通のマンダリン音響モデルで自己適応訓練をそれぞれ行って、各前記省に対応する方言アクセント付きのマンダリン音響モデルを生成するステップとを実行させる非揮発性コンピュータ記憶媒体。