JP2010170075A - 情報処理装置、プログラム、および音響モデルを生成する方法 - Google Patents

情報処理装置、プログラム、および音響モデルを生成する方法 Download PDF

Info

Publication number
JP2010170075A
JP2010170075A JP2009165595A JP2009165595A JP2010170075A JP 2010170075 A JP2010170075 A JP 2010170075A JP 2009165595 A JP2009165595 A JP 2009165595A JP 2009165595 A JP2009165595 A JP 2009165595A JP 2010170075 A JP2010170075 A JP 2010170075A
Authority
JP
Japan
Prior art keywords
data set
audio data
acoustic model
voice
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009165595A
Other languages
English (en)
Other versions
JP5326892B2 (ja
Inventor
Nobuyuki Washio
信之 鷲尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2009165595A priority Critical patent/JP5326892B2/ja
Priority to US12/645,476 priority patent/US8290773B2/en
Publication of JP2010170075A publication Critical patent/JP2010170075A/ja
Application granted granted Critical
Publication of JP5326892B2 publication Critical patent/JP5326892B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Abstract

【課題】音声データ中から低い認識率の音声データに類似する音声データを選択する。
【解決手段】情報処理装置30は、不特定多数話者の音声データセット242内の各音声データについて、低認識率話者の音声データセット222における平均的な声に対する類似度S0を求める類似度算出部110と、類似度が選択範囲内となる音声データを選択音声データセット232に保存する音声データ選択部112と、音声データセットと選択音声データセットに保存されている音声データとを用いて、音響モデル330を生成する音響モデル生成部と、を具えている。
【選択図】図2

Description

本発明は、音声認識で使用する音響モデルに関し、特に、音声認識用の音響モデルの生成のための音声データの選択に関する。
音声認識用の音響モデルの生成において、音声データセットとその発話内容を表す正解テキストとを学習用データとして用いて、最尤基準(ML)基準、相互情報量最大化(MMI)基準、最小分類誤り(MCE)基準、単語誤り最小化(MWE)基準又は音素誤り最小化(MPE) 基準などによる学習処理(モデルのパラメータ推定)が行われて音響モデルが生成される。あるいは、音声データセットとその正解テキストとを適応(訓練)用データとして用いて、既存の音響モデルの適応処理が行われる。学習処理および適応処理のいずれの処理においても、学習用または適応用の音声データセットの音声データが良好に認識できるように処理を行って、音響モデルのパラメータを最適化する。
既知の音響モデル作成方法において、音響分析部は、音声データ格納部に格納された音声データから音響特徴量を抽出する。周波数スペクトル伸縮部は、その音響特徴量の周波数スペクトルを周波数軸方向に伸縮する。音響モデル生成部は、その周波数スペクトルが伸縮されたまたは伸縮されない音響特徴量を用いて音響モデルを生成する。従って、その周波数スペクトル伸縮を、例えば成人女性の音声データから擬似的に子供の音声データを得る写像関数を用いた写像で行えば、成人女性の音声データまたは成人女性音響特徴量に基づいて子供音響特徴量を擬似的に増量できる。このようにして、実際の子供の音声データや、実際の不特定話者用の音声データを更に集めなくても、子供の音声データに対応した音響モデルの精度を上げたり、不特定話者用の音響モデルの精度を上げたりできる。
既知の音声認識率推定装置において、CPUは、音声素片を用い音声合成して仮想発声データを生成し、生成された仮想発声データに音環境データを合成して音環境の影響をシミュレートする。音環境データは、各種周囲のノイズデータを保存したもので、仮想発声データに重畳することによって、仮想発声データをより実際の音声出力環境に近付けることができる。CPUは、音環境の影響をシミュレートした仮想発声データを用いて音声認識を行い、音声認識率を推定する。認識率の低い単語は、ユーザが実際に発声した実発声データをマイクにより収録して認識率を推定する一方、認識率の高い単語は音声素片を用いて音声合成した仮想発声データにより認識率を推定することもできる。
既知の音声認識のための話者学習法において、少ない発声で発声内容が認識結果に依存しているかどうかを推定し、依存していないと推定した場合には話者適応学習を行い、依存している場合には話者登録学習を行う。それによって、話者の負担にならない程度の学習発声で、確実に認識率を向上させることができる。
特開2003−255980号公報 特開2005−283646号公報 特開2003−177779号公報
音声認識装置は、少数の特異的な特徴を有する特定の話者の音声データに対して低い認識率を示すことがある。
発明者は、音声認識装置は、初めて使うユーザを含めた様々な話者に対して、安定に高い認識率を実現することが重要であり、低い認識率の話者の存在を減らすため、そのような話者に対する認識率を改善した音響モデルを生成する必要がある、と認識した。発明者は、そのためには、低い認識率の話者の少数の音声データに類似する多数の音声データを用意する必要がある、と認識した。
本発明の実施形態の目的は、音響モデルを生成するために、低い認識率の音声データに類似する音声データを選択することである。
本発明の実施形態の別の目的は、低い認識率の音声データにより適合する音響モデルを生成することである。
本発明の実施形態の1つの観点によれば、情報処理装置は、低認識率話者が発声した音声データを格納する第1の音声データセットと、不特定多数話者の発声した音声データを格納する第2の音声データセットと、その第2の音声データセットの音声データに混合される音声データを格納する第3の音声データセットと、を具え、さらに、その第2の音声データセット内の各音声データについて、その第1の音声データセットにおける平均的な声に対する類似度を求める類似度算出部と、その類似度が選択範囲内となる音声データを選択音声データとしてその第3の音声データセットに保存する音声データ選択部と、その第2の音声データセットとその第3の音声データセットに保存されている音声データとを用いて、第1の音響モデルを生成する音響モデル生成部と、を具えている。
本発明の実施形態によれば、音響モデルを生成するために、低い認識率の音声データに類似する音声データを選択することができ、また低い認識率の音声データにより適合する音響モデルを生成することができる。
図1は、本発明の実施形態による、音響モデルを生成し、生成された音響モデルを用いて音声認識を行うための概略的な構成の一例を示している。 図2は、図1の音声データ選択および音響モデル生成部、およびそれに関する音声データベースおよび音響モデルデータベースのより詳しい構成の一例を示している。 図3Aは、図2または11の混合率決定部によって使用される、認識スコア差または類似度の平均値に対する混合率の関係の例を示している。図3Bは、図2または11の混合率決定部によって使用される、選択音声データのデータ数に対する混合率の関係の別の例を示している。 図4は、図2または11の情報処理装置の音声データ選択および音響モデル生成部によって実行される最適モデル生成のための概略的なフローチャートの一例を示している。 図5は、図2または11の音声選択部によって実行される、図4のステップ600の音声選択のための処理のフローチャートの一例を示している。 図6Aは、図4の音声選択部の類似度算出部およびデータ選択部によって実行される、図5のステップ610の類似度を算出するための処理のフローチャートの一例を示している。 図6Bは、図4の音声選択部の類似度算出部およびデータ選択部によって実行される、図5のステップ610の類似度を算出するための別の処理のフローチャートの一例を示している。 図7は、図2または11の最適モデル生成部によって実行される、図4のステップ700の最適モデル生成のための処理の概略的フローチャートの一例を示している。 図8は、図2または11の音声データ混合部によって実行される、図7のステップ710の音声データ混合のための処理のフローチャートの一例を示している。 図9は、図2または11の音響モデル生成部によって実行される、図7のステップ720の音響モデル生成のための処理のフローチャートの一例を示している。 図10は、図2または11のモデル評価部によって実行される、図7のステップ730の音響モデル評価のための処理のフローチャートの一例を示している。 図11は、図2の実施形態の変形形態の一例を示しており、音声データ選択および音響モデル生成部の装置構成の別の例を示している。
発明の目的および利点は、請求の範囲に具体的に記載された構成要素および組み合わせによって実現され達成される。
前述の一般的な説明および以下の詳細な説明は、典型例および説明のためのものであって、本発明を限定するためのものではない。
本発明の実施形態を、図面を参照して説明する。図面において、同様の構成要素には同じ参照番号が付されている。
図1は、本発明の実施形態による、音響モデルを生成し、生成された音響モデルを用いて音声認識を行うための概略的な構成の一例を示している。
情報処理装置10は、例えば口述筆記、ハンズフリー・コンピューティング、自動音声応答、等に用いられる音声認識機能を含む装置である。情報処理装置30は、情報処理装置10における音声認識に用いられる音響モデルを生成する機能を有する。情報処理装置10および30は、一体化された1つの情報処理装置であってもよい。
情報処理装置10は、プロセッサ12、メモリ20、入力装置28および表示装置29を含んでいる。音声認識部14は、プロセッサ12上にハードウェア(専用集積回路)またはソフトウェア(プログラム)の形態で実装されている。メモリ20は、音響モデル22、プログラムおよびその他のデータを格納している。音声認識部14は、入力音声データを分析する音声分析部16、およびその音声データを音響モデル22と照合する照合部18を含んでいる。メモリ20は、プロセッサ12によって実行される音声認識部14の機能を実現するためのプログラムを格納していてもよい。入力装置28には、キーボード、記憶媒体読取装置、ポインティング・デバイス、音声入力インタフェース等が含まれる。
情報処理装置30は、プロセッサ32、メモリ40、入力装置48および表示装置49を含んでいる。音声分析部36および音声データ選択および音響モデル生成部38は、プロセッサ32上にハードウェア(専用集積回路)またはソフトウェア(プログラム)の形態で実装されている。メモリ40は、音声データベース42、音響モデルデータベース44、プログラムおよびその他のデータ等を格納している。メモリ40は、プロセッサ32によって実行される音声データ選択および音響モデル生成部38の機能を実現するためのプログラムを格納していてもよい。音声データベース42には、音響モデルの生成に用いられるディジタル音声データが格納されている。入力装置48には、キーボード、記憶媒体読取装置、ポインティング・デバイス等が含まれる。音声データベースのサイズが大きい場合、メモリ40の実体は、SDRAMなどの高速な半導体メモリと、ハードディスク・ドライブのような低速だが大容量の外部の二次記憶装置とを組合せてもよい。
情報処理装置10の音響分析部16および情報処理装置30の音響分析部36は、外部または音声データベース42から受け取った音声データから音響的特徴量を抽出する。音響的特徴量として、例えば、音声周波数スペクトルを表現する、MFCC(メル周波数FFT(高速フーリエ変換)ケプストラム)またはLPC(線形予測分析)メルケプストラムがある。
音声データ選択および音響モデル生成部38(328)は、音響分析部36によって抽出された音響的特徴量を用いて音響モデルを生成して、音響モデルデータベース44に格納し、音響モデル22を情報処理装置10に供給し設定する。音響モデル22には、認識単位(例えば、音素、音節、単語)毎に、多量の学習用音声データセットから求めたその音響的特徴量の平均ベクトルを標準パターンとして表現したもの、および統計的特徴量を確率的にモデル化したHMM(Hidden Malkov Model)、等がある。
図2は、図1の音声データ選択および音響モデル生成部38、およびそれに関する音声データベース42および音響モデルデータベース44のより詳しい装置構成(configuration)の一例を示している。
図1の音響モデル22として用いられる標準的な既存の音響モデル(102)は、一般的に、音響モデル生成部(328)によって、不特定多数の話者からなる(即ち、恣意的にデータに偏りを持たせることなく大量に集めた)標準的な学習用音声データセット(242)を用いて生成される。標準的な既存の音響モデルは、学習用音声データセットのうちの標準的なまたは多数派の話者の音声データの特徴を良好に抽出することにより、不特定話者の音声を広く認識可能とするものである。
一方、既存の音響モデル(102)を用いて少数派の特異な音声を持つ話者の音声データを音声認識すると、既存の音響モデル(102)は、汎用的に音声を認識するためのデータを収集したものなので、少数派の特異な音声を持つ話者の音声データの認識率(正解率)が低くなってしまう。一方、音響モデルの学習に用いる音声データを増やすために、単純により多くの不特定多数話者の音声データセットや、より多様な入力系で録音された音声データを含む大量音声データセットを用いて音響モデルを生成したとしても、少数派の特異な特徴を持つ話者の音声の認識率が低い傾向は変わらない。また、少数派の特異な音声を持つ話者の音声データは、一般的に十分な量の収集が困難で、音響モデルの学習に用いるにはデータ数が不十分である。
学習用音声データセット(242)のデータ量が或るレベル以上になると、そのような大量音声データセットの全てのデータを学習用音声データセットとして用いても、生成された音響モデルの性能(正解率)は大差なくなって来る。
発明者は、情報処理装置10における音声認識部14への入力系(マイク位置、マイクの周波数特性、雑音環境)等を考慮して、学習用音声データセット(242)のうちの実際の使用条件に近い音声データの数を増大させことができる、と認識した。また、発明者は、大量音声データセットのうちの実際の使用条件に近い音声データだけをその学習用音声データセットに混合させることができる、と認識した。
発明者は、標準的なまたは多数派の話者の音声だけでなく、少数派の話者の音声をも良好に認識できる音響モデルを生成する必要がある、と認識した。
発明者は、少数派の話者の少数の音声データの特徴に類似した特徴を有する音声データを既存の音声データセットの中から選択して音響モデル生成用の音声データセットに加えて音響モデルを生成すれば、少数派話者の音声認識率を維持しつつ少数派話者の音声認識率が改善される、と認識した。
図2において、図1の音声データ選択および音響モデル生成部38は、プロセッサ32上に実装された音声選択部100および最適モデル生成部300を含んでいる。
音声選択部100は、モデル適応部104、類似度算出部110、およびデータ選択部112を含んでいる。音声選択部100は、音声データベース42中の低認識率話者音声データセット222および学習用音声データ(発声内容を表す正解テキスト付き)242、および音響モデルデータベース44中の標準的な既存の音響モデル102を使用する。
学習用音声データセット242の中の或る音声データは、最適モデル生成部300においてその学習用音声データセット242の音声データに混合または追加される候補となる。即ち、音声選択部100によって選択された学習用音声データセット242中の或る音声データは、最適モデル生成部300において、学習用音声データセット242からの音声データに一部が重複的に追加され、従って増数して適用される。
学習用音声データセット242は、不特定多数話者の発声した学習用音声データのセット(集合体)であり、例えば、標準的な既存の音響モデル102を生成するのに用いられ、そのデータ数は例えば数万個〜数十万個(発声数)である。低認識率話者音声データセット222のデータ数は、少数であり、例えば数十個(発声数)である。低認識率話者音声データセット222の数は、学習用音声データセット242の数よりはるかに少ない。音響モデルとして、例えば、HMMの音響モデル、ニューラル・ネットワークの音響モデル、等が知られている。
学習用音声データセット242の個々の音声データには、データの属性、話者の属性(性別、年齢、身長区分、体重区分)、発声環境、入力系(例えば、マイクロホン)、雑音環境、反響の有無、等の情報が付加されていてもよい。音声データセットは、例えば、データ単位として、音素数毎、音節数毎または単語数毎の音声データのファイルおよび/または正味時間長別の音声データを含んでいる。
低認識率話者音声データセット222には、例えば情報処理装置10の音声認識部14によって認識するのが困難であり、特異的な特徴を有すると想定される一人または数人の話者の少数(ファイル数、データ数)の(例えば数十個の音声データ)の音声データが含まれている。その特異的な特徴とは、例えば、少数派の方言の特徴、少数派の発声法に関する特徴であってもよい。高い音声認識率を示す、学習用音声データセット242に含まれる一般的な特徴を有する話者に適合するだけでなく、低認識率話者音声データセット222に含まれる特異的な特徴を有する話者にも適合する、双方の適用に両立する最適な音響モデル422を生成することが望ましい。そのためには、追加の学習用音声データセットとして少数の低認識率話者音声データセット222を用いるだけでは不充分である。
モデル適応部104は、モデル適応技術(話者適応技術)を用いて、少数の低認識率話者音声データセット222に基づいて既存の音響モデル102を適応することにより修正して、低認識率話者音響モデル106を生成する。そのモデル適応技術は、例えば、MLLR(Maxmum Likelihood Linear Regression)、MAP(Maxmum A Posteriori)または固有声(Eigenvoice)であってもよい。その修正は、例えば、音響モデル102の平均ベクトルまたは分散ベクトルなどのパラメータの移動および/または回転であってもよい。モデル適応部104は、その低認識率話者音響モデル106を音響モデルデータベース44に格納する。例えば、モデル適応部104は、低認識率話者音声データセット222の周波数スペクトルの統計的分布を分析して、既存の音響モデル102と低認識率話者音声データセット222の双方の周波数スペクトルの統計的分布が概ね等しくなるように、既存の音響モデル102のパラメータを修正する。モデル適応部104は、その修正された音響モデルを低認識率話者音響モデル106として設定する。
低認識率話者音響モデル106は、低認識率話者音声データセット222における平均的な声の特徴を表しており、低認識率話者音声データセット222における平均的な声に対する或る音声データの類似度または認識スコアを求めるために使用される。既存の音響モデル102は、その音響モデル102の生成に使用された学習用音声データセット242における平均的な声の特徴を表しており、学習用音声データセット242における平均的な声に対する或る音声データの類似度または認識スコアを求めるために使用される。
類似度算出部110は、音響モデルを用いて音声認識を行う音声認識機能を使用し、または含んでいる。類似度算出部110は、低認識率話者音響モデル106と既存の音響モデル102をそれぞれ用いて、学習用音声データセット242の全ての各音声データをそのテキストに従って音声認識して、それぞれの認識スコア(例えば、対数尤度)S0、S1(0≦S0≦1、0≦S1≦1)を生成する。
次いで、類似度算出部110は、低認識率話者音響モデル106による学習用音声データセット242の各音声データの認識スコアS0と、既存の音響モデル102によるその音声データセット(242)の認識スコアS1とを比較し、その認識スコアの差Sd(=S0−S1)を計算する。類似度算出部110は、その認識スコア差Sdが閾値Sdthより大きい選択範囲にある音声データ(即ち、Sd>Sdth、S0>S1+Sdth)を、相対的に低認識率話者音声データセット222との類似性の高い音声データとしてその識別情報をデータ選択部112に供給する。認識スコア差Sdが大きいということは、その音声データの認識について、既存の音響モデル102よりも低認識利率話者モデル106がより適していることを表している。
代替構成として、類似度算出部110は、低認識率話者音響モデル106による学習用音声データセット242の各音声データの認識スコアS0が閾値S0thより大きい選択範囲にある音声データを、低認識率話者音声データセット222との類似性の高い音声データとしてその識別情報をデータ選択部112に供給してもよい。ここで、閾値S0thは、例えば、音響モデル102を用いた音声データの認識スコアS1の推定平均値S1_avと閾値Sdthの和であってもよい(S0th>S1_av+Sdth)。
データ選択部112は、その識別情報に従って、学習用音声データセット242から対応する音声データ(テキスト付き)を選択して、選択音声データセット232として保存する。選択音声データセット232のデータ数は、低認識率話者音声データセット222のデータ数より充分多く、例えば数百個乃至数千個(発声数)である。それによって、学習用音声データセット242の中から、少数の低認識率話者音声データセット222に類似した学習に必要な量の音声データを選択することができる。
音声認識システムでは、一般に、音声データの発声内容の推定結果(=音声認識結果)の尤もらしさが認識スコアまたは信頼度という数値で表され、最も尤もらしい値の音声データが最大値の認識スコアを有する。
多くの場合、認識スコアは、音響モデルとの照合スコア(テンプレートとの距離や、HMMの出力確率)に基づいて、確率的言語モデルを使っている単語並びの出現確率を言語スコアとして加味し、または、単語の挿入ペナルティなど他の認識率向上のための仕組みを入れる、などして算出される。
従って、音響モデル102の学習が、音声認識スコアに反映され、または、低認識率話者音響モデル106を生成するモデル適応において適応データとして用いた低認識率話者音声データセット222の特徴量空間との距離が、音声認識スコアに反映される。即ち、低認識率話者モデル106を用いた音声認識のスコアは、低認識率話者モデル106の学習用データ又は適応データとして用いた低認識率話者音声データセット222の音の特徴(特徴量空間)と、音声認識された学習用音声データセット242の各音声データの声の特徴との間の類似度を反映する。
また、学習用音声データセット242の正解テキストに従って、即ち、認識語彙の並びが正解テキストと一致するという制約の下で、孤立単語認識を含む連続単語認識を行えば認識スコアへの誤認識の影響を減らすことが可能となり、望ましい。
また、類似度算出部110は、発話内容の認識を目的としていない。従って、既存の音響モデル102と低認識率話者音響モデル106は、情報処理装置10における音声認識に用いるような高精度の音響モデルでなくてよく、モノフォン(monophone、1つの音素を定義したモデル)を使用するなど簡易なモデルを用いてもよい。その高精度の音響モデルは、例えば、トライフォン(triphone、中心音素とその前後音素を考慮したモデル)である。
また、低認識率話者音声データセット222と学習用音声データセット242中の各音声データとの間の類似度の算出には、音声認識以外の手段を用いてもよい。
音響モデルを用いずに、例えば、学習用音声データセット242または適応データとしての低認識率話者音声データセット222の特徴量分布空間、音声データの特徴間の距離を用いることができる。即ち、似ているかどうかの尺度であれば、音響モデルおよびマッチング・アルゴリズムに制約はない。
例えば、音声認識用(最小認識単位、例えば音素単位)の音響モデルを用いずに、より簡素化したGMMモデルにより、学習用音声データセット242、または適応データとしての低認識率話者音声データセット222の特徴量分布空間を表現してもよい。このGMMモデルと、学習用音声データセット242の各音声データとのマッチングを(例えば、ヴィタビ(Viterbi)アルゴリズムなどの動的計画法により)行い、その際の累積尤度を、類似度として利用してもよい。
最適モデル生成部300は、混合音声データセット生成部322、混合率決定部324、音響モデル生成部328、モデル評価部332、およびモデル出力部334を含んでいる。
音響モデル生成部328は、学習のために音声認識機能を使用し、または学習のための音声認識機能を含んでいる。モデル評価部332は、評価のために音声認識機能を使用し、または評価のための音声認識機能を含んでいる。
最適モデル生成部300は、音声データベース42に格納された選択音声データセット(正解テキスト付き)232、学習用音声データ(正解テキスト付き)242、混合音声データセット326および評価用音声データセット(正解テキスト付き)424を使用して、音響モデル330を生成し、再生成する。最適モデル生成部300は、最終的に生成された音響モデル330を、最適な音響モデル422として音響モデルデータベース44に格納する。
但し、低認識率話者音声データセット222、学習用音声データセット242の各データ数の大小関係は、相対的なものであり、実施形態で例示したデータ数に限定されるものではない。
図11は、図2の実施形態の変形形態の一例を示しており、音声データ選択および音響モデル生成部38の装置構成の別の例を示している。
図11の音声選択部100は、音声データベース42中の低認識率話者音声データセット222に加えて大量音声データセット(発声内容を表すテキスト付き)224を使用し、また音響モデルデータベース44中の標準的な既存の音響モデル102を使用する。大量音声データセット(テキスト付き)224は、学習用音声データセット242の音声データに混合または追加される候補となる音声データのセット(組)であり、予め収集された不特定多数の発話者の既存の音声データセットであってもよい。大量音声データセット(テキスト付き)224のデータ数は、例えば数十万個(発声数)である。低認識率話者音声データセット222の数は、大量音声データセット224の数よりはるかに少ない。低認識率話者音声データセット222の数は、大量音声データセット224の数よりはるかに少ない。
大量音声データセット(テキスト付き)224の個々の音声データには、データの属性、話者の属性(性別、年齢、身長区分、体重区分)、発声環境、入力系(例えば、マイクロホン)、雑音環境、反響の有無、等の情報が付加されている。音声データセットは、例えば、データ単位として、音素数毎、音節数毎または単語数毎の音声データのファイルおよび/または正味時間長別の音声データを含んでいる。
類似度算出部110は、低認識率話者音響モデル106と既存の音響モデル102をそれぞれ用いて、大量音声データセット(テキスト付き)224の全ての各音声データをそのテキストに従って音声認識して、それぞれの認識スコア(例えば、対数尤度)S0、S1(0≦S0≦1、0≦S1≦1)を生成する。
次いで、類似度算出部110は、低認識率話者音響モデル106による音声データセット224の各音声データの認識スコアS0と、既存の音響モデル102によるその音声データセット(224)の認識スコアS1とを比較し、その認識スコアの差Sd(=S0−S1)を計算する。類似度算出部110は、その認識スコア差Sdが閾値Sdthより大きい選択範囲にある音声データ(即ち、Sd>Sdth、S0>S1+Sdth)を、相対的に低認識率話者音声データセット222との類似性の高い音声データとしてその識別情報をデータ選択部112に供給する。
代替構成として、類似度算出部110は、低認識率話者音響モデル106による音声データセット224の各音声データの認識スコアS0が閾値S0thより大きい選択範囲にある音声データを、低認識率話者音声データセット222との類似性の高い音声データとしてその識別情報をデータ選択部112に供給してもよい。
データ選択部112は、その識別情報に従って、大量音声データセット(テキスト付き)224から対応する音声データ(テキスト付き)を選択して、選択音声データセット232として保存する。選択音声データセット232のデータ数は、低認識率話者音声データセット222のデータ数より充分多く、例えば数百個乃至数千個(発声数)である。それによって、大量音声データセット(テキスト付き)224の中から、少数の低認識率話者音声データセット222に類似した学習に必要な量の音声データを選択することができる。
低認識率話者モデル106を用いた音声認識のスコアは、低認識率話者モデル106の学習用データまたは適応データとして用いた低認識率話者音声データセット222の声の特徴(特徴量空間)と、音声認識された大量音声データセット224の各音声データの声の特徴との間の類似度を反映する。
また、大量音声データセット224に正解テキストがある場合には、その正解テキストに従って、即ち、認識語彙の並びが正解テキストと一致するという制約の下で、孤立単語認識を含む連続単語認識を行えば認識スコアへの誤認識の影響を減らすことが可能となり、望ましい。
一方、図11の大量音声データセット224に発声内容を表すテキストが付いていない場合でも、類似度算出部110は、連続音節認識などにより、発話内容の推定を同時に行うことによって、類似度として認識スコアを算出することが可能である。
また、低認識率話者音声データセット222と大量音声データセット(テキスト付き)224中の各音声データとの間の類似度の算出には、音声認識以外の手段を用いてもよい。
低認識率話者音声データセット222、大量音声データセット224、学習用音声データセット242の各データ数の大小関係は、相対的なものであり、実施形態で例示したデータ数に限定されるものではない。
図11の音声選択部100および最適モデル生成部300のその他の要素および動作は、図2のものと同様である。
さらに、図2および11を参照すると、混合音声データセット生成部322は、混合率決定部324によって決定または調整された混合率(比率)Rに従って、学習用音声データセット242中の音声データと選択音声データセット232中の音声データとを混合する。さらに、混合音声データセット生成部322は、その混合された混合音声データセット326を音声データベース42に格納する。音響モデル生成部324は、その混合音声データセット326を用いて音響モデルの学習を行い、新しい音響モデル330を生成して音響モデルデータベース44に格納する。
ここで、音声データの混合とは、音声データセット(=混合音声データ326)として、学習用音声データセット242と選択音声データセット232の両方から音声データを抽出して、両音声データが混在するデータセットを作成することを意味する。即ち、混合は、波形データの混合(各音声データの内容のミキシング)または合成を意味するものではない。混合率Rは、例えば、生成された混合音声データセット326のデータ総数における、選択音声データセット232から取り出されて加えられた音声データのデータ総数の比率である。その加えられる音声データの数は、選択音声データセット232のデータ数以下である必要はなく、選択音声データセット232のデータ数より多くてもよい。即ち、選択音声データセット232中の或る音声データが複数回繰り返し取り出されてもよい。
モデル評価部332は、音響モデル330を用いて、不特定多数話者音声を含む評価用音声データセット(正解テキスト付き)424と低認識率話者音声データセット222の各音声データに対して認識処理を行い、認識率を集計し、その音響モデル330の性能を評価する。混合率決定部324は、類似度算出部110からの類似度または認識スコアの差のデータ(Sd)(平均値)および/または選択データ数C、モデル評価部332の評価データ(認識率、等)、および音響モデル330(パラメータ)に基づいて、混合音声データセット326における選択音声データセット232の音声データの混合率Rを修正し再決定する。ここで、選択データ数Cは、選択音声データセット232のデータ数を表す。
混合音声データセット生成部322は、その決定された混合率Rに従って、再度、学習用音声データセット242と選択音声データセット232の音声データを混合し、その混合された混合音声データセット326を音声データベース42に格納する。混合音声データセット生成部322、混合率決定部324、音響モデル生成部328およびモデル評価部332は、音響モデル330として最適な音響モデルが得られるまで、この処理を繰り返す。その後、モデル出力部334は、音響モデル330を最適な音響モデル422として音響モデルデータベース44に格納する。
ここで、最適な音響モデルとは、不特定多数話者音声データを含む評価用音声データセット(正解付き)424に対する認識率A1(0≦A1≦1)と、低認識率話者音声データ222に対する認識率A2(0≦A2≦1)との両方に対して、良好な性能を示したかどうかを表す最適度合いF(A1,A2)を最大化するモデルである。
例えば、最適度合いF(A1,A2)は、認識率A1およびA2の加重平均として次の式で表してもよい。
F(A1,A2)=0.8×A1+0.2×A2
また、認識率A1、A2に対して最低認識率閾値T1、T2をそれぞれ設けてもよい。認識率A1<T1または認識率A2<T2の場合に、最適度合いF(A1,A2)=0と設定することによって、一般的な話者に対する性能が不十分なものや、低認識率話者に対する性能改善が不十分なものを選択しないようにすることが望ましい。
図1において、情報処理装置30の音声データ選択および音響モデル生成部38は、音響モデルデータベース44から最適な音響モデル422を取り出して情報処理装置10に供給する。情報処理装置10のプロセッサ12は、最適な音響モデル422を、適用する音響モデル22としてメモリ20に格納する。その後、音声認識部14は、音響モデル22を用いて入力音声の音声認識を行う。
混合音声データセット生成部322は、選択音声データセット232の少なくとも一部または全ての音声データを取り込み、最初、混合率決定部324から混合率Rの初期値R0を受け取る。次いで、混合音声データセット生成部322は、混合率R=選択音声データの数/(学習用音声データの数+選択音声データの数)となるように、選択音声データセット232中の音声データを必要個数だけ取り込む。そのために、混合音声データセット生成部322は、選択音声データセット232の中の同じ音声データを所定回数だけ繰り返し取り込んでもよい。
図3Aは、図2または11の混合率決定部324によって使用される、認識スコア差または類似度差Sdの平均値Sd_avに対する混合率Rの関係の例(例1)を示している。この例では、選択音声データセット232に関して認識スコア差分Sd(=S0−S1)の平均値Sd_avを算出する。認識スコア差分Sdの平均値Sd_avが大きい場合が、現状の学習用音声データセット242のデータ数に対する選択音声データセット232のデータ数(ファイル数または単位音声データ数)Cは疎の状態であるまたは少ない、と考えられる。従って、混合率決定部324は、選択音声データセット232の混合率Rを相対的に大きくするように、次の式で混合率Rを求める。
R=Sd_av/Smax ×Rmax
ここで、認識スコア差分Smaxは認識スコア差Sdの平均値Sd_avの推定最大値であり、最大混合率Rmaxは混合率Rの最大値である。混合率決定部324によって使用されるこれらのおよびその他のデータおよびパラメータは、メモリ40に格納されていてもよい。
図3Bは、図2または11の混合率決定部324によって使用される、選択音声データセット232のデータ数Cに対する混合率Rの関係の別の例(例2)を示している。この例では、混合率決定部324は、次の式に従って、選択音声データセット232のデータ数Cが少ない場合には選択音声データセット232の混合率Rを大きく設定する。また、混合率決定部324は、選択音声データセット232の数Cが多い場合には、選択音声データセット232の混合率Rを小さく設定する。
R=(1−C/Cmax)×Rmax
ここで、選択音声データセット232の最大数Cmaxは選択音声データセット232のデータ数Cの推定最大値であり、混合率の最大値Rmaxは混合率Rの最大値である。
選択音声データセット232のデータ数Cが少ないということは、低認識率話者音声データセット222の声の特徴と、不特定多数の話者の学習用音声データセット242の声の特徴との間の類似性が相対的に低いことを意味する。従って、低認識率話者音声データセット222の認識率をより高くするために、上述のように混合率Rを大きくするとよい。逆に、選択音声データセット232のデータ数Cが多いということは、低認識率話者音声データセット222の声の特徴と、学習用音声データセット242の声の特徴との間の類似性が相対的に高いことを意味し、従って混合率Rは小さくてよい。
代替構成として、混合率Rを、図3Aと3Bの混合率Rを組み合わせて、例えば次の式で両混合率Rの平均値を求めてもよい。
R=(Sd_av/Smax×Rmax+(1−C/Cmax)×Rmax)/2
混合率最大値Rmax、認識スコア最大値Smax、選択音声データ最大数Cmaxの値は、設計者によって、様々な音声データを低認識率話者音声データセット222として用いて予め試行することによって設定することができ、メモリ40に格納される。
混合率最大値Rmaxは、設計者によって混合率Rの範囲の最大値として予め決定されて、メモリ40に格納される。混合率Rが混合率最大値Rmaxを超えると、既存の評価用音声データセット(正解付き)424に対する音声認識率Dの低下が許容範囲から逸脱すると推定される。
次に、混合率Rの決定方法の例を説明する。音響モデルのユーザは、音響モデル生成部328およびモデル評価部332を起動して、既存の評価用音声データセット424に対する認識率Dの低下が、最適モデル生成部300の設計者が予め決定した許容範囲より低下するまで、減少割合rを徐々に増大させて予備実験を行う。混合率決定部324は、学習用音声データセット242のデータ数Ntを所定の減少割合r%(例えば10%)だけ減らして、新しい学習用音声データの割合(100−r)%として、混合音声データセット生成部322へ供給する。その予備実験における減少割合rの値(<100%、正の値)から、混合率Rの最大値Rmaxを、
Rmax=1−(100−r)/s/100
と決定する。ここで、sは調整係数である。
例えば、減少割合r=20%、調整係数s=1.2とすると、混合率Rの最大値はRmax≒0.33となる。ここで、調整係数s(s≧1)は、減少割合rを混合率最大値Rmaxに変換するための係数である。調整係数sは、ユーザによって予め幾つかの値で試行されて、適切な値が選択されて、メモリ40に格納される。
認識スコアSの最大値Smaxは、予備的な試行において、認識スコア差分Sdの平均値μ=Sd_avおよび標準偏差σから、認識スコアSの最大値Smax=μ+4×σとして求められ、メモリ40に格納される。また、選択音声データセット232の最大数Cmaxは、予備的な試行において、選択音声データセット232のデータ数Cの平均値μ’(=C_av)および標準偏差σ’から、選択音声データセット232のデータ数の最大値Cmax=μ’+4×σ’として求められ、メモリ40に格納される。
例えば、平均値μ=0.02、標準偏差σ=0.01とすると、認識スコアSの最大値Smax=0.06となる。例えば、平均値μ’=300、標準偏差σ’=80とすると、選択音声データセット232の最大データ数Cmax=620となる。ここで、認識スコアの最大値Smax、選択音声データセット232の最大数Cmaxは、推定値であり、スコア差分Sd≧Smax、選択音声データセット232の数C≧Cmaxとなる可能性がある。
従って、予め混合率Rの最大値Rmaxおよび最小値Rmin(>0)を決定し、算出した混合率Rが区間[Rmax,Rmin]の範囲内になるように混合率Rを修正する。
即ち、図3Aの例1では、スコア差分の平均値Sd_av≧Smaxの場合、混合率R=Rmaxである。
図3Bの例2では、選択音声データセット232のデータ数C≧Cmaxの場合、混合率R=Rminである。混合率最小値Rminは、音響モデル学習用の学習用音声データセット242のデータ数Ntについて、
混合率最小値Rmin=1/(Nt+1)
と設定してもよい。
混合率決定部324は、モデル評価部332による評価(認識率)の結果に応じて、混合率Rを更新する。
別の例(例3)として、混合率決定部324は、低認識率話者音声データセット222に対する認識率A%が目標値At%より小さくなるに従って、選択音声データセット232の混合率Rを、より大きな値R’に更新する。
R’=R+(Rmax−R)×(At−A)/α
ここで、Rmaxは混合率Rの最大値であり、認識率Atは認識率Aの目標認識率%、αは調整係数である。
例えば、混合率最大値Rmax=0.3、混合率R=0.1、調整係数α=500、目標認識率At=90%、認識率A=70%の場合、R’=0.108となる。
さらに別の例(例4)として、混合率決定部324は、低認識率話者音声データセット222以外の評価用音声データセット424(入力D)に対する認識率Dの低下が大きいほど、選択音声データセット232の混合率Rを、より小さな値R’に更新する。
R’=R−(R/β)×(Dmax−Dt)
ここで、Dmaxは、モデル評価部332における話者別の音声データの認識率Dの低下の最大値[%]、Dtは認識率Dの低下の許容値[%]であり、βは調整係数(例、500)である。
例えば、混合率R=0.2、調整係数β=100、Dmax=10%、Dt=2%の場合、R’=0.184となる。
なお、目標認識率At、認識率Dの低下の許容値Dtは、情報処理装置10の音声認識部14の設計者によって性能目標として予め決定されて、メモリ40に格納される。調整係数α、βは、混合率Rの更新速度を決めるものであり、設計者によって予め幾つかの値で試行されて適切なものが選択されて、メモリ40に格納される。
混合率Rを更新してもモデル評価部332による音響モデル330の評価(認識率)結果の改善度が所定レベル以上改善されなくなった場合に、混合率決定部324は、最適音響モデル422の生成の処理を終了してもよい。また、音響モデル330の生成が繰り返されてその生成の合計の処理時間が所定の最大処理時間を超えた場合に、混合率決定部324は、最適音響モデル422の生成の処理を終了してもよい。
図4は、図2または11の情報処理装置30の音声データ選択および音響モデル生成部38によって実行される最適モデル生成のための概略的なフローチャートの一例を示している。
図4を参照すると、ステップ600において、音声データ選択および音響モデル生成部38の音声選択部100(図2または11)は、学習用音声データセット242または大量音声データセット224の中から少数の低認識率話者音声データセット222に類似した多数の選択音声データを選択して抽出する。音声選択部100は、その選択さした選択音声データを選択音声データセット232として保存する。
ステップ700において、音声データ選択および音響モデル生成部38の最適モデル生成部300(図2または11)は、可変の混合率Rに従って学習用音声データセット242と選択音声データセット232の音声データを混合して混合音声データセット326として保存する。最適モデル生成部300は、さらに、混合音声データセット326に基づいて音響モデル330を生成し再生成し、最終的に最適な音響モデル422として保存する。
図5は、図2または図11の音声選択部100によって実行される、図4のステップ600の音声選択のための処理のフローチャートの一例を示している。
ステップ602において、音声選択部100は音響モデルデータベース44から既存音響モデル102を読み込む。ステップ604において、音声選択部100は音声データベース42から低認識率話者音声データセット222を読み込む。
ステップ606において、音声選択部100のモデル適応部104は、低認識率話者音声データセット222に基づいて周波数スペクトルに関して既存音響モデル102のパラメータを修正し、それによって既存音響モデル10を低認識率話者音声データセット222に適応化させて、低認識率話者音響モデル106を生成する。
ステップ608において、音声選択部100の類似度算出部110は、図2の学習用音声データセット242(または図11の大量音声データセット224)の中から未処理の1つの音声データを読み込む。次いで、類似度算出部110は、既存音響モデル102と低認識率話者モデル106を用いてその音声データの音声認識をそれぞれ行い、それぞれの認識スコアS0およびS1を類似度として算出する。
ステップ610において、類似度算出部110は、その1つの音声データについて既存音響モデル102と低認識率話者モデル106による認識スコアまたは類似度の差分Sd(=S0−S1)を算出する。データ選択部112は、その認識スコア差Sdに基づいて学習用音声データセット242の中から低認識率話者音声データセット222との類似度が相対的に高い音声データを選択して出力する。
ステップ622において、類似度算出部110は、図11の学習用音声データセット242(または図2の全ての大量音声データセット224)についてステップ608〜610の処理が終了したかどうかを判定する。処理が終了したと判定された場合は、手順は図5のサブルーチンを出る。ステップ622において処理が終了していないと判定された場合は、手順はステップ608に戻る。
図6Aは、図4の音声選択部100の類似度算出部110およびデータ選択部112によって実行される、図5のステップ610の類似度を算出するための処理のフローチャートの一例を示している。
ステップ612において、類似度算出部110は、低認識率話者モデル106を用いて、読み込んだ音声データ(図2の242、または図11の224)(図5、ステップ608)を音声認識し、認識結果が正解の場合はその音声データについて認識スコアS0を算出する。ステップ614において、類似度算出部110は、既存音響モデル102を用いて、その読み込んだ音声データを音声認識し、認識結果が正解の場合はその音声データについて認識スコアS1を算出する。
ステップ616において、類似度算出部110は、低認識率話者音響モデル106によるその音声データの認識スコアS0と、既存音響モデル102によるその音声データの認識スコアS1とを比較し、その認識スコア差Sd=S0−S1を計算する。
ステップ618において、類似度算出部110は、認識スコア差Sdが閾値Sdthより大きいか(Sd>Sdth)どうかを判定する。大きくないと判定された場合は、手順は図6のサブルーチンを出る。
ステップ618において認識スコア差Sdが閾値Sdthより大きいと判定された場合は、手順はステップ620に進む。ステップ620において、データ選択部112は、閾値Sdthより大きい認識スコア差Sdのその音声データを、即ち低認識率話者音声データセット222に相対的により類似している音声データとして選択音声データセット232に追加する。
図6Bは、図4の音声選択部100の類似度算出部110およびデータ選択部112によって実行される、図5のステップ610の類似度を算出するための別の処理のフローチャートの一例を示している。
ステップ613において、類似度算出部110は、低認識率話者モデル106を用いて、読み込んだ音声データ(図2の242、または図11の224)(図5、ステップ608)を音声認識し、認識結果が正解の場合はその音声データについて類似度としての認識スコアS0を算出する。代替構成として、類似度算出部110は、上述したように音声認識以外の手段を用いて、低認識率話者音声データセット222と読み込んだ音声データ(図5、ステップ608)との間の類似度S0を算出してもよい。
ステップ619において、類似度算出部110は、類似度S0が閾値S0thより大きいか(S0>S0th)どうかを判定する。大きくないと判定された場合は、手順は図6のサブルーチンを出る。
ステップ619において類似度S0が閾値S0thより大きいと判定された場合は、ステップ620において、データ選択部112は、閾値S0thより大きい類似度S0のその音声データ(図2の242、または図11の224)を選択音声データセット232に追加する。
図7は、図2または11の最適モデル生成部300によって実行される、図4のステップ700の最適モデル生成のための処理の概略的フローチャートの一例を示している。
ステップ702において、混合率決定部324は、学習用音声データセット242に対する選択音声データセット232の初期の混合率R0を決定する。
ステップ710において、混合音声データセット生成部322は、学習用音声データセット242の少なくとも一部または全ての音声データを取り出して混合音声データセット326に保存する。次いで、混合音声データセット生成部322は、その保存した音声データに対して、混合率決定部324から受け取った混合率Rに従って選択音声データセット232の音声データを混合し保存して、最終的に混合音声データセット326を生成する。混合率Rは、最初は初期の混合率R0である。
ステップ720において、音響モデル生成部328は、混合音声データセット326に基づいて学習処理を行って音響モデル330を生成する。
ステップ730において、モデル評価部332は、音響モデル330を用いて低認識律話者音声データセット222および評価用音声データセット424の各音声データを音声認識して認識率を算出して評価結果データとして生成する。
ステップ752において、混合率決定部324は、音響モデル(330)の生成を終了すべきかどうかを判定する。ステップ752において終了しないと判定された場合は、ステップ754において、混合率決定部324は、モデル評価部332の評価結果に従って新しい混合率Rを決定する。
ステップ752において音響モデルの生成を終了する判定された場合は、ステップ756において、モデル出力部334は、音響モデル330を最適な音響モデル422として出力して音響モデルデータベース44に格納する。その後、手順はこのルーチンを出る。
図8は、図2または11の混合音声データセット生成部322によって実行される、図7のステップ710の音声データ混合のための処理のフローチャートの一例を示している。
ステップ712において、混合音声データセット生成部322は混合率決定部324から選択音声データセット232の現在の混合率Rを受け取る。
ステップ714において、混合音声データセット生成部322は、混合率Rに応じて学習用音声データセット242および選択音声データセット232から音声データを抽出して、混合率Rに従って両音声データを混合して混合音声データセット326を生成する。混合音声データセット生成部322は、混合音声データセット326を音声データベース42に格納する。
図9は、図2または11の音響モデル生成部328によって実行される、図7のステップ720の音響モデル生成のための処理のフローチャートの一例を示している。
ステップ722において、音響モデル生成部328は、音声データベース42から混合音声データセット326を取り出して入力する。
ステップ724において、音響モデル生成部328は、混合音声データセット326を用いて既知の方法で音響モデル330を生成する。
ステップ726において、音響モデル生成部328はその生成した音響モデル330を出力して音響モデルデータベース44に格納する。
図10は、図2または11のモデル評価部332によって実行される、図7のステップ730の音響モデル評価のための処理のフローチャートの一例を示している。
ステップ732において、モデル評価部332は、評価用の言語モデルおよび正解リストが初期化済みかどうかを判定する。初期化済みと判定された場合は、手順はステップ736に進む。
ステップ732において初期化されていないと判定された場合は、ステップ734において、モデル評価部332は、音響モデルデータベース44から評価用の言語モデルおよび正解リストを読み込み、それによって自己を初期化する。
ステップ736において、モデル評価部332は、評価する音響モデル330を音響モデルデータベース44から読み込む。
ステップ738において、モデル評価部332は、低認識率話者音声データセット222(入力A)の各音声データを音声認識し、認識率Aを算出する。
ステップ742において、モデル評価部332は、評価用音声データセット424(入力D)の各音声データを音声認識し、認識率Dを算出する。
ステップ742において、モデル評価部332は、認識率AおよびDと、音響モデル330のデータ(パラメータ)に対するポインタまたは識別情報とを混合率決定部324に供給する。
以上説明した実施形態によれば、標準的なまたは多数派の話者の音声だけでなく、少数派の話者の音声をも良好に認識できる音響モデルが生成される。
以上説明した実施形態は典型例として挙げたに過ぎず、その各実施形態の構成要素を組み合わせること、その変形およびバリエーションは当業者にとって明らかであり、当業者であれば本発明の原理および請求の範囲に記載した発明の範囲を逸脱することなく上述の実施形態の種々の変形を行えることは明らかである。
以上の実施例を含む実施形態に関して、さらに以下の付記を開示する。
(付記1) 低認識率話者が発声した音声データを格納する第1の音声データセットと、
不特定多数話者の発声した音声データを格納する第2の音声データセットと、
前記第2の音声データセットの音声データに追加される音声データを格納する第3の音声データセットと、
前記第2の音声データセット内の各音声データについて、前記第1の音声データセットにおける平均的な声に対する類似度を求める類似度算出部と、
前記類似度が選択範囲内となる音声データを選択音声データとして前記第3の音声データセットに保存する音声データ選択部と、
前記第2の音声データセットと前記第3の音声データセットに保存されている音声データとを用いて、第1の音響モデルを生成する音響モデル生成部と、
を具えることを特徴とする、情報処理装置。
(付記2) 低認識率話者が発声した音声データを格納する第1の音声データセットと、
不特定多数話者の発声した音声データを格納する第2の音声データセットと、
前記第2の音声データセットの音声データに混合される候補となる音声データを格納する第4の音声データセットと、
前記第4の音声データセットから取り出され前記第2の音声データセットの音声データに混合される音声データを格納する第3の音声データセットと、
前記第4の音声データセット内の各音声データについて、前記第1の音声データセットにおける平均的な声に対する類似度を求める類似度算出部と、
前記類似度が選択範囲内となる音声データを選択音声データとして前記第3の音声データセットに保存する音声データ選択部と、
前記第2の音声データセットと前記第3の音声データセットに保存されている音声データとを用いて、第1の音響モデルを生成する音響モデル生成部と、
を具えることを特徴とする、情報処理装置。
(付記3) 前記類似度算出部は、前記第4の音声データセット内の各音声データについて、前記類似度を第1の類似度として求め、前記第2の音声データセットにおける平均的な声に対する第2の類似度を求め、
前記音声データ選択部は、前記第1の類似度と前記第2の類似度の差が選択範囲内となる音声データを前記選択音声データとして前記第3の音声データセットに保存するものであることを特徴とする、付記2に記載の情報処理装置。
(付記4) 前記情報処理装置は、さらに、前記第2の音声データセットを用いて生成された第2の音響モデルと、前記第2の音響モデルを前記第1の音声データセットに対して適応処理して前記低認識率話者用の第3の音響モデルを生成するモデル適応部とを具え、
前記類似度算出部は、前記第3の音響モデルおよび前記第2の音響モデルを用いて前記第2の音声データセット中の各音声データを音声認識してそれぞれの認識スコアを前記第1と第2の類似度として求める音声認識部を含むものであることを特徴とする、付記3に記載の情報処理装置。
(付記5) 前記情報処理装置は、さらに、前記第2の音声データセットの音声データと前記第3の音声データセットの音声データとを混合率に従って混合して第5の音声データセットを生成する混合音声データセット生成部を具え、
前記音響モデル生成部は、前記第5の音声データセットを用いて前記第1の音響モデルを生成するものであることを特徴とする、付記1乃至4のいずれかに記載の情報処理装置。
(付記6) さらに、前記第1の音響モデルを用いた評価用の第6の音声データセットおよび前記第1の音声データセットの各音声データを音声認識して得られるそれぞれの認識率に応じて前記混合率の値を調整する混合率決定部を具えることを特徴とする、付記5に記載の情報処理装置。
(付記7) 前記混合率の値を調整しても前記第1の音響モデルが閾値レベル以上改善されないかまたは前記第1の音響モデルの生成の開始から所定時間が経過した場合には、現在の前記第1の音響モデルを最終的な音響モデルとして決定することを特徴とする、付記5または6に記載の情報処理装置。
(付記8) 前記情報処理装置は、さらに、前記第2の音声データセットの音声データと前記第3の音声データセットの音声データとを混合率に従って混合して第5の音声データセットを生成する混合音声データセット生成部と、前記第1の音響モデルを用いた評価用の第6の音声データセットおよび前記第1の音声データセットの各音声データを音声認識して得られるそれぞれの認識率に応じて前記混合率の値を調整する混合率決定部と、を具え、
前記混合率決定部は、前記第1の類似度と前記第2の類似度の差の平均値の大きさに応じて前記混合率の値を算出し、
前記音響モデル生成部は、前記第5の音声データセットを用いて前記第1の音響モデルを生成するものであることを特徴とする、付記3または4に記載の情報処理装置。
(付記9) 前記混合率決定部は、前記第3の音声データセットのデータ数に応じて前記混合率の値を算出するものであることを特徴とする、付記6乃至8のいずれかに記載の情報処理装置。
(付記10) 前記情報処理装置は、さらに、前記第2の音声データセットを用いて生成された第2の音響モデルと、前記第2の音響モデルを前記第1の音声データセットに対して周波数スペクトルに関して適応処理して前記低認識率話者用の第3の音響モデルを生成するモデル適応部とを具え、
前記類似度算出部は、前記第3の音響モデルを用いて前記第4の音声データセット中の各音声データを音声認識してその認識スコアを前記類似度として求める音声認識部を含むものであることを特徴とする、付記4に記載の情報処理装置。
(付記11) プロセッサとメモリとを有する情報処理装置に用いられるプログラムであって、
前記メモリには、低認識率話者が発声した音声データを格納する第1の音声データセットと、不特定多数話者の発声した音声データを格納する第2の音声データセットと、前記第2の音声データセットの音声データに混合される音声データを格納する第3の音声データセットと、が記憶されており、
前記第2の音声データセット内の各音声データについて、前記第1の音声データセットにおける平均的な声に対する類似度を求めるステップと、
前記類似度が選択範囲内となる音声データを選択音声データとして前記第3の音声データセットに保存するステップと、
前記第2の音声データセットと前記第3の音声データセットに保存されている音声データとを用いて、音響モデルを生成するステップと、
を前記プロセッサに実行させるためのプログラム。
38 音声データ選択および音響モデル生成部
100 音声選択部
102 既存音響モデル
104 モデル適応部
106 低認識率話者音響モデル
110 類似度算出部
112 データ選択部
222 低認識率話者音声データセット
232 選択音声データセット
242 学習用音声データセット
300 最適モデル生成部
322 混合音声データセット生成部
324 混合率決定部
326 混合音声データセット
328 音響モデル生成部
330 音響モデル
332 モデル評価部
334 モデル出力部
422 最適な音響モデル
424 評価用音声データセット

Claims (10)

  1. 低認識率話者が発声した音声データを格納する第1の音声データセットと、
    不特定多数話者の発声した音声データを格納する第2の音声データセットと、
    前記第2の音声データセットの音声データに混合される音声データを格納する第3の音声データセットと、
    前記第2の音声データセット内の各音声データについて、前記第1の音声データセットにおける平均的な声に対する類似度を求める類似度算出部と、
    前記類似度が選択範囲内となる音声データを選択音声データとして前記第3の音声データセットに保存する音声データ選択部と、
    前記第2の音声データセットと前記第3の音声データセットに保存されている音声データとを用いて、第1の音響モデルを生成する音響モデル生成部と、
    を具えることを特徴とする、情報処理装置。
  2. 低認識率話者が発声した音声データを格納する第1の音声データセットと、
    不特定多数話者の発声した音声データを格納する第2の音声データセットと、
    前記第2の音声データセットの音声データに混合される候補となる音声データを格納する第4の音声データセットと、
    前記第4の音声データセットから取り出され前記第2の音声データセットの音声データに混合される音声データを格納する第3の音声データセットと、
    前記第4の音声データセット内の各音声データについて、前記第1の音声データセットにおける平均的な声に対する類似度を求める類似度算出部と、
    前記類似度が選択範囲内となる音声データを選択音声データとして前記第3の音声データセットに保存する音声データ選択部と、
    前記第2の音声データセットと前記第3の音声データセットに保存されている音声データとを用いて、第1の音響モデルを生成する音響モデル生成部と、
    を具えることを特徴とする、情報処理装置。
  3. 前記類似度算出部は、前記第4の音声データセット内の各音声データについて、前記類似度を第1の類似度として求め、前記第2の音声データセットにおける平均的な声に対する第2の類似度を求め、
    前記音声データ選択部は、前記第1の類似度と前記第2の類似度の差が選択範囲内となる音声データを前記選択音声データとして前記第3の音声データセットに保存するものであることを特徴とする、請求項2に記載の情報処理装置。
  4. 前記情報処理装置は、さらに、前記第2の音声データセットを用いて生成された第2の音響モデルと、前記第2の音響モデルを前記第1の音声データセットに対して適応処理して前記低認識率話者用の第3の音響モデルを生成するモデル適応部とを具え、
    前記類似度算出部は、前記第3の音響モデルおよび前記第2の音響モデルを用いて前記第2の音声データセット中の各音声データを音声認識してそれぞれの認識スコアを前記第1と第2の類似度として求める音声認識部を含むものであることを特徴とする、請求項2に記載の情報処理装置。
  5. 前記情報処理装置は、さらに、前記第2の音声データセットの音声データと前記第3の音声データセットの音声データとを混合率に従って混合して第5の音声データセットを生成する混合音声データセット生成部を具え、
    前記音響モデル生成部は、前記第5の音声データセットを用いて前記第1の音響モデルを生成するものであることを特徴とする、請求項1乃至4のいずれかに記載の情報処理装置。
  6. さらに、前記第1の音響モデルを用いた評価用の第6の音声データセットおよび前記第1の音声データセットの各音声データを音声認識して得られるそれぞれの認識率に応じて前記混合率の値を調整する混合率決定部を具えることを特徴とする、請求項5に記載の情報処理装置。
  7. 前記混合率の値を調整しても前記第1の音響モデルが閾値レベル以上改善されないかまたは前記第1の音響モデルの生成の開始から所定時間が経過した場合には、現在の前記第1の音響モデルを最終的な音響モデルとして決定することを特徴とする、請求項5または6に記載の情報処理装置。
  8. 前記情報処理装置は、さらに、前記第2の音声データセットの音声データと前記第3の音声データセットの音声データとを混合率に従って混合して第5の音声データセットを生成する混合音声データセット生成部と、前記第1の音響モデルを用いた評価用の第6の音声データセットおよび前記第1の音声データセットの各音声データを音声認識して得られるそれぞれの認識率に応じて前記混合率の値を調整する混合率決定部と、を具え、
    前記混合率決定部は、前記第1の類似度と前記第2の類似度の差の平均値の大きさに応じて前記混合率の値を算出し、
    前記音響モデル生成部は、前記第5の音声データセットを用いて前記第1の音響モデルを生成するものであることを特徴とする、請求項3または4に記載の情報処理装置。
  9. 前記混合率決定部は、前記第3の音声データセットのデータ数に応じて前記混合率の値を算出するものであることを特徴とする、請求項6乃至8のいずれかに記載の情報処理装置。
  10. プロセッサとメモリとを有する情報処理装置に用いられるプログラムであって、
    前記メモリには、低認識率話者が発声した音声データを格納する第1の音声データセットと、不特定多数話者の発声した音声データを格納する第2の音声データセットと、前記第2の音声データセットの音声データに混合される音声データを格納する第3の音声データセットと、が記憶されており、
    前記第2の音声データセット内の各音声データについて、前記第1の音声データセットにおける平均的な声に対する類似度を求めるステップと、
    前記類似度が選択範囲内となる音声データを選択音声データとして前記第3の音声データセットに保存するステップと、
    前記第2の音声データセットと前記第3の音声データセットに保存されている音声データとを用いて、音響モデルを生成するステップと、
    を前記プロセッサに実行させるためのプログラム。
JP2009165595A 2008-12-26 2009-07-14 情報処理装置、プログラム、および音響モデルを生成する方法 Active JP5326892B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2009165595A JP5326892B2 (ja) 2008-12-26 2009-07-14 情報処理装置、プログラム、および音響モデルを生成する方法
US12/645,476 US8290773B2 (en) 2008-12-26 2009-12-22 Information processing apparatus, method and recording medium for generating acoustic model

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2008332090 2008-12-26
JP2008332090 2008-12-26
JP2009165595A JP5326892B2 (ja) 2008-12-26 2009-07-14 情報処理装置、プログラム、および音響モデルを生成する方法

Publications (2)

Publication Number Publication Date
JP2010170075A true JP2010170075A (ja) 2010-08-05
JP5326892B2 JP5326892B2 (ja) 2013-10-30

Family

ID=42285986

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009165595A Active JP5326892B2 (ja) 2008-12-26 2009-07-14 情報処理装置、プログラム、および音響モデルを生成する方法

Country Status (2)

Country Link
US (1) US8290773B2 (ja)
JP (1) JP5326892B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013083798A (ja) * 2011-10-11 2013-05-09 Nippon Telegr & Teleph Corp <Ntt> 音響モデル適応装置、音響モデル適応方法、およびプログラム
JP2014157323A (ja) * 2013-02-18 2014-08-28 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置、音響モデル学習装置、その方法及びプログラム
JP2014228580A (ja) * 2013-05-20 2014-12-08 日本電信電話株式会社 音声モデル生成装置、方法、プログラム

Families Citing this family (127)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9798653B1 (en) * 2010-05-05 2017-10-24 Nuance Communications, Inc. Methods, apparatus and data structure for cross-language speech adaptation
KR20120046627A (ko) * 2010-11-02 2012-05-10 삼성전자주식회사 화자 적응 방법 및 장치
KR101791907B1 (ko) * 2011-01-04 2017-11-02 삼성전자주식회사 위치 기반의 음향 처리 장치 및 방법
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
KR101961139B1 (ko) * 2012-06-28 2019-03-25 엘지전자 주식회사 이동 단말기 및 그것의 음성 인식 방법
US9495955B1 (en) * 2013-01-02 2016-11-15 Amazon Technologies, Inc. Acoustic model training
CN104969289B (zh) 2013-02-07 2021-05-28 苹果公司 数字助理的语音触发器
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
KR101959188B1 (ko) 2013-06-09 2019-07-02 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
EP3067884B1 (en) * 2015-03-13 2019-05-08 Samsung Electronics Co., Ltd. Speech recognition system and speech recognition method thereof
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) * 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
JP6556575B2 (ja) * 2015-09-15 2019-08-07 株式会社東芝 音声処理装置、音声処理方法及び音声処理プログラム
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US11107461B2 (en) 2016-06-01 2021-08-31 Massachusetts Institute Of Technology Low-power automatic speech recognition device
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
EP3553773B1 (en) * 2018-04-12 2020-06-03 Spotify AB Training and testing utterance-based frameworks
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
KR102637339B1 (ko) * 2018-08-31 2024-02-16 삼성전자주식회사 음성 인식 모델을 개인화하는 방법 및 장치
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
KR102206181B1 (ko) * 2018-12-19 2021-01-22 엘지전자 주식회사 단말기 및 그의 동작 방법
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US10997967B2 (en) * 2019-04-18 2021-05-04 Honeywell International Inc. Methods and systems for cockpit speech recognition acoustic model training with multi-level corpus data augmentation
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
KR102281590B1 (ko) * 2019-07-31 2021-07-29 엘지전자 주식회사 음성인식 성능 향상을 위한 비 지도 가중치 적용 학습 시스템 및 방법, 그리고 기록 매체
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
JP7314079B2 (ja) * 2020-02-21 2023-07-25 株式会社東芝 データ生成装置、データ生成方法およびプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01161399A (ja) * 1987-12-18 1989-06-26 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置における話者適応化方法
JP2000099078A (ja) * 1998-09-24 2000-04-07 Nec Corp 標準パターン学習装置
JP2001013986A (ja) * 1999-06-29 2001-01-19 Nec Corp 音声認識用音響モデルの話者適応装置及び方法
JP2002358093A (ja) * 2001-05-31 2002-12-13 Matsushita Electric Ind Co Ltd 音声認識方法及び音声認識装置及びその記憶媒体

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5737487A (en) * 1996-02-13 1998-04-07 Apple Computer, Inc. Speaker adaptation based on lateral tying for large-vocabulary continuous speech recognition
US6141644A (en) * 1998-09-04 2000-10-31 Matsushita Electric Industrial Co., Ltd. Speaker verification and speaker identification based on eigenvoices
US6253181B1 (en) * 1999-01-22 2001-06-26 Matsushita Electric Industrial Co., Ltd. Speech recognition and teaching apparatus able to rapidly adapt to difficult speech of children and foreign speakers
US6442519B1 (en) * 1999-11-10 2002-08-27 International Business Machines Corp. Speaker model adaptation via network of similar users
US20080147404A1 (en) * 2000-05-15 2008-06-19 Nusuara Technologies Sdn Bhd System and methods for accent classification and adaptation
US6917918B2 (en) * 2000-12-22 2005-07-12 Microsoft Corporation Method and system for frame alignment and unsupervised adaptation of acoustic models
EP1239459A1 (en) * 2001-03-07 2002-09-11 Sony International (Europe) GmbH Adaptation of a speech recognizer to a non native speaker pronunciation
JP3876703B2 (ja) 2001-12-12 2007-02-07 松下電器産業株式会社 音声認識のための話者学習装置及び方法
JP2003255980A (ja) 2002-03-04 2003-09-10 Sharp Corp 音響モデル作成方法、音声認識装置および音声認識方法、音声認識プログラム、並びに、プログラム記録媒体
US7315811B2 (en) * 2003-12-31 2008-01-01 Dictaphone Corporation System and method for accented modification of a language model
JP5230103B2 (ja) * 2004-02-18 2013-07-10 ニュアンス コミュニケーションズ,インコーポレイテッド 自動音声認識器のためのトレーニングデータを生成する方法およびシステム
JP2005283646A (ja) 2004-03-26 2005-10-13 Matsushita Electric Ind Co Ltd 音声認識率推定装置
DE602004023134D1 (de) * 2004-07-22 2009-10-22 France Telecom Spracherkennungsverfahren und -system, das an die eigenschaften von nichtmuttersprachlern angepasst ist
KR100815115B1 (ko) * 2006-03-31 2008-03-20 광주과학기술원 타 언어권 화자 음성에 대한 음성 인식시스템의 성능향상을 위한 발음 특성에 기반한 음향모델 변환 방법 및이를 이용한 장치
US7472061B1 (en) * 2008-03-31 2008-12-30 International Business Machines Corporation Systems and methods for building a native language phoneme lexicon having native pronunciations of non-native words derived from non-native pronunciations

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01161399A (ja) * 1987-12-18 1989-06-26 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置における話者適応化方法
JP2000099078A (ja) * 1998-09-24 2000-04-07 Nec Corp 標準パターン学習装置
JP2001013986A (ja) * 1999-06-29 2001-01-19 Nec Corp 音声認識用音響モデルの話者適応装置及び方法
JP2002358093A (ja) * 2001-05-31 2002-12-13 Matsushita Electric Ind Co Ltd 音声認識方法及び音声認識装置及びその記憶媒体

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013083798A (ja) * 2011-10-11 2013-05-09 Nippon Telegr & Teleph Corp <Ntt> 音響モデル適応装置、音響モデル適応方法、およびプログラム
JP2014157323A (ja) * 2013-02-18 2014-08-28 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置、音響モデル学習装置、その方法及びプログラム
JP2014228580A (ja) * 2013-05-20 2014-12-08 日本電信電話株式会社 音声モデル生成装置、方法、プログラム

Also Published As

Publication number Publication date
US20100169093A1 (en) 2010-07-01
JP5326892B2 (ja) 2013-10-30
US8290773B2 (en) 2012-10-16

Similar Documents

Publication Publication Date Title
JP5326892B2 (ja) 情報処理装置、プログラム、および音響モデルを生成する方法
JP4274962B2 (ja) 音声認識システム
US9043213B2 (en) Speech recognition and synthesis utilizing context dependent acoustic models containing decision trees
US9099082B2 (en) Apparatus for correcting error in speech recognition
US7590537B2 (en) Speaker clustering and adaptation method based on the HMM model variation information and its apparatus for speech recognition
US8301445B2 (en) Speech recognition based on a multilingual acoustic model
JP5459680B2 (ja) 音声処理システム及び方法
US20060129392A1 (en) Method for extracting feature vectors for speech recognition
JP4340685B2 (ja) 音声認識装置及び音声認識方法
Aggarwal et al. Integration of multiple acoustic and language models for improved Hindi speech recognition system
US7574359B2 (en) Speaker selection training via a-posteriori Gaussian mixture model analysis, transformation, and combination of hidden Markov models
JP4836076B2 (ja) 音声認識システム及びコンピュータプログラム
JPWO2007105409A1 (ja) 標準パタン適応装置、標準パタン適応方法および標準パタン適応プログラム
US8078462B2 (en) Apparatus for creating speaker model, and computer program product
Herbig et al. Self-learning speaker identification for enhanced speech recognition
Yamagishi et al. HSMM-based model adaptation algorithms for average-voice-based speech synthesis
JP2008176202A (ja) 音声認識装置及び音声認識プログラム
Sainath et al. An exploration of large vocabulary tools for small vocabulary phonetic recognition
JP6350935B2 (ja) 音響モデル生成装置、音響モデルの生産方法、およびプログラム
US8909518B2 (en) Frequency axis warping factor estimation apparatus, system, method and program
Furui Generalization problem in ASR acoustic model training and adaptation
KR101890303B1 (ko) 가창 음성 생성 방법 및 그에 따른 장치
Shahnawazuddin et al. A fast adaptation approach for enhanced automatic recognition of children’s speech with mismatched acoustic models
Deng et al. Speech Recognition
Suzuki et al. Discriminative re-ranking for automatic speech recognition by leveraging invariant structures

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120405

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121031

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121113

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130115

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130625

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130708

R150 Certificate of patent or registration of utility model

Ref document number: 5326892

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150