JP2012037619A - 話者適応化装置、話者適応化方法および話者適応化用プログラム - Google Patents

話者適応化装置、話者適応化方法および話者適応化用プログラム Download PDF

Info

Publication number
JP2012037619A
JP2012037619A JP2010175568A JP2010175568A JP2012037619A JP 2012037619 A JP2012037619 A JP 2012037619A JP 2010175568 A JP2010175568 A JP 2010175568A JP 2010175568 A JP2010175568 A JP 2010175568A JP 2012037619 A JP2012037619 A JP 2012037619A
Authority
JP
Japan
Prior art keywords
acoustic model
speaker adaptation
speech
speaker
update
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010175568A
Other languages
English (en)
Inventor
Takafumi Koshinaka
孝文 越仲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2010175568A priority Critical patent/JP2012037619A/ja
Publication of JP2012037619A publication Critical patent/JP2012037619A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】話者に過度な労力を課すことなく、音響モデルを話者に十分に適合させ、正確な音声認識を可能にする話者適応化装置を提供する。
【解決手段】音声と音響モデルとの近さに基づいて話者適応化の効果を推定する更新効果推定手段107と、文例を提示する文例提示手段101と、文例に基づいて発声された音声を入力する音声入力手段102と、文例および音声入力手段102が入力した音声を用いて音響モデルの話者適応化処理を行う音響モデル更新手段104とを備え、文例提示手段101は、更新効果推定手段107が推定した話者適応化の効果に基づいて文例を提示することを特徴とする。
【選択図】図9

Description

本発明は、話者適応化装置、話者適応化方法および話者適応化用プログラムに関する。
話者適応化装置の一例が、非特許文献1に記載されている。図2は、非特許文献1に記載されている教師あり話者適応と呼ばれる技術に基づく話者適応化装置の一例を示すブロック図である。
図2に示す例では、話者適応化装置は、文例提示手段201と、音声入力手段202と、文例記憶手段203と、音響モデル更新手段204と、音響モデル記憶手段205と、音声認識手段206と、起動手段207とを含む。
このような構成を有する話者適応化装置は、次のように動作する。すなわち、起動手段207は、ユーザ(話者)から起動の指示を受けて、文例提示手段201に文例提示の指示を出力する。
文例提示手段201は、ディスプレイ装置などの表示装置を備え、文例記憶手段203が記憶する文例データ(以下、単に文例ともいう)をディスプレイ装置などに表示するように制御する。
音声入力手段202は、文例提示手段201が表示する文例を話者が読み上げた音声を取得し、音響モデル更新手段204に出力する。
音響モデル更新手段204は、音声入力手段202から音声データ(以下、単に音声ともいう)を受け取る。また、音響モデル更新手段204は、文例記憶手段203から文例を、音響モデル記憶手段205から音響モデルを抽出する。そして、音響モデル更新手段204は、音響モデルが話者によりよく適合するように、音響モデルを更新し、更新した音響モデルを音響モデル記憶手段205に記録させる。
上述した一連の動作を行った後、音声認識手段206は、話者に適合した音響モデルを音響モデル記憶手段205から抽出する。そして、音声認識手段206は、抽出した音響モデルを用いて、音声入力手段202が入力する音声を正確に認識して認識結果を出力する。
この種の話者適応化装置は、カーナビゲーションシステムなど、音声による操作が可能な情報機器に広く用いられている。
篠田浩一著、「確率モデルによる音声認識のための話者適応化技術」電子情報通信学会論文誌D、第J87−D2巻、第2号、2004年2月1日、371−386頁。
前述した背景技術の問題点は、話者に十分に適合した音響モデルが得られない場合があるということである。
その理由は、話者適応化を行うに際して、どの程度の量の音声を入力する必要があるかが、ユーザ(話者)にはわからないためである。
通常、製品出荷されたばかりの、話者適応化作業を行う前の時点では、音響モデルは、標準的な声質を持つ話者に合わせて用意されている。したがって、話者がたまたま標準的な声質を持っていれば、用意された音響モデルをそのまま用いればよく、話者適応化作業を行う必要はほとんどない。
一方、標準から外れた多くの話者は、話者適応化作業を行う必要がある。また、特殊な声の持ち主は、標準からの外れ度合いに応じて、多くの文例を用いて、話者適応化作業をくり返し行う必要がある。
しかし、音声認識の技術的知識のない一般ユーザは、自分の声が標準的なのかそうでないのかを知らない。話者適応化の手続きは、ユーザ(話者)に労力を課する作業である。そのため、作業の効果があるのかないのかわからないような状況では、労力を払おうと考えるユーザは少ないと考えられる。その結果として、カーナビゲーションシステムなどに備わっている話者適応化の機能は、まったく使われていない、または、一度使ったきり使われないことが多いのが実状である。
そこで、本発明は、話者に過度な労力を課すことなく、音響モデルを話者に十分に適合させ、正確な音声認識を可能にする話者適応化装置を提供することを目的とする。
本発明による話者適応化装置は、音声と音響モデルとの近さに基づいて話者適応化の効果を推定する更新効果推定手段と、文例を提示する文例提示手段と、文例に基づいて発声された音声を入力する音声入力手段と、文例および音声入力手段が入力した音声を用いて音響モデルの話者適応化処理を行う音響モデル更新手段とを備え、文例提示手段は、更新効果推定手段が推定した話者適応化の効果に基づいて文例を提示することを特徴とする。
本発明による話者適応化装置は、音声と音響モデルとの近さに基づいて話者適応化の効果を推定する更新効果推定手段と、文例および文例に基づいて発声された音声を用いて音響モデルの話者適応化処理を行う音響モデル更新手段とを備え、音響モデル更新手段は、更新効果推定手段が推定した話者適応化の効果に基づいて文例および発声された音声の量を決定することを特徴とする。
本発明による話者適応化方法は、音声と音響モデルとの近さに基づいて話者適応化の効果を推定し、効果に基づいて文例を提示し、文例に基づいて発声された音声を入力し、文例および入力した音声を用いて音響モデルの話者適応化処理を行うことを特徴とする。
本発明による話者適応化プログラムは、コンピュータに、音声と音響モデルとの近さに基づいて話者適応化の効果を推定する更新効果推定処理と、効果に基づいて文例を提示する文例提示処理と、文例に基づいて発声された音声を入力する音声入力処理と、文例および入力した音声を用いて音響モデルの話者適応化処理を行う音響モデル更新処理とを実行させることを特徴とする。
本発明によれば、話者に過度な労力を課すことなく、音響モデルを話者に十分に適合させ、正確な音声認識を可能にすることができる。
本発明による話者適応化装置の第1の実施形態の構成例を示すブロック図である。 非特許文献1に記載される教師あり話者適応と呼ばれる技術に基づく話者適応化装置の一例を示すブロック図である。 話者適応化装置の動作例を示す流れ図である。 話者適応化装置の第2の実施形態の構成例を示すブロック図である。 話者適応化装置の第2の実施形態の動作例を示す流れ図である。 尤度の推移を模式的に示した説明図である。 話者適応化装置の第3の実施形態の構成例を示すブロック図である。 モデル空間の一例を示す説明図である。 話者適応化装置の最小の構成例を示すブロック図である。
実施形態1.
次に、本発明の第1の実施形態について図面を参照して説明する。
図1は、本発明による話者適応化装置の第1の実施形態の構成例を示すブロック図である。図1を参照すると、本発明による話者適応化装置の第1の実施形態は、文例提示手段101と、音声入力手段102と、文例記憶手段103と、音響モデル更新手段104と、音響モデル記憶手段105と、音声認識手段106と、更新効果推定手段107とを含む。これらの手段はそれぞれ概略次のように動作する。なお、話者適応化装置は、具体的には、プログラムに従って動作する携帯端末やカーナビゲーション装置などによって実現される。
文例提示手段101は、ディスプレイ装置などの表示装置を備え、文例記憶手段103が記憶する文例を表示装置に表示させるように制御する機能を備えている。
本実施形態において文例とは、任意のテキスト情報である。この文例には、例えば前出のカーナビゲーションシステムで使用する場合、住所(東京都港区南青山)や施設名称(東京ドーム)などが相応しい。また、文例提示手段101は、文例の提示について、テキスト情報をそのままディスプレイ装置に表示させるように制御してもよいし、ディスプレイ装置を具備していないような場合には、テキスト情報をスピーカから音声で再生するなどの方法を用いてもよい。このように、本実施形態では、提示とは、ユーザが認識可能なように、文例をディスプレイ装置に表示することや、スピーカから音声で再生することなどをいう。
音声入力手段102は、マイクロフォンなどのオーディオデバイスを備え、ユーザが発声した音声のアナログ信号を取得し、ディジタル信号に変換する機能を備えている。
音声入力手段102は、変換したディジタル音声を、音声認識または話者適応化の処理をするために出力する。具体的には、音声入力手段102は、音声認識の処理をするために、ディジタル音声を音声認識手段106に出力する。また、音声入力手段102は、話者適応化の処理をするために、ディジタル音声を音響モデル更新手段104に出力する。なお、ここでの音声とは、ユーザが、文例提示手段101が表示装置などに表示させた文例を読み上げたものである。
文例記憶手段103は、具体的には、磁気ディスク装置や光ディスク装置などの記憶装置によって実現される。文例記憶手段103は、文例を記憶する。
音響モデル更新手段104は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。音響モデル更新手段104は、音声入力手段102からディジタル音声を受け取り、文例記憶手段103から対応する文例を抽出する。また、音響モデル更新手段104は、音響モデル記憶手段105から音響モデルを抽出する。そして、音響モデル更新手段104は、例えば非特許文献1に記載の方法を用いて話者適応化処理を実行し、音声に適合するように音響モデルを更新する。その後、音響モデル更新手段104は、更新した音響モデルを音響モデル記憶手段105に記憶させる。
音響モデル記憶手段105は、具体的には、磁気ディスク装置や光ディスク装置などの記憶装置によって実現される。音響モデル記憶手段105は、音響モデルを記憶する。
音声認識手段106は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。音声認識手段106は、音声入力手段102が出力したディジタル音声を受け取り、音声認識処理を実行し、認識結果を出力する機能を備えている。
更新効果推定手段107は、具体的には、プログラムに従って動作する情報処理装置のCPUによって実現される。更新効果推定手段107は、音声認識手段106による音声認識の結果を参照して、文例提示手段101の動作、例えば、文例提示の要否、表示させる文例の個数などを制御する。特に更新効果推定手段107の動作については、以降でフローチャートなども参照して詳しく説明する。
次に、図1および図3を参照して、本実施形態の全体の動作について説明する。図3は、話者適応化装置の動作例を示す流れ図である。
話者適応化作業を行うために、ユーザは、話者適応化装置を起動する。すると、ユーザの操作に従って、文例提示手段101は、文例記憶手段103から文例を抽出し、抽出した文例を表示装置に表示させるように制御する。
次いで、ユーザは、表示装置が表示する文例を、マイクロフォンなどのオーディオデバイスに向かって読み上げる。すると、音声入力手段102は、ユーザが発声した音声をオーディオデバイスから受け取り、受け取った音声をアナログ信号からディジタル信号に変換する。そして、音声入力手段102は、音声のディジタル信号を音声認識手段106に出力する(図3のステップA1)。
次いで、音声認識手段106は、音声のディジタル信号を受け取り、音響モデル記憶手段105が記憶する音響モデルや、図示しない言語モデルや辞書、文法などの情報を参照して、公知の音声認識処理を実行する。そして、音声認識手段106は、認識結果の文字列を出力する。例えば、音声認識手段106は、認識結果を示す文字列を表示装置に表示させるように制御する。
また、音声認識手段106は、音声認識処理の過程で算出した認識結果のスコア(詳細については後述する)を更新効果推定手段107に出力する(ステップA2)。これらのステップは、複数回くり返してもよい。
次いで、更新効果推定手段107は、音声認識手段106から認識結果のスコアを受け取り、話者適応化によって音響モデルを更新することの効果を推定する(ステップA3)。
ここで、スコアとは、認識結果の信頼度、すなわち確からしさを示す量であり、入力音声と音響モデルとの近さを反映した数値となる。例えば、入力音声と音響モデルとの類似度が高い場合に、両者が近いと表現する。また、スコアについては、音声認識処理の過程で副次的に算出できることが知られている。
このスコアが高いほど、入力音声と音響モデルとは近く、現時点で適用中の音響モデルでも、ユーザに対して十分な認識性能を有すると期待できる。逆に、スコアが低い場合には、入力音声と音響モデルとの間には隔たりがあり、音響モデルを更新することにより、より高い認識性能が得られると考えられる。
このスコアを用いて、更新効果推定手段107は、例えば、以下の式(1)を用いて、推定される話者適応化の効果Nを計算する。
N=−aS+b 式(1)
ここで、Sは、第1位の認識結果候補に対応するスコアである。また、aとbとは、話者適応化装置の開発者などが事前に実験的な方法などにより決める定数である(a>0)。
式(1)によれば、第1位の認識結果候補のスコアが低いほど、話者適応化の効果が高いと推定される。なお、式(1)に示したスコアの1次関数による表式はあくまで一例であり、例えば、区分線形関数、高次関数、シグモイド関数など、任意の単調減少(非増加)関数を用いてよい。
また、更新効果推定手段107は、話者適応化の効果Nを、以下の式(2)を用いて計算してもよい。
N=−aS/S+b 式(2)
ここで、Sは、第2位の認識結果候補に対応するスコアである。式(2)によれば、第1位の認識結果候補のスコアが、第2位の認識結果候補のスコアを基準として小さな値をとるほど、話者適応化の効果が高いと推定される。逆に、第2位の認識結果候補のスコアに比べて第1位の認識結果候補のスコアが十分高ければ、話者適応化の効果は低くなる。
なお、式(2)に示したような2つのスコアの組合せは、あくまで一例であり、任意個の候補に対応する任意個のスコアを組み合わせて用いてもよい。また、1次関数による表式も一例に過ぎないことは、式(1)の場合と同様である。
また、近年の音響モデルでは、ガウス混合分布(GMM)に基づく隠れマルコフモデルの形式がとられるが、この場合には、音声認識の結果(スコアS)を陽に用いずに、音響モデルと入力音声との間の類似度を直接計算してもよい。その場合、類似度については、例えば、入力音声の各時刻(フレーム)の特徴量に対する全ガウス分布の対数確率密度の総和などと定義することができる。また、例えば、入力音声から導出されるGMMを求めて、これと音響モデルとの間の類似度を公知のカルバック・ライブラ情報量などから計算することもできる。
このようにすることにより、更新効果推定手段107は、比較的低水準な計算式のみを用いて、少ない計算量で音響モデルと入力音声との近さを測ることができる。
入力音声と音響モデルとの間の類似度を計算する他の方法としては、類似度を話者に係わる成分とそれ以外の成分とに分解して、話者に係わる成分のみを計算する方法が考えられる。このような方法の一例が文献(磯健一、大西祥史著「階層的EigenVoice法による話者適応化」電子情報通信学会論文誌D、第J86−D2巻、第10号、2003年10月1日、1382−1380頁。)に記載されている。
上記文献に記載があるように、音響モデルに含まれるすべてのガウス分布の平均ベクトルを連結した「スーパーベクトル」によって音響モデルを表し、入力音声から導出されるGMMについても同様にスーパーベクトルで表す場合を想定する。この場合、入力音声と音響モデルとの間の類似度については、スーパーベクトル間の近さ(距離の逆数や符号反転など)で測ることができる。
ここで、様々の話者を含む大規模音声データから作成した多数の特定話者音響モデルを事前に用意し、スーパーベクトルで表される音響モデル空間にプロットし、さらに主成分分析などによる次元圧縮を行うと、話者の変動によって張られる部分空間を得ることができる。そして、入力音声から得られるスーパーベクトルをこの部分空間に垂直射影すると、図8に示すように、入力音声と音響モデルとの近さを部分空間上で測ることができる。図8は、モデル空間の一例を示す説明図である。
このようにして計算された入力音声と音響モデルとの間の類似度は、話者に係わる類似性のみを抽出したものであり、余分な雑音成分が排除されているので、話者適応化に適しており、話者適応化の効果をよりよく推定するのに役立つ。
更新効果推定手段107が話者適応化の効果Nを計算すると、文例提示手段101は、更新効果推定手段107から話者適応化の効果Nを受け取り、その大小によって適用中の音響モデルの更新、すなわち話者適応化処理の要否を判定する(ステップA4)。
具体的には、文例提示手段101は、例えばNが正ならば更新が必要、そうでなければ不要と判定する。式(1)、式(2)に含まれる定数a,bは、実験的な方法などにより事前に決めると先に述べたが、より具体的には、ここでの判定が適切に行われるように調節すべきものである。
次いで、文例提示手段101は、ステップA4において音響モデルの更新が必要であると判断した場合(すなわち、話者適応化の効果Nが正の場合)、N個の文例を文例記憶手段103から読み出し、ディスプレイ装置などに表示させるように制御する(ステップA5)。
これは、音響モデルの更新、すなわち話者適応化の効果が高いと見込まれる場合には、多くの文例を用いて話者適応化処理をくり返し行うことが効果的だからである。なお、Nは文例の個数に限定されるものではなく、文例の総文字数、文例の総単語数など、文例の総量を規定する量であれば何でもよい。
また、文例提示手段101は、文例を提示するタイミングを、用途によって適宜制御してよい。例えば、話者適応化装置をカーナビゲーションシステムに適応する場合なら、文例提示手段101は、ユーザが運転中には提示をしないというように動作してもよい。
なお、ステップA4において音響モデルの更新が必要でないと判断した場合、文例提示手段101は、初期状態のステップA1に処理を移行する。
次いで、ユーザは、文例提示手段101がディスプレイ装置などに表示させたN個の文例を、マイクロフォンなどのオーディオデバイスに向けて読み上げる。すると、音声入力手段102は、文例提示手段101が提示したN個の文例に基づいてユーザが発声したN個の音声を、ステップA1と同様に、オーディオデバイスから受け取り、ディジタル信号に変換する。また、音声入力手段102は、変換した音声のディジタル信号を音響モデル更新手段104に出力する(ステップA6)。
なお、仮にNが非常に大きくなった場合や、ユーザが発声困難な状況下にある場合などでは、多数の発声を一度に行うのはユーザにとって負担となる。そのため、実際運用上は、途中で、例えばN’回(N’<N)発声した時点で、以降の発声を取りやめることができるように、ユーザインタフェースを設計するのが現実的である。この場合においても、音声入力手段102がN’個の音声を音響モデル更新手段104に出力することで、本実施形態は何ら問題なく成立する。
最後に、音響モデル更新手段104は、音声入力手段102からN個の音声(発声を中断した場合にはN’個の音声)のディジタル信号を受け取る。また、音響モデル更新手段104は、文例記憶手段103から対応するN個の文例(発声を中断した場合には先頭からN’個分の文例)を抽出する。また、音響モデル更新手段104は、音響モデル記憶手段105から音響モデルを抽出する。そして、音響モデル更新手段104は、例えば、非特許文献1に記載された方法を用いて話者適応化処理を行って、入力音声に適合するように音響モデルを更新する。その後、音響モデル更新手段104は、更新した音響モデルを音響モデル記憶手段105に記憶させる(ステップA7)。
なお、話者適応化装置は、以上述べたステップA1〜A7の動作全体を、必要に応じて、例えば話者適応化の効果Nが正である限り、複数回くり返してもよい。
次に、本実施形態の効果について説明する。
本実施形態では、音響モデル更新手段が、話者適応化により音響モデルを話者に適合させるにあたって、更新効果推定手段が、話者適応化の効果、すなわち、音響モデルが十分に適合するまでにどの程度の量の音声が必要かを、音声認識手段が算出する認識結果のスコア、または音響モデルと入力音声との間の類似度を用いて推定するように構成されている。そのため、話者にどの程度作業すればよいか知らせることで、過度な労力を課すことなく、音響モデルを話者に十分に適合させることができ、正確な音声認識が可能となる。
また、本実施形態ではさらに、音声認識の結果(スコアS)を陽に用いずに、音響モデルと入力音声との間の類似度を直接計算した場合、比較的低水準な計算式のみを用いて、少ない計算量で音響モデルと入力音声との近さを測ることができる。
また、本実施形態ではさらに、多数の特定話者音響モデルが事前に利用できる場合に、更新効果推定手段が、音響モデル空間の、話者の変動に係わる部分空間上で入力音声と音響モデルの間の類似度を計算し、話者適応化の効果を推定するように構成されている。そのため、話者の変動に無関係な成分を排除して話者適応化の効果を適切に推定し、音響モデルを話者に十分に適合させることができ、正確な音声認識が可能となる。
実施形態2.
次に、本発明の第2の実施形態について、図面を参照して説明する。
図4は、話者適応化装置の第2の実施形態の構成例を示すブロック図である。図4を参照すると、本発明による話者適応化装置の第2の実施形態は、文例提示手段401と、音声入力手段402と、文例記憶手段403と、音響モデル更新手段404と、音響モデル記憶手段405と、音声認識手段406と、更新効果推定手段407と、更新履歴記憶手段408とを含む。これらの手段はそれぞれ概略次のように動作する。
文例提示手段401、音声入力手段402、文例記憶手段403、音響モデル記憶手段405、音声認識手段406については、それぞれ第1の実施形態における文例提示手段101、音声入力手段102、文例記憶手段103、音響モデル記憶手段105、音声認識手段106と同様であるため、説明を省略する。
音響モデル更新手段404は、第1の実施形態における音響モデル更新手段104と同様、話者適応化処理を実行し、更新した音響モデルを音響モデル記憶手段405に記憶させる機能を備えている。加えて、本実施形態では、音響モデル更新手段404は、話者適応化処理の結果として得られる、話者適応化処理に用いた音声に対する音響モデルの尤度を、都度、更新履歴記憶手段408に履歴として記憶させる機能を備えている。
更新効果推定手段407は、第1の実施形態における更新効果推定手段107と同様に、音声認識手段406による音声認識の結果を参照する。また加えて、更新効果推定手段407は、音声認識の結果とともに、更新履歴記憶手段408が記憶する尤度の履歴を参照し、文例提示手段401の動作、例えば、文例提示の要否、表示する文例の個数などを制御する。
更新履歴記憶手段408は、具体的には、磁気ディスク装置や光ディスク装置などの記憶装置によって実現される。更新履歴記憶手段408は、話者適応化処理に用いた音声に対する音響モデルの尤度を履歴として記憶する。
次に、図4および図5を参照して、本実施形態の全体の動作について説明する。図5は、話者適応化装置の第2の実施形態の動作例を示す流れ図である。
図5のステップB1、B2については、それぞれ第1の実施形態における図3のステップA1、A2と同様であるため、説明を省略する。
ステップB2の後、更新効果推定手段407は、第1の実施形態と同様、音声認識手段406から認識結果のスコアを受け取る。なお、本実施形態でも、スコアの代わりに、同じく第1の実施形態で述べた音響モデルと入力音声との間の類似度などを用いてもよい。
また、更新効果推定手段407は、音響モデル更新手段404による話者適応化の処理がすでに1回以上行われており、更新履歴記憶手段408に尤度の履歴が存在する場合には、更新履歴記憶手段408より、尤度の履歴を抽出する。更新効果推定手段407は、これらスコアおよび尤度の履歴から、話者適応化処理によって音響モデルを更新することの効果を推定する(ステップB3)。
ここで、更新履歴記憶手段408が記憶する尤度の履歴とは、先にも述べたように、音響モデル更新手段404において話者適応化処理を実行するたびに得られる、音声に対する音響モデルの尤度の履歴である。
通常、1回の話者適応化処理は、公知の最尤推定法法などに基づく反復学習として実現される。学習を反復するごとに尤度は単調に増加する。そして、尤度の上昇が飽和した時点で、1回の話者適応化処理は完了する。
図6は、音声入力手段402からN1,N2,N3,N4個の音声を順次追加して、音響モデル更新手段40にて話者適応化をくり返した場合の尤度の推移を模式的に示した図である。各回の話者適応化における反復学習では、尤度は単調に増加する。そして、上昇が飽和した時点で話者適応化処理は完了となる。そのときの尤度をL1,L2,L3,L4とする。話者適応化処理の完了後に新たな音声を追加すると、尤度は一時的に低下し、反復学習により回復する。
ただしその場合、前回の話者適応化よりも多くの音声データに対して適応化しなければならないため、前回の話者適応化処理における尤度よりも低い尤度で飽和するのが普通である(Li≧Li+1)。
更新効果推定手段407は、更新履歴記憶手段408に、追加した音声の量N1,N2,N3,N4および、これらに対応する尤度L2,L3,L4を記憶させる。
なお、話者適応化の方法や音響モデルの形式によっては、反復学習を必要としない場合もあり得るが、そのような場合でも、各回の話者適応化において、尤度、または学習の進行度合いを表す適当な量が定義できる。よって、上記と同様、NiとLiとの対を更新履歴記憶手段408に記憶させるように動作させることが可能である。
更新効果推定手段407はさらに、話者適応化によって音響モデルを更新することの効果Nを計算する。ここでNは、第1の実施形態と同様、次の話者適応化に向けて文例提示手段401が表示する文例の個数など、文例の総量を規定する量である。更新効果推定手段407は、Nの計算を、例えば次の式(3)に従って行えばよい。
Figure 2012037619
ここでの、Sは、第1の実施形態と同じく、第1位の認識結果に対応するスコアである。N’,L’は、それぞれ、直前の話者適応化処理に際して入力した音声のデータ量(個数)、話者適応化後の尤度である。L”は、直前の話者適応化処理の前の話者適応化処理後の尤度である。また、a,b,cは、話者適応化装置の開発者などが事前に実験的な方法などにより決める定数である(a>0,c>0)。
なお、過去に行った話者適応化の回数が2回に満たない場合には、式(3)の右辺第3項は計算できないので、更新効果推定手段407は、第1の実施形態で示した式(1)に従ってNを計算することとする。
式(3)では、第1位の認識結果のスコアが低いほど、Nが大きくなるという第1の実施形態と同様の性質に加えて、話者適応化処理の反復による尤度の減少幅が大きいほど、Nが大きくなるという性質が備わる。つまり、スコアと尤度という2種類の情報を併用することにより、話者適応化の効果をより正確に推定することができる。
なお、第1の実施形態における式(1)と同様、式(3)に示したスコアの1次関数による表式はあくまで一例であり、区分線形関数、高次関数、シグモイド関数など、任意の単調減少(非増加)関数を用いてよい。
また、第1の実施形態における式(2)で示したように、第2位以下の認識結果候補のスコアを複数組み合わせてNを計算するようにしてもよい。または、認識結果のスコアの代わりに、音響モデルと入力音声との間の類似度を直接計算して用いてもよい。
また、音響モデル更新の履歴についても、式(3)では直近の2回の話者適応化の履歴(N’,L’,L”)を用いてNを計算しているが、より古い過去の履歴も用いてNを計算することも可能である。
以降のステップB4、B5、B6およびB7については、第1の実施形態におけるステップA4、A5、A6およびA7と同様であるため、説明を省略する。
最後に、音響モデル更新手段404は、再度の話者適応化処理を行う際に必要となる、話者適応化処理に新たに用いた音声のデータ量(個数)および話者適応化処理後に得られた尤度を、更新履歴記憶手段408に記憶させる(ステップB8)。
なお、話者適応化装置は、以上述べたステップB1〜B8の動作全体を、必要に応じて、例えば話者適応化の効果Nが正である限り、複数回くり返してもよい。
次に、本実施形態の効果について説明する。
本実施形態では、音響モデル更新手段が、話者適応化により音響モデルを話者に適合させるにあたって、更新効果推定手段が、話者適応化の効果、すなわち、音響モデルが十分に適合するまでにどの程度の量の音声が必要かを、過去の話者適応化の履歴を併せて用いて推定するように構成されている。そのため、話者適応化の効果をより正確に推定し、話者にどの程度作業すればよいか知らせることで、過度な労力を課すことなく、音響モデルを話者に十分に適合させることができ、正確な音声認識が可能となる。
実施形態3.
次に、本発明の第3の実施形態について、図面を参照して説明する。
図7は、話者適応化装置の第3の実施形態の構成例を示すブロック図である。図7を参照すると、本発明の第3の実施形態は、第1の実施形態をプログラムにより構成した場合に、そのプログラムに従って動作するコンピュータの構成図である。
本実施形態では、データ処理装置72は、話者適応化用プログラム71を読み込み、話者適応化用プログラム71に従って動作する。データ処理装置72は、話者適応化用プログラム71に従って、記憶装置73内の文例記憶手段731、音響モデル記憶手段732にそれぞれ記録された文例、音響モデルを参照し、第1の実施形態における文例提示手段101、音声入力手段102、音響モデル更新手段104、音声認識手段106、更新効果推定手段107による処理と同一の処理を実行する。
次に、本実施形態の効果について説明する。
本実施形態では、音響モデル更新手段が、話者適応化により音響モデルを話者に適合させるにあたって、更新効果推定手段が、話者適応化の効果、すなわち、音響モデルが十分に適合するまでにどの程度の量の音声が必要かを、音声認識手段が算出する認識結果のスコア、または音響モデルと入力音声との間の類似度を用いて推定するように構成されている。そのため、話者にどの程度作業すればよいか知らせることで、過度な労力を課すことなく、音響モデルを話者に十分に適合させることができ、正確な音声認識が可能となる。
なお、本実施形態では、第1の実施形態の構成要素による処理を実行するが、さらに第2の実施形態の構成要素による処理を実行するようにしてもよい。
以上のように、本発明は、話者適応化装置、話者適応化方法および話者適応化用プログラムに関し、特に、ある話者の音声を用いて話者に対する音声認識の性能を向上させる話者適応化装置、話者適応化方法および話者適応化用プログラムに関する。
また、本発明の効果は、教師あり話者適応化において、音響モデルを話者に十分に適合させることができ、正確な音声認識が可能となることにある。
その理由は、音響モデル更新手段が、話者適応化により音響モデルを目的の話者に適合させるにあたって、更新効果推定手段が、十分に適合するまでにどの程度の量の音声入力が必要かを推定するように動作するためである。
次に、本発明による話者適応化装置の最小構成について説明する。図9は、話者適応化装置の最小の構成例を示すブロック図である。図9に示すように、話者適応化装置は、最小の構成要素として、更新効果推定手段107と、文例提示手段101と、音声入力手段102と、音響モデル更新手段104とを含む。
図9に示す最小構成の話者適応化装置では、更新効果推定手段107が、音声と音響モデルとの近さに基づいて話者適応化の効果を推定すると、文例提示手段101は、更新効果推定手段107が推定した話者適応化の効果に基づいて文例を提示する。次いで、音声入力手段102が、文例に基づいてユーザが発声する音声を入力すると、音響モデル更新手段104は、文例および入力した音声を用いて音響モデルの話者適応化処理を行う。
従って、最小構成の話者適応化装置によれば、話者にどの程度作業すればよいか知らせることで、過度な労力を課すことなく、音響モデルを話者に十分に適合させることができ、正確な音声認識が可能となる。
なお、本実施形態では、以下の(1)〜(8)に示すような話者適応化装置の特徴的構成が示されている。
(1)話者適応化装置は、音声(例えば、音声のディジタル信号)と音響モデルとの近さに基づいて話者適応化の効果(例えば、効果N)を推定する更新効果推定手段(例えば、更新効果推定手段107)と、文例を提示する文例提示手段(例えば、文例提示手段101)と、文例に基づいて発声された音声を入力する音声入力手段(例えば、音声入力手段102)と、文例および音声入力手段が入力した音声を用いて音響モデルの話者適応化処理を行う音響モデル更新手段(例えば、音響モデル更新手段104)とを備え、文例提示手段は、更新効果推定手段が推定した話者適応化の効果に基づいて文例を提示することを特徴とする。
(2)話者適応化装置において、音声入力手段が入力する音声を認識する音声認識手段(例えば、音声認識手段106)を備え、更新効果推定手段は、音声認識手段が出力する少なくとも1つの認識結果の信頼度を用いて、音声と音響モデルとの近さを計算するように構成されていてもよい。
(3)話者適応化装置において、更新効果推定手段は、音声と音響モデルとの近さを、音声および音響モデルの音響モデル空間上(例えば、図8に示すモデル空間)での類似度として計算するように構成されていてもよい。
(4)話者適応化装置において、更新効果推定手段は、音響モデル空間に含まれる、話者の変動に係わる部分空間(例えば、図8に示す部分空間)上に、音声および音響モデルを射影し、部分空間上で、音声および音響モデルの類似度を計算するように構成されていてもよい。
(5)話者適応化装置において、音響モデル更新手段が話者適応化処理を行うごとに、話者適応化処理に用いた音声データ量と、音声データに対する音響モデルの尤度とを履歴として記憶する更新履歴記憶手段(例えば、更新履歴記憶手段408)を備え、更新効果推定手段は、更新履歴記憶手段が記憶する音声データ量および尤度の履歴を用いて、話者適応化の効果を推定するように構成されていてもよい。
(6)話者適応化装置において、更新効果推定手段は、更新履歴記憶手段が記憶する履歴から、過去の話者適応化処理で得られた尤度の差分を計算し、過去の話者適応化処理で用いた音声データ量に比して差分が大きい場合に、話者適応化処理の効果が高いと推定するように構成されていてもよい。
(7)話者適応化装置において、文例提示手段は、更新効果推定手段が推定した話者適応化の効果を、提示する文例の量として用いるように構成されていてもよい。
(8)話者適応化装置(例えば、データ処理装置72によって実現される)は、音声と音響モデルとの近さに基づいて話者適応化の効果を推定する更新効果推定手段と、文例および文例に基づいて発声された音声を用いて音響モデルの話者適応化処理を行う音響モデル更新手段とを備え、音響モデル更新手段は、更新効果推定手段が推定した話者適応化の効果に基づいて文例および発声された音声の量を決定することを特徴とする。
上記の実施形態の一部又は全部は、以下の付記のようにも記載され得るが、以下には限られない。
(付記1)音声と音響モデルとの近さに基づいて話者適応化の効果を推定する更新効果推定手段と、文例を提示する文例提示手段と、前記文例に基づいて発声された音声を入力する音声入力手段と、前記文例および前記音声入力手段が入力した音声を用いて音響モデルの話者適応化処理を行う音響モデル更新手段とを備え、前記文例提示手段は、前記更新効果推定手段が推定した前記話者適応化の効果に基づいて前記文例を提示することを特徴とする話者適応化装置。
(付記2)更新効果推定手段は、音声と音響モデルとの近さを計算し、前記音声と前記音響モデルとの近さが低い値を示した場合に、話者適応化の効果が高いと推定することを特徴とする付記1記載の話者適応化装置。
(付記3)音声入力手段が入力する音声を認識する音声認識手段を備え、更新効果推定手段は、前記音声認識手段が出力する少なくとも1つの認識結果の信頼度を用いて、前記音声と音響モデルとの近さを計算することを特徴とする付記2記載の話者適応化装置。
(付記4)更新効果推定手段は、音声と音響モデルとの近さを、前記音声および音響モデルの音響モデル空間上での類似度として計算することを特徴とする付記2記載の話者適応化装置。
(付記5)更新効果推定手段は、音響モデル空間に含まれる、話者の変動に係わる部分空間上に、前記音声および音響モデルを射影し、前記部分空間上で、前記音声および音響モデルの類似度を計算することを特徴とする付記4記載の話者適応化装置。
(付記6)音響モデル更新手段が話者適応化処理を行うごとに、前記話者適応化処理に用いた音声データ量と、前記音声データに対する音響モデルの尤度とを履歴として記憶する更新履歴記憶手段を備え、更新効果推定手段は、前記更新履歴記憶手段が記憶する前記音声データ量および尤度の履歴を用いて、話者適応化の効果を推定することを特徴とする付記1ないし付記5のうちのいずれかに記載の話者適応化装置。
(付記7)更新効果推定手段は、更新履歴記憶手段が記憶する履歴から、過去の話者適応化処理で得られた尤度の差分を計算し、過去の話者適応化処理で用いた音声データ量に比して前記差分が大きい場合に、話者適応化の効果が高いと推定することを特徴とする付記6記載の話者適応化装置。
(付記8)文例提示手段は、更新効果推定手段が推定した話者適応化の効果を、提示する文例の量として用いることを特徴とする付記1ないし付記7のうちのいずれかに記載の話者適応化装置。
本発明は、カーナビゲーションシステムなどの車載端末、携帯電話やスマートフォンなどの個人用携帯端末、コンビニエンスストアの在庫管理などに使用する業務端末、AV機器操作用リモコン、IT住宅の操作端末など、音声による操作が可能で、特定のユーザが使用することが想定される情報機器に広く適用できる。
101 文例提示手段
102 音声入力手段
103 文例記憶手段
104 音響モデル更新手段
105 音響モデル記憶手段
106 音声認識手段
107 更新効果推定手段
201 文例提示手段
202 音声入力手段
203 文例記憶手段
204 音響モデル更新手段
205 音響モデル記憶手段
206 音声認識手段
207 起動手段
401 文例提示手段
402 音声入力手段
403 文例記憶手段
404 音響モデル更新手段
405 音響モデル記憶手段
406 音声認識手段
407 更新効果推定手段
408 更新履歴記憶手段
71 話者適応化用プログラム
72 データ処理装置
73 記憶装置
731 文例記憶手段
732 音響モデル記憶手段

Claims (10)

  1. 音声と音響モデルとの近さに基づいて話者適応化の効果を推定する更新効果推定手段と、
    文例を提示する文例提示手段と、
    前記文例に基づいて発声された音声を入力する音声入力手段と、
    前記文例および前記音声入力手段が入力した音声を用いて音響モデルの話者適応化処理を行う音響モデル更新手段とを備え、
    前記文例提示手段は、前記更新効果推定手段が推定した前記話者適応化の効果に基づいて前記文例を提示する
    ことを特徴とする話者適応化装置。
  2. 音声入力手段が入力する音声を認識する音声認識手段を備え、
    更新効果推定手段は、前記音声認識手段が出力する少なくとも1つの認識結果の信頼度を用いて、前記音声と音響モデルとの近さを計算する
    ことを特徴とする請求項1記載の話者適応化装置。
  3. 更新効果推定手段は、音声と音響モデルとの近さを、前記音声および音響モデルの音響モデル空間上での類似度として計算する
    ことを特徴とする請求項1記載の話者適応化装置。
  4. 更新効果推定手段は、音響モデル空間に含まれる、話者の変動に係わる部分空間上に、前記音声および音響モデルを射影し、前記部分空間上で、前記音声および音響モデルの類似度を計算する
    ことを特徴とする請求項3記載の話者適応化装置。
  5. 音響モデル更新手段が話者適応化処理を行うごとに、前記話者適応化処理に用いた音声データ量と、前記音声データに対する音響モデルの尤度とを履歴として記憶する更新履歴記憶手段を備え、
    更新効果推定手段は、前記更新履歴記憶手段が記憶する前記音声データ量および尤度の履歴を用いて、話者適応化の効果を推定する
    ことを特徴とする請求項1から請求項4のうちのいずれか1項に記載の話者適応化装置。
  6. 更新効果推定手段は、更新履歴記憶手段が記憶する履歴から、過去の話者適応化処理で得られた尤度の差分を計算し、過去の話者適応化処理で用いた音声データ量に比して前記差分が大きい場合に、話者適応化の効果が高いと推定する
    ことを特徴とする請求項5記載の話者適応化装置。
  7. 文例提示手段は、更新効果推定手段が推定した話者適応化の効果を、提示する文例の量として用いる
    ことを特徴とする請求項1から請求項6のうちのいずれか1項に記載の話者適応化装置。
  8. 音声と音響モデルとの近さに基づいて話者適応化の効果を推定する更新効果推定手段と、
    文例および前記文例に基づいて発声された音声を用いて音響モデルの話者適応化処理を行う音響モデル更新手段とを備え、
    前記音響モデル更新手段は、前記更新効果推定手段が推定した前記話者適応化の効果に基づいて前記文例および前記発声された音声の量を決定する
    ことを特徴とする話者適応化装置。
  9. 音声と音響モデルとの近さに基づいて話者適応化の効果を推定し、
    前記効果に基づいて文例を提示し、
    前記文例に基づいて発声された音声を入力し、
    前記文例および前記入力した音声を用いて前記音響モデルの話者適応化処理を行う
    ことを特徴とする話者適応化方法。
  10. コンピュータに、
    音声と音響モデルとの近さに基づいて話者適応化の効果を推定する更新効果推定処理と、
    前記効果に基づいて文例を提示する文例提示処理と、
    前記文例に基づいて発声された音声を入力する音声入力処理と、
    前記文例および前記入力した音声を用いて前記音響モデルの話者適応化処理を行う音響モデル更新処理とを
    実行させるための話者適応化用プログラム。
JP2010175568A 2010-08-04 2010-08-04 話者適応化装置、話者適応化方法および話者適応化用プログラム Pending JP2012037619A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010175568A JP2012037619A (ja) 2010-08-04 2010-08-04 話者適応化装置、話者適応化方法および話者適応化用プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010175568A JP2012037619A (ja) 2010-08-04 2010-08-04 話者適応化装置、話者適応化方法および話者適応化用プログラム

Publications (1)

Publication Number Publication Date
JP2012037619A true JP2012037619A (ja) 2012-02-23

Family

ID=45849700

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010175568A Pending JP2012037619A (ja) 2010-08-04 2010-08-04 話者適応化装置、話者適応化方法および話者適応化用プログラム

Country Status (1)

Country Link
JP (1) JP2012037619A (ja)

Cited By (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013083798A (ja) * 2011-10-11 2013-05-09 Nippon Telegr & Teleph Corp <Ntt> 音響モデル適応装置、音響モデル適応方法、およびプログラム
JP2020201445A (ja) * 2019-06-13 2020-12-17 株式会社日立製作所 計算機システム、モデル生成方法及びモデル管理プログラム
US10978090B2 (en) 2013-02-07 2021-04-13 Apple Inc. Voice trigger for a digital assistant
US10984798B2 (en) 2018-06-01 2021-04-20 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11009970B2 (en) 2018-06-01 2021-05-18 Apple Inc. Attention aware virtual assistant dismissal
US11037565B2 (en) 2016-06-10 2021-06-15 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US11070949B2 (en) 2015-05-27 2021-07-20 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on an electronic device with a touch-sensitive display
US11087759B2 (en) 2015-03-08 2021-08-10 Apple Inc. Virtual assistant activation
US11120372B2 (en) 2011-06-03 2021-09-14 Apple Inc. Performing actions associated with task items that represent tasks to perform
US11126400B2 (en) 2015-09-08 2021-09-21 Apple Inc. Zero latency digital assistant
US11133008B2 (en) 2014-05-30 2021-09-28 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US11152002B2 (en) 2016-06-11 2021-10-19 Apple Inc. Application integration with a digital assistant
WO2021215352A1 (ja) * 2020-04-21 2021-10-28 株式会社Nttドコモ 音声データ作成装置
US11169616B2 (en) 2018-05-07 2021-11-09 Apple Inc. Raise to speak
US11237797B2 (en) 2019-05-31 2022-02-01 Apple Inc. User activity shortcut suggestions
US11257504B2 (en) 2014-05-30 2022-02-22 Apple Inc. Intelligent assistant for home automation
US11321116B2 (en) 2012-05-15 2022-05-03 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US11348582B2 (en) 2008-10-02 2022-05-31 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US11380310B2 (en) 2017-05-12 2022-07-05 Apple Inc. Low-latency intelligent automated assistant
US11388291B2 (en) 2013-03-14 2022-07-12 Apple Inc. System and method for processing voicemail
US11405466B2 (en) 2017-05-12 2022-08-02 Apple Inc. Synchronization and task delegation of a digital assistant
US11423886B2 (en) 2010-01-18 2022-08-23 Apple Inc. Task flow identification based on user intent
US11431642B2 (en) 2018-06-01 2022-08-30 Apple Inc. Variable latency device coordination
US11467802B2 (en) 2017-05-11 2022-10-11 Apple Inc. Maintaining privacy of personal information
US11500672B2 (en) 2015-09-08 2022-11-15 Apple Inc. Distributed personal assistant
US11516537B2 (en) 2014-06-30 2022-11-29 Apple Inc. Intelligent automated assistant for TV user interactions
US11526368B2 (en) 2015-11-06 2022-12-13 Apple Inc. Intelligent automated assistant in a messaging environment
US11532306B2 (en) 2017-05-16 2022-12-20 Apple Inc. Detecting a trigger of a digital assistant
US11580990B2 (en) 2017-05-12 2023-02-14 Apple Inc. User-specific acoustic models
US11599331B2 (en) 2017-05-11 2023-03-07 Apple Inc. Maintaining privacy of personal information
US11657813B2 (en) 2019-05-31 2023-05-23 Apple Inc. Voice identification in digital assistant systems
US11670289B2 (en) 2014-05-30 2023-06-06 Apple Inc. Multi-command single utterance input method
US11671920B2 (en) 2007-04-03 2023-06-06 Apple Inc. Method and system for operating a multifunction portable electronic device using voice-activation
US11675829B2 (en) 2017-05-16 2023-06-13 Apple Inc. Intelligent automated assistant for media exploration
US11675491B2 (en) 2019-05-06 2023-06-13 Apple Inc. User configurable task triggers
US11696060B2 (en) 2020-07-21 2023-07-04 Apple Inc. User identification using headphones
US11705130B2 (en) 2019-05-06 2023-07-18 Apple Inc. Spoken notifications
US11710482B2 (en) 2018-03-26 2023-07-25 Apple Inc. Natural assistant interaction
US11727219B2 (en) 2013-06-09 2023-08-15 Apple Inc. System and method for inferring user intent from speech inputs
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11765209B2 (en) 2020-05-11 2023-09-19 Apple Inc. Digital assistant hardware abstraction
US11783815B2 (en) 2019-03-18 2023-10-10 Apple Inc. Multimodality in digital assistant systems
US11790914B2 (en) 2019-06-01 2023-10-17 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11798547B2 (en) 2013-03-15 2023-10-24 Apple Inc. Voice activated device for use with a voice-based digital assistant
US11809783B2 (en) 2016-06-11 2023-11-07 Apple Inc. Intelligent device arbitration and control
US11809483B2 (en) 2015-09-08 2023-11-07 Apple Inc. Intelligent automated assistant for media search and playback
US11838734B2 (en) 2020-07-20 2023-12-05 Apple Inc. Multi-device audio adjustment coordination
US11854539B2 (en) 2018-05-07 2023-12-26 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US11853536B2 (en) 2015-09-08 2023-12-26 Apple Inc. Intelligent automated assistant in a media environment
US11853647B2 (en) 2015-12-23 2023-12-26 Apple Inc. Proactive assistance based on dialog communication between devices
US11886805B2 (en) 2015-11-09 2024-01-30 Apple Inc. Unconventional virtual assistant interactions
US11888791B2 (en) 2019-05-21 2024-01-30 Apple Inc. Providing message response suggestions
US11893992B2 (en) 2018-09-28 2024-02-06 Apple Inc. Multi-modal inputs for voice commands
US11914848B2 (en) 2020-05-11 2024-02-27 Apple Inc. Providing relevant data items based on context
US11947873B2 (en) 2015-06-29 2024-04-02 Apple Inc. Virtual assistant for media playback

Cited By (80)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11671920B2 (en) 2007-04-03 2023-06-06 Apple Inc. Method and system for operating a multifunction portable electronic device using voice-activation
US11900936B2 (en) 2008-10-02 2024-02-13 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US11348582B2 (en) 2008-10-02 2022-05-31 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US11423886B2 (en) 2010-01-18 2022-08-23 Apple Inc. Task flow identification based on user intent
US11120372B2 (en) 2011-06-03 2021-09-14 Apple Inc. Performing actions associated with task items that represent tasks to perform
JP2013083798A (ja) * 2011-10-11 2013-05-09 Nippon Telegr & Teleph Corp <Ntt> 音響モデル適応装置、音響モデル適応方法、およびプログラム
US11321116B2 (en) 2012-05-15 2022-05-03 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US11557310B2 (en) 2013-02-07 2023-01-17 Apple Inc. Voice trigger for a digital assistant
US10978090B2 (en) 2013-02-07 2021-04-13 Apple Inc. Voice trigger for a digital assistant
US11636869B2 (en) 2013-02-07 2023-04-25 Apple Inc. Voice trigger for a digital assistant
US11862186B2 (en) 2013-02-07 2024-01-02 Apple Inc. Voice trigger for a digital assistant
US11388291B2 (en) 2013-03-14 2022-07-12 Apple Inc. System and method for processing voicemail
US11798547B2 (en) 2013-03-15 2023-10-24 Apple Inc. Voice activated device for use with a voice-based digital assistant
US11727219B2 (en) 2013-06-09 2023-08-15 Apple Inc. System and method for inferring user intent from speech inputs
US11257504B2 (en) 2014-05-30 2022-02-22 Apple Inc. Intelligent assistant for home automation
US11670289B2 (en) 2014-05-30 2023-06-06 Apple Inc. Multi-command single utterance input method
US11133008B2 (en) 2014-05-30 2021-09-28 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US11810562B2 (en) 2014-05-30 2023-11-07 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US11699448B2 (en) 2014-05-30 2023-07-11 Apple Inc. Intelligent assistant for home automation
US11516537B2 (en) 2014-06-30 2022-11-29 Apple Inc. Intelligent automated assistant for TV user interactions
US11838579B2 (en) 2014-06-30 2023-12-05 Apple Inc. Intelligent automated assistant for TV user interactions
US11842734B2 (en) 2015-03-08 2023-12-12 Apple Inc. Virtual assistant activation
US11087759B2 (en) 2015-03-08 2021-08-10 Apple Inc. Virtual assistant activation
US11070949B2 (en) 2015-05-27 2021-07-20 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on an electronic device with a touch-sensitive display
US11947873B2 (en) 2015-06-29 2024-04-02 Apple Inc. Virtual assistant for media playback
US11550542B2 (en) 2015-09-08 2023-01-10 Apple Inc. Zero latency digital assistant
US11126400B2 (en) 2015-09-08 2021-09-21 Apple Inc. Zero latency digital assistant
US11500672B2 (en) 2015-09-08 2022-11-15 Apple Inc. Distributed personal assistant
US11809483B2 (en) 2015-09-08 2023-11-07 Apple Inc. Intelligent automated assistant for media search and playback
US11853536B2 (en) 2015-09-08 2023-12-26 Apple Inc. Intelligent automated assistant in a media environment
US11954405B2 (en) 2015-09-08 2024-04-09 Apple Inc. Zero latency digital assistant
US11809886B2 (en) 2015-11-06 2023-11-07 Apple Inc. Intelligent automated assistant in a messaging environment
US11526368B2 (en) 2015-11-06 2022-12-13 Apple Inc. Intelligent automated assistant in a messaging environment
US11886805B2 (en) 2015-11-09 2024-01-30 Apple Inc. Unconventional virtual assistant interactions
US11853647B2 (en) 2015-12-23 2023-12-26 Apple Inc. Proactive assistance based on dialog communication between devices
US11037565B2 (en) 2016-06-10 2021-06-15 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US11657820B2 (en) 2016-06-10 2023-05-23 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US11152002B2 (en) 2016-06-11 2021-10-19 Apple Inc. Application integration with a digital assistant
US11809783B2 (en) 2016-06-11 2023-11-07 Apple Inc. Intelligent device arbitration and control
US11749275B2 (en) 2016-06-11 2023-09-05 Apple Inc. Application integration with a digital assistant
US11467802B2 (en) 2017-05-11 2022-10-11 Apple Inc. Maintaining privacy of personal information
US11599331B2 (en) 2017-05-11 2023-03-07 Apple Inc. Maintaining privacy of personal information
US11862151B2 (en) 2017-05-12 2024-01-02 Apple Inc. Low-latency intelligent automated assistant
US11580990B2 (en) 2017-05-12 2023-02-14 Apple Inc. User-specific acoustic models
US11538469B2 (en) 2017-05-12 2022-12-27 Apple Inc. Low-latency intelligent automated assistant
US11837237B2 (en) 2017-05-12 2023-12-05 Apple Inc. User-specific acoustic models
US11380310B2 (en) 2017-05-12 2022-07-05 Apple Inc. Low-latency intelligent automated assistant
US11405466B2 (en) 2017-05-12 2022-08-02 Apple Inc. Synchronization and task delegation of a digital assistant
US11675829B2 (en) 2017-05-16 2023-06-13 Apple Inc. Intelligent automated assistant for media exploration
US11532306B2 (en) 2017-05-16 2022-12-20 Apple Inc. Detecting a trigger of a digital assistant
US11710482B2 (en) 2018-03-26 2023-07-25 Apple Inc. Natural assistant interaction
US11487364B2 (en) 2018-05-07 2022-11-01 Apple Inc. Raise to speak
US11907436B2 (en) 2018-05-07 2024-02-20 Apple Inc. Raise to speak
US11900923B2 (en) 2018-05-07 2024-02-13 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US11854539B2 (en) 2018-05-07 2023-12-26 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US11169616B2 (en) 2018-05-07 2021-11-09 Apple Inc. Raise to speak
US11009970B2 (en) 2018-06-01 2021-05-18 Apple Inc. Attention aware virtual assistant dismissal
US11630525B2 (en) 2018-06-01 2023-04-18 Apple Inc. Attention aware virtual assistant dismissal
US10984798B2 (en) 2018-06-01 2021-04-20 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11431642B2 (en) 2018-06-01 2022-08-30 Apple Inc. Variable latency device coordination
US11360577B2 (en) 2018-06-01 2022-06-14 Apple Inc. Attention aware virtual assistant dismissal
US11893992B2 (en) 2018-09-28 2024-02-06 Apple Inc. Multi-modal inputs for voice commands
US11783815B2 (en) 2019-03-18 2023-10-10 Apple Inc. Multimodality in digital assistant systems
US11675491B2 (en) 2019-05-06 2023-06-13 Apple Inc. User configurable task triggers
US11705130B2 (en) 2019-05-06 2023-07-18 Apple Inc. Spoken notifications
US11888791B2 (en) 2019-05-21 2024-01-30 Apple Inc. Providing message response suggestions
US11237797B2 (en) 2019-05-31 2022-02-01 Apple Inc. User activity shortcut suggestions
US11657813B2 (en) 2019-05-31 2023-05-23 Apple Inc. Voice identification in digital assistant systems
US11790914B2 (en) 2019-06-01 2023-10-17 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
JP2020201445A (ja) * 2019-06-13 2020-12-17 株式会社日立製作所 計算機システム、モデル生成方法及びモデル管理プログラム
JP7261096B2 (ja) 2019-06-13 2023-04-19 株式会社日立製作所 計算機システム、モデル生成方法及びモデル管理プログラム
JP7326596B2 (ja) 2020-04-21 2023-08-15 株式会社Nttドコモ 音声データ作成装置
WO2021215352A1 (ja) * 2020-04-21 2021-10-28 株式会社Nttドコモ 音声データ作成装置
US11914848B2 (en) 2020-05-11 2024-02-27 Apple Inc. Providing relevant data items based on context
US11765209B2 (en) 2020-05-11 2023-09-19 Apple Inc. Digital assistant hardware abstraction
US11924254B2 (en) 2020-05-11 2024-03-05 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11838734B2 (en) 2020-07-20 2023-12-05 Apple Inc. Multi-device audio adjustment coordination
US11750962B2 (en) 2020-07-21 2023-09-05 Apple Inc. User identification using headphones
US11696060B2 (en) 2020-07-21 2023-07-04 Apple Inc. User identification using headphones

Similar Documents

Publication Publication Date Title
JP2012037619A (ja) 話者適応化装置、話者適応化方法および話者適応化用プログラム
US11450313B2 (en) Determining phonetic relationships
JP6052814B2 (ja) 音声認識モデルの構築方法、音声認識方法、コンピュータ・システム、音声認識装置、プログラムおよび記録媒体
JP3782943B2 (ja) 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体
WO2017076222A1 (zh) 语音识别方法及装置
JP6507316B2 (ja) 外部データソースを用いた音声の再認識
JP3232289B2 (ja) 記号挿入装置およびその方法
EP1557822A1 (en) Automatic speech recognition adaptation using user corrections
US8386254B2 (en) Multi-class constrained maximum likelihood linear regression
CN110246488B (zh) 半优化CycleGAN模型的语音转换方法及装置
US11495235B2 (en) System for creating speaker model based on vocal sounds for a speaker recognition system, computer program product, and controller, using two neural networks
JP6284462B2 (ja) 音声認識方法、及び音声認識装置
CN110675855A (zh) 一种语音识别方法、电子设备及计算机可读存储介质
JPWO2009078256A1 (ja) 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム
JP5752060B2 (ja) 情報処理装置、大語彙連続音声認識方法及びプログラム
JP2015206906A (ja) 音声検索方法、音声検索装置、並びに、音声検索装置用のプログラム
CN112397056B (zh) 语音评测方法及计算机存储介质
JP2010152751A (ja) 統計モデル学習装置、統計モデル学習方法、およびプログラム
US11676572B2 (en) Instantaneous learning in text-to-speech during dialog
KR20040088368A (ko) 스위칭 상태 공간 모델들을 갖는 변분 추론을 사용하는음성 인식 방법
JPWO2019107170A1 (ja) 緊急度推定装置、緊急度推定方法、プログラム
KR100848148B1 (ko) 음절 단위의 음성 인식 장치, 음절 단위의 음성 인식을이용한 문자 입력 장치, 그 방법 및 기록 매체
JP2007078943A (ja) 音響スコア計算プログラム
JP2005283646A (ja) 音声認識率推定装置
Takrim et al. Speech to Text Recognition