JP2005107550A - 端末装置、サーバ装置および音声認識方法 - Google Patents
端末装置、サーバ装置および音声認識方法 Download PDFInfo
- Publication number
- JP2005107550A JP2005107550A JP2004357775A JP2004357775A JP2005107550A JP 2005107550 A JP2005107550 A JP 2005107550A JP 2004357775 A JP2004357775 A JP 2004357775A JP 2004357775 A JP2004357775 A JP 2004357775A JP 2005107550 A JP2005107550 A JP 2005107550A
- Authority
- JP
- Japan
- Prior art keywords
- user
- voice
- terminal device
- environmental noise
- future
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】 端末装置において必要なメモリ容量を小さくする。
【解決手段】 PDA11のマイク111により入力された、雑音が付加された利用者の音声データが送信部112よりサーバ12に送信される。サーバ12のデータ蓄積部124には複数の音響モデルが事前に蓄えられている。サーバ12の適応モデル選択部123は、受信部121によって受信された雑音付加データに最も適合した音響モデルをデータ蓄積部124に蓄積されている音響モデルから選択する。選択された適応モデル133は送信部122によりPDA11に送信される。PDA11の受信部113はサーバ12からの適応モデル133を受信する。受信された適応モデル133はメモリ114に蓄積される。音声認識部115は、メモリ114に蓄積された適応モデルを用いて音声認識を行う。
【選択図】 図1
【解決手段】 PDA11のマイク111により入力された、雑音が付加された利用者の音声データが送信部112よりサーバ12に送信される。サーバ12のデータ蓄積部124には複数の音響モデルが事前に蓄えられている。サーバ12の適応モデル選択部123は、受信部121によって受信された雑音付加データに最も適合した音響モデルをデータ蓄積部124に蓄積されている音響モデルから選択する。選択された適応モデル133は送信部122によりPDA11に送信される。PDA11の受信部113はサーバ12からの適応モデル133を受信する。受信された適応モデル133はメモリ114に蓄積される。音声認識部115は、メモリ114に蓄積された適応モデルを用いて音声認識を行う。
【選択図】 図1
Description
この発明は端末装置、サーバ装置および音声認識方法に関し、さらに詳しくは、それぞれの利用者、それぞれの利用環境に適応化した音声認識処理を行うための端末装置、サーバ装置および音声認識方法に関する。
近年、携帯電話・携帯端末・カーナビゲーションシステム・パーソナルコンピュータなどでは音声認識技術を用いて利用者の利便性を向上させることが期待されている。
音声認識技術は、さまざまな利用者にさまざまな環境で利用される。携帯電話・携帯端末などでは利用環境に応じて背景雑音の種類などが時々刻々と変化する。設置場所が固定された家庭内端末などでもテレビ音声などにより背景雑音の種類は時々刻々と変化する。そのため、このような環境下で発声した利用者の音声にはさまざまな雑音が付加され、認識すべき音声データの音響特性は時々刻々と変化する。また、同一の環境下における同一の利用者においても、健康状態や老化などにより利用者の声の性質が変化するため、認識すべき音声データの音響特性は変化する。また、音声認識装置に取り付けるマイクの種類などによっても認識すべき音声データの音響特性は変化する。
音響特性の異なる音声データの認識率を100%に近づけるため、さまざまな適応化技術が開発されている。
たとえばMLLR法による適応化法として、C.J.Leggetter and P.C.Woodland,"Maximum likelihood linear regression for speaker adaptation of continuous density hidden Markov models",Computer Speech and Language,1995,Vol.9,No.2,pp.171-186 などが提案されている。MLLR法では、利用者の多くの発声データを利用して適応パラメータの推定を行い、これらの適応パラメータにより音響モデルを変形することで適応を行う。
また、話者クラスタリングによる適応化方法として、加藤恒夫,黒岩眞吾,清水徹,樋口宜男,”多数話者電話音声データベースを用いた話者クラスタリング”,信学技報,SP2000−10,pp.1−8,2000 などが提案されている。さらに、充足統計量と話者距離を用いた適応化方法として、芳澤伸一,馬場朗,松浪加奈子,米良祐一郎,山田実一,鹿野清宏,”充足統計量と話者距離を用いた音韻モデルの教師なし学習”,信学技報,SP2000−89,pp.83−88,2000 などが提案されている。話者クラスタリングによる方法、充足統計量と話者距離を用いた方法は、基本的に、さまざまな利用環境におけるさまざまな利用者の大量の発声データを事前に蓄積しておき、これらの大量の発声データを用いて事前に音響モデルを構築しておく。そして、適応時に音響モデルを利用して適応を行う。音響モデルを作成するための発声データとして、データベースに蓄積してある利用者の音響特性に近い発声データを利用するため、利用者は大量の発声を行う必要がなく利用者の負担が少ない。また、事前に音響モデルを構築しておくため、適応処理時に音響モデルを構築するための処理時間が不要となり短時間で適応を行うことができる。
また、話者に合わせて音声のスペクトルを周波数軸方向に伸縮する手法(Vocal Tract Normalization)等が提案されている。例えば、Li Lee and Richard C.Rose,"Speaker normalization using efficient frequency warping procedures",ICASSP-96,IEEE International Conference on Acoustics,Speech and Signal Processing,pp.171-186 などが提案されている。特開2000−276188号公報の図1には、スペクトル変換を用いて話者適応を行う音声認識装置が開示されている。この音声認識装置では、音声認識を行う利用者の適応化パラメータが蓄積された脱着可能な適応化パラメータ蓄積手段を取り付けて、それらの適応化パラメータにより適応を行う。
MLLR法では、利用者の多くの発声データを利用して音響モデルの適応を行うため、利用者は適応用に多くの文章を読み上げる必要がある。そのため利用者の負担が大きい。
話者クラスタリングによる方法、充足統計量と話者距離を用いた方法では、さまざまな音響特性に対する音声データに対応するために、大量の音響モデルを音声認識装置に蓄積する必要がある。そのため、音声認識装置に膨大なメモリ容量が必要となり、携帯電話やPDA(Personal Digital Assistant)などのメモリ容量が限られている端末装置では実現が困難である。
話者に合わせて音声のスペクトルを周波数軸方向に伸縮する手法、特開2000−276188号公報の図1に開示された技術では、話者性の適応を行っているが、雑音や話者の声の性質の変化などのさまざまな音響特性の変化にスペクトル変換で適応することは困難である。また、特開2000−276188号公報に開示された技術では、さまざまな雑音やさまざまな利用者の声の性質などの多くの音響特性に適応するためには、それぞれの適応パラメータを蓄積した膨大な数の脱着可能な適応化パラメータ蓄積手段を用意する必要がある。また、利用者が雑音の種類や現在の声の性質を判断して上記適応化パラメータ蓄積手段を選択し音声認識装置に取り付けなければならない。
この発明の目的は、必要なメモリ容量を小さくすることができる端末装置を提供することである。
この発明の1つの局面に従うと、端末装置は、送信手段と、受信手段と、第1の蓄積手段と、音声認識手段とを備える。送信手段は、利用者が発声した音声と環境雑音とをサーバ装置に送信する。受信手段は、サーバ装置から送信される、上記利用者の音声と上記環境雑音とに適応した音響モデルを受信する。第1の蓄積手段は、受信手段によって受信された音響モデルを蓄積する。音声認識手段は、第1の蓄積手段に蓄積された音響モデルを用いて音声認識を行う。
上記端末装置では、利用者が発声した音声と環境雑音とに適応した音響モデルをサーバ装置から取得して第1の蓄積手段に蓄積するため、遭遇する可能性のある(実際には遭遇しない場合が多い)すべての状況に対応した音響モデルをあらかじめ第1の蓄積手段に蓄積しておく必要がない。したがって、必要なメモリ容量を小さくすることができる。
好ましくは、上記受信手段は、上記利用者が将来利用するであろう音響モデルをサーバ装置からさらに受信する。
好ましくは、上記端末装置はさらに判断手段を備える。判断手段は、上記環境雑音が付加された上記利用者の音声と第1の蓄積手段にすでに蓄積されている音響モデルとの類似度を所定のしきい値と比較する。上記送信手段は、上記類似度が所定のしきい値よりも小さいとき上記利用者の音声および上記環境雑音をサーバ装置に送信する。
上記端末装置では、上記類似度が所定のしきい値以上のときは第1の蓄積手段にすでに蓄積されている音響モデルを利用して音声認識を行うため、サーバ装置への送信/サーバ装置からの受信を減らすことができる。
好ましくは、上記判断手段は、上記類似度が所定のしきい値よりも小さいとき、音響モデルを取得するか否かの判断を上記利用者に促す。上記送信手段は、上記利用者が音響モデルを取得すると判断したとき、上記利用者の音声および上記環境雑音をサーバ装置に送信する。
上記端末装置では、利用者が音響モデルを取得すると判断したときに限り当該利用者の音声および環境雑音をサーバ装置に送信するため、サーバ装置への送信/サーバ装置からの受信を減らすことができる。
好ましくは、上記端末装置はさらに第2の蓄積手段を備える。第2の蓄積手段は、利用者が発声した音声を蓄積する。上記送信手段は、環境雑音が取得されると、当該環境雑音と第2の蓄積手段に蓄積された利用者の音声とをサーバ装置に送信する。
上記端末装置では、周囲雑音がきわめて少ないタイミングで発声した利用者の音声を第2の蓄積手段に蓄積することができる。これによりサーバ装置または端末装置では、より高精度な適応モデルを作成・利用することができる。また、上記端末装置では、静かな環境で発声した音声を複数の人について第2の蓄積手段に蓄積することができる。これにより複数の人が利用する端末装置に対しても高精度の適応モデルを利用することができる。また、利用者の音声を一度蓄積すると、利用者は適応モデルを作成するたびに発声する必要がないため、利用者の負担が少ない。
この発明のもう1つの局面に従うと、端末装置は、送信手段と、受信手段と、第1の蓄積手段と、作成手段と、音声認識手段とを備える。送信手段は、利用者が発声した音声と環境雑音とをサーバ装置に送信する。受信手段は、サーバ装置から送信される、上記利用者の音声と上記環境雑音とに適応した音響モデルを作成するための作成用データを受信する。第1の蓄積手段は、受信手段によって受信された作成用データを蓄積する。作成手段は、上記利用者の音声と上記環境雑音とに適応した音響モデルを第1の蓄積手段に蓄積された作成用データを用いて作成する。音声認識手段は、作成手段によって作成された音響モデルを用いて音声認識を行う。
上記端末装置では、利用者が発声した音声と環境雑音とに適応した音響モデルを作成するための作成用データをサーバ装置から取得して第1の蓄積手段に蓄積するため、遭遇する可能性のある(実際には遭遇しない場合が多い)すべての状況に対応した音響モデルを作成するための作成用データをあらかじめ第1の蓄積手段に蓄積しておく必要がない。したがって、必要なメモリ容量を小さくすることができる。
好ましくは、上記受信手段は、上記利用者が将来利用するであろう作成用データをサーバ装置からさらに受信する。
好ましくは、上記端末装置は、さまざまな環境の中から所望の環境を選択するように利用者に促し、選択された環境における特徴的な音を再生する。
この発明のさらにもう1つの局面に従うと、サーバ装置は、蓄積手段と、受信手段と、選択手段と、送信手段とを備える。蓄積手段は複数の音響モデルを蓄積する。複数の音響モデルの各々は、対応する話者および環境に適応したモデルである。受信手段は、端末装置から送信される、利用者が発声した音声と環境雑音とを受信する。選択手段は、受信手段によって受信された利用者の音声と環境雑音とに適応した音響モデルを蓄積手段から選択する。送信手段は、選択手段によって選択された音響モデルを上記端末装置に送信する。
上記サーバ装置では、複数の音響モデルを蓄積した蓄積手段を設け、端末装置の利用者の音声と環境雑音とに適応した音響モデルを蓄積手段から選択して端末装置に送信するため、端末装置において必要となるメモリ容量を小さくすることができる。
また、利用者の発声データの音響特性に近い大量のデータで作成した音響モデルを蓄積手段に蓄積することができるため、利用者は音響モデルを作成するために大量の発声を行う必要はなく利用者の負担が小さい。
また、利用者の発声データの音響特性に近い音響モデルを事前に作成して蓄積手段に蓄積することができるため、音響モデルを作成するための処理時間は不要となり適応処理時間が短く、短時間に端末装置は適応モデルを獲得することができる。
好ましくは、上記選択手段は、上記端末装置の利用者が将来利用するであろう音響モデルを蓄積手段から選択する。
この発明のさらにもう1つの局面に従うと、サーバ装置は、蓄積手段と、受信手段と、作成手段と、送信手段とを備える。蓄積手段は複数の音響モデルを蓄積する。複数の音響モデルの各々は、対応する話者および環境に適応したモデルである。受信手段は、端末装置から送信される、利用者が発声した音声と環境雑音とを受信する。作成手段は、受信手段によって受信された利用者の音声および環境雑音と蓄積手段に蓄積された複数の音響モデルとに基づいて、上記利用者が発声した音声と上記環境雑音とに適応した音響モデルを作成する。送信手段は、作成手段によって作成された音響モデルを上記端末装置に送信する。
上記サーバ装置では、複数の音響モデルを蓄積した蓄積手段を設け、端末装置の利用者の音声と環境雑音とに適応した音響モデルを作成して端末装置に送信するため、端末装置において必要となるメモリ容量を小さくすることができる。
好ましくは上記作成手段は、上記端末装置の利用者が将来利用するであろう音響モデルを作成する。
この発明のさらにもう1つの局面に従うと、サーバ装置は、蓄積手段と、受信手段と、選択手段と、送信手段とを備える。蓄積手段は複数の音響モデルを蓄積する。複数の音響モデルの各々は、対応する話者および環境に適応したモデルである。受信手段は、端末装置から送信される、利用者が発声した音声と環境雑音とを受信する。選択手段は、受信手段によって受信された利用者の音声と環境雑音とに適応した音響モデルを作成するための作成用データを蓄積手段から選択する。作成用データは、少なくとも2つの音響モデルを含む。送信手段は、選択手段によって選択された作成用データを上記端末装置に送信する。
上記サーバ装置では、端末装置の利用者の音声と環境雑音とに適応した音響モデルを作成するための作成用データを蓄積手段から選択して端末装置に送信するため、端末装置において必要となるメモリ容量を小さくすることができる。
好ましくは、上記選択手段は、上記端末装置の利用者が将来利用するであろう作成用データを蓄積手段から選択する。
好ましくは、上記蓄積手段に蓄積される複数の音響モデルの各々は、対応する話者の声の調子にも適応している。
上記サーバ装置では、話者の声の調子にも適応した音響モデルを蓄積手段に蓄積しているため、端末装置の利用者はより高い認識率を獲得することができる。
好ましくは、上記蓄積手段に蓄積される複数の音響モデルの各々は、当該音響モデルを作成する際に話者が発声した音声を得るための入力手段の特性にも適応している。
上記サーバ装置では、入力手段の特性にも適応した音響モデルを蓄積手段に蓄積しているため、端末装置の利用者はより高い認識率を獲得することができる。
この発明のさらにもう1つの局面に従うと、音声認識方法はステップ(a)−(c)を備える。ステップ(a)では、複数の音響モデルを用意する。複数の音響モデルの各々は、対応する話者、環境および声の調子に適応したモデルである。ステップ(b)では、利用者が発声した音声および環境雑音と上記複数の音響モデルとに基づいて、上記利用者の音声と上記環境雑音とに適応した音響モデルを獲得する。ステップ(c)では、上記獲得した音響モデルを用いて音声認識を行う。
上記音声認識方法では、話者の声の調子にも適応した音響モデルを用意しているため、利用者はより高い認識率を獲得することができる。
好ましくは、上記複数の音響モデルの各々は、当該音響モデルを作成する際に話者が発声した音声を得るための入力手段の特性にも適応している。
上記音声認識方法では、入力手段の特性にも適応した音響モデルを用意しているため、利用者はより高い認識率を獲得することができる。
上記端末装置では、利用者が発声した音声と環境雑音とに適応した音響モデルをサーバ装置から取得して第1の蓄積手段に蓄積するため、遭遇する可能性のある(実際には遭遇しない場合が多い)すべての状況に対応した音響モデルをあらかじめ第1の蓄積手段に蓄積しておく必要がない。したがって、必要なメモリ容量を小さくすることができる。
以下、この発明の実施の形態を図面を参照して詳しく説明する。なお、図中同一または相当部分には同一の符号を付し、その説明は繰り返さない。
(第1の実施の形態)
<音声認識システムの構成>
第1の実施形態による音声認識システムの全体構成を図1に示す。この音声認識システムは、PDA(Personal Digital Assistant)11と、サーバ12とを備える。PDA11およびサーバ12は通信路131を介して互いにデータのやりとりをする。
<音声認識システムの構成>
第1の実施形態による音声認識システムの全体構成を図1に示す。この音声認識システムは、PDA(Personal Digital Assistant)11と、サーバ12とを備える。PDA11およびサーバ12は通信路131を介して互いにデータのやりとりをする。
PDA11は、マイク111と、送信部112と、受信部113と、メモリ114と、音声認識部115とを備える。マイク111は、PDA11の利用者が発声した音声やPDA11の周りの雑音(環境雑音)などの情報を入力するためのデータ入力手段である。送信部112は、マイク111によって入力されたデータをサーバ12に送信する。受信部113は、サーバ12から送信された適応モデルを受信する。受信部113によって受信された適応モデルはメモリ114に蓄積される。音声認識部115は、メモリ114に蓄積された適応モデルを利用して音声認識を行う。
サーバ12は、受信部121と、送信部122と、適応モデル選択部123と、データ蓄積部124とを備える。データ蓄積部124には、複数の音響モデルと複数の選択モデルとが対応づけられて蓄積される。複数の選択モデルは、対応する音響モデルを選択するためのモデルである。受信部121は、PDA11から送信されたデータを受信する。適応モデル選択部123は、データ蓄積手段124に蓄積されている複数の音響モデルの中からPDA11の利用環境および/または利用状況に適応化した音響モデルを選択する。ここで利用環境とは、PDA11を利用する場所の周囲雑音などを意味する。また利用状況とは、PDA11の音声認識部115による音声認識処理に従って動作させるアプリケーションの用途などを意味する。送信部122は、適応モデル選択部123によって選択された適応モデルをPDA11に送信する。
<音声認識システムの動作>
次に、以上のように構成された音声認識システムの動作について図2を参照しつつ説明する。ここでは、利用者が展示会場でPDA11を利用する場合を例にして説明する。
次に、以上のように構成された音声認識システムの動作について図2を参照しつつ説明する。ここでは、利用者が展示会場でPDA11を利用する場合を例にして説明する。
[ステップST10101]
利用者は、PDA11に装着されたマイク111を用いて「音響モデルを取得」、「適応してほしいな」、「音声認識」などの音声データを入力する。そのとき利用者の音声データには展示会場での騒音が付加される。
利用者は、PDA11に装着されたマイク111を用いて「音響モデルを取得」、「適応してほしいな」、「音声認識」などの音声データを入力する。そのとき利用者の音声データには展示会場での騒音が付加される。
[ステップST10102]
PDA11は、音響モデルを取得するか否かの判断を利用者に促す。音響モデルを取得すると利用者が判断したときは、ステップST10101において得られた、雑音が付加された音声データがPDA11の送信部112によってサーバ12に送信される。そしてステップST10103にすすむ。一方、音響モデルを取得しないと利用者が判断したときはサーバ12への送信は行わずにステップST10105にすすむ。
PDA11は、音響モデルを取得するか否かの判断を利用者に促す。音響モデルを取得すると利用者が判断したときは、ステップST10101において得られた、雑音が付加された音声データがPDA11の送信部112によってサーバ12に送信される。そしてステップST10103にすすむ。一方、音響モデルを取得しないと利用者が判断したときはサーバ12への送信は行わずにステップST10105にすすむ。
[ステップST10103]
サーバ12のデータ蓄積部124には複数の音響モデルが事前に蓄えられている。複数の音響モデルは、さまざまな雑音環境におけるさまざまな話者・話者のさまざまな声の調子・音響モデルを作成する際に話者が発声した音声を得るために使用したマイクの特性に適応している。データ蓄積部124にあらかじめ蓄えられている音響モデルの一例を図3に示す。ここでは、車内・家庭内・展示会場内などの雑音環境においてAさん・Bさん・Cさん・Zさんなどの話者が普段の声・嗄れ声・鼻声などの声の調子でマイクA・マイクB・マイクC・マイクDなどを使用して発声した音声データで作成した複数の音響モデル(雑音付加モデル)が蓄えられている。複数の音響モデルの各々は、音素の音響モデル(HMM)を複数個含む。各音響モデルに含まれる音素の音響モデルの数・種類は、音声認識の精度(文脈依存、文脈非依存など)、言語(日本語、英語など)、アプリケーションなどにより異なる。また、データ蓄積部124には、複数の音響モデルのうちPDA11の利用環境および/または利用状況に適応化した音響モデルを適応モデルとして選択するためにGMM(Gaussian Mixture Model)が事前に蓄えられている。GMMは、音響モデルを作成するときに利用した音声データを用いて音素を区別しないで作成される。GMMは音響モデルと対をなしている。GMMは対応する音響モデルの特徴を表現する単純なモデルである。
サーバ12のデータ蓄積部124には複数の音響モデルが事前に蓄えられている。複数の音響モデルは、さまざまな雑音環境におけるさまざまな話者・話者のさまざまな声の調子・音響モデルを作成する際に話者が発声した音声を得るために使用したマイクの特性に適応している。データ蓄積部124にあらかじめ蓄えられている音響モデルの一例を図3に示す。ここでは、車内・家庭内・展示会場内などの雑音環境においてAさん・Bさん・Cさん・Zさんなどの話者が普段の声・嗄れ声・鼻声などの声の調子でマイクA・マイクB・マイクC・マイクDなどを使用して発声した音声データで作成した複数の音響モデル(雑音付加モデル)が蓄えられている。複数の音響モデルの各々は、音素の音響モデル(HMM)を複数個含む。各音響モデルに含まれる音素の音響モデルの数・種類は、音声認識の精度(文脈依存、文脈非依存など)、言語(日本語、英語など)、アプリケーションなどにより異なる。また、データ蓄積部124には、複数の音響モデルのうちPDA11の利用環境および/または利用状況に適応化した音響モデルを適応モデルとして選択するためにGMM(Gaussian Mixture Model)が事前に蓄えられている。GMMは、音響モデルを作成するときに利用した音声データを用いて音素を区別しないで作成される。GMMは音響モデルと対をなしている。GMMは対応する音響モデルの特徴を表現する単純なモデルである。
サーバ12の受信部121は、PDA11から送信された利用者の雑音付加データを受信する。適応モデル選択部123は、受信部121によって受信された利用者の雑音付加データを、データ蓄積部124に蓄積されている各音響モデルに付随するGMMに入力する。そして、適応モデル選択部123は、最も高い尤度をもつGMMに付随する音響モデルを適応モデルとして選択する。選択された音響モデルは、周囲の雑音と話者に最も適合したモデルである。
[ステップST10104]
サーバ12の送信部122は、適応モデル選択部123によって選択された適応モデル133をPDA11に送信する。
サーバ12の送信部122は、適応モデル選択部123によって選択された適応モデル133をPDA11に送信する。
PDA11の受信部113は、サーバ12から送信された適応モデル133を受信する。受信部113によって受信された適応モデル133はメモリ114に蓄積される。このとき、以前にメモリ114に蓄積された音響モデル(適応モデル)は新たにダウンロードした適応モデルに置き換えられる。
[ステップST10105]
音声認識部115は、メモリ114に蓄積された適応モデルを用いて音声認識を行う。ステップST10102において音響モデルを取得すると利用者が判断した場合には、ステップST10103においてサーバ12からダウンロードした適応モデルを用いて音声認識が行われる。ステップST10102において音響モデルを取得しないと利用者が判断した場合には適応モデルのダウンロードは行わず、すでにメモリ114に蓄積されている適応モデルを用いて音声認識が行われる。
音声認識部115は、メモリ114に蓄積された適応モデルを用いて音声認識を行う。ステップST10102において音響モデルを取得すると利用者が判断した場合には、ステップST10103においてサーバ12からダウンロードした適応モデルを用いて音声認識が行われる。ステップST10102において音響モデルを取得しないと利用者が判断した場合には適応モデルのダウンロードは行わず、すでにメモリ114に蓄積されている適応モデルを用いて音声認識が行われる。
<効果>
第1の実施形態による音声認識システムでは、サーバ12で適応を行い、PDA11で認識を行う。サーバ12の記憶容量は大きいため、複雑なモデルによる適応が行える。これにより認識率を高めることができる。また、サーバ12のダウン、混線などが起こってもPDA11において認識機能を使うことができる。
第1の実施形態による音声認識システムでは、サーバ12で適応を行い、PDA11で認識を行う。サーバ12の記憶容量は大きいため、複雑なモデルによる適応が行える。これにより認識率を高めることができる。また、サーバ12のダウン、混線などが起こってもPDA11において認識機能を使うことができる。
また、遭遇する可能性のある(実際に遭遇しない場合が多い)すべての状況に対応した適応モデルをPDA11のメモリ114に蓄積しておく必要はなく、遭遇した状況に適した適応モデルをサーバ12から獲得してPDA11のメモリ114に蓄積しておけばよいため、PDA11のメモリ114の容量を削減することができる。
また、PDA11の利用者は、PDA11の周囲の雑音・利用者の話者性・利用者の声の調子・マイクの特性に適応化した適応モデルにより音声認識をすることができるため、高い認識率を獲得することができる。
また、サーバ12のデータ蓄積部124には利用者の発声データの音響特性に近い大量のデータで作成した音響モデルが事前に蓄積されているため、利用者は、音響モデルを作成するために大量の発声を行う必要がない。
また、サーバ12のデータ蓄積部124には利用者の発声データの音響特性に近い音声データで作成した音響モデルが事前に蓄積されているため、音響モデルを作成するための処理時間が不要となる。
また、PDA11のメモリ114には、以前に利用した適応モデルを蓄積しているため、適応モデルの再利用ができる。
<変形例>
なお、ここではサーバ12からダウンロードした適応モデルをPDA11のメモリ114に蓄積する際に、すでにメモリ114に蓄積されている適応モデルを新たにダウンロードした適応モデルに置き換えている(ST10103)。これに代えて、すでにメモリ114に蓄積されている適応モデルに加えて新たにダウンロードした適応モデルをメモリ114に追加するようにしてもよい。この場合、ステップST10105における音声認識処理は次のようにして行われる。ステップST10102において音響モデルを取得すると利用者が判断した場合には、ステップST10103においてサーバ12からダウンロードした適応モデルを用いて音声認識が行われる。ステップST10102において音響モデルを取得しないと利用者が判断した場合には適応モデルのダウンロードは行わず、ステップST10101において入力された音声データに近い適応モデルをすでにメモリ114に蓄積されている適応モデルの中から選択し、選択した適応モデルを用いて音声認識が行われる。
なお、ここではサーバ12からダウンロードした適応モデルをPDA11のメモリ114に蓄積する際に、すでにメモリ114に蓄積されている適応モデルを新たにダウンロードした適応モデルに置き換えている(ST10103)。これに代えて、すでにメモリ114に蓄積されている適応モデルに加えて新たにダウンロードした適応モデルをメモリ114に追加するようにしてもよい。この場合、ステップST10105における音声認識処理は次のようにして行われる。ステップST10102において音響モデルを取得すると利用者が判断した場合には、ステップST10103においてサーバ12からダウンロードした適応モデルを用いて音声認識が行われる。ステップST10102において音響モデルを取得しないと利用者が判断した場合には適応モデルのダウンロードは行わず、ステップST10101において入力された音声データに近い適応モデルをすでにメモリ114に蓄積されている適応モデルの中から選択し、選択した適応モデルを用いて音声認識が行われる。
また、サーバ12の適応モデル選択部123は、利用状況に応じて音響モデルを選択してもよい。たとえば、セキュリティに関するアプリケーション(音声認識により機密情報を処理するようなアプリケーション、音声認識により自動車の運転操作を行うようなアプリケーションなど)を利用する場合には、より高精度に適応化した音響モデルを選択してもよい。この場合PDA11は、起動しているアプリケーションの情報をサーバ12の適応モデル選択部123へ送信して利用状況(音声認識の重要度)を通知してもよいし、利用者に重要度を入力させその情報(利用状況)をサーバ12の適応モデル選択部123に送信してもよい。
また、音素の音響モデルはHMMに限らない。
また、「音響モデルを取得」などの発声テキストデータをPDA11からサーバ12へ送信してもよい。この場合、一例として、発声テキストに含まれる音韻のみの発声データにより作成された特化したGMMを用いて、上記音韻のみから構成された発声データより適応モデルを選択することができるため、高精度に適応モデルを選択することができる。すべての音韻の発声から話者ごとにGMMを作成した場合、GMMで表現できる話者性があいまいになる可能性がある。
また、利用者の発声データを変換したケプストラム係数などの特徴量をPDA11からサーバ12へ送信してもよい。
また、サーバ12のデータ蓄積部124にGMMを蓄積せず、適応モデル選択部123でGMMの代わりに音響モデルを用いて、音響モデルの尤度が最大の音響モデルを適応モデルとして選択してもよい。
また、PDA11において、PDA側の情報132を入力するマイクと同一のマイクを用いて音声認識を行ってもよい。その場合、マイク特性を考慮した適応モデルで音声認識を行うことができる。
また、PDA11は、テレビやパソコンやカーナビゲーションシステムなどの据え置き型の端末でもよい。
また、通信路131は、電話回線、インターネット回線、ケーブルテレビの回線など有線、通信網、BS/CSデジタル放送や地上波デジタル放送などの放送網であってもよい。
また、サーバ12をテレビまたはセットトップボックスとしPDA11(端末)をテレビのリモコンとするなどのように、サーバと端末を空間的に近くに存在させてもよい。
(第2の実施形態)
<音声認識システムの構成>
第2の実施形態による音声認識システムの全体構成を図4に示す。この音声認識システムは、PDA11と、サーバ42とを備える。PDA11およびサーバ42は通信路131を介して互いにデータのやりとりをする。
<音声認識システムの構成>
第2の実施形態による音声認識システムの全体構成を図4に示す。この音声認識システムは、PDA11と、サーバ42とを備える。PDA11およびサーバ42は通信路131を介して互いにデータのやりとりをする。
サーバ42は、受信部121と、送信部122と、適応モデル選択部123と、データ蓄積部124と、スケジュールデータベース421とを備える。スケジュールデータベース421には、PDA11の利用者のスケジュール(行き先、日時など)が格納されている。
<音声認識システムの動作>
次に、以上のように構成された音声認識システムの動作について図5を参照しつつ説明する。ここでは、利用者Xが展示会場でPDA11を利用する場合を例にして説明する。
次に、以上のように構成された音声認識システムの動作について図5を参照しつつ説明する。ここでは、利用者Xが展示会場でPDA11を利用する場合を例にして説明する。
利用者Xは、第1の実施形態において説明したのと同様にして、展示会場の騒音と利用者Xの通常の声とに適応した音響モデルおよび当該モデルのGMMをPDA11のメモリ114にダウンロードする(ST10101〜ST10104)。
[ステップST10111]
PDA11は、将来利用するであろう適応モデルを取得するか否かの判断を利用者Xに促す。取得すると利用者Xが判断したときはPDA11の送信部112からサーバ42に要求信号が送信され、ステップST10112にすすむ。一方、取得しないと利用者Xが判断したときは要求信号は送信されずにステップST10114にすすむ。ここでは、将来利用するであろう適応モデルを取得すると利用者Xが判断したものとする。
PDA11は、将来利用するであろう適応モデルを取得するか否かの判断を利用者Xに促す。取得すると利用者Xが判断したときはPDA11の送信部112からサーバ42に要求信号が送信され、ステップST10112にすすむ。一方、取得しないと利用者Xが判断したときは要求信号は送信されずにステップST10114にすすむ。ここでは、将来利用するであろう適応モデルを取得すると利用者Xが判断したものとする。
[ステップST10112]
PDA11からの要求信号はサーバ42の受信部121を介して適応モデル選択部123に与えられる。要求信号を受けると適応モデル選択部123は、利用者Xが遭遇する可能性のある状況を予測して当該状況に適応した音響モデルをデータ蓄積部124から選択する。具体的には次のようにして選択する。上述のステップST10101〜ST10104では展示会場の騒音と利用者Xの通常の声とに適応した音響モデルを適応モデルとしてPDAのメモリ114にダウンロードしている。これをふまえて適応モデル選択部123は、利用者Xが今後遭遇する可能性のある状況に適応した音響モデルとして、「展示会場の騒音と利用者Xの風邪をひいたときの声とに適応した音響モデル」、「展示会場の騒音と利用者Xが早口で話したときの声とに適応した音響モデル」、「展示会場の騒音と利用者Xがひそひそ話をしたときの声とに適応した音響モデル」、「展示会場の騒音に音響的に近い会場騒音と利用者Xの通常の声とに適応した音響モデル」などを選択する。また、別の選択方法として、スケジュールデータベース421に格納されている利用者Xのスケジュールを参照して適応モデル選択部123は音響モデルを選択する。たとえば利用者Xの今後のスケジュールとして、「工事現場でのアルバイト」、「居酒屋での宴会」、「ヨーロッパ旅行(英語圏およびフランス語圏)」がスケジュールデータベース421に格納されているものとする。この場合、適応モデル選択部123は、利用者Xが今後遭遇する可能性のある状況に適応した音響モデルとして、「工事現場の騒音と利用者Xの通常の声とに適応した音響モデル」、「居酒屋の騒音と利用者Xの通常の声とに適応した音響モデル」、「展示会場の騒音と利用者Xの英語での通常の声とに適応した音響モデル」、「展示会場の騒音と利用者Xのフランス語での通常の声とに適応した音響モデル」などを選択する。
PDA11からの要求信号はサーバ42の受信部121を介して適応モデル選択部123に与えられる。要求信号を受けると適応モデル選択部123は、利用者Xが遭遇する可能性のある状況を予測して当該状況に適応した音響モデルをデータ蓄積部124から選択する。具体的には次のようにして選択する。上述のステップST10101〜ST10104では展示会場の騒音と利用者Xの通常の声とに適応した音響モデルを適応モデルとしてPDAのメモリ114にダウンロードしている。これをふまえて適応モデル選択部123は、利用者Xが今後遭遇する可能性のある状況に適応した音響モデルとして、「展示会場の騒音と利用者Xの風邪をひいたときの声とに適応した音響モデル」、「展示会場の騒音と利用者Xが早口で話したときの声とに適応した音響モデル」、「展示会場の騒音と利用者Xがひそひそ話をしたときの声とに適応した音響モデル」、「展示会場の騒音に音響的に近い会場騒音と利用者Xの通常の声とに適応した音響モデル」などを選択する。また、別の選択方法として、スケジュールデータベース421に格納されている利用者Xのスケジュールを参照して適応モデル選択部123は音響モデルを選択する。たとえば利用者Xの今後のスケジュールとして、「工事現場でのアルバイト」、「居酒屋での宴会」、「ヨーロッパ旅行(英語圏およびフランス語圏)」がスケジュールデータベース421に格納されているものとする。この場合、適応モデル選択部123は、利用者Xが今後遭遇する可能性のある状況に適応した音響モデルとして、「工事現場の騒音と利用者Xの通常の声とに適応した音響モデル」、「居酒屋の騒音と利用者Xの通常の声とに適応した音響モデル」、「展示会場の騒音と利用者Xの英語での通常の声とに適応した音響モデル」、「展示会場の騒音と利用者Xのフランス語での通常の声とに適応した音響モデル」などを選択する。
[ステップST10113]
上述のようにして選択された音響モデル(適応モデル)と当該モデルに対応するGMMとがサーバ42の送信部122からPDA11に送信される。PDA11の受信部113は、サーバ42から送信された適応モデルおよびGMMを受信する。受信部113によって受信された適応モデルおよびGMMはメモリ114に蓄積される。ここでは、すでにメモリ114に蓄積されている音響モデルおよびGMMに加えて新たにダウンロードされた音響モデルおよびGMMがメモリ114に追加される。このようにしてメモリ114に蓄積された音響モデルおよびGMMの一例を図6に示す。
上述のようにして選択された音響モデル(適応モデル)と当該モデルに対応するGMMとがサーバ42の送信部122からPDA11に送信される。PDA11の受信部113は、サーバ42から送信された適応モデルおよびGMMを受信する。受信部113によって受信された適応モデルおよびGMMはメモリ114に蓄積される。ここでは、すでにメモリ114に蓄積されている音響モデルおよびGMMに加えて新たにダウンロードされた音響モデルおよびGMMがメモリ114に追加される。このようにしてメモリ114に蓄積された音響モデルおよびGMMの一例を図6に示す。
[ステップST10114]
音声認識部115は、メモリ114に蓄積された適応モデルを用いて音声認識を行う。ステップST10102において音響モデルを取得すると利用者が判断した場合には、ステップST10103においてサーバ42からダウンロードした適応モデルを用いて音声認識が行われる。ステップST10102において音響モデルを取得しないと利用者が判断した場合には、すでにメモリ114に蓄積されている適応モデルを用いて音声認識が行われる。
音声認識部115は、メモリ114に蓄積された適応モデルを用いて音声認識を行う。ステップST10102において音響モデルを取得すると利用者が判断した場合には、ステップST10103においてサーバ42からダウンロードした適応モデルを用いて音声認識が行われる。ステップST10102において音響モデルを取得しないと利用者が判断した場合には、すでにメモリ114に蓄積されている適応モデルを用いて音声認識が行われる。
次に利用者Xは、アルバイトをしている工事現場で音声認識を利用する。利用者Xは、工事現場における利用者Xの音声データをPDA11のマイク111を用いて入力する(ST10101)。利用者Xは適応モデルのダウンロードを要求しない(ST10102)。音声認識部115は、入力された音声データをメモリ114に蓄積されている各GMMに入力し、当該音声データとの尤度が最大のGMMに対応した適応モデルを選択する(ST10111)。音声認識部115は、選択した適応モデルを用いて音声認識を行う(ST10114)。
次に、利用者Xのアルバイト先の友達である利用者YがPDA11を工事現場で利用する。利用者Yは、工事現場における利用者Yの音声データをPDA11のマイク111を用いて入力する(ST10101)。利用者Yは適応モデルのダウンロードを要求する(ST10102)。工事現場の騒音と利用者Yの通常の声とに適応した音響モデル(適応モデル)および当該モデルのGMMがPDA11のメモリ114にダウンロードされる(ST10103〜ST10104)。また、利用者Yは、将来必要であろう適応モデルを要求しない(ST10111)。利用者Yは、メモリ114にダウンロードした適応モデルを用いて音声認識部115により認識を行う(ST10114)。
<効果>
第2の実施形態による音声認識システムによれば、第1の実施形態において得られた効果に加えて以下の効果が得られる。
第2の実施形態による音声認識システムによれば、第1の実施形態において得られた効果に加えて以下の効果が得られる。
遭遇する可能性のある状況を予測して当該状況の適応モデルを事前にPDA11のメモリ114に蓄積するため、PDA11の利用者はサーバ42に通信することなく適応モデルを利用できる。また、PDA11のメモリ114には複数の利用者の適応モデルを蓄積することができるため、PDA11の複数の利用者がサーバに通信することなく適応モデルを利用できる。
<変形例>
なお、ここでは、将来利用するであろう適応モデルをPDA11の利用者の判断に従って取得したが、サーバ42の適応モデル選択部123に自動的に取得させてもよい。たとえば、スケジュールデータベース421に格納されている利用者のスケジュールを参照して次のように取得する。PDA11の利用者Xのスケジュールが「10時から工事現場でのアルバイト」となっている場合を例にする。この場合には、10時より所定時間前の時刻たとえば9時50分に適応モデル選択部123は、「工事現場の騒音と利用者Xの通常の声とに適応した音響モデル」をデータ蓄積部124から選択する。選択されたモデルは送信部122によってPDA11に送信され、メモリ114に蓄積される。これにより、アルバイト開始時刻の10時には「工事現場の騒音と利用者Xの通常の声とに適応した音響モデル」を利用した音声認識をPDA11で行うことができる。また、PDA11にGPS機能が搭載されている場合には、PDA11を携帯した利用者Xがアルバイト先の工事現場にある程度近づいた時点で適応モデル選択部123によって「工事現場の騒音と利用者Xの通常の声とに適応した音響モデル」をデータ蓄積部124から選択してもよい。
なお、ここでは、将来利用するであろう適応モデルをPDA11の利用者の判断に従って取得したが、サーバ42の適応モデル選択部123に自動的に取得させてもよい。たとえば、スケジュールデータベース421に格納されている利用者のスケジュールを参照して次のように取得する。PDA11の利用者Xのスケジュールが「10時から工事現場でのアルバイト」となっている場合を例にする。この場合には、10時より所定時間前の時刻たとえば9時50分に適応モデル選択部123は、「工事現場の騒音と利用者Xの通常の声とに適応した音響モデル」をデータ蓄積部124から選択する。選択されたモデルは送信部122によってPDA11に送信され、メモリ114に蓄積される。これにより、アルバイト開始時刻の10時には「工事現場の騒音と利用者Xの通常の声とに適応した音響モデル」を利用した音声認識をPDA11で行うことができる。また、PDA11にGPS機能が搭載されている場合には、PDA11を携帯した利用者Xがアルバイト先の工事現場にある程度近づいた時点で適応モデル選択部123によって「工事現場の騒音と利用者Xの通常の声とに適応した音響モデル」をデータ蓄積部124から選択してもよい。
また、ここではスケジュールデータベース421をサーバ42内に設けたがこれをPDA11内に設けてもよい。
また、適応モデル選択部123によって選択された適応モデルに対応するGMMはPDA11にダウンロードせずに、PDA11のメモリ114からの適応モデルの選択の際に適応モデルそのものを用いてもよい。
また、ステップST10101において音声入力を行うときに利用者の名前を入力し、ダウンロードした適応モデルと利用者の名前を対応づけておく。そしてステップST10114において適応モデルを選択する際に利用者の名前を入力することによって選択してもよい。
また、サーバ42をテレビまたはセットトップボックスとしPDA11(端末)をテレビのリモコンとするなどのように、サーバと端末を空間的に近くに存在させてもよい。
(第3の実施形態)
<音声認識システムの構成>
第3の実施形態による音声認識システムの全体構成を図7に示す。この音声認識システムは、携帯電話21と、サーバ22とを備える。携帯電話21およびサーバ22は通信路231を介して互いにデータのやりとりをする。
<音声認識システムの構成>
第3の実施形態による音声認識システムの全体構成を図7に示す。この音声認識システムは、携帯電話21と、サーバ22とを備える。携帯電話21およびサーバ22は通信路231を介して互いにデータのやりとりをする。
携帯電話21は、データ入力部211と、送信部212と、受信部213と、メモリ214と、音声認識部215とを備える。データ入力部211は、携帯電話21の利用者の音声や携帯電話21の周りの雑音などの情報を入力するためのものである。データ入力部211は、音声発声ボタンと、マイクとを含む。音声発声ボタンは、利用者の音声と環境雑音とを区別して入力するためのボタンである。マイクは、携帯電話21の利用者の音声や携帯電話21の周りの雑音などを入力する。送信部212は、データ入力部211によって入力されたデータをサーバ22に送信する。受信部213は、サーバ22から送信された適応モデルを受信する。受信部213によって受信された適応モデルはメモリ214に蓄積される。音声認識部215は、メモリ214に蓄積された適応モデルを利用して音声認識を行う。
サーバ22は、受信部221と、送信部222と、適応モデル作成部223と、データ蓄積部224と、スケジュールデータベース421とを備える。データ蓄積部224には適応モデル作成用データが蓄積される。適応モデル作成用データには、複数の音響モデルおよびこれらに対応するGMMと、複数の話者の発声データとが含まれている。受信部221は、携帯電話21から送信されたデータを受信する。適応モデル作成部223は、受信部221によって受信されたデータおよびデータ蓄積部224に蓄積されたデータに基づいて適応モデルを作成する。送信部222は、適応モデル作成部223によって作成された適応モデルを携帯電話21に送信する。
<音声認識システムの動作>
次に、以上のように構成された音声認識システムの動作について図8を参照しつつ説明する。ここでは、利用者が電車内で携帯電話21を利用する場合を例にして説明する。
次に、以上のように構成された音声認識システムの動作について図8を参照しつつ説明する。ここでは、利用者が電車内で携帯電話21を利用する場合を例にして説明する。
[ステップST10201]
携帯電話21の利用者は、携帯電話21に装着されたマイクおよび音声発声ボタン211を利用して、利用者が発声しているときのデータと、発声していないときの周囲雑音のデータとを区別して入力する。利用者は、音声発声ボタンを押しながら発声することで利用者の音声をマイクに入力する。また、音声発声ボタンを押さなければマイクから周囲雑音が入力される。利用者の発声データとして電車が停車時の利用者の音声を入力し、周囲雑音として電車が動いているときの騒音と周りの人の声を入力する。
携帯電話21の利用者は、携帯電話21に装着されたマイクおよび音声発声ボタン211を利用して、利用者が発声しているときのデータと、発声していないときの周囲雑音のデータとを区別して入力する。利用者は、音声発声ボタンを押しながら発声することで利用者の音声をマイクに入力する。また、音声発声ボタンを押さなければマイクから周囲雑音が入力される。利用者の発声データとして電車が停車時の利用者の音声を入力し、周囲雑音として電車が動いているときの騒音と周りの人の声を入力する。
[ステップST10202]
携帯電話21は、音響モデルを取得するか否かの判断を利用者に促す。音響モデルを取得すると利用者が判断したときは、ステップST10201においてデータ入力部211から入力されたデータが携帯電話21の送信部212によってサーバ22に送信される。そしてステップST10203にすすむ。一方、音響モデルを取得しないと利用者が判断したときはサーバ22への送信は行わずにステップST10214にすすむ。
携帯電話21は、音響モデルを取得するか否かの判断を利用者に促す。音響モデルを取得すると利用者が判断したときは、ステップST10201においてデータ入力部211から入力されたデータが携帯電話21の送信部212によってサーバ22に送信される。そしてステップST10203にすすむ。一方、音響モデルを取得しないと利用者が判断したときはサーバ22への送信は行わずにステップST10214にすすむ。
[ステップST10203]
サーバ22の受信部221は、携帯電話21から送信された利用者の音声と周囲雑音とを受信する。
サーバ22の受信部221は、携帯電話21から送信された利用者の音声と周囲雑音とを受信する。
適応モデル作成部223は、データ蓄積部224に蓄積されている音響モデルのうち少なくとも2個の音響モデルと受信部221が受信したデータとに基づいて、携帯電話21側の利用環境に適応化した適応モデルを作成する。
適応モデル作成部223は、環境雑音適応アルゴリズム(山田実一,馬場朗,芳澤伸一,米良祐一郎,李晃伸,猿渡洋,鹿野清宏,”環境雑音アルゴリズムの大語彙連続音声認識による評価”,情報処理学会研究報告書,2000−SLP−35,pp.31−36,2001)を利用して適応モデルを作成する。以下、環境雑音適応アルゴリズムを利用した適応モデルの作成について図9を参照しつつ説明する。サーバ22のデータ蓄積部224には、複数の音響モデルと複数の話者の発声データとがあらかじめ蓄積されている。環境雑音適応アルゴリズムでは、発声データにより、充足統計量と話者距離を用いて話者適応を行う。充足統計量と話者距離による適応化方法では、短時間の利用者の発声データに音響的に近い話者の音響モデルをデータ蓄積部224より選択し(ST73)、選択した音響モデルを用いて充足統計量と話者距離による適応化法により話者適応を行う(ST71)。携帯電話21から受信した雑音を含まない発声データにより話者適応を行うことで、高精度に話者適応を行うことができる。そのあとに、短時間の利用者の発声データに音響的に近い話者の発声データをデータ蓄積部224より選択し(ST74)、選択された発声データに携帯電話21から受信した周囲雑音のデータを付加した雑音付加データを生成する。そして雑音付加データによりMLLRを用いて雑音適応を行う(ST72)。このようにして適応モデルが作成される。
[ステップST10204]
適応モデル作成部223によって作成された適応モデル233は送信部222によって携帯電話21の受信部213に送信される。携帯電話21の受信部213が受信した適応モデル233はメモリ214に蓄積される。ここでは、すでにメモリ214に蓄積されている音響モデルおよびGMMに加えて新たにダウンロードされた音響モデルおよびGMMがメモリ214に追加される。
適応モデル作成部223によって作成された適応モデル233は送信部222によって携帯電話21の受信部213に送信される。携帯電話21の受信部213が受信した適応モデル233はメモリ214に蓄積される。ここでは、すでにメモリ214に蓄積されている音響モデルおよびGMMに加えて新たにダウンロードされた音響モデルおよびGMMがメモリ214に追加される。
[ステップST10211]
携帯電話21は、将来利用するであろう適応モデルを取得するか否かの判断を利用者に促す。取得すると利用者が判断したときは携帯電話21の送信部212からサーバ22に要求信号が送信され、ステップST10212にすすむ。一方、取得しないと利用者が判断したときは要求信号は送信されずにステップST10214にすすむ。
携帯電話21は、将来利用するであろう適応モデルを取得するか否かの判断を利用者に促す。取得すると利用者が判断したときは携帯電話21の送信部212からサーバ22に要求信号が送信され、ステップST10212にすすむ。一方、取得しないと利用者が判断したときは要求信号は送信されずにステップST10214にすすむ。
[ステップST10212]
携帯電話21からの要求信号を受けると適応モデル作成部223は、利用者が遭遇する可能性のある状況を予測して当該状況に適応した音響モデルを作成する。作成すべき音響モデルの選択は、図5に示したステップST10112において説明したのと同様に行う。モデルの作成は、上述のステップST10203において説明したのと同様にして行う。
携帯電話21からの要求信号を受けると適応モデル作成部223は、利用者が遭遇する可能性のある状況を予測して当該状況に適応した音響モデルを作成する。作成すべき音響モデルの選択は、図5に示したステップST10112において説明したのと同様に行う。モデルの作成は、上述のステップST10203において説明したのと同様にして行う。
[ステップST10213]
上述のようにして作成された音響モデル(適応モデル)と当該モデルに対応するGMMとがサーバ22の送信部222から携帯電話21に送信される。携帯電話21の受信部213は、サーバ22から送信された適応モデルおよびGMMを受信する。受信部213によって受信された適応モデルおよびGMMはメモリ214に蓄積される。ここでは、すでにメモリ214に蓄積されている音響モデルおよびGMMに加えて新たにダウンロードされた音響モデルおよびGMMがメモリ214に追加される。
上述のようにして作成された音響モデル(適応モデル)と当該モデルに対応するGMMとがサーバ22の送信部222から携帯電話21に送信される。携帯電話21の受信部213は、サーバ22から送信された適応モデルおよびGMMを受信する。受信部213によって受信された適応モデルおよびGMMはメモリ214に蓄積される。ここでは、すでにメモリ214に蓄積されている音響モデルおよびGMMに加えて新たにダウンロードされた音響モデルおよびGMMがメモリ214に追加される。
[ステップST10214]
音声認識部215は、図5に示したステップST10114において説明したのと同様にして、メモリ214に蓄積された適応モデルを用いて音声認識を行う。
音声認識部215は、図5に示したステップST10114において説明したのと同様にして、メモリ214に蓄積された適応モデルを用いて音声認識を行う。
<効果>
以上説明したように第3の実施形態によれば、遭遇する可能性のある(実際に遭遇しない場合が多い)すべての状況に対応した適応モデルを携帯電話21のメモリ214に蓄積しておく必要はなく、遭遇した状況に適した適応モデルをサーバ22から獲得して蓄積しておけばよいため、携帯電話21のメモリ214の容量を削減することができる。
以上説明したように第3の実施形態によれば、遭遇する可能性のある(実際に遭遇しない場合が多い)すべての状況に対応した適応モデルを携帯電話21のメモリ214に蓄積しておく必要はなく、遭遇した状況に適した適応モデルをサーバ22から獲得して蓄積しておけばよいため、携帯電話21のメモリ214の容量を削減することができる。
また、携帯電話21の利用者は、携帯電話21の周囲の雑音・利用者の話者性・利用者の声の性質などに適応化した適応モデルにより音声認識をすることができるため、高い認識率を獲得することができる。
また、サーバ22において、携帯電話21側の状況を考慮して適応モデルを作成することができるため、携帯電話21の利用状況にさらに適応化した適応モデルを携帯電話21に送信することができる。
<変形例>
なお、利用者の音声データと利用者が発声していないときの周囲雑音のデータとを区別する方法として、音声識別モデルと雑音識別モデルとを利用して自動的に行ってもよい。
なお、利用者の音声データと利用者が発声していないときの周囲雑音のデータとを区別する方法として、音声識別モデルと雑音識別モデルとを利用して自動的に行ってもよい。
また、音響モデルはHMMに限らない。
また、適応モデル作成部223において、充足統計量と話者距離を用いた方法(芳澤伸一,馬場朗,松浪加奈子,米良祐一郎,山田実一,鹿野清宏,”充足統計量と話者距離を用いた音韻モデルの教師なし学習”,信学技報,SP2000−89,pp.83−88,2000)に改良を加えて、複数の話者に関する音響モデルの代わりに、複数の話者と雑音に関する音響モデルとそれらの音響モデルに付随するGMMにより適応化を行う方法を利用してもよい。
また、適応モデル作成部223において、MAP推定やMLLRの改良法など、音響モデルを利用した他の適応化手法を用いてもよい。
また、携帯電話21側の情報232として、「音響モデルを取得」などの発声テキストデータをサーバ22に送信して利用してもよい。
また、携帯電話21側の情報232として、発声データを変換したケプストラム係数などの特徴量をサーバ22に送信してもよい。
また、端末装置としての携帯電話21に代えて、テレビやパソコンやカーナビゲーションシステムなどの据え置き型の端末などを用いてもよい。
また、通信路は、電話回線、インターネット回線、ケーブルテレビの回線など有線、通信網、BS/CSデジタル放送や地上波デジタル放送などの放送網であってもよい。
また、サーバ22をテレビまたはセットトップボックスとし携帯電話21(端末)をテレビのリモコンとするなどのように、サーバと端末を空間的に近くに存在させてもよい。
(第4の実施の形態)
<音声認識システムの構成>
第4の実施形態による音声認識システムの全体構成を図10に示す。この音声認識システムは、携帯端末31と、サーバ32とを備える。携帯端末31およびサーバ32は通信路331を介して互いにデータのやりとりをする。
<音声認識システムの構成>
第4の実施形態による音声認識システムの全体構成を図10に示す。この音声認識システムは、携帯端末31と、サーバ32とを備える。携帯端末31およびサーバ32は通信路331を介して互いにデータのやりとりをする。
携帯端末31は、データ入力部311と、送信部312と、受信部313と、メモリ314と、適応モデル作成部316と、音声認識部315とを備える。データ入力部311は、携帯端末31の利用者の音声や携帯端末31の周りの雑音などの情報を入力するためのものである。データ入力部311は、マイクと、ウェブブラウザとを含む。マイクは、利用者の音声と環境雑音を入力する。ウェブブラウザは、利用者の音声と環境雑音とに関する情報を入力する。送信部312は、データ入力部311で入力されたデータをサーバ32に送信する。受信部313は、サーバ32から送信された適応モデル作成用データを受信する。受信部313によって受信された適応モデル作成用データはメモリ314に蓄積される。適応モデル作成部316は、メモリ314に蓄積された適応モデル作成用データを利用して適応モデルを作成する。音声認識部315は、適応モデル作成部316によって作成された適応モデルを利用して音声認識を行う。また、メモリ314には、さまざまな状況(環境)における特徴的な音のデータが記憶されている。たとえば、スーパーマーケットや展示会場などの場所における特徴的な音、自動車・地下鉄などの特徴的な音のデータが記憶されている。これらのデータは、携帯端末31による音声認識処理を行う前にあらかじめサーバ32から携帯端末31のメモリ314にダウンロードされている。
サーバ32は、受信部321と、送信部322と、選択部323と、データ蓄積部324と、スケジュールデータベース421とを備える。データ蓄積部324には、複数の音響モデルと当該音響モデルを選択するための選択モデル(GMM)とが蓄積される。受信部321は、携帯端末31から送信されたデータを受信する。選択部323は、携帯端末31の利用環境などに適応化するために必要な適応モデル作成用データをデータ蓄積部324から選択する。送信部322は、選択部323によって選択された適応モデル作成用データを携帯端末31に送信する。
<音声認識システムの動作>
次に、以上のように構成された音声認識システムの動作について図11を参照しつつ説明する。ここでは、利用者がスーパーマーケットで携帯端末31を利用する場合を例として説明する。
次に、以上のように構成された音声認識システムの動作について図11を参照しつつ説明する。ここでは、利用者がスーパーマーケットで携帯端末31を利用する場合を例として説明する。
[ステップST10401]
携帯端末31の利用者は、データ入力部311のマイクにより「今日の献立は何にしようかな」などの音声データを入力する。データ入力部311のウェブブラウザは、図12に示すように、周囲の状況(環境)・声の調子などの情報の入力を促す画面を携帯端末31のタッチパネル上に表示する。携帯端末31の利用者は、ソフトペンなどを用いてタッチパネル上の「スーパーマーケット」の項目と「風邪気味」の項目とにチェックを入れることによって周囲の状況(環境)・声の調子などの情報を入力する。このとき携帯端末31の利用者が「この音を聴く」の項目にチェックを入れると、チェックを入れた状況(環境)における特徴的な音のデータがメモリ314から読み出され再生される。この場合には、スーパーマーケットにおける特徴的な音が再生される。
携帯端末31の利用者は、データ入力部311のマイクにより「今日の献立は何にしようかな」などの音声データを入力する。データ入力部311のウェブブラウザは、図12に示すように、周囲の状況(環境)・声の調子などの情報の入力を促す画面を携帯端末31のタッチパネル上に表示する。携帯端末31の利用者は、ソフトペンなどを用いてタッチパネル上の「スーパーマーケット」の項目と「風邪気味」の項目とにチェックを入れることによって周囲の状況(環境)・声の調子などの情報を入力する。このとき携帯端末31の利用者が「この音を聴く」の項目にチェックを入れると、チェックを入れた状況(環境)における特徴的な音のデータがメモリ314から読み出され再生される。この場合には、スーパーマーケットにおける特徴的な音が再生される。
[ステップST10402]
携帯端末31は、作成用データを取得するか否かの判断を利用者に促す。作成用データを取得すると利用者が判断したときは、ステップST10401において入力された情報332が携帯端末31の送信部312によってサーバ32に送信される。そしてステップST10403にすすむ。一方、作成用データを取得しないと利用者が判断したときはサーバ32への送信は行わずにステップST10408にすすむ。
携帯端末31は、作成用データを取得するか否かの判断を利用者に促す。作成用データを取得すると利用者が判断したときは、ステップST10401において入力された情報332が携帯端末31の送信部312によってサーバ32に送信される。そしてステップST10403にすすむ。一方、作成用データを取得しないと利用者が判断したときはサーバ32への送信は行わずにステップST10408にすすむ。
[ステップST10403]
サーバ32のデータ蓄積部324には、図3に示したように、複数の音響モデルと複数のGMMとが対応づけられて事前に蓄えられている。
サーバ32のデータ蓄積部324には、図3に示したように、複数の音響モデルと複数のGMMとが対応づけられて事前に蓄えられている。
サーバ32の受信部321は、携帯端末31から送信された携帯端末側の情報332を受信する。選択部323は、受信された携帯端末側の情報332に基づいて、少なくとも2つの音響モデルおよび当該モデルに対応するGMMをデータ蓄積部324に蓄積されている音響モデルおよびGMMから選択する。選択部323によって選択された音響モデルおよびGMMを「適応モデル作成用データ」とする。ここでは、選択部323は、第1の実施の形態における適応モデル選択部123と基本的に同様な方法を用いており、短時間の利用者の発声に基づいて適応モデル作成用データを選択する。ただし、携帯端末側の情報332のうちタッチパネルによって入力された情報を利用して、選択される音響モデルに制約をかける。なお、ここでいう制約とはフィルタリングの意味である。たとえばタッチパネルによって入力された情報が「風邪気味」と「スーパーマーケット」であれば、「風邪気味」と「スーパーマーケット」に関連する音響モデルに付随するGMMのみを用いて選択を行う。
[ステップST10404]
送信部322は、選択部323によって選択された適応モデル作成用データ333を携帯端末31に送信する。
送信部322は、選択部323によって選択された適応モデル作成用データ333を携帯端末31に送信する。
携帯端末31の受信部313によって受信された適応モデル作成用データ333はメモリ314に蓄積される。ここでは、すでにメモリ314に蓄積されている適応モデル作成用データに加えて新たにダウンロードされた適応モデル作成用データがメモリ314に追加される。
[ステップST10405]
携帯端末31は、将来利用するであろう適応モデルを作成するための適応モデル作成用データを取得するか否かの判断を利用者に促す。取得すると利用者が判断したときは携帯端末31の送信部312からサーバ32に要求信号が送信され、ステップST10406にすすむ。一方、取得しないと利用者が判断したときは要求信号は送信されずにステップST10408にすすむ。
携帯端末31は、将来利用するであろう適応モデルを作成するための適応モデル作成用データを取得するか否かの判断を利用者に促す。取得すると利用者が判断したときは携帯端末31の送信部312からサーバ32に要求信号が送信され、ステップST10406にすすむ。一方、取得しないと利用者が判断したときは要求信号は送信されずにステップST10408にすすむ。
[ステップST10406]
携帯端末31からの要求信号を受けると選択部323は、利用者が遭遇する可能性のある状況を予測し、当該状況に適応した音響モデルを作成するための適応モデル作成用データ(少なくとも2つの音響モデルおよび当該モデルに対応するGMM)をデータ蓄積部324から選択する。作成すべき音響モデルの選択は、図5に示したステップST10112において説明したのと同様に行う。適応モデル作成用データの選択は、上述のステップST10403において説明したのと同様にして行う。
携帯端末31からの要求信号を受けると選択部323は、利用者が遭遇する可能性のある状況を予測し、当該状況に適応した音響モデルを作成するための適応モデル作成用データ(少なくとも2つの音響モデルおよび当該モデルに対応するGMM)をデータ蓄積部324から選択する。作成すべき音響モデルの選択は、図5に示したステップST10112において説明したのと同様に行う。適応モデル作成用データの選択は、上述のステップST10403において説明したのと同様にして行う。
[ステップST10407]
上述のようにして選択された適応モデル作成用データがサーバ32の送信部322から携帯端末31に送信される。携帯端末31の受信部313は、サーバ32から送信された適応モデル作成用データを受信する。受信部313によって受信された適応モデル作成用データはメモリ314に蓄積される。ここでは、すでにメモリ314に蓄積されている適応モデル作成用データに加えて新たにダウンロードされた適応モデル作成用データがメモリ314に追加される。
上述のようにして選択された適応モデル作成用データがサーバ32の送信部322から携帯端末31に送信される。携帯端末31の受信部313は、サーバ32から送信された適応モデル作成用データを受信する。受信部313によって受信された適応モデル作成用データはメモリ314に蓄積される。ここでは、すでにメモリ314に蓄積されている適応モデル作成用データに加えて新たにダウンロードされた適応モデル作成用データがメモリ314に追加される。
[ステップST10408]
適応モデル作成部316は、現在までにメモリ314に蓄積された適応モデル作成用データを用いて適応モデルを作成する。ここでは、充足統計量と話者距離を用いた方法(芳澤伸一,馬場朗,松浪加奈子,米良祐一郎,山田実一,鹿野清宏,”充足統計量と話者距離を用いた音韻モデルの教師なし学習”,信学技報,SP2000−89,pp.83−88,2000)に基づいて適応モデルを作成する。適応モデル作成部316は、サーバ32の選択部323と同様にして、データ入力部311のマイクより入力された音声データに基づいてメモリ314から複数の音響モデルを選択する。選択された音響モデルは、現在の利用環境における周囲の雑音と話者に最も適合した複数のモデルである。選択された複数の音響モデル(HMM)の平均・分散・遷移確率・EMカウントを用いて統計計算により適応モデルを作成する。適応モデルであるHMMの平均・分散・遷移確率は、選択された音響モデル全体でのHMMの各状態の各混合分布の平均・分散と、選択された音響モデル全体での遷移確率となる。具体的な計算方法を以下の数1−数3に示す。適応モデルのHMMの各状態における正規分布の平均,分散をそれぞれ、μi adp(i=1,2,・・,Nmix)、vi adp(i=1,2,・・,Nmix)とする。ここでNmixは混合分布数である。また、状態遷移確率をaadp[i][j](i,j=1,2,・・・,Nstate)とする。ここでNstateは状態数であり、aadp[i][j]は状態iから状態jへの遷移確率を表す。
適応モデル作成部316は、現在までにメモリ314に蓄積された適応モデル作成用データを用いて適応モデルを作成する。ここでは、充足統計量と話者距離を用いた方法(芳澤伸一,馬場朗,松浪加奈子,米良祐一郎,山田実一,鹿野清宏,”充足統計量と話者距離を用いた音韻モデルの教師なし学習”,信学技報,SP2000−89,pp.83−88,2000)に基づいて適応モデルを作成する。適応モデル作成部316は、サーバ32の選択部323と同様にして、データ入力部311のマイクより入力された音声データに基づいてメモリ314から複数の音響モデルを選択する。選択された音響モデルは、現在の利用環境における周囲の雑音と話者に最も適合した複数のモデルである。選択された複数の音響モデル(HMM)の平均・分散・遷移確率・EMカウントを用いて統計計算により適応モデルを作成する。適応モデルであるHMMの平均・分散・遷移確率は、選択された音響モデル全体でのHMMの各状態の各混合分布の平均・分散と、選択された音響モデル全体での遷移確率となる。具体的な計算方法を以下の数1−数3に示す。適応モデルのHMMの各状態における正規分布の平均,分散をそれぞれ、μi adp(i=1,2,・・,Nmix)、vi adp(i=1,2,・・,Nmix)とする。ここでNmixは混合分布数である。また、状態遷移確率をaadp[i][j](i,j=1,2,・・・,Nstate)とする。ここでNstateは状態数であり、aadp[i][j]は状態iから状態jへの遷移確率を表す。
ここで、Nselは選択された音響モデルの数であり、
μi j(i=1,2,・・・,Nmix,j=1,2,・・・,Nsel)、
vi j(i=1,2,・・・,Nmix,j=1,2,・・・,Nsel)
はそれぞれの音響モデルの平均,分散である。
また、
Cj mix(j=1,2,・・・,Nsel)、
Ck state[i][j](k=1,2,・・・,Nsel,i,j=1,2,・・・,Nstate)
はそれぞれ正規分布におけるE−Mカウント(度数)、状態遷移に関するE−Mカウントである。
μi j(i=1,2,・・・,Nmix,j=1,2,・・・,Nsel)、
vi j(i=1,2,・・・,Nmix,j=1,2,・・・,Nsel)
はそれぞれの音響モデルの平均,分散である。
また、
Cj mix(j=1,2,・・・,Nsel)、
Ck state[i][j](k=1,2,・・・,Nsel,i,j=1,2,・・・,Nstate)
はそれぞれ正規分布におけるE−Mカウント(度数)、状態遷移に関するE−Mカウントである。
[ステップST10409]
音声認識部315は、適応モデル作成部316によって作成された適応モデルを用いて音声認識を行う。
音声認識部315は、適応モデル作成部316によって作成された適応モデルを用いて音声認識を行う。
<効果>
以上説明したように第4の実施形態によれば、遭遇する可能性のある(実際に遭遇しない場合が多い)すべての状況に対応した適応モデル作成用データを携帯端末31のメモリ314に蓄積しておく必要はなく、遭遇した状況に適応化するための適応モデル作成用データをサーバ32から獲得して蓄積しておけばよいため、携帯端末31のメモリ314の容量を削減することができる。
以上説明したように第4の実施形態によれば、遭遇する可能性のある(実際に遭遇しない場合が多い)すべての状況に対応した適応モデル作成用データを携帯端末31のメモリ314に蓄積しておく必要はなく、遭遇した状況に適応化するための適応モデル作成用データをサーバ32から獲得して蓄積しておけばよいため、携帯端末31のメモリ314の容量を削減することができる。
また、携帯端末31の利用者は、携帯端末31の周囲の雑音・利用者の話者性・利用者の声の調子などに適応化した適応モデルにより音声認識をすることができるため、高い認識率を獲得することができる。
また、いったん遭遇した状況の適応モデル作成用データを携帯端末31のメモリ314に蓄積するため、同じ環境に遭遇した場合にサーバ32との通信なしで適応モデルを作成することができる。
<変形例>
なお、図1および図4に示したPDA11ならびに図7に示した携帯電話21の内部に適応モデル作成部316を設け、メモリ114,214,314に蓄積された音響モデルのうち少なくとも2つを用いて適応モデルを作成してもよい。
なお、図1および図4に示したPDA11ならびに図7に示した携帯電話21の内部に適応モデル作成部316を設け、メモリ114,214,314に蓄積された音響モデルのうち少なくとも2つを用いて適応モデルを作成してもよい。
また、複数の利用者の作成用データをメモリ314に蓄積して適応モデルを作成してもよい。この場合、利用者の音声を入力/利用者の名前を指定して特定の利用者の作成用データを選択して適応モデルを作成する。
また、音響モデルはHMMに限らない。
また、携帯端末31の情報332として、発声データを変換したケプストラム係数などの特徴量をサーバ32に送信してもよい。
また、適応モデル作成および音声認識に用いる適応化法は、音響モデルを用いる他の適応化法でもよい。
また、適応モデル作成および音声認識に用いる音声データを入力するマイクは、データ入力部311のマイクと異なるものを用いてもよい。
また、携帯端末31に代えて、テレビやパソコンやカーナビゲーションシステムなどの据え置き型の端末を用いてもよい。
また、通信路は、電話回線、インターネット回線、ケーブルテレビの回線など有線、通信網、BS/CSデジタル放送や地上波デジタル放送などの放送網であってもよい。
また、サーバ32をテレビまたはセットトップボックスとし携帯端末31をテレビのリモコンとするなどのように、サーバと端末を空間的に近くに存在させてもよい。
(第5の実施形態)
<音声認識システムの構成>
第5の実施形態による音声認識システムは、図1に示したPDA11に代えて図13に示すPDA61を備える。その他の構成は図1に示した音声認識システムと同様である。
<音声認識システムの構成>
第5の実施形態による音声認識システムは、図1に示したPDA11に代えて図13に示すPDA61を備える。その他の構成は図1に示した音声認識システムと同様である。
図13に示すPDA61は、図1に示したPDA11の構成に加えてさらに初期設定部601と判断部602とを備える。また、メモリ114には、受信部113によってすでに受信された音響モデルおよび当該音響モデルのGMMがn組(nは正の整数)蓄積されている。初期設定部601は、しきい値Thを判断部602に与える。しきい値Thの値は、初期設定部601が自動的に設定したり利用者の指示に従って初期設定部601が設定したりする。判断部602は、マイク111によって得られた環境雑音が付加された利用者の音声を所定の特徴量に変換し、その特徴量とメモリ114に蓄積されている各音響モデルのGMMとの尤度を初期設定部601からのしきい値Thと比較する。メモリ114に蓄積されているすべての音響モデルについての尤度がしきい値Thよりも小さいとき、判断部602は制御信号を送信部112に与える。判断部602からの制御信号に応答して送信部112は、マイク111によって得られた利用者の音声および環境雑音をサーバ12へ送信する。一方、メモリ114に蓄積されているいずれかの音響モデルについての尤度がしきい値Th以上のとき、判断部602は制御信号を送信部112に与えない。また送信部112はサーバ12への送信を行わない。
<音声認識システムの動作>
次に、以上のように構成された音声認識システムの動作について図14を参照しつつ説明する。
次に、以上のように構成された音声認識システムの動作について図14を参照しつつ説明する。
上述のとおりPDA61のメモリ114には、受信部113によってすでに受信された音響モデルおよび当該音響モデルのGMMがn組(nは正の整数)蓄積されている。
そしてPDA61の初期設定部601によってしきい値Thが決定され判断部602に送信される(ST701)。しきい値Thは、音声認識を利用するアプリケーションに応じて決定される。たとえば初期設定部601は、セキュリティに関するアプリケーション(音声認識により機密情報を処理するようなアプリケーション、音声認識により自動車の運転操作を行うようなアプリケーションなど)を利用する場合にはしきい値Thを大きく設定し、それ以外のアプリケーションを利用する場合にはしきい値Thを小さく設定する。初期設定部601は、利用するアプリケーションが選択されたときにそのアプリケーションに対応したしきい値Thを判断部602に与える。
次に、環境雑音が付加された利用者の音声がPDA61のマイク111により入力される(ST702)。
次に、マイク111によって得られた環境雑音が付加された利用者の音声がPDA61の判断部602によって所定の特徴量に変換される。そしてメモリ114に蓄積されている各音響モデルのGMM(GMM1−GMMn)にその特徴量が入力され、それぞれの尤度が計算される(ST703)。
次に、ステップST703において計算された尤度の最大値がしきい値Thよりも小さいか否かが判断部602によって判断される(ST704)。
メモリ114に蓄積されているすべてのGMM(GMM1−GMMn)についての尤度がしきい値Thよりも小さいとき(yes)、ステップST705にすすむ。そして判断部602は制御信号を送信部112に与える。判断部602からの制御信号に応答して送信部112は、マイク111によって得られた利用者の音声および環境雑音をサーバ12へ送信する(ST705)。サーバ12は、第1の実施形態におけるのと同様にして、当該利用者の音声および環境雑音に最も適合した音響モデルをPDA61に送信する。この音響モデルはPDA61の受信部113によって受信され、メモリ114に蓄積される。そして音声認識部115は、メモリ114に蓄積されたこの音響モデルを用いて音声認識を行う。
一方、ステップST703において計算された尤度のうちいずれかがしきい値Th以上のとき(no)、判断部602は制御信号を送信部112に与えない。したがって送信部112はサーバ12への送信を行わない。そして音声認識部115は、ステップST703において計算された尤度が最も高いGMMの音響モデルを用いて音声認識を行う。
<効果>
以上のように第5の実施形態による音声認識システムでは、環境雑音が付加された利用者の音声とPDA61のメモリ114にあらかじめ蓄積されている音響モデルとの尤度が所定のしきい値よりも小さいときに限り、利用者の音声および環境雑音をPDA61からサーバ12へ送信する。これにより、PDA61とサーバ12との間のデータの送受信を減らすことができる。
以上のように第5の実施形態による音声認識システムでは、環境雑音が付加された利用者の音声とPDA61のメモリ114にあらかじめ蓄積されている音響モデルとの尤度が所定のしきい値よりも小さいときに限り、利用者の音声および環境雑音をPDA61からサーバ12へ送信する。これにより、PDA61とサーバ12との間のデータの送受信を減らすことができる。
<変形例>
なお、図7に示した携帯電話21および図10に示した携帯端末31についても同様に初期設定部601および判断部602を設けてもよい。
なお、図7に示した携帯電話21および図10に示した携帯端末31についても同様に初期設定部601および判断部602を設けてもよい。
また、サーバ12をテレビまたはセットトップボックスとしPDA61(端末)をテレビのリモコンとするなどのように、サーバと端末を空間的に近くに存在させてもよい。
(第6の実施形態)
<音声認識システムの構成>
第6の実施形態による音声認識システムは、図1に示したPDA11に代えて図15に示すPDA81を備える。その他の構成は図1に示した音声認識システムと同様である。
<音声認識システムの構成>
第6の実施形態による音声認識システムは、図1に示したPDA11に代えて図15に示すPDA81を備える。その他の構成は図1に示した音声認識システムと同様である。
図15に示すPDA81は、図1に示したPDA11の構成に加えてさらに判断部801を備える。また、メモリ114には、受信部113によってすでに受信された音響モデルおよび当該音響モデルのGMMがn組(nは正の整数)蓄積されている。判断部801は、マイク111によって得られた環境雑音が付加された利用者の音声を所定の特徴量に変換し、その特徴量とメモリ114に蓄積されている各音響モデルのGMMとの尤度を所定のしきい値と比較する。メモリ114に蓄積されているすべての音響モデルについての尤度がしきい値よりも小さいとき、判断部801は、音響モデルをダウンロードするか否かの判断を利用者に促す。音響モデルをダウンロードすべきであると利用者が判断したとき送信部112は、マイク111によって得られた利用者の音声および環境雑音をサーバ12へ送信する。音響モデルをダウンロードすべきではないと利用者が判断したとき送信部112はサーバ12への送信を行わない。また、メモリ114に蓄積されているいずれかの音響モデルについての尤度がしきい値以上のときも送信部112はサーバ12への送信を行わない。
<音声認識システムの動作>
次に、以上のように構成された音声認識システムの動作について図16を参照しつつ説明する。
次に、以上のように構成された音声認識システムの動作について図16を参照しつつ説明する。
上述のとおりPDA81のメモリ114には、受信部113によってすでに受信された音響モデルおよび当該音響モデルのGMMがn組(nは正の整数)蓄積されている。
そして、環境雑音が付加された利用者の音声がPDA81のマイク111により入力される(ST901)。
次に、マイク111によって得られた環境雑音が付加された利用者の音声がPDA81の判断部801によって所定の特徴量に変換される。そしてメモリ114に蓄積されている各音響モデルのGMM(GMM1−GMMn)にその特徴量が入力され、それぞれの尤度が計算される(ST902)。
次に、ステップST902において計算された尤度の最大値が所定のしきい値よりも小さいか否かが判断部801によって判断される(ST903)。
メモリ114に蓄積されているすべてのGMM(GMM1−GMMn)についての尤度がしきい値よりも小さいとき(yes)、ステップST904にすすむ。そして判断部801は、音響モデルをダウンロードするか否かの判断を利用者に促す(ST904)。音響モデルをダウンロードすべきであると利用者が判断したとき(yes)、送信部112は、マイク111によって得られた利用者の音声および環境雑音をサーバ12へ送信する(ST905)。サーバ12は、第1の実施形態におけるのと同様にして、当該利用者の音声および環境雑音に最も適合した音響モデルをPDA81に送信する。この音響モデルはPDA81の受信部113によって受信され、メモリ114に蓄積される。そして音声認識部115は、メモリ114に蓄積されたこの音響モデルを用いて音声認識を行う。
一方、ステップST902において計算された尤度のうちいずれかがしきい値以上のとき(ステップST903においてno)、および、音響モデルをダウンロードすべきではないと利用者が判断したとき(ステップST904においてno)、送信部112はサーバ12への送信を行わない。そして音声認識部115は、ステップST902において計算された尤度が最も高いGMMの音響モデルを用いて音声認識を行う。
<効果>
以上のように第6の実施形態による音声認識システムでは、環境雑音が付加された利用者の音声とPDA81のメモリ114にあらかじめ蓄積されている音響モデルとの尤度が所定のしきい値よりも小さいときであって音響モデルをダウンロードすべきであると利用者が判断したときに限り、利用者の音声および環境雑音をPDA81からサーバ12へ送信する。これにより、PDA81とサーバ12との間のデータの送受信を減らすことができる。
以上のように第6の実施形態による音声認識システムでは、環境雑音が付加された利用者の音声とPDA81のメモリ114にあらかじめ蓄積されている音響モデルとの尤度が所定のしきい値よりも小さいときであって音響モデルをダウンロードすべきであると利用者が判断したときに限り、利用者の音声および環境雑音をPDA81からサーバ12へ送信する。これにより、PDA81とサーバ12との間のデータの送受信を減らすことができる。
<変形例>
なお、図7に示した携帯電話21および図10に示した携帯端末31についても同様に判断部801を設けてもよい。
なお、図7に示した携帯電話21および図10に示した携帯端末31についても同様に判断部801を設けてもよい。
また、サーバ12をテレビまたはセットトップボックスとしPDA81(端末)をテレビのリモコンとするなどのように、サーバと端末を空間的に近くに存在させてもよい。
(第7の実施形態)
<音声認識システムの構成>
第7の実施形態による音声認識システムの構成を図17に示す。この音声認識システムは、図7に示した携帯電話21に代えて携帯電話101を備える。その他の構成は図7に示した音声認識システムと同様である。
<音声認識システムの構成>
第7の実施形態による音声認識システムの構成を図17に示す。この音声認識システムは、図7に示した携帯電話21に代えて携帯電話101を備える。その他の構成は図7に示した音声認識システムと同様である。
図17に示す携帯電話101は、図7に示した携帯電話21の構成に加えてさらにメモリ1001を備える。メモリ1001には、データ入力部211により入力された利用者の音声および環境雑音が蓄積される。送信部212は、メモリ1001に蓄積されている利用者の音声と環境雑音とをサーバ22へ送信する。
<音声認識システムの動作>
次に、以上のように構成された音声認識システムの動作について図18を参照しつつ説明する。
次に、以上のように構成された音声認識システムの動作について図18を参照しつつ説明する。
静かな環境での利用者の音声を利用して適応モデルを作成する場合、雑音が重畳した音声を利用して適応モデルを作成する場合と比較して高精度の適応モデルが作成できる。携帯電話101を持ち歩いた場合、多くの時間帯において自動車の騒音・周囲の人の話し声・オフィス内でのファンの音などの雑音が存在する。しかし、公園などで休憩をしている間など、ある時間帯において周囲雑音がきわめて少ない場合がある。そのタイミングで携帯電話101の利用者は音声発声ボタンを押しながら発声する。これにより、静かな環境での利用者の音声がメモリ1001に蓄積される(ST1101)。
利用者が音声認識機能を利用しようとすると、携帯電話101は、音響モデルをダウンロードするか否かの判断を利用者に促す(ST1102)。音響モデルをダウンロードすべきであると利用者が判断したとき(yes)、利用者は音声発声ボタンを押さずに環境雑音をマイクにより入力する。マイクにより入力された環境雑音はメモリ1001に蓄積される(ST1103)。
次に送信部212は、メモリ1001に蓄積された利用者の音声および環境雑音をサーバ22へ送信する(ST1104)。サーバ22は、第3の実施形態におけるのと同様にして、当該利用者の音声および環境雑音に最も適合した音響モデルを携帯電話101に送信する。この音響モデルは携帯電話101の受信部213によって受信され、メモリ214に蓄積される。そして音声認識部215は、メモリ214に蓄積されたこの音響モデルを用いて音声認識を行う。
<効果>
第7の実施形態による音声認識システムでは、携帯電話101にメモリ1001を設けたため、雑音のより少ない環境での利用者の音声により話者適応を行うことができる。したがって話者適応を高精度に行うことができる。
第7の実施形態による音声認識システムでは、携帯電話101にメモリ1001を設けたため、雑音のより少ない環境での利用者の音声により話者適応を行うことができる。したがって話者適応を高精度に行うことができる。
また、利用者の音声を一度蓄積すると、利用者は適応モデルを作成するたびに発声する必要がないため、利用者の負担が少ない。
<変形例>
なお、静かな環境での音声を複数の人についてメモリ1001に蓄積してもよい。この場合、複数の人の各々について、静かな環境での音声と名前とを対応づけてメモリ1001に蓄積する。適応モデルを獲得するときには、名前を指定して利用者の音声データを決定して適応モデルを作成する。これにより、テレビの音声リモコンなどのように複数の人が利用する機器に対しても高精度の適応モデルを利用することができる。
なお、静かな環境での音声を複数の人についてメモリ1001に蓄積してもよい。この場合、複数の人の各々について、静かな環境での音声と名前とを対応づけてメモリ1001に蓄積する。適応モデルを獲得するときには、名前を指定して利用者の音声データを決定して適応モデルを作成する。これにより、テレビの音声リモコンなどのように複数の人が利用する機器に対しても高精度の適応モデルを利用することができる。
また、ここではステップST1104において、メモリ1001に蓄積されている利用者の音声と環境雑音とをサーバ22へ送信したが、メモリ1001に蓄積されている静かな環境での利用者の音声に環境雑音を付加したデータをサーバ22へ送信してもよい。
また、サーバ22をテレビまたはセットトップボックスとし携帯電話101(端末)をテレビのリモコンとするなどのように、サーバと端末を空間的に近くに存在させてもよい。
11 PDA(端末装置)
21 携帯電話(端末装置)
31 携帯端末(端末装置)
112,212,312 送信部(送信手段)
113,213,313 受信部(受信手段)
114,214,314 メモリ(第1の蓄積手段)
115,215,315 音声認識部(音声認識手段)
316 適応モデル作成部(作成手段)
602,801 判断部(判断手段)
1101 メモリ(第2の蓄積手段)
12,22,32 サーバ(サーバ装置)
121,221,321 送信部(送信手段)
122,222,322 受信部(受信手段)
123 適応モデル選択部(選択手段)
223 適応モデル作成部(作成手段)
124,224,324 データ蓄積部(蓄積手段)
323 選択部(選択手段)。
21 携帯電話(端末装置)
31 携帯端末(端末装置)
112,212,312 送信部(送信手段)
113,213,313 受信部(受信手段)
114,214,314 メモリ(第1の蓄積手段)
115,215,315 音声認識部(音声認識手段)
316 適応モデル作成部(作成手段)
602,801 判断部(判断手段)
1101 メモリ(第2の蓄積手段)
12,22,32 サーバ(サーバ装置)
121,221,321 送信部(送信手段)
122,222,322 受信部(受信手段)
123 適応モデル選択部(選択手段)
223 適応モデル作成部(作成手段)
124,224,324 データ蓄積部(蓄積手段)
323 選択部(選択手段)。
Claims (44)
- 利用者が発声した音声と環境雑音とをサーバ装置に送信する送信手段と、
前記サーバ装置から送信される、前記利用者の音声と前記環境雑音とに基づいて、前記利用者の将来の音声変動および将来の環境雑音変動のうち少なくとも1つを予測して準備された、前記利用者が将来利用するであろう音響モデルを受信する受信手段と、
前記受信手段によって受信された音響モデルを蓄積する蓄積手段と、
前記蓄積手段に蓄積された音響モデルを用いて音声認識を行う音声認識手段とを備える、
ことを特徴とする端末装置。 - 利用者が発声した音声と環境雑音とをサーバ装置に送信する送信手段と、
前記サーバ装置から送信される、前記利用者の音声と前記環境雑音とに基づいて、前記利用者の将来の音声変動および将来の環境雑音変動のうち少なくとも1つを予測して準備された、前記利用者が将来利用するであろう音響モデルを作成するための作成用データを受信する受信手段と、
前記受信手段によって受信された作成用データを蓄積する蓄積手段と、
前記利用者の音声と前記環境雑音とに適応した音響モデルを前記蓄積手段に蓄積された作成用データを用いて作成する作成手段と、
前記作成手段によって作成された音響モデルを用いて音声認識を行う音声認識手段とを備える、
ことを特徴とする端末装置。 - 各々が対応する話者および環境に適応した複数の音響モデルを蓄積する蓄積手段と、
端末装置から送信される、利用者が発声した音声と環境雑音とを受信する受信手段と、
前記受信手段によって受信された前記利用者の音声と前記環境雑音とに基づいて、前記利用者の将来の音声変動および将来の環境雑音変動のうち少なくとも1つを予測して、前記利用者が将来利用するであろう音響モデルを前記蓄積手段から選択する選択手段と、
前記選択手段によって選択された音響モデルを前記端末装置に送信する送信手段とを備える、
ことを特徴とするサーバ装置。 - 各々が対応する話者および環境に適応した複数の音響モデルを蓄積する蓄積手段と、
端末装置から送信される、利用者が発声した音声と環境雑音とを受信する受信手段と、
前記受信手段によって受信された前記利用者の音声および前記環境雑音と前記蓄積手段に蓄積された複数の音響モデルとに基づいて、前記利用者の将来の音声変動および将来の環境雑音変動のうち少なくとも1つを予測して、前記利用者が将来利用するであろう音響モデルを作成する作成手段と、
前記作成手段によって作成された音響モデルを前記端末装置に送信する送信手段とを備える、
ことを特徴とするサーバ装置。 - 各々が対応する話者および環境に適応した複数の音響モデルを蓄積する蓄積手段と、
端末装置から送信される、利用者が発声した音声と環境雑音とを受信する受信手段と、
前記受信手段によって受信された前記利用者の音声と前記環境雑音とに基づいて、前記利用者の将来の音声変動および将来の環境雑音変動のうち少なくとも1つを予測して、前記利用者が将来利用するであろう音響モデルを作成するための作成用データを前記蓄積手段から選択する選択手段と、
前記選択手段によって選択された作成用データを前記端末装置に送信する送信手段とを備える、
ことを特徴とするサーバ装置。 - 各々が対応する話者および環境に適応した複数の音響モデルを蓄積する蓄積手段と、
端末装置から送信される、利用者が発声した音声と環境雑音とを受信する受信手段と、
前記受信手段によって受信された前記利用者の音声および前記環境雑音と前記蓄積手段に蓄積された複数の音響モデルとに基づいて、前記利用者の将来の音声変動および将来の環境雑音変動のうち少なくとも1つを予測して、前記利用者が将来利用するであろう音響モデルを作成するための作成用データを作成する作成手段と、
前記作成手段によって作成された作成用データを前記端末装置に送信する送信手段とを備える、
ことを特徴とするサーバ装置。 - 請求項1において、
前記受信手段は、
スケジュールデータベースおよび現在の時刻に基づいて、前記音響モデルを前記サーバ装置から受信するタイミングを制御する、
ことを特徴とする端末装置。 - 請求項2において、
前記受信手段は、
スケジュールデータベースおよび現在の時刻に基づいて、前記作成用データを前記サーバ装置から受信するタイミングを制御する、
ことを特徴とする端末装置。 - 請求項3において、
前記送信手段は、
スケジュールデータベースおよび現在の時刻に基づいて、前記選択手段によって選択された音響モデルを前記端末装置に送信するタイミングを制御する、
ことを特徴とするサーバ装置。 - 請求項4において、
前記送信手段は、
スケジュールデータベースおよび現在の時刻に基づいて、前記作成手段によって作成された音響モデルを前記端末装置に送信するタイミングを制御する、
ことを特徴とするサーバ装置。 - 請求項5において、
前記送信手段は、
スケジュールデータベースおよび現在の時刻に基づいて、前記選択手段によって選択された作成用データを前記端末装置に送信するタイミングを制御する、
ことを特徴とするサーバ装置。 - 請求項6において、
前記送信手段は、
スケジュールデータベースおよび現在の時刻に基づいて、前記作成手段によって作成された作成用データを前記端末装置に送信するタイミングを制御する、
ことを特徴とするサーバ装置。 - 請求項1において、
前記受信手段は、
スケジュールデータベースおよび前記利用者の現在の位置に基づいて、前記音響モデルを前記サーバ装置から受信するタイミングを制御する、
ことを特徴とする端末装置。 - 請求項2において、
前記受信手段は、
スケジュールデータベースおよび前記利用者の現在の位置に基づいて、前記作成用データを前記サーバ装置から受信するタイミングを制御する、
ことを特徴とする端末装置。 - 請求項3において、
前記送信手段は、
スケジュールデータベースおよび前記利用者の現在の位置に基づいて、前記選択手段によって選択された音響モデルを前記端末装置に送信するタイミングを制御する、
ことを特徴とするサーバ装置。 - 請求項4において、
前記送信手段は、
スケジュールデータベースおよび前記利用者の現在の位置に基づいて、前記作成手段によって作成された音響モデルを前記端末装置に送信するタイミングを制御する、
ことを特徴とするサーバ装置。 - 請求項5において、
前記送信手段は、
スケジュールデータベースおよび前記利用者の現在の位置に基づいて、前記選択手段によって選択された作成用データを前記端末装置に送信するタイミングを制御する、
ことを特徴とするサーバ装置。 - 請求項6において、
前記送信手段は、
スケジュールデータベースおよび前記利用者の現在の位置に基づいて、前記作成手段によって作成された作成用データを前記端末装置に送信するタイミングを制御する、
ことを特徴とするサーバ装置。 - 請求項1または請求項2において、
前記端末装置は、
さまざまな環境の中から所望の環境を選択するように利用者に促し、
選択された環境における特徴的な音を再生する、
ことを特徴とする端末装置。 - 請求項3から6のいずれか1つにおいて、
前記蓄積手段に蓄積される複数の音響モデルの各々は、対応する話者の声の調子にも適応している、
ことを特徴とするサーバ装置。 - 請求項3から6のいずれか1つにおいて、
前記蓄積手段に蓄積される複数の音響モデルの各々は、当該音響モデルを作成する際に話者が発声した音声を得るための入力手段の特性にも適応している、
ことを特徴とするサーバ装置。 - 通信路を介して互いにデータのやりとりを行う端末装置とサーバ装置とを備えたシステムであって、
前記端末装置は、
利用者が発声した音声と環境雑音とを前記サーバ装置に送信する第1の送信手段と、
前記サーバ装置から送信される、前記利用者の音声と前記環境雑音とに基づいて、前記利用者の将来の音声変動および将来の環境雑音変動のうち少なくとも1つを予測して準備された、前記利用者が将来利用するであろう音響モデルを受信する第1の受信手段と、
前記第1の受信手段によって受信された音響モデルを蓄積する第1の蓄積手段と、
前記第1の蓄積手段に蓄積された音響モデルを用いて音声認識を行う音声認識手段とを備え、
前記サーバ装置は、
各々が対応する話者および環境に適応した複数の音響モデルを蓄積する第2の蓄積手段と、
前記端末装置から送信される、利用者が発声した音声と環境雑音とを受信する第2の受信手段と、
前記第2の受信手段によって受信された前記利用者の音声と前記環境雑音とに基づいて、前記利用者の将来の音声変動および将来の環境雑音変動のうち少なくとも1つを予測して、前記利用者が将来利用するであろう音響モデルを前記第2の蓄積手段から選択する選択手段と、
前記選択手段によって選択された音響モデルを前記端末装置に送信する第2の送信手段とを備える、
ことを特徴とする音声認識システム。 - 通信路を介して互いにデータのやりとりを行う端末装置とサーバ装置とを備えたシステムであって、
前記端末装置は、
利用者が発声した音声と環境雑音とを前記サーバ装置に送信する第1の送信手段と、
前記サーバ装置から送信される、前記利用者の音声と前記環境雑音とに基づいて、前記利用者の将来の音声変動および将来の環境雑音変動のうち少なくとも1つを予測して準備された、前記利用者が将来利用するであろう音響モデルを受信する第1の受信手段と、
前記第1の受信手段によって受信された音響モデルを蓄積する第1の蓄積手段と、
前記第1の蓄積手段に蓄積された音響モデルを用いて音声認識を行う音声認識手段とを備え、
前記サーバ装置は、
各々が対応する話者および環境に適応した複数の音響モデルを蓄積する第2の蓄積手段と、
前記端末装置から送信される、利用者が発声した音声と環境雑音とを受信する第2の受信手段と、
前記第2の受信手段によって受信された前記利用者の音声および前記環境雑音と前記第2の蓄積手段に蓄積された複数の音響モデルとに基づいて、前記利用者の将来の音声変動および将来の環境雑音変動のうち少なくとも1つを予測して、前記利用者が将来利用するであろう音響モデルを作成する作成手段と、
前記作成手段によって作成された音響モデルを前記端末装置に送信する第2の送信手段とを備える、
ことを特徴とする音声認識システム。 - 通信路を介して互いにデータのやりとりを行う端末装置とサーバ装置とを備えたシステムであって、
前記端末装置は、
利用者が発声した音声と環境雑音とを前記サーバ装置に送信する第1の送信手段と、
前記サーバ装置から送信される、前記利用者の音声と前記環境雑音とに基づいて、前記利用者の将来の音声変動および将来の環境雑音変動のうち少なくとも1つを予測して準備された、前記利用者が将来利用するであろう音響モデルを作成するための作成用データを受信する第1の受信手段と、
前記第1の受信手段によって受信された作成用データを蓄積する第1の蓄積手段と、
前記利用者の音声と前記環境雑音とに適応した音響モデルを前記第1の蓄積手段に蓄積された作成用データを用いて作成する作成手段と、
前記作成手段によって作成された音響モデルを用いて音声認識を行う音声認識手段とを備え、
前記サーバ装置は、
各々が対応する話者および環境に適応した複数の音響モデルを蓄積する第2の蓄積手段と、
前記端末装置から送信される、利用者が発声した音声と環境雑音とを受信する第2の受信手段と、
前記第2の受信手段によって受信された前記利用者の音声と前記環境雑音とに基づいて、前記利用者の将来の音声変動および将来の環境雑音変動のうち少なくとも1つを予測して、前記利用者が将来利用するであろう音響モデルを作成するための作成用データを前記第2の蓄積手段から選択する選択手段と、
前記選択手段によって選択された作成用データを前記端末装置に送信する第2の送信手段とを備える、
ことを特徴とする音声認識システム。 - 通信路を介して互いにデータのやりとりを行う端末装置とサーバ装置とを備えたシステムであって、
前記端末装置は、
利用者が発声した音声と環境雑音とを前記サーバ装置に送信する第1の送信手段と、
前記サーバ装置から送信される、前記利用者の音声と前記環境雑音とに基づいて、前記利用者の将来の音声変動および将来の環境雑音変動のうち少なくとも1つを予測して準備された、前記利用者が将来利用するであろう音響モデルを作成するための作成用データを受信する第1の受信手段と、
前記第1の受信手段によって受信された作成用データを蓄積する第1の蓄積手段と、
前記利用者の音声と前記環境雑音とに適応した音響モデルを前記第1の蓄積手段に蓄積された作成用データを用いて作成する作成手段と、
前記作成手段によって作成された音響モデルを用いて音声認識を行う音声認識手段とを備え、
前記サーバ装置は、
各々が対応する話者および環境に適応した複数の音響モデルを蓄積する第2の蓄積手段と、
前記端末装置から送信される、利用者が発声した音声と環境雑音とを受信する第2の受信手段と、
前記第2の受信手段によって受信された前記利用者の音声および前記環境雑音と前記第2の蓄積手段に蓄積された複数の音響モデルとに基づいて、前記利用者の将来の音声変動および将来の環境雑音変動のうち少なくとも1つを予測して、前記利用者が将来利用するであろう音響モデルを作成するための作成用データを作成する作成手段と、
前記作成手段によって作成された作成用データを前記端末装置に送信する第2の送信手段とを備える、
ことを特徴とする音声認識システム。 - 通信路を介して互いにデータのやりとりを行う端末装置とサーバ装置とを用いて行われる音声認識方法であって、
前記端末装置では、
利用者が発声した音声と環境雑音とを前記サーバ装置に送信し、
前記サーバ装置から送信される、前記利用者の音声と前記環境雑音とに基づいて、前記利用者の将来の音声変動および将来の環境雑音変動のうち少なくとも1つを予測して準備された、前記利用者が将来利用するであろう音響モデルを受信し、
受信した音響モデルを第1の蓄積手段に蓄積し、
前記第1の蓄積手段に蓄積された音響モデルを用いて音声認識を行い、
前記サーバ装置では、
各々が対応する話者および環境に適応した複数の音響モデルを第2の蓄積手段に蓄積し、
前記端末装置から送信される、利用者が発声した音声と環境雑音とを受信し、
受信した前記利用者の音声と前記環境雑音とに基づいて、前記利用者の将来の音声変動および将来の環境雑音変動のうち少なくとも1つを予測して、前記利用者が将来利用するであろう音響モデルを前記第2の蓄積手段から選択し、
選択した音響モデルを前記端末装置に送信する、
ことを特徴とする音声認識方法。 - 通信路を介して互いにデータのやりとりを行う端末装置とサーバ装置とを用いて行われる音声認識方法であって、
前記端末装置では、
利用者が発声した音声と環境雑音とを前記サーバ装置に送信し、
前記サーバ装置から送信される、前記利用者の音声と前記環境雑音とに基づいて、前記利用者の将来の音声変動および将来の環境雑音変動のうち少なくとも1つを予測して準備された、前記利用者が将来利用するであろう音響モデルを受信し、
受信した音響モデルを第1の蓄積手段に蓄積し、
前記第1の蓄積手段に蓄積された音響モデルを用いて音声認識を行い、
前記サーバ装置では、
各々が対応する話者および環境に適応した複数の音響モデルを第2の蓄積手段に蓄積し、
前記端末装置から送信される、利用者が発声した音声と環境雑音とを受信し、
受信した前記利用者の音声および前記環境雑音と前記第2の蓄積手段に蓄積された複数の音響モデルとに基づいて、前記利用者の将来の音声変動および将来の環境雑音変動のうち少なくとも1つを予測して、前記利用者が将来利用するであろう音響モデルを作成し、
作成した音響モデルを前記端末装置に送信する、
ことを特徴とする音声認識方法。 - 通信路を介して互いにデータのやりとりを行う端末装置とサーバ装置とを用いて行われる音声認識方法であって、
前記端末装置では、
利用者が発声した音声と環境雑音とを前記サーバ装置に送信し、
前記サーバ装置から送信される、前記利用者の音声と前記環境雑音とに基づいて、前記利用者の将来の音声変動および将来の環境雑音変動のうち少なくとも1つを予測して準備された、前記利用者が将来利用するであろう音響モデルを作成するための作成用データを受信し、
受信した作成用データを第1の蓄積手段に蓄積し、
前記利用者の音声と前記環境雑音とに適応した音響モデルを前記第1の蓄積手段に蓄積された作成用データを用いて作成し、
作成した音響モデルを用いて音声認識を行い、
前記サーバ装置では、
各々が対応する話者および環境に適応した複数の音響モデルを第2の蓄積手段に蓄積し、
前記端末装置から送信される、利用者が発声した音声と環境雑音とを受信し、
受信した前記利用者の音声と前記環境雑音とに基づいて、前記利用者の将来の音声変動および将来の環境雑音変動のうち少なくとも1つを予測して、前記利用者が将来利用するであろう音響モデルを作成するための作成用データを前記第2の蓄積手段から選択し、
選択した作成用データを前記端末装置に送信する、
ことを特徴とする音声認識方法。 - 通信路を介して互いにデータのやりとりを行う端末装置とサーバ装置とを用いて行われる音声認識方法であって、
前記端末装置では、
利用者が発声した音声と環境雑音とを前記サーバ装置に送信し、
前記サーバ装置から送信される、前記利用者の音声と前記環境雑音とに基づいて、前記利用者の将来の音声変動および将来の環境雑音変動のうち少なくとも1つを予測して準備された、前記利用者が将来利用するであろう音響モデルを作成するための作成用データを受信し、
受信した作成用データを第1の蓄積手段に蓄積し、
前記利用者の音声と前記環境雑音とに適応した音響モデルを前記第1の蓄積手段に蓄積された作成用データを用いて作成し、
作成した音響モデルを用いて音声認識を行い、
前記サーバ装置では、
各々が対応する話者および環境に適応した複数の音響モデルを第2の蓄積手段に蓄積し、
前記端末装置から送信される、利用者が発声した音声と環境雑音とを受信し、
受信した前記利用者の音声および前記環境雑音と前記第2の蓄積手段に蓄積された複数の音響モデルとに基づいて、前記利用者の将来の音声変動および将来の環境雑音変動のうち少なくとも1つを予測して、前記利用者が将来利用するであろう音響モデルを作成するための作成用データを作成し、
作成した作成用データを前記端末装置に送信する、
ことを特徴とする音声認識方法。 - 請求項26または27において、
前記端末装置では、
スケジュールデータベースおよび現在の時刻に基づいて、前記音響モデルを受信するタイミングを制御する、
ことを特徴とする音声認識方法。 - 請求項28または29において、
前記端末装置では、
スケジュールデータベースおよび現在の時刻に基づいて、前記作成用データを受信するタイミングを制御する、
ことを特徴とする音声認識方法。 - 請求項26において、
前記サーバ装置では、
スケジュールデータベースおよび現在の時刻に基づいて、前記選択した音響モデルを前記端末装置に送信するタイミングを制御する、
ことを特徴とする音声認識方法。 - 請求項27において、
前記サーバ装置では、
スケジュールデータベースおよび現在の時刻に基づいて、前記作成した音響モデルを前記端末装置に送信するタイミングを制御する、
ことを特徴とする音声認識方法。 - 請求項28において、
前記サーバ装置では、
スケジュールデータベースおよび現在の時刻に基づいて、前記選択した作成用データを前記端末装置に送信するタイミングを制御する、
ことを特徴とする音声認識方法。 - 請求項29において、
前記サーバ装置では、
スケジュールデータベースおよび現在の時刻に基づいて、前記作成した作成用データを前記端末装置に送信するタイミングを制御する、
ことを特徴とする音声認識方法。 - 請求項26または27において、
前記端末装置では、
スケジュールデータベースおよび前記利用者の現在の位置に基づいて、前記音響モデルを受信するタイミングを制御する、
ことを特徴とする音声認識方法。 - 請求項28または29において、
前記端末装置では、
スケジュールデータベースおよび前記利用者の現在の位置に基づいて、前記作成用データを受信するタイミングを制御する、
ことを特徴とする音声認識方法。 - 請求項26において、
前記サーバ装置では、
スケジュールデータベースおよび前記利用者の現在の位置に基づいて、前記選択した音響モデルを前記端末装置に送信するタイミングを制御する、
ことを特徴とする音声認識方法。 - 請求項27において、
前記サーバ装置では、
スケジュールデータベースおよび前記利用者の現在の位置に基づいて、前記作成した音響モデルを前記端末装置に送信するタイミングを制御する、
ことを特徴とする音声認識方法。 - 請求項28において、
前記サーバ装置では、
スケジュールデータベースおよび前記利用者の現在の位置に基づいて、前記選択した作成用データを前記端末装置に送信するタイミングを制御する、
ことを特徴とする音声認識方法。 - 請求項29において、
前記サーバ装置では、
スケジュールデータベースおよび前記利用者の現在の位置に基づいて、前記作成した作成用データを前記端末装置に送信するタイミングを制御する、
ことを特徴とする音声認識方法。 - 請求項26から29のいずれか1つにおいて、
前記端末装置では、
さまざまな環境の中から所望の環境を選択するように利用者に促し、
選択された環境における特徴的な音を再生する、
ことを特徴とする音声認識方法。 - 請求項26から29のいずれか1つにおいて、
前記第2の蓄積手段に蓄積される複数の音響モデルの各々は、対応する話者の声の調子にも適応している、
ことを特徴とする音声認識方法。 - 請求項26から29のいずれか1つにおいて、
前記第2の蓄積手段に蓄積される複数の音響モデルの各々は、当該音響モデルを作成する際に話者が発声した音声を得るための入力手段の特性にも適応している、
ことを特徴とする音声認識方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004357775A JP2005107550A (ja) | 2001-09-13 | 2004-12-10 | 端末装置、サーバ装置および音声認識方法 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001277853 | 2001-09-13 | ||
JP2004357775A JP2005107550A (ja) | 2001-09-13 | 2004-12-10 | 端末装置、サーバ装置および音声認識方法 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002260087A Division JP2003177790A (ja) | 2001-09-13 | 2002-09-05 | 端末装置、サーバ装置および音声認識方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005107550A true JP2005107550A (ja) | 2005-04-21 |
Family
ID=34554007
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004357775A Pending JP2005107550A (ja) | 2001-09-13 | 2004-12-10 | 端末装置、サーバ装置および音声認識方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005107550A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011064913A (ja) * | 2009-09-16 | 2011-03-31 | Ntt Docomo Inc | 電話システム、端末装置、音声モデル更新装置、および音声モデル更新方法 |
JP2015537258A (ja) * | 2012-12-12 | 2015-12-24 | アマゾン テクノロジーズ インコーポレーテッド | 分散音声認識システムにおける音声モデル検索 |
JP2017027049A (ja) * | 2015-07-22 | 2017-02-02 | グーグル インコーポレイテッド | 個別化されたホットワード検出モデル |
-
2004
- 2004-12-10 JP JP2004357775A patent/JP2005107550A/ja active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011064913A (ja) * | 2009-09-16 | 2011-03-31 | Ntt Docomo Inc | 電話システム、端末装置、音声モデル更新装置、および音声モデル更新方法 |
JP2015537258A (ja) * | 2012-12-12 | 2015-12-24 | アマゾン テクノロジーズ インコーポレーテッド | 分散音声認識システムにおける音声モデル検索 |
US10152973B2 (en) | 2012-12-12 | 2018-12-11 | Amazon Technologies, Inc. | Speech model retrieval in distributed speech recognition systems |
JP2017027049A (ja) * | 2015-07-22 | 2017-02-02 | グーグル インコーポレイテッド | 個別化されたホットワード検出モデル |
US10438593B2 (en) | 2015-07-22 | 2019-10-08 | Google Llc | Individualized hotword detection models |
US10535354B2 (en) | 2015-07-22 | 2020-01-14 | Google Llc | Individualized hotword detection models |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1293964A2 (en) | Adaptation of a speech recognition method to individual users and environments with transfer of data between a terminal and a server | |
US7603276B2 (en) | Standard-model generation for speech recognition using a reference model | |
CN100351899C (zh) | 网络环境中语音处理的中间体 | |
CN106233374B (zh) | 用于检测用户定义的关键字的关键字模型生成 | |
US9318103B2 (en) | System and method for recognizing a user voice command in noisy environment | |
CN102282608B (zh) | 自动语音识别声学模型的调整 | |
JP6874037B2 (ja) | カスタム音響モデル | |
US7209881B2 (en) | Preparing acoustic models by sufficient statistics and noise-superimposed speech data | |
KR20180087942A (ko) | 음성 인식 방법 및 장치 | |
CN107819929A (zh) | 优选表情符号的识别和生成 | |
MX2008010478A (es) | Autenticacion de portavoz. | |
US20020107695A1 (en) | Feedback for unrecognized speech | |
JP2003177790A (ja) | 端末装置、サーバ装置および音声認識方法 | |
WO2006083020A1 (ja) | 抽出された音声データを用いて応答音声を生成する音声認識システム | |
JP2005227794A (ja) | 標準モデル作成装置及び標準モデル作成方法 | |
CN112420020B (zh) | 信息处理装置及信息处理方法 | |
Clarkson et al. | Extracting context from environmental audio | |
EP2541544A1 (en) | Voice sample tagging | |
JP2005107550A (ja) | 端末装置、サーバ装置および音声認識方法 | |
Furui | Robust methods in automatic speech recognition and understanding. | |
JP3756879B2 (ja) | 音響モデルを作成する方法、音響モデルを作成する装置、音響モデルを作成するためのコンピュータプログラム | |
Kos et al. | A speech-based distributed architecture platform for an intelligent ambience | |
Zeng et al. | Design and performance evaluation of voice activated wireless home devices | |
KR20210098250A (ko) | 전자 장치 및 이의 제어 방법 | |
KR102441066B1 (ko) | 차량의 음성생성 시스템 및 방법 |