JP2003177790A - 端末装置、サーバ装置および音声認識方法 - Google Patents

端末装置、サーバ装置および音声認識方法

Info

Publication number
JP2003177790A
JP2003177790A JP2002260087A JP2002260087A JP2003177790A JP 2003177790 A JP2003177790 A JP 2003177790A JP 2002260087 A JP2002260087 A JP 2002260087A JP 2002260087 A JP2002260087 A JP 2002260087A JP 2003177790 A JP2003177790 A JP 2003177790A
Authority
JP
Japan
Prior art keywords
user
voice
unit
acoustic model
acoustic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002260087A
Other languages
English (en)
Inventor
Shinichi Yoshizawa
伸一 芳澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2002260087A priority Critical patent/JP2003177790A/ja
Publication of JP2003177790A publication Critical patent/JP2003177790A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

(57)【要約】 【課題】 端末装置において必要なメモリ容量を小さく
する。 【解決手段】 PDA11のマイク111により入力さ
れた、雑音が付加された利用者の音声データが送信部1
12よりサーバ12に送信される。サーバ12のデータ
蓄積部124には複数の音響モデルが事前に蓄えられて
いる。サーバ12の適応モデル選択部123は、受信部
121によって受信された雑音付加データに最も適合し
た音響モデルをデータ蓄積部124に蓄積されている音
響モデルから選択する。選択された適応モデル133は
送信部122によりPDA11に送信される。PDA1
1の受信部113はサーバ12からの適応モデル133
を受信する。受信された適応モデル133はメモリ11
4に蓄積される。音声認識部115は、メモリ114に
蓄積された適応モデルを用いて音声認識を行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は端末装置、サーバ
装置および音声認識方法に関し、さらに詳しくは、それ
ぞれの利用者、それぞれの利用環境に適応化した音声認
識処理を行うための端末装置、サーバ装置および音声認
識方法に関する。
【0002】
【従来の技術】近年、携帯電話・携帯端末・カーナビゲ
ーションシステム・パーソナルコンピュータなどでは音
声認識技術を用いて利用者の利便性を向上させることが
期待されている。
【0003】音声認識技術は、さまざまな利用者にさま
ざまな環境で利用される。携帯電話・携帯端末などでは
利用環境に応じて背景雑音の種類などが時々刻々と変化
する。設置場所が固定された家庭内端末などでもテレビ
音声などにより背景雑音の種類は時々刻々と変化する。
そのため、このような環境下で発声した利用者の音声に
はさまざまな雑音が付加され、認識すべき音声データの
音響特性は時々刻々と変化する。また、同一の環境下に
おける同一の利用者においても、健康状態や老化などに
より利用者の声の性質が変化するため、認識すべき音声
データの音響特性は変化する。また、音声認識装置に取
り付けるマイクの種類などによっても認識すべき音声デ
ータの音響特性は変化する。
【0004】音響特性の異なる音声データの認識率を1
00%に近づけるため、さまざまな適応化技術が開発さ
れている。
【0005】たとえばMLLR法による適応化法とし
て、C.J.Leggetter and P.C.Woodland,"Maximum likeli
hood linear regression for speaker adaptation of c
ontinuous density hidden Markov models",Computer S
peech and Language,1995,Vol.9,No.2,pp.171-186 な
どが提案されている。MLLR法では、利用者の多くの
発声データを利用して適応パラメータの推定を行い、こ
れらの適応パラメータにより音響モデルを変形すること
で適応を行う。
【0006】また、話者クラスタリングによる適応化方
法として、加藤恒夫,黒岩眞吾,清水徹,樋口宜男,”
多数話者電話音声データベースを用いた話者クラスタリ
ング”,信学技報,SP2000−10,pp.1−
8,2000 などが提案されている。さらに、充足統
計量と話者距離を用いた適応化方法として、芳澤伸一,
馬場朗,松浪加奈子,米良祐一郎,山田実一,鹿野清
宏,”充足統計量と話者距離を用いた音韻モデルの教師
なし学習”,信学技報,SP2000−89,pp.8
3−88,2000 などが提案されている。話者クラ
スタリングによる方法、充足統計量と話者距離を用いた
方法は、基本的に、さまざまな利用環境におけるさまざ
まな利用者の大量の発声データを事前に蓄積しておき、
これらの大量の発声データを用いて事前に音響モデルを
構築しておく。そして、適応時に音響モデルを利用して
適応を行う。音響モデルを作成するための発声データと
して、データベースに蓄積してある利用者の音響特性に
近い発声データを利用するため、利用者は大量の発声を
行う必要がなく利用者の負担が少ない。また、事前に音
響モデルを構築しておくため、適応処理時に音響モデル
を構築するための処理時間が不要となり短時間で適応を
行うことができる。
【0007】また、話者に合わせて音声のスペクトルを
周波数軸方向に伸縮する手法(Vocal Tract Normalizat
ion)等が提案されている。例えば、Li Lee and Richar
d C.Rose,"Speaker normalization using efficient fr
equency warping procedures",ICASSP-96,IEEE Interna
tional Conference on Acoustics,Speech and SignalPr
ocessing,pp.171-186 などが提案されている。特開2
000−276188号公報の図1には、スペクトル変
換を用いて話者適応を行う音声認識装置が開示されてい
る。この音声認識装置では、音声認識を行う利用者の適
応化パラメータが蓄積された脱着可能な適応化パラメー
タ蓄積手段を取り付けて、それらの適応化パラメータに
より適応を行う。
【0008】
【発明が解決しようとする課題】MLLR法では、利用
者の多くの発声データを利用して音響モデルの適応を行
うため、利用者は適応用に多くの文章を読み上げる必要
がある。そのため利用者の負担が大きい。
【0009】話者クラスタリングによる方法、充足統計
量と話者距離を用いた方法では、さまざまな音響特性に
対する音声データに対応するために、大量の音響モデル
を音声認識装置に蓄積する必要がある。そのため、音声
認識装置に膨大なメモリ容量が必要となり、携帯電話や
PDA(Personal Digital Assistant)などのメモリ容
量が限られている端末装置では実現が困難である。
【0010】話者に合わせて音声のスペクトルを周波数
軸方向に伸縮する手法、特開2000−276188号
公報の図1に開示された技術では、話者性の適応を行っ
ているが、雑音や話者の声の性質の変化などのさまざま
な音響特性の変化にスペクトル変換で適応することは困
難である。また、特開2000−276188号公報に
開示された技術では、さまざまな雑音やさまざまな利用
者の声の性質などの多くの音響特性に適応するために
は、それぞれの適応パラメータを蓄積した膨大な数の脱
着可能な適応化パラメータ蓄積手段を用意する必要があ
る。また、利用者が雑音の種類や現在の声の性質を判断
して上記適応化パラメータ蓄積手段を選択し音声認識装
置に取り付けなければならない。
【0011】この発明の目的は、必要なメモリ容量を小
さくすることができる端末装置を提供することである。
【0012】
【課題を解決するための手段および発明の効果】この発
明の1つの局面に従うと、端末装置は、送信手段と、受
信手段と、第1の蓄積手段と、音声認識手段とを備え
る。送信手段は、利用者が発声した音声と環境雑音とを
サーバ装置に送信する。受信手段は、サーバ装置から送
信される、上記利用者の音声と上記環境雑音とに適応し
た音響モデルを受信する。第1の蓄積手段は、受信手段
によって受信された音響モデルを蓄積する。音声認識手
段は、第1の蓄積手段に蓄積された音響モデルを用いて
音声認識を行う。
【0013】上記端末装置では、利用者が発声した音声
と環境雑音とに適応した音響モデルをサーバ装置から取
得して第1の蓄積手段に蓄積するため、遭遇する可能性
のある(実際には遭遇しない場合が多い)すべての状況
に対応した音響モデルをあらかじめ第1の蓄積手段に蓄
積しておく必要がない。したがって、必要なメモリ容量
を小さくすることができる。
【0014】好ましくは、上記受信手段は、上記利用者
が将来利用するであろう音響モデルをサーバ装置からさ
らに受信する。
【0015】好ましくは、上記端末装置はさらに判断手
段を備える。判断手段は、上記環境雑音が付加された上
記利用者の音声と第1の蓄積手段にすでに蓄積されてい
る音響モデルとの類似度を所定のしきい値と比較する。
上記送信手段は、上記類似度が所定のしきい値よりも小
さいとき上記利用者の音声および上記環境雑音をサーバ
装置に送信する。
【0016】上記端末装置では、上記類似度が所定のし
きい値以上のときは第1の蓄積手段にすでに蓄積されて
いる音響モデルを利用して音声認識を行うため、サーバ
装置への送信/サーバ装置からの受信を減らすことがで
きる。
【0017】好ましくは、上記判断手段は、上記類似度
が所定のしきい値よりも小さいとき、音響モデルを取得
するか否かの判断を上記利用者に促す。上記送信手段
は、上記利用者が音響モデルを取得すると判断したと
き、上記利用者の音声および上記環境雑音をサーバ装置
に送信する。
【0018】上記端末装置では、利用者が音響モデルを
取得すると判断したときに限り当該利用者の音声および
環境雑音をサーバ装置に送信するため、サーバ装置への
送信/サーバ装置からの受信を減らすことができる。
【0019】好ましくは、上記端末装置はさらに第2の
蓄積手段を備える。第2の蓄積手段は、利用者が発声し
た音声を蓄積する。上記送信手段は、環境雑音が取得さ
れると、当該環境雑音と第2の蓄積手段に蓄積された利
用者の音声とをサーバ装置に送信する。
【0020】上記端末装置では、周囲雑音がきわめて少
ないタイミングで発声した利用者の音声を第2の蓄積手
段に蓄積することができる。これによりサーバ装置また
は端末装置では、より高精度な適応モデルを作成・利用
することができる。また、上記端末装置では、静かな環
境で発声した音声を複数の人について第2の蓄積手段に
蓄積することができる。これにより複数の人が利用する
端末装置に対しても高精度の適応モデルを利用すること
ができる。また、利用者の音声を一度蓄積すると、利用
者は適応モデルを作成するたびに発声する必要がないた
め、利用者の負担が少ない。
【0021】この発明のもう1つの局面に従うと、端末
装置は、送信手段と、受信手段と、第1の蓄積手段と、
作成手段と、音声認識手段とを備える。送信手段は、利
用者が発声した音声と環境雑音とをサーバ装置に送信す
る。受信手段は、サーバ装置から送信される、上記利用
者の音声と上記環境雑音とに適応した音響モデルを作成
するための作成用データを受信する。第1の蓄積手段
は、受信手段によって受信された作成用データを蓄積す
る。作成手段は、上記利用者の音声と上記環境雑音とに
適応した音響モデルを第1の蓄積手段に蓄積された作成
用データを用いて作成する。音声認識手段は、作成手段
によって作成された音響モデルを用いて音声認識を行
う。
【0022】上記端末装置では、利用者が発声した音声
と環境雑音とに適応した音響モデルを作成するための作
成用データをサーバ装置から取得して第1の蓄積手段に
蓄積するため、遭遇する可能性のある(実際には遭遇し
ない場合が多い)すべての状況に対応した音響モデルを
作成するための作成用データをあらかじめ第1の蓄積手
段に蓄積しておく必要がない。したがって、必要なメモ
リ容量を小さくすることができる。
【0023】好ましくは、上記受信手段は、上記利用者
が将来利用するであろう作成用データをサーバ装置から
さらに受信する。
【0024】好ましくは、上記端末装置は、さまざまな
環境の中から所望の環境を選択するように利用者に促
し、選択された環境における特徴的な音を再生する。
【0025】この発明のさらにもう1つの局面に従う
と、サーバ装置は、蓄積手段と、受信手段と、選択手段
と、送信手段とを備える。蓄積手段は複数の音響モデル
を蓄積する。複数の音響モデルの各々は、対応する話者
および環境に適応したモデルである。受信手段は、端末
装置から送信される、利用者が発声した音声と環境雑音
とを受信する。選択手段は、受信手段によって受信され
た利用者の音声と環境雑音とに適応した音響モデルを蓄
積手段から選択する。送信手段は、選択手段によって選
択された音響モデルを上記端末装置に送信する。
【0026】上記サーバ装置では、複数の音響モデルを
蓄積した蓄積手段を設け、端末装置の利用者の音声と環
境雑音とに適応した音響モデルを蓄積手段から選択して
端末装置に送信するため、端末装置において必要となる
メモリ容量を小さくすることができる。
【0027】また、利用者の発声データの音響特性に近
い大量のデータで作成した音響モデルを蓄積手段に蓄積
することができるため、利用者は音響モデルを作成する
ために大量の発声を行う必要はなく利用者の負担が小さ
い。
【0028】また、利用者の発声データの音響特性に近
い音響モデルを事前に作成して蓄積手段に蓄積すること
ができるため、音響モデルを作成するための処理時間は
不要となり適応処理時間が短く、短時間に端末装置は適
応モデルを獲得することができる。
【0029】好ましくは、上記選択手段は、上記端末装
置の利用者が将来利用するであろう音響モデルを蓄積手
段から選択する。
【0030】この発明のさらにもう1つの局面に従う
と、サーバ装置は、蓄積手段と、受信手段と、作成手段
と、送信手段とを備える。蓄積手段は複数の音響モデル
を蓄積する。複数の音響モデルの各々は、対応する話者
および環境に適応したモデルである。受信手段は、端末
装置から送信される、利用者が発声した音声と環境雑音
とを受信する。作成手段は、受信手段によって受信され
た利用者の音声および環境雑音と蓄積手段に蓄積された
複数の音響モデルとに基づいて、上記利用者が発声した
音声と上記環境雑音とに適応した音響モデルを作成す
る。送信手段は、作成手段によって作成された音響モデ
ルを上記端末装置に送信する。
【0031】上記サーバ装置では、複数の音響モデルを
蓄積した蓄積手段を設け、端末装置の利用者の音声と環
境雑音とに適応した音響モデルを作成して端末装置に送
信するため、端末装置において必要となるメモリ容量を
小さくすることができる。
【0032】好ましくは上記作成手段は、上記端末装置
の利用者が将来利用するであろう音響モデルを作成す
る。
【0033】この発明のさらにもう1つの局面に従う
と、サーバ装置は、蓄積手段と、受信手段と、選択手段
と、送信手段とを備える。蓄積手段は複数の音響モデル
を蓄積する。複数の音響モデルの各々は、対応する話者
および環境に適応したモデルである。受信手段は、端末
装置から送信される、利用者が発声した音声と環境雑音
とを受信する。選択手段は、受信手段によって受信され
た利用者の音声と環境雑音とに適応した音響モデルを作
成するための作成用データを蓄積手段から選択する。作
成用データは、少なくとも2つの音響モデルを含む。送
信手段は、選択手段によって選択された作成用データを
上記端末装置に送信する。
【0034】上記サーバ装置では、端末装置の利用者の
音声と環境雑音とに適応した音響モデルを作成するため
の作成用データを蓄積手段から選択して端末装置に送信
するため、端末装置において必要となるメモリ容量を小
さくすることができる。
【0035】好ましくは、上記選択手段は、上記端末装
置の利用者が将来利用するであろう作成用データを蓄積
手段から選択する。
【0036】好ましくは、上記蓄積手段に蓄積される複
数の音響モデルの各々は、対応する話者の声の調子にも
適応している。
【0037】上記サーバ装置では、話者の声の調子にも
適応した音響モデルを蓄積手段に蓄積しているため、端
末装置の利用者はより高い認識率を獲得することができ
る。
【0038】好ましくは、上記蓄積手段に蓄積される複
数の音響モデルの各々は、当該音響モデルを作成する際
に話者が発声した音声を得るための入力手段の特性にも
適応している。
【0039】上記サーバ装置では、入力手段の特性にも
適応した音響モデルを蓄積手段に蓄積しているため、端
末装置の利用者はより高い認識率を獲得することができ
る。
【0040】この発明のさらにもう1つの局面に従う
と、音声認識方法はステップ(a)−(c)を備える。
ステップ(a)では、複数の音響モデルを用意する。複
数の音響モデルの各々は、対応する話者、環境および声
の調子に適応したモデルである。ステップ(b)では、
利用者が発声した音声および環境雑音と上記複数の音響
モデルとに基づいて、上記利用者の音声と上記環境雑音
とに適応した音響モデルを獲得する。ステップ(c)で
は、上記獲得した音響モデルを用いて音声認識を行う。
【0041】上記音声認識方法では、話者の声の調子に
も適応した音響モデルを用意しているため、利用者はよ
り高い認識率を獲得することができる。
【0042】好ましくは、上記複数の音響モデルの各々
は、当該音響モデルを作成する際に話者が発声した音声
を得るための入力手段の特性にも適応している。
【0043】上記音声認識方法では、入力手段の特性に
も適応した音響モデルを用意しているため、利用者はよ
り高い認識率を獲得することができる。
【0044】
【発明の実施の形態】以下、この発明の実施の形態を図
面を参照して詳しく説明する。なお、図中同一または相
当部分には同一の符号を付し、その説明は繰り返さな
い。
【0045】(第1の実施の形態) <音声認識システムの構成>第1の実施形態による音声
認識システムの全体構成を図1に示す。この音声認識シ
ステムは、PDA(Personal Digital Assistant)11
と、サーバ12とを備える。PDA11およびサーバ1
2は通信路131を介して互いにデータのやりとりをす
る。
【0046】PDA11は、マイク111と、送信部1
12と、受信部113と、メモリ114と、音声認識部
115とを備える。マイク111は、PDA11の利用
者が発声した音声やPDA11の周りの雑音(環境雑
音)などの情報を入力するためのデータ入力手段であ
る。送信部112は、マイク111によって入力された
データをサーバ12に送信する。受信部113は、サー
バ12から送信された適応モデルを受信する。受信部1
13によって受信された適応モデルはメモリ114に蓄
積される。音声認識部115は、メモリ114に蓄積さ
れた適応モデルを利用して音声認識を行う。
【0047】サーバ12は、受信部121と、送信部1
22と、適応モデル選択部123と、データ蓄積部12
4とを備える。データ蓄積部124には、複数の音響モ
デルと複数の選択モデルとが対応づけられて蓄積され
る。複数の選択モデルは、対応する音響モデルを選択す
るためのモデルである。受信部121は、PDA11か
ら送信されたデータを受信する。適応モデル選択部12
3は、データ蓄積手段124に蓄積されている複数の音
響モデルの中からPDA11の利用環境および/または
利用状況に適応化した音響モデルを選択する。ここで利
用環境とは、PDA11を利用する場所の周囲雑音など
を意味する。また利用状況とは、PDA11の音声認識
部115による音声認識処理に従って動作させるアプリ
ケーションの用途などを意味する。送信部122は、適
応モデル選択部123によって選択された適応モデルを
PDA11に送信する。
【0048】<音声認識システムの動作>次に、以上の
ように構成された音声認識システムの動作について図2
を参照しつつ説明する。ここでは、利用者が展示会場で
PDA11を利用する場合を例にして説明する。
【0049】[ステップST10101]利用者は、P
DA11に装着されたマイク111を用いて「音響モデ
ルを取得」、「適応してほしいな」、「音声認識」など
の音声データを入力する。そのとき利用者の音声データ
には展示会場での騒音が付加される。
【0050】[ステップST10102]PDA11
は、音響モデルを取得するか否かの判断を利用者に促
す。音響モデルを取得すると利用者が判断したときは、
ステップST10101において得られた、雑音が付加
された音声データがPDA11の送信部112によって
サーバ12に送信される。そしてステップST1010
3にすすむ。一方、音響モデルを取得しないと利用者が
判断したときはサーバ12への送信は行わずにステップ
ST10105にすすむ。
【0051】[ステップST10103]サーバ12の
データ蓄積部124には複数の音響モデルが事前に蓄え
られている。複数の音響モデルは、さまざまな雑音環境
におけるさまざまな話者・話者のさまざまな声の調子・
音響モデルを作成する際に話者が発声した音声を得るた
めに使用したマイクの特性に適応している。データ蓄積
部124にあらかじめ蓄えられている音響モデルの一例
を図3に示す。ここでは、車内・家庭内・展示会場内な
どの雑音環境においてAさん・Bさん・Cさん・Zさん
などの話者が普段の声・嗄れ声・鼻声などの声の調子で
マイクA・マイクB・マイクC・マイクDなどを使用し
て発声した音声データで作成した複数の音響モデル(雑
音付加モデル)が蓄えられている。複数の音響モデルの
各々は、音素の音響モデル(HMM)を複数個含む。各
音響モデルに含まれる音素の音響モデルの数・種類は、
音声認識の精度(文脈依存、文脈非依存など)、言語
(日本語、英語など)、アプリケーションなどにより異
なる。また、データ蓄積部124には、複数の音響モデ
ルのうちPDA11の利用環境および/または利用状況
に適応化した音響モデルを適応モデルとして選択するた
めにGMM(Gaussian Mixture Model)が事前に蓄えら
れている。GMMは、音響モデルを作成するときに利用
した音声データを用いて音素を区別しないで作成され
る。GMMは音響モデルと対をなしている。GMMは対
応する音響モデルの特徴を表現する単純なモデルであ
る。
【0052】サーバ12の受信部121は、PDA11
から送信された利用者の雑音付加データを受信する。適
応モデル選択部123は、受信部121によって受信さ
れた利用者の雑音付加データを、データ蓄積部124に
蓄積されている各音響モデルに付随するGMMに入力す
る。そして、適応モデル選択部123は、最も高い尤度
をもつGMMに付随する音響モデルを適応モデルとして
選択する。選択された音響モデルは、周囲の雑音と話者
に最も適合したモデルである。
【0053】[ステップST10104]サーバ12の
送信部122は、適応モデル選択部123によって選択
された適応モデル133をPDA11に送信する。
【0054】PDA11の受信部113は、サーバ12
から送信された適応モデル133を受信する。受信部1
13によって受信された適応モデル133はメモリ11
4に蓄積される。このとき、以前にメモリ114に蓄積
された音響モデル(適応モデル)は新たにダウンロード
した適応モデルに置き換えられる。
【0055】[ステップST10105]音声認識部1
15は、メモリ114に蓄積された適応モデルを用いて
音声認識を行う。ステップST10102において音響
モデルを取得すると利用者が判断した場合には、ステッ
プST10103においてサーバ12からダウンロード
した適応モデルを用いて音声認識が行われる。ステップ
ST10102において音響モデルを取得しないと利用
者が判断した場合には適応モデルのダウンロードは行わ
ず、すでにメモリ114に蓄積されている適応モデルを
用いて音声認識が行われる。
【0056】<効果>第1の実施形態による音声認識シ
ステムでは、サーバ12で適応を行い、PDA11で認
識を行う。サーバ12の記憶容量は大きいため、複雑な
モデルによる適応が行える。これにより認識率を高める
ことができる。また、サーバ12のダウン、混線などが
起こってもPDA11において認識機能を使うことがで
きる。
【0057】また、遭遇する可能性のある(実際に遭遇
しない場合が多い)すべての状況に対応した適応モデル
をPDA11のメモリ114に蓄積しておく必要はな
く、遭遇した状況に適した適応モデルをサーバ12から
獲得してPDA11のメモリ114に蓄積しておけばよ
いため、PDA11のメモリ114の容量を削減するこ
とができる。
【0058】また、PDA11の利用者は、PDA11
の周囲の雑音・利用者の話者性・利用者の声の調子・マ
イクの特性に適応化した適応モデルにより音声認識をす
ることができるため、高い認識率を獲得することができ
る。
【0059】また、サーバ12のデータ蓄積部124に
は利用者の発声データの音響特性に近い大量のデータで
作成した音響モデルが事前に蓄積されているため、利用
者は、音響モデルを作成するために大量の発声を行う必
要がない。
【0060】また、サーバ12のデータ蓄積部124に
は利用者の発声データの音響特性に近い音声データで作
成した音響モデルが事前に蓄積されているため、音響モ
デルを作成するための処理時間が不要となる。
【0061】また、PDA11のメモリ114には、以
前に利用した適応モデルを蓄積しているため、適応モデ
ルの再利用ができる。
【0062】<変形例>なお、ここではサーバ12から
ダウンロードした適応モデルをPDA11のメモリ11
4に蓄積する際に、すでにメモリ114に蓄積されてい
る適応モデルを新たにダウンロードした適応モデルに置
き換えている(ST10103)。これに代えて、すで
にメモリ114に蓄積されている適応モデルに加えて新
たにダウンロードした適応モデルをメモリ114に追加
するようにしてもよい。この場合、ステップST101
05における音声認識処理は次のようにして行われる。
ステップST10102において音響モデルを取得する
と利用者が判断した場合には、ステップST10103
においてサーバ12からダウンロードした適応モデルを
用いて音声認識が行われる。ステップST10102に
おいて音響モデルを取得しないと利用者が判断した場合
には適応モデルのダウンロードは行わず、ステップST
10101において入力された音声データに近い適応モ
デルをすでにメモリ114に蓄積されている適応モデル
の中から選択し、選択した適応モデルを用いて音声認識
が行われる。
【0063】また、サーバ12の適応モデル選択部12
3は、利用状況に応じて音響モデルを選択してもよい。
たとえば、セキュリティに関するアプリケーション(音
声認識により機密情報を処理するようなアプリケーショ
ン、音声認識により自動車の運転操作を行うようなアプ
リケーションなど)を利用する場合には、より高精度に
適応化した音響モデルを選択してもよい。この場合PD
A11は、起動しているアプリケーションの情報をサー
バ12の適応モデル選択部123へ送信して利用状況
(音声認識の重要度)を通知してもよいし、利用者に重
要度を入力させその情報(利用状況)をサーバ12の適
応モデル選択部123に送信してもよい。
【0064】また、音素の音響モデルはHMMに限らな
い。
【0065】また、「音響モデルを取得」などの発声テ
キストデータをPDA11からサーバ12へ送信しても
よい。この場合、一例として、発声テキストに含まれる
音韻のみの発声データにより作成された特化したGMM
を用いて、上記音韻のみから構成された発声データより
適応モデルを選択することができるため、高精度に適応
モデルを選択することができる。すべての音韻の発声か
ら話者ごとにGMMを作成した場合、GMMで表現でき
る話者性があいまいになる可能性がある。
【0066】また、利用者の発声データを変換したケプ
ストラム係数などの特徴量をPDA11からサーバ12
へ送信してもよい。
【0067】また、サーバ12のデータ蓄積部124に
GMMを蓄積せず、適応モデル選択部123でGMMの
代わりに音響モデルを用いて、音響モデルの尤度が最大
の音響モデルを適応モデルとして選択してもよい。
【0068】また、PDA11において、PDA側の情
報132を入力するマイクと同一のマイクを用いて音声
認識を行ってもよい。その場合、マイク特性を考慮した
適応モデルで音声認識を行うことができる。
【0069】また、PDA11は、テレビやパソコンや
カーナビゲーションシステムなどの据え置き型の端末で
もよい。
【0070】また、通信路131は、電話回線、インタ
ーネット回線、ケーブルテレビの回線など有線、通信
網、BS/CSデジタル放送や地上波デジタル放送など
の放送網であってもよい。
【0071】また、サーバ12をテレビまたはセットト
ップボックスとしPDA11(端末)をテレビのリモコ
ンとするなどのように、サーバと端末を空間的に近くに
存在させてもよい。
【0072】(第2の実施形態) <音声認識システムの構成>第2の実施形態による音声
認識システムの全体構成を図4に示す。この音声認識シ
ステムは、PDA11と、サーバ42とを備える。PD
A11およびサーバ42は通信路131を介して互いに
データのやりとりをする。
【0073】サーバ42は、受信部121と、送信部1
22と、適応モデル選択部123と、データ蓄積部12
4と、スケジュールデータベース421とを備える。ス
ケジュールデータベース421には、PDA11の利用
者のスケジュール(行き先、日時など)が格納されてい
る。
【0074】<音声認識システムの動作>次に、以上の
ように構成された音声認識システムの動作について図5
を参照しつつ説明する。ここでは、利用者Xが展示会場
でPDA11を利用する場合を例にして説明する。
【0075】利用者Xは、第1の実施形態において説明
したのと同様にして、展示会場の騒音と利用者Xの通常
の声とに適応した音響モデルおよび当該モデルのGMM
をPDA11のメモリ114にダウンロードする(ST
10101〜ST10104)。
【0076】[ステップST10111]PDA11
は、将来利用するであろう適応モデルを取得するか否か
の判断を利用者Xに促す。取得すると利用者Xが判断し
たときはPDA11の送信部112からサーバ42に要
求信号が送信され、ステップST10112にすすむ。
一方、取得しないと利用者Xが判断したときは要求信号
は送信されずにステップST10114にすすむ。ここ
では、将来利用するであろう適応モデルを取得すると利
用者Xが判断したものとする。
【0077】[ステップST10112]PDA11か
らの要求信号はサーバ42の受信部121を介して適応
モデル選択部123に与えられる。要求信号を受けると
適応モデル選択部123は、利用者Xが遭遇する可能性
のある状況を予測して当該状況に適応した音響モデルを
データ蓄積部124から選択する。具体的には次のよう
にして選択する。上述のステップST10101〜ST
10104では展示会場の騒音と利用者Xの通常の声と
に適応した音響モデルを適応モデルとしてPDAのメモ
リ114にダウンロードしている。これをふまえて適応
モデル選択部123は、利用者Xが今後遭遇する可能性
のある状況に適応した音響モデルとして、「展示会場の
騒音と利用者Xの風邪をひいたときの声とに適応した音
響モデル」、「展示会場の騒音と利用者Xが早口で話し
たときの声とに適応した音響モデル」、「展示会場の騒
音と利用者Xがひそひそ話をしたときの声とに適応した
音響モデル」、「展示会場の騒音に音響的に近い会場騒
音と利用者Xの通常の声とに適応した音響モデル」など
を選択する。また、別の選択方法として、スケジュール
データベース421に格納されている利用者Xのスケジ
ュールを参照して適応モデル選択部123は音響モデル
を選択する。たとえば利用者Xの今後のスケジュールと
して、「工事現場でのアルバイト」、「居酒屋での宴
会」、「ヨーロッパ旅行(英語圏およびフランス語
圏)」がスケジュールデータベース421に格納されて
いるものとする。この場合、適応モデル選択部123
は、利用者Xが今後遭遇する可能性のある状況に適応し
た音響モデルとして、「工事現場の騒音と利用者Xの通
常の声とに適応した音響モデル」、「居酒屋の騒音と利
用者Xの通常の声とに適応した音響モデル」、「展示会
場の騒音と利用者Xの英語での通常の声とに適応した音
響モデル」、「展示会場の騒音と利用者Xのフランス語
での通常の声とに適応した音響モデル」などを選択す
る。
【0078】[ステップST10113]上述のように
して選択された音響モデル(適応モデル)と当該モデル
に対応するGMMとがサーバ42の送信部122からP
DA11に送信される。PDA11の受信部113は、
サーバ42から送信された適応モデルおよびGMMを受
信する。受信部113によって受信された適応モデルお
よびGMMはメモリ114に蓄積される。ここでは、す
でにメモリ114に蓄積されている音響モデルおよびG
MMに加えて新たにダウンロードされた音響モデルおよ
びGMMがメモリ114に追加される。このようにして
メモリ114に蓄積された音響モデルおよびGMMの一
例を図6に示す。
【0079】[ステップST10114]音声認識部1
15は、メモリ114に蓄積された適応モデルを用いて
音声認識を行う。ステップST10102において音響
モデルを取得すると利用者が判断した場合には、ステッ
プST10103においてサーバ42からダウンロード
した適応モデルを用いて音声認識が行われる。ステップ
ST10102において音響モデルを取得しないと利用
者が判断した場合には、すでにメモリ114に蓄積され
ている適応モデルを用いて音声認識が行われる。
【0080】次に利用者Xは、アルバイトをしている工
事現場で音声認識を利用する。利用者Xは、工事現場に
おける利用者Xの音声データをPDA11のマイク11
1を用いて入力する(ST10101)。利用者Xは適
応モデルのダウンロードを要求しない(ST1010
2)。音声認識部115は、入力された音声データをメ
モリ114に蓄積されている各GMMに入力し、当該音
声データとの尤度が最大のGMMに対応した適応モデル
を選択する(ST10111)。音声認識部115は、
選択した適応モデルを用いて音声認識を行う(ST10
114)。
【0081】次に、利用者Xのアルバイト先の友達であ
る利用者YがPDA11を工事現場で利用する。利用者
Yは、工事現場における利用者Yの音声データをPDA
11のマイク111を用いて入力する(ST1010
1)。利用者Yは適応モデルのダウンロードを要求する
(ST10102)。工事現場の騒音と利用者Yの通常
の声とに適応した音響モデル(適応モデル)および当該
モデルのGMMがPDA11のメモリ114にダウンロ
ードされる(ST10103〜ST10104)。ま
た、利用者Yは、将来必要であろう適応モデルを要求し
ない(ST10111)。利用者Yは、メモリ114に
ダウンロードした適応モデルを用いて音声認識部115
により認識を行う(ST10114)。
【0082】<効果>第2の実施形態による音声認識シ
ステムによれば、第1の実施形態において得られた効果
に加えて以下の効果が得られる。
【0083】遭遇する可能性のある状況を予測して当該
状況の適応モデルを事前にPDA11のメモリ114に
蓄積するため、PDA11の利用者はサーバ42に通信
することなく適応モデルを利用できる。また、PDA1
1のメモリ114には複数の利用者の適応モデルを蓄積
することができるため、PDA11の複数の利用者がサ
ーバに通信することなく適応モデルを利用できる。
【0084】<変形例>なお、ここでは、将来利用する
であろう適応モデルをPDA11の利用者の判断に従っ
て取得したが、サーバ42の適応モデル選択部123に
自動的に取得させてもよい。たとえば、スケジュールデ
ータベース421に格納されている利用者のスケジュー
ルを参照して次のように取得する。PDA11の利用者
Xのスケジュールが「10時から工事現場でのアルバイ
ト」となっている場合を例にする。この場合には、10
時より所定時間前の時刻たとえば9時50分に適応モデ
ル選択部123は、「工事現場の騒音と利用者Xの通常
の声とに適応した音響モデル」をデータ蓄積部124か
ら選択する。選択されたモデルは送信部122によって
PDA11に送信され、メモリ114に蓄積される。こ
れにより、アルバイト開始時刻の10時には「工事現場
の騒音と利用者Xの通常の声とに適応した音響モデル」
を利用した音声認識をPDA11で行うことができる。
また、PDA11にGPS機能が搭載されている場合に
は、PDA11を携帯した利用者Xがアルバイト先の工
事現場にある程度近づいた時点で適応モデル選択部12
3によって「工事現場の騒音と利用者Xの通常の声とに
適応した音響モデル」をデータ蓄積部124から選択し
てもよい。
【0085】また、ここではスケジュールデータベース
421をサーバ42内に設けたがこれをPDA11内に
設けてもよい。
【0086】また、適応モデル選択部123によって選
択された適応モデルに対応するGMMはPDA11にダ
ウンロードせずに、PDA11のメモリ114からの適
応モデルの選択の際に適応モデルそのものを用いてもよ
い。
【0087】また、ステップST10101において音
声入力を行うときに利用者の名前を入力し、ダウンロー
ドした適応モデルと利用者の名前を対応づけておく。そ
してステップST10114において適応モデルを選択
する際に利用者の名前を入力することによって選択して
もよい。
【0088】また、サーバ42をテレビまたはセットト
ップボックスとしPDA11(端末)をテレビのリモコ
ンとするなどのように、サーバと端末を空間的に近くに
存在させてもよい。
【0089】(第3の実施形態) <音声認識システムの構成>第3の実施形態による音声
認識システムの全体構成を図7に示す。この音声認識シ
ステムは、携帯電話21と、サーバ22とを備える。携
帯電話21およびサーバ22は通信路231を介して互
いにデータのやりとりをする。
【0090】携帯電話21は、データ入力部211と、
送信部212と、受信部213と、メモリ214と、音
声認識部215とを備える。データ入力部211は、携
帯電話21の利用者の音声や携帯電話21の周りの雑音
などの情報を入力するためのものである。データ入力部
211は、音声発声ボタンと、マイクとを含む。音声発
声ボタンは、利用者の音声と環境雑音とを区別して入力
するためのボタンである。マイクは、携帯電話21の利
用者の音声や携帯電話21の周りの雑音などを入力す
る。送信部212は、データ入力部211によって入力
されたデータをサーバ22に送信する。受信部213
は、サーバ22から送信された適応モデルを受信する。
受信部213によって受信された適応モデルはメモリ2
14に蓄積される。音声認識部215は、メモリ214
に蓄積された適応モデルを利用して音声認識を行う。
【0091】サーバ22は、受信部221と、送信部2
22と、適応モデル作成部223と、データ蓄積部22
4と、スケジュールデータベース421とを備える。デ
ータ蓄積部224には適応モデル作成用データが蓄積さ
れる。適応モデル作成用データには、複数の音響モデル
およびこれらに対応するGMMと、複数の話者の発声デ
ータとが含まれている。受信部221は、携帯電話21
から送信されたデータを受信する。適応モデル作成部2
23は、受信部221によって受信されたデータおよび
データ蓄積部224に蓄積されたデータに基づいて適応
モデルを作成する。送信部222は、適応モデル作成部
223によって作成された適応モデルを携帯電話21に
送信する。
【0092】<音声認識システムの動作>次に、以上の
ように構成された音声認識システムの動作について図8
を参照しつつ説明する。ここでは、利用者が電車内で携
帯電話21を利用する場合を例にして説明する。
【0093】[ステップST10201]携帯電話21
の利用者は、携帯電話21に装着されたマイクおよび音
声発声ボタン211を利用して、利用者が発声している
ときのデータと、発声していないときの周囲雑音のデー
タとを区別して入力する。利用者は、音声発声ボタンを
押しながら発声することで利用者の音声をマイクに入力
する。また、音声発声ボタンを押さなければマイクから
周囲雑音が入力される。利用者の発声データとして電車
が停車時の利用者の音声を入力し、周囲雑音として電車
が動いているときの騒音と周りの人の声を入力する。
【0094】[ステップST10202]携帯電話21
は、音響モデルを取得するか否かの判断を利用者に促
す。音響モデルを取得すると利用者が判断したときは、
ステップST10201においてデータ入力部211か
ら入力されたデータが携帯電話21の送信部212によ
ってサーバ22に送信される。そしてステップST10
203にすすむ。一方、音響モデルを取得しないと利用
者が判断したときはサーバ22への送信は行わずにステ
ップST10214にすすむ。
【0095】[ステップST10203]サーバ22の
受信部221は、携帯電話21から送信された利用者の
音声と周囲雑音とを受信する。
【0096】適応モデル作成部223は、データ蓄積部
224に蓄積されている音響モデルのうち少なくとも2
個の音響モデルと受信部221が受信したデータとに基
づいて、携帯電話21側の利用環境に適応化した適応モ
デルを作成する。
【0097】適応モデル作成部223は、環境雑音適応
アルゴリズム(山田実一,馬場朗,芳澤伸一,米良祐一
郎,李晃伸,猿渡洋,鹿野清宏,”環境雑音アルゴリズ
ムの大語彙連続音声認識による評価”,情報処理学会研
究報告書,2000−SLP−35,pp.31−3
6,2001)を利用して適応モデルを作成する。以
下、環境雑音適応アルゴリズムを利用した適応モデルの
作成について図9を参照しつつ説明する。サーバ22の
データ蓄積部224には、複数の音響モデルと複数の話
者の発声データとがあらかじめ蓄積されている。環境雑
音適応アルゴリズムでは、発声データにより、充足統計
量と話者距離を用いて話者適応を行う。充足統計量と話
者距離による適応化方法では、短時間の利用者の発声デ
ータに音響的に近い話者の音響モデルをデータ蓄積部2
24より選択し(ST73)、選択した音響モデルを用
いて充足統計量と話者距離による適応化法により話者適
応を行う(ST71)。携帯電話21から受信した雑音
を含まない発声データにより話者適応を行うことで、高
精度に話者適応を行うことができる。そのあとに、短時
間の利用者の発声データに音響的に近い話者の発声デー
タをデータ蓄積部224より選択し(ST74)、選択
された発声データに携帯電話21から受信した周囲雑音
のデータを付加した雑音付加データを生成する。そして
雑音付加データによりMLLRを用いて雑音適応を行う
(ST72)。このようにして適応モデルが作成され
る。
【0098】[ステップST10204]適応モデル作
成部223によって作成された適応モデル233は送信
部222によって携帯電話21の受信部213に送信さ
れる。携帯電話21の受信部213が受信した適応モデ
ル233はメモリ214に蓄積される。ここでは、すで
にメモリ214に蓄積されている音響モデルおよびGM
Mに加えて新たにダウンロードされた音響モデルおよび
GMMがメモリ214に追加される。
【0099】[ステップST10211]携帯電話21
は、将来利用するであろう適応モデルを取得するか否か
の判断を利用者に促す。取得すると利用者が判断したと
きは携帯電話21の送信部212からサーバ22に要求
信号が送信され、ステップST10212にすすむ。一
方、取得しないと利用者が判断したときは要求信号は送
信されずにステップST10214にすすむ。
【0100】[ステップST10212]携帯電話21
からの要求信号を受けると適応モデル作成部223は、
利用者が遭遇する可能性のある状況を予測して当該状況
に適応した音響モデルを作成する。作成すべき音響モデ
ルの選択は、図5に示したステップST10112にお
いて説明したのと同様に行う。モデルの作成は、上述の
ステップST10203において説明したのと同様にし
て行う。
【0101】[ステップST10213]上述のように
して作成された音響モデル(適応モデル)と当該モデル
に対応するGMMとがサーバ22の送信部222から携
帯電話21に送信される。携帯電話21の受信部213
は、サーバ22から送信された適応モデルおよびGMM
を受信する。受信部213によって受信された適応モデ
ルおよびGMMはメモリ214に蓄積される。ここで
は、すでにメモリ214に蓄積されている音響モデルお
よびGMMに加えて新たにダウンロードされた音響モデ
ルおよびGMMがメモリ214に追加される。
【0102】[ステップST10214]音声認識部2
15は、図5に示したステップST10114において
説明したのと同様にして、メモリ214に蓄積された適
応モデルを用いて音声認識を行う。
【0103】<効果>以上説明したように第3の実施形
態によれば、遭遇する可能性のある(実際に遭遇しない
場合が多い)すべての状況に対応した適応モデルを携帯
電話21のメモリ214に蓄積しておく必要はなく、遭
遇した状況に適した適応モデルをサーバ22から獲得し
て蓄積しておけばよいため、携帯電話21のメモリ21
4の容量を削減することができる。
【0104】また、携帯電話21の利用者は、携帯電話
21の周囲の雑音・利用者の話者性・利用者の声の性質
などに適応化した適応モデルにより音声認識をすること
ができるため、高い認識率を獲得することができる。
【0105】また、サーバ22において、携帯電話21
側の状況を考慮して適応モデルを作成することができる
ため、携帯電話21の利用状況にさらに適応化した適応
モデルを携帯電話21に送信することができる。
【0106】<変形例>なお、利用者の音声データと利
用者が発声していないときの周囲雑音のデータとを区別
する方法として、音声識別モデルと雑音識別モデルとを
利用して自動的に行ってもよい。
【0107】また、音響モデルはHMMに限らない。
【0108】また、適応モデル作成部223において、
充足統計量と話者距離を用いた方法(芳澤伸一,馬場
朗,松浪加奈子,米良祐一郎,山田実一,鹿野清宏,”
充足統計量と話者距離を用いた音韻モデルの教師なし学
習”,信学技報,SP2000−89,pp.83−8
8,2000)に改良を加えて、複数の話者に関する音
響モデルの代わりに、複数の話者と雑音に関する音響モ
デルとそれらの音響モデルに付随するGMMにより適応
化を行う方法を利用してもよい。
【0109】また、適応モデル作成部223において、
MAP推定やMLLRの改良法など、音響モデルを利用
した他の適応化手法を用いてもよい。
【0110】また、携帯電話21側の情報232とし
て、「音響モデルを取得」などの発声テキストデータを
サーバ22に送信して利用してもよい。
【0111】また、携帯電話21側の情報232とし
て、発声データを変換したケプストラム係数などの特徴
量をサーバ22に送信してもよい。
【0112】また、端末装置としての携帯電話21に代
えて、テレビやパソコンやカーナビゲーションシステム
などの据え置き型の端末などを用いてもよい。
【0113】また、通信路は、電話回線、インターネッ
ト回線、ケーブルテレビの回線など有線、通信網、BS
/CSデジタル放送や地上波デジタル放送などの放送網
であってもよい。
【0114】また、サーバ22をテレビまたはセットト
ップボックスとし携帯電話21(端末)をテレビのリモ
コンとするなどのように、サーバと端末を空間的に近く
に存在させてもよい。
【0115】(第4の実施の形態) <音声認識システムの構成>第4の実施形態による音声
認識システムの全体構成を図10に示す。この音声認識
システムは、携帯端末31と、サーバ32とを備える。
携帯端末31およびサーバ32は通信路331を介して
互いにデータのやりとりをする。
【0116】携帯端末31は、データ入力部311と、
送信部312と、受信部313と、メモリ314と、適
応モデル作成部316と、音声認識部315とを備え
る。データ入力部311は、携帯端末31の利用者の音
声や携帯端末31の周りの雑音などの情報を入力するた
めのものである。データ入力部311は、マイクと、ウ
ェブブラウザとを含む。マイクは、利用者の音声と環境
雑音を入力する。ウェブブラウザは、利用者の音声と環
境雑音とに関する情報を入力する。送信部312は、デ
ータ入力部311で入力されたデータをサーバ32に送
信する。受信部313は、サーバ32から送信された適
応モデル作成用データを受信する。受信部313によっ
て受信された適応モデル作成用データはメモリ314に
蓄積される。適応モデル作成部316は、メモリ314
に蓄積された適応モデル作成用データを利用して適応モ
デルを作成する。音声認識部315は、適応モデル作成
部316によって作成された適応モデルを利用して音声
認識を行う。また、メモリ314には、さまざまな状況
(環境)における特徴的な音のデータが記憶されてい
る。たとえば、スーパーマーケットや展示会場などの場
所における特徴的な音、自動車・地下鉄などの特徴的な
音のデータが記憶されている。これらのデータは、携帯
端末31による音声認識処理を行う前にあらかじめサー
バ32から携帯端末31のメモリ314にダウンロード
されている。
【0117】サーバ32は、受信部321と、送信部3
22と、選択部323と、データ蓄積部324と、スケ
ジュールデータベース421とを備える。データ蓄積部
324には、複数の音響モデルと当該音響モデルを選択
するための選択モデル(GMM)とが蓄積される。受信
部321は、携帯端末31から送信されたデータを受信
する。選択部323は、携帯端末31の利用環境などに
適応化するために必要な適応モデル作成用データをデー
タ蓄積部324から選択する。送信部322は、選択部
323によって選択された適応モデル作成用データを携
帯端末31に送信する。
【0118】<音声認識システムの動作>次に、以上の
ように構成された音声認識システムの動作について図1
1を参照しつつ説明する。ここでは、利用者がスーパー
マーケットで携帯端末31を利用する場合を例として説
明する。
【0119】[ステップST10401]携帯端末31
の利用者は、データ入力部311のマイクにより「今日
の献立は何にしようかな」などの音声データを入力す
る。データ入力部311のウェブブラウザは、図12に
示すように、周囲の状況(環境)・声の調子などの情報
の入力を促す画面を携帯端末31のタッチパネル上に表
示する。携帯端末31の利用者は、ソフトペンなどを用
いてタッチパネル上の「スーパーマーケット」の項目と
「風邪気味」の項目とにチェックを入れることによって
周囲の状況(環境)・声の調子などの情報を入力する。
このとき携帯端末31の利用者が「この音を聴く」の項
目にチェックを入れると、チェックを入れた状況(環
境)における特徴的な音のデータがメモリ314から読
み出され再生される。この場合には、スーパーマーケッ
トにおける特徴的な音が再生される。
【0120】[ステップST10402]携帯端末31
は、作成用データを取得するか否かの判断を利用者に促
す。作成用データを取得すると利用者が判断したとき
は、ステップST10401において入力された情報3
32が携帯端末31の送信部312によってサーバ32
に送信される。そしてステップST10403にすす
む。一方、作成用データを取得しないと利用者が判断し
たときはサーバ32への送信は行わずにステップST1
0408にすすむ。
【0121】[ステップST10403]サーバ32の
データ蓄積部324には、図3に示したように、複数の
音響モデルと複数のGMMとが対応づけられて事前に蓄
えられている。
【0122】サーバ32の受信部321は、携帯端末3
1から送信された携帯端末側の情報332を受信する。
選択部323は、受信された携帯端末側の情報332に
基づいて、少なくとも2つの音響モデルおよび当該モデ
ルに対応するGMMをデータ蓄積部324に蓄積されて
いる音響モデルおよびGMMから選択する。選択部32
3によって選択された音響モデルおよびGMMを「適応
モデル作成用データ」とする。ここでは、選択部323
は、第1の実施の形態における適応モデル選択部123
と基本的に同様な方法を用いており、短時間の利用者の
発声に基づいて適応モデル作成用データを選択する。た
だし、携帯端末側の情報332のうちタッチパネルによ
って入力された情報を利用して、選択される音響モデル
に制約をかける。なお、ここでいう制約とはフィルタリ
ングの意味である。たとえばタッチパネルによって入力
された情報が「風邪気味」と「スーパーマーケット」で
あれば、「風邪気味」と「スーパーマーケット」に関連
する音響モデルに付随するGMMのみを用いて選択を行
う。
【0123】[ステップST10404]送信部322
は、選択部323によって選択された適応モデル作成用
データ333を携帯端末31に送信する。
【0124】携帯端末31の受信部313によって受信
された適応モデル作成用データ333はメモリ314に
蓄積される。ここでは、すでにメモリ314に蓄積され
ている適応モデル作成用データに加えて新たにダウンロ
ードされた適応モデル作成用データがメモリ314に追
加される。
【0125】[ステップST10405]携帯端末31
は、将来利用するであろう適応モデルを作成するための
適応モデル作成用データを取得するか否かの判断を利用
者に促す。取得すると利用者が判断したときは携帯端末
31の送信部312からサーバ32に要求信号が送信さ
れ、ステップST10406にすすむ。一方、取得しな
いと利用者が判断したときは要求信号は送信されずにス
テップST10408にすすむ。
【0126】[ステップST10406]携帯端末31
からの要求信号を受けると選択部323は、利用者が遭
遇する可能性のある状況を予測し、当該状況に適応した
音響モデルを作成するための適応モデル作成用データ
(少なくとも2つの音響モデルおよび当該モデルに対応
するGMM)をデータ蓄積部324から選択する。作成
すべき音響モデルの選択は、図5に示したステップST
10112において説明したのと同様に行う。適応モデ
ル作成用データの選択は、上述のステップST1040
3において説明したのと同様にして行う。
【0127】[ステップST10407]上述のように
して選択された適応モデル作成用データがサーバ32の
送信部322から携帯端末31に送信される。携帯端末
31の受信部313は、サーバ32から送信された適応
モデル作成用データを受信する。受信部313によって
受信された適応モデル作成用データはメモリ314に蓄
積される。ここでは、すでにメモリ314に蓄積されて
いる適応モデル作成用データに加えて新たにダウンロー
ドされた適応モデル作成用データがメモリ314に追加
される。
【0128】[ステップST10408]適応モデル作
成部316は、現在までにメモリ314に蓄積された適
応モデル作成用データを用いて適応モデルを作成する。
ここでは、充足統計量と話者距離を用いた方法(芳澤伸
一,馬場朗,松浪加奈子,米良祐一郎,山田実一,鹿野
清宏,”充足統計量と話者距離を用いた音韻モデルの教
師なし学習”,信学技報,SP2000−89,pp.
83−88,2000)に基づいて適応モデルを作成す
る。適応モデル作成部316は、サーバ32の選択部3
23と同様にして、データ入力部311のマイクより入
力された音声データに基づいてメモリ314から複数の
音響モデルを選択する。選択された音響モデルは、現在
の利用環境における周囲の雑音と話者に最も適合した複
数のモデルである。選択された複数の音響モデル(HM
M)の平均・分散・遷移確率・EMカウントを用いて統
計計算により適応モデルを作成する。適応モデルである
HMMの平均・分散・遷移確率は、選択された音響モデ
ル全体でのHMMの各状態の各混合分布の平均・分散
と、選択された音響モデル全体での遷移確率となる。具
体的な計算方法を以下の数1−数3に示す。適応モデル
のHMMの各状態における正規分布の平均,分散をそれ
ぞれ、μi adp(i=1,2,・・,Nmix)、v
i adp(i=1,2,・・,Nmix)とする。ここでNmix
は混合分布数である。また、状態遷移確率をa
adp[i][j](i,j=1,2,・・・,Nstate
とする。ここでNstateは状態数であり、aadp[i]
[j]は状態iから状態jへの遷移確率を表す。
【0129】
【数1】
【0130】
【数2】
【0131】
【数3】
【0132】ここで、Nselは選択された音響モデルの
数であり、 μi j(i=1,2,・・・,Nmix,j=1,2,・・
・,Nsel)、 vi j(i=1,2,・・・,Nmix,j=1,2,・・
・,Nsel) はそれぞれの音響モデルの平均,分散である。また、 Cj mix(j=1,2,・・・,Nsel)、 Ck state[i][j](k=1,2,・・・,Nsel
i,j=1,2,・・・,Nstate) はそれぞれ正規分布におけるE−Mカウント(度数)、
状態遷移に関するE−Mカウントである。
【0133】[ステップST10409]音声認識部3
15は、適応モデル作成部316によって作成された適
応モデルを用いて音声認識を行う。
【0134】<効果>以上説明したように第4の実施形
態によれば、遭遇する可能性のある(実際に遭遇しない
場合が多い)すべての状況に対応した適応モデル作成用
データを携帯端末31のメモリ314に蓄積しておく必
要はなく、遭遇した状況に適応化するための適応モデル
作成用データをサーバ32から獲得して蓄積しておけば
よいため、携帯端末31のメモリ314の容量を削減す
ることができる。
【0135】また、携帯端末31の利用者は、携帯端末
31の周囲の雑音・利用者の話者性・利用者の声の調子
などに適応化した適応モデルにより音声認識をすること
ができるため、高い認識率を獲得することができる。
【0136】また、いったん遭遇した状況の適応モデル
作成用データを携帯端末31のメモリ314に蓄積する
ため、同じ環境に遭遇した場合にサーバ32との通信な
しで適応モデルを作成することができる。
【0137】<変形例>なお、図1および図4に示した
PDA11ならびに図7に示した携帯電話21の内部に
適応モデル作成部316を設け、メモリ114,21
4,314に蓄積された音響モデルのうち少なくとも2
つを用いて適応モデルを作成してもよい。
【0138】また、複数の利用者の作成用データをメモ
リ314に蓄積して適応モデルを作成してもよい。この
場合、利用者の音声を入力/利用者の名前を指定して特
定の利用者の作成用データを選択して適応モデルを作成
する。
【0139】また、音響モデルはHMMに限らない。
【0140】また、携帯端末31の情報332として、
発声データを変換したケプストラム係数などの特徴量を
サーバ32に送信してもよい。
【0141】また、適応モデル作成および音声認識に用
いる適応化法は、音響モデルを用いる他の適応化法でも
よい。
【0142】また、適応モデル作成および音声認識に用
いる音声データを入力するマイクは、データ入力部31
1のマイクと異なるものを用いてもよい。
【0143】また、携帯端末31に代えて、テレビやパ
ソコンやカーナビゲーションシステムなどの据え置き型
の端末を用いてもよい。
【0144】また、通信路は、電話回線、インターネッ
ト回線、ケーブルテレビの回線など有線、通信網、BS
/CSデジタル放送や地上波デジタル放送などの放送網
であってもよい。
【0145】また、サーバ32をテレビまたはセットト
ップボックスとし携帯端末31をテレビのリモコンとす
るなどのように、サーバと端末を空間的に近くに存在さ
せてもよい。
【0146】(第5の実施形態) <音声認識システムの構成>第5の実施形態による音声
認識システムは、図1に示したPDA11に代えて図1
3に示すPDA61を備える。その他の構成は図1に示
した音声認識システムと同様である。
【0147】図13に示すPDA61は、図1に示した
PDA11の構成に加えてさらに初期設定部601と判
断部602とを備える。また、メモリ114には、受信
部113によってすでに受信された音響モデルおよび当
該音響モデルのGMMがn組(nは正の整数)蓄積され
ている。初期設定部601は、しきい値Thを判断部6
02に与える。しきい値Thの値は、初期設定部601
が自動的に設定したり利用者の指示に従って初期設定部
601が設定したりする。判断部602は、マイク11
1によって得られた環境雑音が付加された利用者の音声
を所定の特徴量に変換し、その特徴量とメモリ114に
蓄積されている各音響モデルのGMMとの尤度を初期設
定部601からのしきい値Thと比較する。メモリ11
4に蓄積されているすべての音響モデルについての尤度
がしきい値Thよりも小さいとき、判断部602は制御
信号を送信部112に与える。判断部602からの制御
信号に応答して送信部112は、マイク111によって
得られた利用者の音声および環境雑音をサーバ12へ送
信する。一方、メモリ114に蓄積されているいずれか
の音響モデルについての尤度がしきい値Th以上のと
き、判断部602は制御信号を送信部112に与えな
い。また送信部112はサーバ12への送信を行わな
い。
【0148】<音声認識システムの動作>次に、以上の
ように構成された音声認識システムの動作について図1
4を参照しつつ説明する。
【0149】上述のとおりPDA61のメモリ114に
は、受信部113によってすでに受信された音響モデル
および当該音響モデルのGMMがn組(nは正の整数)
蓄積されている。
【0150】そしてPDA61の初期設定部601によ
ってしきい値Thが決定され判断部602に送信される
(ST701)。しきい値Thは、音声認識を利用する
アプリケーションに応じて決定される。たとえば初期設
定部601は、セキュリティに関するアプリケーション
(音声認識により機密情報を処理するようなアプリケー
ション、音声認識により自動車の運転操作を行うような
アプリケーションなど)を利用する場合にはしきい値T
hを大きく設定し、それ以外のアプリケーションを利用
する場合にはしきい値Thを小さく設定する。初期設定
部601は、利用するアプリケーションが選択されたと
きにそのアプリケーションに対応したしきい値Thを判
断部602に与える。
【0151】次に、環境雑音が付加された利用者の音声
がPDA61のマイク111により入力される(ST7
02)。
【0152】次に、マイク111によって得られた環境
雑音が付加された利用者の音声がPDA61の判断部6
02によって所定の特徴量に変換される。そしてメモリ
114に蓄積されている各音響モデルのGMM(GMM
1−GMMn)にその特徴量が入力され、それぞれの尤
度が計算される(ST703)。
【0153】次に、ステップST703において計算さ
れた尤度の最大値がしきい値Thよりも小さいか否かが
判断部602によって判断される(ST704)。
【0154】メモリ114に蓄積されているすべてのG
MM(GMM1−GMMn)についての尤度がしきい値
Thよりも小さいとき(yes)、ステップST705
にすすむ。そして判断部602は制御信号を送信部11
2に与える。判断部602からの制御信号に応答して送
信部112は、マイク111によって得られた利用者の
音声および環境雑音をサーバ12へ送信する(ST70
5)。サーバ12は、第1の実施形態におけるのと同様
にして、当該利用者の音声および環境雑音に最も適合し
た音響モデルをPDA61に送信する。この音響モデル
はPDA61の受信部113によって受信され、メモリ
114に蓄積される。そして音声認識部115は、メモ
リ114に蓄積されたこの音響モデルを用いて音声認識
を行う。
【0155】一方、ステップST703において計算さ
れた尤度のうちいずれかがしきい値Th以上のとき(n
o)、判断部602は制御信号を送信部112に与えな
い。したがって送信部112はサーバ12への送信を行
わない。そして音声認識部115は、ステップST70
3において計算された尤度が最も高いGMMの音響モデ
ルを用いて音声認識を行う。
【0156】<効果>以上のように第5の実施形態によ
る音声認識システムでは、環境雑音が付加された利用者
の音声とPDA61のメモリ114にあらかじめ蓄積さ
れている音響モデルとの尤度が所定のしきい値よりも小
さいときに限り、利用者の音声および環境雑音をPDA
61からサーバ12へ送信する。これにより、PDA6
1とサーバ12との間のデータの送受信を減らすことが
できる。
【0157】<変形例>なお、図7に示した携帯電話2
1および図10に示した携帯端末31についても同様に
初期設定部601および判断部602を設けてもよい。
【0158】また、サーバ12をテレビまたはセットト
ップボックスとしPDA61(端末)をテレビのリモコ
ンとするなどのように、サーバと端末を空間的に近くに
存在させてもよい。
【0159】(第6の実施形態) <音声認識システムの構成>第6の実施形態による音声
認識システムは、図1に示したPDA11に代えて図1
5に示すPDA81を備える。その他の構成は図1に示
した音声認識システムと同様である。
【0160】図15に示すPDA81は、図1に示した
PDA11の構成に加えてさらに判断部801を備え
る。また、メモリ114には、受信部113によってす
でに受信された音響モデルおよび当該音響モデルのGM
Mがn組(nは正の整数)蓄積されている。判断部80
1は、マイク111によって得られた環境雑音が付加さ
れた利用者の音声を所定の特徴量に変換し、その特徴量
とメモリ114に蓄積されている各音響モデルのGMM
との尤度を所定のしきい値と比較する。メモリ114に
蓄積されているすべての音響モデルについての尤度がし
きい値よりも小さいとき、判断部801は、音響モデル
をダウンロードするか否かの判断を利用者に促す。音響
モデルをダウンロードすべきであると利用者が判断した
とき送信部112は、マイク111によって得られた利
用者の音声および環境雑音をサーバ12へ送信する。音
響モデルをダウンロードすべきではないと利用者が判断
したとき送信部112はサーバ12への送信を行わな
い。また、メモリ114に蓄積されているいずれかの音
響モデルについての尤度がしきい値以上のときも送信部
112はサーバ12への送信を行わない。
【0161】<音声認識システムの動作>次に、以上の
ように構成された音声認識システムの動作について図1
6を参照しつつ説明する。
【0162】上述のとおりPDA81のメモリ114に
は、受信部113によってすでに受信された音響モデル
および当該音響モデルのGMMがn組(nは正の整数)
蓄積されている。
【0163】そして、環境雑音が付加された利用者の音
声がPDA81のマイク111により入力される(ST
901)。
【0164】次に、マイク111によって得られた環境
雑音が付加された利用者の音声がPDA81の判断部8
01によって所定の特徴量に変換される。そしてメモリ
114に蓄積されている各音響モデルのGMM(GMM
1−GMMn)にその特徴量が入力され、それぞれの尤
度が計算される(ST902)。
【0165】次に、ステップST902において計算さ
れた尤度の最大値が所定のしきい値よりも小さいか否か
が判断部801によって判断される(ST903)。
【0166】メモリ114に蓄積されているすべてのG
MM(GMM1−GMMn)についての尤度がしきい値
よりも小さいとき(yes)、ステップST904にす
すむ。そして判断部801は、音響モデルをダウンロー
ドするか否かの判断を利用者に促す(ST904)。音
響モデルをダウンロードすべきであると利用者が判断し
たとき(yes)、送信部112は、マイク111によ
って得られた利用者の音声および環境雑音をサーバ12
へ送信する(ST905)。サーバ12は、第1の実施
形態におけるのと同様にして、当該利用者の音声および
環境雑音に最も適合した音響モデルをPDA81に送信
する。この音響モデルはPDA81の受信部113によ
って受信され、メモリ114に蓄積される。そして音声
認識部115は、メモリ114に蓄積されたこの音響モ
デルを用いて音声認識を行う。
【0167】一方、ステップST902において計算さ
れた尤度のうちいずれかがしきい値以上のとき(ステッ
プST903においてno)、および、音響モデルをダ
ウンロードすべきではないと利用者が判断したとき(ス
テップST904においてno)、送信部112はサー
バ12への送信を行わない。そして音声認識部115
は、ステップST902において計算された尤度が最も
高いGMMの音響モデルを用いて音声認識を行う。
【0168】<効果>以上のように第6の実施形態によ
る音声認識システムでは、環境雑音が付加された利用者
の音声とPDA81のメモリ114にあらかじめ蓄積さ
れている音響モデルとの尤度が所定のしきい値よりも小
さいときであって音響モデルをダウンロードすべきであ
ると利用者が判断したときに限り、利用者の音声および
環境雑音をPDA81からサーバ12へ送信する。これ
により、PDA81とサーバ12との間のデータの送受
信を減らすことができる。
【0169】<変形例>なお、図7に示した携帯電話2
1および図10に示した携帯端末31についても同様に
判断部801を設けてもよい。
【0170】また、サーバ12をテレビまたはセットト
ップボックスとしPDA81(端末)をテレビのリモコ
ンとするなどのように、サーバと端末を空間的に近くに
存在させてもよい。
【0171】(第7の実施形態) <音声認識システムの構成>第7の実施形態による音声
認識システムの構成を図17に示す。この音声認識シス
テムは、図7に示した携帯電話21に代えて携帯電話1
01を備える。その他の構成は図7に示した音声認識シ
ステムと同様である。
【0172】図17に示す携帯電話101は、図7に示
した携帯電話21の構成に加えてさらにメモリ1001
を備える。メモリ1001には、データ入力部211に
より入力された利用者の音声および環境雑音が蓄積され
る。送信部212は、メモリ1001に蓄積されている
利用者の音声と環境雑音とをサーバ22へ送信する。
【0173】<音声認識システムの動作>次に、以上の
ように構成された音声認識システムの動作について図1
8を参照しつつ説明する。
【0174】静かな環境での利用者の音声を利用して適
応モデルを作成する場合、雑音が重畳した音声を利用し
て適応モデルを作成する場合と比較して高精度の適応モ
デルが作成できる。携帯電話101を持ち歩いた場合、
多くの時間帯において自動車の騒音・周囲の人の話し声
・オフィス内でのファンの音などの雑音が存在する。し
かし、公園などで休憩をしている間など、ある時間帯に
おいて周囲雑音がきわめて少ない場合がある。そのタイ
ミングで携帯電話101の利用者は音声発声ボタンを押
しながら発声する。これにより、静かな環境での利用者
の音声がメモリ1001に蓄積される(ST110
1)。
【0175】利用者が音声認識機能を利用しようとする
と、携帯電話101は、音響モデルをダウンロードする
か否かの判断を利用者に促す(ST1102)。音響モ
デルをダウンロードすべきであると利用者が判断したと
き(yes)、利用者は音声発声ボタンを押さずに環境
雑音をマイクにより入力する。マイクにより入力された
環境雑音はメモリ1001に蓄積される(ST110
3)。
【0176】次に送信部212は、メモリ1001に蓄
積された利用者の音声および環境雑音をサーバ22へ送
信する(ST1104)。サーバ22は、第3の実施形
態におけるのと同様にして、当該利用者の音声および環
境雑音に最も適合した音響モデルを携帯電話101に送
信する。この音響モデルは携帯電話101の受信部21
3によって受信され、メモリ214に蓄積される。そし
て音声認識部215は、メモリ214に蓄積されたこの
音響モデルを用いて音声認識を行う。
【0177】<効果>第7の実施形態による音声認識シ
ステムでは、携帯電話101にメモリ1001を設けた
ため、雑音のより少ない環境での利用者の音声により話
者適応を行うことができる。したがって話者適応を高精
度に行うことができる。
【0178】また、利用者の音声を一度蓄積すると、利
用者は適応モデルを作成するたびに発声する必要がない
ため、利用者の負担が少ない。
【0179】<変形例>なお、静かな環境での音声を複
数の人についてメモリ1001に蓄積してもよい。この
場合、複数の人の各々について、静かな環境での音声と
名前とを対応づけてメモリ1001に蓄積する。適応モ
デルを獲得するときには、名前を指定して利用者の音声
データを決定して適応モデルを作成する。これにより、
テレビの音声リモコンなどのように複数の人が利用する
機器に対しても高精度の適応モデルを利用することがで
きる。
【0180】また、ここではステップST1104にお
いて、メモリ1001に蓄積されている利用者の音声と
環境雑音とをサーバ22へ送信したが、メモリ1001
に蓄積されている静かな環境での利用者の音声に環境雑
音を付加したデータをサーバ22へ送信してもよい。
【0181】また、サーバ22をテレビまたはセットト
ップボックスとし携帯電話101(端末)をテレビのリ
モコンとするなどのように、サーバと端末を空間的に近
くに存在させてもよい。
【図面の簡単な説明】
【図1】 この発明の第1の実施形態による音声認識シ
ステムの全体構成を示すブロック図である。
【図2】 図1に示した音声認識システムの動作の流れ
を示すフローチャートである。
【図3】 図1に示したサーバのデータ蓄積部に蓄えら
れる音響モデルの一例を示す図である。
【図4】 この発明の第2の実施形態による音声認識シ
ステムの全体構成を示すブロック図である。
【図5】 図4に示した音声認識システムの動作の流れ
を示すフローチャートである。
【図6】 PDAのメモリに蓄積された音響モデルおよ
びGMMの一例を示す図である。
【図7】 この発明の第3の実施形態による音声認識シ
ステムの全体構成を示すブロック図である。
【図8】 図7に示した音声認識システムの動作の流れ
を示すフローチャートである。
【図9】 環境雑音適応アルゴリズムを利用した適用モ
デルの作成処理の流れを示す図である。
【図10】 この発明の第4の実施形態による音声認識
システムの全体構成を示すブロック図である。
【図11】 図10に示した音声認識システムの動作の
流れを示すフローチャートである。
【図12】 タッチパネル上に表示される画面の一例を
示す図である。
【図13】 この発明の第5の実施形態による音声認識
システムにおけるPDAの構成を示すブロック図であ
る。
【図14】 この発明の第5の実施形態による音声認識
システムの動作を説明するためのフローチャートであ
る。
【図15】 この発明の第6の実施形態による音声認識
システムにおける携帯電話の構成を示すブロック図であ
る。
【図16】 この発明の第6の実施形態による音声認識
システムの動作を説明するためのフローチャートであ
る。
【図17】 この発明の第7の実施形態による音声認識
システムの全体構成を示すブロック図である。
【図18】 図17に示した音声認識システムの動作を
説明するためのフローチャートである。
【符号の説明】
11 PDA(端末装置) 21 携帯電話(端末装置) 31 携帯端末(端末装置) 112,212,312 送信部(送信手段) 113,213,313 受信部(受信手段) 114,214,314 メモリ(第1の蓄積手段) 115,215,315 音声認識部(音声認識手段) 316 適応モデル作成部(作成手段) 602,801 判断部(判断手段) 1101 メモリ(第2の蓄積手段) 12,22,32 サーバ(サーバ装置) 121,221,321 送信部(送信手段) 122,222,322 受信部(受信手段) 123 適応モデル選択部(選択手段) 223 適応モデル作成部(作成手段) 124,224,324 データ蓄積部(蓄積手段) 323 選択部(選択手段)。
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 3/00 551P 551Q

Claims (18)

    【特許請求の範囲】
  1. 【請求項1】 利用者が発声した音声と環境雑音とをサ
    ーバ装置に送信する送信手段と、 前記サーバ装置から送信される、前記利用者の音声と前
    記環境雑音とに適応した音響モデルを受信する受信手段
    と、 前記受信手段によって受信された音響モデルを蓄積する
    第1の蓄積手段と、 前記第1の蓄積手段に蓄積された音響モデルを用いて音
    声認識を行う音声認識手段とを備えることを特徴とする
    端末装置。
  2. 【請求項2】 請求項1において、 前記受信手段は、 前記利用者が将来利用するであろう音響モデルを前記サ
    ーバ装置からさらに受信することを特徴とする端末装
    置。
  3. 【請求項3】 請求項1において、 前記環境雑音が付加された前記利用者の音声と前記第1
    の蓄積手段にすでに蓄積されている音響モデルとの類似
    度を所定のしきい値と比較する判断手段をさらに備え、 前記送信手段は、 前記類似度が前記しきい値よりも小さいとき前記利用者
    の音声および前記環境雑音を前記サーバ装置に送信する
    ことを特徴とする端末装置。
  4. 【請求項4】 請求項3において、 前記判断手段は、 前記類似度が前記しきい値よりも小さいとき、音響モデ
    ルを取得するか否かの判断を前記利用者に促し、 前記送信手段は、 前記利用者が音響モデルを取得すると判断したとき、前
    記利用者の音声および前記環境雑音を前記サーバ装置に
    送信することを特徴とする端末装置。
  5. 【請求項5】 請求項1において、 利用者が発声した音声を蓄積する第2の蓄積手段をさら
    に備え、 前記送信手段は、 環境雑音が取得されると、当該環境雑音と前記第2の蓄
    積手段に蓄積された利用者の音声とを前記サーバ装置に
    送信することを特徴とする端末装置。
  6. 【請求項6】 利用者が発声した音声と環境雑音とをサ
    ーバ装置に送信する送信手段と、 前記サーバ装置から送信される、前記利用者の音声と前
    記環境雑音とに適応した音響モデルを作成するための作
    成用データを受信する受信手段と、 前記受信手段によって受信された作成用データを蓄積す
    る第1の蓄積手段と、 前記利用者の音声と前記環境雑音とに適応した音響モデ
    ルを前記第1の蓄積手段に蓄積された作成用データを用
    いて作成する作成手段と、 前記作成手段によって作成された音響モデルを用いて音
    声認識を行う音声認識手段とを備えることを特徴とする
    端末装置。
  7. 【請求項7】 請求項6において、 前記受信手段は、 前記利用者が将来利用するであろう作成用データを前記
    サーバ装置からさらに受信することを特徴とする端末装
    置。
  8. 【請求項8】 請求項1または請求項6において、 前記端末装置は、 さまざまな環境の中から所望の環境を選択するように利
    用者に促し、 選択された環境における特徴的な音を再生することを特
    徴とする端末装置。
  9. 【請求項9】 各々が対応する話者および環境に適応し
    た複数の音響モデルを蓄積する蓄積手段と、 端末装置から送信される、利用者が発声した音声と環境
    雑音とを受信する受信手段と、 前記受信手段によって受信された前記利用者の音声と前
    記環境雑音とに適応した音響モデルを前記蓄積手段から
    選択する選択手段と、 前記選択手段によって選択された音響モデルを前記端末
    装置に送信する送信手段とを備えることを特徴とするサ
    ーバ装置。
  10. 【請求項10】 請求項9において、 前記選択手段は、 前記端末装置の利用者が将来利用するであろう音響モデ
    ルを前記蓄積手段から選択することを特徴とするサーバ
    装置。
  11. 【請求項11】各々が対応する話者および環境に適応し
    た複数の音響モデルを蓄積する蓄積手段と、 端末装置から送信される、利用者が発声した音声と環境
    雑音とを受信する受信手段と、 前記受信手段によって受信された前記利用者の音声およ
    び前記環境雑音と前記蓄積手段に蓄積された複数の音響
    モデルとに基づいて、前記利用者が発声した音声と前記
    環境雑音とに適応した音響モデルを作成する作成手段
    と、 前記作成手段によって作成された音響モデルを前記端末
    装置に送信する送信手段とを備えることを特徴とするサ
    ーバ装置。
  12. 【請求項12】 請求項11において、 前記作成手段は、 前記端末装置の利用者が将来利用するであろう音響モデ
    ルを作成することを特徴とするサーバ装置。
  13. 【請求項13】 各々が対応する話者および環境に適応
    した複数の音響モデルを蓄積する蓄積手段と、 端末装置から送信される、利用者が発声した音声と環境
    雑音とを受信する受信手段と、 前記受信手段によって受信された前記利用者の音声と前
    記環境雑音とに適応した音響モデルを作成するための作
    成用データを前記蓄積手段から選択する選択手段と、 前記選択手段によって選択された作成用データを前記端
    末装置に送信する送信手段とを備えることを特徴とする
    サーバ装置。
  14. 【請求項14】 請求項13において、 前記選択手段は、 前記端末装置の利用者が将来利用するであろう作成用デ
    ータを前記蓄積手段から選択することを特徴とするサー
    バ装置。
  15. 【請求項15】 請求項9、11、13のいずれか1つ
    において、 前記蓄積手段に蓄積される複数の音響モデルの各々は、
    対応する話者の声の調子にも適応していることを特徴と
    するサーバ装置。
  16. 【請求項16】 請求項9、11、13のいずれか1つ
    において、 前記蓄積手段に蓄積される複数の音響モデルの各々は、
    当該音響モデルを作成する際に話者が発声した音声を得
    るための入力手段の特性にも適応していることを特徴と
    するサーバ装置。
  17. 【請求項17】 各々が対応する話者、環境および声の
    調子に適応した複数の音響モデルを用意し、 利用者が発声した音声および環境雑音と前記複数の音響
    モデルとに基づいて、前記利用者の音声と前記環境雑音
    とに適応した音響モデルを獲得し、 前記獲得した音響モデルを用いて音声認識を行うことを
    特徴とする音声認識方法。
  18. 【請求項18】 請求項17において、 前記複数の音響モデルの各々は、当該音響モデルを作成
    する際に話者が発声した音声を得るための入力手段の特
    性にも適応していることを特徴とする音声認識方法。
JP2002260087A 2001-09-13 2002-09-05 端末装置、サーバ装置および音声認識方法 Pending JP2003177790A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002260087A JP2003177790A (ja) 2001-09-13 2002-09-05 端末装置、サーバ装置および音声認識方法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2001-277853 2001-09-13
JP2001277853 2001-09-13
JP2002260087A JP2003177790A (ja) 2001-09-13 2002-09-05 端末装置、サーバ装置および音声認識方法

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2004357775A Division JP2005107550A (ja) 2001-09-13 2004-12-10 端末装置、サーバ装置および音声認識方法

Publications (1)

Publication Number Publication Date
JP2003177790A true JP2003177790A (ja) 2003-06-27

Family

ID=26622130

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002260087A Pending JP2003177790A (ja) 2001-09-13 2002-09-05 端末装置、サーバ装置および音声認識方法

Country Status (1)

Country Link
JP (1) JP2003177790A (ja)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006084967A (ja) * 2004-09-17 2006-03-30 Advanced Telecommunication Research Institute International 予測モデルの作成方法およびコンピュータプログラム
WO2007138741A1 (ja) * 2006-05-26 2007-12-06 Nec Corporation 音声入力システム、対話型ロボット、音声入力方法、および、音声入力プログラム
JP2008546012A (ja) * 2005-05-27 2008-12-18 オーディエンス,インコーポレイテッド オーディオ信号の分解および修正のためのシステムおよび方法
WO2010004978A1 (ja) * 2008-07-11 2010-01-14 株式会社エヌ・ティ・ティ・ドコモ 音声合成モデル生成装置、音声合成モデル生成システム、通信端末、及び音声合成モデル生成方法
JP2010032865A (ja) * 2008-07-30 2010-02-12 Kddi Corp 音声認識装置、音声認識システムおよびプログラム
JP2011064845A (ja) * 2009-09-16 2011-03-31 Yamaha Corp 音声認識装置およびプログラム
JP2012511730A (ja) * 2008-12-09 2012-05-24 ノキア コーポレイション 自動音声認識音響モデルの適合
WO2013132615A1 (ja) * 2012-03-07 2013-09-12 パイオニア株式会社 ナビゲーション装置、サーバ、ナビゲーション方法及びプログラム
JP2015520409A (ja) * 2012-04-26 2015-07-16 ニュアンス コミュニケーションズ,インコーポレイテッド ユーザ定義可能な制約条件を有する省スペースの音声認識を構築する為の埋め込みシステム
JP2016180915A (ja) * 2015-03-25 2016-10-13 日本電信電話株式会社 音声認識システム、クライアント装置、音声認識方法、プログラム
JP2019174367A (ja) * 2018-03-29 2019-10-10 キヤノン株式会社 力覚センサ
JP2019211752A (ja) * 2018-06-01 2019-12-12 サウンドハウンド,インコーポレイテッド カスタム音響モデル
KR20200116617A (ko) * 2019-04-02 2020-10-13 주식회사 엘지유플러스 주변의 환경에 기초하여 오디오의 전처리 방법을 결정하는 방법 및 장치
JP2020201445A (ja) * 2019-06-13 2020-12-17 株式会社日立製作所 計算機システム、モデル生成方法及びモデル管理プログラム

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006084967A (ja) * 2004-09-17 2006-03-30 Advanced Telecommunication Research Institute International 予測モデルの作成方法およびコンピュータプログラム
JP2008546012A (ja) * 2005-05-27 2008-12-18 オーディエンス,インコーポレイテッド オーディオ信号の分解および修正のためのシステムおよび方法
US8315857B2 (en) 2005-05-27 2012-11-20 Audience, Inc. Systems and methods for audio signal analysis and modification
US9135913B2 (en) 2006-05-26 2015-09-15 Nec Corporation Voice input system, interactive-type robot, voice input method, and voice input program
WO2007138741A1 (ja) * 2006-05-26 2007-12-06 Nec Corporation 音声入力システム、対話型ロボット、音声入力方法、および、音声入力プログラム
WO2010004978A1 (ja) * 2008-07-11 2010-01-14 株式会社エヌ・ティ・ティ・ドコモ 音声合成モデル生成装置、音声合成モデル生成システム、通信端末、及び音声合成モデル生成方法
JP2010032865A (ja) * 2008-07-30 2010-02-12 Kddi Corp 音声認識装置、音声認識システムおよびプログラム
JP2012511730A (ja) * 2008-12-09 2012-05-24 ノキア コーポレイション 自動音声認識音響モデルの適合
JP2011064845A (ja) * 2009-09-16 2011-03-31 Yamaha Corp 音声認識装置およびプログラム
WO2013132615A1 (ja) * 2012-03-07 2013-09-12 パイオニア株式会社 ナビゲーション装置、サーバ、ナビゲーション方法及びプログラム
JP5698864B2 (ja) * 2012-03-07 2015-04-08 パイオニア株式会社 ナビゲーション装置、サーバ、ナビゲーション方法及びプログラム
US9097550B2 (en) 2012-03-07 2015-08-04 Pioneer Corporation Navigation device, server, navigation method and program
JP2015520409A (ja) * 2012-04-26 2015-07-16 ニュアンス コミュニケーションズ,インコーポレイテッド ユーザ定義可能な制約条件を有する省スペースの音声認識を構築する為の埋め込みシステム
JP2016180915A (ja) * 2015-03-25 2016-10-13 日本電信電話株式会社 音声認識システム、クライアント装置、音声認識方法、プログラム
JP2019174367A (ja) * 2018-03-29 2019-10-10 キヤノン株式会社 力覚センサ
JP2019211752A (ja) * 2018-06-01 2019-12-12 サウンドハウンド,インコーポレイテッド カスタム音響モデル
US11011162B2 (en) 2018-06-01 2021-05-18 Soundhound, Inc. Custom acoustic models
US11367448B2 (en) 2018-06-01 2022-06-21 Soundhound, Inc. Providing a platform for configuring device-specific speech recognition and using a platform for configuring device-specific speech recognition
US11830472B2 (en) 2018-06-01 2023-11-28 Soundhound Ai Ip, Llc Training a device specific acoustic model
KR20200116617A (ko) * 2019-04-02 2020-10-13 주식회사 엘지유플러스 주변의 환경에 기초하여 오디오의 전처리 방법을 결정하는 방법 및 장치
KR102262634B1 (ko) * 2019-04-02 2021-06-08 주식회사 엘지유플러스 주변의 환경에 기초하여 오디오의 전처리 방법을 결정하는 방법 및 장치
JP2020201445A (ja) * 2019-06-13 2020-12-17 株式会社日立製作所 計算機システム、モデル生成方法及びモデル管理プログラム
JP7261096B2 (ja) 2019-06-13 2023-04-19 株式会社日立製作所 計算機システム、モデル生成方法及びモデル管理プログラム

Similar Documents

Publication Publication Date Title
EP1293964A2 (en) Adaptation of a speech recognition method to individual users and environments with transfer of data between a terminal and a server
US9558745B2 (en) Service oriented speech recognition for in-vehicle automated interaction and in-vehicle user interfaces requiring minimal cognitive driver processing for same
US7603276B2 (en) Standard-model generation for speech recognition using a reference model
CN100351899C (zh) 网络环境中语音处理的中间体
US9202465B2 (en) Speech recognition dependent on text message content
CN102282608B (zh) 自动语音识别声学模型的调整
US8639508B2 (en) User-specific confidence thresholds for speech recognition
US9570066B2 (en) Sender-responsive text-to-speech processing
US20050043948A1 (en) Speech recognition method remote controller, information terminal, telephone communication terminal and speech recognizer
WO2000068933A1 (en) Adaptation of a speech recognition system across multiple remote sessions with a speaker
CN107819929A (zh) 优选表情符号的识别和生成
US20030120488A1 (en) Method and apparatus for preparing acoustic model and computer program for preparing acoustic model
JP2003177790A (ja) 端末装置、サーバ装置および音声認識方法
US9245526B2 (en) Dynamic clustering of nametags in an automated speech recognition system
KR20160060335A (ko) 대화 분리 장치 및 이에서의 대화 분리 방법
JP4852584B2 (ja) 禁止語発信防止方法、禁止語発信防止電話、禁止語発信防止サーバ
EP2541544A1 (en) Voice sample tagging
US20070129945A1 (en) Voice quality control for high quality speech reconstruction
US10854196B1 (en) Functional prerequisites and acknowledgments
JP3756879B2 (ja) 音響モデルを作成する方法、音響モデルを作成する装置、音響モデルを作成するためのコンピュータプログラム
JP2005107550A (ja) 端末装置、サーバ装置および音声認識方法
EP2706528A2 (en) System and method to generate a narrator specific acoustic database without a predefined script
KR100994930B1 (ko) 음성인식 기반 홈네트워크 시스템의 적응화 음성 인식 제어방법 및 그 시스템
KR102441066B1 (ko) 차량의 음성생성 시스템 및 방법
KR20040013071A (ko) 유명 연예인의 음성을 모사하는 음성 메일 서비스 방법 및그 시스템

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20041001

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041012

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041210

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041210

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050607