JP2003177790A

JP2003177790A - 端末装置、サーバ装置および音声認識方法

Info

Publication number: JP2003177790A
Application number: JP2002260087A
Authority: JP
Inventors: Shinichi Yoshizawa; 伸一芳澤
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2001-09-13
Filing date: 2002-09-05
Publication date: 2003-06-27

Abstract

(57)【要約】【課題】端末装置において必要なメモリ容量を小さく
する。【解決手段】ＰＤＡ１１のマイク１１１により入力さ
れた、雑音が付加された利用者の音声データが送信部１
１２よりサーバ１２に送信される。サーバ１２のデータ
蓄積部１２４には複数の音響モデルが事前に蓄えられて
いる。サーバ１２の適応モデル選択部１２３は、受信部
１２１によって受信された雑音付加データに最も適合し
た音響モデルをデータ蓄積部１２４に蓄積されている音
響モデルから選択する。選択された適応モデル１３３は
送信部１２２によりＰＤＡ１１に送信される。ＰＤＡ１
１の受信部１１３はサーバ１２からの適応モデル１３３
を受信する。受信された適応モデル１３３はメモリ１１
４に蓄積される。音声認識部１１５は、メモリ１１４に
蓄積された適応モデルを用いて音声認識を行う。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は端末装置、サーバ
装置および音声認識方法に関し、さらに詳しくは、それ
ぞれの利用者、それぞれの利用環境に適応化した音声認
識処理を行うための端末装置、サーバ装置および音声認
識方法に関する。

【０００２】

【従来の技術】近年、携帯電話・携帯端末・カーナビゲ
ーションシステム・パーソナルコンピュータなどでは音
声認識技術を用いて利用者の利便性を向上させることが
期待されている。

【０００３】音声認識技術は、さまざまな利用者にさま
ざまな環境で利用される。携帯電話・携帯端末などでは
利用環境に応じて背景雑音の種類などが時々刻々と変化
する。設置場所が固定された家庭内端末などでもテレビ
音声などにより背景雑音の種類は時々刻々と変化する。
そのため、このような環境下で発声した利用者の音声に
はさまざまな雑音が付加され、認識すべき音声データの
音響特性は時々刻々と変化する。また、同一の環境下に
おける同一の利用者においても、健康状態や老化などに
より利用者の声の性質が変化するため、認識すべき音声
データの音響特性は変化する。また、音声認識装置に取
り付けるマイクの種類などによっても認識すべき音声デ
ータの音響特性は変化する。

【０００４】音響特性の異なる音声データの認識率を１
００％に近づけるため、さまざまな適応化技術が開発さ
れている。

【０００５】たとえばＭＬＬＲ法による適応化法とし
て、C.J.Leggetter and P.C.Woodland,"Maximum likeli
hood linear regression for speaker adaptation of c
ontinuous density hidden Markov models",Computer S
peech and Language,1995,Vol.9,No.2,pp.171-186 な
どが提案されている。ＭＬＬＲ法では、利用者の多くの
発声データを利用して適応パラメータの推定を行い、こ
れらの適応パラメータにより音響モデルを変形すること
で適応を行う。

【０００６】また、話者クラスタリングによる適応化方
法として、加藤恒夫，黒岩眞吾，清水徹，樋口宜男，”
多数話者電話音声データベースを用いた話者クラスタリ
ング”，信学技報，ＳＰ２０００−１０，ｐｐ．１−
８，２０００などが提案されている。さらに、充足統
計量と話者距離を用いた適応化方法として、芳澤伸一，
馬場朗，松浪加奈子，米良祐一郎，山田実一，鹿野清
宏，”充足統計量と話者距離を用いた音韻モデルの教師
なし学習”，信学技報，ＳＰ２０００−８９，ｐｐ．８
３−８８，２０００などが提案されている。話者クラ
スタリングによる方法、充足統計量と話者距離を用いた
方法は、基本的に、さまざまな利用環境におけるさまざ
まな利用者の大量の発声データを事前に蓄積しておき、
これらの大量の発声データを用いて事前に音響モデルを
構築しておく。そして、適応時に音響モデルを利用して
適応を行う。音響モデルを作成するための発声データと
して、データベースに蓄積してある利用者の音響特性に
近い発声データを利用するため、利用者は大量の発声を
行う必要がなく利用者の負担が少ない。また、事前に音
響モデルを構築しておくため、適応処理時に音響モデル
を構築するための処理時間が不要となり短時間で適応を
行うことができる。

【０００７】また、話者に合わせて音声のスペクトルを
周波数軸方向に伸縮する手法（Vocal Tract Normalizat
ion）等が提案されている。例えば、Li Lee and Richar
d C.Rose,"Speaker normalization using efficient fr
equency warping procedures",ICASSP-96,IEEE Interna
tional Conference on Acoustics,Speech and SignalPr
ocessing,pp.171-186 などが提案されている。特開２
０００−２７６１８８号公報の図１には、スペクトル変
換を用いて話者適応を行う音声認識装置が開示されてい
る。この音声認識装置では、音声認識を行う利用者の適
応化パラメータが蓄積された脱着可能な適応化パラメー
タ蓄積手段を取り付けて、それらの適応化パラメータに
より適応を行う。

【０００８】

【発明が解決しようとする課題】ＭＬＬＲ法では、利用
者の多くの発声データを利用して音響モデルの適応を行
うため、利用者は適応用に多くの文章を読み上げる必要
がある。そのため利用者の負担が大きい。

【０００９】話者クラスタリングによる方法、充足統計
量と話者距離を用いた方法では、さまざまな音響特性に
対する音声データに対応するために、大量の音響モデル
を音声認識装置に蓄積する必要がある。そのため、音声
認識装置に膨大なメモリ容量が必要となり、携帯電話や
ＰＤＡ（Personal Digital Assistant）などのメモリ容
量が限られている端末装置では実現が困難である。

【００１０】話者に合わせて音声のスペクトルを周波数
軸方向に伸縮する手法、特開２０００−２７６１８８号
公報の図１に開示された技術では、話者性の適応を行っ
ているが、雑音や話者の声の性質の変化などのさまざま
な音響特性の変化にスペクトル変換で適応することは困
難である。また、特開２０００−２７６１８８号公報に
開示された技術では、さまざまな雑音やさまざまな利用
者の声の性質などの多くの音響特性に適応するために
は、それぞれの適応パラメータを蓄積した膨大な数の脱
着可能な適応化パラメータ蓄積手段を用意する必要があ
る。また、利用者が雑音の種類や現在の声の性質を判断
して上記適応化パラメータ蓄積手段を選択し音声認識装
置に取り付けなければならない。

【００１１】この発明の目的は、必要なメモリ容量を小
さくすることができる端末装置を提供することである。

【００１２】

【課題を解決するための手段および発明の効果】この発
明の１つの局面に従うと、端末装置は、送信手段と、受
信手段と、第１の蓄積手段と、音声認識手段とを備え
る。送信手段は、利用者が発声した音声と環境雑音とを
サーバ装置に送信する。受信手段は、サーバ装置から送
信される、上記利用者の音声と上記環境雑音とに適応し
た音響モデルを受信する。第１の蓄積手段は、受信手段
によって受信された音響モデルを蓄積する。音声認識手
段は、第１の蓄積手段に蓄積された音響モデルを用いて
音声認識を行う。

【００１３】上記端末装置では、利用者が発声した音声
と環境雑音とに適応した音響モデルをサーバ装置から取
得して第１の蓄積手段に蓄積するため、遭遇する可能性
のある（実際には遭遇しない場合が多い）すべての状況
に対応した音響モデルをあらかじめ第１の蓄積手段に蓄
積しておく必要がない。したがって、必要なメモリ容量
を小さくすることができる。

【００１４】好ましくは、上記受信手段は、上記利用者
が将来利用するであろう音響モデルをサーバ装置からさ
らに受信する。

【００１５】好ましくは、上記端末装置はさらに判断手
段を備える。判断手段は、上記環境雑音が付加された上
記利用者の音声と第１の蓄積手段にすでに蓄積されてい
る音響モデルとの類似度を所定のしきい値と比較する。
上記送信手段は、上記類似度が所定のしきい値よりも小
さいとき上記利用者の音声および上記環境雑音をサーバ
装置に送信する。

【００１６】上記端末装置では、上記類似度が所定のし
きい値以上のときは第１の蓄積手段にすでに蓄積されて
いる音響モデルを利用して音声認識を行うため、サーバ
装置への送信／サーバ装置からの受信を減らすことがで
きる。

【００１７】好ましくは、上記判断手段は、上記類似度
が所定のしきい値よりも小さいとき、音響モデルを取得
するか否かの判断を上記利用者に促す。上記送信手段
は、上記利用者が音響モデルを取得すると判断したと
き、上記利用者の音声および上記環境雑音をサーバ装置
に送信する。

【００１８】上記端末装置では、利用者が音響モデルを
取得すると判断したときに限り当該利用者の音声および
環境雑音をサーバ装置に送信するため、サーバ装置への
送信／サーバ装置からの受信を減らすことができる。

【００１９】好ましくは、上記端末装置はさらに第２の
蓄積手段を備える。第２の蓄積手段は、利用者が発声し
た音声を蓄積する。上記送信手段は、環境雑音が取得さ
れると、当該環境雑音と第２の蓄積手段に蓄積された利
用者の音声とをサーバ装置に送信する。

【００２０】上記端末装置では、周囲雑音がきわめて少
ないタイミングで発声した利用者の音声を第２の蓄積手
段に蓄積することができる。これによりサーバ装置また
は端末装置では、より高精度な適応モデルを作成・利用
することができる。また、上記端末装置では、静かな環
境で発声した音声を複数の人について第２の蓄積手段に
蓄積することができる。これにより複数の人が利用する
端末装置に対しても高精度の適応モデルを利用すること
ができる。また、利用者の音声を一度蓄積すると、利用
者は適応モデルを作成するたびに発声する必要がないた
め、利用者の負担が少ない。

【００２１】この発明のもう１つの局面に従うと、端末
装置は、送信手段と、受信手段と、第１の蓄積手段と、
作成手段と、音声認識手段とを備える。送信手段は、利
用者が発声した音声と環境雑音とをサーバ装置に送信す
る。受信手段は、サーバ装置から送信される、上記利用
者の音声と上記環境雑音とに適応した音響モデルを作成
するための作成用データを受信する。第１の蓄積手段
は、受信手段によって受信された作成用データを蓄積す
る。作成手段は、上記利用者の音声と上記環境雑音とに
適応した音響モデルを第１の蓄積手段に蓄積された作成
用データを用いて作成する。音声認識手段は、作成手段
によって作成された音響モデルを用いて音声認識を行
う。

【００２２】上記端末装置では、利用者が発声した音声
と環境雑音とに適応した音響モデルを作成するための作
成用データをサーバ装置から取得して第１の蓄積手段に
蓄積するため、遭遇する可能性のある（実際には遭遇し
ない場合が多い）すべての状況に対応した音響モデルを
作成するための作成用データをあらかじめ第１の蓄積手
段に蓄積しておく必要がない。したがって、必要なメモ
リ容量を小さくすることができる。

【００２３】好ましくは、上記受信手段は、上記利用者
が将来利用するであろう作成用データをサーバ装置から
さらに受信する。

【００２４】好ましくは、上記端末装置は、さまざまな
環境の中から所望の環境を選択するように利用者に促
し、選択された環境における特徴的な音を再生する。

【００２５】この発明のさらにもう１つの局面に従う
と、サーバ装置は、蓄積手段と、受信手段と、選択手段
と、送信手段とを備える。蓄積手段は複数の音響モデル
を蓄積する。複数の音響モデルの各々は、対応する話者
および環境に適応したモデルである。受信手段は、端末
装置から送信される、利用者が発声した音声と環境雑音
とを受信する。選択手段は、受信手段によって受信され
た利用者の音声と環境雑音とに適応した音響モデルを蓄
積手段から選択する。送信手段は、選択手段によって選
択された音響モデルを上記端末装置に送信する。

【００２６】上記サーバ装置では、複数の音響モデルを
蓄積した蓄積手段を設け、端末装置の利用者の音声と環
境雑音とに適応した音響モデルを蓄積手段から選択して
端末装置に送信するため、端末装置において必要となる
メモリ容量を小さくすることができる。

【００２７】また、利用者の発声データの音響特性に近
い大量のデータで作成した音響モデルを蓄積手段に蓄積
することができるため、利用者は音響モデルを作成する
ために大量の発声を行う必要はなく利用者の負担が小さ
い。

【００２８】また、利用者の発声データの音響特性に近
い音響モデルを事前に作成して蓄積手段に蓄積すること
ができるため、音響モデルを作成するための処理時間は
不要となり適応処理時間が短く、短時間に端末装置は適
応モデルを獲得することができる。

【００２９】好ましくは、上記選択手段は、上記端末装
置の利用者が将来利用するであろう音響モデルを蓄積手
段から選択する。

【００３０】この発明のさらにもう１つの局面に従う
と、サーバ装置は、蓄積手段と、受信手段と、作成手段
と、送信手段とを備える。蓄積手段は複数の音響モデル
を蓄積する。複数の音響モデルの各々は、対応する話者
および環境に適応したモデルである。受信手段は、端末
装置から送信される、利用者が発声した音声と環境雑音
とを受信する。作成手段は、受信手段によって受信され
た利用者の音声および環境雑音と蓄積手段に蓄積された
複数の音響モデルとに基づいて、上記利用者が発声した
音声と上記環境雑音とに適応した音響モデルを作成す
る。送信手段は、作成手段によって作成された音響モデ
ルを上記端末装置に送信する。

【００３１】上記サーバ装置では、複数の音響モデルを
蓄積した蓄積手段を設け、端末装置の利用者の音声と環
境雑音とに適応した音響モデルを作成して端末装置に送
信するため、端末装置において必要となるメモリ容量を
小さくすることができる。

【００３２】好ましくは上記作成手段は、上記端末装置
の利用者が将来利用するであろう音響モデルを作成す
る。

【００３３】この発明のさらにもう１つの局面に従う
と、サーバ装置は、蓄積手段と、受信手段と、選択手段
と、送信手段とを備える。蓄積手段は複数の音響モデル
を蓄積する。複数の音響モデルの各々は、対応する話者
および環境に適応したモデルである。受信手段は、端末
装置から送信される、利用者が発声した音声と環境雑音
とを受信する。選択手段は、受信手段によって受信され
た利用者の音声と環境雑音とに適応した音響モデルを作
成するための作成用データを蓄積手段から選択する。作
成用データは、少なくとも２つの音響モデルを含む。送
信手段は、選択手段によって選択された作成用データを
上記端末装置に送信する。

【００３４】上記サーバ装置では、端末装置の利用者の
音声と環境雑音とに適応した音響モデルを作成するため
の作成用データを蓄積手段から選択して端末装置に送信
するため、端末装置において必要となるメモリ容量を小
さくすることができる。

【００３５】好ましくは、上記選択手段は、上記端末装
置の利用者が将来利用するであろう作成用データを蓄積
手段から選択する。

【００３６】好ましくは、上記蓄積手段に蓄積される複
数の音響モデルの各々は、対応する話者の声の調子にも
適応している。

【００３７】上記サーバ装置では、話者の声の調子にも
適応した音響モデルを蓄積手段に蓄積しているため、端
末装置の利用者はより高い認識率を獲得することができ
る。

【００３８】好ましくは、上記蓄積手段に蓄積される複
数の音響モデルの各々は、当該音響モデルを作成する際
に話者が発声した音声を得るための入力手段の特性にも
適応している。

【００３９】上記サーバ装置では、入力手段の特性にも
適応した音響モデルを蓄積手段に蓄積しているため、端
末装置の利用者はより高い認識率を獲得することができ
る。

【００４０】この発明のさらにもう１つの局面に従う
と、音声認識方法はステップ（ａ）−（ｃ）を備える。
ステップ（ａ）では、複数の音響モデルを用意する。複
数の音響モデルの各々は、対応する話者、環境および声
の調子に適応したモデルである。ステップ（ｂ）では、
利用者が発声した音声および環境雑音と上記複数の音響
モデルとに基づいて、上記利用者の音声と上記環境雑音
とに適応した音響モデルを獲得する。ステップ（ｃ）で
は、上記獲得した音響モデルを用いて音声認識を行う。

【００４１】上記音声認識方法では、話者の声の調子に
も適応した音響モデルを用意しているため、利用者はよ
り高い認識率を獲得することができる。

【００４２】好ましくは、上記複数の音響モデルの各々
は、当該音響モデルを作成する際に話者が発声した音声
を得るための入力手段の特性にも適応している。

【００４３】上記音声認識方法では、入力手段の特性に
も適応した音響モデルを用意しているため、利用者はよ
り高い認識率を獲得することができる。

【００４４】

【発明の実施の形態】以下、この発明の実施の形態を図
面を参照して詳しく説明する。なお、図中同一または相
当部分には同一の符号を付し、その説明は繰り返さな
い。

【００４５】（第１の実施の形態）＜音声認識システムの構成＞第１の実施形態による音声
認識システムの全体構成を図１に示す。この音声認識シ
ステムは、ＰＤＡ（Personal Digital Assistant）１１
と、サーバ１２とを備える。ＰＤＡ１１およびサーバ１
２は通信路１３１を介して互いにデータのやりとりをす
る。

【００４６】ＰＤＡ１１は、マイク１１１と、送信部１
１２と、受信部１１３と、メモリ１１４と、音声認識部
１１５とを備える。マイク１１１は、ＰＤＡ１１の利用
者が発声した音声やＰＤＡ１１の周りの雑音（環境雑
音）などの情報を入力するためのデータ入力手段であ
る。送信部１１２は、マイク１１１によって入力された
データをサーバ１２に送信する。受信部１１３は、サー
バ１２から送信された適応モデルを受信する。受信部１
１３によって受信された適応モデルはメモリ１１４に蓄
積される。音声認識部１１５は、メモリ１１４に蓄積さ
れた適応モデルを利用して音声認識を行う。

【００４７】サーバ１２は、受信部１２１と、送信部１
２２と、適応モデル選択部１２３と、データ蓄積部１２
４とを備える。データ蓄積部１２４には、複数の音響モ
デルと複数の選択モデルとが対応づけられて蓄積され
る。複数の選択モデルは、対応する音響モデルを選択す
るためのモデルである。受信部１２１は、ＰＤＡ１１か
ら送信されたデータを受信する。適応モデル選択部１２
３は、データ蓄積手段１２４に蓄積されている複数の音
響モデルの中からＰＤＡ１１の利用環境および／または
利用状況に適応化した音響モデルを選択する。ここで利
用環境とは、ＰＤＡ１１を利用する場所の周囲雑音など
を意味する。また利用状況とは、ＰＤＡ１１の音声認識
部１１５による音声認識処理に従って動作させるアプリ
ケーションの用途などを意味する。送信部１２２は、適
応モデル選択部１２３によって選択された適応モデルを
ＰＤＡ１１に送信する。

【００４８】＜音声認識システムの動作＞次に、以上の
ように構成された音声認識システムの動作について図２
を参照しつつ説明する。ここでは、利用者が展示会場で
ＰＤＡ１１を利用する場合を例にして説明する。

【００４９】［ステップＳＴ１０１０１］利用者は、Ｐ
ＤＡ１１に装着されたマイク１１１を用いて「音響モデ
ルを取得」、「適応してほしいな」、「音声認識」など
の音声データを入力する。そのとき利用者の音声データ
には展示会場での騒音が付加される。

【００５０】［ステップＳＴ１０１０２］ＰＤＡ１１
は、音響モデルを取得するか否かの判断を利用者に促
す。音響モデルを取得すると利用者が判断したときは、
ステップＳＴ１０１０１において得られた、雑音が付加
された音声データがＰＤＡ１１の送信部１１２によって
サーバ１２に送信される。そしてステップＳＴ１０１０
３にすすむ。一方、音響モデルを取得しないと利用者が
判断したときはサーバ１２への送信は行わずにステップ
ＳＴ１０１０５にすすむ。

【００５１】［ステップＳＴ１０１０３］サーバ１２の
データ蓄積部１２４には複数の音響モデルが事前に蓄え
られている。複数の音響モデルは、さまざまな雑音環境
におけるさまざまな話者・話者のさまざまな声の調子・
音響モデルを作成する際に話者が発声した音声を得るた
めに使用したマイクの特性に適応している。データ蓄積
部１２４にあらかじめ蓄えられている音響モデルの一例
を図３に示す。ここでは、車内・家庭内・展示会場内な
どの雑音環境においてＡさん・Ｂさん・Ｃさん・Ｚさん
などの話者が普段の声・嗄れ声・鼻声などの声の調子で
マイクＡ・マイクＢ・マイクＣ・マイクＤなどを使用し
て発声した音声データで作成した複数の音響モデル（雑
音付加モデル）が蓄えられている。複数の音響モデルの
各々は、音素の音響モデル（ＨＭＭ）を複数個含む。各
音響モデルに含まれる音素の音響モデルの数・種類は、
音声認識の精度（文脈依存、文脈非依存など）、言語
（日本語、英語など）、アプリケーションなどにより異
なる。また、データ蓄積部１２４には、複数の音響モデ
ルのうちＰＤＡ１１の利用環境および／または利用状況
に適応化した音響モデルを適応モデルとして選択するた
めにＧＭＭ（Gaussian Mixture Model）が事前に蓄えら
れている。ＧＭＭは、音響モデルを作成するときに利用
した音声データを用いて音素を区別しないで作成され
る。ＧＭＭは音響モデルと対をなしている。ＧＭＭは対
応する音響モデルの特徴を表現する単純なモデルであ
る。

【００５２】サーバ１２の受信部１２１は、ＰＤＡ１１
から送信された利用者の雑音付加データを受信する。適
応モデル選択部１２３は、受信部１２１によって受信さ
れた利用者の雑音付加データを、データ蓄積部１２４に
蓄積されている各音響モデルに付随するＧＭＭに入力す
る。そして、適応モデル選択部１２３は、最も高い尤度
をもつＧＭＭに付随する音響モデルを適応モデルとして
選択する。選択された音響モデルは、周囲の雑音と話者
に最も適合したモデルである。

【００５３】［ステップＳＴ１０１０４］サーバ１２の
送信部１２２は、適応モデル選択部１２３によって選択
された適応モデル１３３をＰＤＡ１１に送信する。

【００５４】ＰＤＡ１１の受信部１１３は、サーバ１２
から送信された適応モデル１３３を受信する。受信部１
１３によって受信された適応モデル１３３はメモリ１１
４に蓄積される。このとき、以前にメモリ１１４に蓄積
された音響モデル（適応モデル）は新たにダウンロード
した適応モデルに置き換えられる。

【００５５】［ステップＳＴ１０１０５］音声認識部１
１５は、メモリ１１４に蓄積された適応モデルを用いて
音声認識を行う。ステップＳＴ１０１０２において音響
モデルを取得すると利用者が判断した場合には、ステッ
プＳＴ１０１０３においてサーバ１２からダウンロード
した適応モデルを用いて音声認識が行われる。ステップ
ＳＴ１０１０２において音響モデルを取得しないと利用
者が判断した場合には適応モデルのダウンロードは行わ
ず、すでにメモリ１１４に蓄積されている適応モデルを
用いて音声認識が行われる。

【００５６】＜効果＞第１の実施形態による音声認識シ
ステムでは、サーバ１２で適応を行い、ＰＤＡ１１で認
識を行う。サーバ１２の記憶容量は大きいため、複雑な
モデルによる適応が行える。これにより認識率を高める
ことができる。また、サーバ１２のダウン、混線などが
起こってもＰＤＡ１１において認識機能を使うことがで
きる。

【００５７】また、遭遇する可能性のある（実際に遭遇
しない場合が多い）すべての状況に対応した適応モデル
をＰＤＡ１１のメモリ１１４に蓄積しておく必要はな
く、遭遇した状況に適した適応モデルをサーバ１２から
獲得してＰＤＡ１１のメモリ１１４に蓄積しておけばよ
いため、ＰＤＡ１１のメモリ１１４の容量を削減するこ
とができる。

【００５８】また、ＰＤＡ１１の利用者は、ＰＤＡ１１
の周囲の雑音・利用者の話者性・利用者の声の調子・マ
イクの特性に適応化した適応モデルにより音声認識をす
ることができるため、高い認識率を獲得することができ
る。

【００５９】また、サーバ１２のデータ蓄積部１２４に
は利用者の発声データの音響特性に近い大量のデータで
作成した音響モデルが事前に蓄積されているため、利用
者は、音響モデルを作成するために大量の発声を行う必
要がない。

【００６０】また、サーバ１２のデータ蓄積部１２４に
は利用者の発声データの音響特性に近い音声データで作
成した音響モデルが事前に蓄積されているため、音響モ
デルを作成するための処理時間が不要となる。

【００６１】また、ＰＤＡ１１のメモリ１１４には、以
前に利用した適応モデルを蓄積しているため、適応モデ
ルの再利用ができる。

【００６２】＜変形例＞なお、ここではサーバ１２から
ダウンロードした適応モデルをＰＤＡ１１のメモリ１１
４に蓄積する際に、すでにメモリ１１４に蓄積されてい
る適応モデルを新たにダウンロードした適応モデルに置
き換えている（ＳＴ１０１０３）。これに代えて、すで
にメモリ１１４に蓄積されている適応モデルに加えて新
たにダウンロードした適応モデルをメモリ１１４に追加
するようにしてもよい。この場合、ステップＳＴ１０１
０５における音声認識処理は次のようにして行われる。
ステップＳＴ１０１０２において音響モデルを取得する
と利用者が判断した場合には、ステップＳＴ１０１０３
においてサーバ１２からダウンロードした適応モデルを
用いて音声認識が行われる。ステップＳＴ１０１０２に
おいて音響モデルを取得しないと利用者が判断した場合
には適応モデルのダウンロードは行わず、ステップＳＴ
１０１０１において入力された音声データに近い適応モ
デルをすでにメモリ１１４に蓄積されている適応モデル
の中から選択し、選択した適応モデルを用いて音声認識
が行われる。

【００６３】また、サーバ１２の適応モデル選択部１２
３は、利用状況に応じて音響モデルを選択してもよい。
たとえば、セキュリティに関するアプリケーション（音
声認識により機密情報を処理するようなアプリケーショ
ン、音声認識により自動車の運転操作を行うようなアプ
リケーションなど）を利用する場合には、より高精度に
適応化した音響モデルを選択してもよい。この場合ＰＤ
Ａ１１は、起動しているアプリケーションの情報をサー
バ１２の適応モデル選択部１２３へ送信して利用状況
（音声認識の重要度）を通知してもよいし、利用者に重
要度を入力させその情報（利用状況）をサーバ１２の適
応モデル選択部１２３に送信してもよい。

【００６４】また、音素の音響モデルはＨＭＭに限らな
い。

【００６５】また、「音響モデルを取得」などの発声テ
キストデータをＰＤＡ１１からサーバ１２へ送信しても
よい。この場合、一例として、発声テキストに含まれる
音韻のみの発声データにより作成された特化したＧＭＭ
を用いて、上記音韻のみから構成された発声データより
適応モデルを選択することができるため、高精度に適応
モデルを選択することができる。すべての音韻の発声か
ら話者ごとにＧＭＭを作成した場合、ＧＭＭで表現でき
る話者性があいまいになる可能性がある。

【００６６】また、利用者の発声データを変換したケプ
ストラム係数などの特徴量をＰＤＡ１１からサーバ１２
へ送信してもよい。

【００６７】また、サーバ１２のデータ蓄積部１２４に
ＧＭＭを蓄積せず、適応モデル選択部１２３でＧＭＭの
代わりに音響モデルを用いて、音響モデルの尤度が最大
の音響モデルを適応モデルとして選択してもよい。

【００６８】また、ＰＤＡ１１において、ＰＤＡ側の情
報１３２を入力するマイクと同一のマイクを用いて音声
認識を行ってもよい。その場合、マイク特性を考慮した
適応モデルで音声認識を行うことができる。

【００６９】また、ＰＤＡ１１は、テレビやパソコンや
カーナビゲーションシステムなどの据え置き型の端末で
もよい。

【００７０】また、通信路１３１は、電話回線、インタ
ーネット回線、ケーブルテレビの回線など有線、通信
網、ＢＳ／ＣＳデジタル放送や地上波デジタル放送など
の放送網であってもよい。

【００７１】また、サーバ１２をテレビまたはセットト
ップボックスとしＰＤＡ１１（端末）をテレビのリモコ
ンとするなどのように、サーバと端末を空間的に近くに
存在させてもよい。

【００７２】（第２の実施形態）＜音声認識システムの構成＞第２の実施形態による音声
認識システムの全体構成を図４に示す。この音声認識シ
ステムは、ＰＤＡ１１と、サーバ４２とを備える。ＰＤ
Ａ１１およびサーバ４２は通信路１３１を介して互いに
データのやりとりをする。

【００７３】サーバ４２は、受信部１２１と、送信部１
２２と、適応モデル選択部１２３と、データ蓄積部１２
４と、スケジュールデータベース４２１とを備える。ス
ケジュールデータベース４２１には、ＰＤＡ１１の利用
者のスケジュール（行き先、日時など）が格納されてい
る。

【００７４】＜音声認識システムの動作＞次に、以上の
ように構成された音声認識システムの動作について図５
を参照しつつ説明する。ここでは、利用者Ｘが展示会場
でＰＤＡ１１を利用する場合を例にして説明する。

【００７５】利用者Ｘは、第１の実施形態において説明
したのと同様にして、展示会場の騒音と利用者Ｘの通常
の声とに適応した音響モデルおよび当該モデルのＧＭＭ
をＰＤＡ１１のメモリ１１４にダウンロードする（ＳＴ
１０１０１〜ＳＴ１０１０４）。

【００７６】［ステップＳＴ１０１１１］ＰＤＡ１１
は、将来利用するであろう適応モデルを取得するか否か
の判断を利用者Ｘに促す。取得すると利用者Ｘが判断し
たときはＰＤＡ１１の送信部１１２からサーバ４２に要
求信号が送信され、ステップＳＴ１０１１２にすすむ。
一方、取得しないと利用者Ｘが判断したときは要求信号
は送信されずにステップＳＴ１０１１４にすすむ。ここ
では、将来利用するであろう適応モデルを取得すると利
用者Ｘが判断したものとする。

【００７７】［ステップＳＴ１０１１２］ＰＤＡ１１か
らの要求信号はサーバ４２の受信部１２１を介して適応
モデル選択部１２３に与えられる。要求信号を受けると
適応モデル選択部１２３は、利用者Ｘが遭遇する可能性
のある状況を予測して当該状況に適応した音響モデルを
データ蓄積部１２４から選択する。具体的には次のよう
にして選択する。上述のステップＳＴ１０１０１〜ＳＴ
１０１０４では展示会場の騒音と利用者Ｘの通常の声と
に適応した音響モデルを適応モデルとしてＰＤＡのメモ
リ１１４にダウンロードしている。これをふまえて適応
モデル選択部１２３は、利用者Ｘが今後遭遇する可能性
のある状況に適応した音響モデルとして、「展示会場の
騒音と利用者Ｘの風邪をひいたときの声とに適応した音
響モデル」、「展示会場の騒音と利用者Ｘが早口で話し
たときの声とに適応した音響モデル」、「展示会場の騒
音と利用者Ｘがひそひそ話をしたときの声とに適応した
音響モデル」、「展示会場の騒音に音響的に近い会場騒
音と利用者Ｘの通常の声とに適応した音響モデル」など
を選択する。また、別の選択方法として、スケジュール
データベース４２１に格納されている利用者Ｘのスケジ
ュールを参照して適応モデル選択部１２３は音響モデル
を選択する。たとえば利用者Ｘの今後のスケジュールと
して、「工事現場でのアルバイト」、「居酒屋での宴
会」、「ヨーロッパ旅行（英語圏およびフランス語
圏）」がスケジュールデータベース４２１に格納されて
いるものとする。この場合、適応モデル選択部１２３
は、利用者Ｘが今後遭遇する可能性のある状況に適応し
た音響モデルとして、「工事現場の騒音と利用者Ｘの通
常の声とに適応した音響モデル」、「居酒屋の騒音と利
用者Ｘの通常の声とに適応した音響モデル」、「展示会
場の騒音と利用者Ｘの英語での通常の声とに適応した音
響モデル」、「展示会場の騒音と利用者Ｘのフランス語
での通常の声とに適応した音響モデル」などを選択す
る。

【００７８】［ステップＳＴ１０１１３］上述のように
して選択された音響モデル（適応モデル）と当該モデル
に対応するＧＭＭとがサーバ４２の送信部１２２からＰ
ＤＡ１１に送信される。ＰＤＡ１１の受信部１１３は、
サーバ４２から送信された適応モデルおよびＧＭＭを受
信する。受信部１１３によって受信された適応モデルお
よびＧＭＭはメモリ１１４に蓄積される。ここでは、す
でにメモリ１１４に蓄積されている音響モデルおよびＧ
ＭＭに加えて新たにダウンロードされた音響モデルおよ
びＧＭＭがメモリ１１４に追加される。このようにして
メモリ１１４に蓄積された音響モデルおよびＧＭＭの一
例を図６に示す。

【００７９】［ステップＳＴ１０１１４］音声認識部１
１５は、メモリ１１４に蓄積された適応モデルを用いて
音声認識を行う。ステップＳＴ１０１０２において音響
モデルを取得すると利用者が判断した場合には、ステッ
プＳＴ１０１０３においてサーバ４２からダウンロード
した適応モデルを用いて音声認識が行われる。ステップ
ＳＴ１０１０２において音響モデルを取得しないと利用
者が判断した場合には、すでにメモリ１１４に蓄積され
ている適応モデルを用いて音声認識が行われる。

【００８０】次に利用者Ｘは、アルバイトをしている工
事現場で音声認識を利用する。利用者Ｘは、工事現場に
おける利用者Ｘの音声データをＰＤＡ１１のマイク１１
１を用いて入力する（ＳＴ１０１０１）。利用者Ｘは適
応モデルのダウンロードを要求しない（ＳＴ１０１０
２）。音声認識部１１５は、入力された音声データをメ
モリ１１４に蓄積されている各ＧＭＭに入力し、当該音
声データとの尤度が最大のＧＭＭに対応した適応モデル
を選択する（ＳＴ１０１１１）。音声認識部１１５は、
選択した適応モデルを用いて音声認識を行う（ＳＴ１０
１１４）。

【００８１】次に、利用者Ｘのアルバイト先の友達であ
る利用者ＹがＰＤＡ１１を工事現場で利用する。利用者
Ｙは、工事現場における利用者Ｙの音声データをＰＤＡ
１１のマイク１１１を用いて入力する（ＳＴ１０１０
１）。利用者Ｙは適応モデルのダウンロードを要求する
（ＳＴ１０１０２）。工事現場の騒音と利用者Ｙの通常
の声とに適応した音響モデル（適応モデル）および当該
モデルのＧＭＭがＰＤＡ１１のメモリ１１４にダウンロ
ードされる（ＳＴ１０１０３〜ＳＴ１０１０４）。ま
た、利用者Ｙは、将来必要であろう適応モデルを要求し
ない（ＳＴ１０１１１）。利用者Ｙは、メモリ１１４に
ダウンロードした適応モデルを用いて音声認識部１１５
により認識を行う（ＳＴ１０１１４）。

【００８２】＜効果＞第２の実施形態による音声認識シ
ステムによれば、第１の実施形態において得られた効果
に加えて以下の効果が得られる。

【００８３】遭遇する可能性のある状況を予測して当該
状況の適応モデルを事前にＰＤＡ１１のメモリ１１４に
蓄積するため、ＰＤＡ１１の利用者はサーバ４２に通信
することなく適応モデルを利用できる。また、ＰＤＡ１
１のメモリ１１４には複数の利用者の適応モデルを蓄積
することができるため、ＰＤＡ１１の複数の利用者がサ
ーバに通信することなく適応モデルを利用できる。

【００８４】＜変形例＞なお、ここでは、将来利用する
であろう適応モデルをＰＤＡ１１の利用者の判断に従っ
て取得したが、サーバ４２の適応モデル選択部１２３に
自動的に取得させてもよい。たとえば、スケジュールデ
ータベース４２１に格納されている利用者のスケジュー
ルを参照して次のように取得する。ＰＤＡ１１の利用者
Ｘのスケジュールが「１０時から工事現場でのアルバイ
ト」となっている場合を例にする。この場合には、１０
時より所定時間前の時刻たとえば９時５０分に適応モデ
ル選択部１２３は、「工事現場の騒音と利用者Ｘの通常
の声とに適応した音響モデル」をデータ蓄積部１２４か
ら選択する。選択されたモデルは送信部１２２によって
ＰＤＡ１１に送信され、メモリ１１４に蓄積される。こ
れにより、アルバイト開始時刻の１０時には「工事現場
の騒音と利用者Ｘの通常の声とに適応した音響モデル」
を利用した音声認識をＰＤＡ１１で行うことができる。
また、ＰＤＡ１１にＧＰＳ機能が搭載されている場合に
は、ＰＤＡ１１を携帯した利用者Ｘがアルバイト先の工
事現場にある程度近づいた時点で適応モデル選択部１２
３によって「工事現場の騒音と利用者Ｘの通常の声とに
適応した音響モデル」をデータ蓄積部１２４から選択し
てもよい。

【００８５】また、ここではスケジュールデータベース
４２１をサーバ４２内に設けたがこれをＰＤＡ１１内に
設けてもよい。

【００８６】また、適応モデル選択部１２３によって選
択された適応モデルに対応するＧＭＭはＰＤＡ１１にダ
ウンロードせずに、ＰＤＡ１１のメモリ１１４からの適
応モデルの選択の際に適応モデルそのものを用いてもよ
い。

【００８７】また、ステップＳＴ１０１０１において音
声入力を行うときに利用者の名前を入力し、ダウンロー
ドした適応モデルと利用者の名前を対応づけておく。そ
してステップＳＴ１０１１４において適応モデルを選択
する際に利用者の名前を入力することによって選択して
もよい。

【００８８】また、サーバ４２をテレビまたはセットト
ップボックスとしＰＤＡ１１（端末）をテレビのリモコ
ンとするなどのように、サーバと端末を空間的に近くに
存在させてもよい。

【００８９】（第３の実施形態）＜音声認識システムの構成＞第３の実施形態による音声
認識システムの全体構成を図７に示す。この音声認識シ
ステムは、携帯電話２１と、サーバ２２とを備える。携
帯電話２１およびサーバ２２は通信路２３１を介して互
いにデータのやりとりをする。

【００９０】携帯電話２１は、データ入力部２１１と、
送信部２１２と、受信部２１３と、メモリ２１４と、音
声認識部２１５とを備える。データ入力部２１１は、携
帯電話２１の利用者の音声や携帯電話２１の周りの雑音
などの情報を入力するためのものである。データ入力部
２１１は、音声発声ボタンと、マイクとを含む。音声発
声ボタンは、利用者の音声と環境雑音とを区別して入力
するためのボタンである。マイクは、携帯電話２１の利
用者の音声や携帯電話２１の周りの雑音などを入力す
る。送信部２１２は、データ入力部２１１によって入力
されたデータをサーバ２２に送信する。受信部２１３
は、サーバ２２から送信された適応モデルを受信する。
受信部２１３によって受信された適応モデルはメモリ２
１４に蓄積される。音声認識部２１５は、メモリ２１４
に蓄積された適応モデルを利用して音声認識を行う。

【００９１】サーバ２２は、受信部２２１と、送信部２
２２と、適応モデル作成部２２３と、データ蓄積部２２
４と、スケジュールデータベース４２１とを備える。デ
ータ蓄積部２２４には適応モデル作成用データが蓄積さ
れる。適応モデル作成用データには、複数の音響モデル
およびこれらに対応するＧＭＭと、複数の話者の発声デ
ータとが含まれている。受信部２２１は、携帯電話２１
から送信されたデータを受信する。適応モデル作成部２
２３は、受信部２２１によって受信されたデータおよび
データ蓄積部２２４に蓄積されたデータに基づいて適応
モデルを作成する。送信部２２２は、適応モデル作成部
２２３によって作成された適応モデルを携帯電話２１に
送信する。

【００９２】＜音声認識システムの動作＞次に、以上の
ように構成された音声認識システムの動作について図８
を参照しつつ説明する。ここでは、利用者が電車内で携
帯電話２１を利用する場合を例にして説明する。

【００９３】［ステップＳＴ１０２０１］携帯電話２１
の利用者は、携帯電話２１に装着されたマイクおよび音
声発声ボタン２１１を利用して、利用者が発声している
ときのデータと、発声していないときの周囲雑音のデー
タとを区別して入力する。利用者は、音声発声ボタンを
押しながら発声することで利用者の音声をマイクに入力
する。また、音声発声ボタンを押さなければマイクから
周囲雑音が入力される。利用者の発声データとして電車
が停車時の利用者の音声を入力し、周囲雑音として電車
が動いているときの騒音と周りの人の声を入力する。

【００９４】［ステップＳＴ１０２０２］携帯電話２１
は、音響モデルを取得するか否かの判断を利用者に促
す。音響モデルを取得すると利用者が判断したときは、
ステップＳＴ１０２０１においてデータ入力部２１１か
ら入力されたデータが携帯電話２１の送信部２１２によ
ってサーバ２２に送信される。そしてステップＳＴ１０
２０３にすすむ。一方、音響モデルを取得しないと利用
者が判断したときはサーバ２２への送信は行わずにステ
ップＳＴ１０２１４にすすむ。

【００９５】［ステップＳＴ１０２０３］サーバ２２の
受信部２２１は、携帯電話２１から送信された利用者の
音声と周囲雑音とを受信する。

【００９６】適応モデル作成部２２３は、データ蓄積部
２２４に蓄積されている音響モデルのうち少なくとも２
個の音響モデルと受信部２２１が受信したデータとに基
づいて、携帯電話２１側の利用環境に適応化した適応モ
デルを作成する。

【００９７】適応モデル作成部２２３は、環境雑音適応
アルゴリズム（山田実一，馬場朗，芳澤伸一，米良祐一
郎，李晃伸，猿渡洋，鹿野清宏，”環境雑音アルゴリズ
ムの大語彙連続音声認識による評価”，情報処理学会研
究報告書，２０００−ＳＬＰ−３５，ｐｐ．３１−３
６，２００１）を利用して適応モデルを作成する。以
下、環境雑音適応アルゴリズムを利用した適応モデルの
作成について図９を参照しつつ説明する。サーバ２２の
データ蓄積部２２４には、複数の音響モデルと複数の話
者の発声データとがあらかじめ蓄積されている。環境雑
音適応アルゴリズムでは、発声データにより、充足統計
量と話者距離を用いて話者適応を行う。充足統計量と話
者距離による適応化方法では、短時間の利用者の発声デ
ータに音響的に近い話者の音響モデルをデータ蓄積部２
２４より選択し（ＳＴ７３）、選択した音響モデルを用
いて充足統計量と話者距離による適応化法により話者適
応を行う（ＳＴ７１）。携帯電話２１から受信した雑音
を含まない発声データにより話者適応を行うことで、高
精度に話者適応を行うことができる。そのあとに、短時
間の利用者の発声データに音響的に近い話者の発声デー
タをデータ蓄積部２２４より選択し（ＳＴ７４）、選択
された発声データに携帯電話２１から受信した周囲雑音
のデータを付加した雑音付加データを生成する。そして
雑音付加データによりＭＬＬＲを用いて雑音適応を行う
（ＳＴ７２）。このようにして適応モデルが作成され
る。

【００９８】［ステップＳＴ１０２０４］適応モデル作
成部２２３によって作成された適応モデル２３３は送信
部２２２によって携帯電話２１の受信部２１３に送信さ
れる。携帯電話２１の受信部２１３が受信した適応モデ
ル２３３はメモリ２１４に蓄積される。ここでは、すで
にメモリ２１４に蓄積されている音響モデルおよびＧＭ
Ｍに加えて新たにダウンロードされた音響モデルおよび
ＧＭＭがメモリ２１４に追加される。

【００９９】［ステップＳＴ１０２１１］携帯電話２１
は、将来利用するであろう適応モデルを取得するか否か
の判断を利用者に促す。取得すると利用者が判断したと
きは携帯電話２１の送信部２１２からサーバ２２に要求
信号が送信され、ステップＳＴ１０２１２にすすむ。一
方、取得しないと利用者が判断したときは要求信号は送
信されずにステップＳＴ１０２１４にすすむ。

【０１００】［ステップＳＴ１０２１２］携帯電話２１
からの要求信号を受けると適応モデル作成部２２３は、
利用者が遭遇する可能性のある状況を予測して当該状況
に適応した音響モデルを作成する。作成すべき音響モデ
ルの選択は、図５に示したステップＳＴ１０１１２にお
いて説明したのと同様に行う。モデルの作成は、上述の
ステップＳＴ１０２０３において説明したのと同様にし
て行う。

【０１０１】［ステップＳＴ１０２１３］上述のように
して作成された音響モデル（適応モデル）と当該モデル
に対応するＧＭＭとがサーバ２２の送信部２２２から携
帯電話２１に送信される。携帯電話２１の受信部２１３
は、サーバ２２から送信された適応モデルおよびＧＭＭ
を受信する。受信部２１３によって受信された適応モデ
ルおよびＧＭＭはメモリ２１４に蓄積される。ここで
は、すでにメモリ２１４に蓄積されている音響モデルお
よびＧＭＭに加えて新たにダウンロードされた音響モデ
ルおよびＧＭＭがメモリ２１４に追加される。

【０１０２】［ステップＳＴ１０２１４］音声認識部２
１５は、図５に示したステップＳＴ１０１１４において
説明したのと同様にして、メモリ２１４に蓄積された適
応モデルを用いて音声認識を行う。

【０１０３】＜効果＞以上説明したように第３の実施形
態によれば、遭遇する可能性のある（実際に遭遇しない
場合が多い）すべての状況に対応した適応モデルを携帯
電話２１のメモリ２１４に蓄積しておく必要はなく、遭
遇した状況に適した適応モデルをサーバ２２から獲得し
て蓄積しておけばよいため、携帯電話２１のメモリ２１
４の容量を削減することができる。

【０１０４】また、携帯電話２１の利用者は、携帯電話
２１の周囲の雑音・利用者の話者性・利用者の声の性質
などに適応化した適応モデルにより音声認識をすること
ができるため、高い認識率を獲得することができる。

【０１０５】また、サーバ２２において、携帯電話２１
側の状況を考慮して適応モデルを作成することができる
ため、携帯電話２１の利用状況にさらに適応化した適応
モデルを携帯電話２１に送信することができる。

【０１０６】＜変形例＞なお、利用者の音声データと利
用者が発声していないときの周囲雑音のデータとを区別
する方法として、音声識別モデルと雑音識別モデルとを
利用して自動的に行ってもよい。

【０１０７】また、音響モデルはＨＭＭに限らない。

【０１０８】また、適応モデル作成部２２３において、
充足統計量と話者距離を用いた方法（芳澤伸一，馬場
朗，松浪加奈子，米良祐一郎，山田実一，鹿野清宏，”
充足統計量と話者距離を用いた音韻モデルの教師なし学
習”，信学技報，ＳＰ２０００−８９，ｐｐ．８３−８
８，２０００）に改良を加えて、複数の話者に関する音
響モデルの代わりに、複数の話者と雑音に関する音響モ
デルとそれらの音響モデルに付随するＧＭＭにより適応
化を行う方法を利用してもよい。

【０１０９】また、適応モデル作成部２２３において、
ＭＡＰ推定やＭＬＬＲの改良法など、音響モデルを利用
した他の適応化手法を用いてもよい。

【０１１０】また、携帯電話２１側の情報２３２とし
て、「音響モデルを取得」などの発声テキストデータを
サーバ２２に送信して利用してもよい。

【０１１１】また、携帯電話２１側の情報２３２とし
て、発声データを変換したケプストラム係数などの特徴
量をサーバ２２に送信してもよい。

【０１１２】また、端末装置としての携帯電話２１に代
えて、テレビやパソコンやカーナビゲーションシステム
などの据え置き型の端末などを用いてもよい。

【０１１３】また、通信路は、電話回線、インターネッ
ト回線、ケーブルテレビの回線など有線、通信網、ＢＳ
／ＣＳデジタル放送や地上波デジタル放送などの放送網
であってもよい。

【０１１４】また、サーバ２２をテレビまたはセットト
ップボックスとし携帯電話２１（端末）をテレビのリモ
コンとするなどのように、サーバと端末を空間的に近く
に存在させてもよい。

【０１１５】（第４の実施の形態）＜音声認識システムの構成＞第４の実施形態による音声
認識システムの全体構成を図１０に示す。この音声認識
システムは、携帯端末３１と、サーバ３２とを備える。
携帯端末３１およびサーバ３２は通信路３３１を介して
互いにデータのやりとりをする。

【０１１６】携帯端末３１は、データ入力部３１１と、
送信部３１２と、受信部３１３と、メモリ３１４と、適
応モデル作成部３１６と、音声認識部３１５とを備え
る。データ入力部３１１は、携帯端末３１の利用者の音
声や携帯端末３１の周りの雑音などの情報を入力するた
めのものである。データ入力部３１１は、マイクと、ウ
ェブブラウザとを含む。マイクは、利用者の音声と環境
雑音を入力する。ウェブブラウザは、利用者の音声と環
境雑音とに関する情報を入力する。送信部３１２は、デ
ータ入力部３１１で入力されたデータをサーバ３２に送
信する。受信部３１３は、サーバ３２から送信された適
応モデル作成用データを受信する。受信部３１３によっ
て受信された適応モデル作成用データはメモリ３１４に
蓄積される。適応モデル作成部３１６は、メモリ３１４
に蓄積された適応モデル作成用データを利用して適応モ
デルを作成する。音声認識部３１５は、適応モデル作成
部３１６によって作成された適応モデルを利用して音声
認識を行う。また、メモリ３１４には、さまざまな状況
（環境）における特徴的な音のデータが記憶されてい
る。たとえば、スーパーマーケットや展示会場などの場
所における特徴的な音、自動車・地下鉄などの特徴的な
音のデータが記憶されている。これらのデータは、携帯
端末３１による音声認識処理を行う前にあらかじめサー
バ３２から携帯端末３１のメモリ３１４にダウンロード
されている。

【０１１７】サーバ３２は、受信部３２１と、送信部３
２２と、選択部３２３と、データ蓄積部３２４と、スケ
ジュールデータベース４２１とを備える。データ蓄積部
３２４には、複数の音響モデルと当該音響モデルを選択
するための選択モデル（ＧＭＭ）とが蓄積される。受信
部３２１は、携帯端末３１から送信されたデータを受信
する。選択部３２３は、携帯端末３１の利用環境などに
適応化するために必要な適応モデル作成用データをデー
タ蓄積部３２４から選択する。送信部３２２は、選択部
３２３によって選択された適応モデル作成用データを携
帯端末３１に送信する。

【０１１８】＜音声認識システムの動作＞次に、以上の
ように構成された音声認識システムの動作について図１
１を参照しつつ説明する。ここでは、利用者がスーパー
マーケットで携帯端末３１を利用する場合を例として説
明する。

【０１１９】［ステップＳＴ１０４０１］携帯端末３１
の利用者は、データ入力部３１１のマイクにより「今日
の献立は何にしようかな」などの音声データを入力す
る。データ入力部３１１のウェブブラウザは、図１２に
示すように、周囲の状況（環境）・声の調子などの情報
の入力を促す画面を携帯端末３１のタッチパネル上に表
示する。携帯端末３１の利用者は、ソフトペンなどを用
いてタッチパネル上の「スーパーマーケット」の項目と
「風邪気味」の項目とにチェックを入れることによって
周囲の状況（環境）・声の調子などの情報を入力する。
このとき携帯端末３１の利用者が「この音を聴く」の項
目にチェックを入れると、チェックを入れた状況（環
境）における特徴的な音のデータがメモリ３１４から読
み出され再生される。この場合には、スーパーマーケッ
トにおける特徴的な音が再生される。

【０１２０】［ステップＳＴ１０４０２］携帯端末３１
は、作成用データを取得するか否かの判断を利用者に促
す。作成用データを取得すると利用者が判断したとき
は、ステップＳＴ１０４０１において入力された情報３
３２が携帯端末３１の送信部３１２によってサーバ３２
に送信される。そしてステップＳＴ１０４０３にすす
む。一方、作成用データを取得しないと利用者が判断し
たときはサーバ３２への送信は行わずにステップＳＴ１
０４０８にすすむ。

【０１２１】［ステップＳＴ１０４０３］サーバ３２の
データ蓄積部３２４には、図３に示したように、複数の
音響モデルと複数のＧＭＭとが対応づけられて事前に蓄
えられている。

【０１２２】サーバ３２の受信部３２１は、携帯端末３
１から送信された携帯端末側の情報３３２を受信する。
選択部３２３は、受信された携帯端末側の情報３３２に
基づいて、少なくとも２つの音響モデルおよび当該モデ
ルに対応するＧＭＭをデータ蓄積部３２４に蓄積されて
いる音響モデルおよびＧＭＭから選択する。選択部３２
３によって選択された音響モデルおよびＧＭＭを「適応
モデル作成用データ」とする。ここでは、選択部３２３
は、第１の実施の形態における適応モデル選択部１２３
と基本的に同様な方法を用いており、短時間の利用者の
発声に基づいて適応モデル作成用データを選択する。た
だし、携帯端末側の情報３３２のうちタッチパネルによ
って入力された情報を利用して、選択される音響モデル
に制約をかける。なお、ここでいう制約とはフィルタリ
ングの意味である。たとえばタッチパネルによって入力
された情報が「風邪気味」と「スーパーマーケット」で
あれば、「風邪気味」と「スーパーマーケット」に関連
する音響モデルに付随するＧＭＭのみを用いて選択を行
う。

【０１２３】［ステップＳＴ１０４０４］送信部３２２
は、選択部３２３によって選択された適応モデル作成用
データ３３３を携帯端末３１に送信する。

【０１２４】携帯端末３１の受信部３１３によって受信
された適応モデル作成用データ３３３はメモリ３１４に
蓄積される。ここでは、すでにメモリ３１４に蓄積され
ている適応モデル作成用データに加えて新たにダウンロ
ードされた適応モデル作成用データがメモリ３１４に追
加される。

【０１２５】［ステップＳＴ１０４０５］携帯端末３１
は、将来利用するであろう適応モデルを作成するための
適応モデル作成用データを取得するか否かの判断を利用
者に促す。取得すると利用者が判断したときは携帯端末
３１の送信部３１２からサーバ３２に要求信号が送信さ
れ、ステップＳＴ１０４０６にすすむ。一方、取得しな
いと利用者が判断したときは要求信号は送信されずにス
テップＳＴ１０４０８にすすむ。

【０１２６】［ステップＳＴ１０４０６］携帯端末３１
からの要求信号を受けると選択部３２３は、利用者が遭
遇する可能性のある状況を予測し、当該状況に適応した
音響モデルを作成するための適応モデル作成用データ
（少なくとも２つの音響モデルおよび当該モデルに対応
するＧＭＭ）をデータ蓄積部３２４から選択する。作成
すべき音響モデルの選択は、図５に示したステップＳＴ
１０１１２において説明したのと同様に行う。適応モデ
ル作成用データの選択は、上述のステップＳＴ１０４０
３において説明したのと同様にして行う。

【０１２７】［ステップＳＴ１０４０７］上述のように
して選択された適応モデル作成用データがサーバ３２の
送信部３２２から携帯端末３１に送信される。携帯端末
３１の受信部３１３は、サーバ３２から送信された適応
モデル作成用データを受信する。受信部３１３によって
受信された適応モデル作成用データはメモリ３１４に蓄
積される。ここでは、すでにメモリ３１４に蓄積されて
いる適応モデル作成用データに加えて新たにダウンロー
ドされた適応モデル作成用データがメモリ３１４に追加
される。

【０１２８】［ステップＳＴ１０４０８］適応モデル作
成部３１６は、現在までにメモリ３１４に蓄積された適
応モデル作成用データを用いて適応モデルを作成する。
ここでは、充足統計量と話者距離を用いた方法（芳澤伸
一，馬場朗，松浪加奈子，米良祐一郎，山田実一，鹿野
清宏，”充足統計量と話者距離を用いた音韻モデルの教
師なし学習”，信学技報，ＳＰ２０００−８９，ｐｐ．
８３−８８，２０００）に基づいて適応モデルを作成す
る。適応モデル作成部３１６は、サーバ３２の選択部３
２３と同様にして、データ入力部３１１のマイクより入
力された音声データに基づいてメモリ３１４から複数の
音響モデルを選択する。選択された音響モデルは、現在
の利用環境における周囲の雑音と話者に最も適合した複
数のモデルである。選択された複数の音響モデル（ＨＭ
Ｍ）の平均・分散・遷移確率・ＥＭカウントを用いて統
計計算により適応モデルを作成する。適応モデルである
ＨＭＭの平均・分散・遷移確率は、選択された音響モデ
ル全体でのＨＭＭの各状態の各混合分布の平均・分散
と、選択された音響モデル全体での遷移確率となる。具
体的な計算方法を以下の数１−数３に示す。適応モデル
のＨＭＭの各状態における正規分布の平均，分散をそれ
ぞれ、μ_i ^adp（ｉ＝１，２，・・，Ｎ_mix）、ｖ
_i ^adp（ｉ＝１，２，・・，Ｎ_mix）とする。ここでＮ_mix
は混合分布数である。また、状態遷移確率をａ
^adp［ｉ］［ｊ］（ｉ，ｊ＝１，２，・・・，Ｎ_state）
とする。ここでＮ_stateは状態数であり、ａ^adp［ｉ］
［ｊ］は状態ｉから状態ｊへの遷移確率を表す。

【０１２９】

【数１】

【０１３０】

【数２】

【０１３１】

【数３】

【０１３２】ここで、Ｎ_selは選択された音響モデルの
数であり、 μ_i ^j（ｉ＝１，２，・・・，Ｎ_mix，ｊ＝１，２，・・
・，Ｎ_sel）、ｖ_i ^j（ｉ＝１，２，・・・，Ｎ_mix，ｊ＝１，２，・・
・，Ｎ_sel）はそれぞれの音響モデルの平均，分散である。また、Ｃ^j _mix（ｊ＝１，２，・・・，Ｎ_sel）、Ｃ^k _state［ｉ］［ｊ］（ｋ＝１，２，・・・，Ｎ_sel，
ｉ，ｊ＝１，２，・・・，Ｎ_state）はそれぞれ正規分布におけるＥ−Ｍカウント（度数）、
状態遷移に関するＥ−Ｍカウントである。

【０１３３】［ステップＳＴ１０４０９］音声認識部３
１５は、適応モデル作成部３１６によって作成された適
応モデルを用いて音声認識を行う。

【０１３４】＜効果＞以上説明したように第４の実施形
態によれば、遭遇する可能性のある（実際に遭遇しない
場合が多い）すべての状況に対応した適応モデル作成用
データを携帯端末３１のメモリ３１４に蓄積しておく必
要はなく、遭遇した状況に適応化するための適応モデル
作成用データをサーバ３２から獲得して蓄積しておけば
よいため、携帯端末３１のメモリ３１４の容量を削減す
ることができる。

【０１３５】また、携帯端末３１の利用者は、携帯端末
３１の周囲の雑音・利用者の話者性・利用者の声の調子
などに適応化した適応モデルにより音声認識をすること
ができるため、高い認識率を獲得することができる。

【０１３６】また、いったん遭遇した状況の適応モデル
作成用データを携帯端末３１のメモリ３１４に蓄積する
ため、同じ環境に遭遇した場合にサーバ３２との通信な
しで適応モデルを作成することができる。

【０１３７】＜変形例＞なお、図１および図４に示した
ＰＤＡ１１ならびに図７に示した携帯電話２１の内部に
適応モデル作成部３１６を設け、メモリ１１４，２１
４，３１４に蓄積された音響モデルのうち少なくとも２
つを用いて適応モデルを作成してもよい。

【０１３８】また、複数の利用者の作成用データをメモ
リ３１４に蓄積して適応モデルを作成してもよい。この
場合、利用者の音声を入力／利用者の名前を指定して特
定の利用者の作成用データを選択して適応モデルを作成
する。

【０１３９】また、音響モデルはＨＭＭに限らない。

【０１４０】また、携帯端末３１の情報３３２として、
発声データを変換したケプストラム係数などの特徴量を
サーバ３２に送信してもよい。

【０１４１】また、適応モデル作成および音声認識に用
いる適応化法は、音響モデルを用いる他の適応化法でも
よい。

【０１４２】また、適応モデル作成および音声認識に用
いる音声データを入力するマイクは、データ入力部３１
１のマイクと異なるものを用いてもよい。

【０１４３】また、携帯端末３１に代えて、テレビやパ
ソコンやカーナビゲーションシステムなどの据え置き型
の端末を用いてもよい。

【０１４４】また、通信路は、電話回線、インターネッ
ト回線、ケーブルテレビの回線など有線、通信網、ＢＳ
／ＣＳデジタル放送や地上波デジタル放送などの放送網
であってもよい。

【０１４５】また、サーバ３２をテレビまたはセットト
ップボックスとし携帯端末３１をテレビのリモコンとす
るなどのように、サーバと端末を空間的に近くに存在さ
せてもよい。

【０１４６】（第５の実施形態）＜音声認識システムの構成＞第５の実施形態による音声
認識システムは、図１に示したＰＤＡ１１に代えて図１
３に示すＰＤＡ６１を備える。その他の構成は図１に示
した音声認識システムと同様である。

【０１４７】図１３に示すＰＤＡ６１は、図１に示した
ＰＤＡ１１の構成に加えてさらに初期設定部６０１と判
断部６０２とを備える。また、メモリ１１４には、受信
部１１３によってすでに受信された音響モデルおよび当
該音響モデルのＧＭＭがｎ組（ｎは正の整数）蓄積され
ている。初期設定部６０１は、しきい値Ｔｈを判断部６
０２に与える。しきい値Ｔｈの値は、初期設定部６０１
が自動的に設定したり利用者の指示に従って初期設定部
６０１が設定したりする。判断部６０２は、マイク１１
１によって得られた環境雑音が付加された利用者の音声
を所定の特徴量に変換し、その特徴量とメモリ１１４に
蓄積されている各音響モデルのＧＭＭとの尤度を初期設
定部６０１からのしきい値Ｔｈと比較する。メモリ１１
４に蓄積されているすべての音響モデルについての尤度
がしきい値Ｔｈよりも小さいとき、判断部６０２は制御
信号を送信部１１２に与える。判断部６０２からの制御
信号に応答して送信部１１２は、マイク１１１によって
得られた利用者の音声および環境雑音をサーバ１２へ送
信する。一方、メモリ１１４に蓄積されているいずれか
の音響モデルについての尤度がしきい値Ｔｈ以上のと
き、判断部６０２は制御信号を送信部１１２に与えな
い。また送信部１１２はサーバ１２への送信を行わな
い。

【０１４８】＜音声認識システムの動作＞次に、以上の
ように構成された音声認識システムの動作について図１
４を参照しつつ説明する。

【０１４９】上述のとおりＰＤＡ６１のメモリ１１４に
は、受信部１１３によってすでに受信された音響モデル
および当該音響モデルのＧＭＭがｎ組（ｎは正の整数）
蓄積されている。

【０１５０】そしてＰＤＡ６１の初期設定部６０１によ
ってしきい値Ｔｈが決定され判断部６０２に送信される
（ＳＴ７０１）。しきい値Ｔｈは、音声認識を利用する
アプリケーションに応じて決定される。たとえば初期設
定部６０１は、セキュリティに関するアプリケーション
（音声認識により機密情報を処理するようなアプリケー
ション、音声認識により自動車の運転操作を行うような
アプリケーションなど）を利用する場合にはしきい値Ｔ
ｈを大きく設定し、それ以外のアプリケーションを利用
する場合にはしきい値Ｔｈを小さく設定する。初期設定
部６０１は、利用するアプリケーションが選択されたと
きにそのアプリケーションに対応したしきい値Ｔｈを判
断部６０２に与える。

【０１５１】次に、環境雑音が付加された利用者の音声
がＰＤＡ６１のマイク１１１により入力される（ＳＴ７
０２）。

【０１５２】次に、マイク１１１によって得られた環境
雑音が付加された利用者の音声がＰＤＡ６１の判断部６
０２によって所定の特徴量に変換される。そしてメモリ
１１４に蓄積されている各音響モデルのＧＭＭ（ＧＭＭ
１−ＧＭＭｎ）にその特徴量が入力され、それぞれの尤
度が計算される（ＳＴ７０３）。

【０１５３】次に、ステップＳＴ７０３において計算さ
れた尤度の最大値がしきい値Ｔｈよりも小さいか否かが
判断部６０２によって判断される（ＳＴ７０４）。

【０１５４】メモリ１１４に蓄積されているすべてのＧ
ＭＭ（ＧＭＭ１−ＧＭＭｎ）についての尤度がしきい値
Ｔｈよりも小さいとき（ｙｅｓ）、ステップＳＴ７０５
にすすむ。そして判断部６０２は制御信号を送信部１１
２に与える。判断部６０２からの制御信号に応答して送
信部１１２は、マイク１１１によって得られた利用者の
音声および環境雑音をサーバ１２へ送信する（ＳＴ７０
５）。サーバ１２は、第１の実施形態におけるのと同様
にして、当該利用者の音声および環境雑音に最も適合し
た音響モデルをＰＤＡ６１に送信する。この音響モデル
はＰＤＡ６１の受信部１１３によって受信され、メモリ
１１４に蓄積される。そして音声認識部１１５は、メモ
リ１１４に蓄積されたこの音響モデルを用いて音声認識
を行う。

【０１５５】一方、ステップＳＴ７０３において計算さ
れた尤度のうちいずれかがしきい値Ｔｈ以上のとき（ｎ
ｏ）、判断部６０２は制御信号を送信部１１２に与えな
い。したがって送信部１１２はサーバ１２への送信を行
わない。そして音声認識部１１５は、ステップＳＴ７０
３において計算された尤度が最も高いＧＭＭの音響モデ
ルを用いて音声認識を行う。

【０１５６】＜効果＞以上のように第５の実施形態によ
る音声認識システムでは、環境雑音が付加された利用者
の音声とＰＤＡ６１のメモリ１１４にあらかじめ蓄積さ
れている音響モデルとの尤度が所定のしきい値よりも小
さいときに限り、利用者の音声および環境雑音をＰＤＡ
６１からサーバ１２へ送信する。これにより、ＰＤＡ６
１とサーバ１２との間のデータの送受信を減らすことが
できる。

【０１５７】＜変形例＞なお、図７に示した携帯電話２
１および図１０に示した携帯端末３１についても同様に
初期設定部６０１および判断部６０２を設けてもよい。

【０１５８】また、サーバ１２をテレビまたはセットト
ップボックスとしＰＤＡ６１（端末）をテレビのリモコ
ンとするなどのように、サーバと端末を空間的に近くに
存在させてもよい。

【０１５９】（第６の実施形態）＜音声認識システムの構成＞第６の実施形態による音声
認識システムは、図１に示したＰＤＡ１１に代えて図１
５に示すＰＤＡ８１を備える。その他の構成は図１に示
した音声認識システムと同様である。

【０１６０】図１５に示すＰＤＡ８１は、図１に示した
ＰＤＡ１１の構成に加えてさらに判断部８０１を備え
る。また、メモリ１１４には、受信部１１３によってす
でに受信された音響モデルおよび当該音響モデルのＧＭ
Ｍがｎ組（ｎは正の整数）蓄積されている。判断部８０
１は、マイク１１１によって得られた環境雑音が付加さ
れた利用者の音声を所定の特徴量に変換し、その特徴量
とメモリ１１４に蓄積されている各音響モデルのＧＭＭ
との尤度を所定のしきい値と比較する。メモリ１１４に
蓄積されているすべての音響モデルについての尤度がし
きい値よりも小さいとき、判断部８０１は、音響モデル
をダウンロードするか否かの判断を利用者に促す。音響
モデルをダウンロードすべきであると利用者が判断した
とき送信部１１２は、マイク１１１によって得られた利
用者の音声および環境雑音をサーバ１２へ送信する。音
響モデルをダウンロードすべきではないと利用者が判断
したとき送信部１１２はサーバ１２への送信を行わな
い。また、メモリ１１４に蓄積されているいずれかの音
響モデルについての尤度がしきい値以上のときも送信部
１１２はサーバ１２への送信を行わない。

【０１６１】＜音声認識システムの動作＞次に、以上の
ように構成された音声認識システムの動作について図１
６を参照しつつ説明する。

【０１６２】上述のとおりＰＤＡ８１のメモリ１１４に
は、受信部１１３によってすでに受信された音響モデル
および当該音響モデルのＧＭＭがｎ組（ｎは正の整数）
蓄積されている。

【０１６３】そして、環境雑音が付加された利用者の音
声がＰＤＡ８１のマイク１１１により入力される（ＳＴ
９０１）。

【０１６４】次に、マイク１１１によって得られた環境
雑音が付加された利用者の音声がＰＤＡ８１の判断部８
０１によって所定の特徴量に変換される。そしてメモリ
１１４に蓄積されている各音響モデルのＧＭＭ（ＧＭＭ
１−ＧＭＭｎ）にその特徴量が入力され、それぞれの尤
度が計算される（ＳＴ９０２）。

【０１６５】次に、ステップＳＴ９０２において計算さ
れた尤度の最大値が所定のしきい値よりも小さいか否か
が判断部８０１によって判断される（ＳＴ９０３）。

【０１６６】メモリ１１４に蓄積されているすべてのＧ
ＭＭ（ＧＭＭ１−ＧＭＭｎ）についての尤度がしきい値
よりも小さいとき（ｙｅｓ）、ステップＳＴ９０４にす
すむ。そして判断部８０１は、音響モデルをダウンロー
ドするか否かの判断を利用者に促す（ＳＴ９０４）。音
響モデルをダウンロードすべきであると利用者が判断し
たとき（ｙｅｓ）、送信部１１２は、マイク１１１によ
って得られた利用者の音声および環境雑音をサーバ１２
へ送信する（ＳＴ９０５）。サーバ１２は、第１の実施
形態におけるのと同様にして、当該利用者の音声および
環境雑音に最も適合した音響モデルをＰＤＡ８１に送信
する。この音響モデルはＰＤＡ８１の受信部１１３によ
って受信され、メモリ１１４に蓄積される。そして音声
認識部１１５は、メモリ１１４に蓄積されたこの音響モ
デルを用いて音声認識を行う。

【０１６７】一方、ステップＳＴ９０２において計算さ
れた尤度のうちいずれかがしきい値以上のとき（ステッ
プＳＴ９０３においてｎｏ）、および、音響モデルをダ
ウンロードすべきではないと利用者が判断したとき（ス
テップＳＴ９０４においてｎｏ）、送信部１１２はサー
バ１２への送信を行わない。そして音声認識部１１５
は、ステップＳＴ９０２において計算された尤度が最も
高いＧＭＭの音響モデルを用いて音声認識を行う。

【０１６８】＜効果＞以上のように第６の実施形態によ
る音声認識システムでは、環境雑音が付加された利用者
の音声とＰＤＡ８１のメモリ１１４にあらかじめ蓄積さ
れている音響モデルとの尤度が所定のしきい値よりも小
さいときであって音響モデルをダウンロードすべきであ
ると利用者が判断したときに限り、利用者の音声および
環境雑音をＰＤＡ８１からサーバ１２へ送信する。これ
により、ＰＤＡ８１とサーバ１２との間のデータの送受
信を減らすことができる。

【０１６９】＜変形例＞なお、図７に示した携帯電話２
１および図１０に示した携帯端末３１についても同様に
判断部８０１を設けてもよい。

【０１７０】また、サーバ１２をテレビまたはセットト
ップボックスとしＰＤＡ８１（端末）をテレビのリモコ
ンとするなどのように、サーバと端末を空間的に近くに
存在させてもよい。

【０１７１】（第７の実施形態）＜音声認識システムの構成＞第７の実施形態による音声
認識システムの構成を図１７に示す。この音声認識シス
テムは、図７に示した携帯電話２１に代えて携帯電話１
０１を備える。その他の構成は図７に示した音声認識シ
ステムと同様である。

【０１７２】図１７に示す携帯電話１０１は、図７に示
した携帯電話２１の構成に加えてさらにメモリ１００１
を備える。メモリ１００１には、データ入力部２１１に
より入力された利用者の音声および環境雑音が蓄積され
る。送信部２１２は、メモリ１００１に蓄積されている
利用者の音声と環境雑音とをサーバ２２へ送信する。

【０１７３】＜音声認識システムの動作＞次に、以上の
ように構成された音声認識システムの動作について図１
８を参照しつつ説明する。

【０１７４】静かな環境での利用者の音声を利用して適
応モデルを作成する場合、雑音が重畳した音声を利用し
て適応モデルを作成する場合と比較して高精度の適応モ
デルが作成できる。携帯電話１０１を持ち歩いた場合、
多くの時間帯において自動車の騒音・周囲の人の話し声
・オフィス内でのファンの音などの雑音が存在する。し
かし、公園などで休憩をしている間など、ある時間帯に
おいて周囲雑音がきわめて少ない場合がある。そのタイ
ミングで携帯電話１０１の利用者は音声発声ボタンを押
しながら発声する。これにより、静かな環境での利用者
の音声がメモリ１００１に蓄積される（ＳＴ１１０
１）。

【０１７５】利用者が音声認識機能を利用しようとする
と、携帯電話１０１は、音響モデルをダウンロードする
か否かの判断を利用者に促す（ＳＴ１１０２）。音響モ
デルをダウンロードすべきであると利用者が判断したと
き（ｙｅｓ）、利用者は音声発声ボタンを押さずに環境
雑音をマイクにより入力する。マイクにより入力された
環境雑音はメモリ１００１に蓄積される（ＳＴ１１０
３）。

【０１７６】次に送信部２１２は、メモリ１００１に蓄
積された利用者の音声および環境雑音をサーバ２２へ送
信する（ＳＴ１１０４）。サーバ２２は、第３の実施形
態におけるのと同様にして、当該利用者の音声および環
境雑音に最も適合した音響モデルを携帯電話１０１に送
信する。この音響モデルは携帯電話１０１の受信部２１
３によって受信され、メモリ２１４に蓄積される。そし
て音声認識部２１５は、メモリ２１４に蓄積されたこの
音響モデルを用いて音声認識を行う。

【０１７７】＜効果＞第７の実施形態による音声認識シ
ステムでは、携帯電話１０１にメモリ１００１を設けた
ため、雑音のより少ない環境での利用者の音声により話
者適応を行うことができる。したがって話者適応を高精
度に行うことができる。

【０１７８】また、利用者の音声を一度蓄積すると、利
用者は適応モデルを作成するたびに発声する必要がない
ため、利用者の負担が少ない。

【０１７９】＜変形例＞なお、静かな環境での音声を複
数の人についてメモリ１００１に蓄積してもよい。この
場合、複数の人の各々について、静かな環境での音声と
名前とを対応づけてメモリ１００１に蓄積する。適応モ
デルを獲得するときには、名前を指定して利用者の音声
データを決定して適応モデルを作成する。これにより、
テレビの音声リモコンなどのように複数の人が利用する
機器に対しても高精度の適応モデルを利用することがで
きる。

【０１８０】また、ここではステップＳＴ１１０４にお
いて、メモリ１００１に蓄積されている利用者の音声と
環境雑音とをサーバ２２へ送信したが、メモリ１００１
に蓄積されている静かな環境での利用者の音声に環境雑
音を付加したデータをサーバ２２へ送信してもよい。

【０１８１】また、サーバ２２をテレビまたはセットト
ップボックスとし携帯電話１０１（端末）をテレビのリ
モコンとするなどのように、サーバと端末を空間的に近
くに存在させてもよい。

【図面の簡単な説明】

【図１】この発明の第１の実施形態による音声認識シ
ステムの全体構成を示すブロック図である。

【図２】図１に示した音声認識システムの動作の流れ
を示すフローチャートである。

【図３】図１に示したサーバのデータ蓄積部に蓄えら
れる音響モデルの一例を示す図である。

【図４】この発明の第２の実施形態による音声認識シ
ステムの全体構成を示すブロック図である。

【図５】図４に示した音声認識システムの動作の流れ
を示すフローチャートである。

【図６】ＰＤＡのメモリに蓄積された音響モデルおよ
びＧＭＭの一例を示す図である。

【図７】この発明の第３の実施形態による音声認識シ
ステムの全体構成を示すブロック図である。

【図８】図７に示した音声認識システムの動作の流れ
を示すフローチャートである。

【図９】環境雑音適応アルゴリズムを利用した適用モ
デルの作成処理の流れを示す図である。

【図１０】この発明の第４の実施形態による音声認識
システムの全体構成を示すブロック図である。

【図１１】図１０に示した音声認識システムの動作の
流れを示すフローチャートである。

【図１２】タッチパネル上に表示される画面の一例を
示す図である。

【図１３】この発明の第５の実施形態による音声認識
システムにおけるＰＤＡの構成を示すブロック図であ
る。

【図１４】この発明の第５の実施形態による音声認識
システムの動作を説明するためのフローチャートであ
る。

【図１５】この発明の第６の実施形態による音声認識
システムにおける携帯電話の構成を示すブロック図であ
る。

【図１６】この発明の第６の実施形態による音声認識
システムの動作を説明するためのフローチャートであ
る。

【図１７】この発明の第７の実施形態による音声認識
システムの全体構成を示すブロック図である。

【図１８】図１７に示した音声認識システムの動作を
説明するためのフローチャートである。

【符号の説明】

１１ＰＤＡ（端末装置）２１携帯電話（端末装置）３１携帯端末（端末装置）１１２，２１２，３１２送信部（送信手段）１１３，２１３，３１３受信部（受信手段）１１４，２１４，３１４メモリ（第１の蓄積手段）１１５，２１５，３１５音声認識部（音声認識手段）３１６適応モデル作成部（作成手段）６０２，８０１判断部（判断手段）１１０１メモリ（第２の蓄積手段）１２，２２，３２サーバ（サーバ装置）１２１，２２１，３２１送信部（送信手段）１２２，２２２，３２２受信部（受信手段）１２３適応モデル選択部（選択手段）２２３適応モデル作成部（作成手段）１２４，２２４，３２４データ蓄積部（蓄積手段）３２３選択部（選択手段）。

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 3/00 ５５１Ｐ５５１Ｑ

Claims

【特許請求の範囲】

【請求項１】利用者が発声した音声と環境雑音とをサ
ーバ装置に送信する送信手段と、前記サーバ装置から送信される、前記利用者の音声と前
記環境雑音とに適応した音響モデルを受信する受信手段
と、前記受信手段によって受信された音響モデルを蓄積する
第１の蓄積手段と、前記第１の蓄積手段に蓄積された音響モデルを用いて音
声認識を行う音声認識手段とを備えることを特徴とする
端末装置。
【請求項２】請求項１において、前記受信手段は、前記利用者が将来利用するであろう音響モデルを前記サ
ーバ装置からさらに受信することを特徴とする端末装
置。
【請求項３】請求項１において、前記環境雑音が付加された前記利用者の音声と前記第１
の蓄積手段にすでに蓄積されている音響モデルとの類似
度を所定のしきい値と比較する判断手段をさらに備え、前記送信手段は、前記類似度が前記しきい値よりも小さいとき前記利用者
の音声および前記環境雑音を前記サーバ装置に送信する
ことを特徴とする端末装置。
【請求項４】請求項３において、前記判断手段は、前記類似度が前記しきい値よりも小さいとき、音響モデ
ルを取得するか否かの判断を前記利用者に促し、前記送信手段は、前記利用者が音響モデルを取得すると判断したとき、前
記利用者の音声および前記環境雑音を前記サーバ装置に
送信することを特徴とする端末装置。
【請求項５】請求項１において、利用者が発声した音声を蓄積する第２の蓄積手段をさら
に備え、前記送信手段は、環境雑音が取得されると、当該環境雑音と前記第２の蓄
積手段に蓄積された利用者の音声とを前記サーバ装置に
送信することを特徴とする端末装置。
【請求項６】利用者が発声した音声と環境雑音とをサ
ーバ装置に送信する送信手段と、前記サーバ装置から送信される、前記利用者の音声と前
記環境雑音とに適応した音響モデルを作成するための作
成用データを受信する受信手段と、前記受信手段によって受信された作成用データを蓄積す
る第１の蓄積手段と、前記利用者の音声と前記環境雑音とに適応した音響モデ
ルを前記第１の蓄積手段に蓄積された作成用データを用
いて作成する作成手段と、前記作成手段によって作成された音響モデルを用いて音
声認識を行う音声認識手段とを備えることを特徴とする
端末装置。
【請求項７】請求項６において、前記受信手段は、前記利用者が将来利用するであろう作成用データを前記
サーバ装置からさらに受信することを特徴とする端末装
置。
【請求項８】請求項１または請求項６において、前記端末装置は、さまざまな環境の中から所望の環境を選択するように利
用者に促し、選択された環境における特徴的な音を再生することを特
徴とする端末装置。
【請求項９】各々が対応する話者および環境に適応し
た複数の音響モデルを蓄積する蓄積手段と、端末装置から送信される、利用者が発声した音声と環境
雑音とを受信する受信手段と、前記受信手段によって受信された前記利用者の音声と前
記環境雑音とに適応した音響モデルを前記蓄積手段から
選択する選択手段と、前記選択手段によって選択された音響モデルを前記端末
装置に送信する送信手段とを備えることを特徴とするサ
ーバ装置。
【請求項１０】請求項９において、前記選択手段は、前記端末装置の利用者が将来利用するであろう音響モデ
ルを前記蓄積手段から選択することを特徴とするサーバ
装置。
【請求項１１】各々が対応する話者および環境に適応し
た複数の音響モデルを蓄積する蓄積手段と、端末装置から送信される、利用者が発声した音声と環境
雑音とを受信する受信手段と、前記受信手段によって受信された前記利用者の音声およ
び前記環境雑音と前記蓄積手段に蓄積された複数の音響
モデルとに基づいて、前記利用者が発声した音声と前記
環境雑音とに適応した音響モデルを作成する作成手段
と、前記作成手段によって作成された音響モデルを前記端末
装置に送信する送信手段とを備えることを特徴とするサ
ーバ装置。
【請求項１２】請求項１１において、前記作成手段は、前記端末装置の利用者が将来利用するであろう音響モデ
ルを作成することを特徴とするサーバ装置。
【請求項１３】各々が対応する話者および環境に適応
した複数の音響モデルを蓄積する蓄積手段と、端末装置から送信される、利用者が発声した音声と環境
雑音とを受信する受信手段と、前記受信手段によって受信された前記利用者の音声と前
記環境雑音とに適応した音響モデルを作成するための作
成用データを前記蓄積手段から選択する選択手段と、前記選択手段によって選択された作成用データを前記端
末装置に送信する送信手段とを備えることを特徴とする
サーバ装置。
【請求項１４】請求項１３において、前記選択手段は、前記端末装置の利用者が将来利用するであろう作成用デ
ータを前記蓄積手段から選択することを特徴とするサー
バ装置。
【請求項１５】請求項９、１１、１３のいずれか１つ
において、前記蓄積手段に蓄積される複数の音響モデルの各々は、
対応する話者の声の調子にも適応していることを特徴と
するサーバ装置。
【請求項１６】請求項９、１１、１３のいずれか１つ
において、前記蓄積手段に蓄積される複数の音響モデルの各々は、
当該音響モデルを作成する際に話者が発声した音声を得
るための入力手段の特性にも適応していることを特徴と
するサーバ装置。
【請求項１７】各々が対応する話者、環境および声の
調子に適応した複数の音響モデルを用意し、利用者が発声した音声および環境雑音と前記複数の音響
モデルとに基づいて、前記利用者の音声と前記環境雑音
とに適応した音響モデルを獲得し、前記獲得した音響モデルを用いて音声認識を行うことを
特徴とする音声認識方法。
【請求項１８】請求項１７において、前記複数の音響モデルの各々は、当該音響モデルを作成
する際に話者が発声した音声を得るための入力手段の特
性にも適応していることを特徴とする音声認識方法。