JP2000276188A - 音声認識装置、音声認識方法、音声認識用制御プログラムを記録した記録媒体、通信端末装置、通信方法、音声認識通信の制御用プログラムを記録した記録媒体、サーバ装置、音声認識用データの送受信方法及び音声認識用データの送受信制御プログラムを記録した記録媒体 - Google Patents

音声認識装置、音声認識方法、音声認識用制御プログラムを記録した記録媒体、通信端末装置、通信方法、音声認識通信の制御用プログラムを記録した記録媒体、サーバ装置、音声認識用データの送受信方法及び音声認識用データの送受信制御プログラムを記録した記録媒体

Info

Publication number
JP2000276188A
JP2000276188A JP11080391A JP8039199A JP2000276188A JP 2000276188 A JP2000276188 A JP 2000276188A JP 11080391 A JP11080391 A JP 11080391A JP 8039199 A JP8039199 A JP 8039199A JP 2000276188 A JP2000276188 A JP 2000276188A
Authority
JP
Japan
Prior art keywords
spectrum
word
voice
recognition
acoustic model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP11080391A
Other languages
English (en)
Inventor
Hiroaki Ogawa
浩明 小川
Koji Asano
康治 浅野
Masato Shimakawa
真人 島川
Osamu Hamada
修 浜田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP11080391A priority Critical patent/JP2000276188A/ja
Publication of JP2000276188A publication Critical patent/JP2000276188A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)

Abstract

(57)【要約】 【課題】 話者適応化によって常に利用者に適応化され
た音声認識を行う。 【解決手段】 話者適応化に必要なパラメータを脱着可
能なUIM11に記憶する。通常と異なる利用者が使用
する場合には、UIM11を差し替えて、当該UIM1
1に記憶されているパラメータを用いて話者適応化を行
って、音声認識をする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、それぞれの利用者
に適応化した音声認識処理を行う音声認識装置等に関す
る。
【0002】
【従来の技術】近年、携帯電話等の携帯性が重視される
通信端末が広く用いられており、携帯性の向上のために
通信端末の軽量化及び小型化が盛んに進められている。
小型化に伴い、キーボード等のユーザの入力デバイスを
小さく、又は、入力デバイスをなくす必要がある。従来
の入力インターフェースに比べて場所をとらない手書き
の文字認識や、さらに、キーボード等と異なって全く場
所を必要としない音声認識技術が注目を集めている。か
かる音声認識技術を用いることによって、端末を小型化
できるだけでなく、利用者の利便性をさらに向上させる
ことができると期待されている。
【0003】音声認識は、通信端末自身で行うことが可
能であり、通信端末とネットワークを介して接続するサ
ーバにおいて行うことも可能である。また、通信端末と
サーバで作業を分担して、例えば通信端末で特徴抽出を
行い、サーバではその特徴を用いた認識を行うこともで
きる。
【0004】音声認識を行う場合、認識性能すなわち認
識率が重要である。認識率を100%に近づけることが
良いインターフェースを構築する上で非常に重要にな
る。一般に、音声認識技術は、特定話者音声認識と不特
定話者音声認識との2つに分けることができる。
【0005】特定話者音声認識技術は、利用者がある特
定の個人であるという前提に基づき、その利用者の個人
の声から音響的モデルを作成して音声認識を行う技術で
ある。このため、利用者に対してだけの精密な音響モデ
ルを作成することができるので、高い認識率を得ること
ができる。
【0006】しかし、利用者は音声認識を利用する前に
トレーニング用の語彙を発話する必要があり数百を超え
る大規模な音声認識を行うためには利用者が必要とされ
る発話量も膨大な量となる。そこで、ある程度小規模な
システムでは特定話者認識が利用されている。
【0007】不特定話者音声認識技術は、利用者が不特
定であるという前提に基づき、一般的な音響モデルを予
め作成しておき、音声認識を行う技術である。このた
め、特定話者音声認識に比較して認識性能は劣るもの
の、誰でも使用可能な音声認識をはじめから提供できる
特徴がある。利用者にとってトレーニングのための特別
な操作が必要でないため、利便性が高い。
【0008】特定話者音声認識の高い性能と不特定話者
音声認識の利便性の両面を兼ね備えた音声認識として、
話者適応を用いた音声認識がある。話者適応型音声認識
では、予め不特定話者音声認識システムを構築してお
き、利用者の音声を用いて不特定話者音声認識利用者に
適応させ、認識率の向上を図っている。この際、利用者
が学習用の音声を別に話す場合(教師あり適応化)と、
利用者が音声認識装置を通常利用する際の音声を利用し
て適応化を行う場合(教師なし適応化)の2つがある。
【0009】教師あり適応化は、確実な適応化を行うこ
とが可能であるが、利用者の手間が増加する。教師なし
適応化は、適応化に誤りを含む可能性が高くなるが、利
用者の手間を少なくすることができる。
【0010】音声認識における話者適応化の手法は多く
提案されており、特徴抽出での適応化や音響モデルの適
応化など様々ある。例えば特徴抽出時における話者適応
化では、話者に合わせて音声のスペクトルを周波数軸方
向に伸縮する手法(Vocal Tract Normalization)等が
提案されている。Vocal Tract Normalizationは、例え
ば、Li Lee and Richard C. Rose,"Speaker normalizat
ion using efficient frequency warping procedures",
ICASSP-96. IEEE International Conference onAcoust
ics,Speech and Signal Processing, pp 353-356にその
1実現方法が開示されている。また、音響モデルにおけ
る話者適応化方法では、例えばMLLR法として、C. J. Le
ggetter and P. C. Woodland,"Maximum likelihood lin
er regression for speaker adaptation of continuous
density hidden Markov models",Computer Speech and
Language,1995,Vol. 9 Number 2,pp171-186などが提案
されている。
【0011】その他にも様々な話者適応化が提案されて
おり、電子情報通信学会「マルコモフモデル・ニューラ
ルネットワークを包含する新しい音声認識手法」時限研
究専門委員会資料 SPREC-91-1 pp51-54に紹介されてい
る。
【0012】
【発明が解決しようとする課題】ところが、特定の利用
者に適応化した音声認識システムは、他の利用者に対し
ての認識性能が劣化するため、他の人の通信端末を借り
て操作を行う場合に音声認識の性能が低下してしまう問
題があった。
【0013】また、サーバで音声認識を行う場合、サー
バは不特定多数の利用者からの発話を認識しなければな
らないため、利用者の情報が得られないと、適応化を行
うことができないという問題があった。
【0014】本発明は、このような実情に鑑みて提案さ
れたものであり、常に話者適応化によって利用者に適応
化された音声認識を行うことができる音声認識装置、音
声認識方法、音声認識用制御プログラムを記録した記録
媒体、通信端末装置、通信方法、音声認識通信の制御用
プログラムを記録した記録媒体、サーバ装置、音声認識
用データの送受信方法及び音声認識用データの送受信制
御プログラムを記録した記録媒体を提供することを目的
とする。
【0015】
【課題を解決するための手段】上述の課題を解決するた
めに、本発明に係る音声認識装置は、脱着可能に構成さ
れ、個人の適応化パラメータを記憶する利用者個人情報
記憶手段と、入力される音声からフレームデータを生成
するフレームデータ生成手段と、フレームデータ生成手
段で生成されたフレームデータからスペクトルを算出す
るスペクトル算出手段と、スペクトル算出手段で算出さ
れたスペクトルに対して、利用者個人情報記憶手段に記
憶されている適応化パラメータを用いてスペクトル変換
を行うスペクトル変換手段と、スペクトル変換手段で変
換されたスペクトルに対して、単語辞書の各単語と音響
モデルとをマッチングして各単語の認識スコアを計算
し、最も良い認識スコアを有する単語を認識結果として
出力するマッチング手段とを備える。
【0016】本発明に係る音声認識方法は、脱着可能に
構成された利用者個人情報記憶手段に個人の適応化パラ
メータを記憶し、入力される音声からフレームデータを
生成し、生成されたフレームデータからスペクトルを算
出し、算出されたスペクトルに対して、利用者個人情報
記憶手段に記憶されている適応化パラメータを用いてス
ペクトル変換を行い、変換されたスペクトルに対して、
単語辞書の各単語と音響モデルとをマッチングして各単
語の認識スコアを計算し、最も良い認識スコアを有する
単語を認識結果として出力することを特徴とする。
【0017】本発明に係る音声認識用制御プログラムを
記録した記録媒体は、脱着可能に構成された利用者個人
情報記憶手段に個人の適応化パラメータを記憶し、入力
される音声からフレームデータを生成し、生成されたフ
レームデータからスペクトルを算出し、算出されたスペ
クトルに対して、利用者個人情報記憶手段に記憶されて
いる適応化パラメータを用いてスペクトル変換を行い、
変換されたスペクトルに対して、単語辞書の各単語と音
響モデルとをマッチングして各単語の認識スコアを計算
し、最も良い認識スコアを有する単語を認識結果として
出力する制御プログラムを記録している。
【0018】本発明に係る通信端末装置は、脱着可能に
構成され、自己の適応化パラメータを記憶する利用者個
人情報記憶手段と、入力される音声からフレームデータ
を生成するフレームデータ生成手段と、フレームデータ
生成手段で生成されたフレームデータからスペクトルを
算出するスペクトル算出手段と、スペクトル算出手段で
算出されたスペクトルに対して、利用者個人情報記憶手
段に記憶されている適応化パラメータを用いてスペクト
ル変換を行うスペクトル変換手段と、スペクトル変換手
段で変換されたスペクトルに対して、単語辞書の各単語
と音響モデルとをマッチングして各単語の認識スコアを
計算し、最も良い認識スコアを有する単語を認識結果と
して出力するマッチング手段と、マッチング手段の認識
結果に基づいてアプリケーションを制御する制御手段
と、アプリケーションの動作に従って外部とデータ通信
を行う通信手段とを備える。
【0019】本発明に係る通信方法は、脱着可能に構成
された利用者個人情報記憶手段に個人の適応化パラメー
タを記憶し、入力される音声からフレームデータを生成
し、生成されたフレームデータからスペクトルを算出
し、算出されたスペクトルに対して、利用者個人情報記
憶手段に記憶されている適応化パラメータを用いてスペ
クトル変換を行い、変換されたスペクトルに対して、単
語辞書の各単語と音響モデルとをマッチングして各単語
の認識スコアを計算し、最も良い認識スコアを有する単
語を認識結果として出力し、認識結果に基づいてアプリ
ケーションを制御し、アプリケーションの動作に従って
通信することを特徴とする。
【0020】本発明に係る音声認識通信の制御用プログ
ラムを記録した記録媒体は、脱着可能に構成された利用
者個人情報記憶手段に個人の適応化パラメータを記憶
し、入力される音声からフレームデータを生成し、生成
されたフレームデータからスペクトルを算出し、算出さ
れたスペクトルに対して、利用者個人情報記憶手段に記
憶されている適応化パラメータを用いてスペクトル変換
を行い、変換されたスペクトルに対して、単語辞書の各
単語と音響モデルとをマッチングして各単語の認識スコ
アを計算し、最も良い認識スコアを有する単語を認識結
果として出力し、認識結果に基づいてアプリケーション
を制御し、アプリケーションの動作に従って通信する制
御プログラムが記録されている。
【0021】本発明に係る通信端末装置は、脱着可能に
構成され、個人の適応化パラメータを記憶する利用者個
人情報記憶手段と、入力される音声からフレームデータ
を生成するフレームデータ生成手段と、フレームデータ
生成手段で生成されたフレームデータからスペクトルを
算出するスペクトル算出手段と、スペクトル算出手段で
算出されたスペクトルに対して、利用者個人情報記憶手
段に記憶されている適応化パラメータを用いてスペクト
ル変換を行うことで特徴量を出力するスペクトル変換手
段と、音声の認識結果に基づいてアプリケーションを制
御する制御手段と、外部とデータ通信を行う通信手段と
を備え、通信手段は、スペクトル変換手段からの特徴量
と入力される音声の発話内容とを外部に送信し、また、
外部からの音声認識の結果を受信し、制御手段は、通信
手段が受信した音声認識の結果に基づいてアプリケーシ
ョンを制御することを特徴とする。
【0022】本発明に係る通信方法は、脱着可能に構成
された利用者個人情報記憶手段に個人の適応化パラメー
タを記憶し、入力される音声からフレームデータを生成
し、生成されたフレームデータからスペクトルを算出
し、算出されたスペクトルに対して、利用者個人情報記
憶手段に記憶されている適応化パラメータを用いてスペ
クトル変換を行うことで特徴量を出力し、特徴量と入力
される音声の発話内容とを外部に送信し、送信した特徴
量と発話内容とに基づいて音声認識された結果を受信
し、受信した音声認識の結果に基づいてアプリケーショ
ンを制御することを特徴とする。
【0023】本発明に係る音声認識通信の制御プログラ
ムを記録した記録媒体は、脱着可能に構成された利用者
個人情報記憶手段に個人の適応化パラメータを記憶し、
入力される音声からフレームデータを生成し、生成され
たフレームデータからスペクトルを算出し、算出された
スペクトルに対して、利用者個人情報記憶手段に記憶さ
れている適応化パラメータを用いてスペクトル変換を行
うことで特徴量を出力し、特徴量と入力される音声の発
話内容とを外部に送信し、送信した特徴量と発話内容と
に基づいて音声認識された結果を受信し、受信した音声
認識の結果に基づいてアプリケーションを制御する制御
プログラムが記録されている。
【0024】本発明に係るサーバ装置は、音声から抽出
された特徴を示す特徴量と音声の発話内容とを受信する
受信手段と、受信手段が受信した特徴量及び発話内容と
から、音響モデルを写像するためのパラメータ行列を算
出する適応化パラメータ推定手段と、パラメータ行列に
従って音響モデルの平均値を写像して音響モデルを変換
する音響モデル適応化手段と、音響モデル変換手段によ
り変換された音響モデルと、入力された特徴量と、単語
辞書とのマッチングを行って各単語のスコアを決定し
て、最もスコアの高い単語を音声認識の結果として出力
するマッチング手段と、音声認識の結果を送信する送信
手段とを備える。
【0025】本発明に係る音声認識用データの送受信方
法は、音声から抽出された特徴を示す特徴量と音声の発
話内容とを受信し、受信した特徴量及び発話内容とか
ら、音響モデルを写像するためのパラメータ行列を算出
し、算出されたパラメータ行列に従って音響モデルの平
均値を写像して音響モデルを変換し、変換された音響モ
デルと入力された特徴量と単語辞書とのマッチングを行
って各単語のスコアを決定し、最もスコアの高い単語を
音声認識の結果として出力し、出力された音声認識の結
果を送信することを特徴とする。
【0026】本発明に係る音声認識用データの送受信制
御プログラムを記録した記録媒体は、音声から抽出され
た特徴を示す特徴量と音声の発話内容とを受信し、受信
した特徴量及び発話内容とから、音響モデルを写像する
ためのパラメータ行列を算出し、算出されたパラメータ
行列に従って音響モデルの平均値を写像して音響モデル
を変換し、変換された音響モデルと入力された特徴量と
単語辞書とのマッチングを行って各単語のスコアを決定
し、最もスコアの高い単語を音声認識の結果として出力
し、出力された音声認識の結果を送信する制御プログラ
ムが記録されている。
【0027】
【発明の実施の形態】以下、本発明の実施の形態につい
て、図面を参照しながら説明する。
【0028】本発明は、例えば図1に示す構成の通信端
末装置1に適用される。上記通信端末装置1は、UIM
(User Identification Module)11と、マイク12か
らの音声を切り換えて出力する切換回路13と、適応パ
ラメータの推定を行う適応化パラメータ推定回路14
と、切換回路13からの音声を認識する音声認識回路1
5と、音声認識処理に使用する単語辞書16及び音響モ
デル17と、全体を制御する中央制御部18と、アプリ
ケーションプログラム19とを備える。
【0029】また、上記通信端末装置1は、所定の変調
処理等を行うベースバンド/RF回路20と、LCDコ
ントローラ22と、文字や画像等を表示するLCDパネ
ル23と、音声の出力を制御する音響出力回路24と、
音声を出力するスピーカ25とを備える。
【0030】UIM11は、ユーザの個別情報を格納す
るためのモジュールであり、GSM(Global Standard
for Mobile communication)におけるSIM(Subscrib
er Identification Module)としても知られている。
【0031】UIM11には、利用者個人情報と、当該
利用者固有の話者適応化パラメータとが記憶されてい
る。利用者の個人情報は、例えば通信の課金に必要な情
報等からなる。また、話者適応化パラメータは、周波数
軸変換係数a’を含むものである。
【0032】なお、UIM11は、上記通信端末装置1
に対して脱着可能に構成されている。そして、中央制御
部18は、UIM11が当該通信端末装置1に装着され
たときに、利用者個人情報に基づいて利用者の識別を行
う。
【0033】上記中央制御部18は、音声認識処理の実
行時には、スイッチ13Aが被選択端子aに接続するよ
うに切換回路13を制御する。
【0034】そして、音声認識回路15は、UIM11
に記憶されている話者適応化パラメータを用いて、さら
に単語辞書16及び音響モデル17に従って、マイク1
2,切換回路13からの音声信号に対して音声認識を行
う。
【0035】ここで、音声認識回路15は、図2に示す
ように、A/D変換器21によってディジタル化された
音声データからフレームデータを生成するフレーム生成
回路22と、フレームデータからスペクトルを算出する
スペクトル算出回路23と、算出されたスペクトルを音
声認識用に変換するスペクトル変換回路24と、音声認
識のためのマッチング処理を行うマッチング回路25と
を備える。
【0036】A/D変換器21は、マイク12からの音
声信号を例えば12kHzでサンプリングしてディジタ
ル化し、かかる音声データをフレーム生成回路22に供
給する。フレーム生成回路22は、10msec毎に、
25msecのフレームデータを生成する。すなわち、
各フレームデータは、15msecのオーバーラップが
ある。スペクトル算出回路23は、フレーム生成回路2
2で生成されたフレームデータに対してHamming窓をか
けてFFTを行った後にパワースペクトルを算出する。
スペクトル変換回路24は、UIM11に記憶されてい
る話者適応化パラメータを用いて、上記パワースペクト
ルを以下のように変換する。
【0037】x’(f)=x(f*a’) ここで、x(f)は元のスペクトル、a’は上述した周
波数軸変換係数である。a’は0.88から1.12程
度の値となる。
【0038】マッチング回路25は、単語辞書16の各
単語と音響モデル17とを用いて、上記パワースペクト
ルの各単語の認識スコアを計算し、最も良いスコアを有
する単語を認識結果として出力する。
【0039】ここで、話者適応化パラメータaの推定に
ついて説明する。適応化パラメータ推定回路14は、利
用者が直接発話した音声をマイク12,切換回路13を
介して受け取り、上記利用者が発話した内容を中央制御
部18から受け取る。そして、適応化パラメータ推定回
路14は、利用者が発話した内容の1語だけを認識単語
辞書として音声認識回路15に供給する。なお、音声認
識回路15には、マイク12からの音声も供給される。
【0040】このとき、適応化パラメータ推定回路14
は、話者適応化パラメータaを様々に変化させ、最も音
声認識回路15におけるマッチングの結果の良いときの
aを新たなパラメータとする。適応化のための音声を複
数与えることができれば、aの推定はさらに正確に行う
ことができる。
【0041】中央制御部18は、上記音声認識回路15
の認識結果に基づいて、アプリケーションプログラム1
9の内容を実行する。
【0042】また、実行される各種のアプリケーション
プログラム19は、必要に応じて、ベースバンド/RF
回路20,アンテナ21を介して、外部と通信を行うこ
ともできる。
【0043】中央制御部18は、例えばアプリケーショ
ンの実行結果を、LCDコントローラ22を介してLC
Dパネル23に画像を表示するように制御し、また、音
響出力回路24を介してスピーカ25から音声を出力す
るように制御する。
【0044】また、ある利用者が使用していた通信端末
装置1を他の利用者が使用とするときは、当該他の利用
者は通信端末装置1に自己のUIM11を装着する必要
がある。そして、通信端末装置1の中央制御部18は、
切換回路13のスイッチ13Aを被選択端子bに設定し
て、話者適応化パラメータの更新を行わせる。
【0045】具体的には、中央制御部18は、上述した
ように切換回路13の設定制御を行うと共に、利用者が
発話すべき音声をLCDパネル23に表示させて当該利
用者に発話すべき音声を提示する。適応化パラメータ推
定回路14は、マイク12から切換回路13を介した音
声に基づいて、適応化に必要な話者適応化パラメータを
生成する。中央制御部18は、このようにして生成され
た新たな話者適応化パラメータをUIM11に書き込む
処理を行う。
【0046】以上のように、上記通信端末装置1は、話
者適応化に必要なパラメータを脱着可能なUIM11に
記憶しているので、通常と異なる利用者が使用する場合
には、UIM11を差し替えれば、当該異なる利用者に
対して常に適切に話者適応化が施された高精度の音声認
識を行うことができる。
【0047】つぎに、本発明の第2の実施の形態につい
て説明する。なお、第1の実施の形態における回路と同
一のものについては同一の符号を付し、詳細な説明は省
略するものとする。
【0048】本発明は、通信端末の通信機能により高度
な計算能力を有するサーバに接続してこれらの機能の一
部をサーバで行うものであり、例えば図3に示す構成の
通信端末装置30及び後述するサーバ50に適用するこ
とができる。上記通信端末装置30は、図1に示した通
信端末装置1の音声認識の一部分や適応化パラメータの
推定を端末外部で行うべく、音声認識回路15,単語辞
書16,音響モデル17の代わりに、特徴抽出回路31
を設けたものである。
【0049】上記UIM11には、話者適応化パラメー
タと、利用者個人情報とが記憶されている。ここで、上
記話者適応化パラメータとしては、当該通信端末装置3
0で使用するものの他に、サーバ50で使用するものも
含まれる。
【0050】中央制御部18は、例えば音声認識を行う
ときには、スイッチ13Aが被選択端子aに接続するよ
うに切換回路13を制御する。
【0051】特徴抽出回路31は、UIM11に記憶さ
れている話者適応化パラメータを用いて、マイク12,
切換回路13を介して供給される話者の音声に合わせた
特徴抽出を行って、特徴パラメータを生成し、上記特徴
パラメータを中央制御部18に供給する。
【0052】ここで、上記特徴抽出回路31は、図4に
示すように、入力された音声信号をディジタル化するA
/D変換器41と、25msecのフレームデータを生
成するフレーム生成回路42と、上記フレームデータか
らパワースペクトルを算出するスペクトル算出回路43
と、上記パワースペクトルを音声認識用に変換して特徴
パラメータを生成するスペクトル変換回路44とを備え
る。すなわち、上記特徴抽出回路31は、上述した音声
認識回路15からマッチング回路25を除いたものに相
当する。
【0053】そして、中央制御部18は、特徴抽出回路
31からの特徴パラメータを、ベースバンド/RF回路
20,アンテナ21を介して、サーバ50に送信する。
なお、ベースバンド/RF回路20は、利用者の発話内
容も、アンテナ21を介して、サーバ50に送信する。
【0054】サーバ50は、図5に示すように、適応化
パラメータ推定回路51と、音響モデル適応化回路52
と、音響モデル53と、単語辞書54と、マッチング回
路55とを備える。
【0055】適応化パラメータ推定回路51は、適応化
パラメータを推定する際に、通信端末装置30から送信
される特徴量と発話内容とを用い、MLLR法に基づ
き、音響モデルを写像するためのパラメータ行列を算出
する。適応化パラメータ推定回路51は、音響モデルを
更新するために、算出したパラメータ行列を音響モデル
適応化回路52に供給し、さらに、上記パラメータ行列
を通信端末装置30に送信する。送信されたパラメータ
行列は、中央制御部18の書き込み制御によって、UI
M11に記憶される。
【0056】音響モデル適応化回路52は、適応化パラ
メータ推定回路51で算出されたパラメータ行列に基づ
いて、音響モデル53の平均値を写像する。
【0057】音響モデル53は、音響モデル適応化回路
52により、話者の個人情報を示す適応化パラメータに
従って変換される。なお、音響モデル53はHMMであ
る。また、適応化パラメータは、MLLR法に従ってH
MMの平均値を写像するためのパラメータ行列である。
【0058】マッチング回路55は、通信端末装置30
から送信される特徴量,音響モデル53,単語辞書54
と用いて、各単語のスコアを計算し、最も良いスコアを
有する単語を認識結果として出力し、サーバ50に送信
する。
【0059】そして、中央制御部18は、サーバ50の
認識結果に基づいて、アプリケーションプログラム19
の内容を実行する。また、実行される各種のアプリケー
ションプログラム19は、必要に応じて、ベースバンド
/RF回路20,アンテナ21を介して、外部と通信を
行うこともできる。
【0060】中央制御部18は、上記アプリケーション
の実行結果を、LCDコントローラ22を介してLCD
パネル23に画像を表示するように制御し、また、音響
出力回路24を介してスピーカ25から音声を出力する
ように制御する。
【0061】以上のように、上記通信端末装置30は、
音声認識処理の一部である特徴量を抽出してサーバ50
に送信し、サーバ50からの音声認識結果を受信して所
定のアプリケーション処理を実行することによって、音
声認識処理の負担を大幅に軽減し、さらに、回路規模も
小さくすることができる。
【0062】また、通信端末装置30及びサーバ50
は、UIM11に記憶された話者適応化パラメータを用
いてそれぞれ音声認識処理の一部を行うので、それぞれ
利用者に最適な話者適応化を行うことができる。
【0063】さらに、話者適応化パラメータはサーバ5
0に保存され、UIM11の個人情報を用いてサーバ5
0に保存されている適切なパラメータを用いることによ
って、UIM11の記憶量をほとんど減らすことなく、
上述した話者適応化が可能となり、高精度の音声認識処
理を行うことができる。
【0064】上述したように、サーバ50で適応化パラ
メータの再推定を行うことによって、通信端末装置30
の演算能力の負担を軽減して、高精度の話者適応化処理
を行うことができる。
【0065】なお、本発明は、上述した実施の形態に限
定されるものではなく、様々な設計の変更を行うことも
できる。例えば、UIM11に全ての適応化パラメータ
を記憶していたが、かかるパラメータの一部又は全部を
サーバ50に記憶しておくこともできる。この場合、U
IM11には利用者を識別するための情報だけを保存し
ておけばよい。これにより、サーバ50は、UIM11
に記憶されている利用者の識別情報を用いて、適切なパ
ラメータを選択して使用することができる。また、通信
端末装置30は、音声認識のために必要なデータ量を減
らすことができる。
【0066】また、通信端末装置30では話者適応化処
理を行わずに、サーバ50だけで全ての話者適応化処理
を行うようにしてもよい。
【0067】さらに、上述の説明ではアンテナ21を利
用して無線通信を行う場合を例に挙げて説明したが、通
信端末装置30とサーバ50とを直接接続してもよく、
その他何らかのネットワークを介して接続しても良いの
は勿論である。
【0068】上述した第2の実施の形態において、通信
端末装置30では話者適応化にVocal Tract Normalizat
ionを用い、サーバ50では話者適応化にMLLR法を用い
て説明したが、これらは話者適応化の一例であり、その
他の話者適応化を行ってもよいのは言うまでもない。
【0069】なお、第1及び第2の実施の形態における
通信端末装置10,30、サーバ50の処理について
は、所定の制御プログラムを記録した記録媒体から当該
制御プログラムをインストールすることによって行うこ
とも可能である。
【0070】
【発明の効果】以上詳細に説明したように、本発明に係
る音声認識装置、音声認識方法及び音声認識用制御プロ
グラムを記録した記録媒体によれば、脱着可能に構成さ
れた利用者個人情報記憶手段に記憶されている適応化パ
ラメータを用いて話者適応化を行うことができるので、
利用者が代わっても当該利用者が自己の利用者個人情報
記憶手段に差し替えることによって、常に利用者に応じ
た適切な話者適応化を施して、高精度の音声認識を行う
ことができる。
【0071】本発明に係る通信端末装置、通信方法及び
音声認識通信の制御用プログラムを記録した記録媒体に
よれば、脱着可能に構成された利用者個人情報記憶手段
に記憶されている適応化パラメータを用いて話者適応化
を行うことができるので、利用者が代わっても当該利用
者が自己の利用者個人情報記憶手段に差し替えることに
よって、常に利用者に応じた適切な音声認識を行って、
高精度の情報通信を行うことができる。
【0072】本発明に係る通信端末装置、通信方法及び
音声認識通信の制御用プログラムを記録した記録媒体に
よれば、脱着可能に構成された利用者個人情報記憶手段
に記憶されている適応化パラメータを用いて話者適応化
処理を行うことによって、利用者に応じた適切な音声認
識を行って所定のアプリケーション処理を行うことがで
きる。
【0073】本発明に係るサーバ装置、音声認識用デー
タの送受信方法及び音声認識用データの送受信制御プロ
グラムを記録した記録媒体によれば、通信端末装置が行
うべき音声認識処理の一部を行うことによって、当該通
信端末装置の利用者個人情報記憶手段の記憶容量をほと
んど消費せずに話者適応化処理を行うことができ、高精
度の音声認識結果を上記通信端末装置に提供することが
できる。
【図面の簡単な説明】
【図1】本発明を適用した通信端末装置の構成を示すブ
ロック図である。
【図2】上記通信端末装置の音声認識回路の具体的な構
成を示すブロック図である。
【図3】本発明の他の実施の形態の通信端末装置の構成
を示すブロック図である。
【図4】上記通信端末装置の特徴抽出回路の具体的な構
成を示すブロック図である。
【図5】上記通信端末装置の通信先のサーバの構成を示
すブロック図である。
【符号の説明】 1,30 通信端末装置、11 UIM、14,51
適応化パラメータ推定回路、15 音声認識回路、18
中央制御部、20 ベースバンド/RF回路、21
アンテナ、31 特徴抽出回路、50 サーバ、52
音響モデル適応化回路
フロントページの続き (72)発明者 島川 真人 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 (72)発明者 浜田 修 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内 Fターム(参考) 5D015 CC01 EE03 GG01 HH13 5K024 AA15 BB01 CC11 DD01 EE09 GG01 GG05 5K027 AA11 BB04 HH20 HH23 9A001 BB01 BB03 BB04 CC05 CC07 EE05 HH05 HH06 HH15 HH17 HH22 JJ27 LL03 (54)【発明の名称】 音声認識装置、音声認識方法、音声認識用制御プログラムを記録した記録媒体、通信端末装置、 通信方法、音声認識通信の制御用プログラムを記録した記録媒体、サーバ装置、音声認識用デー タの送受信方法及び音声認識用データの送受信制御プログラムを記録した記録媒体

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】 脱着可能に構成され、個人の適応化パラ
    メータを記憶する利用者個人情報記憶手段と、 入力される音声からフレームデータを生成するフレーム
    データ生成手段と、上記フレームデータ生成手段で生成
    されたフレームデータからスペクトルを算出するスペク
    トル算出手段と、 上記スペクトル算出手段で算出されたスペクトルに対し
    て、上記利用者個人情報記憶手段に記憶されている適応
    化パラメータを用いてスペクトル変換を行うスペクトル
    変換手段と、 上記スペクトル変換手段で変換されたスペクトルに対し
    て、単語辞書の各単語と音響モデルとをマッチングして
    各単語の認識スコアを計算し、最も良い認識スコアを有
    する単語を認識結果として出力するマッチング手段とを
    備える音声認識装置。
  2. 【請求項2】 脱着可能に構成された利用者個人情報記
    憶手段に個人の適応化パラメータを記憶し、 入力される音声からフレームデータを生成し、 上記生成されたフレームデータからスペクトルを算出
    し、 上記算出されたスペクトルに対して、上記利用者個人情
    報記憶手段に記憶されている適応化パラメータを用いて
    スペクトル変換を行い、 上記変換されたスペクトルに対して、単語辞書の各単語
    と音響モデルとをマッチングして各単語の認識スコアを
    計算し、最も良い認識スコアを有する単語を認識結果と
    して出力することを特徴とする音声認識方法。
  3. 【請求項3】 脱着可能に構成された利用者個人情報記
    憶手段に個人の適応化パラメータを記憶し、入力される
    音声からフレームデータを生成し、上記生成されたフレ
    ームデータからスペクトルを算出し、上記算出されたス
    ペクトルに対して、上記利用者個人情報記憶手段に記憶
    されている適応化パラメータを用いてスペクトル変換を
    行い、上記変換されたスペクトルに対して、単語辞書の
    各単語と音響モデルとをマッチングして各単語の認識ス
    コアを計算し、最も良い認識スコアを有する単語を認識
    結果として出力する音声認識用制御プログラムを記録し
    た記録媒体。
  4. 【請求項4】 脱着可能に構成され、自己の適応化パラ
    メータを記憶する利用者個人情報記憶手段と、 入力される音声からフレームデータを生成するフレーム
    データ生成手段と、 上記フレームデータ生成手段で生成されたフレームデー
    タからスペクトルを算出するスペクトル算出手段と、 上記スペクトル算出手段で算出されたスペクトルに対し
    て、上記利用者個人情報記憶手段に記憶されている適応
    化パラメータを用いてスペクトル変換を行うスペクトル
    変換手段と、 上記スペクトル変換手段で変換されたスペクトルに対し
    て、単語辞書の各単語と音響モデルとをマッチングして
    各単語の認識スコアを計算し、最も良い認識スコアを有
    する単語を認識結果として出力するマッチング手段と、 上記マッチング手段の認識結果に基づいてアプリケーシ
    ョンを制御する制御手段と、 上記アプリケーションの動作に従って外部とデータ通信
    を行う通信手段とを備える通信端末装置。
  5. 【請求項5】 脱着可能に構成された利用者個人情報記
    憶手段に個人の適応化パラメータを記憶し、 入力される音声からフレームデータを生成し、 上記生成されたフレームデータからスペクトルを算出
    し、 上記算出されたスペクトルに対して、上記利用者個人情
    報記憶手段に記憶されている適応化パラメータを用いて
    スペクトル変換を行い、 上記変換されたスペクトルに対して、単語辞書の各単語
    と音響モデルとをマッチングして各単語の認識スコアを
    計算し、最も良い認識スコアを有する単語を認識結果と
    して出力し、 上記認識結果に基づいてアプリケーションを制御し、 上記アプリケーションの動作に従って通信することを特
    徴とする通信方法。
  6. 【請求項6】 脱着可能に構成された利用者個人情報記
    憶手段に個人の適応化パラメータを記憶し、入力される
    音声からフレームデータを生成し、上記生成されたフレ
    ームデータからスペクトルを算出し、上記算出されたス
    ペクトルに対して、上記利用者個人情報記憶手段に記憶
    されている適応化パラメータを用いてスペクトル変換を
    行い、上記変換されたスペクトルに対して、単語辞書の
    各単語と音響モデルとをマッチングして各単語の認識ス
    コアを計算し、最も良い認識スコアを有する単語を認識
    結果として出力し、上記認識結果に基づいてアプリケー
    ションを制御し、上記アプリケーションの動作に従って
    通信する音声認識通信の制御用プログラムを記録した記
    録媒体。
  7. 【請求項7】 脱着可能に構成され、個人の適応化パラ
    メータを記憶する利用者個人情報記憶手段と、 入力される音声からフレームデータを生成するフレーム
    データ生成手段と、 上記フレームデータ生成手段で生成されたフレームデー
    タからスペクトルを算出するスペクトル算出手段と、 上記スペクトル算出手段で算出されたスペクトルに対し
    て、上記利用者個人情報記憶手段に記憶されている適応
    化パラメータを用いてスペクトル変換を行うことで特徴
    量を出力するスペクトル変換手段と、 音声の認識結果に基づいてアプリケーションを制御する
    制御手段と、 外部とデータ通信を行う通信手段とを備え、 上記通信手段は、上記スペクトル変換手段からの特徴量
    と入力される音声の発話内容とを外部に送信し、また、
    外部からの音声認識の結果を受信し、 上記制御手段は、上記通信手段が受信した音声認識の結
    果に基づいてアプリケーションを制御することを特徴と
    する通信端末装置。
  8. 【請求項8】 脱着可能に構成された利用者個人情報記
    憶手段に個人の適応化パラメータを記憶し、 入力される音声からフレームデータを生成し、 上記生成されたフレームデータからスペクトルを算出
    し、 上記算出されたスペクトルに対して、上記利用者個人情
    報記憶手段に記憶されている適応化パラメータを用いて
    スペクトル変換を行うことで特徴量を出力し、 上記特徴量と入力される音声の発話内容とを外部に送信
    し、 上記送信した特徴量と発話内容とに基づいて音声認識さ
    れた結果を受信し、 上記受信した音声認識の結果に基づいてアプリケーショ
    ンを制御することを特徴とする通信方法。
  9. 【請求項9】 脱着可能に構成された利用者個人情報記
    憶手段に個人の適応化パラメータを記憶し、入力される
    音声からフレームデータを生成し、上記生成されたフレ
    ームデータからスペクトルを算出し、上記算出されたス
    ペクトルに対して、上記利用者個人情報記憶手段に記憶
    されている適応化パラメータを用いてスペクトル変換を
    行うことで特徴量を出力し、上記特徴量と入力される音
    声の発話内容とを外部に送信し、上記送信した特徴量と
    発話内容とに基づいて音声認識された結果を受信し、上
    記受信した音声認識の結果に基づいてアプリケーション
    を制御する音声認識通信の制御プログラムを記録した記
    録媒体。
  10. 【請求項10】 音声から抽出された特徴を示す特徴量
    と上記音声の発話内容とを受信する受信手段と、 上記受信手段が受信した特徴量及び発話内容とから、音
    響モデルを写像するためのパラメータ行列を算出する適
    応化パラメータ推定手段と、 上記パラメータ行列に従って音響モデルの平均値を写像
    して音響モデルを変換する音響モデル適応化手段と、 上記音響モデル変換手段により変換された音響モデル
    と、入力された特徴量と、単語辞書とのマッチングを行
    って各単語のスコアを決定して、最もスコアの高い単語
    を音声認識の結果として出力するマッチング手段と、 上記音声認識の結果を送信する送信手段とを備えるサー
    バ装置。
  11. 【請求項11】 音声から抽出された特徴を示す特徴量
    と上記音声の発話内容とを受信し、 上記受信した特徴量及び発話内容とから、音響モデルを
    写像するためのパラメータ行列を算出し、 上記算出されたパラメータ行列に従って音響モデルの平
    均値を写像して音響モデルを変換し、 上記変換された音響モデルと入力された特徴量と単語辞
    書とのマッチングを行って各単語のスコアを決定し、最
    もスコアの高い単語を音声認識の結果として出力し、 上記出力された音声認識の結果を送信することを特徴と
    する音声認識用データの送受信方法。
  12. 【請求項12】 音声から抽出された特徴を示す特徴量
    と上記音声の発話内容とを受信し、上記受信した特徴量
    及び発話内容とから、音響モデルを写像するためのパラ
    メータ行列を算出し、上記算出されたパラメータ行列に
    従って音響モデルの平均値を写像して音響モデルを変換
    し、上記変換された音響モデルと入力された特徴量と単
    語辞書とのマッチングを行って各単語のスコアを決定
    し、最もスコアの高い単語を音声認識の結果として出力
    し、上記出力された音声認識の結果を送信する音声認識
    用データの送受信制御プログラムを記録した記録媒体。
JP11080391A 1999-03-24 1999-03-24 音声認識装置、音声認識方法、音声認識用制御プログラムを記録した記録媒体、通信端末装置、通信方法、音声認識通信の制御用プログラムを記録した記録媒体、サーバ装置、音声認識用データの送受信方法及び音声認識用データの送受信制御プログラムを記録した記録媒体 Withdrawn JP2000276188A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11080391A JP2000276188A (ja) 1999-03-24 1999-03-24 音声認識装置、音声認識方法、音声認識用制御プログラムを記録した記録媒体、通信端末装置、通信方法、音声認識通信の制御用プログラムを記録した記録媒体、サーバ装置、音声認識用データの送受信方法及び音声認識用データの送受信制御プログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11080391A JP2000276188A (ja) 1999-03-24 1999-03-24 音声認識装置、音声認識方法、音声認識用制御プログラムを記録した記録媒体、通信端末装置、通信方法、音声認識通信の制御用プログラムを記録した記録媒体、サーバ装置、音声認識用データの送受信方法及び音声認識用データの送受信制御プログラムを記録した記録媒体

Publications (1)

Publication Number Publication Date
JP2000276188A true JP2000276188A (ja) 2000-10-06

Family

ID=13716999

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11080391A Withdrawn JP2000276188A (ja) 1999-03-24 1999-03-24 音声認識装置、音声認識方法、音声認識用制御プログラムを記録した記録媒体、通信端末装置、通信方法、音声認識通信の制御用プログラムを記録した記録媒体、サーバ装置、音声認識用データの送受信方法及び音声認識用データの送受信制御プログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP2000276188A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003058185A (ja) * 2001-08-09 2003-02-28 Matsushita Electric Ind Co Ltd 音声認識装置
JP2005130205A (ja) * 2003-10-23 2005-05-19 Chugoku Electric Power Co Inc:The 業務支援システム及び方法
JP2006510933A (ja) * 2002-12-20 2006-03-30 インターナショナル・ビジネス・マシーンズ・コーポレーション センサ・ベース音声認識装置の選択、適応、および組合せ
JP2009151318A (ja) * 2001-01-31 2009-07-09 Qualcomm Inc 音響特性ベクトル変形を使用する分散型音声認識システム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009151318A (ja) * 2001-01-31 2009-07-09 Qualcomm Inc 音響特性ベクトル変形を使用する分散型音声認識システム
JP2003058185A (ja) * 2001-08-09 2003-02-28 Matsushita Electric Ind Co Ltd 音声認識装置
JP2006510933A (ja) * 2002-12-20 2006-03-30 インターナショナル・ビジネス・マシーンズ・コーポレーション センサ・ベース音声認識装置の選択、適応、および組合せ
JP2005130205A (ja) * 2003-10-23 2005-05-19 Chugoku Electric Power Co Inc:The 業務支援システム及び方法

Similar Documents

Publication Publication Date Title
US11854527B2 (en) Electronic device and method of controlling speech recognition by electronic device
US11450313B2 (en) Determining phonetic relationships
Rudnicky et al. Survey of current speech technology
JP4902617B2 (ja) 音声認識システム、音声認識方法、音声認識クライアントおよびプログラム
JP4546555B2 (ja) 話し手に暗黙的に順応する技術を用いた音声認識システム
EP3824462B1 (en) Electronic apparatus for processing user utterance and controlling method thereof
JP2004287447A (ja) モバイル通信デバイスのための分散音声認識
US20050049870A1 (en) Open vocabulary speech recognition
KR20050098839A (ko) 네트워크 환경에서 음성 처리를 위한 중간 처리기
JP2002244688A (ja) 情報処理方法及び装置、情報伝送システム、情報処理プログラムを情報処理装置に実行させる媒体、情報処理プログラム
EP1899955B1 (en) Speech dialog method and system
CN114120979A (zh) 语音识别模型的优化方法、训练方法、设备及介质
KR101959439B1 (ko) 통역방법
JP2000276188A (ja) 音声認識装置、音声認識方法、音声認識用制御プログラムを記録した記録媒体、通信端末装置、通信方法、音声認識通信の制御用プログラムを記録した記録媒体、サーバ装置、音声認識用データの送受信方法及び音声認識用データの送受信制御プログラムを記録した記録媒体
JP2002049390A (ja) 音声認識方法およびサーバならびに音声認識システム
JP2011248002A (ja) 翻訳装置
CN109830239B (zh) 语音处理装置、语音识别输入系统及语音识别输入方法
US20240112676A1 (en) Apparatus performing based on voice recognition and artificial intelligence and method for controlling thereof
KR100347790B1 (ko) 명령어 갱신이 가능한 음성인식 방법 및 그 시스템
CN115410557A (zh) 语音处理方法、装置、电子设备及存储介质
JP4037709B2 (ja) 音声認識方法及び音声認識システム
CN116092466A (zh) 语音模型的处理方法、装置、计算机设备及存储介质
CN117219043A (zh) 模型训练方法、模型应用方法和相关装置
JP2021081527A (ja) 音声認識装置、音声認識方法、および、音声認識プログラム
Maheswari et al. VOICE CONTROLLED PRINTING SYSTEM

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20060606