JP2000250577A - 音声認識装置及び同装置に使用される学習方法ならびに学習装置及び同方法がプログラムされ記録された記録媒体 - Google Patents

音声認識装置及び同装置に使用される学習方法ならびに学習装置及び同方法がプログラムされ記録された記録媒体

Info

Publication number
JP2000250577A
JP2000250577A JP11047262A JP4726299A JP2000250577A JP 2000250577 A JP2000250577 A JP 2000250577A JP 11047262 A JP11047262 A JP 11047262A JP 4726299 A JP4726299 A JP 4726299A JP 2000250577 A JP2000250577 A JP 2000250577A
Authority
JP
Japan
Prior art keywords
vector
feature
feature vector
sound
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11047262A
Other languages
English (en)
Inventor
Mizuho Inoue
みづほ 井上
Yoshitake Suzuki
義武 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP11047262A priority Critical patent/JP2000250577A/ja
Publication of JP2000250577A publication Critical patent/JP2000250577A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 骨導マイクロホンが持つ周波数特性の改善を
はかり音声認識に用いる。合わせて騒音環境下での認識
性能の向上をはかる。 【解決手段】 第一の受音器101で収録された音声入
力パターン(骨導音)を第一のコードブック110を用
いて特徴ベクトルを選択して出力し、そのインデックス
に対応する第二のコードブック121に記憶されている
補正ベクトルを選択し、前記両ベクトルを加算し接続す
ることにより前記第一の受音器より広い周波数帯域で受
音感度が確保される第二の受音器112で収録された音
声(気導音)の特徴ベクトルを推定する。また、推定さ
れた音声を音声認識対象として用い、参照用パターンと
して音声辞書213に格納された音声パラメータを順次
与え両パターンの照合を行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、騒音環境下でも認
識性能の高い、音声認識装置及び同装置に使用される学
習方法ならびに学習装置、及び同方法がプログラムされ
記録される記録媒体に関する。
【0002】
【従来の技術】騒音環境下でも認識性能の高い音声認識
装置を実現する方法が従来から提案されている。例え
ば、(1)予め音声入力のない時点での騒音を測定し、
音声入力時には予め測定した騒音の成分を減じる方法、
(2)音声入力用と騒音入力用の2個のマイクロホンを
用いて騒音入力用マイクロホンへの入力信号の成分を音
声入力用マイクロホンへの入力信号から減じる方法、
(3)予め測定した騒音で音声認識装置の辞書を学習す
る方法、(4)受音器として骨導マイクロホンを使用す
る方法、などがあった。しかしながら上述した従来のい
ずれの方法によっても以下に示すように認識性能の向上
のために問題を残している。具体的に、(1)に示す方
法では、騒音の性質が常に一定の場合以外には効果が低
下する。また、(2)に示す方法では、騒音の性質によ
らずある程度の効果はあるものの、マイクロホン同士が
互いに近ずき過ぎて設置されると、騒音用マイクロホン
に音声が混入し、騒音成分と共に音声成分の一部までも
減じられてしまう。逆にマイクロホン同士が離れ過ぎて
配置されると、両者に入力される騒音の性質が異なって
しまうため、騒音成分の正確な減算ができない。更に、
複数のマイクロホンを設置するために装置規模が大きく
なったり、発声者の位置が制限されるといった諸々の問
題を有していた。また、(3)に示す方法では、学習時
と認識時における騒音の性質が異なると効果が低下す
る。(4)に示す方法では、原理的に騒音の影響を受け
難い利点はあるが、受音した音声の周波数帯域が狭いた
め、音声情報が欠落するといった問題を有していた。
【0003】
【発明が解決しようとする課題】一方、音声入力用マイ
クロホンが持つマイクロホン特性の差や、音声入力から
音声認識に至る伝送路特性の差を補正する方法としてフ
ィルタを用いる方法が提案されている。そこで、音声の
周波数帯域が狭い骨導マイクロホン(広い周波数帯域に
渡って受信できる気導マイクロホンに比べ、受信できる
周波数帯域が制限されるが空気中を伝播する騒音成分の
影響が少ない)の特性を、周波数帯域が広いマイクロホ
ン特性に補正するフィルタを用いる方法もあるが実用に
十分な効果を得るには至っていないのが現状である。本
発明は上記事情に基づいてなされたものであり、騒音の
影響を受け難い骨導マイクロホンを受音器として用い、
周波数特性を気導マイクロホンが持つ特性に近づけるこ
とにより、騒音環境下における音声認識性能の向上を、
発声者の位置を制限することなく、装置規模を増大させ
ることなく、かつ、従来の音声認識装置にも容易に適用
できる、音声認識装置及び同装置が使用する学習方法な
らびに学習装置、及び同方法がプログラムされ記録され
る記録媒体を提供することを目的とする。
【0004】
【課題を解決するための手段】本発明の音声認識装置
は、音声信号を第一の受音器により受音し、受音した音
声信号から、予め定めた時間長のフレーム毎に特徴ベク
トルを抽出する手段と、抽出された特徴ベクトルを一時
的に記憶する手段と、第一の受音器で予め受音した音声
信号から抽出した代表的な有限個の特徴ベクトルを第一
のセットとして記憶する手段と、前記第一の受音器で予
め受音した音声信号の特徴ベクトルと前記第一の受音器
よりも広い周波数帯域で受音感度が確保される第二の受
音器で予め受音した音声信号の特徴ベクトルとの差分を
用いて算出した代表的な有限個の補正ベクトルを第二の
セットとして記憶する手段と、前記第一のセットに属す
る特徴ベクトルと前記第二のセットに属する各々の補正
ベクトルを対応付ける手段と、前記第一のセットに属す
る各々の特徴ベクトルに対して、前記第一の受音器で受
音した音声信号から抽出された特徴ベクトルの類似度を
算出する手段と、類似度の最も高い特徴ベクトルを前記
第一のセットの中から選択し、このベクトルに対応する
前記第二のセットに属する補正ベクトルを抽出する手段
と、前記第一の受音器で受音した音声信号から抽出され
た特徴ベクトルに対して前記抽出された補正ベクトルを
加算して生成される特徴ベクトルをフレーム毎に算出す
る手段と、この特徴ベクトルの系列に対し、予め辞書と
して記憶された特徴ベクトル系列との間で類似度を照合
する手段と、照合された中から最も類似度の高い辞書の
情報を出力する手段とを備えることを特徴とする。
【0005】本発明の音声認識装置のコードブック学習
方法は、第一の受音器と、該第一の受音器より広い周波
数帯域で受音感度が確保される第二の受音器とで収録さ
れた受音パターンを所定長の区間毎に切り出して特徴量
を算出し、一方の受音器を介して抽出された特徴量をコ
ードブックに記憶されたコードベクトルと比較すること
により最も類似度の高い特徴ベクトルのインデックスを
出力し、このインデックスに対応する他方のコードブッ
クに記憶された補正ベクトルを出力することを特徴とす
る。
【0006】本発明の音声認識装置のコードブック学習
装置は、第一の受音器と、該第一の受音器より広い周波
数帯域で受音感度が確保される第二の受音器で収録され
る受音パターンを所定の時間長の区間毎に切り出して特
徴量を算出し、コードブックを参照することによって特
徴ベクトルを抽出し、予め辞書として記憶されたコード
ベクトルとの間で類似度を照合することにより、照合さ
れた中から最も類似度の高い辞書情報を認識結果として
出力する音声認識装置において、音声信号を第一の受音
器により受音し、受音した音声信号から、所定の時間長
のフレーム毎に特徴ベクトルを抽出する手段と、抽出さ
れた特徴ベクトルを一時的に記憶する手段と、前記第一
の受音器で予め受音した音声信号から抽出した代表的な
有限個の特徴ベクトルを第一のセットとして記憶する手
段と、前記第一の受音器で予め受音した音声信号の特徴
ベクトルと前記第二の受音器で予め受音した音声信号の
特徴ベクトルとの差分を用い算出した代表的な有限個の
補正ベクトルを第二のセットとして記憶する手段と、前
記第一のセットに属する各々の特徴ベクトルと前記第二
のセットに属する各々の補正ベクトルを対応付ける手段
とを具備することを特徴とする。
【0007】本発明の記録媒体は、第一の受音器と、該
第一の受音器より広い周波数帯域で受音感度が確保され
る第二の受音器で収録された受音パターンを所定時間長
の区間毎に切り出して特徴量を算出し、コードブックを
参照することによって特徴ベクトルを抽出する音声認識
装置のコードブック学習装置に用いられ、前記第一の受
音器と、第二の受音器で受音されたアナログ信号を適切
なサンプリング周波数でディジタル信号に変換し、それ
ぞれに用意されるサンプリングデータバッファに格納す
るステップと、それぞれのサンプリングデータバッファ
に格納されたデータをフレーム毎にデータの特徴量を算
出するステップと、フレーム毎に算出されるパワーと事
前に設定された閾値とを比較することにより、音声の開
始フレーム及び終了フレームを決定するステップと、適
切な単語の発声がある間、前記音声の開始フレームと終
了フレームの情報に基づき当該範囲の特徴量のみを特徴
ベクトルとして第一・第二のベクトルバッファに格納す
るステップと、前記第一のベクトルバッファに格納され
た特徴ベクトルから代表的な特徴ベクトルを生成し、第
一のコードブックに格納するステップと、前記第一のベ
クトルバッファに格納された特徴ベクトルを、事前に生
成され前記第一のコードブックに格納された特徴ベクト
ルに基づいてフレーム毎ベクトル量子化するステップ
と、前記第一のコードブックの特徴ベクトルの中で最も
類似度の高い特徴ベクトルのインデックスを前記第一の
特徴ベクトルに付与するステップと、前記第二のベクト
ルバッファに格納された特徴ベクトルと第一のベクトル
バッファに格納された特徴ベクトルとの差分をフレーム
毎算出し、その差分を特徴差分データバッファに格納す
るステップと、前記第一のベクトルバッファに格納され
た特徴ベクトルに対応する特徴差分データに対し、前記
第一の特徴ベクトルに付与されたインデックスと同じイ
ンデックスを付与するステップと、前記特徴差分データ
に付与されたインデックス毎に特徴差分データをクラス
タリングし、クラスタに含まれるデータを平均化するこ
とにより代表的な特徴補正ベクトルを生成して前記第二
のコードブックに格納するステップが記録されることを
特徴とする。
【0008】また、受音器を介して収録される音声入力
パターンを所定時間長の区間毎に切り出して特徴量を抽
出し、コードブックを参照することにより特徴ベクトル
を抽出し、予め辞書として記憶されたコードベクトルと
の間で類似度を照合することにより、照合された中から
最も類似度の高い辞書情報を出力する音声認識装置に用
いられ、前記受音器で受音されたアナログ信号を適切な
サンプリング周波数によりディジタル信号に変換しサン
プリングデータバッファに格納するステップと、サンプ
リングデータバッファに1フレーム分の信号が格納され
る毎に信号パワーを算出し、フレーム毎に算出されるパ
ワーを適切なフレーム数に渡って累積加算し、フレーム
あたりの平均値を計算して音声区間検出のための閾値と
するステップと、フレーム毎に算出されるパワーと事前
に設定された前記閾値とを比較することにより音声の開
始フレーム及び終了フレームを決定するステップと、開
始フレームと終了フレームの情報に基づき当該範囲の特
徴量をベクトルとして抽出し、特徴ベクトルバッファに
格納するステップと、特徴ベクトルバッファに格納され
た特徴ベクトルを、事前に第一のコードブックに格納さ
れた特徴ベクトルに基づいてフレーム毎にベクトル量子
化するステップと、前記第一のコードブックの特徴ベク
トルの中で最も類似度が高い特徴ベクトルに付与される
インデックスとその特徴ベクトルを転送するステップ
と、事前に第二のコードブックに格納された特徴ベクト
ルから前記転送されたインデックスに相当する補正ベク
トルを抽出し、この抽出された補正ベクトルを転送され
た特徴ベクトルに加算することにより前記第二のコード
ブックに格納される特徴ベクトルの推定を行うステップ
と、ここで得られる特徴ベクトルを入力パターンとし、
参照パターンとして音声辞書に予め登録されてある、認
識対象となる各単語の音声開始フレームから音声終了フ
レームまでの特徴パラメータを順次与え、単語毎両パタ
ーンの照合を行なうステップと、各参照パターン毎入力
パターンとの距離値を算出し、全ての距離値の中で最小
となる距離値に対応する参照パターン名を認識結果とし
て出力するステップが記録されることも特徴とする。
【0009】このことにより、騒音の影響を受け難い骨
導マイクロホンを受音器として用い、周波数特性を補正
するフィルタを用いることによってその周波数特性を気
導音声に近づけることができ、発声者の位置を制限する
ことなく、装置規模を増大させることなくして騒音環境
下における音声認識性能の向上がはかれ、また、従来か
らある音声認識装置にも容易に適用できる。
【0010】
【発明の実施の形態】図1は、本発明における音声認識
装置のコードブック学習装置の実施形態を示すブロック
図である。図において、101は骨導マイクロホン、1
12は気導マイクロホンである。気導マイクロホン11
2は、広い周波数帯域に渡って感度が良いことで知られ
ている。音声認識に必要な8キロヘルツ乃至12キロヘ
ルツの帯域の音響信号を良好に受信できる。一方、音声
と同一周波数帯域の騒音信号も音声信号と区別なく受音
できるため、高騒音下での音声区間検出が困難になると
いう欠点を持つ。骨導マイクロホン101は、加速度ピ
ックアップを用いているため周波数帯域が狭く、音声の
高域周波数成分の減衰が大きいため、単独で音声認識に
用いると性能が低下する反面、外部からの空気中を伝播
する騒音成分の影響が小さいという利点を持つ。尚、本
発明では、骨導マイクロホン101、気導マイクロホン
112によって収録される音声入力パターンは、一定時
間区間毎に切り出され、それぞれに用意されるコードブ
ックと比較して最も類似度の高いコードベクトルを取り
出すベクトル量子化手法(VQ:vector quantizatio
n)によって音声入力パターンが表現されるものとして
以降説明する。コードブックに保存されるベクトルをパ
ターン空間内の重心(セントロイド:centroid)とする
方法の代表例は、LBG法(Linde, Y, Buzo, A. and G
ray, R. M.:“An Algorithm for vector quantizerdes
ign”IEEE Trans.Commun.,COM-28,1,84-95(1980))とし
て公知である。
【0011】前記骨導マイクロホン101、気導マイク
ロホン112により受信された音声信号は、アナログデ
ィジタル変換器(以下、単にA/D変換器という)10
2,113にそれぞれ供給され、A/D変換器102,
113によって生成されるディジタル信号は、それぞれ
サンプリングデータバッファ103、114に供給され
る。サンプリングデータバッファ103、114出力は
それぞれ特徴抽出部104、特徴抽出部115に供給さ
れる。特徴抽出部104,115以降説明されるブロッ
クは全てソフトウェアによって実現されものであり、こ
こでは機能ブロックとして表現してある。サンプリング
データバッファ103出力は更に、パワー算出部10
6、音声区間検出部107の経路により、骨導音声特徴
バッファ105、気導音声特徴ベクトルバッファ116
に供給される。108は切替スイッチである。切替スイ
ッチ108は、骨導音声特徴ベクトルバッファ105出
力を、骨導音声コードブック生成部109または、ベク
トル量子化部111に接続する。110は骨導音声コー
ドブック生成部109により生成される骨導音声コード
を記憶する骨導音声コードブック記憶部である。一方、
骨導音声特徴ベクトルバッファ105出力は切替スイッ
チ108の他に特徴差分算出部117に供給される。特
徴差分算出部117で算出される骨導音声特徴ベクトル
バッファ105と気導音声特徴ベクトルバッファ116
の特徴ベクトル差分は特徴差分データバッファ118に
供給される。特徴差分データバッファ118に供給され
るデータは特徴補正フィルタ生成部120に供給され
る。特徴補正フィルタ生成部120に供給される差分デ
ータは後述するロジックにより特徴補正ベクトル成分と
して生成され、特徴補正フィルタ記憶部121ならびに
フレーム対応表記憶部119に供給される。フレーム対
応表記憶部119は、後述するロジックに従い特徴補正
フィルタ生成部120により生成される補正ベクトルを
ベクトル量子化部111によって出力される骨導音声に
おける特徴ベクトルの量子化出力に反映させる。
【0012】図3は図1に示す音声認識装置のコードブ
ック学習装置の動作手順を説明するために引用したフロ
ーチャートであり、具体的にその手順は、本発明の学習
装置の中にプログラムされ記録される。図示せぬCPU
がこれを読み出し実行することにより以下に示す手順が
実行される。以下、図1に示す音声認識装置のコードブ
ック学習装置の動作について図4に示すフローチャート
を参照しながら詳細に説明する。動作は機能的に大別す
ると、「骨導音声コードブック生成」と「特徴補正ベク
トル生成」に区分される。まず、「骨導音声コードブッ
ク生成」動作から説明する。骨導マイクロホン101と
気導マイクロホン112で受音されたアナログ信号は、
それぞれA/D変換器102,113において適切なサ
ンプリング周波数でディジタル信号に変換され(ステッ
プS31,S32)、サンプリングデータバッファ10
3,114にそれぞれ逐次格納される(ステップS3
3)。ここで、適切なサンプリング周波数とは、音声認
識処理に必要となる音声の特徴を損なわない周波数であ
り、通常は、8キロヘルツから12キロヘルツに設定さ
れる。特徴抽出部104,115では、サンプリングデ
ータバッファ103,114に20乃至30ミリ秒分の
データが格納される毎にデータの特徴量を算出する。す
なわち、フレーム毎にデータの特徴抽出を行う(ステッ
プS35)。一方、骨導マイクロホン101のサンプリ
ングデータからは、フレーム毎にパワー算出部106に
おいて信号パワーが算出され、音声区間検出部107に
送られる。音声区間検出部107では、フレーム毎に算
出されるパワーと事前に設定された閾値とを比較するこ
とにより、音声の開始フレーム及び終了フレームが決定
される(ステップS34)。骨導マイクロホン101と
気導マイクロホン112における各々のフレーム毎の特
徴量は、検出された開始フレームと終了フレームの情報
に基づき、当該範囲の特徴量のみ、ベクトルとして各々
の特徴ベクトルバッファ105,116に格納される
(ステップS37)。この操作は適切な単語の発声があ
る間繰り返される(ステップS36)。
【0013】ここで、適切な単語の発声がある間とは、
全ての音韻の発声頻度の偏りが少ない単語群が出力され
ている間のことである。また、ここで注意すべきこと
は、骨導音声を用いて特徴量を算出することと、パワー
を算出するフレームと気導音声を用いて特徴量を算出す
るフレームとの同期がとられることである。具体的に、
パワーを算出するフレームと気導音声を用いて特徴量を
算出するフレームとの同期は、A/D変換器102,1
13双方のサンプリングクロックの同期をとることによ
り容易に実現することができる。骨導音声コードブック
生成時、切替スイッチ108は、骨導音声特徴ベクトル
バッファ105を骨導音声コードブック生成部109に
接続される(ステップS38)。骨導音声コードブック
生成部109では、骨導音声特徴ベクトルバッファ10
5に格納された特徴ベクトルから代表的な特徴ベクトル
を生成し(ステップS39)、骨導音声コードブック1
10に格納する(ステップS40)。尚、上述した代表
的な特徴ベクトルは、骨導マイクロホン101の音声信
号を介して抽出した特徴量を適切な単語群の発声がある
間蓄積したものをサンプルとし、各サンプル間の距離が
小さいもの同士をクラスタリングし、各クラスタ毎に特
徴量の相加平均をとることにより求められる。ここで求
められた代表ベクトルを記録して骨導音声コードブック
(骨導音声コードブック記憶部110)とするものであ
る。
【0014】次に、「特徴補正ベクトル生成」動作につ
いて説明する。特徴補正ベクトル生成時、切替スイッチ
108はベクトル量子化部111に接続される(ステッ
プS48)。ベクトル量子化部111では、骨導音声特
徴ベクトルバッファ105に格納された特徴ベクトル
を、事前に生成され骨導音声コードブック記憶部110
に格納された特徴ベクトルに基づいてフレーム毎ベクト
ル量子化し(ステップS41)、骨導音声コードブック
の特徴ベクトルの中で最も類似度の高い特徴ベクトルの
インデックス(番号)を骨導音声特徴ベクトルに付与す
る(ステップS42)。一方、特徴差分算出部117で
は、骨導音声特徴ベクトルバッファ105に格納された
特徴ベクトルと気導音声特徴ベクトルバッファ116に
格納された特徴ベクトルとの差分をフレーム毎算出し、
特徴差分データバッファ118に逐次格納する。フレー
ム対応表記憶部117では、骨導音声特徴ベクトルに対
応する特徴差分データバッファ118に格納された特徴
差分データに対し、骨導音声特徴ベクトルに付与さた番
号と同じ番号を付与する。特徴補正フィルタ生成部12
0では、特徴差分データに付与された番号毎に特徴差分
データをクラスタリングし、クラスタに含まれるデータ
を平均化することにより代表的な特徴補正ベクトルを生
成し(ステップS53)、特徴補正フィルタ記憶部12
1に格納する(ステップS54)。上述した骨導音声コ
ードブックと特徴補正フィルタは番号毎対応がとれたも
のになっている。尚、上述した特徴補正ベクトルの生成
は、骨導マイクロホン101からの音声信号と同期をと
って得られた気導マイクロホン112からの音声信号が
減算された残差信号(特徴差分算出部117)から抽出
した特徴量を抽出することによりなされる。
【0015】図2は、本発明における音声認識装置の実
施形態を示すブロック図である。図において、201は
骨導マイクロホン、202はA/D変換器、203はサ
ンプリングデータバッファである。また、204は特徴
抽出部、205は特徴ベクトルバッファ、206はパワ
ー算出部、207は音声区間検出部、208はベクトル
量子化部、209は骨導音声コードブック記憶部、21
0は気導音声推定部、211は特徴補正フィルタ記憶
部、212はパターン照合部、213は音声辞書記憶
部、214は認識結果出力部であり、いずれもソフトウ
ェアにより実現されるため、機能ブロックとして示し
た。機能等動作手順について詳細は後述する。
【0016】図4は、図2に示す音声認識装置の動作手
順を説明するために引用したフローチャートであり、
(a)に騒音測定動作、(b)に音声認識動作について
の手順が示されている。具体的にその手順は、本発明の
音声認識装置の中にプログラムされ記録される。図示せ
ぬCPUがこれを読み出し実行することにより以下に示
す手順が実行されるものである。以下、図2に示す音声
認識装置の動作について図4(a)(b)に示すフロー
チャートを参照しながら詳細に説明する。本発明の音声
認識装置の動作は、機能的に大別すると、音声が未入力
の状態での騒音レベルを測定して、音声区間の閾値を決
定する「騒音測定」と、発声された音声パターンと既登
録の音声辞書中の音声パターンとを照合し、その結果を
出力する「音声認識」に区分される。まず、「騒音測
定」動作から説明する。骨導マイクロホン201で受音
されたアナログ信号はA/D変換器202でディジタル
信号に変換され、サンプリングデータバッファ203に
逐次格納される(ステップS51,S52)。サンプリ
ングデータバッファ203に1フレーム分の信号が格納
される毎に、パワー算出部206において信号パワーが
算出される(ステップS53)。そして、フレーム毎に
算出されたパワーは音声区間検出部207に入力され
る。音声区間検出部207では、フレーム毎に算出され
るパワーを適切なフレーム数にわたって累積加算し、更
にフレームあたりの平均値を計算する。ここで、適切な
フレーム数とは、通常4乃至16程度である。算出され
た平均パワーに適切な定数を加算することにより、音声
区間検出のための閾値とする(ステップS54)。
【0017】次に、「音声認識」動作について説明す
る。上述した「騒音測定」が終了した時点で音声入力が
可能となる。まず、骨導マイクロホン201で受音され
た信号は、A/D変換器202でディジタル信号に変換
され、サンプリングデータバッファ203に逐次格納さ
れる(ステップS61,S62)。1フレーム毎、特徴
抽出部204でデータの特徴量が算出され、同時にパワ
ー算出部206でその信号のパワーが算出され(ステッ
プS63)音声区間検出部207に送られる。音声区間
検出部207では、フレーム毎に算出されるパワーと事
前に設定された閾値を比較することにより、音声の開始
フレーム及び終了フレームが決定される(ステップS6
4)。ここで検出された開始フレームと終了フレーム情
報に基づき、当該範囲の特徴量が、ベクトルとして特徴
ベクトルバッファ205に格納される(ステップS6
5)。ベクトル量子化部208では、特徴ベクトルバッ
ファ205に格納された特徴ベクトルを、事前に骨導音
声コードブック記憶部209に格納された特徴ベクトル
に基づいて、フレーム毎ベクトル量子化し(ステップS
66)、骨導音声コードブックの特徴ベクトルの中で最
も類似度が高い特徴ベクトルの番号と特徴ベクトルバッ
ファ205に格納された特徴ベクトルが気導音声推定部
210に転送される(ステップS67)。気導音声推定
部210では、事前に特徴補正フィルタ記憶部211に
格納された特徴ベクトルから転送された番号にあたる補
正ベクトルを抽出し、この抽出された補正ベクトルを転
送された特徴ベクトルに加算することによって気導音声
特徴ベクトルへの推定が行なわれる(ステップS6
8)。尚、上述した類似度とは、骨導音による特徴量か
ら成るベクトルと骨導コードブックに記憶されたベクト
ルとの間の距離である。すなわち、両ベクトルの差の自
乗値を要素毎に加算して得られた値である。ここでは、
この類似度を骨導コードブック中の各ベクトル毎に計算
し、最も小さくなるベクトルを選択する。このようにし
て選択され骨導コードブックから得られるベクトルと補
正ベクトルを加算することによって気導音声特徴ベクト
ルを推定している。
【0018】一方、音声辞書記憶部213には、認識対
象となる各単語の音声開始フレームから音声終了フレー
ムまでの特徴パラメータが登録されている。従って、パ
ターン照合部212への入力パターンとして、気導音声
推定部210で推定された気導音声特徴ベクトルを与
え、参照用パターンとして音声辞書記憶部213に格納
された音声パラメータを単語毎順次与えることにより、
両パターンの照合(ステップS69)を行なうことがで
きる。その結果、入力パターンと参照パターンの照合結
果が、距離値により出力される。距離値が大きいほど両
パターンの相違度が大きいことを意味する。各参照パタ
ーン毎に入力パターンとの距離値を算出し(ステップS
70)、全ての距離値の中で最小となる距離値に対応す
る参照パターン名が認識結果となり、認識結果表示部2
14に表示される(ステップS71)。尚、図3,図4
に示すフローチャートは、それぞれ、学習装置、音声認
識装置が持つ記憶装置(図示せず)中に固定的に書き込
まれるか、あるいは半導体記憶装置、フロッピーディス
クやハードディスク等の磁気記録装置、CD−ROM等
にプログラムとして書き込まれて頒布されるものであ
り、必要に応じて装置内部の記憶装置に取込まれること
により機能するものである。
【0019】出願人は、上述した本発明実施形態による
効果を確認するために以下に示す音声認識実験を行なっ
た。図5は、図2に示す音声認識装置において、コード
ブックサイズに応じて増加される特徴補正フィルタ分割
数毎の単語音声認識率の推移をグラフ表示したものであ
る。グラフはX軸にフィルタ分割数を、Y軸に音声認識
率を目盛り両者の関係を示している。単語は、電子協1
00都市名の最初の20都市を選び、発声は予め定めた
騒音環境下で男女各2名が2回ずつ発声し、そのときの
平均を認識率として示している。実験の結果、単一の特
徴補正フィルタを用いた場合(フィルタ分割数1)、認
識率が52.5%であったのに対し、コードブックサイ
ズに応じてフィルタ分割数を増加させた場合、フィルタ
分割数が64で認識率80%、128で82.2%、2
56で88.5%となった。このことにより無騒音下に
おける本発明の効果が確認された。次に、騒音下での本
発明の効果につき述べる。騒音環境下で、気導音声を入
力とする従来の音声認識装置と、図2に示す本発明の音
声認識装置との単語音声認識性能比較を行った。尚、本
発明の音声認識装置において使用される補正フィルタの
分割数は256とした。また、単語は、電子協100都
市名の最初の20都市を選び、予め定めた環境下で2回
ずつ発声した。結果、男女各2名の音声認識率の平均値
は、騒音が64dBのピンクノイズをラウドスピーカよ
り発生させた場合、従来装置が42.5%であつたのに
対し、本発明装置では79%であった。また、騒音が環
境騒音(非定常騒音、環境騒音1は道路沿い、最大80
dB、最小55dB、平均66dB、環境騒音2はショ
ッピングモール、最大70dB、最小60dB、平均6
4dB)をラウドスピーカより発声させた場合、従来装
置はいずれも認識率0%と全く認識できなかったのに対
し、本発明装置では、それぞれ、認識率82.1%、8
0.4%であった。この性能比較により騒音環境下にお
ける本発明効果が確認された。
【0020】尚、出願人は、同日付で、騒音の影響を受
け難い骨導マイクロホンと、周波数帯域の広い気導マイ
クロホンを用い、骨導音声から気導音声への特徴ベクト
ルのマッピングを用いることによって騒音環境下におけ
る音声認識性能の向上をはかった、音声認識装置ならび
に同装置における音声学習方法ならびに装置及び同方法
がプログラムされ記録される記録媒体を出願してある。
これに対し、本発明は、騒音の影響を受け難い骨導マイ
クロホンを受音器として用い、かつ、周波数を補正する
フィルタを付加することによって周波数特性を気導音声
に近づけることにより騒音下での音声認識性能の向上を
はかったものである。このため、本発明の学習装置にお
いては、骨導音声特徴ベクトルバッファ105に格納さ
れた特徴ベクトルと気導音声特徴ベクトルバッファ11
6に格納された特徴ベクトルとのベクトル差分をフレー
ム毎に算出する特徴差分算出部117と、これを記憶す
る特徴差分データバッファ118が付加され、更に、こ
こで得られる特徴差分データに付与された番号(フレー
ム対応記憶部で骨導音声特徴ベクトルに対応する特徴デ
ータ差分データバッファに格納された特徴差分データに
対し骨導音声特徴ベクトルに付与された番号と同じ番号
を付与している)毎に特徴差分データをクラスタリング
し、クラスタに含まれるデータを平均化して代表的な特
徴補正フィルタを生成するロジックを持つ特徴補正フィ
ルタ生成部120が付加されている。また、本発明の音
声認識装置においては、特徴補正フィルタ記憶部211
が付加され、ここでは、気導音声推定部210で事前に
特徴補正フィルタ記憶部211に記憶された補正フィル
タから、転送された番号(ベクトル量子化部208から
骨動音声コードブックの特徴ベクトル中で最も類似度の
高い特徴ベクトルの番号と特徴ベクトルバッファに格納
された特徴ベクトルが転送)にあたる補正フィルタを抽
出し、転送された特徴ベクトルに抽出された補正フィル
タを加算し、気導音声特徴ベクトルの推定を行うロジッ
クを持つ。このことにより、骨導マイクロホンを受音器
とし、周波数特性を補正するフィルタを介して骨導マイ
クロホンが持つ周波数特性の改善をはかり、気導音声に
近づけると共に騒音下での音声認識性能の向上を実現す
るものである。
【0021】
【発明の効果】以上説明のように本発明は、第一の受音
器で収録された音声入力パターン(骨導音)を第一のコ
ードブックを用いて特徴ベクトルを選択して出力し、そ
のインデックスに対応する第二のコードブックに記憶さ
れている補正ベクトルを選択し、前記両ベクトルを加算
し接続することにより前記第一の受音器より広い周波数
帯域で受音感度が確保される第二の受音器で収録された
音声(気導音)の特徴ベクトルを推定し、推定された音
声を音声認識対象として用いるものであり、このことに
より、骨導マイクロホンが従来から特徴として持つ、外
部からの空気中を伝播する騒音成分の影響が小さいとい
う利点を生かしながら、加速度ピックアップを使用して
いるため、周波数帯域が狭く、音声の高周波成分の減衰
が大きいといった周波数特性の改善がはかれ、従って、
この骨導マイクロホンを音声認識のための音声収録マイ
クロホンとしてに単独で使用することができる。また、
騒音環境下における音声認識性能の向上をはかることが
てき、発声者の位置を制限することなく、装置規模を増
大させることなく実現でき、また、従来からある音声認
識装置にも容易に適用できるものである。
【図面の簡単な説明】
【図1】 本発明の学習装置の実施形態を示すブロック
図である。
【図2】 本発明の音声認識装置の実施形態を示すブロ
ック図である。
【図3】 図1に示す本発明実施形態の動作を説明する
ために引用したフローチャートである。
【図4】 図2に示す本発明実施形態の動作を説明する
ために引用したフローチャートである。
【図5】 本発明実施形態の効果を説明するために引用
したグラフである。
【符号の説明】
101、201…骨導マイクロホン(第一の受音器)、
102、113、202…アナログディジタル変換器
(A/D変換器)、103、114、203…サンプリ
ングデータバッファ、104、115、204…特徴抽
出部、105…骨導音声特徴ベクトルバッファ、10
6、206…パワー算出部、107、207…音声区間
検出部、108…切替スイッチ、109…骨導音声コー
ドブック生成部、110、209…骨導音声コードブッ
ク記憶部(第一のコードブック)、111、208…ベ
クトル量子化部、112…気導マイクロホン(第二の受
音器)、116…気導音声特徴ベクトルバッファ、11
7…特徴差分算出部、118…特徴差分データバッフ
ァ、119…フレーム対応表記憶部、120…特徴補正
フィルタ生成部、121、211…特徴補正フィルタ記
憶部(第二のコードブック)、205…特徴ベクトルバ
ッファ、210…気導音声推定部、212…パターン照
合部、213…音声辞書記憶部(音声辞書)、214…
認識結果表示部

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 音声信号を第一の受音器により受音し、
    受音した音声信号から、予め定めた時間長のフレーム毎
    に特徴ベクトルを抽出する手段と、抽出された特徴ベク
    トルを一時的に記憶する手段と、第一の受音器で予め受
    音した音声信号から抽出した代表的な有限個の特徴ベク
    トルを第一のセットとして記憶する手段と、前記第一の
    受音器で予め受音した音声信号の特徴ベクトルと前記第
    一の受音器よりも広い周波数帯域で受音感度が確保され
    る第二の受音器で予め受音した音声信号の特徴ベクトル
    との差分を用いて算出した代表的な有限個の補正ベクト
    ルを第二のセットとして記憶する手段と、前記第一のセ
    ットに属する特徴ベクトルと前記第二のセットに属する
    各々の補正ベクトルを対応付ける手段と、前記第一のセ
    ットに属する各々の特徴ベクトルに対して、前記第一の
    受音器で受音した音声信号から抽出された特徴ベクトル
    の類似度を算出する手段と、類似度の最も高い特徴ベク
    トルを前記第一のセットの中から選択し、このベクトル
    に対応する前記第二のセットに属する補正ベクトルを抽
    出する手段と、前記第一の受音器で受音した音声信号か
    ら抽出された特徴ベクトルに対して前記抽出された補正
    ベクトルを加算して生成される特徴ベクトルをフレーム
    毎に算出する手段と、この特徴ベクトルの系列に対し、
    予め辞書として記憶された特徴ベクトル系列との間で類
    似度を照合する手段と、照合された中から最も類似度の
    高い辞書の情報を出力する手段とを備えることを特徴と
    する音声認識装置。
  2. 【請求項2】 入力される音声信号の特徴量から成るベ
    クトルと前記第一のセットとして記憶されたベクトル間
    の距離で示される類似度を前記第一のセット中の少なく
    とも一部のベクトルについて計算して最小の特徴ベクト
    ルを選択し、それに対応する補正ベクトルを加算するこ
    とによって得られるベクトルから前記第二の受音器の特
    徴ベクトルを推定することを特徴とする請求項1記載の
    音声認識装置。
  3. 【請求項3】 前記第一の受音信号は発声者の頭骨を伝
    播する音響信号を受音する手段により生成され、前記第
    二の受音は、空気中を伝播する音響信号を受音する手段
    により生成されることを特徴とする請求項1または請求
    項2のいずれかに記載の音声認識装置。
  4. 【請求項4】 第一の受音器と、該第一の受音器より広
    い周波数帯域で受音感度が確保される第二の受音器とで
    収録された受音パターンを所定長の区間毎に切り出して
    特徴量を算出し、一方の受音器を介して抽出された特徴
    量をコードブックに記憶されたコードベクトルと比較す
    ることにより最も類似度の高い特徴ベクトルのインデッ
    クスを出力し、このインデックスに対応する他方のコー
    ドブックに記憶された補正ベクトルを出力することを特
    徴とする音声認識装置のコードブック学習方法。
  5. 【請求項5】 前記第一、第二の受音器で受音される信
    号をフレーム毎同期をとって受音し、このうち、第一の
    受音器から第一のセットとして代表的な有限個の特徴ベ
    クトルを抽出し、前記第一の受音器からの受音信号に対
    してフレーム毎に前記第一のセットに属する各々の特徴
    ベクトルの中で最も類似度の高い特徴ベクトルのインデ
    ックスを付与し、前記第一の受音器と同期する第二の受
    音器からの受音信号との差分を用い第二のセットとして
    代表的な有限個の補正ベクトルを抽出することにより、
    前記第一のセットに属する各々の特徴ベクトルと第二の
    セットに属する各々の補正ベクトルを対応付けることを
    特徴とする請求項4記載の音声認識装置のコードブック
    学習方法。
  6. 【請求項6】 前記第一の受音器を介して得られる音声
    信号から抽出した特徴ベクトルを適切な単語群の発声の
    ある間蓄積したものをサンプルとし、各サンプル間の距
    離が小さいもの同士をクラスタリングし、クラスタ毎に
    特徴ベクトルの相加平均をとることにより代表的な特徴
    ベクトルを求め、これら代表的な特徴ベクトルを前記第
    一のセットに記録することを特徴とする請求項5記載の
    音声認識装置のコードブック学習方法。
  7. 【請求項7】 第一の受音器と、該第一の受音器より広
    い周波数帯域で受音感度が確保される第二の受音器で収
    録される受音パターンを所定の時間長の区間毎に切り出
    して特徴量を算出し、コードブックを参照することによ
    って特徴ベクトルを抽出し、予め辞書として記憶された
    コードベクトルとの間で類似度を照合することにより、
    照合された中から最も類似度の高い辞書情報を認識結果
    として出力する音声認識装置において、音声信号を第一
    の受音器により受音し、受音した音声信号から、所定の
    時間長のフレーム毎に特徴ベクトルを抽出する手段と、
    抽出された特徴ベクトルを一時的に記憶する手段と、前
    記第一の受音器で予め受音した音声信号から抽出した代
    表的な有限個の特徴ベクトルを第一のセットとして記憶
    する手段と、前記第一の受音器で予め受音した音声信号
    の特徴ベクトルと前記第二の受音器で予め受音した音声
    信号の特徴ベクトルとの差分を用い算出した代表的な有
    限個の補正ベクトルを第二のセットとして記憶する手段
    と、前記第一のセットに属する各々の特徴ベクトルと前
    記第二のセットに属する各々の補正ベクトルを対応付け
    る手段とを具備することを特徴とする音声認識装置のコ
    ードブック学習装置。
  8. 【請求項8】 前記第一の受音信号は発声者の頭骨を伝
    播する音響信号を受音する手段により生成され、前記第
    二の受音は、空気中を伝播する音響信号を受音する手段
    により生成されることを特徴とする請求項7記載の音声
    認識装置のコードブック学習装置。
  9. 【請求項9】 第一の受音器と、該第一の受音器より広
    い周波数帯域で受音感度が確保される第二の受音器で収
    録された受音パターンを所定時間長の区間毎に切り出し
    て特徴量を算出し、コードブックを参照することによっ
    て特徴ベクトルを抽出する音声認識装置のコードブック
    学習装置に用いられ、前記第一の受音器と、第二の受音
    器で受音されたアナログ信号を適切なサンプリング周波
    数でディジタル信号に変換し、それぞれに用意されるサ
    ンプリングデータバッファに格納するステップと、それ
    ぞれのサンプリングデータバッファに格納されたデータ
    をフレーム毎にデータの特徴量を算出するステップと、
    フレーム毎に算出されるパワーと事前に設定された閾値
    とを比較することにより、音声の開始フレーム及び終了
    フレームを決定するステップと、適切な単語の発声があ
    る間、前記音声の開始フレームと終了フレームの情報に
    基づき当該範囲の特徴量のみを特徴ベクトルとして第一
    ・第二のベクトルバッファに格納するステップと、前記
    第一のベクトルバッファに格納された特徴ベクトルから
    代表的な特徴ベクトルを生成し、第一のコードブックに
    格納するステップと、前記第一のベクトルバッファに格
    納された特徴ベクトルを、事前に生成され前記第一のコ
    ードブックに格納された特徴ベクトルに基づいてフレー
    ム毎ベクトル量子化するステップと、前記第一のコード
    ブックの特徴ベクトルの中で最も類似度の高い特徴ベク
    トルのインデックスを前記第一の特徴ベクトルに付与す
    るステップと、前記第二のベクトルバッファに格納され
    た特徴ベクトルと第一のベクトルバッファに格納された
    特徴ベクトルとの差分をフレーム毎算出し、その差分を
    特徴差分データバッファに格納するステップと、前記第
    一のベクトルバッファに格納された特徴ベクトルに対応
    する特徴差分データに対し、前記第一の特徴ベクトルに
    付与されたインデックスと同じインデックスを付与する
    ステップと、前記特徴差分データに付与されたインデッ
    クス毎に特徴差分データをクラスタリングし、クラスタ
    に含まれるデータを平均化することにより代表的な特徴
    補正ベクトルを生成して前記第二のコードブックに格納
    するステップが記録された記録媒体。
  10. 【請求項10】 受音器を介して収録される音声入力パ
    ターンを所定時間長の区間毎に切り出して特徴量を抽出
    し、コードブックを参照することにより特徴ベクトルを
    抽出し、予め辞書として記憶されたコードベクトルとの
    間で類似度を照合することにより、照合された中から最
    も類似度の高い辞書情報を出力する音声認識装置に用い
    られ、前記受音器で受音されたアナログ信号を適切なサ
    ンプリング周波数によりディジタル信号に変換しサンプ
    リングデータバッファに格納するステップと、サンプリ
    ングデータバッファに1フレーム分の信号が格納される
    毎に信号パワーを算出し、フレーム毎に算出されるパワ
    ーを適切なフレーム数に渡って累積加算し、フレームあ
    たりの平均値を計算して音声区間検出のための閾値とす
    るステップと、フレーム毎に算出されるパワーと事前に
    設定された前記閾値とを比較することにより音声の開始
    フレーム及び終了フレームを決定するステップと、開始
    フレームと終了フレームの情報に基づき当該範囲の特徴
    量をベクトルとして抽出し、特徴ベクトルバッファに格
    納するステップと、特徴ベクトルバッファに格納された
    特徴ベクトルを、事前に第一のコードブックに格納され
    た特徴ベクトルに基づいてフレーム毎にベクトル量子化
    するステップと、前記第一のコードブックの特徴ベクト
    ルの中で最も類似度が高い特徴ベクトルに付与されるイ
    ンデックスとその特徴ベクトルを転送するステップと、
    事前に第二のコードブックに格納された特徴ベクトルか
    ら前記転送されたインデックスに相当する補正ベクトル
    を抽出し、この抽出された補正ベクトルを転送された特
    徴ベクトルに加算することにより前記第二のコードブッ
    クに格納される特徴ベクトルの推定を行うステップと、
    ここで得られる特徴ベクトルを入力パターンとし、参照
    パターンとして音声辞書に予め登録されてある、認識対
    象となる各単語の音声開始フレームから音声終了フレー
    ムまでの特徴パラメータを順次与え、単語毎両パターン
    の照合を行なうステップと、各参照パターン毎入力パタ
    ーンとの距離値を算出し、全ての距離値の中で最小とな
    る距離値に対応する参照パターン名を認識結果として出
    力するステップが記録された記録媒体。
JP11047262A 1999-02-24 1999-02-24 音声認識装置及び同装置に使用される学習方法ならびに学習装置及び同方法がプログラムされ記録された記録媒体 Pending JP2000250577A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11047262A JP2000250577A (ja) 1999-02-24 1999-02-24 音声認識装置及び同装置に使用される学習方法ならびに学習装置及び同方法がプログラムされ記録された記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11047262A JP2000250577A (ja) 1999-02-24 1999-02-24 音声認識装置及び同装置に使用される学習方法ならびに学習装置及び同方法がプログラムされ記録された記録媒体

Publications (1)

Publication Number Publication Date
JP2000250577A true JP2000250577A (ja) 2000-09-14

Family

ID=12770389

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11047262A Pending JP2000250577A (ja) 1999-02-24 1999-02-24 音声認識装置及び同装置に使用される学習方法ならびに学習装置及び同方法がプログラムされ記録された記録媒体

Country Status (1)

Country Link
JP (1) JP2000250577A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030040610A (ko) * 2001-11-15 2003-05-23 한국전자통신연구원 골 전도 마이크로 입력된 음성신호의 음질 향상방법
US6741962B2 (en) 2001-03-08 2004-05-25 Nec Corporation Speech recognition system and standard pattern preparation system as well as speech recognition method and standard pattern preparation method
EP1536414A2 (en) 2003-11-26 2005-06-01 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement
EP1569422A2 (en) * 2004-02-24 2005-08-31 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement on a mobile device
JP2006276603A (ja) * 2005-03-30 2006-10-12 Nissan Motor Co Ltd 音声認識装置および方法
JP2020197629A (ja) * 2019-06-03 2020-12-10 パナソニックIpマネジメント株式会社 音声テキスト変換システムおよび音声テキスト変換装置
JP2021033134A (ja) * 2019-08-27 2021-03-01 国立大学法人静岡大学 評価装置、評価方法、及び評価プログラム

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6741962B2 (en) 2001-03-08 2004-05-25 Nec Corporation Speech recognition system and standard pattern preparation system as well as speech recognition method and standard pattern preparation method
KR20030040610A (ko) * 2001-11-15 2003-05-23 한국전자통신연구원 골 전도 마이크로 입력된 음성신호의 음질 향상방법
EP1536414A3 (en) * 2003-11-26 2007-07-04 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement
JP2005157354A (ja) * 2003-11-26 2005-06-16 Microsoft Corp 複数感知の音声強調のための方法および機器
EP1536414A2 (en) 2003-11-26 2005-06-01 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement
CN1622200B (zh) * 2003-11-26 2010-11-03 微软公司 多传感语音增强方法和装置
JP2011209758A (ja) * 2003-11-26 2011-10-20 Microsoft Corp 複数感知の音声強調のための方法および機器
EP1569422A2 (en) * 2004-02-24 2005-08-31 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement on a mobile device
EP1569422A3 (en) * 2004-02-24 2007-08-29 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement on a mobile device
JP2006276603A (ja) * 2005-03-30 2006-10-12 Nissan Motor Co Ltd 音声認識装置および方法
JP4581789B2 (ja) * 2005-03-30 2010-11-17 日産自動車株式会社 音声認識装置および方法
JP2020197629A (ja) * 2019-06-03 2020-12-10 パナソニックIpマネジメント株式会社 音声テキスト変換システムおよび音声テキスト変換装置
JP7373739B2 (ja) 2019-06-03 2023-11-06 パナソニックIpマネジメント株式会社 音声テキスト変換システムおよび音声テキスト変換装置
JP2021033134A (ja) * 2019-08-27 2021-03-01 国立大学法人静岡大学 評価装置、評価方法、及び評価プログラム
JP7378770B2 (ja) 2019-08-27 2023-11-14 国立大学法人静岡大学 評価装置、評価方法、及び評価プログラム

Similar Documents

Publication Publication Date Title
JP6572894B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP2779886B2 (ja) 広帯域音声信号復元方法
US4720863A (en) Method and apparatus for text-independent speaker recognition
CN110337819B (zh) 来自设备中具有不对称几何形状的多个麦克风的空间元数据的分析
EP0686965B1 (en) Speech recognition apparatus with speaker adaptation using acoustic category mean value calculus
JP5452655B2 (ja) 音声状態モデルを使用したマルチセンサ音声高品質化
US20080183472A1 (en) Speech recognition system and program thereof
JP2007533189A (ja) ビデオ・オーディオ同期
MXPA04011033A (es) Metodo y aparato para el mejoramiento de dialogo multisensorial.
KR102191736B1 (ko) 인공신경망을 이용한 음성향상방법 및 장치
CN101432799B (zh) 基于高斯混合模型的变换中的软校准
CA2284484A1 (en) Recognition system
JP2010112995A (ja) 通話音声処理装置、通話音声処理方法およびプログラム
US20120271630A1 (en) Speech signal processing system, speech signal processing method and speech signal processing method program
JP2000250577A (ja) 音声認識装置及び同装置に使用される学習方法ならびに学習装置及び同方法がプログラムされ記録された記録媒体
JP2002268698A (ja) 音声認識装置と標準パターン作成装置及び方法並びにプログラム
JP3306784B2 (ja) 骨導マイクロホン出力信号再生装置
WO2010061505A1 (ja) 発話音声検出装置
CN113689871A (zh) 回声消除方法和装置
JP2002236497A (ja) ノイズリダクションシステム
JP2002023790A (ja) 音声特徴量抽出装置
US8306828B2 (en) Method and apparatus for audio signal expansion and compression
KR101610708B1 (ko) 음성 인식 장치 및 방법
JP2000250579A (ja) 音声認識装置及び同装置に使用される学習方法ならびに学習装置及び同方法がプログラムされ記録された記録媒体
JPH11202894A (ja) 雑音除去装置