JP2001356793A - 音声認識装置、及び音声認識方法 - Google Patents

音声認識装置、及び音声認識方法

Info

Publication number
JP2001356793A
JP2001356793A JP2000176895A JP2000176895A JP2001356793A JP 2001356793 A JP2001356793 A JP 2001356793A JP 2000176895 A JP2000176895 A JP 2000176895A JP 2000176895 A JP2000176895 A JP 2000176895A JP 2001356793 A JP2001356793 A JP 2001356793A
Authority
JP
Japan
Prior art keywords
feature amount
amount
differential
utterance speed
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000176895A
Other languages
English (en)
Other versions
JP4517457B2 (ja
Inventor
Shinichi Matsui
紳一 松井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Casio Computer Co Ltd
Original Assignee
Casio Computer Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Casio Computer Co Ltd filed Critical Casio Computer Co Ltd
Priority to JP2000176895A priority Critical patent/JP4517457B2/ja
Publication of JP2001356793A publication Critical patent/JP2001356793A/ja
Application granted granted Critical
Publication of JP4517457B2 publication Critical patent/JP4517457B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 本発明の課題は、発話速度に適応したモデル
を特別に用意しなくとも話者の発話速度に適応した音声
認識を可能とする音声認識装置、及び音声認識方法を提
供することである。 【解決手段】 特徴量調整部4は、平均微分量検出部3
において平均微分量として求められた入力音声について
の発話速度に反比例するように、微分特徴量検出部2に
よって求められた各フレームの微分特徴量を調整し、こ
の調整された微分特徴量で検出されている微分特徴量を
置き換え、比較部14において隠れマルコフモデル15
1〜15nに基づく確率計算により前記入力音声を認識
する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識装置、及
び音声認識方法に係り、詳細には不特定話者の音声認識
に好適な音声認識装置、及び音声認識方法に関する。
【0002】
【従来の技術】近年、音声認識の研究が盛んに行われ、
部分的には実用されている。その基本的手法はHMM
(Hidden Markov Model;隠れマルコフモデル)を利用
した統計手法によるものである。図6を参照してHMM
による音声認識の一般的な手法を説明する。まず、マイ
クから入力された音声はA/D変換部101で量子化さ
れた後、フレーム化部102によってフレーム(例えば
フレーム周波数10ms程度の所定処理単位長のタイム
スライス)に区切られ、このフレームを処理単位として
特徴量検出部103によって特徴量が計算される。この
特徴量は多くの場合、MFCC(Mel-Frequency Cepstr
um Coefficients;メル周波数ケプストラム係数)と呼
ばれる30次程度のベクトルが使用される。
【0003】一方、単語毎にHMMモデル1051〜1
05nがトレーニング等によって予め与えられている。
HMMモデルとは各単語を音素程度の比較的少ない複数
の状態で表し、単語毎に状態の遷移確率と、各状態から
入力されたベクトル(特徴量)を出力する確率と、をパ
ラメータとして与えたものである。単語HMMモデル1
051〜105nは音素毎にトレーニングされたHMM
モデルをその単語を音素に分解するときの順に結合する
ことによっても得ることができる。
【0004】単語HMMモデル1051〜105nと、
入力された音声から計算された特徴量である特徴ベクト
ル列とが比較部104に入力される。比較部104では
どのHMMモデルが最も高い確率で与えられた特徴ベク
トル列を出力するかを確率計算によって求める。例えば
“やま”のHMMモデルHMM(yama)で、入力音声の特
徴ベクトル列x(i)を評価する場合は、「モデルHMM
(yama)からその特徴ベクトル列x(i)が出力される
確率;シンボル(特徴ベクトル)発生確率」を計算す
る。比較部104は各単語HMMモデルについてシンボ
ル(特徴ベクトル)発生確率を計算し、その確率を最大
とするHMMモデルに対応する単語を音声認識結果とし
て出力する。
【0005】
【発明が解決しようとする課題】しかしながら、上述の
HMMモデルは多くの発話者に多くの語を発話させて求
めているため、平均的な発話速度でトレーニングされて
いる。そのため、平均よりも若干早口の発話者の音声や
若干遅く話す発話者の音声を認識する際も同一のHMM
モデルを使用することは、必ずしも最適なHMMモデル
を用いた音声認識を行っているとは言えず、認識率が低
下する原因となっていた。また、発話速度に応じたHM
Mモデルを別個に用意することは困難である。
【0006】本発明の課題は、発話速度に適応したモデ
ルを特別に用意しなくとも話者の発話速度に適応した音
声認識を可能とする音声認識装置、及び音声認識方法を
提供することである。
【0007】
【課題を解決するための手段】以上の課題を解決するた
め、請求項1記載の発明の音声認識装置は、入力音声に
ついて特徴量を検出する特徴量検出手段(例えば、図1
に示す特徴量検出部13)と、前記入力音声について発
話速度を検出する発話速度検出手段(例えば、図1に示
す平均微分量検出部3)と、この発話速度検出手段によ
って検出された発話速度に反比例するように、前記特徴
量検出手段によって検出された特徴量の時間軸方向の変
化量を調整する特徴量調整手段(例えば、図1に示す特
徴量調整部4)と、この特徴量調整手段によって調整さ
れた変化量を含む特徴量を用いて、隠れマルコフモデル
(例えば、図1に示すHMMモデル151〜15n)に
基づく確率計算を行うことにより前記入力音声を認識す
る認識手段(例えば、図1に示す比較部14)と、を備
えることを特徴としている。
【0008】また、請求項3記載の発明の音声認識方法
は、入力音声について特徴量を検出する特徴量検出工程
と、前記入力音声について発話速度を検出する発話速度
検出工程と、この発話速度検出工程において検出された
発話速度に反比例するように、前記特徴量検出工程にお
いて検出された特徴量の時間軸方向の変化量を調整する
特徴量調整工程と、この特徴量調整工程において調整さ
れた変化量を含む特徴量を用いて、隠れマルコフモデル
に基づく確率計算を行うことにより前記入力音声を認識
する認識工程と、を備えることを特徴としている。
【0009】この請求項1または3記載の発明によれ
ば、入力音声の発話速度に反比例するように、入力音声
についての特徴量の時間軸方向の変化量を調整し、この
調整された変化量を含む前記特徴量を用いて、隠れマル
コフモデルに基づく確率計算を行うことにより前記入力
音声を認識するので、発話速度を加味した隠れマルコフ
モデルを特別に用意しなくとも話者の発話速度に適応し
た音声認識を行うことが可能となり、音声認識率を向上
することができる。
【0010】また請求項2記載の発明のように、請求項
1記載の音声認識装置において、前記発話速度検出手段
は、前記特徴量の時間軸方向の変化量の平均を求めるこ
とにより発話速度を検出することが有効である。
【0011】この請求項2記載の発明によれば、前記特
徴量の時間軸方向の変化量の平均を求めることにより発
話速度を検出するので、任意の話者の発話速度を特定す
ることができ、様々な発話速度に適応した音声認識を行
うことができる。
【0012】
【発明の実施の形態】以下、図1〜図5を参照して本発
明に係る音声認識装置1の実施の形態を詳細に説明す
る。
【0013】まず構成を説明する。図1は音声認識装置
1の構成を示すブロック図である。図1に示すように、
音声認識装置1は、A/D変換部11、フレーム化部1
2、特徴量検出部13(特徴量検出手段)、比較部14
(認識手段)、複数の単語HMMモデル151,15
2,・・・15nを備える他、微分特徴量検出部2、平均
微分量検出部3(発話速度検出手段)、及び特徴量調整
部4(特徴量調整手段)を備える。
【0014】A/D変換部11は、マイクから入力され
たアナログ音声信号をA/D変換し、量子化音声信号と
してフレーム化部12に出力する。フレーム化部12
は、A/D変換部11から入力された量子化音声信号を
例えば8〜16ms程度のシフト間隔(フレーム周波
数)で所定の処理単位長(フレーム長;例えば、20〜
40ms)に区切る。この区切られた各音声区間をフレ
ームと呼ぶ。フレームは一部重複させるようにして切り
出すのが望ましい。特徴量検出部13はフレーム毎に特
徴量を検出する。特徴量は、例えばMFCC(Mel-Freq
uency Cepstrum Coefficients;メル周波数ケプストラ
ム係数)と呼ばれる30次程度の特徴ベクトル列を用い
る。
【0015】ここで、図2を参照してMFCCの検出工
程を説明する。まず入力された音声信号について平均値
を計算し、エンファシス(高域強調)を施してスペクト
ルの傾斜を平坦化する。そして、フレーム化部12にお
いてフレームを切り出す際、元の音声信号に時間窓を乗
じて重み付けする。例えば、時間窓としてハミング窓を
乗じることによってフレームの両端に急激な変化が起こ
らないようにしている。その後、特徴量検出部13は人
間の聴覚特性に適した特徴量を抽出するため、音の周波
数の高さに対して、対数的な特性(メル尺度)を示すよ
うな重みがかかるように、まずFFT(高速フーリエ変
換;Fast FourierTransform)を計算して周波数軸に変
換し(ステップS1)、メル尺度に変換する(ステップ
S2)。更に、対数変換して(ステップS3)、重み付
けし(ステップS4)、FFT(COS変換)した後
(ステップS5)、正規化する(ステップS6)。正規
化処理では、各特徴量の平均値はおよそ0になるように
正規化される。
【0016】以上の過程で求められたMFCCの出力デ
ィメンションはエネルギー(≧0)の対数である。これ
はMFCCに限らず、ほぼ全ての特徴量に共通といえ
る。以下、特徴量検出部13から出力される特徴量のデ
ィメンションはエネルギーの対数であるとして説明す
る。なお、特徴量はMFCCに限定されるものではなく
その他のものでもよい。また、特徴ベクトル列の次元も
任意である。ここではn次元とする。
【0017】微分特徴量検出部2は、特徴量検出部13
で検出された特徴量から、特徴量の時間軸方向の変化量
である微分特徴量を検出する。微分特徴量は隣り合うフ
レームの特徴量の差分から求められ、1回微分(特徴量
の変化量)または2回微分(特徴量の変化量の変化量)
を含む。一般に、特徴量検出部13において求められた
特徴量と微分特徴量検出部2において求められた微分特
徴量とを含む特徴量を用いて、後述する比較部14にお
ける確率計算が行われる。
【0018】平均微分量検出部3は、微分量検出部2に
おいて検出された微分特徴量の絶対値平均等を計算する
ことにより平均微分量を求め、この平均微分量を現在認
識対象とされている話者についての平均的な発話速度を
表すパラメータとする。なお、平均微分量検出部3にお
いて検出される平均微分量は一つの単語毎に変動させる
ものではなく、話者の平均的な発話速度が認識できるよ
うに、所定の音声区間、例えば10単語以上の音声区間
における各フレームの特徴量の差分(微分特徴量)の平
均をとるようにする。また発話速度の大きな変動は望ま
しくないので、極端に速い場合や遅い場合を平均微分量
の計算から外すようにリミッタを設けてもよい。
【0019】ここで、HMMモデル151〜15n及び
HMMモデル151〜15nを用いた音声認識について
図3〜図5を参照して説明する。図3は音声“yam
a”の状態遷移の様子を模式的に示す図であり、図4は
図3の一部を示す図である。また、図5は、シンボル
(特徴ベクトル)発生確率分布を表すグラフである。
【0020】図3に示すように、音声“yama”には
12個の状態があると仮定する。図中の円はそれぞれ状
態を示し、矢印は状態が遷移する方向を示している。そ
して図4に示すように、各状態A,B,Cにおいて、状
態A→状態A、状態B→状態B、状態C→状態Cのよう
に現在の状態を維持する(状態内遷移)確率をそれぞれ
p(a)、p(b)、p(c)とし、状態A→状態B、
状態B→状態C、状態C→状態Xのように異なる状態へ
遷移する(状態間遷移)確率をそれぞれq(a)、q
(b)、q(c)とする。ここで、 q(a)=1−p(a) q(b)=1−p(b) q(c)=1−p(c) であり、p(a)、p(b)、p(c)、q(a)、q
(b)、q(c)はトレーニングによって与えられてい
る。
【0021】また、各状態A,B,Cから特徴ベクトル
Xを発生する確率はprob(a,X)、prob(b,X)、prob
(c,X)で表され、それぞれトレーニングによって与え
られている。ここでは、確率prob(a,X)は状態内遷移
(状態A→状態A)と状態間遷移(状態A→状態B)と
で同一であるとする。prob(b,X)、prob(c,X)につ
いても同様とする。
【0022】各状態A,B,Cで、特徴ベクトルXを発
生する確率、すなわちシンボル発生確率の分布は図5に
示すように混合ガウス分布で表される。図5では簡単の
ためにベクトルを2次元としている。また、各次元は実
際は複数のガウス分布の混合であるが、図5では次式
(1)に示す1個のガウス分布を表すこととする。
【0023】 prob(v0,v1)=1/(2π*|V|1/2)*exp{−(v0,v1)V-1(v0,v1)Vt}・・・(1) V:共分散行列
【0024】一般に、ある状態から与えられた特徴ベク
トルが発生する確率はprob(状態,特徴ベクトル)で表さ
れる。ここで、probは状態毎に与えられたn次元混合分
布の確率密度である。
【0025】HMMモデルに基づいて音声認識を行う場
合は、与えられている各HMMモデルについて、その各
状態から入力音声の特徴ベクトルがいくつ発生するかを
確率(シンボル(特徴ベクトル)発生確率)計算によっ
て求められる。シンボル(特徴ベクトル)発生確率を求
めるためには、例えば、入力音声の特徴ベクトルがV1
〜V20の20個のベクトルである場合は、「20個の
ベクトルがどの状態でいくつ発生するか」を求めればよ
い。一例を挙げると、図4において、「V1、V2は状
態Aで発生して、V3は状態Aから状態Bへの遷移中に
発生し、V4〜V10は状態Bで発生して、V11は状
態Bから状態Cへの遷移中に発生し、V12〜V20は
状態Cで発生する」とした場合に求められる確率P1
は、次式(2)で表すことができる。
【0026】 P1=prob(a,V1)*prob(a,V2)*prob(a,V3)*prob(b,V4)*・・・*prob(b,V11)*prob(c, V12)*・・・*prob(c,V20)*(p(a)^2)*(1-p(a))*(p(b)^7)*(1-p(b))*(p(c)^9) ・・・ (2)
【0027】同様に20個のベクトルがどの状態でいく
つ発生するかの全ての場合について確率P1,P2,・・
・,Pmを計算する。それらの和ΣPmが「HMMモデ
ルが与えられた(入力された)特徴ベクトル列を発生す
る確率」となる。以上の確率計算は後述する比較部14
において行われる。
【0028】次に、HMMモデルと発話速度の関係を説
明する。特徴ベクトルの要素には隣接するフレームの特
徴ベクトルとの差分(または更にその差分)である微分
特徴量が含まれる。それらの微分特徴量は発話速度が速
い人は大きく、発話速度が遅い人は小さくなる。一方、
HMMモデル151〜15nは多くの発話者による発話
音声でトレーニングされているため、平均的な発話速度
となっている。この平均的な発話速度でトレーニングさ
れたHMMモデル151〜15nを利用して、発話速度
の遅い音声を正しく認識させるためには、微分特徴量を
大きくして、平均的な発話速度での微分特徴量に近づけ
て、確率計算に用いるようにすればよい。逆に、発話速
度の速い音声の場合は、微分特徴量を小さくして、平均
的な発話速度での微分特徴量に近づけて、確率計算に用
いるようにすればよい。
【0029】そこで、本実施の形態の音声認識装置1
は、微分特徴量検出部2で求められた各フレームの微分
特徴量を、平均微分量検出部3で求めた平均微分量(発
話速度)に応じて特徴量調整部4により調整し、検出さ
れている微分特徴量を調整した微分特徴量に置き換え
る。そして、調整後の微分特徴量を用いてその後の処理
(比較部14におけるHMMモデル151〜15nに基
づいた音声認識)を行う。ここで、各フレームの微分特
徴量は、平均微分量検出部3において検出した平均微分
量に反比例するように調整される。すなわち、「(微分
特徴量)×(平均微分量)=(定数)」となるように各
フレームの微分特徴量が調整される。このように微分特
徴量を調整することにより、発話速度が速い場合、すな
わち平均微分量が大きい場合は、微分特徴量が小さくな
るように調整され、逆に発話速度が遅い場合、すなわち
平均微分量が小さい場合は、微分特徴量が大きくなるよ
うに調整される。
【0030】比較部14は特徴量調整部4において微分
特徴量が調整された特徴ベクトルを用いて、平均的な発
話速度でトレーニングされた各HMMモデル151〜1
5nからのシンボル(特徴ベクトル)発生確率を計算
し、その確率が最も大きいHMMモデルを音声認識結果
として出力する。
【0031】次に動作を説明する。マイクから入力され
たアナログ音声信号はA/D変換部11において量子化
音声信号に変換され、フレーム化部12において時間軸
方向に複数のフレームに区切られる。各フレームの音声
信号は特徴量検出部13に入力されて、MFCC等の特
徴量(特徴ベクトル列)が検出される。次に、微分特徴
量検出部2においてこの特徴量の時間軸方向の変化量、
または変化量の変化量である微分特徴量が計算される。
微分特徴量は平均微分量検出部3に出力されるととも
に、特徴量調整部4に出力される。平均微分量検出部3
では例えば、10単語以上の音声区間にある複数のフレ
ームの各微分特徴量からその平均値である平均微分量、
すなわち発話速度を求める。求められた平均微分量は特
徴量調整部4に入力される。
【0032】特徴量調整部4は、平均微分量検出部3に
おいて求められた平均微分量に基づいて、「(微分特徴
量)×(平均微分量)=(定数)」となるように微分特
徴量検出部2から入力された各フレームの微分特徴量を
調整する。そして、検出されている微分特徴量を調整さ
れた微分特徴量で置き換え、その後、比較部14では微
分特徴量が調整された特徴ベクトルにて、通常の平均的
な速度でトレーニングされているHMMモデル151〜
15nからのシンボル(特徴ベクトル)発生確率を求
め、その確率が最大となるHMMモデルに対応する単語
を音声認識結果として出力する。
【0033】以上説明したように、本実施の形態の音声
認識装置1は話者の発話速度を平均微分量として求め、
発話速度に反比例するように微分特徴量を調整し、微分
特徴量が調整された特徴ベクトルを用いて各HMMモデ
ル151〜15nについてシンボル(特徴ベクトル)発
生確率を計算し、その確率が最大となるHMMモデルに
対応する単語を音声認識結果とする。
【0034】従って、発話速度が速い場合、すなわち平
均微分量が大きい場合は、微分特徴量が小さくなるよう
に調整され、逆に発話速度が遅い場合、すなわち平均微
分量が小さい場合は、微分特徴量が大きくなるように調
整されるので、平均的な速さのHMMモデルに適合した
微分特徴量に調整することができ、発話速度に対応した
HMMモデルを特別に用意しなくとも、発話速度に適応
した音声認識を行うことが可能となり、音声認識率を向
上することができる。
【0035】なお、本実施の形態において、所定の音声
区間における複数のフレームの微分特徴量から平均微分
量を求め、この平均微分量に反比例するように適切な微
分特徴量を計算により調整する例を示したが、特徴量の
調整の仕方はこれに限定されるものではなく、例えば、
テーブルによって話者の発話速度に応じた微分特徴量を
決定するようにしてもよい。この場合においても、テー
ブルに設定される微分特徴量は、上述のHMMモデルと
発話速度の関係を利用し、平均微分量に反比例するよう
に設定されているものとする。
【0036】
【発明の効果】請求項1及び請求項3記載の発明によれ
ば、入力音声の発話速度に反比例するように、入力音声
についての特徴量の時間軸方向の変化量を調整し、この
調整された変化量を含む前記特徴量を用いて、隠れマル
コフモデルに基づく確率計算を行うことにより前記入力
音声を認識するので、発話速度を加味した隠れマルコフ
モデルを特別に用意しなくとも話者の発話速度に適応し
た音声認識を行うことが可能となり、音声認識率を向上
することができる。
【0037】請求項2記載の発明によれば、前記特徴量
の時間軸方向の変化量の平均を求めることにより発話速
度を検出するので、任意の話者の発話速度を特定するこ
とができ、様々な発話速度に適応した音声認識を行うこ
とができる。
【図面の簡単な説明】
【図1】音声認識装置1の構成を示すブロック図であ
る。
【図2】特徴量(MFCC)の検出工程を示す図であ
る。
【図3】音声“yama”の状態遷移の様子を模式的に
示す図である。
【図4】図3の一部を示す図である。
【図5】特徴ベクトルの発生確率分布を示すグラフであ
る。
【図6】HMMによる音声認識の従来の手法を説明する
図である。
【符号の説明】
1 音声認識装置 2 微分特徴量検出部 3 平均微分量検出部 4 特徴量調整部 11 A/D変換部 12 フレーム化部 13 特徴量検出部 14 比較部 151〜15n 単語HMM

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】入力音声について特徴量を検出する特徴量
    検出手段と、 前記入力音声について発話速度を検出する発話速度検出
    手段と、 この発話速度検出手段によって検出された発話速度に反
    比例するように、前記特徴量検出手段によって検出され
    た特徴量の時間軸方向の変化量を調整する特徴量調整手
    段と、 この特徴量調整手段によって調整された変化量を含む特
    徴量を用いて、隠れマルコフモデルに基づく確率計算を
    行うことにより前記入力音声を認識する認識手段と、 を備えることを特徴とする音声認識装置。
  2. 【請求項2】前記発話速度検出手段は、前記特徴量の時
    間軸方向の変化量の平均を求めることにより発話速度を
    検出することを特徴とする請求項1記載の音声認識装
    置。
  3. 【請求項3】入力音声について特徴量を検出する特徴量
    検出工程と、 前記入力音声について発話速度を検出する発話速度検出
    工程と、 この発話速度検出工程において検出された発話速度に反
    比例するように、前記特徴量検出工程において検出され
    た特徴量の時間軸方向の変化量を調整する特徴量調整工
    程と、 この特徴量調整工程において調整された変化量を含む特
    徴量を用いて、隠れマルコフモデルに基づく確率計算を
    行うことにより前記入力音声を認識する認識工程と、 を備えることを特徴とする音声認識方法。
JP2000176895A 2000-06-13 2000-06-13 音声認識装置、及び音声認識方法 Expired - Fee Related JP4517457B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000176895A JP4517457B2 (ja) 2000-06-13 2000-06-13 音声認識装置、及び音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000176895A JP4517457B2 (ja) 2000-06-13 2000-06-13 音声認識装置、及び音声認識方法

Publications (2)

Publication Number Publication Date
JP2001356793A true JP2001356793A (ja) 2001-12-26
JP4517457B2 JP4517457B2 (ja) 2010-08-04

Family

ID=18678559

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000176895A Expired - Fee Related JP4517457B2 (ja) 2000-06-13 2000-06-13 音声認識装置、及び音声認識方法

Country Status (1)

Country Link
JP (1) JP4517457B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008209548A (ja) * 2007-02-26 2008-09-11 National Institute Of Advanced Industrial & Technology 音高推定装置、音高推定方法およびプログラム
US7433820B2 (en) 2004-05-12 2008-10-07 International Business Machines Corporation Asynchronous Hidden Markov Model method and system
US7894637B2 (en) 2004-05-21 2011-02-22 Asahi Kasei Corporation Device, program, and method for classifying behavior content of an object person
JP2011118290A (ja) * 2009-12-07 2011-06-16 Yamaha Corp 音声認識装置
JP6386690B1 (ja) * 2018-06-27 2018-09-05 株式会社アセンド 音声データ最適化システム
JP6389348B1 (ja) * 2018-03-23 2018-09-12 株式会社アセンド 音声データ最適化システム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0830294A (ja) * 1994-07-15 1996-02-02 N T T Data Tsushin Kk 音声認識装置及び方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0830294A (ja) * 1994-07-15 1996-02-02 N T T Data Tsushin Kk 音声認識装置及び方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7433820B2 (en) 2004-05-12 2008-10-07 International Business Machines Corporation Asynchronous Hidden Markov Model method and system
US7894637B2 (en) 2004-05-21 2011-02-22 Asahi Kasei Corporation Device, program, and method for classifying behavior content of an object person
JP2008209548A (ja) * 2007-02-26 2008-09-11 National Institute Of Advanced Industrial & Technology 音高推定装置、音高推定方法およびプログラム
JP4630983B2 (ja) * 2007-02-26 2011-02-09 独立行政法人産業技術総合研究所 音高推定装置、音高推定方法およびプログラム
JP2011118290A (ja) * 2009-12-07 2011-06-16 Yamaha Corp 音声認識装置
JP6389348B1 (ja) * 2018-03-23 2018-09-12 株式会社アセンド 音声データ最適化システム
JP2019168604A (ja) * 2018-03-23 2019-10-03 株式会社アセンド 音声データ最適化システム
JP6386690B1 (ja) * 2018-06-27 2018-09-05 株式会社アセンド 音声データ最適化システム
JP2019168668A (ja) * 2018-06-27 2019-10-03 株式会社アセンド 音声データ最適化システム

Also Published As

Publication number Publication date
JP4517457B2 (ja) 2010-08-04

Similar Documents

Publication Publication Date Title
JP4169921B2 (ja) 音声認識システム
EP2363852B1 (en) Computer-based method and system of assessing intelligibility of speech represented by a speech signal
US20050143997A1 (en) Method and apparatus using spectral addition for speaker recognition
JPH075892A (ja) 音声認識方法
US8666737B2 (en) Noise power estimation system, noise power estimating method, speech recognition system and speech recognizing method
Richardson et al. Improvements on speech recognition for fast talkers
US20070150263A1 (en) Speech modeling and enhancement based on magnitude-normalized spectra
Hazrati et al. Leveraging automatic speech recognition in cochlear implants for improved speech intelligibility under reverberation
JP2003532162A (ja) 雑音に影響された音声の認識のためのロバストなパラメータ
JP2012168296A (ja) 音声による抑圧状態検出装置およびプログラム
JP4858663B2 (ja) 音声認識方法及び音声認識装置
JP4517457B2 (ja) 音声認識装置、及び音声認識方法
JP4461557B2 (ja) 音声認識方法および音声認識装置
Shinozaki et al. Hidden mode HMM using bayesian network for modeling speaking rate fluctuation
JP3046029B2 (ja) 音声認識システムに使用されるテンプレートに雑音を選択的に付加するための装置及び方法
JPS60114900A (ja) 有音・無音判定法
Heese et al. Speech-codebook based soft voice activity detection
Rehr et al. Normalized features for improving the generalization of DNN based speech enhancement
JP4560899B2 (ja) 音声認識装置、及び音声認識方法
Heracleous et al. Fusion of standard and alternative acoustic sensors for robust automatic speech recognition
Zhao Control system and speech recognition of exhibition hall digital media based on computer technology
Kupryjanow et al. A non-uniform real-time speech time-scale stretching method
Ban et al. Speaking rate dependent multiple acoustic models using continuous frame rate normalization
Zhang et al. Recognition of Score Word in Freestyle Kayaking
KR20040073145A (ko) 음성인식기의 성능 향상 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070405

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100427

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100510

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130528

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130528

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees