JP2005043666A - 音声認識装置 - Google Patents
音声認識装置 Download PDFInfo
- Publication number
- JP2005043666A JP2005043666A JP2003277661A JP2003277661A JP2005043666A JP 2005043666 A JP2005043666 A JP 2005043666A JP 2003277661 A JP2003277661 A JP 2003277661A JP 2003277661 A JP2003277661 A JP 2003277661A JP 2005043666 A JP2005043666 A JP 2005043666A
- Authority
- JP
- Japan
- Prior art keywords
- feature
- standard pattern
- pattern data
- time width
- extraction processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000605 extraction Methods 0.000 claims abstract description 127
- 230000005236 sound signal Effects 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 abstract description 12
- 230000002708 enhancing effect Effects 0.000 abstract 1
- 239000000284 extract Substances 0.000 abstract 1
- 230000037433 frameshift Effects 0.000 description 35
- 238000010586 diagram Methods 0.000 description 20
- 238000000034 method Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 6
- 238000001514 detection method Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/148—Duration modelling in HMMs, e.g. semi HMM, segmental models or transition probabilities
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
【課題】 各音韻の認識率を向上することが可能な特徴パラメータの計算方法を用いた音声認識装置を提供する。
【解決手段】 音声認識装置10において、特徴抽出部302は、入力音声信号301に対して、各々が所定時間長を有する時間窓に対応する複数のフレームを、順次増加する時間幅でスライドさせることにより、特徴パラメータの抽出を行う。単語辞書データベース304は、入力音声の音韻パターンにそれぞれ対応づけて標準パターンデータを格納する。認識処理部303は、特徴抽出部302で抽出された特徴パラメータと標準パターンデータを照合することで、対応する音韻を認識し、認識結果を出力する。
【選択図】 図3
【解決手段】 音声認識装置10において、特徴抽出部302は、入力音声信号301に対して、各々が所定時間長を有する時間窓に対応する複数のフレームを、順次増加する時間幅でスライドさせることにより、特徴パラメータの抽出を行う。単語辞書データベース304は、入力音声の音韻パターンにそれぞれ対応づけて標準パターンデータを格納する。認識処理部303は、特徴抽出部302で抽出された特徴パラメータと標準パターンデータを照合することで、対応する音韻を認識し、認識結果を出力する。
【選択図】 図3
Description
本発明は、音韻単位の認識に基づく音声認織装置の構成に関するものである。
従来、音声認識装置における音声認識は、そのほとんどが音声を特徴量の時系列に変換し、その時系列をあらかじめもっている標準パターンの時系列と比較して認識を行うことにより実行されている。
たとえば、特開2001−356790号公報では、人の音声を機械に認識させる音声認識装置において、特徴量抽出部が、分析対象音声から、所定の周期毎に設定された一定長の複数の時間窓から音声特徴量を抽出する技術が開示されている。この技術では、音声の周波数に関する周波数軸系特徴パラメータと、音声の振幅に関するパワー系特徴パラメータとを、それぞれ異なる周期で抽出する。
また、特開平5−303391号公報では、特徴パラメータを計算するための単位時間(フレーム)を複数個用意する、あるいは各音韻毎に用意し、各フレーム長毎に特徴パラメータ時系列を計算し、そのそれぞれに対して音韻照合を行い、最適なものを選ぶ技術が開示されている。
特開2001−356790号公報明細書
特開平5−303391号公報明細書
ただし、上述したような、一定長の複数の時間窓を一定時間ごとにずらしながら音声を特徴量の時系列に変換するという方法では、音韻の長さに応じて、抽出される特徴パラメータの数が異なってしまう。その結果、この特徴パラメータの数が、認識率に影響を与えてしまうという問題があった。
本発明は、上記のような問題を解決するためになされたものであって、その目的は、各音韻の認識率を向上することが可能な特徴パラメータの計算方法を用いた音声認識装置を提供することである。
このような目的を達成するために、本発明の音声認識装置は、入力音声信号に対して、各々が所定時間長を有する時間窓に対応する複数のフレームを、少なくとも異なる時間幅でスライドさせることにより、特徴パラメータの抽出を行う特徴抽出手段と、入力音声の音韻パターンにそれぞれ対応づけて標準パターンデータを格納するための記憶手段と、特徴抽出手段で抽出された特徴パラメータと標準パターンデータを照合することで、対応する音韻を認識し、認識結果を出力するための認識手段とを備える。
本発明の音声認識装置では、音韻の平均継続時間長が長い場合でも、あるいは、短い場合でも、処理負荷を低減しつつ、各音韻の認識率を向上することが可能である。
以下、図面を参照して本発明の実施の形態について説明する。
(本発明の構成の説明の前提)
以下では、まず、本発明の音声認識装置の構成を説明する前提として、一般的な音声認識装置10の構成および動作について、予め説明しておく。
以下では、まず、本発明の音声認識装置の構成を説明する前提として、一般的な音声認識装置10の構成および動作について、予め説明しておく。
図1は、このような音声認識装置10の構成を説明するための機能ブロック図である。
図1を参照して、特徴検出部102は、入力として与えられた入力音声101に対して、LPCケプストラム係数(数十ミリ秒の音声切り出し単位であるフレームごとの対数パワースペクトル包絡のフーリエ変換)等の特徴パラメータを計算する。すなわち、特徴検出部102は、特徴量を計算する場合、通常数ミリ秒から数十ミリ秒を単位時間(フレーム)とし、1フレームの時間内では特徴量すなわち音声の波の構造は定常状態にあると近似して、特徴パラメータを計算する。そして、フレームをある時間だけずらして(これをフレームシフトという)、ふたたび特徴パラメータを計算する。これを繰り返すことによって特徴パラメータの時系列が得られる。
認識部103は、このようにして得られた特徴パラメータの時系列を、記憶装置に格納された単語辞書データベース(単語辞書DB)104内の標準パターンと比較し、類似度を計算することによって、認識結果105を出力する。
図2は、図1に示した特徴検出部102におけるフレームシフトを説明するための概念図である。
図2に示すように、音声認識装置10の特徴検出部102では、フレームシフトの時間幅D201は、一定である。このため、音韻の継続時間の長い単語と、短い単語で、特徴パラメータの数が異なることになる。したがって、音韻の長い単語は、認識率が良く、音韻の短い単語は、認識率が音韻の長い単語に比べて悪いという傾向が生じうる。
本発明においては、以下に説明するように、フレームシフトの時間幅を可変にして、特徴パラメータを計算することで、音韻の解析を左右するとされる箇所に重点をおいて、音韻の長い単語と、音韻の短い単語とで、特徴パラメータの生成数を同数とするように特徴量の抽出を行う。
[実施の形態1]
以下、本発明の実施の形態1の音声認識装置100の構成および動作について説明する。
以下、本発明の実施の形態1の音声認識装置100の構成および動作について説明する。
図3は、音声認識装置100の構成を説明するための機能ブロック図である。
図3に示した音声認識装置100の構成は、基本的には、図1に示した音声認識装置10の構成と同様である。
ただし、以下に説明するとおり、まず、発話者の音声がデジタル化されたものである入力音声301を受ける特徴抽出部302において、特徴パラメータ計算部3021は、フレームシフトの間隔を音韻の語頭のフレーム間隔ほど密にし、語尾に向けて順次フレーム間隔を粗くすることで、特徴パラメータを計算する。さらに、このようにして計算された特徴パラメータの時系列を受けて認識処理部303が認識処理を行うにあたり、参照する単語辞書データベース304が、このような可変なフレーム間隔に対応するように、以下に説明するとおり、所定の規則で変化するフレーム間隔に応じた標準パターンを予め格納する構成となっている。認識処理部303は、このような単語辞書データベース304を参照して、特徴パラメータの時系列との照合を行って解析することにより、認識結果305を出力する。
以下、音声認識装置100の動作についてさらに詳しく説明する。
音韻認織をおこなう場合、それぞれの音韻の平均継続時間長が重要である。音韻の特徴は、大きく語頭、話中、語尾の3つに分けられる。発音記号の/t/や/r/で表される子音は、語頭・話中・語尾の平均継続時間長は15ミリ秒程度しかないのに対し、母音の方はそれぞれ100ミリ砂を越える平均時間長をもつ。このように継続時間長に大きなばらつきがある様々な音素を認識するにあたり、単語の先頭データの重要度が特に高い。このため、本発明では、フレームシフトの時間幅を、以下に説明する所定の規則に基づいて変化させる。
図4は、音声認識装置100の特徴パラメータ計算部3021のフレームシフト動作を説明するための概念図である。
例えば、図4においては、サンプリング周波数20キロヘルツで16ビットで量子化された入力音声301から、特徴パラメータ計算部3021において、特徴パラメータを計算するものとする。
特徴パラメータ計算部3021は、時間窓である固定のフレーム長Lを、入力音声の先頭から、終わりまで、順次長くなっていく時間幅D301〜D30n(例:D301<D302<D303<…<D30n、n:自然数)でシフトし、
それぞれ特徴パラメータ時系列S1〜Snを生成する。
それぞれ特徴パラメータ時系列S1〜Snを生成する。
ここで、特に限定されないが、たとえば、時間幅D301〜D30nを順次長くしていくにあたっては、たとえば、先頭のフレームから次のフレームまでの時間間隔D301を基準として、所定の割合で等比級数的に以後の時間間隔D302〜D30nを順次長くしていくことや、所定の間隔で等差級数的に以後の時間間隔D302〜D30nを順次長くしていくことが可能である。もちろん、より一般的に、時間に対して単調に増加する関数にしたがって、時間間隔D302〜D30nを順次長くしていくことも可能である。
まず、この入力音声301の先頭からフレーム長L分のデータに注目し、この中のデータを定常状態にあるとみなして特徴パラメータを計算する。たとえば、12次の線形予測係数LPC(Linear Predictive Coding)から16次のLPCケプストラム係数を計算して16次元の特徴ベクトルとする。次にフレームを時間幅D30i(i=1〜n)でシフトさせ、同様に特徴ベクトルを計算する。この換作を音声入力301の終わりまでくりかえすことによって、固定のフレーム長Lを用いて計算した特徴パラメータ時系列Snが得られる。
特徴パラメータ計算部3021からの特徴パラメータの出力に対しては、認識処理部303において、フレームごとに、単語辞書データベース304とのパラメータ比較が行われる。全フレームの比較が行われ、単語辞書データベース304に登録されたモデルのうちで、しきい値を満たす最も適するものが、認織結果305として出力される。
このとき、単語辞書データベース304へ格納するデータとしては、予め個々の音韻モデルに関して、フレーム長Lにおいて時間幅D301〜D30nでフレームシフトして計算した特徴パラメータを用いて、標準パターンを作成しておく。このような標準パターンは、あらかじめ発話内容と音韻の区間が既知の音声データベースを用い、計算した特徴パラメータ時系列を、個別の隠れマルコフモデル(HMM:Hidden Markov Model)P01を用意してトレーニングすることによって作成される。こうして、得られた音韻数M(M:所定の自然数)の隠れマルコフモデルにより、単語辞書データベース104が構成される。
認識処理部304では、音韻認識を行うにあたり、すべての音韻の存在位置・存在確率を調べ、存在位置が重なっているものに関しては存在確率の大きなもののみを残す。こうして得られた音韻列を認識結果105として出力するものとする。
以上のような構成を有する音声認識装置100により、フレームシフトの時間幅を固定した場合の音韻欝識率と比較して、音韻の語頭に対する特徴パラメータの重み付けを大きくすることで、認識率を向上させることが可能となる。
[実施の形態2]
図5は、実施の形態2の音声認識装置200の構成を説明するための機能ブロック図である。
図5は、実施の形態2の音声認識装置200の構成を説明するための機能ブロック図である。
なお、以下では、図2に示したように、時間窓であるフレーム間の間隔を固定して、特徴パラメータを抽出する処理手順を「固定フレーム間隔抽出処理」と呼ぶこととする。
図5に示した音声認識装置200は、デジタル化された入力音声401に対して、第1の時間間隔での固定フレーム間隔抽出処理を行う第1の特徴パラメータ計算部を有する第1の特徴抽出部402と、第2の時間間隔での固定フレーム間隔抽出処理を行う第2の特徴パラメータ計算部を有する第2の特徴抽出部403とを備える。
第1の特徴抽出部402および第2の特徴抽出部403にて、それぞれ第1の特徴パラメータ時系列S01〜S0nおよび第2の特徴パラメータ時系列S11〜S1nを計算する。
また、音声認識装置200は、予め第1の時間間隔での固定フレーム間隔抽出処理に対応した音韻モデルが登録された第1の単語辞書データベース4022と、予め第2の時間間隔での固定フレーム間隔抽出処理に対応した第2の単語辞書データベース4032と、第1の特徴抽出部402で計算された特徴パラメータのそれぞれを第1の単語辞書データベース4022内のデータと比較して音韻を認識するための第1の認識処理部4021と、第2の特徴抽出部403で計算された特徴パラメータのそれぞれを第2の単語辞書データベース4032内のデータと比較して音韻を認識するための第2の認識処理部4031と、さらに、第1および第2の認識処理部4021,4031の認識結果を、その適合度に応じて選択し、認識結果405を得るための結果選択部404とを備える。
以下、音声認識装置200の動作について、さらに詳しく説明する。
まず、入力音声401の先頭からフレーム長L分のデータに注目し、この中のデータを定常状態にあるとみなして、第1の特徴抽出部402および第2の特徴抽出部403にて、特徴パラメータを計算する。
音声認識装置200では、第1の特徴抽出部402において、たとえば、12次の線形予測係数LPCから16次のLPCケプストラム係数を計算して16次元の特徴ベクトルとする。同様に、第2の特徴抽出部403においても、12次の線形予測係数LPCから16次のLPCケプストラム係数を計算して16次元の特徴ベクトルとする。
その結果、第1の特徴抽出部402および第2の特徴抽出部403のそれぞれにおいて、第1の特徴パラメータS01、第2の特徴パラメータS11が得られる。この操作以降、入力音声401の信号の終わりまで、第1の特徴抽出部402では、固定時間幅D201でフレームシフトを繰り返し計算した第1の特徴パラメータS0nを出力し、第2の特徴抽出部403では、固定時間幅D2011(<D201)でフレームシフトを繰り返し計算した第2の特徴パラメータS1nを出力する。
一方、あらかじめ個々の音韻モデルに関して、フレーム長Lから計算した特徴パラメータを用いて、第1の標準パターンを作成しておく。この第1の標準パターンは、あらかじめ発話内容と音韻の区間が既知の音声データベースを用いて計算した特徴パラメータ時系列(ここで、この特徴パラメータ時系列は、フレームシフトの時間幅をD201にして、作成したものである)を、個別の隠れマルコフモデル(HMM)P01を用意してトレーニングすることによって作成しておくものとする。こうして得られた音韻数Mの隠れマルコフモデルにより、第1の単語辞書データベース4022が構成される。
また、第2の標準パターンも同様に、あらかじめフレーム長Lから計算した特徴パラメータを用いて、作成しておく。この第2の標準パターンは、あらかじめ発話内容と音韻の区間が既知の音声データベースを用い、計算した特徴パラメータ時系列(ここで、この特徴パラメータ時系列は、フレームシフトの時間幅をD2011にして、作成したものである)を、個別の隠れマルコフモデル(HMM)P11を用意してトレーニングすることによって作成しておくものとする。こうして得られた音韻数Mの隠れマルコフモデルにより、第2の単語辞書データベース4032が構成される。
第1の認識処理部4021においては、入力音声の先頭のフレームから順に各音韻毎に特徴パラメータ時系列S01は標準パターンP01を用い、特徴パラメータ時系列S02には標準パターンP02を用いて照合を行ない、以下同様にして、特徴パラメータ時系列S0nには標準パターンP0nを用いて音韻照合を行い、存在位置および存在確率の重なるものを出力する。
同様に、第2の認識処理部4031においては、入力音声の先頭のフレームから順に各音韻毎に特徴パラメータ時系列S11は標準パターンP11を用い、特徴パラメータ時系列S12には標準パターンP12を用いて照合を行ない、以下同様にして、特徴パラメータ時系列S1nには標準パターンP1nを用いて音韻照合を行い、存在位置および存在確率の重なるものを出力する。
結果選択部404では、第1の認識処理部4021および第2の認識処理部4031から出力されたすべての音韻の存在位置・存在権率を調べ、存在位置が重なっているものに関しては存在確率の大きなもののみを残す。結果選択部404は、こうして得られた音韻列を認識結果405として出力する。
以上説明したような音声認識装置200の構成により、フレーム間の時間間隔を固定した場合の音韻認識率と比較して、異なったフレーム間の時間間隔で抽出された特徴パラメータを用いて、より存在確率の高い方が選択されるので、認識率を向上することができる。
[実施の形態3]
以下では、図4で説明したように、時間窓であるフレーム間の間隔を順次長くしながら、特徴パラメータを抽出する処理手順を「可変フレーム間隔抽出処理」と呼ぶこととする。
以下では、図4で説明したように、時間窓であるフレーム間の間隔を順次長くしながら、特徴パラメータを抽出する処理手順を「可変フレーム間隔抽出処理」と呼ぶこととする。
実施の形態2では、第1の特徴抽出部402と第2の特徴抽出部403との双方が、固定フレーム間隔抽出処理を行なうものとした。
これに対して、本発明の実施の形態3の音声認識装置の基本的な構成は、実施の形態2の音声認識装200の構成と同様である。
ただし、実施の形態3の音声認識装置では、第2の特徴抽出部403は、可変フレーム間隔抽出処理を行なうものとする。
すなわち、第2の特徴抽出部403は、図4で説明したようにフレームシフトの時間幅D30i(i:自然数、D301<D302<D303<…)を順次長くしながら可変にし、特徴パラメータをそれぞれにおいて計算する。
また、第2の単語辞書データベース4032には、フレームシフトの時間幅をD30i(i:自然数、D301<D302<D303<…)にして計算した特徴パラメータを用いて、標準パターンを作成しておくものとする。
実施の形態3の音声認識装置のその他の構成は、実施の形態2の音声認識装置200の構成と同様であるので、その説明は繰り返さない。
このような実施の形態3の音声認識装置の構成により、音声認識装置200の奏する効果に加え、音韻の平均継続時間長が長い場合は、固定フレーム間隔抽出処理で有効に対処することが可能であり、一方、音韻の平均継続時間長が短い場合は、可変フレーム間隔抽出処理で有効に対処することが可能であるので、処理負荷を低減できる。
[実施の形態4]
図6は、実施の形態4の音声認識装置300の構成を説明するための機能ブロック図である。
図6は、実施の形態4の音声認識装置300の構成を説明するための機能ブロック図である。
図6に示した音声認識装置300は、デジタル化された入力音声501に対して、第1の時間間隔での固定フレーム間隔抽出処理を行う第1の特徴パラメータ計算部を有する第1の特徴抽出部502と、第2の時間間隔での固定フレーム間隔抽出処理を行う第2の特徴パラメータ計算部を有する第2の特徴抽出部503とを備える。
さらに、音声認識装置300は、後に説明する制御信号51を入力とするインバータ511と、制御信号51およびインバータ511の出力信号50に応じて、入力音声501を、第1の特徴抽出部502または第2の特徴抽出部503に選択的に与えるための入力選択部510を備える。
入力選択部510は、入力音声501および制御信号51を入力に受け、出力を第1の特徴抽出部502に与えるAND回路512と、入力音声501およびインバータ511の出力信号50を入力に受け、出力を第2の特徴抽出部503に与えるAND回路513とを備える。
第1の特徴抽出部502および第2の特徴抽出部503にて、それぞれ第1の特徴パラメータ時系列S01〜S0nおよび第2の特徴パラメータ時系列S11〜S1nを計算する。
また、音声認識装置300は、予め第1の時間間隔での固定フレーム間隔抽出処理に対応した音韻モデルが登録された第1の単語辞書データベース5022と、予め第2の時間間隔での固定フレーム間隔抽出処理に対応した第2の単語辞書データベース5032と、第1の特徴抽出部502で計算された特徴パラメータのそれぞれを第1の単語辞書データベース5022内のデータと比較して音韻を認識するための第1の認識処理部5021と、第2の特徴抽出部503で計算された特徴パラメータのそれぞれを第2の単語辞書データベース5032内のデータと比較して音韻を認識するための第2の認識処理部5031と、さらに、第1および第2の認識処理部5021,5031の認識結果を、以下に説明する手順にしたがって選択し、認識結果505を得るための結果選択部504とを備える。
結果選択部504は、第1の認識処理部5021の出力および制御信号51を入力に受け、認識結果505を出力するAND回路514と、第2の認識処理部5031の出力および出力信号50を入力に受け、認識結果505を出力するAND回路515とを備える。
以下、音声認識装置300の動作について説明する。
まず、入力音声501の先頭からフレーム長L分のデータに注目し、この中のデータを定常状態にあるとみなし、制御信号51に応じて第1の特徴抽出部502、あるいは第2の特徴抽出部503において特徴パラメータを計算する。
ここで、制御信号51は、第1の認識処理部5021における認識処理で、認識結果を得るために設定したしきい値を満たす場合は、第1の特徴抽出部502に音声を入力し、第1の認識処理部5021ではしきい値を満たさない場合には、第2の特徴抽出部503に音声を入力するように変化するものとする。
例えば、入力音声501が、登録単語のいくつかと、語頭は同じであるが、語尾になると異なるような場合、第1の特徴抽出部502および第1の認識処理部5021からなる第1の処理系で、語頭から語尾にかけてフレームごとに認識処理を行うにつれて、次第にしきい値を満たさなくなっていくことが起り得る。
このとき、第1の認識処理部5021は、制御フラグを制御信号51として返し、そのフラグによって、第2の特徴抽出部503および第2の認識処理部5031からなる第2の処理系に認識処理を切り替え、シフト時間幅を変化させて認識処理を行うものとする。
実施の形態4では、上述した第2の処理系でフレームシフトの時間幅が、第1の処理系でのフレームシフトの時間幅よりも短いものであることとして、以下説明する。
実施の形態4において、第1の特徴抽出部502および第2の特徴抽出部503においては、12次の線形予測係数LPCから16次のLPCケプストラム係数を計算して16次元の特徴ベクトルとするものとする。
その結果、第1の特徴抽出部502および第2の特徴抽出部503のそれぞれにおいて、第1の特徴パラメータS01、第2の特徴パラメータS11が得られる。この操作以降、入力信号の終わりまで、第1の特徴抽出部502では、一定値に固定した時間幅D201でフレームシフトを繰り返し、計算した第1の特徴パラメータS0nを出力し、第2の特徴抽出部503では、固定時間幅D2011(<D201)でフレームシフトを繰り返し計算した第2の特徴パラメータS1nを出力する。
また、第1および第2の単語辞書データベース5022および5032には、実施の形態2と同様にして、フレームシフトの時間幅をD201にして作成した特徴パラメータ時系列およびフレームシフトの時間幅をD2011にして作成した特徴パラメータ時系列のそれぞれに対応した、各音韻モデルに対する隠れマルコフモデルによる第1および第2の標準パターンが格納されているものとする。
第1の認識処理部5021においては、入力音声の先頭のフレームから順にフレーム毎に、特徴パラメータ時系列S01には標準パターンP01を用い、特徴パラメータ時系列S02には標準パターンP02を用いる。以下同様に、第1の認識処理部5021は、特徴パラメータ時系列S0xには標準パターンP0x(x:自然数)を用い、存在位置、存在確率の重なり、設定するしきい値を満たすものを出力する。この処理を繰り返す中で、設定したしきい値を満たさなければ、第1の認識処理部5021は、切り替え信号を生成して制御倍号51を反転させ、第2の特徴抽出部503の出力を用いて、第2の認識処理部5031において音韻照合を行なうように処理を切替える。すなわち、以後、第2の認識処理部5031は、同様に、フレーム毎に特徴パラメータ時系列S1(x+1)には標準パターンP1(x+1)を用い、特徴パラメータ時系列S1(x+2)には標準パターンP1(x+2)を用い、以下同様にして、特徴パラメータ時系列S1nには標準パターンP1nを用いて音韻照合を行い、存在位置、存在確率の重なるものを出力する。
そして、結果選択部504は、第1または第2の処理系の結果から得られた音韻列を最終的な認識結果505として出力する。
以上説明したような実施の形態4の音声認識装置300の構成により、フレームの時間幅を単一に固定した場合の音韻認識率と比較して、認識率を向上させることが可能である。
なお、もう一つの効果として、例えば、図示しないもう一つ別の処理系があり、その処理系は特定のものとは限定しないが、その図示しない処理系が処理中であるということを示す信号を生成できるものとし、その生成信号を制御信号51として使用することも可能である。その場合、本音声信号処理装置300を含むシステムにおいて、CPU(Central Processing Unit)などの処理負荷を低減できる。
[実施の形態5]
実施の形態4では、第1の特徴抽出部502と第2の特徴抽出部503との双方が、固定フレーム間隔抽出処理を行なうものとした。
実施の形態4では、第1の特徴抽出部502と第2の特徴抽出部503との双方が、固定フレーム間隔抽出処理を行なうものとした。
これに対して、本発明の実施の形態5の音声認識装置の基本的な構成は、実施の形態4の音声認識装300の構成と同様である。
ただし、実施の形態5の音声認識装置では、第2の特徴抽出部503は、可変フレーム間隔抽出処理を行なうものとする。
すなわち、第2の特徴抽出部503は、図4で説明したようにフレームシフトの時間幅D30i(i:自然数、D301<D302<D303<…)を順次長くしながら可変にし、特徴パラメータをそれぞれにおいて計算する。
また、第2の単語辞書データベース5032には、フレームシフトの時間幅をD30i(i:自然数、D301<D302<D303<…)にして計算した特徴パラメータを用いて、標準パターンを作成しておくものとする。
実施の形態5の音声認識装置のその他の構成は、実施の形態4の音声認識装300の構成と同様であるので、その説明は繰り返さない。
このような実施の形態5の音声認識装置の構成により、音声認識装置300の奏する効果に加え、音韻の平均継続時間長が長い場合は、固定フレーム間隔抽出処理で有効に対処することが可能であり、一方、音韻の平均継続時間長が短い場合は、可変フレーム間隔抽出処理で有効に対処することが可能であるので、処理負荷を低減できる。
[実施の形態6]
図7は、実施の形態6の音声認識装置400の構成を説明するための機能ブロック図である。
図7は、実施の形態6の音声認識装置400の構成を説明するための機能ブロック図である。
図7に示した音声認識装置400においては、入力音声601、入力選択部610、制御信号61、インバータ611、第1の特徴抽出部602、第2の特徴抽出部603、第1の認識処理部6021、第2の認識処理部6031、結果選択部604、第1の単語辞書データベース6022および認識結果605は、それぞれ、実施の形態4の音声認識装置300の入力音声501、入力選択部510、制御信号51、インバータ511、第1の特徴抽出部502、第2の特徴抽出部503、第1の認識処理部5021、第2の認識処理部5031、結果選択部504、第1の単語辞書データベース5022および認識結果505に相当する機能を有している。
図7に示した音声認識装置400においては、実施の形態4の音声認識装置300の構成とは異なり、第2の単語辞書データ5032の代わりに、データ補間部6032が設けられている。
図7に示した音声認識装置400においても、第2の特徴抽出部503および第2の認識処理部5031からなる第2の処理系でのフレームシフトの時間幅D2011が、第1の特徴抽出部502および第1の認識処理部5021からなる第1の処理系でのフレームシフトの時間幅D201よりも短いものであるとする。
ここで、音声認識装置400においても、あらかじめ個々の音韻モデルに関して、フレーム長Lから計算した特徴パラメータを用いて、第1の標準パターンを作成しておく。この第1の標準パターンは、あらかじめ発話内容と音韻の区間が既知の音声データベースを用いて計算した特徴パラメータ時系列(ここで、この特徴パラメータ時系列は、フレームシフトの時間幅をD201にして、作成したものである)を、個別の隠れマルコフモデル(HMM)P01を用意してトレーニングすることによって作成しておくものとする。こうして得られた音韻数Mの隠れマルコフモデルにより、第1の単語辞書データベース6022が構成される。
図8は、このようにして作成された標準パターンが、第1の単語辞書データベース6022に格納される状態を説明するための概念図である。
図8に示すとおり、音韻に対応した隠れマルコフモデルに対して、所定の時間における801〜80nの第1の標準パターンは、それぞれ時刻t1〜tnにおけるパラメータm1〜mnとして構成される。
音声認識装置400では、第2の処理系でのフレームシフトの時間幅D2011が、第1の処理系でのフレームシフトの時間幅D201よりも短いものであることから、第2の認識処理部5031で使用されるべき第2の標準パターンとして第1の標準パターンを用いようとしたとしても、第1の単語辞書データベース6022には、第2の標準パターンとしては存在しない部分が生じる。
そこで、音声認識装置400では、第2の標準パターンを第1の標準パターンに基づいて、データ補間部6032により生成する。
図9は、データ補間部6032の処理を説明するための概念図である。
図9に示すように、第1の標準パターンと時間データを用いて中間データを線形補間(任意の高次関数でも可)によって計算することで、全ての時間における第2の標準パターンを作成できる。
音声認識装置400のその他の動作は、実施の形態4と同様であるので、その説明は繰り返さない。
以上のような音声認識装置400の構成とすれば、単語辞書データベースとして使用するメモリ等の記憶装置の記憶容量を削減できる。
[実施の形態7]
実施の形態6では、第1の特徴抽出部602と第2の特徴抽出部603との双方が、固定フレーム間隔抽出処理を行なうものとした。
実施の形態6では、第1の特徴抽出部602と第2の特徴抽出部603との双方が、固定フレーム間隔抽出処理を行なうものとした。
これに対して、本発明の実施の形態7の音声認識装置の基本的な構成は、実施の形態6の音声認識装400の構成と同様である。
ただし、実施の形態7の音声認識装置では、第2の特徴抽出部603は、可変フレーム間隔抽出処理を行なうものとする。
すなわち、第2の特徴抽出部603は、図4で説明したようにフレームシフトの時間幅D30i(i:自然数、D301<D302<D303<…)を順次長くしながら可変にし、特徴パラメータをそれぞれにおいて計算する。
また、第2の標準パターン生成においては、実施の形態6と同様に、第1の単語辞書データベース6022を用いて、データ補間部6032により、全ての標準パターンを生成する。
実施の形態7の音声認識装置のその他の構成は、実施の形態6の音声認識装400の構成と同様であるので、その説明は繰り返さない。
このような実施の形態7の音声認識装置の構成により、音声認識装置300の奏する効果に加え、音韻の平均継続時間長が長い場合は、固定フレーム間隔抽出処理で有効に対処することが可能であり、一方、音韻の平均継続時間長が短い場合は、可変フレーム間隔抽出処理で有効に対処することが可能であるので、処理負荷を低減できる。
[実施の形態8]
図10は、実施の形態8の音声認識装置500の構成を説明するための機能ブロック図である。
図10は、実施の形態8の音声認識装置500の構成を説明するための機能ブロック図である。
図10に示した音声認識装置500の構成においては、入力音声701、入力選択部710、制御信号71、インバータ711、第1の特徴抽出部702、第2の特徴抽出部703、第1の認識処理部7021、第2の認識処理部7031、結果選択部704、第1の単語辞書データベース7022および認識結果705は、それぞれ、実施の形態6の音声認識装置400の入力音声601、入力選択部610、制御信号61、インバータ611、第1の特徴抽出部602、第2の特徴抽出部603、第1の認識処理部6021、第2の認識処理部6031、結果選択部604、第1の単語辞書データベース6022および認識結果605に相当する機能を有している。
音声認識装置500においても、第2の特徴抽出部703および第2の認識処理部7031からなる第2の処理系でのフレームシフトの時間幅D2011が、第1の特徴抽出部702および第1の認識処理部7021からなる第1の処理系でのフレームシフトの時間幅D201よりも長いものであるとする。
音声認識装置500では、時間幅の最小値はD201とする。
音声認識装置500においても、あらかじめ個々の音韻モデルに関して、フレーム長Lから計算した特徴パラメータを用いて、第1の標準パターンを作成しておく。この第1の標準パターンは、あらかじめ発話内容と音韻の区間が既知の音声データベースを用いて計算した特徴パラメータ時系列(ここで、この特徴パラメータ時系列は、フレームシフトの時間幅をD201にして、作成したものである)を、個別の隠れマルコフモデル(HMM)P01を用意してトレーニングすることによって作成しておくものとする。こうして得られた音韻数Mの隠れマルコフモデルにより、第1の単語辞書データベース7022が構成される。
第1の第1の単語辞書データベース7022も、図8に示したように時刻とパラメータとが関連付けて格納されているものとする。
音声認識装置500では、第2の処理系でフレームシフトの時間幅D2011が、第1の処理系でのフレームシフトの時間幅D201よりも長いだけでなく、長い時間幅D2011で変化する際の各時刻点が、短い時間幅D201で変化する際の時刻点に相当または対応するように、時間幅D2011と時間幅D201との関係が定められているものとする。
たとえば、時間幅D2011での変化に対して、時間幅D201の変化が、等比または等差的なものとする場合、第2の標準パターンは、実施の形態6のような特別な補間操作を必要とせずに、第1の標準パターンから得ることができる。
実施の形態8の音声認識装置のその他の構成および動作は、実施の形態6の音声認識装置400の構成と同様であるので、その説明は繰り返さない。
このような実施の形態8の音声認識装置の構成により、音声認識装置400の奏する効果に加え、一層、処理負荷を低減できる。
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
51,61,71 制御信号、101,301,401,501,601,701 入力音声、510,610,710 入力選択部、302 特徴抽出部、511,611,711 インバータ、402,502,602,702 第1の特徴抽出部、403,503,603,703 第2の特徴抽出部、4021,5021,6021,7021 第1の認識処理部、4031,5031,6031,7031 第2の認識処理部、404,504,604,704 結果選択部、4022,5022,6022,7022 第1の単語辞書データベース、4032,5032 第2の単語辞書データベース、6032 データ補間部、105,305,405,505,605,705 認識結果、10、100,200,300,400,500 音声認識装置。
Claims (9)
- 入力音声信号に対して、各々が所定時間長を有する時間窓に対応する複数のフレームを、少なくとも異なる時間幅でスライドさせることにより、特徴パラメータの抽出を行う特徴抽出手段と、
前記入力音声の音韻パターンにそれぞれ対応づけて標準パターンデータを格納するための記憶手段と、
前記特徴抽出手段で抽出された前記特徴パラメータと前記標準パターンデータを照合することで、対応する音韻を認識し、認識結果を出力するための認識手段とを備える、音声認識装置。 - 前記特徴抽出手段は、前記入力音声信号の語頭から語尾に渡って、前記フレームをスライドさせる時間幅を順次増加させ、
前記記憶手段は、前記特徴抽出手段が前記フレームをスライドさせる時間幅のパターンに対応する前記標準パターンデータを予め格納する、請求項1記載の音声認識装置。 - 前記特徴抽出手段は、
第1の固定時間幅で前記フレームをスライドさせつつ、前記特徴パラメータを抽出する第1の固定フレーム間隔抽出処理手段と、
前記第1の固定時間幅よりも短い第2の固定時間幅で前記時間窓をスライドさせつつ、前記特徴パラメータを抽出する第2の固定フレーム間隔抽出処理手段とを含み、
前記標準パターンデータは、前記第1の固定フレーム間隔抽出処理手段が前記フレームをスライドさせる時間幅の第1のパターンに対応する第1の標準パターンデータと、前記第2の固定フレーム間隔抽出処理手段が前記フレームをスライドさせる時間幅の第2のパターンに対応する第2の標準パターンデータとを含む、請求項1記載の音声認識装置。 - 前記特徴抽出手段は、
固定時間幅で前記フレームをスライドさせつつ、前記特徴パラメータを抽出する固定フレーム間隔抽出処理手段と、
前記入力音声信号の語頭から語尾に渡って、前記フレームをスライドさせる時間幅を順次増加させつつ、前記特徴パラメ−タを抽出する可変フレーム間隔抽出処理手段とを含み、
前記標準パターンデータは、前記固定フレーム間隔抽出処理手段が前記フレームをスライドさせる時間幅の第1のパターンに対応する第1の標準パターンデータと、前記可変フレーム間隔抽出処理手段が前記フレームをスライドさせる時間幅の第2のパターンに対応する第2の標準パターンデータとを含む、請求項1記載の音声認識装置。 - 前記特徴抽出手段は、
第1の固定時間幅で前記フレームをスライドさせつつ、前記特徴パラメータを抽出する第1の固定フレーム間隔抽出処理手段と、
前記第1の固定時間幅よりも短い第2の固定時間幅で前記時間窓をスライドさせつつ、前記特徴パラメータを抽出する第2の固定フレーム間隔抽出処理手段とを含み、
前記標準パターンデータは、前記第1の固定フレーム間隔抽出処理手段が前記フレームをスライドさせる時間幅の第1のパターンに対応する第1の標準パターンデータと、前記第2の固定フレーム間隔抽出処理手段が前記フレームをスライドさせる時間幅の第2のパターンに対応する第2の標準パターンデータとを含み、
前記入力音声信号と前記特徴抽出手段との間に設けられ、前記第1の固定フレーム間隔抽出処理手段から抽出された前記特徴パラメータに基づく、前記認識手段による照合結果に応じて、前記入力音声信号を前記第1の固定フレーム間隔抽出処理手段から前記第2の固定フレーム間隔抽出処理手段に切替えて与える入力選択手段をさらに備える、請求項1記載の音声認識装置。 - 前記第1の標準パターンデータは時刻と関連付けられており、
前記第1の標準パターンデータに基づいて、前記第2の標準パターンデータを補間により生成する補間処理手段をさらに備える、請求項5記載の音声認識装置。 - 前記第1の標準パターンデータおよび第2の標準パターンデータは時刻と関連付けられており、
前記第2の固定フレーム間隔抽出処理手段が前記フレームをスライドさせる各時刻点は、前記第1の固定フレーム間隔抽出処理手段が前記フレームをスライドさせる時刻点のいずれかに対応する、請求項6記載の音声認識装置。 - 前記特徴抽出手段は、
固定時間幅で前記フレームをスライドさせつつ、前記特徴パラメータを抽出する固定フレーム間隔抽出処理手段と、
前記入力音声信号の語頭から語尾に渡って、前記フレームをスライドさせる時間幅を順次増加させつつ、前記特徴パラメ−タを抽出する可変フレーム間隔抽出処理手段とを含み、
前記標準パターンデータは、前記固定フレーム間隔抽出処理手段が前記フレームをスライドさせる時間幅の第1のパターンに対応する第1の標準パターンデータと、前記可変フレーム間隔抽出処理手段が前記フレームをスライドさせる時間幅の第2のパターンに対応する第2の標準パターンデータとを含み、
前記入力音声信号と前記特徴抽出手段との間に設けられ、前記固定フレーム間隔抽出処理手段から抽出された前記特徴パラメータに基づく、前記認識手段による照合結果に応じて、前記入力音声信号を前記固定フレーム間隔抽出処理手段から前記可変フレーム間隔抽出処理手段に切替えて与える入力選択手段をさらに備える、請求項1記載の音声認識装置。 - 前記第1の標準パターンデータは時刻と関連付けられており、
前記第1の標準パターンデータに基づいて、前記第2の標準パターンデータを補間により生成する補間処理手段をさらに備える、請求項8記載の音声認識装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003277661A JP2005043666A (ja) | 2003-07-22 | 2003-07-22 | 音声認識装置 |
US10/776,240 US20050021330A1 (en) | 2003-07-22 | 2004-02-12 | Speech recognition apparatus capable of improving recognition rate regardless of average duration of phonemes |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003277661A JP2005043666A (ja) | 2003-07-22 | 2003-07-22 | 音声認識装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005043666A true JP2005043666A (ja) | 2005-02-17 |
Family
ID=34074654
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003277661A Withdrawn JP2005043666A (ja) | 2003-07-22 | 2003-07-22 | 音声認識装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20050021330A1 (ja) |
JP (1) | JP2005043666A (ja) |
Families Citing this family (84)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
WO2014025990A1 (en) | 2012-08-10 | 2014-02-13 | Nuance Communications, Inc. | Virtual agent communication for electronic devices |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US9659298B2 (en) | 2012-12-11 | 2017-05-23 | Nuance Communications, Inc. | Systems and methods for informing virtual agent recommendation |
US9262175B2 (en) | 2012-12-11 | 2016-02-16 | Nuance Communications, Inc. | Systems and methods for storing record of virtual agent interaction |
US9560089B2 (en) * | 2012-12-11 | 2017-01-31 | Nuance Communications, Inc. | Systems and methods for providing input to virtual agent |
US9276802B2 (en) | 2012-12-11 | 2016-03-01 | Nuance Communications, Inc. | Systems and methods for sharing information between virtual agents |
US9679300B2 (en) | 2012-12-11 | 2017-06-13 | Nuance Communications, Inc. | Systems and methods for virtual agent recommendation for multiple persons |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
KR101922663B1 (ko) | 2013-06-09 | 2018-11-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
US20170017501A1 (en) | 2013-12-16 | 2017-01-19 | Nuance Communications, Inc. | Systems and methods for providing a virtual assistant |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
CN106935239A (zh) * | 2015-12-29 | 2017-07-07 | 阿里巴巴集团控股有限公司 | 一种发音词典的构建方法及装置 |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
CN112908301A (zh) * | 2021-01-27 | 2021-06-04 | 科大讯飞(上海)科技有限公司 | 一种语音识别方法、装置、存储介质及设备 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6757652B1 (en) * | 1998-03-03 | 2004-06-29 | Koninklijke Philips Electronics N.V. | Multiple stage speech recognizer |
US6542866B1 (en) * | 1999-09-22 | 2003-04-01 | Microsoft Corporation | Speech recognition method and apparatus utilizing multiple feature streams |
US6957183B2 (en) * | 2002-03-20 | 2005-10-18 | Qualcomm Inc. | Method for robust voice recognition by analyzing redundant features of source signal |
-
2003
- 2003-07-22 JP JP2003277661A patent/JP2005043666A/ja not_active Withdrawn
-
2004
- 2004-02-12 US US10/776,240 patent/US20050021330A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
US20050021330A1 (en) | 2005-01-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2005043666A (ja) | 音声認識装置 | |
JP3933750B2 (ja) | 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置 | |
Rigoll | Speaker adaptation for large vocabulary speech recognition systems using speaker Markov models | |
JP2986313B2 (ja) | 音声コード化装置及びその方法並びに音声認識装置及びその方法 | |
JP4176169B2 (ja) | 言語合成のためのランタイムアコースティックユニット選択方法及び装置 | |
US6553342B1 (en) | Tone based speech recognition | |
US7181391B1 (en) | Method, apparatus, and system for bottom-up tone integration to Chinese continuous speech recognition system | |
JPWO2007046267A1 (ja) | 音声判別システム、音声判別方法及び音声判別用プログラム | |
CN111862954A (zh) | 一种语音识别模型的获取方法及装置 | |
CN117043857A (zh) | 用于英语发音评估的方法、设备和计算机程序产品 | |
JP2662112B2 (ja) | 発声された単語のモデル化方法および装置 | |
KR100744288B1 (ko) | 음성 신호에서 음소를 분절하는 방법 및 그 시스템 | |
US10446133B2 (en) | Multi-stream spectral representation for statistical parametric speech synthesis | |
JP4666129B2 (ja) | 発声速度正規化分析を用いた音声認識装置 | |
Yavuz et al. | A Phoneme-Based Approach for Eliminating Out-of-vocabulary Problem Turkish Speech Recognition Using Hidden Markov Model. | |
JPWO2011077924A1 (ja) | 音声検出装置、音声検出方法、および音声検出プログラム | |
RU2597498C1 (ru) | Способ распознавания речи на основе двухуровневого морфофонемного префиксного графа | |
JP2010072446A (ja) | 調音特徴抽出装置、調音特徴抽出方法、及び調音特徴抽出プログラム | |
JP2001005483A (ja) | 単語音声認識方法及び単語音声認識装置 | |
Trivedi | A survey on English digit speech recognition using HMM | |
JPH0222399B2 (ja) | ||
CN111696530B (zh) | 一种目标声学模型获取方法及装置 | |
JPH08314490A (ja) | ワードスポッティング型音声認識方法と装置 | |
JP2001083978A (ja) | 音声認識装置 | |
JP2003345384A (ja) | 音声認識装置、音声認識方法および音声認識プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20061003 |