JPS59219799A - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JPS59219799A JPS59219799A JP58094607A JP9460783A JPS59219799A JP S59219799 A JPS59219799 A JP S59219799A JP 58094607 A JP58094607 A JP 58094607A JP 9460783 A JP9460783 A JP 9460783A JP S59219799 A JPS59219799 A JP S59219799A
- Authority
- JP
- Japan
- Prior art keywords
- word
- subinterval
- similarity value
- subintervals
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔発明の技術分野〕
本発明は単語や文等の連続発声した音声を精度良く認識
することのできる音声認識装置に関する。
することのできる音声認識装置に関する。
音声を通じて情報を入力する装置にあっては、連続的に
発声入力される単語や文を如何に精度良く認識するかが
重要な課題となる。ところが、従来の音声認識装置は、
数十単語程度の孤立単語音声や、十数単語程度の連続単
語音声の認識が可能であるに過ぎない。
発声入力される単語や文を如何に精度良く認識するかが
重要な課題となる。ところが、従来の音声認識装置は、
数十単語程度の孤立単語音声や、十数単語程度の連続単
語音声の認識が可能であるに過ぎない。
しかして認識対象が孤立発音された単語音声の、場合、
従来では専ら単語全体の特徴メクラメータ間で予め用意
された標準パターンと入力/?ターンとの照合を行い、
この照合結果の最大類似度を与える標準パターンを認識
結果として求めている。然し乍ら、このような手段にあ
っては、例えば数千単語やそれ以上の語垂を認識対象と
した場合、その標準ノやターンを準備すること自体が実
際1殆んど不可能となる。
従来では専ら単語全体の特徴メクラメータ間で予め用意
された標準パターンと入力/?ターンとの照合を行い、
この照合結果の最大類似度を与える標準パターンを認識
結果として求めている。然し乍ら、このような手段にあ
っては、例えば数千単語やそれ以上の語垂を認識対象と
した場合、その標準ノやターンを準備すること自体が実
際1殆んど不可能となる。
そこで認識単位を音素や音節(ここではこれらをまとめ
て音素と定義する)とし、入力単語音声を上記音素のラ
ベル系列に変換したのちその単語を認識することが考え
られている。このようにすることによって、単語を音素
の系列として辞書登録しておけばよくなるので、数千単
語の語粟についても十分対処することが可能となる。
て音素と定義する)とし、入力単語音声を上記音素のラ
ベル系列に変換したのちその単語を認識することが考え
られている。このようにすることによって、単語を音素
の系列として辞書登録しておけばよくなるので、数千単
語の語粟についても十分対処することが可能となる。
然し乍ら、入力単語音声を正しい音素系列に高精度に識
別することが未だに困難である為、ラベル付は誤シやセ
グメンテーションmbが生じ、この誤シを含んだセグメ
ントラティスから単語を精度良く認識することが困難と
なると云う問題が生じた。θ・lえは認識対象が都市名
である場合“日立”として発声した音声のセグメントラ
ティスカ次のように得られることがある。
別することが未だに困難である為、ラベル付は誤シやセ
グメンテーションmbが生じ、この誤シを含んだセグメ
ントラティスから単語を精度良く認識することが困難と
なると云う問題が生じた。θ・lえは認識対象が都市名
である場合“日立”として発声した音声のセグメントラ
ティスカ次のように得られることがある。
(i) K U T A T/ Ia+)
HN I T A T/ Iこのような場合
、発声単語が゛日立”でちるか”国立”であるかを区別
することができなくなシ、またその区別の為の有効な手
法も見出されていない。ちなみに、上記各音素ラベルに
付随して得られる類似度の総和によって上記区別を行う
ことが考えられているが、一般に加算要素が多い程、類
似度の和も大きくなる。この為、上記例にあっては4音
節からなる“国立′の方が、3音節からなる“日立”に
比してその評価が高くなシ、結局誤認識となる場合が多
かった。
HN I T A T/ Iこのような場合
、発声単語が゛日立”でちるか”国立”であるかを区別
することができなくなシ、またその区別の為の有効な手
法も見出されていない。ちなみに、上記各音素ラベルに
付随して得られる類似度の総和によって上記区別を行う
ことが考えられているが、一般に加算要素が多い程、類
似度の和も大きくなる。この為、上記例にあっては4音
節からなる“国立′の方が、3音節からなる“日立”に
比してその評価が高くなシ、結局誤認識となる場合が多
かった。
このような不具合は、認識対象が連U単語音声の場合に
あっても全く同様に発生している。
あっても全く同様に発生している。
例えば従来よシ知られている単語単位でパターンマツチ
ングを行うものにあっては、数字列”23” (ニーサ
ン)を発声した場合、その認識結果が213”となるこ
とがある。これは、23”(n1saN)なる発声に対
して、ni−+2 lig−+1 * saN→3な
る対応付けがなされるためである。即ち、単語゛1”の
音素記号は1itfl/で示されるが、/l f/と/
g/とは同じ摩擦性の音であることがら、その音響的特
徴だけからは区別し難い。しがも/l / i/中の/
i/の部分が無声化されることも多いので、通常、単語
“1”の標準ノソターンとしては/1tfi/やAtf
/の両者に対処できるものが準備される。この結果、数
字列゛23nが“213”と認識されることになる。ま
た、この場合、前述した類似度の和を用いて全体を評価
することが考えられるが、“213”の方が′23#よ
シも単語数が多い為に高い評価を得、結局誤認識されて
しまう。
ングを行うものにあっては、数字列”23” (ニーサ
ン)を発声した場合、その認識結果が213”となるこ
とがある。これは、23”(n1saN)なる発声に対
して、ni−+2 lig−+1 * saN→3な
る対応付けがなされるためである。即ち、単語゛1”の
音素記号は1itfl/で示されるが、/l f/と/
g/とは同じ摩擦性の音であることがら、その音響的特
徴だけからは区別し難い。しがも/l / i/中の/
i/の部分が無声化されることも多いので、通常、単語
“1”の標準ノソターンとしては/1tfi/やAtf
/の両者に対処できるものが準備される。この結果、数
字列゛23nが“213”と認識されることになる。ま
た、この場合、前述した類似度の和を用いて全体を評価
することが考えられるが、“213”の方が′23#よ
シも単語数が多い為に高い評価を得、結局誤認識されて
しまう。
このように音声を認識する場合に、本来の認識対象よシ
小さな認識単位を利用しようとすると、如何にしてその
全体を、その構成要素数とは独立に評価すればよいかが
問題となった。このような問題は、単語、連続単語1句
1文1文章等の音声認識の全てに共通して存在している
。
小さな認識単位を利用しようとすると、如何にしてその
全体を、その構成要素数とは独立に評価すればよいかが
問題となった。このような問題は、単語、連続単語1句
1文1文章等の音声認識の全てに共通して存在している
。
本発明はこのような事情を考慮してなされたもので、そ
の目的とするところは、認識対象とする音声中の小さな
認識単位を有効に利用して上記認識対象を高精度に認識
することのできる実用性の高い音声認識装置を提供する
ことにある。
の目的とするところは、認識対象とする音声中の小さな
認識単位を有効に利用して上記認識対象を高精度に認識
することのできる実用性の高い音声認識装置を提供する
ことにある。
本発明は入力音声の特徴パラメータの一部と、音素、音
節または単語等からなる認識単位とのマツチング処理を
行い、これによって得られる類似度値に対応して、その
マツチング区間においてその認識単位が正しい確率を求
め、これらの確率の積から入力音声全体に対する評価を
して、その認識結果を得るものである。
節または単語等からなる認識単位とのマツチング処理を
行い、これによって得られる類似度値に対応して、その
マツチング区間においてその認識単位が正しい確率を求
め、これらの確率の積から入力音声全体に対する評価を
して、その認識結果を得るものである。
特に、予め設定された認識単位が正しく存在する区間に
対する類似度値の確率密度関数と、認識単位毎に認識処
理された部分区間について求められた類似度値の確率密
度関数との比に基づいて、その部分区間における認識結
果の正しい確率を求めて、その部分区間の系列、っま多
入力音声全体を評価するようにしたものである。
対する類似度値の確率密度関数と、認識単位毎に認識処
理された部分区間について求められた類似度値の確率密
度関数との比に基づいて、その部分区間における認識結
果の正しい確率を求めて、その部分区間の系列、っま多
入力音声全体を評価するようにしたものである。
かくして本発明は、認識対象を正しく認識するべく利用
される音素や音節や単語等の認識単位が正しく識別され
る確率が、そのマツチング区間に応じて評価されるので
、認識単位の系列を為す構成要素数、っまシ音素数や音
節数や単語数に依存することなしに、その全体を高精度
に評価することが可能となる。これI−j″、ラベル付
は誤シやセグメンテーション誤りを含むセグメントラテ
ィスを認識対象から効果的に除外することが可能となシ
、ここに高精度な音声認識を行うことができる。故に、
その実用的利点は絶大でちる。
される音素や音節や単語等の認識単位が正しく識別され
る確率が、そのマツチング区間に応じて評価されるので
、認識単位の系列を為す構成要素数、っまシ音素数や音
節数や単語数に依存することなしに、その全体を高精度
に評価することが可能となる。これI−j″、ラベル付
は誤シやセグメンテーション誤りを含むセグメントラテ
ィスを認識対象から効果的に除外することが可能となシ
、ここに高精度な音声認識を行うことができる。故に、
その実用的利点は絶大でちる。
以下、図面を参照して本発明の一実施例につき説明する
。
。
尚、ここでは認識単位を単語として説明するが、この単
語は言語学的な意味ではなく、音声認識処理における一
般的な取扱い単位として定義されるものである。従って
、ここで示される単語は、音節や文節或いはこれに類す
るものとして読替えることが可能である。またここでは
、連続単語音声を認識対象とするものとする。
語は言語学的な意味ではなく、音声認識処理における一
般的な取扱い単位として定義されるものである。従って
、ここで示される単語は、音節や文節或いはこれに類す
るものとして読替えることが可能である。またここでは
、連続単語音声を認識対象とするものとする。
第1図は実施例装置の概略構成図である。入力音声は音
響分析部1に入力されて所定の分析時間毎に分割され、
各分析時間毎に71¥徴ハラメータが求められる。この
音響分析部1は、例えば音声帯域を8〜30程度の帯域
に分Y:’J してそのスペクトル分析を行う複数の帯
域通過フィルタからなるフィルタパンクによって打・Y
成さり、るものであシ、これにより、前記入力音声が特
徴パラメータの時系列に変換されることになる。
響分析部1に入力されて所定の分析時間毎に分割され、
各分析時間毎に71¥徴ハラメータが求められる。この
音響分析部1は、例えば音声帯域を8〜30程度の帯域
に分Y:’J してそのスペクトル分析を行う複数の帯
域通過フィルタからなるフィルタパンクによって打・Y
成さり、るものであシ、これにより、前記入力音声が特
徴パラメータの時系列に変換されることになる。
しかしてζこの特徴・リメータの時系列は部分区間設定
部2に入力される。この部分区間設定部2は、上記特徴
パラメータの時系列に対して、単語マツチングを行うべ
く、部分区間を決定するもので、前記音響分析の各分析
時間毎に形成可能な、成る条件を満す部分区間をそれぞ
れ抽出する。例えば第2図に示すように、入力音声(特
徴パラメータ:音声パワーの時系列)Aについて、成る
範囲内で変化する認識対象単語の継続時間に関し、その
最大値(dma X )と最小値(dmin)との間に
存在する部分区間を、成る分析時刻を基準としてそれぞ
れ求める。尚、第2図中τは分析時間を示している。こ
のようにして、認識単位が存在すると見込まれる1つま
たは複数の部分区間が、分析時間毎に順次設定される。
部2に入力される。この部分区間設定部2は、上記特徴
パラメータの時系列に対して、単語マツチングを行うべ
く、部分区間を決定するもので、前記音響分析の各分析
時間毎に形成可能な、成る条件を満す部分区間をそれぞ
れ抽出する。例えば第2図に示すように、入力音声(特
徴パラメータ:音声パワーの時系列)Aについて、成る
範囲内で変化する認識対象単語の継続時間に関し、その
最大値(dma X )と最小値(dmin)との間に
存在する部分区間を、成る分析時刻を基準としてそれぞ
れ求める。尚、第2図中τは分析時間を示している。こ
のようにして、認識単位が存在すると見込まれる1つま
たは複数の部分区間が、分析時間毎に順次設定される。
このようにして設定された部分区間の位置と、その部分
区間における特徴パラメータ時系列とが類似度計算部3
に与えられ、単語辞書記憶部4に登録された辞書パター
ンとの間で照合される。この照合は、例えば入力音声の
部分区間の特徴・(ラメータ時系列で示される入カバタ
ーンと、上記辞書パターンとの類似度を、複合類似度法
によシ計算して行われる。この複合類似度法が用いられ
る場合、辞書登録された単語を表現する特徴ベクトルは
、周波数でM次元(分析フィルタ数)、時間軸でN次元
からなる(MXN )次元の固定ベクトルとして表現さ
れる。従って、前記分析部1にて周波数軸上でM次元に
分析された特徴パラメータは、前記部分区間毎に時間点
数がN点からなる時系列として再サンプリングされ、同
じ次元のベクトルとして表現される。
区間における特徴パラメータ時系列とが類似度計算部3
に与えられ、単語辞書記憶部4に登録された辞書パター
ンとの間で照合される。この照合は、例えば入力音声の
部分区間の特徴・(ラメータ時系列で示される入カバタ
ーンと、上記辞書パターンとの類似度を、複合類似度法
によシ計算して行われる。この複合類似度法が用いられ
る場合、辞書登録された単語を表現する特徴ベクトルは
、周波数でM次元(分析フィルタ数)、時間軸でN次元
からなる(MXN )次元の固定ベクトルとして表現さ
れる。従って、前記分析部1にて周波数軸上でM次元に
分析された特徴パラメータは、前記部分区間毎に時間点
数がN点からなる時系列として再サンプリングされ、同
じ次元のベクトルとして表現される。
このような(MXN)次元の入カバターンベクトルと、
予め準備された各単語の(MXN)次元の辞書ノfター
ンとの間で、その複合類似度値が算出される。そして、
最大類似度値を得る単語名(標準・ぐターン名)と、そ
の類似度値が、その部分区間における局部的な認識結果
として、その部分区間の位置情報と共に単語評価部5に
与えられる。
予め準備された各単語の(MXN)次元の辞書ノfター
ンとの間で、その複合類似度値が算出される。そして、
最大類似度値を得る単語名(標準・ぐターン名)と、そ
の類似度値が、その部分区間における局部的な認識結果
として、その部分区間の位置情報と共に単語評価部5に
与えられる。
尚〜、このように複合類似度値を用いて求められる類似
度値は%0.0〜1.0の範囲の値を持つ。
度値は%0.0〜1.0の範囲の値を持つ。
また類似度計算を、周知の動的計画法を利用したシ、統
計的な距離を用いて行うようにしてもよい。但し、この
場合に求められる距離等については、その逆数を考える
等して、類似度値としての正規化処理を施こすことが必
要である◇しかして単語評価部5では、入力音声の各部
分区間に対する単語名と、その類似度値とから、上記単
語がその部分区間において正しいと考えられる確率、つ
まり正しい確率が算出される。
計的な距離を用いて行うようにしてもよい。但し、この
場合に求められる距離等については、その逆数を考える
等して、類似度値としての正規化処理を施こすことが必
要である◇しかして単語評価部5では、入力音声の各部
分区間に対する単語名と、その類似度値とから、上記単
語がその部分区間において正しいと考えられる確率、つ
まり正しい確率が算出される。
即ち今、成る単語ωが成る部分区間KにおいてSなる類
似度値を持つものとする。このときの、上記単語ωの部
分区間Kにおける正しい確率P(ω、に/8)は、ヘイ
ズの定理に従って次のように示すことができる。
似度値を持つものとする。このときの、上記単語ωの部
分区間Kにおける正しい確率P(ω、に/8)は、ヘイ
ズの定理に従って次のように示すことができる。
即ち、求めようとする上記正しい確率P(ω、に/S)
は前記単語名ω2部分区間におよび類似度値Sを用いて
直接計算することはできない。そこで、上記式の変形を
考慮した場合、上式右辺において分子環P(s/ω+’
)は、成る単語に対して、そのマツチング区間が正しい
単語の存在区間であるときの、類似度値の確率密度関数
を示していること、また分母項P (s)は、全単語の
全部分区間に対する類似度値の確率密度関数を示してい
ることが判る。そして、これらの2つの確率は、予め正
しい区間や、その他の区間に刻する類似度値の分布によ
って、その間の相対頻度として簡単に求めることが可能
である。
は前記単語名ω2部分区間におよび類似度値Sを用いて
直接計算することはできない。そこで、上記式の変形を
考慮した場合、上式右辺において分子環P(s/ω+’
)は、成る単語に対して、そのマツチング区間が正しい
単語の存在区間であるときの、類似度値の確率密度関数
を示していること、また分母項P (s)は、全単語の
全部分区間に対する類似度値の確率密度関数を示してい
ることが判る。そして、これらの2つの確率は、予め正
しい区間や、その他の区間に刻する類似度値の分布によ
って、その間の相対頻度として簡単に求めることが可能
である。
また前式中、右辺第2項として示される確率P(ω、y
c)は、成る単語ωが、考え得る全部分区間中に正しく
表われる確率を示している。しかも、単語の出現確率P
(69と、全部分区間中に占める正しい部分区間の割
合いP (K)とは互いに独立な事象であるから、これ
を P(ω、x)−P(→・P(K) として分けて考えることができ、また両者ともに一定で
あると考えることができる。また前記確率P(S/ω、
K)、P(8)はそれぞれ類似度値の分布を表わすもの
であるから、これらの分布を正規分布としてモデル化す
ることが可能である。第3図(a)は、このような確率
p (s/aB K)、P(s)を、類似度値をXとし
てモデル化したときの関係を示しており、 として示される。但し、上式においてm(1)c+σω
。、およびmalσ8は、各々の分布の平均値とその標
準偏差である。従りて、これらの確率の分布関数p(s
β、K)、’ P(8)から前述した求めようとする部
分区間Kに対する正しい確率P(ω、ic/s)は、 として算出することが可能となり、その値は類似度値X
に関して第3図(b)に示すようになる。
c)は、成る単語ωが、考え得る全部分区間中に正しく
表われる確率を示している。しかも、単語の出現確率P
(69と、全部分区間中に占める正しい部分区間の割
合いP (K)とは互いに独立な事象であるから、これ
を P(ω、x)−P(→・P(K) として分けて考えることができ、また両者ともに一定で
あると考えることができる。また前記確率P(S/ω、
K)、P(8)はそれぞれ類似度値の分布を表わすもの
であるから、これらの分布を正規分布としてモデル化す
ることが可能である。第3図(a)は、このような確率
p (s/aB K)、P(s)を、類似度値をXとし
てモデル化したときの関係を示しており、 として示される。但し、上式においてm(1)c+σω
。、およびmalσ8は、各々の分布の平均値とその標
準偏差である。従りて、これらの確率の分布関数p(s
β、K)、’ P(8)から前述した求めようとする部
分区間Kに対する正しい確率P(ω、ic/s)は、 として算出することが可能となり、その値は類似度値X
に関して第3図(b)に示すようになる。
このようにして、成る単語ωの類似度値Xから、その部
分区間Kに対する正しい確率P(ω、に/+1)がそれ
ぞれ求められることになる。
分区間Kに対する正しい確率P(ω、に/+1)がそれ
ぞれ求められることになる。
尚、上記関係式にあっては、正しい部分区間Kを一様に
取扱ったが、単語の存在する区間の性質によっては、そ
の類似度値の分布傾向に片寄シが存在することがある。
取扱ったが、単語の存在する区間の性質によっては、そ
の類似度値の分布傾向に片寄シが存在することがある。
例えば部分区間の長さが短い程、そこで求められる類似
度値が大きくなる傾向を示す場合がある。このような場
合には、例えば上式におけるKを に1・・・・・・・・・o < Kの長さ≦aK2・・
・・・・・・・a (Kの長さくbK3・・・・・・・
・・bくKの長さくのと云うように段階的に分けて、そ
の区間長毎に前述した関係式をそれぞれ準備するように
すればよい。
度値が大きくなる傾向を示す場合がある。このような場
合には、例えば上式におけるKを に1・・・・・・・・・o < Kの長さ≦aK2・・
・・・・・・・a (Kの長さくbK3・・・・・・・
・・bくKの長さくのと云うように段階的に分けて、そ
の区間長毎に前述した関係式をそれぞれ準備するように
すればよい。
しかして、文評価部6は、上記の如くして求められる単
語名と、そつ正しい確率P(ω、pc/s)およびその
位置情報を入力し、先ず入力音声区間と等しい区間を為
す部分区間の列を見出している。そして、これらの部分
区間の列を単す認識単語列の、これに付随する上記確率
の債を算出して、その評価を行っている。例えば今、第
4図に示すように7分析区間からなる入力音声が与えら
れ、その部分区間が同図中A、B−Lに示すように求め
られたとする。このとき、入力音声区間と等しい区間を
為す部分区間の列は(L 、 J 、 B )(K 、
T(、C) (L 、 G 、 C)。
語名と、そつ正しい確率P(ω、pc/s)およびその
位置情報を入力し、先ず入力音声区間と等しい区間を為
す部分区間の列を見出している。そして、これらの部分
区間の列を単す認識単語列の、これに付随する上記確率
の債を算出して、その評価を行っている。例えば今、第
4図に示すように7分析区間からなる入力音声が与えら
れ、その部分区間が同図中A、B−Lに示すように求め
られたとする。このとき、入力音声区間と等しい区間を
為す部分区間の列は(L 、 J 、 B )(K 、
T(、C) (L 、 G 、 C)。
(I、B)として求められる。このような部分区間列を
構成する単語列の前記確率の積がそれぞれ求められ、そ
の積の値のうち最大値を得る単語列が認識結果として求
められることになる。
構成する単語列の前記確率の積がそれぞれ求められ、そ
の積の値のうち最大値を得る単語列が認識結果として求
められることになる。
以上説明したように、本発明では、認識単位である単語
のマツチングによって求めら、れる類似度値から、その
マツチング区間に応じて上記単語の正しい確率が求めら
れ、その積を以って入力音声の全体が評価される。これ
故、従来類似度値の和を評価の尺度としたもの等とは異
つて、単語数の異なυ等の影響を受けることなしに、そ
の認識を高精度に行うことが可能となる。
のマツチングによって求めら、れる類似度値から、その
マツチング区間に応じて上記単語の正しい確率が求めら
れ、その積を以って入力音声の全体が評価される。これ
故、従来類似度値の和を評価の尺度としたもの等とは異
つて、単語数の異なυ等の影響を受けることなしに、そ
の認識を高精度に行うことが可能となる。
しかも、部分区間の列としてその評価を行うので、簡易
に且つ精度良く認識処理することができ、その実用的利
点は絶大である。
に且つ精度良く認識処理することができ、その実用的利
点は絶大である。
尚、本発明は上記実施例に限定されるものではない。例
えば認識単位を音素や音節としても良いことは云うまで
もない。また前述した平均値m(、)。や標準偏差σω
。を全認識単位に対して共通に与え、単にmclσ。と
じて用いることもn」能である。要するに本発明はその
要旨r逸脱しない範囲で種々変形して実施することがで
きる。
えば認識単位を音素や音節としても良いことは云うまで
もない。また前述した平均値m(、)。や標準偏差σω
。を全認識単位に対して共通に与え、単にmclσ。と
じて用いることもn」能である。要するに本発明はその
要旨r逸脱しない範囲で種々変形して実施することがで
きる。
第1図は本発明の一実施例装置の概略溝底図、第2図は
部分区間の設定を説明する為の図、第3図(a) (b
)は類似度値に対する確率の分布を示す図、第4図は部
分区間の列を説明する為の図である。 1・・・音響分析部、2・・・部分区間設定部、3・・
・類似度計算部、4・・・単語辞書記憶部、5・・・単
語評価部、6・・・文評価部。 出願人代理人 弁理士 鈴 江 武 彦第1図 第3図
部分区間の設定を説明する為の図、第3図(a) (b
)は類似度値に対する確率の分布を示す図、第4図は部
分区間の列を説明する為の図である。 1・・・音響分析部、2・・・部分区間設定部、3・・
・類似度計算部、4・・・単語辞書記憶部、5・・・単
語評価部、6・・・文評価部。 出願人代理人 弁理士 鈴 江 武 彦第1図 第3図
Claims (2)
- (1)入力音声を一定時間毎に分析してその特徴パラメ
ータの時系列を得る手段と、この特徴パラメータの時系
列を音声の認識単位が存在可能な部分区間毎に分割する
手段と、これらの各部分区間の特徴パラメータ時系列と
辞書登録された複数の認識単位の各標準パターンとの類
似度を計算して前記各部分区間毎に最大類似度値をとる
標準パターン名とその類似度値をそれぞれ求める手段と
、予め設定された認識単位が正しく存在する部分区間に
対する類似度値の確率密度関数と」二記分割された部分
区間に対して求められた標準パターン名の類似度値の確
率密度関数との比に基づいて上記部分区間における上記
標準i?ターン名の正しい確率をそれぞれ求める手段と
、前記入力音声の全区間と等しい区間を為す組合せの前
記部分区間の列の各部分区間毎に求められた正しい確率
の積を求める手段と、この正しい確率の積から上記部分
区間の列によって示される前記標準パターン名の列を評
価する手段とを具備したことを特徴とする音声認識装置
。 - (2)音声の認識単位は、音素、音節或いは単語として
定められるものである特許M+’7求の範囲第1項記載
の音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP58094607A JPS59219799A (ja) | 1983-05-28 | 1983-05-28 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP58094607A JPS59219799A (ja) | 1983-05-28 | 1983-05-28 | 音声認識装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPS59219799A true JPS59219799A (ja) | 1984-12-11 |
Family
ID=14114933
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP58094607A Pending JPS59219799A (ja) | 1983-05-28 | 1983-05-28 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS59219799A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6265091A (ja) * | 1985-09-17 | 1987-03-24 | 日本電信電話株式会社 | 連続音声認識方式 |
JP2011065370A (ja) * | 2009-09-16 | 2011-03-31 | Toshiba Corp | パターン認識方法、文字認識方法、パターン認識プログラム、文字認識プログラム、パターン認識装置および文字認識装置 |
-
1983
- 1983-05-28 JP JP58094607A patent/JPS59219799A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6265091A (ja) * | 1985-09-17 | 1987-03-24 | 日本電信電話株式会社 | 連続音声認識方式 |
JP2011065370A (ja) * | 2009-09-16 | 2011-03-31 | Toshiba Corp | パターン認識方法、文字認識方法、パターン認識プログラム、文字認識プログラム、パターン認識装置および文字認識装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8818813B2 (en) | Methods and system for grammar fitness evaluation as speech recognition error predictor | |
Pal et al. | Fuzzy sets and decision making approaches in vowel and speaker recognition | |
Zhan et al. | Vocal tract length normalization for large vocabulary continuous speech recognition | |
Murveit et al. | Speech recognition in SRI’s resource management and ATIS systems | |
TWI396184B (zh) | 一種語音辨認所有語言及用語音輸入單字的方法 | |
JPH036517B2 (ja) | ||
JPS5972496A (ja) | 単音識別装置 | |
JPS59121100A (ja) | 連続音声認識装置 | |
US20110218802A1 (en) | Continuous Speech Recognition | |
Picone et al. | Automatic text alignment for speech system evaluation | |
EP0096712B1 (en) | A system and method for recognizing speech | |
US4924518A (en) | Phoneme similarity calculating apparatus | |
Yavuz et al. | A Phoneme-Based Approach for Eliminating Out-of-vocabulary Problem Turkish Speech Recognition Using Hidden Markov Model. | |
JPS59219799A (ja) | 音声認識装置 | |
Adam et al. | Analysis of Momentous Fragmentary Formants in Talaqi-like Neoteric Assessment of Quran Recitation using MFCC Miniature Features of Quranic Syllables | |
JPS58108590A (ja) | 音声認識装置 | |
JPH0283595A (ja) | 音声認識方法 | |
Majidnezhad | A HTK-based method for detecting vocal fold pathology | |
Joshi et al. | Mfcc-based voice recognition system for home automation using dynamic programming | |
Mantri et al. | Performance Evaluation of Human Voice Recognition System based on MFCC feature and HMM classifier | |
JPS5915993A (ja) | 音声認識装置 | |
Shandy et al. | Implementation of Data Mining for Speech Recognition Classification of Sundanese Dialect Using KNN Method with MFCC Feature Extraction | |
Mary et al. | Features, Representations, and Matching Techniques for Audio Search | |
JPH0554678B2 (ja) | ||
JPS60147797A (ja) | 音声認識装置 |