JPH0772899A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH0772899A
JPH0772899A JP5217286A JP21728693A JPH0772899A JP H0772899 A JPH0772899 A JP H0772899A JP 5217286 A JP5217286 A JP 5217286A JP 21728693 A JP21728693 A JP 21728693A JP H0772899 A JPH0772899 A JP H0772899A
Authority
JP
Japan
Prior art keywords
recognition
unit
voice
duration
syllable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5217286A
Other languages
English (en)
Inventor
Yumi Takizawa
由実 滝沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP5217286A priority Critical patent/JPH0772899A/ja
Priority to US08/225,630 priority patent/US5526466A/en
Priority to KR1019940007784A priority patent/KR0134158B1/ko
Publication of JPH0772899A publication Critical patent/JPH0772899A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 入力音声の音声区間長と認識単位の継続時間
の相互関係とを用いて、次に認識しようとする認識単位
の継続時間を予測し、予測された継続時間を用いて照合
および認識結果の決定を行うことにより、同入力音声内
の認識単位毎の継続時間の差が現実的な場合のみ、認識
候補として成立させることで、高性能で高速な音声認識
装置を提供することを目的とする。 【構成】 入力音声の始終端を検出する音声区間検出部
1と、検出された音声区間長を用いて入力音声の認識単
位毎の継続時間を予測する継続時間予測部4と、予測し
た継続時間を利用して、認識単位毎の標準音声と入力音
声との照合および認識結果決定を行う照合部6を具備し
ている。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、音声認識装置に関する
ものである。
【0002】
【従来の技術】近年、不特定話者の音声認識装置におい
て、認識技術の発達と共に、小語彙だけでなく大語彙の
認識装置が開発されてきている。小語彙の認識では、標
準音声を学習する際に、予め多数話者にて全語彙を発声
してもらい、語彙全体を1つの認識単位として学習して
いた。しかし、同じ方法を大語彙に用いる場合、話者に
発声してもらう語彙数が膨大となるため現実的に学習が
困難となる。そこで、大語彙の認識では、語彙全体を小
区間に分割し、各小区間を認識単位として学習を行う方
法を採用している。これにより大語彙全てを予め発声す
る必要はなく、各認識単位を最低1つ含む語彙セットを
発声するだけで、学習が可能となる。
【0003】以下,図面を参照しながら、上述したよう
な従来の音声認識装置について説明を行う。ここでは、
認識単位が音節の場合の認識装置について述べる。
【0004】図6は、従来の単語音声認識装置のブロッ
ク図である。1は音声入力端子,2は分析部、3は音声
区間検出部、4は単語標準音声作成部、18は照合部、
9は認識結果出力端子、10は音節標準音声作成部、1
1は単語辞書、12は音節標準音声保管バッファ、13
はスイッチ、14はメモリバッファである。
【0005】まず標準音声学習時には、予め単語単位で
発声された標準音声を音節単位に区分けしておき、音節
毎に音声を音声入力端子1より入力する。次に分析部2
で認識に必要なスペクトル情報が分析される。スペクト
ル情報としては、たとえばLPCケプストラム法を用い
れば所定の単位時間(以後フレームという)に所定の個
数を1組としたLPCケプストラム係数が特徴パラメー
タとして算出される。上記分析処理を、所定の個数の学
習音声データが終わるまで繰り返す。次に音節標準音声
作成部10で、音節毎に分析されたデータをクラスタリ
ングし、各クラスタの中心データを音節標準音声保管バ
ッファ12に保管する。
【0006】認識時には、入力音声が音声入力端子1か
ら入力され、分析部2でフレーム毎にスペクトル情報が
分析される。分析方法は学習時と同様である。次に音声
区間検出部3で分析部にてLPCケプストラム0係数
(0次係数は、音声パワー情報である)を用いて音声区
間を検出する。音声区間条件は下記2条件である。 (1)音声パワー(0次係数値)が一定以上である。 (2)条件(1)を満たすフレームが一定個数以上継続
している。
【0007】単語辞書11には認識すべき単語名が音節
列として記載されている。次に単語標準音声作成部で、
上記単語辞書の各単語の音節列に従って、音節標準音声
保管パターンの音節標準音声を連結させ、各単語標準音
声を作成する。
【0008】次に照合部18で、上記で作成された単語
標準音声と入力音声との照合を行う。照合は、各単語毎
に、(数3)に従ってiフレームまでの距離Dを求め、
これを単語区間の始端から終端まで行った結果、距離値
Dが最小となる単語を認識結果として、結果出力端子よ
り出力する。
【0009】
【数3】
【0010】なおスイッチ13は、学習時にはバッファ
14に、認識時には音声区間検出部3に特徴パラメータ
を出力するように動作する。
【0011】
【発明が解決しようとする課題】しかしながら上記従来
法の標準音声は、単語単位ではなく音節単位で作成され
るため、単語単位の標準音声には反映される単語内の各
音節の相互関係に関する情報は、上記方法では音節標準
音声に反映されない。そのため、各音節の継続時間の相
互関係も考慮されておらず、同単語内の各音節のマッチ
ング区間が不自然にばらついている場合でも、距離値さ
え小さければ、認識結果として成立してしまうという課
題を有していた。
【0012】
【課題を解決するための手段】本発明は上記課題に鑑
み、各音節の継続時間の間の相互関係を考慮するため
に、単語内の各音節継続時間を全て同一の入力音声区間
長を用いて予測し、認識候補の音節マッチング区間が予
測値と異なる場合に認識候補から除去することにより、
同単語内の各音節のマッチング区間が現実的な場合の
み、認識候補として成立させることが可能となり、より
高性能な装置の実現が可能となる。
【0013】また本発明は、さらに継続時間を予測する
際に、上記構成に加え、さらに認識単位の継続時間を左
右する要因も用いて予測することにより、上記に記載の
装置と同様に従来の課題を解決し、より正確に予測が行
われることで、より高性能な装置の実現が可能となる。
【0014】
【作用】この構成によって、同単語内の各音節のマッチ
ング区間が現実的な場合のみ、認識候補として成立し、
高性能な音声認識装置の実現が可能となる。
【0015】
【実施例】
(実施例1)以下,本発明第1項、第2項に対応する実
施例について図を参照しながら説明する。
【0016】図1は本発明第1の実施例における単語音
声認識装置のブロック図である。1は音声入力端子,2
は分析部、3は音声区間検出部、4は継続時間予測部、
5は単語標準音声作成部、6は照合部、7は誤差算出
部、8は結果評価部、9は認識結果出力端子、10は音
節標準音声作成部、11は単語辞書、12は音節標準音
声保管バッファ、13はスイッチ、14はバッファメモ
リである。前記従来例と同じものは,同一の番号を付与
している。
【0017】以上のように構成された音声認識装置につ
いて以下その動作について説明する。
【0018】まず標準音声学習時には、予め単語単位で
発声された標準音声を音節単位に区分けしておき、音節
毎に音声を音声入力端子1より入力する。次に分析部2
で認識に必要なスペクトル情報が分析される。スペクト
ル情報としては、たとえばLPCケプストラム法を用い
ればフレーム毎にに所定の個数を1組としたLPCケプ
ストラム係数が特徴パラメータとして算出され、バッフ
ァメモリ14に保管される。上記分析処理を、所定の個
数の学習音声データが終わるまで繰り返す。
【0019】次に音節標準音声作成部9で、バッファ1
5に保管されたデータをクラスタリングし、各クラスタ
の中心データを音節標準音声保管バッファ12に保管す
る。
【0020】認識時には、入力音声が音声入力端子1か
ら入力され、分析部2でフレーム毎にスペクトル情報が
分析される。分析方法は学習時と同様である。次に音声
区間検出部3で分析部にてLPCケプストラム0次係数
(0次係数は、音声パワー情報である)を用いて音声区
間を検出する。音声区間条件は下記2条件である。 (1)音声パワー(0次係数値)が一定以上である。 (2)条件(1)を満たすフレームが一定個数以上継続
している。
【0021】次に単語標準音声作成部4で、単語辞書1
1に記載されている単語の音節列に従って、音節標準音
声保管バッファ12にある音節標準音声を連結して単語
標準音声を作成する。方法は従来法と同様である。
【0022】次に照合部で、上記で作成された単語標準
音声と入力音声との照合を行う。照合方法は従来例と同
様に、従来例中の(数3)に従っての距離Dを求め、距
離値Dが小さい順にM個の単語を認識結果候補とする。
また、照合の際、各音節と音節の境界に相当するフレー
ムを記憶しておく。(数3)では、Dn-1(i-1)+dn
(i)の値とDn(i-1)+ dn(i)の値との小さい方
を選択ながら距離を算出しているが、Dn-1(i-1)+d
n(i)値の方を選択した場合のiフレームの値が、n-1
番目の音節とn番目の音節との境界に相当するフレーム
となる。以下境界フレームをPn-1と記載する。
【0023】また一方、音声区間検出部で検出された音
声区間長は継続時間予測部4に入力される。継続時間予
測部では、音声区間長と各単語の音節数とを用いて各音
節の継続時間を予測する。たとえば、音声区間長を音節
数で当分割し、分割された1区間を音節継続時間予測値
としてもよい。
【0024】次に誤差算出部7で、認識照合結果の音節
区間と継続時間予測部で求められた音節区間予測値との
誤差をM個の候補単語毎に算出する。たとえば、(数
4)のように求めてもよい。
【0025】
【数4】
【0026】次に結果評価部8で、誤差Emの値が一定
値以上の候補を、結果候補より除去し、除去されずに残
った候補の中で、最も照合結果の距離値が小さい候補
を、認識結果として出力端子9より出力する。
【0027】以上のように、本実施例によれば、単語内
の各音節継続時間予測値を入力音声区間長と音節数を用
いて求め、認識候補の音節マッチング区間と予測値との
誤差を数4を用いて求め、誤差が一定値より大きい場合
に認識候補から除去することにより、同単語内の各音節
のマッチング区間が現実的な場合のみ、認識候補として
成立させることが可能となり、より高性能な装置の実現
が可能となる。
【0028】(実施例2)次に、本発明第3項〜第5項
に対応する実施例について図を参照しながら説明する。
【0029】図2は本発明第2の実施例における単語音
声認識装置のブロック図である。1は音声入力端子,2
は分析部、3は音声区間検出部、205は継続時間予測
部、5は単語標準音声作成部、6は照合部、7は誤差算
出部、8は結果評価部、9は認識結果出力端子、10は
音節標準音声作成部、21は重み算出部、11は単語辞
書、12は音節標準音声保管バッファ、22は重み保管
バッファ、13はスイッチ、14はバッファメモリであ
る。前記従来例と同じものは,同一の番号を付与してい
る。また図3、図4は第3項〜第5項の各々における2
0の継続時間予測部と21の重み算出部との詳細図であ
る。101は重み正規化部、102は要因平均部、10
3は予測値算出部、104は継続時間カウンタ、105
は平均継続時間算出部である。前記従来例と同じもの
は,同一の番号を付与している。
【0030】以上のように構成された音声認識装置につ
いて以下その動作について説明する。
【0031】まず標準音声学習時には、予め単語単位で
発声された標準音声を音節単位に区分けしておき、音節
毎に音声を音声入力端子1より入力する。次に分析部2
で認識に必要なスペクトル情報が分析される。スペクト
ル情報としては、たとえばLPCケプストラム法を用い
ればフレーム毎にに所定の個数を1組としたLPCケプ
ストラム係数が特徴パラメータとして算出され、バッフ
ァメモリ14に保管される。上記分析処理を、所定の個
数の学習音声データが終わるまで繰り返す。
【0032】次に音節標準音声作成部10で、バッファ
メモリ14に保管されたデータをクラスタリングし、各
クラスタの中心データを音節標準音声保管バッファ12
に保管する。
【0033】次に重み算出部21で、バッファ14に保
管されたデータを(1)その音節の種類毎、(2)単語内でそ
の音節先行する音節の種類毎、(3)単語内でその音節に
後続する音節の種類毎に、それそれクラス分けを行い、
各々の平均継続時間f1、f2,f3を算出する。ま
ず、各音節データの継続時間を継続時間カウンター10
4で算出する。たとえば、各データの所定の個数を1組
としたLPCケプストラム係数列の数をカウントすれば
よい。次に平均継続時間算出部105で、各音節の種類
毎の継続時間の平均値を算出し、上記各音節の種類毎に
重み保管バッファ12に保管する。
【0034】認識時には、入力音声が音声入力端子1か
ら入力され、分析部2でフレーム毎にスペクトル情報が
分析される。分析方法は学習時と同様である。次に音声
区間検出部3で分析部にてLPCケプストラム0次係数
(0次係数は、音声パワー情報である)を用いて音声区
間を検出する。音声区間条件は下記2条件である。 (1)音声パワー(0次係数値)が一定以上である。 (2)条件(1)を満たすフレームが一定個数以上継続
している。
【0035】次に単語標準音声作成部4で、単語辞書1
1に記載されている単語の音節列に従って、音節標準音
声保管バッファ12にある音節標準音声を連結して単語
標準音声を作成する。方法は従来法と同様である。
【0036】次に照合部で、上記で作成された単語標準
音声と入力音声との照合を行う。照合方法は従来例と同
様に、(数3)に従っての距離Dを求め、距離値Dが小
さい順にM個の単語を認識結果候補とする。また、照合
の際、各音節と音節の境界に相当するフレームを記憶し
ておく。(数3)では、Dn-1(i-1)+dn(i)の値
とDn(i-1)+ dn(i)の値との小さい方を選択なが
ら距離を算出しているが、Dn-1(i-1)+dn(i)値
の方を選択した場合のiフレームの値が、n-1番目の音
節とn番目の音節との境界に相当するフレームとなる。
以下境界フレームをPn-1と記載する。
【0037】また一方、音声区間検出部で検出された音
声区間長は継続時間予測部4に入力される。継続時間予
測部4では、学習時に求められている各要因毎の平均音
節区間f1,f2,f3と、音声区間長Lを用いて、
(数1)に従って音節継続時間を予測する。
【0038】まず重み正規化部101で、要因毎に各音
節に相当する平均継続時間を単語全体の平均継続時間
で、(数5)のように正規化する。
【0039】
【数5】
【0040】次に、要因平均部102で、全ての要因
(本実施例の場合は、先行音声の種類、当該音節の種
類、後続音節の種類の3要因)を考慮するために、上記
正規化された平均継続時間を(数6)のように重み付け
加算し、予測値算出部103で、上記値を音声区間長に
数7のように掛けて音節継続時間予測値を算出する。た
だし、数5におけるα値は、本実施例では要因に依らず
一定値とし、要因数(実施例では3)分の1(=1/3)
を用いた。
【0041】
【数6】
【0042】
【数7】
【0043】次に誤差算出部7で、認識照合結果の音節
区間と継続時間予測部で求められた音節区間予測値との
誤差をM個の候補単語毎に算出する。たとえば、(数
4)のように求めてもよい。
【0044】次に結果評価部8で、(数4)により求め
られた誤差Emの値が一定値以上の候補を、結果候補よ
り除去し、除去されずに残った候補の中で、最も照合結
果の距離値が小さい候補を、認識結果として出力端子9
より出力する。
【0045】以上のように、本実施例によれば、予め重
み算出部で、音節継続時間を左右する要因毎に平均音節
継続時間を算出しておき、継続時間予測部で、入力音声
の音声区間長と上記平均継続時間とを用いて、(数1)
を用いて認識しようとする入力音声の認識単位毎の継続
時間を予測し、認識候補の音節マッチング区間と予測値
との誤差を(数4)を用いて求め、誤差が一定値より大
きい場合に認識候補から除去することにより、同単語内
の各音節のマッチング区間が現実的な場合のみ、認識候
補として成立させることが可能となり、より高性能な装
置の実現が可能となる。また、継続時間を左右する重み
を用いて予測することで、第1の実施例よりさらに高性
能な装置の実現が可能となる。
【0046】(実施例3)次に,本発明第6項に対応す
る実施例について図を参照しながら説明する。図2は本
発明第3の実施例における単語音声認識装置のブロック
図、図3は重み算出部9の詳細図であり、上記実施例と
同様である。また図5は第6項における継続時間予測部
の詳細図である。107は学習音声継続時間予測部、1
08は入力音声継続時間予測部である。前記従来例と同
じものは,同一の番号を付与している。
【0047】以上のように構成された音声認識装置につ
いて以下その動作について説明する。
【0048】まず標準音声学習時には、予め単語単位で
発声された標準音声を音節単位に区分けしておき、音節
毎に音声を音声入力端子1より入力する。次に分析部2
で認識に必要なスペクトル情報が分析される。スペクト
ル情報としては、たとえばLPCケプストラム法を用い
ればフレーム毎にに所定の個数を1組としたLPCケプ
ストラム係数が特徴パラメータとして算出され、バッフ
ァメモリ14に保管される。上記分析処理を、所定の個
数の学習音声データが終わるまで繰り返す。
【0049】次に音節標準音声作成部10で、バッファ
メモリ14に保管されたデータをクラスタリングし、各
クラスタの中心データを音節標準音声保管バッファ12
に保管する。
【0050】次に重み算出部21で、バッファ14に保
管されたデータを(1)その音節の種類毎、(2)単語内でそ
の音節先行する音節の種類毎、(3)単語内でその音節に
後続する音節の種類毎に、それそれクラス分けを行い、
各々の平均継続時間f1、f2,f3を算出する。ま
ず、各音節データの継続時間を継続時間カウンター10
4で算出する。たとえば、各データの所定の個数を1組
としたLPCケプストラム係数列の数をカウントすれば
よい。次に平均継続時間算出部105で、各音節の種類
毎の継続時間の平均値を算出し、上記各音節の種類毎に
重み保管バッファ12に保管する。
【0051】認識時には、入力音声が音声入力端子1か
ら入力され、分析部2でフレーム毎にスペクトル情報が
分析される。分析方法は学習時と同様である。次に音声
区間検出部3で分析部にてLPCケプストラム0次係数
(0次係数は、音声パワー情報である)を用いて音声区
間を検出する。音声区間条件は下記2条件である。 (1)音声パワー(0次係数値)が一定以上である。 (2)条件(1)を満たすフレームが一定個数以上継続
している。
【0052】次に単語標準音声作成部4で、単語辞書1
1に記載されている単語の音節列に従って、音節標準音
声保管バッファ12にある音節標準音声を連結して単語
標準音声を作成する。方法は従来法と同様である。
【0053】次に照合部で、上記で作成された単語標準
音声と入力音声との照合を行う。照合方法は従来例と同
様に、(数3)に従っての距離Dを求め、距離値Dが小
さい順にM個の単語を認識結果候補とする。また、照合
の際、各音節と音節の境界に相当するフレームを記憶し
ておく。(数3)では、Dn-1(i-1)+dn(i)の値
とDn(i-1)+ dn(i)の値との小さい方を選択なが
ら距離を算出しているが、Dn-1(i-1)+dn(i)値
の方を選択した場合のiフレームの値が、n-1番目の音
節とn番目の音節との境界に相当するフレームとなる。
以下境界フレームをPn-1と記載する。
【0054】また一方、音声区間検出部で検出された音
声区間長は継続時間予測部4に入力される。継続時間予
測部4では、学習時に求められている各要因毎の平均音
節区間f1,f2,f3と、音声区間長Lを用いて、請
求項第5項の数2に従って音節継続時間を予測する。
【0055】まず学習音声継続時間予測部107で、学
習音声における各音節の継続時間を、予め学習された要
因毎の平均音節継続時間f1、f2,f3に重み付けし
て加算する数8を用いて予測する。次に入力音声継続時
間予測部108で、音声区間長を用いて、上記学習音声
における音節継続時間の値を入力音声用に変換し(数
9)、予測値とする。ただし、(数8)におけるα値
は、本実施例では要因に依らず一定値とし、要因数(実
施例では3)分の1(=1/3)を用いた。
【0056】
【数8】
【0057】
【数9】
【0058】次に誤差算出部7で、認識照合結果の音節
区間と継続時間予測部で求められた音節区間予測値との
誤差をM個の候補単語毎に算出する。たとえば、先の実
施例に記載の(数4)のように求めてもよい。
【0059】次に結果評価部8で、(数4)で求められ
た誤差Emの値が一定値以上の候補を、結果候補より除
去し、除去されずに残った候補の中で、最も照合結果の
距離値が小さい候補を、認識結果として出力端子9より
出力する。
【0060】以上のように、本実施例によれば、予め重
み算出部で、音節継続時間を左右する要因毎に平均音節
継続時間を算出しておき、継続時間予測部で、入力音声
の音声区間長と上記平均継続時間とを用いて、(数2)
を用いて認識しようとする入力音声の認識単位毎の継続
時間を予測し、認識候補の音節マッチング区間と予測値
との誤差を(数4)を用いて求め、誤差が一定値より大
きい場合に認識候補から除去することにより、同単語内
の各音節のマッチング区間が現実的な場合のみ、認識候
補として成立させることが可能となり、より高性能な装
置の実現が可能となる。また、継続時間を左右する重み
を用いて予測することで、上記実施例よりさらに高性能
な装置の実現が可能となる。
【0061】
【発明の効果】以上のように本発明の音声認識装置は、
音声区間検出部で検出された音声区間長を用いて、継続
時間予測部で入力音声の認識単位の継続時間を予測し、
予測された継続時間と照合結果の認識単位区間との違い
を用いて、認識結果を評価し、信頼性のないと評価され
た認識結果を除去することにより、同単語内の各音節の
マッチング区間が現実的な場合のみ、認識候補として成
立させることが可能となり、より高性能な装置の実現が
可能となる。
【0062】また、誤差算出部において、予測された継
続時間と認識候補の照合区間長との差を認識単位毎に算
出し、全認識単位分の差の平均値を求め、結果評価部
で、誤差が一定いき値以上の認識候補を結果から除去す
ることにより、同単語内の各音節のマッチング区間が現
実的な場合のみ、認識候補として成立させることが可能
となり、より高性能な装置の実現が可能となる。
【0063】また、上記の音声認識装置の構成に重み算
出部を加え、ここで認識単位の継続時間を左右する要因
を用いて音節毎の重みを算出し、音声区間検出部で検出
された音声区間長と重み算出部で算出された重みとを用
いて、入力音声の認識単位毎の継続時間を予測し、予測
された継続時間と照合結果の認識単位区間との違いを用
いて、認識結果を評価し、信頼性のないと評価された認
識結果を除去することにより、同単語内の各音節のマッ
チング区間が現実的な場合のみ認識候補として成立させ
る効果が、非常に高性能に行われる装置の実現が可能と
なる。
【0064】また、重み算出部において、認識単位の継
続時間を左右する要因毎に、各要因において同カテゴリ
ーに属する認識単位の平均継続時間を求めることによ
り、同単語内の各音節のマッチング区間が現実的な場合
のみ、認識候補として成立させることが可能となり、よ
り高性能な装置の実現が可能となる。
【0065】また、継続時間予測部において、算出され
た平均継続時間(数1内のfj(t))を用いて、予め各要
因毎に音声区間全長の平均継続時間と各認識単位の平均
継続時間との比を求めておき、その比を要因全体で重み
づけしながら加算した値を用いて、音声区間全長(数1
内のL)から入力音声の認識単位毎の継続時間の予測値
を算出することにより、同単語内の各音節のマッチング
区間が現実的な場合のみ、認識候補として成立させるこ
とが可能となり、より高性能な装置の実現が可能とな
る。
【0066】さらに、継続時間予測部において、算出さ
れた平均継続時間(数2内のf(i))を用いて、予め学習
音声における認識単位毎の継続時間を予測しておき、こ
の予測値を用いて、音声区間全長(数2内のL)から入
力音声の認識単位毎の継続時間の予測値を算出すること
により、同単語内の各音節のマッチング区間が現実的な
場合のみ、認識候補として成立させることが可能とな
り、より高性能な装置の実現が可能となる。
【図面の簡単な説明】
【図1】本発明の実施例における音声認識装置のブロッ
ク図
【図2】本発明の実施例における音声認識装置のブロッ
ク図
【図3】本発明の実施例における重み算出部のブロック
【図4】本発明の実施例における継続時間予測部のブロ
ック図
【図5】本発明の実施例における継続時間予測部のブロ
ック図
【図6】本発明の従来例における音声認識装置のブロッ
ク図
【符号の説明】
1 信号入力端子 2 分析部 3 音声区間検出部 4 単語標準音声作成部 5 継続時間予測部 6 照合区間決定部 7 照合部 8 認識結果出力端子 9 音節標準音声作成部 10 重み算出部 11 単語辞書 12 音節標準音声保管バッファ 13 平均継続時間保管バッファ 14 スイッチ 15 バッファメモリ

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】入力音声の始終端を検出する音声区間検出
    部と、認識単位毎の標準音声と入力音声との照合および
    認識結果候補の決定を行う照合部と、検出された音声区
    間長を用いて入力音声の認識単位毎の継続時間を予測す
    る継続時間予測部と、予測された継続時間と認識候補の
    照合結果との違いを算出する誤差算出部と、この誤差を
    用いて信頼性のない認識候補を除去する結果評価部を具
    備することを特徴とする音声認識装置。
  2. 【請求項2】予測された継続時間と認識候補の照合区間
    長との差を認識単位毎に算出し、全認識単位分の差の平
    均値を求める誤差算出部と、誤差が一定いき値以上の認
    識候補を結果から除去する結果評価部を具備することを
    特徴とする請求項1に記載の音声認識装置。
  3. 【請求項3】入力音声の始終端を検出する音声区間検出
    部と、認識単位毎の標準音声と入力音声との照合および
    認識結果候補の決定を行う照合部と、認識単位の継続時
    間を左右する要因を用いて重みを算出する重み算出部
    と、音声区間検出部で検出された音声区間長と重み算出
    部で算出された重みとを用いて、入力音声の認識単位毎
    の継続時間を予測する継続時間予測部と、予測された継
    続時間と照合結果との違いを算出する誤差算出部と、こ
    の誤差を用いて信頼性のない結果候補を除去する結果評
    価部とを具備することを特徴とする音声認識装置。
  4. 【請求項4】認識単位の継続時間を左右する要因毎に、
    各要因において同カテゴリーに属する認識単位の平均継
    続時間を求め、これを重みとする重み算出部からなるこ
    とを特徴とする請求項3に記載の音声認識装置。
  5. 【請求項5】算出された平均継続時間fj(i)を用いて、
    予め各要因毎に音声区間全長の平均継続時間と各認識単
    位の平均継続時間との比を求めておき、その比を要因全
    体で重みづけしながら加算した値を用いて、音声区間全
    長Lから入力音声の認識単位毎の継続時間の予測値を
    (数1)を用いて算出する継続時間予測部を具備するこ
    とを特徴とする請求項4に記載の音声認識装置。 【数1】
  6. 【請求項6】算出された平均継続時間f(i)を用いて、予
    め学習音声における認識単位毎の継続時間を予測してお
    き、この予測値を用いて、音声区間全長Lから入力音声
    の認識単位毎の継続時間の予測値を(数2)を用いて算
    出する継続時間予測部を具備することを特徴とする請求
    項4に記載の音声認識装置。 【数2】
JP5217286A 1993-04-14 1993-09-01 音声認識装置 Pending JPH0772899A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP5217286A JPH0772899A (ja) 1993-09-01 1993-09-01 音声認識装置
US08/225,630 US5526466A (en) 1993-04-14 1994-04-11 Speech recognition apparatus
KR1019940007784A KR0134158B1 (ko) 1993-04-14 1994-04-14 음성인식장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5217286A JPH0772899A (ja) 1993-09-01 1993-09-01 音声認識装置

Publications (1)

Publication Number Publication Date
JPH0772899A true JPH0772899A (ja) 1995-03-17

Family

ID=16701761

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5217286A Pending JPH0772899A (ja) 1993-04-14 1993-09-01 音声認識装置

Country Status (1)

Country Link
JP (1) JPH0772899A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013072974A (ja) * 2011-09-27 2013-04-22 Toshiba Corp 音声認識装置、方法及びプログラム
JP5583301B1 (ja) * 2013-11-29 2014-09-03 三菱電機株式会社 音声認識装置
JP2015092286A (ja) * 2015-02-03 2015-05-14 株式会社東芝 音声認識装置、方法及びプログラム
US10475441B2 (en) 2017-06-07 2019-11-12 Hyundai Motor Company Voice end-point detection device, system and method

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013072974A (ja) * 2011-09-27 2013-04-22 Toshiba Corp 音声認識装置、方法及びプログラム
JP5583301B1 (ja) * 2013-11-29 2014-09-03 三菱電機株式会社 音声認識装置
WO2015079568A1 (ja) * 2013-11-29 2015-06-04 三菱電機株式会社 音声認識装置
US9424839B2 (en) 2013-11-29 2016-08-23 Mitsubishi Electric Corporation Speech recognition system that selects a probable recognition resulting candidate
JP2015092286A (ja) * 2015-02-03 2015-05-14 株式会社東芝 音声認識装置、方法及びプログラム
US10475441B2 (en) 2017-06-07 2019-11-12 Hyundai Motor Company Voice end-point detection device, system and method

Similar Documents

Publication Publication Date Title
US5732394A (en) Method and apparatus for word speech recognition by pattern matching
KR0134158B1 (ko) 음성인식장치
EP1139332A2 (en) Spelling speech recognition apparatus
JP4202124B2 (ja) 話者独立音声認識システムのための音声テンプレートを構成するための方法及び装置
JP2017097162A (ja) キーワード検出装置、キーワード検出方法及びキーワード検出用コンピュータプログラム
EP1355295A2 (en) Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded
JP2006215564A (ja) 自動音声認識システムにおける単語精度予測方法、及び装置
KR101014086B1 (ko) 음성 처리 장치 및 방법, 및 기록 매체
JP2000172295A (ja) 低複雑性スピ―チ認識器の区分ベ―スの類似性方法
JP4696418B2 (ja) 情報検出装置及び方法
JP4666129B2 (ja) 発声速度正規化分析を用いた音声認識装置
KR20040038419A (ko) 음성을 이용한 감정인식 시스템 및 감정인식 방법
JPH0772899A (ja) 音声認識装置
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
JP3114389B2 (ja) 音声認識装置
JP2001083978A (ja) 音声認識装置
JP3868798B2 (ja) 音声認識装置
JPH06301400A (ja) 音声認識装置
JP5136621B2 (ja) 情報検索装置及び方法
JPH10254477A (ja) 音素境界検出装置及び音声認識装置
JPH0997095A (ja) 音声認識装置
JP2001013988A (ja) 音声認識方法及び装置
JP3293191B2 (ja) 音声認識装置
JP3917880B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
JPH10149190A (ja) 音声認識方法及び音声認識装置