JPH04166900A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH04166900A
JPH04166900A JP2292146A JP29214690A JPH04166900A JP H04166900 A JPH04166900 A JP H04166900A JP 2292146 A JP2292146 A JP 2292146A JP 29214690 A JP29214690 A JP 29214690A JP H04166900 A JPH04166900 A JP H04166900A
Authority
JP
Japan
Prior art keywords
voice
speech
section
keyword
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2292146A
Other languages
English (en)
Inventor
Tsuneo Nitta
恒雄 新田
Nobuo Sugi
杉 伸夫
Akira Fukumine
福嶺 明
Akira Nakayama
昭 中山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Computer Engineering Corp
Original Assignee
Toshiba Corp
Toshiba Computer Engineering Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Computer Engineering Corp filed Critical Toshiba Corp
Priority to JP2292146A priority Critical patent/JPH04166900A/ja
Publication of JPH04166900A publication Critical patent/JPH04166900A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [発明の目的] (産業上の利用分野) 本発明は騒音下での音声区間検出精度を高めて入力音声
を確実に、信頼性良く認識することのできる音声認識装
置に関する。
(従来の技術) 音声認識の技術は、優れたマンマシン・インターフェー
スを実現する上での重要な役割を担っている。この種の
音声認識において、その認識性能を高める上での重要な
前処理として、その音声区間を如何にして精度良く検出
するかと云う技術があり、従来より種々研究されている
。特に音声認識装置を実用化する場合、耐騒音性の向上
を図ることが大きな課題であり、騒音下での音声認識に
おける上述した音声区間の検出が、その認識性能を大き
く左右する。
さてこの音声区間検出は、従来では専ら入力音声のパワ
ー時系列を求め、その音声パワーの値が所定の閾値T、
よりも大きくなった時点を音声区間の始端Sとし、また
始端検出後に前記音声パワーの値が所定の閾値T2より
小さくなった時点をその終端Eとして検出して行われる
。従ってその音声区間を一意に決定することができる。
ところがこのような音声区間の検出法では、例えば実際
の音声区間の前後に息洩れや舌打ちノイズ等が存在する
と、これらの雑音区間をも音声区間の一部として検出し
てしまうと云う不具合がある。また逆に音節の先頭や最
終音節が無声化し易い単語音声の場合には、その無声化
音節部分の音声パワーが極端に小さくなるので、この部
分が音声区間から脱落し易いと云う不具合がある。
このような音声区間の検出誤りは、その音声認識におい
て致命的な誤認識の原因となり、認識リジェクトの要因
となる。
そこで本発明者等は、先に「単語境界仮説法」と称する
音声認識の手法を提唱した。この手法は、■先ず入力音
声に対して複数の始端候補(sl。
S2.〜.SM)と複数の終端候補(El、E2゜〜、
EN)とをそれぞれ求める。■次にこれらの各候補に対
して所定の規則に従って確率(1、、。
f−2,−、f−+、+) 、 (f=+、 f−2,
−、feN)を与え、前記始端候補と終端候補とにより
規定される複数の音声区間候補(S、、、、En)[但
し、n+−1,2,3,〜、M、 n−1,2,3,〜
、N]についての尤度L m++を り、。  −fsm   X   fBnとしてそれぞ
れ計算する。■しかる後、上述した如く計算された尤度
L□。を相互に比較し、尤度L□。の高い複数の音声区
間候補についてだけ、その音声区間候補における入力音
声の特徴パターンと標準パターンとの間でマツチング処
理し、そのマツチング処理結果から、例えば類似度の最
も高い標準パターンのカテゴリを前記入力音声に対する
認識結果として求めるものである。
このような音声認識の手法によれば、従来問題となった
音声区間の誤検出の問題に効果的に対処することが可能
となる。しかしその反面、上述した如く検出される複数
の音声区間候補の中に誤った音声区間が含まれることが
否めない。特に騒音環境下で音声入力した場合、このよ
うな音声区間の誤検出が生じ易い。この為、誤った音声
区間候補の標準パターンとのマツチング結果である類似
度が、正しい音声区間の標準パターンに対する類似度よ
りも大きくなることが希に生じ、このような場合には誤
った認識結果が求められると云う不具合が生じる。
(発明が解決しようとする課題) このように従来にあっては、入力音声を効率良く、且つ
高精度に認識する上で種々の問題が残されている。特に
音声認識装置を実用化するに際して、騒音下での音声区
間の検出精度を如何にして高めるかと云う点で大きな課
題が残されている。
本発明はこのような事情を考慮してなされたもので、そ
の目的とするところは、同一のキーワードや音声を構成
する部分パターンを含む成る諸量セットを音声認識する
に際して、その音声区間検出を高精度に行うことができ
、しかもその音声を確実に認識することのできる実用性
の高い音声認識装置を提供することにある。
[発明の構成コ (課題を解決するための手段) 本発明に係る音声認識装置は、入力音声を音響分析して
求められる上記入力音声の特徴パラメータから、予め定
められているキーワードや音声を構成する部分パターン
を検出すると共にその検自位置を求め、検出されたキー
ワードや部分パターンの検出位置を基準にして前記入力
音声における音声区間候補を求め、この音声区間候補の
特徴パターンと予め辞書登録されている認識対象語量の
音声の標準パターンとをマツチング処理して前記入力音
声に対する音声認識結果を求めるようにしたことを特徴
とするものである。
つまり入力音声中に含まれる特定の語量(キーワード)
を手掛かりとして、その語量部分の音声パターンを検出
し、この音声パターンの検出位置を基準として入力音声
中の音声区間の候補を検出し、その音声区間候補につい
て前記入力音声に対する認識(識別)処理を行うように
したことを特徴とするものである。
(作 用) 本発明によれば、予め定められたキーワードや音声を構
成する部分パターンを含む語量セットを音声認識するに
際し、入力音声の特徴パラメータの中からキーワードや
音声を構成する部分パターンに相当する部分を検出し、
その検出位置を基″ −6− 準として音声区間候補の設定を行った上で音声区間候補
における入力音声の特徴パターンと標準パターンとのマ
ツチング処理を行うので、音声区間検出の精度を十分高
くすることかでき、その分、音声認識精度の向上を図る
ことが可能となる。
(実施例) 以下、図面を参照して本発明の一実施例に係る音声認識
装置について説明する。
尚、ここでは説明の便宜上、人力音声中の音声区間を発
声区間と単語区間とに分けて説明する。
この発声区間は認識の対象となる単語部分以外に、その
前後に付加されるノイズや不要語等を含めた音声区間全
体を表すものであり、前記単語区間は上記発声区間に含
まれる認識の対象となる単語部分の所望の音声区間を表
すものとする。
第1図は実施例装置の概略的な構成図であり、1は入力
音声を音響分析してその特徴パラメータを求める音響分
析部である。この音響分析部1は、例えば音声区間検出
に用いる特徴量として入力音声パワーの時系列を求める
と共に、後述する認識辞書との照合に用いる為の特徴量
として、例えば周波数分析したバンドパス・フィルタ群
(フィルタバンク)出力を求め、これらの特徴量の時系
列を特徴パラメータとして出力する。
キーワード検出部2は、上述した音響分析部1にて求め
られた特徴パラメータを用いて入力音声の発声区間の検
出し、同時にキーワードパターン辞書3を参照して上記
音声区間内に含まれるキーワード部分の検出を行う。具
体的にはキーワード検出部2は未知の入力音声に対して
、先ず前記音響分析部lにて求められた特徴パラメータ
の中の音声パワーを用いて音声の発声区間の大まかな検
出を行う。この大まかな音声区間の検出は、具体的には
音声パワーの値に対して所定の閾値T1を越えた時点か
ら、所定の閾値T2を下回る時点までを発声区間とする
等の、従来より一般的に用いられている音声区間検出の
手法を用いて行われる。
しかる後、キーワード検出部2は上述した如く大まかに
検出された音声区間(発声区間)において、前記キーワ
ードパターン辞書3に示されるキーワードに相当する音
声部分が存在するか否かを調べ、キーワードに該当する
音声部分とその検出位置とを求める。このキーワードの
検出処理は、例えば前記発声区間の中から適当な大きさ
の区間を時間方向にずらしながら順次切り出し、それぞ
れの区間に対して前記キーワードパターン辞書3に登録
されているキーワードの標準パターンとの間で類似度演
算を行い、その類似度値が最大となる区間を、上記キー
ワードに相当する音声区間であると判定することにより
行われる。
尚、前記キーワードパターン辞書3は、予めキーワード
としてカテゴリの既知なる音声を理想条件下で入力した
ときに求められる特徴パラメータを、その標準パターン
として登録したものである。
以上のようにして入力音声の発声区間と、その発声区間
におけるキーワードの検出位置が求められると、単語境
界仮説生成部4が起動される。この単語境界仮説生成部
4では前記キーワード検出部2にて検出されたキーワー
ドの検出位置を基準として単語境界候補を設定し、入力
音声の単語区間候補を求める。
類似度演算部5は上記単語境界仮説生成部4にて生成さ
れた単語境界候補に対して標準パターン辞書6に予め記
憶されている認識対象単語についての標準パターンとの
間でそれぞれ類似度を計算する。この類似度計算は、従
来より種々提唱されている複合類似度法や混合類似度法
等を用いて行われる。
認識結果出力部7は、このようにして類似度演算部5に
て求められた認識対象単語についての各標準パターンと
の間での類似度を相互に比較し、例えば最上位の類似度
値をとる単語カテゴリ名(カテゴリ番号)、或いはその
類似度値が上位の複数の単語カテゴリ名(カテゴリ番号
)を求め、これを認識結果(候補)として出力すること
になる。
次にこのように構成された本装置の具体的な機能につい
て説明する。
この実施例装置は、例えば第2図に示すようなエレベー
タにおける行き先駆を特定する単語セラトを音声入力し
、これを認識するようなシステムに組み込まれる。尚、
この第2図に示した単語セットはそれぞれ1階;かい」
と云う同一のキーワードを共通に含んでいる。そして実
施例装置はこのキーワードを1階」を含む、「00階」
と云う入力単語音声を認識するものとなっている。
成る音声が入力されると前記音響分析部1は、その入力
音声を音響分析し、前述したように音声パワーの時系列
やバンドパス・フィルタ群出力からなる特徴パラメータ
を第3図に示すように求める。第3図(a)に示す特徴
パラメータは、「さんかい」と発声したときの特徴パラ
メータを示しており、また同図(b)は[え−、さんか
いまで」と発声したときの特徴パラメータを示している
このような特徴パラメータを入力して前記キーワード検
出部2は、その大まかな音声区間(発声区間)を、例え
ば第3図(b)に示す特徴パラメータの例では音声パワ
ーの時系列に従い、[S2]から[E]までに示す区間
として検出する。そしてキーワード検出部2は、このよ
うにして求めた発声区間において前記キーワード「かい
」の区間を検出する。このキーワード区間の検出は、前
述した如く適当な大きさの区間を時間方向にずらしなが
ら順次切り出し、それぞれの区間の特徴パターンと前記
キーワード「かい」の標準パターンとの間で類似度演算
を行い、その類似度値か最大となる区間を前記キーワー
ド「かい」の区間であると判断することによりなされる
。このようなキーワード検出により第3図(b)に示す
例では[K5]から[K8]までがキーワード区間とし
て求められる。
次に前記単語境界仮説生成部4は、前記音響分析部lに
て求められた入力音声の特徴パラメータに対して種々の
単語区間検出パラメータを適応的に設定して複数の単語
区間候補を設定する。例えば入力音声に対して前記キー
ワード検出部2が求めたキーワード「かい」の始端の位
置を単語区間の終端候補とし、これより前の時点に複数
の始点候補(Sl、S2.〜.SM)を求めて複数の単
語区間候補を設定する。第3図(b)に示す例では始点
候補(Sl、S2)が求められ、単語区間候補が[Sz
、KS]、[S2.KS]として設定される。しかして
単語境界仮説生成部4は、上述した如く設定した各単語
区間候補の特徴パラメータを時間正規化して特徴パター
ンを生成し、この特徴パターンを前記類似度演算部5に
与える。
しかして類似度演算部5は、上述した如く求められた入
力単語音声の特徴パターンと、前記標準パターン辞書6
に予め登録されている認識対象単語の各標準パターンと
の間で、例えば複合類似度法や混合類似度法等の手法を
用いてその類似度をそれぞれ計算する。このような類似
度演算により求められた類似度値が認識結果出力部7に
送られる。
尚、標準パターン辞書6に登録されている認識対象単語
の標準パターンは、予めカテゴリ名が既知の入力音声を
音響分析し、その音声区間の発声時間長の正規化等を施
してその特徴パターンを抽出し、これを+1を語音声の
カテゴリ名に対応付けることにより作成される。またこ
の実施例では[さんかい」の「さん」、「にがい」の「
に」等の部分に相当する音声の特徴パターンを標準パタ
ーンとして登録しているが、「さんかい」や「にかい」
等の単語音声区間の全体の特徴パターンを標準パターン
として登録するようにしても良い。このようにして標準
パターンが登録されている場合には、前述した単語境界
仮説生成部4では、前記キーワード「かい」の終端位置
を単語区間の終端候補として、その単語区間候補をそれ
ぞれ求めるようにすれば良い。
認識結果出力部7は、以上のようにして前記類似度演算
部5で求められる全ての類似度を相互に比較し、その類
似度値が最上位のもの、または類似度値が上位の複数個
のカテゴリ名やカテゴリ番号を前記入力音声の認識結果
(候補)として抽出し、これを出力する。
かくして上述した如く機能する実施例装置によれば、入
力音声に含まれるキーワードを手掛りとし、入力音声の
特徴パラメータの系列における上記キーワードの部分パ
ターンを検出した上で、そのキーワード検出位置を基準
として音声区間候補を設定して音声認識処理を行うので
、音声認識に供する音声区間の検出精度を十分に高くす
ることができる。つまり認識対象とする単語音声に共通
に含まれるキーワードの位置に従って音声区間の検出を
行うので、認識しようとする音声部分の前後にノイズや
不用語が付加されている場合であっても、必要な音声部
分(音声区間)だけを高精度に検出することができる。
この結果、精度の高い音声区間検出の下で、精度の高い
音声認識を信頼性良く実行することかできる等の実用上
多大なる効果が奏せられる。
尚、本発明は上述した実施例に限定されるものではない
。例えばこの実施例では「かい」のみをキーワードとし
ているが、他のキーワードを同様にして設定することも
勿論可能である。また必要に応じて「がい」等も「かい
」の派生語としてキーワードに加え、「さんかい」等と
して発声される入力音声にも対応可能としても良い。更
には「じゅう」等のキーワードを加えることにより、1
0階以上の行き光層を特定する音声単語にも対処し得る
ようにしても良く、キーワードを複数個持つように変形
して実施することも可能である。
その他、本発明はその要旨を逸脱しない範囲で種々変形
して実施することができる。
[発明の効果] 以上説明したように本発明によれば、音声認識の対象と
なる単語(語量)セットに共通に用いられるキーワード
、若しくは音声を構成する部分パターンが含まれるよう
な入力音声を認識処理するに際して、上記キーワードや
部分パターンを予め検出した後、その検出位置を基準と
して所望とする音声区間の検出を行うので、従来の音声
区間検出法に比較して格段に高精度な音声区間検出が可
能となる。更には所望の音声区間の前後に付加されるノ
イズや不要語等にも対処できるので、耐騒音性の点でも
優れ゛ている。従って音声認識装置の性能や信頼性の向
上を図り得る等の実用上多大なる効果が奏せられる。
【図面の簡単な説明】
図は本発明の一実施例に係る音声認識装置について示す
もので、第1図は実施例装置の概略構成図、第2図は実
施例で用いられる単語セットの例を示す図、第3図は入
力音声の特徴パターンの例を示す図である。 ■・・・音響分析部、2・・・キーワード検出部、3・
・・キーワードパターン辞書、4・・・単語境界仮説生
成部、5・・・類似度演算部、6・・・標準パターン辞
書、7・・・認識結果出力部。 出願人代理人 弁理士 鈴江武彦 = 17−

Claims (1)

    【特許請求の範囲】
  1. 入力音声を音響分析して上記入力音声の特徴パラメータ
    を求める手段と、この入力音声の特徴パラメータから予
    め設定されたキーワードまたは音声を構成する部分パタ
    ーンを検出し、この部分パターンの検出位置の情報を求
    める手段と、この手段にて検出された前記部分パターン
    の検出位置情報を基準にして前記入力音声が示す単語音
    声全体または前記部分パターンを識別する手段とを具備
    したことを特徴とする音声認識装置。
JP2292146A 1990-10-31 1990-10-31 音声認識装置 Pending JPH04166900A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2292146A JPH04166900A (ja) 1990-10-31 1990-10-31 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2292146A JPH04166900A (ja) 1990-10-31 1990-10-31 音声認識装置

Publications (1)

Publication Number Publication Date
JPH04166900A true JPH04166900A (ja) 1992-06-12

Family

ID=17778139

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2292146A Pending JPH04166900A (ja) 1990-10-31 1990-10-31 音声認識装置

Country Status (1)

Country Link
JP (1) JPH04166900A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007057844A (ja) * 2005-08-24 2007-03-08 Fujitsu Ltd 音声認識システムおよび音声処理システム
JP2009175179A (ja) * 2008-01-21 2009-08-06 Denso Corp 音声認識装置、プログラム、及び発話信号抽出方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007057844A (ja) * 2005-08-24 2007-03-08 Fujitsu Ltd 音声認識システムおよび音声処理システム
JP2009175179A (ja) * 2008-01-21 2009-08-06 Denso Corp 音声認識装置、プログラム、及び発話信号抽出方法

Similar Documents

Publication Publication Date Title
US8249870B2 (en) Semi-automatic speech transcription
US4802231A (en) Pattern recognition error reduction system
JP2002533789A (ja) 自動音声認識システムにおけるnベストリストに用いる知識ベース戦略
US9424839B2 (en) Speech recognition system that selects a probable recognition resulting candidate
JPS62217295A (ja) 音声認識方式
JPS59121100A (ja) 連続音声認識装置
JP2996019B2 (ja) 音声認識装置
JPH04166900A (ja) 音声認識装置
JP2853418B2 (ja) 音声認識方法
JP2892004B2 (ja) 単語音声認識装置
JPH02298996A (ja) 単語音声認識装置
JPS6147999A (ja) 音声認識装置
JPH06348291A (ja) 単語音声認識方法
JPH01185599A (ja) 音声認識装置
JPH0211919B2 (ja)
JP4297349B2 (ja) 音声認識システム
JP2882088B2 (ja) 音声認識方法
JPH0554678B2 (ja)
JPH03174600A (ja) 音声認識方式
JPS60115996A (ja) 音声認識装置
JPH03174599A (ja) 音声認識方式
JPS59124394A (ja) 単音節音声認識方式
JPH06110491A (ja) 音声認識装置
JPS6346499A (ja) 大語▲い▼単語音声認識方式
JPS59124390A (ja) 候補削減音声認識方式