JPS60260096A

JPS60260096A - 音声認識装置

Info

Publication number: JPS60260096A
Application number: JP59116002A
Authority: JP
Inventors: 小笠原　芳朗; 竹内　亜紀彦
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1984-06-06
Filing date: 1984-06-06
Publication date: 1985-12-23

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［産業上の利用分野］本発明は、データ入力などに使用する音声認識装置にお
ける音声区間検出しきい値の補正方式に関する。

データ入力などに使用する音声認識装置は音声入力装置
と呼ばれ、比較的限定された単語の入力音声を認識して
データ入力とするものである。一般に、不特定の話者の
音声を対象とする場合には、その単語に特有であって、
総ての人について共通なあらゆる特徴を抽出して認識し
、誤認識を減少させなければならないが、これは認識処
理そのものだけではなく、その前段階の処理である音声
区間検出処理などにおいても、同様にいえることである
。

［従来の技術］第２図は、データ入力などに使用する音声認識装置の代
表的な構成ブロック図である。図において、１は前処理
部、２はパラメータ抽出部、３は音声区間抽出部、４は
照合部、５は認識辞書、６は判定部をそれぞれ示す。

入力された音声信号は、前処理部１においてアナログ／
ディジタル変換され、パラメータ抽出部２において１フ
レーム（例えば１５＋ｎｓ　）ごとにケプストラム・デ
ータその他のパラメータの抽出が行われる。

次いで、音声区間抽出部３において、音声パワーを一定
に設定されたしきい値と比較し゛て、これを越えたとき
に音声区間として抽出して、照合部４に特徴データを送
り、照合部４においてはその特徴データと認識辞書５と
の比較、照合を行い、判定部６において音声の判定を行
い出力する。

従来の装置においては、音声区間検出しきい値は、最初
に設定されると終了まで一定のものであった。

［発明が解決しようとする問題点］一般にｉ系の単語（例えば「イチ」　「二Ｊ）は他の単
語（例えばｒサン」「コンＪ）に比べて音声パワーが低
く、音声区間検出しきい値が一定である従来装置におい
ては、ｉ系単語については音声区間検出しきい値が高す
ぎる状態とな、す、欠落などを生じて誤認識となること
が多かった。

［問題点を解決するための手段］上記問題点は、ｉ系の音声入力があったとき、ｉ系の単
語であることを判断する手段を設け、ｉ系の単語と判断
したときは、音声区間検出しきい値のレベルを下げて音
声認識を行うよう構成した本発明によって達成される。

また、ｉ系判断手段としては、音声パワーが最大である
フレームのケプストラム・データにおいて、２次／３次
／４次のデータの合計値を指定した一定値と比較し、こ
れを越えたことによってｉ系単語と判断するものである
。

これは本発明者が、ケプストラム・データにおける、２
次７３次／４次データの合計値を調べた結果、ｉ系の音
声においては他の音声に比べて格段に大きいことを確認
したことによってなされたものである。

［作用コ上記手段によって、音声パワーの低いｉ系の音声が入力
されたときは、ｉ系判断手段によって、ｉ系の単語であ
ることを判断して、音声区間検出しきい値を下げて音声
認識処理を行うことによって、誤認識を減少することが
可能となる。

［実施例］以下第１図に示す実施例によって、本発明の要旨を具体
的に説明する。図において、符号１〜６は前記第２図と
同一の対象物を示し、７はｉ系判定部、８はしきい値操
作部を示す。

入力された音声信号は、前処理部１においてアナログ／
ディジタル変換され、パラメータ抽出部２において１フ
レームごとにケプストラム・データその他のパラメータ
の抽出が行われる。

次いで、ｉ系判定部７においては入力音声の最大パワー
であるフレームを検出すると、ケプストラムの２次／３
次／４次データの合計値を予め設定した基準値と比較す
ることによって、ｉ系であるか否かを判定し、ｉ系であ
った場合は、しきい値操作部８に信号を送り、しきい値
操作部８がらの操作によって、音声区間検出部３の音声
区間検出しきい値を、予め設定した基準に基づいて下げ
る。

音声区間抽出部３においては下げられた音声区間検出し
きい値によって音声区間を判定し、音声区間と判定した
とき、照合部４に特徴データを送り、照合部４において
はその特徴データと認識辞書５との比較、照合を行い、
判定部６において音声の判定を行い出力する。

［発明の効果］以上説明したように、本発明によって、音声パワーの低
いｉ系の音声が入力されたときも、高い認識率で認識処
理を行うことができ、その工業的効果は大きい。

【図面の簡単な説明】

第１図は本発明による音声認識装置の回路構成ブロック
図、第２図は従来の代表的な音声認識装置の回路構成ブロッ
ク図である。図面において、１は前処理部、　２はパラメータ抽出部、３は音声区間
抽出部　４は照合部、５は認識辞書、　６は判定部、７はｉ系判定部、　８はしきい値操作部をそれぞれ示す
。牟　１　図る芽　２　目

Claims

【特許請求の範囲】

（１）音声認識装置において、母音イを含む音声（以下
ｉ系と略称する）入力があったとき、ｉ系の単語である
ことを判断する手段を設け、ｉ系の単語と判断したとき
は、音声区間検出しきい値のレヘルを下げて音声認識を
行うよう構成したことを特徴とする音声認識における音
声区間検出しきい値の補正方式。
（２）上記のｉ系の単語であると判断する手段が、音声
パワーが最大であるフレーム（音声信号処理の単位時間
）のケプストラム（音声パワー・スペクトルの対数の逆
フーリエ変換）・データにおいて２次／３次／４次のデ
ータの合計値が一定値以上であることをもって判断する
ことを特徴とする特許請求の範囲第１項記載の音声認識
における音声区間検出しきい値の補正方式。