JPH08146986A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH08146986A
JPH08146986A JP6291726A JP29172694A JPH08146986A JP H08146986 A JPH08146986 A JP H08146986A JP 6291726 A JP6291726 A JP 6291726A JP 29172694 A JP29172694 A JP 29172694A JP H08146986 A JPH08146986 A JP H08146986A
Authority
JP
Japan
Prior art keywords
voice
speech
pattern
section
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP6291726A
Other languages
English (en)
Other versions
JP3474949B2 (ja
Inventor
Hiroya Murao
浩也 村尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanyo Electric Co Ltd
Original Assignee
Sanyo Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanyo Electric Co Ltd filed Critical Sanyo Electric Co Ltd
Priority to JP29172694A priority Critical patent/JP3474949B2/ja
Publication of JPH08146986A publication Critical patent/JPH08146986A/ja
Application granted granted Critical
Publication of JP3474949B2 publication Critical patent/JP3474949B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 この発明は、認識精度の向上が図れる音声認
識装置を提供することを目的とする。 【構成】 入力音声から得られる音声区間判定用のパラ
メータと、音声区間判定用の複数のしきい値とに基づい
て、複数の音声区間を設定する音声区間設定手段2、各
音声区間の特徴に基づいて、各音声区間ごとの音声パタ
ーンをそれぞれ作成する音声パターン作成手段3、およ
び各音声区間ごとの音声パターンに基づいて、入力音声
を認識する音声認識手段4、5、6を備えている。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、音声によりデータを
入力するための音声認識装置に関し、たとえば、録画番
組の予約が音声入力によって行われる録画装置等に利用
される音声認識装置に関する。
【0002】
【従来の技術】図4は、従来の音声認識装置の構成を示
している。
【0003】音声分析部101は、入力音声の音声パワ
ー信号と、入力音声に対する音声スペクトルとを生成す
る。入力音声の音声パワー信号は、音声区間検出部10
2に送られる。入力音声に対する音声スペクトルは、音
声パターン作成部103に送られる。
【0004】音声区間検出部102は、音声検出部11
1および音声区間切出し部112とを備えている。音声
検出部111は、図5に示すように、音声検出用しきい
値αを用いて、音声パワー信号中の音声部分を検出す
る。
【0005】音声区間切出し部112は、図5に示すよ
うに、切出し用しきい値βを用いて、音声認識に有効な
音声区間Lを求める。切出し用しきい値βは、音声検出
部111によって検出された音声部分より所定時間前の
雑音パワーに基づいて決定される。
【0006】音声パターン作成部103は、音声区間切
出し部112によって求められた音声区間Lに対する音
声スペクトルに基づいて、音声パターンを作成する。作
成された音声パターンは、学習済のニューラルネットワ
ーク104に入力される。
【0007】このニューラルネットワーク104の学習
は、次のように行なわれる。まず、各認識対象音声に対
する標準音声パターンを、予め収集した音声を用いてそ
れぞれ求める。そして、各標準音声パターンを入力パタ
ーンとし、各入力パターンに対応する音声を表す音声識
別データを教師データとして、ニューラルネットワーク
104を学習させる。
【0008】学習済のニューラルネットワーク104
に、音声パターンが入力されることにより、入力された
音声パターンに対応する出力パターンが得られる。この
出力パターンは、認識結果判定部105に送られる。認
識結果判定部105は、送られてきた出力パターンに基
づいて当該音声検出部分の音声を認識し、その認識結果
を出力する。
【0009】
【発明が解決しようとする課題】このような音声認識装
置では、音声認識に有効な音声区間を設定するための切
出し用しきい値βは1つであるため、雑音が音声区間に
含まれてしまうことによって誤認識が発生したり、音声
パワーの小さい語尾等が音声区間から脱落してしまうこ
とによって誤認識が発生したりする可能性が高い。図5
の例では、本来「しち」と認識すべきところが、「し」
と誤認識されてしまう。
【0010】この発明は、認識精度の向上が図れる音声
認識装置を提供することを目的とする。
【0011】
【課題を解決するための手段】この発明による第1の音
声認識装置は、入力音声から得られる音声区間判定用の
パラメータと、音声区間判定用の複数のしきい値とに基
づいて、複数の音声区間を設定する音声区間設定手段、
各音声区間の特徴に基づいて、各音声区間ごとの音声パ
ターンをそれぞれ作成する音声パターン作成手段、およ
び各音声区間ごとの音声パターンに基づいて、入力音声
を認識する音声認識手段を備えていることを特徴とす
る。
【0012】入力音声から得られる音声区間判定用のパ
ラメータとしては、たとえば、音声パワーが挙げられ
る。また、各音声区間の特徴としては、たとえば、音声
スペクトルが挙げられる。
【0013】この発明による第2の音声認識装置は、入
力音声の音声パワーと、音声区間判定用の複数のパワー
しきい値とに基づいて、複数の音声区間を設定する音声
区間設定手段、各音声区間の音声スペクトルに基づい
て、各音声区間ごとの音声パターンをそれぞれ作成する
音声パターン作成手段、および各音声区間ごとの音声パ
ターンに基づいて、入力音声を認識する音声認識手段を
備えていることを特徴とする。
【0014】上記各パワーしきい値は、たとえば、入力
音声の音声検出部分より所定時間前の雑音パワーに基づ
いて決定される。
【0015】この発明による第1または第2の音声認識
装置に用いられている音声認識手段としては、各認識対
象音声に対する標準音声パターンを入力パターンとし、
各入力パターンに対応する音声を表す音声識別データを
教師データとして、学習が行なわれたニューラルネット
ワーク、上記各音声区間ごとの音声パターンを上記ニュ
ーラルネットワークにそれぞれ入力して、上記各音声区
間ごとの音声パターンに対する出力パターンを求める手
段、および求められた全ての出力パターンのうち、教師
データとの類似度が最も高い出力パターンに基づいて、
入力音声を認識する手段を備えているものが用いられ
る。
【0016】
【作用】この発明による第1の音声認識装置では、入力
音声から得られる音声区間判定用のパラメータと、音声
区間判定用の複数のしきい値とに基づいて、複数の音声
区間が設定される。各音声区間の特徴に基づいて、各音
声区間ごとの音声パターンがそれぞれ作成される。そし
て、各音声区間ごとの音声パターンに基づいて、入力音
声が認識される。
【0017】この発明による第2の音声認識装置では、
入力音声の音声パワーと、音声区間判定用の複数のパワ
ーしきい値とに基づいて、複数の音声区間が設定され
る。各音声区間の音声スペクトルに基づいて、各音声区
間ごとの音声パターンがそれぞれ作成される。そして、
各音声区間ごとの音声パターンに基づいて、入力音声が
認識される。
【0018】
【実施例】以下、図1〜図4を参照して、この発明の実
施例について説明する。
【0019】図1は、音声認識装置の構成を示してい
る。
【0020】音声認識装置は、音声分析部1、音声区間
検出部2、音声パターン作成部3、ニューラルネットワ
ーク演算部4、認識結果記憶部5および認識結果判定部
6を備えている。音声区間検出部2は、音声検出部2
1、音声区間切出し部22および切出し位置記憶部23
を備えている。
【0021】図2は、ニューラルネットワーク演算部4
に設けられているニューラルネットワークの構造の一例
を示している。
【0022】このニューラルネットワークは、入力層4
1、中間層42および出力層43からなる。入力層41
は、たとえば、128個(16channel ×8frame ) の
入力ユニットから構成されている。中間層42は、入力
層41の各入力ユニットと相互に結合された、たとえ
ば、50個の中間ユニットから構成されている。出力層
43は、中間層42の各中間ユニットと相互に結合され
た、たとえば、20個の出力ユニットから構成されてい
る。
【0023】ここでは、認識対象音声は20個あるもの
とする。各認識対象音声を表す音声識別データは、各出
力ユニットに対応した20個のデータからなり、その1
つのみが”1”で他が全て”0”のデータで構成されて
いるものとする。そして、データ”1”の位置が、各音
声識別データごとに異なっている。
【0024】このニューラルネットワークの学習は、次
のように行なわれる。まず、各認識対象音声に対する標
準音声パターンを、予め収集した音声を用いてそれぞれ
求める。各標準音声パターンとしては、対応する標準音
声信号の音声区間を8等分した各区間それぞれの平均ス
ペクトルが用いられている。また、各区間の音声スペク
トルは、予め定められた16の周波数帯域に対する音声
スペクトルから構成されている。そして、求められた各
標準音声パターンを入力パターンとし、各入力パターン
に対応する音声を表す音声識別データを教師データとし
て、バックプロパゲーション法により、ニューラルネッ
トワークを学習させる。
【0025】図1の音声認識装置の動作について説明す
る。
【0026】音声分析部1は、入力音声の音声パワー信
号と、入力音声に対する音声スペクトルとを生成する。
入力音声の音声パワー信号は、音声区間検出部2に送ら
れる。入力音声に対する音声スペクトルは、音声パター
ン作成部3に送られる。
【0027】音声検出部21は、図3に示すように、音
声検出用しきい値αを用いて、入力された音声パワー信
号中の音声部分を検出する。
【0028】音声区間切出し部22は、図3に示すよう
に、複数の切出し用しきい値β1、β2、β3、β4を
用いて、複数の音声区間を設定する。この例では、第1
から第4の音声区間L1、L2、L3、L4を設定す
る。そして、設定した各音声区間L1〜L4の開始点と
終了点とを、各音声区間L1〜L4に対応させて、切出
し位置記憶部23に格納する。
【0029】各切出し用しきい値β1、β2、β3、β
4は、たとえば、次のようにして設定される。まず、最
小の切出し用しきい値β1が、音声検出部21によって
検出された音声部分(音声検出部分)の開始位置より所
定時間前の雑音パワーに基づいて決定される。そして、
決定された最小の切出し用しきい値β1に、定数γが加
算されることによりしきい値β2が求められ、しきい値
β2に定数γが加算されることによりしきい値β3が求
められ、しきい値β3に定数γが加算されることにより
しきい値β4が求められる。
【0030】音声パターン作成部3は、音声区間切出し
部22によって求められた各音声区間L1〜L4に対す
る音声スペクトルに基づいて、各音声区間L1〜L4ご
とに音声パターンを作成して、ニューラルネットワーク
演算部4に入力させる。
【0031】つまり、切出し位置記憶部23に格納され
ている第1の音声区間L1の開始点と終了点とに基づい
て、当該音声区間L1に対する音声パターン(P1)を
作成する。この音声パターンは、当該音声区間を8等分
した各区間それぞれの平均スペクトルが用いられてい
る。そして、各区間の音声スペクトルパターンは、予め
定められた16の周波数帯域に対する音声スペクトルか
ら構成されている。作成された第1の音声パターン(P
1)は、学習済のニューラルネットワークに入力され
る。
【0032】学習済のニューラルネットワークに、第1
の音声パターン(P1)が入力されることにより、第1
の音声パターン(P1)に対応する出力パターンが得ら
れる。そして、得られた出力パターンに基づいて、認識
結果と出力最大値(20個の出力のうちの最大値)と
が、第1認識結果として認識結果記憶部5に記憶され
る。
【0033】次に、切出し位置記憶部13に格納されて
いる第2の音声区間L2の開始点と終了点とに基づい
て、当該音声区間L2に対する音声パターン(P2)が
作成され、作成された第2の音声パターン(P2)が学
習済のニューラルネットワークに入力される。これによ
り、第2の音声パターン(P2)に対応する出力パター
ンが得られる。そして、得られた出力パターンに基づい
て、認識結果と出力最大値とが、第2認識結果として認
識結果記憶部5に記憶される。
【0034】次に、第3の音声区間L3の開始点と終了
点とに基づいて、当該音声区間L3に対する音声パター
ン(P3)が作成されて、学習済のニューラルネットワ
ークに入力される。これにより、第3の音声パターン
(P3)に対応する出力パターンが得られる。そして、
得られた出力パターンに基づいて、認識結果と出力最大
値とが、第3認識結果として認識結果記憶部5に記憶さ
れる。
【0035】次に、第4の音声区間L4の開始点と終了
点とに基づいて、当該音声区間L4に対する音声パター
ン(P4)が作成されて、学習済のニューラルネットワ
ークに入力される。これにより、第4の音声パターン
(P4)に対応する出力パターンが得られる。そして、
得られた出力パターンに基づいて、認識結果と出力最大
値とが、第4認識結果として認識結果記憶部5に記憶さ
れる。
【0036】このようにして、第1〜第4の音声パター
ン(P1〜P4)に対する第1〜第4の認識結果が得ら
れると、認識結果判定部6は、認識結果記憶部5に記憶
されている第1〜第4の認識結果のうち、出力最大値
が”1”に最も近い音声認識結果を、当該検出音声部分
の音声認識結果として選択して出力する。つまり、音声
識別データ(教師データ)に類似度が最も高い出力パタ
ーンに基づいて、入力音声が認識される。
【0037】上記実施例では、1つの音声検出部分に対
して、複数の切出し用しきい値β1〜β4によって得ら
れた複数の音声区間L1〜L4が設定されている。そし
て、各音声区間ごとの音声パターンに基づいて、当該音
声検出部分の音声が認識されているので、雑音が音声区
間に含まれてしまうことによって誤認識が発生したり、
音声パワーの小さい語尾等が音声区間から脱落してしま
うことによって誤認識が発生したりするといったことが
防止される。この結果、音声認識精度が向上する。
【0038】図3の例では、切出し用しきい値β1によ
って設定された第1の音声区間L1の音声パターンに対
する出力パターンが、音声「しち」を表す音声識別デー
タ(教師データ)に最も近くなるので、当該音声検出部
に対しては「しち」と認識される。
【0039】上記実施例では、複数の音声区間は、入力
音声の音声パワーと、複数の切出し用しきい値とに基づ
いて設定されているが、音声パワー以外の音声区間判定
用のパラメータと、そのパラメータに応じた複数のしき
い値とに基づいて複数の音声区間を設定してもよい。音
声区間判定用のパラメータとしては、音声パワー以外
に、パワーの傾き、広域パワー、低域パワー等がある。
【0040】また、各音声区間ごとの音声パターンをそ
れぞれ作成するための、音声区間の特徴としては、音声
スペクトルの他、音声スペクトルの傾き、音声パワー等
を用いてもよい。
【0041】また、この発明は、入力音声から作成され
た音声パターンと、標準音声パターンとの類似度を、D
Pマッチング法( DTW : dynamic time warping )等によ
って判定する音声認識装置にも適用することができる。
【0042】
【発明の効果】この発明によれば、認識精度の向上が図
れる。
【図面の簡単な説明】
【図1】音声認識装置の構成を示すブロック図である。
【図2】図1のニューラルネットワーク演算部に用いら
れているニューラルネットワークの構造を示す模式図で
ある。
【図3】図1の音声認識装置において、複数の切出し用
しきい値に基づいて複数の音声区間が設定されることを
示すタイムチャートである。
【図4】従来の音声認識装置の構成を示すブロック図で
ある。
【図5】図4の音声認識装置において、1つの切出し用
しきい値に基づいて1つの音声区間が設定されることを
示すタイムチャートである。
【符号の説明】
1 音声分析部 2 音声区間検出部 3 音声パターン作成部 4 ニューラルネットワーク演算部 5 認識結果記憶部 6 認識結果判定部 21 音声検出部 22 音声区間切出し部 23 切出し位置記憶部

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 入力音声から得られる音声区間判定用の
    パラメータと、音声区間判定用の複数のしきい値とに基
    づいて、複数の音声区間を設定する音声区間設定手段、 各音声区間の特徴に基づいて、各音声区間ごとの音声パ
    ターンをそれぞれ作成する音声パターン作成手段、およ
    び各音声区間ごとの音声パターンに基づいて、入力音声
    を認識する音声認識手段、 を備えている音声認識装置。
  2. 【請求項2】 入力音声の音声パワーと、音声区間判定
    用の複数のパワーしきい値とに基づいて、複数の音声区
    間を設定する音声区間設定手段、 各音声区間の音声スペクトルに基づいて、各音声区間ご
    との音声パターンをそれぞれ作成する音声パターン作成
    手段、および各音声区間ごとの音声パターンに基づい
    て、入力音声を認識する音声認識手段、 を備えている音声認識装置。
  3. 【請求項3】 上記各パワーしきい値は、入力音声の音
    声検出部分より所定時間前の雑音パワーに基づいて決定
    される請求項2に記載の音声認識装置。
  4. 【請求項4】 上記音声認識手段は、 各認識対象音声に対する標準音声パターンを入力パター
    ンとし、各入力パターンに対応する音声を表す音声識別
    データを教師データとして、学習が行なわれたニューラ
    ルネットワーク、 上記各音声区間ごとの音声パターンを上記ニューラルネ
    ットワークにそれぞれ入力して、上記各音声区間ごとの
    音声パターンに対する出力パターンを求める手段、およ
    び求められた全ての出力パターンのうち、教師データと
    の類似度が最も高い出力パターンに基づいて、入力音声
    を認識する手段、 を備えている請求項1、2および3のいずれかに記載の
    音声認識装置。
JP29172694A 1994-11-25 1994-11-25 音声認識装置 Expired - Fee Related JP3474949B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP29172694A JP3474949B2 (ja) 1994-11-25 1994-11-25 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP29172694A JP3474949B2 (ja) 1994-11-25 1994-11-25 音声認識装置

Publications (2)

Publication Number Publication Date
JPH08146986A true JPH08146986A (ja) 1996-06-07
JP3474949B2 JP3474949B2 (ja) 2003-12-08

Family

ID=17772606

Family Applications (1)

Application Number Title Priority Date Filing Date
JP29172694A Expired - Fee Related JP3474949B2 (ja) 1994-11-25 1994-11-25 音声認識装置

Country Status (1)

Country Link
JP (1) JP3474949B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003280678A (ja) * 2002-03-20 2003-10-02 Asahi Kasei Corp 音声認識装置
WO2012036305A1 (ja) * 2010-09-17 2012-03-22 日本電気株式会社 音声認識装置、音声認識方法、及びプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003280678A (ja) * 2002-03-20 2003-10-02 Asahi Kasei Corp 音声認識装置
WO2012036305A1 (ja) * 2010-09-17 2012-03-22 日本電気株式会社 音声認識装置、音声認識方法、及びプログラム

Also Published As

Publication number Publication date
JP3474949B2 (ja) 2003-12-08

Similar Documents

Publication Publication Date Title
US7957967B2 (en) Acoustic signal classification system
EP0435282B1 (en) Voice recognition apparatus
US5526466A (en) Speech recognition apparatus
JP4728972B2 (ja) インデキシング装置、方法及びプログラム
EP0178509A1 (en) Dictionary learning system for speech recognition
US5812973A (en) Method and system for recognizing a boundary between contiguous sounds for use with a speech recognition system
EP0338035B1 (en) Improvements in or relating to apparatus and methods for voice recognition
EP0200347A1 (en) Knowledge-guided automatic speech recognition apparatus and method
US7680654B2 (en) Apparatus and method for segmentation of audio data into meta patterns
US7010481B2 (en) Method and apparatus for performing speech segmentation
JPH08146986A (ja) 音声認識装置
JP3428058B2 (ja) 音声認識装置
EP0177854B1 (en) Keyword recognition system using template-concatenation model
AU612737B2 (en) A phoneme recognition system
KR100719942B1 (ko) 패턴 인식
JPH08146996A (ja) 音声認識装置
JPH07225593A (ja) 音処理装置
JP3322536B2 (ja) ニューラルネットワークの学習方法および音声認識装置
JPH0566790A (ja) 音声認識方法
JP2757356B2 (ja) 単語音声認識方法および装置
JPH0713598A (ja) 特定タスク音声データベース生成装置
RU2294024C2 (ru) Способ дикторонезависимого распознавания ключевых слов в слитной речи
JPH1097269A (ja) 音声検出装置及び方法
JP2602271B2 (ja) 連続音声中の子音識別方式
JPH06301399A (ja) 音声認識装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070919

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080919

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees