JP2829014B2 - 音声認識装置及び方法 - Google Patents

音声認識装置及び方法

Info

Publication number
JP2829014B2
JP2829014B2 JP1005427A JP542789A JP2829014B2 JP 2829014 B2 JP2829014 B2 JP 2829014B2 JP 1005427 A JP1005427 A JP 1005427A JP 542789 A JP542789 A JP 542789A JP 2829014 B2 JP2829014 B2 JP 2829014B2
Authority
JP
Japan
Prior art keywords
input
data
voice
speech
detected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP1005427A
Other languages
English (en)
Other versions
JPH02184915A (ja
Inventor
伸夫 杉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP1005427A priority Critical patent/JP2829014B2/ja
Publication of JPH02184915A publication Critical patent/JPH02184915A/ja
Application granted granted Critical
Publication of JP2829014B2 publication Critical patent/JP2829014B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】 [発明の目的] (産業上の利用分野) 本発明は入力音声データの先頭部分を取り零すことな
く入力音声を確実に認識することのできる音声認識装置
及び方法に関する。
(従来の技術) 近時、自然性の高いマンマシン・インターフェースを
実現する重要な技術の1つとして音声認識処理が注目さ
れ、種々研究開発されている。この種の音声認識処理
は、基本的にはマイクロフォンから収集された入力音
声データを分析し、この分析結果に従って入力音声区
間検出を行ない、該入力音声区間の特徴データの系列
(入力音声パターン)と予め求められている認識対象カ
テゴリの標準パターンと照合し、その照合結果を判定
して入力音声を識別することにより行なわれる。従って
入力音声データ中から、上記音声区間を如何に精度良く
検出し、その音声区間の入力音声データ(特徴データの
系列)を抽出して辞書パターンとの照合処理に供するか
が、その認識性能を決定する上で大きな要因となる。
しかして従来の音声認識装置では、ホストシステム
(制御部)からの認識処理開始のコマンドを受けて音声
認識処理動作を開始し、この動作開始後に入力される音
声データについてその認識処理を実行するものとなって
いる。然し乍ら、上記コマンドを与えるタイミングと話
者の発声開始タイミングとを合せることが一般的には非
常に難しく、通常は話者に対してホストシステム(制御
部)から一定時間毎に、合成音声出力やディスプレイ表
示等の手段を用いて発声要求を促し、これにタイミング
を合せて話者が発声する音声を取込んで音声認識処理す
るようにしている。
また最近では、音声を取込むマイクロフォンの近傍に
光センサや超音波センサ等の近接センサを設け、話者が
マイクロフォンに近付いて発声しようとする状態を感知
して前述したコマンドを発することも行なわれている。
このような近接センサを用いて音声認識処理動作の開始
タイミングを設定するようにした音声認識装置によれ
ば、自然性の高いより良いマンマシン・インターフェー
スを実現することができる。
しかし、全ての話者がマイクロフォンに近付いてから
発声を開始すると云う保証はなく、慣れを伴った話者に
あっては往々にしてマイクロフォンに近付きながら、つ
まりマイクロフォンに十分に近付く以前に発声を開始し
てしまうことがある。このような場合、発声の開始後に
音声認識処理開始のコマンドが発せられることになるの
で入力音声の先頭部分の取り零しが生じ、結局、入力音
声区間の始端検出に失敗したり、或いは誤認識の発声要
因となることが否めない。そこで上記近接センサの感度
を高めることで、もう少し早いタイミングでコマンドを
発することや、話者の接近を検知した後、所定の時間を
経て発話要求を発する等の種々の工夫が試みられている
が、話者の個人差等に起因してそのタイミング設定が非
常に困難であり、本質的な解決策となっていないのが実
情である。
(発明が解決しようとする課題) このように従来にあっては、発話者の接近を検出して
音声認識処理の開始コマンドを与える場合であっても、
認識処理動作の開始前に発声が開始されてしまうことが
多々あり、音声認識処理動作開始時における音声の先頭
部分の取り零しに起因して誤認識や認識リジェクトが生
じ易いと云う不具合があった。
本発明はこのような事情を考慮してなされたもので、
その目的とするところは、繁雑なタイミング設定を要す
ることなく入力音声をその先頭部分から確実に収集して
高精度な音声認識を行なうことのできる簡易な構成で実
用性の高い音声認識装置及び方法を提供することにあ
る。
[発明の構成] (課題を解決するための手段) 本発明に係る音声認識装置は、認識処理開始のコマン
ドが入力された後の入力音声データを格納するデータバ
ッファに加えて、上記コマンドが入力される直前までの
一定フレーム数の入力音声データを順次格納するリング
バッファを備え、前記データバッファに格納された入力
音声データから該入力音声の音声区間の始端が検出され
なかったとき、前記リングバッファに格納された入力音
声データと前記データバッファに格納された音声データ
とを連続させて音声区間検出を行なうようにしたことを
特徴とするものである。
(作用) このように構成された本装置によれば、音声認識処理
の開始を指示するコマンドが入力される直前までの入力
音声データが一定フレーム数に亙って順次リングバッフ
ァに格納されているので、データバッファに格納された
入力音声データにその先頭部分が欠落している場合であ
っても、リングバッファに格納されている音声データに
てその欠落部分を補って音声区間の始端検出を行ない、
その音声区間のデータを取り零しなく抽出することがで
きる。
この結果、認識処理開始のコマンドの入力に先立って
発声が開始された場合であっても、その音声を確実に認
識処理することが可能となる。しかも従来のような複雑
なタイミング調整を必要とすることなく、入力音声を簡
易に、且つ確実に認識処理することが可能となる。
(実施例) 以下、図面を参照して本発明の一実施例に係る音声認
識装置につき説明する。
第1図は実施例装置の概略構成図で、1はマイクロフ
ォンを介して収集される入力音声を音響分析してその特
徴データを抽出する特徴抽出部である。この特徴抽出部
1は、例えば所定のフレーム周期でバンドバス・フィル
タリング処理やLPC分析等を実行して入力音声の特徴パ
ラメータを順次求める如く構成される。
しかしてこの特徴抽出部1を介して取込まれる入力音
声データ(特徴データの系列)は入力スイッチ2を介し
てリングバッファ3およびデータバッファ4に選択的に
入力される。この入力スイッチ2は制御部5の制御を受
けて切替え動作するもので、常時は前記特徴抽出部1で
分析さた入力音声データをリングバッファ3に供給し、
前記制御部5に認識処理動作開始のコマンドが入力され
た時点から、それ以降の入力音声データを前記データバ
ッファ4に供給するように構成される。
ここで上記リングバッファ3は、例えば50フレームに
亙って前記入力音声データを順次格納する記憶容量を有
し、その記憶データ量が限界に達したとき、最も古いデ
ータを棄却しながら最新のデータを格納することで、常
に最新の50フレーム分の入力音声データを格納するよう
になっており、そのデータ格納動作を前記入力スイッチ
2が切替えられるまで継続して動作する。つまり制御部
5へのコマンドの入力によって音声認識処理動作の開始
が指示される時点まで、その直前までの最新の50フレー
ムに亙る入力音声データを格納するようになっている。
しかして認識処理動作開始のコマンド入力に伴い、前
記入力スイッチ2の切替えによって入力音声データのデ
ータバッファ3による格納が開始されると、前記リング
バッファ2に格納されたコマンド入力時点までの入力音
声データは、その格納状態を維持したまま順次閾値計算
部6に読出される。閾値計算部6は、このリングバッフ
ァ3から読出される50フレームに亙る入力音声データか
ら音声区間検出処理の基礎となる第1の閾値Aを設定
し、これを音声区間検出部7に与えるものである。具体
的には閾値計算部6は前記リングバッファ3に格納され
ている50フレームに亙る入力音声データの平均パワーを
求め、この平均パワーをベースとして周囲雑音のパワー
レベルと、入力音声のパワーレベルとを大略的に弁別す
る為の第1の閾値Aを設定している。
音声区間検出部7はこのようにして設定される第1の
閾値Aに従い、例えば第2図に示すような処理手順に従
って入力音声データ中の音声区間検出を行ない、この処
理によって検出された音声区間の入力音声データ(特徴
データの系列)を類似度計算部8に与える。この類似度
計算部8にて上記音声区間の特徴データの系列(入力音
声パターン)と、予め標準パターンメモリ9に格納され
ている認識対象カテゴリの標準パターンとの類似度が計
算され、各認識対象カテゴリに対する類似度を相互に比
較して類似度計算結果を評価することで、その認識結果
が求められるようになっている。
ここで本装置の特徴的な音声区間検出処理について説
明すると、音声区間検出部7は前記データバッファ4に
格納された入力音声データから音声区間の始端が検出さ
れるか否かを判定し、始端検出が不成功に終わったと
き、前記リングバッファ3に格納されている50フレーム
分の入力音声データまでを認識処理対象範囲として拡大
してその音声区間検出処理を実行するものとなってい
る。
即ち、音声認識処理開始のコマンドが入力されると、
先ず閾値計算部6にて前記リングバッファ3に格納され
た入力音声データに基づく第1の閾値Aの設定が行なわ
れる(ステップa)。しかる後、音声区間検出部7によ
る音声区間の始端検出が行なわれる。この音声区間検出
の始端検出は、先ず前記データバッファ4に格納されて
いる入力音声データを順に読出して当該入力音声データ
のパワーが前記第1の閾値Aを越えるか否かを判定し
(ステップb)、第1の閾値Aを越えて入力音声データ
のパワーが変化した場合には、次に音声パワーのピーク
が検出されるか否かを判定することにより行なわれる
(ステップc)。こうして音声パワーのピーク値が検出
されたとき、この検出タイミングを基準とし、且つその
音声パワーのピーク値に従って始端検出の為の第2の閾
値Bを設定して前記データバッファ4に格納された入力
音声データから始端が検出されるか否かを判定する(ス
テップd)。
この際、前記データバッファ4に格納された入力音声
データから音声パワーのピークが検出できなかった場合
には、そのピーク検出の対象範囲を前記リングバッファ
3に格納されている入力音声データまで拡張してその検
出処理を行なう(ステップe)。またこのようにしてリ
ングバッファ3に格納された入力音声データから音声パ
ワーのピークを検出した後、或いはデータバッファ4に
格納された入力音声データから音声パワーのピーク値が
検出されたとしても、データバッファ4に格納されてい
る入力音声データから音声区間の始端が検出できなかっ
た場合には、次に音声区間の始端検出の対象範囲を前記
リングバッファ3に格納されている入力音声データまで
拡張し、このデータ中から始端の検出を行なう(ステッ
プf)。
以上のようにしてデータバッファ4またはリングバッ
ファ3に格納されている入力音声データからその始端検
出がなされた後、前記データバッファ4に格納されてい
る入力音声データの前記音声パワーのピーク点より後側
のデータを調べて前記入力音声区間の終端検出を行なう
(ステップg)。
尚、前述したデータバッファ4に格納されている入力
音声データが第1の閾値Aを越えることがない場合に
は、音声入力がなされていないとしてエラー処理を起動
する(ステップh)。このようにして入力音声区間検出
を行ない、当該区間の入力音声データを選択的に切出し
て前述した音声認識処理(標準パターンとの照合)を行
なうことになる。
このような音声区間検出処理を第3図を参照して更に
詳しく説明する。第3図(a)はコマンドが入力された
後に発声が開始されて入力音声のデータがデータバッフ
ァ4に格納されている状態での音声区間検出の過程を示
している。この場合にはコマンド入力の後、データバッ
ファ4に格納されている入力音声データのパワーを順次
調べることにより、第1の閾値Aを上回っているフレー
ム区間が検出され、その中で最大のパワー値をとるフレ
ームPが検出されることになる。そこでこの最大パワー
フレームPを基準として入力音声データを逆に辿り、入
力音声のパワーが最初に第2の閾値Bを越えて上回るフ
レームSを検出する。このようにして検出されるフレー
ムSが音声区間の始端となる。しかしてこのようにして
音声区間の始端Sが検出されたならば、次に前述最大パ
ワーフレームPを基準として入力音声データを順に辿
り、入力音声のパワーが最初に第2の閾値Bを越えて下
回るフレームEを検出する。このようにして検出される
フレームEが音声区間の終端となり、ここに始端Sと終
端Eとで規定されるフレーム区間が音声区間として検出
される。尚、上記始端検出の為の閾値と終端検出の為の
閾値とを異ならせて設定しても良いことは云うまでもな
い。
これに対してコマンドが入力されるタイミングより僅
かに先立って発声が開始された場合、第3図(b)に示
すようにその音声の先頭部分がリングバッファ3に格納
され、データバッファ4には上記先頭部分が欠落した状
態で入力音声データが格納されることになる。このよう
な場合には、前述した如く検出される最大パワーフレー
ムPを基準として入力音声データを逆に辿っても、デー
タバッファ4に格納された入力音声データからは第2の
閾値を下回る音声パワーを検出することができない。そ
こで、その検索対象を前述したリングバッファ3に格納
されている入力音声データまで拡張し、このデータ中か
ら入力音声のパワーが最初に第2の閾値Bを越えて上回
るフレームSを検出する。この結果、リングバッファ3
に格納され、データバッファ4に格納された入力音声デ
ータの前に連続している入力音声データから音声区間の
始端Sの検出か行なわれることになる。その後、前述し
た例と同様にして音声区間の終端Eを検出することによ
り、入力音声の先頭を取り零すことなく、その入力音声
データの全てを検出することが可能となる。
ところで、コマンドの入力タイミングよりも相当早い
タイミングで発声が開始されたような場合、第3図
(c)に示すようにデータバッファ4に格納されている
入力音声データから音声パワーのピークフレームが検出
できない場合がある。つまりデータバッファ4に格納さ
れている入力音声データがその先頭から第1の閾値Aを
上回っていることから、データバッファ4に格納されて
いる入力音声データから検出される音声パワーのピーク
からだけでは、そのピークが本当の音声パワーのピーク
フレームであるか否として確定できない場合がある。
このような場合には、音声パワーのピーク値検出範囲
自体をリングバッファ3に格納されている入力音声デー
タまでに広げ、これらの連続する入力音声データ中から
ピークフレームを検出する。その後、検出されたピーク
フレームを基準として、リングバッファ3およびデータ
バッファ4に格納されている一連の入力音声データから
その始端Sと終端Eとを検出することにより、入力音声
の先端部分を取り零すことなくその音声区間の正確な検
出と、検出音声区間の入力音声データの抽出を行なうこ
とが可能となる。
尚、発声のタイミングよりも大幅に遅れてコマンドが
入力されるような場合、第3図(d)に示すようにデー
タバッファ4に格納された入力音声データのパワーが前
述した第1の閾値Aを上回ることがなく、またリクンバ
ッファ3を遡って入力音声データを拾い出しても、その
入力音声データの全てを得ることが殆んど不可能である
から、この場合にはエラー処理を起動して音声の再入力
を促す等の対策を講じる。
かくしてこのように構成された本装置によれば、認識
処理動作の開始コマンドが与えられるタイミングと音声
の発声開始のタイミングとがずれ、コマンドの入力が音
声の入力タイミングより僅かに遅れるような場合であっ
ても、コマンドの入力タイミング前に発声された音声の
先頭部分がリングバッファ3に格納されているので、こ
のデータを適宜用いることにより入力音声の先頭部分を
取り零すことなく音声区間の検出を行なって、その入力
音声データを正確に抽出することができる。しかもコマ
ンドが与えられる直前までの一定フレーム数に亙る入力
音声データを補助的に格納しておくだけで、音声の先頭
部分の欠落を生じることのないデータ抽出を行なうこと
ができる。この結果、複雑なタイミング調整を行なうこ
となく、簡易に、且つ確実に入力音声データを検出して
音声認識処理に供することが可能となり、誤認識や認識
リジェクトの発生を抑制することが可能となる。
尚、本発明は上述した実施例に限定されるものではな
い。例えばリングバッファ3に何フレームの音声データ
を順次格納するかは、そのフレーム周期やタイミングの
ずれを考慮して設定すれば良いものである。また音声の
認識処理方式自体は、従来より種々提唱されている手法
を適宜採用可能である。また閾値の設定アルゴリズムも
特に限定されるものではなく、要はその要旨を逸脱しな
い範囲で種々変形して実施することができる。
[発明の効果] 以上説明したように本発明によれば、認識処理動作の
開始コマンドが与えられる直前までの入力音声データを
順次リングバッファに格納しておき、このリングバッフ
ァに格納された入力音声データを適宜用いて音声区間検
出と、その音声データの抽出処理を行なうので非常に簡
易にして効果的に先頭部分の欠落のない音声データによ
る音声認識処理を実行することができる等の実用上多大
なる効果が奏せられる。
【図面の簡単な説明】
第1図は本発明の一実施例に係る音声認識装置の要部概
略構成図、第2図は実施例装置における音声区間検出処
理手続きの流れを示す図、第3図は実施例装置の作用を
模式的に示す図である。 1…特徴抽出部、2…入力スイッチ、3…リングバッフ
ァ、4…データバッファ、5…制御部、6…閾値計算
部、7…音声区間検出部、8…類似度計算部、9…標準
パターンメモリ。

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】入力音声の音声区間を検出し、その検出し
    た音声区間の入力音声データをもとに認識処理を行なう
    音声認識装置において、 認識処理開始のコマンドが入力される直前までの一定フ
    レーム数の入力音声データを順次格納するリングバッフ
    ァと、 前記コマンドが入力された後の入力音声データを格納す
    るデータバッファと、 入力音声の音声区間を検出する音声区間検出手段であっ
    て、最初に前記データバッファに格納された入力音声デ
    ータから音声区間の始端の検出を行ない、始端が検出さ
    れなかったときは、前記リングバッファに格納された入
    力音声データと前記データバッファに格納された音声デ
    ータとを連続させて音声区間検出を行なう音声区間検出
    手段とを具備することを特徴とする音声認識装置。
  2. 【請求項2】入力音声の音声区間を検出し、その検出し
    た音声区間の入力音声データをもとに認識処理を行なう
    音声認識方法において、 認識処理開始のコマンドが入力される直前までは入力音
    声データをリングバッファに順次格納することで、認識
    処理開始のコマンドが入力される直前までの一定フレー
    ム数の入力音声データを当該リングバッファに格納し、 前記コマンドが入力された後には入力音声データの格納
    先を前記リングバッファからデータバッファに切り換え
    て、当該データバッファに入力音声データを格納し、 入力音声の音声区間を検出するのに際し、まず最初に前
    記データバッファに格納された入力音声データから音声
    区間の始端の検出を行ない、始端が検出されなかったと
    きは、前記リングバッファに格納された入力音声データ
    と前記データバッファに格納された音声データとを連続
    させて音声区間検出を行なうようにしたことを特徴とす
    る音声認識方法。
JP1005427A 1989-01-12 1989-01-12 音声認識装置及び方法 Expired - Fee Related JP2829014B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1005427A JP2829014B2 (ja) 1989-01-12 1989-01-12 音声認識装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1005427A JP2829014B2 (ja) 1989-01-12 1989-01-12 音声認識装置及び方法

Publications (2)

Publication Number Publication Date
JPH02184915A JPH02184915A (ja) 1990-07-19
JP2829014B2 true JP2829014B2 (ja) 1998-11-25

Family

ID=11610877

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1005427A Expired - Fee Related JP2829014B2 (ja) 1989-01-12 1989-01-12 音声認識装置及び方法

Country Status (1)

Country Link
JP (1) JP2829014B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1701338A1 (en) 2005-03-09 2006-09-13 Canon Kabushiki Kaisha Speech recognition method
US8706487B2 (en) 2006-12-08 2014-04-22 Nec Corporation Audio recognition apparatus and speech recognition method using acoustic models and language models

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08185196A (ja) * 1994-12-28 1996-07-16 Sony Corp 音声区間検出装置
JP2924717B2 (ja) * 1995-06-12 1999-07-26 日本電気株式会社 プレゼンテーション装置
JP3888584B2 (ja) * 2003-03-31 2007-03-07 日本電気株式会社 音声認識装置、音声認識方法及び音声認識プログラム
JP4840149B2 (ja) * 2007-01-12 2011-12-21 ヤマハ株式会社 発音期間を特定する音信号処理装置およびプログラム
JP2009175178A (ja) * 2008-01-21 2009-08-06 Denso Corp 音声認識装置、プログラム、及び発話信号抽出方法
US9633669B2 (en) 2013-09-03 2017-04-25 Amazon Technologies, Inc. Smart circular audio buffer
US10643637B2 (en) * 2018-07-06 2020-05-05 Harman International Industries, Inc. Retroactive sound identification system

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59152498A (ja) * 1983-02-18 1984-08-31 三洋電機株式会社 音声信号デ−タ抽出装置
JPS603743A (ja) * 1983-06-21 1985-01-10 Matsushita Electric Ind Co Ltd 加熱装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1701338A1 (en) 2005-03-09 2006-09-13 Canon Kabushiki Kaisha Speech recognition method
US8706487B2 (en) 2006-12-08 2014-04-22 Nec Corporation Audio recognition apparatus and speech recognition method using acoustic models and language models

Also Published As

Publication number Publication date
JPH02184915A (ja) 1990-07-19

Similar Documents

Publication Publication Date Title
KR101417975B1 (ko) 오디오 레코드의 엔드포인트를 자동 감지하는 방법 및 시스템
JP2002182680A (ja) 操作指示装置
CN105989836B (zh) 一种语音采集方法、装置及终端设备
JP3886024B2 (ja) 音声認識装置及びそれを用いた情報処理装置
JP5430382B2 (ja) 入力装置及び方法
JP2829014B2 (ja) 音声認識装置及び方法
CN112102850A (zh) 情绪识别的处理方法、装置、介质及电子设备
CN111402880A (zh) 一种数据处理方法、装置及电子设备
CN109065026B (zh) 一种录音控制方法及装置
JP2000330587A (ja) 音声認識方法および装置
KR102265874B1 (ko) 멀티모달 기반 사용자 구별 방법 및 장치
JP2644494B2 (ja) 不特定話者音声認識装置
JP2502880B2 (ja) 音声認識方法
JP2019101285A (ja) 音声処理装置、音声処理方法及びプログラム
JP2856429B2 (ja) 音声認識方式
JP3063855B2 (ja) 音声認識におけるマッチング距離値の極小値探索方法
JP2891259B2 (ja) 音声区間検出装置
JP2878712B2 (ja) 音声認識装置
CN114495985A (zh) 一种音频质量检测方法、智能终端及存储介质
JPH0619492A (ja) 音声認識装置
JP3704080B2 (ja) 音声認識方法及び音声認識装置並びに音声認識プログラム
JPH09222899A (ja) 単語音声認識方法およびこの方法を実施する装置
CN114491456A (zh) 基于声纹的账号识别方法及其系统
CN113178205A (zh) 语音分离方法、装置、计算机设备及存储介质
JPH08254991A (ja) パターン認識装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees