JPH0540495A - 音声区間検出方式 - Google Patents

音声区間検出方式

Info

Publication number
JPH0540495A
JPH0540495A JP3197738A JP19773891A JPH0540495A JP H0540495 A JPH0540495 A JP H0540495A JP 3197738 A JP3197738 A JP 3197738A JP 19773891 A JP19773891 A JP 19773891A JP H0540495 A JPH0540495 A JP H0540495A
Authority
JP
Japan
Prior art keywords
voice
section
voice section
signal
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3197738A
Other languages
English (en)
Inventor
Yasunaga Miyazawa
康永 宮沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP3197738A priority Critical patent/JPH0540495A/ja
Publication of JPH0540495A publication Critical patent/JPH0540495A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 音声区間と雑音区間とを区別し、正確な音声
区間を検出する。 【構成】 パワーの値10がパワーの値のしきい値12
よりも大きく、且つ、ベクトル量子化誤差の値11がベ
クトル量子化誤差13の値よりも小さくなったフレーム
(フレーム番号16)を始端フレームとし、パワーの値
10がパワーの値のしきい値12よりも小さく、且つ、
ベクトル量子化誤差の値11がベクトル量子化誤差13
の値よりも大きくなったフレーム(フレーム番号17)
を終端フレームとする。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は音声認識装置に関する。
【0002】
【従来の技術】従来、入力信号のパワーが、設定された
しきい値より大きいか否かによって、音声信号であるか
否かを判断する、音声区間検出方式が知られていた。
【0003】
【発明が解決しようとする課題】しかし従来の技術で
は、実際の音声信号の前後に、設定されたしきい値より
も大きなパワーをもつ雑音が入力信号として入力された
場合、雑音部分を含んだ区間が音声区間として検出され
てしまうため、パターンマッチング等により認識を行っ
た場合、誤認識を起こしやすい、という課題を有してい
た。
【0004】本発明の目的は、このような課題を解決し
て真の音声区間を検出し、音声認識装置に応用した場
合、認識率を向上させるところにある。
【0005】
【課題を解決するための手段】入力信号から音声区間を
検出する音声区間検出方式において、前記入力信号を一
定時間長で短区間に分割し、分割された前記短区間毎に
特徴ベクトルとパワーを求める手段と、音声信号のみか
ら作成したコードブックと、前記特徴ベクトルを前記コ
ードブックを用いてベクトル量子化し、前記ベクトル量
子化における量子化誤差を求める手段、とを具備し、前
記入力信号から音声区間の開始点と終了点を検出する際
に、前記パワーと前記量子化誤差とを用いることを特徴
とする。
【0006】
【実施例】
(実施例1)本発明の音声区間検出方式を音声認識装置
に応用した場合の実施例を、図面に沿って説明する。
【0007】図1は、本発明の音声区間検出方式を音声
認識装置に応用した場合のシステム構成図である。
【0008】音声信号及び周囲雑音等は、マイク、ロー
パスフィルタで構成される入力部1より、入力信号とし
て常時入力される。
【0009】入力部1より入力された入力信号を、A/
D変換部2において、20KHz,16bits、のディジタル信号
に変換する。
【0010】A/D変換部2においてディジタル化され
た入力信号を、分析部3において、フレーム長 25.6mse
c (512 points)、の短区間毎にLPC分析を行い、20
次LPCケプストラム係数を求め、これを特徴ベクトル
とする。この時窓関数として、ハミングウィンドウを用
いる。更に分析部3において、フレーム内の信号のパワ
ーの値を求める。ここで、フレームのシフト量は、12.8
msec (256 points) とする。
【0011】分析部3において求めたフレーム毎の特徴
ベクトルを、ベクトル量子化部5においてベクトル量子
化によりコード化する。この時参照するコードベクトル
は、コードブック6に登録されている256個のコード
ベクトルである。このコードベクトルは、数10人の発
話した音声から音声区間のみを、スペクトルパターング
ラフとパワーグラフにより人間が切り出し、この音声区
間をフレーム長 25.6msec シフト量 12.8msec でLPC
分析し20次LPCケプストラム係数を求め、求めた2
0次LPCケプストラム係数を特徴ベクトルとして、L
BGアルゴリズムを用いて作成した。
【0012】ベクトル量子化部5におけるベクトル量子
化によって生じる量子化誤差の値は、音声区間検出部4
に送られる。また、ベクトル量子化部5において対応づ
けられたコードは、認識部6に送られる。
【0013】音声区間検出部4において、分析部3から
送られたパワーの値とベクトル量子化部5より送られた
量子化誤差の値を用いて次のようにして音声区間を検出
する。音声区間の始端点については、パワーの値がパワ
ーのしきい値よりも大きくなり、且つ、量子化誤差の値
が誤差のしきい値よりも小さくなった場合、そのフレー
ムを音声区間の始端フレームとして判断し、認識部7に
「音声区間始端フレーム」の情報を送る。
【0014】音声区間の終端フレームについては、パワ
ーの値がパワーのしきい値よりも小さくなり、且つ、量
子化誤差の値が誤差のしきい値よりも大きくなった場
合、そのフレームを終端フレームとして判断し、認識部
7に「音声区間終端フレーム」の情報を送る。
【0015】但し、この音声区間検出後、ある一定時間
内に新たに音声区間を検出した場合、この2つの音声区
間を1つの音声区間として判断し、最初の始端フレーム
を真の始端フレームとし、最後の終端フレームを真の終
端フレームとして、認識部7にその情報を送る。3個以
上の音声区間が連続して検出された場合についても同様
である。これは、1つの単語中に短時間の無音区間が生
じた場合に(例えば、「楽器」という単語をゆっくり発
音した場合、「がっ」と「き」との間には、短時間の無
音区間が生じる)、単語が2個以上連続して発話された
と、誤検出することを防いでいる。
【0016】実際に雑音信号と音声信号を本発明を用い
た音声認識装置に入力した場合の、パワーの値と量子化
誤差の値の変動について、図2を用いて説明する。
【0017】図2のグラフの横軸は時間軸、すなわちフ
レーム番号であり、縦軸は、上部がパワーの値で、下部
が量子化誤差の値である。図1の分析部3で計算したパ
ワーの値は曲線10で、ベクトル量子化部5で計算した
量子化誤差の値は曲線11で示す。ここで、フレーム番
号14からフレーム番号15の区間は雑音信号を入力
し、フレーム番号16からフレーム番号17の区間は音
声信号を入力している。パワーの値10に注目すると、
フレーム番号14からフレーム番号15の区間とフレー
ム番号16からフレーム番号17の区間の両区間とも、
パワーの値10は、パワーのしきい値12より大きくな
っており、ある音量の信号が入力されていることがわか
る。しかし、入力信号が音声信号であるか雑音信号であ
るかの判断は、パワーの値10だけではできない。ここ
で、フレーム番号15からフレーム番号16の無音区間
が、ある一定の時間以内である場合、従来のパワーの値
だけを用いた音声区間検出方式では、フレーム番号14
からフレーム番号17までの区間を、音声区間として誤
検出していた。
【0018】量子化誤差の値11に注目すると、量子化
誤差の値11は、音声信号が入力されたフレーム番号1
6からフレーム番号17の区間で、量子化誤差のしきい
値13より小さくなり、他の区間では量子化誤差のしき
い値13よりも大きくなっている。これは入力信号を、
音声信号のみから作成したコードブック6を用いてベク
トル量子化した場合、音声信号は量子化誤差は小さくな
るが、音声信号とは特徴が異なる雑音信号は量子化誤差
が大きくなる、という特性があるためである。よって、
本発明の音声区間検出方式では、この特性を利用するこ
とにより、音声区間と雑音区間との区別を明確に行うこ
とが可能となり、フレーム番号16からフレーム番号1
7の区間を、音声区間として検出できる。
【0019】図1の認識部7では、音声区間検出部4よ
り送られた音声区間(始端フレーム、終端フレーム)の
情報により、ベクトル量子化部5より送られたコード列
のうち、音声区間のコード列のみを入力パターンとして
生成する。更に、この入力パターンと、単語辞書8に記
憶されている単語の標準パターンとを、HMMによりパ
ターンマッチングを行うことにより、単語を認識し、そ
の単語名を出力する。以上説明したように、本発明の音
声区間検出方式を音声認識装置に応用することにより、
正確な音声区間が検出可能となり、音声認識装置の認識
率を高めることができる。
【0020】
【発明の効果】本発明の音声区間検出方式では、音声区
間の検出に、入力信号のパワーの値と、ベクトル量子化
誤差の値とを用いることにより、音声信号と雑音信号と
を区別して、正確な音声区間を検出することが可能とな
り、音声認識装置に応用した場合、認識率を高くする効
果がある。
【図面の簡単な説明】
【図1】本発明の音声区間検出方式を用いた音声認識装
置のシステム構成図。
【図2】パワーの値とベクトル量子化誤差の値の変動
図。
【符号の説明】
1・・・音声入力部 2・・・A/D変換部 3・・・分析部 4・・・音声区間検出部 5・・・ベクトル量子化部 6・・・コードブック 7・・・認識部 8・・・単語辞書 10・・・パワーの値 11・・・ベクトル量子化誤差の値 12・・・パワーの値のしきい値 13・・・ベクトル量子化誤差の値のしきい値 14・・・フレーム番号 15・・・フレーム番号 16・・・フレーム番号 17・・・フレーム番号

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 入力信号から音声区間を検出する音声区
    間検出方式において、前記入力信号を一定時間長で短区
    間に分割し、分割された前記短区間毎に特徴ベクトルと
    パワーを求める手段と、 音声信号のみから作成したコードブックと、 前記特徴ベクトルを前記コードブックを用いてベクトル
    量子化し、前記ベクトル量子化における量子化誤差を求
    める手段、とを具備し、 前記入力信号から音声区間の開始点と終了点を検出する
    際に、前記パワーと前記量子化誤差とを用いることを特
    徴とする、音声区間検出方式。
JP3197738A 1991-08-07 1991-08-07 音声区間検出方式 Pending JPH0540495A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3197738A JPH0540495A (ja) 1991-08-07 1991-08-07 音声区間検出方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3197738A JPH0540495A (ja) 1991-08-07 1991-08-07 音声区間検出方式

Publications (1)

Publication Number Publication Date
JPH0540495A true JPH0540495A (ja) 1993-02-19

Family

ID=16379521

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3197738A Pending JPH0540495A (ja) 1991-08-07 1991-08-07 音声区間検出方式

Country Status (1)

Country Link
JP (1) JPH0540495A (ja)

Similar Documents

Publication Publication Date Title
JP3180655B2 (ja) パターンマッチングによる単語音声認識方法及びその方法を実施する装置
US6671669B1 (en) combined engine system and method for voice recognition
KR100719650B1 (ko) 잡음 신호에서 음성의 엔드포인팅 방법
US6735563B1 (en) Method and apparatus for constructing voice templates for a speaker-independent voice recognition system
EP0077194B1 (en) Speech recognition system
JPH0990974A (ja) 信号処理方法
KR100698811B1 (ko) 음성 인식 거부 방식
JPH0797279B2 (ja) 音声認識装置
JP3523382B2 (ja) 音声認識装置及び音声認識方法
JPH0540495A (ja) 音声区間検出方式
JP2006010739A (ja) 音声認識装置
JP2798919B2 (ja) 音声区間検出方式
JP3125928B2 (ja) 音声認識装置
JP2666296B2 (ja) 音声認識装置
JPS6227798A (ja) 音声認識装置
JP3032215B2 (ja) 有音検出装置及びその方法
KR100647291B1 (ko) 음성의 특징을 이용한 음성 다이얼링 장치 및 방법
JPH0635495A (ja) 音声認識装置
JPH0690631B2 (ja) 音声認識方法
JPH0635496A (ja) 音声認識方式
JP2000194385A (ja) 音声認識処理装置
JPH0876789A (ja) 不特定話者単語音声認識システムおよび不特定話者単語音声認識方法
JPH09198382A (ja) 音声入力かな漢字変換装置
Shanmugam et al. Development of Speech Controlled System
JPH09297596A (ja) 音声認識装置