JP2521425B2 - 音声区間検出装置 - Google Patents

音声区間検出装置

Info

Publication number
JP2521425B2
JP2521425B2 JP60161781A JP16178185A JP2521425B2 JP 2521425 B2 JP2521425 B2 JP 2521425B2 JP 60161781 A JP60161781 A JP 60161781A JP 16178185 A JP16178185 A JP 16178185A JP 2521425 B2 JP2521425 B2 JP 2521425B2
Authority
JP
Japan
Prior art keywords
noise
section
voice
voice section
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP60161781A
Other languages
English (en)
Other versions
JPS6223096A (ja
Inventor
久則 金指
国夫 秋場
孝雄 入間野
猛 宮川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP60161781A priority Critical patent/JP2521425B2/ja
Publication of JPS6223096A publication Critical patent/JPS6223096A/ja
Application granted granted Critical
Publication of JP2521425B2 publication Critical patent/JP2521425B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は音声認識装置における音声区間検出装置に関
するものである。
(従来の技術) 第2図は、従来の音声認識装置における、騒音学習方
法の一例を実行するための機能ブロック図である。
従来例を第2図、第3図により説明する。
第2図において、10はマイクであり、ここから音声ま
たは騒音を入力し、前処理部11で前処理を行い、パワー
算出部12でパワーを算出する。13は音声認識モードa、
または騒音学習モードbの切り換えを行う切り換えスイ
ッチである。14は騒音学習部、15は音声区間検出部であ
り、騒音学習モードにおいて音声区間検出のためのいき
値を設定し、音声区間検出部で音声区間を検出する。検
出した音声区間内の音声を音声認識部16において認識す
る。17は認識結果出力部である。
次に、上記従来例の動作について説明する。最初に、
音声認識モードに入る前に切り換えスイッチ13で騒音学
習モードを選択し、騒音の学習を行う。第2図において
マイク10から入力した騒音は、前処理部11において、A/
D変換され、異名現象をとり除くためLPFを通り、サンプ
ル値xを得る。次にパワー算出部12において、(1)式
に従い、単位時間(以後フレームと称する)ごとにパワ
ーP(J)を算出する。
P(J):Jフレーム目のパワーの値 x(i):1フレーム内におけるi番目のサンプル値 N :1フレーム内のサンプル数 騒音学習部14では、P(J)をもとに(2)式に従っ
て音声区間のいき値TPを設定する訳であるが、ここでL
は騒音学習に要する時間であり、認識装置の仕様により
任意に設定するパラメータである。
なおTP′の値は学習時間における環境騒音の平均パワ
ーである。
TP :音声区間検出のためのいき値 P(J):Jフレーム目のパワーの値 L :騒音学習時間 A :定数 次に切り換えスイッチ13で認識モードを選択し、音声
認識を行う。
第2図において、入力した音声は、騒音学習モードと
同じ条件で前処理を行い、パワーを算出する。得られた
パワーの時系列をもとに、騒音学習モードで得られたい
き値TPを用いて音声区間の検出を行う。第3図は、/aki
ta/(秋田)と発声したときのP(J)の時系列を示し
たものである。
第3図において、いき値TPを使って、パワーの大きい
山形の部分S1,S2,S3および山形の部分に挟まれた谷形の
部分P1,P2,P3を検出し、各々に対応する時間s1,s2,s3
よびp1,p2,p3の値を使って(3)式に示す条件との整合
を検定し音声区間、音声の始端S、終端Eを検出する。
第4図は、第3図とは異なる騒音下で学習し、/akita
/(秋田)と発声した場合のいき値TPの設定から音声区
間検出までのようすを表している。いき値設定に要する
時間L内において衝撃的な騒音が入り、音声を発声して
いる時と比べレベルが大きくなっている。このため、い
き値TPは第3図に示す例に比べて大きく設定されるた
め、音声区間検出を誤り、本来の/akita/の部分の語頭
の/a/が脱落し、/kita/となっている。従って、従来の
方法では第4図の場合のように、騒音学習時の、騒音レ
ベルと音声発声時の騒音レベルが著しく異なる場合音声
区間検出を誤る欠点があった。
(発明が解決しようとする問題点) 上記従来例の音声区間検出方法では、いき値設定の学
習に要する時間内で衝撃的な騒音等により、音声を発声
している時の騒音レベルに比べ、学習時の騒音レベルが
過大に評価され、いき値設定を誤り、ひいては音声認識
を誤る問題があった。
本発明はこのような従来の問題を解決するものであ
り、音声区間を精度よく検出できる音声区間検出装置を
提供することを目的とするものである。
(問題を解決するための手段) 本発明は、上記目的を達成するために、騒音学習を行
う際、学習時間にとり込む全てのフレームの騒音データ
からいき値を設定するのではなく、予め設定した範囲に
ある騒音データのみを用いていき値を設定するようにし
たものである。
(作用) 従って本発明によれば、学習用の騒音データを選択的
に取り扱うことにより、騒音学習時の衝撃騒音によるい
き値設定誤りを減少することができ、音声区間を精度よ
く検出することができ、その結果、音声認識誤りを減少
することができる。
(実施例) 以下に、本発明の一実施例の構成について第1図とと
もに説明する。
第1図においてマイク1、前処理部2およびパワー算
出部3、騒音学習部6、音声区間検出部7、音声認識部
8,認識結果出力部9は、従来例と同様のものである。5
は騒音データ選択部である。
次に本発明の実施例の動作について説明する。
先ずモード切り換えスイッチ4は、騒音学習モードに
しておく。マイク1から入力した騒音は前処理部2でA/
D変換されLPFを通ってパワー算出部3に入り、従来例と
同様に(1)式に従いフレームのパワーを算出する。騒
音データ選択部5では、音声区間検出のためのいき値設
定に用いる騒音データの選択を行う。これは、騒音学習
時に入力した騒音レベルが予め設定した範囲に入ってい
る騒音データだけをいき値設定用のデータとして使用す
るものである。
この範囲は、以下のように決定する。
第3図において音声区間の後端Eの後p3の部分は、音
声区間を決定する、つまりEを決定する前までは分析す
る訳であるから、p3の区間のフレームごとのパワーは算
出されている。従来法ではp3の区間のデータは、音声区
間が決定すれば捨ててしまっていたが、本発明では
(4)式に従いこの区間のフレーム毎のパワーの平均値
▲▼と分散σを求め騒音データ選択部5に送る。
騒音データ選択部5では音声区間検出のいき値設定の際
に用いた騒音レベルの平均値▲▼および分散σ
P2と、▲▼およびσE 2から式(5)に従って新しく
とσを計算する。
このとσを使って入力した騒音レベルが±σの
範囲に入っている騒音データだけをいき値設定のための
騒音データとして使用するものである。
▲▼,σP 2の初期値は(6)式に従ってもとめ
る。
±σの範囲にある騒音データを使って音声区間検出
のためのいき値TPXを従来例同様の考え方で式(7)に
従って設定し、このいき値TPXを用いて音声区間を検出
する。
P(I):学習時間L内にある±σの範囲にある第一
番目の騒音パワーの値 M :学習時間L内にある±σの範囲にある騒音デー
タのサンプル数 B :定数 TPXを用いて音声区間を検出した場合を第4図に示す。
この図において始端はSX、後端はEとなり、従来例とは
異なり/akita/の語頭の/a/の脱落がなくなり、きちんと
音声区間を検出できることがわかる。
以上の通り本実施例によれば、騒音学習に衝撃的な騒
音が入っても騒音レベルが予め設定した範囲になければ
学習用のデータとして用いないため、音声区間検出のい
き値設定を誤ることがない。従って、精度よく音声区間
を検出できるという利点を有する。
(発明の効果) 本発明は以上の説明から明らかなように、騒音学習を
行う際、学習時間に取り込む全てのフレームの騒音デー
タからいき値を設定するのではなく、予め設定した範囲
にある騒音データのみを用いて、いき値を設定している
ので、音声区間検出のためのいき値設定誤りを減少させ
精度よく音声区間を検出できる利点を有する。更に、音
声区間を精度よく検出できるため、音声認識率を向上さ
せる効果を有する。
【図面の簡単な説明】 第1図は本発明の一実施例における音声認識装置の概略
ブロック図である。 第2図は、従来例における音声認識装置の概略ブロック
図である。 第3図は、ある騒音レベルで/akita/と発声した場合の
騒音のパワーと音声パワーの時間変化を表したものであ
る。 第4図は、第3図とは異なる環境で/akita/と発声した
場合の騒音パワーと音声パワーの時間変化を表したもの
である。 1……マイク、2……前処理部、3……パワー検出部、
4……切り換えスイッチ、5……騒音データ選択部、6
……騒音学習部、7……音声区間検出部、8……音声認
識部、9……認識結果出力部。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 宮川 猛 横浜市港北区綱島東4丁目3番1号 松 下通信工業株式会社内 (56)参考文献 特開 昭58−76899(JP,A) 特開 昭57−144597(JP,A)

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】環境騒音及び音声の信号について単位時間
    毎のパワーを算出するパワー算出部と、騒音学習モード
    と音声区間検出モードに応じて前記パワー算出部の出力
    の供給先を切り換える切り換え手段と、騒音学習モード
    において前記パワー算出部の出力を受け、騒音レベルを
    学習し、音声区間検出のためのいき値を設定する騒音学
    習部と、音声区間検出モードにおいて前記パワー算出部
    の出力を受け、前記騒音学習部で設定されたいき値を用
    いて音声区間の検出を行う音声区間検出部とを備えた音
    声区間検出装置において、騒音学習時に、予め設定した
    騒音レベルの範囲にある騒音データのみを音声区間検出
    のいき値設定用のデータとして取り出し前記騒音学習部
    に提供する騒音データ選択部を設けたことを特徴とする
    音声区間検出装置。
  2. 【請求項2】騒音データ選択部は、予め設定する騒音レ
    ベルの範囲を決定するために、音声区間検出後の後端以
    後の部分を入力データとすることを特徴とする特許請求
    の範囲第(1)項記載の音声区間検出装置。
JP60161781A 1985-07-24 1985-07-24 音声区間検出装置 Expired - Lifetime JP2521425B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60161781A JP2521425B2 (ja) 1985-07-24 1985-07-24 音声区間検出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60161781A JP2521425B2 (ja) 1985-07-24 1985-07-24 音声区間検出装置

Publications (2)

Publication Number Publication Date
JPS6223096A JPS6223096A (ja) 1987-01-31
JP2521425B2 true JP2521425B2 (ja) 1996-08-07

Family

ID=15741783

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60161781A Expired - Lifetime JP2521425B2 (ja) 1985-07-24 1985-07-24 音声区間検出装置

Country Status (1)

Country Link
JP (1) JP2521425B2 (ja)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57144597A (en) * 1981-03-04 1982-09-07 Fujitsu Ltd Voice signal processor
JPS5876899A (ja) * 1981-10-31 1983-05-10 株式会社東芝 音声区間検出装置

Also Published As

Publication number Publication date
JPS6223096A (ja) 1987-01-31

Similar Documents

Publication Publication Date Title
WO1986003047A1 (en) Endpoint detector
GB2618629A (en) Device-directed utterance detection
CN112992191B (zh) 语音端点检测方法、装置、电子设备及可读存储介质
CN101510423A (zh) 发音检测方法及装置
JP2521425B2 (ja) 音声区間検出装置
JP2656069B2 (ja) 音声検出装置
EP0309561B1 (en) An adaptive threshold voiced detector
JP3520430B2 (ja) 左右音像方向抽出方法
JPS6147437B2 (ja)
JP2608702B2 (ja) 音声認識における音声区間検出方法
EP0310636B1 (en) Distance measurement control of a multiple detector system
JPH01502779A (ja) 適応多変数推定装置
JPS6338993A (ja) 音声区間検出装置
KR100273395B1 (ko) 음성인식시스템의음성구간검출방법
JP3008593B2 (ja) 音声認識装置
JPS6242197A (ja) 音声区間検出方法
JP3360978B2 (ja) 音声認識装置
KR0128669B1 (ko) 음성 신호의 실시간 음성부 검출 방법
JPH0754434B2 (ja) 音声認識装置
CN110827859B (zh) 一种颤音识别的方法与装置
JP3026855B2 (ja) 音声認識装置
JP3031081B2 (ja) 音声認識装置
JPH0119597B2 (ja)
JPH0469957B2 (ja)
Nishi et al. Analysis and detection of double talk in telephone dialogs.

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term