JP2656586B2

JP2656586B2 - 音声検出方法及びその装置

Info

Publication number: JP2656586B2
Application number: JP63300479A
Authority: JP
Inventors: 隆二郎村松
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1988-11-30
Filing date: 1988-11-30
Publication date: 1997-09-24
Anticipated expiration: 2012-09-24
Also published as: JPH02148099A

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は、情報通信システムのデイジタル・スピーチ
・インタポレーシヨン（Digital Speech Interpocatio
n,以下、DSIと称す）において、特にフレーム処理を行
なう高能率音声符号化装置に好適な音声検出方式に関す
る。

〔従来の技術〕

従来、音声検出器については、NTCレコード10、６−
１（1976年）（National Telecommunications Conferen
ce Record 10.6−１、Dec.1976）において論じられてい
る。

すなわち、従来の音声検出器では、入力音声を低域通
過フイルタに通してエンベロープ成分を抽出するかまた
は入力音声よりパワーを直接演算により求めるかした
後、固定閾値と比較して有音無音の識別を連続的に行な
つて来た。

そして、この音声検出出力を用いて、無音区間を抑圧
して、回線の有効活用をはかるDSIシステム等の制御を
行なつて来た。

〔発明が解決しようとする課題〕

一般的に、フレーム単位（通常、フレーム周期は20m
s）に音声を切り出してまとめて情報圧縮を行なう高能
率符号化方式により、音声情報を伝達するDSIシステム
においては、音声検出出力も、フレーム周期毎に出力さ
れ、該当フレームが有音フレームであるか、無音フレー
ムであるかの識別に利用される。

しかしながら、このようなDSIシステムにおいて、従
来技術である音声検出方式を適用した場合、特定フレー
ム内に存在する入力音声のエンベロープまたはパワーに
より有音無音の識別を行なうため、フレームの後半で無
音から有音に立ち上がる音声や、フレームの前半で有音
から無音に変化する音声の場合該当フレームは、無音フ
レームとして識別され易くなる。そして、このような現
象はシステムを通して通話した場合、それぞれ語頭切
れ、語尾切れにつながり、正しく会話内容が伝わらない
という不具合を生ずる。また、前述の不具合を回避する
ため単に検出閾値を下げたのでは、微弱な雑音を有音と
識別し易くなり、システムの回線利用効果の低下につな
がる。

〔課題を解決するための手段〕

本発明は、フレーム毎に音声の有無を識別する音声検
出方式において、上記各フレームを複数のサブフレームに分割し、上記
サブフレーム毎の音声情報を検出する第１のステツプ
と；上記音声情報の検出結果に重み付けを行ない、１フレ
ームにわたつて総和を求める第２のステツプと；上記重み付けを行なつた出力結果に基づき、音声の有
無を判別する第３のステツプと；からなることを特徴とする。

〔作用〕

本発明の音声検出器によれば、無音から有音へ変化時
には、乗じられる重みがフレームの後半になるほど大き
いために、音声が入力し始める時点がフレームの前半に
ある場合と、フレームの後半にある場合とで、フレーム
単位の音声情報の値は、従来技術に比べて差が小さくど
ちらも有音と判定され易くなる。また、有音から無音へ
の変化時には、乗じられる重みがフレームの後半になる
ほど小さいために、音声がなくなる時点がフレームの前
半にある場合と、フレームの後半にある場合とで、フレ
ーム単位の音声情報の値は、やはり従来技術と比べて差
が小さくどちらも有音と判定され易くなる。これによ
り、従来の技術で問題となつていた語頭切れや語尾切れ
を少なくすることができる。なお、微少雑音に対して
は、サブフレーム毎の検出閾値が雑音レベルを下まわら
ない様に設定しておくことにより、誤つて有音と識別す
ることを防止することができる。

〔実施例〕

以下、本発明の実施例を図面を参照して詳細に説明す
る。

第３図は、長距離電話伝送において、回線の有効活用
をはかるDSIシステムの構成図である。

同図において、20及び70は、構内交換機（以下、PBX
と称す）、11〜1n及び81〜8nは、それぞれPBX20,PBX70
の内線電話端末、５及び６はデイジタル回線、１は、PB
X20の内線電話端末10〜1nからの音声データが有音か無
音かを検出し、有音である音声データのみ多重化してデ
イジタル回線５へ送信するDSI送信装置、２は、デイジ
タル回線５からの多重化された音声信号を受信して、分
配制御を行ない、PBX70の内線電話端末80〜8nへ出力さ
せるDSI受信装置、３は、PBX70の内線電話端末80〜8nか
らの音声データが有音か無音かを検出し、有音である音
声データのみを多重化してデイジタル回線６に送信する
DSI送信装置、４は、デイジタル回線６からの多重化さ
れたデータを受信して、分配制御を行ないPBX20の内端
電話端末10〜1nへ出力させるDSI受信装置である。

まず、内線電話端末11〜1nより内線電話端末81〜8nへ
の音声データの伝送に関して、本システムのDSI送信装
置１の動作を第４図を参照し説明する。

内線電話端末11〜1nより入力した音声はPBX20を通つ
た後、DSI送信装置１に入力される。DSI送信装置１に入
力された音声は、高能率音声符号器31〜3nにより20msフ
レーム単位で情報圧縮されると同時に、音声検出器41〜
4nによつて音声の有無を20ms毎に検出される。音声検出
器41〜4nからの音声検出出力は割当制御部51に入力さ
れ、音声信号接続部50を制御すると共に、割当信号発生
部52へ情報を伝達する。音声信号接続部50では、ｎ本の
高能率音声符号器31〜3nからの出力のうち有音部の音声
符号化データ出力のみを多重化し回線多重部53へ送出す
る。回線多重部53は、更に上記有音部の音声符号化デー
タと割当信号を多重化した多重化データをデイジタル回
線５へ出力する。

次に、本システムのDSI受信装置２の動作について第
５図を参照し説明する。

まず、デイジタル回線５からの多重化データは、多重
分離部54によつて上記音声符号化データと上記割当信号
とに分離され、音声符号化データを音声信号接続部55
へ、割当信号を割当信号受信部56へそれぞれ入力する。
次に、分配制御部57は、割当信号受信部56からの出力を
もとに音声信号接続部55の制御を行い、音声信号接続部
55は、音声符号化データの分配制御を行なう。そして、
分配制御された音声符号化データは、音声復号器61〜6n
によつて音声データに変換され、PBX70を介して内線電
話端末81〜8nへ出力される。

また、同様にしてPBX70の内線電話端末81〜8nにより
入力した音声は、DSI送信装置３で多重化され、DSI受信
装置４によつて再生されて、PBX20の内線電話端末11〜1
nへ出力される。

次に、DSI送信装置１及び３の音声検出器（第４図,41
〜4n）の動作を第１図，第２図により説明する。

第１図において、音声入力4101は高域通過フイルタに
より直流成分が除去された後、4ms長のサブフレーム毎
に動作するサブフレーム内パワー構算部4103及び4105と
サブフレーム内ゼロクロス数計数部4107に入力される。

音声入力は8KHzでサンプリングされているためサブフ
レーム内パワー演算部4103及び4105では次式（１）によ
りパワーを算出する。

次に、サブフレーム内パワー演算部4103及び4105で
は、各々高レベル検出閾値4104、低レベル検出閾値4106
との比較が次の様に行なわれる。

検出閾値をT_hjで表せば、 P_sk≧T_hjのときD_jk＝１ P_sk＜T_hjのときD_jk＝０（ｊ＝1,2）によりパワー検出を行なう。

また、同時にサブフレーム内ゼロクロス数計数部4107
によつて連続する２サンプルのフイルタ出力の極性ビツ
トが異符号となる数、すなわちゼロクロス数の計数を次
の演算（２）によつてサブフレーム毎に行なわれる。

ここでである。

そして、ゼロクロス数検出閾値4108との比較が同様に
次の様に行なわれる。

Z_sk≧T_h3のときD_3k＝１ Z_sk＜T_h3のときD_3k＝０次に、サブフレーム内パワー演算部4103,4105及びサ
ブフレーム内ゼロクロス数計数部4107の出力D_1k,D_2k及
びD_3kは、それぞれ増加関数重み付け総和部4109,4111,4
113に入力され、次の演算（３）が行なわれる。

また、減少関数重み付け総和部4112では、次の演算
（４）が行なわれる。

なお、上述した増加関数重み付け演算の様子を第６図
に示し、また減少関数重み付け演算の様子を第７図に示
す。

以上により求められたD₁,D₂,D₃,D₄は、フレーム単位
の重み付け総和であり、整数値となる。また、これらを
再び固定閾値4114〜4117と、フレーム毎の検出部4118,4
120,4121,4122において次の様に比較する。

D_j≧F_THjのときL_j＝１ D_j＜F_THjのときL_j＝０（ｊ＝1,2,3,4）ここで、F_THjは固定閾値4114〜4117の閾値を表わして
いる。

また、これらとは別にフレーム内パワー演算部4110に
よつて、フレーム内パワーを次式（５）により求める。

次にフレーム間パワー増分検出器4119にて、下記判定
を行なう。

これは、現フレームのパワーが前フレームのパワーの
２倍以上かどうかを判定するものである。

上述の動作によつて得られたL₁〜L₅をもとに、論理判
定部4123は、有音、無音の判定を行なう。

以下、論理判定部4123の動作を、第２図に従い説明す
る。

論理判定部4123は、まず、検出部4118の出力L₁が“1"
（step1）かまたは、検出部4122の出力L₃が“1"（step
2）の場合には、有音と判定し、有音フラグに“1"をセ
ツトし（step9）、ハング・オーバー・タイマをセツト
して（step10）、有音フラグの出力を行なう（step1
1）。また、検出部4120の出力L₂およびパワー増分検出
器の出力L₅が同時に“1"の場合も（step3,step4）、同
様に有音と判定して、有音フラグを“1"にセツトし（st
ep9）、ハング・オーバー・タイマをセツトして（step1
0）、有音フラグの出力（“1"）を音声検出出力4124へ
行なう（step11）。

次に、検出部4121の出力L₄が“0"となつた場合には
（step5）、論理判定部4123の中にあるハング・オーバ
ー・タイマを起動し（step6,step7）、タイマー設定時
間経過後有音フラグを“0"にセツトして（step8）、有
音フラグの出力（“0"）を音声検出出力4124へ行なう
（step11）。

〔発明の効果〕

本発明によれば、以下に記載される効果が得られる。

（１）音声開始時には、フレーム後半のサブフレーム
の音声検出結果に大きな重みをかけることにより語頭切
れの少ない音声検出が行なえる。

（２）音声終了時には、フレームの前半のサブフレー
ムの音声検出結果に大きな重みをかけることにより語尾
切れの少ない音声検出が行なえる。

【図面の簡単な説明】

第１図は、音声検出器のブロツク構成図、第２図は、論
理判定部の論理判定フローチヤート図、第３図は、DSI
システム構成図、第４図は、DSI送信装置のブロツク構
成図、第５図は、DSI受信装置のブロツク構成図、第６
図は、フレームの後半で立ち上がる音声を、有音と判定
する様子を示す図、第７図は、フレームの前半で立ち下
がる音声を、有音と判定する様子を示す図である。 1,3……DSI送信装置、2,4……DSI受信装置、20,70……
構内交換機、11〜1n,81〜8n……内線電話端末、41……
音声検出器。

Claims

(57)【特許請求の範囲】

【請求項１】フレーム毎に音声の有無を識別する音声検
出方式において、上記各フレームを複数のサブフレームに分割し、上記サ
ブフレーム毎の音声情報を検出する第１のステツプと；上記音声情報の検出結果に重み付けを行ない、１フレー
ムにわたつて総和を求める第２のステツプと；上記重み付けを行なつた出力結果に基づき、音声の有無
を判別する第３のステツプと；からなる音声検出方法。
【請求項２】各フレームの前半部分のサブフレームよ
り、各フレームの後半部分のサブフレームに重み付けを
行なつて、語頭切れをなくすようになしたことを特徴と
する請求項１記載の音声検出方法。
【請求項３】各フレームの後半部分のサブフレームによ
り、各フレームの前半部分のサブフレームに重み付けを
行なつて、語尾切れをなくすようになしたことを特徴と
する請求項１記載の音声検出方法。
【請求項４】フレーム毎に音声の有無を識別する音声検
出方式において、上記各フレームを複数のサブフレームに分割し、上記サ
ブフレーム毎の音声情報を検出する第１のステツプと；上記各フレームの前半部分のサブフレームの音声情報の
検出結果より、上記各フレームの後半部分のサブフレー
ムの音声情報の検出結果に重み付けを行い、１フレーム
にわたつて総和を求める第２のステツプと；上記各フレームの後半部分のサブフレームの音声情報の
検出結果より、上記各フレームの前半部分のサブフレー
ムの音声情報の検出結果に重み付けを行い、１フレーム
にわたつて総和を求める第３のステツプと；を備え、上記第２のステツプによつて音声の検出出力が
得られない時に、上記第３のステツプで音声の検出を行
なうようになしたことを特徴とする音声検出方法。
【請求項５】フレーム毎に音声の有無を識別する音声検
出方式において、上記各フレームを複数のサブフレームに分割し、上記サ
ブフレーム毎の音声情報を検出する音声情報検出手段
と；上記音声情報検出手段の検出結果に重み付けを行ない、
１フレームにわたつて総和を求める重み付け総和手段
と；上記重み付け総和手段からの出力結果に基づき、音声の
有無を判別する判別手段と；を備えたことを特徴とする音声検出装置。