JPH0822295A - 音声・非音声判定方法 - Google Patents

音声・非音声判定方法

Info

Publication number
JPH0822295A
JPH0822295A JP6153934A JP15393494A JPH0822295A JP H0822295 A JPH0822295 A JP H0822295A JP 6153934 A JP6153934 A JP 6153934A JP 15393494 A JP15393494 A JP 15393494A JP H0822295 A JPH0822295 A JP H0822295A
Authority
JP
Japan
Prior art keywords
signal
voice
program
mode
decision
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6153934A
Other languages
English (en)
Inventor
En Chien Yooku
ヨーク・エン・チェン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP6153934A priority Critical patent/JPH0822295A/ja
Publication of JPH0822295A publication Critical patent/JPH0822295A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】番組の内容が音声番組であるか、あるいは非音
声番組であるかにつてい、従来に比べてより簡単にしか
もより一層信頼性の高い判定が行える音声・非音声判定
方法を提供することを目的とする。 【構成】入力信号S0に対し、信号処理を行う各処理ス
テップ1〜3と、その入力処理された処理信号の中に、
発声機構から導かれる音のバーストが存在するか否かを
調べ、存在する場合には、入力信号S0は音声信号、又
存在しない場合には、非音声信号であると判定する各ス
テップ8〜11等とを備える。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、例えば、テレビ(TV)
やラジオなどのオーディオ/ ビデオ消費材において音声
(speech )と非音声(non-speech )の視聴覚番組(au
dio visual programme)の内容を区別し、それぞれの番
組に適した音響処理法を利用することができる、音声あ
るいは非音声としての音響信号の識別等にかかる音声・
非音声判定方法に関する。
【0002】
【従来の技術】従来、視聴覚番組の理想的な音響効果を
選択するための技術としては、キー選択による手動管理
に限定されている。いくつかの周波数域 (一般には低
音域、中音域、高音域) の出力比較をもとにして、音
声番組(speech programme)および音楽番組(music pr
ogramme)を自動的に検出しようという試みがなされて
いる。LPC セプトラム、LPC およびFFT を含むその他の
特殊分析法は集中的および広範囲な計算法である。
【0003】
【発明が解決しようとする課題】しかしながら、従来の
このような試みによる検出性能は、信頼できるものでは
なかった。これは音声番組と非音声番組(non-speech p
rogramme)が、共に非常に広範囲な周波数域 (一般に8
0〜8kHz) を共有しているためである。
【0004】一方、番組モード(programme mode )選
択の手動制御は煩雑になりやすい。しかし既存の自動番
組検出方法は費用がかかるか、あるいは、上述のように
信頼性が低いものであるという課題を有していた。
【0005】本発明は、従来の上記課題を考慮し、番組
の内容が音声番組であるか、あるいは非音声番組である
かにつてい、従来に比べてより簡単にしかもより一層信
頼性の高い判定が行える音声・非音声判定方法を提供す
ることを目的とする。
【0006】
【課題を解決するための手段】請求項1の本発明は、所
定の入力信号に対し、所定の信号処理を行う入力処理ス
テップと、その入力処理された処理信号の中に、発声機
構から導かれる音のバーストが存在するか否かを調べ、
存在する場合には、前記入力信号は音声信号(speech s
ignals)、又存在しない場合には、非音声信号(non-sp
eech signals)であると判定する解析・判定ステップと
を備えた音声・非音声判定方法である。
【0007】請求項2の本発明は、上記入力処理ステッ
プが、前記入力信号から無声音信号(non-vocied signa
ls)成分の全部又は一部を除去し、その後、その被除去
入力信号を所定のサンプリング値に基づいて、各々量子
化する音声・非音声判定方法である。
【0008】請求項3の本発明は、上記処理信号が所定
レベル以上の信号レベルを第1の所定時間以上維持する
場合には、前記入力信号は非音声信号であると判定し、
且つ前記解析・判定ステップを実行せず、又そうでない
場合には、前記信号レベルに基づいて前記解析・判定ス
テップを実行するか否かを決定するステップを備えた音
声・非音声判定方法である。
【0009】請求項4の本発明は、上記音のバーストが
存在する場合が、前記処理信号に含まれる信号パルスの
内で、パルス幅が所定長以上であり、且つそのピーク値
が所定値以上である信号パルスが少なくとも2個存在す
る場合、及び/又はその信号パルスが少なくとも1個存
在し、且つその信号パルスに第2の所定時間以上のポー
ズが隣接して存在する場合である音声・非音声判定方法
である。
【0010】
【作用】本発明では、入力処理ステップが、所定の入力
信号に対し、所定の信号処理を行い、解析・判定ステッ
プが、その入力処理された処理信号の中に、発声機構か
ら導かれる音のバーストが存在するか否かを調べ、存在
する場合には、前記入力信号は音声信号、又存在しない
場合には、非音声信号であると判定する。
【0011】このような方法により、本発明では、例え
ば、音声番組と非音声番組を容易に識別できる特徴を持
たない通常のスペクトル分析ではなく、時間的分析の方
法が使用されている。音声信号に時間的分析を使用した
場合は、バーストのような音声パルスの規則的な列が現
れる。これらのパルスにはいくつかの性質があり、その
性質を利用して音声番組検出に適用することができる。
同様に特定の非音声信号に関しても、非音声番組検出に
利用できる特有の性質がある。
【0012】又、本発明では、例えば、入力信号のdc成
分を除去するdcリムーバー、言語信号中の高周波数成分
を除去する無声音言語リムーバー、有声音成分の適切な
エンベロープを含む信号エンベロープモデル、さらには
信号連続性チェックと番組(内容)変化チェック用のア
イドルモードと新規信号スタート時に意志決定モードを
作動させるトリガーモード、および信号検出のための各
種言語および非言語エンベロープ特徴を識別するデシジ
ョンモードという3つの独立した処理モードからなる3
モード検出技術で構成されており、これによって本発明
は、番組信号(programme signal)が音声性であるか非
音声性であるかを識別することができる。
【0013】本発明では、例えば、信号検出が必要にな
るのは番組または信号特性に変化が生じた場合だけであ
ると仮定している。すなわち番組(内容の)変化(prog
ramme transition)が生じた場合だけである。信号検出
のプロセスは、音響信号の波形特性の時間的分析をもと
に行われる。この検出方法の利点は、音響レコーディン
グの形態 (ステレオ、モノ、ドルビープロロジックな
ど) を問わずどのようなオーディオ信号にも適用できる
点である。上記の方法の実践には、ディジタル信号プロ
セッサの利用が便利である。
【0014】
【実施例】以下、本発明にかかる一実施例の音声・非音
声判定方法について表及び図面に基づき、まず本実施例
の概要を述べ、更にフローチャート等を参照して具体的
な動作の説明を行う。
【0015】すなわち、(表1)は、いくつかの一般的
なTV番組の分類例である。
【0016】バック音楽/環境音楽に対する平均音声比
率が29dB以上の場合だけ、その番組は音声番組として認
識される。この概念における上記の信号平均は、10msec
の枠内における入力信号の算出平均に相当する。無声平
均値(silent averege value)は-34dB 以下、非無声平
均値(non-silent averege value)は-34dB 以上にな
る。
【0017】
【表1】
【0018】図1は、本実施例のアルゴリズムを示すフ
ローチャートである。
【0019】図4には2秒間(200ms/div) のウィンドウ
における典型的な音声列(speechtrain)が示されてい
る。音声波形は、図5に示した典型的な非音声(音楽、
または環境音楽を伴う音声)ソースとは非常に異なるバ
ーストのような信号の規則正しい列になっている。この
明らかな違いは人間の声管の動きに限界があることによ
る。つまり人間の声管は、しゃべり続けると、それぞれ
の発音にあわせた形にすぐには変形できなくなる。事実
声管を必要な形と位置に調節するには時間がかかる。こ
のように声管を徐々に動かすことによって、有声音信号
(voicedsignals)がバーストのようなパルスに変わ
る。
【0020】以上のような音声信号の特徴に着目して、
本実施例は主として、音声信号検出を実行するための時
間的観察をもとにしている。
【0021】しかしリアルタイム信号のサンプルごとの
処理には、膨大な計算と集中的なメモリーが必要とされ
る。
【0022】そこで、もとの信号の適当なエンベロープ
を得るために10msecの枠組み (図1のエンベロープ検
出と量子化ステップ3参照)におけるサンプルの平均が
求められる。上記エンベロープ信号S5(図1参照)を
もとにして次に音声信号と非音声信号の違いを識別し、
音声番組と非音声番組を検出する。
【0023】実際に、放送されている視聴覚番組の大半
には、同じ番組中に音声部分と非音声部分が交代に登場
する。そのため信号特性の決定を常時行えば、音声と非
音声番組モード(speech and non-speech programme mo
des)間で頻繁に切替えが生じ、かなり煩雑になる。こ
の問題点は検出アルゴリズムの精度とは関係なく、視聴
覚番組における信号成分に特有の性質である この問題を解決するために、本実施例のアルゴリズムに
は継続的な意志決定を避ける慣性がかかるように工夫さ
れている。
【0024】事実、認知された番組信号変化(programm
e signal trasition)S21(図1参照)が検出されて
初めて決定がなされる。番組信号変化S21が番組(内
容の)変化を判定するステップ15(図1参照)で検出
されたら、ステップ17(モード=0とするステップ)
(図1参照)で、検出モードを後述するトリガーモード
に変換することによってはじめて決定が可能になる。こ
のモードでは、ステップ7(図1参照)が、新たな非無
声信号(non-silent signal)を絶えずチェックする。
【0025】この非無声信号S25が検出されたら、次
にステップ19で検出モードを正 (モード = +ve) にセ
ットすることにより、その検出モードを決定モードに変
換する。これで番組の性質は、S26での信号決定の一
番最初から2秒以内または最高2秒で識別されるものと
する。一度決定が行われると、検出モードはステップ1
2で負 (モード = -ve) に設定され、次の番組信号変化
S21が発生するまで、もう新しい決定はされない。
【0026】この特徴によって優先性が割り当てられ、
不要な番組モード切り換えを防止できる。論点は、番組
内で明白な番組(内容の)変化が生じなければ意志決定
が求められないという事実である。
【0027】次に、図1を用いて、本実施例の構成と動
作を更に具体的に説明する。
【0028】図1では、入力信号S0が入力されるdc
リムーバーによる処理ステップ1と、有声音声(voiced
speech)抽出装置による処理ステップ2、エンベロー
プ検出装置および量子化装置による処理ステップ3、3
モード検出テクニックによるステップ5等からの信号フ
ローの流れが示されている。
【0029】すなわち、これらについて以下詳細に述べ
る。
【0030】(a)処理ステップ1のDcリムーバー 入力信号S0には、前段階からのdcオフセットにより
dc成分が含まれていることが多い。そのため処理ステ
ップ1のdcリムーバーを使ってそのdc成分を除去す
る。dc成分が取り除かれていないと、後の段階での処
理中に望ましくない副産物になってしまう。前記dcリ
ムーバーは、音響信号に影響しない、10Hz程度の低
い遮断周波数の、ハイパスフィルターを使って簡単に実
現できる。次にこの処理ステップ1からの出力信号S1
は、後述する有声音声抽出装置による処理ステップ2で
処理される (b)処理ステップ2の有声音声抽出装置 音声信号は有声音声と無声音声(unvoiced speech)の
2種類に分類される。発生源は周期的で、空気の流れが
真声帯によって周期的に妨げられると喉頭において発生
する。無声音声は、上記の音を出す声管を狭めて出され
た信号の不規則性によりノイジーになる。無声音信号は
非音声信号に比べて特別な性質を持たないので、取り除
いて有声音声だけを分離させることができる。このプロ
セスで、有声音声の顕著な性質がより明白になる。無声
音声の大半は、主に2kHz以上の高周波数成分で構成
されている。このため、無声音信号(高周波数)成分
(unvoiced components)の全部ではなくてもそのほと
んどを遮断できるような、2kHz程度の低い遮断周波
数の、低パスフィルターを使って、処理ステップ2の有
声音声抽出装置を提供することができる。次にこのステ
ップ2からの出力S2が、処理ステップ3のエンベロー
プ検出装置と量子化装置に送られる。
【0031】(c)処理ステップ3のエンベロープ検出
装置および量子化装置 直流信号での処理には膨大な計算と集約的なメモリーが
必要である。この問題点を解決するために、もとの信号
はまず隣接するエンベロープモデルに変換され、以降の
処理はこのエンベロープモデルをもとに行われる。エン
ベロープ検出装置と量子化装置に使用されるこの隣接法
は、10msecの時間枠内の入力信号S2の平均を出
すという簡単なものである。この算出式を(数1)に示
す。
【0032】
【数1】
【0033】 ここでは、 N=10msec間のサンプル数 i=正の整数 i≧0 (数1)を用い、このようにして得られた平均値は、1
0msec枠内のもとの信号を表す。信号を簡単に識別
するために、各10msec枠で求めた平均値を下に示
す6種類の数値のどれかに量子化する(図3参照)。
【0034】A0 :A<−34dB A1 :−34dB≦A<−22dB A2 :−22dB≦A<−18.5dB A3 :−18.5dB≦A<−15.9dB A4 :−15.9dB≦A<−14dB A5 :A≧−14dB ここでは、(I) −4.9dB は通常の入力信号
レベル (II) 0dbは最大入力信号レベル したがってステップ4でチェックされるように、各10
msecの終わりでは、新しく量子化された平均値S5
が、それに続く3つの検出モードのどれかに送られる。
それ以外は、10msecの枠がいっぱいになるまで、
次の入力信号とS4で平均化プロセスが継続される。
尚、本発明の入力処理ステップは、上述した各処理ステ
ップ1〜3等を含む。
【0035】(d)3モード検出テクニックによるステ
ップ5 各モードの機能は次のようになる。
【0036】 (1)アイドルモード(S6)−(a)信号連続性をチェックするステップ 6 (b)番組(内容)変化をチェックするス テップ15 (2)トリガーモード(S7)−(a)新規信号S25開始時での決定モー ドへのトリガー (3)決定モード(S8)− (a)音声及び非音声の特徴を特定するス テップ8 (b)音声番組・非音声番組を自動検出 (automatic programme detection) するステップ9 これら各モードについて更に説明する。 (1)アイドルモードS6 (モード=−ve) このモードは、番組信号の特性に則して決定がなされた
直後のみ作動可能である。
【0037】アイドルモードは主に次の2つの部分から
なっている。
【0038】(i)番組(内容)変化の検出をするステ
ップ15 視聴覚番組には、ニュースやバラエティ、ゲームショ
ー、映画、コマーシャルを始め、さまざまな種類があ
る。番組によっては(バラエティやコマーシャルな
ど)、音声と非音声部分が交互に登場するような内容の
ものもある。すなわち1つの番組中に、番組モードステ
ータスの切替え (音声から非音声への切替え、あるい
は非音声から音声への切替え)を何度も行わなければな
らない。
【0039】この問題を解決するためには、番組中にそ
の変化が認められない場合は、決定を行わないことを前
提にすることである。番組(内容)変化が認められるの
は、一定時間(たとえば600msec)以上、上述し
た平均信号レベルAが、あるレベル(たとえば−34d
B、すなわちA0)以下になる場合である。この条件が
満たされた場合に限り、新規番組のステータスに関して
新しい決定がなされるのである(認知された番組(内
容)変化に続く信号に適用される)。それ以外は、番組
はそれまでの状態のままを維持される。新しく検出を行
うときには検出モードをまずステップ17でトリガーモ
ード(S7)に変換し、次に新規信号S25がスタート
したら、ステップ19で再び決定モード(S8)に変換
する。
【0040】(ii)非音声番組に対する信号連続性チェ
ックのステップ6 上記特性(d)の副作用は、音声番組終了時に非音声番
組がフェードインすることになっている場合、この番組
(内容)変化はステップ15では検出されないというこ
とである。信号連続性チェックのステップ6は、この欠
点をカバーするために実行される。たとえば平均信号レ
ベルAが連続3秒(本発明の第1の所定時間に対応)以
上、上記無声レベルA0(−34dB)(本発明の所定
レベルに対応)より高いことが確認されたら、番組が進
行して非音声ステータスになったと結論づける(ステッ
プ13)ことができる。理由は、音声パルスの最大長
は、通常2.5秒を超えることがないからである。 (2)トリガーモードS7(モード=0) このモードが作動するのは、ステップ15で番組信号変
化S21が検出された場合だけである。このトリガーモ
ードの目的は、新しく入ってくる番組信号の開始時に、
決定モードにトリガーすることである。すなわち、それ
は、最初の非無声信号S25がステップ7で検出される
ときである。その後、ステップ19で検出モードが決定
モードに設定される(モード=+ve)。尚、請求項3
の本発明のステップは、上記ステップ6,7,13,1
5,17,19等を含む。 (3)決定モードS8(モード=+ve) このモードは、まず音声および非音声の性質を特定する
ステップ8と、それに続く特徴の一致をチェックするス
テップ9によって構成されており、エンベロープ信号の
特徴の一致をチェックするものである。エンベロープ信
号S5は、性質分析のために、PULSEセクションと
PAUSEセクション(図2参照)に分割される。これ
ら2つのセクションの中に、音声および非音声特性の一
致性をチェックする各種の基準がある。この基準をもと
に、2秒のタイムウィンドウ内で意志決定が行われる。
この2秒間の時間枠内に決定に達しなかった場合、番組
は自動的に非音声番組と認められる。新規番組の検出を
行うたびごとに、決定モードは常にPULSEセクショ
ンでの処理を開始する。信号プロセシングは、前述の平
均信号レベルがA0に達するまではPULSEセクショ
ンにとどまる。この時点で、その処理はPAUSEセク
ションに遷移し、間接的に信号パルスの終了も知らせ
る。信号パルスは、図2に示したように2つのポーズ信
号レベル(前記レベルA0)で区切られた上述の非無声
信号レベル(A>A0)として定義される。
【0041】次に、上述したPULSEセクションとP
AUSEセクションについて、更に説明する。
【0042】PULSEセクション(図2参照) 信号パルスを音声パルスとして認めるためには、このセ
クションにおけるの前述の基準(1),(2)(図2参
照)に一致していなければならない。尚、この基準
(1)の100msは、本発明の所定長に対応し、基準
(2)の−18.5dBは、本発明の所定値に対応す
る。各新規番組の最初のパルスには、さらにそのアタッ
クタイムに対するチェックが行われる。このアタックタ
イムは、一定の最小レベル(例えば、−18.5dB)
に上昇するためにエンベロープ信号が取る時間に当ては
まる。このチェックは、前の音声が次の音声に与える影
響を表すコアーティキュレーション作用に影響されない
最初のパルスだけに適用される。ここでもう一度図2を
参照するが、前述の基準(4)と(5)は、いくつかの
番組における低背景音などの非音声信号に対するチェッ
クである。ドアをノックする音や背景の交通の流れの
音、パーティシーンのざわめきなどがこの信号の例であ
る。基準(4)では、長さ80msec以下の連続した
2パルスがあれば、非音声番組と決定されると示されて
いる(ステップ11)。一方、基準(5)では、ピーク
レベルが−18.5dBの2連続パルスが検出された場
合も非音声番組と認められるとされている。
【0043】PAUSEセクション(図2参照) このセクションで最初にチェックするのは、2つの認知
音声パルス(上記のような)が生じたら、番組がただち
音声番組(SPEECH)と解釈されることである
(ステップ10)。それに従って検出モードはアイドル
モード(S6)に変換される(ステップ12)。次のチ
ェックでは、先行するパルスが音声パルスで、その後
に、本発明の第2の所定時間としての一定の長さ(20
0msecなど)以上のポーズが続くと、その番組も音
声番組(SPEECH)とみなされることである。最後
に前述の基準(3)では、ポーズ時間(500mse
c)が2秒決定ウィンドウ内に生じたら、今度は有効な
信号特性分析が制限されるということが明記されてい
る。これは決定を行う際の障害になる可能性があるた
め、この場合は決定モードをトリガーモード(S7)に
戻し、次に入ってくる信号を待機させてから信号決定を
再開させるように判断される。尚、本発明の解析・判定
ステップは、上述したステップ8,9,10,11等を
含む。
【0044】図7〜図10は、現在放送中の一般的なTV
番組のオーディオ信号を使った、3モード検出テクニッ
クによるアルゴリズム実行を図示したいくつかの例であ
る。それぞれの例において、次の3つの波形の分析結果
は以下のようになる。
【0045】波形1; 3検出モードを表示 レベル −ve ・・・・ アイドルモード(S6) レベル 0 ・・・・ トリガーモード(S7) レベル +ve ・・・・ 決定モード(S8) 波形2; エンベロープパルスを表示 波形3; 入力信号S0を表示 以下に、各々の例について、図面を参照しながら説明す
る。尚、各図7〜図10における波形は、5秒(500msec
/div.)の時間枠で捕捉される。
【0046】例1(図7参照) これは、S0での入力音声シーケンスのアルゴリズム実
行中の検出ステータスを示した例である。検出モードは
まずアイドルモード(S6)で始まり、番組(内容)変
化S21を確認したらトリガーモード(S7)に変わ
る。新規信号S25が開始されると検出モードは決定モ
ード(S8)に変換され、新規番組のステータスの特定
が行われる。最初のパルスはPULSEセクションにお
ける前述の基準(1),(2)に一致することが確認さ
れ、音声パルス(PULSE=1)と判断される。この
パルスは既に説明したように、各新規信号の最初のパル
スだけに適用されるPULSEセクションの前述の基準
(3)にも一致する。次に、二番目のパルスもPULS
Eセクションの前述の基準(1),(2)に一致するた
め、音声パルスと認められる。連続する2音声パルスが
検出されたら、信号はこうしてPAUSEセクションで
の前述の基準(1)に一致し、番組は音声(SPEEC
H)と検出される。決定がなされたら、検出モードはア
イドルモードS6に戻り、次に新しい番組(内容)変化
が起こるまでそのモードのままである。
【0047】例2(図8参照) これは、性質特定モジュールのどの基準にも当てはまら
ない音楽シーケンスを示した例である。2秒ウィンドウ
の終了時のように、番組は自動的に非音声と認識され
る。
【0048】例3(図9参照) これは、後で音声番組に変化する非音声番組の例であ
る。同様に、新規信号S25が開始されたら、番組(内
容)変化S21の検出後に決定モードS6が有効にな
る。PULSEセクションでは最初のパルスが基準
(1),(2)に一致しているため、音声パルス(PU
LSE=1)と認められる。次にPAUSEセクション
では、最低長さ200msecの無声時間(量子化レベ
ル=A0)が検出され、前述の基準(2)に一致する。
同じように、番組は音声番組として検出され、その検出
モードはその後ステップ12でアイドルステート(S
6)に戻る。
【0049】例4(図10参照) これは、後で非音声番組に変化する音声番組の例であ
る。決定モードの間は遭遇する最初のパルスは、PUL
SEセクションの基準(3)で述べたようにアタックタ
イム基準には一致することができない。こうして新規番
組は非音声ステータスと決定される。
【0050】このように、本実施例によれば、不要な切
換え回避を優先しながら、求められる仕様に関して音声
および非音声視聴覚番組を検出することができる。しか
も時間的分析を利用しているため、検出概念はシンプル
かつ有効である。番組の性格を考慮した決定にもとず
き、それぞれのモードにふさわしいサウンド処理が適用
される。
【0051】上記の音声および非音声自動検出法を利用
することによって、ディジタル信号プロセッサを使った
番組検出アルゴリズムが実現される。この方法により、
各番組モード用の音響効果を選択することができる。さ
らに性質特定モジュールにおいて仕様される音声および
非音声特性チェックの変更や追加も簡単に行うことがで
きる。またこの方法はモノラル、ステレオ、ドルビープ
ロロジックなどを問わずどのような音源にも適用可能で
ある。しかし検出アルゴリズムは放送される音響信号の
レベルには敏感なため、適切な調整が必要である。
【0052】尚、上記実施例では、番組モードの不要な
切換え回避を優先するために、検出モードを変換する場
合について説明したが、これに限らず、例えば、上記検
出モード等を用いない、上記切換え回避を優先を考慮し
ない構成であってもよい。従って、この場合、本発明の
入力処理ステップと解析・判定ステップにより構成され
る。
【0053】又、上記実施例では、入力処理ステップと
して、各処理ステップ1〜3等を用いた場合について説
明したが、これに限らず、解析・判定ステップにおい
て、実質的に入力信号の判定が、従来に比べてより一層
信頼性の高いものとして行えるものでありさえすれば、
上記処理ステップの内容あるいはその種類等は問わな
い。
【0054】又、上記実施例では、各ステップ内での各
種基準として示した具体的な数値等は、実状に応じて多
少変更してももちろんよい。
【0055】
【発明の効果】以上述べたところから明らかなように、
本発明は、入力信号が音声信号であるか、あるいは非音
声信号であるかについて、従来に比べてより一層信頼性
の高い判定が行えるという長所を有する。
【図面の簡単な説明】
【図1】本発明にかかる一実施例のアルゴリズムを示す
フローチャート
【図2】本実施例の音声および非音声性特定方法の内容
を示す説明図
【図3】本実施例のエンベロープ検出に求められる10ms
ecの各フレームでの、信号平均の各種レンジの量子化さ
れた値を示す図
【図4】本実施例の2秒ウィンドウの典型的な音声信号
の時間域波形
【図5】本実施例の2秒ウィンドウの典型的な音楽信号
の時間域波形
【図6】本実施例の音声信号で計算される適切なパルス
エンベロープの例
【図7】放送中の各TV番組を利用した、本実施例の検出
アルゴリズムフローの例1
【図8】放送中の各TV番組を利用した、本実施例の検出
アルゴリズムフローの例2
【図9】放送中の各TV番組を利用した、本実施例の検出
アルゴリズムフローの例3
【図10】放送中の各TV番組を利用した、本実施例の検
出アルゴリズムフローの例4
【符号の説明】
1 dcリムーバー処理ステップ 2 有声音声抽出装置処理ステップ 3 エンベロープ検出装置,量子化装置処理ステッ
プ 5 3モード検出ステップ 6 信号連続性チェックステップ 8 音声・非音声特徴特定ステップ 9 音声番組・非音声番組自動検出ステップ 15 番組(内容)変化チェックステップ

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 所定の入力信号に対し、所定の信号処理
    を行う入力処理ステップと、 その入力処理された処理信号の中に、発声機構から導か
    れる音のバーストが存在するか否かを調べ、存在する場
    合には、前記入力信号は音声信号、又存在しない場合に
    は、非音声信号であると判定する解析・判定ステップ
    と、を備えたことを特徴とする音声・非音声判定方法。
  2. 【請求項2】 入力処理ステップは、前記入力信号か
    ら、所定の周波数以上の高周波を除去することによっ
    て、無声音信号成分の全部又は一部を除去し、その後、
    その被除去入力信号を所定のサンプリング値に基づい
    て、各々量子化することを特徴とする請求項1記載の音
    声・非音声判定方法。
  3. 【請求項3】 処理信号が所定レベル以上の信号レベル
    を第1の所定時間以上維持する場合には、前記入力信号
    は非音声信号であると判定し、且つ前記解析・判定ステ
    ップを実行せず、又そうでない場合には、前記信号レベ
    ルに基づいて前記解析・判定ステップを実行するか否か
    を決定するステップを備えたことを特徴とする請求項
    1、又は2記載の音声・非音声判定方法。
  4. 【請求項4】 音のバーストが存在する場合とは、前記
    処理信号に含まれる信号パルスの内で、パルス幅が所定
    長以上であり、且つそのピーク値が所定値以上である信
    号パルスが少なくとも2個存在する場合、及び/又はそ
    の信号パルスが少なくとも1個存在し、且つその信号パ
    ルスに第2の所定時間以上のポーズが隣接して存在する
    場合であることを特徴とする請求項2、又は3記載の音
    声・非音声判定方法。
JP6153934A 1994-07-05 1994-07-05 音声・非音声判定方法 Pending JPH0822295A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6153934A JPH0822295A (ja) 1994-07-05 1994-07-05 音声・非音声判定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6153934A JPH0822295A (ja) 1994-07-05 1994-07-05 音声・非音声判定方法

Publications (1)

Publication Number Publication Date
JPH0822295A true JPH0822295A (ja) 1996-01-23

Family

ID=15573279

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6153934A Pending JPH0822295A (ja) 1994-07-05 1994-07-05 音声・非音声判定方法

Country Status (1)

Country Link
JP (1) JPH0822295A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002306492A (ja) * 2001-04-16 2002-10-22 Electronic Navigation Research Institute カオス論的ヒューマンファクタ評価装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002306492A (ja) * 2001-04-16 2002-10-22 Electronic Navigation Research Institute カオス論的ヒューマンファクタ評価装置

Similar Documents

Publication Publication Date Title
JP6801023B2 (ja) ボリューム平準化器コントローラおよび制御方法
RU2507609C2 (ru) Способ и дискриминатор для классификации различных сегментов сигнала
US8271279B2 (en) Signature noise removal
JP3423906B2 (ja) 音声の動作特性検出装置および検出方法
JP4236726B2 (ja) 音声活動検出方法及び音声活動検出装置
JP5331784B2 (ja) スピーチエンドポインタ
JP4729927B2 (ja) 音声検出装置、自動撮像装置、および音声検出方法
JP3604393B2 (ja) 音声検出装置
KR100302370B1 (ko) 음성구간검출방법과시스템및그음성구간검출방법과시스템을이용한음성속도변환방법과시스템
JPH0431898A (ja) 音声雑音分離装置
US6757651B2 (en) Speech detection system and method
CN114694678A (zh) 音质检测模型训练方法、音质检测方法、电子设备及介质
JP3211398B2 (ja) テレビ会議用発言音声検出装置
JPH0822295A (ja) 音声・非音声判定方法
Dekens et al. On Noise Robust Voice Activity Detection.
JP3520430B2 (ja) 左右音像方向抽出方法
KR100574883B1 (ko) 비음성 제거에 의한 음성 추출 방법
RU2174714C2 (ru) Способ выделения основного тона
JPH03114100A (ja) 音声区間検出装置
JPH01286643A (ja) 音声検出装置
JP2737109B2 (ja) 音声区間検出方式
JPH1097288A (ja) 背景雑音除去装置及び音声認識装置
JP4710130B2 (ja) 音声信号分離方法及び装置
JP2002182691A (ja) 音を出力する機器を制御する制御装置
JP2003271189A (ja) 話者方向検出回路及びその検出方法