JPH0442299A - 音声区間検出装置 - Google Patents

音声区間検出装置

Info

Publication number
JPH0442299A
JPH0442299A JP2150528A JP15052890A JPH0442299A JP H0442299 A JPH0442299 A JP H0442299A JP 2150528 A JP2150528 A JP 2150528A JP 15052890 A JP15052890 A JP 15052890A JP H0442299 A JPH0442299 A JP H0442299A
Authority
JP
Japan
Prior art keywords
input
speech
beginning
word
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2150528A
Other languages
English (en)
Inventor
Koichi Yamaguchi
耕市 山口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2150528A priority Critical patent/JPH0442299A/ja
Publication of JPH0442299A publication Critical patent/JPH0442299A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [産業上の利用分野] 本発明は、雑音環境下で入力音声の語頭を検出すること
ができる音声区間検出装置に関する。
[従来の技術] 一般に音声認識では、マイクから入力される入力音声の
信号の中から発声の前後の無音区間及び雑音区間を取り
除いて音声区間だけを抽出する音声区間の検出が必要で
ある。
上述の音声区間の検出は、信号対雑音比(以後、S/N
比と称する)が良好なときにはそれほど困難ではない。
例えは、S/N比か高い場合には、入力音声の信号のう
ちで入力音声のパワー時系列の値か特定のしきい値を越
える音声区間を、認識すべき音声区間として抽出すれば
よい。
以下、従来の音声区間検出方法について説明する。
従来の音声区間検出方法は次のように分類することがで
きる。
まず第1の分類としては、音声区間検出に用いる特徴パ
ラメータとして何を使用するかによる分類である。
この分類に含まれる方法としては、音声信号のパワー時
系列と比較するしきい値を雑音パワーの観測により動的
に調節する方法、パワー時系列か定常雑音区間で一定で
ありその時間差分を利用する方法、零交差数、対数パワ
ー、1次の自己相関関数及び1次の線型予測係数などの
パラメータを組合わせる方法、そしてスペクトル情報を
利用する方法などがある。
次に第2の分類としては、検出精度の改善による分類が
ある。
この分類には、上述のしきい値を複数設けて、複数の候
補の端点から所定のアルゴリズムにより最適なものを選
び出す方法がある。
続いて第3の分類としては、複数の音声区間の候補から
どの音声区間を選択するかによる分類がある。
この分類には、複数の音声区間の候補の各々について実
際に音声認識を行い、照合得点の最も高い区間を選択す
る方法がある。また他の方法としては、上述の方法を発
展させてデータ上のすべての時刻を始端及び終端の候補
として全区間について音声認識を行って照合得点の高い
区間を見つける方法、即ち、ワード・スポツティング法
がある。
更に第4の分類としては、ニューラルネットを利用する
ことによる分類がある。
この分類には、音響パラメータを入力して、音声がある
場合、すなわち有音区間がある場合に発火する出カニニ
ットをもつパーセプトロン型ニュラルネットをパックプ
ロパゲーション学習法によって構成する方法がある(萩
山、板倉「ニュラルネットを用いた音声区間の検出」音
響学会講演論文集昭和63年10月2− Pi等を参照
)。
[発明が解決しようとする課題] しかし上述の第1の分類では、しきい値が雑音に応じて
調節できず、また、各種パラメータの動きが複雑であり
、それに対処できるアルゴリズムが構築できない。
また第2の分類では、複数候補の出現の仕方が極めて多
様で取扱いが困難であると共に、しきい値の設定を現実
の雑音に合わせることが難しい。
更に第3の分類では、照合処理を複数回または常時行う
必要があり、そのために計算量か多くなる。また認識部
の耐騒音性が難しい現状においては、音声区間と雑音と
を区別する性能か認識対象語粱以外の入力に対するリジ
ェクト能力により左右されてしまう。
そして第4の分類では、ニューラルネットワクの入力デ
ータとして音響パラメータ及び対数パワーを用いており
、発火の対象が全有音区間であるために入力データの変
動か大きいので、ニュラルネットワクの学習対象サンプ
ルに対しては良い結果が得られるが、学習対象外のサン
プルに対してはあまりよい結果が得られない。
従って、上述の従来の音声区間検出方法には、現実の環
境で種々の雑音のためS/N比か劣化し、弱い摩擦音、
音声の始端(語頭)及び終端(語尾)にある振幅の小さ
い有声音などの検出が困難であると共に、非定常雑音を
音声区間として誤検出してしまうので雑音環境下におい
て安定かつ正確に音声区間を検出することができないと
いう問題点がある。
本発明の目的は、雑音環境下において安定かつ正確に音
声区間、特に語頭を検出することができる音声区間検出
装置を提供することにある。
[問題点を解決するための手段] 本発明によれば、前記目的は、入力された音声の特徴パ
ラメータ系列の特定の区間を入力する入力手段と、該特
定の区間が該入力音声の始端か又は無音かを判別する判
別手段と、該判別結果に対応した値を出力する出力手段
とを有しており該出力値に基づいて所定のアルゴリズム
により該入力音声の始端を検出可能な多層パーセプトロ
ン型ニューラルネットワークを備えていることを特徴と
する音声区間検出装置によって達成される。
また、本発明の前記目的は、入力された音声の特徴パラ
メータ系列及び当該特徴パラメータ系列から特定の方法
により抽出された動的特徴パラメタを入力する入力手段
と、該入力された特徴パラメータ系列及び動的特徴パラ
メータが該入力音声の始端か又は無音かを判別する判別
手段と、該判別結果に対応した値を出力する出力手段と
を有しており該出力値に基づいて所定のアルゴリズムに
より該入力音声の始端を検出可能な多層パーセプトロン
型ニューラルネットワークを備えていることを特徴とす
る音声区間検出装置によっても達成される。
[作用] 多層パーセプトロン型ニューラルネットワークの入力手
段が入力音声の特徴パラメータ系列の特定の区間を入力
し、判別手段が該特徴パラメータ系列の特定の区間が入
力音声の始端か又は無音かを判別し、出力手段が判別結
果に対応する値を出力して該出力値に基づいて所定のア
ルゴリズムにより入力音声の始端を検出する。
また、多層パーセプトロン型ニューラルネットワークの
入力手段か入力音声の特徴パラメータ系列及び当該特徴
パラメータ系列から特定の方法により抽出された動的特
徴パラメータを入力し、判別手段が該入力された特徴パ
ラメータ系列及び動的特徴パラメータが該入力音声の始
端か又は無音かを判別し、出力手段が判別結果に対応す
る値を出力して該出力値に基づいて所定のアルゴリズム
により入力音声の始端を検出する。
[実施例] 以下、本発明における音声区間検出装置の実施例を図面
を参照して詳細に説明する。
第1図は、多層パーセプトロン型のニューラルネットワ
ークを用いた本発明における音声区間検出装置の一実施
例を示す。
第1図に示す音声区間検出装置10の多層パーセプトロ
ン型ニューラルネットワークは3層構造であり、入力手
段としての入力層のユニット11、判別手段としての中
間層のユニット12及び出力手段としての出力層のユニ
ット13を備えている。
入力層のユニット11は、特徴パラメータ方向(第1図
ではその紙面に垂直な方向)にもユニットが特徴パラメ
ータの次元数に対応した数(本実施例では7つ)だけ並
列に配置されている。
即ち、特徴パラメータとして、第4図に示す帯域濾波器
(以後、BPFと称する)群の出力のうち、2フレ一ム
分をに−L変換により6次元に圧縮したパラメータとフ
レーム毎のパワーに相当するパラメータとを合わせて7
次元の特徴パラメタとして用いている。
本実施例では、音響分析の分析周期を100ミIJ秒(
msec)として2フレ一ム分を1フレームに圧縮して
いるため、時間軸方向(第1図の横方向)でのユニット
間の時間差は20ミリ秒(msec)となる。第1図で
は時間軸方向に5フレ一ム分を入力しているので、入力
層のユニット11は合計35個である。
更に、中間層のユニット12の数は、本実施例では8つ
としている。そして入力層のユニット11と中間層のユ
ニット12との各ユニットは、それぞれ互いに結合(フ
ルコネクション)されている。
また、出力層のユニット13は1つであり、中間層のユ
ニット12と出力層のユニット13とは、それぞれ互い
に結合(フルコネクション)されている。
そして上述の入力層のユニット11と中間層のユニット
12との間及び中間層のユニット12と出力層のユニッ
ト13との間は結合の数を減らすことも可能であるが、
本実施例では計算量及び音声の時間軸方向での相関を考
慮して、ニューラルネットワクの識別能力を重視しフル
コネクションとしている。しかし各入力層内のユニット
llどうしの結合はなく、また各中間層内のユニット1
2どうしの結合もない。なお本実施例では、上述の中間
層のユニット12及び出力層のユニット13の入出力特
性にはシグモイド関数(sigmoid functi
on)を用いている。
次に、本実施例の音声区間検出装置10に用いられるニ
ューラルネットワークの結合の重み係数を求める学習方
法について述べる。
本実施例のニューラルネットワークでは学習方法として
、パックプロパゲーション方法(Backp+opag
ation Method)を用いている。
以下、パックプロパゲーション方法を用いた学習方法の
概略を説明する。
まず、入力データとしては、無音声区間と語頭を含む区
間との2種類をそれぞれ多数用意する。
つまり、実際の雑音環境を想定して、代表的なノイズレ
ベル及びノイズの種類を数種作成し、それらを音声デー
タに付加したものを用いる。
次に、無音声区間のデータが入力されたときは0又は0
に近い正の小さい値を教師信号として与えて学習する。
また、語頭を含む区間のデータが入力されたときは1又
は1に近い1以下の値を教師信号として与えて学習する
そして語頭を含む区間のデータについては、入力音声の
語頭をスペクトログラムより、あらかじめ位置決めして
おく。また、決められた語頭の位置に相当する特徴パラ
メータのフレームか、第1図の時間軸方向に5つ並んで
いる入力層のユニット11の前から3番目、即ち第1図
においては、図面の左から3番目の入力層のユニットに
なるように語頭を含む区間の入力データを作成する。
なお、これだけでは、ニューラルネットワークは位置ず
れに敏感になりすぎて、うまく語頭を検知できないこと
があるので、語頭を含む区間のブタとして語頭フレーム
がニューラルネットワクの入力層の5つのユニットのう
ち前から2番目及び4番目、即ち第1図においては、図
面の左から2番目及び4番目のユニットに対しても位置
するデータを作成して学習に用いる。
次に、語頭を含む区間のデータにおける発声内容につい
ては、音声認識の用途に応じて以下のように決める。
まず、不特定話者の音声認識の場合には、認識語業のみ
を選択して、その選択された認識語業を、語頭を含む区
間の発声データとする。このようにすることにより、ニ
ューラルネットワークは主として認識語業の語頭に対し
てのみ強く発火するので、ワードスポツティング的に用
いることができ、精度よく語頭が検出てきると共に認識
率が向上する。
また、特定話者の音声認識で認識器素が多い場合及び使
用者が自由に語簗を選択したい場合には、様々な語頭音
韻をもつ発声データを学習の対象とすることが可能であ
る。なお学習サンプルの種類の増加にともない、ニュー
ラルネットワークの中間層のユニット数を特徴パラメー
タ方向に1〜2つ増加して、汎用的な語頭検出器にする
ことができる。
次に、本発明の音声区間検出装置における他の実施例を
第2図に示す。
以下、本実施例の音声区間検出装置を説明する。
第2図に示す音声区間検出装置14は、語業検出用のニ
ューラルネットワークの入力データとして特徴パラメー
タ以外に、特徴パラメータから特定の方法により抽出さ
れた動的特徴パラメータを併用するように構成されてい
ると共に、第1図に示す音声区間検出装置10と同様に
多層パーセプトロン型ニューラルネットワークにより構
成されている。
そして音声区間検出装置14を構成するパーセプトロン
型ニューラルネットワークも第1図に示す音声区間検出
装置10と同様に3層構造であり、入力手段としての入
力層のユニット15、判別手段としての中間層のユニッ
ト16及び、出力手段としての出力層のユニット17を
備えている。
しかし、第2図に示す音声区間検出装置14の入力層の
ユニット15は、更に動的特徴パラメータ用のユニット
18を備えている。そして、入力層のユニット15は全
部で42個あり、ユニット18はそのうちの7つを占め
ている。
なお、第2図では、簡略化のためユニット18が1つた
け記載されているが、実際にはユニット18は特徴パラ
メータ方向に7つ並列に配置されている。
次に第2図に示す音声区間検出装置14の入力層のユニ
ット15に入力される特徴パラメータと動的特徴パラメ
ータについて第3図を参照して詳述する。
第3図に示すように、ユニット18を除いた入力層のユ
ニット15には、入力データの特徴パラメタ19がユニ
ット15の各ユニットにそれぞれ入力される。また、動
的特徴パラメータ20がユニット18の各ユニットにそ
れぞれに入力される。
ここで、ニューラルネットワークへの入カデタの特徴パ
ラメータ19を一般にXm(t)と表し、mは第m次元
目の特徴パラメータを表わす正の整数(本実施例ではm
=1.2、・・・・・、7)、tはフレームを表わす整
数として、特に全フレームの中心を0におくように設定
されている(本実施例では、t−−2、−1,0,1,
2)。
即ち、第3図に示すように入力層のユニ・ント15の各
ユニットは、時間軸に沿って図の左側から順次、Xm 
(−2) 、Xm (−1) 、Xm (0)、各mの
値に対応してそれぞれ入力される。
また、特徴パラメータ方向には、Xi (t)、X2 
(t)1.、、 、X6 (t)及びX7 (t)の各
特徴パラメータが各tの値に対応して入力される。
更に、動的特徴パラメータ20を一般にYmと表すと、
Ymは特定の方法として示される次式により算出される
(なお、下記の式により得られる動的特徴パラメタYm
は、回帰係数と呼ばれる) Ym−(ΣXm(t)−t)/(Σt2)t=−2を−
−2 第3図に示すように特徴パラメータ方向に沿って、ユニ
ット18の各ユニットに各mの値に対応して動的特徴パ
ラメータY1、Y21. 、 、 、Y7がそれぞれ入
力される。
この動的特徴パラメータYmを用いると、ニュラルネッ
トワークの入力層は、特徴パラメータXm(t)が35
個、動的特徴パラメータYmが7個の合計42個のユニ
ットで構成される。
また、上述の回帰係数以外に、特徴パラメータXm (
t)の時間軸方向の差分△Xm (t) −Xm、 (
t) −Xm (t −1,)を動的特徴パラメータ2
0に設定することも可能である。
そして、動的特徴パラメータとして△Xm(t)を選択
すると、特徴パラメータXm (t)が35個で、動的
特徴パラメータ△Xm (t)が35個となりニューラ
ルネットワークの入力層のユニットは合計70個となる
なお、本実施例による学習方法、即ち、動的特徴パラメ
ータを特徴パラメータと併用する場合の学習方法は、上
述した第1の実施例の学習方法、即ち、特徴パラメータ
を単独で用いる場合と同様なので説明を省略する。
次に、上述の2つの実施例に共通な語頭検出について説
明する。
上述した語頭検出用のニューラルネットワークの出力値
をOut (t)と表し、その出力値Out (Bを用
いて語頭検出を行う。ここに、tはニューラルネットワ
ークの入力層のフレームの中心フレームの時刻を表す。
まず、ニューラルネットワークの出力値0ut(1)の
所定のアルゴリズムとしての判定アルゴリズムについて
説明する。判定アルゴリズムは音声認識装置の使用環境
及び認識語案にも依存するが、基本的には3つの種類に
分けられる。
第1の判定アルゴリズムは、ニューラルネットワークの
出力値0ut(t)のみを用いる。次に、第2の判定ア
ルゴリズムは、複数のtにおけるニューラルネットワー
クの出力値0ut(t)を用いる。そして第3の判定ア
ルゴリズムは、ニュラルネットワークの出力値Out 
(t)と従来の方法との組合せを用いる。
第4図に上述の第1の判定アルゴリズムのフロチャート
を示す。
また、第2及び第3の判定アルゴリズムの場合は、第4
図中の条件判断の内容が変わるだけで全体のフローは同
じである。しかし、第2の判定アルゴリズムの場合には
、現時刻から所定量だけ以前の出力値○ut(t)を記
憶する操作が必要になる。また、第3の判定アルゴリズ
ムの場合には、Pw(τ)を記憶する操作が必要になる
(尚、PW(τ)については後述する)。
ここで第5図を参照して第1の判定アルゴリズムを説明
する。
第1の判定アルゴリズムでは、ニューラルネットワーク
により出力値Out (t)を計算する(ステップSL
)。続いて、出力値0ut(t)がθよりも大きいかど
うかを判定する(ステップS2)。そして、判定結果が
出力値Out (t)>θであれば、時刻tを語頭とし
て特徴パラメータを認識部に送って(ステップS3)ア
ルゴリズムを終了する。
また、第2の判定アルゴリズムでは、出力値Out (
t)>θ及び出力値Out (t+1)>θならば時刻
tを語曇とする。そして、第3の判定アルゴリズムでは
、出力値Out (t)>θ及びPw(r)>G、であ
り、τが[tX t+a]に属するならば時刻tを語案
とする。ここで、θはおよそ0.5、PW(τ)は時刻
τにおるパワαはおよそ3、Gはパワーに対するしきい
値を表す。
なお、[t、t+d]は、を及びt十dを両端に含む閉
区間を表す。
通常は、第1の判定アルゴリズムで十分である。
しかし、語頭以外のもの、たとえば突発雑音等にニュー
ラルネットワークが反応しすぎる場合は第2及び第3の
判定アルゴリズムで対処する。また第1の判定アルゴリ
ズムにおいてθを0.5よりやや高い値に設定してもよ
い。
このようにして検出された語頭フレームに基づいて、特
徴パラメータが次の認識部へ送られる。
尚、特徴パラメータの送付に際しては、検出された語頭
直後から送られるのではなく、検出された語頭より少し
前にさかのぼった時点から送る。
このため、圧縮部では圧縮された特徴パラメタ系列を一
定のフレーム分だけバッファに貯えておく必要がある。
上述の2つの実施例の音声区間検出装置、即ち多層パー
セプトロン型ニューラルネットワークは、プログラムの
形で構成されているが、ニューラルチップの形で構成す
ることも可能である。
第5図に、第1図又は第2図に示す音声区間検出装置を
用いた音声認識装置の一実施例を示す。
第5図では、マイクロホン21から入力された音声は、
アンプ22によって増幅され、A/D (アナログ/デ
ィジタル)変換器23でアナログ信号からディジタル信
号に変換された後、音響分析部24に入力される。
音響分析部24ては、BPF群を用いて分析し、フレー
ム毎に各BPF25の出力パワー値を出力する。尚、こ
の音響分析は、線形予測分析、ケプストラム分析など、
BPF群以外のものを用いてもよい。このようにして得
られた音響パラメータは、次に圧縮部26に送られる。
尚、音響分析部24はディジタルシグナルプロセッサ(
DPS)により構成することができる。
圧縮部26では圧縮方法としてに−L変換を用いて複数
フレームの音響パラメータを圧縮する。本実施例では約
115の圧縮率となっている。この圧縮により得られた
特徴パラメータを用いることにより、以後の処理量の負
担が軽減できる。圧縮率については、音声の時間方向に
対する冗長性、つまり、同じスペクトル形状が何フレー
ムも続く2↑ ことが多いことを利用して、本実施例では音響パラメー
タの2フレームを1度に圧縮しているが、後の処理量と
の関係で1フレーム又は3フレ一ム以上としてもよい。
K−L変換の係数決定の際には、あらかじめ多種の入力
音声を入力し、多くの有音部、無音部を分析して得られ
た音響パラメータを用いる。ただし、ここで、雑音環境
下におけるサンプルは除外しておく。
雑音環境下におけるサンプルを除外することにより、圧
縮動作時に雑音下のサンプルが入力された場合、一般に
付加された雑音成分はに−L変換係数の作成時に分析対
象としていないため、分析対象としている元の音声成分
とほぼ直交し、その結果雑音成分はに−L変換後小さい
値になってしまう。
次にに−L変換によって圧縮された特徴パラメタは、第
1図に示す本実施例の音声区間検出装置を用いた語頭検
出部27に送られる。
語頭検出部27では、その特徴パラメータ数のフレーム
分を入力して語頭か無音かを出力する。本実施例では、
不特定話者による単語の音声認識装置を示している。
第5図の認識部28は、入力音声の特徴パラメタ系列に
対して、認識対象語案のうち特定の単語中の特定の部分
音韻系列との類似度に相当する値を出力する第1の多層
パーセプトロン型ニュートラルネットワーク(以後、イ
ベントネット群と称する)29を上記特定の単語を構成
する部分音韻系列がほとんどすべて含まれるように複数
備えているき共に、多数話者の音声サンプルを分析する
ことにより、隣り合うイベントネット群29間の時間間
隔情報を備えている。
また、これらイベントネット群29の出力のすべてを入
力として入力音声に対して上記特定の単語との類似度に
相当する値を出力する第2の多層パセプトロン型ニュー
ラルネットワーク(以後、ワードネットと称する)30
を備えている。
即ち、認識部28は、上述のイベントネット群29及び
ワードネッ)30を認識対象語案のすべての単語につい
てそれぞれ備えている。更に、認識部28は、これらワ
ードネット30の出力のすべてを入力として、入力音声
がどの認識単語に属するかに応じた値を出力する第3の
多層パーセプトロン型ニューラルネットワーク(以後、
スーパーネットと呼ぶ)31を備えている。
入力音声の特徴パラメータ系列をイベントネット群29
の入力層の各ユニットに入力する際に、上述した方法に
より検出した単語の語頭付近から順に、前述の時間間隔
情報に基ついて、所定の範囲内で各イベントネット群2
9に入力する特徴量を時間的にずらし、その中で各イベ
ントネット群29の出力値が最大になる位置を選択する
ことにより入力音声の時間伸縮を補正するとともに、最
終のイベントネット群29の最大出力位置を入力音声の
語尾として認識結果を得る。
従って、入力音声の語頭及び語尾、即ち音声区間の検出
が認識結果判定部32で最終的に得る。そして認識結果
判定部32で得られた認識結果は結果出力部33により
出力される。
本実施例では、ニューラルネットワークを音声区間検出
装置に利用しているが、ニューラルネットワークは、高
度なパターン識別能力をもっているため、雑音区間と音
声の始端との区別が可能となる。さらに、ニューラルネ
ットワークに要する計算は単純な積和輪演算であり、ま
た従来の方法のような時間軸の逆もどりがないため、高
速実行が可能であり、実時間性優れている。
雑音環境下においても、ニューラルネットワクの学習時
にいくつかのレベル、いくつかの種類の雑音を付加した
音声データを用いることで、ニューラルネットワークの
もつ泥化能力により、はとんどの雑音に対しても安定し
た出力が得られる。
つまり、実際の雑音環境下で、精度よく語頭を検出でき
る。また、通常の特徴パラメータの他に、そのパラメー
タ系列から導びかれる動的特徴パラメータをもニューラ
ルネットワークの入力とすることでより一層雑音環境下
での語頭検出精度を向上させることができる。なぜなら
ば、非定常騒音下においても動的特徴パラメータを導出
する区間において雑音のスペクトル量がほぼ同一の形状
をしているときには、その区間に語頭が含まれているな
らば、変化が抽出されるが、その区間が雑音のみならば
、変化は抽出されない。つまり、語頭のような無音区間
から音声が立ち上がってくるという変化のあるところで
は、動的特徴パラメータは敏感に反応し、雑音区間では
反応しないという特性をもっているからである。更に、
特徴パラメタとして雑音を含まない音声データを分析対
象として求めたに−L変換の係数を用いて圧縮した音響
パラメータを採用することにより、雑音をある程度除去
することができるので、このことも雑音下での語頭検出
に有効である。
[発明の効果] 入力された音声の特徴パラメータ系列の特定の区間を入
力する入力手段と、該特定の区間が該入力音声の始端か
又は無音かを判別する判別手段と、該判別結果に対応し
た値を出力する出力手段とを有しており該出力値に基づ
いて所定のアルゴリズムにより該入力音声の始端を検出
可能な多層パセプトロン型ニューラルネットワーク又は
、入力された音声の特徴パラメータ系列及び当該特徴パ
ラメータ系列から特定の方法により抽出された動的特徴
パラメータを入力する入力手段と、該入力された特徴パ
ラメータ系列及び動的特徴パラメタが該入力音声の始端
か又は無音かを判別する判別手段と、該判別結果に対応
した値を出力する出力手段とを有しており該出力値に基
づいて所定のアルゴリズムにより該入力音声の始端を検
出可能な多層パーセプトロン型ニューラルネットワーク
を備えているのでニューラルネットワークの高い識別能
力と汎化能力を利用して雑音環境下においても高い精度
で語頭の検出でき、その結果、音声認識装置の認識率が
向上する。また、語頭を検出しているので連続動的計画
(DP)法を用いるワードスポツティングのように常に
マツチング計算をする必要がなく計算最が軽減し、時間
軸上の逆もどりがなく、ディジタルシグナルプロセッサ
を用いて装置を小型化できると共に低価格化できる。
【図面の簡単な説明】
第1図は本発明における音声区間検出装置の一実施例の
構成を示す図、第2図は本発明の音声区間検出装置の他
の実施例を示す図、第3図は語頭検出部で用い第2図に
示す音声区間検出装置の入力である特徴パラメータ及び
動的特徴の構成を示す図、第4図は本実施例の音声区間
検出装置における判定アルゴリズムの一例を示した図、
第5図は第1図又は第2図に示す音声区間検出装置を利
用した音声認識装置の一実施例を示すブロック図である
。 10・・・音声区間検出装置、11,15・・・入力層
のユニット、12. 16・・・中間層のユニット、1
3. 17・・・出力層のユニット、18・・・動的特
徴パラメータ用ユニット、19・・・特徴パラメータ、
20・・・動的特徴パラメタ、21・・・マイクロホン
、22・・・アンプ、23・・・A/D変換器、24・
・・音響分析部、25・・・BPF、26・・・圧縮部
、27・・・語頭検出部、28・・・認識部、29・・
・イベントネット群、30・・・ワードネット、31・
・・スーパーネット、32・・・認識結果判定部、33
・・・認識結果出力部。

Claims (2)

    【特許請求の範囲】
  1. (1)入力された音声の特徴パラメータ系列の特定の区
    間を入力する入力手段と、該特定の区間が該入力音声の
    始端か又は無音かを判別する判別手段と、該判別結果に
    対応した値を出力する出力手段とを有しており該出力値
    に基づいて所定のアルゴリズムにより該入力音声の始端
    を検出可能な多層パーセプトロン型ニューラルネットワ
    ークを備えていることを特徴とする音声区間検出装置。
  2. (2)入力された音声の特徴パラメータ系列及び当該特
    徴パラメータ系列から特定の方法により抽出された動的
    特徴パラメータを入力する入力手段と、該入力された特
    徴パラメータ系列及び動的特徴パラメータが該入力音声
    の始端か又は無音かを判別する判別手段と、該判別結果
    に対応した値を出力する出力手段とを有しており該出力
    値に基づいて所定のアルゴリズムにより該入力音声の始
    端を検出可能な多層パーセプトロン型ニューラルネット
    ワークを備えていることを特徴とする音声区間検出装置
JP2150528A 1990-06-08 1990-06-08 音声区間検出装置 Pending JPH0442299A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2150528A JPH0442299A (ja) 1990-06-08 1990-06-08 音声区間検出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2150528A JPH0442299A (ja) 1990-06-08 1990-06-08 音声区間検出装置

Publications (1)

Publication Number Publication Date
JPH0442299A true JPH0442299A (ja) 1992-02-12

Family

ID=15498846

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2150528A Pending JPH0442299A (ja) 1990-06-08 1990-06-08 音声区間検出装置

Country Status (1)

Country Link
JP (1) JPH0442299A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180021531A (ko) * 2016-08-22 2018-03-05 에스케이텔레콤 주식회사 심층 신경망을 이용한 음성 끝점 검출 방법 및 이를 위한 끝점 검출 장치
JP6392950B1 (ja) * 2017-08-03 2018-09-19 ヤフー株式会社 検出装置、検出方法、および検出プログラム
JP2019028446A (ja) * 2018-06-06 2019-02-21 ヤフー株式会社 プログラム
JP2019040148A (ja) * 2017-08-29 2019-03-14 日本電信電話株式会社 音声区間検出装置、その方法、及びプログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180021531A (ko) * 2016-08-22 2018-03-05 에스케이텔레콤 주식회사 심층 신경망을 이용한 음성 끝점 검출 방법 및 이를 위한 끝점 검출 장치
JP6392950B1 (ja) * 2017-08-03 2018-09-19 ヤフー株式会社 検出装置、検出方法、および検出プログラム
JP2019040148A (ja) * 2017-08-29 2019-03-14 日本電信電話株式会社 音声区間検出装置、その方法、及びプログラム
JP2019028446A (ja) * 2018-06-06 2019-02-21 ヤフー株式会社 プログラム

Similar Documents

Publication Publication Date Title
US5611019A (en) Method and an apparatus for speech detection for determining whether an input signal is speech or nonspeech
JP2764277B2 (ja) 音声認識装置
US4811399A (en) Apparatus and method for automatic speech recognition
JPH0990974A (ja) 信号処理方法
Chen et al. Pindrop labs’ submission to the ASVspoof 2021 challenge
Tsenov et al. Speech recognition using neural networks
JPH01296299A (ja) 音声認識装置
Bonet et al. Speech enhancement for wake-up-word detection in voice assistants
Prabavathy et al. An enhanced musical instrument classification using deep convolutional neural network
Gu et al. An adaptive X-vector model for text-independent speaker verification
Neelima et al. Mimicry voice detection using convolutional neural networks
WO2020250828A1 (ja) 発話区間検出装置、発話区間検出方法、および発話区間検出プログラム
JPH0442299A (ja) 音声区間検出装置
JP2797861B2 (ja) 音声検出方法および音声検出装置
Nigro et al. Multimodal system for audio scene source counting and analysis
JPH04318900A (ja) 多方向同時収音式音声認識方法
JPS63502304A (ja) 高雑音環境における言語認識のためのフレ−ム比較法
JP2021162685A (ja) 発話区間検知装置、音声認識装置、発話区間検知システム、発話区間検知方法及び発話区間検知プログラム
JPH01255000A (ja) 音声認識システムに使用されるテンプレートに雑音を選択的に付加するための装置及び方法
JP2792709B2 (ja) 音声認識装置
JP2792720B2 (ja) 音声認識装置
JPH04369695A (ja) 音声判別装置
JPH04324499A (ja) 音声認識装置
Revathy et al. Effective technique for noise removal and emotion recognition in speech signals using cat swarm optimized spiking neural networks
Nijhawan et al. A comparative study of two different neural models for speaker recognition systems