JP3322491B2 - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JP3322491B2
JP3322491B2 JP29172594A JP29172594A JP3322491B2 JP 3322491 B2 JP3322491 B2 JP 3322491B2 JP 29172594 A JP29172594 A JP 29172594A JP 29172594 A JP29172594 A JP 29172594A JP 3322491 B2 JP3322491 B2 JP 3322491B2
Authority
JP
Japan
Prior art keywords
voice
pattern
speech
section
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP29172594A
Other languages
English (en)
Other versions
JPH08146996A (ja
Inventor
浩也 村尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanyo Electric Co Ltd
Original Assignee
Sanyo Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanyo Electric Co Ltd filed Critical Sanyo Electric Co Ltd
Priority to JP29172594A priority Critical patent/JP3322491B2/ja
Publication of JPH08146996A publication Critical patent/JPH08146996A/ja
Application granted granted Critical
Publication of JP3322491B2 publication Critical patent/JP3322491B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、音声によりデータを
入力するための音声認識装置に関し、たとえば、録画番
組の予約が音声入力によって行われる録画装置等に利用
される音声認識装置に関する。
【0002】
【従来の技術】図6は、従来の音声認識装置の構成を示
している。
【0003】音声分析部101は、入力音声の音声パワ
ー信号と、入力音声に対する音声スペクトルとを生成す
る。入力音声の音声パワー信号は、音声区間検出部10
2に送られる。入力音声に対する音声スペクトルは、音
声パターン作成部103に送られる。
【0004】音声区間検出部102は、音声検出部11
1および音声区間切出し部112とを備えている。音声
検出部111は、図7に示すように、音声検出用しきい
値αを用いて、音声パワー信号中の音声部分を検出す
る。
【0005】音声区間切出し部112は、図7に示すよ
うに、切出し用しきい値βを用いて、音声認識に有効な
音声区間Lを求める。切出し用しきい値βは、音声検出
部111によって検出された音声部分より所定時間前の
雑音パワーに基づいて決定される。
【0006】音声パターン作成部103は、音声区間切
出し部112によって求められた音声区間Lに対する音
声スペクトルに基づいて、音声パターンを作成する。作
成された音声パターンは、学習済のニューラルネットワ
ーク104に入力される。
【0007】このニューラルネットワーク104の学習
は、次のように行なわれる。まず、各認識対象音声に対
する標準音声パターンを、予め収集した音声を用いてそ
れぞれ求める。そして、各標準音声パターンを入力パタ
ーンとし、各入力パターンに対応する音声を表す音声識
別データを教師データとして、ニューラルネットワーク
104を学習させる。
【0008】学習済のニューラルネットワーク104
に、音声パターンが入力されることにより、入力された
音声パターンに対応する出力パターンが得られる。この
出力パターンは、認識結果判定部105に送られる。認
識結果判定部105は、送られてきた出力パターンに基
づいて当該音声検出部分の音声を認識し、その認識結果
を出力する。
【0009】
【発明が解決しようとする課題】このような音声認識装
置では、音声認識に有効な音声区間を設定するための切
出し用しきい値βは1つであるため、雑音が音声区間に
含まれることによって誤認識が発生したり、音声パワー
の小さい語尾等が音声区間から脱落することによって誤
認識が発生したりする可能性が高い。
【0010】そこで、本出願人は、次のような音声認識
方法を開発した。つまり、図5に示すように、複数のし
きい値β1、β2、β3およびβ4を用いて、複数の音
声区間L1、L2、L3およびL4を設定する。各音声
区間L1〜L4それぞれに対して、音声パターンを作成
する。ニューラルネットワークに各音声パターンを入力
して、各音声パターンごとに出力パターンを得る。そし
て、得られたこれらの複数の出力パターンに基づいて、
音声を認識する。
【0011】各認識対象音声を表す音声識別データは、
ニューラルネットワークの出力層の各ユニットに対応し
た数のデータから構成されているものとする。そして、
その1つのみが”1”で他が全て”0”のデータで構成
され、データ”1”の位置が各音声識別データごとに異
なっているものとする。
【0012】このような音声認識方法では、図5の各音
声区間L1〜L2の認識結果は、たとえば、次のように
なることがある。すなわち、音声区間L1での認識結果
は”しち”で、出力最大値(ニューラルネットワークの
出力層のユニットの出力のうちの最大値)が0.90で
ある。音声区間L2での認識結果は”に”で、出力最大
値が0.85である。音声区間L3での認識結果は”
に”で、出力最大値が0.91である。音声区間L4で
の認識結果は”に”で、出力最大値が0.88である。
【0013】このような場合には、最終認識結果として
は、出力最大値が”1”に最も近い音声区間L3での認
識結果”に”が、入力音声の認識結果として選択され、
本来”しち”と認識されるべきところが、”に”と誤認
識されてしまう。
【0014】この発明は、認識精度の向上が図れる音声
認識装置を提供することを目的とする。
【0015】
【課題を解決するための手段】この発明による第1の音
声認識装置は、入力音声に対して音声区間を設定する音
声区間設定手段、音声区間の特徴に基づいて、音声区間
の音声パターンを作成する音声パターン作成手段、およ
び音声パターンが入力されるニューラルネットワークを
有しかつニューラルネットワークの出力に基づいて入力
音声を認識する音声認識手段を備えており、各認識対象
音声ごとに、好適な音声区間に基づく初期学習用標準音
声パターンと、好適な音声区間とは異なる音声区間に基
づく追加学習用標準音声パターンとが作成され、初期学
習用標準音声パターンを入力パターンとし、各入力パタ
ーンに対応する音声を表す音声識別データを教師データ
として、ニューラルネットワークが初期学習され、追加
学習用標準音声パターンのうち、初期学習済のニューラ
ルネットワークにそれが入力されて音声認識が行なわれ
たときに、誤認識が生じたものを入力パターンとし、反
教師データを用いてニューラルネットワークが追加学習
されていることを特徴とする。上記音声区間の特徴とし
ては、たとえば、音声スペクトルが挙げられる。
【0016】反教師データは、各音声識別データがニュ
ーラルネットワークの出力層の各ユニットに対応した数
のデータから構成されており、その1つのみが”1”で
他が全て”0”のデータで構成され、データ”1”の位
置が各音声識別データごとに異なっている場合には、全
て”0”のデータから構成される。
【0017】各音声識別データがニューラルネットワー
クの出力層の各ユニットに対応した数のデータから構成
されており、その1つのみが”0”で他が全て”1”の
データで構成され、データ”0”の位置が各音声識別デ
ータごとに異なっている場合には、反教師データは、全
て”1”のデータから構成される。
【0018】この発明による第2の音声認識装置は、入
力音声に対して複数の音声区間を設定する音声区間設定
手段、各音声区間の特徴に基づいて、各音声区間ごとの
音声パターンをそれぞれ作成する音声パターン作成手
段、および各音声区間ごとの音声パターンがそれぞれ入
力されるニューラルネットワークを有しかつ各音声区間
ごとの音声パターンに対するニューラルネットワークの
出力に基づいて入力音声を認識する音声認識手段を備え
ており、各認識対象音声ごとに、好適な音声区間に基づ
く初期学習用標準音声パターンと、好適な音声区間とは
異なる音声区間に基づく追加学習用標準音声パターンと
が作成され、初期学習用標準音声パターンを入力パター
ンとし、各入力パターンに対応する音声を表す音声識別
データを教師データとして、ニューラルネットワークが
初期学習され、追加学習用標準音声パターンのうち、初
期学習済のニューラルネットワークにそれが入力されて
音声認識が行なわれたときに、誤認識が生じたものを入
力パターンとし、反教師データを用いてニューラルネッ
トワークが追加学習されていることを特徴とする。上記
音声区間の特徴としては、たとえば、音声スペクトルが
挙げられる。
【0019】
【作用】この発明による第1の音声認識装置では、入力
音声に対して、音声区間が設定される。音声区間の特徴
に基づいて、音声区間の音声パターンが作成される。音
声パターンがニューラルネットワークに入力される。そ
して、ニューラルネットワークの出力に基づいて入力音
声が認識される。
【0020】この発明による第2の音声認識装置では、
入力音声に対して、複数の音声区間が設定される。各音
声区間の特徴に基づいて、各音声区間ごとの音声パター
ンがそれぞれ作成される。各音声区間ごとの音声パター
ンがニューラルネットワークにそれぞれ入力される。各
音声区間ごとの音声パターンに対するニューラルネット
ワークの出力に基づいて入力音声が認識される。
【0021】この発明による第1または第2の音声認識
装置のニューラルネットワークの学習は、次のように行
なわれている。
【0022】つまり、各認識対象音声ごとに、好適な音
声区間に基づく初期学習用標準音声パターンと、好適な
音声区間とは異なる音声区間に基づく追加学習用標準音
声パターンとが作成され、初期学習用標準音声パターン
を入力パターンとし、各入力パターンに対応する音声を
表す音声識別データを教師データとして、ニューラルネ
ットワークが初期学習される。
【0023】また、追加学習用標準音声パターンのう
ち、初期学習済のニューラルネットワークにそれが入力
されて音声認識が行なわれたときに、誤認識が生じたも
のを入力パターンとし、反教師データを用いてニューラ
ルネットワークが追加学習される。
【0024】
【実施例】以下、図1〜図5を参照して、この発明の実
施例について説明する。
【0025】図1は、音声認識装置の構成を示してい
る。
【0026】音声認識装置は、音声分析部1、音声区間
検出部2、音声パターン作成部3、ニューラルネットワ
ーク演算部4、認識結果記憶部5および認識結果判定部
6を備えている。音声区間検出部2は、音声検出部2
1、音声区間切出し部22および切出し位置記憶部23
を備えている。
【0027】図2は、ニューラルネットワーク演算部4
に設けられているニューラルネットワークの構造の一例
を示している。
【0028】このニューラルネットワークは、入力層4
1、中間層42および出力層43からなる。入力層41
は、たとえば、128個(16channel ×8frame ) の
入力ユニットから構成されている。中間層42は、入力
層41の各入力ユニットと相互に結合された、たとえ
ば、50個の中間ユニットから構成されている。出力層
43は、中間層42の各中間ユニットと相互に結合され
た、たとえば、20個の出力ユニットから構成されてい
る。
【0029】ここでは、認識対象音声は20個あるもの
とする。各認識対象音声を表す音声識別データは、出力
ユニットに対応した20個のデータからなり、その1つ
のみが”1”で他が全て”0”のデータで構成されてい
るものとする。そして、データ”1”の位置が、各音声
識別データごとに異なっている。
【0030】図3は、ニューラルネットワークの学習方
法を示している。各認識対象音声ごとに、初期学習用標
準音声パターンと追加学習用標準音声パターンとが作成
される(ステップ1)。
【0031】つまり、たとえば、図4に示すように、所
定の音声、たとえば「しち」の標準音声信号に対する音
声パワー信号を生成する。そして、好適なしきい値δ1
を用いて、音声区間R1を設定する。また、他の1また
は複数のしきい値δ2、δ3…δn(この例では、δ
2、δ3、δ4)を用いて、音声区間R2、R3…Rn
(この例では、R2、R3、R4)を設定する。
【0032】そして、各音声区間R1〜Rnに対する標
準音声パターンが作成される。音声区間R1に対する標
準音声パターンが初期学習用標準音声パターンであり、
音声区間R2〜Rnに対する標準音声パターンが追加学
習用標準音声パターンである。各標準音声パターンとし
ては、対応する音声区間を8等分した各区間それぞれの
平均スペクトルが用いられている。また、各区間の音声
スペクトルは、予め定められた16の周波数帯域に対す
る音声スペクトルから構成されている。
【0033】このようにして、全ての認識対象音声に対
する初期学習用標準音声パターンおよび追加学習用標準
音声パターンとが作成されると、初期学習が行なわれる
(ステップ2)。
【0034】つまり、各認識対象音声に対する初期学習
用標準音声パターンを入力パターンとし、各入力パター
ンに対応する音声を表す音声識別データを教師データと
して、バックプロパゲーション法により、ニューラルネ
ットワークを学習させる。
【0035】次に、追加学習用の入力パターンの選択処
理が行なわれる(ステップ3)。
【0036】つまり、各認識対象音声に対する追加学習
用標準音声パターンを、初期学習済のニューラルネット
ワークに順次入力し、その出力に基づいて音声認識結果
を得る。追加学習用標準音声パターンのうち、誤認識が
発生したものを、追加学習用の入力パターンとして選択
する。
【0037】たとえば、図4に示す音声区間R2、R3
およびR4に対する追加学習用標準音声パターンを初期
学習済のニューラルネットワークに順次入力して音声認
識を行なった場合に、各追加学習用標準音声パターンに
対して本来”しち”と認識されるべきところが、”に”
と誤認識されたとする。このような場合には、音声区間
R2、R3およびR4に対する追加学習用標準音声パタ
ーンは、追加学習用の入力パターンとして選択される。
【0038】次に、追加学習が行なわれる(ステップ
4)。
【0039】つまり、ステップ3で追加学習用の入力パ
ターンとして選択された各追加学習用標準音声パターン
と、ステップ1で作成された初期学習用標準音声パター
ンとを入力パターンとして、初期学習済のニューラルネ
ットワークを追加学習させる。この際、各追加学習用標
準音声パターンに対する教師データとしては、全て0の
データを用いる。また、初期学習用標準音声パターンに
対する教師データとしては、各初期学習用標準音声パタ
ーンに対応する音声を表す音声識別データが用いられ
る。
【0040】図4を例にとると、音声区間R2、R3、
R4に対する追加学習用標準音声パターンが入力パター
ンとされ、全て0の教師データを用いて、追加学習が行
なわれる。
【0041】図1の音声認識装置の動作について説明す
る。
【0042】音声分析部1は、入力音声の音声パワー信
号と、入力音声に対する音声スペクトルとを生成する。
入力音声の音声パワー信号は、音声区間検出部2に送ら
れる。入力音声に対する音声スペクトルは、音声パター
ン作成部3に送られる。
【0043】音声検出部21は、図5に示すように、音
声検出用しきい値αを用いて、入力された音声パワー信
号中の音声部分を検出する。
【0044】音声区間切出し部22は、図5に示すよう
に、複数の切出し用しきい値β1、β2、β3、β4を
用いて、複数の音声区間を設定する。この例では、第1
から第4の音声区間L1、L2、L3、L4を設定す
る。そして、設定した各音声区間L1〜L4の開始点と
終了点とを、各音声区間L1〜L4に対応させて、切出
し位置記憶部23に格納する。
【0045】各切出し用しきい値β1、β2、β3、β
4は、たとえば、次のようにして設定される。まず、最
小の切出し用しきい値β1が、音声検出部21によって
検出された音声部分の開始位置より所定時間前の雑音パ
ワーに基づいて決定される。そして、決定された最小の
切出し用しきい値β1に、定数γが加算されることによ
りしきい値β2が求められ、しきい値β2に定数γが加
算されることによりしきい値β3が求められ、しきい値
β3に定数γが加算されることによりしきい値β4が求
められる。
【0046】音声パターン作成部3は、音声区間切出し
部22によって求められた各音声区間L1〜L4に対す
る音声スペクトルに基づいて、各音声区間L1〜L4ご
とに音声パターンを作成して、ニューラルネットワーク
演算部4に入力させる。
【0047】つまり、切出し位置記憶部23に格納され
ている第1の音声区間L1の開始点と終了点とに基づい
て、当該音声区間L1に対する音声パターン(P1)を
作成する。この音声パターンとしては、当該音声区間を
8等分した各区間それぞれの平均スペクトルが用いられ
ている。そして、各区間の音声スペクトルパターンは、
予め定められた16の周波数帯域に対する音声スペクト
ルから構成されている。作成された第1の音声パターン
(P1)は、学習済のニューラルネットワークに入力さ
れる。
【0048】学習済のニューラルネットワークに、第1
の音声パターン(P1)が入力されることにより、第1
の音声パターン(P1)に対応する出力パターンが得ら
れる。そして、得られた出力パターンに基づいて、認識
結果と出力最大値(20個の出力のうちの最大値)と
が、第1認識結果として認識結果記憶部5に記憶され
る。
【0049】次に、切出し位置記憶部13に格納されて
いる第2の音声区間L2の開始点と終了点とに基づい
て、当該音声区間L2に対する音声パターン(P2)が
作成され、作成された第2の音声パターン(P2)が学
習済のニューラルネットワークに入力される。これによ
り、第2の音声パターン(P2)に対応する出力パター
ンが得られる。得られた出力パターンに基づいて、認識
結果と出力最大値が、第2認識結果として認識結果記憶
部5に記憶される。
【0050】次に、第3の音声区間L3の開始点と終了
点とに基づいて、当該音声区間L3に対する音声パター
ン(P3)が作成されて、学習済のニューラルネットワ
ークに入力される。これにより、第3の音声パターン
(P3)に対応する出力パターンが得られる。得られた
出力パターンに基づいて、認識結果と出力最大値が、第
3認識結果として認識結果記憶部5に記憶される。
【0051】次に、第4の音声区間L4の開始点と終了
点とに基づいて、当該音声区間L4に対する音声パター
ン(P4)が作成されて、学習済のニューラルネットワ
ークに入力される。これにより、第4の音声パターン
(P4)に対応する出力パターンが得られる。得られた
出力パターンに基づいて、認識結果と出力最大値が、第
4認識結果として認識結果記憶部5に記憶される。
【0052】このようにして、第1〜第4の音声パター
ン(P1〜P4)に対する第1〜第4の認識結果が得ら
れると、認識結果判定部6は、出力パターン記憶部5に
記憶されている第1〜第4の認識結果のうち、出力最大
値が”1”に最も近い音声認識結果を、当該検出音声部
分の音声認識結果として選択して出力する。つまり、音
声識別データ(教師データ)に類似度が最も高い出力パ
ターンに基づいて、入力音声が認識される。
【0053】上記実施例では、1つの音声検出部分に対
して、複数の切出し用しきい値β1〜β4によって得ら
れた複数の音声区間L1〜L4が設定されている。そし
て、各音声区間ごとの音声パターンに基づいて、当該音
声検出部分の音声が認識されているので、雑音が音声区
間に含まれることによって誤認識が発生したり、音声パ
ワーの小さい語尾等が音声区間から脱落することによっ
て誤認識が発生したりするといったことが防止される。
この結果、音声認識精度が向上する。
【0054】また、上記実施例では、各認識対象音声に
対して、複数のしきい値によって標準音声パターンを作
成し、それらの標準音声パターンのうち、他の音声と誤
認識される可能性のあるものについては、それらを入力
パターンとし、全て0の教師データを用いて、初期学習
済のニューラルネットワークが追加学習されている。こ
のため、音声パターンが初期学習用標準音声パターンに
近いときのみ、ニューラルネットワークから高感度の出
力パターンが得られる。この結果、認識精度が向上す
る。
【0055】上記実施例では、入力音声に対して複数の
しきい値β1〜β4によって複数の音声区間が設定され
ているが、入力音声に対して1つのしきい値によって1
の音声区間のみ設定するようにしてもよい。
【0056】上記実施例では、音声区間は、入力音声の
音声パワーと、切出し用しきい値とに基づいて設定され
ているが、音声パワー以外の音声区間判定用のパラメー
タと、そのパラメータに応じたしきい値とに基づいて音
声区間を設定してもよい。音声区間判定用のパラメータ
としては、音声パワー以外に、パワーの傾き、広域パワ
ー、低域パワー等がある。
【0057】また、各音声区間ごとの音声パターンをそ
れぞれ作成するための、音声区間の特徴としては、音声
スペクトルの他、音声スペクトルの傾き、音声パワー等
を用いてもよい。
【0058】
【発明の効果】この発明によれば、認識精度の向上が図
れる。
【図面の簡単な説明】
【図1】音声認識装置の構成を示すブロック図である。
【図2】図1のニューラルネットワーク演算部に設けら
れているニューラルネットワークの構造を示す模式図で
ある。
【図3】ニューラルネットワークの学習方法を説明する
ためのフローチャートである。
【図4】ニューラルネットワークの初期学習用標準音声
パターンと、追加学習用標準音声パターンとを作成する
方法を説明するためのタイムチャートである。
【図5】図1の音声認識装置において、複数の切出し用
しきい値に基づいて複数の音声区間が設定されることを
示すタイムチャートである。
【図6】従来の音声認識装置の構成を示すブロック図で
ある。
【図7】図6の音声認識装置において、1つの切出し用
しきい値に基づいて1つの音声区間が設定されることを
示すタイムチャートである。
【符号の説明】
1 音声分析部 2 音声区間検出部 3 音声パターン作成部 4 ニューラルネットワーク演算部 5 認識結果記憶部 6 認識結果判定部 21 音声検出部 22 音声区間切出し部 23 切出し位置記憶部
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平2−170265(JP,A) 特開 平5−165801(JP,A) 特開 平3−116099(JP,A) 特開 平5−334276(JP,A) 特開 平5−342188(JP,A) 特開 平6−289899(JP,A) 特開 平5−250347(JP,A) 特開 平6−274197(JP,A) 特開 昭59−174900(JP,A) 特開 平8−146986(JP,A) 特許2543603(JP,B2) 村尾、大倉、大西、飯田,ニューラル ネットによる、音声切り出し誤りを考慮 した不特定話者認識についての検討,日 本音響学会1995年春季研究発表会講演論 文集,日本,1995年 3月,1−5− 6,11−12 村尾、大倉、飯田,音声切り出し誤り を考慮したニューラルネットの耐雑音性 能評価,日本音響学会1995年秋季研究発 表会講演論文集,日本,1995年 9月, 3−2−4,1130−114 山田、田中,教師信号と出力との差が 増大する学習方式,1991年電子情報通信 学会秋季大会講演論文集,日本,社団法 人電子情報通信学会,1991年 9月 5 日,分冊6,6−12 (58)調査した分野(Int.Cl.7,DB名) G10L 15/16 G06F 15/18 520 G06F 15/18 560 G10L 11/02 G10L 15/04 JICSTファイル(JOIS)

Claims (3)

    (57)【特許請求の範囲】
  1. 【請求項1】 入力音声に対して音声区間を設定する音
    声区間設定手段、音声区間の特徴に基づいて、音声区間
    の音声パターンを作成する音声パターン作成手段、およ
    び音声パターンが入力されるニューラルネットワークを
    有しかつニューラルネットワークの出力に基づいて入力
    音声を認識する音声認識手段を備えており、 各認識対象音声ごとに、好適な音声区間に基づく初期学
    習用標準音声パターンと、好適な音声区間とは異なる音
    声区間に基づく追加学習用標準音声パターンとが作成さ
    れ、初期学習用標準音声パターンを入力パターンとし、
    各入力パターンに対応する音声を表す音声識別データを
    教師データとして、ニューラルネットワークが初期学習
    され、追加学習用標準音声パターンのうち、初期学習済
    のニューラルネットワークにそれが入力されて音声認識
    が行なわれたときに、誤認識が生じたものを入力パター
    ンとし、反教師データを用いてニューラルネットワーク
    が追加学習されている音声認識装置。
  2. 【請求項2】 入力音声に対して複数の音声区間を設定
    する音声区間設定手段、各音声区間の特徴に基づいて、
    各音声区間ごとの音声パターンをそれぞれ作成する音声
    パターン作成手段、および各音声区間ごとの音声パター
    ンがそれぞれ入力されるニューラルネットワークを有し
    かつ各音声区間ごとの音声パターンに対するニューラル
    ネットワークの出力に基づいて入力音声を認識する音声
    認識手段を備えており、 各認識対象音声ごとに、好適な音声区間に基づく初期学
    習用標準音声パターンと、好適な音声区間とは異なる音
    声区間に基づく追加学習用標準音声パターンとが作成さ
    れ、初期学習用標準音声パターンを入力パターンとし、
    各入力パターンに対応する音声を表す音声識別データを
    教師データとして、ニューラルネットワークが初期学習
    され、追加学習用標準音声パターンのうち、初期学習済
    のニューラルネットワークにそれが入力されて音声認識
    が行なわれたときに、誤認識が生じたものを入力パター
    ンとし、反教師データを用いてニューラルネットワーク
    が追加学習されている音声認識装置。
  3. 【請求項3】 音声区間の特徴が音声スペクトルである
    請求項1および2のいずれかに記載の音声認識装置。
JP29172594A 1994-11-25 1994-11-25 音声認識装置 Expired - Fee Related JP3322491B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP29172594A JP3322491B2 (ja) 1994-11-25 1994-11-25 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP29172594A JP3322491B2 (ja) 1994-11-25 1994-11-25 音声認識装置

Publications (2)

Publication Number Publication Date
JPH08146996A JPH08146996A (ja) 1996-06-07
JP3322491B2 true JP3322491B2 (ja) 2002-09-09

Family

ID=17772592

Family Applications (1)

Application Number Title Priority Date Filing Date
JP29172594A Expired - Fee Related JP3322491B2 (ja) 1994-11-25 1994-11-25 音声認識装置

Country Status (1)

Country Link
JP (1) JP3322491B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8280830B2 (en) * 2009-08-31 2012-10-02 Symantec Corporation Systems and methods for using multiple in-line heuristics to reduce false positives
JP6306528B2 (ja) * 2015-03-03 2018-04-04 株式会社日立製作所 音響モデル学習支援装置、音響モデル学習支援方法
JP7111017B2 (ja) * 2019-02-08 2022-08-02 日本電信電話株式会社 パラ言語情報推定モデル学習装置、パラ言語情報推定装置、およびプログラム

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
山田、田中,教師信号と出力との差が増大する学習方式,1991年電子情報通信学会秋季大会講演論文集,日本,社団法人電子情報通信学会,1991年 9月 5日,分冊6,6−12
村尾、大倉、大西、飯田,ニューラルネットによる、音声切り出し誤りを考慮した不特定話者認識についての検討,日本音響学会1995年春季研究発表会講演論文集,日本,1995年 3月,1−5−6,11−12
村尾、大倉、飯田,音声切り出し誤りを考慮したニューラルネットの耐雑音性能評価,日本音響学会1995年秋季研究発表会講演論文集,日本,1995年 9月,3−2−4,1130−114

Also Published As

Publication number Publication date
JPH08146996A (ja) 1996-06-07

Similar Documents

Publication Publication Date Title
CN110136749B (zh) 说话人相关的端到端语音端点检测方法和装置
US20130054236A1 (en) Method for the detection of speech segments
US8145486B2 (en) Indexing apparatus, indexing method, and computer program product
US6922668B1 (en) Speaker recognition
WO2017162053A1 (zh) 一种身份认证的方法和装置
US4769844A (en) Voice recognition system having a check scheme for registration of reference data
CN110797032B (zh) 一种声纹数据库建立方法及声纹识别方法
CN114596879B (zh) 一种虚假语音的检测方法、装置、电子设备及存储介质
CN112397093B (zh) 一种语音检测方法与装置
CN112507311A (zh) 一种基于多模态特征融合的高安全性身份验证方法
JP4787979B2 (ja) 雑音検出装置および雑音検出方法
Prabavathy et al. An enhanced musical instrument classification using deep convolutional neural network
JP3322491B2 (ja) 音声認識装置
Abdullah et al. Attacks as defenses: Designing robust audio captchas using attacks on automatic speech recognition systems
JP3428058B2 (ja) 音声認識装置
CN113570754B (zh) 声纹锁控制方法、装置、电子设备
CN114023331A (zh) 声纹识别系统的性能检测方法、装置、设备和存储介质
CN115565533A (zh) 语音识别方法、装置、设备及存储介质
CN112466287B (zh) 一种语音分割方法、装置以及计算机可读存储介质
Nosek et al. Synthesized speech detection based on spectrogram and convolutional neural networks
CN114038487A (zh) 一种音频提取方法、装置、设备和可读存储介质
JP3322536B2 (ja) ニューラルネットワークの学習方法および音声認識装置
JP3474949B2 (ja) 音声認識装置
JP2002372992A (ja) 話者識別方法
EP4170526A1 (en) An authentication system and method

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees