JPH05119791A - 話者認識方式 - Google Patents

話者認識方式

Info

Publication number
JPH05119791A
JPH05119791A JP3282842A JP28284291A JPH05119791A JP H05119791 A JPH05119791 A JP H05119791A JP 3282842 A JP3282842 A JP 3282842A JP 28284291 A JP28284291 A JP 28284291A JP H05119791 A JPH05119791 A JP H05119791A
Authority
JP
Japan
Prior art keywords
neural network
input
speaker recognition
speaker
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3282842A
Other languages
English (en)
Inventor
Masayuki Unno
雅幸 海野
Shingo Nishimura
新吾 西村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sekisui Chemical Co Ltd
Original Assignee
Sekisui Chemical Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sekisui Chemical Co Ltd filed Critical Sekisui Chemical Co Ltd
Priority to JP3282842A priority Critical patent/JPH05119791A/ja
Publication of JPH05119791A publication Critical patent/JPH05119791A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 発声内容を限定しない入力音声に基づく話者
認識方式において、比較的短い発声で高い認識率を得る
とともに、学習を軽減すること。 【構成】 ニューラルネットワーク13を用いて話者認
識を行なうに際し、入力音声から抽出した短時間スペク
トルの概形を表わすベクトルの系列をニューラルネット
ワーク13への入力とし、当該入力に対するニューラル
ネットワーク13からの出力ベクトルの系列を、総合的
に判断することにより話者認識を行なう話者認識方式で
あって、ニューラルネットワーク13の学習用データ数
をクラスター分析により消滅するようにしたものであ
る。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、電子錠等において入力
音声からその話者を認識するに好適な話者認識方式に関
する。
【0002】
【従来の技術】本出願人は、ニューラルネットワークを
用いた話者認識方式を提案している。ニューラルネット
ワークを用いた話者認識方式は、登録話者の特定学習単
語についての音声をニューラルネットワークに入力し、
この入力に対応するニューラルネットワークの出力が一
定の目標値に近づくように、ニューラルネットワークを
構成する各ユニットの変換関数及び重みを修正する学習
動作を行なう。そして、この学習動作の繰り返しにより
構築されたニューラルネットワークに任意話者の音声を
入力し、対応するニューラルネットワークの出力から今
回話者が登録話者であるか否かを認識することとしてい
る。
【0003】
【発明が解決しようとする課題】然しながら、従来のニ
ューラルネットワークを用いた話者認識方式にあって
は、予め学習した発声内容(学習単語)と同一の発声内
容についてのみ話者認識を行なっているに過ぎない。そ
して、発声内容を限定しない入力音声から話者認識を行
なうものとすれば、ニューラルネットワークは入力音声
中の種々の音韻に共通の話者情報を利用する必要がある
から、入力音声としてある程度長い発声が必要となり、
また、高い認識率も得にくい。
【0004】然るに、本出願人は、特願平2-243413号に
より、発声内容を限定しない入力音声に基づく話者認識
において、認識時の入力に関して発声長を短縮できる話
者認識方式を提案した。ところが、この提案済の話者認
識方式にあっては、学習時のデータ数に関する改善が十
分でなく、学習に長時間を要するという不都合がある。
【0005】本発明は、発声内容を限定しない入力音声
に基づく話者認識方式において、比較的短い発声で高い
認識率を得るとともに、学習を軽減することを目的とす
る。
【0006】
【課題を解決するための手段】請求項1に記載の本発明
は、ニューラルネットワークを用いて話者認識を行なう
に際し、入力音声から抽出した短時間スペクトルの概形
を表わすベクトルの系列をニューラルネットワークへの
入力とし、当該入力に対するニューラルネットワークか
らの出力ベクトルの系列を、総合的に判断することによ
り話者認識を行なう話者認識方式であって、ニューラル
ネットワークの学習用データ数をクラスター分析により
削減するようにしたものである。
【0007】請求項2に記載の本発明は、請求項1に記
載の本発明において更に、前記総合的な判断が、各出力
ベクトルの多数決、和、または積に基づいてなされるよ
うにしたものである。
【0008】請求項3に記載の本発明は、ニューラルネ
ットワークを用いて話者認識を行なうに際し、入力音声
から抽出した短時間スペクトルの概形を表わすベクトル
の系列をニューラルネットワークへの入力とし、当該入
力に対するニューラルネットワークからの出力ベクトル
のうち、予め設定したしきい値にて選択された出力ベク
トルの系列を、総合的に判断することにより話者認識を
行なう話者認識方式であって、ニューラルネットワーク
の学習用データ数をクラスター分析により削減するよう
にしたものである。
【0009】請求項4に記載の本発明は、請求項3に記
載の本発明において更に、前記総合的な判断が、選択さ
れた各出力ベクトルの多数決、和、または積に基づいて
なされるようにしたものである。
【0010】
【作用】請求項1、2に記載の本発明にあっては、先
ず、学習用の音声から抽出した短時間スペクトルの概形
を表わすベクトルを求め、このベクトルの系列をニュー
ラルネットワークへ入力する学習動作により、ニューラ
ルネットワークを構築する。本発明では、この際に話者
毎のクラスター分析を行なうことによって、学習用デー
タ数を減らしておく。
【0011】尚、学習用の音声には、音韻バランスのと
れた文章、例えば、「彼は以前から科学技術の進歩と人
間の勇気が遥かな宇宙への旅を可能にしたのだと考えて
いました。」を用いることができる。
【0012】学習により構築されたニューラルネットワ
ークを用いる認識時には、発声内容を任意とする不特定
話者の音声から学習時と同様に抽出した短時間スペクト
ルの概形を表わすベクトルを求め、このベクトルの系列
をニューラルネットワークへ入力する。そして、当該入
力に対するニューラルネットワークからの出力ベクトル
の系列を得る。この時、系列を構成する各出力ベクトル
は、それぞれが短時間の入力(各フレーム毎の入力)に
対する話者を示唆しており、本発明では、これを系列全
体で、多数決、頻度、和、または積等にて総合的に判断
することにより、1つの話者認識結果を得る。
【0013】然るに、請求項1、2に記載の本発明によ
れば、下記〜の作用効果がある。 学習に用いた短時間スペクトルの概形は、それぞれ、
種々の音素や音素間の渡りの部分に対応している。従っ
て、これらの各短時間スペクトルの概形を表わすベクト
ルの系列から、話者情報を得るように学習したニューラ
ルネットワークにあっては、任意の発声中に内在する話
者情報を良く捕捉できる。これにより、発声内容を限定
しない任意の入力音声に基づく話者認識を、短い発声に
ついても良好に実現できる。
【0014】出力ベクトルの系列を総合的に判断して
話者認識を行なうものであるから、出力ベクトルの1つ
に基づく判断では誤りである場合にも、全体としては正
しい判断を下すことができる。これにより、発声内容を
限定しない入力音声に基づく話者認識を、高い認識率で
実現できる。
【0015】クラスター分析により複数のデータの代
表ベクトルを学習データとしているので、学習効果を保
ちつつ学習データ数を削減できる。その結果、ニューラ
ルネットワークの学習時間が大幅に短縮できる。
【0016】請求項3、4に記載の本発明にあっては、
先ず、学習用の音声から抽出した短時間スペクトルの概
形を表わすベクトルを求め、このベクトルの系列をニュ
ーラルネットワークへ入力する学習動作により、ニュー
ラルネットワークを構築する。本発明では、この際に話
者毎のクラスター分析を行なうことによって学習用デー
タ数を減らしておく。
【0017】尚、学習用の音声には、音韻バランスのと
れた文章、例えば、「彼は以前から科学技術の進歩と人
間の勇気が遥かな宇宙への旅を可能にしたのだと考えて
いました。」を用いることができる。
【0018】学習により構築されたニューラルネットワ
ークを用いる認識時には、発声内容を任意とする不特定
話者の音声から学習時と同様に抽出した短時間スペクト
ルの概形を表わすベクトルを求め、このベクトルの系列
をニューラルネットワークへ入力する。そして、当該入
力に対するニューラルネットワークからの出力ベクトル
の系列を得る。この時、系列を構成する各出力ベクトル
は、それぞれが短時間の入力に対する話者を示唆してい
るが、本発明にあっては予めしきい値を用いて、全部の
出力ベクトルのうちである話者のみを一定以上の確度で
示唆している出力ベクトル(換言すれば、信頼性の高い
出力ベクトル)のみを選択し、選択された出力ベクトル
の系列全体で、多数決、和、または積等にて総合的に判
断することにより、1つの話者認識結果を得る。
【0019】然るに、請求項3、4に記載の本発明によ
れば、請求項1、2に記載の本発明における前述〜
の作用に加え、下記の作用がある。
【0020】話者認識を行なうための総合的な判断材
料となる出力ベクトルの系列が、予め設定したしきい値
にて選択された出力ベクトルの系列である。即ち、出力
ベクトルのうちで信頼性の高いものを選択したことによ
り、総合的な判断がより確実となり、認識率を顕著に向
上できる。
【0021】然るに、本発明における「ニューラルネッ
トワーク」について説明すれば、下記(1) 〜(4) の如く
である。
【0022】(1)ニューラルネットワークは、その構造
から、図4(A)に示す階層的ネットワークと図4
(B)に示す相互結合ネットワークの2種に大別でき
る。本発明は、両ネットワークのいずれを用いて構成す
るものであっても良いが、階層的ネットワークは後述す
る如くの簡単な学習アルゴリズムが確立されているため
より有用である。
【0023】(2)ネットワークの構造 階層的ネットワークは、図5に示す如く、入力層、中間
層、出力層からなる階層構造をとる。各層は1以上のユ
ニットから構成される。結合は、入力層→中間層→出力
層という前向きの結合だけで、各層内での結合はない。
【0024】(3)ユニットの構造 ユニットは図6に示す如く脳のニューロンのモデル化で
あり構造は簡単である。他のユニットから入力を受け、
その総和をとり一定の規則(変換関数)で変換し、結果
を出力する。他のユニットとの結合には、それぞれ結合
の強さを表わす可変の重みを付ける。
【0025】(4)学習(バックプロパゲーション) ネットワークの学習とは、実際の出力を目標値(望まし
い出力)に近づけることであり、一般的には図6に示し
た各ユニットの変換関数及び重みを変化させて学習を行
なう。
【0026】また、学習のアルゴリズムとしては、例え
ば、Rumelhart, D.E.,McClelland,J.L. and the PDP Re
search Group, PARALLEL DISTRIBUTED PROCESSING, the
MIT Press, 1986.に記載されているバックプロパゲー
ションを用いることができる。
【0027】また、本発明における「クラスター分析」
とは、「個体間(属性間)に定められる類似度(又は距
離)を基にして、所謂似た者同士を1つのグループとし
て、全体をいくつかのグループ(クラスター)に分割す
ること」であり、例えば1986年10月31日森北出版(株)
発行の数学ライブラリー46多変量解析入門II26頁〜44頁
記載の、Ward method による類似度を基準としたクラス
ター構成法を用いることができる。
【0028】
【実施例】図1は本発明の第1実施例に用いられる話者
認識装置を示す模式図、図2は本発明の話者認識原理を
示す工程図、図3は本発明の第2実施例に用いられる話
者認識装置を示す模式図である。
【0029】(第1実施例)(図1、図2参照) 話者認識装置10は、図1に示す如く、音声入力部1
1、前処理部12、ニューラルネットワーク13、出力
ベクトル演算部14、判定部15を有して構成されてい
る。以下、この話者認識装置10による本発明の実施例
について説明する。尚、学習時には音声入力部11、前
処理部12、ニューラルネットワーク13のみが用いら
れ、認識時には話者認識装置10の全体が用いられる。
【0030】(A)学習 対象とする登録話者に男性 5名で、学習用の短文とし
て音韻バランスのとれた文章、例えば「彼は以前から科
学技術の進歩と人間の勇気が遥かな宇宙への旅を可能に
したのだと考えていました。」を用意した。そして、こ
の学習用の音声を音声入力部11に入力した。
【0031】上記の入力音声を前処理部12におい
て、サンプリング周波数10KHz 、フレーム長25.6msec、
フレーム周期12.8msecでフーリエ分析(全nフレーム)
し、各1フレームにつき100 〜5000Hzの帯域で68ch(1/
12 Oct. )のパワーベクトルを系列を得た(図2参
照)。これにより、学習用入力データとしてn組のm=
68次元のパワーベクトルの系列が得られることになる。
【0032】上記のパワーベクトルの系列を、階層
的クラスター分析を行なうことによって、話者毎に200
程度の代表ベクトルを得る。
【0033】上記で得たベクトルをニューラルネッ
トワーク13への入力とし、出力層の各ユニットが話者
に対応するように、十分学習する。
【0034】今回用いたニューラルネットワーク13は
3層の階層型ネットワークであり、各層のユニット数は
入力層68、中間層30、出力層 5で、学習には誤差逆伝播
学習法を用いた。入力パターンは話者数×クラスター分
析後の代表ベクトル数だけ得られる。出力層での各ユニ
ットの目標出力値は、それぞれ、(1 ,0 ,0 ,0 ,0
)、(0 ,1 ,0 ,0 ,0 )、(0 ,0 ,1 ,0 ,0
)、(0 ,0 ,0 ,1,0 )、(0 ,0 ,0 ,0 ,1
)である。
【0035】(B)認識 次に、上記(A)で構築されたニューラルネットワーク
13を用いて、話者の同定を行なう。
【0036】音声入力部11にて採取された任意の発
声について、前処理部12において上記と同様にn組
のm=68次元のパワーベクトルの系列を得る。
【0037】上記で得たベクトルをニューラルネッ
トワーク13に入力し、下記の出力ベクトルの系列を得
る。 {X1 、X2 …Xn } …(1) Xt =(Xt 1、…、Xt 5) …(2)
【0038】但し、上記(1) は全フレーム分の出力ベク
トルの系列を表わし、上記(2) は第tフレームについて
の出力ベクトルを表わす。上記(2)の出力ベクトルXt
において、Xt 1の値が他のXt 2〜Xt 5の値に比して大き
ければ、この出力ベクトルX t は、第tフレームの入力
に対する話者が第1話者〜第5者のうちの第1話者であ
ることを示唆する。
【0039】出力ベクトル演算部14は、上記の出
力ベクトルの系列を、以下の(a) 、(b) 、(c) の3手法
により総合的に判断し、入力音声がどの話者のものであ
るかを認識し、この認識結果を判定部15に表示する。
【0040】(a) 各出力ベクトルXt sの積、即ちΠt
t sが最大になる話者s (b) 各出力ベクトルXt sの和、即ちΣtt sが最大にな
る話者s (c) 各フレームの出力ベクトルの最大値max{X
t 1…、Xt 5}=Xt sをとり、この最大値をとった数が最
も多い話者s(各出力ベクトルXt sの多数決で選定した
話者s)
【0041】次に、上記第1実施例の作用について説明
する。上記実施例にあっては、先ず、学習用の音声から
抽出した短時間(1フレーム長25.6msec)スペクトルの
概形を表わす各フレーム毎のベクトルを求め、このベク
トルの系列をニューラルネットワーク13へ入力する学
習動作により、ニューラルネットワーク13を構築し
た。この際に話者毎のクラスター分析を行なうことによ
って学習用データ数を減らしておく。
【0042】学習により構築されたニューラルネットワ
ーク13を用いる認識時には、発声内容を任意とする不
特定話者の音声から学習時と同様に抽出した短時間スペ
クトルの概形を表わすベクトルを求め、このベクトルの
系列をニューラルネットワーク13へ入力した。そし
て、当該入力に対するニューラルネットワーク13から
の出力ベクトルの系列を得た。この時、系列を構成する
各出力ベクトルは、それぞれが短時間の入力(各フレー
ム毎の入力)に対する話者を示唆しており、上記実施例
では、出力ベクトル演算部14により、これを系列全体
で、多数決、和、又は積にて総合的に判断することによ
り、1つの話者認識結果を得た。
【0043】然るに、上記実施例によれば、下記〜
の作用効果がある。 学習に用いた短時間スペクトルの概形は、それぞれ、
種々の音素や音素間の渡りの部分と対応している。従っ
て、これらの各短時間スペクトルの概形を表わすベクト
ルの系列から、話者情報を得るように学習したニューラ
ルネットワーク13にあっては、任意の発声中に内在す
る話者情報を良く捕捉できる。これにより、発声内容を
限定しない任意の入力音声に基づく話者認識を、短い発
声についても良好に実現できる。
【0044】出力ベクトルの系列を総合的に判断して
話者認識を行なうものであるから、出力ベクトルの1つ
に基づく判断では誤りである場合にも、全体としては正
しい判断を下すことができる。これにより、発声内容を
限定しない入力音声に基づく話者認識を、高い認識率で
実現できる。
【0045】クラスター分析により複数のデータの代
表ベクトルを学習データとしているので、学習効果を保
ちつつ学習データ数を削減できる。その結果、ニューラ
ルネットワーク13の学習時間が大幅に短縮できる。
【0046】(第2実施例)(図3参照) 話者認識装置20が前記話者認識装置10と異なる点
は、ニューラルネットワーク13と出力ベクトル演算部
14との間に出力ベクトル選択部14Aを備えているこ
とにある。尚、学習時には音声入力部11、前処理部1
2、ニューラルネットワーク13のみが用いられ、認識
時には話者認識装置20の全体が用いられる。
【0047】前記話者認識装置10にあっては、ニュー
ラルネットワーク13からの出力ベクトルの系列を、話
者認識のための総合的な判断材料とした。これに対し、
話者認識装置20にあっては、ニューラルネットワーク
13からの出力ベクトルのうち、予め設定したしきい値
にて選択された出力ベクトルの系列を、話者認識のため
の総合的な判断材料としたものである。
【0048】即ち、話者認識装置20の出力ベクトル選
択部14Aはニューラルネットワーク13において、前
述話者認識装置10の認識時に(B) の段階におけると
同様にして得られる全出力ベクトルXt のうち、構成要
素Xt i(i=1-5 )のどれが1つが敷居値θ1以上であ
り、かつ残りの要素のすべてが敷居値θ2 以下であるよ
うな、出力ベクトルXt のみを選択する。
【0049】そして、出力ベクトル選択部14Aに続く
出力ベクトル演算部14は、出力ベクトル選択部14A
にて選択された出力ベクトルの系列を、前述話者認識装
置10の認識時に(B) の段階におけると同様にして総
合的に判断し、入力音声がどの話者のものであるかを認
識し、この認識結果を判定部15に表示するものであ
る。
【0050】次に、上記第2実施例の作用について説明
する。上記実施例にあっては、先ず、学習用の音声から
抽出した短時間(1フレーム長25.6msec)スペクトルの
概形を表わす各フレーム毎のベクトルを求め、このベク
トルの系列をニューラルネットワーク13へ入力する学
習動作により、ニューラルネットワーク13を構築し
た。この際に話者毎のクラスター分析を行なうことによ
って学習用データ数を減らしておく。
【0051】学習により構築されたニューラルネットワ
ーク13を用いる認識時には、発声内容を任意とする不
特定話者の音声から学習時と同様に抽出した短時間スペ
クトルの概形を表わすベクトルを求め、このベクトルの
系列をニューラルネットワーク13へ入力した。そし
て、当該入力に対するニューラルネットワーク13から
の出力ベクトルの系列を得た。
【0052】然るに、上記第2実施例によれば、前記第
1実施例における前述〜の作用に加え、下記の作
用効果がある。
【0053】話者認識を行なうための総合的な判断材
料となる出力ベクトルの系列が、予め設定Xしたしきい
値θ1 、θ2 にて選択された出力ベクトルの系列であ
る。即ち、出力ベクトルのうちで信頼性の高いものを選
択したことにより、総合的な判断がより確実となり、認
識率を顕著に向上できる。
【0054】
【発明の効果】以上のように本発明によれば、発声内容
を限定しない入力音声に基づく話者認識方式において、
比較的短い発声で高い認識率を得るとともに、学習を軽
減することができる。
【図面の簡単な説明】
【図1】図1は本発明の第1実施例に用いられる話者認
識装置を示す模式図である。
【図2】図2は本発明の話者認識原理を示す工程図であ
る。
【図3】図3は本発明の第2実施例に用いられる話者認
識装置を示す模式図である。
【図4】図4はニューラルネットワークを示す模式図で
ある。
【図5】図5は階層的なニューラルネットワークを示す
模式図である。
【図6】図6はユニットの構造を示す模式図である。
【符号の説明】
10 話者認識装置 11 音声入力部 12 前処理部 13 ニューラルネットワーク 14 出力ベクトル演算部 14A 出力ベクトル選択部 15 判定部

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 ニューラルネットワークを用いて話者認
    識を行なうに際し、入力音声から抽出した短時間スペク
    トルの概形を表わすベクトルの系列をニューラルネット
    ワークへの入力とし、当該入力に対するニューラルネッ
    トワークからの出力ベクトルの系列を、総合的に判断す
    ることにより話者認識を行なう話者認識方式であって、
    ニューラルネットワークの学習用データ数をクラスター
    分析により削減する話者認識方式。
  2. 【請求項2】 前記総合的な判断が、各出力ベクトルの
    多数決、和、または積に基づいてなされる請求項1記載
    の話者認識方式。
  3. 【請求項3】 ニューラルネットワークを用いて話者認
    識を行なうに際し、入力音声から抽出した短時間スペク
    トルの概形を表わすベクトルの系列をニューラルネット
    ワークへの入力とし、当該入力に対するニューラルネッ
    トワークからの出力ベクトルのうち、予め設定したしき
    い値にて選択された出力ベクトルの系列を、総合的に判
    断することにより話者認識を行なう話者認識方式であっ
    て、ニューラルネットワークの学習用データ数をクラス
    ター分析により削減する話者認識方式。
  4. 【請求項4】 前記総合的な判断が、選択された各出力
    ベクトルの多数決、和、または積に基づいてなされる請
    求項3記載の話者認識方式。
JP3282842A 1991-10-29 1991-10-29 話者認識方式 Pending JPH05119791A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3282842A JPH05119791A (ja) 1991-10-29 1991-10-29 話者認識方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3282842A JPH05119791A (ja) 1991-10-29 1991-10-29 話者認識方式

Publications (1)

Publication Number Publication Date
JPH05119791A true JPH05119791A (ja) 1993-05-18

Family

ID=17657782

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3282842A Pending JPH05119791A (ja) 1991-10-29 1991-10-29 話者認識方式

Country Status (1)

Country Link
JP (1) JPH05119791A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112567459A (zh) * 2018-08-24 2021-03-26 三菱电机株式会社 声音分离装置、声音分离方法、声音分离程序以及声音分离系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112567459A (zh) * 2018-08-24 2021-03-26 三菱电机株式会社 声音分离装置、声音分离方法、声音分离程序以及声音分离系统
CN112567459B (zh) * 2018-08-24 2023-12-12 三菱电机株式会社 声音分离装置、声音分离系统、声音分离方法以及存储介质

Similar Documents

Publication Publication Date Title
CN110992987B (zh) 语音信号中针对通用特定语音的并联特征提取系统及方法
CN112348075B (zh) 一种基于情景注意力神经网络的多模态情感识别方法
CN108564942B (zh) 一种基于敏感度可调的语音情感识别方法及系统
CN110164476B (zh) 一种基于多输出特征融合的blstm的语音情感识别方法
CN108717856B (zh) 一种基于多尺度深度卷积循环神经网络的语音情感识别方法
Gelly et al. Optimization of RNN-based speech activity detection
CN110634491B (zh) 语音信号中针对通用语音任务的串联特征提取系统及方法
CN112466326B (zh) 一种基于transformer模型编码器的语音情感特征提取方法
CN108777140A (zh) 一种非平行语料训练下基于vae的语音转换方法
CN110956953B (zh) 基于音频分析与深度学习的争吵识别方法
CN112581979B (zh) 一种基于语谱图的语音情绪识别方法
CN108806667A (zh) 基于神经网络的语音与情绪的同步识别方法
US5594834A (en) Method and system for recognizing a boundary between sounds in continuous speech
CN110379441B (zh) 一种基于对抗型人工智能网络的语音服务方法与系统
AU2020102038A4 (en) A speaker identification method based on deep learning
Sunny et al. Recognition of speech signals: an experimental comparison of linear predictive coding and discrete wavelet transforms
AU685626B2 (en) Speech-recognition system utilizing neural networks and method of using same
CN114898779A (zh) 融合多模态的语音情感识别方法及系统
Sagi et al. A biologically motivated solution to the cocktail party problem
Atkar et al. Speech Emotion Recognition using Dialogue Emotion Decoder and CNN Classifier
Ye et al. Attention bidirectional LSTM networks based mime speech recognition using sEMG data
Sunny et al. Feature extraction methods based on linear predictive coding and wavelet packet decomposition for recognizing spoken words in malayalam
JPH05119791A (ja) 話者認識方式
Basu et al. Affect detection from speech using deep convolutional neural network architecture
CN110363074B (zh) 一种针对复杂抽象化事物的类人化识别交互方法