JPH0219960A - ニユーラル・ネツトワークと、それを用いた音響信号分析装置及び方法 - Google Patents

ニユーラル・ネツトワークと、それを用いた音響信号分析装置及び方法

Info

Publication number
JPH0219960A
JPH0219960A JP63168707A JP16870788A JPH0219960A JP H0219960 A JPH0219960 A JP H0219960A JP 63168707 A JP63168707 A JP 63168707A JP 16870788 A JP16870788 A JP 16870788A JP H0219960 A JPH0219960 A JP H0219960A
Authority
JP
Japan
Prior art keywords
layer
neural network
learning
elements
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP63168707A
Other languages
English (en)
Inventor
Hiroshi Ichikawa
市川 熹
Akio Amano
天野 明雄
Toshiyuki Aritsuka
俊之 在塚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP63168707A priority Critical patent/JPH0219960A/ja
Publication of JPH0219960A publication Critical patent/JPH0219960A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は音響分析装置に係り、特に音声認識装置の音声
特徴抽出部や、符号化音声の自動音質評価装置、音声特
徴解析装置、音質要因解析装置。
雑音解析装置、故障診断装置などに最適な音響信号分析
装置及び方法に関する。
〔従来の技術〕
従来の音響分析装置は、たとえば、フィルタ・バンク方
式や線形予測分析装置のように、音声の特徴としての物
理量を予め定めて、その特徴のみを抽出する方式が主で
あり、未知の特徴を抽出することは困難であった。また
、ある程度自動的に特徴を抽出する試みとして、4層の
ニューロン・ネットワークを用いた分析を行ない、この
結果を用いる方式(電子情報通信学会技術研究報告、5
P87−100.(1987年、12月18日)第19
頁から第24頁)が提案され1勝れた性能が報告されて
いる。
〔発明が解決しようとする課題〕
しかしながら、得られた特徴が物理的にいかなる意味を
持つものか、などの解析が困難であり。
より良い分析方法へと発展させたり、新たな知見を得る
など、次の進歩につながる手掛りを直接的に得ることが
困難であるという問題があった。
〔課題を解決するための手段〕
上記の目的は1本発明では以下のような構成を実現する
ことにより達成される。
即ち、任意の写像関係を実現することの出来る4層以上
のニューラル・ネットワークを基本構造とし、各層の構
成を要因毎に解析可能な構造と、中間層への外部からの
教師付学習用入力可能な構造とすることにより、達成さ
れる。
〔作用〕
以下、例を主に音声を取り、階層を4層のニューラル・
ネットワークによる例で、各部をどのように構成し、各
部をどのように動作し、問題点を解決するかを説明する
前記4層ニューラル・ネットワークの第1層を音響信号
の基本的物理特徴量と対応する二次元マトリクスとする
。音響信号の基本物理量としては信号の周波数スペクト
ルの振幅及び位相成分とし、それが時間的にどのように
変化して行くかの特徴をもとられるように、時間方向に
並べた構造となっている。
第2層の各素子は、第1層のすべての素子と結合されて
おり、得られた結果は、音声としての音響信号の物理的
特徴量が得られるよう構成されている。ニューロン・ネ
ットの学習が終了した時に、この第2層の各素子へ高い
結合度で結びついている第1層の素子の基本物理量を見
ることにより、第2層の各素子の物理的意味付けが容易
に解釈することが可能となる。
なお、第2層、第3層なども、第1層と同様遅延レジス
タを設は時間構造を持つ2次元構造とすることも可能で
あり、特に音韻の連続体としての単語などを認識するよ
うな装置においては有効であるが、以下、説明を簡単に
するために、−次元として説明する。
第3層の一部ないし全部の素子が、抽象的な意味での音
声(音量)の要素的特徴を反映するよう構成されている
。この第3層の素子には、学習時に、第4層からのバッ
ク・プロパゲーションによる学習量の他に、直接外部か
らの学習入力を並行して入力するよう考慮されており1
両者の関数として学習がなされる。この第3層への外部
からの学習人力としては、たとえば、音韻認識用の分析
を意図する場合には、「鼻音性」とか「母音性」「子音
性」 「摩擦性」なと、いわゆる分節的特徴t (di
atinctiva feature)などを入力音声
に合せて入力する。又、第3層の出力は直接外部から参
照出力可能とする。これはたとえば音韻認識結果として
の第4層出力が不明確な場合、音響分析結果以外の根拠
、たとえば言語処理結果から、ある音韻であるという可
能性が高いと思われる場合に。
その音韻の持つ第3層の特徴の有無を確認するような時
に用いられる。たとえば音響分析の結果「カイプ」と出
力されたが、言葉としては「タイプ」か「パイプ」しか
ない場合に、tかpかどちらが本当らしいかを見るとき
に用いる。この場合後述する実施の第3図の場合は第3
層の7番目の素子の出力を見て判定することができる。
音質評価用の分析を意図する場合は、「ざらざら感」「
鼻づまり感」などを主観評価実験で得られる要素感覚評
価値を入力音声に合せて入力し、学習させれば良い。第
3層のある素子が学習結果、十分に集束すれば、その要
素的特徴は十分意味のあるものと見なせるし、集束が良
くない場合は、音声の要素的特徴として、ふされしくな
いものと解釈することが出来、以降音声特徴として不採
用にすることか出来る。従って結果的に第3層の外部学
習がOとなる場合もある。音声の要素的特徴として意味
のあるものと解釈される素子は、その素子と高い重みで
結びついている第2層及び、第2層を経て結びついてい
る第1層の物理量と対応付けることが出来るので、目的
に合ったより簡便な分析装置を設計したり、より良い音
質の符号化方式を開発する上で重視すべき物理量の決定
に寄与することも可能となる。また、中間層(第3層)
の出力を見ることにより、ザラザラした音かどうかとい
う要素感覚を知ることも可能である。
第4層は出力層であり、音韻認識を目的とする場合は、
各素子を各音韻に対応付けて学習させる点は、公知の3
層ニューロン方式の出力層と同じである。音質評価用分
析では、第4層は素子を1つとし、平均主観評価値MO
8の値と対応付けて学習を行なう、学習後には、未知の
符号化音声を入力すると、その音の主観音質評価値が時
間関数として出力されることになる。又、話者認識の分
析に用いる場合には、第4層に各話者を割り当て、第3
層の学習入力に、男女や年令などの情報を加える。音帯
ガンの判定などに用いる場合は、第4層出力をガン患者
と健常者の二つ、又はうたがいのあるものを加えた3個
とし、第3層の学習入力に、嗅声などの特徴を加える。
心理状態(喜怒哀楽など)の話者の状態を判断を声から
行なう場合も、同じようにすることが可能となろう。
発電機など音響的信号を発する装置の故障による異常音
からの判断装置や、ソナー音による対象物の判定、街頭
雑音の種類の解析装置など、音響的信号解析等に対して
も同様に適用が可能となる。
なお、層数を4層以上とし、最終層と中間の1層以上の
層に外部から学習入力機能を持たせる構造も当然可能で
ある。たとえば、第3層を音韻の分節的特徴に、第4層
を音韻に、第5層を単語や文節に対応して学習させるこ
とが可能である。
〔実施例〕
以下、本発明の実施例を図をもって説明する。
第1図は本実施例を説明する分析装置のブロック図であ
る。第1図において、入力音声1はアナログ−デジタル
変換器3を経て、二面構成で連続的の入力音声を交互に
ストアする二面入力バッファメモリ4に格納される。格
納された音声は分析部2を経て、分析結果はバッファレ
ジスタに格納され、さらに制御部を兼ねるプロセッサ6
により分析目的に応じた処理がなされた後、出力部8を
経て外部に出力される。分析部2は、周波数分析部21
と、周波数分析結果バッファ22及びニューラル・ネッ
ト型分析処理部23よりなる。
ニューラル・ネット型分析の各素子間の結合部の重みを
学習する場合は、周波数分析結果バッファ22の出力を
インターフェース5を経てプロセッサ6に取り込み、ニ
ューラル・ネット構造を学習するプログラム処理により
各重みを学習し、学習結果を重み設定レジスタ9を経て
、ニューラルネット型処理部23の各素子間の結合部に
セットする。
第2図は、分析部2を中心に、より詳しく説明するため
の図であり、プロセッサ6の内部で処理するニューラル
・ネットの学習処理手順も、本図を用いて説明する。
先ず第2図を用いて1分析の手順を示す6周波数分析部
21の出力は分析音声のパワースペクトル成分情報と位
相情報の両者を各々周波数分析結果レジスタ22のパワ
ースペクトルレジスタ22−aと位相レジスタ22−b
に格納する0周波数分析部は良く知ら才しているFFT
分析手法を用いれば、パワー情報と位相情報を得ること
は当業者にとっては極く容易なことは明らかである。
パワー情報と位相情報は、ニューラル・ネット構造の分
析処理部23の第1層24の第一列目の各素子24.a
−p−1〜24−a−p  nに加えられる。
第1層は、各々n個の素子からなるに列の素子と、各列
間の素子を行方向に順次つなぐ遅延レジスタ24− a
 −z −1・・・24−a−z−n・・・24−に−
1−p−nからなる二次元構造となっている。第Q列第
q番目の素子は第Q−1列第q番目の素子及び第Ω+1
列第q番目の素子の各々第悲−1列第q番目及び第Q列
第q番目の遅延素子でつながれている(担し、第1列目
と第に列目は端なので片側のみであることは言うまでも
ない)。
二面人力バッファ4のレジスタへの入力が−ばいになり
、面が切り換り、入力音声が周波数分析部21で分析さ
れ1周波数分析結果レジスタ22に出力される毎に、各
情報は遅延レジスタ群を一つ経て次の行の素子に入力さ
れる。従って第Ω列の素子には今から2回だけ前に周波
数分析された情報が入っており、この第−層は、周波数
軸にそったパワー及び位相と、時間軸の実質的に3次元
の情報を持った二次元構造となっていることがわかる。
第2層26はm個の素子からなる。各素子は第1層のす
べての素子と各々独立の重み付けられたパスでつながれ
ている0図では各パスは図の複雑さをさけるため、−本
の線で記してあり、重み処理は陽には記述していない、
各素子の特性及び重み付けは、たとえば、先に引用した
文献のようなものを用いれば良い。
第3WIは1個の素子からなり、第2層のすべての素子
と同じく1重み付けられたパスでつながっている。この
層は、学習時には、第4層からのバック・プロパゲーシ
ョンによる情報だけでなく、直接外部から各素子に与え
られる学習データと合せて処理を行なう(端子26− 
a −Q−1,・・・)点に特徴がある。この点につい
ては後に別図説明を行なう、また第3層の各素子又は一
部の素子はその出力を最終層を経ずに直接外部から参照
出力出来る構造とする( 26− a −o −1、・
・・)。
第4層は、j個(具体的には、目的により個数が定まる
。たとえば、主観音質評価MOS値のみを出す場合は1
個、音韻認識を行なう場合は音韻の種類側、など)の素
子からなり、第3層の各素子のすべてと、同じく重みつ
きのパスで接続されている。各素子共学習入力(27−
a−1−1゜・・・)が可能である。
各パスの重みは、この分析ネットを学習して得られた値
が、第1図のプロセッサ部6より重み設定レジスタ9を
経て26−a−n−1,・・・及び27−a−Q−1,
・・・などから設定される。予め学習値を求め、学習機
能をはずした固定目的の分析装置の場合は、重みが小さ
く、無視出来るパスは、はずして作成しておいて良いこ
とは言゛うまでもない。
次に、本ニューラル・ネット・タイプの分析処理部の各
パスの重みの学習について説明する。
学習には、第2図のような構成の専用装置を用いても良
いが、構造が複雑な上、学習時にのみ使う処理も多く、
不経済なため、このような構造と同等の処理を行なうソ
フトウェアをプロセッサ部6内に作っておき、そこで実
行する方が実用的であろう、特に大量データによる学習
を行なう場合は、処理時間もかかるのでプロセッサ部6
に学習データ用のメモリを用意しておけば、バッチ的に
学習処理を行なうことも可能となり、実用上のメリット
も大きい。
学習は、基本的には、良く知られているバックプロパゲ
ーション法を用いる。バックプロパゲーション法につい
ては例えば文献エム、アイ、ティープレス出版[パラレ
ル デイステウリビューテラド プロセシング」第1巻
(1986年)、第8章、第318頁から第362頁(
HIT Pr98J“Parallel Distri
buted Procsssing” VoQ 、 1
(1986) 、Chap、8.pp318−362)
に詳しく記述されている0通常のバックプロパゲーショ
ン学習では学習入力(目標出力値)を最終層に対して与
えられないが、本発明では中間層に対しても学習入力が
与えられる点に特徴がある。
本実施例の場合、最終層である第4層と中間層第3層か
ら学習入力を与えられるようにしである。
まず説明の簡単のためにいくつか記号を導入する第4層
27の第i番目の素子の出力値を041、第3層26の
第i番目の素子の出力値を037、第2層25の第に番
目の素子の出力値ozm、また学習入力として第4層2
7の第i#目の素子に与える目標出力値をT 41、第
3層26の第i番目の素子に与える目標出力値をTδ1
とする。また、パックプロパゲーションの過程で各素子
毎に求まる誤差信号値についても、第4層27の第i番
目の素子に対してδ41、第3層26の第i番目の素子
に対して681.第2層25の第に番目の素子に対して
δZkと記すことにする。さらにいま説明の簡単を考慮
して、第2層、第3層、第4層の各素子の特性は皆同−
とし、次のような入力関係として記述されるものとする
y=f (X) ここで、yは素子の出力、Xは素子への全入力の重み付
き総和である。また、関数fを微分したものをf′と記
すことにする。また第4層27の第i番目の素子と第3
層26の第i番目の素子の結合係数をω31−1第3M
26の第i番目の素子と第2層25の第に番目の素子の
結合係数をω27にと記す。
パックプロパゲーション学習ではまず分析処理部23の
第1層24の各素子に特定の入力を与え、これに基づい
て第2層25.第3層26.第4層27の各素子の出力
値を求める。
各素子の出力値が求まると、第4層から下の層に向って
順に誤差信号を求めていく、第NJIと第N+1層との
間の結合係数の修正は、第N+1Mにおける誤差信号と
第N層における出力値を用いて行なう、ここでは簡単の
ため前記結合係数ω84にとωZlkの修正過程につい
てのみ説明する。
結合係数ω3−に、ω2−の修正において、第2層25
の第に番目の素子の出力値02に、第3層の第i番目の
素子の出力値03−および第3層の第jJ!目の素子の
誤差信号値δ81.第4層の第i番目の素子の誤差信号
値δ41が必要となる。 0tbt oa□の値は前記
のように第1層24へ特定の入力が与えられるとフォー
ワードな計算で求めることができる。一方、δ41.δ
8.は次式に従って算出する。
δ番+ = (Tai   0ai)f ’  (Σω
δ14・・・0aj)・・・(1) + /II (TIIJ−08J) f ’  CΣ(
i12Jk○2k)・・・(2) 次に、ω111J+ω2.ikの修正であるがこの修正
量をそれぞれΔωs1□、Δω27にと記すと、この修
正量は次式によって算出することができる。
Δ ω8Ia=  γ δ410 aa       
        −(3)Δω2Jk=γδ5ao2h
         ・・・(4)(1)〜(4)式にお
いて、α、β、γは実験的に学習の収束速度を調べなが
ら設定してやればよい。
(2)式でα=1.β=0とすれば通常のバックプロパ
ゲーション学習となるが、β≠0なる値を設定すれば、
中間層第3層26からの学習入力をも考慮した形での学
習が進む、 (3) 、 (4)式を用いれば第4層と
第3層、第3層と第2層の間の全ての結合係数の修正が
できる。第2層と第1層の間の結合係数に関しても(2
)式でα=1.β=0とおいたような形の通常のパック
プロパゲーションの処理を行なうことで修正ができる6
以上により分析処理部23の全ての結合係数が1回修正
されたことになる。他の入力データ、学習入力を与えて
以上の結合係数の修正の過程を行なうということを繰り
返す、この繰返し毎に次式で示す評価値Ea=−Σ(T
it−Oat)”           −(5)2 
五 Ea==  −Σ (TIIJ    Oδ−)2・・
・(6) を求め、これを全ての学習サンプルについて平均する。
その値が予め与えられた閾値より小さくなった段階で、
学習が完了したものとして結合係数の修正を終了すれば
よい。
次に学習入力の実施例について説明する。
第3図は音韻認識用分析部として学習する場合の最終層
(第4層)に対する中間層(第3層)′14子への学習
入力値の一例である。第3層の素子の20個程度を用意
し、そのうち13個に外部からの学習機能を設ける。第
4層は日本語にあられれる代表的音韻27種に対応する
素子を設ける。学習入力波形を加えると共に、第4層に
は、人力音声に対応する素子に学習人力1を他の素子に
はOを、第3層の外部学習入力付素子13個には表に従
った学習入力(1,0、又は−1の値)を加か学習を行
なわせる。
第4図は主観的音質評価としてMOS値を求める装置の
分析部に用いる場合の一例である0人間を用いて主観評
価実験にて得たデータの一部を示しである。第3層の素
子数は5程度とし、そのうち3個の素子に外部からの学
習機能を設ける。第4層は主観評価値MO8を表わす素
子1個である。
人間を用いて主観評価実験にて得た第4図のMOS値と
、第3層の3つの素子に各々の要素感覚値として主観評
価実験より得た[(表の交点の値)を学習教師入力とし
、この評価値を与えた音声波形を第1層への入力波形と
して学習させれば良い。
〔発明の効果〕
以上説明したごとく、本発明によれば、入力音声と目的
に応じた出力との関係を、見返しの良い物理量と対応付
けて解決出来る構造となっているので、音声情報処理技
術開発のツールとして非常に有効であるばかりでなく、
得られた分析装置及び方法は、音声認識2話者認識、音
質評価、音帯ガンのスクリーング等幅広い応用に適用で
きる。
【図面の簡単な説明】
第1図は本発明の一実施例を説明するブロック図、第2
図は、その中心となるニューロン・ネット型の分析部を
説明するための図である。第3図と第4図はニューロン
・ネットワークを学習させる場合の外部教師入力値の例
であり、第3図は音舅 図 1 人力音声 2  ブロセ、ゾヅ

Claims (1)

  1. 【特許請求の範囲】 1、4層以上からなり、その最終層と、中間層の一部(
    0を含む)ないし全部の素子に外部からの学習用教師情
    報を加えて学習した重み情報を有することを特徴とする
    ニューラル・ネットワーク。 2、4層からなり、その第3層の一部(0を含む)ない
    し全部の素子と第4層に外部からの学習教師情報を加え
    て学習した重み情報を有することを特徴とするニューラ
    ル・ネットワーク。 3、第1層が、周波数パワースペクトルと周波数位相ス
    ペクトル及びその時間軸情報に対応する素子群からなる
    ことを特徴とする特許請求の範囲第1項のニューラル・
    ネットワーク。 4、4層以上からなるニューラル・ネットワークの最終
    層と、中間層の一部ないし全部の素子に外部からの学習
    教師情報を加えることを特徴とするニューラル・ネット
    ワークの学習方法。 5、4層からなるニューラル・ネットワークの第3層の
    一部ないし全部の素子と第4層に外部からの学習教師情
    報を加えることを特徴とするユーラルネツトワークの学
    習方法。 6、特許請求の範囲第1項記載のニューラル・ネットワ
    ークを分析部として有することを特徴とする音響信号分
    析装置及び方法。 7、特許請求の範囲第1項記載のニューラル・ネットワ
    ークを分析部として有することを特徴とする音声認識装
    置及び方法。 8、特許請求の範囲第1項記載のニューラル・ネットワ
    ークを分析部として有することを特徴とする話者認識装
    置及び方法。 9、特許請求の範囲第1項記載のニューラル・ネットワ
    ークを分析部として有することを特徴とする音質評価装
    置及び方法。 10、特許請求の範囲第1項記載のニユーラル・ネット
    ワークを分析部として有することを特徴とする声帯ガン
    スクリーニング装置及び方法。 11、特許請求の範囲第1項記載のニューラルネットワ
    ークを分析部として有することを特徴とする故障診断装
    置及び方法。 12、特許請求の範囲第1項記載のニューラルネットワ
    ークを分析部として有することを特徴とするソナー装置
    及び方法。 13、中間層の素子の一部ないし全部の出力を直接外部
    に出力可能とした、特許請求の範囲第1項記載のニュー
    ラル・ネットワーク。
JP63168707A 1988-07-08 1988-07-08 ニユーラル・ネツトワークと、それを用いた音響信号分析装置及び方法 Pending JPH0219960A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63168707A JPH0219960A (ja) 1988-07-08 1988-07-08 ニユーラル・ネツトワークと、それを用いた音響信号分析装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63168707A JPH0219960A (ja) 1988-07-08 1988-07-08 ニユーラル・ネツトワークと、それを用いた音響信号分析装置及び方法

Publications (1)

Publication Number Publication Date
JPH0219960A true JPH0219960A (ja) 1990-01-23

Family

ID=15872960

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63168707A Pending JPH0219960A (ja) 1988-07-08 1988-07-08 ニユーラル・ネツトワークと、それを用いた音響信号分析装置及び方法

Country Status (1)

Country Link
JP (1) JPH0219960A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10306744A (ja) * 1998-04-06 1998-11-17 Hitachi Ltd 制御装置
JP2008224911A (ja) * 2007-03-10 2008-09-25 Toyohashi Univ Of Technology 話者認識システム
JP2016085334A (ja) * 2014-10-24 2016-05-19 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化プログラム
CN106297774A (zh) * 2015-05-29 2017-01-04 中国科学院声学研究所 一种神经网络声学模型的分布式并行训练方法及系统
WO2017171051A1 (ja) * 2016-04-01 2017-10-05 日本電信電話株式会社 異常音検出学習装置、音響特徴量抽出装置、異常音サンプリング装置、これらの方法及びプログラム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10306744A (ja) * 1998-04-06 1998-11-17 Hitachi Ltd 制御装置
JP2008224911A (ja) * 2007-03-10 2008-09-25 Toyohashi Univ Of Technology 話者認識システム
JP2016085334A (ja) * 2014-10-24 2016-05-19 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化プログラム
CN106297774A (zh) * 2015-05-29 2017-01-04 中国科学院声学研究所 一种神经网络声学模型的分布式并行训练方法及系统
CN106297774B (zh) * 2015-05-29 2019-07-09 中国科学院声学研究所 一种神经网络声学模型的分布式并行训练方法及系统
WO2017171051A1 (ja) * 2016-04-01 2017-10-05 日本電信電話株式会社 異常音検出学習装置、音響特徴量抽出装置、異常音サンプリング装置、これらの方法及びプログラム
JPWO2017171051A1 (ja) * 2016-04-01 2019-03-07 日本電信電話株式会社 異常音検出学習装置、音響特徴量抽出装置、異常音サンプリング装置、これらの方法及びプログラム

Similar Documents

Publication Publication Date Title
Zhang et al. Speech emotion recognition using deep convolutional neural network and discriminant temporal pyramid matching
Yuhas et al. Integration of acoustic and visual speech signals using neural networks
Yuhas et al. Neural network models of sensory integration for improved vowel recognition
CN112466326B (zh) 一种基于transformer模型编码器的语音情感特征提取方法
Morgan et al. Neural networks and speech processing
Krothapalli et al. Characterization and recognition of emotions from speech using excitation source information
Prom-on et al. Post-low bouncing in Mandarin Chinese: Acoustic analysis and computational modeling
CN113761841B (zh) 将文本数据转换为声学特征的方法
Bocquelet et al. Robust articulatory speech synthesis using deep neural networks for BCI applications
Bi et al. Deep feed-forward sequential memory networks for speech synthesis
El Haddad et al. An HMM approach for synthesizing amused speech with a controllable intensity of smile
Rolland et al. Multilingual transfer learning for children automatic speech recognition
JPH0219960A (ja) ニユーラル・ネツトワークと、それを用いた音響信号分析装置及び方法
Gahlawat et al. Natural speech synthesizer for blind persons using hybrid approach
CN113571095A (zh) 基于嵌套深度神经网络的语音情感识别方法和系统
Koolagudi et al. Recognition of emotions from speech using excitation source features
Siriwardena et al. The secret source: Incorporating source features to improve acoustic-to-articulatory speech inversion
Jenei et al. Possibilities of recognizing depression with convolutional networks applied in correlation structure
Raju et al. AUTOMATIC SPEECH RECOGNITION SYSTEM USING MFCC-BASED LPC APPROACH WITH BACK PROPAGATED ARTIFICIAL NEURAL NETWORKS.
Richmond Mixture density networks, human articulatory data and acoustic-to-articulatory inversion of continuous speech.
Gale et al. The post-stroke speech transcription (PSST) challenge
Sahoo et al. Detection of speech-based physical load using transfer learning approach
Pascual et al. Multi-output RNN-LSTM for multiple speaker speech synthesis with a-interpolation model
JPH01276200A (ja) 音声合成装置
Dhanalakshmi et al. Significant sensors and parameters in assessment of dysarthric speech