JPH0272397A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH0272397A
JPH0272397A JP63222313A JP22231388A JPH0272397A JP H0272397 A JPH0272397 A JP H0272397A JP 63222313 A JP63222313 A JP 63222313A JP 22231388 A JP22231388 A JP 22231388A JP H0272397 A JPH0272397 A JP H0272397A
Authority
JP
Japan
Prior art keywords
output
input
unit
value
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP63222313A
Other languages
English (en)
Other versions
JP2764277B2 (ja
Inventor
Akio Amano
天野 明雄
Hiroshi Ichikawa
市川 熹
Nobuo Hataoka
畑岡 信夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP63222313A priority Critical patent/JP2764277B2/ja
Priority to US07/400,342 priority patent/US5040215A/en
Publication of JPH0272397A publication Critical patent/JPH0272397A/ja
Priority to US07/727,089 priority patent/US5179624A/en
Application granted granted Critical
Publication of JP2764277B2 publication Critical patent/JP2764277B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S706/00Data processing: artificial intelligence
    • Y10S706/90Fuzzy logic

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は音声認識方式に係り、特に、多様であいまいな
性質が特徴である音声を良好に認識する方式に関する。
〔従来の技術〕
従来の音声認識装置では,アイ・イー・イー・イー・ト
ランザクション オン アコーステイクス スピーチ 
アンド シグナルプロセシングニー ニス ニス ピー
 23  1 (1973年)第67頁から第72頁(
IEEE,Trans.on ASSP−23。
Ncil (1975)pp67−72)において論じ
られているように、認識対象となる音声の全てのカテゴ
リーについて予じめ標準パターンを用意しておき、入カ
バターンをこの各標準パターンと照合し最も類似度の高
いものを認識結果とする方式をとっていた。
このような方式においては、認識の動作は標準パターン
との照合が基体となるが、音声の特徴が暗黙的に標準パ
ターンの中に取り込まれているために、認識動作の途中
経過についてもその正否を人間が判断することができな
い。このため、認識装置の性能改善が試行錯誤的となり
、知識が積み上らず、性能向上が望めず、系統的性能改
善が行なえない。
このような問題点を解決する方式として、同一出願人は
特願昭62−33261において音素特有の特徴が特徴
パターンの時系列の中に存在するか否かを調べる処理の
名称と手順を各音素特有の特徴毎に保持する手段と、認
識対象の音声の全カテゴリーの中から2つの組み合せ毎
に、その2つを識別するために行なう前記処理の名称お
よび処理結果の解釈の仕方を記述したテーブルを設け、
本テーブルの記述に従って対判定によって認識処理を行
なう方法を考案した。この方法によれば、誤認識が生じ
たときの原因を究明するには、上記の対判定結果のうち
、判定を誤っているものを調べれば良く、この処理手順
を改良することにより、他の対判定結果に悪影響を及ぼ
すことなく、性能を改善することが出来る。
なお、以下の説明では、音声の認識単位として音韻を例
に取り上げて説明するが、認識の単位が音節や単語など
他の単位であっても同様に処理できることは言うまでも
ない。
〔発明が解決しようとする課題〕
上記に例として示した二つの従来技術では、音声が本来
的に持つあいまいさ(発声器関上の不確実さや1発声者
の発声態度のあいまいさ、調音結合による構造的な変形
によるあいまいさ)や、分析等の技術上の制約による分
解能不足等によるあいまいさについて、十分に考慮され
ておらず、確定的な論理処理により認識判断がなされて
いるため、十分な性能が得られないという問題があった
このような問題点を解決するために、これまでに、たと
えば、森島他パ音響処理と記号処理とを融合した単語音
声認識システムの構成″信号論り。
Vol J70− D 、 Nn1O,pp1890−
4901(1987,10)及びR,De  Mori
 et al ”Use of Fuzzy Algo
riehmsfor Phonetic and Ph
one+aic Labeling of Conti
nuous 5peech″IEEE Trans、o
n PAMZ、Vol MAMI−2゜Nα2. pp
136−148 (1980)に示されているように、
あいまいな処理に向いた論理であるファジー論理を導入
した手法が提案されているが、これらは。
いずれも本探索形式の論理によっており、各論理判定が
独立できない、このために、第1の従来技術における問
題点として先に示した各処理の独立性がなく、性能改善
を系統的に積み上げて行くことが困難であるという問題
点がある。
また、第二の従来技術として示した方法は、全音韻カテ
ゴリーの中から2つづつのすべての組みを取り出し、そ
の組錘に最適な対判定処理を構成するためには、一つ一
つその性質を解明し、処理方法を決定して行かねばなら
ないため、開発の手間が膨大になるという問題点があっ
た。
また、得られた結果が正しくないと判断されたとき、処
理のやりなおしをする手順が明確でないため正しく入力
している時でも再入力が必要という問題があった。
本発明の目的の第1の目的は、音声の本来的に持つあい
まい性を考慮に入れながら、各処理の独立性を保証し、
性能改善が系統的に実現され、高性能な認識を実現する
音声認識方式を提供することにある。
また、本発明の第2の目的は、音声毎に最適な処理方式
を自動的に学習し、決定して行くことの出来る音声認識
方式を提供することにある。
本発明の第3の目的は、認識結果が誤りであったり、そ
の判定の結果、あるいは予め入力内容が予測される場合
に、予測された音声が入力されている可能性があるかど
うかを確認するための手順を与え、不必要な再入力をさ
ける手段を提供することにある。
〔課題を解決するための手段〕
上記目的は、音声の特徴抽出部をニューラル・ネットワ
ークで構成し、入力音声のカテゴリーを判定する判定部
を、対判定型の判定処理で構成し組み合せることによっ
て達成される。
なお、対判定型の判定処理は、すべての音韻の中からの
任意の二つの音韻を取りだした時に、入力がどちらの音
韻と見なす方が妥当かを判定する対判定部と、各対判定
部の結果を総合して入力が向という音韻かを判定する総
合判定部(結果集計部)から構成される。この対判定型
判定処理部では、(1)対判定部と総合判定部をファジ
ー処理で構成し、ニューラル・ネットワークで構成した
特徴抽出部の出力をメンバシップ関数とする場合、(2
)対判定部もニューラル・ネットワークで構成し、総合
判定部をファジー処理で構成する場合、(3)すべてを
ニューラル・ネットワークで構成する場合に構成するこ
とができる。
また、ここでニューラル・ネットワークとは。
等価的に並列プロセッシング・エレメントからなり、各
プロセッシング・エレメント間の結合はダイナミカルな
自己プログラミングによる、教師の有無にかかわらず自
己学習により行なわれるもの。
及び予め学習され固定化された結合によりなされている
ものの双方を含むものとする。
〔作用〕
ニューラル・ネットワークは構成階層数を増すことによ
って、原理的に任意の写像(入出力関係)を実現できる
。また、この任意の写像の具体的実現は、入力データと
対応する出力データのサンプルを与え、適当な学習アル
ゴリズムに従って学習することにより行なわれる。そこ
で、入力データとして、音声波形又は、その音声波形を
変換して得られた周波数スペクトルなどの特徴パラメー
タを、出力データとして、対判定処理に用いたい特徴の
有無(たとえばその入力音声の摩擦性の有無を1とOの
値で)与えることにより、任意の入力音声に対しその特
徴の存在の程度をあられすようなメンバシップ関数を発
生することが出来る。さらに、これらの特徴(摩擦性、
破裂性、鼻音性等等)の程度を入力とし、その音が/ 
p /と/に/のどちららしいか、といった対判定結果
を出力する対判定部を構成することが出来る。この場合
は、学習として、特徴の程度を与え、その特徴を有する
入力が/ p /なら/p/に対応する出力端子から1
を/に/に対応する出力端子にはOを与えて学習を行な
わせ、入力が/に/なら、その逆の組み合せで学習させ
れば良い。
このように構成することにより、/ p /と/に/の
対判定を行なう対判定部からは/p/らしさと/に/ら
しさを示すメンバシップ関数が出力される。他の音韻の
対に対しても同様である。
同じく、総合判定部をニューラル・ネットワークで構成
する場合は、各対判定部の出力を入力データとし、入力
された音韻名を出力データとしてニューラル・ネットワ
ークを学習することにより、最終的に入力音声が向の音
韻かを判定することが可能となる。
次に対判定部及び、又は総合判定部をファジー処理で行
なう場合について説明する。
ある原因Xによって現象yが観測された時に、両者の関
係をファジィ−関係Rであられす。
y=x、R・・・(1) 対判定部では、各対等に各特徴のメンバシップ関数から
なる観測値yから、その観測値を生成した原因である音
韻Xを逆推定することになる。これはRを決めておけば
、ファジー論理の展開で実現することが可能である。同
様に総合判定部では、各対判定部の出力である。各対の
各々の音韻らしさを観測値yとして、その観測値を生成
した原因である音韻Xを逆推定することになる。これも
、Rを決めておけば、ファジー論理の展開で実現するこ
とが可能である。
ファジー処理には、このように、ファジー論理による推
定の他に、ファジー論理を利用して同様に処理を行なう
ことも、もちろん可能である。
また、ファジー関係式(1)による逆推定により得られ
る原因XはRの決め方や、逆推定手順の選択により、複
数の解を求めることが出来る。従つて、y、識結果を一
担出力し、その結果が妥当でない場合(たとえば、日本
語としてあり得ない音韻の組み合せが生じた場合など)
は、別の解を求め再出力するなどの処理(トップ・ダウ
ン処理と呼ばれる)も可能となる。
さらに、ファジー関係式(1)の観測ベクトルyを構成
する各要素のメンバシップ関数の値を1から引いた値を
要素とする観測値y′を用いて逆推定して得られる推定
原因ベクトルX′を構成する要素の中で0に近いメンバ
シップ関数となる原因は、「その原因はないとは言えな
い」という意味を持つ(裏推定と呼ぶ)。従って、たと
えば認識結果を正解と思われる結果と対照させ、結果が
合わない場合に、裏推定を行ない、正解と思われる結果
が可能性として上って来るかどうかを確認することが可
能である。
〔実施例〕
以下、本発明の一実施例を第1図により説明する。
入力部1からのデジタル化音声13は特徴抽出部2にお
いて所定時間毎に音声の特徴を表わす特徴パターンに変
換され特徴パターンの時系列10として出力される。候
補選択部3では特徴パターンの時系列10を入力とし、
この入力の中に存在すると考えられる音声のカテゴリー
の上位候補n個(例えばn=5)が出力される。候補選
択部3で選択されたn個の候補は対生成部4へ送られ、
ここで対判定を行なう対象となる対nC2個(n=5の
とき、ncz =10)を生成し対判定部5へ送る。対
判定部5では対生成部4から送られたnCz個の対のそ
れぞれについて対判定を行なうが、ここでは1つの対に
ついての動作のみを説明する。いま与えられた音声のカ
テゴリーがa、bの2つであったとすると、対判定部5
ではaとbを識別するための手掛りとなる音素特有の特
徴(例えば、破裂性、摩擦性、バスバ等)が入力された
特徴パターンの時系列中に存在するか否かを調査する処
理を行なう。
この処理に関しては、各音素特有の特徴(以下音響キュ
ーと呼ぶ)のそれぞれについて、その名称と処理の手順
を予じめ第1の格納部6に格納しておく。また各カテゴ
リーの対毎にその対の識別のために行なう前記処理の名
称と、その処理結果の解釈のしかた(変換表)を第2の
格納部7の中に格納しておく。
a、bの対が与えられると、まず、第2の格納部7の内
容を参照し、a、bの対の識別のためには特徴パターン
の時系列に対して何という名称の処理を施せばよいのか
を調べる。ここで求められた名称の処理の手順は第1の
格納部6に格納されているので、これを参照して処理を
実行する。処理結果に基づいて入力音声がaであるか、
bであるかの判定を下さねばならないが、この判定は第
2の格納部7に予じめ格納されている処理結果の解釈の
仕方に基づいて行なう0以上によりa、bの対に関する
対判定が完了するが、残りの全ての対に関しても同様の
手順で対判定を行なう、かくして、nCz個の対判定結
果11が対判定部5から得られ、この結果11が結果集
計部8で集計され、この集計に基づいてn個の候補の順
位付けが行なわれ、最終結果12として出力される。
入力部1はマイクロフォン、アナログ・ランプ。
アナログ・デジタに変換器等から構成されている通常の
ものであり、特に説明を要しないであろう。
特徴抽出部2としては、フィルタバンク分析、線形予測
分析(LPG)等が考えられるが1本実施例ではフィル
タバンク分析を用いることとし、第5図にその具体的実
施例を示す。入力音声X。
は中心周波数と帯域幅の違う複数個のBPF群2上21
2に入力される6本実施例では周波数分解能を上げるた
めに2段のBPF構成としている。
BPF21,22は2次のバターワース型フィルタとな
っており、加算器2個1乗算器4個と遅延器2個から構
成されている。BPF結果の波形は絶対値変換器(AB
S)23にて整流され、LPF24、サンプリング器2
5、さらにLPF26にて高域周波数成分をカットされ
ながら出力値パタンx1が求められる。LPFはBPF
同様に周波数分解能をあげるために2段構成となってお
り、LPF24,26はBPF同様の処理規模のバター
ワース型となっている。尚、LPFの構成については特
願昭55−135981 rディジタル低域通過濾波回
路」に詳細に説明されている。
フィルタ・バンクは本実施例では、100 Hzから6
 K Hzまでの帯域を対数間隔で配置した16チヤネ
ルで構成したものを用いる。帯域や各フィルタの配置方
法については、様々な変形が可能なことは言うまでもな
い。
次に候補選択部3について説明する。
候補選択部としては、いくつかの方法が考えられるが、
本実施例では従来から用いられているテンプレートマツ
チングを用いることとし、テンプレートマツチングで得
られた上位候補(距離値の小さい方からn個の候補)を
出力することとする。
テンプレートマツチングの具体的実現には文献「音声認
識に適用した最小予測誤差原理(Minimum Pr
ediction Re5idual Pr1ncip
leApplied to 5peech Recog
nition) J by F。
Itakura et al、 IEEE Trans
 on Acoustfcs。
5peech and Signal Process
ing、vol、As5P −23。
p、p、57〜72. Feb、’ 75に記載の方法
を用いればよい。ただし、本文献では距離尺度として尤
度比を用いているが、本実施例では距離尺度を特徴パタ
ーン(スペクトル)間のニーグリッド距離とすればよい
対生成部4は候補選択部3から得られたn個の候補につ
いて考え得る全ての2つの組合せncz個を生成する。
これは単純な組合せ演算でありソフトウェアで簡単に実
現できる。第6図にその具体的フローを示す。図では候
補として挙げられたn個の音声のカテゴリーをCL、C
2,・・・Cnと表わしている。本フローに従って、音
声のカテゴリーの対が(CI、 C2) +  (Ct
+ Cs) e −(Ct+Cn)=  (C2,Ca
) −CCn−5,Cn)という順で計nCz個生成さ
れる。
次に対判定部5の具体的構成を第4図を用いて説明する
デジタル化された音声13はフィルタ・バンク2により
周波数分析され、その16チヤネルの出力10−1〜1
0−16は対判定部5に入力される。対判定部S内では
、入力されたフィルタ・バンク2の出力は音響キュー抽
出プロセツザ群41に加えられる。音響キュー抽出プロ
セッサは音声の各音韻の特徴を表現する様々なキューを
抽出するものであり、本実施例では第5図に示すような
20種類のものを用いた。もちろん、キューの種類はこ
の他にも考えられるし、また、このすべてを使う必要は
なく、要求性能や対象とする言語等により様々な組み合
せがありうることは言までもない。
また、この音響キュープロセッサの出力を特徴として候
補選択部3の入力に用いても良いことも言うまでもない
各音響キュープロセッサ41等の出力は、換算部42等
を経て、対判定処理部群43−1〜43−nに加えられ
る。各対判定処理部43は。
入力音声が音韻対aiとbiのどちらの可能性が高いか
を判定処理するものであり、対の種類だけ用意される。
換算部42は、第1図の第2の格納部7中に換算表の形
式で記録されているものであり、音響キュープロセッサ
の出力結果を、各対判定処理部43の各々の判定に最適
なように値を変換するためのものである。
もちろん、音響キュープロセッサを各対判定処理部に最
適なように、各々に専用のものを用意すれば、換算部4
1等は不要であるし、また、各対判定処理部の判定性能
を若干落すことにすれば、換算部42等を省略すること
も可能などの変形がありうることは言うまでもない、各
対判定処理部43等の出力11−a、11−b、−−,
11−am、11−b、は結果集計部8(第1図参照)
に入力される。
次に音響キュープロセッサの構成について、より詳しく
説明する。第5図の備考に示したaからeまでの記号は
、音響キューの性能を分類したものである。aは定常的
性質をもつもの(タイプ1)でありs bHQp aは
一定の時間幅内での時間的変化に特徴のあるもの(タイ
プ2)であって、bは過度遷移的なもの、Cは不連続性
に特徴のあるもの、dはある一時点の特性に特徴のある
ものである。eは時間的順序関係に特徴のあるもの(タ
イプ3)である。本実施例では、この3つのタイプにも
とすいて、音響キュープロセッサの構造を分類し、それ
ぞれにふされしい基体構造をもつニューラル・ネットワ
ークにより構成した。もちろん、タイプが共通であって
も、抽出する音響キューが異なるから、それぞれにふさ
れしい値を出すように各ネットワークは独立に学習され
るため、特性が異なることは言うまでもない。
タイプ1の音響キュープロセッサは第6図に示すような
階層型のニューラル・ネットワークで構成した。入力理
工と出力層Oの間に隠れ層を二層持っている。階層型の
ニューラル・ネットワークについては、たとえば、D、
E、ルーメルハート等の著書[パラレル デイストリビ
ューテッドプロセッシング“MITプレス(D、E、R
ume Q hartet an 、 ”Parall
eQDistributed Processing”
M I T Press、Cambridge、(19
86))などに学習法も含め詳しく述へられている。入
力ユニット■1と隠れ第1層のユニットHsi間の結合
重みをW I J I r隠れ第1層の各ユニットHI
Jと第2Mの各ユニットH1h間の結合重みをW!kJ
 +隠れ第2層の各ユニットH2にと出力層のユニット
Oとの結合重みをWekとする。また各層の各ユニット
の出力Oを次のように構成した。
○I J = I t ・・・(2) ただし、””Oy J=O,に==Qは第6図の各層の
右端にある定数1を入力とするユニットを意味し、各ユ
ニットの域値が各々W1,0. W2kOyW30とし
て等測的に得られるように構成しである。
このような音響キュー抽出プロセッサは、たとえば摩擦
性を検出するよう学習されていると、摩擦音が入力され
ると、出力から1または、1に近い値が出力され、それ
以外の入力に対してはO又は0に近い値が出力される。
次に学習手順について説明する。学習は予め別途同様の
構造を持つニューラル・ネットワークを計算機上等で構
成し、学習後重み係数を取り出し対応する音響キュープ
ロセッサに入れても良いし、以下に述べるような学習手
順が可能なような構成を装置内に設けておいても良い。
この構成自体は当業者には極めて簡単に実現できるが、
一般にニューラル・ネットワークの学習には処理時間や
大量のデータを用意して、そのデータを入力して学習さ
せる必要があるため、装置毎に用意するよりも、前述の
ように、別途計算機システム上に構成しておいた方が経
済的である。しかし、基本部分は予め別途学習しておく
にしても、話者に適用させて特性を修飾させる機能を持
たせたい場合は、学習用の機能も装置上に実現しておく
ことが必要である(もちろん、この学習機能も装置の音
響キュープロセットと同一部分を用いず、装置の制用に
用いる汎用プロセッサ上とソフトウェアで実現し、学習
後、各音響キュープロセッサにダウン・ロードするよう
な構成にした方がより一般的で望ましい)。
学習の一般的手順は先述のy−xにハルトの文献の第−
巻8章318−362頁に詳しく記述されている。本実
施例でも、この手順を参考に、本目的に合致するよう考
案したものである6以下説明を簡単にするために、−殺
性を失なうことなく(3)〜(5)に示した各層のユニ
ットの特性を持回−とし、 Ip、q=Σvip−xeq、r−Op−xrr   
    −(6)Op、q= f  (I p、q) 
            ・・・(7)とする。ここに
pは入力からの層番号(p ” 1 *2.3.4)、
qは第2層の、rは第p−1層のユニット番号をあられ
すものとする。またTOを学習目樺値とする。
ここで、学習音声を大量に用意し、フィルターバンク2
(第4図参照)を通した出力を10ミリ秒毎に取り出し
、その毎々に、たとえば目視によって第5図に示した各
音声キューの特徴の有無を付して行く。今、たとえば3
番目の摩擦性を検出する音響キュープロセッサを学習さ
せる場合は、このようにして用意した音声を用いて、同
プロセッサの入力からフィルタ・バンク2の出力を加え
、出力側から学習目標値Toとして、摩擦性のものであ
ればrlJを、その他であればrOJを提示して行く。
各ユニットの入力信号による出力と学習目標から与えら
れる目標値との間の誤差をδとすると、前記文献に従う
と、各誤差δは次のように求められる。
出力層 δ4.0=(To−○o)f’ (Ia、o)
    −(8)第3層 δ3.q= f ’ (I 
3.q)・δ4.OW3.O,q  ・−(9)以下入
力層まで同様に誤差δが求められる。この誤差を用いて
、各結合部の重みの修正量ΔWは次のように求められる
ΔVI P−1+ % ! r =α・δ−2呵・Op
−11r   ”・(10)αは実験的に収束速度等を
調べ設定してやれば良い。他の音響キュープロセッサも
、各キュー毎に同様に学習させることによって、各キュ
ーの特徴の有無を[:0.11の範囲の値として出力す
るものとして構成される。その特徴を完全に持つ場合は
1の値を、全くない場合はOの値を出力し、その他の場
合は、その程度によって、その中間の値を出力する。
タイプ2の音響キュープロセッサとタイプ3の音響プロ
セッサは各々第7図と第8図に示すような構成の階層型
のニューラル・ネットワークとした。
タイプ2とタイプ1の相異点は、ニューラル・ネットワ
ークの各層の構成が見掛上二次元配列になっている点で
ある。この二次元配列を第7図ではわかりやすくするた
めに簡単に平面で表現しているが、この各平面内にユニ
ットが二次元的に配列されている。各層間の接続は、各
層内のユニットを端から値に番号をつけ、その順に一列
に並べなおすと、タイプ1の場合と同じになる。従って
層間の処理や学習手順はタイプ1と同じである。
両者の相異点は、入力層へのデータ入力が異なっている
点にある。すなわち、第7図において、斜め方向の16
個のユニットはフィルタ・バンク2の出力と直接つなが
っており、横方向には、同じくフィルタ・バンクの出力
の10ミリ秒前、20ミリ秒前、・・・、40ミリ秒前
のデータが入力されるよう構成されている点にある。従
って、フィルタ・バンクの各チャネルの出力は5段から
なるシフト・レジスタに接続され、各レジスタの出力が
、第1層のユニットの入力となるよう構成されている。
しかし、ニューラル・ネットワーク内の接続はすべて平
等に結合されており、結合の程度は学習によって決るか
ら、40ミリ秒前までのフィルタ・バンクのすべての出
力16xs=soデータが入力されると見れば、ニュー
ラル・ネットワークとしてはタイプ1と本質的に同一の
構造であることが理解されよう。
タイプ3は、入力データの構造はタイプ2と類似してい
るが、ニューラル・ネットワーク内の結合に制約を設け
である点に相点がある。第8図はこの差異がわかるよう
に、フィルタ・バンク出力の特定の1チヤネルの出力の
部分の断面を取り出して、かつその一部を記したもので
ある。即ち。
第7図のものが奥行き方向に16チヤネル分あり2次元
的配置になっている6タイプ2との相異点は1層間の接
続に制約が設けられている。たとえばH12ユニットは
工1とは接続されておらず、I2〜IISに接続されて
いる。H2SはIt、Izとは接続されておらず、■3
〜Isと接続されている。
11+I!+・・・、はフィルタ・バンクのあるチャネ
ルの出力を10ミリ秒毎にシフトしたものであるから、
時間的にずれた一部のデータのみが上位の層に結合され
ていることになる。この点を除けば、タイプ3もタイプ
1やタイプ2と全く同様である。
学習に際しては、(10)式の結果のいかんにかかわら
ず、結合しないユニット間の結合は常にOとしておくこ
とを除けば、学習手順等は全く同様に実現することが出
来る。なお、タイプ2とタイプ3の説明図には各ユニッ
トの域値を自動学習するための定数ユニットの表示も省
略しであるが、タイプ1と同様に構成しておくことが出
来る点も言うまでもないことであろう。
次に、説明の都合上、対判定処理部43の説明を換算部
42に先立って行なう。
対判定処理部43は、音響キュープロセッサ群の出力を
用いて、入力された音声が、aiとbiの二つの音韻、
たとえば/p/と/に/のどちらかと仮定した場合、そ
れぞれ、どの程度その音韻らしいかを判定するものであ
る。どの音響キューを用いるかの情報は第1図に示した
第1の格納部6に格納されている。従って、認識しよう
としている言語の音声に含まれる音韻の種類がN種の場
合、その全ての2つの組み合せn=Ncx個の対判定処
理部を考えることになる。担し、現実にほとんど誤りの
生じない音韻の組み合せや、出@頻度が非常に少なく、
誤りが生じても実害の非常に小さい音韻を含む対につい
ては、省略しても良いことは言うまでもなかろう。
本実施例では音響キュープロセッサの出力は[0,1]
の範囲の値を取るように設定されているから、これを第
(3)式の観測ベクトルyを構成するメンバシップ関数
群と兄なし、二つの音韻aiとbiの可能性の程度をフ
ァジー関係Rによって推定するよう、対判定処理部43
を構成した。
第1図の第1の格納部6内の情報に従がい、どの音響キ
ュープロセッサj (複数)の出力を用いるかを知り、
(第4図のように結線で予め結んでおいても良い)、使
用する音響キューの出力μjを先ず得る。第2の格納部
7中にある第9図に概念的に示したような換算部42の
表値に従がい、音韻ai及びbiらしさを示す値μJ、
a1及びμJ・blの値を使用する音響キューのすべて
に対し取り込み、音韻aiとbiの各々に対して、ファ
ジー論理和を求め、その値を各々音韻aiとbiの対判
定結果μm1とμJ1として出力する。この値は第10
図の表の対象位置に示す関係の位置に格納される。ファ
ジー論理和は、関係するメンバシップ関数の中の最大値
を取る処理であり、本実施例では、関係する幾つかの音
響キューの内の最つども硲からしいものを選択する方式
によっている。
このようにして、すべての音韻の対を調べると第10図
のようなメンバシップ関数の二次元の表を得ることがで
きる。このような値が対判定部5の出力となる。木表で
、たとえばμptとは、入力を音韻/ p /か/1/
かと仮定した場合に、音韻/p/と思われる程度をあら
れすメンバシップ関数値である。
次に第1図に示した。結果集計部(総合判定部)8の説
明を行なう。
結果集計部8では、第10図に示すような値から、入力
音韻はどれが最つともらしいかを判定する処理を行なう
。本実施例では、ファジー論理積により、各音韻毎のも
つちらしさと定義し、その最大値をもって、入力音韻の
推定を行なう。n番目に大きい値を与えるカテゴリー(
音韻)をもって第0位の認識結果と見なす。ファジー論
理積とは、メンバシップ関数の最小値を求める処理と同
じであり、この処理を行なうことによって、対毎の判定
で、最悪でもこの音韻である程度はこの値であるという
値を選ぶことになる。
以上説明したように、本実施例では、対判定処理部43
と結果集計部8の処理は極く簡単な演算で良く、簡単な
ソフト処理で対応することが可能である。
次に、第2の実施例を説明しよう。第2の実施例は全体
の構造は第1の実施例と同じであるが、第1の実施例の
第4図に示した対判定処理部43を、ファジー処理の代
りにニューラル・ネットワークで構成したものである。
このニューラル・ネットワークを第11図に示す。音響
キュープロセッサ群41等、あるいは換算部42等から
の出力を入力層111−1〜111−nに入力すると、
出力層のユニット114−1と114−2より対判定出
力(第4図の1l−ai、1l−biに相当)を出力す
るように構成した。ニューラル・ネットワークの基本構
造は第6図の場合と全く同じであり、出力層が対判定性
能に対応して二つのユニットで構成されている点が異な
っている。学習時に、学習入力として音韻aiを入力し
た場合は、ai側の出力層ユニットの学習目標値Tat
を1に、他の出力ユニットの学習目標値をOに、逆に学
習入力音韻がbiのときは、その逆となるように設定し
、ai、biのいずれでもよい入力に対しては、両方と
もOの値を設定し、第6図のニューラル・ネットワーク
を学習した場合と同じように学習させてやれば良い。入
力音韻が最つども良く一致した場合は、一致した側の出
力から1に近い値が、一致しない場合は0に近い値が出
力されるよう学習される。
第12図は第3の実施例を説明する図である。
本実施例の場合も基体的全体構成は第1の実施例と同じ
であるが、第1図の結果集計部8をニューラル・ネット
ワークで構成した点が異なる。本実施例のニューラル・
ネットワークは、第12図に示すごとく、見掛上各層は
二次元となっており。
出力層124は音韻の数だけのユニットからなる。
入力層121の各ユニットへは第4図の対判定部からの
出力である第10図に示すような二次元状のデータが入
力されるが、第2層の各ユニットとすべて結合されてい
るため1本質的には第1図の第1層と同じく一次元デー
タと見なすことができる。第2.第3層も同様に本質的
に一次元構造である。学習に際しては、入力音声の対判
定結果を入力層121の各ユニットに入力し、入力した
音声の音韻に相当する出力層124のユニットの学習目
標値を1に、その他のユニットをOとして。
第6図のニューラル・ネットを学習した場合と同様の手
順で結合の重みを学習させれば良い。学習が完了すると
、音声が入力されると、入力音声の音韻と推定される出
力ユニットの出力はど1に近い値が出力されることにな
る。1に近い方からのn番目に大きい値を与えるユニッ
トに対応するカテゴリー名を持って第n位の認識結果と
見なすことが出来る。
〔発明の効果〕
本発明は1以上に説明したように構成されているので以
下に記載されるような効果を奏する。
ニューラル・ネットワークによる処理およびまたはファ
ジー処理を用いているので、音声の本発明に持っている
あいまいさに柔軟に対応でき、高い!!識性態を得るこ
とができる。また、これらの処理を対判定型の論理構成
で用いているので、誤りが生じた場合の原因の発見や対
策が容易で、性能面改善をつみ上げて行くことが容易で
ある。また、ニューラル・ネットワークの自動学習機能
を活用しているため、カテゴリー毎に適した処理方式が
自動的に設定されるため、高い認識性能が得られる。さ
らに、各部分を予め構造的に分割し構成されているため
、各部の構成・学習が安定かつ容易に行なわれ、大規模
なニューラル・ネット方式が持つ学習の困難さをさける
ことが可能となっている。
【図面の簡単な説明】
第1図は本発明の一実施例の全体構成を説明する図、第
2図は音声分析部の一実施例を説明する図、第3図は同
じく対生成部の動作を説明する図、第4図は対判定部を
説明する構成図、第5図は音声の特徴である音響キュー
としての例を示す図、第6図、第7図、第8図は音響キ
ュープロセッサを実現する三つのタイプのニューラル・
ネットワークを説明する図、第9図は音響キュープロセ
ッサ出力を対判定部で用いる際の選択方法の説明図。 第10図は対判定部の出力の構造を説明する図。 第11図は第2の実施例において、対判定部をニューラ
ル・ネットワークで構成する場合の説明図、第12図は
第3の実施例において、総合判定部をニューラル・ネッ
トワークで構成する場合の説明図である。 第 図 矯 区 扇 図

Claims (1)

  1. 【特許請求の範囲】 1、少なくとも、入力音声の分析部、特徴抽出部、入力
    音声のカテゴリーの判定部を有し、前記特徴抽出部がニ
    ューラル・ネットワークで構成されていることを特徴と
    する音声認識方式及び装置。 2、前記判定部は複数個の対判定処理部と前記複数個の
    対判定部の結果を集計し総合的に入力カテゴリーがなに
    かを判定する総合判定部よりなることを特徴とする特許
    請求の範囲1の音声認識装置。 3、前記対判定部がフアジー処理により行なわせること
    を特徴とする特許請求の範囲第2項の音声認識装置。 4、前記対判定部がニューラル・ネットワークにより構
    成されていることを特徴とする特許請求の範囲第2項の
    音声認識装置。 5、前記総合判定部がフアジー処理により行なわれるこ
    とを特徴とする特許請求の範囲第3項の音声認識装置。 6、前記総合判定部がフアジー処理により行なわれるこ
    とを特徴とする特許請求の範囲第4項の音声認識装置。 7、前記複数個の対判定部の入力信号を出力する前記特
    徴抽出部が前記複数個の対判定部に対し共通となつてい
    ることを特徴とする特許請求の範囲第4項の音声認識装
    置。 8、前記複数個の対判定部に適した出力値に前記特徴抽
    出部の出力値を換算する手段を有することを特徴とする
    特許請求の範囲第7項の音声認識装置。 9、前記総合判定部がニューラル・ネットワークにより
    構成されていることを特徴とする特許請求の範囲第4項
    の音声認識装置。 10、前記特徴抽出部、複数個の対判定部、総合判定部
    を構成するニューラル・ネットワークが各各個別に構成
    されていることを特徴とする特許請求の範囲第9項の音
    声認識装置。 11、複数個の入力ユニットと一つの出力ユニットを有
    し、その間に複数層の隠れ層を有し、出力ユニットの出
    力値の範囲が0から1の間の値を取ることを特徴とする
    ニューラル・ネットワーク。 12、入力信号が複数種類からなり、各種類の入力信号
    はさらに時間的に複数時点の信号からなるような入力ユ
    ニットと一つの出力ユニットを有し、その間に複数層の
    隠れ層を有し、出力ユニットの出力値の範囲が0から1
    の間の値を取ることを特徴とするニューラル・ネットワ
    ーク。 13、入力信号が複数種類からなり、各種類の入力信号
    は、さらに時間的に複数時点の信号からなるような入力
    ユニットと一つの出力ユニットを有し、その間に複数層
    の隠れ層を有し、層間の結合の一部が結合を禁止されて
    いることを特徴とするニューラル・ネットワーク。 14、出力信号の出力値の範囲が0から1の間の値を取
    ることを特徴とする特許請求の範囲第13項のニューラ
    ル・ネットワーク。 15、複数個の入力ユニットと2つの出力ユニットを有
    し、その間に複数層の隠れ層を有し、二つの出力ユニッ
    トの出力値の範囲が0から1の間の値を取ることを特徴
    とするニューラル・ネットワーク。 16、分析部を特徴抽出部が兼ねていることを特徴とす
    る特許請求の範囲第1項の音声認識装置。 17、学習用音声又はそれを分析した結果を入力層に加
    え、該学習用音声の持つ性質が、所期の性質を有すると
    きには値1を、その他の性質の場合は0を学習目標値と
    して出力ユニットに与えることを特徴とする音声特徴抽
    出部に用いるニューラル・ネットワークの学習方法。 18、学習用音声又はそれを分析した結果又はその特徴
    を入力層に加え、該学習用音声が所期の第1のカテゴリ
    ーの音声の場合は第1の出力ユニットの学習目標値とし
    て1を、第2の出力ユニットの学習目標値として0を、
    該学習用音声が所期の第2のカテゴリーの音声の場合は
    、第1の出力ユニットの学習目標値として0を、第2の
    出力ユニットの学習目標値として1を、該学習用音声が
    所期の第1及び第2のいずれのカテゴリーに属さない場
    合は、第1及び第2の双方の出力ユニットの学習目標値
    を共に0とすることを特徴とする対判定部に用いるニュ
    ーラル・ネットワークの学習方法。 19、学習用音声より得た複数種類の対判定部の出力結
    果を入力ユニットに加え、該学習用音声のカテゴリーに
    対応する出力ユニットの学習目標値として1又はそれに
    相当する値を、その他の出力ユニットの学習目標値に0
    又はそれに相当する値を用いることを特徴とする総合判
    定部に用いるニューラル・ネットワークの学習方法。 20、メンバシップ関数と見なせるよう変換された特徴
    抽出部の複数個の出力の最大値を出力値とする特許請求
    の範囲第3項の対判定部用フアジー処理方法。 21、複数個の対判定部の出力からなる入力から音声カ
    テゴリー毎に最小値を取り、その最小値間での最大値を
    与えるカテゴリー名とその時の値を出力とする特許請求
    の範囲第6項の総合判定部用フアジー処理方法。 22、n番目に大きい出力フアジー値を与えるカテゴリ
    ー名をもつて、第n位の認識結果とする特許請求の範囲
    第6項の音声認識装置。 23、n番目に大きい出力値を与えるユニットに対応す
    るカテゴリー名を持つて、第n位の認識結果とする特許
    請求の範囲第9項の音声認識装置。
JP63222313A 1988-09-07 1988-09-07 音声認識装置 Expired - Fee Related JP2764277B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP63222313A JP2764277B2 (ja) 1988-09-07 1988-09-07 音声認識装置
US07/400,342 US5040215A (en) 1988-09-07 1989-08-30 Speech recognition apparatus using neural network and fuzzy logic
US07/727,089 US5179624A (en) 1988-09-07 1991-07-09 Speech recognition apparatus using neural network and fuzzy logic

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63222313A JP2764277B2 (ja) 1988-09-07 1988-09-07 音声認識装置

Publications (2)

Publication Number Publication Date
JPH0272397A true JPH0272397A (ja) 1990-03-12
JP2764277B2 JP2764277B2 (ja) 1998-06-11

Family

ID=16780404

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63222313A Expired - Fee Related JP2764277B2 (ja) 1988-09-07 1988-09-07 音声認識装置

Country Status (2)

Country Link
US (1) US5040215A (ja)
JP (1) JP2764277B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04267300A (ja) * 1991-02-22 1992-09-22 A T R Jido Honyaku Denwa Kenkyusho:Kk 雑音除去と話者適応の機能を有する音声認識装置

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5228087A (en) * 1989-04-12 1993-07-13 Smiths Industries Public Limited Company Speech recognition apparatus and methods
US5278911A (en) * 1989-05-18 1994-01-11 Smiths Industries Public Limited Company Speech recognition using a neural net
JP2664782B2 (ja) * 1989-10-09 1997-10-22 株式会社東芝 エレベータの群管理制御装置
JP2573715B2 (ja) * 1990-03-28 1997-01-22 三菱電機株式会社 エレベータ制御装置
US5630018A (en) * 1990-04-09 1997-05-13 Matsushita Electric Industrial Co., Ltd. Fuzzy inference device using neural network
JPH085596B2 (ja) * 1990-05-24 1996-01-24 三菱電機株式会社 エレベータ制御装置
US5529147A (en) * 1990-06-19 1996-06-25 Mitsubishi Denki Kabushiki Kaisha Apparatus for controlling elevator cars based on car delay
JP2760145B2 (ja) * 1990-09-26 1998-05-28 三菱電機株式会社 知識情報処理装置
IT1244912B (it) * 1991-01-31 1994-09-13 Texas Instruments Italia Spa Sistema di apprendimento per rete neuronica di opportuna architettura fisicamente inseribile nel processo di apprendimento.
ATE159374T1 (de) * 1991-07-25 1997-11-15 Siemens Ag Oesterreich Verfahren und anordnung zum erkennen von einzelwörtern gesprochener sprache
US5388183A (en) * 1991-09-30 1995-02-07 Kurzwell Applied Intelligence, Inc. Speech recognition providing multiple outputs
US5402520A (en) * 1992-03-06 1995-03-28 Schnitta; Bonnie S. Neural network method and apparatus for retrieving signals embedded in noise and analyzing the retrieved signals
FR2689292A1 (fr) * 1992-03-27 1993-10-01 Lorraine Laminage Procédé et système de reconnaissance vocale à réseau neuronal.
US5787393A (en) * 1992-03-30 1998-07-28 Seiko Epson Corporation Speech recognition apparatus using neural network, and learning method therefor
WO1993025005A1 (en) * 1992-05-22 1993-12-09 Indiana University Foundation Area-efficient implication circuits for very dense lukasiewicz logic arrays
TW223721B (ja) * 1992-06-18 1994-05-11 Telefonaktiebolager Lm Ericsson
JP3168779B2 (ja) * 1992-08-06 2001-05-21 セイコーエプソン株式会社 音声認識装置及び方法
JPH06110696A (ja) * 1992-09-29 1994-04-22 Nippon Motorola Ltd ファジイ推論のグレード演算回路
DE69427083T2 (de) * 1993-07-13 2001-12-06 Theodore Austin Bordeaux Spracherkennungssystem für mehrere sprachen
CH686752A8 (de) * 1993-09-22 1996-08-15 Ascom Tech Ag Berner Technopark Verfahren zum Beurteilen der Übertragungsqualität einer Sprach-Übertragungsstrecke
US5832140A (en) * 1993-12-14 1998-11-03 Staplevision Inc. Automated quality assurance image processing system
JPH09506730A (ja) * 1993-12-17 1997-06-30 クインテット、インコーポレイテッド 自動署名検証の方法
US5619616A (en) * 1994-04-25 1997-04-08 Minnesota Mining And Manufacturing Company Vehicle classification system using a passive audio input to a neural network
DK0681411T3 (da) * 1994-05-06 2003-05-19 Siemens Audiologische Technik Programmerbart høreapparat
WO1995034884A1 (fr) * 1994-06-13 1995-12-21 Matsushita Electric Industrial Co., Ltd. Analyseur de signaux
US5745649A (en) * 1994-07-07 1998-04-28 Nynex Science & Technology Corporation Automated speech recognition using a plurality of different multilayer perception structures to model a plurality of distinct phoneme categories
EP0712261A1 (de) * 1994-11-10 1996-05-15 Siemens Audiologische Technik GmbH Programmierbares Hörgerät
US5737485A (en) * 1995-03-07 1998-04-07 Rutgers The State University Of New Jersey Method and apparatus including microphone arrays and neural networks for speech/speaker recognition systems
US5867813A (en) * 1995-05-01 1999-02-02 Ascom Infrasys Ag. Method and apparatus for automatically and reproducibly rating the transmission quality of a speech transmission system
US6151592A (en) * 1995-06-07 2000-11-21 Seiko Epson Corporation Recognition apparatus using neural network, and learning method therefor
JP3697748B2 (ja) * 1995-08-21 2005-09-21 セイコーエプソン株式会社 端末、音声認識装置
US5956409A (en) * 1996-04-29 1999-09-21 Quintet, Inc. Secure application of seals
US5884294A (en) * 1997-04-18 1999-03-16 Northrop Grumman Corporation System and method for functional recognition of emitters
EP0917069B1 (en) * 1997-11-18 2004-10-13 STMicroelectronics S.r.l. Fuzzy logic method for an indirect measure of a physical signal to be monitored, and corresponding measuring device
US6304865B1 (en) 1998-10-27 2001-10-16 Dell U.S.A., L.P. Audio diagnostic system and method using frequency spectrum and neural network
WO2003017252A1 (de) * 2001-08-13 2003-02-27 Knittel, Jochen Verfahren und vorrichtung zum erkennen einer phonetischen lautfolge oder zeichenfolge
US9015093B1 (en) 2010-10-26 2015-04-21 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US8775341B1 (en) 2010-10-26 2014-07-08 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US11507807B2 (en) * 2016-09-27 2022-11-22 Panasonic Intellectual Property Management Co., Ltd. Audio signal processing device, audio signal processing method, and control program
CN108288468B (zh) * 2017-06-29 2019-07-19 腾讯科技(深圳)有限公司 语音识别方法及装置
RU2731334C1 (ru) 2019-03-25 2020-09-01 Общество С Ограниченной Ответственностью «Яндекс» Способ и система для формирования текстового представления фрагмента устной речи пользователя

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS604999A (ja) * 1983-06-24 1985-01-11 株式会社日立製作所 音声認識方法
JPS63183499A (ja) * 1987-01-27 1988-07-28 日本電気株式会社 音声認識装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3287649A (en) * 1963-09-09 1966-11-22 Research Corp Audio signal pattern perception device
US3610831A (en) * 1969-05-26 1971-10-05 Listening Inc Speech recognition apparatus
JPS5844500A (ja) * 1981-09-11 1983-03-15 シャープ株式会社 音声認識方式
US4712243A (en) * 1983-05-09 1987-12-08 Casio Computer Co., Ltd. Speech recognition apparatus
JPS59216284A (ja) * 1983-05-23 1984-12-06 Matsushita Electric Ind Co Ltd パタ−ン認識装置
US4805225A (en) * 1986-11-06 1989-02-14 The Research Foundation Of The State University Of New York Pattern recognition method and apparatus
US4876731A (en) * 1988-02-19 1989-10-24 Nynex Corporation Neural network model in pattern recognition using probabilistic contextual information

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS604999A (ja) * 1983-06-24 1985-01-11 株式会社日立製作所 音声認識方法
JPS63183499A (ja) * 1987-01-27 1988-07-28 日本電気株式会社 音声認識装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04267300A (ja) * 1991-02-22 1992-09-22 A T R Jido Honyaku Denwa Kenkyusho:Kk 雑音除去と話者適応の機能を有する音声認識装置

Also Published As

Publication number Publication date
US5040215A (en) 1991-08-13
JP2764277B2 (ja) 1998-06-11

Similar Documents

Publication Publication Date Title
JPH0272397A (ja) 音声認識装置
Becker et al. Interpreting and explaining deep neural networks for classification of audio signals
Qin et al. The INTERSPEECH 2020 far-field speaker verification challenge
US4489435A (en) Method and apparatus for continuous word string recognition
US4481593A (en) Continuous speech recognition
US5179624A (en) Speech recognition apparatus using neural network and fuzzy logic
CN108986798B (zh) 语音数据的处理方法、装置及设备
CN110675891A (zh) 一种基于多层注意力机制的语音分离方法、模块
Principi et al. Acoustic template-matching for automatic emergency state detection: An ELM based algorithm
Shaikh Naziya et al. Speech recognition system—a review
Trinh et al. Directly comparing the listening strategies of humans and machines
Sen et al. A convolutional neural network based approach to recognize bangla spoken digits from speech signal
Agrawal et al. A review on speech separation in cocktail party environment: challenges and approaches
Jakubec et al. Deep speaker embeddings for Speaker Verification: Review and experimental comparison
Li et al. Dual-path modeling with memory embedding model for continuous speech separation
Neelima et al. Mimicry voice detection using convolutional neural networks
Sklyar et al. Separator-transducer-segmenter: Streaming recognition and segmentation of multi-party speech
Zhao et al. Deep neural networks for cochannel speaker identification
Radha et al. Speech and speaker recognition using raw waveform modeling for adult and children’s speech: a comprehensive review
CN111862956A (zh) 一种数据处理方法、装置、设备及存储介质
Choi et al. Learning to Maximize Speech Quality Directly Using MOS Prediction for Neural Text-to-Speech
Agrawal et al. Comparison of Unsupervised Modulation Filter Learning Methods for ASR.
CN113763992A (zh) 语音测评方法、装置、计算机设备和存储介质
Harere et al. Mispronunciation detection of basic quranic recitation rules using deep learning
JPS58223193A (ja) 多数単語音声認識方式

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees