JPH07502126A - 入力音声の個別単語の認識方法及び装置 - Google Patents

入力音声の個別単語の認識方法及び装置

Info

Publication number
JPH07502126A
JPH07502126A JP5502468A JP50246893A JPH07502126A JP H07502126 A JPH07502126 A JP H07502126A JP 5502468 A JP5502468 A JP 5502468A JP 50246893 A JP50246893 A JP 50246893A JP H07502126 A JPH07502126 A JP H07502126A
Authority
JP
Japan
Prior art keywords
input
individual words
plane
correlogram
neuron
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP5502468A
Other languages
English (en)
Other versions
JP3274133B2 (ja
Inventor
チルク,ヴォルフガング
Original Assignee
ジーメンス アクチエンゲゼルシャフト エスターライヒ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ジーメンス アクチエンゲゼルシャフト エスターライヒ filed Critical ジーメンス アクチエンゲゼルシャフト エスターライヒ
Publication of JPH07502126A publication Critical patent/JPH07502126A/ja
Application granted granted Critical
Publication of JP3274133B2 publication Critical patent/JP3274133B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Image Analysis (AREA)
  • Navigation (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるため要約のデータは記録されません。

Description

【発明の詳細な説明】 入力音声の個別単語の認識方法及び装置本発明は入力音声の別単語の認識方法及 び該方法を実施する装置に関する。
、しかも最も困難な領域に属する。音声認識の多数の適用例があり、例えばテキ スト処理システム(音声タイプライタ)におけるキーボード入力に代っての音声 入力、情報呼出又は電話を介しての発注、並びにタイブライタンステムの音声制 御の適用例がある。音声認識システムの広汎な導入は従来、技術的に且つ心理学 的な多数の未解決の問題に当たっては失敗している。
音声認識はパターン認識タスク(作業)である。音声入力された表現内容(音声 音量−単語−文章等)は当該の意味を認識ないし了解すべき入カバターンを形成 する。当該認識プロセスは2種ステップ、即ち、特徴抽出及び分類に分けられる 。当該抽出は認識にとって重要な特徴を音声信号から抽出し、重要でない成分を 除去するために用いられる。第2ステップ−分類−においては抽出された実際の 特徴から実際の音声標本の意味が察知される。
本発明の基礎を成す課題とするところは、限られた数の入力された音声の個別単 語を認識し得る方法を提供することにある。
上記課題は請求の範囲1記載の方法の構成要件により解決される。本発明の方法 のすぐれている点は特に高い認識レートである。更に本発明の方法は背景雑音( バックグランドノイズ)に対して影響を受けがたい。本発明の方法のさらなる利 点とするところは個別単語の分類の基礎を成すコレロダラム(Korrelog ramm)Kが簡単に設定され得ることである。このような簡単な計算方法はわ ずかなハードウェアコストを以ての音声認識システムの実現上の前提である。
本発明の方法のさらなる利点とするところは認識可能な個別単語の数が基本的に 限られていないことである。従って、本発明の方法は著しく大きな誘電を有する 適用例に特に有利である。
処理さるべきデータの規模ないし量−高いコスト、手間−と高い認識レートとの 間の妥協手法は請求の範囲2の方法を使用することにより得られる。
特に高い認識レートは次ぎのようにして得られる。
即ち、コレロダラム(Korrelogramm) Kのインデックスj、 h 、 kに対して請求の範囲3の特徴事項による条件を選定するのである。
音声入力された個別単語の分類のためのニューラルネットワークの使用によりさ らなる利点が得られる。
ニューラルネットワークは人間の頭脳構造の、それの連セ的動作手法を以ての大 まかな(大雑把な)シュミレーションである。当該ニューラルネットワークは音 声認識の際にも起きるようなパターン認識の問題の場合、従来計算機構造よりも すぐれている。
請求の範囲5記載の特徴的構成要件にょるニューラルネットワークは特にその有 利な“学習能力”の点ですぐれており、換言すれば認識さるべき単語に対する“ トレーニングフェーズが最小限に低減される。
請求の範囲6による方法のは発展形態によってはニューラルネットワークの簡単 な実現可能性及び計算コストのさらなる低減が得られる。
請求の範囲7による装置によっては本発明の方法を特に有利に実現し得る。
ここにおいて、上記のシステムにて使用するには請求の範囲8による装置全体を IC素子として構成すると有利である。
請求の範囲9における電話装置にて音声認識方法の使用によっては高い操作(容 易)性が得られるだけでなく自動車電話にて使用の際安全性の向上が得られる、 それというのも運転者及び電話利用者はダイヤリング操作により注意をそらされ ることがな(なるからで次ぎに4つの図を用いて本発明を説明する。
図1は本発明の方法の経過を示し、 図2は3つの異なった音素のスペクトル振幅分布を示し、 図3はニューラルネットワークの構造を示し、図4は本発明の方法を実施するた めの装置を示す。
図1に示す方法はダイヤリング過程のトリガのための電話器にて適用される。当 該の方法により10の異1なる個別単語を認識し得るが、64の単語の個別単語 の認識も可能である。各個別単語には1つの所定の電話番号が対応付けられ、該 電話番号は当該単語の認識後自動的に形成される。
このために、個別単語、例えば所望の加入者の名前が受信器中に音声入力され、 当該機器は所望の番号を自動的に形成する。電話機にハンドフリーセットを備え る場合、受話器を外さずに(オフフックせずに)送話器(マイクロホン)中に音 声が入力される。このことは殊に自動車電話において有利であり、即ち該自動車 電話では従来のダイヤリングする者は係わる交通安全性が低下されるおそれがあ るからである。
本発明の方法ステップの過程の経過は次ぎのように進行する、即ち、第1の方法 ステップにおいて予測期間中に音声入力された単語が電話装置のマイクロホンに より電気信号に変化される。上記信号は増幅され、サンプリングされ、デジタル 化される、換言すればサンプリング値のシーケンス(列)に変換される。当該サ ンプリングレートは通常8KHzである。
当該サンプリングによりいずれの重要な信号特性も検出されるためにはサンプリ ング定理が充足されねばならない。つまり、信号中に現われる最高の周波数がサ ンプリング周波数の半分より小でなければならない効果により信号情報の誤りが 生ぜしめられるからである。本事例では、音声信号は4KHzを下回る周波数成 分しか有してはいけないということである。このことは150Hz〜3400H zの周波数領域を有する電話信号について成立つ。
第2ステツプにおいてフーリエ変換を用いて、音声信号の平均スペクトル振幅分 布が、サンプリング値の数により定数32m5ecの期間内にて計算され、スペ クトルベルト基1として表される。(S ’−,S ’+、、、、、、。
517)を有し、それらの要素の各々は帯域幅b1=406.25Hzの周波数 帯域の振幅を表わす。従って捕捉される周波数帯域全体は406.25Hzx8 =3250Hzを含み、電話システムの周波数領域と−5Xi/32m5ec=  15. 625 Hzになる)もサンプリング定理に従い情報伝送に対する限 界を成す。ここにおいて当該限界は個々の音素の周波数ないし持続時間(継続期 間)に係わる。
音素は意味を形成する1つの情報を対応させ得る最小の単語要素である。各要素 (例えばドイツ語はほぼ40の音素を有する)は特徴的スペクトル振幅分布によ り定まり。これについては図2はダイヤフラムにて音素(これは母音“a”、“ 、“i”に相応する)に対するスペクトル振幅分布を示す。
試験にて明らかになったところによれば、音素のほぼ95パーセントが、62■ secより長く、要するに、16Hzより小さい周波数を有する。従って、上記 音素はスペクトルベクトルStにより精確に表される。
残りの5パーセントの音声成分、例えば破裂音(p。
を等)は了解性にとってはさして重要ではない。従って、本発明の方法において 当該音声成分が精確に補足検出されないとしても実際上天したことではない。
第3方法ステツプにて予測期間内にめられたスペクトルベクトルSi(これは上 述のように音声入力された個所単語の重要特徴を含む)からスペクトログラムS が形成される。このことは2次元マントリクスにて当該スペクトルベクトルの配 置により行なわれ、その際、各スペクトルベクトルは当該マトリクスの1つの行 を形成する。第4方法ステツプではコレログラムにの個々の要素K I+ h+  kが次式により形成される。
Kl、h+k” Σ S ’H* S l+h、4゜i=Q 当該コレログラムの規模、範囲は当該座標の値域により与えられる。この値域は 本事例では次ぎのようになる j= 0+1..0.7;h =、、、、、15;k = 1.2:当該コレロ グラムペの配置は次ぎのように行なわれる、即ちインデックスの各々により、音 声信号の物理的パラメータが設定されるように当該にの配置はなされる。インデ ックスjは周波数帯域を表わす。j=3に対しては例えば領域1368.75H z 〜1775Hzを表わし、インデックスHによっては相関されるべき信号成 分間の時間的ずれが設定される。例えば、h=15によって最大のずれ15 X  32 m5ec= 481m5ecが設定される。インデックスKによっては 相関さるべき信号成分間の周波数ずれΔfが設定される。K=2によっては81 2.5HzのΔfがが生せしめられる。
本発明の音声信号の処理によっては例えば、コレログラムペの要素が実質的に時 間的に独立であるようになる。音声入力された個別単語の始めと終わり並びにそ れの持続時間(継続時間)はそれにより重要性を失う。
上記の時間独立性は音声認識を首尾よく行なうための重要な前提条件である。従 来の方法では当該の独立性はコスト高ないし複雑な手法によって達せられる。
例えば +Dynamische Zeitnormierung” (参照) 5ak oe、 M、 ;Chiba、S、:Dynamic programming  algorithms optimization for 5poken  vordrecognition IEEE Trans、on ASSP、^ 5SP−26)のようなコスト高の公知手法によって達せられる。本発明の方法 ではそのような計算コスト及び当該方法において生じる誤差が回避される。
インデックスj、n、kに対する上記の値及び条件j+に≦JIIlaxのもと てコレログラムには208の要素を有し、該要素は音声入力された個別な名論の 整理分類のためひきつづいての方法ステップにて用いられる。このために各要素 はニューラルネットワークの1つの入力側に加えられる。
従って、上記ネットワークは208の入力側を有し、そして認識さるべき各単語 に対して1つの出力側を有し、要するに、10の出力側を有するが、64の出力 側をも有し得る。
上記ニューラルネットワークの構造を図3を用いて詳細説明する。該図は所謂フ ィードフォワードニューラルネットワーク”Feedforward Neur al Network”を示す。上記ネットワークは入力ニューロンN1.N2 、N3から成る1つの人力層とを有する。当該ネットワークは3つの入力側E1 .E2.E3と2つの出力側、A2.を有する。各入力側E1.E2.E3は各 入力ニューロンN1.N2.N3に接続されている。各入力ニューロンの唯一の 出力側が、各出力ニューロンE4.E5、に接続されており、該出力ニューロン のAI、A2によってはそれぞれ1つの認識されたパターンが指示される。
ニュートラルネットワークの所要の規模は解くべき課題ないし間七点の複雑性に 依存する。既述のように、入力素子の数(1つの入力特徴ベクトルのディメンシ ョンないし選定)によってはネットワーク入力側E1、E2.E3の数が定まる 。ネットワーク出力側A1、A2の数は認識さるべきパターンの数により選定さ れる。各ニューロンは唯一の出方側を有するので、ネットワーク出力側の数によ り出力ニューロンN4゜N5の数も設定される。当該の数は本実施例では1゜で ある(認識さるべき個別単語の数に従って)。
入力ニューロンN1.N2.N3の所要の数は認識さるべきパターン(個別単語 )の数と、入力特徴ベクトルのディメンションないし選定(コレログラムにの要 素の数に依存し、また認識されるべきパターン(個別単語)間の相違にも依存す る、而して、類似の音響の(響きのある)単語の区別のためには明瞭に区別し得 る単語の区別の場合よりも広汎なニュートラルネットワークを必要とする。
従って、入力ニューロンN1.N2.N3の数はニュートラルネットワークの複 数の所謂学習−又はトレーニングフェーズから成る繰返形構成配列過程を用いて 設定される、ここにおいて認識さるべきパターン(個所単語)はニュートラルネ ットワークの入力側に加え−られ、所望の出力結果と比較される。
当該の比較により、いわゆる“バックプロパージョン” (−backprop agation’ )アルゴリズム(P、ferbos、 Beyond Re gression;New Tools for Prediction an d^nalysis in the Behavioral 5ciences 、Ph、D、thesis。
Harvard University、Cambridge、MA、Aug、  1974)により、個々のニューロンN1.N2.N3.N4゜N5の”整合 ”について情報が得られる。
各ニューロンは実質的に加算素子(該加算素子には直線性増幅幅器素子から成る 。ニューロンの構成についての精しい説明は例えば下記刊行物になされている” Layerd Neural Nets for Pattern Recog nition”、 B、 Widrow、 R,G、 Winter、 R,^ 、Baxter;IEEE Transactions on Acousti c、5peech and Signal Processing、Vol、  36. No、 7. July 88゜ニューロンの“整合”は当該の重み( ウェイト)の設定により行なわれ、上記重みによって入力値が増幅される。従っ てニューラルネットワークの学習−及びトレーニングフェーズの目標はネットワ ークのすべての重み(ウェイト)を次ぎのように設定すること、即ち所望の認識 過程が行なわれるように設定することである。従って当該重みはニューラルネッ トワークの情報の担い手である。
学習−及びトレーニングフェーズ中精確適正な認識過程の目標が達せられない場 合は、このことが一般的に意味していることは当該ネットワークにおけるニュー ラルの数が具体的問題に対してわずか過ぎ、従って、増大させなければならない ということである。しかる後、当該学習及びトレーニングフェーズが、拡大され たニューロンネットワークで繰返される。
具体的実施例では大体の主なケース(大多数のケース)で20の入力ニューロン で十分である。従って、第一のトレーニングフェーズでは当該の数を基礎とする 。当該トレーニングフェーズの第一部分セクション(これは設定−実際結果比較 の最大10回の繰返し及 。
びネットワーク所属の“整合”から成る)内では当該ネットワークは10の異な る個所単語の認識の能力を備えなければならず、その際各個別単語は20までの 異なるサンプル(標本)(これは相違なす人物に由来し得る)において生起する 。そのことがらまで行かない場合は入力ニューロンの数が高められ(21に)、 そして、トレーニングフェーズが繰返される。入力ニューロンの数が十分であっ て認識過程が基本的に或1つのニューラルネットワークにとって実施不能である 場合、当該認識過程は5〜6回の繰返しの後適正に(精確に)実施される。しか る後、トレーニングフェーズの第2部分セクション(これは8つの(8回)の繰 返操作過程から成る)において当該トレーニング効果は強化される(深められる )。当該の第2部分セクションの終了後ニューラルネットワークは使用可能な状 態になる。
図4は本発明の方法実施装置の例を示す。該装置はデジタル信号プロセッサμp とバスシステムBとプロダラムメモリリROMと、ワークメモリRAMと、入出 カニニットI10とを有する。
当該装置(構成)は市販の構成部品(素子)で構成されている。デジタル信号プ ロセッサμpの核心部はアナログデバイス社(Firma Analog De vices)の型式ADSP2111の信号プロセッサである。当該装置構成の 詳細構成は上記信号プロセッサに対するユーザーマニアルが示されている。上記 入カー/出カニニットは信号部分C(これは市販のPCM−コーデックから構成 されている)と、制御ユニットへの接続用の制御部分ST、例えばパーソナルコ ンピュータとから成る。
上記入カー/出カニニットの信号部分Cを介しては音声信号の入力、及び場合に より音響的な音声出力例えば操作指示が行なわれる。
櫂 FIG、2 補正書の翻訳文提出書(特許法第184条の8)FIG、4 請 求 の 範 囲 平成 6年 1月24日

Claims (1)

  1. 【特許請求の範囲】 1.入力音声の個別単語の認識方法において、下記の方法過程ステップを備え、 すなわち −予測期間内に入力された音声を電気音声信号に変換し、 −音素の時間的継続期間ないし持続時間により定まる時間間隔tsにおいて、音 声信号の瞬時のスペクトル振幅分布を求め、スペクトルベクトルS1(i=0. 1.....m−1) として表わし、ここにおいてスペクトルベクトルS1の各要素(S10,S11 ,....S1n−1)は帯域幅b0を有する周波数帯域の振幅を表わし、 −当該予測期間内にて求められたスペクトルベクトルS1からスペクトログラム Sを下記式に従って形成し、 ▲数式、化学式、表等があります▼ −スペクトログラムSから座標j,h,kを有するコレログラムKを求め、ここ において上記コレログラムKの各要素Kj,h,kを下式に従って形成し▲数式 、化学式、表等があります▼ −上記コレログラムkを、音声入力された個別単語の分類のため単語特有の特徴 パターンとして用いることを特徴とする入力音声の個別単語の認識方法。 2.2つの順次連続するスペクトルベクトルS,S1+1間の所定の時間間隔t ■を32msecに等しくした請求の範囲1記載の方法。 3,上記コレログラムKのインデックスj,h,kに対して、下記条件を選定す る、すなわちK>0:k×bc、1kHz j+k≧n−1 j,h≧0 h×ts<500msec という条件を選定する請求の範囲1又は2記載の方法。 4.音声入力された個別単語の分類のためにニューラルネットワークを使用する 請求の範囲1,2または3記載の方法。 5.上記ニューラルネットワークに第1の数のニューロンを有する入力平面、及 び、第2の数のニューロンを有する出力平面を備え、単語特有のコレログラムK の各要素を上記入力平面のニューロンと結合ないし接続し、更に、上記ニューロ ン各々の出力側を上記の出力平面の各ニューロン結合ないし接続し、更に上記出 力平面の1つのニューロンの出力(側)により1つの所定の認識された個別単語 を指示するようにした請求の範囲4記載の方法。 6.各ニューロンに下記の非連続性伝達関数を備える、即ち f(×)=×/{|×|+1} という伝達関数を備える請求の範囲4又は5記載の方法。 7.デジタル信号プロセッサを設け該プロセッサはデータ、アドレス、制御線路 から成るバスシステムを介して、プログラムメモリ、ワークメモリ、入出力ユニ ットに接続されている請求の範囲1から6までのうちいずれか1項記載の方法を 実施する装置。 8.当該装置はIC素子として構成されている請求の範囲7記載の装置。 9.認識された個別単語に基づきダイヤリング過程が、個別単語に対応づけられ た電話番号を以て電話装置にてトリガされるようにした請求の範囲2から6まで のうちいずれか1項記載の方法。
JP50246893A 1991-07-25 1992-07-21 入力音声の個別単語の認識方法及び装置 Expired - Fee Related JP3274133B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
AT148891 1991-07-25
AT1488/91 1991-07-25
PCT/AT1992/000100 WO1993002448A1 (de) 1991-07-25 1992-07-21 Verfahren und anordnung zum erkennen von einzelwörtern gesprochener sprache

Publications (2)

Publication Number Publication Date
JPH07502126A true JPH07502126A (ja) 1995-03-02
JP3274133B2 JP3274133B2 (ja) 2002-04-15

Family

ID=3514977

Family Applications (1)

Application Number Title Priority Date Filing Date
JP50246893A Expired - Fee Related JP3274133B2 (ja) 1991-07-25 1992-07-21 入力音声の個別単語の認識方法及び装置

Country Status (10)

Country Link
US (1) US5721807A (ja)
EP (1) EP0595889B1 (ja)
JP (1) JP3274133B2 (ja)
AT (1) ATE159374T1 (ja)
DE (1) DE59208973D1 (ja)
DK (1) DK0595889T3 (ja)
ES (1) ES2108127T3 (ja)
GR (1) GR3025319T3 (ja)
NO (1) NO306887B1 (ja)
WO (1) WO1993002448A1 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100446471B1 (ko) * 1998-09-28 2004-12-04 주식회사 삼양사 고유동성폴리카보네이트수지
US8983832B2 (en) * 2008-07-03 2015-03-17 The Board Of Trustees Of The University Of Illinois Systems and methods for identifying speech sound features
US9015093B1 (en) 2010-10-26 2015-04-21 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US8775341B1 (en) 2010-10-26 2014-07-08 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US8699637B2 (en) 2011-08-05 2014-04-15 Hewlett-Packard Development Company, L.P. Time delay estimation
US8738554B2 (en) 2011-09-16 2014-05-27 International Business Machines Corporation Event-driven universal neural network circuit
US8874498B2 (en) 2011-09-16 2014-10-28 International Business Machines Corporation Unsupervised, supervised, and reinforced learning via spiking computation
US8626684B2 (en) 2011-12-14 2014-01-07 International Business Machines Corporation Multi-modal neural network for universal, online learning
US8799199B2 (en) 2011-12-14 2014-08-05 International Business Machines Corporation Universal, online learning in multi-modal perception-action semilattices
US20150134580A1 (en) * 2013-11-12 2015-05-14 Persyst Development Corporation Method And System For Training A Neural Network
US20190070517A1 (en) * 2017-09-05 2019-03-07 Creata (Usa) Inc. Digitally-Interactive Toy System and Method
EP3502974A1 (de) 2017-12-20 2019-06-26 Siemens Aktiengesellschaft Verfahren zur realisierung eines neuronalen netzes
CN110335617A (zh) * 2019-05-24 2019-10-15 国网新疆电力有限公司乌鲁木齐供电公司 一种变电站中的噪音分析方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2139052A (en) * 1983-04-20 1984-10-31 Philips Electronic Associated Apparatus for distinguishing between speech and certain other signals
US4975961A (en) * 1987-10-28 1990-12-04 Nec Corporation Multi-layer neural network to which dynamic programming techniques are applicable
US4928302A (en) * 1987-11-06 1990-05-22 Ricoh Company, Ltd. Voice actuated dialing apparatus
US5285522A (en) * 1987-12-03 1994-02-08 The Trustees Of The University Of Pennsylvania Neural networks for acoustical pattern recognition
JP2764277B2 (ja) * 1988-09-07 1998-06-11 株式会社日立製作所 音声認識装置
JPH0375860A (ja) * 1989-08-18 1991-03-29 Hitachi Ltd パーソナライズド端末
DE69030561T2 (de) * 1989-12-28 1997-10-09 Sharp Kk Spracherkennungseinrichtung
US5473759A (en) * 1993-02-22 1995-12-05 Apple Computer, Inc. Sound analysis and resynthesis using correlograms

Also Published As

Publication number Publication date
NO940241L (no) 1994-01-24
DE59208973D1 (de) 1997-11-20
GR3025319T3 (en) 1998-02-27
WO1993002448A1 (de) 1993-02-04
EP0595889B1 (de) 1997-10-15
EP0595889A1 (de) 1994-05-11
DK0595889T3 (da) 1998-05-25
JP3274133B2 (ja) 2002-04-15
ES2108127T3 (es) 1997-12-16
NO306887B1 (no) 2000-01-03
ATE159374T1 (de) 1997-11-15
US5721807A (en) 1998-02-24

Similar Documents

Publication Publication Date Title
Lin et al. Speech enhancement using multi-stage self-attentive temporal convolutional networks
CN105321525B (zh) 一种降低voip通信资源开销的系统和方法
JP2022529641A (ja) 音声処理方法、装置、電子機器及びコンピュータプログラム
JPH07502126A (ja) 入力音声の個別単語の認識方法及び装置
CN110675891B (zh) 一种基于多层注意力机制的语音分离方法、模块
Luo et al. Ultra-lightweight speech separation via group communication
CN105225672B (zh) 融合基频信息的双麦克风定向噪音抑制的系统及方法
CN105118501A (zh) 语音识别的方法及系统
CN110600014B (zh) 一种模型训练方法、装置、存储介质及电子设备
CN109036460A (zh) 基于多模型神经网络的语音处理方法和装置
CN111243617B (zh) 一种基于深度学习降低mfcc特征失真的语音增强方法
EP1913591B1 (en) Enhancement of speech intelligibility in a mobile communication device by controlling the operation of a vibrator in dependance of the background noise
CN107293305A (zh) 一种基于盲源分离算法改善录音质量的方法及其装置
Shi et al. End-to-End Monaural Speech Separation with Multi-Scale Dynamic Weighted Gated Dilated Convolutional Pyramid Network.
Barros et al. Estimation of speech embedded in a reverberant and noisy environment by independent component analysis and wavelets
Saeki et al. Real-Time, Full-Band, Online DNN-Based Voice Conversion System Using a Single CPU.
CN113763966B (zh) 一种端到端的文本无关声纹识别方法及系统
CN113782044B (zh) 一种语音增强方法及装置
CN113077798B (zh) 一种居家老人呼救设备
Gandhiraj et al. Auditory-based wavelet packet filterbank for speech recognition using neural network
CN111276132A (zh) 一种语音处理方法、电子设备及计算机可读存储介质
Zaman et al. Classification of Harmful Noise Signals for Hearing Aid Applications using Spectrogram Images and Convolutional Neural Networks
CN110136741A (zh) 一种基于多尺度上下文的单通道语音增强方法
CN110459235A (zh) 一种混响消除方法、装置、设备及存储介质
Erten et al. Voice extraction by on-line signal separation and recovery

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080201

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090201

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090201

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100201

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees