JPH09179585A - 音声認識をする方法とシステム - Google Patents

音声認識をする方法とシステム

Info

Publication number
JPH09179585A
JPH09179585A JP8341738A JP34173896A JPH09179585A JP H09179585 A JPH09179585 A JP H09179585A JP 8341738 A JP8341738 A JP 8341738A JP 34173896 A JP34173896 A JP 34173896A JP H09179585 A JPH09179585 A JP H09179585A
Authority
JP
Japan
Prior art keywords
signal
characteristic
enhanced
cepstral
frequency domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP8341738A
Other languages
English (en)
Other versions
JP4050350B2 (ja
Inventor
Mazin G Rahim
ジー.レイム マズィン
Jay Gordon Wilpon
ゴードン ウィルポン ジェイ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
AT&T Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AT&T Corp filed Critical AT&T Corp
Publication of JPH09179585A publication Critical patent/JPH09179585A/ja
Application granted granted Critical
Publication of JP4050350B2 publication Critical patent/JP4050350B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/12Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Telephone Function (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】 【課題】 エンハンスした音声信号の存在を介して音声
認識の強健性を改善するため、音声認識処理を補正す
る。 【解決手段】 音声信号のエンハンスメントがエンハン
スしていない音声信号を用いて学習をした認識モデル
と、エンハンスした音声信号から抽出した特性データ相
互間に音響上の不整合をもたらす原因となる音声信号の
エンハンスメントが音声認識性能におよぼす逆効果をこ
の補正によって克服する。線形予測符号化とメル準拠の
ケプストラル・パラメータ分析を複合して行い、エンハ
ンスした音声信号の周波数領域の表示を処理するときに
メル・フィルタ・バンクを選択的に聴感補正することに
より、音声認識処理に用いる伝送されてきた音声信号の
ケプストラル特性を計算すべく、自動音声認識システム
の前端部に於いて補正を行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声の認識処理に
関し、さらに詳細には、音声信号がエンハンスされてい
るときに感度を最小にする音声認識を行うことに関す
る。
【0002】
【従来の技術】長距離交換網のような電気通信網から伝
送される音声信号は未知の各種条件によって音響的な影
響をよく受ける。このような条件はこうしたネットワー
クに通常含まれる自動音声認識(ASR)システムの性
能を示差的に低下させることがある。このような条件に
は、例えば、周囲ノイズ、チャネル干渉、異なる音響検
出装置の使用が含まれる。
【0003】通常のASRシステムは伝送されてきた音
声信号を表す特徴データと学習認識モデルとして周知の
音声単位を表すデータ・パターンとを比較またはマッチ
ングさせることによって音声の認識を行う。認識モデル
は通常、電話機での通話時に於けるような実音声信号が
ASRシステムに伝送される同一のネットワーク接続経
路から行われる周知の音声特性を有する所定の音声信号
の伝送をモニタすることによって得られれる。
【0004】多くの事例に於いて、ネットワーク経路に
様々な未知条件が存在すると、認識モデルとテスト・デ
ータ相互間に音響上の不整合が生じる。このような音響
上の不整合は音声認識性能を低下させることがある。音
響上の不整合は、例えば、ネットワーク経路から伝送さ
れる音声信号が人間の知覚作用に合わせ音声の品質を改
善させるべくエンハンスされるときに起こり易い。この
ようなエンハンスメントが行われると、音声認識性能は
音声認識プロセスに用いた認識モデルが同じような音声
信号エンハンスメント回路を含むネットワーク接続経路
に生成されなかったとき、あるいは学習が行われなかっ
たときに最適レベル以下になることがある。検出された
音声信号を表す特徴を認識モデルにマッチングさせAS
Rシステムに強健性を提供しようとする現在の音声信号
処理技術は通常、前記に説明したような結果をもたらす
ことのある音響上の不整合を充分補正するものではな
い。
【0005】
【課題を解決するための手段】本発明は、改善された音
声認識性能のための方法とシステムに関する。同じよう
なエンハンスメント回路を備えたネットワーク接続経路
に、例えば、認識モデルが生成されなかったり、あるい
は学習が行われなかったエンハンスメントが行われるネ
ットワークに於いて音声認識性能に優れた強健性を与え
る補正は情報の利用によって行われる。この利用する情
報はネットワーク接続経路からの伝送時に音声信号に対
し行われるエンハンスメントのスペクトル効果に関する
ものである。
【0006】本発明の一つの態様では、音声信号エンハ
ンスメントの補正は特徴抽出装置と音声認識装置を含む
音声認識システムの前端部に於いて特徴抽出処理が実行
される期間に行われる。特徴抽出装置は線形予測符号化
(LPC)とメル・フィルタ分析とを組み合わせて用
い、エンハンスした音声信号のケプストラル特性を計算
する。時変音声信号が周波数領域での表示に合わせて変
換された後に、この信号に対し行われたエンハンスメン
トを補正する。
【0007】本発明の方法の一つの態様では、第一にエ
ンハンスした時変音声信号のサンプリングが行われる。
サンプリングされた音声信号はフレームに集められ、次
いで、フーリエ変換により時間の表示から周波数領域の
表示に変換する。その後、各フレームのパワー・スペク
トルは音声信号のスペクトル特性に対するエンハンスメ
ント効果の選択的な補正が聴感補正によって行われる選
択的に聴感補正されたメル・フィルタ・バンク処理を受
ける。次いで、補正が行われたエンハンスした音声信号
のスペクトル表示から自動補正係数を計算し、その後L
PC分析とケプストラル循環とによってケプストラル特
性を求める。本発明の上記以外の特徴と利点は当該技術
に通常の精通度を有する者にとっては以下の詳細な説明
と付属図面を参照すれば容易に明らかなことであろう。
【0008】
【発明の実施の形態】図1はエンハンスした音声信号を
本発明技術に従って行う音声認識処理に適した例示とし
て引用した電気通信網100のブロック図である。図1
を参照すると、長距離伝送の音声信号とデータをステー
ション・セットS1、S2を組み合わせた電話ユーザの
ような加入者のために接続すべく、様々な周知の方法の
内のいずれかに従って互いに接続ができる市外局10
5、110のような複数の市外局でネットワーク100
を適切に構成することができる。市内中央局50はステ
ーション・セットS1を市外局105に接続し、市内中
央局75はステーション・セットS2を市外局110に
接続する。
【0009】ネットワーク100には、さらに、電話ユ
ーザのような加入者が受信する前に、音声信号の品質を
エンハンスさせるため、市外局105、110相互間の
接続路に配した音声信号エンハンスメント装置または音
声信号エンハンサー107を適切に含めることができ
る。例えば、音声信号エンハンサー107には音声信号
のパワー・レベルを増強または低下させるため、エコー
消去回路、あるいは他の回路のような適切な回路を含め
ることができる。指定周波数のパワー・レベルの増強を
含むネットワーク内での音声信号のエンハンスメントに
ついてのさらに詳細な説明に関しては参照によって本明
細書に組み込まれている米国特許第5,195,132
号を参照する。
【0010】本発明によれば、音声信号エンハンサー1
07から音声信号を受信し、以下にさらに詳しく説明す
る特性の抽出を含む音声信号認識に備えた信号処理を行
うため、音声信号プロセッサ102をさらにネットワー
ク接続経路に含める。ステーション・セットS1からス
テーション・セットS2への電話機の接続は本明細書に
於いて言及するつもりはない従来の技術に従って市内中
央局50、市外局105、音声信号エンハンサー10
7、プロセッサ102、市外局110および市内中央局
75を介し適切に確立される。ネットワーク100はA
T&Tネットワークのような何らかの広く周知の電気通
信網にすることができるものと理解する。
【0011】従来技術の電気通信網では、時変音声信号
を特徴づけるもので、特性として周知のパラメータの計
算は、例えば、音声信号のエンハンスメントによって音
声信号に加えられる音響上の変動に対し非常に敏感なも
のであった。この条件はケプストラル特性のような好適
な特性の計算に関し特に注目された。その結果、ネット
ワーク接続経路にこのようなエンハンスした音声信号が
含まれると、伝送されてきた音声信号を表す特徴データ
とのマッチングに用いた認識モデルが、同じようなまた
は同一の音声信号エンハンスメント回路を含まないネッ
トワーク経路上で学習が行われなかった自動音声認識
(ASR)処理の性能を激しく低下させた。
【0012】本発明によれば、ネットワーク100に含
めたプロセッサ102はこのようなASR処理装置への
ルーチングが行われる前に音声信号エンハンサー107
によって既にエンハンスされたかもしれない伝送されて
きた音声信号に対し音声の認識が行われるとき、エラー
・レベルを最小にすべく適切に機能する。プロセッサ1
02はケプスタル特性に準拠した音声認識処理に改善さ
れた強健性を供与するエンハンスメント補正動作を必ず
行なう。これとは他に、ネットワーク100に於けるプ
ロセッサ102はこれにルーチングされる以前にエンハ
ンスされなかった、あるいはプロセッサ102よって補
正されるエンハンスメントとは異なる音声信号へのエン
ハンスメントを導入する音声信号エンハンサーによって
既にエンハンスが行われ、伝送されてきた音声信号に対
し音声の認識が行われるとき、エラーのレベルを最小に
すべく本発明の技術に従って機能することができる。説
明の便宜上、プロセッサ102に於いて行われる音声認
識処理の期間に実行する特性のマッチングに用いた認識
モデルは音声信号エンハンスメント回路を含まないネッ
トワーク経路上で学習済みであると仮定する。
【0013】説明の便宜上、音声信号エンハンサー10
7はネットワークからプロセッサ102に対しルーチン
グが行われる期間にステーション・セットS1からステ
ーション・セットS2に伝送される音声信号にエンハン
スメントを行うものとする。音声信号エンハンサー10
7によって既にエンハンスされ、プロセッサ102にル
ーチングされ、伝送されてきた音声信号に対し、エンハ
ンスメントの性質に関する情報が以下に説明する方法に
従ってプロセッサ102での処理に利用され、エンハン
スメントの適正補正ができると仮定する。
【0014】簡明と簡潔のため、線形予測符号化(LP
C)と、音声信号のスペクトル特性を表すデータからケ
プストラル特性を抽出するメル・フィルタ分析の採用を
含む信号認識処理技術の知識があるものと仮定する。参
照により本明細書に組み込まれている、103−107
ページ、112−117ページおよび183−190ペ
ージに記載のRabiner,LawrenceとJu
ang,Biing−Hwangによる「Fundam
entals of Speech Recognit
ion(音声認識の基礎)」(1993)を参照する。
手短に言って、LPC処理にはソース域の分離によって
音声信号からの特性抽出と、サンプリングした以前の音
声信号の線状複合体としてスペクトル・ピーク値のモデ
ル化が含まれる。メル・フィルタ分析にはいわゆるメル
・スケールの間隔に於ける純粋な楽音の主観的ピッチに
関して音声信号の完全なスペクトルを有利にサンプリン
グすることによって音声信号の音響スペクトル成分につ
いての人間知覚作用の知識に基づく音声信号からの特性
抽出が含まれる。全般的な音声の認識を改善すべく音声
信号のスペクトル成分を適切に修正するため、これらメ
ル・スケール間隔値はメル・フィルタ・バンクとして周
知のフィルタ・バンクとして従来的に達成される。
【0015】本発明の一つの態様では、伝送されてきた
音声信号に行われたエンハンスメントに対するもので、
エンハンスした音声信号が周波数領域での表示に適切に
変換された場合に行われる補正を実行するケプストラル
特性を計算するメル・フィルタ・バンク分析にLPC分
析を複合する。以下に一層詳しく説明するように、知覚
周波数スケールに基づき自動補正係数の計算が行われ、
LPC技術を用いてパワー・スペクトルの平滑化が行わ
れるMel−LPCケプストラル特性の計算にはLPC
分析が後続するメル・フィルタ・バンク分析が含まれ
る。説明の便宜上、ステーション・セットS1からプロ
セッサ102にルーチングされる音声信号をエンハンス
メントするため、前記に引用した米国特許第5,19
5,132号(以後TrueVoicesm エンハンス
メントと呼ぶ)に述べたものに類似するエンハンスメン
ト回路が音声信号エンハンサー107に含まれ、音声認
識処理はエンハンスメントの行われなかった音声信号を
用いて学習を済ませた認識モデルを使用しプロセッサ1
02で実行される。
【0016】図2には音声信号エンハンサー107に於
いて行われるTrueVoicesmエンハンスメントに
よりエンハンスした音声信号に対し高い強健性の音声認
識を行うためMel−LPCケプストラル特性を計算す
る演算ができるプロセッサ102の引用実施例が記載さ
れている。図2を参照すると、プロセッサ102にはメ
ル・ケプストラル特性計算とエンハンスした、あるいは
エンハンスされていない伝送されてきた音声信号に対し
特性のマッチングを実行する個々の機能を表すブロック
が含まれる。これらのブロックで表す機能はソフトウェ
アの実行ができるハードウェアを含むが、そのハードウ
ェアに限定されない共有または専用のハードウェアの使
用によって得られる。
【0017】好適な実施例では、プロセッサ102に含
まれるブロックで示す機能は補正特性抽出装置202
と、RAMとしての学習認識装置モデル・メモリ206
を含む認識装置204から成る。補正特性抽出装置20
2と、認識装置204はメモリ208に適切に接続す
る。メモリ208には本発明技術を実施するために適切
に実行できるプログラムに指定する命令が含まれる。以
下に説明するように、特性抽出装置202と認識装置2
04のブロックに表示する機能は本発明技術の実施に従
って市外局105または110から伝送されてきた音声
信号を処理する。ブロック表示の機能が実行する操作は
一つの共用プロセッサを用いて同様にに実行することが
できることを理解されたい。このようなプロセッサは標
準型ディジタル信号プロセッサで構成することができ、
ソフトウェアの記憶と、以下に説明する動作を実行する
ためROM(読み取り専用メモリ)または他の適切なメ
モリが含まれよう。さらに、本発明技術はファームウェ
アを用い、または集積回路に組み込んだ離散成分で実施
することができる。他の適切な実施例は当該技術に通常
の精通度を有する者であれば容易に達成することができ
る。例えば、図2に示すように、補正特性抽出装置20
2は音声信号エンハンサー107からの入力を受信する
よう接続されているが、信号のエンハンスメントに干渉
することなく市外局105のような市外局に直接接続す
ることもできよう。
【0018】図3には図4に関し以下に説明する音声信
号に対し行われたエンハンスメントを補正する機能を実
行することができる特性抽出装置202の引用実施例の
詳細が記載されている。図3を参照すると、特性抽出装
置202は受信機211、プリエンファシス装置21
2、フレーム・ブロッカー213、ハミング倍率器21
4、周波数領域変換器215、補正装置216およびケ
プストラル特性コンピュータ217とによって適切に構
成できることが記載されている。ブロックで表示した機
能は図4に関し以下に詳しく説明するように、本発明技
術を実施する動作を適切に実行する。ブロックで示すこ
れら機能の各々が実行する動作はソフトウェア単独で行
われることはもとより、ソフトウェアおよび/またはハ
ードウェアを複合することにより実行できる。
【0019】図2を参照すると、補正特性抽出装置20
2は必ず、市外局105からルーチングされた時変音声
信号のMel−LPCケプストラル特性をこれら信号の
特性を表すスペクトルまたは周波数領域に基づき計算す
るため操作を実行するASRに於ける前置プロセッサで
ある。補正特性抽出装置202のケプストラル特性コン
ピュータ217によって最終的に計算されるMel−L
PCケプストラル特性は音声の認識に従来的に活用され
る異なる音声単位の広域音響特性を表す。特に、補正装
置216とケプストラル特性コンピュータ217はLP
C分析とメル・フィルタ・バンク分析を複合し、信号の
エンハンスメントによって生じる音響的な変動に事実上
感性をもたない認識装置204によるネットワーク10
0でのASR処理を行うためのもので、伝送れてきた音
声信号を表す一組の補正ケプストラル特性を計算する。
Mel−LPCケプストラル特性を認識装置204に入
力し、認識装置は計算された特性が表す音声単位に一致
する最良の語または最良の連続語を決定すべくメモリ2
06に記憶した認識モデルと入力されたMel−LPC
ケプストラル特性とを比較する。適切な認識装置は認識
技術に準拠して、例えば、広く周知の隠れマルコフ・モ
デル(HMM)を利用することができる。
【0020】TrueVoicesmエンハンスメントの
ような導入されたエンハンスメントについての従来知識
は本発明技術に従って行われる音声信号を表す周波数領
域を用いたエンハンスメントの補正を実行する上で必要
であることに注目する。この情報は公開されて一般に求
められる。これとは他に、エンハンスメントに関する情
報は音声信号エンハンスメント回路を含むネットワーク
接続経路から伝送される音声信号を経験的な方法でサン
プリングする、例えば、標準的な技術を用い確立するこ
とができる。対照的に、ケプストラル平均値減算と信号
バイアスの除去についての従来技術による方法は音声信
号の音響的変動についての従来の知識を必要とはしなか
ったし、「ブラインド」畳み込み準拠技術のとして考え
られる。
【0021】エンハンスした時変音声信号のMel−L
PCケプストラル特性を図3のブロックで示す引用例の
機能を用いプロセッサ102の補正特性抽出装置202
に於いて計算する方法220を図4に示す。説明の便宜
上、特性抽出装置202にルーチングされる前にディジ
タル電話網を模倣するため、好ましくは8.0kHzの
速度で音声信号のディジタル化が行われるものと仮定す
る。図4を参照すると、ステップ222に於いて、受信
機211は音声信号エンハンサー107からエンハンス
した音声信号を受信する。
【0022】次いで、ステップ224では、プリエンフ
ァシス装置212はサンプリングされたディジタル化音
声信号を処理し、スペクトルの平坦化が行われる。プリ
エンファシスは、例えば、従来技術による第一オーダの
ディジタル網を使用し適切に行われる。ステップ226
に於いて、フレーム・ブロッカー213サンプリングし
た音声信号をフレームに集めるか、あるいはフレームに
閉塞する。一つのフレームは信号のnミリセコンドに対
応する連続した音声信号サンプルの区間から成り、連続
フレームはmミリセコンドの間隔を開けている。ステッ
プ228では、ハミング倍率器214は当該技術では従
来的であるハミング・ウィンドによって各フレームのサ
ンプルを乗算する。ステップ230に於いて、周波数領
域変換器215は音声の各ウィンド・サイズ指定区分に
対しフーリエ変換をし、受信機211で受信したエンハ
ンスした音声信号に対応する一組のスペクトル・サンプ
ルを生成する。
【0023】ステップ232に於いて、補正装置216
は各フレームを処理し、適切に三角形状にすることので
きる一組M個のメル・フィルタ・バンクにスペクトル・
サンプルの各フレームに対するパワー・スペクトルを通
過させる。メル・フィルタ・バンクは適切に聴感補正さ
れ、伝送されてくる信号のケプストラル特性の計算にエ
ンハンスメントが与える影響を補正する。換言すれば、
音声信号に対するエンハンスメントの影響はエンハンス
した音声信号を表す周波数領域で機能する補正装置21
6に於いて補正される。Mel−LPCケプストラル特
性の計算によって各スペクトル帯域の利得を完全に制御
できることに注目する。これによって単にメル・フィル
タ・バンクに聴感補正機能を賦課するだけで音声信号の
エンハンスメントの補正ができるようになる。
【0024】例えば、音声信号のエンハンスメントの補
正を実行し、LPC技術を用い、音声信号を表す周波数
領域からケプストラル特性を計算する前に、好ましから
ざるメル・フィルタ・バンクをディエンファシスするこ
とにより理想的なハイパス・フィルタ処理を達成するこ
とができる。スペクトル領域に於けるデータ値係数に対
するこの聴感補正は極めて有利であり、エンハンスした
音声信号を用いて学習が行われなかった認識モデルに適
切に一致させることのできるエンハンスメント音声信号
の補正したケプストラル特性の計算ができるようにな
る。一度び計算されたケプストラル特性は同じような方
法では聴感補正ができないことに注目する。さらに、エ
ンハンスした音声信号がまだ時間で表示されているとき
に、この音声信号をフィルタ処理することによってエン
ハンスした音声信号のこうした処理に概ね近ずけること
ができることにも注目する。
【0025】エンハンサー107による音声信号へのT
rueVoicesmエンハンスメントが行われると考え
られるネットワーク100の引用実施例では、True
Voicesmエンハンスメントの特性に関する情報を利
用して補正装置216のメル・フィルタ・バンクに加え
る聴感補正値を確定することができよう。実験的な分析
から、プリエンファシス・フィルタ(pフィルタ)を用
いた音声信号のフィルタ処理と、音声信号へのゆっくり
変化するAVC(自動音量コントローラ)の適用がTr
ueVoicesmエンハンスメントに含まれ、pフィル
タからは150Hzと220Hzとの間の周波数帯内部
のいずれかに10〜20dBのスペクトル磁極が導入さ
れることが確認された。
【0026】この場合、メル・フィルタ・バンクでは周
波数領域内で目標とするハイパス・フィルタ処理が行わ
れると考えられ、その結果、計算されたケプストラル特
性の修正が行われ、こうして、音声認識性能の強健性が
低周波数のパワー増強に向けて改善されると思われる。
例えば、周波数が290Hz以下のメル・フィルタ・バ
ンクは聴感補正値を0に指定し、周波数が290Hz以
上のフィルタ・バンクは聴感補正値1に指定することが
できる。即ち、音声信号の認識に対するTrueVoi
cesmエンハンスメントの影響はMel−LPCケプス
トラル特性の計算に用いた低周波数メル・スペクトル帯
域をディエンファシシスすることによって最小にされよ
う。好ましくは、ケプストラル特性の計算が行われる期
間に閾値290Hz以下のメル・フィルタ・バンク周波
数帯域が考慮の対象にならないよう、閾値290Hzが
達成されよう。Mel−LPCケプストラル特性の処理
は290Hzまでの低周波数帯域で減衰が激しい理想的
なハイパス・フィルタ処理と考えることができる。
【0027】図4を参照すると、ステップ234に於い
て、ケプストラル特性コンピュータ217は12に適切
に設定する自動補正係数Qを形成するため平滑化したパ
ワー・スペクトルにIDCT(逆離散余弦変換)を加え
る。ステップ236で、ケプストラル特性コンピュータ
217は、例えば、ダービンの循環アルゴリズムを用い
て各一組の自動補正係数を先ずLPC係数に変換し、次
いで、標準LPC〜ケプストラル循環を採用ししてケプ
ストラル・パラメータに変換する。ケプストラル・ベク
トルのディメンションは適切に12に設定する。最後に
ステップ238では、認識装置204はモデル・メモリ
206に記憶した認識モデルを補正したエンハンスメン
ト音声信号に対応するもので、計算で求めたケプストラ
ル特性にマッチングを試み、当該技術では従来的なのだ
が、さらにステーション・セットS2にルーチングがな
されるよう、特性マッチング動作を表すデータを出力す
る。
【0028】Mel−LPCケプストラル特性計算技術
は音声信号のエンハンスメントに向けた優れた強健性を
提供でき、エンハンスメントが行わなわれず、Mel−
LPCケプソトル特性が音声信号に対し行われた特定の
エンハンスメントを補正するときでもASR性能に悪影
響をおよぼさないことがあることに留意されたい。異な
るフィルタと異なる遮断周波数を用いて音声信号のエン
ハンスメントを補正するメル・フィルタ・バンク処理を
用いる本発明技術の実施ができることを理解されたい。
さらに、音声スペクトルに対する微修正を含む信号のエ
ンハンスメントに備え、Mel−LPCケプストラル特
性を計算するような強健性に優れた前置システムによれ
ば、エンハンスした音声信号を用いて学習が行われなか
った認識モデルに一致することになる音声信号の特徴を
計算するために必要な何らかの方法に従って、音声スペ
クトルを変化させる音声認識システムへのアクセスが容
易に行われることにも注目する。
【0029】前記に提示し、説明した本発明の実施例と
その変更は本発明だけの原理を例証するものであり、本
発明の範囲と精神から逸脱することなく当該技術に精通
した者であれば様々な修正を加え得ることを理解された
い。
【図面の簡単な説明】
【図1】エンハンスした音声信号に対し本発明に従って
行う音声認識処理に適した改良型電気通信網のブロック
図である。
【図2】エンハンスした音声信号のMel−LPCケプ
ストラル特性を本発明に従って計算することによって音
声認識を行うため図1に記載するシステムに含めること
のできる音声信号プロセッサのブロック図である。
【図3】例示として引用した補正済み特性抽出装置のブ
ロック図である。
【図4】エンハンスした音声信号のMel−LPCケプ
ストラル特性を計算する本発明技術に従って行う音声認
識の方法を解説するフローチャートである。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ジェイ ゴードン ウィルポン アメリカ合衆国 07060 ニュージャーシ ィ,ウォーレン,ラウンド トップ ロー ド 75

Claims (46)

    【特許請求の範囲】
  1. 【請求項1】 音声認識性能を最適化するための音声信
    号のエンハンスメントを補正する方法であって、 音声信号に周波数利得変動をもたらすオーディオ・エン
    ハンサーによってエンハンスした音声信号を受信するス
    テップと、 該エンハンスした音声信号を周波数領域の表示に変換す
    るステップと、 該エンハンスした音声信号の周波数領域の表示を用い
    て、該エンハンサーが該音声信号にもたらした該利得変
    動を補正するステップと、 該補正するステップによってエンハンスした該音声信号
    が補正された後に、該音声信号のケプストラル特性を計
    算するステップと、を含む方法。
  2. 【請求項2】 認識装置メモリに記憶した認識モデルと
    該特性を比較するステップをさらに含む請求項1に記載
    の方法。
  3. 【請求項3】 該エンハンサーによってエンハンスされ
    ない音声信号を使用し、該認識モデルの学習が行われた
    請求項2に記載の方法。
  4. 【請求項4】 補正する該ステップが、補正したMel
    −LPC係数を計算するステップをさらに含み、補正し
    たMel−LPC係数を計算する該ステップが、 スペクトルの平坦化をするため、エンハンスした該音声
    信号をプリエンファシスするステップと、 エンハンスした該音声信号を音声サンプルの連続フレー
    ムに閉塞するステップと、 ハミング・ウィンドによってこの各フレームを乗算する
    ステップと、 ハミング・ウィンド・フレームの各々を時間の表示から
    周波数領域の表示に変換するステップと、 聴感補正をした一組のメル・フィルタ・バンクを介し該
    周波数領域の表示の各々をフィルタ処理するステップ
    と、 該フィルタ処理した周波数領域の表示から自動補正係数
    を生成するステップと、をさらに含む請求項1に記載の
    方法。
  5. 【請求項5】 該自動補正係数をLPC係数に変換する
    ステップと、 該LPC係数からケプストラル・パラメータを計算する
    ステップと、をさらに含む請求項4に記載の方法。
  6. 【請求項6】 特定周波数以下のメル・フィルタ・バン
    クでは減衰が生じる請求項4に記載の方法。
  7. 【請求項7】 特定周波数がほぼ290Hzである請求
    項6に記載の方法。
  8. 【請求項8】 音声認識性能を最適化するため音声信号
    のエンハンスメントを補正するシステムであって、 ネットワーク経路から伝送される時変音声信号の指定周
    波数の利得を選択的に変化させるエンハンサーと、 該エンハンスした音声信号を受信する受信機と、 該受信機で受信した該エンハンスした音声信号を周波数
    領域の表示に変換する周波数領域変換装置と、 該エンハンサーによってエンハンスした該音声信号の周
    波数領域表示を受信し、ネットワーク経路から伝送され
    てくる音声信号の周波数領域表示に利得の変動をもたら
    し、該エンハンサーによって音声信号にもたらされた利
    得の変動を補正する補正装置と、 該エンハンスした音声信号の補正した周波数領域の表示
    からケプストラル特性を計算するケプストラル特性コン
    ピュータとから成ることを特徴とするシステム。
  9. 【請求項9】 さらに、該ケプストラル特性コンピュー
    タから該ケプストラル特性を受信する認識装置から成る
    請求項8に記載のシステム。
  10. 【請求項10】 該エンハンサーによってエンハンスさ
    れなかった音声信号を用いネットワーク経路上において
    学習が行われ、該認識装置が認識装置メモリに記憶した
    認識モデルと該特徴とを比較する請求項9に記載のシス
    テム。
  11. 【請求項11】 該補正装置が該エンハンスした音声信
    号の周波数領域の表示を聴感補正した一組のメル・フィ
    ルタ・バンクに通過させる請求項8に記載のシステム。
  12. 【請求項12】 該ケプストラル特性コンピュータが該
    補正した周波数領域の表示から自動補正係数を生成する
    請求項11に記載のシステム。
  13. 【請求項13】 該ケプスタル特性コンピュータが、さ
    らに、 該自動補正係数をLPC係数に変換するステップと、 該LPC係数から該ケプスタル特性を計算するステップ
    の動作を実行する請求項12に記載のシステム。
  14. 【請求項14】 特定周波数以下の該メル・フィルタ・
    バンクでは減衰が生じる請求項12に記載のシステム。
  15. 【請求項15】 該特定周波数がほぼ290Hzである
    請求項14に記載のシステム。
  16. 【請求項16】 音声認識性能を最適化するため、コン
    ピュータ計算システムを用い、第一エンハンサーによっ
    てエンハンスした音声信号の補正したケプストラル特性
    を計算する方法であって、該コンピュータ計算システム
    はメモリと少なくとも一つのプロセッサから成り、該メ
    モリにはメル・フィルタ・バンク聴感補正値が含まれ、 該エンハンスした音声信号を該プロセッサに於いて受信
    するステップと、 スペクトルを平坦化するため、該エンハンスした音声信
    号をプリエンファシスするステップと、 該エンハンスした音声信号を音声サンプルの連続フレー
    ムに閉塞するステップと、 ハミング・ウィンドによって該フレーム各々を乗算する
    ステップと、 ハミング・ウィンド・フレームの各々を時間の表示から
    周波数領域の表示に変換するステップと、 該メモリに記憶した該メル・フィルタ・バンク聴感補正
    値を用い、該周波数領域の表示の各々をフィルタ処理す
    るステップと、 該フィルタ処理した周波数領域の表示から自動補正係数
    を生成するステップと、 該自動補正係数をLPC係数に変換するステップと、 該LPC係数からケプストラル・パラメータを計算する
    ステップと、を含む方法。
  17. 【請求項17】 該特性と認識装置メモリに記憶した認
    識モデルと比較するステップとをさらに含む請求項16
    に記載の方法。
  18. 【請求項18】 エンハンスされていない音声信号を用
    い、該認識モデルの学習が行われた請求項17に記載の
    方法。
  19. 【請求項19】 特定周波数以下の該メル・フィルタ・
    バンクの該値が減衰される請求項16に記載の方法。
  20. 【請求項20】 該特定周波数がほぼ290Hzである
    請求項19に記載の方法。
  21. 【請求項21】 さらに、第二エンハンサーによって音
    声信号に行われたエンハンスメントを補正するため、該
    メモリに記憶した該メル・フィルタ・バンク聴感補正値
    を変更するステップを含み、該第二エンハンサーが該第
    一エンハンサーによって行われる該エンハンスメントと
    は異なるエンハンスメントをする請求項16に記載の方
    法。
  22. 【請求項22】 コンピュータ計算システムを用い、音
    声信号の補正したケプストラル特性を計算する方法であ
    って、該コンピュータ計算システムはメモリと、少なく
    とも一つのプロセッサから成り、該メモリにはエンハン
    サーによってエンハンスした音声信号に対応するケプス
    トラル特性を計算するための補正を行うメル・フィルタ
    ・バンク聴感補正値が含まれ、 該プロセッサに於いて該音声信号を受信するステップ
    と、 スペクトルの平坦化のため、該音声信号をプリエンファ
    シスするステップと、 該音声信号を音声サンプルの連続フレームに閉塞するス
    テップと、 ハミング・ウィンドによって該フレームの各々を乗算す
    るステップと、 ハミング・ウィンド・フレームの各々を時間の表示から
    周波数領域の表示に変換するステップと、 該メモリに記憶した該メル・フィルタ・バンク聴感補正
    値を用い、該周波数領域の表示の各々をフィルタ処理す
    るステップと、 該フィルタ処理した周波数領域の表示から自動補正係数
    を生成するステップと、 該自動補正係数をLPC係数に変換するステップと、 該LPC係数から該ケプスタル・パラメータを計算する
    ステップと、を含む方法。
  23. 【請求項23】 該特性と認識装置メモリに記憶した該
    認識モデルを比較するステップとをさらに含む請求項2
    2に記載の方法。
  24. 【請求項24】 エンハンスメントが行われなかった音
    声信号を用い、該認識デルの学習が行われた請求項23
    に記載の方法。
  25. 【請求項25】 音声信号を特徴付ける音声特性信号を
    生成する特性抽出装置であって、 該音声信号を表す一
    組のスペクトル・サンプルを生成する周波数領域変換装
    置と、 該一組のスペクトル・サンプルを選択的に聴感補正する
    聴感補正ユニットと、 該聴感補正した一組のスペクトル・サンプルに準拠し、
    特性信号を特徴付ける音声を生成する特性コンピュータ
    とから成ることを特徴とする特性抽出装置。
  26. 【請求項26】 さらに、受信機から成り、該受信機を
    予備処理回路を介し該周波数量域変換装置に接続した請
    求項25に記載の装置。
  27. 【請求項27】 該予備処理回路がプリエンファシス回
    路から成ることを特徴とする請求項26に記載の装置。
  28. 【請求項28】 該予備処理回路がフレーム・ブロッカ
    ーから成ることを特徴とする請求項26に記載の装置。
  29. 【請求項29】 該予備処理回路がハミング倍率器から
    成ることを特徴とする請求項26に記載の装置。
  30. 【請求項30】 該聴感補正ユニットが選択的に聴感補
    正した一組M個のメル・フィルタ・バンクから成ること
    を特徴とする請求項25に記載の装置。
  31. 【請求項31】 音声信号を特徴付ける音声特徴信号を
    生成する方法であって、 音声信号を特徴付ける一組のスペクトル・パラメータを
    生成するステップと、 該一組のスペクトル・パラメータを聴感補正するステッ
    プと、 該聴感補正した一組のスペクトル・サンプルに準拠して
    特性信号を特徴付ける音声を生成するステップと、を含
    む方法。
  32. 【請求項32】 音声信号を認識し、該信号のネットワ
    ーク・エンハンスメントを補正するシステムであって、 エンハンスした音声信号のネットワーク・エンハンスメ
    ント成分を補正するフィルタと、 該フィルタからのフィルタ処理した音声信号に準拠し、
    特性を抽出する特性抽出装置と、 該特性抽出装置からの抽出した特性に準拠し、音声信号
    を認識する音声認識装置とから成ることを特徴とするシ
    ステム。
  33. 【請求項33】 該フィルタが選択的に聴感補正し一組
    のメル・フィルタ・バンクから成ることを特徴とする請
    求項32に記載のシステム。
  34. 【請求項34】 該特性抽出装置が線形予測符号化分析
    装置と、メル・フィルタ分析装置との複合体から成るこ
    とを特徴とする請求項32に記載のシステム。
  35. 【請求項35】 音声信号から特性信号を生成する方法
    であって、 該音声信号を受信するステップと、 該音声信号をフレームに閉塞するステップと、 該閉塞した音声信号に対し線形予測符号化とケプストラ
    ル循環分析とを複合で実行し、Mel−LPCケプスト
    ラル特性信号を発生するステップと、を含む方法。
  36. 【請求項36】 該Mel−LPCケプストラル特性と
    認識モデルを比較するステップをさらに含む請求項35
    に記載の方法。
  37. 【請求項37】 メル・フィルタ・バンクを使用して該
    閉塞した音声信号をフィルタ処理し、メル・フィルタ処
    理した信号を発生し、次いで、線形予測符号化とケプス
    トラル循環分析との複合で実行して分析するステップを
    さらに含む請求項35に記載の方法。
  38. 【請求項38】 該音声信号のスペクトルの平坦化を達
    成するため、該信号をプリエンファシスするステップを
    さらに含む請求項35に記載の方法。
  39. 【請求項39】 ハミング・ウィンドによって該フレー
    ムの各々を乗算するステップをさらに含む請求項38に
    記載の方法。
  40. 【請求項40】 該ハミング・ウィンド・フレームの各
    々を時間の表示から周波数領域の表示に変換するステッ
    プをさらに含む請求項39に記載の方法。
  41. 【請求項41】 メモリに記憶したメル・フィルタ・バ
    ンク聴感補正値を用い、周波数領域の表示の各々をフィ
    ルタ処理するスタップをさらに含む請求項40に記載の
    方法。
  42. 【請求項42】 該フィルタ処理した周波数領域の表示
    から自動補正係数を生成する該ステップをさらに含む請
    求項41に記載の方法。
  43. 【請求項43】 該線形予測符号化分析は該自動補正係
    数をLPC係数に変換すべく機能し、該ケプストラル循
    環分析は該LPC係数からケプストラル・パラメータを
    計算すべく機能する請求項42に記載の方法。
  44. 【請求項44】 音声認識性能を向上させるため音声信
    号のエンハンスメントを補正する方法であって、 音声信号に周波数利得の変動をもたらすオーディオエン
    ハンサーによってエンハンスした該音背信号を受信する
    ステップと、 該エンハンスした音声信号を周波数領域の表示に変換す
    るステップと、 該エンハンスした音声信号の該周波数領域の表示を用
    い、該エンハンサーによって該音声信号にもたらされた
    該利得の変動を補正するステップと、 該エンハンスした音声信号が該補正するステップによっ
    て補正された後に、該音声信号を特徴付ける特性信号を
    生成するステップと、を含む方法。
  45. 【請求項45】 該特性と認識装置メモリに記憶した認
    識モデルとを比較するステップをさらに含む請求項44
    に記載の方法。
  46. 【請求項46】 エンハンスした音声信号を用い、該認
    識モデルの学習が行われた請求項45に記載の方法。
JP34173896A 1995-12-20 1996-12-20 音声認識をする方法とシステム Expired - Lifetime JP4050350B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/575,378 US5806022A (en) 1995-12-20 1995-12-20 Method and system for performing speech recognition
US08/575378 1995-12-20

Publications (2)

Publication Number Publication Date
JPH09179585A true JPH09179585A (ja) 1997-07-11
JP4050350B2 JP4050350B2 (ja) 2008-02-20

Family

ID=24300085

Family Applications (1)

Application Number Title Priority Date Filing Date
JP34173896A Expired - Lifetime JP4050350B2 (ja) 1995-12-20 1996-12-20 音声認識をする方法とシステム

Country Status (5)

Country Link
US (1) US5806022A (ja)
EP (2) EP0780828B1 (ja)
JP (1) JP4050350B2 (ja)
CA (1) CA2192397C (ja)
DE (2) DE69635141T2 (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2766604B1 (fr) * 1997-07-22 1999-10-01 France Telecom Procede et dispositif d'egalisation aveugle des effets d'un canal de transmission sur un signal de parole numerique
US6076058A (en) * 1998-03-02 2000-06-13 Lucent Technologies Inc. Linear trajectory models incorporating preprocessing parameters for speech recognition
US6163765A (en) * 1998-03-30 2000-12-19 Motorola, Inc. Subband normalization, transformation, and voiceness to recognize phonemes for text messaging in a radio communication system
US6151572A (en) * 1998-04-27 2000-11-21 Motorola, Inc. Automatic and attendant speech to text conversion in a selective call radio system and method
US6571393B1 (en) * 1998-05-27 2003-05-27 The Hong Kong University Of Science And Technology Data transmission system
US6073094A (en) * 1998-06-02 2000-06-06 Motorola Voice compression by phoneme recognition and communication of phoneme indexes and voice features
US6826528B1 (en) 1998-09-09 2004-11-30 Sony Corporation Weighted frequency-channel background noise suppressor
US6658202B1 (en) * 1998-09-09 2003-12-02 Smartdisk Portable data transfer and mass storage device for removable memory modules
US6987927B1 (en) * 1998-09-09 2006-01-17 Smartdisk Corporation Enhanced digital data collector for removable memory modules
US6292776B1 (en) * 1999-03-12 2001-09-18 Lucent Technologies Inc. Hierarchial subband linear predictive cepstral features for HMM-based speech recognition
AU2297301A (en) * 1999-10-21 2001-04-30 Sony Electronics Inc. Method for implementing a noise suppressor in a speech recognition system
US20020065649A1 (en) * 2000-08-25 2002-05-30 Yoon Kim Mel-frequency linear prediction speech recognition apparatus and method
US7010480B2 (en) * 2000-09-15 2006-03-07 Mindspeed Technologies, Inc. Controlling a weighting filter based on the spectral content of a speech signal
JP4757158B2 (ja) * 2006-09-20 2011-08-24 富士通株式会社 音信号処理方法、音信号処理装置及びコンピュータプログラム
JP5150542B2 (ja) * 2009-03-26 2013-02-20 株式会社東芝 パターン認識装置、パターン認識方法、及び、プログラム
US8489632B1 (en) * 2011-06-28 2013-07-16 Google Inc. Predictive model training management
CN102723081B (zh) * 2012-05-30 2014-05-21 无锡百互科技有限公司 语音信号处理方法、语音和声纹识别方法及其装置
US9704478B1 (en) * 2013-12-02 2017-07-11 Amazon Technologies, Inc. Audio output masking for improved automatic speech recognition
CN107393554B (zh) * 2017-06-20 2020-07-10 武汉大学 一种声场景分类中融合类间标准差的特征提取方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60146399A (ja) * 1984-01-11 1985-08-02 松下電器産業株式会社 音声遠隔制御装置
JPS62217295A (ja) * 1986-03-19 1987-09-24 株式会社東芝 音声認識方式
JPH02299360A (ja) * 1989-05-12 1990-12-11 Toshiba Corp 音声認織装置
JPH04287523A (ja) * 1990-12-03 1992-10-13 American Teleph & Telegr Co <Att> 電気通信ネットワークの音声信号品質の向上方法
JPH07191696A (ja) * 1993-12-27 1995-07-28 Ricoh Co Ltd 音声認識装置
JPH07271394A (ja) * 1994-03-24 1995-10-20 At & T Corp 確実な電話音声認識のための信号バイアスの除去

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA1232686A (en) * 1985-01-30 1988-02-09 Northern Telecom Limited Speech recognition
US4914692A (en) * 1987-12-29 1990-04-03 At&T Bell Laboratories Automatic speech recognition using echo cancellation

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60146399A (ja) * 1984-01-11 1985-08-02 松下電器産業株式会社 音声遠隔制御装置
JPS62217295A (ja) * 1986-03-19 1987-09-24 株式会社東芝 音声認識方式
JPH02299360A (ja) * 1989-05-12 1990-12-11 Toshiba Corp 音声認織装置
JPH04287523A (ja) * 1990-12-03 1992-10-13 American Teleph & Telegr Co <Att> 電気通信ネットワークの音声信号品質の向上方法
JPH07191696A (ja) * 1993-12-27 1995-07-28 Ricoh Co Ltd 音声認識装置
JPH07271394A (ja) * 1994-03-24 1995-10-20 At & T Corp 確実な電話音声認識のための信号バイアスの除去

Also Published As

Publication number Publication date
US5806022A (en) 1998-09-08
EP1093112A2 (en) 2001-04-18
DE69635141T2 (de) 2006-03-09
EP0780828A3 (en) 1998-12-30
DE69616724D1 (de) 2001-12-13
EP1093112B1 (en) 2005-08-31
CA2192397A1 (en) 1997-06-21
EP1093112A3 (en) 2002-02-06
CA2192397C (en) 2001-04-03
MX9606483A (es) 1997-09-30
EP0780828A2 (en) 1997-06-25
EP0780828B1 (en) 2001-11-07
DE69616724T2 (de) 2002-04-25
DE69635141D1 (de) 2005-10-06
JP4050350B2 (ja) 2008-02-20

Similar Documents

Publication Publication Date Title
JP4050350B2 (ja) 音声認識をする方法とシステム
EP0722164B1 (en) Method and apparatus for characterizing an input signal
US7181402B2 (en) Method and apparatus for synthetic widening of the bandwidth of voice signals
CA2580622C (en) Method and device for the artificial extension of the bandwidth of speech signals
KR101378696B1 (ko) 협대역 신호로부터의 상위대역 신호의 결정
US5450522A (en) Auditory model for parametrization of speech
US7379866B2 (en) Simple noise suppression model
RU2507608C2 (ru) Устройства и способы для обработки аудио сигнала с целью повышения разборчивости речи, используя функцию выделения нужных характеристик
EP1252621B1 (en) System and method for modifying speech signals
JPH0916194A (ja) 音声信号の雑音低減方法
WO2000041169A9 (en) Method and apparatus for adaptively suppressing noise
EP3444819A1 (en) Voice signal cascade processing method and terminal, and computer readable storage medium
KR20080064557A (ko) 음성 신호의 명료도를 향상시키는 장치 및 방법
US6965860B1 (en) Speech processing apparatus and method measuring signal to noise ratio and scaling speech and noise
KR100216018B1 (ko) 배경음을 엔코딩 및 디코딩하는 방법 및 장치
Krishnamoorthy An overview of subjective and objective quality measures for noisy speech enhancement algorithms
US20060149534A1 (en) Speech coding apparatus and method therefor
JP3183104B2 (ja) ノイズ削減装置
JPH10149198A (ja) ノイズ削減装置
CN111326166B (zh) 语音处理方法及装置、计算机可读存储介质、电子设备
EP1729287A1 (en) Method and apparatus for adaptively suppressing noise
Romoli et al. A voice activity detection algorithm for multichannel acoustic echo cancellation exploiting fundamental frequency estimation
JP2003316380A (ja) 会話を含む音の信号処理を行う前の段階の処理におけるノイズリダクションシステム
MXPA96006483A (es) Metodo y sistema para realizar reconocimiento de habla
Wang A Wavelet-Based Voice Activity Detection Algorithm in Variable-Level Noise Environment

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040322

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20040622

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20040625

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040629

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20041213

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050311

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20050513

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20050603

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071129

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101207

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101207

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111207

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121207

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121207

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131207

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term