CN110322882A - 一种生成混合语音数据的方法及系统 - Google Patents
一种生成混合语音数据的方法及系统 Download PDFInfo
- Publication number
- CN110322882A CN110322882A CN201910394160.1A CN201910394160A CN110322882A CN 110322882 A CN110322882 A CN 110322882A CN 201910394160 A CN201910394160 A CN 201910394160A CN 110322882 A CN110322882 A CN 110322882A
- Authority
- CN
- China
- Prior art keywords
- data
- voice data
- mixing voice
- acquisition
- generating mixing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000002156 mixing Methods 0.000 title claims abstract description 51
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000012545 processing Methods 0.000 claims abstract description 13
- 230000008569 process Effects 0.000 claims abstract description 11
- 230000005540 biological transmission Effects 0.000 claims abstract description 8
- 238000001914 filtration Methods 0.000 claims description 19
- 238000012952 Resampling Methods 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 3
- 238000013135 deep learning Methods 0.000 abstract description 12
- 230000007812 deficiency Effects 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 description 8
- 238000013136 deep learning model Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000011161 development Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
- G10L2025/935—Mixed voiced class; Transitions
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明公开了一种生成混合语音数据的方法及系统,属于语音识别技术领域。本发明的一种生成混合语音数据的方法,先采集纯净语音和噪声,再将采集的语音数据进行归一化处理,而后对处理后的数据进行随机化处理,再对数据进行GAIN处理,最后经过滤波器处理得到混合语音数据。本发明的一种生成混合语音数据的系统,包括采集单元、计算单元和存储单元,所述采集单元与计算单元电连接,计算单元通过数据传输单元与存储单元连接。本发明的目的在于克服现有技术中,深度学习所需的音频数据匮乏的不足,提供了一种生成混合语音数据的方法及系统,可以自动生成混合语音数据,可以满足深度学习的数据需求。
Description
技术领域
本发明涉及语音识别技术领域,更具体地说,涉及一种生成混合语音数据的方法及系统。
背景技术
随着科学技术的发展,语音识别已经成为人工智能应用的一个重点,通过语音控制设备简单方便,在各个领域兴起了研究应用的热潮。数据、算法及芯片是语音识别技术的3个关键,大量优质的数据、精准快速的算法和高性能语音识别芯片是提升语音识别的核心。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术,语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面,语音识别是实现人机自由交互、推动人工智能发展的关键技术。
深度学习是机器学习中一种基于对数据进行表征学习的方法。观测值可以使用多种方式来表示,如每个像素强度值的向量,或者更抽象地表示成一系列边、特定形状的区域等。而使用某些特定的表示方法更容易从实例中学习任务。深度学习模型作为一种模拟人类大脑感知和学习外界信息的机器学习理论,将深度学习与语音识别技术相结合具有很大的研究价值和实用价值。
目前,深度学习在语音识别领域的应用在不断发展,但是在现有技术中深度学习所需的音频数据不足是较大的问题,传统方案通常是通过人工采集来收集数据,但是在实际过程中,通过人工采集的噪音很难覆盖到各个场景,人工采集周期长不利于研发,而且也提高了研发成本。综上所述,如何获取混合语音数据以满足深度学习的数据需求,是现有技术亟需解决的问题。
发明内容
1.要解决的问题
本发明的目的在于克服现有技术中,深度学习所需的音频数据匮乏的不足,提供了一种生成混合语音数据的方法及系统,可以生成批量的混合语音数据,从而可以满足深度学习的数据需求。
2.技术方案
为了解决上述问题,本发明所采用的技术方案如下:
本发明的一种生成混合语音数据的方法,先采集纯净语音和噪声,再将采集的语音数据进行归一化处理,而后对处理后的数据进行随机化处理,再对数据进行GAIN处理,最后经过滤波器处理得到混合语音数据。
更进一步地,具体步骤为:步骤一、原始数据采集,先采集纯净语音数据和噪声数据;步骤二、归一化处理,先将采集的语音数据转换成单通道数据,再对数据进行重采样,而后将数据与归一化系数相乘得到归一化处理后的数据;步骤三、随机化处理,将数据的文件序列进行随机处理;步骤四、GAIN处理,对纯净语音数据和噪声数据分别定义不同的GAIN值,其中,GAIN值的范围为0<g<1;步骤五、滤波器处理,通过滤波器对数据依次进行低通滤波处理、高通滤波处理和参数滤波处理,并得到混合语音数据。
更进一步地,步骤二中语音数据的双通道数据转为单通道数据的公式为:
Mono(x)=mean(D0(x)+D1(x))
其中,Mono(x)表示单通道数据,D0和D1分别表示音频两个通道的数据,mean表示D0和D1的平均值。
更进一步地,步骤二中重采样的指定频率为8KHz或16KHz或44.1KHz,归一化系数的值为0.767。
更进一步地,步骤五中低通滤波的频率点为0.95f,高通滤波的频率点0.005f,其中,f为语音信号的最高频率。
更进一步地,参数滤波处理过程为:先设定滤波器分子系数向量和分母系数向量n,再对数据进行滤波处理;其中,分子系数向量的范围为-1<m<1,分母系数向量的范围为-1<n<1。
更进一步地,滤波器为IIR数字滤波器。
本发明的一种生成混合语音数据的系统,包括采集单元、计算单元和存储单元,采集单元与计算单元电连接,计算单元通过数据传输单元与存储单元连接;其中,计算单元包括处理器和存储器,存储器内存有程序,该程序用于实现上述的一种生成混合语音数据的方法,处理器用于执行程序生成混合语音数据。
更进一步地,采集单元包括声音采集器和信号转换器,声音采集器与信号转换器电连接,信号转换器与计算单元电连接。
3.有益效果
相比于现有技术,本发明的有益效果为:
本发明的一种生成混合语音数据的方法,通过对纯净语音和噪声进行处理,可以自动生成批量的混合语音数据,从而提高了数据的收集速度,进而可以满足深度学习的数据需求,能够使得深度学习模型进行充分训练,提高模型的收敛速度,进一步降低实例化测试中的错误率;本发明的一种生成混合语音数据的系统可以批量生成混合语音数据,可以应用于深度学习音频领域,满足深度学习模型的数据需求,进而可以提高深度学习模型的性能。
附图说明
图1为本发明一种生成混合语音数据的方法的流程示意图;
图2为实施例1纯语音数据示意图;
图3为实施例1噪音数据示意图;
图4为实施例1生成的混合语音数据示意图;
图5为本发明一种生成混合语音数据的系统结构示意图。
示意图中的标号说明:100、采集单元;200、计算单元;300、数据传输单元;400、存储单元。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例;而且,各个实施例之间不是相对独立的,根据需要可以相互组合,从而达到更优的效果。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为进一步了解本发明的内容,结合附图和实施例对本发明作详细描述。
实施例1
结合图1所示,本发明的一种生成混合语音数据的方法,先采集纯净语音和噪声,再将采集的语音数据进行归一化处理,而后对处理后的数据进行随机化处理,再对数据进行GAIN处理,最后经过滤波器处理得到混合语音数据。具体步骤如下:
步骤一、原始数据采集
先采集纯净语音数据和噪声数据;本实施例中纯净语音是在消音室采集,纯净语音为底噪小、信噪比高的语音(如图2所示)。采集噪声通过实地采集和网络下载收集两种方式实行,值得说明的是,需要采集不同场景下的噪声,例如在办公室、街道和车站等场景进行噪声的采集(如图3所示)。
步骤二、归一化处理
先将采集的语音数据转换成单通道数据,再对数据进行重采样,而后将数据与归一化系数相乘得到归一化处理后的数据;具体地,通过以下公式将语音数据的双通道数据转为单通道数据:
Mono(x)=mean(D0(x)+D1(x))
其中,Mono(x)表示单通道数据,x为输入的语音数据,D0和D1分别表示音频两个通道的数据,mean表示D0和D1的平均值。
对数据进行重采样过程为对于原数据采样频率高于指定频率的数据进行下采样,原数据采样频率低于指定频率的数据进行上采样,本发明中重采样的指定频率为8KHz或16KHz或44.1KHz,三种指定频率所带来的效果相同,都可以避免数据冲突和造成合成语音的异常情况;值得进一步说明的是,本发明的数据格式需要进行标准化设置,本发明的数据格式为int16、float32或者float64,本实施例中的数据格式为float32。
进一步地,将数据与归一化系数相乘得到归一化处理后的数据,本发明中归一化系数的值为0.767。
步骤三、随机化处理
对归一化处理后的数据的文件序列进行随机化处理,具体地,在采集噪声数据时,采集的数据为不同场景下的数据,而每一个场景数据均存为一个文件,因此随机打乱文件顺序,即可有不同场景组合下的混合场景生成,从而能够生成更多不同的混合场景。
步骤四、GAIN处理
对数据进行GAIN处理,GAIN指的是一个标量系数,具体地,对纯语音数据和噪声数据分别定义不同的GAIN值,其中,GAIN值的范围为0<g<1;纯语音数据和噪声数据分别在GAIN值范围内随机取一实数作为各自的gain值,每生成一个混合语音文件之后,都会重新再取gain值,从而可以模拟实际应用场景中可能出现的各个信噪比,进而可以增加数据的泛化性。
步骤五、滤波器处理
通过滤波器对数据依次进行低通滤波处理、高通滤波处理和参数滤波处理,具体地,低通滤波的频率点为0.95f,高通滤波的频率点0.005f,其中,f为语音信号的最高频率,最高频率为8kHz~44.1KHz,;参数滤波处理过程为:先设定滤波器分子系数向量和分母系数向量,再对数据进行滤波处理;其中,分子系数向量的范围为-1<m<1,分母系数向量的范围为-1<n<1,本实施例中分子系数向量为0.4,分母系数向量为0.6;滤波处理后的数据为混合语音数据(如图4所示);本实施例的滤波器为IIR数字滤波器。
由于有限的数据集训练的模型往往泛化性不够,模型难以收敛,在语音降噪的实例化测试错误率较高;本发明的一种生成混合语音数据的方法,通过以上步骤能够随机生成大量的混合语音数据,生成的数据不仅还原度高而且场景覆盖面广;从而提高了数据的收集速度,进而可以满足深度学习的数据需求,能够使得深度学习模型进行充分训练,提高模型的收敛速度,进一步降低实例化测试中的错误率。
结合图5所示,本发明的一种生成混合语音数据的系统,包括采集单元100、计算单元200和存储单元400,采集单元100与计算单元200电连接,计算单元200通过数据传输单元300与存储单元400连接;具体地,采集单元100包括声音采集器和信号转换器,声音采集器与信号转换器电连接,信号转换器与计算单元200电连接。其中,声音采集器用于采集语音,信号转换器用于将环境中的声学信号转换成数字信号,本实施例中的声音采集器麦克风,信号转换器为ADC硬件芯片;计算单元200包括处理器和存储器,存储器内存有程序,该程序用于实现上述的一种生成混合语音数据的方法,处理器用于执行程序生成混合语音数据;本实施例的计算单元200为计算机;数据传输单元300用于传输数据,本实施例中数据传输单元300为传输数据的网络系统;存储单元400用于存储混合语音数据,本实施例的存储单元400通过数据传输单元300与计算单元200网络连接,可以快速的传输存储生成的混合语音数据。本发明的一种生成混合语音数据的系统可以批量生成混合语音数据,可以应用于深度学习音频领域,满足深度学习模型的数据需求,进而可以提高深度学习模型的性能。
在上文中结合具体的示例性实施例详细描述了本发明。但是,应当理解,可在不脱离由所附权利要求限定的本发明的范围的情况下进行各种修改和变型。详细的描述和附图应仅被认为是说明性的,而不是限制性的,如果存在任何这样的修改和变型,那么它们都将落入在此描述的本发明的范围内。此外,背景技术旨在为了说明本技术的研发现状和意义,并不旨在限制本发明或本申请和本发明的应用领域。
Claims (9)
1.一种生成混合语音数据的方法,其特征在于,先采集纯净语音和噪声,再将采集的语音数据进行归一化处理,而后对处理后的数据进行随机化处理,再对数据进行GAIN处理,最后经过滤波器处理得到混合语音数据。
2.根据权利要求1所述的一种生成混合语音数据的方法,其特征在于,具体步骤为:
步骤一、原始数据采集
先采集纯净语音数据和噪声数据;
步骤二、归一化处理
先将采集的语音数据转换成单通道数据,再对数据进行重采样,而后将数据与归一化系数相乘得到归一化处理后的数据;
步骤三、随机化处理
将数据的文件序列进行随机处理;
步骤四、GAIN处理
对纯净语音数据和噪声数据分别定义不同的GAIN值,其中,GAIN值的范围为0<g<1;
步骤五、滤波器处理
通过滤波器对数据依次进行低通滤波处理、高通滤波处理和参数滤波处理,并得到混合语音数据。
3.根据权利要求2所述的一种生成混合语音数据的方法,其特征在于,步骤二中语音数据的双通道数据转为单通道数据的公式为:
Mono(x)=mean(D0(x)+D1(x))
其中,Mono(x)表示单通道数据,D0和D1分别表示音频两个通道的数据,mean表示D0和D1的平均值。
4.根据权利要求2所述的一种生成混合语音数据的方法,其特征在于,步骤二中重采样的指定频率为8KHz或16KHz或44.1KHz,归一化系数的值为0.767。
5.根据权利要求2所述的一种生成混合语音数据的方法,其特征在于,步骤五中低通滤波的频率点为0.95f,高通滤波的频率点0.005f,其中,f为语音信号的最高频率。
6.根据权利要求2所述的一种生成混合语音数据的方法,其特征在于,参数滤波处理过程为:先设定滤波器分子系数向量和分母系数向量n,再对数据进行滤波处理;其中,分子系数向量的范围为-1<m<1,分母系数向量的范围为-1<n<1。
7.根据权利要求1~6任一项所述的一种生成混合语音数据的方法,其特征在于,滤波器为IIR数字滤波器。
8.一种生成混合语音数据的系统,其特征在于,包括采集单元、计算单元和存储单元,所述采集单元与计算单元电连接,计算单元通过数据传输单元与存储单元连接;其中,计算单元包括处理器和存储器,所述存储器内存有程序,该程序用于实现权利要求1~7任一项所述的一种生成混合语音数据的方法,所述处理器用于执行程序生成混合语音数据。
9.根据权利要求8所述的一种生成混合语音数据的系统,其特征在于,采集单元包括声音采集器和信号转换器,声音采集器与信号转换器电连接,信号转换器与计算单元电连接。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910394160.1A CN110322882A (zh) | 2019-05-13 | 2019-05-13 | 一种生成混合语音数据的方法及系统 |
US16/871,816 US11508397B2 (en) | 2019-05-13 | 2020-05-11 | Method and system for generating mixed voice data |
EP20173923.2A EP3739581A1 (en) | 2019-05-13 | 2020-05-11 | Method and system for generating mixed voice data |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910394160.1A CN110322882A (zh) | 2019-05-13 | 2019-05-13 | 一种生成混合语音数据的方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110322882A true CN110322882A (zh) | 2019-10-11 |
Family
ID=68119039
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910394160.1A Pending CN110322882A (zh) | 2019-05-13 | 2019-05-13 | 一种生成混合语音数据的方法及系统 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11508397B2 (zh) |
EP (1) | EP3739581A1 (zh) |
CN (1) | CN110322882A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110743075A (zh) * | 2019-11-11 | 2020-02-04 | 广州爱听贝科技有限公司 | 一种促进早产儿听觉语言大脑皮层发育的语音方法及系统 |
CN111210802A (zh) * | 2020-01-08 | 2020-05-29 | 厦门亿联网络技术股份有限公司 | 一种生成混响语音数据的方法和系统 |
CN112233663A (zh) * | 2020-09-08 | 2021-01-15 | 厦门亿联网络技术股份有限公司 | 一种用于频带扩展算法的数据生成方法、系统及存储介质 |
CN112820295A (zh) * | 2020-12-29 | 2021-05-18 | 华人运通(上海)云计算科技有限公司 | 语音处理装置和系统以及云端服务器和车辆 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US12112767B2 (en) * | 2021-05-21 | 2024-10-08 | International Business Machines Corporation | Acoustic data augmentation with mixed normalization factors |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104053094A (zh) * | 2014-05-30 | 2014-09-17 | 歌尔声学股份有限公司 | 一种有源带阻滤波电路 |
CN104469621A (zh) * | 2014-12-09 | 2015-03-25 | 青岛歌尔声学科技有限公司 | 一种语音遥控器抗干扰电路及方法 |
CN106157953A (zh) * | 2015-04-16 | 2016-11-23 | 科大讯飞股份有限公司 | 连续语音识别方法及系统 |
CN107967920A (zh) * | 2017-11-23 | 2018-04-27 | 哈尔滨理工大学 | 一种改进的自编码神经网络语音增强算法 |
CN109065072A (zh) * | 2018-09-30 | 2018-12-21 | 中国科学院声学研究所 | 一种基于深度神经网络的语音质量客观评价方法 |
CN109584895A (zh) * | 2018-12-24 | 2019-04-05 | 龙马智芯(珠海横琴)科技有限公司 | 语音降噪方法及装置 |
CN109712611A (zh) * | 2018-12-28 | 2019-05-03 | 苏州思必驰信息科技有限公司 | 联合模型训练方法及系统 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8811601B2 (en) * | 2011-04-04 | 2014-08-19 | Qualcomm Incorporated | Integrated echo cancellation and noise suppression |
US20130282372A1 (en) * | 2012-04-23 | 2013-10-24 | Qualcomm Incorporated | Systems and methods for audio signal processing |
US20190304460A1 (en) * | 2012-10-30 | 2019-10-03 | Google Technology Holdings LLC | Voice control user interface with progressive command engagement |
US9584642B2 (en) * | 2013-03-12 | 2017-02-28 | Google Technology Holdings LLC | Apparatus with adaptive acoustic echo control for speakerphone mode |
US9294839B2 (en) * | 2013-03-01 | 2016-03-22 | Clearone, Inc. | Augmentation of a beamforming microphone array with non-beamforming microphones |
US9564141B2 (en) * | 2014-02-13 | 2017-02-07 | Qualcomm Incorporated | Harmonic bandwidth extension of audio signals |
EP3276938B1 (en) * | 2015-03-27 | 2019-10-23 | Panasonic Intellectual Property Management Co., Ltd. | Imaging device |
US9928848B2 (en) * | 2015-12-24 | 2018-03-27 | Intel Corporation | Audio signal noise reduction in noisy environments |
US9936304B2 (en) * | 2016-08-23 | 2018-04-03 | Infineon Technologies Ag | Digital silicon microphone with configurable sensitivity, frequency response and noise transfer function |
US10726858B2 (en) * | 2018-06-22 | 2020-07-28 | Intel Corporation | Neural network for speech denoising trained with deep feature losses |
US11100941B2 (en) * | 2018-08-21 | 2021-08-24 | Krisp Technologies, Inc. | Speech enhancement and noise suppression systems and methods |
-
2019
- 2019-05-13 CN CN201910394160.1A patent/CN110322882A/zh active Pending
-
2020
- 2020-05-11 US US16/871,816 patent/US11508397B2/en active Active
- 2020-05-11 EP EP20173923.2A patent/EP3739581A1/en not_active Ceased
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104053094A (zh) * | 2014-05-30 | 2014-09-17 | 歌尔声学股份有限公司 | 一种有源带阻滤波电路 |
CN104469621A (zh) * | 2014-12-09 | 2015-03-25 | 青岛歌尔声学科技有限公司 | 一种语音遥控器抗干扰电路及方法 |
CN106157953A (zh) * | 2015-04-16 | 2016-11-23 | 科大讯飞股份有限公司 | 连续语音识别方法及系统 |
CN107967920A (zh) * | 2017-11-23 | 2018-04-27 | 哈尔滨理工大学 | 一种改进的自编码神经网络语音增强算法 |
CN109065072A (zh) * | 2018-09-30 | 2018-12-21 | 中国科学院声学研究所 | 一种基于深度神经网络的语音质量客观评价方法 |
CN109584895A (zh) * | 2018-12-24 | 2019-04-05 | 龙马智芯(珠海横琴)科技有限公司 | 语音降噪方法及装置 |
CN109712611A (zh) * | 2018-12-28 | 2019-05-03 | 苏州思必驰信息科技有限公司 | 联合模型训练方法及系统 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110743075A (zh) * | 2019-11-11 | 2020-02-04 | 广州爱听贝科技有限公司 | 一种促进早产儿听觉语言大脑皮层发育的语音方法及系统 |
CN111210802A (zh) * | 2020-01-08 | 2020-05-29 | 厦门亿联网络技术股份有限公司 | 一种生成混响语音数据的方法和系统 |
CN112233663A (zh) * | 2020-09-08 | 2021-01-15 | 厦门亿联网络技术股份有限公司 | 一种用于频带扩展算法的数据生成方法、系统及存储介质 |
CN112820295A (zh) * | 2020-12-29 | 2021-05-18 | 华人运通(上海)云计算科技有限公司 | 语音处理装置和系统以及云端服务器和车辆 |
Also Published As
Publication number | Publication date |
---|---|
EP3739581A1 (en) | 2020-11-18 |
US11508397B2 (en) | 2022-11-22 |
US20200365174A1 (en) | 2020-11-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110322882A (zh) | 一种生成混合语音数据的方法及系统 | |
CN110600017B (zh) | 语音处理模型的训练方法、语音识别方法、系统及装置 | |
WO2020182153A1 (zh) | 基于自适应语种进行语音识别的方法及相关装置 | |
CN109890043B (zh) | 一种基于生成式对抗网络的无线信号降噪方法 | |
CN109872276A (zh) | 用于生成图像超分辨率模型的方法和装置 | |
CN109817238A (zh) | 音频信号采集装置、音频信号处理方法和装置 | |
CN110931035B (zh) | 音频处理方法、装置、设备及存储介质 | |
CN108335694A (zh) | 远场环境噪声处理方法、装置、设备和存储介质 | |
EP4266308A1 (en) | Voice extraction method and apparatus, and electronic device | |
CN112289338B (zh) | 信号处理方法及装置、计算机设备以及可读存储介质 | |
CN105849804A (zh) | 过滤噪声的计算高效方法 | |
CN111210802A (zh) | 一种生成混响语音数据的方法和系统 | |
CN115251909B (zh) | 基于时空卷积神经网络的脑电信号评估听力的方法及装置 | |
CN111276150B (zh) | 一种基于麦克风阵列的智能语音转文字及同声翻译系统 | |
JP6099032B2 (ja) | 信号処理装置、信号処理方法及びコンピュータプログラム | |
CN113223487B (zh) | 一种信息识别方法及装置、电子设备和存储介质 | |
CN114299981B (zh) | 音频处理方法、装置、存储介质及设备 | |
CN116030824A (zh) | 一种基于深度神经网络的定向语音分离方法 | |
CN112634930B (zh) | 多通道声音增强方法、装置及电子设备 | |
JP2022133447A (ja) | 音声処理方法、装置、電子機器及び記憶媒体 | |
CN110448273B (zh) | 一种基于支持向量机的低功耗癫痫预测电路 | |
CN111144482B (zh) | 一种面向数字助听器的场景匹配方法、装置及计算机设备 | |
US11297418B2 (en) | Acoustic signal separation apparatus, learning apparatus, method, and program thereof | |
CN116982111A (zh) | 音频特征补偿方法、音频识别方法及相关产品 | |
CN115050367B (zh) | 一种说话目标定位方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |