CN108899044A - 语音信号处理方法及装置 - Google Patents

语音信号处理方法及装置 Download PDF

Info

Publication number
CN108899044A
CN108899044A CN201810845900.4A CN201810845900A CN108899044A CN 108899044 A CN108899044 A CN 108899044A CN 201810845900 A CN201810845900 A CN 201810845900A CN 108899044 A CN108899044 A CN 108899044A
Authority
CN
China
Prior art keywords
signal
voice
noise
source
maximum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810845900.4A
Other languages
English (en)
Other versions
CN108899044B (zh
Inventor
沈小正
周强
周伟达
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sipic Technology Co Ltd
Original Assignee
AI Speech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AI Speech Ltd filed Critical AI Speech Ltd
Priority to CN201810845900.4A priority Critical patent/CN108899044B/zh
Publication of CN108899044A publication Critical patent/CN108899044A/zh
Application granted granted Critical
Publication of CN108899044B publication Critical patent/CN108899044B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/802Systems for determining direction or deviation from predetermined direction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephone Function (AREA)

Abstract

本发明公开一种语音信号处理方法及装置,方法包括:获取并分离出与原始输入语音信号对应的多个源信号;对某一源信号进行预设处理区分出某一源信号中的至少一个第一语音信号和至少一个第一噪音信号;将第一语音信号输入至唤醒引擎中,并获取唤醒引擎输出的第一语音信号的置信度;基于第一语音信号中置信度最大的信号,第一语音信号中未唤醒的信号和至少一个第一噪音信号中能量最大的信号,计算置信度最大的信号和能量最大的信号信噪比;基于与至少一个第一语音信号对应的至少一个信噪比计算与某一源信号中的语音存在概率;基于与各源信号对应的语音存在概率对各源信号进行加权并利用加权后的各源信号计算原始输入信号的波达方向。

Description

语音信号处理方法及装置
技术领域
本发明属于信号处理技术领域,尤其涉及语音信号处理方法及装置。
背景技术
相关技术中,多声源强干扰下声音源定位是一个具有挑战的难题,现在业内主流的方法是估计直达声,从而获得更好的方位估计(DOA,波达方向,Direction Of Arrival)估计精度。还有一些方法,主要是对各个语音段落估计出来的DOA值进行聚类,根据类的个数和均值获得最终的结果。
估计直达声这种方法借鉴了去混响的手段,通过对语音能量进行跟踪和预测,挑选出来正确的直达声时频点,利用这些频点信息进行DOA计算。DOA聚类这类方法主要是对各段语音数据在各个频点上进行简单的DOA估计,主要的算法有MUSIC(MUITILY SIgnalClassification,多重信号分类,是一类空间谱估计算法)和ESPRIT等,然后针对各语音段各个频点估计出来的DOA值进行聚类,根据类的个数和类的均值,确定语音声源对应的DOA。上述两类方法在信噪比低于-5db的场景,进行多个声源定位并不能具有较好的性能。
发明人在实现本申请的过程中发现:直达声估计的算法,存在的缺陷主要是无法做到与内容相关,在大部分强扰场景下,干扰声源的能量远大于目标声源,强干扰声源的直达声和早期反射声会占据大量的时频信息,因此最终获得的多个DOA值并不能得到目标声源信息。DOA聚类这类算法,主要是考虑语音信号具有的稀疏特性,但是在多声源强干扰场景下,稀疏特性会变的较差,单个语音段单个时频点上的估计出来的DOA会不准确,比如music算法在这样的场景下协方差矩阵发生畸变,不能够进行多声源的DOA估计,其次这种聚类方法,不能很好的确定类的个数,无法进行准确有效的声源数目估计。
发明内容
本发明实施例提供一种语音信号处理方法及装置,用于至少解决上述技术问题之一。
第一方面,本发明实施例提供一种语音信号处理方法,包括:
获取并分离出与原始输入语音信号对应的多个源信号;
对某一源信号进行预设处理区分出所述某一源信号中的至少一个第一语音信号和至少一个第一噪音信号;
将所述第一语音信号输入至唤醒引擎中,并获取所述唤醒引擎输出的所述第一语音信号的置信度,其中,所述唤醒引擎能够被置信度大于或等于阈值的唤醒词唤醒;
基于所述第一语音信号中置信度最大的信号,所述第一语音信号中未唤醒的信号和所述至少一个第一噪音信号中能量最大的信号,计算所述置信度最大的信号和所述能量最大的信号信噪比;
基于与所述至少一个第一语音信号对应的至少一个信噪比计算与所述某一源信号中的语音存在概率;
基于与各源信号对应的语音存在概率对所述各源信号进行加权并利用加权后的所述各源信号计算所述原始输入信号的波达方向。
第二方面,本发明实施例提供一种语音信号处理装置,包括:
分离模块,配置为获取并分离出与原始输入语音信号对应的多个源信号;
区分模块,配置为对某一源信号进行预设处理区分出所述某一源信号中的至少一个第一语音信号和至少一个第一噪音信号;
唤醒模块,配置为将所述第一语音信号输入至唤醒引擎中,并获取所述唤醒引擎输出的所述第一语音信号的置信度,其中,所述唤醒引擎能够被置信度大于或等于阈值的唤醒词唤醒;
信噪比计算模块,配置为基于所述第一语音信号中置信度最大的信号,所述第一语音信号中未唤醒的信号和所述至少一个第一噪音信号中能量最大的信号,计算所述置信度最大的信号和所述能量最大的信号信噪比;
概率计算模块,配置为基于与所述至少一个第一语音信号对应的至少一个信噪比计算与所述某一源信号中的语音存在概率;
方向计算模块,配置为基于与各源信号对应的语音存在概率对所述各源信号进行加权并利用加权后的所述各源信号计算所述原始输入信号的波达方向。
第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的方法的步骤。
第四方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行本发明任一实施例的方法的步骤。
本申请通过对原始输入信号进行处理,得到多个源信号,之后利用唤醒引擎筛选出某一源信号中置信度最大的语音信号,用于计算信噪比,利用该信噪比计算语音存在概率,再根据语音存在概率对波达方向的计算进行加权,由于在前面的步骤中,经过多重处理提取出来的语音信号更加准确,排除掉很多干扰项,可以极大地提高最后计算结果的准确率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的一种语音信号处理方法的流程图;
图2为本发明一实施例提供的另一种语音信号处理方法的流程图;
图3为本发明一实施例提供的又一种语音信号处理方法的流程图;
图4为现有技术中关于时域和频域示意图;
图5为本发明一实施例提供的一种语音信号处理方法的具体实现图;
图6为本发明一实施例提供的一种语音信号处理装置的框图;
图7是本发明一实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面,先介绍本申请的实施方式,之后将用实验数据证实本申请的方案与现有技术相比有什么不同,能实现什么有益效果。
请参考图1,其示出了本申请的语音信号处理方法一实施例的流程图,本实施例的语音信号处理方法可以适用于智能音箱、智能电视等需要进行语音交互的设备中。
如图1所示,在步骤101中,获取并分离出与原始输入语音信号对应的多个源信号;
在步骤102中,对某一源信号进行预设处理区分出某一源信号中的至少一个第一语音信号和至少一个第一噪音信号;
在步骤103中,将第一语音信号输入至唤醒引擎中,并获取唤醒引擎输出的第一语音信号的置信度,其中,唤醒引擎能够被置信度大于或等于阈值的唤醒词唤醒;
在步骤104中,基于第一语音信号中置信度最大的信号,第一语音信号中未唤醒的信号和至少一个第一噪音信号中能量最大的信号,计算置信度最大的信号和能量最大的信号信噪比;
在步骤105中,基于与至少一个第一语音信号对应的至少一个信噪比计算与某一源信号中的语音存在概率;
在步骤106中,基于与各源信号对应的语音存在概率对各源信号进行加权并利用加权后的各源信号计算原始输入信号的波达方向。
在本实施例中,对于步骤101,语音信号处理装置获取并分离出与原始输入语音信号对应的多个源信号,具体的,智能音箱等设备一般都具有两个或多个麦克风,从而可以根据从各个麦克风采集的语音信号来确定语音的方位,本步骤中可以将采集的原始语音信号分离成预定方向的多个信号,从而可以对每一个方向的源信号进行单独的处理。对于步骤102,从源信号中处理区分出至少一个第一语音信号和至少一个噪音信号,从而实现简单地第一次语音和噪音区分。之后,对于步骤103,将第一语音信号输入至唤醒引擎中,并获取唤醒引擎发回的唤醒结果,该结果例如为个第一语音信号的置信度或者是否唤醒该唤醒引擎,这样可以从该第一语音信号中进一步择出不能唤醒唤醒引擎的声音,这些语音虽然可能也是人声,但不是专门用来唤醒的声音,所以不是针对智能音箱的声音,可能只是普通的谈话声等,这样做可以有效地减少噪音对最终说话人方向计算的干扰。之后,对于步骤104,计算消除了多种噪音之后的置信度最大的语音信号对于之前消除的多种噪音中能量最大的噪音信号的信噪比,由于消除了多种噪音的干扰,所以该信噪比会比较准确。之后,对于步骤105,一个源信号里面可能包含多个第一语音信号,计算每一个第一语音信号对应的信噪比,和信噪比对应的语音存在概率。然后,对于步骤106,一个原始输入语音信号在开始的时候被分成了多个源信号进行计算,此时需要计算最终的方向,因此基于与各源信号对应的语音存在概率对各源信号进行加权并利用加权后的各源信号计算原始输入信号的波达方向。
本实施例的方法,通过多种方式择出多重噪音,将各种不同的来源的噪音排除在外,最后计算的信噪比会比较准确,从而根据该信噪比计算的语音存在概率也会更精确,之后利用该语音存在概率对最后的波达方向计算进行加权,可以极大地提高最后计算出来的方向的准确性。
进一步参考图2,其示出了本申请一实施例提供的另一种语音信号处理方法的流程图,该流程图主要是对流程图1中步骤105进一步细化的流程步骤,同样可以适用于智能音箱、电视、儿童玩具等需要语音交互和唤醒的智能设备。
如图2所示,在步骤201中,比较与第一语音信号对应的信噪比是否小于预设信噪比,当不小于时,定义第一语音信号中的语音存在概率为1,当小于时,定义第一语音信号中的语音存在概率为0;
在步骤202中,基于上述定义计算与某一源信号对应的至少一个第一语音信号的语音存在概率。
在本实施例中,对于步骤201,通过比较信噪比是否小于预设信噪比,来定义与第一语音信号对应的存在概率,小于时存在概率定义为0,不小于时存在概率定义为1,之后,在步骤202中,将一个源信号中所有的语音信号中的语音存在概率加起来就能计算出该源信号对应的语音存在概率。例如,该源信号Y1中包含多个第一语音信号S1、S2、S2,之后计算得到第一语音信号S1中的语音存在概率为1,S2对应的为1,S3对应的为0,从而可以计算出源信号Y1中的语音存在概率为(1+1+0)/3=2/3。还可以以同样的方式计算出其他各个源信号中的语音存在概率,在此不再赘述。
进一步参考图3,其示出了本申请一实施例提供的又一种语音信号处理方法的流程图。该流程图主要是对流程图1中的步骤104的进一步细化的步骤的流程图。
如图3所示,在步骤301中,将第一语音信号中能够唤醒且置信度最大的信号确定为与唤醒词对应的第二语音信号,将第一语音信号中无法唤醒的信号确定为第二噪音信号;
在步骤302中,从至少一个第一噪声信号和第二噪声信号中选取时频点上能量最大的信号为第三噪声信号;
在步骤303中,计算第二语音信号和第三噪声信号的信噪比。
在本实施例中,对于步骤301,语音信号处理装置将第一语音信号中能够唤醒上述的唤醒引擎且置信度最大的信号确定为与该唤醒引擎的唤醒词对应的第二语音信号,将第一语音信号中无法唤醒该唤醒引擎的信号确定为第二噪声信号。然后在步骤302中,对于之前分出来的噪声信号:第一噪声信号和第二噪声信号,选取里面时频点上能量最大的信号作为第三噪声信号。最后,在步骤303中,计算第二语音信号和第三语音信号的信噪比。通过上述方式,可以得出与唤醒词对应的语音信号的信噪比,从而可以排除其他语音带来的误差,计算出来的信噪比准确度更高。
在一些可选的实施例中流程图1中步骤101进一步包括:获取并分离出与原始输入语音信号对应的多个源信号,获取目标说话人的原始输入语音信号;对原始输入语音信号进行盲源分离,得到多个源信号。从而通过盲源分离的方式将原始输入语音信号分离成多个不同预定方向的源信号,便于后续对每一个源信号进行分别处理。
在另一些可选的实施例中,预设处理为基频提取,从而通过基频提取可以区分出源信号中的语音信号和噪声信号。
下面对现有技术可能采用的解决方案进行一下简单的说明,以使本领域技术人员更好地理解本申请的方案。
其中,图4示出了语音信号领域常见的时域、频域的概念,可以便于技术人员更好地理解本申请的方案。
人工智能行业主要通过语音唤醒来获得用户DOA,用户即目标声源,强干扰主要包括电视机、音箱等,为了解决多声源强干扰下用户的语音交互,麦克风阵列需要在侦听阶段给出唤醒结果的同时给出用户的DOA。解决这些问题通常的方案是估计直达声,利用这个直达声存在概率信息去进行加权,估计出来最终的DOA。或者通过对多语音段各个频点上的DOA进行聚类。因为信号处理和机器学习很难直接的联系在一起,而且算法中单一使用其中一个很难解决问题,因此需要做DOA估计的时候,做到与唤醒词内容相关。
上面这些缺陷主要存在的问题就是没有做到与唤醒词相关,强干扰场景下直达声估计出来的时频点绝大部分是干扰源存在的,聚类方法在语音稀疏性较差的情况下性能很差。通过对采集得到的信号进行盲源分离,对分离出来的多路信号,通过提取基频的方法获取相应几路语音信号,并且将语音信号送入唤醒模型,将能够唤醒的语音信号标记为了唤醒词对应的语音信号,不能够唤醒的语音信号标记为了噪声信号,通过计算信号比,选取唤醒词语音存在概率较高的时频点,进行DOA计算,确定目标语音正确的DOA。
具体可以参考图5,如图所示:
(1)麦克风阵列采集模块,主要使用双麦克风阵列或者圆形六麦进行采集,在保证一致性和同步性的条件下,获取原始的输入信号。
麦克风的一致性,主要通过播放扫频波,固定频率各个麦克风处测到的声压级差异在1.5db以下。同步性主要是保证各个通道接受到的数据之间的同步,在硬件设计过程中保真时钟的同步。
这里拿圆形六麦举例,一秒钟接受到的数据表示为Y,采样率为16000,Y是6*16000的矩阵。
(2)对麦克风阵列采集到的信号,进行空域的盲源分离,这个模块主要使用了成熟的语音分离算法,不再详细描述。
空域的盲源分离是指利用麦克风阵列的空间摆放信息,假设各个声源传递到麦克风阵列的信号是统计独立的,基于分离后信号独立性测度最大化的准则,采用线性分离系统对麦克风阵列接受到的信号进行处理。
盲源分离之后获得多个源信号Y1、Y2、Y3、Y4等,每个源信号为一个向量。
(3)语音判断模块,通过提取基频的方法,区分语音信号和非语音的噪声信号,将语音信号送入语音唤醒模块。
通过这个步骤区分出语音信号S1、S2、S3等,获得噪声信号N1、N2、N3等。
(4)语音唤醒模块采用深度学习的方法,训练指定唤醒词的唤醒模型,输出多个语音信号对应的置信度。置信度高于唤醒词阈值的信号认为是唤醒词对应的语音信号,低于唤醒词阈值的信号认为是噪声信号。进一步的,也可以直接利用唤醒来衡量。
对上一步骤的语音信号进行唤醒判断,低于唤醒阈值的语音信号判断为噪声,生成新的语音信号S1、S2、S3等,噪声信号N1、N2、N3等。
(5)唤醒词语音信噪比计算模块,通过选取唤醒词对应的语音信号中置信度最高的信号为信号,通过在频域进行能量比较,选取时频点上能量最大的噪声信号为最终的噪声,计算信噪比。
在能够唤醒的多路语音信号中选取置信度最高的作为唤醒词目标语音
噪声指的是前面步骤获得的噪声信号,通过在频域进行能量比较,选取时频点上能量最大的噪声信号为最终的噪声。
在上面步骤中的语音信号集S1、S2、S3中,选取置信度最大的为唤醒词目标语音信号S;对噪声信号集N1、N2、N3,做短时傅立叶变换,获得对应频域数据N1(k,b)、N□(k,b)、N□(k,b),k表示对应的帧号,b表示对应的频点。在每一帧每频点上比较噪声集的能量abs(N1(k,b))2、abs(N□(k,b))2、abs(N3(k,b))2,取最大值重构出噪声的能量Np(k,b)。對语音信号S做短时傅立叶变换S(k,b),求得语音信号的能量Sp(k,b)。计算唤醒词语对应的目标语音的信噪比SNR(k,b)=Sp(k,b)/Np(k,b)。
(6)通过选取信噪比大于指定阈值的时频点为指定唤醒词对应的时频点,根据这个选取的时频点,进行语音存在概率计算。
每个时频点上计算的目标语音信噪比和对应阈值进行比较,对于大于阈值的时频点认为目标语音的存在概率为1,小于阈值的时频点认为目标语音的存在概率为0,获得最终存在概率P(k,b)。
(7)利用目标语音存在的概率,对阵列输入的信号进行加权,获得最终的目标语音DOA。
因为语音信号是一种宽带信号,计算DOA的方法区别于传统的雷达声纳等领域。语音信号一般通过短时傅立叶变换,利用子带滤波的方法进行方位估计,
这类方法有TDOA和ISM等,都是比较成熟的方法,不再详述。通过将目标语音存在概率P(k,b)作为权重带入到TDOA计算中,最终获得的能量最大的DOA是唤醒词对应的目标说话人的位置,很好的将方位估计和唤醒词信息进行了融合。
比如进行MUSIC计算的时候,对协方差矩阵进行加权,确保整个协方差矩阵的计算出来的信号子空对应唤醒词的信号子空间。
在一些备选方案中,可以通过带噪的唤醒词语音去训练唤醒模型,直接在时频域获得唤醒词对应的语音存在概率。但是这种方法会导致最终的唤醒模型性能较差。
通过本申请的上述方案,能够更好地提高智能音箱语音交互的体验,并且具有较小的计算量,适合人工智能相关的芯片采用。
请参考图6,其示出了本发明一实施例提供的一种语音信号处理装600置,包括分离模块610、区分模块620、唤醒模块630、信噪比计算模块640、概率计算模块650和方向计算模块660。
其中,分离模块610,配置为获取并分离出与原始输入语音信号对应的多个源信号;区分模块620,配置为对某一源信号进行预设处理区分出某一源信号中的至少一个第一语音信号和至少一个第一噪音信号;唤醒模块630,配置为将第一语音信号输入至唤醒引擎中,并获取唤醒引擎输出的第一语音信号的置信度,其中,唤醒引擎能够被置信度大于或等于阈值的唤醒词唤醒;信噪比计算模块640,配置为基于第一语音信号中置信度最大的信号,第一语音信号中未唤醒的信号和至少一个第一噪音信号中能量最大的信号,计算置信度最大的信号和能量最大的信号信噪比;概率计算模块650,配置为基于与至少一个第一语音信号对应的至少一个信噪比计算与某一源信号中的语音存在概率;以及方向计算模块660,配置为基于与各源信号对应的语音存在概率对各源信号进行加权并利用加权后的各源信号计算原始输入信号的波达方向。
在一些可选的实施例中,概率计算模块650配置为:比较与第一语音信号对应的信噪比是否小于预设信噪比,当不小于时,定义第一语音信号中的语音存在概率为1,当小于时,定义第一语音信号中的语音存在概率为0;基于上述定义计算与某一源信号对应的至少一个第一语音信号的语音存在概率。
在一些可选的实施例中,信噪比计算模块640配置为:将第一语音信号中能够唤醒且置信度最大的信号确定为与唤醒词对应的第二语音信号,将第一语音信号中无法唤醒的信号确定为第二噪音信号;从至少一个第一噪声信号和第二噪声信号中选取时频点上能量最大的信号为第三噪声信号;以及计算第二语音信号和第三噪声信号的信噪比。
应当理解,图6中记载的诸模块与参考图1、图2、图3和图4中描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作和特征以及相应的技术效果同样适用于图6中的诸模块,在此不再赘述。
值得注意的是,本公开的实施例中的模块并不用于限制本公开的方案,例如分离模块可以描述为获取并分离出与原始输入语音信号对应的多个源信号的模块。另外,还可以通过硬件处理器来实现相关功能模块,例如分离模块也可以用处理器实现,在此不再赘述。
在另一些实施例中,本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的语音信号处理和使用方法;
作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
获取并分离出与原始输入语音信号对应的多个源信号;
对某一源信号进行预设处理区分出所述某一源信号中的至少一个第一语音信号和至少一个第一噪音信号;
将所述第一语音信号输入至唤醒引擎中,并获取所述唤醒引擎输出的所述第一语音信号的置信度,其中,所述唤醒引擎能够被置信度大于或等于阈值的唤醒词唤醒;
基于所述第一语音信号中置信度最大的信号,所述第一语音信号中未唤醒的信号和所述至少一个第一噪音信号中能量最大的信号,计算所述置信度最大的信号和所述能量最大的信号信噪比;
基于与所述至少一个第一语音信号对应的至少一个信噪比计算与所述某一源信号中的语音存在概率;
基于与各源信号对应的语音存在概率对所述各源信号进行加权并利用加权后的所述各源信号计算所述原始输入信号的波达方向。
作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本发明实施例中的语音信号处理方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中,当被处理器执行时,执行上述任意方法实施例中的语音信号处理方法。
非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据语音信号处理装置的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至语音信号处理装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本发明实施例还提供一种计算机程序产品,计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,使计算机执行上述任一项语音信号处理方法。
图7是本发明实施例提供的电子设备的结构示意图,如图7所示,该设备包括:一个或多个处理器710以及存储器720,图7中以一个处理器710为例。语音信号处理方法的设备还可以包括:输入装置730和输出装置740。处理器710、存储器720、输入装置730和输出装置740可以通过总线或者其他方式连接,图7中以通过总线连接为例。存储器720为上述的非易失性计算机可读存储介质。处理器710通过运行存储在存储器720中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例语音信号处理方法。输入装置730可接收输入的数字或字符信息,以及产生与信息投放装置的用户设置以及功能控制有关的键信号输入。输出装置740可包括显示屏等显示设备。
上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。
作为一种实施方式,上述电子设备可以应用于智能语音对话平台中,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:
获取并分离出与原始输入语音信号对应的多个源信号;
对某一源信号进行预设处理区分出所述某一源信号中的至少一个第一语音信号和至少一个第一噪音信号;
将所述第一语音信号输入至唤醒引擎中,并获取所述唤醒引擎输出的所述第一语音信号的置信度,其中,所述唤醒引擎能够被置信度大于或等于阈值的唤醒词唤醒;
基于所述第一语音信号中置信度最大的信号,所述第一语音信号中未唤醒的信号和所述至少一个第一噪音信号中能量最大的信号,计算所述置信度最大的信号和所述能量最大的信号信噪比;
基于与所述至少一个第一语音信号对应的至少一个信噪比计算与所述某一源信号中的语音存在概率;
基于与各源信号对应的语音存在概率对所述各源信号进行加权并利用加权后的所述各源信号计算所述原始输入信号的波达方向。
本申请实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子装置。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种语音信号处理方法,包括:
获取并分离出与原始输入语音信号对应的多个源信号;
对某一源信号进行预设处理区分出所述某一源信号中的至少一个第一语音信号和至少一个第一噪音信号;
将所述第一语音信号输入至唤醒引擎中,并获取所述唤醒引擎输出的所述第一语音信号的置信度,其中,所述唤醒引擎能够被置信度大于或等于阈值的唤醒词唤醒;
基于所述第一语音信号中置信度最大的信号,所述第一语音信号中未唤醒的信号和所述至少一个第一噪音信号中能量最大的信号,计算所述置信度最大的信号和所述能量最大的信号信噪比;
基于与所述至少一个第一语音信号对应的至少一个信噪比计算与所述某一源信号中的语音存在概率;
基于与各源信号对应的语音存在概率对所述各源信号进行加权并利用加权后的所述各源信号计算所述原始输入信号的波达方向。
2.根据权利要求1所述的方法,其中,所述基于与所述至少一个第一语音信号对应的至少一个信噪比计算与所述某一源信号中的语音存在概率包括:
比较与所述第一语音信号对应的信噪比是否小于预设信噪比,当不小于时,定义所述第一语音信号中的语音存在概率为1,当小于时,定义所述第一语音信号中的语音存在概率为0;
基于上述定义计算与所述某一源信号对应的至少一个第一语音信号的语音存在概率。
3.根据权利要求1所述的方法,其中,所述基于所述第一语音信号中置信度最大的信号,所述第一语音信号中未唤醒的信号和所述至少一个第一噪音信号中能量最大的信号,计算所述置信度最大的信号和所述能量最大的信号信噪比包括:
将所述第一语音信号中能够唤醒且置信度最大的信号确定为与所述唤醒词对应的第二语音信号,将所述第一语音信号中无法唤醒的信号确定为第二噪音信号;
从所述至少一个第一噪声信号和所述第二噪声信号中选取时频点上能量最大的信号为第三噪声信号;
计算所述第二语音信号和所述第三噪声信号的信噪比。
4.根据权利要求1所述的方法,其中,所述获取并分离出与原始输入语音信号对应的多个源信号包括:
获取目标说话人的原始输入语音信号;
对所述原始输入语音信号进行盲源分离,得到多个源信号。
5.根据权利要求1-4中任一项所述的方法,其中,所述预设处理为基频提取。
6.一种语音信号处理装置,包括:
分离模块,配置为获取并分离出与原始输入语音信号对应的多个源信号;
区分模块,配置为对某一源信号进行预设处理区分出所述某一源信号中的至少一个第一语音信号和至少一个第一噪音信号;
唤醒模块,配置为将所述第一语音信号输入至唤醒引擎中,并获取所述唤醒引擎输出的所述第一语音信号的置信度,其中,所述唤醒引擎能够被置信度大于或等于阈值的唤醒词唤醒;
信噪比计算模块,配置为基于所述第一语音信号中置信度最大的信号,所述第一语音信号中未唤醒的信号和所述至少一个第一噪音信号中能量最大的信号,计算所述置信度最大的信号和所述能量最大的信号信噪比;
概率计算模块,配置为基于与所述至少一个第一语音信号对应的至少一个信噪比计算与所述某一源信号中的语音存在概率;
方向计算模块,配置为基于与各源信号对应的语音存在概率对所述各源信号进行加权并利用加权后的所述各源信号计算所述原始输入信号的波达方向。
7.根据权利要求6所述的方法,其中,所述概率计算模块配置为:
比较与所述第一语音信号对应的信噪比是否小于预设信噪比,当不小于时,定义所述第一语音信号中的语音存在概率为1,当小于时,定义所述第一语音信号中的语音存在概率为0;
基于上述定义计算与所述某一源信号对应的至少一个第一语音信号的语音存在概率。
8.根据权利要求6所述的方法,其中,所述信噪比计算模块配置为:
将所述第一语音信号中能够唤醒且置信度最大的信号确定为与所述唤醒词对应的第二语音信号,将所述第一语音信号中无法唤醒的信号确定为第二噪音信号;
从所述至少一个第一噪声信号和所述第二噪声信号中选取时频点上能量最大的信号为第三噪声信号;
计算所述第二语音信号和所述第三噪声信号的信噪比。
9.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至5任一项所述方法的步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至5任一项所述方法的步骤。
CN201810845900.4A 2018-07-27 2018-07-27 语音信号处理方法及装置 Active CN108899044B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810845900.4A CN108899044B (zh) 2018-07-27 2018-07-27 语音信号处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810845900.4A CN108899044B (zh) 2018-07-27 2018-07-27 语音信号处理方法及装置

Publications (2)

Publication Number Publication Date
CN108899044A true CN108899044A (zh) 2018-11-27
CN108899044B CN108899044B (zh) 2020-06-26

Family

ID=64352278

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810845900.4A Active CN108899044B (zh) 2018-07-27 2018-07-27 语音信号处理方法及装置

Country Status (1)

Country Link
CN (1) CN108899044B (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109360580A (zh) * 2018-12-11 2019-02-19 珠海市微半导体有限公司 一种基于语音识别的迭代去噪装置和清洁机器人
CN109410928A (zh) * 2018-12-11 2019-03-01 珠海市微半导体有限公司 一种基于语音识别的去噪方法和芯片
CN109545238A (zh) * 2018-12-11 2019-03-29 珠海市微半导体有限公司 一种基于清洁机器人的语音去噪装置及机器人
CN109584899A (zh) * 2018-12-11 2019-04-05 珠海市微半导体有限公司 一种基于语音识别的去噪装置和清洁机器人
CN109841214A (zh) * 2018-12-25 2019-06-04 百度在线网络技术(北京)有限公司 语音唤醒处理方法、装置和存储介质
CN110012331A (zh) * 2019-04-11 2019-07-12 杭州微纳科技股份有限公司 一种红外触发的远场双麦远场语音识别方法
CN110223708A (zh) * 2019-05-07 2019-09-10 平安科技(深圳)有限公司 基于语音处理的语音增强方法及相关设备
CN110459234A (zh) * 2019-08-15 2019-11-15 苏州思必驰信息科技有限公司 用于车载的语音识别方法及系统
CN110673096A (zh) * 2019-09-30 2020-01-10 北京地平线机器人技术研发有限公司 语音定位方法和装置、计算机可读存储介质、电子设备
CN111223497A (zh) * 2020-01-06 2020-06-02 苏州思必驰信息科技有限公司 一种终端的就近唤醒方法、装置、计算设备及存储介质
CN111276143A (zh) * 2020-01-21 2020-06-12 北京远特科技股份有限公司 声源定位方法、装置、语音识别控制方法和终端设备
CN111402883A (zh) * 2020-03-31 2020-07-10 云知声智能科技股份有限公司 一种复杂环境下分布式语音交互系统中就近响应系统和方法
CN112217577A (zh) * 2020-10-14 2021-01-12 哈尔滨工程大学 一种基于频点存在概率的水下通信节点唤醒信号检测方法
CN112820310A (zh) * 2019-11-15 2021-05-18 北京声智科技有限公司 一种来波方向估计方法及装置
CN113496698A (zh) * 2021-08-12 2021-10-12 云知声智能科技股份有限公司 训练数据的筛选方法、装置、设备和存储介质
CN113658593A (zh) * 2021-08-14 2021-11-16 普强时代(珠海横琴)信息技术有限公司 基于语音识别的唤醒实现方法及装置
CN113744752A (zh) * 2021-08-30 2021-12-03 西安声必捷信息科技有限公司 语音处理方法及装置
CN114639398A (zh) * 2022-03-10 2022-06-17 电子科技大学 一种基于麦克风阵列的宽带doa估计方法
CN115346527A (zh) * 2022-08-08 2022-11-15 科大讯飞股份有限公司 语音控制方法、装置、系统、车辆和存储介质
CN118395579A (zh) * 2024-06-27 2024-07-26 深圳大学 一种隧道中心线选点方法、系统、智能终端及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105009204A (zh) * 2012-12-11 2015-10-28 亚马逊技术有限公司 语音识别功率管理
CN105792074A (zh) * 2016-02-26 2016-07-20 西北工业大学 一种语音信号处理方法和装置
CN106251877A (zh) * 2016-08-11 2016-12-21 珠海全志科技股份有限公司 语音声源方向估计方法及装置
US20170278524A1 (en) * 2016-03-22 2017-09-28 International Business Machines Corporation Extraction of target speeches
CN108107403A (zh) * 2017-12-20 2018-06-01 北京声智科技有限公司 一种波达方向估计方法和装置
CN108122563A (zh) * 2017-12-19 2018-06-05 北京声智科技有限公司 提高语音唤醒率及修正doa的方法
CN108122556A (zh) * 2017-08-08 2018-06-05 问众智能信息科技(北京)有限公司 减少驾驶人语音唤醒指令词误触发的方法及装置
CN108198568A (zh) * 2017-12-26 2018-06-22 太原理工大学 一种多声源定位的方法及系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105009204A (zh) * 2012-12-11 2015-10-28 亚马逊技术有限公司 语音识别功率管理
CN105792074A (zh) * 2016-02-26 2016-07-20 西北工业大学 一种语音信号处理方法和装置
US20170278524A1 (en) * 2016-03-22 2017-09-28 International Business Machines Corporation Extraction of target speeches
CN106251877A (zh) * 2016-08-11 2016-12-21 珠海全志科技股份有限公司 语音声源方向估计方法及装置
CN108122556A (zh) * 2017-08-08 2018-06-05 问众智能信息科技(北京)有限公司 减少驾驶人语音唤醒指令词误触发的方法及装置
CN108122563A (zh) * 2017-12-19 2018-06-05 北京声智科技有限公司 提高语音唤醒率及修正doa的方法
CN108107403A (zh) * 2017-12-20 2018-06-01 北京声智科技有限公司 一种波达方向估计方法和装置
CN108198568A (zh) * 2017-12-26 2018-06-22 太原理工大学 一种多声源定位的方法及系统

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109360580A (zh) * 2018-12-11 2019-02-19 珠海市微半导体有限公司 一种基于语音识别的迭代去噪装置和清洁机器人
CN109410928A (zh) * 2018-12-11 2019-03-01 珠海市微半导体有限公司 一种基于语音识别的去噪方法和芯片
CN109545238A (zh) * 2018-12-11 2019-03-29 珠海市微半导体有限公司 一种基于清洁机器人的语音去噪装置及机器人
CN109584899A (zh) * 2018-12-11 2019-04-05 珠海市微半导体有限公司 一种基于语音识别的去噪装置和清洁机器人
CN109360580B (zh) * 2018-12-11 2022-01-04 珠海一微半导体股份有限公司 一种基于语音识别的迭代去噪装置和清洁机器人
CN109584899B (zh) * 2018-12-11 2022-02-08 珠海一微半导体股份有限公司 一种基于语音识别的去噪装置和清洁机器人
CN109410928B (zh) * 2018-12-11 2022-03-04 珠海一微半导体股份有限公司 一种基于语音识别的去噪方法和芯片
CN109545238B (zh) * 2018-12-11 2022-05-10 珠海一微半导体股份有限公司 一种基于清洁机器人的语音去噪装置
CN109841214A (zh) * 2018-12-25 2019-06-04 百度在线网络技术(北京)有限公司 语音唤醒处理方法、装置和存储介质
CN109841214B (zh) * 2018-12-25 2021-06-01 百度在线网络技术(北京)有限公司 语音唤醒处理方法、装置和存储介质
US11257497B2 (en) 2018-12-25 2022-02-22 Baidu Online Network Technology (Beijing) Co., Ltd. Voice wake-up processing method, apparatus and storage medium
CN110012331A (zh) * 2019-04-11 2019-07-12 杭州微纳科技股份有限公司 一种红外触发的远场双麦远场语音识别方法
CN110223708A (zh) * 2019-05-07 2019-09-10 平安科技(深圳)有限公司 基于语音处理的语音增强方法及相关设备
CN110223708B (zh) * 2019-05-07 2023-05-30 平安科技(深圳)有限公司 基于语音处理的语音增强方法及相关设备
CN110459234B (zh) * 2019-08-15 2022-03-22 思必驰科技股份有限公司 用于车载的语音识别方法及系统
CN110459234A (zh) * 2019-08-15 2019-11-15 苏州思必驰信息科技有限公司 用于车载的语音识别方法及系统
CN110673096A (zh) * 2019-09-30 2020-01-10 北京地平线机器人技术研发有限公司 语音定位方法和装置、计算机可读存储介质、电子设备
CN110673096B (zh) * 2019-09-30 2022-02-01 北京地平线机器人技术研发有限公司 语音定位方法和装置、计算机可读存储介质、电子设备
CN112820310A (zh) * 2019-11-15 2021-05-18 北京声智科技有限公司 一种来波方向估计方法及装置
CN112820310B (zh) * 2019-11-15 2022-09-23 北京声智科技有限公司 一种来波方向估计方法及装置
CN111223497B (zh) * 2020-01-06 2022-04-19 思必驰科技股份有限公司 一种终端的就近唤醒方法、装置、计算设备及存储介质
CN111223497A (zh) * 2020-01-06 2020-06-02 苏州思必驰信息科技有限公司 一种终端的就近唤醒方法、装置、计算设备及存储介质
CN111276143A (zh) * 2020-01-21 2020-06-12 北京远特科技股份有限公司 声源定位方法、装置、语音识别控制方法和终端设备
CN111402883B (zh) * 2020-03-31 2023-05-26 云知声智能科技股份有限公司 一种复杂环境下分布式语音交互系统中就近响应系统和方法
CN111402883A (zh) * 2020-03-31 2020-07-10 云知声智能科技股份有限公司 一种复杂环境下分布式语音交互系统中就近响应系统和方法
CN112217577A (zh) * 2020-10-14 2021-01-12 哈尔滨工程大学 一种基于频点存在概率的水下通信节点唤醒信号检测方法
CN113496698A (zh) * 2021-08-12 2021-10-12 云知声智能科技股份有限公司 训练数据的筛选方法、装置、设备和存储介质
CN113496698B (zh) * 2021-08-12 2024-01-23 云知声智能科技股份有限公司 训练数据的筛选方法、装置、设备和存储介质
CN113658593A (zh) * 2021-08-14 2021-11-16 普强时代(珠海横琴)信息技术有限公司 基于语音识别的唤醒实现方法及装置
CN113658593B (zh) * 2021-08-14 2024-03-12 普强时代(珠海横琴)信息技术有限公司 基于语音识别的唤醒实现方法及装置
CN113744752A (zh) * 2021-08-30 2021-12-03 西安声必捷信息科技有限公司 语音处理方法及装置
CN114639398A (zh) * 2022-03-10 2022-06-17 电子科技大学 一种基于麦克风阵列的宽带doa估计方法
CN114639398B (zh) * 2022-03-10 2023-05-26 电子科技大学 一种基于麦克风阵列的宽带doa估计方法
CN115346527A (zh) * 2022-08-08 2022-11-15 科大讯飞股份有限公司 语音控制方法、装置、系统、车辆和存储介质
CN118395579A (zh) * 2024-06-27 2024-07-26 深圳大学 一种隧道中心线选点方法、系统、智能终端及存储介质

Also Published As

Publication number Publication date
CN108899044B (zh) 2020-06-26

Similar Documents

Publication Publication Date Title
CN108899044A (zh) 语音信号处理方法及装置
CN110600017B (zh) 语音处理模型的训练方法、语音识别方法、系统及装置
US11620983B2 (en) Speech recognition method, device, and computer-readable storage medium
US9818431B2 (en) Multi-speaker speech separation
CN106486131B (zh) 一种语音去噪的方法及装置
US10403269B2 (en) Processing audio waveforms
AU2022200439B2 (en) Multi-modal speech separation method and system
CN110503971A (zh) 用于语音处理的基于神经网络的时频掩模估计和波束形成
CN108597505B (zh) 语音识别方法、装置及终端设备
US9008329B1 (en) Noise reduction using multi-feature cluster tracker
WO2020181824A1 (zh) 声纹识别方法、装置、设备以及计算机可读存储介质
CN108417224B (zh) 双向神经网络模型的训练和识别方法及系统
CN108899047B (zh) 音频信号的掩蔽阈值估计方法、装置及存储介质
CN108122563A (zh) 提高语音唤醒率及修正doa的方法
CN105976812A (zh) 一种语音识别方法及其设备
CN105096955B (zh) 一种基于模型生长聚类的说话人快速识别方法及系统
CN108922513A (zh) 语音区分方法、装置、计算机设备及存储介质
CN103886863A (zh) 音频处理设备及音频处理方法
CN110400571A (zh) 音频处理方法、装置、存储介质及电子设备
CN114203163A (zh) 音频信号处理方法及装置
US9953633B2 (en) Speaker dependent voiced sound pattern template mapping
US20230186943A1 (en) Voice activity detection method and apparatus, and storage medium
CN109270493A (zh) 声源定位方法和装置
CN110428835A (zh) 一种语音设备的调节方法、装置、存储介质及语音设备
CN107545898B (zh) 一种区分说话人语音的处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu.

Patentee after: Sipic Technology Co.,Ltd.

Address before: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu.

Patentee before: AI SPEECH Co.,Ltd.

PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Voice signal processing methods and devices

Effective date of registration: 20230726

Granted publication date: 20200626

Pledgee: CITIC Bank Limited by Share Ltd. Suzhou branch

Pledgor: Sipic Technology Co.,Ltd.

Registration number: Y2023980049433