CN112562718A - 基于topk多路音源有效信号筛选系统及方法 - Google Patents
基于topk多路音源有效信号筛选系统及方法 Download PDFInfo
- Publication number
- CN112562718A CN112562718A CN202011372222.8A CN202011372222A CN112562718A CN 112562718 A CN112562718 A CN 112562718A CN 202011372222 A CN202011372222 A CN 202011372222A CN 112562718 A CN112562718 A CN 112562718A
- Authority
- CN
- China
- Prior art keywords
- voice
- signals
- paths
- strongest
- algorithm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012216 screening Methods 0.000 title claims abstract description 25
- 101000762967 Homo sapiens Lymphokine-activated killer T-cell-originated protein kinase Proteins 0.000 title claims abstract description 12
- 102100026753 Lymphokine-activated killer T-cell-originated protein kinase Human genes 0.000 title claims abstract description 12
- 238000000034 method Methods 0.000 title claims description 20
- 238000012937 correction Methods 0.000 claims abstract description 14
- 230000000295 complement effect Effects 0.000 claims abstract description 8
- 108010076504 Protein Sorting Signals Proteins 0.000 claims description 26
- 238000001514 detection method Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 9
- 238000000354 decomposition reaction Methods 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 4
- 230000005284 excitation Effects 0.000 claims description 2
- 230000000717 retained effect Effects 0.000 claims description 2
- 238000004891 communication Methods 0.000 abstract description 2
- 238000005070 sampling Methods 0.000 description 15
- 230000008569 process Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000009826 distribution Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明涉及通信技术领域,具体涉及一种基于TOPK多路音源有效信号筛选系统,包括:输入单元,用于输入N路语音与N路背景声音所形成的混音;预判单元,用于采用VAD算法对各路语音逐个进行预判;分级单元,用于对VAD值为1的语音,采用AMDF算法将语音信号依次分为1~10级,并进行赋值;筛选单元,用于按设定的缓存量对各时刻的N路缓存信号,筛选出M路最强信号;纠错单元,用于利用信号相关性,采用FEC算法补齐筛选出的M路最强信号因时延导致丢失的前端语音信号;输出模块,用于输出补齐后的M路最强信号。本发明结合VAD算法、AMDF算法和FEC算法,解决了现有技术不能从多路语音与多路背景声形成的混音中分离并筛选出有效信号的技术问题。
Description
技术领域
本发明涉及通信技术领域,具体涉及一种基于TOPK多路音源有效信号筛选系统及方法。
背景技术
随着移动智能设备的广泛应用以及技术的不断发展,语音逐渐成为人机交互的手段。但是,实际的环境中会存在各种声音源,不同声音源发出的声音会相互干扰,形成多路音源,从而影响用户的体验。因此,有必要采取必要的措施对多路音源进行筛选,挑选出有效的声音信号,如TOPK,也即排序算法进行挑选。
比如说,专利CN106484833A公开了一种音源筛选方法,包括步骤:获得音频播放设备传输来的用于搜索音频文件的至少一个搜索信息;基于至少一个搜索信息,获得M个音源,M为大于零的整数;从M个音源中获取N个音频文件,N为大于等于M的整数;从N个音频文件中确定出符合预设音频质量的K个音频文件,K为小于等于M的正整数;将K个音频文件的相关信息发送给音频播放设备。通过这样的方式,但能够对有效语音信号进行检测,将有效语音信号与噪声干扰信号进行区分。
但是对于直播教学而言,通常包含多人参与的互动讨论环节,具有多个参与者,从而形成多路音源。当每个参与者都在说话时,各路终端将会采集到多路语音及多路背景声,导致参与者接收到的会是多路语音与多路背景声形成的混音,而上述技术方案主要是针对单人或者双人说话的场景。也即,现有技术不能从多路语音与多路背景声形成的混音中分离并筛选出有效信号。
发明内容
本发明提供一种基于TOPK多路音源有效信号筛选系统,解决了现有技术不能从多路语音与多路背景声形成的混音中分离并筛选出有效信号的技术问题。
本发明提供的基础方案为:基于TOPK多路音源有效信号筛选系统,包括:
输入单元,用于输入N路语音与N路背景声音所形成的混音;
预判单元,用于采用VAD算法对各路语音逐个进行预判:若语音正常,VAD值为1;若语音输出状态不确定,VAD值为0;若语音无输出,VAD值为—1;
分级单元,用于对VAD值为1的语音,采用AMDF算法将语音信号依次分为1~10级,并进行赋值;
筛选单元,用于接收N路语音信号,按设定的缓存量对各时刻的N路缓存信号,筛选出M路最强信号;
纠错单元,用于利用信号相关性,采用FEC算法补齐筛选出的M路最强信号因时延导致丢失的前端语音信号;
输出模块,用于输出补齐后的M路最强信号。
本发明的工作原理及优点在于:多路音源为N路语音与N路背景声音所形成的混音,为了筛选出M路有效信号,首先,采用VAD算法,也即语音端点检测算法,对各路语音逐个进行预判,挑选出语音正常,也即VAD值为1的语音,VAD算法能够从纯净或者带噪声的语音信号中标识出语音片段与非语音片段,从而在远场语音交互场景中检测到语音。然后,采用AMDF算法,也即平均幅度差函数,将VAD值为1的语音分级并进行赋值,并按照设定的缓存量对各时刻的N路缓存信号筛选出M路最强信号。最后,采用FEC算法,也即前向纠错算法,补齐M路最强信号因时延而导致丢失的前端语音信号,即可得到M路有效信号。通过这样的方式,在直播教学过程中,能够从多路语音与多路背景声形成的混音中分离并筛选出有效信号。
本发明结合VAD算法、AMDF算法和FEC算法,解决了现有技术不能从多路语音与多路背景声形成的混音中分离并筛选出有效信号的技术问题。
进一步,纠错单元还用于对M路最强信号逐个进行声纹识别,保留与预设声纹特征符合的最强信号,删除与预设声纹特征不符合的最强信号。
有益效果在于:声纹是用电声学仪器显示的携带言语信息的声波频谱,具有特定性和相对稳定性,通过这样的方式,预先设置N个参与者的声纹特征,可以准确地对M路最强信号进行识别,从而去除杂音。
进一步,纠错单元还用于对M路最强信号逐个进行小波分解,得到小波信号序列,并根据小波信号序列得到有效语音信号。
有益效果在于:在高信噪比的情况下,语音信号部分的能量要比噪声信号部分的能量大得多,但在低信噪比的情况下,噪声信号的能量较大,这会干扰对信号的检测,通过这样的方式,可以避免将噪声误检为有效语音信号,从而提高了对有效语音信号的检测的准确性。
进一步,根据小波信号序列中所有样点的音频强度值中的最大值和最小值确定音频强度阈值,将小波信号序列中音频强度值大于音频强度阈值的样点在M路最强信号中对应样点的信号确定为有效语音信号。
有益效果在于:通过这样的方式,采集小波信号序列中所有样点的能量信息后,再根据小波信号序列的能量分布情况,对有效语音信号进行判断检测,有利于提高有效语音信号检测的准确性。
进一步,纠错单元还用于对M路最强信号进行前期处理,包括预加重处理,加窗处理和端点检测。
有益效果在于:考虑到声纹识别的外部噪声和参与者自身发声的不稳定因素,通过这样的方式,有利于保证声纹识别的灵敏性。
本发明还提供一种基于TOPK多路音源有效信号筛选方法,包括步骤:
S1、输入N路语音与N路背景声音所形成的混音;
S2、采用VAD算法对各路语音逐个进行预判:若语音正常,VAD值为1;若语音输出状态不确定,VAD值为0;若语音无输出,VAD值为—1;
S3、对VAD值为1的语音,采用AMDF算法将语音信号依次分为1~10级,并进行赋值;
S4、接收N路语音信号,按设定的缓存量对各时刻的N路缓存信号,筛选出M路最强信号;
S5、利用信号相关性,采用FEC算法补齐筛选出的M路最强信号因时延导致丢失的前端语音信号;
S6、输出补齐后的M路最强信号。
本发明的工作原理及优点在于:首先,采用VAD算法对各路语音逐个进行预判,挑选出语音正常,也即VAD值为1的语音,VAD算法能够从纯净或者带噪声的语音信号中标识出语音片段与非语音片段,从而在远场语音交互场景中检测到语音。然后,采用AMDF算法,也即平均幅度差函数,将VAD值为1的语音分级,并按照设定的缓存量对各时刻的N路缓存信号筛选出M路最强信号。最后,采用FEC算法,也即前向纠错算法,补齐M路最强信号因时延而导致丢失的前端语音信号,即可得到M路有效信号。通过这样的方式,在直播教学过程中,能够从多路语音与多路背景声形成的混音中分离并筛选出有效信号。
进一步,S5中,还对M路最强信号逐个进行声纹识别,保留与预设声纹特征符合的最强信号,删除与预设声纹特征不符合的最强信号。
有益效果在于:预先设置N个参与者的声纹特征,可以准确地对M路最强信号进行识别,从而去除杂音。
进一步,S5中,还对M路最强信号逐个进行小波分解,得到小波信号序列,并根据小波信号序列得到有效语音信号。
有益效果在于:在低信噪比的情况下,噪声信号的能量较大,这样可以避免将噪声误检为有效语音信号,从而提高对有效语音信号的检测的准确性。
进一步,根据小波信号序列中所有样点的音频强度值中的最大值和最小值确定音频强度阈值,将小波信号序列中音频强度值大于音频强度阈值的样点在M路最强信号中对应样点的信号确定为有效语音信号。
有益效果在于:采集小波信号序列中所有样点的能量信息后,再根据小波信号序列的能量分布情况,对有效语音信号进行判断检测,有利于提高有效语音信号检测的准确性。
进一步,S5中,还对M路最强信号进行前期处理,包括预加重处理,加窗处理和端点检测。
有益效果在于:通过这样的方式,有利于保证声纹识别的灵敏性,同时还可以降低算法的复杂性。
附图说明
图1为本发明基于TOPK多路音源有效信号筛选系统实施例的系统结构框图。
具体实施方式
下面通过具体实施方式进一步详细的说明:
实施例1
实施例基本如附图1所示:包括:
输入单元,用于输入N路语音与N路背景声音所形成的混音;
预判单元,用于采用VAD算法对各路语音逐个进行预判:若语音正常,VAD值为1;若语音输出状态不确定,VAD值为0;若语音无输出,VAD值为—1;
分级单元,用于对VAD值为1的语音,采用AMDF算法将语音信号依次分为1~10级,并进行赋值;
筛选单元,用于接收N路语音信号,按设定的缓存量对各时刻的N路缓存信号,筛选出M路最强信号;
纠错单元,用于利用信号相关性,采用FEC算法补齐筛选出的M路最强信号因时延导致丢失的前端语音信号;
输出模块,用于输出补齐后的M路最强信号。
在本实施例中,输入单元为麦克风,预判单元、分级单元、筛选单元和纠错单元集成在服务器上,通过软件/程序/代码实现其功能,输出单元为扬声器,麦克风与扬声器均与服务器连接。
具体实施过程如下:
S1、输入N路语音与N路背景声音所形成的混音。
在本实施例中,在直播教学的多人参与的互动讨论环节,具有N参与者,从而形成N路音源。具体而言,当每个参与者都在说话时,每个参与者都会形成一路音源,每路音源都包含参与者说话的语音以及说话时的背景声,从而使得麦克风采集到的是N路语音与N路背景声形成的混音。
S2、采用VAD算法对各路语音逐个进行预判。
当N路语音与N路背景声形成的混音采集完毕后,将其输入到服务器,由预判单元采用VAD算法对N路语音逐个进行预判,也即,逐个判断N路语音中是否有语音输出,并计算VAD值。比如说,对第K(1≤K≤N)路语音而言,若语音正常,VAD值为1;若语音输出状态不确定,VAD值为0;若语音无输出,VAD值为—1。
S3、对VAD值为1的语音,采用AMDF算法将语音信号依次分为1~10级,并进行赋值。
当N路语音的VAD值均被计算完毕后,对于VAD值为1的语音而言,分级单元采用AMDF算法逐一将语音信号依次分为1~10级,并进行赋值。比如说,对第K(1≤K≤N)路语音而言,分级的结果为语音信号为4级。
S4、接收N路语音信号,按设定的缓存量对各时刻的N路缓存信号,筛选出M路最强信号。
当分级完毕后,筛选单元接收N路语音信号,按设定的缓存量对各时刻的N路缓存信号,筛选出M路最强信号,也即筛选出语音信号级别最高的M路信号,其中,M≤N。
S5、利用信号相关性,采用FEC算法补齐筛选出的M路最强信号因时延导致丢失的前端语音信号。
由于时延的缘故,M路最强信号可能会丢失前端语音信号,因此,M路最强信号被筛选出来以后,纠错单元采用FEC算法逐一补齐M路最强信号因时延导致丢失的前端语音信号。
S6、输出补齐后的M路最强信号。
最后,扬声器输出或者播放补齐后的M路最强的语音。
实施例2
与实施例1不同之处仅在于,在S5中,纠错单元先对M路最强信号进行前期处理,包括预加重处理,加窗处理和端点检测,然后对M路最强信号逐个进行声纹识别,保留与预设声纹特征符合的最强信号,删除与预设声纹特征不符合的最强信号,从而去除杂音。
最后,对M路最强信号逐个进行小波分解,得到小波信号序列,并根据小波信号序列得到有效语音信号。具体而言,针对M个最强信号,逐个对其中的音频帧信号进行小波分解,从而得到与每个音频帧信号对应的多个小波分解信号,每个小波分解信号中包含多个样点以及每个样点的音频强度值;按照音频帧信号在其最强信号中的分帧顺序,将各个音频帧信号对应的小波分解信号进行拼接得到小波信号序列,并获取小波信号序列中所有样点的音频强度值中的最大值和最小值,根据最大值和最小值确定音频强度阈值,比如说,音频强度阈值=(最大值+最小值)/2。获取小波信号序列中音频强度值大于音频强度阈值的样点,将小波信号序列中音频强度值大于音频强度阈值的样点在其最强信号中对应样点的信号确定为有效语音信号。
实施例3
与实施例2不同之处仅在于,在对多路音源进行分类之前,先对多路语音进行补齐处理。具体而言,服务器上预先储存有与课堂直播教学相关的文字语料库,当网络信号不好的时候,语音信号可能会出现间断的情况,从而缺失掉部分语音信号,这时候就需要对缺失的语音信号进行补齐。
首先,当网络信号不好的时候,将间断的语音信号的前、后部分语音信号提取出来,并将其转换为文字,通过语义识别算法并结合文字语料库,对缺失的语音信号进行对应的文字内容填补。也即,根据语义理解填入缺失的语音信号对应的文字内容,并将该文字内容转换为语音信号,从实现对间断的语音信号的补齐。
然后,当网络信号良好的时候,对录制的整个直播过程进行回放,人工对补齐的语音信号进行核实,如果核实通过,则不对补齐的语音信号做任何修改;反之,如果核实不通过,则人工对补齐的语音信号进行修改。
以上所述的仅是本发明的实施例,方案中公知的具体结构及特性等常识在此未作过多描述,所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的普通技术知识,能够获知该领域中所有的现有技术,并且具有应用该日期之前常规实验手段的能力,所属领域普通技术人员可以在本申请给出的启示下,结合自身能力完善并实施本方案,一些典型的公知结构或者公知方法不应当成为所属领域普通技术人员实施本申请的障碍。应当指出,对于本领域的技术人员来说,在不脱离本发明结构的前提下,还可以作出若干变形和改进,这些也应该视为本发明的保护范围,这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准,说明书中的具体实施方式等记载可以用于解释权利要求的内容。
Claims (10)
1.基于TOPK多路音源有效信号筛选系统,其特征在于,包括:
输入单元,用于输入N路语音与N路背景声音所形成的混音;
预判单元,用于采用VAD算法对各路语音逐个进行预判:若语音正常,VAD值为1;若语音输出状态不确定,VAD值为0;若语音无输出,VAD值为—1;
分级单元,用于对VAD值为1的语音,采用AMDF算法将语音信号依次分为1~10级,并进行赋值;
筛选单元,用于接收N路语音信号,按设定的缓存量对各时刻的N路缓存信号,筛选出M路最强信号;
纠错单元,用于利用信号相关性,采用FEC算法补齐筛选出的M路最强信号因时延导致丢失的前端语音信号;
输出模块,用于输出补齐后的M路最强信号。
2.如权利要求1所述的基于TOPK多路音源有效信号筛选系统,其特征在于,纠错单元还用于对M路最强信号逐个进行声纹识别,保留与预设声纹特征符合的最强信号,删除与预设声纹特征不符合的最强信号。
3.如权利要求2所述的基于TOPK多路音源有效信号筛选系统,其特征在于,纠错单元还用于对M路最强信号逐个进行小波分解,得到小波信号序列,并根据小波信号序列得到有效语音信号。
4.如权利要求3所述的基于TOPK多路音源有效信号筛选系统,其特征在于,根据小波信号序列中所有样点的音频强度值中的最大值和最小值确定音频强度阈值,将小波信号序列中音频强度值大于音频强度阈值的样点在M路最强信号中对应样点的信号确定为有效语音信号。
5.如权利要求4所述的基于TOPK多路音源有效信号筛选系统,其特征在于,纠错单元还用于对M路最强信号进行前期处理,包括预加重处理,加窗处理和端点检测。
6.基于TOPK多路音源有效信号筛选方法,其特征在于,包括步骤:
S1、输入N路语音与N路背景声音所形成的混音;
S2、采用VAD算法对各路语音逐个进行预判:若语音正常,VAD值为1;若语音输出状态不确定,VAD值为0;若语音无输出,VAD值为—1;
S3、对VAD值为1的语音,采用AMDF算法将语音信号依次分为1~10级,并进行赋值;
S4、接收N路语音信号,按设定的缓存量对各时刻的N路缓存信号,筛选出M路最强信号;
S5、利用信号相关性,采用FEC算法补齐筛选出的M路最强信号因时延导致丢失的前端语音信号;
S6、输出补齐后的M路最强信号。
7.如权利要求6所述的基于TOPK多路音源有效信号筛选方法,其特征在于,S5中,还对M路最强信号逐个进行声纹识别,保留与预设声纹特征符合的最强信号,删除与预设声纹特征不符合的最强信号。
8.如权利要求7所述的基于TOPK多路音源有效信号筛选方法,其特征在于,S5中,还对M路最强信号逐个进行小波分解,得到小波信号序列,并根据小波信号序列得到有效语音信号。
9.如权利要求8所述的基于TOPK多路音源有效信号筛选方法,其特征在于,根据小波信号序列中所有样点的音频强度值中的最大值和最小值确定音频强度阈值,将小波信号序列中音频强度值大于音频强度阈值的样点在M路最强信号中对应样点的信号确定为有效语音信号。
10.如权利要求9所述的基于TOPK多路音源有效信号筛选方法,其特征在于,S5中,还对M路最强信号进行前期处理,包括预加重处理,加窗处理和端点检测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011372222.8A CN112562718A (zh) | 2020-11-30 | 2020-11-30 | 基于topk多路音源有效信号筛选系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011372222.8A CN112562718A (zh) | 2020-11-30 | 2020-11-30 | 基于topk多路音源有效信号筛选系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112562718A true CN112562718A (zh) | 2021-03-26 |
Family
ID=75046773
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011372222.8A Pending CN112562718A (zh) | 2020-11-30 | 2020-11-30 | 基于topk多路音源有效信号筛选系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112562718A (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102111232A (zh) * | 2009-12-29 | 2011-06-29 | 华为技术有限公司 | 前向纠错方法和装置 |
CN102890936A (zh) * | 2011-07-19 | 2013-01-23 | 联想(北京)有限公司 | 一种音频处理方法、终端设备及系统 |
CN104252860A (zh) * | 2013-06-26 | 2014-12-31 | 沃福森微电子股份有限公司 | 语音识别 |
CN107862060A (zh) * | 2017-11-15 | 2018-03-30 | 吉林大学 | 一种追踪目标人的语义识别装置及识别方法 |
CN110310657A (zh) * | 2019-07-10 | 2019-10-08 | 北京猎户星空科技有限公司 | 一种音频数据处理方法及装置 |
CN110675887A (zh) * | 2019-09-12 | 2020-01-10 | 厦门亿联网络技术股份有限公司 | 一种用于会议系统的多麦克风切换方法和系统 |
CN110827852A (zh) * | 2019-11-13 | 2020-02-21 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种有效语音信号的检测方法、装置及设备 |
CN111429914A (zh) * | 2020-03-30 | 2020-07-17 | 招商局金融科技有限公司 | 麦克风控制方法、电子装置及计算机可读存储介质 |
CN111599371A (zh) * | 2020-05-19 | 2020-08-28 | 苏州奇梦者网络科技有限公司 | 语音增加方法、系统、装置及存储介质 |
CN111883168A (zh) * | 2020-08-04 | 2020-11-03 | 上海明略人工智能(集团)有限公司 | 一种语音处理方法及装置 |
-
2020
- 2020-11-30 CN CN202011372222.8A patent/CN112562718A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102111232A (zh) * | 2009-12-29 | 2011-06-29 | 华为技术有限公司 | 前向纠错方法和装置 |
CN102890936A (zh) * | 2011-07-19 | 2013-01-23 | 联想(北京)有限公司 | 一种音频处理方法、终端设备及系统 |
CN104252860A (zh) * | 2013-06-26 | 2014-12-31 | 沃福森微电子股份有限公司 | 语音识别 |
CN107862060A (zh) * | 2017-11-15 | 2018-03-30 | 吉林大学 | 一种追踪目标人的语义识别装置及识别方法 |
CN110310657A (zh) * | 2019-07-10 | 2019-10-08 | 北京猎户星空科技有限公司 | 一种音频数据处理方法及装置 |
CN110675887A (zh) * | 2019-09-12 | 2020-01-10 | 厦门亿联网络技术股份有限公司 | 一种用于会议系统的多麦克风切换方法和系统 |
CN110827852A (zh) * | 2019-11-13 | 2020-02-21 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种有效语音信号的检测方法、装置及设备 |
CN111429914A (zh) * | 2020-03-30 | 2020-07-17 | 招商局金融科技有限公司 | 麦克风控制方法、电子装置及计算机可读存储介质 |
CN111599371A (zh) * | 2020-05-19 | 2020-08-28 | 苏州奇梦者网络科技有限公司 | 语音增加方法、系统、装置及存储介质 |
CN111883168A (zh) * | 2020-08-04 | 2020-11-03 | 上海明略人工智能(集团)有限公司 | 一种语音处理方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108922518B (zh) | 语音数据扩增方法和系统 | |
CN107910014B (zh) | 回声消除的测试方法、装置及测试设备 | |
US7266494B2 (en) | Method and apparatus for identifying noise environments from noisy signals | |
US20110184732A1 (en) | Signal presence detection using bi-directional communication data | |
Li et al. | Monaural speech separation based on computational auditory scene analysis and objective quality assessment of speech | |
CN108597498A (zh) | 一种多麦克风语音采集方法及装置 | |
US7783479B2 (en) | System for generating a wideband signal from a received narrowband signal | |
KR101414233B1 (ko) | 음성 신호의 명료도를 향상시키는 장치 및 방법 | |
CN108010539A (zh) | 一种基于语音激活检测的语音质量评估方法及装置 | |
CN107578770A (zh) | 网络电话语音识别方法、装置、计算机设备和存储介质 | |
US6304845B1 (en) | Method of transmitting voice data | |
KR102062454B1 (ko) | 음악 장르 분류 장치 및 방법 | |
EP4143825A2 (en) | Method, apparatus and system for enhancing multi-channel audio in a dynamic range reduced domain | |
CN110265038B (zh) | 一种处理方法及电子设备 | |
CN112562718A (zh) | 基于topk多路音源有效信号筛选系统及方法 | |
CN114333912B (zh) | 语音激活检测方法、装置、电子设备和存储介质 | |
US7340398B2 (en) | Selective sampling for sound signal classification | |
Mittag et al. | Detecting Packet-Loss Concealment Using Formant Features and Decision Tree Learning. | |
Prasad et al. | Evaluation of bandwidth extension of telephony speech by data hiding in three languages | |
JP2002278586A (ja) | 音声認識方法 | |
CN112735455A (zh) | 声音信息的处理方法和装置 | |
KR20210145733A (ko) | 신호 처리 장치 및 방법, 그리고 프로그램 | |
Li et al. | Effect of the division between early and late reflections on intelligibility of ideal binary-masked speech | |
JP3322491B2 (ja) | 音声認識装置 | |
Chu et al. | Suppressing reverberation in cochlear implant stimulus patterns using time-frequency masks based on phoneme groups |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |