CN110503975B - 基于多麦克风降噪的智能电视语音增强控制方法及系统 - Google Patents
基于多麦克风降噪的智能电视语音增强控制方法及系统 Download PDFInfo
- Publication number
- CN110503975B CN110503975B CN201910716308.9A CN201910716308A CN110503975B CN 110503975 B CN110503975 B CN 110503975B CN 201910716308 A CN201910716308 A CN 201910716308A CN 110503975 B CN110503975 B CN 110503975B
- Authority
- CN
- China
- Prior art keywords
- audio information
- information
- auxiliary
- audio
- main
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 230000009467 reduction Effects 0.000 title claims abstract description 16
- 238000001914 filtration Methods 0.000 claims abstract description 54
- 230000004927 fusion Effects 0.000 claims abstract description 49
- 238000007499 fusion processing Methods 0.000 claims abstract description 21
- 238000001228 spectrum Methods 0.000 claims description 90
- 238000009499 grossing Methods 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 abstract description 19
- 230000006870 function Effects 0.000 description 15
- 230000003993 interaction Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/44—Receiver circuitry for the reception of television signals according to analogue transmission standards
- H04N5/60—Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明公开了一种基于多麦克风降噪的智能电视语音增强控制方法及系统,其中,所述方法包括:主麦克风以及各辅麦克风实时采集智能电视周围环境的主音频信息和辅音频信息;利用采集到的主音频信息和辅音频信息分别与智能电视输出的输出音频信息进行相似度匹配,获取相似度匹配结果;基于相似度匹配结果判断采集到的主音频信息和辅音频信息是否存在输入控制音频信息;对主音频信息和辅音频信息分别进行滤波分频处理,提取主分频信息和辅分频信息;将主分频信息和辅分频信息进行增强融合处理;将增强融合音频信息输入智能电视音频控制模块。在本发明实施例中,可以实现电视在节目播出过程中的语音输入控制,且提升语音控制准确度,增加用户体验。
Description
技术领域
本发明涉及智能控制技术领域,尤其涉及一种基于多麦克风降噪的智能电视语音增强控制方法及系统。
背景技术
智能电视,是基于Internet应用技术,具备开放式操作系统与芯片,拥有开放式应用平台,可实现双向人机交互功能,集影音、娱乐、数据等多种功能于一体,以满足用户多样化和个性化需求的电视产品;其目的是带给用户更便捷的体验,目前已经成为电视的潮流趋势。
并且现有的智能电视在进行人机交互的时候,一般都是有触摸方式进行或者基于遥控的的方式进行,并且在交互的时候,电视需要先退出当前节目播放页面,给用户带来不好的交互体验。
发明内容
本发明的目的在于克服现有技术的不足,本发明提供了一种基于多麦克风降噪的智能电视语音增强控制方法及系统,可以实现电视在节目播出过程中的语音输入控制,且提升语音控制准确度,增加用户体验。
为了解决上述技术问题,本发明实施例提供了一种基于多麦克风降噪的智能电视语音增强控制方法,在所述智能电视一侧设置主麦克风,在另一侧设置一个或多个辅麦克风;所述方法包括:
所述主麦克风以及各辅麦克风实时采集所述智能电视周围环境的主音频信息和辅音频信息;
利用采集到的所述主音频信息和辅音频信息分别与所述智能电视输出的输出音频信息进行相似度匹配,获取相似度匹配结果;
基于所述相似度匹配结果判断采集到的主音频信息和辅音频信息是否存在输入控制音频信息;
若存在,则对所述主音频信息和辅音频信息分别进行滤波分频处理,提取非所述智能电视输出的输出音频信息部分的主分频信息和辅分频信息;
将所述主分频信息和辅分频信息进行增强融合处理,获取增强融合音频信息;
将所述增强融合音频信息输入所述智能电视音频控制模块。
可选的,所述利用采集到的所述主音频信息和辅音频信息分别与所述智能电视输出的输出音频信息进行相似度匹配,包括:
分别将所述主音频信息、辅音频信息以及输出音频信息进行频谱转化处理,分别获取主音频频谱、辅音频频谱和输出音频频谱;
将获取到的主音频频谱、辅音频频谱分别与输出音频频谱进行相似度匹配。
可选的,所述基于所述相似度匹配结果判断采集到的主音频信息和辅音频信息是否存在输入控制音频信息,包括:
基于所述相似度匹配结果与预设相似度值进行对比,获取对比结果;
基于对比结果判断采集到的主音频信息和辅音频信息是否存在输入控制音频信息。
可选的,所述将所述主分频信息和辅分频信息进行增强融合处理,包括:
计算所述主分频信息和辅分频信息的幅度差和相位差;
基于所述幅度差和所述相位差对所述主分频信息进行频谱分类,获取分类频谱;
对所述分类频谱进行滤波处理,获取滤波信号;
根据所述滤波信号和所述主分频信息进行增强融合处理。
可选的,所述计算所述主分频信息和辅分频信息的幅度差和相位差,包括:
基于增益函数对所述辅分频信息进行信号均衡处理,获取均衡辅分频信息;
根据所述均衡辅分频信息计算所述主分频信息和辅分频信息的幅度差和相位差。
可选的,所述对所述分类频谱进行滤波处理,获取滤波信号,包括:
对所述分类频谱进行数据平滑处理,获取平滑分类频谱;
将所述平滑分类频谱进行滤波处理,获取滤波信号。
可选的,所述根据所述滤波信号和所述主分频信息进行增强融合处理,包括:
对所述滤波信号和所述主分频信息进行卷积增强融合运算处理。
可选的,所述方法还包括:
所述智能电视音频控制模块将所述增强融合音频信息转为控制执行指令,并将所述控制执行指令发送至所述智能电视控制模块;
所述智能电视控制模块解析所述控制执行指令,根据所述控制执行指令控制所述智能电视。
可选的,所述智能电视音频控制模块将所述增强融合音频信息转为控制执行指令,包括:
所述智能电视音频控制模块将所述增强融合音频信息转为文字信息;
将所述文字信息与所述智能电视音频控制模块存储的控制文字进行匹配处理;
若相互匹配,则基于所述相互匹配的控制文字生成控制执行命令。
另外,本发明实施例还提供了一种基于多麦克风降噪的智能电视语音增强控制系统,在所述智能电视一侧设置主麦克风,在另一侧设置一个或多个辅麦克风;所述系统包括:
音频采集模块:用于所述主麦克风以及各辅麦克风实时采集所述智能电视周围环境的主音频信息和辅音频信息;
相似度匹配模块:用于利用采集到的所述主音频信息和辅音频信息分别与所述智能电视输出的输出音频信息进行相似度匹配,获取相似度匹配结果;
判断模块:用于基于所述相似度匹配结果判断采集到的主音频信息和辅音频信息是否存在输入控制音频信息;
滤波分频模块:用于若存在,则对所述主音频信息和辅音频信息分别进行滤波分频处理,提取非所述智能电视输出的输出音频信息部分的主分频信息和辅分频信息;
增强融合模块:用于将所述主分频信息和辅分频信息进行增强融合处理,获取增强融合音频信息;
输入控制模块:用于将所述增强融合音频信息输入所述智能电视音频控制模块。
本发明实施例中,通过在智能电视一侧设置主麦克风,另一侧设置至少一个辅麦克风,实现实时采集智能电视周围的音频信息,并利用音频信息与智能电视输出音频信息比较,判断是否存在输入控制音频,并进行处理融合输入智能电视音频控制模块,可以实现电视在节目播出过程中的语音输入控制,且提升语音控制准确度,增加用户体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见的,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例中的基于多麦克风降噪的智能电视语音增强控制方法的流程示意图;
图2是本发明实施例中的基于多麦克风降噪的智能电视语音增强控制系统的结构组成示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施例
请参阅图1,图1是本发明实施例中的基于多麦克风降噪的智能电视语音增强控制方法的流程示意图。
如图1所示,一种基于多麦克风降噪的智能电视语音增强控制方法,在所述智能电视一侧设置主麦克风,在另一侧设置一个或多个辅麦克风;
具体的,智能电视上设置有音频采集设备,该音频采集设备为麦克风,并且麦克风设备至少有两个,分别包括主麦克风设备和至少一个辅麦克风设备;其中,主麦克风设置在智能电视的一侧辅麦克风设置在另一侧,具体的设置方式不做限定,当主麦克风与辅麦克风设置间隔距离应大于40cm。
所述方法包括:
S11:所述主麦克风以及各辅麦克风实时采集所述智能电视周围环境的主音频信息和辅音频信息;
在本发明具体实施过程中,在智能电视上电开机之后,主麦克风和辅麦克风同时进入实施采集该智能电视周围环境的音频信息,分别到的主音频信息和辅音频信息。
S12:利用采集到的所述主音频信息和辅音频信息分别与所述智能电视输出的输出音频信息进行相似度匹配,获取相似度匹配结果;
在本发明具体实施过程中,所述利用采集到的所述主音频信息和辅音频信息分别与所述智能电视输出的输出音频信息进行相似度匹配,包括:分别将所述主音频信息、辅音频信息以及输出音频信息进行频谱转化处理,分别获取主音频频谱、辅音频频谱和输出音频频谱;将获取到的主音频频谱、辅音频频谱分别与输出音频频谱进行相似度匹配。
具体的,首先需要对采集到的主音频信息、辅音频信息和智能电视输出的输出音频信息进行频谱转化处理,及将这些音频信息频谱信号,从而得到主音频频谱、辅音频频谱和输出音频频谱;然后利用得到的主音频频谱、辅音频频谱分别与输出音频频谱进行相似度计算,具体的是特征相似度计算,获得特征相似度作为相似度匹配结果。
S13:基于所述相似度匹配结果判断采集到的主音频信息和辅音频信息是否存在输入控制音频信息;
在本发明具体实施过程中,所述基于所述相似度匹配结果判断采集到的主音频信息和辅音频信息是否存在输入控制音频信息,包括:基于所述相似度匹配结果与预设相似度值进行对比,获取对比结果;基于对比结果判断采集到的主音频信息和辅音频信息是否存在输入控制音频信息。
具体的,相似度匹配结果即为特征相似度,为一个具体的数字,预设相似度值可以根据用户的需求设置,在本发明实施例中可设置为90%,当相似度匹配结果与预设相似度值进行对比获取对比结果,相似度匹配结果小于预设相似度值时,则认为判断采集到的主音频信息和辅音频信息存在输入控制音频信息;并且主音频频谱、辅音频频谱的相似度结果相差的误差在预设误差范围内,一般的预测误差为5%。
S14:若存在,则对所述主音频信息和辅音频信息分别进行滤波分频处理,提取非所述智能电视输出的输出音频信息部分的主分频信息和辅分频信息;
在本方具体实施过程中,在判断采集到的主音频信息和辅音频信息中存在输入控制音频信息时,需要分别提取主音频信息和辅音频信息的输入控制音频信息;但主音频信息和辅音频信息中混杂有智能电视输出的输出音频信息;因此需要进行滤波分频,具体首先根据将主音频信息和辅音频信息分别通过高通滤波器进行滤波,然后通过分频器按照去除电视输出的输出音频信息的频率进行预设分频,从而分别主分频信息和辅分频信息。
S15:将所述主分频信息和辅分频信息进行增强融合处理,获取增强融合音频信息;
在本发明具体实施过程中,所述将所述主分频信息和辅分频信息进行增强融合处理,包括:计算所述主分频信息和辅分频信息的幅度差和相位差;基于所述幅度差和所述相位差对所述主分频信息进行频谱分类,获取分类频谱;对所述分类频谱进行滤波处理,获取滤波信号;根据所述滤波信号和所述主分频信息进行增强融合处理。
进一步的,所述计算所述主分频信息和辅分频信息的幅度差和相位差,包括:基于增益函数对所述辅分频信息进行信号均衡处理,获取均衡辅分频信息;根据所述均衡辅分频信息计算所述主分频信息和辅分频信息的幅度差和相位差。
进一步的,所述对所述分类频谱进行滤波处理,获取滤波信号,包括:对所述分类频谱进行数据平滑处理,获取平滑分类频谱;将所述平滑分类频谱进行滤波处理,获取滤波信号。
进一步的,所述根据所述滤波信号和所述主分频信息进行增强融合处理,包括:对所述滤波信号和所述主分频信息进行卷积增强融合运算处理。
具体的,首先需要计算主分频信息和辅分频信息的幅度差和相位差,然后根据幅度差和相位差对主分频信息进行频谱分类来获得分类频谱;对分类频谱进行平滑滤波获得滤波信号,然后再利用滤波信号和主分频信息进行增强融合处理来获得增强融合音频信息。
在计算获得幅度差和相位差时,需要利用增益函数,其中增益函数需要利用该麦克风设备进行信号校正之后得到的,具体是在消音室等地方通过麦克风接收校准信号,将校准信号进行傅里叶变换得到相应的一个个频点,根据这一个个频点构建增益函数;然后通过该增益函数对辅分频信息进行信号均衡处理,因为辅分频信息在实际信道上传输时,由于信道传输特性不联系以及信道噪声影响,接收端接收到的信号不可避免存在误差,通过增益函数可以有效的校正误差;然后根据均衡辅分频信息计算主分频信息和辅分频信息每一帧的幅度差和相位差。
对分类频谱进行数据平滑处理可以采用汉明窗Hham(K)对分类频谱进行平滑,对数据进行降噪具体的公式如下:X1,n han(K)=Hham(K)X1,n(K);其中,Hham(K)表示汉明窗,X1,n(K)表示分类频谱;可以利用维纳滤波的方式对平滑分类频谱进行滤波处理获取滤波信号。
将滤波信号和主分频信息进行卷积增强融合运算处理计算从而获得增强融合音频信息。
S16:将所述增强融合音频信息输入所述智能电视音频控制模块。
在本发明具体实施过程中,智能电视上拥有音频控制模块,在获得增强融合音频信息后,将该增强融合音频信息通过系统总线传输到智能电视音频控制模块。
在本发明具体实施过程中,所述方法还包括:所述智能电视音频控制模块将所述增强融合音频信息转为控制执行指令,并将所述控制执行指令发送至所述智能电视控制模块;所述智能电视控制模块解析所述控制执行指令,根据所述控制执行指令控制所述智能电视。
所述智能电视音频控制模块将所述增强融合音频信息转为控制执行指令,包括:所述智能电视音频控制模块将所述增强融合音频信息转为文字信息;将所述文字信息与所述智能电视音频控制模块存储的控制文字进行匹配处理;若相互匹配,则基于所述相互匹配的控制文字生成控制执行命令。
具体的,该智能电视音频控制模块将接收到的增强融合音频信息转为控制执行指令并将该控制执行指令发送至智能电视控制模块,该智能电视控制模块解析所述控制执行指令,根据控制执行指令控制所述智能电视。
其中,首先需要将增强融合音频信息转为文字信息,然后利用该文字信息与智能电视音频控制模块存储的控制文字进行匹配处理,若相互匹配,则证明该文字信息中包括有控制信息,则需要将相互匹配的控制文字生成控制执行命令。
本发明实施例中,通过在智能电视一侧设置主麦克风,另一侧设置至少一个辅麦克风,实现实时采集智能电视周围的音频信息,并利用音频信息与智能电视输出音频信息比较,判断是否存在输入控制音频,并进行处理融合输入智能电视音频控制模块,可以实现电视在节目播出过程中的语音输入控制,且提升语音控制准确度,增加用户体验。
实施例
请参阅图2,图2是本发明实施例中的基于多麦克风降噪的智能电视语音增强控制系统的结构组成示意图。
一种基于多麦克风降噪的智能电视语音增强控制系统,在所述智能电视一侧设置主麦克风,在另一侧设置一个或多个辅麦克风;
具体的,智能电视上设置有音频采集设备,该音频采集设备为麦克风,并且麦克风设备至少有两个,分别包括主麦克风设备和至少一个辅麦克风设备;其中,主麦克风设置在智能电视的一侧辅麦克风设置在另一侧,具体的设置方式不做限定,当主麦克风与辅麦克风设置间隔距离应大于40cm。
所述系统包括:
音频采集模块21:用于所述主麦克风以及各辅麦克风实时采集所述智能电视周围环境的主音频信息和辅音频信息;
在本发明具体实施过程中,在智能电视上电开机之后,主麦克风和辅麦克风同时进入实施采集该智能电视周围环境的音频信息,分别到的主音频信息和辅音频信息。
相似度匹配模块22:用于利用采集到的所述主音频信息和辅音频信息分别与所述智能电视输出的输出音频信息进行相似度匹配,获取相似度匹配结果;
在本发明具体实施过程中,所述利用采集到的所述主音频信息和辅音频信息分别与所述智能电视输出的输出音频信息进行相似度匹配,包括:分别将所述主音频信息、辅音频信息以及输出音频信息进行频谱转化处理,分别获取主音频频谱、辅音频频谱和输出音频频谱;将获取到的主音频频谱、辅音频频谱分别与输出音频频谱进行相似度匹配。
具体的,首先需要对采集到的主音频信息、辅音频信息和智能电视输出的输出音频信息进行频谱转化处理,及将这些音频信息频谱信号,从而得到主音频频谱、辅音频频谱和输出音频频谱;然后利用得到的主音频频谱、辅音频频谱分别与输出音频频谱进行相似度计算,具体的是特征相似度计算,获得特征相似度作为相似度匹配结果。
判断模块23:用于基于所述相似度匹配结果判断采集到的主音频信息和辅音频信息是否存在输入控制音频信息;
在本发明具体实施过程中,所述基于所述相似度匹配结果判断采集到的主音频信息和辅音频信息是否存在输入控制音频信息,包括:基于所述相似度匹配结果与预设相似度值进行对比,获取对比结果;基于对比结果判断采集到的主音频信息和辅音频信息是否存在输入控制音频信息。
具体的,相似度匹配结果即为特征相似度,为一个具体的数字,预设相似度值可以根据用户的需求设置,在本发明实施例中可设置为90%,当相似度匹配结果与预设相似度值进行对比获取对比结果,相似度匹配结果小于预设相似度值时,则认为判断采集到的主音频信息和辅音频信息存在输入控制音频信息;并且主音频频谱、辅音频频谱的相似度结果相差的误差在预设误差范围内,一般的预测误差为5%。
滤波分频模块24:用于若存在,则对所述主音频信息和辅音频信息分别进行滤波分频处理,提取非所述智能电视输出的输出音频信息部分的主分频信息和辅分频信息;
在本方具体实施过程中,在判断采集到的主音频信息和辅音频信息中存在输入控制音频信息时,需要分别提取主音频信息和辅音频信息的输入控制音频信息;但主音频信息和辅音频信息中混杂有智能电视输出的输出音频信息;因此需要进行滤波分频,具体首先根据将主音频信息和辅音频信息分别通过高通滤波器进行滤波,然后通过分频器按照去除电视输出的输出音频信息的频率进行预设分频,从而分别主分频信息和辅分频信息。
增强融合模块25:用于将所述主分频信息和辅分频信息进行增强融合处理,获取增强融合音频信息;
在本发明具体实施过程中,所述将所述主分频信息和辅分频信息进行增强融合处理,包括:计算所述主分频信息和辅分频信息的幅度差和相位差;基于所述幅度差和所述相位差对所述主分频信息进行频谱分类,获取分类频谱;对所述分类频谱进行滤波处理,获取滤波信号;根据所述滤波信号和所述主分频信息进行增强融合处理。
进一步的,所述计算所述主分频信息和辅分频信息的幅度差和相位差,包括:基于增益函数对所述辅分频信息进行信号均衡处理,获取均衡辅分频信息;根据所述均衡辅分频信息计算所述主分频信息和辅分频信息的幅度差和相位差。
进一步的,所述对所述分类频谱进行滤波处理,获取滤波信号,包括:对所述分类频谱进行数据平滑处理,获取平滑分类频谱;将所述平滑分类频谱进行滤波处理,获取滤波信号。
进一步的,所述根据所述滤波信号和所述主分频信息进行增强融合处理,包括:对所述滤波信号和所述主分频信息进行卷积增强融合运算处理。
具体的,首先需要计算主分频信息和辅分频信息的幅度差和相位差,然后根据幅度差和相位差对主分频信息进行频谱分类来获得分类频谱;对分类频谱进行平滑滤波获得滤波信号,然后再利用滤波信号和主分频信息进行增强融合处理来获得增强融合音频信息。
在计算获得幅度差和相位差时,需要利用增益函数,其中增益函数需要利用该麦克风设备进行信号校正之后得到的,具体是在消音室等地方通过麦克风接收校准信号,将校准信号进行傅里叶变换得到相应的一个个频点,根据这一个个频点构建增益函数;然后通过该增益函数对辅分频信息进行信号均衡处理,因为辅分频信息在实际信道上传输时,由于信道传输特性不联系以及信道噪声影响,接收端接收到的信号不可避免存在误差,通过增益函数可以有效的校正误差;然后根据均衡辅分频信息计算主分频信息和辅分频信息每一帧的幅度差和相位差。
对分类频谱进行数据平滑处理可以采用汉明窗Hham(K)对分类频谱进行平滑,对数据进行降噪具体的公式如下:X1,n han(K)=Hham(K)X1,n(K);其中,Hham(K)表示汉明窗,X1,n(K)表示分类频谱;可以利用维纳滤波的方式对平滑分类频谱进行滤波处理获取滤波信号。
将滤波信号和主分频信息进行卷积增强融合运算处理计算从而获得增强融合音频信息。
输入控制模块26:用于将所述增强融合音频信息输入所述智能电视音频控制模块。
在本发明具体实施过程中,智能电视上拥有音频控制模块,在获得增强融合音频信息后,将该增强融合音频信息通过系统总线传输到智能电视音频控制模块。
在本发明具体实施过程中,所述方法还包括:所述智能电视音频控制模块将所述增强融合音频信息转为控制执行指令,并将所述控制执行指令发送至所述智能电视控制模块;所述智能电视控制模块解析所述控制执行指令,根据所述控制执行指令控制所述智能电视。
所述智能电视音频控制模块将所述增强融合音频信息转为控制执行指令,包括:所述智能电视音频控制模块将所述增强融合音频信息转为文字信息;将所述文字信息与所述智能电视音频控制模块存储的控制文字进行匹配处理;若相互匹配,则基于所述相互匹配的控制文字生成控制执行命令。
具体的,该智能电视音频控制模块将接收到的增强融合音频信息转为控制执行指令并将该控制执行指令发送至智能电视控制模块,该智能电视控制模块解析所述控制执行指令,根据控制执行指令控制所述智能电视。
其中,首先需要将增强融合音频信息转为文字信息,然后利用该文字信息与智能电视音频控制模块存储的控制文字进行匹配处理,若相互匹配,则证明该文字信息中包括有控制信息,则需要将相互匹配的控制文字生成控制执行命令。
本发明实施例中,通过在智能电视一侧设置主麦克风,另一侧设置至少一个辅麦克风,实现实时采集智能电视周围的音频信息,并利用音频信息与智能电视输出音频信息比较,判断是否存在输入控制音频,并进行处理融合输入智能电视音频控制模块,可以实现电视在节目播出过程中的语音输入控制,且提升语音控制准确度,增加用户体验。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,ReadOnly Memory)、随机存取存储器(RAM,Random AccessMemory)、磁盘或光盘等。
另外,以上对本发明实施例所提供的一种基于多麦克风降噪的智能电视语音增强控制方法及系统进行了详细介绍,本文中应采用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (8)
1.一种基于多麦克风降噪的智能电视语音增强控制方法,其特征在于,在所述智能电视一侧设置主麦克风,在另一侧设置一个或多个辅麦克风;所述方法包括:
所述主麦克风以及各辅麦克风实时采集所述智能电视周围环境的主音频信息和辅音频信息;
利用采集到的所述主音频信息和辅音频信息分别与所述智能电视输出的输出音频信息进行相似度匹配,获取相似度匹配结果;
基于所述相似度匹配结果判断采集到的主音频信息和辅音频信息是否存在输入控制音频信息;
若存在,则对所述主音频信息和辅音频信息分别进行滤波分频处理,提取非所述智能电视输出的输出音频信息部分的主分频信息和辅分频信息;
将所述主分频信息和辅分频信息进行增强融合处理,获取增强融合音频信息;
将所述增强融合音频信息输入智能电视音频控制模块;
所述方法还包括:
所述智能电视音频控制模块将所述增强融合音频信息转为控制执行指令,并将所述控制执行指令发送至所述智能电视控制模块;
所述智能电视控制模块解析所述控制执行指令,根据所述控制执行指令控制所述智能电视;
所述智能电视音频控制模块将所述增强融合音频信息转为控制执行指令,包括:
所述智能电视音频控制模块将所述增强融合音频信息转为文字信息;
将所述文字信息与所述智能电视音频控制模块存储的控制文字进行匹配处理;
若相互匹配,则基于所述相互匹配的控制文字生成控制执行命令。
2.根据权利要求1所述的智能电视语音增强控制方法,其特征在于,所述利用采集到的所述主音频信息和辅音频信息分别与所述智能电视输出的输出音频信息进行相似度匹配,包括:
分别将所述主音频信息、辅音频信息以及输出音频信息进行频谱转化处理,分别获取主音频频谱、辅音频频谱和输出音频频谱;
将获取到的主音频频谱、辅音频频谱分别与输出音频频谱进行相似度匹配。
3.根据权利要求1所述的智能电视语音增强控制方法,其特征在于,所述基于所述相似度匹配结果判断采集到的主音频信息和辅音频信息是否存在输入控制音频信息,包括:
基于所述相似度匹配结果与预设相似度值进行对比,获取对比结果;
基于对比结果判断采集到的主音频信息和辅音频信息是否存在输入控制音频信息。
4.根据权利要求1所述的智能电视语音增强控制方法,其特征在于,所述将所述主分频信息和辅分频信息进行增强融合处理,包括:
计算所述主分频信息和辅分频信息的幅度差和相位差;
基于所述幅度差和所述相位差对所述主分频信息进行频谱分类,获取分类频谱;
对所述分类频谱进行滤波处理,获取滤波信号;
根据所述滤波信号和所述主分频信息进行增强融合处理。
5.根据权利要求4所述的智能电视语音增强控制方法,其特征在于,所述计算所述主分频信息和辅分频信息的幅度差和相位差,包括:
基于增益函数对所述辅分频信息进行信号均衡处理,获取均衡辅分频信息;
根据所述均衡辅分频信息计算所述主分频信息和辅分频信息的幅度差和相位差。
6.根据权利要求4所述的智能电视语音增强控制方法,其特征在于,所述对所述分类频谱进行滤波处理,获取滤波信号,包括:
对所述分类频谱进行数据平滑处理,获取平滑分类频谱;
将所述平滑分类频谱进行滤波处理,获取滤波信号。
7.根据权利要求4所述的智能电视语音增强控制方法,其特征在于,所述根据所述滤波信号和所述主分频信息进行增强融合处理,包括:
对所述滤波信号和所述主分频信息进行卷积增强融合运算处理。
8.一种基于多麦克风降噪的智能电视语音增强控制系统,其特征在于,在所述智能电视一侧设置主麦克风,在另一侧设置一个或多个辅麦克风;所述系统包括:
音频采集模块:用于所述主麦克风以及各辅麦克风实时采集所述智能电视周围环境的主音频信息和辅音频信息;
相似度匹配模块:用于利用采集到的所述主音频信息和辅音频信息分别与所述智能电视输出的输出音频信息进行相似度匹配,获取相似度匹配结果;
判断模块:用于基于所述相似度匹配结果判断采集到的主音频信息和辅音频信息是否存在输入控制音频信息;
滤波分频模块:用于若存在,则对所述主音频信息和辅音频信息分别进行滤波分频处理,提取非所述智能电视输出的输出音频信息部分的主分频信息和辅分频信息;
增强融合模块:用于将所述主分频信息和辅分频信息进行增强融合处理,获取增强融合音频信息;
输入控制模块:用于将所述增强融合音频信息输入智能电视音频控制模块;
所述系统还包括:
所述智能电视音频控制模块将所述增强融合音频信息转为控制执行指令,并将所述控制执行指令发送至所述智能电视控制模块;
所述智能电视控制模块解析所述控制执行指令,根据所述控制执行指令控制所述智能电视;
所述智能电视音频控制模块将所述增强融合音频信息转为控制执行指令,包括:
所述智能电视音频控制模块将所述增强融合音频信息转为文字信息;
将所述文字信息与所述智能电视音频控制模块存储的控制文字进行匹配处理;
若相互匹配,则基于所述相互匹配的控制文字生成控制执行命令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910716308.9A CN110503975B (zh) | 2019-08-02 | 2019-08-02 | 基于多麦克风降噪的智能电视语音增强控制方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910716308.9A CN110503975B (zh) | 2019-08-02 | 2019-08-02 | 基于多麦克风降噪的智能电视语音增强控制方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110503975A CN110503975A (zh) | 2019-11-26 |
CN110503975B true CN110503975B (zh) | 2022-02-01 |
Family
ID=68587751
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910716308.9A Active CN110503975B (zh) | 2019-08-02 | 2019-08-02 | 基于多麦克风降噪的智能电视语音增强控制方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110503975B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111402916B (zh) * | 2020-03-24 | 2023-08-04 | 青岛罗博智慧教育技术有限公司 | 一种语音增强系统、方法及手写板 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102915753A (zh) * | 2012-10-23 | 2013-02-06 | 华为终端有限公司 | 一种电子设备的智能控制音量的方法及实现装置 |
CN106251868A (zh) * | 2016-08-09 | 2016-12-21 | 江门雷斯诺照明有限公司 | 一种具有智能降噪功能的灯具语音识别控制方法 |
CN108156550A (zh) * | 2017-12-27 | 2018-06-12 | 上海传英信息技术有限公司 | 头戴式耳机的播放方法和装置 |
CN108597513A (zh) * | 2018-05-04 | 2018-09-28 | 深圳创维-Rgb电子有限公司 | 基于5.8GHz无线传输电视远场语音识别系统及方法 |
CN109756818A (zh) * | 2018-12-29 | 2019-05-14 | 上海瑾盛通信科技有限公司 | 双麦克风降噪方法、装置、存储介质及电子设备 |
CN109920404A (zh) * | 2019-01-31 | 2019-06-21 | 安徽智佳信息科技有限公司 | 拥有智能感知作用的自助售货广告管理系统的信息采集装置及采集方法 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4274419B2 (ja) * | 2003-12-09 | 2009-06-10 | 独立行政法人産業技術総合研究所 | 音響信号除去装置、音響信号除去方法及び音響信号除去プログラム |
CN101609671B (zh) * | 2009-07-21 | 2011-09-07 | 北京邮电大学 | 一种连续语音识别结果评价的方法和装置 |
TWI459372B (zh) * | 2011-09-28 | 2014-11-01 | Hon Hai Prec Ind Co Ltd | 具有暫停播放多媒體檔案功能的電子裝置及方法 |
CN103035274A (zh) * | 2011-09-30 | 2013-04-10 | 富泰华工业(深圳)有限公司 | 具有暂停播放多媒体文件功能的电子装置及方法 |
CN103366744B (zh) * | 2013-07-04 | 2015-10-14 | 三星半导体(中国)研究开发有限公司 | 基于语音控制便携式终端的方法和装置 |
CN105161106A (zh) * | 2015-08-20 | 2015-12-16 | 深圳Tcl数字技术有限公司 | 智能终端的语音控制方法、装置及电视机系统 |
KR20170057062A (ko) * | 2015-11-16 | 2017-05-24 | (주)아크로메이트 | 멀티미디어 장치 기반 소음환경 음성처리 통합기술 |
CN107197431A (zh) * | 2016-03-15 | 2017-09-22 | 西安中兴新软件有限责任公司 | 一种多媒体播放方法及装置 |
CN105872750B (zh) * | 2016-03-30 | 2018-12-18 | 绍兴市亿跃智能科技有限公司 | 基于关键字音量自适应调整的电视机 |
CN108712218A (zh) * | 2018-05-04 | 2018-10-26 | 福建科立讯通信有限公司 | 一种检测模拟对讲设备近距离通话啸叫可能性的方法 |
CN108831513B (zh) * | 2018-06-19 | 2021-01-01 | 广州酷狗计算机科技有限公司 | 录制音频数据的方法、终端、服务器和系统 |
-
2019
- 2019-08-02 CN CN201910716308.9A patent/CN110503975B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102915753A (zh) * | 2012-10-23 | 2013-02-06 | 华为终端有限公司 | 一种电子设备的智能控制音量的方法及实现装置 |
CN106251868A (zh) * | 2016-08-09 | 2016-12-21 | 江门雷斯诺照明有限公司 | 一种具有智能降噪功能的灯具语音识别控制方法 |
CN108156550A (zh) * | 2017-12-27 | 2018-06-12 | 上海传英信息技术有限公司 | 头戴式耳机的播放方法和装置 |
CN108597513A (zh) * | 2018-05-04 | 2018-09-28 | 深圳创维-Rgb电子有限公司 | 基于5.8GHz无线传输电视远场语音识别系统及方法 |
CN109756818A (zh) * | 2018-12-29 | 2019-05-14 | 上海瑾盛通信科技有限公司 | 双麦克风降噪方法、装置、存储介质及电子设备 |
CN109920404A (zh) * | 2019-01-31 | 2019-06-21 | 安徽智佳信息科技有限公司 | 拥有智能感知作用的自助售货广告管理系统的信息采集装置及采集方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110503975A (zh) | 2019-11-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107454508B (zh) | 麦克风阵列的电视机及电视系统 | |
US11176938B2 (en) | Method, device and storage medium for controlling game execution using voice intelligent interactive system | |
CN103366740B (zh) | 语音命令识别方法及装置 | |
CN102016995B (zh) | 用于处理音频信号的设备及其方法 | |
DE60217444T2 (de) | Sprachgesteuertes elektronisches Gerät | |
US20140195230A1 (en) | Display apparatus and method for controlling the same | |
CN112951259B (zh) | 音频降噪方法、装置、电子设备及计算机可读存储介质 | |
CN102568478A (zh) | 一种基于语音识别的视频播放控制方法和系统 | |
CN103886863A (zh) | 音频处理设备及音频处理方法 | |
CN109065051B (zh) | 一种语音识别处理方法及装置 | |
CN108461081B (zh) | 语音控制的方法、装置、设备和存储介质 | |
CN111540370A (zh) | 音频处理方法、装置、计算机设备及计算机可读存储介质 | |
CN105741841A (zh) | 语音控制方法及电子设备 | |
CN107274892A (zh) | 说话人识别方法及装置 | |
CN110503975B (zh) | 基于多麦克风降噪的智能电视语音增强控制方法及系统 | |
JPH05108099A (ja) | 音声認識用回路装置 | |
CN107767860B (zh) | 一种语音信息处理方法和装置 | |
CN114255782B (zh) | 说话人语音增强方法、电子设备和存储介质 | |
CN111105798B (zh) | 基于语音识别的设备控制方法 | |
CN117727298B (zh) | 基于深度学习的手提电脑语音识别方法及系统 | |
CN114996489A (zh) | 新闻数据的违规检测方法、装置、设备及存储介质 | |
US7877252B2 (en) | Automatic speech recognition method and apparatus, using non-linear envelope detection of signal power spectra | |
CN115104151A (zh) | 一种离线语音识别方法和装置、电子设备和可读存储介质 | |
CN106128474A (zh) | 一种音频处理方法和装置 | |
CN111916074A (zh) | 一种跨设备语音控制方法、系统、终端及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |