CN113870883A - 应用于电视机的语音信号处理方法、装置、介质及设备 - Google Patents

应用于电视机的语音信号处理方法、装置、介质及设备 Download PDF

Info

Publication number
CN113870883A
CN113870883A CN202111242978.5A CN202111242978A CN113870883A CN 113870883 A CN113870883 A CN 113870883A CN 202111242978 A CN202111242978 A CN 202111242978A CN 113870883 A CN113870883 A CN 113870883A
Authority
CN
China
Prior art keywords
audio
television
noise reduction
signal processing
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111242978.5A
Other languages
English (en)
Inventor
秦宇
罗雪倩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen TCL Digital Technology Co Ltd
Original Assignee
Shenzhen TCL Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen TCL Digital Technology Co Ltd filed Critical Shenzhen TCL Digital Technology Co Ltd
Priority to CN202111242978.5A priority Critical patent/CN113870883A/zh
Publication of CN113870883A publication Critical patent/CN113870883A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/485End-user interface for client configuration
    • H04N21/4852End-user interface for client configuration for modifying audio parameters, e.g. switching between mono and stereo

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本申请实施例提供一种应用于电视机的语音信号处理方法、装置、存储介质及终端设备,该方法包括:接收用户终端发出的音频降噪请求;获取所述电视机待播放的原始音频数据;将所述原始音频数据通过预先训练好的音频降噪模型进行音频降噪操作,得到降噪后的纯净语音数据;将所述纯净语音数据传输至所述电视机的音频设备进行纯净语音播放。本申请实施例能够将电视播放声音中的语音从背景音中单独分离出来,从而让选择语音清晰模式的用户能够清晰地听到纯净的语音,尤其适用于存在听力障碍的用户,能够让用户接收到的语音是过滤掉背景音的纯净语音。

Description

应用于电视机的语音信号处理方法、装置、介质及设备
技术领域
本申请涉及电子通信技术领域,尤其涉及一种应用于电视机的语音信号处理技术领域,特别涉及一种应用于电视机的语音信号处理方法、装置、介质及设备。
背景技术
随着年龄的增长,人的听觉系统会发生缓慢的变化,内耳毛细胞部分缺失、变性,听神经纤维数量减少并退化,使老年人呈现出不同程度的听力障碍。听力障碍可直接导致老人交流障碍,如置之不理还会引发多种心理问题,严重影响老年人的生活质量及家庭关系。年龄相关性听力障碍(Age-related-hearing-loss,ARHL)是老年人群感觉器官退化中最常见的临床综合征,以进行性隐匿性听力损失的感觉神经性聋为主要特征,常伴随焦虑、抑郁、认知功能降低,甚至老年痴呆,患者自我孤独,丧失社会活动能力,已成为影响家庭和社会的严重公共健康及安全问题。
电视针对听力衰退的用户,对电视播放的音频进行修正,使用户的声音感受更好,让听力衰退用户能听到清晰的声音,称为电视的辅听功能。实现辅听功能的常见方法是根据用户的听力曲线进行补偿。这种方法是通过安装在电视上听力测试App测得用户的听力曲线数据,跟标准的健康人的听力曲线对比,计算一个滤波器对声音做频率补偿。这个频率补偿滤波器本质上是一个均衡器,会调节声音各个频段的强弱。比如说,假设听损患者对高频感知能力很弱,就提高高频声音的强度,适当减弱低频声音的强度。
另一种方法是直接增强语音。对于绝大多数用户,收看电视节目时,对声音的关注点是电视中的语音内容,因此直接对节目音频中的语音进行增强,对所有用户,无论有无听力损伤都有效果。
但是,以上现存的两种方式均有一定的缺陷,听力曲线补偿方法需要进行繁琐的听力测试,精确的测量需要配一个耳机,类似一些耳机产品,提供一个手机测听app进行听力曲线测量,可以测的比较精准,但是提高了电视的硬件成本。不配耳机的话要用电视喇叭充当耳机的功能,但是由于房间噪声级通常不合格,为了避免测试音被噪声掩蔽,测听室内的环境噪声声压级有要求,当室内噪声较大时,低声压级的测试音用户可能听不到的,而一般用户家庭环境,由于空调,风扇,室外噪声传入,经常导致由于测试音被掩盖,测试准确率不准,使听力曲线补偿精度有限。另一种方式直接对语音频段进行eq(均衡器)增强的方法会直接将这个频段的背景声音也一起放大,无法使用户听到较纯净的语音,因此主观感受效果不好。
发明内容
本申请实施例提供一种应用于电视机的语音信号处理方法、装置、介质及设备,能够自动识别出当前频道播放的电视节目中插播的商业广告,并将识别出的商业广告替换成预设设置好的指定的播放内容。
本申请实施例一方面提供了一种应用于电视机的语音信号处理方法,包括:
接收用户终端发出的音频降噪请求;
获取所述电视机待播放的原始音频数据;
将所述原始音频数据通过预先训练好的音频降噪模型进行音频降噪操作,得到降噪后的纯净语音数据;
将所述纯净语音数据传输至所述电视机的音频设备进行纯净语音播放。
在本申请实施例所述的应用于电视机的语音信号处理方法中,所述音频降噪模型包括输入单元、编解码单元及输出单元。
在本申请实施例所述的应用于电视机的语音信号处理方法中,所述输入单元用于输入对所述原始音频数据经特征转换得到的输入音频特征;所述编解码单元用于对所述音频特征进行降噪处理,得到降噪后的输出音频特征;所述输出单元用于输出所述输出音频特征。
在本申请实施例所述的应用于电视机的语音信号处理方法中,所述输入对所述原始音频数据经特征转换得到的输入音频特征,包括:
将所述原始音频数据拆分为连续的n个帧,n为正整数;
通过快速傅里叶变换对所述n个帧进行预处理,得到所述n个帧中的每一个帧的L个初始特征值;
基于所述n个帧的L个初始特征值构建n*L二维数组,将所述n*L二维数组作为所述输入音频特征。
在本申请实施例所述的应用于电视机的语音信号处理方法中,所述n个帧包括若干个未来帧、若干个历史帧和一个初始当前帧。
在本申请实施例所述的应用于电视机的语音信号处理方法中,在所述通过所述输出单元输出所述输出音频特征之后,所述方法还包括:
通过反短时傅里叶变换和重迭相加法将所述输出音频特征还原成所述纯净语音。
在本申请实施例所述的应用于电视机的语音信号处理方法中,所述编解码单元包括若干个串联构成的编解码子单元,每个所述编解码子单元的输出特征与之前所有编解码子单元的输出特征的叠加特征作为下一个所述编解码子单元的输入特征。
在本申请实施例所述的应用于电视机的语音信号处理方法中,每个所述编解码子单元包含3个串联的卷积神经网络单元,所述3个串联的卷积神经网络单元按照串联顺序依次包括编码器、特征分析器及解码器。
在本申请实施例所述的应用于电视机的语音信号处理方法中,所述卷积神经网络单元包括一个卷积运算单元、一个BN操作单元及一个激活单元。
在本申请实施例所述的应用于电视机的语音信号处理方法中,所述音频降噪模型还包括变换单元,通过所述变换单元将所述n个帧进行加权融合处理,得到融合后的融合当前帧,所述融合当前帧与所述编解码单元的输出特征进行叉乘运算得到所述输出音频特征。
相应的,本申请实施例另一方面还提供了一种应用于电视机的语音信号处理装置,包括:
接收模块,用于接收用户终端发出的音频降噪请求;
获取模块,用于获取所述电视机待播放的原始音频数据;
降噪模块,用于将所述原始音频数据通过预先训练好的音频降噪模型进行音频降噪操作,得到降噪后的纯净语音数据;
输出模块,用于将所述纯净语音数据传输至所述电视机的音频设备进行纯净语音播放。
相应的,本申请实施例另一方面还提供了一种存储介质,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行如上所述的应用于电视机的语音信号处理方法。
相应的,本申请实施例另一方面还提供了一种终端设备,包括处理器和存储器,所述存储器存储有多条指令,所述处理器加载所述指令以执行如上所述的应用于电视机的语音信号处理方法。
本申请实施例提供了一种应用于电视机的语音信号处理方法、装置、介质及设备,该方法通过接收用户终端发出的音频降噪请求;获取所述电视机待播放的原始音频数据;将所述原始音频数据通过预先训练好的音频降噪模型进行音频降噪操作,得到降噪后的纯净语音数据;将所述纯净语音数据传输至所述电视机的音频设备进行纯净语音播放。本申请实施例能够将电视播放声音中的语音从背景音中单独分离出来,从而让选择语音清晰模式的用户能够清晰地听到纯净的语音,尤其适用于存在听力障碍的用户,能够让用户接收到的语音是过滤掉背景音的纯净语音。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的应用于电视机的语音信号处理方法的流程示意图。
图2为本申请实施例提供的应用于电视机的语音信号处理装置的音频降噪模型结构示意图。
图3为本申请实施例提供的应用于电视机的语音信号处理装置的结构示意图。
图4为本申请实施例提供的应用于电视机的语音信号处理装置的另一种结构示意图。
图5为本申请实施例提供的终端设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本申请的保护范围。
本申请实施例提供一种应用于电视机的语音信号处理方法,所述应用于电视机的语音信号处理方法可以应用于终端设备中。所述终端设备可以是电视、智能手机、平板电脑等设备。具体地,利用本申请实施例提供的应用于电视机的语音信号处理方法,能够将电视播放声音中的语音从背景音中单独分离出来,从而让选择语音清晰模式的用户能够清晰地听到纯净的语音,尤其适用于存在听力障碍的用户,能够让用户接收到的语音是过滤掉背景音的纯净语音,需要解释的是,本申请实施例中的背景音指的是一些不重要的声音,比如特效音(包括鸟鸣或喇叭声),背景音也指电视信号在传输过程中由于受到干扰产生的噪音。通过将电视播放的声音中的背景音去除,保留纯净的语音,从而让选择语音清晰模式的用户能够清晰地听到纯净的语音。
请参阅图1-2,图1为本申请实施例提供的应用于电视机的语音信号处理方法的流程示意图。图2为本申请实施例提供的应用于电视机的语音信号处理装置的音频降噪模型结构示意图。所述应用于电视机的语音信号处理方法,应用于终端设备中,所述方式可以包括以下步骤:
步骤101,接收用户终端发出的音频降噪请求。
在本实施例中,当用户希望接收到的音频更加纯净时,例如存在听力障碍的用户无法在混杂有背景音的语音中分辨出重要的语音,就可以通过本申请实施例的语音信号处理方法将重要的语音从背景音中分离出来,实现最终别用户接收到的语音是过滤背景音的纯净语音,满足不同人群的需求。
具体地,用户可以通过用户终端发出音频降噪请求,即将当前播放模式切换到语音清晰模式。其中,用户终端可以是外置设备(例如遥控器),或设置在电视机上的实体按钮或虚拟按钮,或其他能够发出音频降噪请求的部件。
步骤102,获取所述电视机待播放的原始音频数据。
在本实施例中,当接收到用户通过用户终端发出的音频降噪请求后,获取电视机待播放的原始音频数据,做好音频降噪处理的准备。
步骤103,将所述原始音频数据通过预先训练好的音频降噪模型进行音频降噪操作,得到降噪后的纯净语音数据。
在本实施例中,通过音频降噪模型对原始音频数据进行降噪处理,得到待输出的纯净语音数据。
在一具体实施例中,音频降噪模型是基于密集卷积神经网络训练得到,音频降噪模型主要包括输入单元、编解码单元及输出单元。
其中,音频降噪模型包括的输入单元,用于输入对原始音频数据经特征转换得到的输入音频特征。
输入对原始音频数据经特征转换得到的输入音频特征的过程具体包括:
将原始音频数据拆分为连续的n个帧,n为正整数,n个帧包括若干个未来帧、若干个历史帧和一个初始当前帧;
通过快速傅里叶变换对n个帧进行预处理,得到n个帧中的每一个帧的L个初始特征值;
基于n个帧的L个初始特征值构建n*L二维数组,将n*L二维数组作为输入音频特征。
需要说明的是,规格为n*L的数组,n代表一次输入模型的特征帧数,L代表一帧长度,以本文的方法为例,将一维音频信号进行短时傅里叶变换:信号用hanning窗函数分帧,分成512点一帧,每帧有256点交迭,对每帧信号做快速傅里叶变换,得到半边带频谱257点,每帧的257点数据就是一帧特征。为建模音频信号的时序性,模型每次运算需输入n帧特征,即n*257的二维数组。假设n=7,相当于模型用7帧带噪语音数据,估计1帧的纯净语音数据,理论上7帧应包括当前时刻帧信息,和前后时刻的帧信息,但是如果后面时刻的帧信息越多,模型的处理时延越大,因为这样的话模型缓存后面很多帧数据才能输出要估计那一帧的信息,系统就是一个非因果系统。因此典型的我们令7帧中,历史帧为4帧,未来帧为2帧,加上初始当前帧,构成7帧数据,采样频率为16kHz的音频数据,未来2帧数据等于256*2/16000=32ms,这个时延对电视系统而言是可以忍受的。因此典型的输入特征是7*257二维数组。
音频降噪模型包括的编解码单元,用于对音频特征进行降噪处理,得到降噪后的输出音频特征。
需要说明的是,如图2所示,编解码单元包括若干个串联构成的编解码子单元(即“encoder-decoder-block”),每个编解码子单元包含3个串联的卷积神经网络单元,3个串联的卷积神经网络单元按照串联顺序依次包括编码器(即“encoder”)、特征分析器(即“feature analyser”)及解码器(即“decoder”),每个卷积神经网络单元包括一个卷积运算单元(即“conv”)、一个BN操作单元(即“bn”)及一个激活单元(即“relu”)。每一个编解码单元可以看作对音频特征进行一次提纯的操作,多个编解码单元串行计算最终得到纯净语音。
进一步地,每个编解码子单元的输出特征与之前所有编解码子单元的输出特征的叠加特征作为下一个编解码子单元的输入特征,即实现各编解码子单元之间密集连接,编解码单元中的任意两个编解码子单元都互相连接,便于输出特征传播到后面任意的编解码子单元,使每个编解码子单元提取的特征都被后续编解码子单元重复利用,防止神经网络训练的梯度消失,使深层神经网络更容易训练,同时将所有编解码子单元之间构成密集连接结构,能够更好地保留输入的音频特征的信息,使得最终输出的纯净语音不会丢失关键信息。
本申请实施例将每个编解码子单元的输出特征与之前所有编解码子单元的输出特征的叠加特征作为下一个编解码子单元的输入特征,使得每一个编解码子单元的输出结果通过skip通道,与后面所有的编解码子单元的输出拼接(connection),connection的数学操作是使两个数组的通道维度上拼接成一个新数组,假设每个编码器输出都是1*257*c的数组,后面的编解码子单元的输出也都是1*257*c的数组,那么第p个编解码子单元的输出和前面所有的编解码子单元的输出进行skip connection,得到第p+1个编解码子单元的输入数据为1*257*(p+1)维度的数组。相比于现有的基线模型,基线模型的架构与本申请实施例的音频降噪模型架构相似,不同之处在于基线模型的skip连接是采用原始的resnet方法,即编解码子单元的输出结果通过skip通道与后面所有的编解码单元的输出相加(add),两个1*257*c的数组相加还是1*257*c的数组。另一个区别是,基线模型一个编解码子单元的输出结果只跟本编解码子单元的输出相加,跟其他编解码子单元不发生信息传递。
实践表明,前面的编解码子单元和后面的编解码子单元之间有>2层的编解码子单元,这时resnet的skip connection直接相加会使反向运算困难,使模型不容易训练,本申请实施例的音频降噪模型中的skip connection拼接实际上需要通过做卷积进行通道相加操作,等价于resnet的skip connection线性相加,当卷积核是1*1时,编解码子单元的卷积操作在通道相加等价于带权值的相加,权值是1*1卷积参数。因此本申请实施例的音频降噪模型结构与resnet的skip connection有同样的物理意义,而且相加权值是可训练的,因此鲁棒性更好。
音频降噪模型包括的输出单元,用于输出所述输出音频特征,输出音频特征是257点的半频带频谱数据,得到输出音频后利用反短时傅里叶变换和重迭相加法将输出音频还原成纯净语音。
在一些实施例中,所述音频降噪模型还包括变换单元,通过所述变换单元将所述n个帧进行加权融合处理,得到融合后的融合当前帧,所述融合当前帧与所述编解码单元的输出特征进行叉乘运算得到所述输出音频特征。
在本实施例中,变换单元用于将初始n*L的输入音频特征变换成1*257的数据,实际可以看成将n个帧进行加权融合成当前帧的特征(即融合当前帧)的变换器。需要说明的是,最后一个编解码子单元包含的激活单元采用的是sigmoid激活函数,使得编解码子单元的输出结果的道数为1,通过编解码单元的输出特征与变换单元的输出结果相乘得到估计的纯净语音,使得最终得到的多帧纯净语音之间是相互关联的,体现音频信号临近区域的相关性。
从物理意义上看,最后一个编解码子单元的输出特征是主网络的估计,由于采用sigmoid激活函数,其输出值在0到1之间,与变换单元的结果,即多帧信息融合得到的融合当前帧,相乘得到估计的纯净语音,因此主网络输出实际是一个维纳滤波器,这么做将主网络输出限制范围,使网络更容易训练,同时模型也有明显的物理意义。
步骤104,将所述纯净语音数据传输至所述电视机的音频设备进行纯净语音播放。
在本实施例中,将纯净语音数据传输至电视机的音频设备(例如音响)进行纯净语音播放,通过将电视播放的声音中的背景音去除,保留纯净的语音,从而让选择语音清晰模式的用户能够清晰地听到纯净的语音。
上述所有可选技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。
具体实施时,本申请不受所描述的各个步骤的执行顺序的限制,在不产生冲突的情况下,某些步骤还可以采用其它顺序进行或者同时进行。
由上可知,本申请实施例提供的应用于电视机的语音信号处理方法通过接收用户终端发出的音频降噪请求;获取所述电视机待播放的原始音频数据;将所述原始音频数据通过预先训练好的音频降噪模型进行音频降噪操作,得到降噪后的纯净语音数据;将所述纯净语音数据传输至所述电视机的音频设备进行纯净语音播放。本申请实施例能够将电视播放声音中的语音从背景音中单独分离出来,从而让选择语音清晰模式的用户能够清晰地听到纯净的语音,尤其适用于存在听力障碍的用户,能够让用户接收到的语音是过滤掉背景音的纯净语音。
本申请实施例还提供一种应用于电视机的语音信号处理装置,所述应用于电视机的语音信号处理装置可以集成在终端设备中。所述终端设备可以是电视、智能手机、平板电脑等设备。
请参阅图3,图3为本申请实施例提供的应用于电视机的语音信号处理装置的结构示意图。应用于电视机的语音信号处理装置30可以包括:
接收模块31,用于接收用户终端发出的音频降噪请求;
获取模块32,用于获取所述电视机待播放的原始音频数据;
降噪模块33,用于将所述原始音频数据通过预先训练好的音频降噪模型进行音频降噪操作,得到降噪后的纯净语音数据;
输出模块34,用于将所述纯净语音数据传输至所述电视机的音频设备进行纯净语音播放。
在一些实施例中,所述装置还原模块,用于通过反短时傅里叶变换和重迭相加法将所述输出音频特征还原成所述纯净语音。
具体实施时,以上各个模块可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现。
由上可知,本申请实施例提供的应用于电视机的语音信号处理装置30,通过接收模块31接收用户终端发出的音频降噪请求;获取模块32获取所述电视机待播放的原始音频数据;降噪模块33将所述原始音频数据通过预先训练好的音频降噪模型进行音频降噪操作,得到降噪后的纯净语音数据;输出模块34将所述纯净语音数据传输至所述电视机的音频设备进行纯净语音播放。
请参阅图4,图4为本申请实施例提供的应用于电视机的语音信号处理装置的另一结构示意图,振动应用于电视机的语音信号处理装置30包括存储器120、一个或多个处理器180、以及一个或多个应用程序,其中该一个或多个应用程序被存储于该存储器120中,并配置为由该处理器180执行;该处理器180可以包括接收模块31,获取模块32,降噪模块33,以及输出模块34。例如,以上各个部件的结构和连接关系可以如下:
存储器120可用于存储应用程序和数据。存储器120存储的应用程序中包含有可执行代码。应用程序可以组成各种功能模块。处理器180通过运行存储在存储器120的应用程序,从而执行各种功能应用以及数据处理。此外,存储器120可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器120还可以包括存储器控制器,以提供处理器180对存储器120的访问。
处理器180是装置的控制中心,利用各种接口和线路连接整个终端的各个部分,通过运行或执行存储在存储器120内的应用程序,以及调用存储在存储器120内的数据,执行装置的各种功能和处理数据,从而对装置进行整体监控。可选的,处理器180可包括一个或多个处理核心;优选的,处理器180可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等。
具体在本实施例中,处理器180会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行代码加载到存储器120中,并由处理器180来运行存储在存储器120中的应用程序,从而实现各种功能:
接收模块31,用于接收用户终端发出的音频降噪请求;
获取模块32,用于获取所述电视机待播放的原始音频数据;
降噪模块33,用于将所述原始音频数据通过预先训练好的音频降噪模型进行音频降噪操作,得到降噪后的纯净语音数据;
输出模块34,用于将所述纯净语音数据传输至所述电视机的音频设备进行纯净语音播放。
在一些实施例中,所述音频降噪模型包括输入单元、编解码单元及输出单元;
其中,通过所述输入单元输入对所述原始音频数据经特征转换得到的输入音频特征;
通过所述编解码单元对所述音频特征进行降噪处理,得到降噪后的输出音频特征;
通过所述输出单元输出所述输出音频特征。
在一些实施例中,所述输入对所述原始音频数据经特征转换得到的输入音频特征,包括:
将所述原始音频数据拆分为连续的n个帧,n为正整数,所述n个帧包括若干个未来帧、若干个历史帧和一个初始当前帧;
通过快速傅里叶变换对所述n个帧进行预处理,得到所述n个帧中的每一个帧的L个初始特征值;
基于所述n个帧的L个初始特征值构建n*L二维数组,将所述n*L二维数组作为所述输入音频特征。
在一些实施例中,所述编解码单元包括若干个串联构成的编解码子单元,每个所述编解码子单元的输出特征与之前所有编解码子单元的输出特征的叠加特征作为下一个所述编解码子单元的输入特征。
在一些实施例中,每个所述编解码子单元包含3个串联的卷积神经网络单元,所述3个串联的卷积神经网络单元按照串联顺序依次包括编码器、特征分析器及解码器,每个所述卷积神经网络单元包括一个卷积运算单元、一个BN操作单元及一个激活单元。
在一些实施例中,所述音频降噪模型还包括变换单元,通过所述变换单元将所述n个帧进行加权融合处理,得到融合后的融合当前帧,所述融合当前帧与所述编解码单元的输出特征进行叉乘运算得到所述输出音频特征。
在一些实施例中,所述装置还原模块,用于通过反短时傅里叶变换和重迭相加法将所述输出音频特征还原成所述纯净语音。
本申请实施例还提供一种终端设备。所述终端设备可以是电视机、智能手机、电脑、平板电脑等设备。
请参阅图5,图5示出了本申请实施例提供的终端设备的结构示意图,该终端设备可以用于实施上述实施例中提供的振动调节方法。该终端设备1200可以为智能手机或平板电脑。
如图5所示,终端设备1200可以包括RF(Radio Frequency,射频)电路110、包括有一个或一个以上(图中仅示出一个)计算机可读存储介质的存储器120、输入单元130、显示单元140、传感器150、音频电路160、传输模块170、包括有一个或者一个以上(图中仅示出一个)处理核心的处理器180以及电源190等部件。本领域技术人员可以理解,图5中示出的终端设备1200结构并不构成对终端设备1200的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
RF电路110用于接收以及发送电磁波,实现电磁波与电信号的相互转换,从而与通讯网络或者其他设备进行通讯。RF电路110可包括各种现有的用于执行这些功能的电路元件,例如,天线、射频收发器、数字信号处理器、加密/解密芯片、用户身份模块(SIM)卡、存储器等等。RF电路110可与各种网络如互联网、企业内部网、无线网络进行通讯或者通过无线网络与其他设备进行通讯。
存储器120可用于存储软件程序以及模块,如上述实施例中应用于电视机的语音信号处理方法对应的程序指令/模块,处理器180通过运行存储在存储器120内的软件程序以及模块,从而执行各种功能应用以及数据处理,可以根据终端设备所处的当前场景来自动选择振动提醒模式来进行应用于电视机的语音信号处理,既能够保证会议等场景不被打扰,又能保证用户可以感知来电,提升了终端设备的智能性。存储器120可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器120可进一步包括相对于处理器180远程设置的存储器,这些远程存储器可以通过网络连接至终端设备1200。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入单元130可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,输入单元130可包括触敏表面131以及其他输入设备132。触敏表面131,也称为触摸显示屏或者触控板,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面131上或在触敏表面131附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触敏表面131可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器180,并能接收处理器180发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面131。除了触敏表面131,输入单元130还可以包括其他输入设备132。具体地,其他输入设备132可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元140可用于显示由用户输入的信息或提供给用户的信息以及终端设备1200的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元140可包括显示面板141,可选的,可以采用LCD(Liquid CrystalDisplay,液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板141。进一步的,触敏表面131可覆盖显示面板141,当触敏表面131检测到在其上或附近的触摸操作后,传送给处理器180以确定触摸事件的类型,随后处理器180根据触摸事件的类型在显示面板141上提供相应的视觉输出。虽然在图5中,触敏表面131与显示面板141是作为两个独立的部件来实现输入和输出功能,但是在某些实施例中,可以将触敏表面131与显示面板141集成而实现输入和输出功能。
终端设备1200还可包括至少一种传感器150,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板141的亮度,接近传感器可在终端设备1200移动到耳边时,关闭显示面板141和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于终端设备1200还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路160、扬声器161,传声器162可提供用户与终端设备1200之间的音频接口。音频电路160可将接收到的音频数据转换后的电信号,传输到扬声器161,由扬声器161转换为声音信号输出;另一方面,传声器162将收集的声音信号转换为电信号,由音频电路160接收后转换为音频数据,再将音频数据输出处理器180处理后,经RF电路110以发送给比如另一终端,或者将音频数据输出至存储器120以便进一步处理。音频电路160还可能包括耳塞插孔,以提供外设耳机与终端设备1200的通信。
终端设备1200通过传输模块170(例如Wi-Fi模块)可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图5示出了传输模块170,但是可以理解的是,其并不属于终端设备1200的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器180是终端设备1200的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器120内的软件程序和/或模块,以及调用存储在存储器120内的数据,执行终端设备1200的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器180可包括一个或多个处理核心;在一些实施例中,处理器180可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器180中。
终端设备1200还包括给各个部件供电的电源190,在一些实施例中,电源可以通过电源管理系统与处理器180逻辑相连,从而通过电源管理系统实现管理放电、以及功耗管理等功能。电源190还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
尽管未示出,终端设备1200还可以包括摄像头(如前置摄像头、后置摄像头)、蓝牙模块等,在此不再赘述。具体在本实施例中,终端设备1200的显示单元140是触摸屏显示器,终端设备1200还包括有存储器120,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器120中,且经配置以由一个或者一个以上处理器180执行一个或者一个以上程序包含用于进行以下操作的指令:
接收指令,用于接收用户终端发出的音频降噪请求;
获取指令,用于获取所述电视机待播放的原始音频数据;
降噪指令,用于将所述原始音频数据通过预先训练好的音频降噪模型进行音频降噪操作,得到降噪后的纯净语音数据;
输出指令,用于将所述纯净语音数据传输至所述电视机的音频设备进行纯净语音播放。
在一些实施例中,所述音频降噪模型包括输入单元、编解码单元及输出单元;
其中,通过所述输入单元输入对所述原始音频数据经特征转换得到的输入音频特征;
通过所述编解码单元对所述音频特征进行降噪处理,得到降噪后的输出音频特征;
通过所述输出单元输出所述输出音频特征。
在一些实施例中,所述输入对所述原始音频数据经特征转换得到的输入音频特征,包括:
将所述原始音频数据拆分为连续的n个帧,n为正整数,所述n个帧包括若干个未来帧、若干个历史帧和一个初始当前帧;
通过快速傅里叶变换对所述n个帧进行预处理,得到所述n个帧中的每一个帧的L个初始特征值;
基于所述n个帧的L个初始特征值构建n*L二维数组,将所述n*L二维数组作为所述输入音频特征。
在一些实施例中,所述编解码单元包括若干个串联构成的编解码子单元,每个所述编解码子单元的输出特征与之前所有编解码子单元的输出特征的叠加特征作为下一个所述编解码子单元的输入特征。
在一些实施例中,每个所述编解码子单元包含3个串联的卷积神经网络单元,所述3个串联的卷积神经网络单元按照串联顺序依次包括编码器、特征分析器及解码器,每个所述卷积神经网络单元包括一个卷积运算单元、一个BN操作单元及一个激活单元。
在一些实施例中,所述音频降噪模型还包括变换单元,通过所述变换单元将所述n个帧进行加权融合处理,得到融合后的融合当前帧,所述融合当前帧与所述编解码单元的输出特征进行叉乘运算得到所述输出音频特征。
在一些实施例中,所述装置还原指令,用于通过反短时傅里叶变换和重迭相加法将所述输出音频特征还原成所述纯净语音。
本申请实施例还提供一种终端设备。所述终端设备可以是智能手机、平板电脑等设备。
由上可知,本申请实施例提供了一种终端设备1200,所述终端设备1200执行以下步骤:接收用户终端发出的音频降噪请求;获取所述电视机待播放的原始音频数据;将所述原始音频数据通过预先训练好的音频降噪模型进行音频降噪操作,得到降噪后的纯净语音数据;将所述纯净语音数据传输至所述电视机的音频设备进行纯净语音播放。本申请实施例能够将电视播放声音中的语音从背景音中单独分离出来,从而让选择语音清晰模式的用户能够清晰地听到纯净的语音,尤其适用于存在听力障碍的用户,能够让用户接收到的语音是过滤掉背景音的纯净语音。
本申请实施例还提供一种存储介质,所述存储介质中存储有计算机程序,当所述计算机程序在计算机上运行时,所述计算机执行上述任一实施例所述的应用于电视机的语音信号处理方法。
需要说明的是,对本申请所述应用于电视机的语音信号处理方法而言,本领域普通测试人员可以理解实现本申请实施例所述应用于电视机的语音信号处理方法的全部或部分流程,是可以通过计算机程序来控制相关的硬件来完成,所述计算机程序可存储于一计算机可读存储介质中,如存储在终端设备的存储器中,并被该终端设备内的至少一个处理器执行,在执行过程中可包括如所述振动调节方法的实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,RandomAccess Memory)等。
对本申请实施例的所述振动调节装置而言,其各功能模块可以集成在一个处理芯片中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中,所述存储介质譬如为只读存储器,磁盘或光盘等。
以上对本申请实施例所提供的应用于电视机的语音信号处理方法、装置、存储介质及终端设备进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (13)

1.一种应用于电视机的语音信号处理方法,其特征在于,所述方法包括下述步骤:
接收用户终端发出的音频降噪请求;
获取所述电视机待播放的原始音频数据;
将所述原始音频数据通过预先训练好的音频降噪模型进行音频降噪操作,得到降噪后的纯净语音数据;
将所述纯净语音数据传输至所述电视机的音频设备进行纯净语音播放。
2.如权利要求1所述的应用于电视机的语音信号处理方法,其特征在于,所述音频降噪模型包括输入单元、编解码单元及输出单元。
3.如权利要求2所述的应用于电视机的语音信号处理方法,其特征在于,所述输入单元用于输入对所述原始音频数据经特征转换得到的输入音频特征;所述编解码单元用于对所述音频特征进行降噪处理,得到降噪后的输出音频特征;所述输出单元用于输出所述输出音频特征。
4.如权利要求3所述的应用于电视机的语音信号处理方法,其特征在于,所述输入对所述原始音频数据经特征转换得到的输入音频特征,包括:
将所述原始音频数据拆分为连续的n个帧,n为正整数;
通过快速傅里叶变换对所述n个帧进行预处理,得到所述n个帧中的每一个帧的L个初始特征值;
基于所述n个帧的L个初始特征值构建n*L二维数组,将所述n*L二维数组作为所述输入音频特征。
5.如权利要求4所述的应用于电视机的语音信号处理方法,其特征在于,所述n个帧包括若干个未来帧、若干个历史帧和一个初始当前帧。
6.如权利要求5所述的应用于电视机的语音信号处理方法,其特征在于,所述音频降噪模型还包括变换单元,通过所述变换单元将所述n个帧进行加权融合处理,得到融合后的融合当前帧,所述融合当前帧与所述编解码单元的输出特征进行叉乘运算得到所述输出音频特征。
7.如权利要求2所述的应用于电视机的语音信号处理方法,其特征在于,在所述通过所述输出单元输出所述输出音频特征之后,所述方法还包括:
通过反短时傅里叶变换和重迭相加法将所述输出音频特征还原成所述纯净语音。
8.如权利要求2所述的应用于电视机的语音信号处理方法,其特征在于,所述编解码单元包括若干个串联构成的编解码子单元,每个所述编解码子单元的输出特征与之前所有编解码子单元的输出特征的叠加特征作为下一个所述编解码子单元的输入特征。
9.如权利要求8所述的应用于电视机的语音信号处理方法,其特征在于,每个所述编解码子单元包含3个串联的卷积神经网络单元,所述3个串联的卷积神经网络单元按照串联顺序依次包括编码器、特征分析器及解码器。
10.如权利要求9所述的应用于电视机的语音信号处理方法,其特征在于,所述卷积神经网络单元包括一个卷积运算单元、一个BN操作单元及一个激活单元。
11.一种应用于电视机的语音信号处理装置,其特征在于,包括:
接收模块,用于接收用户终端发出的音频降噪请求;
获取模块,用于获取所述电视机待播放的原始音频数据;
降噪模块,用于将所述原始音频数据通过预先训练好的音频降噪模型进行音频降噪操作,得到降噪后的纯净语音数据;
输出模块,用于将所述纯净语音数据传输至所述电视机的音频设备进行纯净语音播放。
12.一种计算机可读存储介质,其特征在于,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至10任一项所述的应用于电视机的语音信号处理方法。
13.一种终端设备,其特征在于,包括处理器和存储器,所述存储器存储有多条指令,所述处理器加载所述指令以执行权利要求1至10任一项所述的应用于电视机的语音信号处理方法。
CN202111242978.5A 2021-10-25 2021-10-25 应用于电视机的语音信号处理方法、装置、介质及设备 Pending CN113870883A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111242978.5A CN113870883A (zh) 2021-10-25 2021-10-25 应用于电视机的语音信号处理方法、装置、介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111242978.5A CN113870883A (zh) 2021-10-25 2021-10-25 应用于电视机的语音信号处理方法、装置、介质及设备

Publications (1)

Publication Number Publication Date
CN113870883A true CN113870883A (zh) 2021-12-31

Family

ID=78997459

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111242978.5A Pending CN113870883A (zh) 2021-10-25 2021-10-25 应用于电视机的语音信号处理方法、装置、介质及设备

Country Status (1)

Country Link
CN (1) CN113870883A (zh)

Similar Documents

Publication Publication Date Title
CN110335620B (zh) 一种噪声抑制方法、装置和移动终端
US20190311718A1 (en) Context-aware control for smart devices
CN101510905B (zh) 移动设备上多传感语音增强的方法和装置
JP2021516786A (ja) 複数人の音声を分離する方法、装置、およびコンピュータプログラム
CA3075738A1 (en) Low latency audio enhancement
CN109982228B (zh) 一种麦克风故障检测方法及移动终端
CN109040641B (zh) 一种视频数据合成方法及装置
CN109147818A (zh) 声学特征提取方法、装置、存储介质及终端设备
CN109215683B (zh) 一种提示方法及终端
CN111986691B (zh) 音频处理方法、装置、计算机设备及存储介质
CN111477243B (zh) 音频信号处理方法及电子设备
CN109887494B (zh) 重构语音信号的方法和装置
CN109951602B (zh) 一种振动控制方法及移动终端
CN107886969B (zh) 一种音频播放方法及音频播放装置
CN110364156A (zh) 语音交互方法、系统、终端及可读存储介质
CN110390953B (zh) 啸叫语音信号的检测方法、装置、终端及存储介质
CN111462764B (zh) 音频编码方法、装置、计算机可读存储介质及设备
CN111445901A (zh) 音频数据获取方法、装置、电子设备及存储介质
CN113949956B (zh) 降噪处理方法、装置、电子设备、耳机及存储介质
CN107749306B (zh) 一种振动优化的方法及移动终端
CN111863020A (zh) 语音信号处理方法、装置、设备及存储介质
CN114125639A (zh) 音频信号处理方法、装置及电子设备
CN114071308A (zh) 耳机自适应调音方法、装置、耳机及可读存储介质
CN110995921A (zh) 通话处理方法、电子设备及计算机可读存储介质
GB2516075A (en) Sensor input recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination