CN112750456A - 即时通信应用中的语音数据处理方法、装置及电子设备 - Google Patents
即时通信应用中的语音数据处理方法、装置及电子设备 Download PDFInfo
- Publication number
- CN112750456A CN112750456A CN202010956303.6A CN202010956303A CN112750456A CN 112750456 A CN112750456 A CN 112750456A CN 202010956303 A CN202010956303 A CN 202010956303A CN 112750456 A CN112750456 A CN 112750456A
- Authority
- CN
- China
- Prior art keywords
- voice
- voice data
- noise
- playing
- voice message
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title abstract description 16
- 238000012545 processing Methods 0.000 claims abstract description 93
- 230000001960 triggered effect Effects 0.000 claims abstract description 19
- 238000000034 method Methods 0.000 claims description 51
- 230000002996 emotional effect Effects 0.000 claims description 38
- 230000006835 compression Effects 0.000 claims description 26
- 238000007906 compression Methods 0.000 claims description 26
- 238000004458 analytical method Methods 0.000 claims description 17
- 238000012790 confirmation Methods 0.000 claims description 10
- 238000009432 framing Methods 0.000 claims description 7
- 230000004044 response Effects 0.000 claims description 5
- 238000001228 spectrum Methods 0.000 description 46
- 238000009499 grossing Methods 0.000 description 18
- 238000001514 detection method Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 11
- 230000008451 emotion Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 8
- 230000002159 abnormal effect Effects 0.000 description 6
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 206010011469 Crying Diseases 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 230000007613 environmental effect Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000037433 frameshift Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 101001120757 Streptococcus pyogenes serotype M49 (strain NZ131) Oleate hydratase Proteins 0.000 description 1
- 229940083712 aldosterone antagonist Drugs 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
- G10L21/043—Time compression or expansion by changing speed
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
- G10L21/057—Time compression or expansion for improving intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Telephone Function (AREA)
Abstract
本申请提供一种即时通信应用中的语音数据处理方法、装置及电子设备,属于语音处理技术领域。本申请实施例中,语音接收侧上的即时通讯应用显示接收到的语音消息;响应播放语音消息的操作,根据播放环境的第一噪声强度对语音消息的播放语速进行调节后播放,其中播放语速和第一噪声强度负相关;语音发送侧上的即时通讯应用响应目标对象触发的录音操作,获得麦克风采集的语音数据;根据录音环境的第二噪声强度对语音数据进行处理后发送,其中播放语速和第二噪声强度负相关。由于本申请实施例根据检测噪声大小调节语速,噪声越大,调节后的语音数据的播放语速越慢,不再需要用户手动调节播放音量,提高语音消息的播放控制方式的灵活性。
Description
技术领域
本申请涉及语音处理技术领域,特别涉及一种即时通信应用中的语音数据处理方法、装置及电子设备。
背景技术
随着信息技术的日益发展,各种社交APP的语音功能越发完善,如今无论你人身在何处,我们日常的线上沟通都不再需要打字输入,通过即时通讯APP以语音消息的形式发送信息,沟通越来越方便。
目前,即时通讯APP接收到语音消息,用户点击播放接收到的语音消息,并从存储单元里读取该语音消息并进行解码,解码后得到可播放的pcm音频数据,最后由播放器播放该pcm音频数据,从而用户可以听到接收的语音消息。在即时通讯APP播放语音消息的过程中,若当前播放环境中噪声较大(例如播放环境为噪声较大的户外环境),用户可能无法听清楚播放的语音消息,此时需要用户手动调节播放音量,语音消息播放过程中的播放控制方式不够灵活。
发明内容
本申请实施例提供一种即时通信应用中的语音数据处理方法,用以提高播放过程中的播放控制方式的灵活性。
第一方面,本申请实施例提供一种即时通信应用中的语音数据处理方法,包括:
显示接收到的语音消息;
响应播放所述语音消息的操作,根据播放环境的第一噪声强度对所述语音消息的播放语速进行调节后播放,所述播放语速和所述第一噪声强度负相关。
可选地,根据下列方式检测带噪语音数据中的第一噪声强度:
针对所述带噪语音数据中的每个带噪语音数据帧,对所述带噪语音数据帧进行噪声检测,得到所述带噪语音数据帧对应的噪声估计参数;
根据所述带噪语音数据中的带噪语音数据帧对应的噪声估计参数确定所述第一噪声强度。
可选地,根据下列方式确定所述带噪语音数据帧对应的噪声估计参数:
确定所述带噪语音数据帧对应的在预设频谱范围内的目标子带;
根据每个目标子带对应的噪声估计值、每个目标子带中包含的频点个数,以及采集到的上一个带噪语音数据帧对应的噪声估计参数,确定所述带噪语音数据帧对应的噪声估计参数。
可选地,根据下列方式确定每个目标子带对应的噪声估计值:
根据所述目标子带中每个频点对应的频域复数值以及所述目标子带中包含的频点个数,确定所述目标子带的功率谱;其中,所述频点对应的频域复数值是将采集到的所述带噪语音数据帧进行傅里叶变换处理得到的;
根据对所述目标子带的功率谱做时频域平滑处理得到的平滑功率谱,以及根据所述带噪语音数据帧对应的子带的功率谱中的最小功率谱,确定所述目标子带对应的语音存在概率值;
根据所述目标子带对应的功率谱、所述目标子带对应的语音存在概率值,以及所述目标子带在上一个带噪语音数据帧中对应的噪声估计值,确定所述目标子带对应的噪声估计值。
可选地,在根据播放环境的第一噪声强度对所述语音消息的播放语速进行调节之前,还包括:
对所述语音消息进行语音增强处理。
第二方面,本申请实施例提供一种即时通信应用中的语音数据处理方法,该方法包括:
响应目标对象触发的录音操作,获得麦克风采集的语音数据;
根据录音环境的第二噪声强度对所述语音数据进行处理后发送,以使处理后的语音数据的播放语速和所述第二噪声强度负相关。
可选地,在获得麦克风采集的语音数据之后,在根据录音环境的第二噪声强度对所述语音数据进行处理之前,还包括:
确定采集到的所述语音数据满足第二预设条件;
所述第二预设条件包括下列条件中的至少一种:
接收所述语音数据的账户为预设类型账户;
根据所述语音数据中的语音特征确定出的情感状态为预设情感状态,且所述情感状态是通过对所述语音数据中的语音特征进行情感分析得到的;
所述语音数据中包含预设关键信息,且所述语音数据中的预设关键信息是通过对所述语音数据进行语义分析得到的。
可选地,根据下列方式检测噪声数据中的第二噪声强度:
针对所述噪声数据中的每个噪声数据帧,对所述噪声数据帧进行噪声检测,得到所述噪声数据帧对应的噪声估计参数;
根据所述噪声数据中的噪声数据帧对应的噪声估计参数确定所述第二噪声强度。
可选地,根据下列方式确定所述噪声数据帧对应的噪声估计参数:
确定所述噪声数据帧对应的在预设频谱范围内的目标子带;
根据每个目标子带对应的噪声估计值、每个目标子带中包含的频点个数,以及采集到的上一个噪声数据帧对应的噪声估计参数,确定所述噪声数据帧对应的噪声估计参数。
可选地,根据下列方式确定每个目标子带对应的噪声估计值:
根据所述目标子带中每个频点对应的频域复数值以及所述目标子带中包含的频点个数,确定所述目标子带的功率谱;其中,所述频点对应的频域复数值是将采集到的所述噪声数据帧进行傅里叶变换处理得到的;
根据对所述目标子带的功率谱做时频域平滑处理得到的平滑功率谱,以及根据所述噪声数据帧对应的子带的功率谱中的最小功率谱,确定所述目标子带对应的语音存在概率值;
根据所述目标子带对应的功率谱、所述目标子带对应的语音存在概率值,以及所述目标子带在上一个带噪声数据帧中对应的噪声估计值,确定所述目标子带对应的噪声估计值。
第三方面,本申请实施例提供一种即时通信应用中的语音数据处理装置,包括:
显示单元,用于显示接收到的语音消息;
第一处理单元,用于响应播放所述语音消息的操作,根据播放环境的第一噪声强度对所述语音消息的播放语速进行调节后播放,所述播放语速和所述第一噪声强度负相关。
第四方面,本申请实施例提供一种即时通信应用中的语音数据处理装置,包括:
采集单元,用于响应目标对象触发的录音操作,获得麦克风采集的语音数据;
第二处理单元,用于根据录音环境的第二噪声强度对所述语音数据进行处理后发送,以使处理后的语音数据的播放语速和所述第二噪声强度负相关。
第五方面,本申请实施例提供一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请提供的语音数据处理方法。
第六方面,本申请实施例提供一种计算机可读介质,存储有计算机可执行指令,所述计算机可执行指令用于执行本申请提供的语音数据处理方法。
本申请有益效果:
由于本申请实施例中语音接收终端上的即时通讯应用显示接收到的语音消息;响应目标对象触发的播放语音消息的操作,语音接收终端上的即时通讯应用根据播放环境的第一噪声强度对语音消息的播放语速进行调节后播放语音接收端;这种根据播放环境的第一噪声强度对语音消息的播放语速进行调节,使其播放控制方式更加灵活;另外用户所处环境噪声越大,则调节后的播放语速越慢,使用户更加容易的听清楚语音内容。同时,本申请实施例中响应目标对象触发的录音操作,获得麦克风采集的语音数据;根据录音环境的第二噪声强度对语音数据进行处理后发送。由于本申请实施例中,噪声强度与播放语速是负相关的,在语音发送端,用户所处环境噪声越大,则调节后的录音语速越慢,语音接收侧用户可以直接点击播放语音消息,根据环境噪声自动对语音消息的播放语速进行调节,使得即时通讯更加便捷。
附图说明
图1为本申请实施例示例性的一种可选应用场景的示意图;
图2为本申请实施例提供的一种即时通信应用中语音数据播放流程图;
图3为本申请实施例提供的即时通信应用中的语音数据处理方法流程示意图;
图4为本申请实施例提供的即时通讯接收语音消息提醒的显示界面;
图5本申请实施例提供的即时通讯APP中显示有接收到的语音消息的聊天显示界面;
图6为本申请实施例提供的语音调速的提示信息的显示界面图;
图7为本申请实施例提供的操作指定调节语速的显示界面图;
图8为本申请实施例提供的WSOLA算法时长调整示意图;
图9为本申请实施例提供的一种即时通信应用中的语音数据处理方法流程图;
图10为本申请实施例提供的即时通信应用中的语音数据处理方法流程示意图;
图11为本申请实施例提供的即时通讯应用的聊天显示界面;
图12为本申请实施例提供的在录音过程中即时通讯应用的显示界面;
图13为本申请实施例提供的一种即时通信应用中的语音数据处理方法流程图;
图14为本申请实施例提供的一种即时通信应用中的语音数据处理装置的结构示意图;
图15为本申请实施例提供的另一种即时通信应用中的语音数据处理装置的结构示意图;
图16为本申请实施例中的电子设备的结构示意图;
图17为本申请实施例中的一种计算装置的结构示意图。
具体实施方式
为了使本申请的目的、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
下面对文中出现的一些术语进行解释:
1、语音消息:语音消息是一种最基本的沟通方式,在各种社交APP中被广泛使用,在走路运动过程中、打字较慢的老人、不会打字的小孩,都可以非常方便地通过语音消息发送语音,与人交流,为人们的线上沟通提供了极大地方便。
2、功率谱:功率谱是功率谱密度函数的简称,它定义为单位频带内的信号功率。它表示了信号功率随着频率的变化情况,即信号功率在频域的分布状况。
3、噪声估计:噪声估计已成为语音增强技术中很关键的环节。在很多单通道语音增强算法中,尤其在噪声源不可知的情况下,实时噪声功率谱估计是很重要的。噪声估计的准确性会直接影响最终效果:若噪声估计过高,则微弱的语音将被去掉,增强语音会产生失真;若估计过低,则会有较多的背景残留噪声。
4、终端:又称为用户设备(user equipment,UE)、移动台(mobile station,MS)、移动终端(mobile terminal,MT)等,是一种向用户提供语音和/或数据连通性的设备,例如,具有无线连接功能的手持式设备、车载设备等。目前,一些终端的举例为:手机(mobilephone)、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(mobile internet device,MID)。
5、客户端,既可以指软件类的APP(Application,应用程序),也可以指终端设备。它具有可视的显示界面,能与用户进行交互;是与服务器相对应,为客户提供本地服务。针对软件类的应用程序,除了一些只在本地运行的应用程序之外,一般安装在普通的客户终端上,需要与服务端互相配合运行。因特网发展以后,较常用的应用程序包括了如收寄电子邮件时的电子邮件客户端,以及即时通讯的客户端等。对于这一类应用程序,需要网络中有相应的服务器和服务程序来提供相应的服务,如数据库服务,配置参数服务等,这样在客户终端和服务器端,需要建立特定的通信连接,来保证应用程序的正常运行。
下面对本申请实施例的设计思想进行简要介绍:
语音技术(Speech Technology,ST)在计算机领域中的关键技术有自动语音识别技术(Automatic Speech Recognition,ASR)和语音合成技术(Text To Speech,TTS),还包括声纹识别等技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式,语音比其他的交互方式有更多的优势。
随着语音技术的不断发展,越来越多的场景下会进行即时通信(instantmessage,IM)操作,是指能够即时发送和接收互联网消息等的业务。随着即时通信技术的不断发展,功能日益完善,已经发展成集交流、资讯、娱乐、搜索、电子商务、办公协作和企业客户服务等为一体的综合化信息平台。一些重要即时通信提供商都提供通过手机接入互联网即时通信的业务,用户可以通过手机与其他已经安装了相应客户端软件的手机或电脑收发消息。
伴随着人与人之间的沟通,文字消息已经不能满足用户需求,消息的形式由文字形式向语音形式转化,语音消息的存在使得用户在打字不方便等情况下变得很便捷,然而当用户处于较嘈杂的外部环境下时,用户发送的语音或者接收到的语音消息夹杂着嘈杂的外部环境声音,会极大地影响用户听觉理解能力,用户需要更加专注去听清楚语音消息内容。目前,当播放环境中噪声较大时,用户只能手动调节播放音量,并且若环境中噪声过大,即使使用最大音量进行播放,也可能会出现用户无法听清楚播放的语音消息内容,因此,目前通过用户手动调节播放音量的播放控制方式不够灵活。
有鉴于此,本申请实施例提供一种即时通信应用中的语音数据处理方法、装置及电子设备,本申请实施例提供的语音数据处理方法,语音接收端上的即时通讯应用显示接收到的语音消息;响应播放语音消息的操作;通过麦克风采集播放环境中的带噪语音数据,并对带噪语音数据进行噪声检测,得到播放环境的第一噪声强度;根据播放环境的第一噪声强度对语音消息的播放语速进行调节后播放。由于本申请实施例中,在接收到语音消息之后,播放接收到的语音消息时,可以根据播放环境中的第一噪声强度,对语音消息的播放语速进行调节,并且第一噪声强度与播放语速是负相关的,也就是说,在语音接收端,在播放环境中第一噪声强度越大时,调节后的语音消息的播放语速越慢;从而在播放环境中噪声较大时,把语音消息的播放语速减慢,用户可以更加容易的听清楚语音消息的内容,更好的理解语音消息的内容,并且不再需要用户手动调节播放音量,提高语音消息的播放控制方式的灵活性。
在介绍完本申请实施例的设计思想之后,下面对本申请实施例的技术方案能够适用的应用场景做一些简单介绍,需要说明的是,以下介绍的应用场景仅用于说明本申请实施例而非限定。在具体实施过程中,可以根据实际需要灵活地应用本申请实施例提供的技术方案。
如图1所示,其为本申请实施例示例性的一种可选应用场景的示意图,包括语音发送侧的第一对象10、语音发送终端11、云端服务器12、语音接收终端13、语音接收侧的第二对象14。
语音发送终端11安装有即时通讯应用,第一对象10需要通过语音发送终端11上的即时通讯应用向第二对象14发送语音消息;则语音发送终端11上的即时通讯应用响应第一对象10触发的录音操作,通过语音发送终端11上的麦克风采集语音数据;第一对象10通过触发的录音操作确定语音接收终端13上的即时通讯应用;语音发送终端11通过接入点与云端服务器12建立连接,语音发送终端11上的即时通讯应用与云端服务器12通信;语音发送终端11上的即时通讯应用将语音发送终端11上的麦克风采集到的语音数据上传至云端服务器12。
其中,本申请实施例的云端服务器可以为一个独立服务器,或者可以是由多个服务器组成的服务器集群;云端服务器12中可以包括即时通讯应用对应的服务器、还可以包括消息推送服务器;
语音接收终端13通过接入点与云端服务器12建立连接,语音接收终端13上的即时通讯应用与云端服务器12通信;云端服务器12将语音发送终端11上的即时通讯应用上传的语音数据推送给语音接收终端13上的即时通讯应用;语音接收终端13上的即时通讯应用显示接收到的语音消息;响应第二对象14触发的播放语音消息的操作,语音接收终端13上的即时通讯应用根据播放环境的第一噪声强度对语音消息的播放语速进行调节后播放。
下面结合上述描述的应用场景,参考图2-图11来描述本申请示例性实施方式提供的一种即时通信应用中的语音数据处理方法。需要注意的是,上述应用场景仅是为了便于理解本申请的精神和原理而示出,本申请的实施方式在此方面不受任何限制。相反,本申请的实施方式可以应用于适用的任何场景。
如图2所示,为本申请实施例提供的一种即时通信应用中语音数据播放流程图,本实施例中用户接收到语音消息,并点击要收听的语音消息,该语音消息从存储读取并进行解码,解码后得到线性的pcm音频数据,之后基于播放侧的背景环境噪声采集和检测分析,根据检测噪声大小配置播放语速,而当检测噪声变大时则逐渐降低播放信号语速,让用户便于收听理解播放的音频内容,而随着环境噪声变小则语速会逐步恢复到原始的播放语速。
需要说明的是,调节后的语音消息可以通过扬声器进行播放,或者还可以通过外接的音频播放设备(耳机等)进行播放。
如图3所示,其为本申请实施例提供的即时通信应用中的语音数据处理方法流程示意图,该方法可以包括以下步骤:
步骤S301、显示接收到的语音消息;
例如,语音消息可以是即时通讯应用中接收到的语音消息,用户打开即时通讯APP,在首页可以看到好友发来的语音消息提醒,例如语音消息可以是一条或者多条,如图4所示,其为本申请实施例提供的即时通讯接收语音消息提醒的显示界面。用户点击语音消息进入聊天界面后,在即时通信APP的聊天界面中显示接收到的语音消息,从而用户可以看到接收到的语音消息的详细内容,假设语音消息为16秒,如图5所示,其为本申请实施例提供的即时通讯APP中显示有接收到的语音消息的聊天显示界面。
步骤S302、响应播放语音消息的操作,根据播放环境的第一噪声强度对语音消息的播放语速进行调节后播放,播放语速和第一噪声强度负相关。
其中,即时通讯应用在接收并显示语音消息后,用户可以点击显示的语音消息,从而触发语音播放操作。
本申请实施例在接收到语音消息后,一种可选的实施方式为,对接收到的语音消息进行语音增强处理;
由于语音消息为发送用户通过麦克风采集语音数据,将采集到的语音数据发送给接收用户。但是若发送用户所在录音环境中存在噪声,通过麦克风采集到的语音数据中包含背景噪声,在将包含背景噪声的语音数据发送给接收用户后,若背景噪声较大,接收用户可能无法听清楚发送用户的语音。
基于该问题,本申请实施例在接收到语音消息后,对接收到的语音消息进行语音增强处理(或者,也可以为降噪处理);实施中,从包含背景噪声的语音消息中提取出纯净的与发送用户相关的语音信号,从而可以有效抑制或降低背景噪声的干扰。
本申请实施例响应播放语音消息的操作,通过麦克风采集播放环境中的带噪语音数据,即时通讯应用根据麦克风采集到的带噪语音数据确定播放环境的第一噪声强度;
或者,另一种可选的实施方式为,本申请实施例在确定语音消息满足第一预设条件后,通过麦克风采集播放环境中的带噪语音数据,即时通讯应用根据麦克风采集到的带噪语音数据确定播放环境的第一噪声强度;
其中,第一预设条件包括下列条件中的至少一种:
条件1、发送语音消息的账户为预设类型账户。
需要说明的是,本申请实施例的即时通讯应用可以预先设定账户类型,在接收到语音消息后,确定发送语音消息的账户,判断发送语音消息的账户是否为预设类型账户,若是,则触发麦克风采集播放环境中的带噪语音数据;
其中,预设类型账户可以为与接收该语音消息的账户有预设社交关系的账户;例如,预设类型账户可以为接收该语音消息的账户设置为特别关注的账户。
或者,预设类型账户还可以为接收该语音消息的账户设置有预设标签的账户;例如,预设类型账户可以为接收该语音消息的账户设置的家人、客户等标签的账户。
由于在发送语音消息的账户为预设类型账户时,例如预设类型账户为接收该语音消息的账户设置为特别关注的账户,或预设类型账户为接收该语音消息的账户设置的家人、客户等标签的账户时,表示发送该语音消息的账户与接收该语音消息的账户之间关系较为密切,或者表示发送该语音消息的账户对于接收该语音消息的账户较为重要,此时,需要采集播放环境中的带噪语音数据,根据播放环境中的第一噪声强度对语音消息的播放语速进行调节,从而使得语音消息的播放语速更为合理,便于接收到语音消息的用户在播放语音消息时更好理解语音消息的内容,提高语音消息的可懂度。
条件2、根据语音消息中的语音特征确定出的情感状态为预设情感状态,且情感状态是通过对语音消息中的语音特征进行情感分析得到的。
需要说明的是,根据语音消息中的语音特征确定出的情感状态为发送语音消息的用户的情感状态。
本申请实施例在接收到语音消息后,可以对语音消息中的语音特征进行情感分析,根据语音消息中的语音特征确定发送语音消息的用户当前的情感状态;
一种可选的实施方式为,可以通过机器学习的方式,对语音消息中的语音特征进行情感分析得到情感状态。
例如,预设情感状态可以为哭泣、悲伤、激动等异常的情感状态;
由于在语音消息的发送用户的情感状态为预设情感状态时,例如哭泣、悲伤、激动等异常情感状态时,可能会导致发送的语音消息断断续续,不易于语音消息的接收用户听清楚语音消息;并且,在语音消息的发送用户处于异常情感状态时,语音消息接收用户需要尽可能听清楚语音消息的内容,以了解语音消息的发送用户当前的状态。因此,此时采集播放环境中的带噪语音数据,根据播放环境中的第一噪声强度对语音消息的播放语速进行调节,从而使得语音消息的播放语速更为合理,便于语音消息的接收用户更好理解语音消息的内容,提高语音消息的可懂度。
条件3、语音消息中包含预设关键信息,且语音消息中的预设关键信息是通过对语音消息进行语义分析得到的。
需要说明的是,在语音消息中包含预设关键信息时,表示该语音消息为重要的语音消息,或者还可以表示该语音消息为比较特殊的语音消息;
例如,预设关键信息可以为“爸爸”、“妈妈”等称呼类的关键信息;在语音消息中包含“爸爸”、“妈妈”等称呼类的关键信息时,表示该语音消息为儿童发送的给父母的语音消息,则该语音消息为比较重要的语音消息;
或者,预设关键信息可以为“钱”、“转账”、“汇款”等与金钱相关的关键信息,在语音消息中包含该预设关键信息时,表示该语音消息为比较重要的语音消息;
或者,预设关键信息可以为“生日”、“节日”等具有特殊含义的关键信息,在语音消息中包含该预设关键信息时,表示该语音消息为特殊的语音消息。
由于在根据语音消息中包含预设关键信息时,表示该语音消息为较为重要或特殊的语音消息,需要语音消息的接收用户听清楚该语音消息。因此,此时采集播放环境中的带噪语音数据,根据播放环境中的第一噪声强度对语音消息的播放语速进行调节,使得语音消息的播放语速更为合理,便于语音消息的接收用户更好理解语音消息的内容,提高语音消息的可懂度。
本申请实施例在获得麦克风采集到的带噪语音数据后,通过对采集到的带噪语音数据进行噪声检测,得到播放环境的第一噪声强度。
其中,本申请实施例可以实时检测环境中得第一噪声强度,或者,在接收到播放语音消息的操作时,对当前播放环境中采集到的带噪语音数据进行检测得到第一噪声强度。
实施中,本申请实施例可以根据下列方式检测带噪语音数据确定播放环境的第一噪声强度:
针对带噪语音数据中的每个带噪语音数据帧,对带噪语音数据帧进行噪声检测,得到带噪语音数据帧对应的噪声估计参数;根据带噪语音数据中的带噪语音数据帧对应的噪声估计参数确定第一噪声强度;
本申请实施例在检测带噪语音数据确定播放环境的第一噪声强度时,是根据带噪语音数据中的每一个带噪数据帧,对每个带噪数据帧进行噪声检测得到噪声估计参数;
实施中,本申请实施例可以根据下列方式确定带噪语音数据帧对应的噪声估计参数:
确定带噪语音数据帧对应的在预设频谱范围内的目标子带;根据每个目标子带对应的噪声估计值、每个目标子带中包含的频点个数,以及采集到的上一个带噪语音数据帧对应的噪声估计参数,确定带噪语音数据帧对应的噪声估计参数。
需要说明的是,预设频谱范围可以是人声主要频谱范围。
在确定出带噪语音数据帧对应的在预设频谱范围内的目标子带之后,由于需要确定带噪语音数据帧对应的噪声估计参数,因此本申请实施例需要确定带噪语音数据帧的每个目标子带对应的噪声估计值。
一种可选的实施方式为,本申请实施例根据下列方式确定每个目标子带对应的噪声估计值;
根据目标子带中每个频点对应的频域复数值以及目标子带中包含的频点个数,确定目标子带的功率谱;
具体地,将采集到的带噪语音数据帧进行傅里叶变换得到频域上各频点对应的频域复数值,对得到的频域复数值取绝对值,在目标子带上对所有频点对应的频域复数值的绝对值进行平方并求和,接下来计算目标子带上的频点个数,最后求取平均值,得到子带功率谱;
例如,本申请实施例可以根据可以下列公式计算子带功率谱:
其中,k=1,2,3,…,N,i对应帧序号,z对应频点索引值,k对应子带序号。X(i,z)为傅里叶变换后的第i帧第z频点的频域复数值;freq1(k)是第k子带的起始频点索引值,freq2(k)是第k子带的结束频点索引值。
实施中,本申请实施例可以采用MCRA算法确定带噪语音数据帧的噪声估计参数;
具体地,确定目标子带的功率谱后,先对子带功率谱做平滑处理,这里的平滑包括相邻子带的频域平滑和历史帧的时域平滑处理;具体地,可以根据下列公式进行频域平滑处理:
其中,x(j+w)为频域平滑加权因子组,例如x[5]=[0.1,0.2,0.4,0.2,0.1];
根据下列公式进行时域平滑处理:
其中C0为时域平滑因子,例如C0=0.9;
根据平滑后的功率谱数据,采用最小值跟踪法得到带噪语音数据帧对应的子带的功率谱中的最小功率谱,对带噪语音数据帧进行初略估计;
具体地,本申请实施例可以根据下列判断过程得到带噪语音数据帧对应的子带的功率谱中的最小功率谱:
其中,T为常数,代表噪声估计值更新周期。
需要说明的是,由于在语音活动期间,单个频带的带噪语音功率通常都会衰减到噪声的功率水平,这是最小值跟踪噪声估计算法的出发点。通过在每个频带跟踪带噪语音功率的最小值,可以得到该频带噪声水平的一个粗略估计。
实施中,根据时域平滑后的功率谱以及带噪语音数据帧对应的子带的功率谱中的最小功率谱确定目标子带对应的语音存在概率值;
具体地,本申请实施例可以采用下列判断过程确定目标子带对应的语音存在概率值:
实施中,根据上述得到的目标子带对应的功率谱、目标子带对应的语音存在概率值,以及目标子带在上一个带噪语音数据帧中对应的噪声估计值,确定目标子带对应的噪声估计值;
具体地,本申请实施例可以根据下列公式确定目标子带对应的噪声估计值:
根据上述公式可以判定,噪声估计值可以由带噪语音数据帧在子带k不存在语音的条件概率和存在语音的条件概率分别对不存在语音条件下的噪声功率谱、存在语音条件下的噪声功率谱进行加权、然后求和得到;
其中,当子带k存在语音时,可以将存在语音条件下的噪声功率谱均值近似为前一帧的噪声估计值。
根据上述得到的每个目标子带对应的噪声估计值,利用递归平均确定第i帧信号的噪声估计参数:
其中,β为噪声估计平滑系数;
根据上述每个目标子带对应的噪声估计值、每个目标子带中包含的频点个数,对预设频谱范围内所有的子带进行求和,另外还需要参考上一个带噪语音数据帧对应的噪声估计参数;两部分数据都需要乘以平滑系数,进行噪声平滑处理,使其得到的语音信号更加连续。
实施中,本申请实施例在确定带噪语音数据帧对应的噪声估计参数后,可以根据噪声估计参数确定带噪语音数据中的第一噪声强度;
需要说明的是,第一噪声强度可以为带噪语音数据中的最后一个带噪语音数据帧的噪声估计参数;或第一噪声强度可以为带噪语音数据中所有带噪语音数据帧的噪声估计参数的平均值。
实施中,一种可选的实施方式为,本申请实施例在确定播放环境的第一噪声强度后,将第一噪声强度与预设的噪声阈值作比较;当第一噪声强度小于等于噪声阈值时,直接播放语音消息;当第一噪声强度大于预设的噪声阈值时,对语音消息的播放语速进行调节。
本申请实施例在对语音消息的播放语速进行调节时,一种可选的方式为根据第一噪声强度自动对播放语速进行调节,另一种可选的方式为,根据用户选择的播放语速对语音消息的播放语速进行调节。
下面针对这两种语速调节方式分别进行说明。
方式1、根据用户选择的播放语速对语音消息的播放语速进行调节。
本申请实施例在确定第一噪声强度大于预设的噪声阈值后,用户可以手动选择语音消息的播放语速。
实施中,当第一噪声强度大于预设的噪声阈值时,即时通讯应用的显示界面中显示调节播放语速的提示信息;用户可以根据该提示信息触发调节播放语速的确认操作;即时通讯应用在确定用户触发调节播放语速的确认操作后,对语音消息的播放语速进行调节。
例如,在接收到语音消息后,用户可以在即时通讯应用的聊天界面点击接收到的语音消息,触发播放语音消息的操作;在第一噪声强度大于预设的阈值后,如图6所示,在聊天界面中显示提示框,用于提示用户是否对语音消息的播放语速进行调节;
假设,用户选择“是”,确认对语音消息的播放语速进行调节,则在聊天界面中显示由用户选择播放语速的滑块,如图7所示;假设,用户选择播放语速为0.8x,(正常语速一般为1x),即调节后的播放语速为正常播放语速的0.8倍,语速变慢。
本申请实施例根据用户的确认操作,确定确认操作指定的第一目标播放语速,根据第一目标播放语速确定语音消息对应的第一目标压缩扩张系数;根据第一目标压缩扩张系数对语音消息的播放语速进行扩张处理,以调节语音消息的播放语速。
其中,本申请实施例可以根据预设的目标播放语速与压缩扩张系数之间的映射关系,确定第一目标播放语速对应的第一目标压缩扩张系数。
方式2、根据第一噪声强度自动对播放语速进行调节。
实施中,本申请实施例可以根据下列方式确定语音消息对应的第一目标压缩扩张系数;
根据预设的帧间距将语音消息进行分帧处理得到多个语音数据帧;针对每个语音数据帧,根据第一噪声强度与噪声阈值之间的差值,确定语音数据帧对应的第一参考压缩扩张系数;将第一参考压缩扩张系数与上一个语音数据帧对应的第一目标压缩扩张系数进行加权求和处理,得到语音数据帧对应的第一目标压缩扩张系数。
需要说明的是,本申请实施例在对语音消息的语速进行调节时,需要将语音消息进行分帧,针对每一帧分别进行调节。本申请实施例通过调节目标压缩扩张系数可以控制语速的快慢,然而如果随意调节该系数会导致声音不自然,听感不舒适,因此为了避免系数突变,需要采用前一帧的目标压缩扩张系数对当前帧的目标压缩扩张系数进行平滑处理。
具体地,本申请实施例可以根据下列α调节方法对第一目标压缩扩张系数进行调节:
1、确定第一参考压缩扩张系数αtarget;
将第一噪声强度与预设的噪声阈值进行比较,若第一噪声强度大于预设的噪声阈值,则通过调节使第一参考压缩扩张系数αtarget变小。
2、根据第一参考压缩扩张系数αtarget,确定第一目标压缩扩张系数;
例如,第i个语音数据帧的第一目标压缩扩张系数α(i)可以根据下列公式计算:
α(i)=b*α(i-1)+(1-b)*αtarget(i)
其中,b为小于1的系数;
根据上述公式确定出的第一目标压缩扩张系数α,由于根据在前的语音数据帧的第一目标压缩扩张系数进行平滑处理,避免语音信号突变,从而可以在控制语速快慢的同时,可以使播放声音听起来更自然。
实施中,在确定出第一目标压缩扩张系数之后,可以根据下列方式对语音消息的播放语速进行扩张处理:
针对每个语音数据帧,根据语音数据帧对应的目标压缩扩张系数对语音数据帧的时域进行扩张处理,并从与语音数据帧对应的搜索空间中确定参考语音数据帧;将扩张处理后的语音数据帧与参考语音数据帧进行叠加处理得到用于播放的目标语音数据帧;
需要说明的是,参考语音数据帧的时域长度与扩张处理后的语音数据帧的时域长度相同。
具体地,本申请实施例可以根据WSOLA算法对待播放的语音数据的播放语速进行调节,如图8所示为本申请实施例提供的WSOLA算法时长调整示意图:
1)、根据预设的帧间距将待播放的语音数据进行分帧处理,例如帧间距可以为L;
需要说明的是,为了保证合成信号的连续性,相邻数据帧之间会存在重叠部分;
2)、选取分帧处理后得到的任一待播放语音数据帧,通过汉宁窗加窗处理;
例如,这里的任一待播放语音数据帧可以选取待播放的语音数据的第k帧语音数据;
3)、待播放的语音数据的第k帧语音数据与相邻下一帧第k+1帧语音数据的帧移为Sa;
4)、通过目标压缩扩张系数α调节相邻两帧的帧移距离,Ss=Sa*α,即对待播放的语音数据的第k帧语音数据帧的时域进行扩张处理,此时得到扩张处理后的语音数据帧,并通过汉宁窗加窗处理;
其中,扩张处理后的语音数据帧分别为第K’帧、第(K+1)’帧等,分别对应图8中的数据帧A和数据帧B,扩张处理后的语音数据帧的时域长度与待播放的语音数据的第k帧语音数据一致;α>1时对语音进行压缩,语速变快;α<1时,对语音进行扩张,语速变慢;
5)、从与待播放的语音数据的第k帧语音数据帧对应的搜索空间中确定与扩张处理后的第(K+1)’语音数据帧波形相似度最高的语音数据作为参考语音数据帧,对应图8中的数据帧D,并通过汉宁窗加窗处理;
其中,参考语音数据帧的时域长度与扩张处理后的语音数据帧一致;搜索空间为待处理数据帧的KL处的最大公差间隔([-Δmax,Δmax])范围内,对应图8中的空间C;
6)、将参考语音数据帧与待播放的语音数据的第k帧语音数据帧进行叠加,并通过汉宁窗加窗处理,得到目标语言数据帧。
需要说明的是,调节后的语音消息的播放语速和第一噪声强度负相关。
如图9所示,其为本申请实施例提供的一种即时通信应用中的语音数据处理方法流程图,下文描述中,将语音发送终端上的即时通讯应用称为第一即时通讯应用,将语音接收终端上的即时通讯应用称为第二即时通讯应用,包括以下步骤:
步骤S901、响应第一对象触发的录音操作,第一即时通讯应用通过麦克风采集语音数据;
步骤S902、第一即时通讯应用发送采集到的语音数据;
步骤S903、第二即时通讯应用显示接收到的语音消息;
步骤S904、响应播放语音数据的操作,第二即时通讯应用确定播放环境中的第一噪声强度;
步骤S905、第二即时通讯应用确定第一噪声强度大于预设的噪声阈值;
步骤S906、第二即时通讯应用根据预设的帧间距将语音消息进行分帧处理得到多个语音数据帧;
步骤S907、第二即时通讯应用根据第一噪声强度与噪声阈值之间的差值,确定语音数据帧对应的第一参考压缩扩张系数;
步骤S908、第二即时通讯应用将第一参考压缩扩张系数与上一个语音数据帧对应的第一目标压缩扩张系数进行加权求和处理,得到语音数据帧对应的第一目标压缩扩张系数;
步骤S909、第二即时通讯应用根据第一目标压缩扩张系数对语音消息的播放语速进行扩张处理得到目标语音数据帧;
步骤S910、第二即时通讯应用播放扩张处理后的语音消息。
上述实施例中的语音数据处理方式是在播放环境中噪声过大时语音接收侧对播放语速进行调节,在播放环境中的第一噪声强度大于预设的噪声阈值时,自动对语音消息的播放语速进行调节,不再需要用户手动对播放音量进行调节,用户就可以清晰的听到语音消息,并能很快的理解语音消息内容;同样地,在即时通讯应用中,当语音发送端的用户处于噪声环境下,在触发录音操作后,录音得到的语音数据中会包含录音环境中的噪声,将包含噪声的语音数据发送给接收侧即时通讯应用后,接收侧用户播放语音消息时可能会无法听清发送侧用户的语音数据。
有鉴于此,本申请实施例提供的语音数据处理方法,响应目标对象触发的录音操作,获得麦克风采集的语音数据;根据录音环境的第二噪声强度对语音数据进行处理后发送,以使处理后的语音数据的播放语速和第二噪声强度负相关。由于本申请实施例中,发送侧即时通讯应用通过麦克风采集到语音数据后,可以根据录音环境中的第二噪声强度,对录音得到的语音数据对应的播放语速进行调节,并且第二噪声强度与播放语速是负相关的,也就是说,在语音发送端,用户所处环境噪声越大,则调节后的语音数据的播放语速越慢,从而在录音环境中噪声较大时,把语音数据的播放语速减慢,在将调节后的语音数据发送至接收侧即时通讯应用之后,在播放过程中用户可以更加容易的听清楚语音消息的内容,更好的理解语音消息的内容,并且不再需要用户手动调节播放音量,提高语音消息的播放控制方式的灵活性。
如图10所示,其为本申请实施例提供的即时通信应用中的语音数据处理方法流程示意图,该方法可以包括以下步骤:
步骤S1001、响应目标对象触发的录音操作,获得麦克风采集的语音数据;
例如,如图11所示的即时通讯应用的聊天显示界面,用户可以通过点击聊天显示界面中“按住说话”选项,触发录音操作;在用户触发录音操作后,在录音过程中即时通讯应用的显示界面可以如图12所示。
步骤S1002、根据录音环境的第二噪声强度对语音数据进行处理后发送,以使处理后的语音数据的播放语速和第二噪声强度负相关。
需要说明的是,本申请实施例响应目标对象触发的录音操作,通过对麦克风采集到的语音数据进行分析,提取语音数据中的噪声数据;即时通讯应用根据麦克风采集到的噪声数据确定录音环境的第二噪声强度;
或者,一种可选的实施方式为,本申请实施例通过麦克风采集录音环境的语音数据,并确定采集到的语音数据满足第二预设条件后,即时通讯应用根据麦克风采集到的语音数据确定录音环境中的第二噪声强度;
其中,第二预设条件包括下列条件中的至少一种:
条件1、接收语音数据的账户为预设类型账户。
需要说明的是,本申请实施例的即时通讯应用可以预先设定账户类型,在发送语音数据前,确定接收语音数据的账户,判断接收语音数据的账户是否为预设类型账户,若是,则触发麦克风采集录音环境中的语音数据;
其中,预设类型账户可以为与发送该语音数据的账户有预设社交关系的账户;例如,预设类型账户可以为发送该语音数据的账户设置为特别关注的账户。
或者,预设类型账户还可以为发送该语音数据的账户设置有预设标签的账户;例如,预设类型账户可以为发送该语音数据的账户设置的家人、客户等标签的账户。
由于在接收语音数据的账户为预设类型账户时,例如预设类型账户为发送该语音数据的账户设置为特别关注的账户,或预设类型账户为发送该语音消息的账户设置的家人、客户等标签的账户时,表示发送该语音数据的账户与接收该语音数据的账户之间关系较为密切,或者表示接收该语音数据的账户对于发送该语音数据的账户较为重要,此时,需要采集录音环境中的带噪语音数据,根据录音环境中的第二噪声强度对语音数据的播放语速进行调节,从而使得语音数据的播放语速更为合理,便于接收到语音数据的用户在播放语音数据时更好理解语音数据的内容,提高语音数据的可懂度。
条件2、根据语音数据中的语音特征确定出的情感状态为预设情感状态,且情感状态是通过对语音数据中的语音特征进行情感分析得到的;
需要说明的是,根据语音数据中的语音特征确定出的情感状态为发送语音数据的用户的情感状态。
本申请实施例在发送语音数据前,可以对语音消息中的语音特征进行情感分析,根据语音数据中的语音特征确定发送语音数据的用户当前的情感状态;
一种可选的实施方式为,可以通过机器学习的方式,对语音数据中的语音特征进行情感分析得到情感状态。
例如,预设情感状态可以为哭泣、悲伤、激动等异常的情感状态;
由于在语音数据的发送用户的情感状态为预设情感状态时,例如哭泣、悲伤、激动等异常情感状态时,可能会导致发送的语音数据断断续续,不易于语音数据的接收用户听清楚语音数据;并且,在语音数据的发送用户处于异常情感状态时,语音数据接收用户需要尽可能听清楚语音消息的内容,以了解语音数据的发送用户当前的状态。因此,此时采集录音环境中的带噪语音数据,根据录音环境中的第二噪声强度对语音数据的播放语速进行调节,从而使得语音数据的播放语速更为合理,便于语音数据的接收用户更好理解语音数据的内容,提高语音数据的可懂度。
条件3、语音数据中包含预设关键信息,且语音数据中的预设关键信息是通过对语音数据进行语义分析得到的。
需要说明的是,在语音数据中包含预设关键信息时,表示该语音数据为重要的语音数据,或者还可以表示该语音数据为比较特殊的语音数据;
例如,预设关键信息可以为“爸爸”、“妈妈”等称呼类的关键信息;在语音数据中包含“爸爸”、“妈妈”等称呼类的关键信息时,表示该语音数据为儿童发送的给父母的语音数据,则该语音数据为比较重要的语音数据;
或者,预设关键信息可以为“钱”、“转账”、“汇款”等与金钱相关的关键信息,在语音数据中包含该预设关键信息时,表示该语音数据为比较重要的语音数据;
或者,预设关键信息可以为“生日”、“节日”等具有特殊含义的关键信息,在语音数据中包含该预设关键信息时,表示该语音数据为特殊的语音数据。
由于在根据语音数据中包含预设关键信息时,表示该语音数据为较为重要或特殊的语音数据,需要语音数据的接收用户听清楚该语音数据。因此,此时采集录音环境中的带噪语音数据,根据录音环境中的第二噪声强度对语音数据的播放语速进行调节,使得语音数据的播放语速更为合理,便于语音数据的接收用户更好理解语音数据的内容,提高语音数据的可懂度。
本申请实施例在获得麦克风采集到的语音数据后,通过对麦克风采集到的语音数据进行分析,得到录音环境的第二噪声强度。
其中,本申请实施例可以实时采集录音环境中的带噪语音数据,对带噪语音数据进行检测得到录音环境的第二噪声强度;或者,在触发录音操作后,通过麦克风采集语音数据,对采集到的语音数据进行分析,从语音数据中提取出噪声数据,对噪声数据进行检测得到第二噪声强度。
实施中,本申请实施例可以根据下列方式检测噪声数据确定录音环境的第二噪声强度:
针对噪声数据中的每个噪声数据帧,对噪声数据帧进行噪声检测,得到噪声数据帧对应的噪声估计参数;根据噪声数据中的噪声数据帧对应的噪声估计参数确定第二噪声强度;
本申请实施例在检测噪声数据确定录音环境的第二噪声强度时,是根据噪声数据中的每一个噪声数据帧,对每个噪声数据帧进行噪声检测得到噪声估计参数;
需要说明的是,本申请实施例对噪声数据帧进行噪声检测确定噪声估计参数的方式,与上文中对带噪语音数据帧进行噪声检测确定噪声估计参数的方式相同,具体实施方式可以参见上文中的描述,在此不再详细赘述。
实施中,本申请实施例在确定噪声数据帧对应的噪声估计参数后,可以根据噪声估计参数确定噪声数据中的第二噪声强度;
需要说明的是,第二噪声强度可以为噪声数据中的最后一个噪声数据帧的噪声估计参数;或第二噪声强度可以为噪声数据中所有噪声数据帧的噪声估计参数的平均值。
实施中,一种可选的实施方式为,本申请实施例在确定录音环境的第二噪声强度后,将第二噪声强度与预设的噪声阈值作比较;当第二噪声强度小于等于噪声阈值时,直接发送语音数据;当第二噪声强度大于预设的噪声阈值时,对对语音数据的播放语速进行扩张处理,以降低语音数据的播放语速。
本申请实施例在对语音数据的播放语速进行调节时,需要根据第二目标压缩扩张系数对语音数据的播放语速进行调节。
实施中,本申请实施例可以根据下列方式确定语音音数据对应的第二目标压缩扩张系数;
根据预设的帧间距将语音数据进行分帧处理得到多个语音数据帧;针对每个语音数据帧,根据第二噪声强度与噪声阈值之间的差值,确定语音数据帧对应的第二参考压缩扩张系数;将第二参考压缩扩张系数与上一个语音数据帧对应的第二目标压缩扩张系数进行加权求和处理,得到语音数据帧对应的第二目标压缩扩张系数。
需要说明的是,本申请实施例在对语音数据的语速进行调节时,需要将语音数据进行分帧,针对每一帧分别进行调节。本申请实施例通过调节目标压缩扩张系数可以控制语速的快慢,然而如果随意调节该系数会导致声音不自然,听感不舒适,因此为了避免系数突变,需要采用前一帧的目标压缩扩张系数对当前帧的目标压缩扩张系数进行平滑处理。
具体地,本申请实施例对录音得到的语音数据进行语速调节的方式,与上文中对接收到的语音消息的语速调节方式相同,可以采用WSOLA算法对语音数据进行语速调节,具体方式可以参见上文描述,在此不再详细赘述。
如图13所示,其为本申请实施例提供的一种即时通信应用中的语音数据处理方法流程图,下文描述中,将语音发送终端上的即时通讯应用称为第一即时通讯应用,将语音接收终端上的即时通讯应用称为第二即时通讯应用,包括以下步骤:
步骤S1301、响应第一对象触发的录音操作,第一即时通讯应用通过麦克风采集语音数据;
步骤S1302、第一即时通讯应用对采集到的语音数据进行分析,从语音数据中提取出噪声数据;
步骤S1303、第一即时通讯应用确定播放环境中的第二噪声强度;
步骤S1304、第一即时通讯应用确定第二噪声强度大于预设的噪声阈值;
步骤S1305、第一即时通讯应用根据预设的帧间距将语音数据进行分帧处理得到多个语音数据帧;
步骤S1306、第一即时通讯应用根据第二噪声强度与噪声阈值之间的差值,确定语音数据帧对应的第二参考压缩扩张系数;
步骤S1307、第一即时通讯应用将第二参考压缩扩张系数与上一个语音数据帧对应的第二目标压缩扩张系数进行加权求和处理,得到语音数据帧对应的第二目标压缩扩张系数;
步骤S1308、第一即时通讯应用根据第二目标压缩扩张系数对语音数据的录音语速进行扩张处理得到目标语音数据帧;
步骤S1309、第一即时通讯应用向第二即时通讯应用发送处理后的语音消息。
如图14所示,为本申请实施例中的一种即时通信应用中的语音数据处理装置1400的结构示意图,包括:
显示单元1401,用于显示接收到的语音消息;
第一处理单元1402,用于响应播放语音消息的操作,根据播放环境的第一噪声强度对语音消息的播放语速进行调节后播放,播放语速和第一噪声强度负相关。
可选地,第一处理单元1402具体用于:
根据下列方式对语音消息的播放语速进行调节,获得麦克风采集到的播放环境中的带噪语音数据;
检测带噪语音数据中的第一噪声强度;
当第一噪声强度大于预设的噪声阈值时,对语音消息的播放语速进行调节;且
当第一噪声强度小于等于噪声阈值时,播放语音消息。
可选地,第一处理单元1402具体用于:
当第一噪声强度大于预设的噪声阈值时,显示调节播放语速的提示信息;
响应调节播放语速的确认操作,对语音消息的播放语速进行调节。
可选地,第一处理单元1402具体用于:
响应调节播放语速的确认操作,获得确认操作指定的第一目标播放语速;
根据第一目标播放语速确定语音消息对应的第一目标压缩扩张系数;
根据第一目标压缩扩张系数对语音消息的播放语速进行扩张处理,以调节语音消息的播放语速。
可选地,第一处理单元1402具体用于:
根据第一噪声强度确定语音消息对应的第一目标压缩扩张系数;
根据第一目标压缩扩张系数对语音消息的播放语速进行扩张处理,以调节语音消息的播放语速。
可选地,第一处理单元1402具体用于:
响应播放语音消息的操作,或在确定接收到的语音消息满足第一预设条件后,通过麦克风采集播放环境中的带噪语音数据;
其中,第一预设条件包括下列条件中的至少一种:
发送语音消息的账户为预设类型账户;
根据语音消息中的语音特征确定出的情感状态为预设情感状态,且情感状态是通过对语音消息中的语音特征进行情感分析得到的;
语音消息中的文本包含预设关键信息,且语音消息中的预设关键信息是通过对语音消息进行语义分析得到的。
可选地,第一处理单元1402具体用于:
根据第一噪声强度确定语音消息对应的第一目标压缩扩张系数,根据预设的帧间距将语音消息进行分帧处理得到多个语音数据帧;
针对每个语音数据帧,根据第一噪声强度与噪声阈值之间的差值,确定语音数据帧对应的第一参考压缩扩张系数;将第一参考压缩扩张系数与上一个语音数据帧对应的第一目标压缩扩张系数进行加权求和处理,得到语音数据帧对应的第一目标压缩扩张系数。
可选地,第一处理单元1402具体用于:
针对每个语音数据帧,根据语音数据帧对应的目标压缩扩张系数对语音数据帧的时域进行扩张处理,并从与语音数据帧对应的搜索空间中确定参考语音数据帧;将扩张处理后的语音数据帧与参考语音数据帧进行叠加处理得到用于播放的目标语音数据帧;其中,参考语音数据帧的时域长度与扩张处理后的语音数据帧的时域长度相同。
可选地,第一处理单元1402还用于:在根据播放环境的第一噪声强度对语音消息的播放语速进行调节之前,对语音消息进行语音增强处理。
如图15所示,为本申请实施例中的一种即时通信应用中的语音数据处理装置1500的结构示意图,包括:
采集单元1501,用于响应目标对象触发的录音操作,获得麦克风采集的语音数据;
第二处理单元1502,用于根据录音环境的第二噪声强度对语音数据进行处理后发送,以使处理后的语音数据的播放语速和第二噪声强度负相关。
可选地,第二处理单元1502还用于:
在获得麦克风采集的语音数据之后,在根据录音环境的第二噪声强度对语音数据进行处理之前,确定采集到的语音数据满足第二预设条件;
第二预设条件包括下列条件中的至少一种:
接收语音数据的账户为预设类型账户;
根据语音数据中的语音特征确定出的情感状态为预设情感状态,且情感状态是通过对语音数据中的语音特征进行情感分析得到的;
语音数据中包含预设关键信息,且语音数据中的预设关键信息是通过对语音数据进行语义分析得到的。
可选地,第二处理单元1502具体用于:
根据下列方式对语音数据进行处理,对麦克风采集到的语音数据进行分析,提取语音数据中的噪声数据;
检测噪声数据中的第二噪声强度;
当第二噪声强度大于预设的噪声阈值时,对语音数据进行处理;且
当第二噪声强度小于等于噪声阈值时,发送语音数据。
可选地,第二处理单元1502具体用于:
根据第二噪声强度确定语音数据对应的第二目标压缩扩张系数;
根据第二目标压缩扩张系数对语音数据的播放语速进行扩张处理,以调节语音数据的播放语速。
可选地,第二处理单元1502具体用于:
根据下列方式检测噪声数据中的第二噪声强度:
针对噪声数据中的每个噪声数据帧,对噪声数据帧进行噪声检测,得到噪声数据帧对应的噪声估计参数;
根据噪声数据中的噪声数据帧对应的噪声估计参数确定第二噪声强度。
可选地,第二处理单元1502具体用于:
根据下列方式确定噪声数据帧对应的噪声估计参数:
确定噪声数据帧对应的在预设频谱范围内的目标子带;
根据每个目标子带对应的噪声估计值、每个目标子带中包含的频点个数,以及采集到的上一个噪声数据帧对应的噪声估计参数,确定噪声数据帧对应的噪声估计参数。
可选地,第二处理单元1502具体用于:
根据下列方式确定每个目标子带对应的噪声估计值:
根据目标子带中每个频点对应的频域复数值以及目标子带中包含的频点个数,确定目标子带的功率谱;其中,频点对应的频域复数值是将采集到的噪声数据帧进行傅里叶变换处理得到的;
根据对目标子带的功率谱做时频域平滑处理得到的平滑功率谱,以及根据噪声数据帧对应的子带的功率谱中的最小功率谱,确定目标子带对应的语音存在概率值;
根据目标子带对应的功率谱、目标子带对应的语音存在概率值,以及所述目标子带在上一个带噪声数据帧中对应的噪声估计值,确定目标子带对应的噪声估计值。
为了描述的方便,以上各部分按照功能划分为各模块(或单元)分别描述。当然,在实施本申请时可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。
所属技术领域的技术人员能够理解,本申请的每个方面可以实现为系统、方法或程序产品。因此,本申请的每个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
在一些可能的实施方式中,本申请实施例还提供一种电子设备,参阅图16所示,电子设备1600可以至少包括至少一个处理器1601、以及至少一个存储器1602。其中,存储器1602存储有程序代码,当程序代码被处理器1601执行时,使得处理器1601执行本说明书上述描述的根据本申请各种示例性实施方式的语音数据处理方法中的步骤,例如,处理器1601可以执行如图3或10中所示的步骤。
在一些可能的实施方式中,本申请实施例还提供一种计算装置,可以至少包括至少一个处理单元、以及至少一个存储单元。其中,存储单元存储有程序代码,当程序代码被处理单元执行时,使得处理单元执行本说明书上述描述的根据本申请各种示例性实施方式的语音数据处理方法中的步骤,例如,处理器1601可以执行如图3或10中所示的步骤。
下面参照图17来描述根据本申请的这种实施方式的计算装置1700。图17的计算装置1700仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图17,计算装置1700以通用计算装置的形式表现。计算装置1700的组件可以包括但不限于:上述至少一个处理单元1701、上述至少一个存储单元1702、连接不同系统组件(包括存储单元1702和处理单元1701)的总线1703。
总线1703表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。
存储单元1702可以包括易失性存储器形式的可读介质,例如随机存取存储器(RAM)1721或高速缓存存储单元1722,还可以进一步包括只读存储器(ROM)1723。
存储单元1702还可以包括具有一组(至少一个)程序模块1724的程序/实用工具1725,这样的程序模块1724包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
计算装置1700也可以与一个或多个外部设备1704(例如键盘、指向设备等)通信,还可与一个或者多个使得用户能与计算装置1700交互的设备通信,或与使得该计算装置1700能与一个或多个其它计算装置进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1705进行。并且,计算装置1700还可以通过网络适配器1706与一个或者多个网络(例如局域网(LAN),广域网(WAN)或公共网络,例如因特网)通信。如图所示,网络适配器1706通过总线1703与用于计算装置1700的其它模块通信。应当理解,尽管图中未示出,可以结合计算装置1700使用其它硬件或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
在一些可能的实施方式中,本申请提供的即时通信应用中的语音数据处理方法的每个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在计算机设备上运行时,程序代码用于使计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的语音数据处理中的步骤,例如,计算机设备可以执行如图3或10中所示的步骤。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (15)
1.一种即时通信应用中的语音数据处理方法,其特征在于,该方法包括:
显示接收到的语音消息;
响应播放所述语音消息的操作,根据播放环境的第一噪声强度对所述语音消息的播放语速进行调节后播放,所述播放语速和所述第一噪声强度负相关。
2.如权利要求1所述的方法,其特征在于,根据下列方式对所述语音消息的播放语速进行调节:
获得麦克风采集到的播放环境中的带噪语音数据;
检测所述带噪语音数据中的第一噪声强度;
当所述第一噪声强度大于预设的噪声阈值时,对所述语音消息的播放语速进行调节;且
当所述第一噪声强度小于等于所述噪声阈值时,播放所述语音消息。
3.如权利要求2所述的方法,其特征在于,所述当所述第一噪声强度大于预设的噪声阈值时,对所述语音消息的播放语速进行调节,具体包括:
当第一噪声强度大于预设的噪声阈值时,显示调节播放语速的提示信息;
响应调节播放语速的确认操作,对所述语音消息的播放语速进行调节。
4.如权利要求3所述的方法,其特征在于,所述响应调节播放语速的操作,对所述语音消息的播放语速进行调节,具体包括:
响应调节播放语速的确认操作,获得所述确认操作指定的第一目标播放语速;
根据所述第一目标播放语速确定所述语音消息对应的第一目标压缩扩张系数;
根据所述第一目标压缩扩张系数对所述语音消息的播放语速进行扩张处理,以调节所述语音消息的播放语速。
5.如权利要求2所述的方法,其特征在于,所述当所述第一噪声强度大于预设的噪声阈值时,所述对所述语音消息的播放语速进行调节,具体包括:
根据所述第一噪声强度确定所述语音消息对应的第一目标压缩扩张系数;根据所述第一目标压缩扩张系数对所述语音消息的播放语速进行扩张处理,以调节所述语音消息的播放语速。
6.如权利要求2所述的方法,其特征在于,所述获得麦克风采集到的带噪语音数据,具体包括:
响应所述播放所述语音消息的操作,或在确定接收到的所述语音消息满足第一预设条件后,通过所述麦克风采集播放环境中的带噪语音数据;
其中,所述第一预设条件包括下列条件中的至少一种:
发送所述语音消息的账户为预设类型账户;
根据所述语音消息中的语音特征确定出的情感状态为预设情感状态,且所述情感状态是通过对所述语音消息中的语音特征进行情感分析得到的;
所述语音消息中包含预设关键信息,且所述语音消息中的预设关键信息是通过对所述语音消息进行语义分析得到的。
7.如权利要求5所述的方法,其特征在于,所述根据所述第一噪声强度确定所述语音消息对应的第一目标压缩扩张系数,包括:
根据预设的帧间距将所述语音消息进行分帧处理得到多个语音数据帧;
针对每个语音数据帧,根据所述第一噪声强度与所述噪声阈值之间的差值,确定所述语音数据帧对应的第一参考压缩扩张系数;将所述第一参考压缩扩张系数与上一个语音数据帧对应的第一目标压缩扩张系数进行加权求和处理,得到所述语音数据帧对应的第一目标压缩扩张系数。
8.如权利要求7所述的方法,其特征在于,所述根据所述目标压缩扩张系数对所述语音消息进行扩张处理,包括:
针对每个语音数据帧,根据所述语音数据帧对应的目标压缩扩张系数对所述语音数据帧的时域进行扩张处理,并从与所述语音数据帧对应的搜索空间中确定参考语音数据帧;将扩张处理后的语音数据帧与所述参考语音数据帧进行叠加处理得到用于播放的目标语音数据帧;其中,所述参考语音数据帧的时域长度与扩张处理后的语音数据帧的时域长度相同。
9.一种即时通信应用中的语音数据处理方法,其特征在于,该方法包括:
响应目标对象触发的录音操作,获得麦克风采集的语音数据;
根据录音环境的第二噪声强度对所述语音数据进行处理后发送,以使处理后的语音数据的播放语速和所述第二噪声强度负相关。
10.如权利要求9所述的方法,其特征在于,根据下列方式对所述语音数据进行处理:
对所述麦克风采集到的语音数据进行分析,提取所述语音数据中的噪声数据;
检测所述噪声数据中的第二噪声强度;
当所述第二噪声强度大于预设的噪声阈值时,对所述语音数据进行处理;且
当所述第二噪声强度小于等于所述噪声阈值时,发送所述语音数据。
11.如权利要求9所述的方法,其特征在于,所述当所述第二噪声强度大于预设的噪声阈值时,对所述语音数据进行处理,具体包括:
根据所述第二噪声强度确定所述语音数据对应的第二目标压缩扩张系数;
根据所述第二目标压缩扩张系数对所述语音数据的播放语速进行扩张处理,以调节所述语音数据的播放语速。
12.一种即时通信应用中的语音数据处理装置,其特征在于,包括:
显示单元,用于显示接收到的语音消息;
第一处理单元,用于响应播放所述语音消息的操作,根据播放环境的第一噪声强度对所述语音消息的播放语速进行调节后播放,所述播放语速和所述第一噪声强度负相关。
13.一种即时通信应用中的语音数据处理装置,其特征在于,包括:
采集单元,用于响应目标对象触发的录音操作,获得麦克风采集的语音数据;
第二处理单元,用于根据录音环境的第二噪声强度对所述语音数据进行处理后发送,以使处理后的语音数据的播放语速和所述第二噪声强度负相关。
14.一种电子设备,其特征在于,其包括处理器和存储器,其中,所述存储器存储有程序代码,当所述程序代码被所述处理器执行时,使得所述处理器执行权利要求1~8中任一所述方法的步骤,或使得所述处理器执行权利要求9~11任一所述方法的步骤。
15.一种计算机可读存储介质,其特征在于,其包括程序代码,当所述程序产品在电子设备上运行时,所述程序代码用于使所述电子设备执行权利要求1~8中任一所述方法的步骤,或使所述电子设备执行权利要求9~11任一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010956303.6A CN112750456A (zh) | 2020-09-11 | 2020-09-11 | 即时通信应用中的语音数据处理方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010956303.6A CN112750456A (zh) | 2020-09-11 | 2020-09-11 | 即时通信应用中的语音数据处理方法、装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112750456A true CN112750456A (zh) | 2021-05-04 |
Family
ID=75645739
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010956303.6A Pending CN112750456A (zh) | 2020-09-11 | 2020-09-11 | 即时通信应用中的语音数据处理方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112750456A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115314824A (zh) * | 2022-10-12 | 2022-11-08 | 深圳市婕妤达电子有限公司 | 用于助听器的信号处理方法、装置、电子设备及存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1127916A (zh) * | 1994-09-28 | 1996-07-31 | 三星电子株式会社 | 声音变速播放装置 |
CN101290775A (zh) * | 2008-06-25 | 2008-10-22 | 北京中星微电子有限公司 | 一种快速实现语音信号变速的方法 |
CN103155030A (zh) * | 2011-07-15 | 2013-06-12 | 华为技术有限公司 | 用于处理多声道音频信号的方法及设备 |
CN104269180A (zh) * | 2014-09-29 | 2015-01-07 | 华南理工大学 | 一种用于语音质量客观评价的准干净语音构造方法 |
CN104616660A (zh) * | 2014-12-23 | 2015-05-13 | 上海语知义信息技术有限公司 | 基于环境噪音检测的智能语音播报系统及方法 |
CN105719644A (zh) * | 2014-12-04 | 2016-06-29 | 中兴通讯股份有限公司 | 一种自适应调整语音识别率的方法及装置 |
CN105869626A (zh) * | 2016-05-31 | 2016-08-17 | 宇龙计算机通信科技(深圳)有限公司 | 一种语速自动调节的方法及终端 |
CN106210323A (zh) * | 2016-07-13 | 2016-12-07 | 广东欧珀移动通信有限公司 | 一种语音播放方法及终端设备 |
CN106686490A (zh) * | 2016-12-20 | 2017-05-17 | 安徽乐年健康养老产业有限公司 | 一种语音采集处理方法 |
CN111554315A (zh) * | 2020-05-29 | 2020-08-18 | 展讯通信(天津)有限公司 | 单通道语音增强方法及装置、存储介质、终端 |
-
2020
- 2020-09-11 CN CN202010956303.6A patent/CN112750456A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1127916A (zh) * | 1994-09-28 | 1996-07-31 | 三星电子株式会社 | 声音变速播放装置 |
CN101290775A (zh) * | 2008-06-25 | 2008-10-22 | 北京中星微电子有限公司 | 一种快速实现语音信号变速的方法 |
CN103155030A (zh) * | 2011-07-15 | 2013-06-12 | 华为技术有限公司 | 用于处理多声道音频信号的方法及设备 |
CN104269180A (zh) * | 2014-09-29 | 2015-01-07 | 华南理工大学 | 一种用于语音质量客观评价的准干净语音构造方法 |
CN105719644A (zh) * | 2014-12-04 | 2016-06-29 | 中兴通讯股份有限公司 | 一种自适应调整语音识别率的方法及装置 |
CN104616660A (zh) * | 2014-12-23 | 2015-05-13 | 上海语知义信息技术有限公司 | 基于环境噪音检测的智能语音播报系统及方法 |
CN105869626A (zh) * | 2016-05-31 | 2016-08-17 | 宇龙计算机通信科技(深圳)有限公司 | 一种语速自动调节的方法及终端 |
WO2017206256A1 (zh) * | 2016-05-31 | 2017-12-07 | 宇龙计算机通信科技(深圳)有限公司 | 一种语速自动调节的方法及终端 |
CN106210323A (zh) * | 2016-07-13 | 2016-12-07 | 广东欧珀移动通信有限公司 | 一种语音播放方法及终端设备 |
CN106686490A (zh) * | 2016-12-20 | 2017-05-17 | 安徽乐年健康养老产业有限公司 | 一种语音采集处理方法 |
CN111554315A (zh) * | 2020-05-29 | 2020-08-18 | 展讯通信(天津)有限公司 | 单通道语音增强方法及装置、存储介质、终端 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115314824A (zh) * | 2022-10-12 | 2022-11-08 | 深圳市婕妤达电子有限公司 | 用于助听器的信号处理方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US12069470B2 (en) | System and method for assisting selective hearing | |
CN107623614B (zh) | 用于推送信息的方法和装置 | |
CN111489760B (zh) | 语音信号去混响处理方法、装置、计算机设备和存储介质 | |
US10871940B2 (en) | Systems and methods for sound enhancement in audio systems | |
CN110853664A (zh) | 评估语音增强算法性能的方法及装置、电子设备 | |
WO2023040523A1 (zh) | 音频信号的处理方法、装置、电子设备及存储介质 | |
US20230164509A1 (en) | System and method for headphone equalization and room adjustment for binaural playback in augmented reality | |
Kumar | Comparative performance evaluation of MMSE-based speech enhancement techniques through simulation and real-time implementation | |
WO2022253003A1 (zh) | 语音增强方法及相关设备 | |
CN112102846A (zh) | 音频处理方法、装置、电子设备以及存储介质 | |
CN117294985B (zh) | 一种tws蓝牙耳机控制方法 | |
Payton et al. | Comparison of a short-time speech-based intelligibility metric to the speech transmission index and intelligibility data | |
CN115482830A (zh) | 语音增强方法及相关设备 | |
EP2030195B1 (en) | Speech differentiation | |
KR20050010927A (ko) | 오디오 신호 처리 장치 | |
CN111081249A (zh) | 一种模式选择方法、装置及计算机可读存储介质 | |
CN112151055B (zh) | 音频处理方法及装置 | |
CN113709291A (zh) | 音频处理方法、装置、电子设备及可读存储介质 | |
CN112750456A (zh) | 即时通信应用中的语音数据处理方法、装置及电子设备 | |
JP7284570B2 (ja) | 音声再生システムおよびプログラム | |
Uhle et al. | Speech enhancement of movie sound | |
WO2024055751A1 (zh) | 音频数据处理方法、装置、设备、存储介质及程序产品 | |
Shankar et al. | Smartphone-based single-channel speech enhancement application for hearing aids | |
Wasiuk et al. | Predicting speech-in-speech recognition: Short-term audibility and spatial separation | |
CN116741193B (zh) | 语音增强网络的训练方法、装置、存储介质及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40043829 Country of ref document: HK |