CN115798506A - 语音处理方法、装置、电子设备及存储介质 - Google Patents
语音处理方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN115798506A CN115798506A CN202211408262.2A CN202211408262A CN115798506A CN 115798506 A CN115798506 A CN 115798506A CN 202211408262 A CN202211408262 A CN 202211408262A CN 115798506 A CN115798506 A CN 115798506A
- Authority
- CN
- China
- Prior art keywords
- audio
- sub
- time period
- time
- domain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 22
- 238000012545 processing Methods 0.000 claims abstract description 50
- 238000000034 method Methods 0.000 claims abstract description 46
- 230000002159 abnormal effect Effects 0.000 claims abstract description 44
- 230000005236 sound signal Effects 0.000 claims description 200
- 230000000295 complement effect Effects 0.000 claims description 27
- 238000006243 chemical reaction Methods 0.000 claims description 17
- 230000003595 spectral effect Effects 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 10
- 230000008569 process Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 6
- AYFVYJQAPQTCCC-GBXIJSLDSA-N L-threonine Chemical compound C[C@@H](O)[C@H](N)C(O)=O AYFVYJQAPQTCCC-GBXIJSLDSA-N 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 230000001360 synchronised effect Effects 0.000 description 5
- 230000007704 transition Effects 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 4
- 230000007613 environmental effect Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Telephone Function (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
Abstract
本申请公开了一种语音处理方法、装置、电子设备及存储介质,该方法包括:电子设备对第一音频进行划分,得到N个时间段对应的子音频,一个时间段对应一个子音频,N为正整数;在第一时间段对应的第一子音频存在异常语音中断的情况下,若确定第二时间段对应的第二子音频可用于补齐第一时间段对应的第一子音频,则基于第二子音频补齐第一子音频,以得到第一时间段对应的第三子音频;将第一时间段对应的第三子音频与N个时间段中的其他时间段对应的子音频进行组合,得到第二音频;其中,第一时间段为N个时间段中的至少一个时间段;第二时间段包括以下至少之一:第一时间段之前相邻的时间段,第一时间段之后相邻的时间段。
Description
技术领域
本申请属于音频技术领域,具体涉及一种语音处理方法、装置、电子设备及存储介质。
背景技术
随着电子设备的发展,许多电子设备应用具有发送语音消息的功能,通过传输即时或者非即时的语音消息来进行聊天或评论正日益普及。
然而,用户发送语音消息时所处的环境多样且复杂,可能会因为进入电梯、切换网络等原因,使得发送的语音消息出现卡顿、断续的情况。如此,会造成电子设备发送的语音信息缺失。
发明内容
本申请实施例的目的是提供一种语音处理方法、装置、电子设备及存储介质,能够解决电子设备发送的语音信息缺失的问题。
第一方面,本申请实施例提供了一种语音处理方法,该方法包括:对第一音频进行划分,得到N个时间段对应的子音频,一个时间段对应一个子音频,N为正整数;在第一时间段对应的第一子音频存在异常语音中断的情况下,若确定第二时间段对应的第二子音频可用于补齐第一时间段对应的第一子音频,则基于第二子音频补齐第一子音频,以得到第一时间段对应的第三子音频;将第一时间段对应的第三子音频与N个时间段中的其他时间段对应的子音频进行组合,得到第二音频;其中,第一时间段为N个时间段中的至少一个时间段;第二时间段包括以下至少之一:第一时间段之前相邻的时间段,第一时间段之后相邻的时间段。
第二方面,本申请实施例提供了一种语音处理装置,该语音处理装置包括:处理模块和组合模块。处理模块,用于对第一音频进行划分,得到N个时间段对应的子音频,一个时间段对应一个子音频,N为正整数;并在第一时间段对应的第一子音频存在异常语音中断的情况下,若确定第二时间段对应的第二子音频可用于补齐第一时间段对应的第一子音频,则基于第二子音频补齐第一子音频,以得到第一时间段对应的第三子音频。组合模块,用于将第一时间段对应的第三子音频与N个时间段中的其他时间段对应的子音频进行组合,得到第二音频;其中,第一时间段为N个时间段中的至少一个时间段;第二时间段包括以下至少之一:第一时间段之前相邻的时间段,第一时间段之后相邻的时间段。
第三方面,本申请实施例提供了一种电子设备,该电子设备包括处理器和存储器,所述存储器存储可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。
第四方面,本申请实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
第五方面,本申请实施例提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如第一方面所述的方法。
第六方面,本申请实施例提供一种计算机程序产品,该程序产品被存储在存储介质中,该程序产品被至少一个处理器执行以实现如第一方面所述的方法。
在本申请实施例中,电子设备可以对第一音频进行划分,得到N个时间段对应的子音频,以在N个时间段中的第一时间段对应的第一子音频存在异常语音中断的情况下,若确定第二时间段对应的第二子音频可用于补齐该第一子音频,则电子设备基于第二子音频补齐第一子音频,以得到第一时间段对应的第三子音频;然后电子设备可以将第一时间段对应的第三子音频与N个时间段中的其他时间段对应的子音频进行组合,得到第二音频。本方案中,由于电子设备可以将待发送的第一音频划分为N个时间段对应的子音频,然后检测N个时间段对应的子音频是否存在异常语音中断,以在检测到N个时间段中的第一时间段对应的第一子音频存在异常语音中断时,确定第二时间段对应的第二子音频是否可用于补齐该第一子音频,在第二子音频可用于补齐该第一子音频时,电子设备可以基于第二子音频补齐该第一子音频,以得到处理后的第一子音频,即第一时间段对应的第三子音频;然后电子设备可以将第三子音频与N个时间段中的其他时间段对应的子音频进行组合,以得到处理后的第一音频(即第二音频),从而电子设备可以发送完整的语音信息。
附图说明
图1是本申请实施例提供的一种语音处理方法的示意图;
图2是本申请实施例提供的一种语音处理方法的流程示意图;
图3是本申请实施例提供的一种语音处理装置的结构示意图;
图4是本申请实施例提供的一种电子设备的硬件结构示意图之一;
图5是本申请实施例提供的一种电子设备的硬件结构示意图之二。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的语音处理方法进行详细地说明。
本申请实施例中的语音处理方法可以应用于补齐中断语音的场景。
目前,许多电子设备应用具有发送语音消息的功能,用户在发送语音消息时所处的环境多样且复杂,可能会因为进入电梯、切换网络、有突发环境噪声等原因使得发送出去的语音出现断续、有杂质的情况,也可能出现语音卡顿部分片段重复等,影响语音消息接收方的内容理解以及听感体验。相关技术中,电子设备可以通过消除环境噪声来提高消息接收方对语音的可懂程度;也可以在检测到语音失真后,修复语音信息质量。但是在由于环境、网络等原因导致的语音消息卡顿、不连续时,目前已有的两种方法仍然存在处理局限性,比如:消除环境噪声的方法并不能解决语音中断的问题,并且一定程度上可能导致音质下降;检测语音失真并修复的方法虽然可以恢复失真语音的音频,但是对语音中断的情形检测即复原具有难度。如此,会造成电子设备发送的语音信息缺失。
在本申请实施例提供的方案中,电子设备可以对第一音频进行划分,得到N个时间段对应的子音频,以在N个时间段中的第一时间段对应的第一子音频存在异常语音中断的情况下,若确定第二时间段对应的第二子音频可用于补齐该第一子音频,则电子设备基于第二子音频补齐第一子音频,以得到第一时间段对应的第三子音频;然后电子设备可以将第一时间段对应的第三子音频与N个时间段中的其他时间段对应的子音频进行组合,得到第二音频。本方案中,由于电子设备可以将待发送的第一音频划分为N个时间段对应的子音频,然后检测N个时间段对应的子音频是否存在异常语音中断,以在检测到N个时间段中的第一时间段对应的第一子音频存在异常语音中断时,确定第二时间段对应的第二子音频是否可用于补齐该第一子音频,在第二子音频可用于补齐该第一子音频时,电子设备可以基于第二子音频补齐该第一子音频,以得到处理后的第一子音频,即第一时间段对应的第三子音频;然后电子设备可以将第三子音频与N个时间段中的其他时间段对应的子音频进行组合,以得到处理后的第一音频(即第二音频),从而电子设备可以发送完整的语音信息。
本申请实施例提供一种语音处理方法,图1示出了本申请实施例提供的一种语音处理方法的流程图,该方法可以应用于电子设备。如图1所示,本申请实施例提供的语音处理方法可以包括下述的步骤201至步骤203。
步骤201、电子设备对第一音频进行划分,得到N个时间段对应的子音频。
本申请实施例中,一个时间段对应一个子音频,N为正整数。
可选地,本申请实施例中,上述第一音频可以为用户在电子设备应用上发送的即时语音消息或非即时语音消息对应的音频。
可选地,本申请实施例中,一个时间段的时长可以为t1,t1数值可以取10ms~20ms。
可选地,本申请实施例中,在上述步骤201之后,本申请实施例提供的语音处理方法还包括下述的步骤301和步骤302。
步骤301、电子设备获取N个时间段对应的子音频所对应的第一时域音频信号。
本申请实施例中,一个时间段对应一个第一时域音频信号。
本申请实施例中,电子设备得到多个时间段的子音频之后,可以获取每个子音频对应的第一时域音频信号。
步骤302、电子设备将N个时间段对应的第一时域音频信号进行频域转换,以得到N个频域上的第一频域音频信号。
可选地,本申请实施例中,电子设备可以对每个时间段对应的第一时域音频信号进行加窗、傅里叶变换,以得到N个频域上的第一频域音频信号。
可选地,本申请实施例中,由于音频信号能量更加集中在0~4000Hz的低频部分,且语音谐波一般间隔在50~100Hz之间,因此电子设备可以每隔50Hz取一个频段,则在0~4000Hz范围可以取80个频段,即每个第一频域音频信号可以为80个频段上的频域音频信号。
示例性地,一个第一频域音频信号在第k个频段的范围可以为[(k-1)*50,k*50]Hz。
示例性地,第l个时间段对应的第k个频段上的第一频域音频信号可以表示为Y(k,l)。
步骤202、在第一时间段对应的第一子音频存在异常语音中断的情况下,若确定第二时间段对应的第二子音频可用于补齐第一时间段对应的第一子音频,则电子设备基于第二子音频补齐第一子音频,以得到第一时间段对应的第三子音频。
其中,第一时间段为N个时间段中的至少一个时间段。
本申请实施例中,第二时间段包括以下至少之一:第一时间段之前相邻的时间段,第一时间段之后相邻的时间段。
可选地,本申请实施例中,第二时间段包括的第一时间段之前相邻的时间段可以为第一时间段之前相邻的一个或多个时间段;同理,第二时间段包括的第一时间段之后相邻的时间段也可以为第一时间段之后相邻的一个或多个时间段。
可选地,本申请实施例中,上述步骤202中的“若确定第二时间段对应的第二子音频可用于补齐第一时间段对应的第一子音频,则电子设备基于第二子音频补齐第一子音频,以得到第一时间段对应的第三子音频”具体可以通过下述的步骤202a实现。
步骤202a、若确定第二时间段对应的第一频域音频信号可用于补齐第一时间段对应的第一频域音频信号,则电子设备基于第二时间段对应的第一频域音频信号补齐第一时间段对应的第一频域音频信号,以得到第二频域音频信号。
可选地,本申请实施例中,由于每个第一频域信号为多个频段上的频域音频信号,因此电子设备可以基于第二时间段对应的第一频域音频信号对第一时间段对应的所有频段或部分频段上的第一频域音频信号进行补齐,可以理解的是,该第一时间段对应的部分频段为第一频域音频信号的信号能量集中频段。
需要说明的是,对于电子设备得到第二频域音频信号的具体实现方式,将在下述实施例中进行描述,此处不予赘述。
可选地,本申请实施例中,上述步骤202a具体可以通过下述的步骤202a1至步骤202a3实现。
步骤202a1、针对第一时间段对应的每个频段,在一个频段对应的能量差值集合中的最小能量差值小于第一阈值的情况下,电子设备确定第二时间段对应的第一频域音频信号可用于补齐第一时间段在一个频段上对应的第一频域音频信号。
其中,能量差值集合中每个能量差值对应一组频段。
其中,能量差值集合中的一个能量差值为:第一时间段之前的X个时间段对应的第一频域音频信号在目标频段上的第一能量值,与第一时间段之后的X个时间段对应的第一频域音频信号在所述目标频段上的第二能量值间的差值,目标频段包括以下任一项:上述一个频段、第一频段或第二频段;一个能量差值对应的频段组包括以下任两项:上述一个频段、第一频段或第二频段,第一频段和第二频段为一个频段相邻的频段。
可选地,本申请实施例中,上述一个频段上对应的第一频域音频信号可以为一个时间段对应的任意一个频段上的第一频域音频信号。
可选地,本申请实施例中,上述第一频段可以为上述一个频段之前相邻的频段,第二频段可以为上述一个频段之后相邻的频段。
可以理解,每个第一频域信号为多个频段上的频域音频信号,在第一时间段对应的第一子音频存在异常语音中断时,电子设备可以确定第一时间段对应的一个频段上的第一频域音频信号是否可以被第一时间段之前和之后的X个时间段对应的目标频段上的第一频域音频信号补齐,以在第一时间段之前和之后的X个时间段在目标频段上的第一频域音频信号可以补齐第一时间段对应的一个频段上的第一频域音频信号时,基于第一时间段之前和之后的X个时间段在目标频段上的第一频域音频信号补齐第一时间段对应的该一个频段上的第一频域音频信号。
可选地,本申请实施例中,一个能量差值的计算公式如下:
k1,k2s.t.mink-1≤k1,k2≤k+1DY(k1,k2,l0)
其中,l0表示第一时间段;k1、k2表示目标频段;t0表示第一时间段之前或之后的X个时间段;Y(k1,l)表示第一时间段之前的X个时间段中的一个时间段在k1频段上的第一频域音频信号;Y(k2,l)表示第一时间段之后的X个时间段中的一个时间段在k2频段上的第一频域音频信号;k-1表示第一频段;k+1表示第二频段。
举例说明,在上述一个频段为目标频带中的第10个频段时,第一频段为目标频带中的第9个频段,第二频段为目标频带中的第11个频段;则目标频段可以为以下任一项:第9个频段、第10个频段、第11个频段;则一组频段(k1,k2)可以为以下任一项:(第9个频段,第9个频段)、(第9个频段,第10个频段)、(第9个频段,第11个频段)、(第10个频段,第9个频段)、(第10个频段,第10个频段)、(第10个频段,第11个频段)、(第11个频段,第9个频段)、(第11个频段,第10个频段)以及(第11个频段,第11个频段)。
可以理解,上述每组频段中包括的两个频段,一个频段为第一时间段之前的X个时间段对应的一个频段;另一个频段为第一时间段之后的X个时间段对应的一个频段。
例如:选择一组频段(第10个频段,第9个频段)代入上述公式,则可以得到一个能量差值为:第一时间段之前的X个时间段对应的第一频域音频信号在第10个频段上的第一能量值,与第一时间段之后的X个时间段对应的第一频域音频信号在第9频段上的第二能量值间的差值。
可以理解,针对多个不同的频段组,即不同的k1、k2,电子设备可以得到多个不同的能量差值,从而得到能量差值集合。
可选地,本申请实施例中,电子设备可以将能量差值集合中的最小能量差值与第一阈值进行比较,在最小能量差值小于第一阈值时,确认第一时间段对应的一个频段上的第一频域音频信号可以根据第二时间段对应的第一频域音频信号进行补齐。
示例性地,I(k,l0)可以用于表示最小能量差值是否小于第一阈值thre_minDY,在最小能量差值小于第一阈值时,I(k,l0)=1;在最小能量差值大于第一阈值时,I(k,l0)=0。
步骤202a2、电子设备基于第二时间段在第一频段组上对应的第一频域音频信号,补齐第一时间段在一个频段上对应的第一频域音频信号,以得到目标第一频域音频信号。
本申请实施例中,上述第一频段组为最小能量差值对应的频段组。
可选地,本申请实施例中,电子设备可以获取最小能量差值对应的一组频段,即获取k1、k2,并将最小能量差值对应的k1、k2记作k1_opt,k2_opt;然后根据k1_opt,k2_opt对应的第一频域音频信号计算得到第一时间段在一个频段上对应的目标第一频域音频信号。
示例性地,第一时间段在一个频段上对应的目标第一频域音频信号的计算公式如下:
其中,Y(k,l0)表示第一时间段在一个频段上的第一频域音频信号;Gain(l,l0)表示信号增益;Y(k1opt,l)表示第一时间段之前的X个时间段中的一个时间段在k1_opt频段上的第一频域音频信号;Y(k2opt,l)表示第一时间段之后的X个时间段中的一个时间段在k2_opt频段上的第一频域音频信号。
步骤202a3、电子设备将第一时间段在一个频段上对应的第一频域音频信号替换为目标第一频域音频信号,以得到第二频域音频信号。
可以理解,电子设备得到第一时间段在一个频段上对应的目标第一频域音频信号之后,可以采用目标第一频域音频信号替换第一时间段在一个频段上对应的第一频域音频信号,然后针对第一时间段对应的所有或部分频段上的第一频域音频信号,电子设备需要多次执行上述步骤202a2,以得到第一时间段在所有频段或部分频段上分别对应的目标第一频域音频信号,从而得到第一时间段对应的第二频域音频信号。
步骤203、电子设备将第一时间段对应的第三子音频与N个时间段中的其他时间段对应的子音频进行组合,得到第二音频。
本申请实施例中,电子设备在得到第一时间段对应的第三子音频之后,可以将第一时间段对应的第三子音频与N个时间段中的其他时间段对应的子音频进行组合处理,以得到完成语音恢复的第一音频,即第二音频。
可选地,本申请实施例中,上述步骤203具体可以通过下述的步骤203a和步骤203b实现。
步骤203a、电子设备将N个时间段对应的频域音频信号进行时域转换,得到N个时域上的第二时域音频信号。
本申请实施例中,电子设备可以将第一时间段对应的第二频域音频信号与N个时间段中除第一时间段之外的时间段对应的频域音频信号进行时域转换(即进行加窗、逆傅里叶变换),以得到N个时域上的第二时域音频信号。
步骤203b、电子设备按照N个时间段对应的时间顺序,将N个时域上的第二时域音频信号进行组合,得到第二音频。
本申请实施例中,电子设备得到N个时域上的第二时域音频信号之后,可以按照N个时间段对应的时间顺序,将N个时域上的第二时域音频信号进行组合处理,以得到第二音频。
本申请实施例提供一种语音处理方法,由于电子设备可以将待发送的第一音频划分为N个时间段对应的子音频,然后检测N个时间段对应的子音频是否存在异常语音中断,以在检测到N个时间段中的第一时间段对应的第一子音频存在异常语音中断时,确定第二时间段对应的第二子音频是否可用于补齐该第一子音频,在第二子音频可用于补齐该第一子音频时,电子设备可以基于第二子音频补齐该第一子音频,以得到处理后的第一子音频,即第一时间段对应的第三子音频;然后电子设备可以将第三子音频与N个时间段中的其他时间段对应的子音频进行组合,以得到处理后的第一音频(即第二音频),从而电子设备可以发送完整的语音信息。
可选地,本申请实施例中,在上述步骤202之前,本申请实施例提供的语音处理方法还可以包括下述的步骤401。
步骤401、在第一子音频对应的音频时域能量参数满足第一条件的情况下,电子设备确定第一子音频包含语音信息。
其中,音频时域能量参数包括:第一子音频的音频时域能量,第一子音频集合中的子音频的音频平均能量,N个时间段对应的子音频的音频时域能量中的最小音频时域能量,第一子音频集合中的子音频的音频时域能量中的最小音频时域能量。
本申请实施例中,第一子音频集合包括:第一子音频,和与第一子音频相邻的M个子音频。
可选地,本申请实施例中,上述第一子音频的音频时域能量用于指示第一音频在短时间内的能量信息。
示例性地,上述第一子音频的音频时域能量的计算公式如下:
其中,l表示第一时间段;E(l)表示第一时间段对应的第一子音频的音频时域能量;t1表示一个时间段的时长;e(t)表示t时间的音频时域能量。
举例说明,假设第一时间段为N个时间段中的第一个时间段,且每个时间段的时长为10ms;则第一时间段对应的第一子音频的音频时域能量为第1ms的音频时域能量至第10ms的音频时域能量之和。
可选地,本申请实施例中,上述第一子音频集合中的子音频的音频平均能量用于跟踪第一音频的能量水平变化。
示例性地,上述第一子音频集合中与第一子音频相邻的M个子音频可以为第一时间段之前相邻的预定时长内的时间段对应的子音频,该预定时长可以为t2,t2的数值可取50ms~100ms。
举例说明,假设一个时间段的时长为10ms,t2为50ms;则上述M个子音频为第一时间段之前相邻的50ms内的时间段对应的子音频,即第一时间段之前相邻的5个时间段所对应的5个子音频。
示例性地,上述第一子音频集合中的子音频的音频平均能量的计算公式如下:
其中,l表示第一时间段;E(i)表示用t1来划分的第i个时间段的音频时域能量;t1表示一个时间段的时长;t2表示M个子音频对应的M个时间段的总时长。
举例说明,假设第一时间段为N个时间段中的第3个时间段,一个时间段的时长为10ms,t2为50ms;则l*t1<t2;在N个时间段中的第一个时间段的音频时域能量为20、第二个时间段的音频时域能量为30、且第三个时间段的音频时域能量为30的情况下,第一子音频集合中的子音频的音频平均能量为:(20+30+40)/3=30。
可选地,本申请实施例中,上述N个时间段对应的子音频的音频时域能量中的最小音频时域能量的计算公式如下:
minE_global=min{E(1),E(2),...,E(N)}
可选地,本申请实施例中,上述第一子音频集合中的子音频的音频时域能量中的最小音频时域能量的计算公式如下:
minE_local(l)=min{E(l-t3+1),E(l-t3+2),...,E(l)}
其中,l表示第一时间段;t3表示M个子音频对应的M个时间段的总时长。
示例性地,t3的数值可取50ms~100ms,可以理解的是,t2的数值和t3的数值相同时,第一子音频集合包括的M个子音频相同;t2的数值和t3的数值不同时,第一子音频集合包括的M个子音频也不相同。
本申请实施例中,上述第一条件包括:第一子音频的音频时域能量大于第一子音频集合中的子音频的音频平均能量;或者,第一子音频的音频时域能量大于N个时间段对应的子音频的音频时域能量中的最小音频时域能量、且大于第一子音频集合中的子音频的音频时域能量中的最小音频时域能量。
可选地,本申请实施例中,可以用I(l)=1表示第一子音频包含语音信息,I(l)=0表示第一子音频未包含语音信息。
示例性地,在第一子音频的音频时域能量大于第一子音频集合中的子音频的音频平均能量,即E(l)>Emean(l)时,电子设备可以确定第一子音频为从噪声到语音开始的过渡段,从而确定第一子音频包含语音信息,即I(l)=1。
示例性地,在第一子音频的音频时域能量大于N个时间段对应的子音频的音频时域能量中的最小音频时域能量、且大于第一子音频集合中的子音频的音频时域能量中的最小音频时域能量,即E(l)>minE_global且E(l)>minE_local(l)时,电子设备可以确定第一子音频为语音中间段,从而确定第一子音频包含语音信息,即I(l)=1。
示例性地,在第一子音频的音频时域能量与第一子音频集合中的子音频的音频时域能量中的最小音频时域能量的差值小于预设阈值,即E(l)-minE_local(l)<thre1时,电子设备可以确定第一子音频为噪声段,从而确定第一子音频未包含语音信息,即I(l)=0。
其中,thre1为预设阈值。
示例性地,在第一子音频的音频时域能量小于第一子音频集合中的子音频的音频时域能量中的最小音频时域能量,即E(l)<minE_local(l)时,电子设备可以确定第一子音频为从语音结束段到噪声段的过渡,从而确定第一子音频未包含语音信息,即I(l)=0。
示例性地,在电子设备连续检测到多个时间段对应的子音频未包含语音信息,即I(l)=0时,该多个时间段对应的子音频可能为语音间歇,因此,电子设备可以在检测之后M个时间段对应的子音频时,将I(l)结果修正为1,以保证语音间歇不会被切断。
可选地,本申请实施例中,上述步骤202具体可以通过下述的步骤202b实现。
步骤202b、在第一时间段对应的第一子音频包含语音信息、且第一子音频存在异常语音中断的情况下,若确定第二时间段对应的第二子音频可用于补齐第一子音频,则电子设备基于第二子音频补齐第一子音频,以得到第一时间段对应的第三子音频。
本申请实施例中,电子设备在获取第一音频,且将第一音频划分为N个时间段对应的子音频之后,可以先确定第一时间段对应的第一子音频是否包含语音信息;然后在第一时间段对应的第一子音频包含语音信息的情况下,进一步判断该第一子音频是否存在异常语音中断的情况;以在确定该第一子音频存在语音中断的情况时,若确定第二时间段对应的第二子音频可用于补齐第一子音频,则电子设备可以基于第二子音频补齐第一子音频,以得到第一时间段对应的第三子音频。
可选地,本申请实施例中,在上述步骤201之后,本申请实施例提供的语音处理方法还包括下述的步骤501。
步骤501、在目标频带中的所有频段对应的第一变量的均值大于第二阈值,且目标频带中的所有频段对应的第二变量的均值小于第三阈值的情况下,电子设备确定第一时间段对应的第一子音频存在异常语音中断。
其中,一个第一变量用于指示第一时间段对应的第一频域音频信号与第三时间段对应的第一频域音频信号在目标频带中的一个频段上的频谱差异性;一个第二变量用于指示第一时间段对应的第一频域音频信号与第三时间段对应的第一频域音频信号在目标频带中的一个频段上的频谱相似性。
其中,第三时间段包括:第一时间段之前的预定时长内的时间段,第一时间段之后的预定时长内的时间段。
本申请实施例中,针对第一时间段对应的第一频域音频信号,电子设备可以检测第三时间段对应的第一频域音频信号与第一时间段对应的第一频域音频信号是否平滑。
可选地,本申请实施例中,第一时间段之前的预定时长和第一时间段之后的预定时长可取100~200ms。
举例说明,假设一个时间段的时长为10ms,第一时间段之前的预定时长和第一时间段之后的预定时长为100ms;则上述第三时间段可以包括:第一时间段之前相邻的10个时间段和第一时间段之后相邻的10个时间段。
示例性地,上述一个第一变量的计算公式如下:
其中,k表示第k个频段;l表示第一时间段;t_local表示第一时间段之前的预定时长或第一时间段之后的预定时长;Y(k,l)表示第l个时间段对应的第k个频段上的第一频域音频信号;Y(k,l-t)表示第l个时间段之前的预定时长内的一个时间段对应的第k个频段上的第一频域音频信号;Y(k,l+t)表示第l个时间段之后的预定时长内的一个时间段对应的第k个频段上的第一频域音频信号。
示例性地,上述第一变量的值越小说明第一时间段对应的第一频域音频信号与第三时间段对应的第一频域音频信号在目标频带中的第K个频段上的频段能量过渡越平滑。
可选地,本申请实施例中,上述目标频带的宽度可以为0~4000Hz,由于语音谐波一般间隔在50~100Hz之间,因此电子设备可以每隔50Hz取一个频段,则上述目标频带可以包括80个频段。
可选地,本申请实施例中,电子设备需要计算第一时间段对应的第一频域音频信号与第三时间段对应的第一频域音频信号在目标频带中的每个频段上的频谱差异性,从而得到目标频带中的所有频段对应的第一变量。
可选地,本申请实施例中,上述一个第二变量的计算公式如下:
其中,X*Y*表示复数共轭相乘。
需要说明的是,针对上述公式中其他参数的描述,可以参见上述实施例中的描述,此处不再赘述。
示例性地,上述第二变量的值越大说明第一时间段对应的第一频域音频信号与第三时间段对应的第一频域音频信号在目标频带中的第K个频段上的频段能量过渡越平滑。
示例性地,电子设备需要计算第一时间段对应的第一频域音频信号与第三时间段对应的第一频域音频信号在目标频带中的每个频段上的频谱相似性,从而得到目标频带中的所有频段对应的第二变量。
可选地,本申请实施例中,电子设备得到目标频带中的所有频段对应的第一变量和第二变量,即得到多个第一变量和多个第二变量之后,可以计算得到该多个第一变量的均值和多个第二变量的均值。
示例性地,在目标频带中的所有频段对应的第一变量的均值大于第二阈值,且目标频带中的所有频段对应的第二变量的均值小于第三阈值,即SD(k,l)均值大于阈值thre_SD,且SR(k,l)均值小于阈值thre_SR时,电子设备可以确定第一时间段对应的第一子音频存在异常语音中断。
可选地,本申请实施例中,在上述步骤501之前,本申请实施例提供的语音处理方法还包括下述的步骤501a。
步骤501a、在目标频带中的所有频段对应的第三变量的均值大于第四阈值,且目标频带中的所有频段对应的第四变量的均值小于第五阈值的情况下,电子设备确定第一时间段对应的第一子音频存在异常语音中断或语音间歇。
其中,一个第三变量用于指示第一时间段对应的第一频域音频信号与第四时间段对应的第一频域音频信号在目标频带中的一个频段上的频谱差异性;一个第四变量用于指示第一时间段对应的第一频域音频信号与第四时间段对应的第一频域音频信号在目标频带中的一个频段上的频谱相似性。
其中,第四时间段包括:第一时间段之前的预定时长内的时间段,第一时间段之后的预定时长内的时间段。
可选地,本申请实施例中,由于一般语音间歇段的时间为50ms~100ms,因此,第一时间段之前的预定时长和第一时间段之后的预定时长可取50ms~100ms。
举例说明,在一个时间段的时长为10ms,第一时间段之前的预定时长和第一时间段之后的预定时长为50ms时,上述第三时间段可以包括:第一时间段之前相邻的5个时间段和第一时间段之后相邻的5个时间段。
可以理解,电子设备可以在确定第一时间段对应的第一子音频是否存在异常语音中断之前,先根据与第一时间段相邻的少量时间段确定第一时间段对应的第一子音频是否存在异常语音中断或语音间歇,以在确定第一时间段对应的第一子音频存在异常语音中断或语音间歇时,再进一步根据与第一时间段相邻的多个时间段确定第一时间段对应的第一子音频是否存在异常语音中断。
示例性地,电子设备可以计算第一时间段对应的第一频域音频信号与第四时间段对应的第一频域音频信号在目标频带中的每个频段上的频谱差异性和频谱相似性,从而得到目标频带中的所有频段对应的第三变量和第四变量;可以理解的是,第三变量与第一变量的计算方式相同,第四变量与第二变量的计算方式相同,区别在于参数t_local的取值不同。
然后,电子设备可以计算得到目标频带中的所有频段对应的第三变量的均值和目标频带中的所有频段对应的第四变量的均值;
最后,在目标频带中的所有频段对应的第三变量的均值大于第四阈值,且目标频带中的所有频段对应的第四变量的均值小于第五阈值,即SD2(k,l)均值大于阈值thre_SD2,且SR2(k,l)均值小于阈值thre_SR2时,电子设备确定第一时间段对应的第一子音频存在异常语音中断或语音间歇。
需要说明的是,针对第三变量和第四变量的计算公式,以及计算公式中涉及的参数的描述,可以参考上述实施例中对第一变量和第二变量的计算公式,以及计算公式中涉及的参数的描述,此处不再赘述。
本申请实施例中,如图2所示,本申请实施例提供的语音处理方法可以包括下述的步骤S1至步骤S7。
步骤S1、电子设备对第一音频进行划分,得到N个时间段对应的子音频。
步骤S2、电子设备判断第一时间段对应的第一子音频是否包含语音信息。若是,执行步骤S3;否则,执行步骤S4。
步骤S3、电子设备判断第一子音频与第一时间段之前和之后的预定时长内的时间段对应的子音频的音频能量过渡是否平滑。若是,执行步骤S4;否则,执行步骤S5。
步骤S4、电子设备不对第一子音频进行处理。
步骤S5、电子设备判断第一子音频是否存在异常语音中断。若是,执行步骤S6;否则,执行步骤S4。
步骤S6、电子设备对第一时间段对应的第一子音频进行预测补齐,得到第三子音频。
步骤S7、电子设备将第三子音频、与N个时间段中的其他时间段对应的子音频进行组合,得到第二音频,并发送至接收端电子设备。
需要说明的是,本申请实施例提供的语音处理方法,执行主体可以为语音处理装置。本申请实施例中以语音处理装置执行语音处理的方法为例,说明本申请实施例提供的语音处理装置。
图3示出了本申请实施例中涉及的语音处理装置的一种可能的结构示意图。如图3所示,该语音处理装置70可以包括:处理模块71和组合模块72。
其中,处理模块71,用于对第一音频进行划分,得到N个时间段对应的子音频,一个时间段对应一个子音频,N为正整数;并在第一时间段对应的第一子音频存在异常语音中断的情况下,若确定第二时间段对应的第二子音频可用于补齐第一时间段对应的第一子音频,则基于第二子音频补齐第一子音频,以得到第一时间段对应的第三子音频。组合模块72,用于将第一时间段对应的第三子音频与N个时间段中的其他时间段对应的子音频进行组合,得到第二音频;其中,第一时间段为N个时间段中的至少一个时间段;第二时间段包括以下至少之一:第一时间段之前相邻的时间段,第一时间段之后相邻的时间段。
本申请实施例提供一种语音处理装置,由于语音处理装置可以将待发送的第一音频划分为N个时间段对应的子音频,然后检测N个时间段对应的子音频是否存在异常语音中断,以在检测到N个时间段中的第一时间段对应的第一子音频存在异常语音中断时,确定第二时间段对应的第二子音频是否可用于补齐该第一子音频,在第二子音频可用于补齐该第一子音频时,语音处理装置可以基于第二子音频补齐该第一子音频,以得到处理后的第一子音频,即第一时间段对应的第三子音频;然后语音处理装置可以将第三子音频与N个时间段中的其他时间段对应的子音频进行组合,以得到处理后的第一音频(即第二音频),从而电子设备可以发送完整的语音信息。
在一种可能的实现方式中,本申请实施例提供的语音处理装置70还包括:获取模块和转换模块。获取模块,用于在处理模块71对第一音频进行划分,得到N个时间段对应的子音频之后,获取N个时间段对应的子音频所对应的第一时域音频信号,一个时间段对应一个第一时域音频信号。转换模块,用于将获取模块获取的N个时间段对应的第一时域音频信号进行频域转换,以得到N个频域上的第一频域音频信号。处理模块,具体用于若确定第二时间段对应的第一频域音频信号可用于补齐第一时间段对应的第一频域音频信号,则基于第二时间段对应的第一频域音频信号补齐第一时间段对应的第一频域音频信号,以得到第二频域音频信号。
在一种可能的实现方式中,所述语音处理装置还包括:确定模块;确定模块,用于针对第一时间段对应的每个频段,在一个频段对应的能量差值集合中的最小能量差值小于第一阈值的情况下,确定第二时间段对应的第一频域音频信号可用于补齐第一时间段在一个频段上对应的第一频域音频信号。处理模块,具体用于基于第二时间段在第一频段组上对应的第一频域音频信号,补齐第一时间段在一个频段上对应的第一频域音频信号,以得到目标第一频域音频信号;第一频段组为最小能量差值对应的频段组;并将第一时间段在一个频段上对应的第一频域音频信号替换为目标第一频域音频信号,以得到第二频域音频信号;其中,能量差值集合中每个能量差值对应一组频段;能量差值集合中的一个能量差值为:第一时间段之前的X个时间段对应的第一频域音频信号在目标频段上的第一能量值,与第一时间段之后的X个时间段对应的第一频域音频信号在目标频段上的第二能量值间的差值,目标频段包括以下任一项:该一个频段、第一频段或第二频段;一个能量差值对应的频段组包括以下任两项:该一个频段、第一频段或第二频段,第一频段和第二频段为一个频段相邻的频段。
在一种可能的实现方式中,转换模块,还用于将N个时间段对应的频域音频信号进行时域转换,得到N个时域上的第二时域音频信号。组合模块72,具体用于按照N个时间段对应的时间顺序,将N个时域上的第二时域音频信号进行组合,得到第二音频。
在一种可能的实现方式中,本申请实施例提供的语音处理装置70还包括:确定模块。确定模块,用于在处理模块71在第一时间段对应的第一子音频存在异常语音中断的情况下,若确定第二时间段对应的第二子音频可用于补齐第一时间段对应的第一子音频,则基于第二子音频补齐第一子音频,以得到第一时间段对应的第三子音频之前,在第一子音频对应的音频时域能量参数满足第一条件的情况下,确定第一子音频包含语音信息;其中,音频时域能量参数包括:第一子音频的音频时域能量,第一子音频集合中的子音频的音频平均能量,N个时间段对应的子音频的音频时域能量中的最小音频时域能量,第一子音频集合中的子音频的音频时域能量中的最小音频时域能量;第一子音频集合包括:第一子音频,和与第一子音频相邻的M个子音频;第一条件包括:第一子音频的音频时域能量大于第一子音频集合中的子音频的音频平均能量;或者,第一子音频的音频时域能量大于N个时间段对应的子音频的音频时域能量中的最小音频时域能量、且大于第一子音频集合中的子音频的音频时域能量中的最小音频时域能量。处理模块71,具体用于在第一时间段对应的第一子音频包含语音信息、且第一子音频存在异常语音中断的情况下,若确定第二时间段对应的第二子音频可用于补齐第一子音频,则基于第二子音频补齐第一子音频,以得到第一时间段对应的第三子音频。
在一种可能的实现方式中,本申请实施例提供的语音处理装置70还包括:确定模块。确定模块,用于在处理模块71对第一音频进行划分,得到N个时间段对应的子音频之后,在目标频带中的所有频段对应的第一变量的均值大于第二阈值,且目标频带中的所有频段对应的第二变量的均值小于第三阈值的情况下,确定第一时间段对应的第一子音频存在异常语音中断;其中,一个第一变量用于指示第一时间段对应的第一频域音频信号与第三时间段对应的第一频域音频信号在目标频带中的一个频段上的频谱差异性;一个第二变量用于指示第一时间段对应的第一频域音频信号与第三时间段对应的第一频域音频信号在目标频带中的一个频段上的频谱相似性;第三时间段包括:第一时间段之前的预定时长内的时间段,第一时间段之后的预定时长内的时间段。
本申请实施例中的语音处理装置可以是电子设备,也可以是电子设备中的部件,例如集成电路或芯片。该电子设备可以是终端,也可以为除终端之外的其他设备。示例性的,电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(Mobile Internet Device,MID)、增强现实(augmented reality,AR)/虚拟现实(virtualreality,VR)设备、机器人、可穿戴设备、超级移动个人计算机(ultra-mobile personalcomputer,UMPC)、上网本或者个人数字助理(personal digital assistant,PDA)等,还可以为服务器、网络附属存储器(Network Attached Storage,NAS)、个人计算机(personalcomputer,PC)、电视机(television,TV)、柜员机或者自助机等,本申请实施例不作具体限定。
本申请实施例中的语音处理装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统,可以为ios操作系统,还可以为其他可能的操作系统,本申请实施例不作具体限定。
本申请实施例提供的语音处理装置能够实现上述方法实施例实现的各个过程,为避免重复,这里不再赘述。
可选地,如图4所示,本申请实施例还提供一种电子设备900,包括处理器901和存储器902,存储器902上存储有可在所述处理器901上运行的程序或指令,该程序或指令被处理器901执行时实现上述方法实施例的各个步骤,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要说明的是,本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。
图5为实现本申请实施例的一种电子设备的硬件结构示意图。
该电子设备100包括但不限于:射频单元101、网络模块102、音频输出单元103、输入单元104、传感器105、显示单元106、用户输入单元107、接口单元108、存储器109、以及处理器110等部件。
本领域技术人员可以理解,电子设备100还可以包括给各个部件供电的电源(比如电池),电源可以通过电源管理系统与处理器110逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图5中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,在此不再赘述。
其中,处理器110,用于对第一音频进行划分,得到N个时间段对应的子音频,一个时间段对应一个子音频,N为正整数;并在第一时间段对应的第一子音频存在异常语音中断的情况下,若确定第二时间段对应的第二子音频可用于补齐第一时间段对应的第一子音频,则基于第二子音频补齐第一子音频,以得到第一时间段对应的第三子音频;以及将第一时间段对应的第三子音频与N个时间段中的其他时间段对应的子音频进行组合,得到第二音频;其中,第一时间段为N个时间段中的至少一个时间段;第二时间段包括以下至少之一:第一时间段之前相邻的时间段,第一时间段之后相邻的时间段。
本申请实施例提供一种电子设备,由于电子设备可以将待发送的第一音频划分为N个时间段对应的子音频,然后检测N个时间段对应的子音频是否存在异常语音中断,以在检测到N个时间段中的第一时间段对应的第一子音频存在异常语音中断时,确定第二时间段对应的第二子音频是否可用于补齐该第一子音频,在第二子音频可用于补齐该第一子音频时,电子设备可以基于第二子音频补齐该第一子音频,以得到处理后的第一子音频,即第一时间段对应的第三子音频;然后电子设备可以将第三子音频与N个时间段中的其他时间段对应的子音频进行组合,以得到处理后的第一音频(即第二音频),从而电子设备可以发送完整的语音信息。
可选地,处理器110,还用于在对第一音频进行划分,得到N个时间段对应的子音频之后,获取N个时间段对应的子音频所对应的第一时域音频信号,一个时间段对应一个第一时域音频信号;并将获取的N个时间段对应的第一时域音频信号进行频域转换,以得到N个频域上的第一频域音频信号。
处理器110,具体用于若确定第二时间段对应的第一频域音频信号可用于补齐第一时间段对应的第一频域音频信号,则基于第二时间段对应的第一频域音频信号补齐第一时间段对应的第一频域音频信号,以得到第二频域音频信号。
可选地,处理器110,还用于针对第一时间段对应的每个频段,在一个频段对应的能量差值集合中的最小能量差值小于第一阈值的情况下,确定第二时间段对应的第一频域音频信号可用于补齐第一时间段在一个频段上对应的第一频域音频信号。
处理器110,具体用于基于第二时间段在第一频段组上对应的第一频域音频信号,补齐第一时间段在一个频段上对应的第一频域音频信号,以得到目标第一频域音频信号;第一频段组为最小能量差值对应的频段组;并将第一时间段在一个频段上对应的第一频域音频信号替换为目标第一频域音频信号,以得到第二频域音频信号;其中,能量差值集合中每个能量差值对应一组频段;能量差值集合中的一个能量差值为:第一时间段之前的X个时间段对应的第一频域音频信号在目标频段上的第一能量值,与第一时间段之后的X个时间段对应的第一频域音频信号在目标频段上的第二能量值间的差值,目标频段包括以下任一项:该一个频段、第一频段或第二频段;一个能量差值对应的频段组包括以下任两项:该一个频段、第一频段或第二频段,第一频段和第二频段为一个频段相邻的频段。
可选地,处理器110,还用于将N个时间段对应的频域音频信号进行时域转换,得到N个时域上的第二时域音频信号。
处理器110,具体用于按照N个时间段对应的时间顺序,将N个时域上的第二时域音频信号进行组合,得到第二音频。
可选地,处理器110,还用于在第一时间段对应的第一子音频存在异常语音中断的情况下,若确定第二时间段对应的第二子音频可用于补齐第一时间段对应的第一子音频,则基于第二子音频补齐第一子音频,以得到第一时间段对应的第三子音频之前,在第一子音频对应的音频时域能量参数满足第一条件的情况下,确定第一子音频包含语音信息;其中,音频时域能量参数包括:第一子音频的音频时域能量,第一子音频集合中的子音频的音频平均能量,N个时间段对应的子音频的音频时域能量中的最小音频时域能量,第一子音频集合中的子音频的音频时域能量中的最小音频时域能量;第一子音频集合包括:第一子音频,和与第一子音频相邻的M个子音频;第一条件包括:第一子音频的音频时域能量大于第一子音频集合中的子音频的音频平均能量;或者,第一子音频的音频时域能量大于N个时间段对应的子音频的音频时域能量中的最小音频时域能量、且大于第一子音频集合中的子音频的音频时域能量中的最小音频时域能量。
处理器110,具体用于在第一时间段对应的第一子音频包含语音信息、且第一子音频存在异常语音中断的情况下,若确定第二时间段对应的第二子音频可用于补齐第一子音频,则基于第二子音频补齐第一子音频,以得到第一时间段对应的第三子音频。
可选地,处理器110,还用于在对第一音频进行划分,得到N个时间段对应的子音频之后,在目标频带中的所有频段对应的第一变量的均值大于第二阈值,且目标频带中的所有频段对应的第二变量的均值小于第三阈值的情况下,确定第一时间段对应的第一子音频存在异常语音中断;其中,一个第一变量用于指示第一时间段对应的第一频域音频信号与第三时间段对应的第一频域音频信号在目标频带中的一个频段上的频谱差异性;一个第二变量用于指示第一时间段对应的第一频域音频信号与第三时间段对应的第一频域音频信号在目标频带中的一个频段上的频谱相似性;第三时间段包括:第一时间段之前的预定时长内的时间段,第一时间段之后的预定时长内的时间段。
本申请实施例提供的电子设备能够实现上述方法实施例实现的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本实施例中各种实现方式具有的有益效果具体可以参见上述方法实施例中相应实现方式所具有的有益效果,为避免重复,此处不再赘述。
应理解的是,本申请实施例中,输入单元104可以包括图形处理器(GraphicsProcessing Unit,GPU)1041和麦克风1042,图形处理器1041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元106可包括显示面板1061,可以采用液晶显示器、有机发光二极管等形式来配置显示面板1061。用户输入单元107包括触控面板1071以及其他输入设备1072中的至少一种。触控面板1071,也称为触摸屏。触控面板1071可包括触摸检测装置和触摸控制器两个部分。其他输入设备1072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。
存储器109可用于存储软件程序以及各种数据。存储器109可主要包括存储程序或指令的第一存储区和存储数据的第二存储区,其中,第一存储区可存储操作系统、至少一个功能所需的应用程序或指令(比如声音播放功能、图像播放功能等)等。此外,存储器109可以包括易失性存储器或非易失性存储器,或者,存储器109可以包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synch link DRAM,SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM,DRRAM)。本申请实施例中的存储器109包括但不限于这些和任意其它适合类型的存储器。
处理器110可包括一个或多个处理单元;可选的,处理器110集成应用处理器和调制解调处理器,其中,应用处理器主要处理涉及操作系统、用户界面和应用程序等的操作,调制解调处理器主要处理无线通信信号,如基带处理器。可以理解的是,上述调制解调处理器也可以不集成到处理器110中。
本申请实施例还提供一种可读存储介质,所述可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
其中,所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质,包括计算机可读存储介质,如计算机只读存储器ROM、随机存取存储器RAM、磁碟或者光盘等。
本申请实施例另提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现上述方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
应理解,本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。
本申请实施例提供一种计算机程序产品,该程序产品被存储在存储介质中,该程序产品被至少一个处理器执行以实现如上述方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。
Claims (14)
1.一种语音处理方法,其特征在于,所述方法包括:
对第一音频进行划分,得到N个时间段对应的子音频,一个时间段对应一个子音频,N为正整数;
在第一时间段对应的第一子音频存在异常语音中断的情况下,若确定第二时间段对应的第二子音频可用于补齐所述第一时间段对应的第一子音频,则基于所述第二子音频补齐所述第一子音频,以得到所述第一时间段对应的第三子音频;
将所述第一时间段对应的第三子音频与所述N个时间段中的其他时间段对应的子音频进行组合,得到第二音频;
其中,所述第一时间段为所述N个时间段中的至少一个时间段;
所述第二时间段包括以下至少之一:所述第一时间段之前相邻的时间段,所述第一时间段之后相邻的时间段。
2.根据权利要求1所述的方法,其特征在于,所述对第一音频进行划分,得到N个时间段对应的子音频之后,所述方法还包括:
获取所述N个时间段对应的子音频所对应的第一时域音频信号,一个时间段对应一个第一时域音频信号;
将所述N个时间段对应的第一时域音频信号进行频域转换,以得到N个频域上的第一频域音频信号;
所述若确定第二时间段对应的第二子音频可用于补齐所述第一时间段对应的第一子音频,则基于所述第二子音频补齐所述第一子音频,以得到所述第一时间段对应的第三子音频,包括:
若确定所述第二时间段对应的第一频域音频信号可用于补齐所述第一时间段对应的第一频域音频信号,则基于所述第二时间段对应的第一频域音频信号补齐所述第一时间段对应的第一频域音频信号,以得到第二频域音频信号。
3.根据权利要求2所述的方法,其特征在于,所述若确定所述第二时间段对应的第一频域音频信号可用于补齐所述第一时间段对应的第一频域音频信号,则基于所述第二时间段对应的第一频域音频信号补齐所述第一时间段对应的第一频域音频信号,以得到第二频域音频信号,包括:
针对所述第一时间段对应的每个频段,在一个频段对应的能量差值集合中的最小能量差值小于第一阈值的情况下,确定所述第二时间段对应的第一频域音频信号可用于补齐所述第一时间段在所述一个频段上对应的第一频域音频信号;
基于所述第二时间段在第一频段组上对应的第一频域音频信号,补齐所述第一时间段在所述一个频段上对应的第一频域音频信号,以得到目标第一频域音频信号;所述第一频段组为所述最小能量差值对应的频段组;
将所述第一时间段在所述一个频段上对应的第一频域音频信号替换为所述目标第一频域音频信号,以得到第二频域音频信号;
其中,所述能量差值集合中每个能量差值对应一组频段;
所述能量差值集合中的一个能量差值为:所述第一时间段之前的X个时间段对应的第一频域音频信号在目标频段上的第一能量值,与所述第一时间段之后的X个时间段对应的第一频域音频信号在所述目标频段上的第二能量值间的差值,所述目标频段包括以下任一项:所述一个频段、第一频段或第二频段;所述一个能量差值对应的频段组包括以下任两项:所述一个频段、所述第一频段或所述第二频段,所述第一频段和所述第二频段为所述一个频段相邻的频段。
4.根据权利要求2所述的方法,其特征在于,所述将所述第一时间段对应的第三子音频与所述N个时间段中的其他时间段对应的子音频进行组合,得到第二音频,包括:
将所述N个时间段对应的频域音频信号进行时域转换,得到N个时域上的第二时域音频信号;
按照所述N个时间段对应的时间顺序,将所述N个时域上的第二时域音频信号进行组合,得到第二音频。
5.根据权利要求1所述的方法,其特征在于,所述在第一时间段对应的第一子音频存在异常语音中断的情况下,若确定第二时间段对应的第二子音频可用于补齐所述第一时间段对应的第一子音频,则基于所述第二子音频补齐所述第一子音频,以得到所述第一时间段对应的第三子音频之前,所述方法还包括:
在所述第一子音频对应的音频时域能量参数满足第一条件的情况下,确定第一子音频包含语音信息;
其中,所述音频时域能量参数包括:所述第一子音频的音频时域能量,第一子音频集合中的子音频的音频平均能量,所述N个时间段对应的子音频的音频时域能量中的最小音频时域能量,所述第一子音频集合中的子音频的音频时域能量中的最小音频时域能量;
所述第一子音频集合包括:所述第一子音频,和与所述第一子音频相邻的M个子音频;
所述第一条件包括:所述第一子音频的音频时域能量大于所述第一子音频集合中的子音频的音频平均能量;或者,所述第一子音频的音频时域能量大于所述N个时间段对应的子音频的音频时域能量中的最小音频时域能量、且大于所述第一子音频集合中的子音频的音频时域能量中的最小音频时域能量;
所述在第一时间段对应的第一子音频存在异常语音中断的情况下,若确定第二时间段对应的第二子音频可用于补齐所述第一时间段对应的第一子音频,则基于所述第二子音频补齐所述第一子音频,以得到所述第一时间段对应的第三子音频,包括:
在所述第一时间段对应的第一子音频包含语音信息、且所述第一子音频存在异常语音中断的情况下,若确定所述第二时间段对应的第二子音频可用于补齐所述第一子音频,则基于所述第二子音频补齐所述第一子音频,以得到所述第一时间段对应的第三子音频。
6.根据权利要求1所述的方法,其特征在于,所述对第一音频进行划分,得到N个时间段对应的子音频之后,所述方法还包括:
在目标频带中的所有频段对应的第一变量的均值大于第二阈值,且所述目标频带中的所有频段对应的第二变量的均值小于第三阈值的情况下,确定所述第一时间段对应的第一子音频存在异常语音中断;
其中,一个第一变量用于指示所述第一时间段对应的第一频域音频信号与第三时间段对应的第一频域音频信号在所述目标频带中的一个频段上的频谱差异性;
一个第二变量用于指示所述第一时间段对应的第一频域音频信号与所述第三时间段对应的第一频域音频信号在所述目标频带中的一个频段上的频谱相似性;
所述第三时间段包括:所述第一时间段之前的预定时长内的时间段,所述第一时间段之后的所述预定时长内的时间段。
7.一种语音处理装置,其特征在于,所述语音处理装置包括:处理模块和组合模块;
所述处理模块,用于对第一音频进行划分,得到N个时间段对应的子音频,一个时间段对应一个子音频,N为正整数;并在第一时间段对应的第一子音频存在异常语音中断的情况下,若确定第二时间段对应的第二子音频可用于补齐所述第一时间段对应的第一子音频,则基于所述第二子音频补齐所述第一子音频,以得到所述第一时间段对应的第三子音频;
所述组合模块,用于将所述第一时间段对应的第三子音频与所述N个时间段中的其他时间段对应的子音频进行组合,得到第二音频;
其中,所述第一时间段为所述N个时间段中的至少一个时间段;
所述第二时间段包括以下至少之一:所述第一时间段之前相邻的时间段,所述第一时间段之后相邻的时间段。
8.根据权利要求7所述的装置,其特征在于,所述语音处理装置还包括:获取模块和转换模块;
所述获取模块,用于在所述处理模块对第一音频进行划分,得到N个时间段对应的子音频之后,获取所述N个时间段对应的子音频所对应的第一时域音频信号,一个时间段对应一个第一时域音频信号;
所述转换模块,用于将所述获取模块获取的所述N个时间段对应的第一时域音频信号进行频域转换,以得到N个频域上的第一频域音频信号;
所述处理模块,具体用于若确定所述第二时间段对应的第一频域音频信号可用于补齐所述第一时间段对应的第一频域音频信号,则基于所述第二时间段对应的第一频域音频信号补齐所述第一时间段对应的第一频域音频信号,以得到第二频域音频信号。
9.根据权利要求8所述的装置,其特征在于,所述语音处理装置还包括:确定模块;
所述确定模块,用于针对所述第一时间段对应的每个频段,在一个频段对应的能量差值集合中的最小能量差值小于第一阈值的情况下,确定所述第二时间段对应的第一频域音频信号可用于补齐所述第一时间段在所述一个频段上对应的第一频域音频信号;
所述处理模块,具体用于基于所述第二时间段在第一频段组上对应的第一频域音频信号,补齐所述第一时间段在所述一个频段上对应的第一频域音频信号,以得到目标第一频域音频信号;所述第一频段组为所述最小能量差值对应的频段组;并将所述第一时间段在所述一个频段上对应的第一频域音频信号替换为所述目标第一频域音频信号,以得到第二频域音频信号;
其中,所述能量差值集合中每个能量差值对应一组频段;
所述能量差值集合中的一个能量差值为:所述第一时间段之前的X个时间段对应的第一频域音频信号在目标频段上的第一能量值,与所述第一时间段之后的X个时间段对应的第一频域音频信号在所述目标频段上的第二能量值间的差值,所述目标频段包括以下任一项:所述一个频段、第一频段或第二频段;所述一个能量差值对应的频段组包括以下任两项:所述一个频段、所述第一频段或所述第二频段,所述第一频段和所述第二频段为所述一个频段相邻的频段。
10.根据权利要求8所述的装置,其特征在于,
所述转换模块,还用于将所述N个时间段对应的频域音频信号进行时域转换,得到N个时域上的第二时域音频信号;
所述组合模块,具体用于按照所述N个时间段对应的时间顺序,将所述N个时域上的第二时域音频信号进行组合,得到第二音频。
11.根据权利要求7所述的装置,其特征在于,所述语音处理装置还包括:确定模块;
所述确定模块,用于在所述处理模块在第一时间段对应的第一子音频存在异常语音中断的情况下,若确定第二时间段对应的第二子音频可用于补齐所述第一时间段对应的第一子音频,则基于所述第二子音频补齐所述第一子音频,以得到所述第一时间段对应的第三子音频之前,在所述第一子音频对应的音频时域能量参数满足第一条件的情况下,确定第一子音频包含语音信息;
其中,所述音频时域能量参数包括:所述第一子音频的音频时域能量,第一子音频集合中的子音频的音频平均能量,所述N个时间段对应的子音频的音频时域能量中的最小音频时域能量,所述第一子音频集合中的子音频的音频时域能量中的最小音频时域能量;
所述第一子音频集合包括:所述第一子音频,和与所述第一子音频相邻的M个子音频;
所述第一条件包括:所述第一子音频的音频时域能量大于所述第一子音频集合中的子音频的音频平均能量;或者,所述第一子音频的音频时域能量大于所述N个时间段对应的子音频的音频时域能量中的最小音频时域能量、且大于所述第一子音频集合中的子音频的音频时域能量中的最小音频时域能量;
所述处理模块,具体用于在所述第一时间段对应的第一子音频包含语音信息、且所述第一子音频存在异常语音中断的情况下,若确定所述第二时间段对应的第二子音频可用于补齐所述第一子音频,则基于所述第二子音频补齐所述第一子音频,以得到所述第一时间段对应的第三子音频。
12.根据权利要求7所述的装置,其特征在于,所述语音处理装置还包括:确定模块;
所述确定模块,用于在所述处理模块对第一音频进行划分,得到N个时间段对应的子音频之后,在目标频带中的所有频段对应的第一变量的均值大于第二阈值,且所述目标频带中的所有频段对应的第二变量的均值小于第三阈值的情况下,确定所述第一时间段对应的第一子音频存在异常语音中断;
其中,一个第一变量用于指示所述第一时间段对应的第一频域音频信号与第三时间段对应的第一频域音频信号在所述目标频带中的一个频段上的频谱差异性;
一个第二变量用于指示所述第一时间段对应的第一频域音频信号与所述第三时间段对应的第一频域音频信号在所述目标频带中的一个频段上的频谱相似性;
所述第三时间段包括:所述第一时间段之前的预定时长内的时间段,所述第一时间段之后的所述预定时长内的时间段。
13.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1-6中任一项所述的语音处理方法的步骤。
14.一种可读存储介质,其特征在于,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1-6中任一项所述的语音处理方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211408262.2A CN115798506A (zh) | 2022-11-10 | 2022-11-10 | 语音处理方法、装置、电子设备及存储介质 |
PCT/CN2023/128701 WO2024099194A1 (zh) | 2022-11-10 | 2023-10-31 | 语音处理方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211408262.2A CN115798506A (zh) | 2022-11-10 | 2022-11-10 | 语音处理方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115798506A true CN115798506A (zh) | 2023-03-14 |
Family
ID=85436759
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211408262.2A Pending CN115798506A (zh) | 2022-11-10 | 2022-11-10 | 语音处理方法、装置、电子设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN115798506A (zh) |
WO (1) | WO2024099194A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024099194A1 (zh) * | 2022-11-10 | 2024-05-16 | 维沃移动通信有限公司 | 语音处理方法、装置、电子设备及存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1244094A1 (de) * | 2001-03-20 | 2002-09-25 | Swissqual AG | Verfahren und Vorrichtung zur Bestimmung eines Qualitätsmasses eines Audiosignals |
CN105206260B (zh) * | 2015-08-31 | 2016-09-28 | 努比亚技术有限公司 | 一种终端语音播报方法、装置及终端语音操作方法 |
CN110619873A (zh) * | 2019-08-16 | 2019-12-27 | 北京小米移动软件有限公司 | 音频处理方法、装置及存储介质 |
CN112714058B (zh) * | 2020-12-21 | 2023-05-12 | 浙江百应科技有限公司 | 一种即时打断ai语音的方法、系统及电子设备 |
CN115273822A (zh) * | 2022-07-29 | 2022-11-01 | 维沃移动通信有限公司 | 音频处理方法、装置、电子设备及介质 |
CN115798506A (zh) * | 2022-11-10 | 2023-03-14 | 维沃移动通信有限公司 | 语音处理方法、装置、电子设备及存储介质 |
-
2022
- 2022-11-10 CN CN202211408262.2A patent/CN115798506A/zh active Pending
-
2023
- 2023-10-31 WO PCT/CN2023/128701 patent/WO2024099194A1/zh unknown
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024099194A1 (zh) * | 2022-11-10 | 2024-05-16 | 维沃移动通信有限公司 | 语音处理方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2024099194A1 (zh) | 2024-05-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108076226B (zh) | 一种通话质量调整的方法、移动终端及存储介质 | |
CN110827843B (zh) | 音频处理方法、装置、存储介质及电子设备 | |
CN108810860B (zh) | 一种音频传输方法、终端设备及主耳机 | |
WO2024099194A1 (zh) | 语音处理方法、装置、电子设备及存储介质 | |
CN111343344B (zh) | 语音异常检测方法、装置、存储介质及电子设备 | |
CN110992963A (zh) | 网络通话方法、装置、计算机设备及存储介质 | |
CN103929692B (zh) | 一种音频信息处理方法及电子设备 | |
CN111462764B (zh) | 音频编码方法、装置、计算机可读存储介质及设备 | |
EP2696338B1 (en) | Terminal and method for generating live image | |
CN106921802B (zh) | 音频数据的播放方法及装置 | |
CN106128470A (zh) | 显示音频频谱的装置及方法 | |
CN109766705B (zh) | 一种基于电路的数据验证方法、装置及电子设备 | |
US20240099664A1 (en) | Signal processing method and apparatus, and electronic device | |
CN111081283A (zh) | 一种音乐播放方法、装置、存储介质及终端设备 | |
CN112969130A (zh) | 音频信号处理方法、装置和电子设备 | |
AU2013222959A1 (en) | Method and apparatus for processing information of image including a face | |
CN114666433A (zh) | 一种终端设备中啸叫处理方法及装置、终端 | |
CN113766385B (zh) | 耳机降噪方法及装置 | |
CN113129922B (zh) | 语音信号的处理方法和装置 | |
CN115150494A (zh) | 音频录制方法及装置、电子设备和可读存储介质 | |
CN115295024A (zh) | 信号处理方法、装置、电子设备及介质 | |
CN115474229A (zh) | 一种无线网络的质量确定方法、装置、电子设备及存储介质 | |
CN110753391B (zh) | 一种信息的传输方法、装置及电子设备 | |
CN113192519A (zh) | 音频编码方法和装置以及音频解码方法和装置 | |
CN113395539B (zh) | 音频降噪方法、装置、计算机可读介质和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |