CN114582362A - 一种处理方法和处理装置 - Google Patents
一种处理方法和处理装置 Download PDFInfo
- Publication number
- CN114582362A CN114582362A CN202210189603.5A CN202210189603A CN114582362A CN 114582362 A CN114582362 A CN 114582362A CN 202210189603 A CN202210189603 A CN 202210189603A CN 114582362 A CN114582362 A CN 114582362A
- Authority
- CN
- China
- Prior art keywords
- text
- audio
- similarity
- processing
- condition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 96
- 238000003672 processing method Methods 0.000 title abstract description 18
- 238000000034 method Methods 0.000 claims abstract description 52
- 230000008569 process Effects 0.000 claims abstract description 28
- 230000004044 response Effects 0.000 claims abstract description 13
- 230000009467 reduction Effects 0.000 claims description 25
- 238000007906 compression Methods 0.000 claims description 14
- 230000006835 compression Effects 0.000 claims description 13
- 230000005856 abnormality Effects 0.000 claims description 12
- 230000008447 perception Effects 0.000 claims description 3
- 230000002159 abnormal effect Effects 0.000 description 39
- 238000004891 communication Methods 0.000 description 19
- 238000006243 chemical reaction Methods 0.000 description 9
- 230000000977 initiatory effect Effects 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 239000003999 initiator Substances 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 101000643374 Homo sapiens Serrate RNA effector molecule homolog Proteins 0.000 description 2
- 102100035712 Serrate RNA effector molecule homolog Human genes 0.000 description 2
- 101150088657 asR3 gene Proteins 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 238000011946 reduction process Methods 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000013024 troubleshooting Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0324—Details of processing therefor
- G10L21/034—Automatic adjustment
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
Landscapes
- Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Quality & Reliability (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本申请公开一种处理方法和处理装置,响应于获取到由第一音频转换的第一文本和第二音频(通过对第一音频进行目标处理得到)转换的第二文本,对第一文本和第二文本进行对比处理,并根据第一文本和第二文本的对比结果,确定是否对第一音频执行第一操作和/或发出第一提示,本申请通过上述的文本对比处理,能有效确定对第一音频进行目标处理过程中的音质损失问题以及问题的所在环节,并通过对第一音频执行第一操作和/或发出第一提示,来进行对应问题处理。
Description
技术领域
本申请属于音频处理技术领域,尤其涉及一种处理方法和处理装置。
背景技术
音频处理过程常常存在音质损失问题,如何确定问题以及问题的所在环节以进行对应问题处理,成为本领域亟需解决的技术问题。
发明内容
为此,本申请公开如下技术方案:
一种处理方法,包括:
响应于获取到由第一音频转换的第一文本和第二音频转换的第二文本,对所述第一文本和所述第二文本进行对比处理;
根据所述第一文本和所述第二文本的对比结果,确定是否对所述第一音频执行第一操作和/或发出第一提示;
其中,所述第二音频由对所述第一音频进行目标处理得到。
可选的,所述对所述第一文本和所述第二文本进行对比处理,包括:
确定所述第一文本和所述第二文本的文本内容相似度。
可选的,所述第一文本、所述第二文本分别对应相应的时间戳,所述时间戳为基于音频字节流的位置标定的时间戳;
其中,通过将所述第一文本和所述第二文本的文本内容按时间戳对齐,并基于按时间戳对齐的文本内容,确定所述第一文本和所述第二文本的文本内容相似度。
可选的,所述第一操作包括:撤销所述目标处理的操作或优化所述目标处理的操作;
所述根据所述第一文本和所述第二文本的对比结果,确定是否对所述第一音频执行第一操作,包括:
若所述文本内容相似度不满足对应的相似度条件,则撤销或优化对所述第一音频的目标处理。
可选的,所述第一提示包括以下的一种或多种:音频异常提示、对应可选操作提示和异常原因提示;
所述根据所述第一文本和所述第二文本的对比结果,确定是否发出第一提示,包括:
若所述文本内容相似度不满足对应的相似度条件,则根据对应情况对音频异常和/或异常原因和/或对应可选操作进行提示。
可选的,所述方法,还包括:
响应于所述第一文本和所述第二文本的文本内容相似度满足对应的相似度条件,在第一音频的发出端未接收到通话对端语音音频情况下向所述第一音频的发出端所收听音频中插入满足预设感知条件的目标噪声。
可选的,所述目标处理包括以下的一种或多种:传播、压缩、增益和降噪。
可选的,所述第一音频和所述第二音频包括以下的一种或多种:
通话音频、录音音频、广播音频和会议音频。
可选的,当所述第一音频和所述第二音频为通话音频时,所述第一音频相较所述第二音频在传播路径上更靠近音频输入端。
一种处理装置,包括:
对比模块,用于响应于获取到由第一音频转换的第一文本和第二音频转换的第二文本,对所述第一文本和所述第二文本进行对比处理;
确定模块,用于根据所述第一文本和所述第二文本的对比结果,确定是否对所述第一音频执行第一操作和/或发出第一提示;
其中,所述第二音频由对所述第一音频进行目标处理得到。
本申请实施例还公开一种电子设备,包括:
存储器,用于存放计算机指令集;
计算机指令集可以通过计算机程序的形式实现。
处理器,用于通过执行计算机指令集,实现如上文任一项公开的处理方法。
由以上方案可知,本申请公开的处理方法和处理装置,响应于获取到由第一音频转换的第一文本和第二音频(通过对第一音频进行目标处理得到)转换的第二文本,对第一文本和第二文本进行对比处理,并根据第一文本和第二文本的对比结果,确定是否对第一音频执行第一操作和/或发出第一提示,本申请通过上述的文本对比处理,能有效确定对第一音频进行目标处理过程中的音质损失问题以及问题的所在环节,并通过对第一音频执行第一操作和/或发出第一提示,来进行对应问题处理。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1是本申请提供的处理方法的一种流程示意图;
图2是本申请提供的处理方法的另一种流程示意图;
图3是本申请提供的处理方法的又一种流程示意图;
图4是本申请提供的双端通话应用中对通话音频的处理过程示意图;
图5是本申请提供的处理装置的组成结构图;
图6是本申请提供的电子设备的组成结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请公开一种处理方法和处理装置,适用于任意对音频的多节点处理场景,用于改善对音频的多节点处理场景中音频的音质损失问题和/或帮助用户自动识别音质损失原因、方便异常排查。该处理方法可应用于电子设备中,应用该处理方法的电子设备可以是一个独立的设备,如录音笔、会议录音仪、音频播放设备等,或者,应用该处理方法的电子设备还可以是协同参与音频处理的多个设备,如,语音通话/会议通话等场景中的通话双方设备等,对此不作限制。
参见图1示出的处理方法流程图,本申请实施例提供的处理方法至少包括如下处理流程:
步骤101、响应于获取到由第一音频转换的第一文本和第二音频转换的第二文本,对第一文本和第二文本进行对比处理。
第一音频可以是但不限于通话音频、录音音频、广播音频和会议音频中的任意一种或多种,第二音频由对第一音频进行目标处理得到。
目标处理可以是从音频采集、传输到音频保存、播放,甚至到二次采集、二次播放等的音频流转路径中任一路径节点所涉及的处理,包括但不限于对音频的传播、压缩、增益和降噪等处理中的任一种或多种。
这里的二次采集,是指对采集/接收的音频进行播放并采集播放的音频,相应的,二次播放是指对通过二次采集得到的音频进行播放。
本申请实施例中,根据实际需求,选取音频在其流转路径上的不同目标路径节点:第一目标路径节点、第二目标路径节点,并在音频流转过程中,获取每一目标路径节点处的音频,以及对音频进行文本转换处理,得到对应的文本信息。选取的两个目标路径节点可以是音频流转路径上任意不同的节点,视实际需求而定。
其中,第二目标路径节点对应的时间晚于第一目标路径节点对应的时间,通过获取第一目标路径节点处的音频得到第一音频,并基于ASR(Automatic SpeechRecognition,自动语音识别)等技术对第一音频进行文本转换处理,得到对应的第一文本,相应的,通过获取第二目标路径节点处的音频得到第二音频,并对第二音频进行基于ASR等的文本转换处理,得到第二文本。
例如,针对录音应用场景,在会议录音仪采集原始音频,经过对原始音频进行降噪,进而保存降噪后音频的过程中,获取会议录音仪采集的原始音频作为第一音频,获取降噪后的音频作为第二音频,并分别对第一音频、第二音频基于ASR处理得到对应的第一文本、第二文本;或者,针对通话应用场景,获取音频发起方设备采集的音频发起方语音作为第一音频,获取经通信信道传输至通信对端的音频作为第二音频,并分别对第一音频、第二音频基于ASR处理得到对应的第一文本、第二文本等。
响应于获取到由第一音频转换的第一文本和第二音频转换的第二文本,对第一文本和第二文本进行对比处理。
具体的,本实施例确定第一文本和第二文本的文本内容相似度,通过确定两文本的相似度,实现对两者的对比处理。第一文本、第二文本分别对应相应的时间戳,通过将第一文本和第二文本的文本内容按时间戳对齐,并基于按时间戳对齐的文本内容,确定第一文本和第二文本的文本内容相似度。
可选的,在对第一音频或第二音频进行语音识别的过程中,或完成语音识别得到第一文本、第二文本之后,通过为第一文本和第二文本的各文本内容分别进行时间戳标定,得到第一文本和第二文本的各文本内容的时间戳,该时间戳不是自然时间,而是以音频字节流的位置标定的时间戳。
在确定第一文本和第二文本的相似度时,首先按时间戳将第一文本和第二文本的文本内容进行对齐,之后对第一文本和第二文本中按时间戳对齐的内容进行比对,确定出第一文本和第二文本的文本内容相似度。
步骤102、根据第一文本和第二文本的对比结果,确定是否对第一音频执行第一操作和/或发出第一提示。
其中,第一操作包括:撤销对第一音频的目标处理的操作或优化目标处理的操作。相应的,根据第一文本和第二文本的对比结果,确定是否对第一音频执行第一操作,可进一步实现为:
11)确定第一文本和第二文本的文本内容相似度是否满足对应的相似度条件。
这里的相似度条件,可以但不限于为预先设置的表征相似度较高的一相似度阈值,或相似度取值范围/区间。
相应的,第一文本和第二文本的文本内容相似度满足对应的相似度条件,可以但不限于是指,第一文本和第二文本的文本内容相似度达到设定的相似度阈值,或者,处于设定的相似度取值范围/区间。
12)若未满足,撤销或优化对第一音频的目标处理。
如果第一文本和第二文本的文本内容相似度未满足对应的相似度条件,表征第一文本和第二文本的文本内容相似程度较低,相应表征在对第一音频进行目标处理得到第二音频的过程中,对第一音频的目标处理导致第二音频相比于第一音频,存在音频内容方面的音质损失(音频质量损失),且损失程度超过基于设置的相似度条件定义的允许损失程度。
基于此,响应于第一文本和第二文本的文本内容相似度未满足对应的相似度条件这一判定结果,在一实施方式中,撤销对第一音频的目标处理,通过撤销对第一音频的目标处理,避免音频内容的严重损坏/失真。
例如,在采集原始音频,经过对原始音频进行降噪进而保存降噪后音频的过程中,或者对音频的音频流进行降噪优化并实时播放降噪后音频流的过程中,基于监测到降噪前后音频的文本内容相似度未满足对应配置的相似度条件,撤销对音频的降噪处理,直接保存采集的原始音频,或直接播放未降噪的音频,以避免降噪过程对音频内容带来超出允许程度的损失/失真。
但不限于此,在其他实施方式中,响应于第一文本和第二文本的文本内容相似度未满足相似度条件这一判定结果,还可以优化对第一音频的目标处理,通过优化对第一音频的目标处理,改善得到的第二音频的音频质量,避免音频内容的严重损坏/失真。
承接上述示例,基于监测到降噪前后音频的文本内容相似度未满足对应配置的相似度条件,可以但不限于通过优化降噪滤波器的滤波器参数来改善得到的第二音频的音频质量。或者,在对音频的压缩处理中,基于监测到压缩前后音频的文本内容相似度未满足对应配置的相似度条件,通过优化压缩处理的采样率、量化精度、压缩比、码率等参数,如提升采样率、降低压缩比等,来改善压缩后的音频的质量。
第一提示包括但不限于以下的一种或多种:音频异常提示、对应可选操作提示和异常原因提示。
相应的,根据第一文本和第二文本的对比结果,确定是否对第一音频发出第一提示,可进一步实现为:
21)确定第一文本和第二文本的文本内容相似度是否满足对应的相似度条件。
相类似,这里的相似度条件,同样可以但不限于为预先设置的表征相似度较高的一相似度阈值,或相似度取值范围/区间。第一文本和第二文本的文本内容相似度满足对应的相似度条件,可以但不限于是指,第一文本和第二文本的文本内容相似度达到设定的相似度阈值,或者,处于设定的相似度取值范围/区间。
这里的相似度条件与步骤11)中的相似度条件可以相同或不同,对此不做限制。
22)若未满足,根据对应情况对音频异常和/或异常原因和/或对应可选操作进行提示。
如果第一文本和第二文本的文本内容相似度未满足对应的相似度条件,相应表征对第一音频的目标处理导致第二音频相比于第一音频,存在音频内容方面的音质损失(音频质量损失),且损失程度超过基于对应的相似度条件定义的允许损失程度,针对该情况,该实施方式对第一音频发出第一提示,包括但不限于对音频异常事件的提示、异常原因的提示和对应可选操作的提示中的任意一种或多种。
可选的,对应可选操作与异常原因对应。通过提示与异常原因对应的可选操作,使用户通过按提示信息执行对应操作,来克服音频处理中的异常或至少降低异常程度,进而改善对第一音频进行目标处理所得的第二音频的质量。
由以上方案可知,本申请公开的处理方法,响应于获取到由第一音频转换的第一文本和第二音频(通过对第一音频进行目标处理得到)转换的第二文本,对第一文本和第二文本进行对比处理,并根据第一文本和第二文本的对比结果,确定是否对第一音频执行第一操作和/或发出第一提示,本申请通过上述的文本对比处理,能有效确定对第一音频进行目标处理过程中的音质损失问题以及问题的所在环节,并通过对第一音频执行第一操作和/或发出第一提示,来进行对应问题处理。
可选的,在一实施例中,第一音频和第二音频为通话音频,如语音通话、会议通话等场景中的通话音频,且第一音频和第二音频分别为同一通话语音在通话路径上不同传播节点的音频。
该实施例中,参见图2提供的处理方法,本申请的处理方法具体可实现为:
步骤201、获得由同一通话语音在通话路径上不同传播节点的音频转换的文本,分别作为第一文本和第二文本。
其中,第一音频相较第二音频在通话路径(通话的传播路径)上更靠近音频输入端。
该实施例中,通话双方设备分别为第一电子设备、第二电子设备,且第一电子设备为当前的语音音频发起方。相应的,具体可以但不限于通过执行以下处理中的任意一种或多种,来获取第一文本和第二文本:
31)获取由第一电子设备当前发起的语音音频转换的发起端文本作为第一文本,以及获取由第二电子设备接收的语音音频转换的接收端第一子文本作为第二文本;
32)获取由第一电子设备当前发起的语音音频转换的发起端文本作为第一文本,以及获取由第二电子设备通过播放接收的语音音频并采集播放的音频,及对采集的音频进行文本转换所得的接收端第二子文本作为第二文本;
33)获取由第二电子设备接收的语音音频转换的接收端第一子文本作为第一文本,以及获取由第二电子设备通过播放接收的语音音频并采集播放的音频,及对采集的音频进行文本转换所得的接收端第二子文本作为第二文本。
步骤202、确定第一文本和第二文本的文本内容相似度。
其中,第一文本、第二文本分别对应相应的时间戳,且第一文本、第二文本对应的时间戳为基于音频字节流的位置标定的时间戳。
实施中,可首先将第一文本和第二文本的文本内容按时间戳对齐,并在对齐后,基于按时间戳对齐的文本内容,确定第一文本和第二文本的文本内容相似度。
针对第一文本、第二文本的上述几种情况,具体可基于时间戳对齐方式,通过执行如下处理中的相应一种或多种,确定第一文本和第二文本的文本内容相似度:
41)确定发起端文本和接收端第一子文本的第一文本内容相似度;
42)确定发起端文本和接收端第二子文本的第二文本内容相似度;
43)确定接收端第一子文本和接收端第二子文本的第三文本内容相似度。
步骤203、确定第一文本和第二文本的文本内容相似度是否满足对应的相似度条件。
之后,进一步确定第一文本和第二文本的文本内容相似度是否满足对应的相似度条件。
例如,确定第一文本和第二文本的文本内容相似度是否达到设定的相似度阈值,或是否处于设定的相似度范围/区间,若达到设定的相似度阈值,或处于设定的相似度范围/区间,则第一文本和第二文本的文本内容相似度满足对应的相似度条件,否则,则不满足。
实施中,针对41)-43)的第一文本内容相似度、第二文本内容相似度、第三文本内容相似度中的一种或多种,可通过设置对应的一种或多种相似度条件(相似度阈值/相似度范围),来分别对第一文本内容相似度、第二文本内容相似度和/或第三文本内容相似度进行是否满足相似度条件的判定,且在设置多种相似度条件的情况下,设置的多种相似度条件可以相同或不同,对此不作限制。
步骤204,若未满足,在作为通话双方的第一电子设备和/或第二电子设备发出第一提示,和/或,在第二电子设备执行第一操作。
可选的,可确定上述第一文本内容相似度、第二文本内容相似度和第三文本内容相似度中的至少一种是否未满足对应的相似度条件,若是,则认为第一文本和第二文本的文本内容未满足相似度条件,针对该情况,在第一电子设备和/或第二电子设备发出第一提示,和/或,在第二电子设备执行第一操作。
在第一电子设备和/或第二电子设备发出第一提示,可进一步实现为:在第一电子设备和/或第二电子设备提示语音音频收听异常的异常事件、异常原因及收听异常时对应的语音辨识度中的至少一种;
其中,如果第一文本内容相似度未满足对应的相似度条件,则异常原因与通信信道的质量相关,如通信信道的通信质量异常等;如果第三文本内容相似度未满足对应的相似度条件,或接收端第二子文本的文本内容为空,确定异常原因与第二电子设备端的语音收听环境相关。
第二电子设备端的语音收听环境,可以是但不限于第二电子设备的硬件环境或周边环境,如,第二电子设备自身的speaker/mic未打开,或损坏、或音量过小,或第二电子设备有噪声干扰等等。
收听异常时对应的语音辨识度由第一文本和第二文本的文本内容相似度决定,具体的,可根据发起端文本和接收端第一子文本的第一文本内容相似度确定收听异常时对应的语音辨识度语音,或者,根据发起端文本和接收端第二子文本的第二文本内容相似度确定收听异常时对应的语音辨识度语音,或者,根据确定发起端文本和接收端第一子文本的第一文本内容相似度以及接收端第一子文本和接收端第二子文本的第三文本内容相似度,确定收听异常时对应的语音辨识度语音等等,对此不作限制。
传统技术中,在会议等远程通话中,人们为了获知自己的说话语音是否被对方听到,常常需要通过人工询问方式加以确定,例如说话人询问对方:“你能听到我的声音吗?清楚吗?”,而收听方在未听到对方语音时也经常不确定是对方未说话还是通话出现问题,通话双方只能通过人工方式依靠相互间的语言沟通进行确认,影响了语音通信的服务质量,同时导致较差的用户体验。
本实施例通过对通话路径上不同传播节点的音频文本比对、基于文本差异自动对通话音频进行收听异常检测与原因分析,实现了对通话过程中通话状态的持续跟踪,并通过在音频收听异常时自动给出收听异常及根因等相关异常提示,解决了传统技术的上述问题,无需通话双方通过人工交谈进行通话状态的确定,且便于通话双方进行收听异常的排查。
在一实施例中,参见图3提供的处理方法流程图,图2所对应实施例的处理方法在步骤204之后,还可以包括:
步骤205、响应于第一文本和第二文本的文本内容相似度满足对应的相似度条件,在第一音频的发出端未接收到通话对端语音音频情况下向所述第一音频的发出端所收听音频中插入满足预设感知条件的目标噪声。
本实施例同样针对通话应用的场景,该场景中,如果第一文本和第二文本的文本内容相似度满足对应的相似度条件,如两者的相似度达到设定的相似度阈值,或处于设定的相似度范围,则表明第一电子设备端发出的音频在第二电子设备端的音频收听无异常,该情况下,在第一电子设备向第二电子设备发出音频且第一电子设备未收到第二电子设备音频的情况下,也即,第一音频的发出端未接收到通话对端语音音频情况下(如,双方通话中,第一电子设备用户向对方说话但第二电子设备用户未说话的单用户说话场景),向第一音频的发出端所收听音频(即第一电子设备所收听音频)中插入满足预设感知条件的目标噪声,可选的,该满足预设感知条件的目标噪声为舒适噪声,如粉红噪声,以使第一电子设备的用户在说话过程中除了自身声音还感知到有一定的舒适噪声,而不是完全安静无声音的状态。
本实施例通过在双端通话中音频收听无异常,且第一电子设备用户向对方说话但第二电子设备用户未说话的单用户说话场景中,向音频发出端即第一电子设备所收听音频中插入满足预设感知条件的目标噪声,例如粉红噪声,可避免该单用户说话场景中音频发出端用户因对端过度安静而误以为对方收听不到,或误以为对方已挂断电话。
以下结合一示例详细说明第一音频、第二音频为通话音频的处理过程。
参见图4的示例,该示例为一个典型的双端通话系统,通话双方分别为Endpoint A和Endpoint B,Endpoint A为当前的语音发起方。在一端说话时,另一端会从speaker外放声音,并在其mic端录入,再经过AEC(回声消除)去掉属于回声的部分。本示例在双端的三个位置音频经过点进行ASR(自动语音识别)以得到其音频转换的文本以及时间戳,该时间戳不是自然时间,而是以音频字节流的位置标定的时间戳。
结合参见图4,该示例中,基于本申请方法对通话中的语音音频进行质量判定及提示等处理的实现过程包括:
51)Endpoint A音频进入MIC时,对音频进行ASR处理(ASR1),得到对应的文本ASRText1,对文本进行时间戳标定,并将文本ASRText1和时间戳记录在本地;
其中,对Endpoint A进入MIC的音频的ASR处理,可以是在对音频的回声消除之前或之后,对此不作限制,优选的,在对Endpoint A进入MIC的音频进行回声消除之后,对音频进行ASR处理。
52)音频经通信信道到达Endpoint B后,在通过speaker播放之前对Endpoint B接收的音频进行ASR处理(即ASR2)及时间戳标定,并在Endpoint B端记录对应的文本ASRText2和时间戳;
53)音频在Endpoint B外放后进入Endpoint B的MIC,在进入Endpoint B的MIC之后,对进入Endpoint B的MIC的音频进行ASR处理(即ASR3)及时间戳标定,并在Endpoint B端记录对应的文本ASRText3和时间戳;
优选的,在音频进入Endpoint B的MIC之后,且对音频进行回声消除之前,对音频进行ASR处理。
54)Endpoint B将基于ASR2、ASR3得到的文本ASRText2、ASRText3及各自对应的时间戳发回Endpoint A;
55)Endpoint A接收Endpoint B发回的文本ASRText2、ASRText3及其时间戳,并基于经三次ASR处理得到的文本及对应的时间戳,分析、评估Endpoint A的音频在Endpoint B的收听质量,并在收听异常时,在第一电子设备和/或第二电子设备发出第一提示,和/或,在第二电子设备执行第一操作。
可选的,Endpoint A端设置一个音频质量监控器(VoiceQualityMonitor),通过设置的音频质量监控器实时分析基于三次ASR得到的三个文本以及对应的时间戳,以评估Endpoint A的音频在Endpoint B端的收听质量,并在收听异常时,在第一电子设备和/或第二电子设备发出第一提示,和/或,在第二电子设备执行第一操作,具体如下:
a)基于时间戳对齐三个ASR文本ASRText1、ASRText2和ASRText3;
b)使用WER(Word Error Rate,字错误率)等标准算法来为基于ASR处理得到的三个文本ASRText1、ASRText2和ASRText3进行相似程度打分,得到每两个文本之间的相似度分值;
c)基于ASRText1、ASRText2和ASRText3中相应文本的相似度分值,确定音频的收听质量并在收听异常时进行异常原因分析。具体如下:
如果3个ASRText的文本相似度均达到对应的相似度阈值,则表明Endpoint A的音频在Endpoint B端的收听质量良好、音频收听无异常;
如果ASRText1与ASRText2达到对应的相似度阈值,则认为Endpoint A与EndpointB之间的通信信道质量良好,否则,若未达到对应的相似度阈值,则收听异常,异常原因为Endpoint A与Endpoint B之间的通信信道质量问题;
如果ASRText2与ASRText3未达到对应的相似度阈值,则收听异常,异常原因为Endpoint B的mic采集质量不好或有说话/噪声等干扰;
如果ASRText2有内容,但ASRText3没有内容即内容为空,则收听异常,异常原因为Endpoint B的MIC未打开,或mic输入源选择错误,或音频采集有严重问题(比如,mic硬件损坏、驱动损坏、软件故障等),或speaker音量过低/speaker损坏。
经评估与分析,若Endpoint A的音频在Endpoint B端的收听异常,则在EndpointA和/或Endpoint B端,提示收听异常事件、异常原因(如信道质量问题或噪声干扰,或Endpoint B的MIC未打开等)、对应可选择操作及收听异常时的语音辨识度中的至少一种,或者在对应电子设备执行相应的第一操作以改善音频的收听质量。可选的,可以但不限于通过提示音、图片和/或文字等方式进行信息提示,以帮助双端用户排查异常原因。
其中,上述的“可选择操作”与音频收听异常的异常原因相关,例如,若经分析,异常原因为Endpoint B的MIC未打开,或音频采集有严重问题,则提示的可选择操作可以为:请打开Endpoint B的MIC,或请检测Endpoint B的MIC是否存在硬件损坏、驱动损坏、软件故障等等。
在对应的电子设备执行的第一操作同样与异常原因相关,该示例中,执行的第一操作,可以是但不限于在endpoint B端,基于分析的收听异常原因进行自检与收听质量恢复处理,例如,针对speaker未打开/音量小的原因,自动打开speaker或调节音量,针对mic输入源选择错误的原因,自动更改输入源等。
56)在确认Endpoint B端收听质量没有问题即收听无异常,且Endpoint A发出音频的过程中未接收到Endpoint B端语音音频情况下,在Endpoint A的speaker播放音频里插入舒适噪声,例如粉红噪声,以避免Endpoint B端过度安静导致Endpoint A的说话人误以为对方收听不到,或误以为对应已挂断电话。
在其他实施例中,第一音频还可以为区别于通话音频的其他形式音频,如录音音频、广播音频等,该实施例中,对第一音频的目标处理,可以是但不限于压缩、增益和降噪等中的任意一种或多种。相应的,可以针对录音音频、广播音频,基于音频路径中任意不同节点的音频文本的差异比对,来检测音频路径中对音频的目标处理的处理质量,并基于不同节点音频文本的文本相似度未满足对应的相似度条件,确定是否对第一音频执行第一操作和/或发出第一提示。
例如,针对会议录音,在采集会议音频,并通过降噪处理而保存会议音频时,基于监测到降噪前后音频文本的文本内容相似度未满足对应配置的相似度条件,撤销对音频的降噪处理直接保存采集的原始音频,或者,优化降噪时的滤波器参数,或者给出相应提示,由用户通过手动操作撤销对音频的降噪处理或执行参数优化等处理。
或者,在对音频的音频流进行降噪优化并实时播放降噪后音频流的过程中,基于监测到降噪前后音频文本的文本内容相似度未满足对应配置的相似度条件,撤销播放前对音频的降噪处理,直接播放未降噪的音频,以避免降噪过程对播放的音频内容带来超出允许程度的损失,或者对降噪时的滤波器参数进行优化,以优化降噪质量、降低因降噪带来的内容失真。
在对音频的压缩处理中,基于监测到压缩前后音频文本的文本内容相似度未满足对应的相似度条件,通过优化压缩处理的采样率、量化精度、压缩比、码率等参数,如提升采样率、降低压缩比等,来改善压缩后的音频的质量。在对音频的增益处理中,基于监测到增益处理前后音频文本的文本内容相似度未满足对应的相似度条件,通过改变放大倍数、降低失真,来改善增益处理的质量,或者停止对音频的增益处理等等。
通过针对录音音频、广播音频基于音频路径中任意不同节点的音频文本的差异比对,来检测音频路径中对音频的目标处理的处理质量,并基于不同节点的音频文本的文本相似度未满足对应的相似度条件,对第一音频执行第一操作和/或发出第一提示,来停止对第一音频的目标处理,或优化对第一音频的目标处理,改善了目标处理对音频内容带来的损失/失真。
对应于上述的处理方法,本申请实施例还提供一种处理装置,该处理装置的组成结构如图5所示,至少包括:
对比模块501,用于响应于获取到由第一音频转换的第一文本和第二音频转换的第二文本,对所述第一文本和所述第二文本进行对比处理;
确定模块502,用于根据所述第一文本和所述第二文本的对比结果,确定是否对所述第一音频执行第一操作和/或发出第一提示;
其中,所述第二音频由对所述第一音频进行目标处理得到。
在一实施方式中,对比模块501,具体用于:
确定所述第一文本和所述第二文本的文本内容相似度。
在一实施方式中,所述第一文本、所述第二文本分别对应相应的时间戳,所述时间戳为基于音频字节流的位置标定的时间戳;
其中,通过将所述第一文本和所述第二文本的文本内容按时间戳对齐,并基于按时间戳对齐的文本内容,确定所述第一文本和所述第二文本的文本内容相似度。
在一实施方式中,所述第一操作包括:撤销所述目标处理的操作或优化所述目标处理的操作;
确定模块502,在根据所述第一文本和所述第二文本的对比结果,确定是否对所述第一音频执行第一操作时,具体用于:
若所述文本内容相似度不满足对应的相似度条件,则撤销或优化对所述第一音频的目标处理。
在一实施方式中,所述第一提示包括以下的一种或多种:音频异常提示、对应可选操作提示和异常原因提示;
确定模块502,在根据所述第一文本和所述第二文本的对比结果,确定是否发出第一提示时,具体用于:
若所述文本内容相似度不满足对应的相似度条件,则根据对应情况对音频异常和/或异常原因和/或对应可选操作进行提示。
在一实施方式中,上述装置还包括:
插入模块,用于响应于所述第一文本和所述第二文本的文本内容相似度满足对应的对应的相似度条件,在所述第二音频的接收端未接收到语音音频情况下向所述第一音频中插入满足预设感知条件的目标噪声。
在一实施方式中,所述目标处理包括以下的一种或多种:传播、压缩、增益和降噪。
在一实施方式中,所述第一音频和所述第二音频包括以下的一种或多种:
通话音频、录音音频、广播音频和会议音频。
在一实施方式中,当所述第一音频和所述第二音频为通话音频时,所述第一音频相较所述第二音频在传播路径上更靠近音频输入端。
本申请实施例还公开一种电子设备,可以是但不限于录音笔,会议录音仪、智能手机、平板电脑、个人计算机等能用于提供计算/处理能力的设备。
电子设备的组成结构,如图6所示,至少包括:
存储器10,用于存放计算机指令集;
计算机指令集可以通过计算机程序的形式实现。
处理器20,用于通过执行计算机指令集,实现如上文任一方法实施例公开的处理方法。
处理器20可以为中央处理器(Central Processing Unit,CPU),特定应用集成电路(application-specific integrated circuit,ASIC),数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件等。
除此之外,电子设备还可以包括通信接口、通信总线等组成部分。存储器、处理器和通信接口通过通信总线完成相互间的通信。
通信接口用于电子设备与其他设备之间的通信。通信总线可以是外设部件互连标准(Peripheral Component Interconnect,PCI)总线或扩展工业标准结构(ExtendedIndustry Standard Architecture,EISA)总线等,该通信总线可以分为地址总线、数据总线、控制总线等。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
为了描述的方便,描述以上系统或装置时以功能分为各种模块或单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
最后,还需要说明的是,在本文中,诸如第一、第二、第三和第四等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (10)
1.一种处理方法,包括:
响应于获取到由第一音频转换的第一文本和第二音频转换的第二文本,对所述第一文本和所述第二文本进行对比处理;
根据所述第一文本和所述第二文本的对比结果,确定是否对所述第一音频执行第一操作和/或发出第一提示;
其中,所述第二音频由对所述第一音频进行目标处理得到。
2.根据权利要求1所述的方法,所述对所述第一文本和所述第二文本进行对比处理,包括:
确定所述第一文本和所述第二文本的文本内容相似度。
3.根据权利要求2所述的方法,所述第一文本、所述第二文本分别对应相应的时间戳,所述时间戳为基于音频字节流的位置标定的时间戳;
其中,通过将所述第一文本和所述第二文本的文本内容按时间戳对齐,并基于按时间戳对齐的文本内容,确定所述第一文本和所述第二文本的文本内容相似度。
4.根据权利要求2所述的方法,所述第一操作包括:撤销所述目标处理的操作或优化所述目标处理的操作;
所述根据所述第一文本和所述第二文本的对比结果,确定是否对所述第一音频执行第一操作,包括:
若所述文本内容相似度不满足对应的相似度条件,则撤销或优化对所述第一音频的目标处理。
5.根据权利要求2所述的方法,所述第一提示包括以下的一种或多种:音频异常提示、对应可选操作提示和异常原因提示;
所述根据所述第一文本和所述第二文本的对比结果,确定是否发出第一提示,包括:
若所述文本内容相似度不满足对应的相似度条件,则根据对应情况对音频异常和/或异常原因和/或对应可选操作进行提示。
6.根据权利要求2所述的方法,还包括:
响应于所述第一文本和所述第二文本的文本内容相似度满足对应的相似度条件,在第一音频的发出端未接收到通话对端语音音频情况下向所述第一音频的发出端所收听音频中插入满足预设感知条件的目标噪声。
7.根据权利要求1所述的方法,所述目标处理包括以下的一种或多种:传播、压缩、增益和降噪。
8.根据权利要求5所述的方法,所述第一音频和所述第二音频包括以下的一种或多种:
通话音频、录音音频、广播音频和会议音频。
9.根据权利要求6所述的方法,当所述第一音频和所述第二音频为通话音频时,所述第一音频相较所述第二音频在传播路径上更靠近音频输入端。
10.一种处理装置,包括:
对比模块,用于响应于获取到由第一音频转换的第一文本和第二音频转换的第二文本,对所述第一文本和所述第二文本进行对比处理;
确定模块,用于根据所述第一文本和所述第二文本的对比结果,确定是否对所述第一音频执行第一操作和/或发出第一提示;
其中,所述第二音频由对所述第一音频进行目标处理得到。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210189603.5A CN114582362A (zh) | 2022-02-28 | 2022-02-28 | 一种处理方法和处理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210189603.5A CN114582362A (zh) | 2022-02-28 | 2022-02-28 | 一种处理方法和处理装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114582362A true CN114582362A (zh) | 2022-06-03 |
Family
ID=81772010
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210189603.5A Pending CN114582362A (zh) | 2022-02-28 | 2022-02-28 | 一种处理方法和处理装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114582362A (zh) |
-
2022
- 2022-02-28 CN CN202210189603.5A patent/CN114582362A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107910014B (zh) | 回声消除的测试方法、装置及测试设备 | |
US8903721B1 (en) | Smart auto mute | |
CN103152546B (zh) | 基于模式识别和延迟前馈控制的视频会议回声抑制方法 | |
CN110956976B (zh) | 一种回声消除方法、装置、设备及可读存储介质 | |
CN113271430B (zh) | 网络视频会议中防干扰方法、系统、设备及存储介质 | |
Nakagawa et al. | Dual microphone solution for acoustic feedback cancellation for assistive listening | |
EP4394761A1 (en) | Audio signal processing method and apparatus, electronic device, and storage medium | |
CN111885276B (zh) | 消除回声的方法及系统 | |
US20180350378A1 (en) | Detecting and reducing feedback | |
CN111199751B (zh) | 一种麦克风的屏蔽方法、装置和电子设备 | |
US20150133097A1 (en) | Apparatus and method for removing acoustic echo in teleconference system | |
JP4438720B2 (ja) | エコーキャンセラ及びマイク装置 | |
US8600037B2 (en) | Audio quality and double talk preservation in echo control for voice communications | |
CN115482830A (zh) | 语音增强方法及相关设备 | |
US20070036290A1 (en) | Voicemail system and related method | |
EP2247082B1 (en) | Telecommunication device, telecommunication system and method for telecommunicating voice signals | |
CN108540680B (zh) | 讲话状态的切换方法及装置、通话系统 | |
EP3830823B1 (en) | Forced gap insertion for pervasive listening | |
EP3819904A1 (en) | Method of determining the speech in a web-rtc audio or video communication and/or collaboration session and communication system | |
CN114582362A (zh) | 一种处理方法和处理装置 | |
US20230410828A1 (en) | Systems and methods for echo mitigation | |
US20200099793A1 (en) | Receive-path signal gain operations | |
CN115696110A (zh) | 音频设备和音频信号处理方法 | |
CN112217948B (zh) | 语音通话的回声处理方法、装置、设备及存储介质 | |
US11924368B2 (en) | Data correction apparatus, data correction method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |