CN115273901A - 音频检测方法、装置、电子设备和存储介质 - Google Patents
音频检测方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN115273901A CN115273901A CN202210725935.0A CN202210725935A CN115273901A CN 115273901 A CN115273901 A CN 115273901A CN 202210725935 A CN202210725935 A CN 202210725935A CN 115273901 A CN115273901 A CN 115273901A
- Authority
- CN
- China
- Prior art keywords
- audio
- detected
- emotion
- detection
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 183
- 230000008451 emotion Effects 0.000 claims abstract description 150
- 230000006854 communication Effects 0.000 claims abstract description 122
- 238000004891 communication Methods 0.000 claims abstract description 110
- 238000012545 processing Methods 0.000 claims abstract description 55
- 230000002159 abnormal effect Effects 0.000 claims abstract description 52
- 238000000034 method Methods 0.000 claims description 49
- 238000005516 engineering process Methods 0.000 claims description 7
- 230000011218 segmentation Effects 0.000 claims description 6
- 230000005856 abnormality Effects 0.000 description 37
- 230000002996 emotional effect Effects 0.000 description 24
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 238000003672 processing method Methods 0.000 description 3
- 206010027940 Mood altered Diseases 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 208000027534 Emotional disease Diseases 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 230000030279 gene silencing Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011897 real-time detection Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Signal Processing (AREA)
- Telephone Function (AREA)
Abstract
本申请实施例公开了一种音频检测方法、装置、电子设备和存储介质,具体公开来:根据第一检测模式获取第一对象的第一待检测音频的第一情绪检测结果;当第一用户的第一待检测音频的情绪异常时,对第一待检测音频进行第一音频处理;根据第二检测模式获取第二对象的第二待检测音频的第二情绪检测结果;当第二用户的第二待检测音频的情绪异常时,对第二待检测音频进行第二音频处理。可以通过第一检测模式实时监测每个对象的情绪,在监测到有通讯对象的情绪发生异常之后进行处理,并以对应的第二检测模式对下一个通讯对象进行监测处理,极大的提升了通讯音频检测的效率,且有效避免因为情绪异常导致通讯对象之间出现争执的情况。
Description
技术领域
本申请涉及语音通讯技术领域,更具体地,涉及一种音频检测方法、装置、电子设备和存储介质。
背景技术
在日常生活中,人们通过电话、语音等语音通讯方式与其他人沟通时很容易由于情绪不佳出现说脏话等情况,进而导致发生争执,给彼此感情造成伤害。
在对相关技术进行研究和实践过程中,本申请的发明人发现,目前没有有效的针对语音通讯过程中通讯双方情绪进行监测的方法。因此,在语音通讯过程中如何对通讯对象的情绪进行监测,以避免因情绪异常出现话术过激的情况,是目前亟需解决的问题。
发明内容
鉴于上述问题,本申请提出了一种音频检测方法、装置、电子设备和存储介质,可以通过实时音频检测,实现对通讯对象的情绪进行监测,提升音频检测的效率。
第一方面,本申请实施例提供了一种音频检测方法,该方法包括:根据第一检测模式获取第一对象的第一待检测音频的第一情绪检测结果;当第一用户的第一待检测音频的情绪异常时,对第一待检测音频进行第一音频处理;根据第二检测模式获取第二对象的第二待检测音频的第二情绪检测结果;其中,第二待检测音频的采集时间晚于第一待检测音频;当第二用户的第二待检测音频的情绪异常时,对第二待检测音频进行第二音频处理。
第二方面,本申请实施例提供了一种音频检测装置,该装置包括:第一检测模块,用于根据第一检测模式获取第一对象的第一待检测音频的第一情绪检测结果;第一处理模块,用于当第一用户的第一待检测音频的情绪异常时,对第一待检测音频进行第一音频处理;第二检测模块,用于根据第二检测模式获取第二对象的第二待检测音频的第二情绪检测结果;其中,第二待检测音频的采集时间晚于第一待检测音频;第二处理模块,用于若第二用户的第二待检测音频的情绪异常时,对第二待检测音频进行第二音频处理。
第三方面,本申请实施例提供了一种电子设备,包括一个或多个处理器、存储器以及一个或多个应用程序。其中,一个或多个所述应用程序被存储在所述存储器中并被配置为由一个或多个所述处理器执行,一个或多个所述应用程序配置用于执行如上述第一方面提供的音频检测方法。
第四方面,本申请实施例提供了一种计算机可读取存储介质,所述计算机可读取存储介质中存储有程序代码,所述程序代码可被处理器调用执行上述第一方面提供的音频检测方法。
本申请的音频检测方法、装置、电子设备和存储介质,涉及语音通讯技术领域。具体包括:根据第一检测模式获取第一对象的第一待检测音频的第一情绪检测结果;当第一用户的第一待检测音频的情绪异常时,对第一待检测音频进行第一音频处理;根据第二检测模式获取第二对象的第二待检测音频的第二情绪检测结果;其中,第二待检测音频的采集时间晚于第一待检测音频;当第二用户的第二待检测音频的情绪异常时,对第二待检测音频进行第二音频处理。由此,可以通过第一检测模式实时监测每个对象的情绪,在监测到有通讯对象的情绪发生异常之后进行处理,并以对应的第二检测模式对下一个通讯对象进行监测处理,可以有效避免因为情绪异常导致通讯对象之间出现争执,且极大的提升了音频检测的效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请一实施例提出的一种音频检测方法的流程示意图;
图2示出了本申请一实施例提出的一种音频检测方法的检测处理流程图;
图3示出了本申请一实施例提出的一种音频检测装置的结构框图;
图4示出了本申请一实施例提出的一种电子设备的结构框图;
图5示出了本申请一实施例提出的一种计算机可读取存储介质的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
在现今社会,人们经常会通过语音通讯方式和其他人进行沟通,语音通讯方式可以例如是移动电话、语音电话等方式。在语音通讯过程中,若通讯一方由于某些原因情绪不佳出现说脏话等情况,容易导致通讯另一方也出现情绪不佳,若不对这种情况采取相应的措施,最终容易导致双方发生争执,给彼此感情造成伤害。
在对相关技术进行研究和实践过程中,本申请的发明人发现,目前没有有效的针对语音通讯过程中通讯双方情绪进行监测的方法。因此,在语音通讯过程如何对通讯对象的情绪进行监测,以避免因情绪异常出现话术过激的情况,是目前亟需解决的问题。
因此,为了克服上述缺陷,本申请的发明人提出了本申请实施例提供的一种音频检测方法、装置、电子设备和存储介质,具体包括:根据第一检测模式获取第一对象的第一待检测音频的第一情绪检测结果;当第一用户的第一待检测音频的情绪异常时,对第一待检测音频进行第一音频处理;根据第二检测模式获取第二对象的第二待检测音频的第二情绪检测结果;其中,第二待检测音频的采集时间晚于第一待检测音频;当第二用户的第二待检测音频的情绪异常时,对第二待检测音频进行第二音频处理。由此,可以通过第一检测模式实时监测每个对象的情绪,在监测到有通讯对象的情绪发生异常之后进行处理,并以对应的第二检测模式对下一个通讯对象进行监测处理,极大的提升了音频检测的效率,且有效避免因为情绪异常导致通讯对象之间出现争执的情况。
下面将结合具体实施例对其进行介绍。
请参阅图1,图1示出了本申请实施例提供的一种音频检测方法。具体地,该方法可以包括步骤110至步骤140。
在步骤110中,根据第一检测模式获取第一对象的第一待检测音频的第一情绪检测结果。
在本申请实施例中,音频检测方法可以应用于服务器,服务器可接收正在说话的通讯对象发送的音频数据,并将其转发至其他通讯对象,以实现语音通讯。其中,服务器可以是单独的服务器,也可以是服务器集群;可以是本地服务器,也可以是云端服务器。
在一些实施方式中,通讯对象之间可以通过终端设备(手机、可通话手表、电话等)进行语音通讯。可选地,可以使用终端设备进行移动通讯,即通过拨打手机号进行通讯。可选地,也可以使用终端设备上安装的客户端进行语音通信,例如微信语音/视频电话、QQ语音/视频电话等。
进一步地,客户端可以是安装在终端设备上的计算机应用程序(Application,APP);也可以是Web客户端,Web客户端指基于Web架构而开发的应用程序。
在一些实施例中,终端设备和服务器之间可以通过网络进行通讯,网络通常为因特网、但也可以是任何网络,包括但不限于局域网(Local Area Network,LAN)、城域网(Metropolitan Area Network,MAN)、广域网(Wide Area Network,WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。此外,终端设备和服务器之间也可以通过特定的通信协议进行通信传输,通信协议包括但不限于BLE(Bluetooth low energy,低功耗蓝牙)协议、WLAN(Wireless Local Area Network,无线局域网)协议、蓝牙协议、ZigBee(紫峰)协议或者Wi-Fi(Wireless Fidelity,无线保真)协议等。
在本申请实施例中,若语音通讯过程中当前说话的通讯对象(后续说话的通讯对象均简称为说话对象)之前未存在情绪异常的说话对象,则将当前说话对象作为第一对象;第一待检测音频为第一对象当前说话过程中对应的通讯音频。
示例性的,通讯过程中存在通讯对象A和B,通讯对象A首先说话,之前不存在情绪异常的说话对象,因此通讯对象A说话期间将其确定为第一对象A,将第一对象A当前说话过程中对应的通讯音频作为第一待检测音频A,若检测确定第一对象A不存在情绪异常,则之后通讯对象B说话的时候可以将通讯对象B确定为第一对象B,从而第一对象B当前说话过程中对应的通讯音频为第一待检测音频B。
在本申请实施例中,第一情绪检测结果为第一用户在第一待检测音频中的情绪检测结果,情绪检测结果包括情绪正常和情绪异常。其中,语音通讯过程中,至少存在两个通讯对象;一个待检测音频中可以包括多条音频数据,即一个待检测音频中可以包括一个通讯对象所说的多句语音音频。
在本申请实施例中,第一检测模式可以是用于当前说话对象之前不存在情绪异常的说话对象时使用的检测模式,也即第一检测模式可以是用于检测第一对象对应的待检测音频。可以理解的,若当前说话对象为第一个说话的对象,不会存在前一说话对象的情绪异常的情况,因此第一个说话对象为第一对象,将使用第一检测模式对第一对象对应的通讯音频即第一待检测音频进行情绪检测。
具体地,服务器使用第一检测模式对第一对象的第一待检测音频进行情绪检测,得到第一待检测音频的情绪检测结果,即第一情绪检测结果。其中,可以在当待检测音频满足预先设置的预设条件时,认为该待检测音频对应的说话对象在该待检测音频中存在情绪异常。可以理解的,这里所说的情绪异常可以是指通讯对象处于情绪激动即将生气状态,或者已经处于生气状态等。
在一些实施方式中,每种检测模式对应的预设条件可以不一样,即不同检测模式下判断情绪异常的标准可以不一样。
在一些实施方式中,第一检测模式下可以通过第一预设条件确定通讯对象在待检测音频中是否存在情绪异常,第一预设条件可以是待检测音频存在敏感内容和音频参数的增值超过第一阈值二者中的至少一项,若待检测音频满足第一预设条件,则可以认为该待检测音频对应的说话对象在该待检测音频中存在情绪异常。从而,第一检测模式可以是对待检测音频的敏感信息和音频信息进行检测。
具体地,服务器在获取到第一对象的第一待检测音频后,对第一对象的第一待检测音频进行敏感信息和音频信息检测,若第一待检测音频存在敏感内容和音频参数的增值超过第一阈值二者中的至少一项,即若第一待检测音频中存在敏感内容或者存在音频参数的增值超过第一阈值,或者同时存在敏感内容和音频参数的增值超过第一阈值,只要满足这三种情况中的任意一种,就认为第一用户的第一待检测音频的情绪异常;若第一待检测音频中既不存在敏感内容,也不存在音频参数的增值超过第一阈值,则认为第一用户的第一待检测音频的情绪正常。
进一步地,服务器中可以包括敏感信息检测模块和音频信息检测模块,分别用于检测组成待检测音频的音频片段中的敏感内容和音频参数的增值。
在一些实施方式中,敏感内容可以是预先设置的敏感词。具体地,可以将待检测音频输入预先确定的敏感词库,然后使用例如AC(Aho-Corasick匹配算法)、DFA(Deterministic Finite Automaton,确定有穷自动机)等算法进行敏感内容检测。
在一些实施方式中,音频参数可以是指音量,音频参数的增值可以是音量的增值,音量的增值可以用音频的能量最高点和最低点之差表示。具体地,可以使用RMS(RateMonotonic Scheduling,单调速率调度)值记录预设时间内待检测音频的能量最低点和最高点之差,以此确定待检测音频的音量增长或降低的差值。
在本申请实施例中,为了保证其他通讯对象能实时接收到当前说话对象的通讯音频内容,不会将待检测音频全部接收完再进行检测,然后全部检测完再发送至其他通讯对象,而是会每接收到预设时间长度的音频片段就对其进行敏感信息和音频信息检测,若检测到该音频片段满足预设条件,则对该音频片段进行处理,处理完将该音频片段发送至其他通讯对象所在的终端设备,同时开始检测下一音频片段。其中,待检测音频可以是由一个或多个音频片段组成的通讯音频。
从而,在本申请实施例中记载的对待检测音频进行检测和处理,实际上均为对组成待检测音频的音频片段进行检测和处理。
在步骤120中,当第一用户的第一待检测音频的情绪异常时,对第一待检测音频进行第一音频处理。
在本申请实施例中,服务器在确定获取到的第一用户的第一待检测音频的情绪异常,即第一用户在第一待检测音频中存在情绪异常后,会对第一待检测音频进行第一音频处理,以降低其他通讯对象在接收到第一待检测音频后也出现情绪异常的概率。
在一些实施方式中,第一音频处理的方法可以例如是降低待检测音频的音量、在待检测音频中添加第一干扰音频等。其中,降低待检测音频的音量的具体方式可以是将待检测音频的音量降低至第一预设音量;第一干扰音频可以为预设的噪音、音乐等音频内容。
进一步地,若组成待检测音频的音频片段中存在敏感内容,则第一音频处理的方法中还可以包括对敏感内容进行消音处理。可选地,消音处理可以是将存在敏感内容的整个音频片段消音。可选地,消音处理也可以是将音频片段中存在敏感内容的部分进行消音,其余部分不做处理。
可以理解的,第一音频处理的具体方法还可以是上述这些方法的结合。进一步地,第一音频处理的具体方法还可以存在其他处理方法,对此不做限制。
在一些实施方式中,由于一个通讯对象说话期间可能出现其它通讯对象插嘴或打断的情况,因此为了能在其他通讯对象说话的时候及时确定其对应的待检测音频的检测模式,可以在检测到组成说话对象的待检测音频的音频片段存在情绪异常后,在服务器中记录一个情绪异常标识。其中,情绪异常标识可以为标识ID,也可以为一个临时文件,用于表示当前说话对象的前一说话对象存在情绪异常。
具体地,服务器在第一次检测到说话对象的音频片段满足预设条件后,即可以确定说话对象在当前的待检测音频中存在情绪异常,然后会在服务器中记录一个情绪异常标识,从而不管说话对象的待检测音频中的其他音频片段是否已全部检测,只要在检测下一说话对象的待检测音频前确定服务器中存在情绪异常标识,即可确定下一说话对象的待检测音频的检测模式。
可以理解的,第一次确定音频片段满足预设条件然后在服务器中记录情绪异常标识后,并不影响该说话对象之后的音频片段的音频检测和处理,也就是说,只要该说话对象的待检测音频未检测完,仍会正常继续进行检测和处理。
在步骤130中,根据第二检测模式获取第二对象的第二待检测音频的第二情绪检测结果。
在本申请实施例中,若当前说话对象之前存在情绪异常的说话对象,则将当前说话对象作为第二对象;第二待检测音频为第二对象当前说话过程中的对应的通讯音频。
示例性的,通讯过程中存在通讯对象A、B和C,通讯对象A为第一对象A,通过检测确定第一对象A存在情绪异常,则之后通讯对象B说话的时候可以将通讯对象B确定为第二对象B,从而第二对象B当前说话过程中对应的通讯音频为第二待检测音频B,若检测到第二对象B也存在情绪异常,则将在通讯对象B之后说话的通讯对象C作为第二对象C,第二对象C当前说话过程中对应的通讯音频为第二待检测音频C。
在本申请实施例中,第二情绪检测结果为第二用户在第二待检测音频中的情绪检测结果;第二检测模式可以是用于当前说话对象之前存在情绪异常的说话对象时使用的检测模式。也就是说,若服务器检测当前说话对象说话时存在有情绪异常标识,则使用第二检测模式检测当前说话对象的待检测音频中是否存在情绪异常。
具体地,服务器在检测到存在情绪异常标识后,可以确定第一用户在第一待检测音频中存在情绪异常,从而在获取到第二对象的第二待检测音频后,使用第二检测模式获取第二对象的第二待检测音频的情绪检测结果即第二情绪检测结果。
进一步地,在本申请实施例中由于下一说话对象的待检测音频的检测模式是根据上一说话对象的情绪检测结果确定,因此为了使下一说话对象说话时服务器中保存的情绪异常标识为上一说话对象的情绪检测结果,在下一说话对象根据服务器中保存的情绪异常标识确定之前存在情绪异常的说话对象,需要使用第二检测模式对其对应的待检测音频进行检测后,服务器会删除保存的情绪异常标识,然后根据下一说话对象的情绪检测结果确定是否重新记录情绪异常标识。
在一些实施方式中,可以使用人声分割技术确定通讯过程中存在几个通讯对象,以及每个时间点对应的通讯音频属于哪个通讯对象。具体地,服务器每次获取终端设备发送的通讯音频即待检测音频后,通过人声分割技术确定每个时间点对应的待检测音频属于哪个通讯对象。其中,可以将服务器接收到待检测音频的时间点作为待检测音频的采集时间。
进一步地,由于多人进行语音通讯过程时,容易出现多个通讯对象同时说话的情况,因此为了更精准地确定服务器接收到待检测音频的先后顺序,即更精准地确定每个通讯对象说话的先后顺序,采集时间可以至少精确到毫秒级。可以理解的,根据实际需要,采集时间还可以精确到微妙级、纳秒级等。在本申请实施例中,第二待检测音频的采集时间晚于第一待检测音频的采集时间。
在一些实施方式中,服务器可以根据人声分割技术从通讯过程中存在的多个通讯对象中确定第一对象的第一待检测音频,以及第一待检测音频的采集时间。具体地,服务器根据人声分割技术从多个通讯对象中确定第一对象,并将第一对象对应的第一段待检测音频作为第一待检测音频,以及将接收到第一待检测音频的时间点作为第一待检测音频的采集时间。进一步地,可以通过类似的方法从多个通讯对象中确定第二个说话的通讯对象作为第二对象,并将第二对象对应的第一段待检测音频作为第二待检测音频,以及将接收到第二待检测音频的时间点作为第二待检测音频的采集时间。
在一些实施方式中,第二检测模式下可以通过第二预设条件确定通讯对象在待检测音频中是否存在情绪异常。由于之前的说话对象存在情绪异常的情况下,之后的说话对象会更容易出现情绪异常,因此可以使用更严格的检测条件对之后的说话对象的待检测音频进行检测。
作为一种实施例,第二预设条件可以是待检测音频存在敏感内容和音频参数的增值超过第二阈值二者中的至少一项。若待检测音频满足第二预设条件,则可认为该待检测音频对应的说话对象在该待检测音频中存在情绪异常,第二阈值低于第一阈值。具体地,服务器在确定第一对象的第一待检测音频存在情绪异常后,对接收到的第二对象的第二待检测音频使用第二检测模式进行敏感信息和音频信息检测,若检测到第二待检测音频存在敏感内容和音频参数的增值超过第二阈值二者中的至少一项,则确定第二用户的第二待检测音频的情绪异常,否则,确定第二用户的第二待检测音频的情绪正常。可以理解的,第二检测模式的检测过程与第一检测模式下预设条件为第一预设条件时的检测过程类似,详细过程在此不再进行赘述。
作为一种实施例,第二预设条件也可以是待检测音频的预设音频部分存在敏感信息,也就是说,第二检测模式可以是对待检测音频的预设音频部分进行敏感信息检测。具体地,服务器在确定第一对象的第一待检测音频存在情绪异常后,对第二对象的第二待检测音频的预设音频部分使用第二检测模式进行敏感信息检测;若检测到第二待检测音频的预设音频部分存在敏感内容,则确定第二用户的第二待检测音频的情绪异常;否则,确定第二用户的第二待检测音频的情绪正常。
由于在前一说话对象存在情绪异常的情况下,后一说话对象最容易在刚开始说话的时候出现情绪异常,因此预设音频部分可以是待检测音频中的首句音频部分,也可以是待检测音频的前面预设时长的音频部分,具体可以根据实际需要进行设置,本申请实施例对此不做限制。
在步骤140中,当第二用户的第二待检测音频的情绪异常时,对第二待检测音频进行第二音频处理。
在本申请实施例中,服务器在确定获取到的第二用户的第二待检测音频的情绪异常,即第二用户在第二待检测音频中存在情绪异常后,会对第二待检测音频进行第二音频处理,以降低之后其他通讯对象在接收到第二待检测音频后出现情绪异常的概率。
其中,第二音频处理的具体方法与前述第一音频处理方法类似,在此不再进行赘述。
在一些实施方式中,在检测到通讯对象的待检测音频存在情绪异常后,除了对待检测音频进行处理,还可以在出现情绪异常的通信对象对应的终端设备的显示界面上显示提示信息,以提醒该通信对象保持情绪稳定。其中,提示信息可以以文字、图片等形式展示,具体提示信息的内容可以根据实际需要进行设置,对此不做限制。
在一些实施方式中,若确定第二用户的第二待检测音频存在情绪异常,则对于第二对象之后的通讯对象的第三待检测音频使用第二检测模式进行情绪检测,得到第三情绪检测结果,直至第三情绪检测结果为情绪正常。其中,在确定第二对象存在情绪异常的情况下,第二对象之后的通讯对象仍为第二对象,但与当前确定存在情绪异常的通讯对象为不同的通讯对象,从而,第三待检测音频也为第二对象当前说话过程中对应的通讯音频。
示例性的,存在通讯对象A和B,先说话的通讯对象A为第二对象A,存在情绪异常,则将之后说话的通讯对象B作为第二对象B,将第二对象B当前说话过程中对应的通讯音频作为第三待检测音频B。
在一些实施方式中,若第二用户的第二待检测音频的情绪正常时,对第二对象之后的对象的第四待检测音频按照第一检测模式进行检测。其中,在确定第二对象不存在情绪异常即情绪正常的情况下,第二对象之后的通讯对象为第一对象,从而,第四待检测音频也为第一对象当前说话过程中对应的通讯音频。
也就是说,在本申请实施例中,只要前一说话对象存在情绪异常,后一说话对象对应的待检测音频使用第二检测模式进行情绪检测;只要前一说话对象情绪正常,后一说话对象的待检测音频使用第一检测模式进行情绪检测。其中,第一个说话对象对应的待检测音频一定使用第一检测模式进行检测。
请参阅图2,图2示出了音频检测方法的一种检测处理流程图,具体地:
在步骤S1中,获取第一对象的第一待检测音频;
在步骤S2中,使用第一检测模式对第一对象的第一待检测音频进行情绪检测;若第一对象在第一待检测音频中情绪正常,则返回步骤S1,获取下一个第一对象的第一待检测音频;若第一对象在第一待检测音频中情绪异常,则进入步骤S3;
在步骤S3中,对第一对象的第一待检测音频进行第一音频处理;
在步骤S4中,获取第二对象的第二待检测音频;
在步骤S5中,使用第二检测模式对第二对象的第二待检测音频进行情绪检测;若第二对象在第二待检测音频中情绪异常,则进入步骤S6;若第二对象在第二待检测音频中情绪正常,则返回步骤S1;
在步骤S6中,对第二对象的第二待检测音频进行第二音频处理;处理完之后返回步骤S4。
其中,从步骤S6返回步骤S4后是获取下一个第二对象的第二待检测音频,但为了更好地进行描述,在本申请实施例中,将返回后的步骤的具体操作描述为获取下一个第二对象的第三待检测音频;同理,将步骤S5返回步骤S1后的操作描述为获取下一个第一对象的第四待检测音频。
可以理解的,尽管描述存在区别,但实质上是按图2示出的检测处理流程图不断对语音通讯过程中通讯对象对应的通讯音频进行实时检测处理,音频检测效率高,且可以有效避免情绪异常导致通讯对象之间发生争执。
本申请实施例根据第一检测模式获取第一对象的第一待检测音频的第一情绪检测结果;当第一用户的第一待检测音频的情绪异常时,对第一待检测音频进行第一音频处理;根据第二检测模式获取第二对象的第二待检测音频的第二情绪检测结果;其中,第二待检测音频的采集时间晚于第一待检测音频;当第二用户的第二待检测音频的情绪异常时,对第二待检测音频进行第二音频处理。由此,可以通过第一检测模式实时监测每个对象的情绪,在监测到有通讯对象的情绪发生异常之后进行处理,并以对应的第二检测模式对下一个通讯对象进行监测处理,极大的提升了通讯音频检测的效率,且有效避免因为情绪异常导致通讯对象之间出现争执的情况。
请参阅图3,图3示出了本申请实施例提供的一种音频检测装置200的结构框图。该音频检测装置200包括第一检测模块210、第一处理模块220、第二检测模块230、第二处理模块240,具体地:
第一检测模块210,用于根据第一检测模式获取第一对象的第一待检测音频的第一情绪检测结果;
第一处理模块220,用于当第一用户的第一待检测音频的情绪异常时,对第一待检测音频进行第一音频处理;
第二检测模块230,用于根据第二检测模式获取第二对象的第二待检测音频的第二情绪检测结果;其中,第二待检测音频的采集时间晚于第一待检测音频;
第二处理模块240,用于若第二用户的第二待检测音频的情绪异常时,对第二待检测音频进行第二音频处理。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,模块相互之间的耦合可以是电性,机械或其它形式的耦合。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
请参阅图4,图4示出了本申请实施例提供的一种电子设备300的结构框图。该电子设备300可以是笔记本电脑、台式电脑等能够运行应用程序的电子设备。本申请中的电子设备300可以包括一个或多个如下部件:处理器310、存储器320以及一个或多个应用程序,其中一个或多个应用程序可以被存储在存储器320中并被配置为由一个或多个处理器310执行,一个或多个程序配置用于执行如前述方法实施例所描述的方法。
处理器310可以包括一个或者多个处理核。处理器310利用各种接口和线路连接整个电子设备300内的各个部分,通过运行或执行存储在存储器320内的指令、程序、代码集或指令集,以及调用存储在存储器320内的数据,执行电子设备300的各种功能和处理数据。可选地,处理器310可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable LogicArray,PLA)中的至少一种硬件形式来实现。处理器310可集成中央处理器(CentralProcessing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器310中,单独通过一块通信芯片进行实现。
存储器320可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。存储器320可用于存储指令、程序、代码、代码集或指令集。存储器320可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如比检测功能、音频处理功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储电子设备300在使用中所创建的数据(比如第一待检测音频、第一情绪检测结果、第二待检测音频、第二情绪检测结果等)。
请参阅图5,图5示出了本申请实施例提供的一种计算机可读取存储介质的结构框图。该计算机可读取存储介质400中存储有程序代码,所述程序代码可被处理器调用执行上述方法实施例中所描述的音频检测方法。
计算机可读取存储介质400可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地,计算机可读取存储介质400包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读取存储介质400具有执行上述方法中的任何方法步骤的程序代码410的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码410可以例如以适当形式进行压缩。
本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读取存储介质中。计算机设备的处理器从计算机可读取存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实施方式中描述的音频检测方法。
本申请的音频检测方法、装置、电子设备和存储介质,具体公开来:根据第一检测模式获取第一对象的第一待检测音频的第一情绪检测结果;当第一用户的第一待检测音频的情绪异常时,对第一待检测音频进行第一音频处理;根据第二检测模式获取第二对象的第二待检测音频的第二情绪检测结果;其中,第二待检测音频的采集时间晚于第一待检测音频;当第二用户的第二待检测音频的情绪异常时,对第二待检测音频进行第二音频处理。由此,可以通过第一检测模式实时监测每个对象的情绪,在监测到有通讯对象的情绪发生异常之后进行处理,并以对应的第二检测模式对下一个通讯对象进行监测处理,极大的提升了音频检测的效率,且有效避免因为情绪异常导致通讯对象之间出现争执的情况。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (10)
1.一种音频检测方法,其特征在于,所述方法包括:
根据第一检测模式获取第一对象的第一待检测音频的第一情绪检测结果;
当所述第一用户的第一待检测音频的情绪异常时,对所述第一待检测音频进行第一音频处理;
根据第二检测模式获取第二对象的第二待检测音频的第二情绪检测结果;其中,所述第二待检测音频的采集时间晚于所述第一待检测音频;
当所述第二用户的第二待检测音频的情绪异常时,对所述第二待检测音频进行第二音频处理。
2.根据权利要求1所述的方法,其特征在于,所述对所述第二待检测音频进行第二音频处理之后,还包括:
根据所述第二检测模式,获取所述第二对象之后的通讯对象的第三待检测音频的第三情绪检测结果,直至所述第三情绪检测结果为正常。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若所述第二用户的第二待检测音频的情绪正常时,对所述第二对象之后的通讯对象的第四待检测音频按照第一检测模式进行检测。
4.根据权利要求1所述的方法,其特征在于,所述根据第一检测模式获取第一对象的第一待检测音频的第一情绪检测结果,包括:
对第一对象的第一待检测音频进行敏感信息和音频信息检测;
若所述第一待检测音频存在敏感内容和音频参数的增值超过第一阈值二者中的至少一项,则确定所述第一用户的第一待检测音频的情绪异常;
否则,确定所述第一用户的第一待检测音频的情绪正常。
5.根据权利要求4所述的方法,其特征在于,所述根据第二检测模式获取第二对象的第二待检测音频的第二情绪检测结果,包括:
对第二对象的第二待检测音频进行敏感信息和音频信息检测;
若所述第二待检测音频存在敏感内容和音频参数的增值超过第二阈值二者中的至少一项,则确定所述第二用户的第二待检测音频的情绪异常;其中,所述第二阈值低于所述第一阈值;
否则,确定所述第二用户的第二待检测音频的情绪正常。
6.根据权利要求1所述的方法,其特征在于,所述根据第二检测模式获取第二对象的第二待检测音频的第二情绪检测结果,包括:
对第二对象的第二待检测音频的预设音频部分进行敏感信息检测;
若所述第二待检测音频的预设音频部分存在敏感内容,则确定所述第二用户的第二待检测音频的情绪异常;
否则,确定所述第二用户的第二待检测音频的情绪正常。
7.根据权利要求1所述的方法,其特征在于,所述根据第一检测模式获取第一对象的第一待检测音频的第一情绪检测结果之前,还包括:
根据人声分割技术从多个通讯对象中确定第一对象的第一待检测音频,以及所述第一待检测音频的采集时间;
所述根据第二检测模式获取第二对象的第二待检测音频的第二情绪检测结果之前,还包括:
根据人声分割技术从多个通讯对象中确定第二对象的第二待检测音频,以及所述第二待检测音频的采集时间。
8.一种音频检测装置,其特征在于,所述装置包括:
第一检测模块,用于根据第一检测模式获取第一对象的第一待检测音频的第一情绪检测结果;
第一处理模块,用于当所述第一用户的第一待检测音频的情绪异常时,对所述第一待检测音频进行第一音频处理;
第二检测模块,用于根据第二检测模式获取第二对象的第二待检测音频的第二情绪检测结果;其中,所述第二待检测音频的采集时间晚于所述第一待检测音频;
第二处理模块,用于若所述第二用户的第二待检测音频的情绪异常时,对所述第二待检测音频进行第二音频处理。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个应用程序配置用于执行如权利要求1-7任一项所述的音频检测方法。
10.一种计算机可读取存储介质,其特征在于,所述计算机可读取存储介质中存储有程序代码,所述程序代码可被处理器调用执行如权利要求1-7任一项所述的音频检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210725935.0A CN115273901A (zh) | 2022-06-23 | 2022-06-23 | 音频检测方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210725935.0A CN115273901A (zh) | 2022-06-23 | 2022-06-23 | 音频检测方法、装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115273901A true CN115273901A (zh) | 2022-11-01 |
Family
ID=83761995
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210725935.0A Pending CN115273901A (zh) | 2022-06-23 | 2022-06-23 | 音频检测方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115273901A (zh) |
-
2022
- 2022-06-23 CN CN202210725935.0A patent/CN115273901A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2016180100A1 (zh) | 一种音频处理的性能提升方法及装置 | |
CN105719653B (zh) | 一种混音处理方法和装置 | |
US10269371B2 (en) | Techniques for decreasing echo and transmission periods for audio communication sessions | |
WO2016008311A1 (zh) | 一种根据频域能量对音频信号进行检测的方法和装置 | |
US8750461B2 (en) | Elimination of typing noise from conference calls | |
CN108874904A (zh) | 语音消息搜索方法、装置、计算机设备及存储介质 | |
CN110913073A (zh) | 一种语音处理方法及相关设备 | |
CN112995422A (zh) | 通话管控方法、装置、电子设备及存储介质 | |
US10290303B2 (en) | Audio compensation techniques for network outages | |
US10789954B2 (en) | Transcription presentation | |
CN108270925B (zh) | 语音信息的处理方法、装置、终端和计算机可读存储介质 | |
CN111402914B (zh) | 噪声消除方法、装置、电子设备和存储介质 | |
CN112289336A (zh) | 音频信号处理方法和装置 | |
CN115273901A (zh) | 音频检测方法、装置、电子设备和存储介质 | |
CN105791602B (zh) | 音质测试方法及系统 | |
CN110600056A (zh) | 语音质检方法及装置 | |
US11783837B2 (en) | Transcription generation technique selection | |
CN112309418B (zh) | 一种抑制风噪声的方法及装置 | |
CN114333017A (zh) | 一种动态拾音方法、装置、电子设备及存储介质 | |
CN114173319A (zh) | 跨平台实现通话的方法、装置、云手机平台及存储介质 | |
CN112687293A (zh) | 一种基于机器学习及数据挖掘的智能坐席训练方法和系统 | |
CN111028860A (zh) | 音频数据处理方法、装置、计算机设备以及存储介质 | |
US20240071405A1 (en) | Detection and mitigation of loudness for a participant on a call | |
CN110138991B (zh) | 回音消除方法和装置 | |
CN114286343B (zh) | 多路外呼系统、风险识别方法、设备、介质及产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |