CN114125494A - 内容审核辅助处理方法、装置及电子设备 - Google Patents

内容审核辅助处理方法、装置及电子设备 Download PDF

Info

Publication number
CN114125494A
CN114125494A CN202111152562.4A CN202111152562A CN114125494A CN 114125494 A CN114125494 A CN 114125494A CN 202111152562 A CN202111152562 A CN 202111152562A CN 114125494 A CN114125494 A CN 114125494A
Authority
CN
China
Prior art keywords
content
target
audio
illegal
auditing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111152562.4A
Other languages
English (en)
Inventor
张悦涵
陈萌
钟伟
张磊
陈超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Alibaba China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba China Co Ltd filed Critical Alibaba China Co Ltd
Priority to CN202111152562.4A priority Critical patent/CN114125494A/zh
Publication of CN114125494A publication Critical patent/CN114125494A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/2187Live feed
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/258Client or end-user data management, e.g. managing client capabilities, user preferences or demographics, processing of multiple end-users preferences to derive collaborative data
    • H04N21/25866Management of end-user data
    • H04N21/25891Management of end-user data being end-user preferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/4508Management of client data or end-user data
    • H04N21/4532Management of client data or end-user data involving end-user characteristics, e.g. viewer profile, preferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/478Supplemental services, e.g. displaying phone caller identification, shopping application
    • H04N21/4788Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting

Abstract

本申请实施例公开了内容审核辅助处理方法、装置及电子设备,所述方法包括:获取目标会话中产生的多路上行音频流;获取所述多个参与者用户与声纹特征之间的对应关系;将所述多路上行音频流合并成混合音频流,以用于发送到审核系统进行内容安全审核;接收到所述审核系统返回的审核结果后,确定违规内容及其所在的位置,并截取出所述违规内容所在位置处的目标音频片段;将所截取出的目标音频片段分别与所述多个参与者用户的声纹特征进行匹配判断,根据匹配结果,将所述违规内容定位到其中至少一个目标参与者用户。通过本申请实施例,能够在同一会话关联多个参与者用户的情况下,以更低的成本,将违规内容定位到具体的参与者个人。

Description

内容审核辅助处理方法、装置及电子设备
技术领域
本申请涉及内容审核技术领域,特别是涉及内容审核辅助处理方法、装置及电子设备。
背景技术
UGC(User Generated Content,用户生成内容),也称用户原创内容,即用户将自己原创的内容通过互联网平台进行展示或者提供给其他用户。随着互联网、智能设备及各种新生服务的飞速发展,互联网上的数据呈现爆炸式增长,图片、视频、发文、聊天、直播等各种形式的UGC内容已经成为人们表达感情、记录事件和日常工作不可或缺的组成部分。但是,这些日益增长的内容中也充斥着各种不可控的风险因素,例如色情视频和图片、涉政暴恐内容、各种垃圾广告等等。随着相关部门监管的日渐严格,这些都是各网站及平台亟待认真对待和管理的工作。因此,内容安全审核系统便应运而生了。这种内容安全审核系统就可以对互联网中UGC内容的相关风险的安全工作进行管控。
具体而言,内容安全审核系统主要是对用户在社交平台上上传、发布或共享的内容(文字,图片,音频,视频)进行审查。其主要目的是对低质庸俗等违规内容进行过滤筛选,从而生产高质量的内容、防止降低用户体验、保持良好的内容调性。例如,其中一种审核场景就是对直播过程中的音频内容进行审核,也即,判断用户在直播过程中的发言内容是否存在违规情况,如果存在,可以提示对应的应用系统对用户进行处理,类似的场景还有游戏场景,等等。
现有技术在对直播过程中的音频内容进行安全审核时,通常是以直播间为单位进行审核,也即,对具体直播间中产生的音频流进行采集,然后提供给审核系统进行安全审核。在实际应用中,一个直播间中可以有多个主播进行发言,另外,由于在直播系统中还可以提供“连麦”功能,使得观众用户也可以在直播间内进行发言,等等。对于这种情况,现有技术的处理方式是,将同一个直播间中产生的多路音频流合并成一路,然后提供给审核系统进行安全审核。相应的,审核系统可以基于合成后的一路音频流,进行语音识别,自然语言理解等处理,判断是否存在违规内容。
这种方式虽然能够实现对直播内容的内容安全审核,但是只能在直播间粒度上,判断是否存在违规内容,相应的,如果存在违规内容,则意味着整个直播间都可能会受到惩罚。然而,实际上可能只是其中某个用户的发言存在违规情况,此时,对整个直播间都进行惩罚是不公平的。因此,在这种场景下,需要具体定位到违规的个人,而不是整个直播间。为了达到该目的,一种方案是,可以将直播过程中每个发言的用户对应的单路音频流分别提供给审核系统进行内容安全审核,但是,这会急剧增加内容审核成本,对于大部分应用系统而言,这种成本是不可承受的。另外,随着直播过程中参与发言的用户量不断扩大,也会产生审核系统侧的资源耗尽等问题。
因此,在同一会话关联多个参与者用户的情况下,如何以更低的成本,将违规内容定位到具体的参与者个人,成为需要本领域技术人员解决的技术问题。
发明内容
本申请提供了内容审核辅助处理方法、装置及电子设备,能够在同一会话关联多个参与者用户的情况下,以更低的成本,将违规内容定位到具体的参与者个人。
本申请提供了如下方案:
一种内容审核辅助处理方法,包括:
获取目标会话中产生的多路上行音频流,所述上行音频流分别由所述目标会话的多个参与者用户的客户端产生;
分别根据所述多路上行音频流,获取所述多个参与者用户与声纹特征之间的对应关系;
将所述多路上行音频流合并成混合音频流,以用于发送到审核系统进行内容安全审核;
接收到所述审核系统返回的审核结果后,确定违规内容及其所在的位置,并截取出所述违规内容所在位置处的目标音频片段;
将所截取出的目标音频片段分别与所述多个参与者用户的声纹特征进行匹配判断,根据匹配结果,将所述违规内容定位到其中至少一个目标参与者用户。
一种内容审核辅助处理装置,包括:
音频流获取单元,用于获取目标会话中产生的多路上行音频流,所述上行音频流分别由所述目标会话的多个参与者用户的客户端产生;
声纹特征提取单元,用于分别根据所述多路上行音频流,获取所述多个参与者用户与声纹特征之间的对应关系;
音频流混合送审单元,用于将所述多路上行音频流合并成混合音频流,以用于发送到审核系统进行内容安全审核;
目标音频片段截取单元,用于接收到所述审核系统返回的审核结果后,确定违规内容及其所在的位置,并截取出所述违规内容所在位置处的目标音频片段;
声纹匹配判断单元,用于将所截取出的目标音频片段分别与所述多个参与者用户的声纹特征进行匹配判断,根据匹配结果,将所述违规内容定位到其中至少一个目标参与者用户。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述任一项所述的方法的步骤。
一种电子设备,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行前述任一项所述的方法的步骤。
根据本申请提供的具体实施例,本申请公开了以下技术效果:
通过本申请实施例,可以在应用系统与审核系统之间提供中间的处理系统,该处理系统可以根据同一会话中的多路上行音频流,分别提取出多个参与者用户的声纹特征。在对音频流进行送审时,仍然可以将多路上行音频流合并成混合音频流,以此避免内容安全审核成本升高。但是,在收到具体审核系统返回的审核结果之后,可以确定出违规内容及其所在的位置,并截取出所述违规内容所在位置处的目标音频片段。这样,可以将所截取出的目标音频片段分别与所述多个参与者用户的声纹特征进行匹配判断,然后根据匹配结果,将所述违规内容定位到其中至少一个目标参与者用户。通过这种方式,可以在不会导致成本急剧上升的情况下,实现在用户粒度上对违规情况的识别,从而在需要进行惩罚等处理的情况下,可以具体惩罚到违规的个人,而不会使得同一会话中的其他参与者用户受到影响。
当然,实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的系统架构的示意图;
图2是本申请实施例提供的方法的流程图;
图3是本申请实施例提供的装置的示意图;
图4是本申请实施例提供的电子设备的示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本申请保护的范围。
在本申请实施例中,为了能够在同一会话(Session,包括直播会话,聊天会话,游戏会话等)关联多个参与者用户的情况下,以更低的成本,将违规内容定位到具体的参与者用户个人,提供了对应的解决方案。在该方案中,可以在内容安全审核系统与具体的应用系统(也即,内容生产系统,例如,直播系统,游戏系统等等)之间,建立中间层的内容审核辅助系统。具体的,应用系统可以将具体会话中产生的多路上行音频流提交到该处理系统,该处理系统除了可以对音频流进行向审核系统的送审,还可以根据每路上行音频流(其中,每个具体参与发言的用户对应一路上行音频流),提取出对应参与者用户的声纹特征。在优选的方式下,还可以对每路上行音频流进行录音处理,这样,可以为每个参与者用户保存下多条录音记录,还可以记录下具体的录音记录与具体的会话标识、产生时间等之间的对应关系,这种录音记录可以在后续进一步确认或者对用户采取惩罚等措施的过程中提供更有力的参考依据。
具体在向审核系统进行送审时,本申请实施例仍然可以将多路上行音频流合并为一路(或者几路)混合音频流,使得审核系统基于该混合音频流进行内容安全审核即可,而不需要单独为每个参与者用户对应的单路上行音频流分别进行内容安全审核。
在审核系统返回审核结果时,也会先返回到本申请实施例中的处理系统,然后,该处理系统进行定位处理后,再返回给具体的应用系统。其中,在收到审核系统返回的审核结果后,如果审核结果显示送审的音频流存在违规情况,则该处理系统可以确定出具体的违规内容(例如,可能是某用户在发言过程中用到的某个关键词或者关键语句,等等),以及违规内容所在位置处对应的音频数据(该音频数据具体也是一个很短的音频片段,也即,用户说出的上述关键词或者关键语句对应的小音频片段)。之后,由于之前可以提取到具体参与者用户的声纹特征信息,因此,可以将该音频数据与各个参与者用户的声纹特征进行匹配判断,如果与某个用户的声纹特征匹配成功,就可以确定出是该参与者用户存在违规情况。
这样,通过上述方案,由于可以根据参与者用户的声纹特征,对包含违规内容声音的音频片段进行匹配判断,因此,可以将具体的违规内容定位到具体的参与者用户个人,从而可以基于违规的参与者用户个人进行后续的惩罚等处理,例如,禁言等,而不会使得会话中的其他参与者用户受到影响。另外,由于具体在进行内容安全审核时,仍然可以基于合流后的一路或者少数几路混合音频流进行,因此,可以以较低的成本,实现对违规内容到具体目标参与者用户个人的定位。
具体从系统架构角度而言,如前文所述,本申请实施例可以提供内容审核辅助系统,如图1所示,该系统位于具体的内容安全审核系统与应用系统之间,应用系统的具体会话中产生的多路上行音频流,可以首先提交到本申请实施例的内容审核辅助系统,该系统进行声纹特征提取,以及对多路音频流进行合并成混合音频流后,向审核系统进行送审。收到审核结果之后,可以根据各个参与者用户的声纹特征,对存在违规内容声音的音频片段进行识别,确定出对应的目标参与者用户,从而将所述违规内容定位到个人。
下面对本申请实施例提供的具体实现方案进行详细介绍。
首先,本申请实施例提供了一种内容审核辅助处理方法,参见图2,该方法可以包括:
S201:获取目标会话中产生的多路上行音频流,所述上行音频流分别由所述目标会话的多个参与者用户的客户端产生。
其中,目标会话可以根据具体应用系统中的情况而定,例如,在直播系统中,可以是直播会话(一个直播间就可以对应一个直播会话),在游戏系统中,可以是游戏会话(一个游戏“房间”对应一个游戏会话),在通信系统中,还可以是聊天会话,等等。具体的会话可以包括音频会话,还可以包括视频会话等。当然,在本申请实施例中,具体需要进行内容安全审核的对象主要是指具体音频内容,在视频会话的场景中,可以由具体的应用系统从视频流中分离出音频流分量,并上传到本申请实施例所述的辅助系统,以用于进行内容安全审核,等等。
其中,同一个会话中,可以有多个参与者用户进行发言,每个参与发言的用户,就可以通过其客户端产生一路上行音频流。应用系统可以将多个参与者用户对应的多路上行音频流提供给本申请实施例中的审核处理系统。
S202:分别根据所述多路上行音频流,获取所述多个参与者用户与声纹特征之间的对应关系。
接收到多路上行音频流之后,可以分别根据每路上行音频流,提取对应参与者用户的声纹特征。具体的,由于每路上行音频流关联有参与者用户的标识,因此,在收到多路上行音频流之后,可以通过分别从每路音频流中进行声纹特征提取,并且可以与具体参与者用户标识建立起关联关系。后续便可以基于这种声纹特征,从具体违规内容对应的音频片段中,识别出说话者/发声者的身份。其中,声纹特征具体就可以是指发言者说话过程中的声学特征,是指计算机算法(数学方法)从声音信号提取出来的一组声学描述参数。具体提取声纹特征的算法可以有多种,例如,高斯混合模型(GMM),联合因子分析法(JFA),深度神经网络方法等等,这里不再详述。
具体实现时,可以直接基于每路音频流,对参与者用户进行声纹特征提取。或者,在另一种方式下,还可以分别对每路上行音频流进行录音,然后,可以基于这种录音记录,对参与者用户的声纹特征进行提取,等等。另外,在这种进行录音的方式下,还可以保存每条录音记录与所述目标会话的标识、所述参与者用户的标识、产生时间之间的对应关系。以用作后续处理的依据。例如,在通过机器识别的方式定位到具体违规内容对应的参与者用户之后,还可以通过人工的方式进行复核,此时,可以将对应时间段的录音记录提供给人工复核客户端,以作为复核依据。或者,在后续识别出具体某个参与者用户有违规情况之后,也可以将这种录音记录提供给应用系统,使得应用系统在确定是否需要对该参与者用户进行惩罚之前,可以结合这种录音记录做出更准确的判断,等等。
这里需要说明的是,在直播等场景中,虽然可能有多个用户在同一直播间会话中发言,但是,可能有些用户只是偶尔发言,尤其是观众用户等,而主播等用户则可能会有比较长时间的发言,等等。也就是说,有些上行音频流中,可能只有部分时间有语音信号,有些上行音频流中则可能持续有语音信号,等等。而在进行录音时,可以对上行音频流中的语音信号进行检测,如果检测到有语音信号,则进行录音,否则,可以不必进行录音,因此,同一个参与者用户可以对应多条录音记录,分别对应不同的时间信息。另外,即使对于主播用户等连续性发言的情况,在进行录制时,也可以拆分成多条不同的录音记录。因此,具体对于某个会话者的多个参与者用户而言,可以分别对应多条录音记录,每条录音记录可以对应各自的起始时间、结束时间等信息。
S203:将所述多路上行音频流合并成混合音频流,以用于发送到审核系统进行内容安全审核。
除了可以从每路上行音频流中获取各参与者用户的声纹特征,进行录音等之外,本申请实施例中的处理系统还可以执行送审处理。具体的,在本申请实施例中,仍然可以将多路上行音频流合并成混合音频流(例如,可以合并成一路混合音频流,等等),之后,可以基于这种混合音频流,向审核系统发送审核请求,以对混合音频流的内容进行安全审核。
其中,具体实现时,由于混合音频流属于流式数据,因此,在上传到审核系统之前,还可以首先将混合音频流切分成多个音频段落。例如,每12秒(也可以是其他时间长度)作为一个音频段落,等等。这样,具体的审核系统就可以以这种音频段落为单位,进行内容安全审核。具体的审核系统进行安全审核时,可以有多种方式,例如,一种方式下,可以对音频段落进行语音识别,也即,将语音信号转换为文本,然后,利用自然语言理解的相关算法,对转换出的文本进行自然语言理解,判断其中是否存在违规内容,其中,违规内容主要是一些带有敏感词的关键词,或者关键语句,等等。
S204:接收到所述审核系统返回的审核结果后,确定违规内容及其所在的位置,并截取出所述违规内容所在位置处的目标音频片段。
审核系统在根据接收到的审核请求进行内容安全审核之后,可以向本申请实施例中提供的处理系统返回审核结果。具体的,如果以前述切分出的音频段落为单位申请进行内容安全审核,则具体的审核结果中主要可以包括:具体存在违规情况的音频段落。也就是说,使得处理系统可以获知,具体哪个或者哪些音频段落存在违规情况。
但是,由于具体的违规内容通常是关键词、关键语句等,因此,即使切分成音频段落,具体违规内容通常也只出现在具体音频段落中的某个位置处。例如,一个音频段落可能为12秒,而违规内容是一个关键词,只出现在该段落中,从第3至5秒之间的一个小的音频片段,等等。而只有根据具体违规内容对应的音频片段,才能够与多个参与者用户的声纹特征进行匹配,进而确定具体是哪个参与者用户说出的该违规内容。
因此,在具体实现时,收到具体的审核结果之后,还可以确定违规内容,以及所述违规内容在所述目标音频段落中的位置,并且,根据所述违规内容在所述目标音频段落中的位置,从所述目标音频段落中对应的位置处截取出所述目标音频片段,以用于进行后续的声纹识别。
具体的,确定违规内容及其所在位置的方式可以有多种。例如,一种方式下,如果审核系统返回的审核结果仅包括具体存在违规情况的音频段落,也即,从审核系统返回的审核结果中,只能知晓哪个或那几个音频段落存在违规情况,但是,具体的违规内容是什么,以及出现在具体段落中的什么位置,都是不知道的。此时,还可以由具体的处理系统,从存在违规情况的音频段落中,进行违规内容及其位置的识别。
例如,具体实现时,可以对所述目标音频段落进行语音识别(可以包括具体识别出的文本,以及具体文本内容在音频时间轴上对应的时间信息),然后,可以将语音识别结果与预置的词库进行匹配。该词库中可以预先保存多个与违规相关的关键词,这样,如果语音识别结果命中所述词库中的某关键词,则可以将该关键词确定为所述违规内容,并将该关键词在所述目标音频段落中的位置(也即,在音频段落时间轴上的起始时间以及结束时间),确定为所述违规内容在所述目标音频段落中的位置。
或者,在另一种方式下,审核系统返回的审核结果中可以不仅包括哪些音频段落中存在违规情况,还可以包括具体存在违规情况的音频段落中,具体包含的违规内容是什么,以及该违规内容出现在该音频段落中的具体什么位置,等等。这样,可以直接根据审核系统返回的结果,确定出具体的违规内容,以及违规内容在具体音频段落中的位置,等等。
S205:将所截取出的目标音频片段分别与所述多个参与者用户的声纹特征进行匹配判断,根据匹配结果,将所述违规内容定位到其中至少一个目标参与者用户。
在截取出与具体违规内容的发声位置对应的目标音频片段之后,可以将所截取出的目标音频片段分别与所述多个参与者用户的声纹特征进行匹配判断,这样,便可以根据匹配结果,将所述违规内容定位到其中至少一个目标参与者用户。也就是说,虽然在送审时,是将同一会话中的多路上行音频流合并成了一路混合音频流,审核系统返回的审核结果中,也只能在会话粒度上,确定是否存在违规情况。但是,通过本申请实施例中,对具体违规内容及其位置的确定,以及对违规内容所在位置处的音频片段与多个参与者用户的声纹特征进行匹配的方式,可以将具体的违规内容定位到具体的参与者用户个人(可以是一个或多个)。这样,即使后续需要对具体的违规情况进行处理,例如,进行处罚等,也仅处罚该个人即可,同一会话中的其他用户不会受到影响。
具体实现时,由于下游链路中可能涉及到对用户的惩罚,因此,可以更谨慎地给出具体的判断结果。为此,在具体实现时,在通过计算机算法对违规内容进行确定,并定位到具体产生该违规内容的参与者用户个人之后,还可以通过人工干预的方式,对具体的定位结果进行进一步的确认。例如,具体的,在将所述违规内容定位到其中一目标参与者用户之后,可以将所述审核系统给出的审核结果、本申请实施例中的处理系统得出的从违规内容到目标参与者用户个人的定位结果,以及所述目标参与者用户在对应时间段的录音记录,提供给人工审核客户端,以便通过人工审核的方式,对定位结果进行进一步确认。例如,可以通过人工对录音记录进行收听的方式,判断是否真的存在违规内容,以及对应的参与者用户是否为算法识别出的用户,等等。其中,可以向人工审核客户端提供相对比较长时间的录音记录,使得人工审核时,可以结合具体发言内容的上下文等,做出更准确的判断。
另外,在将所述违规内容定位到其中一目标参与者用户之后(还可以在进一步的人工审核确认之后),将所述审核结果、定位结果以及所述目标参与者用户在对应时间段的录音记录,提供给对应的应用系统,以便所述应用系统确定是否对所述目标参与者用户进行惩罚。也就是说,在本申请实施例中,不仅可以确定出具体违规的用户个人,而且,具体在判断是否对违规者进行惩罚时,不仅可以依据结论性的审核结果或者定位结果,还可以结合具体的录音记录获取到用户在当时发言过程中的原声数据,通过收听这种录音记录的方式,可以做出更准确的判断。
总之,通过本申请实施例,可以在应用系统与审核系统之间提供中间的处理系统,该处理系统可以根据同一会话中的多路上行音频流,分别提取出多个参与者用户的声纹特征。在对音频流进行送审时,仍然可以将多路上行音频流合并成混合音频流,以此避免内容安全审核成本升高。但是,在收到具体审核系统返回的审核结果之后,可以确定出违规内容及其所在的位置,并截取出所述违规内容所在位置处的目标音频片段。这样,可以将所截取出的目标音频片段分别与所述多个参与者用户的声纹特征进行匹配判断,然后根据匹配结果,将所述违规内容定位到其中至少一个目标参与者用户。通过这种方式,可以在不会导致成本急剧上升的情况下,实现在用户粒度上对违规情况的识别,从而在需要进行惩罚等处理的情况下,可以具体惩罚到违规的个人,而不会使得同一会话中的其他参与者用户受到影响。
需要说明的是,本申请实施例中可能会涉及到对用户数据的使用,在实际应用中,可以在符合所在国的适用法律法规要求的情况下(例如,用户明确同意,对用户切实通知,等),在适用法律法规允许的范围内在本文描述的方案中使用用户特定的个人数据。
与前述方法实施例相对应,本申请实施例还提供了一种内容审核辅助处理装置,参见图3,该装置可以包括:
音频流获取单元301,用于获取目标会话中产生的多路上行音频流,所述上行音频流分别由所述目标会话的多个参与者用户的客户端产生;
声纹特征提取单元302,用于分别根据所述多路上行音频流,获取所述多个参与者用户与声纹特征之间的对应关系;
音频流混合送审单元303,用于将所述多路上行音频流合并成混合音频流,以用于发送到审核系统进行内容安全审核;
目标音频片段截取单元304,用于接收到所述审核系统返回的审核结果后,确定违规内容及其所在的位置,并截取出所述违规内容所在位置处的目标音频片段;
声纹匹配判断单元305,用于将所截取出的目标音频片段分别与所述多个参与者用户的声纹特征进行匹配判断,根据匹配结果,将所述违规内容定位到其中至少一个目标参与者用户。
具体实现时,该装置还可以包括:
录制单元,用于分别对所述多路上行音频流进行录制,并保存录制记录与所述目标会话的标识、所述参与者用户的标识、产生时间之间的对应关系,以用作后续处理的依据。
另外,该装置还可以包括:
第一录制结果提供单元,用于在将所述违规内容定位到其中一目标参与者用户之后,将所述审核结果、定位结果以及所述目标参与者用户在对应时间段的录制记录,提供给人工审核客户端,以便通过人工审核的方式,对定位结果进行进一步确认。
再者,该装置还可以包括:
第二录制结果提供单元,用于在将所述违规内容定位到其中一目标参与者用户之后,将所述审核结果、定位结果以及所述目标参与者用户在对应时间段的录制记录,提供给对应的应用系统,以便所述应用系统确定是否对所述目标参与者用户进行处理。
具体实现时,该装置还可以包括:
段落切分单元,用于将所述多路上行音频流合并成混合音频流后,将所述混合音频流切分为多个音频段落,以便所述审核系统以所述音频段落为单位进行内容安全审核;
所述审核系统返回的审核结果包括:存在违规内容的目标音频段落;
所述目标音频片段截取单元具体可以包括:
违规内容位置确定子单元,用于确定违规内容,以及所述违规内容在所述目标音频段落中的位置;
截取子单元,用于根据所述违规内容在所述目标音频段落中的位置,从所述目标音频段落中对应的位置处截取出所述目标音频片段。
具体的,所述违规内容位置确定子单元具体可以用于:
对所述目标音频段落进行语音识别,并将语音识别结果与预置的词库进行匹配;
如果命中所述词库中的某关键词,则将该关键词确定为所述违规内容,并将该关键词在所述目标音频段落中的位置,确定为所述违规内容在所述目标音频段落中的位置。
或者,另一种方式下,所述审核系统返回的审核结果中还可以包括:所述违规内容,以及所述违规内容在所述目标音频片段中的位置信息;
此时,所述违规内容位置确定子单元具体可以用于:
根据所述审核系统返回的审核结果确定违规内容,以及所述违规内容在所述目标音频片段中的位置。
另外,本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述方法实施例中任一项所述的方法的步骤。
以及一种电子设备,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行前述方法实施例中任一项所述的方法的步骤。
其中,图4示例性的展示出了电子设备的架构,具体可以包括处理器410,视频显示适配器411,磁盘驱动器412,输入/输出接口413,网络接口414,以及存储器420。上述处理器410、视频显示适配器411、磁盘驱动器412、输入/输出接口413、网络接口414,与存储器420之间可以通过通信总线430进行通信连接。
其中,处理器410可以采用通用的CPU(Central Processing Unit,中心处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本申请所提供的技术方案。
存储器420可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器420可以存储用于控制电子设备400运行的操作系统421,用于控制电子设备400的低级别操作的基本输入输出系统(BIOS)。另外,还可以存储网页浏览器423,数据存储管理系统424,以及内容审核辅助处理系统425等等。上述内容审核辅助处理系统425就可以是本申请实施例中具体实现前述各步骤操作的应用程序。总之,在通过软件或者固件来实现本申请所提供的技术方案时,相关的程序代码保存在存储器420中,并由处理器410来调用执行。
输入/输出接口413用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
网络接口414用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线430包括一通路,在设备的各个组件(例如处理器410、视频显示适配器411、磁盘驱动器412、输入/输出接口413、网络接口414,与存储器420)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器410、视频显示适配器411、磁盘驱动器412、输入/输出接口413、网络接口414,存储器420,总线430等,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本申请方案所必需的组件,而不必包含图中所示的全部组件。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本申请所提供的内容审核辅助处理方法、装置及电子设备,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种内容审核辅助处理方法,其特征在于,包括:
获取目标会话中产生的多路上行音频流,所述上行音频流分别由所述目标会话的多个参与者用户的客户端产生;
分别根据所述多路上行音频流,获取所述多个参与者用户与声纹特征之间的对应关系;
将所述多路上行音频流合并成混合音频流,以用于发送到审核系统进行内容安全审核;
接收到所述审核系统返回的审核结果后,确定违规内容及其所在的位置,并截取出所述违规内容所在位置处的目标音频片段;
将所截取出的目标音频片段分别与所述多个参与者用户的声纹特征进行匹配判断,根据匹配结果,将所述违规内容定位到其中至少一个目标参与者用户。
2.根据权利要求1所述的方法,其特征在于,还包括:
分别对所述多路上行音频流进行录制,并保存录制记录与所述目标会话的标识、所述参与者用户的标识、产生时间之间的对应关系,以用作后续处理的依据。
3.根据权利要求2所述的方法,其特征在于,还包括:
在将所述违规内容定位到其中一目标参与者用户之后,将所述审核结果、定位结果以及所述目标参与者用户在对应时间段的录制记录,提供给人工审核客户端,以便通过人工审核的方式,对定位结果进行进一步确认。
4.根据权利要求2或3所述的方法,其特征在于,还包括:
在将所述违规内容定位到其中一目标参与者用户之后,将所述审核结果、定位结果以及所述目标参与者用户在对应时间段的录制记录,提供给对应的应用系统,以便所述应用系统确定是否对所述目标参与者用户进行处理。
5.根据权利要求1所述的方法,其特征在于,
所述将所述多路上行音频流合并成混合音频流后,还包括:
将所述混合音频流切分为多个音频段落,以便所述审核系统以所述音频段落为单位进行内容安全审核;
所述审核系统返回的审核结果包括:存在违规内容的目标音频段落;
所述确定违规内容及其所在的位置,并截取出所述违规内容所在位置处的目标音频数据,包括:
确定违规内容,以及所述违规内容在所述目标音频段落中的位置;
根据所述违规内容在所述目标音频段落中的位置,从所述目标音频段落中对应的位置处截取出所述目标音频片段。
6.根据权利要求5所述的方法,其特征在于,
所述确定违规内容,以及所述违规内容在所述目标音频段落中的位置,包括:
对所述目标音频段落进行语音识别,并将语音识别结果与预置的词库进行匹配;
如果命中所述词库中的某关键词,则将该关键词确定为所述违规内容,并将该关键词在所述目标音频段落中的位置,确定为所述违规内容在所述目标音频段落中的位置。
7.根据权利要求5所述的方法,其特征在于,
所述审核系统返回的审核结果中还包括:所述违规内容,以及所述违规内容在所述目标音频片段中的位置信息;
所述确定违规内容,以及所述违规内容在所述目标音频片段中的位置,包括:
根据所述审核系统返回的审核结果确定违规内容,以及所述违规内容在所述目标音频片段中的位置。
8.一种内容审核辅助处理装置,其特征在于,包括:
音频流获取单元,用于获取目标会话中产生的多路上行音频流,所述上行音频流分别由所述目标会话的多个参与者用户的客户端产生;
声纹特征提取单元,用于分别根据所述多路上行音频流,获取所述多个参与者用户与声纹特征之间的对应关系;
音频流混合送审单元,用于将所述多路上行音频流合并成混合音频流,以用于发送到审核系统进行内容安全审核;
目标音频片段截取单元,用于接收到所述审核系统返回的审核结果后,确定违规内容及其所在的位置,并截取出所述违规内容所在位置处的目标音频片段;
声纹匹配判断单元,用于将所截取出的目标音频片段分别与所述多个参与者用户的声纹特征进行匹配判断,根据匹配结果,将所述违规内容定位到其中至少一个目标参与者用户。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至7任一项所述的方法的步骤。
10.一种电子设备,其特征在于,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行权利要求1至7任一项所述的方法的步骤。
CN202111152562.4A 2021-09-29 2021-09-29 内容审核辅助处理方法、装置及电子设备 Pending CN114125494A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111152562.4A CN114125494A (zh) 2021-09-29 2021-09-29 内容审核辅助处理方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111152562.4A CN114125494A (zh) 2021-09-29 2021-09-29 内容审核辅助处理方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN114125494A true CN114125494A (zh) 2022-03-01

Family

ID=80441635

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111152562.4A Pending CN114125494A (zh) 2021-09-29 2021-09-29 内容审核辅助处理方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN114125494A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114979727A (zh) * 2022-05-18 2022-08-30 雨果网(厦门)跨境电商有限公司 一种广告违规聚集审核系统
CN115914179A (zh) * 2022-12-08 2023-04-04 上海哔哩哔哩科技有限公司 音频审核方法、装置、计算设备及存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9325809B1 (en) * 2012-09-07 2016-04-26 Mindmeld, Inc. Audio recall during voice conversations
CN106782551A (zh) * 2016-12-06 2017-05-31 北京华夏电通科技有限公司 一种语音识别系统及方法
CN108989864A (zh) * 2018-07-24 2018-12-11 武汉斗鱼网络科技有限公司 一种连麦方法、装置、设备及存储介质
CN109753778A (zh) * 2018-12-30 2019-05-14 北京城市网邻信息技术有限公司 用户的审核方法、装置、设备及存储介质
CN110021302A (zh) * 2019-03-06 2019-07-16 厦门快商通信息咨询有限公司 一种智能办公会议系统及会议记录方法
CN111028845A (zh) * 2019-12-06 2020-04-17 广州国音智能科技有限公司 多音频识别方法、装置、设备及可读存储介质
CN111128196A (zh) * 2019-12-06 2020-05-08 北京工业大学 基于声纹特征识别主播的方法及装置
CN112019874A (zh) * 2020-09-09 2020-12-01 广州华多网络科技有限公司 一种连麦直播方法及相关设备
CN112700781A (zh) * 2020-12-24 2021-04-23 江西台德智慧科技有限公司 一种基于人工智能的语音交互系统
CN112995696A (zh) * 2021-04-20 2021-06-18 共道网络科技有限公司 一种直播间违规检测方法及装置
CN113422975A (zh) * 2021-06-17 2021-09-21 武汉氪细胞网络技术有限公司 一种后台直播视频审核方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9325809B1 (en) * 2012-09-07 2016-04-26 Mindmeld, Inc. Audio recall during voice conversations
CN106782551A (zh) * 2016-12-06 2017-05-31 北京华夏电通科技有限公司 一种语音识别系统及方法
CN108989864A (zh) * 2018-07-24 2018-12-11 武汉斗鱼网络科技有限公司 一种连麦方法、装置、设备及存储介质
CN109753778A (zh) * 2018-12-30 2019-05-14 北京城市网邻信息技术有限公司 用户的审核方法、装置、设备及存储介质
CN110021302A (zh) * 2019-03-06 2019-07-16 厦门快商通信息咨询有限公司 一种智能办公会议系统及会议记录方法
CN111028845A (zh) * 2019-12-06 2020-04-17 广州国音智能科技有限公司 多音频识别方法、装置、设备及可读存储介质
CN111128196A (zh) * 2019-12-06 2020-05-08 北京工业大学 基于声纹特征识别主播的方法及装置
CN112019874A (zh) * 2020-09-09 2020-12-01 广州华多网络科技有限公司 一种连麦直播方法及相关设备
CN112700781A (zh) * 2020-12-24 2021-04-23 江西台德智慧科技有限公司 一种基于人工智能的语音交互系统
CN112995696A (zh) * 2021-04-20 2021-06-18 共道网络科技有限公司 一种直播间违规检测方法及装置
CN113422975A (zh) * 2021-06-17 2021-09-21 武汉氪细胞网络技术有限公司 一种后台直播视频审核方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114979727A (zh) * 2022-05-18 2022-08-30 雨果网(厦门)跨境电商有限公司 一种广告违规聚集审核系统
CN115914179A (zh) * 2022-12-08 2023-04-04 上海哔哩哔哩科技有限公司 音频审核方法、装置、计算设备及存储介质

Similar Documents

Publication Publication Date Title
CN110365996B (zh) 直播管理方法、直播管理平台、电子设备及存储介质
KR101731404B1 (ko) 음성 및/또는 안면 인식 기반 서비스 제공
US9412371B2 (en) Visualization interface of continuous waveform multi-speaker identification
US9621851B2 (en) Augmenting web conferences via text extracted from audio content
US20240127798A1 (en) Training speech recognition systems using word sequences
CN114125494A (zh) 内容审核辅助处理方法、装置及电子设备
CN112653902B (zh) 说话人识别方法、装置及电子设备
CN109462482B (zh) 声纹识别方法、装置、电子设备及计算机可读存储介质
CN109671438A (zh) 一种利用语音提供辅助服务的装置及方法
US20210295826A1 (en) Real-time concurrent voice and text based communications
CN110517668A (zh) 一种中英文混合语音识别系统及方法
CN109360565A (zh) 一种通过建立资源库提高语音识别精度的方法
CN109003600B (zh) 消息处理方法及装置
CN111626061A (zh) 会议记录生成方法、装置、设备及可读存储介质
CN110460798B (zh) 视频访谈服务处理方法、装置、终端与存储介质
CN107026949A (zh) 回访语音信息的处理方法和装置
US11488604B2 (en) Transcription of audio
CN114902217A (zh) 用于认证数字内容的系统
US11318373B2 (en) Natural speech data generation systems and methods
CN113852835A (zh) 直播音频处理方法、装置、电子设备以及存储介质
CN112182047B (zh) 一种信息推荐方法、装置、设备及介质
CN106850539A (zh) 一种验证信息获取方法和装置
CN111785280A (zh) 身份认证方法和装置、存储介质和电子设备
CN112383770A (zh) 一种通过语音识别技术的影视版权监测比对方法
CN111883123B (zh) 基于ai识别的会议纪要生成方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination