CN111383659B - 分布式语音监控方法、装置、系统、存储介质和设备 - Google Patents

分布式语音监控方法、装置、系统、存储介质和设备 Download PDF

Info

Publication number
CN111383659B
CN111383659B CN201811628102.2A CN201811628102A CN111383659B CN 111383659 B CN111383659 B CN 111383659B CN 201811628102 A CN201811628102 A CN 201811628102A CN 111383659 B CN111383659 B CN 111383659B
Authority
CN
China
Prior art keywords
audio
machine
data
voice
audio data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811628102.2A
Other languages
English (en)
Other versions
CN111383659A (zh
Inventor
程文聪
徐子为
姚星辉
黄振辉
全超豪
刘振强
白林喜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bigo Technology Singapore Pte Ltd
Original Assignee
Guangzhou Baiguoyuan Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Baiguoyuan Information Technology Co Ltd filed Critical Guangzhou Baiguoyuan Information Technology Co Ltd
Priority to CN201811628102.2A priority Critical patent/CN111383659B/zh
Priority to PCT/CN2019/116774 priority patent/WO2020134646A1/zh
Publication of CN111383659A publication Critical patent/CN111383659A/zh
Application granted granted Critical
Publication of CN111383659B publication Critical patent/CN111383659B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/72Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for transmitting results of analysis

Abstract

本发明提供一种分布式语音监控方法,包括:获取归属同一机房的音频流数据;按照预置推审策略,从所述音频流数据中采集待审音频数据;将所述待审音频数据输入预先训练的音频识别模型,得到对应所述音频识别模型的预测值;根据所述预测值,生成音频机审结果。该方法可实现高投入产出比、高覆盖面、低延迟、高识别率和高效的语音监控审核,可满足多运营商混合组网部署网络环境下高活跃度语音社交应用的音频内容监控需求。

Description

分布式语音监控方法、装置、系统、存储介质和设备
技术领域
本发明涉及语音内容监控技术领域,具体而言,本发明涉及一种分布式语音监控方法、装置、系统、计算机可读存储介质和计算机设备。
背景技术
随着互联网的快速普及,以语音交流为主打手段进行沟通、交友、聊天和直播的社交应用颇受人们追捧。然而,庞大的用户群容易造成以语音房间形式进行的语音直播内容及语音聊天内容存在较大的不确定性,存在不法分子通过语音社交应用传播违规不良信息,影响应用平台的正常运营,因此需要对音频格式的聊天、直播内容进行实时审核识别,以及时打击语音社交应用内的违规不良行为。
目前,可通过用户举报、房管巡查或者结合机器识别定期采集音频数据等方式实现监控审核,但其局限性在于,用户举报、房管巡查的监控审核方式覆盖面低、信息滞后较大且监控审核效率低下,容易造成恶性事件已经发生并产生恶劣的社会影响;而结合机器识别定期采集音频数据的方式通常采用中心化方式提供服务,在多运营商组网部署环境下,所有的音频数据要集中送到中心机器识别系统,中心机器识别系统庞大而复杂,建设成本高,且还需对跨运营商之间的流量费用投入大量成本,投入产出比低下。
因此,现有的监控审核方法难以满足高活跃度的语音社交应用的语音内容审核需求,对于具有庞大数据量级音频数据的高活跃度语音社交应用,如何实现高投入产出比、高覆盖面、低延迟、高识别率和高效的语音监控是个非常大的挑战。
发明内容
为至少能解决上述的技术缺陷之一,本发明提供了以下技术方案的分布式语音监控方法及对应的装置、系统、计算机可读存储介质和计算机设备。
本发明的实施例根据第一个方面,提供了一种分布式语音监控方法,包括如下步骤:
获取归属同一机房的音频流数据;
按照预置推审策略,从所述音频流数据中采集待审音频数据;
将所述待审音频数据输入预先训练的音频识别模型,得到对应所述音频识别模型的预测值;
根据所述预测值,生成音频机审结果。
在一个实施例中,所述获取归属同一机房的音频流数据,包括:
接收归属同一机房的媒体服务器发送的机审服务调用请求;
响应所述机审服务调用请求,获取所述媒体服务器上传的音频流数据。
在一个实施例中,所述按照预置推审策略,从所述音频流数据中采集待审音频数据之后,将所述待审音频数据输入预先训练的音频识别模型,得到对应所述音频识别模型的预测值之前,还包括:
保存所述待审音频数据,确定保存所述待审音频数据的统一资源定位符URL;
根据所述待审音频数据的关联信息和所述统一资源定位符URL,生成所述待审音频数据的待审消息;将所述待审音频数据的待审消息写入Kafka待审消息队列;
当从所述Kafka待审消息队列读取所述待审消息时,根据所述待审消息中的所述统一资源定位符URL下载所述待审音频数据。
在一个实施例中,所述按照预置推审策略,从所述音频流数据中采集待审音频数据之前,还包括:
以预置周期采集应用内的用户行为数据和用户标签数据,生成按用户分级推审的预置推审策略;和/或
以预置周期采集应用内的语音房间标签数据,生成按语音房间分级推审的预置推审策略。
在一个实施例中,所述按照预置推审策略,从所述音频流数据中采集待审音频数据,包括:
确定所述音频流数据对应的用户和/或语音房间;
按照预置推审策略,确定对应所述用户和/或语音房间的待审音频数据的采集频率和采集时长;
以所述采集频率和采集时长从所述音频流数据中采集待审音频数据。
在一个实施例中,所述按照预置推审策略,从所述音频流数据中采集待审音频数据之前,还包括:
当达到预置容灾条件时,接收归属同一运营商跨机房的音频流数据。
在一个实施例中,所述根据所述预测值,生成音频机审结果之后,还包括:
根据所述音频机审结果,判断是否复审所述待审音频数据;
若是,根据所述音频机审结果,生成所述待审音频数据的机审结果消息;将所述待审音频数据的机审结果消息写入Kafka机审结果消息队列;
当从所述Kafka机审结果消息队列读取所述机审结果消息时,将所述待审音频数据的机审结果分发复审系统。
本发明的实施例根据第二个方面,提供了一种分布式语音监控方法,包括如下步骤:
服务注册和发现系统广播与媒体服务器归属同一机房的机审系统的地址信息;
媒体服务器根据所述地址信息,向归属同一机房的机审系统发送音频流数据;
机审系统获取归属同一机房的所述音频流数据;按照预置推审策略,从所述音频流数据中采集待审音频数据;将所述待审音频数据输入预先训练的音频识别模型,得到对应所述音频识别模型的预测值;根据所述预测值,生成音频机审结果。
在一个实施例中,所述根据所述预测值,生成音频机审结果之后,还包括:
所述机审系统根据所述音频机审结果,确定复审所述待审音频数据;将所述待审音频数据的音频机审结果分发复审系统;
所述复审系统接收所述待审音频数据的音频机审结果;根据所述音频机审结果对所述待审音频数据进行复审,得到所述待审音频数据的复审结果。
在一个实施例中,所述根据所述音频机审结果对所述待审音频数据进行复审,得到所述待审音频数据的复审结果之后,还包括:
当所述复审结果为存在违规行为时,所述复审系统确定所述待审音频数据对应的用户;根据服务注册和发现系统广播的所述用户客户端应用的违规处罚接口地址信息,向所述用户客户端应用的违规处罚接口发送违规行为处罚调用请求;
所述客户端应用对所述用户进行违规处罚。
此外,本发明的实施例根据第三个方面,提供了一种分布式语音监控装置,包括:
音频流数据获取模块,用于获取归属同一机房的音频流数据;
待审音频数据采集模块,用于按照预置推审策略,从所述音频流数据中采集待审音频数据;
音频识别模块,用于将所述待审音频数据输入预先训练的音频识别模型,得到对应所述音频识别模型的预测值;
机审结果生成模块,用于根据所述预测值,生成音频机审结果。
本发明的实施例根据第四个方面,提供了一种分布式语音监控系统,包括:服务注册和发现系统、媒体服务器和机审系统;其中,
所述服务注册和发现系统,用于广播与媒体服务器归属同一机房的机审系统的地址信息;
所述媒体服务器,用于根据所述地址信息,向归属同一机房的机审系统发送音频流数据;
所述机审系统,用于获取归属同一机房的所述音频流数据;按照预置推审策略,从所述音频流数据中采集待审音频数据;将所述待审音频数据输入预先训练的音频识别模型,得到对应所述音频识别模型的预测值;根据所述预测值,生成音频机审结果。
在一个实施例中,所述分布式语音监控系统还包括复审系统;其中,
所述机审系统,还用于根据所述音频机审结果,确定复审所述待审音频数据;将所述待审音频数据的音频机审结果分发复审系统;
所述复审系统,用于接收所述待审音频数据的音频机审结果;根据所述音频机审结果对所述待审音频数据进行复审,得到所述待审音频数据的复审结果。
本发明的实施例根据第五个方面,提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述的分布式语音监控方法。
本发明的实施例根据第六个方面,提供了一种计算机设备,所述计算机包括一个或多个处理器;存储器;一个或多个计算机程序,其中所述一个或多个计算机程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个计算机程序配置用于:执行上述的分布式语音监控方法。
本发明与现有技术相比,具有以下有益效果:
本发明提供的分布式语音监控方法、装置、系统、计算机可读存储介质和计算机设备,通过分布式去中心化的机审方式,无需以高昂的建设成本构建庞大、复杂的中心机审系统,并使得音频流数据在正常情况下都在本机房流转,不会产生跨机房、跨运营商带宽流量,可实现较高的投入产出比,显著降低音频内容监控成本;通过各个机审系统相互协作,分别对其归属同一机房的待审音频数据进行机器识别审核,可打通与高活跃度语音社交应用庞大数量级的音频流数据的实时推审,支持低延迟的监控审核,且机器识别审核支持足够大的审核覆盖面,可实现较高的识别率和审核效率。该方法可实现高投入产出比、高覆盖面、低延迟、高识别率和高效的语音监控审核,可满足多运营商混合组网部署网络环境下高活跃度语音社交应用的音频内容监控需求。
此外,还通过在机审系统中引入Kafka消息中间件辅助机审系统的语音监控审核,可保证系统灵活、易水平扩缩容,且其削锋填谷的特性可保证系统的高可用和高可靠,消息的实例化存储可实现灵活的重试策略,有效满足多运营商混合组网部署网络环境下高活跃度、瞬时高并发语音社交应用的音频内容监控需求。
此外,还通过基于分级推审的推审策略,按用户、语音房间实现不同的待审音频数据的采集频率和采集时长,可使审核监控范围更有针对性,对监控对象有分级策略从而达到合理的监控覆盖范围,还可达到较高的审核识别率、正确率,显著提高机审系统的运作效率。
此外,还通过服务注册和发现系统、按单线机房部署的MS媒体服务器和机审系统实现分布式去中心化的纯语音内容监控审核,还结合复审系统实现机审结果复审,并根据复审结果请求客户端应用处罚存在违规行为的用户,实现从语音社交应用音频流数据推审到机器识别审核、机审结果复审,再到语音社交应用处罚效果端到端的纯语音内容审核和监控闭环流程,可支持高并发、低审核延迟,能够快速把违规信息和内容扼杀,避免恶性事件的发生、散播,可满足多运营商混合组网部署网络环境下高活跃度、瞬时高并发语音社交应用的音频内容监控需求。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例提供的第一种分布式语音监控方法的方法流程图;
图2为本发明实施例提供的第二种分布式语音监控方法的方法流程图;
图3为本发明实施例提供的Kafka待审消息队列处理方法的方法流程图;
图4为本发明实施例提供的第三种分布式语音监控方法的方法流程图;
图5为本发明实施例提供的第四种分布式语音监控方法的方法流程图;
图6为本发明实施例提供的第五种分布式语音监控方法的方法流程图;
图7为本发明实施例提供的分布式语音监控装置的结构示意图;
图8为本发明实施例提供的第一种分布式语音监控系统的结构示意图;
图9为本发明实施例提供的第二种分布式语音监控系统的结构示意图;
图10为本发明实施例提供的第三种分布式语音监控系统的结构示意图;
图11为本发明实施例提供的计算机设备的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本发明实施例所涉及的名词:
语音社交应用:以语音交流为主打手段进行沟通,交友,聊天,直播的社交应用。
服务注册和发现系统:提供审核监控过程中各服务进程的注册,以及向注册的服务进程提供广播服务上下线通知的系统。
MS(Media Server)媒体服务器:管理语音社交应用实时产生的音频流数据并将音频流数据向机审系统进行推流。
机审系统:提供纯语音内容的机器识别审核服务的系统。
复审系统:提供机器识别审核结果复审服务的系统。
单线机房:单线机房只有一条运营商的线路,如电信、联通或者移动线路,单线机房仅允许对应运营商的用户访问。单线机房带宽便宜。
双线机房:双线机房指机房有两条运营商的线路,如同时有电信、联通线路,则电信、联通用户都能访问。双线机房带宽费用昂贵。
多线机房:多线机房指机房同时有多条运营商的线路,多线机房允许对应上述多条运营商的用户访问。多线机房带宽费用昂贵。
Kafka消息中间件:是LinkedIn开源的分布式发布-订阅消息系统,目前归属于Apache定级项目。Kafka主要特点是基于Pull的模式来处理消息消费,追求高吞吐量,对消息的重复、丢失、错误没有严格要求,适合产生大量数据的互联网服务的数据收集业务。
容灾:构建两套或者多套功能相同的系统,相互之间可以进行健康态监视和功能切换,当一处系统因如火灾、地震等意外停止工作时,其他系统可随即起到接管处理的作用。
有必要先对语音监控审核的特点进行如下的先导性说明。
相对于文字聊天内容、视频直播内容的监控审核,纯语音内容的监控审核具有更高的难度,具体表现在:
语音聊天和直播的内容要求很高的实时性,不宜采用先审核再呈现给用户的模式。只能采取巡查,或者音频延迟采集推审,对审核发现的违规行为进行处罚的方式。审核和处罚的延迟容易造成恶性事件已经发生,并产生恶劣的社会影响。需要支持低延迟的审核。
文字识别、图像识别都已经发展了很长时间,有成熟的机器识别技术,可以快速辅助审核人员识别,人工审识别图片和文字也更加迅速。而音频内容识别的技术发展相对滞后,音频内容和场景多样,常常伴有周围噪声和背景音乐等,信道复杂,语音质量参差不齐,信噪比较低,音频时长长短不一,大部分发言非常短,信息量不足。人工审核音频得花时间听足够时长后才能判断是否违规,审核工作量大,效率低。
目前,高活跃度的语音社交应用,为了支持高并发、容灾,通常选择多个网络运营商、多个单线机房部署音频媒体服务器,每日产生的音频数据量级非常大,一般达到10TB级别。对于具有庞大数据量级音频数据的高活跃度语音社交应用,如何实现高投入产出比、高覆盖面、低延迟、高可靠、易于扩展、高识别率和高效的语音监控审核是个非常大的挑战。
对此,本发明实施例提供了一种分布式语音监控方法,应用于机审系统,如图1所示,该方法包括:
步骤S110:获取归属同一机房的音频流数据。
对于本实施例,所述音频流数据为高活跃度的语音社交应用中用户通过语音房间的形式进行语音聊天、语音直播期间实时产生的所有二进制音频流数据。其中,所述音频流数据由语音社交应用部署的MS媒体服务器提供。
对于本实施例,MS媒体服务器和机审系统均按机房进行部署,在机审系统运作正常情况下所述音频流数据均在本机房流转。单线机房的机审系统通过接收归属同一机房的MS媒体服务器推流的音频流数据来获取归属同一机房的音频流数据。
步骤S120:按照预置推审策略,从所述音频流数据中采集待审音频数据。
对于本实施例,机审系统对所获取的所述音频流数据中的部分音频流数据进行机器识别审核,其中,待进行机器识别审核的这部分音频流数据即所述待审音频数据。
对于本实施例,预先设置有推审策略,所述预置推审策略为对应归属不同预置分类的音频流数据而预先设定的从音频流数据中采集待审核音频数据的采集频率和采集时长。在获取所述音频流数据之后,根据所述音频流数据确定其归属的预置分类,按照所述预置推审策略,以所述预置分类对应的采集频率和采集时长从所述音频流数据中采集待审音频数据。其中,所述预置分类包括但不限于:用户、语音房间、用户在语音社交应用中的用户等级、房间直播类型、房间用户数。
步骤S130:将所述待审音频数据输入预先训练的音频识别模型,得到对应所述音频识别模型的预测值。
对于本实施例,所述音频识别模型为基于GPU(Graphics Processing Unit,图形处理单元)预先训练的音频识别模型,GPU可用于处理语音,其具有强大的计算能力,适用于加速音频识别模型的网络训练。
基于GPU预先训练的音频识别模型可提供机器识别GPU服务,具体地,通过在GPU机器上执行以对待审音频数据的特征进行机器智能检测识别,在识别后返回对应所述音频识别模型的预测值,实现对待审音频数据的智能检测归类。
其中,所述音频识别模型可以是多种音频识别模型,可扩展支持多种不良信息类型音频数据的识别,例如用于识别色情信息的音频识别模型、用于识别涉及政治言论的音频识别模型、用于识别暴力信息的音频识别模型等等。需明确指出的是,所述音频识别模型还可以是用于识别其他不良信息类型的音频识别模型,本技术领域的技术人员可根据实际应用需求确定所述音频识别模型可实现识别的不良信息类型,本发明实施例对此不做限定。
例如,在为了识别待审音频数据是否存在涉黄问题的应用场景中,将采集得到的待审音频数据输入预先训练的用于识别色情信息的音频识别模型,得到对应所述用于识别色情信息的音频识别模型的预测值,所述预测值可用于判定所述待审音频数据是否存在涉黄问题。
步骤S140:根据所述预测值,生成音频机审结果。
对于本实施例,在得到待审音频数据对应所述音频识别模型的预测值之后,根据所述预测值的高低评估所述待审音频数据存在所述音频识别模型对应的不良信息类型的风险,生成所述待审音频数据的音频机审结果。
本发明实施例提供的分布式语音监控方法,通过分布式去中心化的机审方式,无需以高昂的建设成本构建庞大、复杂的中心机审系统,并使得音频流数据在正常情况下都在本机房流转,不会产生跨机房、跨运营商带宽流量,可实现较高的投入产出比,显著降低音频内容监控成本;通过各个机审系统相互协作,分别对其归属同一机房的待审音频数据进行机器识别审核,可打通与高活跃度语音社交应用庞大数量级的音频流数据的实时推审,支持低延迟的监控审核,且机器识别审核支持足够大的审核覆盖面,可实现较高的识别率和审核效率。该方法可实现高投入产出比、高覆盖面、低延迟、高识别率和高效的语音监控审核,可满足多运营商混合组网部署网络环境下高活跃度语音社交应用的音频内容监控需求。
在一个实施例中,如图2所示,所述步骤S110获取归属同一机房的音频流数据,包括:
S111:接收归属同一机房的媒体服务器发送的机审服务调用请求。
S112:响应所述机审服务调用请求,获取所述媒体服务器上传的音频流数据。
对于本实施例,机审系统提供有机审服务的调用接口,MS媒体服务器可通过调用机审系统的机审服务调用接口向该机审系统推送音频流数据。
对于本实施例,由于MS媒体服务器和机审系统均按机房进行部署,MS媒体服务器可优先选择向本机房的机审系统发送机审服务调用请求,并通过调用本机房的机审系统的机审服务调用接口向本机房的机审系统推送其管理的所有音频流数据,相应地,在机审系统运作正常情况下,机审系统会接收到归属同一机房的MS媒体服务器发送的机审服务调用请求,在响应所述机审服务调用请求之后,获取到归属同一机房的MS媒体服务器通过所述机审服务调用接口上传的归属同一机房的音频流数据,从而实现在机审系统运作正常情况下音频流数据均在本机房流转,投入产出比高且可打通与高活跃度语音社交应用庞大数量级的音频流数据的实时推审,支持低延迟的监控审核。
在一个实施例中,如图3所示,所述步骤S120按照预置推审策略,从所述音频流数据中采集待审音频数据之后,所述步骤S130将所述待审音频数据输入预先训练的音频识别模型,得到对应所述音频识别模型的预测值之前,还包括:
步骤S310:保存所述待审音频数据,确定保存所述待审音频数据的统一资源定位符URL。
对于本实施例,在从所述音频流数据采集得所述待审音频数据之后,将二进制压缩格式的待审音频数据上传至机审系统的存储子系统并保存,可得到所述待审音频数据保存在所述存储子系统中的统一资源定位符URL。
步骤S320:根据所述待审音频数据的关联信息和所述统一资源定位符URL,生成所述待审音频数据的待审消息;将所述待审音频数据的待审消息写入Kafka待审消息队列。
对于本实施例,所述待审音频数据的关联信息为与所述待审音频数据相关联的信息,例如,可以是所述待审音频数据归属的用户、语音房间、用户在语音社交应用中的用户等级、房间直播类型、房间用户数等相关信息。
对于本实施例,在机审系统中引入Kafka消息中间件辅助机审系统的语音监控审核。具体地,根据所述待审音频数据的关联信息和所述统一资源定位符URL,生成所述待审音频数据的待审消息,并将所述待审音频数据的待审消息写入Kafka待审消息队列,即把所述待审音频数据的关联信息和所述待审音频数据保存在所述存储子系统中的统一资源定位符URL保存到Kafka待审消息队列。其中,所述Kafka待审消息队列为在消息传输过程中保存所述待审消息的容器。Kafka主要特点是基于Pull的模式来处理消息消费,追求高吞吐量,对消息的重复、丢失、错误没有严格要求,适合产生大量数据的互联网服务的数据收集业务,因此,通过引入Kafka待审消息队列可保证高可靠性和易水平扩展,实现瞬时高并发期的削锋,还可提升机器的利用率,且消息的实例化存储可灵活支持多种失败重试策略。
步骤S330:当从所述Kafka待审消息队列读取所述待审消息时,根据所述待审消息中的所述统一资源定位符URL下载所述待审音频数据。
对于本实施例,机审系统的待审消息消费进程不断从所述Kafka待审消息队列读取待审消息,当从所述Kafka待审消息队列读取到所述待审消息时,根据所述待审消息中的所述统一资源定位符URL从机审系统的存储子系统中下载二进制压缩格式的待审音频数据,所述二进制压缩格式的待审音频数据解码后可用于输入预先训练的音频识别模型,得到对应所述音频识别模型的预测值。
在本实施例中,通过在机审系统中引入Kafka消息中间件辅助机审系统的语音监控审核,可保证系统灵活、易水平扩缩容,且其削锋填谷的特性可保证系统的高可用和高可靠,消息的实例化存储可实现灵活的重试策略,有效满足多运营商混合组网部署网络环境下高活跃度、瞬时高并发语音社交应用的音频内容监控需求。
在一个实施例中,所述按照预置推审策略,从所述音频流数据中采集待审音频数据之前,还包括:
以预置周期采集应用内的用户行为数据和用户标签数据,生成按用户分级推审的预置推审策略;和/或
以预置周期采集应用内的语音房间标签数据,生成按语音房间分级推审的预置推审策略。
对于本实施例,通过以预置周期采集应用内用户行为数据、用户标签数据、语音房间标签数据,生成不同用户、语音房间的分级推审的预置推审策略,对分级推审的预置推审策略进行配置管理。该方法为实现灵活多种的推审策略、控制合理的监控审核覆盖范围提供了有力的技术支持。
其中,所述预置周期可以是一天、一周、一个月等时长,本技术领域的技术人员可根据实际应用需求确定所述预置周期的具体时长,本发明实施例对此不做限定。
所述用户行为数据为用户在语音社交应用内进行沟通、交友、聊天、直播等行为时产生的行为数据。
所述用户标签数据为用户在语音社交应用内的标签数据,例如年龄、性别、性格等用户个人标签数据或交友群体、语音房间类型偏好等用户偏好标签数据等等。
所述语音房间标签数据为语音社交应用内语音房间的语音主题、语音群体等标签数据。
在一个实施例中,所述按照预置推审策略,从所述音频流数据中采集待审音频数据,包括:
确定所述音频流数据对应的用户和/或语音房间;
按照预置推审策略,确定对应所述用户和/或语音房间的待审音频数据的采集频率和采集时长;
以所述采集频率和采集时长从所述音频流数据中采集待审音频数据。
对于本实施例,所述预置推审策略预先为不同用户、语音房间制定不同的待审音频数据的采集频率和采集时长,故从所述音频流数据中采集待审音频数据时,支持根据预置推审策略,按用户、语音房间实现不同的待审音频数据的采集频率和采集时长,以所述采集频率和采集时长从所述音频流数据中采集待审音频数据。
在本实施例中,通过基于分级推审的推审策略,按用户、语音房间实现不同的待审音频数据的采集频率和采集时长,可使审核监控范围更有针对性,对监控对象有分级策略从而达到合理的监控覆盖范围,还可达到较高的审核识别率、正确率,显著提高机审系统的运作效率。
在一个实施例中,所述按照预置推审策略,从所述音频流数据中采集待审音频数据之前,还包括:
当达到预置容灾条件时,接收归属同一运营商跨机房的音频流数据。
对于本实施例,当达到预置容灾条件,即存在单线机房的机审系统完成停止工作,无法进行音频内容监控审核时,则对应该单线机房的MS媒体服务器的音频流数据不再分发到本机房的机审系统,而是分发到同一运营商的其他单线机房。
因此,当达到所述预置容灾条件时,若有同一运营商的其他单线机房的MS媒体服务器选择向当前单线机房发送机审服务调用请求,并通过调用当前单线机房的机审系统的机审服务调用接口向当前单线机房的机审系统推送其管理的所有音频流数据时,当前单线机房的机审系统在响应所述机审服务调用请求之后会接收到归属同一运营商跨机房的音频流数据,并对归属同一运营商跨机房的音频流数据进行机器识别审核,以起到接管处理的作用。
例如,机房A和机房B为同一运营商的两个单线机房,当机房A的机审系统发生故障而停止工作时,机房A的MS媒体服务器不再向机房A的机审系统推送音频流数据,机房A的MS媒体服务器的音频流数据随即分发至机房B的机审系统,由机房B的机审系统接收归属同一运营商跨机房(机房A)的音频流数据并作进一步机器识别审核处理。
在本实施例中,通过在达到容灾条件时接收归属同一运营商跨机房的音频流数据并起接管处理的作用,使得音频流数据在正常情况下都在本机房流转,不会产生跨机房、跨运营商带宽流量,仅在容灾情况下产生同运营商间跨机房的流量,带宽成本可控,从而满足多运营商混合组网部署网络环境高活跃度语音社交应用的音频内容监控需求。
在一个实施例中,如图4所示,所述步骤S140根据所述预测值,生成音频机审结果之后,还包括:
步骤S150:根据所述音频机审结果,判断是否复审所述待审音频数据。
对于本实施例,采用机器审核结合复审的语音监控审核方式。在得到待审音频数据对应所述音频识别模型的音频机审结果之后,根据所述音频机审结果反映的所述待审音频数据存在所述音频识别模型对应的不良信息类型的风险,按照一定的策略判断是否复审所述待审音频数据。
具体地,可针对不同的音频识别模型预先设定相同或不同的预置阈值,根据待审音频数据对应音频识别模型的预测值是否超过对应所述音频识别模型的预置阈值判断是否复审所述待审音频数据,当预测值超过预置阈值时则判定复审所述待审音频数据,当预测值未超过预置阈值时则判定不需要复审所述待审音频数据。
其中,所述复审具体为人工审核。
步骤S160:若是,根据所述音频机审结果,生成所述待审音频数据的机审结果消息;将所述待审音频数据的机审结果消息写入Kafka机审结果消息队列。
对于本实施例,在根据所述音频机审结果判定复审所述待审音频数据之后,将所述待审音频数据的数据格式转换成可播放的wav格式文件,将所述待审音频数据的wav格式文件上传至机审系统的存储子系统并保存,为后续复审阶段的文件获取及播放提供便利。
对于本实施例,在机审系统中引入Kafka消息中间件辅助机审系统的音频机审结果分发。
具体地,根据所述待审音频数据的音频机审结果,生成所述待审音频数据的机审结果消息,并将所述待审音频数据的机审结果消息写入Kafka机审结果消息队列,即将所述待审音频数据的机审结果消息保存至Kafka机审结果消息队列。其中,所述Kafka机审结果消息队列为在消息传输过程中保存所述机审结果消息的容器。Kafka主要特点是基于Pull的模式来处理消息消费,追求高吞吐量,对消息的重复、丢失、错误没有严格要求,适合产生大量数据的互联网服务的数据收集业务,因此,通过引入Kafka机审结果消息队列可保证高可靠性和易水平扩展,实现瞬时高并发期的削锋,还可提升机器的利用率,且消息的实例化存储可灵活支持多种失败重试策略。
步骤S170:当从所述Kafka机审结果消息队列读取所述机审结果消息时,将所述待审音频数据的机审结果分发复审系统。
对于本实施例,机审系统的机审结果分发子系统的服务进程不断从所述Kafka机审结果消息队列读取机审结果消息,当从所述Kafka待审消息队列读取到所述机审结果消息时,将所述待审音频数据的机审结果分发复审系统,以使复审系统对所述机审结果消息对应的待审音频数据进行复审。其中,所述复审系统具体为人审系统。
在本实施例中,通过机器审核结合复审的语音监控审核方式,可进一步提高音频内容监控审核的准确性。
此外,本发明实施例提供了另一种分布式语音监控方法,如图5所示,该方法包括如下步骤:
步骤S510:服务注册和发现系统广播与媒体服务器归属同一机房的机审系统的地址信息。
对于本实施例,所述服务注册和发现系统为提供审核监控过程中各服务进程的注册,以及向注册的服务进程提供广播服务上下线通知的系统。所述服务注册和发现系统以服务实例的方式部署服务注册和发现进程。所述服务注册和发现系统可用于实现分布式服务管理,通过广播与MS媒体服务器归属同一机房的机审系统的地址信息,可使MS服务器获知与其归属同一机房的机审系统的地址信息,并优先选择向本机房推送其管理的所有音频流数据,从而协同各个服务进程工作,实现音频流数据在正常情况下都在本机房流转,不会产生跨机房、跨运营商带宽流量,仅在本机房的机审系统停止工作的情况下才分发到同运营商的其他单线机房。其中,所述地址信息包括IP和端口。
步骤S520:媒体服务器根据所述地址信息,向归属同一机房的机审系统发送音频流数据。
对于本实施例,机审系统提供有机审服务的调用接口,MS媒体服务器可通过根据对应所述调用接口的地址信息调用机审系统的机审服务调用接口向该机审系统推送音频流数据。在本实施例中,MS媒体服务器在接获知归属同一机房的机审系统的地址信息之后,根据所述地址信息,向归属同一机房的机审系统发送机审服务调用请求,并通过调用归属同一机房的机审系统的机审服务调用接口向本机房的机审系统推送其管理的所有音频流数据。
步骤S530:机审系统获取归属同一机房的所述音频流数据;按照预置推审策略,从所述音频流数据中采集待审音频数据;将所述待审音频数据输入预先训练的音频识别模型,得到对应所述音频识别模型的预测值;根据所述预测值,生成音频机审结果。
对于本实施例,所述机审系统提供纯语音内容的机器识别审核服务,包括但不限于音频流数据的接收、推审和机器识别。
对于本实施例,所述步骤S530中机审系统的具体功能实现与以上应用于机审系统的分布式语音监控方法的步骤S110至S140中的技术特征相同,所述步骤S530的具体功能实现请参见上述实施例中的说明,在此不再赘述。
在本实施例提供的分布式语音监控方法中,所述机审系统还可实现以上应用于机审系统的分布式语音监控方法的其他方法实施例,具体功能实现请参见上述方法实施例中的说明,在此亦不再赘述。
本发明实施例提供的分布式语音监控方法,通过服务注册和发现系统、按单线机房部署的MS媒体服务器和机审系统实现分布式去中心化的纯语音内容监控审核,该方法可实现高投入产出比、高覆盖面、低延迟、高可靠、易于扩展、高识别率和高效的语音监控审核,可满足多运营商混合组网部署网络环境下高活跃度、瞬时高并发语音社交应用的音频内容监控需求。
在一个实施例中,如图6所示,所述步骤S530中所述根据所述预测值,生成音频机审结果之后,还包括:
步骤S540:所述机审系统根据所述音频机审结果,确定复审所述待审音频数据;将所述待审音频数据的音频机审结果分发复审系统。
对于本实施例,采用机器审核结合复审的语音监控审核方式。
对于本实施例,所述步骤S540中机审系统的具体功能实现与以上应用于机审系统的分布式语音监控方法的步骤S150至S170中的技术特征相同,所述步骤S540的具体功能实现请参见上述实施例中的说明,在此不再赘述。
步骤S550:所述复审系统接收所述待审音频数据的音频机审结果;根据所述音频机审结果对所述待审音频数据进行复审,得到所述待审音频数据的复审结果。
对于本实施例,所述复审系统具体为人审系统,所述人审系统为提供内容审核和管理的web平台系统。所述复审系统接收所述机审系统分发的所述待审音频数据的音频机审结果,并写入人工审核的运营数据库,并将所述待审音频数据的音频机审结果等相关信息录入待审工单,所述复审系统,即人审系统的人工审核人员获取所述待审工单之后,对所述待审工单对应的待审音频数据的音频机审结果进行人工确认等复审操作,从而得到所述待审音频数据的复审结果。其中,复审操作可分为一审、二审、终审等多个步骤工序。此外,所述复审系统还可对复审操作中终审的结果进行抽样检查,核实所述复审结果的正确性和合理性。所述复审系统还可对语音社交应用上报的违规举报进行人工确认等审核操作。
在本实施例中,通过采用机器审核结合复审的语音监控审核方式,可进一步提高语音内容监控审核的正确率。
在一个实施例中,所述根据所述音频机审结果对所述待审音频数据进行复审,得到所述待审音频数据的复审结果之后,还包括:
当所述复审结果为存在违规行为时,所述复审系统确定所述待审音频数据对应的用户;根据服务注册和发现系统广播的所述用户客户端应用的违规处罚接口地址信息,向所述用户客户端应用的违规处罚接口发送违规行为处罚调用请求;
所述客户端应用对所述用户进行违规处罚。
对于本实施例,客户端应用预置有用于提供违规处罚服务的违规处罚接口。当所述复审结果为确认所述待审音频数据存在违规行为时,所述复审系统确定所述待审音频数据对应的用户,以通知对应客户端的语音社交应用对该用户进行违规处罚。具体地,所述复审系统与所述服务注册和发现系统连接,所述服务注册和发现系统广播对应客户端的语音社交应用的违规处罚接口地址信息,复审系统可根据所述违规处罚接口地址信息向对应客户端的语音社交应用的违规处罚接口发送违规处罚服务调用请求。
在其他实施例中,所述复审系统还可保存该存在违规行为的复审结果,并将该复审结果对应的音频审核数据等相关数据发送给音频识别模型,标注用于对应音频识别模型的学习和训练,持续提高音频识别模型识别审核的准确率。
对于本实施例,客户端的语音社交应用在接收到所述违规处罚服务调用请求之后,响应所述违规处罚服务调用请求,对存在违规行为的用户执行预置的违规处罚操作,所述违规处罚操作包括但不限于账号冻结、账号封禁、对应直播语音房间封禁。
在本实施例中,通过服务注册和发现系统、按单线机房部署的MS媒体服务器和机审系统实现分布式去中心化的纯语音内容监控审核,还结合复审系统实现机审结果复审,并根据复审结果请求客户端应用处罚存在违规行为的用户,实现从语音社交应用音频流数据推审到机器识别审核、机审结果复审,再到语音社交应用处罚效果端到端的纯语音内容审核和监控闭环流程,可支持高并发、低审核延迟,能够快速把违规信息和内容扼杀,避免恶性事件的发生、散播,可满足多运营商混合组网部署网络环境下高活跃度、瞬时高并发语音社交应用的音频内容监控需求。
此外,本发明实施例提供了一种分布式语音监控装置,如图7所示,所述装置包括:音频流数据获取模块71、待审音频数据采集模块72、音频识别模块73和机审结果生成模块74;其中,
所述音频流数据获取模块71,用于获取归属同一机房的音频流数据;
所述待审音频数据采集模块72,用于按照预置推审策略,从所述音频流数据中采集待审音频数据;
所述音频识别模块73,用于将所述待审音频数据输入预先训练的音频识别模型,得到对应所述音频识别模型的预测值;
所述机审结果生成模块74,用于根据所述预测值,生成音频机审结果。
在一个实施例中,所述音频流数据获取模块71,具体用于:
接收归属同一机房的媒体服务器发送的机审服务调用请求;
响应所述机审服务调用请求,获取所述媒体服务器上传的音频流数据。
在一个实施例中,所述按照预置推审策略,从所述音频流数据中采集待审音频数据之后,将所述待审音频数据输入预先训练的音频识别模型,得到对应所述音频识别模型的预测值之前,还包括:
保存所述待审音频数据,确定保存所述待审音频数据的统一资源定位符URL;
根据所述待审音频数据的关联信息和所述统一资源定位符URL,生成所述待审音频数据的待审消息;将所述待审音频数据的待审消息写入Kafka待审消息队列;
当从所述Kafka待审消息队列读取所述待审消息时,根据所述待审消息中的所述统一资源定位符URL下载所述待审音频数据。
在一个实施例中,所述按照预置推审策略,从所述音频流数据中采集待审音频数据之前,还包括:
以预置周期采集应用内的用户行为数据和用户标签数据,生成按用户分级推审的预置推审策略;和/或
以预置周期采集应用内的语音房间标签数据,生成按语音房间分级推审的预置推审策略。
在一个实施例中,所述待审音频数据采集模块72,具体用于:
确定所述音频流数据对应的用户和/或语音房间;
按照预置推审策略,确定对应所述用户和/或语音房间的待审音频数据的采集频率和采集时长;
以所述采集频率和采集时长从所述音频流数据中采集待审音频数据。
在一个实施例中,所述按照预置推审策略,从所述音频流数据中采集待审音频数据之前,还包括:
当达到预置容灾条件时,接收归属同一运营商跨机房的音频流数据。
在一个实施例中,所述根据所述预测值,生成音频机审结果之后,还包括:
根据所述音频机审结果,判断是否复审所述待审音频数据;
若是,根据所述音频机审结果,生成所述待审音频数据的机审结果消息;将所述待审音频数据的机审结果消息写入Kafka机审结果消息队列;
当从所述Kafka机审结果消息队列读取所述机审结果消息时,将所述待审音频数据的机审结果分发复审系统。
本发明提供的分布式语音监控装置可实现:通过分布式去中心化的机审方式,无需以高昂的建设成本构建庞大、复杂的中心机审系统,并使得音频流数据在正常情况下都在本机房流转,不会产生跨机房、跨运营商带宽流量,可实现较高的投入产出比,显著降低音频内容监控成本;通过各个机审系统相互协作,分别对其归属同一机房的待审音频数据进行机器识别审核,可打通与高活跃度语音社交应用庞大数量级的音频流数据的实时推审,支持低延迟的监控审核,且机器识别审核支持足够大的审核覆盖面,可实现较高的识别率和审核效率。该方法可实现高投入产出比、高覆盖面、低延迟、高识别率和高效的语音监控审核,可满足多运营商混合组网部署网络环境下高活跃度语音社交应用的音频内容监控需求。还可实现:通过在机审系统中引入Kafka消息中间件辅助机审系统的语音监控审核,可保证系统灵活、易水平扩缩容,且其削锋填谷的特性可保证系统的高可用和高可靠,消息的实例化存储可实现灵活的重试策略,有效满足多运营商混合组网部署网络环境下高活跃度、瞬时高并发语音社交应用的音频内容监控需求;通过基于分级推审的推审策略,按用户、语音房间实现不同的待审音频数据的采集频率和采集时长,可使审核监控范围更有针对性,对监控对象有分级策略从而达到合理的监控覆盖范围,还可达到较高的审核识别率、正确率,显著提高机审系统的运作效率。
本发明实施例提供的分布式语音监控装置可以实现上述提供应用于机审系统的方法实施例,具体功能实现请参见方法实施例中的说明,在此不再赘述。
此外,本发明实施例提供了一种分布式语音监控系统,如图8所示,所述分布式语音监控系统包括:服务注册和发现系统81、媒体服务器82和机审系统83;其中,
所述服务注册和发现系统81,用于广播与媒体服务器归属同一机房的机审系统的地址信息;
所述媒体服务器82,用于根据所述地址信息,向归属同一机房的机审系统发送音频流数据;
所述机审系统83,用于获取归属同一机房的所述音频流数据;按照预置推审策略,从所述音频流数据中采集待审音频数据;将所述待审音频数据输入预先训练的音频识别模型,得到对应所述音频识别模型的预测值;根据所述预测值,生成音频机审结果。
在一个实施例中,如图9所示,所述分布式语音监控系统还包括复审系统84;其中,
所述机审系统83,还用于根据所述音频机审结果,确定复审所述待审音频数据;将所述待审音频数据的音频机审结果分发复审系统;
所述复审系统84,用于接收所述待审音频数据的音频机审结果;根据所述音频机审结果对所述待审音频数据进行复审,得到所述待审音频数据的复审结果。
以下,参见图10,示出了一个具体实施例对所述分布式语音监控系统作进一步阐述:
所述分布式语音监控系统包括服务注册和发现系统、至少两个机审系统、至少两个语音社交应用-MS媒体服务器和人审系统。
(1)服务注册和发现系统。所述服务注册和发现系统为提供审核监控过程中各服务进程的注册,以及向注册的服务进程提供广播服务上下线通知的系统,所述服务注册和发现系统与语音社交应用的MS媒体服务器、机审系统、作为复审系统的人审系统均有连接。所述服务注册和发现系统以服务实例的方式部署服务注册和发现进程,如图10所示,所述服务注册和发现系统中部署有多个服务注册和发现服务实例。所述服务注册和发现系统可实现分布式服务管理,协同各个服务进程工作,实现音频流数据在正常情况下在本机房传送,避免产生跨机房的流量费用,只有在本机房的机审服务进程全部不工作的情况下才分发到同运营商的其他单线机房。
(2)机审系统。机审系统按单线机房进行部署,如图10所示,机房1、机房2有各自的机审系统。所述机审系统提供纯语音内容的机器识别审核服务,包括但不限于音频流数据的接收、推审、存储、机器识别和机审结果分发,具体包括:推审策略子系统、音频机器识别子系统、机审结果分发子系统、存储子系统和作为所述Kafka待审消息队列的音频待审消息队列、作为所述Kafka机审结果消息队列的音频审核结果队列。
a、推审策略子系统。实现接收同机房推送音频流、推审策略管理、音频流文件压缩保存至存储子系统、推审消息入Kafka音频待审消息队列。
b、音频待审消息队列。保存待审音频数据的待审消息。待审消息的生产者是所述推审策略子系统的服务进程,消费者是所述音频机器识别子系统的服务进程。
c、音频机器识别子系统。实现从存储子系统获取音频流文件、机器识别、机审结果入音频审核结果队列并将对应的wav格式的音频流文件保存至存储子系统。
d、音频审核结果队列。保存待审音频数据的机审结果消息。机审结果消息的生产者是音频机器识别子系统的服务进程,消费者是机审结果分发子系统的服务进程。
e、机审结果分发子系统。实现将机审结果推送给人审系统。
f、存储子系统。实现原始音频流文件和转码后的高危WAV格式音频文件的存储。提供文件上传API,接收二进制的音频流数据,返回存储的URL。支持文件按照特定的存储时效策略自动清理。
(3)作为复审系统的人审系统。所述人审系统为提供内容审核和管理的web平台系统。可实现接收全部机房的机审系统的机审结果、人工审核机审结果、对语音社交应用上报的违规行为举报进行人工审核确认、对复审结果进行审核质量抽检、对违规行为发起处罚请求、管理人审系统审核人员的信息、组织结构、人员角色权限的配置。
(4)语音社交应用-MS媒体服务器。语音社交应用的MS媒体服务器按单线机房进行部署,如图10所示,机房1、机房2有各自的MS媒体服务器。语音社交应用-MS媒体服务器实现同机房音频流推送和行为处罚API的提供。
本发明提供的分布式语音监控系统可实现:通过服务注册和发现系统、按单线机房部署的MS媒体服务器和机审系统实现分布式去中心化的纯语音内容监控审核,还结合复审系统实现机审结果复审,并根据复审结果请求客户端应用处罚存在违规行为的用户,实现从语音社交应用音频流数据推审到机器识别审核、机审结果复审,再到语音社交应用处罚效果端到端的纯语音内容审核和监控闭环流程,可支持高并发、低审核延迟,能够快速把违规信息和内容扼杀,避免恶性事件的发生、散播,可满足多运营商混合组网部署网络环境下高活跃度、瞬时高并发语音社交应用的音频内容监控需求。
本发明实施例提供的分布式语音监控系统可以实现上述提供的方法实施例,具体功能实现请参见方法实施例中的说明,在此不再赘述。
此外,本发明实施例提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现以上实施例所述的分布式语音监控方法。其中,所述计算机可读存储介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory,只读存储器)、RAM(Random AcceSS Memory,随即存储器)、EPROM(EraSable Programmable Read-Only Memory,可擦写可编程只读存储器)、EEPROM(Electrically EraSable Programmable Read-Only Memory,电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是,存储设备包括由设备(例如,计算机、手机)以能够读的形式存储或传输信息的任何介质,可以是只读存储器,磁盘或光盘等。
本发明提供的计算机可读存储介质,可实现:通过分布式去中心化的机审方式,无需以高昂的建设成本构建庞大、复杂的中心机审系统,并使得音频流数据在正常情况下都在本机房流转,不会产生跨机房、跨运营商带宽流量,可实现较高的投入产出比,显著降低音频内容监控成本;通过各个机审系统相互协作,分别对其归属同一机房的待审音频数据进行机器识别审核,可打通与高活跃度语音社交应用庞大数量级的音频流数据的实时推审,支持低延迟的监控审核,且机器识别审核支持足够大的审核覆盖面,可实现较高的识别率和审核效率。该方法可实现高投入产出比、高覆盖面、低延迟、高识别率和高效的语音监控审核,可满足多运营商混合组网部署网络环境下高活跃度语音社交应用的音频内容监控需求。还可实现:通过在机审系统中引入Kafka消息中间件辅助机审系统的语音监控审核,可保证系统灵活、易水平扩缩容,且其削锋填谷的特性可保证系统的高可用和高可靠,消息的实例化存储可实现灵活的重试策略,有效满足多运营商混合组网部署网络环境下高活跃度、瞬时高并发语音社交应用的音频内容监控需求;通过基于分级推审的推审策略,按用户、语音房间实现不同的待审音频数据的采集频率和采集时长,可使审核监控范围更有针对性,对监控对象有分级策略从而达到合理的监控覆盖范围,还可达到较高的审核识别率、正确率,显著提高机审系统的运作效率;通过服务注册和发现系统、按单线机房部署的MS媒体服务器和机审系统实现分布式去中心化的纯语音内容监控审核,还结合复审系统实现机审结果复审,并根据复审结果请求客户端应用处罚存在违规行为的用户,实现从语音社交应用音频流数据推审到机器识别审核、机审结果复审,再到语音社交应用处罚效果端到端的纯语音内容审核和监控闭环流程,可支持高并发、低审核延迟,能够快速把违规信息和内容扼杀,避免恶性事件的发生、散播,可满足多运营商混合组网部署网络环境下高活跃度、瞬时高并发语音社交应用的音频内容监控需求。
本发明实施例提供的计算机可读存储介质可以实现上述提供的方法实施例,具体功能实现请参见方法实施例中的说明,在此不再赘述。
此外,本发明实施例还提供了一种计算机设备,如图11所示。本实施例所述的计算机设备可以是服务器、个人计算机以及网络设备等设备。所述计算机设备包括处理器1002、存储器1003、输入单元1004以及显示单元1005等器件。本领域技术人员可以理解,图11示出的设备结构器件并不构成对所有设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件。存储器1003可用于存储计算机程序1001以及各功能模块,处理器1002运行存储在存储器1003的计算机程序1001,从而执行设备的各种功能应用以及数据处理。存储器可以是内存储器或外存储器,或者包括内存储器和外存储器两者。内存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦写可编程ROM(EEPROM)、快闪存储器、或者随机存储器。外存储器可以包括硬盘、软盘、ZIP盘、U盘、磁带等。本发明所公开的存储器包括但不限于这些类型的存储器。本发明所公开的存储器只作为例子而非作为限定。
输入单元1004用于接收信号的输入,以及接收用户输入的关键字。输入单元1004可包括触控面板以及其它输入设备。触控面板可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作),并根据预先设定的程序驱动相应的连接装置;其它输入设备可以包括但不限于物理键盘、功能键(比如播放控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。显示单元1005可用于显示用户输入的信息或提供给用户的信息以及计算机设备的各种菜单。显示单元1005可采用液晶显示器、有机发光二极管等形式。处理器1002是计算机设备的控制中心,利用各种接口和线路连接整个电脑的各个部分,通过运行或执行存储在存储器1002内的软件程序和/或模块,以及调用存储在存储器内的数据,执行各种功能和处理数据。
作为一个实施例,所述计算机设备包括:一个或多个处理器1002,存储器1003,一个或多个计算机程序1001,其中所述一个或多个计算机程序1001被存储在存储器1003中并被配置为由所述一个或多个处理器1002执行,所述一个或多个计算机程序1001配置用于执行以上任一实施例所述的分布式语音监控方法。
本发明提供的计算机设备,可实现:通过分布式去中心化的机审方式,无需以高昂的建设成本构建庞大、复杂的中心机审系统,并使得音频流数据在正常情况下都在本机房流转,不会产生跨机房、跨运营商带宽流量,可实现较高的投入产出比,显著降低音频内容监控成本;通过各个机审系统相互协作,分别对其归属同一机房的待审音频数据进行机器识别审核,可打通与高活跃度语音社交应用庞大数量级的音频流数据的实时推审,支持低延迟的监控审核,且机器识别审核支持足够大的审核覆盖面,可实现较高的识别率和审核效率。该方法可实现高投入产出比、高覆盖面、低延迟、高识别率和高效的语音监控审核,可满足多运营商混合组网部署网络环境下高活跃度语音社交应用的音频内容监控需求。还可实现:通过在机审系统中引入Kafka消息中间件辅助机审系统的语音监控审核,可保证系统灵活、易水平扩缩容,且其削锋填谷的特性可保证系统的高可用和高可靠,消息的实例化存储可实现灵活的重试策略,有效满足多运营商混合组网部署网络环境下高活跃度、瞬时高并发语音社交应用的音频内容监控需求;通过基于分级推审的推审策略,按用户、语音房间实现不同的待审音频数据的采集频率和采集时长,可使审核监控范围更有针对性,对监控对象有分级策略从而达到合理的监控覆盖范围,还可达到较高的审核识别率、正确率,显著提高机审系统的运作效率;通过服务注册和发现系统、按单线机房部署的MS媒体服务器和机审系统实现分布式去中心化的纯语音内容监控审核,还结合复审系统实现机审结果复审,并根据复审结果请求客户端应用处罚存在违规行为的用户,实现从语音社交应用音频流数据推审到机器识别审核、机审结果复审,再到语音社交应用处罚效果端到端的纯语音内容审核和监控闭环流程,可支持高并发、低审核延迟,能够快速把违规信息和内容扼杀,避免恶性事件的发生、散播,可满足多运营商混合组网部署网络环境下高活跃度、瞬时高并发语音社交应用的音频内容监控需求。
本发明实施例提供的计算机设备可以实现上述提供的方法实施例,具体功能实现请参见方法实施例中的说明,在此不再赘述。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (14)

1.一种分布式语音监控方法,其特征在于,包括如下步骤:
获取归属同一机房的在语音社交应用中产生的音频流数据;
按照用户分级推审和/或语音房间分级推审的预置推审策略,从所述音频流数据中采集待审音频数据,包括:确定所述音频流数据对应的用户和/或语音房间;按照预置推审策略,确定对应所述用户和/或语音房间的待审音频数据的采集频率和采集时长;以所述采集频率和采集时长从所述音频流数据中采集待审音频数据;
将所述待审音频数据输入预先训练的音频识别模型,得到对应所述音频识别模型的预测值;
根据所述预测值,生成音频机审结果。
2.根据权利要求1所述的分布式语音监控方法,其特征在于,所述获取归属同一机房的音频流数据,包括:
接收归属同一机房的媒体服务器发送的机审服务调用请求;
响应所述机审服务调用请求,获取所述媒体服务器上传的音频流数据。
3.根据权利要求1所述的分布式语音监控方法,其特征在于,所述按照预置推审策略,从所述音频流数据中采集待审音频数据之后,将所述待审音频数据输入预先训练的音频识别模型,得到对应所述音频识别模型的预测值之前,还包括:
保存所述待审音频数据,确定保存所述待审音频数据的统一资源定位符URL;
根据所述待审音频数据的关联信息和所述统一资源定位符URL,生成所述待审音频数据的待审消息;将所述待审音频数据的待审消息写入Kafka待审消息队列;
当从所述Kafka待审消息队列读取所述待审消息时,根据所述待审消息中的所述统一资源定位符URL下载所述待审音频数据。
4.根据权利要求1所述的分布式语音监控方法,其特征在于,所述按照预置推审策略,从所述音频流数据中采集待审音频数据之前,还包括:
以预置周期采集应用内的用户行为数据和用户标签数据,生成按用户分级推审的预置推审策略;和/或
以预置周期采集应用内的语音房间标签数据,生成按语音房间分级推审的预置推审策略。
5.根据权利要求1所述的分布式语音监控方法,其特征在于,所述按照预置推审策略,从所述音频流数据中采集待审音频数据之前,还包括:
当达到预置容灾条件时,接收归属同一运营商跨机房的音频流数据。
6.根据权利要求1所述的分布式语音监控方法,其特征在于,所述根据所述预测值,生成音频机审结果之后,还包括:
根据所述音频机审结果,判断是否复审所述待审音频数据;
若是,根据所述音频机审结果,生成所述待审音频数据的机审结果消息;将所述待审音频数据的机审结果消息写入Kafka机审结果消息队列;
当从所述Kafka机审结果消息队列读取所述机审结果消息时,将所述待审音频数据的机审结果分发复审系统。
7.一种分布式语音监控方法,其特征在于,包括如下步骤:
服务注册和发现系统广播与媒体服务器归属同一机房的机审系统的地址信息;
媒体服务器根据所述地址信息,向归属同一机房的机审系统发送音频流数据;
机审系统获取归属同一机房的在语音社交应用中产生的所述音频流数据;按照用户分级推审和/或语音房间分级推审的预置推审策略,从所述音频流数据中采集待审音频数据,包括:确定所述音频流数据对应的用户和/或语音房间;按照预置推审策略,确定对应所述用户和/或语音房间的待审音频数据的采集频率和采集时长;以所述采集频率和采集时长从所述音频流数据中采集待审音频数据;将所述待审音频数据输入预先训练的音频识别模型,得到对应所述音频识别模型的预测值;根据所述预测值,生成音频机审结果。
8.根据权利要求7所述的分布式语音监控方法,其特征在于,所述根据所述预测值,生成音频机审结果之后,还包括:
所述机审系统根据所述音频机审结果,确定复审所述待审音频数据;将所述待审音频数据的音频机审结果分发复审系统;
所述复审系统接收所述待审音频数据的音频机审结果;根据所述音频机审结果对所述待审音频数据进行复审,得到所述待审音频数据的复审结果。
9.根据权利要求8所述的分布式语音监控方法,其特征在于,所述根据所述音频机审结果对所述待审音频数据进行复审,得到所述待审音频数据的复审结果之后,还包括:
当所述复审结果为存在违规行为时,所述复审系统确定所述待审音频数据对应的用户;根据服务注册和发现系统广播的所述用户客户端应用的违规处罚接口地址信息,向所述用户客户端应用的违规处罚接口发送违规行为处罚调用请求;
所述客户端应用对所述用户进行违规处罚。
10.一种分布式语音监控装置,其特征在于,包括:
音频流数据获取模块,用于获取归属同一机房的在语音社交应用中产生的音频流数据;
待审音频数据采集模块,用于按照用户分级推审和/或语音房间分级推审的预置推审策略,从所述音频流数据中采集待审音频数据,包括:确定所述音频流数据对应的用户和/或语音房间;按照预置推审策略,确定对应所述用户和/或语音房间的待审音频数据的采集频率和采集时长;以所述采集频率和采集时长从所述音频流数据中采集待审音频数据;
音频识别模块,用于将所述待审音频数据输入预先训练的音频识别模型,得到对应所述音频识别模型的预测值;
机审结果生成模块,用于根据所述预测值,生成音频机审结果。
11.一种分布式语音监控系统,其特征在于,包括:服务注册和发现系统、媒体服务器和机审系统;其中,
所述服务注册和发现系统,用于广播与媒体服务器归属同一机房的机审系统的地址信息;
所述媒体服务器,用于根据所述地址信息,向归属同一机房的机审系统发送音频流数据;
所述机审系统,用于获取归属同一机房的在语音社交应用中产生的所述音频流数据;按照用户分级推审和/或语音房间分级推审的预置推审策略,从所述音频流数据中采集待审音频数据,包括:确定所述音频流数据对应的用户和/或语音房间;按照预置推审策略,确定对应所述用户和/或语音房间的待审音频数据的采集频率和采集时长;以所述采集频率和采集时长从所述音频流数据中采集待审音频数据;将所述待审音频数据输入预先训练的音频识别模型,得到对应所述音频识别模型的预测值;根据所述预测值,生成音频机审结果。
12.根据权利要求11所述的分布式语音监控系统,其特征在于,还包括复审系统;其中,
所述机审系统,还用于根据所述音频机审结果,确定复审所述待审音频数据;将所述待审音频数据的音频机审结果分发复审系统;
所述复审系统,用于接收所述待审音频数据的音频机审结果;根据所述音频机审结果对所述待审音频数据进行复审,得到所述待审音频数据的复审结果。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至9任一项所述的分布式语音监控方法。
14.一种计算机设备,其特征在于,其包括:
一个或多个处理器;
存储器;
一个或多个计算机程序,其中所述一个或多个计算机程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个计算机程序配置用于:执行根据权利要求1至9任一项所述的分布式语音监控方法。
CN201811628102.2A 2018-12-28 2018-12-28 分布式语音监控方法、装置、系统、存储介质和设备 Active CN111383659B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201811628102.2A CN111383659B (zh) 2018-12-28 2018-12-28 分布式语音监控方法、装置、系统、存储介质和设备
PCT/CN2019/116774 WO2020134646A1 (zh) 2018-12-28 2019-11-08 分布式语音监控方法、装置、系统、存储介质和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811628102.2A CN111383659B (zh) 2018-12-28 2018-12-28 分布式语音监控方法、装置、系统、存储介质和设备

Publications (2)

Publication Number Publication Date
CN111383659A CN111383659A (zh) 2020-07-07
CN111383659B true CN111383659B (zh) 2021-03-23

Family

ID=71128655

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811628102.2A Active CN111383659B (zh) 2018-12-28 2018-12-28 分布式语音监控方法、装置、系统、存储介质和设备

Country Status (2)

Country Link
CN (1) CN111383659B (zh)
WO (1) WO2020134646A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112765518A (zh) * 2021-01-19 2021-05-07 广州趣丸网络科技有限公司 一种内容审核方法、装置及设备
CN115756875B (zh) * 2023-01-06 2023-05-05 山东未来网络研究院(紫金山实验室工业互联网创新应用基地) 面向流式数据的机器学习模型在线服务部署方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102014278A (zh) * 2010-12-21 2011-04-13 四川大学 一种基于语音识别技术的智能视频监控方法
CN103916837A (zh) * 2014-04-18 2014-07-09 广东欧珀移动通信有限公司 数据收发方法及智能终端
CN104065836A (zh) * 2014-05-30 2014-09-24 小米科技有限责任公司 监控通话的方法和装置
CN106328134A (zh) * 2016-08-18 2017-01-11 都伊林 监狱语音数据识别及监测预警系统
CN108932303A (zh) * 2018-06-12 2018-12-04 中国电子科技集团公司第二十八研究所 一种分布式可见光遥感影像动态目标检测与分析系统
CN109033231A (zh) * 2018-07-03 2018-12-18 芜湖威灵数码科技有限公司 一种从多媒体文件中提取信息的方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030236663A1 (en) * 2002-06-19 2003-12-25 Koninklijke Philips Electronics N.V. Mega speaker identification (ID) system and corresponding methods therefor
US7272565B2 (en) * 2002-12-17 2007-09-18 Technology Patents Llc. System and method for monitoring individuals
US9129291B2 (en) * 2008-09-22 2015-09-08 Personics Holdings, Llc Personalized sound management and method
US8301447B2 (en) * 2008-10-10 2012-10-30 Avaya Inc. Associating source information with phonetic indices
CN101998138A (zh) * 2009-08-25 2011-03-30 北京达鸣慧科技有限公司 电视频道监控系统及其实时监控方法
US9214157B2 (en) * 2011-12-06 2015-12-15 At&T Intellectual Property I, L.P. System and method for machine-mediated human-human conversation
CN106331695B (zh) * 2016-08-24 2018-08-07 合肥数酷信息技术有限公司 一种基于视频音频检测与数据分析系统
US9838538B1 (en) * 2016-09-21 2017-12-05 Noble Systems Corporation Using real-time speech analytics to navigate a call that has reached a machine or service
CN107465657A (zh) * 2017-06-22 2017-12-12 武汉斗鱼网络科技有限公司 直播视频监控方法、存储介质、电子设备及系统
CN108717408B (zh) * 2018-05-11 2023-08-22 杭州排列科技有限公司 一种敏感词实时监控方法、电子设备、存储介质及系统
CN109005425A (zh) * 2018-08-26 2018-12-14 俞绍富 网络视频监控系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102014278A (zh) * 2010-12-21 2011-04-13 四川大学 一种基于语音识别技术的智能视频监控方法
CN103916837A (zh) * 2014-04-18 2014-07-09 广东欧珀移动通信有限公司 数据收发方法及智能终端
CN104065836A (zh) * 2014-05-30 2014-09-24 小米科技有限责任公司 监控通话的方法和装置
CN106328134A (zh) * 2016-08-18 2017-01-11 都伊林 监狱语音数据识别及监测预警系统
CN108932303A (zh) * 2018-06-12 2018-12-04 中国电子科技集团公司第二十八研究所 一种分布式可见光遥感影像动态目标检测与分析系统
CN109033231A (zh) * 2018-07-03 2018-12-18 芜湖威灵数码科技有限公司 一种从多媒体文件中提取信息的方法

Also Published As

Publication number Publication date
WO2020134646A1 (zh) 2020-07-02
CN111383659A (zh) 2020-07-07

Similar Documents

Publication Publication Date Title
US10841268B2 (en) Methods and apparatus to generate virtual war rooms via social media in enterprise network environments
US20180249122A1 (en) Recording web conferences
Netten et al. Improving communication in crisis management by evaluating the relevance of messages
US10250539B2 (en) Methods and apparatus to manage message delivery in enterprise network environments
CN111383659B (zh) 分布式语音监控方法、装置、系统、存储介质和设备
US8577006B2 (en) User-defined system-enforced session termination in a unified telephony environment
CN108696400A (zh) 网络监测方法和装置
CN103098042A (zh) 用于社交集合的系统和方法
CN108616404A (zh) 一种客服方法、管理平台、存储介质及系统
CN102185856B (zh) 组队游戏中组队视频方法、装置及系统
CN102495619A (zh) 停车场管理系统
CN108449609A (zh) 直播间事件的识别方法及装置、电子设备、机器可读介质
CN109669835A (zh) MySQL数据库监控方法、装置、设备及可读存储介质
CN108009934A (zh) 服务器、案件分配方法及系统、事件分配方法及系统
CN109495378A (zh) 检测异常帐号的方法、装置、服务器及存储介质
CN109461442A (zh) 一种多媒体智能客服系统
CN109788306A (zh) 信息处理方法、装置、服务器及存储介质
CN102857798A (zh) 一种基于机顶盒的系统软件运行状况的监控系统
CN107945411A (zh) 一种公共自习桌座位管理系统
DE102021123577A1 (de) Audioqualitäts-feedback während einer live-übertragung von einer quelle
CN101610474A (zh) Wap内容监控方法及其监控装置
CN115630818A (zh) 应急管理方法、装置、电子设备以及存储介质
CN110069390A (zh) 一种可精确统计处理效率的tpc-e测试方法以及系统
CN102332988B (zh) 一种监控系统中告警信息的传输方法和设备
RU2698250C1 (ru) Аппаратно-программный комплекс для оптимизации работы предприятия

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230927

Address after: 31a, 15 / F, building 30, maple mall, bangrang Road, Brazil, Singapore

Patentee after: Baiguoyuan Technology (Singapore) Co.,Ltd.

Address before: 511442 25 / F, building B-1, Wanda Plaza North, Wanbo business district, 79 Wanbo 2nd Road, Nancun Town, Panyu District, Guangzhou City, Guangdong Province

Patentee before: GUANGZHOU BAIGUOYUAN NETWORK TECHNOLOGY Co.,Ltd.