CN115914673A - 一种基于流媒体服务的合规检测方法及装置 - Google Patents
一种基于流媒体服务的合规检测方法及装置 Download PDFInfo
- Publication number
- CN115914673A CN115914673A CN202210101225.0A CN202210101225A CN115914673A CN 115914673 A CN115914673 A CN 115914673A CN 202210101225 A CN202210101225 A CN 202210101225A CN 115914673 A CN115914673 A CN 115914673A
- Authority
- CN
- China
- Prior art keywords
- detection
- audio
- detected
- stream
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 379
- 238000000034 method Methods 0.000 claims abstract description 29
- 238000004590 computer program Methods 0.000 claims description 17
- 238000004458 analytical method Methods 0.000 claims description 9
- 230000008451 emotion Effects 0.000 claims description 9
- 238000013518 transcription Methods 0.000 claims description 4
- 230000035897 transcription Effects 0.000 claims description 4
- 238000012544 monitoring process Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 description 7
- 238000013461 design Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000011897 real-time detection Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- RWSOTUBLDIXVET-UHFFFAOYSA-N Dihydrogen sulfide Chemical compound S RWSOTUBLDIXVET-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 230000006854 communication Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000010195 expression analysis Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Images
Landscapes
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本申请公开了一种基于流媒体服务的合规检测方法及装置,所述方法包括:接收包括待检测音频流和/或待检测视频流的实时媒体流以及用于表征所述实时媒体流对应业务信息的随路数据,并根据所述随路数据识别所述实时媒体流对应的业务场景后动态构建合规检测责任链;将所述待检测音频流输入音频合规检测链中进行音频合规检测,得到表示所述待检测音频流是否合规的第一检测结果;将所述待检测视频流输入视频合规检测链中进行视频合规检测,得到表示所述待检测视频流是否合规的第二检测结果;整合所述第一检测结果和/或所述第二检测结果,生成所述实时媒体流对应的合规检测报告。本申请的方案可以保证合规检测的实时性,用户体验好,更具有连贯性。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种基于流媒体服务的合规检测方法及装置。
背景技术
近些年,“依法合规”一词在商业银行监督管理工作中经常使用。但是,许多人对“合规”概念的理解却是表面化的,有的将“合规”理解为银行及其分支机构的经营管理行为必须符合银行总行制定的规章制度;有的将“合规”简单地理解为就是符合规定,不符合规定就是违规。
因此,在相关业务办理过程中,必须要执行双录以及双录的检测。双录,即录音录像。通过执行双录操作,一方面避免信托公司或者三方理财销售人员在跟客户沟通过程中出现虚假承诺、违规保本宣传的现象,另一方面也是对投资者风险承受能力、产品风险认识的再提醒,其初衷仍然是为了保护投资者。
传统的双录检测包括后置文件检测和客户端实时检测两种检测方式,其中,后置文件检测,是指客户在做业务过程中不做合规检测,只录制视频,将视频上传到后台系统进行定时检测。但是,后置文件检测的检测时间滞后,客户体检差,一旦合规检测结果未通过,客户还得重新办理一次业务,重新做合规检测。客户端实时检测,是指客户在做业务过程中,在手机端做实时检测,如果失败就终止流程。所有检测都在手机端完成,手机端性能压力太大,且手机端碍于性能的限制和算法的成熟度,可用于手机端检测合规的算法有限,效果并不理想。
发明内容
本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。
根据本申请的一个方面,一种基于流媒体服务的合规检测方法,包括:
接收包括待检测音频流和/或待检测视频流的实时媒体流以及用于表征所述实时媒体流对应业务信息的随路数据,并根据所述随路数据识别所述实时媒体流对应的业务场景后动态构建合规检测责任链;所述合规检测责任链包括音频合规检测链和/或视频合规检测链;
将所述待检测音频流输入音频合规检测链中进行音频合规检测,得到表示所述待检测音频流是否合规的第一检测结果;
将所述待检测视频流输入视频合规检测链中进行视频合规检测,得到表示所述待检测视频流是否合规的第二检测结果;
整合所述第一检测结果和/或所述第二检测结果,生成所述实时媒体流对应的合规检测报告。
可选地,所述将所述待检测音频流输入音频合规检测链中进行音频合规检测,得到表示所述待检测音频流是否合规的第一检测结果包括:
将所述待检测音频流输入音频合规检测链,选取所述待检测音频流中有声音的至少部分音频流;
对所述至少部分音频流进行ASR音频识别,以转写生成所述至少部分音频流对应的文本数据;
对所述文本数据进行音频合规检测,得到表示所述待检测音频流是否合规的第一检测结果;所述音频合规检测包括但不限于脏词检测、流程话术关键词检测、意图检测、情绪分析。
可选地,所述选取所述待检测音频流中有声音的至少部分音频流包括:
判断所述待检测音频流是否为静默音频;
若所述待检测音频流是否为静默音频,则终止音频合规检测;
若所述待检测音频流为非静默音频,判断所述待检测音频流是否包含静默音频片段;
若所述待检测音频流包含静默音频片段,则通过FFMPEG裁剪所述静默音频片段后得到所述待检测音频流中有声音的至少部分音频流;
若所述待检测音频流部未包含静默音频片段,则直接将所述待检测音频流全部输入至音频合规检测链。
可选地,所述将所述待检测视频流输入视频合规检测链中进行视频合规检测,得到表示所述待检测视频流是否合规的第二检测结果包括:
将所述待检测视频流输入视频合规检测链;
在确定所述待检测视频流为非静默视频时,对所述待检测视频流进行视频合规检测,得到表示所述待检测视频流是否合规的第二检测结果;所述视频合规检测包括但不限于表情检测、动作检测、仪态检测、着装检测。
可选地,所述将所述待检测视频流输入视频合规检测链之后,所述方法还包括:
判断所述待检测视频流是否为静默视频,具体包括判断所述待检测视频流是否为全黑视频或所述待检测视频流的像素点是否单一;
若判断所述待检测视频流为静默视频,则终止视频合规检测。
可选地,所述整合所述第一检测结果和/或所述第二检测结果,生成所述实时媒体流对应的合规检测报告包括:
按照预设报告模板整合所述第一检测结果和/或所述第二检测结果,生成所述实时媒体流对应的合规检测报告;
将所述合规检测报告和所述随路数据一并返回至前端系统。
根据本申请的另一个方面,提供了一种基于流媒体服务的合规检测装置,包括:
监听流媒体服务器,其配置成接收包括待检测音频流和/或待检测视频流的实时媒体流以及用于表征所述实时媒体流对应业务信息的随路数据,并根据所述随路数据识别所述实时媒体流对应的业务场景后动态构建合规检测责任链;所述合规检测责任链包括音频合规检测链和/或视频合规检测链;
音频合规检测模块,其配置成将所述待检测音频流输入音频合规检测链中进行合规检测,得到表示所述待检测音频流是否合规的第一检测结果;
视频合规检测模块,其配置成将所述待检测视频流输入视频合规检测链中进行合规检测,得到表示所述待检测视频流是否合规的第二检测结果;
合规检测报告模块,其配置成整合所述第一检测结果和/或所述第二检测结果,生成所述实时媒体流对应的合规检测报告。
根据本申请的另一个方面,提供了一种计算设备,包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如上述任一项所述的基于流媒体服务的合规检测方法。
根据本申请的另一个方面,提供了一种计算机可读存储介质,优选为非易失性可读存储介质,其内存储有计算机程序,所述计算机程序在由处理器执行时实现如上述任一项所述的基于流媒体服务的合规检测方法。
根据本申请的另一个方面,提供了一种计算机程序产品,包括计算机可读代码,当所述计算机可读代码由计算机设备执行时,导致所述计算机设备执行上述任一项所述的基于流媒体服务的合规检测方法。
本申请提供了一种基于流媒体服务的合规检测方法及装置,通过对于使用音视频流媒体服务完成音视频的实时推送,再基于设计模式中的责任链模式动态构建合规检测责任链,为不同的业务场景提供一整套实时合规检测。合规检测是前端业务系统通过音视频流媒体服务器,将实时的音视频流推送到合规检测服务中来,并且在检测完成后实时返回给前端业务系统,保证了合规检测的实时性,如果用户合规检测失败了,当下系统就会提示用户重复当前节点的内容,直至合规检测通过后在进行下一节点,从而使得本申请的合规检测方案用户体验好,更具有连贯性。
本申请提供的方案能够满足金融行业双录合规要求完成合规检测的同时又能提高用户体验,促成企业成单。
根据下文结合附图对本申请的具体实施例的详细描述,本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。
附图说明
后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解,这些附图未必是按比例绘制的。附图中:
图1是根据本申请一个实施例的基于流媒体服务的合规检测方法流程示意图;
图2是根据本申请另一个实施例的基于流媒体服务的合规检测方法流程示意图;
图3是根据本申请实施例的基于流媒体服务的合规检测装置结构示意图;
图4是根据本申请实施例的计算设备结构示意图;
图5是根据本申请实施例的计算机可读存储介质示意图。
具体实施方式
根据下文结合附图对本申请的具体实施例的详细描述,本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。
图1是根据本申请实施例的基于流媒体服务的合规检测方法流程示意图,如图1所示,本申请实施例的基于流媒体服务的合规检测方法至少可以包括以下步骤S101~S104。
S101,接收包括待检测音频流和/或待检测视频流的实时媒体流以及用于表征所述实时媒体流对应业务信息的随路数据,并根据所述随路数据识别所述实时媒体流对应的业务场景后动态构建合规检测责任链;所述合规检测责任链包括音频合规检测链和/或视频合规检测链。
流媒体指以流方式在网络中传送音频、视频和多媒体文件的媒体形式。相对于下载后观看的网络播放形式而言,流媒体的典型特征是把连续的音频和视频信息压缩后放到网络服务器上,用户边下载边观看,而不必等待整个文件下载完毕。由于流媒体技术的优越性,该技术广泛应用于视频点播、视频会议、远程教育、远程医疗和在线直播系统中。
本实施例提供的方法可以实时获取媒体流,可以理解为,本实施例提供的方法可以实时地获取双录视频,并对即时获取到的双录视频进行合规检测。本实施例中,实时媒体流可以包括两种类别,一种是音频流,如果是多声道音频,待检测音频流就可以包括分别对应多个声道的多个音频流数据。另外一种是视频流,也即录取的视频。随着媒体流传输过来的还有随路数据,其包括客户端用户存储的与此次实时媒体流相关的业务信息,一般包括业务ID、业务类型等信息。
流媒体服务器传输音视频数据时,可携带一些业务数据过来,一般都是携带一些业务id等数据,因为随路数据的大小不宜超过流媒体数据本身的大小,一般都限制在1024kb,如果超过这个大小,流媒体服务器会选择分包传输,会增加业务处理的复杂性。
在接收到实时媒体流及对应的随路数据之后,还可以根据所述随路数据识别所述实时媒体流对应的业务场景后动态构建合规检测责任链。上述实施例提及,随路数据中包括了与业务相关的信息,因此,可以根据业务ID和/或业务类型识别实时媒体流对应的业务场景构建音频合规检测链和/或视频合规检测链。构建音频合规检测链和/或视频合规检测链时,可以分别确定音频合规检测链和视频合规检测链各自需要检测的类型,如在脏词检测、流程话术关键词检测、意图检测、情绪分析中选取一种或多种检测项,以组成音频合规检测链。在表情检测、动作检测、仪态检测、着装检测中选取一种或多种检测项,以组成视频合规检测链。本申请实施例可以基于流媒体服务器完成实时监听业务办理过程中的音视频内容进行实时合规检测,另外,基于责任链模式,动态构建合规检测链,支持热插拔,有很好的灵活性,满足不同业务场景的需要。
S102,将所述待检测音频流输入音频合规检测链中进行音频合规检测,得到表示所述待检测音频流是否合规的第一检测结果。
音频合规检测链,针对音频源做的一系列算法检测,用于判断业务经理或客户在办理业务时,所回答的问题、情绪、动作意图等是否合规。音频合规检测链是一条动态的音频合规检测链,其中可以包含音频静默检测、ASR、脏词检测、流程话术关键字检测、意图检测、情绪分析等音频领域的各种检测算法,均可组合到此合规检测链中,用于完成业务系统的音频合规检测任务。完成音频合规检测之后,可以获取相关的第一检测结果,例如,第一检测结果可以包括音频静默检测、ASR、脏词检测、流程话术关键字检测、意图检测、情绪分析等是否符合标准的检测结果。
S103,将所述待检测视频流输入视频合规检测链中进行视频合规检测,得到表示所述待检测视频流是否合规的第二检测结果。
视频合规检测链,是针对视频源做的一系列算法检测,用于判断业务经理或客户在办理业务时,所出示的证件是否是本人,办理业务时双方是否均在视频中、业务经理的着装是否符合要求、给客户的合同是否正规等各种合规规范检测。视频合规检测链是一条动态的视频合规检测链,其中可以包含视频静默检测、ocr识别、动作识别、文件识别、着装检测、表情分析等视频领域的各种检测算法,均可组合到此合规检测链中,用于完成业务系统的视频合规检测任务。对于所得到的第二检测结果,可以包括对待检测视频流执行合规检测的多个检测项以及各检测项是否合规的检测结果。
S104,整合所述第一检测结果和/或所述第二检测结果,生成所述实时媒体流对应的合规检测报告。
在得到待检测音频流对应的第一检测结果和待检测视频流对应的第二检测结果之后,可以整合第一检测结果和第二检测结果,进而得到实时媒体流对应的合规检测报告。
本实施例提供的基于流媒体服务的合规检测方法,使用音视频流媒体服务完成音视频的实时推送,再基于设计模式中的责任链模式动态构建合规检测责任链,为不同的业务场景提供一整套实时合规检测技术方案,本实施例提供的方法具有很好的灵活性,可以满足不同业务场景的实际需求。
在本申请实施例中,结合图2可知,上述步骤S102将所述待检测音频流输入音频合规检测链中进行音频合规检测,得到表示所述待检测音频流是否合规的第一检测结果可以包括以下步骤A1~A3。
A1,将所述待检测音频流输入音频合规检测链,选取所述待检测音频流中有声音的至少部分音频流。具体地,可以包括以下步骤:
A1-1,判断所述待检测音频流是否为静默音频。静默音频:指的就是一个音频片段,经过检测分析后,没有任何有效的声音,就称之为静默音频。
A1-2,若所述待检测音频流是否为静默音频,则终止音频合规检测;
A1-3,若所述待检测音频流为非静默音频,判断所述待检测音频流是否包含静默音频片段;
A1-4,若所述待检测音频流包含静默音频片段,则通过FFMPEG裁剪所述静默音频片段后得到所述待检测音频流中有声音的至少部分音频流。FFmpeg:FFmpeg是一套可以用来记录、转换数字音频、视频,并能将其转化为流的开源计算机程序。采用LGPL或GPL许可证。它提供了录制、转换以及流化音视频的完整解决方案。
A1-5,若所述待检测音频流部未包含静默音频片段,则直接将所述待检测音频流全部输入至音频合规检测链。
本实施例提供的方法中,先对待检测音频流静默检测,当判断待检测音频流为静默音频或者是包含有静默音频片段时,可以直接终止音频合规检测或者是裁剪静默音频片段。
A2,对所述至少部分音频流进行ASR音频识别,以转写生成所述至少部分音频流对应的文本数据。
录音文件识别(ASR):音频识别(Automatic Speech Recognition,简称ASR)是音频交互中最基础的一个AI技术环节,其中一句话识别是音频识别的一种,对一分钟内的短音频进行识别,适用于对话聊天、控制口令、音频输入法、音频搜索等较短的音频识别场景。还有一种是录音文件识别,针对完整的录音文件做ASR识别,还包含角色分离,静默检测等附加功能。在真正做合规检测前,先对音视频做静默检测,可以节省服务器资源,如果音视频均为静默类型,既可以直接跳过后续的检测算法,返回检测失败的结果。
A3,对所述文本数据进行音频合规检测,得到表示所述待检测音频流是否合规的第一检测结果;所述音频合规检测包括但不限于脏词检测、流程话术关键词检测、意图检测、情绪分析。
脏词检测,即根据业务系统配置的脏词(也称为敏感词,即辱骂侮辱的词或政治敏感词等等)。意图识别,通过ASR转换出来的音频文本,检测说话者的意图,确定说话者想要做什么,进一步帮助系统做出下一步动作。常用语只能音响等智能交互类场景。关键词检测,即根据业务系统配置的业务流程中必须要出现的关键词。检测ASR转写后的文本是否存在业务系统配置的关键词,如果存在或是关键词的同义词即命中关键词检测算法。
另外还可以执行语音活动检测(Voice Activity Detection),又称语音端点检测,语音边界检测,简称VAD。目的是从声音信号流里识别和消除长时间的静音期,以达到在不降低业务质量的情况下节省话路资源的作用,它是IP电话应用的重要组成部分。静音抑制可以节省宝贵的带宽资源,可以有利于减少用户感觉到的端到端的时延。
也就是说,本实施例提供的方法在进行音频合规检测时,将音频流送入音频合规检测链中,进行合规检测。首先,检测此音频流是否为静默音频;①如果争端音频流均是静默状态那就直接终止合规检测,返回此音频流的检测结果。②如果此段音频流中只存在部分静默片段,那就通过FFMPEG将静默片段部分裁剪掉,留下有声音的部分)。其次,将有声音的部分送入ASR算法服务进行转写(①得到音频中的文本内容②得到音频中每句话的持续时长等信息)。最后,将ASR转换后的内容送入后续的检测算法,进行检测,最终将检测结果推送到合规检测报告模块(例如:脏词检测、流程话术关键词检测、意图检测、情绪分析等)。
在本申请实施例中,结合图2可知,上述步骤S103将所述待检测视频流输入视频合规检测链中进行视频合规检测,得到表示所述待检测视频流是否合规的第二检测结果可以包括以下步骤B1~B2。
B1,将所述待检测视频流输入视频合规检测链。可选地,还可以判断所述待检测视频流是否为静默视频,具体包括判断所述待检测视频流是否为全黑视频或所述待检测视频流的像素点是否单一;若判断所述待检测视频流为静默视频,则终止视频合规检测。
B2,在确定所述待检测视频流为非静默视频时,对所述待检测视频流进行视频合规检测,得到表示所述待检测视频流是否合规的第二检测结果;所述视频合规检测包括但不限于表情检测、动作检测、仪态检测、着装检测。
本实施例的视频合规检测,将视频流送入视频合规检测链中,进行合规检测。首先,检测此视频流是否为静默视频(即视频是否为全黑屏,像素点是否过于单一,即没任何实际意义),如果检测到是静默视频,就停止视频合规检测,返回失败结果。其次,将视频传入到视频合规检测链中的后续算法中进行检测,得到对应的第二检测结果。
进一步地,将音视频合规检测的结果与随路数据一并通过流媒体服务器,返回给前端系统中,由前端业务系统做相应的处理。前端业务系统,可以是任何业务系统,不局限一种。本实施例的实时媒体流可以来自于于金融行业双录业务系统中。可选地,在进行
在本实施例中,上述步骤S104所述整合所述第一检测结果和/或所述第二检测结果,生成所述实时媒体流对应的合规检测报告可以包括:按照预设报告模板整合所述第一检测结果和/或所述第二检测结果,生成所述实时媒体流对应的合规检测报告;将所述合规检测报告和所述随路数据一并返回至前端系统。
本实施例中可以针对不同的业务场景预先设置对应的报告模板,在得到第一检测结果和第二检测结果之后,可以将第一检测结果和第二检测结果中对应各个检测想是否合规的检测结果对应填入报告模板,进而结合报告模板、第一检测结果和第二检测结果生成合规检测报告。最后,可以依据流媒体服务器,实时的将检测结果返回给前端业务系统,业务系统可以根据合规检测的结果,决定业务流程的走向。既保证了合规检测的实时性,又提高了系统体验。
本实施例提供的方法,通过对于使用音视频流媒体服务完成音视频的实时推送,再基于设计模式中的责任链模式动态构建合规检测责任链,为不同的业务场景提供一整套实时合规检测。合规检测是前端业务系统通过音视频流媒体服务器,将实时的音视频流推送到合规检测服务中来,并且在检测完成后实时返回给前端业务系统,保证了合规检测的实时性,如果用户合规检测失败了,当下系统就会提示用户重复当前节点的内容,直至合规检测通过后在进行下一节点。本实施例提供的方案用户体验好,更具有连贯性。并且后台检测类型更加丰富,扩展性更强,支持热插拔。质检规则可以动态在业务系统进行配置,实时生效,可以做到每一种业务类型,都对应一种合规检测链。
在音频和视频合规检测:通过23种设计模式的过滤器链模式,根据业务系统配置的检测规则,进行动态组装检测链,保证了业务的灵活性。
基于同一发明构思,本申请实施例还提供了一种基于流媒体服务的合规检测装置,如图3所示,本实施例的于流媒体服务的合规检测装置可以包括:
监听流媒体服务器310,其配置成接收包括待检测音频流和/或待检测视频流的实时媒体流以及用于表征所述实时媒体流对应业务信息的随路数据,并根据所述随路数据识别所述实时媒体流对应的业务场景后动态构建合规检测责任链;所述合规检测责任链包括音频合规检测链和/或视频合规检测链。
本实施例的此处的流媒体服务器,既可以是自研的流媒体服务,也可以采用第三方厂家的流媒体服务,具有很强的灵活性,并不局限于某一种流媒体服务技术。常用的流媒体服务技术有janus、mediasup、freeswitch等。流媒体服务器,可以根据音频的声道类型进行分别推送,可以明确区分出办理业务的各个角色(例如:1声道是业务经理说话的声音,2声道是客户说话的声音)。可以根据此次业务流程中有几路视频流来区分哪一路视频流是客户,哪一路视频流是业务经理,这样就可以根据角色分别进行不同的合规检测。
音频合规检测模块320,其配置成将所述待检测音频流输入音频合规检测链中进行合规检测,得到表示所述待检测音频流是否合规的第一检测结果;
视频合规检测模块330,其配置成将所述待检测视频流输入视频合规检测链中进行合规检测,得到表示所述待检测视频流是否合规的第二检测结果;
合规检测报告模块340,其配置成整合所述第一检测结果和/或所述第二检测结果,生成所述实时媒体流对应的合规检测报告。
在本申请一可选实施例中,音频合规检测模块320还可以配置成:
将所述待检测音频流输入音频合规检测链,选取所述待检测音频流中有声音的至少部分音频流;
对所述至少部分音频流进行ASR音频识别,以转写生成所述至少部分音频流对应的文本数据;
对所述文本数据进行音频合规检测,得到表示所述待检测音频流是否合规的第一检测结果;所述音频合规检测包括但不限于脏词检测、流程话术关键词检测、意图检测、情绪分析。
在本申请一可选实施例中,音频合规检测模块320还可以配置成:
判断所述待检测音频流是否为静默音频;
若所述待检测音频流是否为静默音频,则终止音频合规检测;
若所述待检测音频流为非静默音频,判断所述待检测音频流是否包含静默音频片段;
若所述待检测音频流包含静默音频片段,则通过FFMPEG裁剪所述静默音频片段后得到所述待检测音频流中有声音的至少部分音频流;
若所述待检测音频流部未包含静默音频片段,则直接将所述待检测音频流全部输入至音频合规检测链。
在本申请一可选实施例中,视频合规检测模块330还可以配置成:
将所述待检测视频流输入视频合规检测链;
在确定所述待检测视频流为非静默视频时,对所述待检测视频流进行视频合规检测,得到表示所述待检测视频流是否合规的第二检测结果;所述视频合规检测包括但不限于表情检测、动作检测、仪态检测、着装检测。
在本申请一可选实施例中,视频合规检测模块330还可以配置成:
判断所述待检测视频流是否为静默视频,具体包括判断所述待检测视频流是否为全黑视频或所述待检测视频流的像素点是否单一;
若判断所述待检测视频流为静默视频,则终止视频合规检测。
在本申请一可选实施例中,合规检测报告模块340还可以配置成:
按照预设报告模板整合所述第一检测结果和/或所述第二检测结果,生成所述实时媒体流对应的合规检测报告;
将所述合规检测报告和所述随路数据一并返回至前端系统。
本申请实施例还提供了一种计算设备,参照图4,该计算设备包括存储器420、处理器410和存储在所述存储器420内并能由所述处理器410运行的计算机程序,该计算机程序存储于存储器420中的用于程序代码的空间430,该计算机程序在由处理器410执行时实现用于执行任一项根据本申请的方法步骤431。
本申请实施例还提供了一种计算机可读存储介质。参照图5,该计算机可读存储介质包括用于程序代码的存储单元,该存储单元设置有用于执行根据本申请的方法步骤的程序431′,该程序被处理器执行。
本申请实施例还提供了一种包含指令的计算机程序产品。当该计算机程序产品在计算机上运行时,使得计算机执行根据本申请的方法步骤。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、获取其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令处理器完成,所述的程序可以存储于计算机可读存储介质中,所述存储介质是非短暂性(英文:non-transitory)介质,例如随机存取存储器,只读存储器,快闪存储器,硬盘,固态硬盘,磁带(英文:magnetic tape),软盘(英文:floppy disk),光盘(英文:optical disc)及其任意组合。
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。
Claims (10)
1.一种基于流媒体服务的合规检测方法,包括:
接收包括待检测音频流和/或待检测视频流的实时媒体流以及用于表征所述实时媒体流对应业务信息的随路数据,并根据所述随路数据识别所述实时媒体流对应的业务场景后动态构建合规检测责任链;所述合规检测责任链包括音频合规检测链和/或视频合规检测链;
将所述待检测音频流输入音频合规检测链中进行音频合规检测,得到表示所述待检测音频流是否合规的第一检测结果;
将所述待检测视频流输入视频合规检测链中进行视频合规检测,得到表示所述待检测视频流是否合规的第二检测结果;
整合所述第一检测结果和/或所述第二检测结果,生成所述实时媒体流对应的合规检测报告。
2.根据权利要求1所述的方法,其特征在于,所述将所述待检测音频流输入音频合规检测链中进行音频合规检测,得到表示所述待检测音频流是否合规的第一检测结果包括:
将所述待检测音频流输入音频合规检测链,选取所述待检测音频流中有声音的至少部分音频流;
对所述至少部分音频流进行ASR音频识别,以转写生成所述至少部分音频流对应的文本数据;
对所述文本数据进行音频合规检测,得到表示所述待检测音频流是否合规的第一检测结果;所述音频合规检测包括但不限于脏词检测、流程话术关键词检测、意图检测、情绪分析。
3.根据权利要求2所述的方法,其特征在于,所述选取所述待检测音频流中有声音的至少部分音频流包括:
判断所述待检测音频流是否为静默音频;
若所述待检测音频流是否为静默音频,则终止音频合规检测;
若所述待检测音频流为非静默音频,判断所述待检测音频流是否包含静默音频片段;
若所述待检测音频流包含静默音频片段,则通过FFMPEG裁剪所述静默音频片段后得到所述待检测音频流中有声音的至少部分音频流;
若所述待检测音频流部未包含静默音频片段,则直接将所述待检测音频流全部输入至音频合规检测链。
4.根据权利要求1所述的方法,其特征在于,所述将所述待检测视频流输入视频合规检测链中进行视频合规检测,得到表示所述待检测视频流是否合规的第二检测结果包括:
将所述待检测视频流输入视频合规检测链;
在确定所述待检测视频流为非静默视频时,对所述待检测视频流进行视频合规检测,得到表示所述待检测视频流是否合规的第二检测结果;所述视频合规检测包括但不限于表情检测、动作检测、仪态检测、着装检测。
5.根据权利要求4所述的方法,其特征在于,所述将所述待检测视频流输入视频合规检测链之后,所述方法还包括:
判断所述待检测视频流是否为静默视频,具体包括判断所述待检测视频流是否为全黑视频或所述待检测视频流的像素点是否单一;
若判断所述待检测视频流为静默视频,则终止视频合规检测。
6.根据权利要求1-5中任一项所述的方法,其特征在于,所述整合所述第一检测结果和/或所述第二检测结果,生成所述实时媒体流对应的合规检测报告包括:
按照预设报告模板整合所述第一检测结果和/或所述第二检测结果,生成所述实时媒体流对应的合规检测报告;
将所述合规检测报告和所述随路数据一并返回至前端系统。
7.一种基于流媒体服务的合规检测装置,包括:
监听流媒体服务器,其配置成接收包括待检测音频流和/或待检测视频流的实时媒体流以及用于表征所述实时媒体流对应业务信息的随路数据,并根据所述随路数据识别所述实时媒体流对应的业务场景后动态构建合规检测责任链;所述合规检测责任链包括音频合规检测链和/或视频合规检测链;
音频合规检测模块,其配置成将所述待检测音频流输入音频合规检测链中进行合规检测,得到表示所述待检测音频流是否合规的第一检测结果;
视频合规检测模块,其配置成将所述待检测视频流输入视频合规检测链中进行合规检测,得到表示所述待检测视频流是否合规的第二检测结果;
合规检测报告模块,其配置成整合所述第一检测结果和/或所述第二检测结果,生成所述实时媒体流对应的合规检测报告。
8.一种计算设备,包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如权利要求1-6中任一项所述的基于流媒体服务的合规检测方法。
9.一种计算机可读存储介质,优选为非易失性可读存储介质,其内存储有计算机程序,所述计算机程序在由处理器执行时实现如权利要求1-6中任一项所述的基于流媒体服务的合规检测方法。
10.一种计算机程序产品,包括计算机可读代码,当所述计算机可读代码由计算机设备执行时,导致所述计算机设备执行权利要求1-6中任一项所述的基于流媒体服务的合规检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210101225.0A CN115914673A (zh) | 2022-01-27 | 2022-01-27 | 一种基于流媒体服务的合规检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210101225.0A CN115914673A (zh) | 2022-01-27 | 2022-01-27 | 一种基于流媒体服务的合规检测方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115914673A true CN115914673A (zh) | 2023-04-04 |
Family
ID=86471341
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210101225.0A Pending CN115914673A (zh) | 2022-01-27 | 2022-01-27 | 一种基于流媒体服务的合规检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115914673A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103763515A (zh) * | 2013-12-24 | 2014-04-30 | 浙江工业大学 | 一种基于机器学习的视频异常检测方法 |
CN109729383A (zh) * | 2019-01-04 | 2019-05-07 | 深圳壹账通智能科技有限公司 | 双录视频质量检测方法、装置、计算机设备和存储介质 |
CN111225276A (zh) * | 2020-01-21 | 2020-06-02 | 北京奇艺世纪科技有限公司 | 视频黑屏图像的分类方法、装置、电子设备及存储介质 |
CN111462735A (zh) * | 2020-04-10 | 2020-07-28 | 网易(杭州)网络有限公司 | 语音检测方法、装置、电子设备及存储介质 |
CN113507542A (zh) * | 2021-09-13 | 2021-10-15 | 北京快鱼电子股份公司 | 一种用于客服坐席的音视频在线巡检方法及系统 |
-
2022
- 2022-01-27 CN CN202210101225.0A patent/CN115914673A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103763515A (zh) * | 2013-12-24 | 2014-04-30 | 浙江工业大学 | 一种基于机器学习的视频异常检测方法 |
CN109729383A (zh) * | 2019-01-04 | 2019-05-07 | 深圳壹账通智能科技有限公司 | 双录视频质量检测方法、装置、计算机设备和存储介质 |
CN111225276A (zh) * | 2020-01-21 | 2020-06-02 | 北京奇艺世纪科技有限公司 | 视频黑屏图像的分类方法、装置、电子设备及存储介质 |
CN111462735A (zh) * | 2020-04-10 | 2020-07-28 | 网易(杭州)网络有限公司 | 语音检测方法、装置、电子设备及存储介质 |
CN113507542A (zh) * | 2021-09-13 | 2021-10-15 | 北京快鱼电子股份公司 | 一种用于客服坐席的音视频在线巡检方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10276153B2 (en) | Online chat communication analysis via mono-recording system and methods | |
US8204759B2 (en) | Social analysis in multi-participant meetings | |
US9437215B2 (en) | Predictive video analytics system and methods | |
US7995732B2 (en) | Managing audio in a multi-source audio environment | |
US9412371B2 (en) | Visualization interface of continuous waveform multi-speaker identification | |
US20150106091A1 (en) | Conference transcription system and method | |
US11238869B2 (en) | System and method for reconstructing metadata from audio outputs | |
US10762906B2 (en) | Automatically identifying speakers in real-time through media processing with dialog understanding supported by AI techniques | |
CN109417583A (zh) | 一种将音频信号实时转录为文本的系统和方法 | |
US11727940B2 (en) | Autocorrection of pronunciations of keywords in audio/videoconferences | |
US20230245646A1 (en) | Time distributions of participants across topic segments in a communication session | |
CN115866290A (zh) | 视频打点方法、装置、设备及存储介质 | |
KR101063261B1 (ko) | 핵심키워드를 이용하여 통화 내용을 녹취하는 인터넷 프로토콜 컨텍트 센터 녹취 시스템 및 그 방법 | |
WO2015019662A1 (ja) | 分析対象決定装置及び分析対象決定方法 | |
CN114067842B (zh) | 客户满意度鉴别方法及装置、存储介质及电子设备 | |
US20230230589A1 (en) | Extracting engaging questions from a communication session | |
CN115914673A (zh) | 一种基于流媒体服务的合规检测方法及装置 | |
CN113312928A (zh) | 文本翻译方法、装置、电子设备和存储介质 | |
CN111145769A (zh) | 音频处理方法和装置 | |
US11621016B2 (en) | Intelligent noise suppression for audio signals within a communication platform | |
CN113206996B (zh) | 一种业务录制数据的质检方法及装置 | |
US20230206903A1 (en) | Method and apparatus for identifying an episode in a multi-party multimedia communication | |
US20230230596A1 (en) | Talking speed analysis per topic segment in a communication session | |
US20230283843A1 (en) | Systems and methods for detecting and analyzing audio in a media presentation environment to determine whether to replay a portion of the media | |
US20230230588A1 (en) | Extracting filler words and phrases from a communication session |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20230404 |