CN114007131B

CN114007131B - 视频监控方法、装置及相关设备

Info

Publication number: CN114007131B
Application number: CN202111270489.0A
Authority: CN
Inventors: 马亿凯; 马双阳
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-10-29
Filing date: 2021-10-29
Publication date: 2023-04-25
Anticipated expiration: 2041-10-29
Also published as: CN114007131A

Abstract

本申请涉及人工智能技术，提供一种视频监控方法、装置、计算机设备与存储介质，包括：获取当前视频直播的观众身份信息与目标产品信息，并根据观众身份信息与目标产品信息匹配目标直播话术；调用预先训练好的语音识别模型识别当前视频直播中的音频数据，得到音频文本数据；计算目标直播话术与音频文本数据的文本相似度；当文本相似度超过预设文本相似度阈值时，确定与目标产品信息对应的目标敏感词库；检测音频文本数据中是否包含目标敏感词库中的敏感词汇；当检测结果为是时，输出告警提示。本申请能够提高视频直播的监控准确性，促进智慧城市的快速发展。

Description

视频监控方法、装置及相关设备

技术领域

本申请涉及人工智能技术领域，尤其涉及一种视频监控方法、装置、计算机设备及介质。

背景技术

随着互联网技术的快速发展，视频直播正逐渐成为一种流行的生活娱乐方式。然而在鱼龙混杂的视频直播平台中，难免会出现一些不良违规甚至违法的信息，这严重破坏了视频直播的发展环境，给社会带来了恶劣影响。因此，需要加强对视频直播的实时监控，一经发现违规情况应及时处理。

在实现本申请的过程中，申请人发现现有技术存在如下技术问题：目前业界直播间的常见做法是可以通过设置敏感词进行屏蔽，如果出现敏感词将封停直播间。但是敏感词主要包括涉及黄色、暴力、政治敏感等的词汇，而对于保险等特定行业的视频直播，由于保险产品与电商平台的普通大众实物商品不同，因此银保监会对整个过程保险销售的直播话术有强管控要求，保险人员在直播间所说的每句话不能出现错漏，甚至误导客户。如果仅是对直播话术设置敏感词屏蔽且敏感词只能覆盖常见的词语话术，而不能满足保险行业的专业术语的话，无法保证视频直播监控的准确性。

因此，有必要提供一种视频直播监控方法，能够提高视频直播的监控准确性。

发明内容

鉴于以上内容，有必要提出一种视频监控方法、视频监控装置、计算机设备及介质，能够提高视频直播的监控准确性。

本申请实施例第一方面提供一种视频监控方法，所述视频监控方法包括：

获取当前视频直播的观众身份信息与目标产品信息，并根据所述观众身份信息与所述目标产品信息匹配目标直播话术；

调用预先训练好的语音识别模型识别当前视频直播中的音频数据，得到音频文本数据；

计算所述目标直播话术与所述音频文本数据的文本相似度；

当所述文本相似度超过预设文本相似度阈值时，确定与所述目标产品信息对应的目标敏感词库；

检测所述音频文本数据中是否包含所述目标敏感词库中的敏感词汇；

当检测结果为所述音频文本数据中包含所述目标敏感词库中的敏感词汇时，输出告警提示。

进一步地，在本申请实施例提供的上述视频监控方法中，所述根据所述观众身份信息与所述目标产品信息匹配目标直播话术包括：

根据所述目标产品信息遍历预先设置的产品信息与直播话术的映射关系，得到所述目标产品信息对应的初始直播话术；

根据所述观众身份信息确定观众类型以及观众的直播风格偏好；

根据所述观众类型筛选所述初始直播话术，得到中间直播话术；

根据所述直播风格偏好调整所述中间直播话术，得到目标直播话术。

进一步地，在本申请实施例提供的上述视频监控方法中，所述调用预先训练好的语音识别模型识别当前视频直播中的音频数据，得到音频文本数据包括：

获取待识别的当前视频直播中的若干音频数据，所述音频数据按照时间戳顺序排列；

特征提取每一所述音频数据，得到语音特征序列集；

输入所述语音特征序列集至预先训练好的语音识别模型中，得到所述音频数据对应的若干音频文本数据；

按照所述时间戳顺序聚合处理若干所述音频文本数据，得到音频文本数据集。

进一步地，在本申请实施例提供的上述视频监控方法中，所述计算所述目标直播话术与所述音频文本数据的文本相似度包括：

向量化处理所述目标直播话术，得到目标直播话术向量；

向量化处理所述音频文本数据，得到音频文本数据向量；

计算所述目标直播话术向量与所述音频文本数据向量间的相似度值作为所述目标直播话术与所述音频文本数据的文本相似度。

进一步地，在本申请实施例提供的上述视频监控方法中，所述调用预先训练好的敏感词分数计算模型处理所述历史聊天记录集，得到目标敏感词库包括：

分词处理所述历史聊天记录集中的每一条历史聊天记录，得到分词结果；

调用预先训练好的敏感词分数计算模型处理所述分词结果，得到所述分词结果对应的敏感词分数；

检测所述敏感词分数是否高于预设敏感分数阈值；

当检测结果为所述敏感词分数高于所述预设敏感分数阈值时，确定所述敏感词分数对应的分词结果为敏感词汇，并组合所述敏感词汇得到所述目标产品信息对应的目标敏感词库。

进一步地，在本申请实施例提供的上述视频监控方法中，所述检测所述音频文本数据中是否包含所述目标敏感词库中的敏感词汇包括：

分词处理所述音频文本数据，得到若干音频词汇；

向量化处理所述音频词汇，得到音频词汇向量；

向量化处理所述敏感词汇，得到敏感词汇向量；

计算所述音频词汇向量与所述敏感词汇向量的相似度；

当所述音频词汇向量与所述敏感词汇向量的相似度超过预设相似度阈值时，确定所述音频词汇向量对应的音频词汇属于敏感词汇。

进一步地，在本申请实施例提供的上述视频监控方法中，当检测结果为所述音频文本数据中包含所述目标敏感词库中的敏感词汇时，所述输出告警提示包括：

获取所述音频文本数据中包含所述目标敏感词库中的敏感词汇的目标数量；

根据所述目标数量遍历预先设置的数量与敏感等级的映射关系，得到目标敏感等级；

按照所述目标敏感等级输出告警提示。

本申请实施例第二方面还提供一种视频监控装置，所述视频监控装置包括：

话术匹配模块，用于获取当前视频直播的观众身份信息与目标产品信息，并根据所述观众身份信息与所述目标产品信息匹配目标直播话术；

语音识别模块，用于调用预先训练好的语音识别模型识别当前视频直播中的音频数据，得到音频文本数据；

相似计算模块，用于计算所述目标直播话术与所述音频文本数据的文本相似度；

词库确定模块，用于当所述文本相似度超过预设文本相似度阈值时，确定与所述目标产品信息对应的预设内部系统中的历史聊天记录集，并调用预先训练好的敏感词分数计算模型处理所述历史聊天记录集，得到目标敏感词库；

词汇检测模块，用于检测所述音频文本数据中是否包含所述目标敏感词库中的敏感词汇；

告警提示模块，用于当检测结果为所述音频文本数据中包含所述目标敏感词库中的敏感词汇时，输出告警提示。

本申请实施例第三方面还提供一种计算机设备，所述计算机设备包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如上述任意一项所述视频监控方法。

本申请实施例第四方面还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项所述视频监控方法。

本申请实施例提供的上述视频监控方法、视频监控装置、计算机设备以及计算机可读存储介质，针对所述观众身份信息与所述目标产品信息自动匹配目标直播话术，并将直播过程中的音频文本数据与所述目标直播话术进行相似度判断，以确保整个直播过程中的音频数据的准确性，进而提高视频直播的监控准确性；此外，本申请通过确定与所述目标产品信息对应的预设内部系统中的历史聊天记录集，并调用预先训练好的敏感词分数计算模型处理所述历史聊天记录集，得到目标敏感词库，避免人为设置目标敏感词库，能够提高目标敏感词库中敏感词汇的准确性，进而提高视频直播的监控准确性。本申请可应用于智慧政务、智慧交通等智慧城市的各个功能模块中，比如智慧政务的基于内容识别的视频监控模块等，能够促进智慧城市的快速发展。

附图说明

图1是本申请实施例一提供的视频监控方法的流程图。

图2是本申请实施例二提供的视频监控装置的结构图。

图3是本申请实施例三提供的计算机设备的结构示意图。

如下具体实施方式将结合上述附图进一步说明本申请。

具体实施方式

为了能够更清楚地理解本申请的上述目的、特征和优点，下面结合附图和具体实施例对本申请进行详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本申请，所描述的实施例是本申请一部分实施例，而不是全部的实施例。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本发明实施例提供的视频监控方法由计算机设备执行，相应地，视频监控装置运行于计算机设备中。图1是本申请实施例一提供的视频监控方法的流程图。如图1所示，所述视频监控方法可以包括如下步骤，根据不同的需求，该流程图中步骤的顺序可以改变，某些可以省略：

S11，获取当前视频直播的观众身份信息与目标产品信息，并根据所述观众身份信息与所述目标产品信息匹配目标直播话术。

在本申请的至少一实施例中，所述观众身份信息可以包括观众类型以及观众的历史行为，所述观众类型可以包括内部观众与外部观众，所述历史行为可以包括历史播放行为或历史搜索行为。其中，所述内部观众是指面向企业内部员工，所述外部观众是指面向外部客户。所述目标产品信息是指视频直播过程中需要推销的产品信息，所述目标产品信息可以包括目标产品名称以及目标产品属性等信息。所述观众身份信息与所述目标产品信息可以通过监测主播在计算机设备(例如，所述计算机设备可以为手机、平板等)上的触控操作得到。所述目标直播话术是指预先生成的用于在视频直播过程中协助主播组织讲稿的话术。所述目标直播话术存储于预设数据库中，考虑到数据存储的隐私性与安全性，所述预设数据库可以为区块链上的节点。不同的观众身份信息以及不同的目标产品信息在视频直播过程中需要考虑的维度并不相同，本申请针对所述观众身份信息与所述目标产品信息自动生成相应的目标直播话术，能够为主播直播解决组织讲稿的难题。

可选地，所述根据所述观众身份信息与所述目标产品信息匹配目标直播话术包括：

其中，针对不同的目标产品信息，从产品特点、保障范围、适用人群、理赔案例、保费预估以及常见问题等维度考虑，预先设置所述目标产品信息对应的直播话术。所述直播话术可以从销售日常线下为客户解答相关产品的话术中提取。所述目标产品信息与所述直播话术间存在映射关系，通过查询预先设置的产品与直播话术的映射关系，得到所述目标产品信息对应的初始直播话术。

所述观众身份信息包含观众类型的信息，所述观众类型可以包括内部观众与外部观众，对于相同产品，当所述观众类型不同时，其对应的直播话术也并不相同。因此，通过确定所述观众类型，对所述初始直播话术进行筛选，能够得到中间直播话术。

其中，所述观众的直播风格偏好可以通过统计分析观众的历史播放行为或历史搜索行为确定，所述直播风格偏好可以包括但不限于观众对产品的维度偏好，例如，对于一部分观众来说，其在观看直播过程中更偏好产品的保障范围这一维度，因此，在根据所述直播风格偏好调整所述中间直播话术，得到目标直播话术时，需要优先直播所述保障范围这一维度的话术内容。

S12，调用预先训练好的语音识别模型识别当前视频直播中的音频数据，得到音频文本数据。

在本申请的至少一实施例中，可以实时获取当前视频直播中的音频数据或者按照时间戳顺序获取当前视频直播中的音频数据。所述语音特征序列集是指每一所述音频数据对应的音素特征的集合，所述音素特征是指最小的语音单位，所述音素特征可以分为元音、辅音两大类，依据音节里的发音动作来分析，一个动作构成一个音素。所述语音特征序列中的音素特征为时间维度的特征，每一时间戳可以对应有一个音素特征。所述语音识别模型用于识别音频数据对应的语音特征序列以得到对应音频文本数据的模型。所述语音识别模型的输入数据为语音特征序列，输出数据为所述语音特征序列对应的音频文本数据。所述语音识别模型的训练过程为现有技术，在此不做赘述。按照所述时间戳顺序聚合处理若干所述音频文本数据，能够得到连续的音频文本数据。

可选地，所述调用预先训练好的语音识别模型识别当前视频直播中的音频数据，得到音频文本数据包括：

特征提取每一所述音频数据，得到语音特征序列集；

S13，计算所述目标直播话术与所述音频文本数据的文本相似度。

在本申请的至少一实施例中，此处需要用到文本相似度计算方法，主要解决主播的音频文本数据和目标直播话术是否吻合，在一实施例中，采用word2vec的方法来计算文本相似度。

可选地，所述计算所述目标直播话术与所述音频文本数据的文本相似度包括：

向量化处理所述目标直播话术，得到目标直播话术向量；

向量化处理所述音频文本数据，得到音频文本数据向量；

其中，可以分别将所述目标直播话术与所述音频文本数据在word2vec空间向量模型中做映射，得到目标直播话术向量与音频文本数据向量。所述word2vec空间向量模型具体可以指词与向量之间的对应关系，即利用向量的形式来表示每个词，所述向量中又包含了词与词之间的上下文关联属性，从而实现通过比较待匹配文本句对应的文本向量之间的相似度即可获知待匹配文本句之间的相似度。

S14，当所述文本相似度超过预设文本相似度阈值时，确定与所述目标产品信息对应的预设内部系统中的历史聊天记录集，并调用预先训练好的敏感词分数计算模型处理所述历史聊天记录集，得到目标敏感词库。

在本申请的至少一实施例中，所述预设文本相似度阈值为预先设置的用于评估两个文本是否相似的阈值。当所述文本相似度超过所述预设文本相似度阈值时，说明当前视频直播过程中主播按照所述目标直播话术的提示内容进行直播，通过对所述目标直播话术与所述音频文本数据的文本相似度进行计算，能够保证视频直播过程中话术的规范性。

本申请与预设内部系统进行连接，并从所述预设内部系统中获取历史聊天记录集，其中所述预设内部系统与所述目标产品信息对应，所述预设内部系统可以是对客户线上文字讲解所述目标产品信息的内部客服系统，在此不做限制。

可选地，所述调用预先训练好的敏感词分数计算模型处理所述历史聊天记录集，得到目标敏感词库包括：

检测所述敏感词分数是否高于预设敏感分数阈值；

其中，所述预设内部系统中包含若干客服与客户关于所述目标产品信息进行讲解沟通的聊天记录，所述历史聊天记录集中包含若干由客服输出的讲解语句。在进行分词处理时，一般使用句法分析工具，将一段文本进行分句处理，依次进行分词(Segmentor)、词性标注(Postagger)、句法分析(Parser)，得到分词结果。所述敏感词分数计算模型是指预先训练好的用于计算每一个词语的敏感词分数的模型。所述敏感词分数计算模型的输入向量可以为标注好敏感词标记的词语向量，输出向量可以为各个词语向量对应的敏感词分数。以所述目标产品信息为保险产品为例，敏感词的标注可以分为如下几类：使用易与银行等金融产品相混淆的描述、夸大保险责任或者保险产品收益、违法广告法或者增员类等。所述预设敏感分数阈值是指预先设置的用于区分词语向量是否属于敏感词汇的阈值。可以理解的是，当检测结果为所述敏感词分数低于所述预设敏感分数阈值时，确定该词语向量并非敏感词汇；当检测结果为所述敏感词分数高于所述预设敏感分数阈值时，确定该词语向量为敏感词汇。

本申请通过调用敏感词分数计算模型对历史聊天记录集中的分词结果进行敏感词分析，并将属于敏感内容的敏感词汇进行组合，得到目标产品信息对应的目标敏感词库，避免人为设置目标敏感词库，能够提高目标敏感词库中敏感词汇的准确性以及提高建立目标敏感词库的效率。

在一实施例中，当所述文本相似度未超过预设文本相似度阈值时，可以确定主播在视频直播时并未按照目标直播话术进行直播，此时无法保证主播的直播内容符合内外部审核要求，输出告警提示至预设联系人，由所述预设联系人告知主播及时更换视频直播话术。其中，所述预设联系人可以是指预先设置的，用于对主播的视频直播话术进行审核的人员。

S15，检测所述音频文本数据中是否包含所述目标敏感词库中的敏感词汇，当检测结果为所述音频文本数据中包含所述目标敏感词库中的敏感词汇时，执行步骤S16。

在本申请的至少一实施例中，对所述音频文本数据中的各个词汇进行分词处理，得到若干个分词结果，将所述音频文本数据中的分词结果与所述敏感词汇进行相似度计算，当所述音频文本数据中的分词结果与所述敏感词汇的相似度高于预设相似度阈值时，确定所述分词结果为敏感词汇；当所述音频文本数据中的分词结果与所述敏感词汇的相似度低于预设相似度阈值时，确定所述分词结果并非为敏感词汇。文本相似度计算可以通过计算文本间的欧氏距离的方式，在此不做限制。

可选地，所述检测所述音频文本数据中是否包含所述目标敏感词库中的敏感词汇包括：

分词处理所述音频文本数据，得到若干音频词汇；

向量化处理所述音频词汇，得到音频词汇向量；

向量化处理所述敏感词汇，得到敏感词汇向量；

计算所述音频词汇向量与所述敏感词汇向量的相似度；

其中，当所述音频词汇向量与所述敏感词汇向量的相似度未超过预设相似度阈值时，确定所述音频词汇向量对应的音频词汇不属于敏感词汇。

S16，输出告警提示。

在本申请的至少一实施例中，当检测结果为所述音频文本数据中包含所述目标敏感词库中的敏感词汇时，所述输出告警提示包括：

按照所述目标敏感等级输出告警提示。

其中，预先设置敏感词汇的数量与敏感等级的映射关系，所述敏感词汇的数量越多，该音频文本数据对应的敏感等级越高。本申请针对不同的敏感等级设置相应的告警提示。示例性地，所述敏感等级从高到低可以分为A、B以及C级，当所述敏感等级为A级时，说明此时的音频文本数据的敏感程度最高，所述告警提示为暂停主播对目标产品信息的直播；当所述敏感等级为B级时，说明此时的音频文本数据的敏感程度较高，所述告警提示为语音提示主播注意直播用词；当所述敏感等级为C级时，说明此时的音频文本数据的敏感程度较低，所述告警提示为屏蔽主播输出的个别敏感词汇。

在其他实施例中，当检测结果为所述音频文本数据中不包含所述目标敏感词库中的敏感词汇时，将根据文本提前预设关键词和所述目标产品信息对应的产品链接，实时在直播间的购物车位置进行产品链接替换，方便直播间客户在线上直接预约购买，实现最终转化。其中，所述预设关键词是指与所述目标产品信息相关的关键词，例如，所述预设关键词可以是指所述目标产品信息的名称等，在此不做限制。

本申请实施例提供的上述视频监控方法，针对所述观众身份信息与所述目标产品信息自动匹配目标直播话术，并将直播过程中的音频文本数据与所述目标直播话术进行相似度判断，以确保整个直播过程中的音频数据的准确性，进而提高视频直播的监控准确性；此外，本申请通过确定与所述目标产品信息对应的预设内部系统中的历史聊天记录集，并调用预先训练好的敏感词分数计算模型处理所述历史聊天记录集，得到目标敏感词库，避免人为设置目标敏感词库，能够提高目标敏感词库中敏感词汇的准确性，进而提高视频直播的监控准确性。本申请可应用于智慧政务、智慧交通等智慧城市的各个功能模块中，比如智慧政务的基于内容识别的视频监控模块等，能够促进智慧城市的快速发展。

图2是本申请实施例二提供的视频监控装置的结构图。

在一些实施例中，所述视频监控装置20可以包括多个由计算机程序段所组成的功能模块。所述视频监控装置20中的各个程序段的计算机程序可以存储于计算机设备的存储器中，并由至少一个处理器所执行，以执行(详见图1描述)视频监控功能。

本实施例中，所述视频监控装置20根据其所执行的功能，可以被划分为多个功能模块。所述功能模块可以包括：话术匹配模块201、语音识别模块202、相似计算模块203、词库确定模块204、词汇检测模块205以及告警提示模块206。本申请所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段，其存储在存储器中。在本实施例中，关于各模块的功能将在后续的实施例中详述。

所述话术匹配模块201可以用于获取当前视频直播的观众身份信息与目标产品信息，并根据所述观众身份信息与所述目标产品信息匹配目标直播话术。

所述语音识别模块202可以用于调用预先训练好的语音识别模型识别当前视频直播中的音频数据，得到音频文本数据。

在本申请的至少一实施例中，可以实时获取当前视频直播中的音频数据或者按照时间戳顺序获取当前视频直播中的音频数据。所述语音识别模型用于识别音频数据对应的语音特征序列以得到对应音频文本数据的模型。其中，所述语音特征序列中的语音特征为时间维度的特征，每一时间戳可以对应有一个语音特征。

特征提取每一所述音频数据，得到语音特征序列集；

按照所述时间戳顺序聚合处理若干所述音频文本数据，得到音频文本数据集。其中，所述特征提取每一所述音频数据，得到语音特征序列集为现有技术，在此不再赘述。

所述相似计算模块203可以用于计算所述目标直播话术与所述音频文本数据的文本相似度。

向量化处理所述目标直播话术，得到目标直播话术向量；

向量化处理所述音频文本数据，得到音频文本数据向量；

所述词库确定模块204可以用于当所述文本相似度超过预设文本相似度阈值时，确定与所述目标产品信息对应的预设内部系统中的历史聊天记录集，并调用预先训练好的敏感词分数计算模型处理所述历史聊天记录集，得到目标敏感词库。

检测所述敏感词分数是否高于预设敏感分数阈值；

其中，所述预设内部系统中包含若干客服与客户关于所述目标产品信息进行讲解沟通的聊天记录，所述历史聊天记录集中包含若干由客服输出的讲解语句。在进行分词处理时，一般使用句法分析工具，将一段文本进行分句处理，依次进行分词(Segmentor)、词性标注(Postagger)、句法分析(Parser)，得到分词结果。所述敏感词分数计算模型是指预先训练好的用于计算每一个词语的敏感词分数的模型。所述敏感词分数计算模型的输入向量可以为标注好敏感词标记的词语向量，输出向量可以为各个词语向量对应的敏感词分数。以所述目标产品信息为保险产品为例，敏感词的标注可以分为如下几类：使用易与银行等金融产品相混淆的描述、夸大保险责任或者保险产品收益、违法广告法或者增员类等。所述预设敏感分数阈值是指预先设置的用于区分词语向量是否属于敏感词汇的阈值。可以理解的是，当检测结果为所述敏感词分数低于所述预设敏感分数阈值时，确定该词语向量并非敏感词汇；当检测结果为所述敏感词分数高于所述预设敏感分数阈值时，确定该词语向量为敏感词汇。本申请通过调用敏感词分数计算模型对历史聊天记录集中的分词结果进行敏感词分析，并将属于敏感内容的敏感词汇进行组合，得到目标产品信息对应的目标敏感词库，避免人为设置目标敏感词库，能够提高目标敏感词库中敏感词汇的准确性以及提高建立目标敏感词库的效率。

所述词汇检测模块205可以用于检测所述音频文本数据中是否包含所述目标敏感词库中的敏感词汇。

分词处理所述音频文本数据，得到若干音频词汇；

向量化处理所述音频词汇，得到音频词汇向量；

向量化处理所述敏感词汇，得到敏感词汇向量；

计算所述音频词汇向量与所述敏感词汇向量的相似度；

所述告警提示模块206可以用于当检测结果为所述音频文本数据中包含所述目标敏感词库中的敏感词汇时，输出告警提示。

按照所述目标敏感等级输出告警提示。

参阅图3所示，为本申请实施例三提供的计算机设备的结构示意图。在本申请较佳实施例中，所述计算机设备3包括存储器31、至少一个处理器32、至少一条通信总线33及收发器34。

本领域技术人员应该了解，图3示出的计算机设备的结构并不构成本申请实施例的限定，既可以是总线型结构，也可以是星形结构，所述计算机设备3还可以包括比图示更多或更少的其他硬件或者软件，或者不同的部件布置。

在一些实施例中，所述计算机设备3是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述计算机设备3还可包括客户设备，所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品，例如，个人计算机、平板电脑、智能手机、数码相机等。

需要说明的是，所述计算机设备3仅为举例，其他现有的或今后可能出现的电子产品如可适应于本申请，也应包含在本申请的保护范围以内，并以引用方式包含于此。

在一些实施例中，所述存储器31中存储有计算机程序，所述计算机程序被所述至少一个处理器32执行时实现如所述的视频监控方法中的全部或者部分步骤。所述存储器31包括只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable Read-OnlyMemory，PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory，OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

进一步地，所述计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

在一些实施例中，所述至少一个处理器32是所述计算机设备3的控制核心(Control Unit)，利用各种接口和线路连接整个计算机设备3的各个部件，通过运行或执行存储在所述存储器31内的程序或者模块，以及调用存储在所述存储器31内的数据，以执行计算机设备3的各种功能和处理数据。例如，所述至少一个处理器32执行所述存储器中存储的计算机程序时实现本申请实施例中所述的视频监控方法的全部或者部分步骤；或者实现视频监控装置的全部或者部分功能。所述至少一个处理器32可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(Central Processing unit，CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。

在一些实施例中，所述至少一条通信总线33被设置为实现所述存储器31以及所述至少一个处理器32等之间的连接通信。

尽管未示出，所述计算机设备3还可以包括给各个部件供电的电源(比如电池)，优选的，电源可以通过电源管理装置与所述至少一个处理器32逻辑相连，从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述计算机设备3还可以包括多种传感器、蓝牙模块、Wi-Fi模块等，在此不再赘述。

上述以软件功能模块的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，计算机设备，或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的部分。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，既可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其他的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或，单数不排除复数。说明书中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本申请的技术方案而非限制，尽管参照较佳实施例对本申请进行了详细说明，本领域的普通技术人员应当理解，可以对本申请的技术方案进行修改或等同替换，而不脱离本申请技术方案的精神和范围。

Claims

1.一种视频监控方法，其特征在于，所述视频监控方法包括：

获取当前视频直播的观众身份信息以及目标产品信息，并根据所述观众身份信息与所述目标产品信息匹配目标直播话术；

计算所述目标直播话术与所述音频文本数据的文本相似度；

当所述文本相似度超过预设文本相似度阈值时，确定与所述目标产品信息对应的预设内部系统中的历史聊天记录集，并调用预先训练好的敏感词分数计算模型处理所述历史聊天记录集，得到目标敏感词库；

2.根据权利要求1所述的视频监控方法，其特征在于，所述根据所述观众身份信息与所述目标产品信息匹配目标直播话术包括：

3.根据权利要求1所述的视频监控方法，其特征在于，所述调用预先训练好的语音识别模型识别当前视频直播中的音频数据，得到音频文本数据包括：

特征提取每一所述音频数据，得到语音特征序列集；

4.根据权利要求1所述的视频监控方法，其特征在于，所述计算所述目标直播话术与所述音频文本数据的文本相似度包括：

向量化处理所述目标直播话术，得到目标直播话术向量；

向量化处理所述音频文本数据，得到音频文本数据向量；

5.根据权利要求1所述的视频监控方法，其特征在于，所述调用预先训练好的敏感词分数计算模型处理所述历史聊天记录集，得到目标敏感词库包括：

检测所述敏感词分数是否高于预设敏感分数阈值；

6.根据权利要求1所述的视频监控方法，其特征在于，所述检测所述音频文本数据中是否包含所述目标敏感词库中的敏感词汇包括：

分词处理所述音频文本数据，得到若干音频词汇；

向量化处理所述音频词汇，得到音频词汇向量；

向量化处理所述敏感词汇，得到敏感词汇向量；

计算所述音频词汇向量与所述敏感词汇向量的相似度；

7.根据权利要求1所述的视频监控方法，其特征在于，当检测结果为所述音频文本数据中包含所述目标敏感词库中的敏感词汇时，所述输出告警提示包括：

按照所述目标敏感等级输出告警提示。

8.一种视频监控装置，其特征在于，所述视频监控装置包括：

9.一种计算机设备，其特征在于，所述计算机设备包括处理器与存储器，所述处理器用于执行所述存储器中存储的计算机程序时实现如权利要求1至7中任意一项所述视频监控方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述视频监控方法。