CN116996470B

CN116996470B - 一种富媒体信息发送系统

Info

Publication number: CN116996470B
Application number: CN202311259119.6A
Authority: CN
Inventors: 吴锋; 吴宪; 朱庆红; 汪骥; 秦慈江; 余超
Original assignee: Chuang Rui Technology Co ltd
Current assignee: Chuang Rui Technology Co ltd
Priority date: 2023-09-27
Filing date: 2023-09-27
Publication date: 2024-02-06
Anticipated expiration: 2043-09-27
Also published as: CN116996470A

Abstract

本发明涉及短信发送技术领域，公开了一种富媒体信息发送系统，包括：接收模块，用于从第一用户接收富媒体短信；发送模块，用于将富媒体短信发送到第二用户；第一模块，其用于将需要发送的富媒体短信的视频进行处理获得视频帧图像；第二模块，其用于将视频帧图像进行图像实例分割获得实例图像；第三模块，基于视频帧图像和实例图像构建图结构数据；判断模块，判断的富媒体短信的视频是否包含违规信息，来判断是否进行发送；本发明能够识别出只包含了帧图像组合表达的违规信息的富媒体短信，对于大规模发送短信的短信平台来说降低了违规信息大规模传播的可能性。

Description

一种富媒体信息发送系统

技术领域

本发明涉及短信发送技术领域，它涉及一种富媒体信息发送系统。

背景技术

短信服务平台需要对用户需要发送的富媒体短信中的内容，其中文字内容和图片内容的审核比较容易，通过一般的识别手段能够获得良好的识别率，但是视频内容审核的难度远大于图片内容和文字内容；

公告号为CN111225234B，名称为视频审核方法、视频审核装置、设备和存储介质的中国专利公开了一种将每帧违规图像输入预先训练的违规分类模型中，获得违规图像所包含的违规分类以及违规分类的分类得分；基于所有违规图像的违规分类和分类得分确定每个违规分类的分类总得分的方法。视频是由连续的帧图像组成的，独立的帧图像无法表达连续的帧图像之间所能够组合表达的信息，参考文献一的方法无法获取帧图像之间所能够组合表达的信息，无法识别帧图像组合表达的违规信息。

公告号为CN111382623B，名称为一种直播审核的方法、装置、服务器和存储介质的中国专利公开了一种将视频的帧图像进行卷积处理之后进行特征合并获得特征向量来进行识别，这种方法虽然是通过视频所包含的所有帧图像的特征的集合来直接获得视频的识别结果，但是相对于参考文献一仅是将帧图像独立卷积处理获得的特征进行直接的合并，没有包含视频帧之间的特征关联，同样无法获取连续的帧图像之间所能够组合表达的信息，无法识别帧图像组合表达的违规信息，会将单独帧图像不包含违规信息，但是帧图像组合表达的违规信息的富媒体短信误判为不包含违规信息。

发明内容

本发明提供一种富媒体信息发送系统，解决相关技术中无法识别帧图像组合表达的违规信息，导致错误的判断结果的技术问题。

本发明提供了一种富媒体信息发送系统，包括：接收模块，用于从第一用户接收富媒体短信；发送模块，用于将富媒体短信发送到第二用户；第一模块，其用于将需要发送的富媒体短信的视频进行处理获得视频帧图像；第二模块，其用于将视频帧图像进行图像实例分割获得实例图像；第三模块，基于视频帧图像和实例图像构建图结构数据，图结构数据包括节点的表征向量，每个节点与一个实例图像建立数据联系，节点通过该数据联系能够索引到一个实例图像，节点的表征向量根据节点的数据联系的实例图像来生成；节点之间的边至少表达以下节点之间的关联关系中的一个：

节点的数据联系的实例图像来源于同一视频帧图像；

节点的数据联系的实例图像来源于相邻的视频帧图像，并且实例图像之间的关联性大于第一判断标准；

第一训练模块，通过图结构数据来标注新的边生成样本结构数据，标注的边表达的节点之间的关联关系是：节点的数据联系的实例图像能够组合表示违规信息；基于图结构数据和样本结构数据来训练第一模型，第一模型基于输入的图结构数据来生成节点之间的关联关系的新的表示，训练第一模型的目标是使生成的节点之间的关联关系的新的表示逼近于样本结构数据中的节点之间的关联关系；

第二训练模块，其用于为图结构数据进行标注，标注的标签表示图结构数据来源的富媒体短信的视频是否包含违规信息，通过图结构数据和标注的标签对第二模型进行训练，第二模型包括训练完成的第一模型；第二模型输入图结构数据，输出表示图结构数据来源的富媒体短信的视频是否包含违规信息的结果，训练第二模型的目标是使其输出逼近于标注的标签；

判断模块，其用于调用训练后的第二模型，输入待判断的富媒体短信的视频的图结构数据，如果不包含违规信息，则调用发送模块对富媒体短信进行发送，如果包含违规信息则不调用发送模块对富媒体短信进行发送。

进一步地，还包括用户权限管理模块，其用于限制第一用户的权限，如果从第一用户接收的富媒体短信被判断为包含违规信息，则不再从第一用户接收富媒体短信。

进一步地，将需要发送的富媒体短信的视频进行处理获得视频帧图像时从富媒体短信的视频中抽取关键帧获得视频帧图像。

进一步地，实例图像之间的关联性大于第一判断标准的判断方法是以下方法中的一个：计算余弦相似度、哈希算法、直方图方法、计算互信息、均方误差算法、特征匹配方法。

进一步地，通过图结构数据来标注新的边生成样本结构数据的方法是：在视频帧图像上标注实例图像，连续的播放视频帧图像来进行人工标注，人工标注的内容是能够组合表示违规信息的实例图像。

进一步地，第一模型包括GNN层和生成器，其中GNN层输入图结构数据，输出节点的嵌入表示向量到生成器，生成器输出表示节点之间的关联关系的生成邻接矩阵。

进一步地，第二模型包括第一模型和第一全连接层，第一全连接层输入第一模型生成的节点之间的关联关系的新的表示，输出表示图结构数据来源的富媒体短信的视频是否包含违规信息的结果。

进一步地，第二模型包括第一模型、第一拼接器、第二全连接层，第一拼接器输入图结构数据的所有节点的嵌入表示向量，将所有节点的嵌入表示向量拼接后输入第二全连接层，第二全连接层输出表示图结构数据来源的富媒体短信的视频是否包含违规信息的结果。

本发明提供了一种富媒体信息发送方法，其特征在于，其通过前述的富媒体信息发送系统执行以下步骤：

步骤S201，将需要发送的富媒体短信的视频进行处理获得视频帧图像；

步骤S202，将视频帧图像进行图像实例分割获得实例图像；

步骤S203，基于视频帧图像和实例图像构建图结构数据；

步骤S204，输入待判断的富媒体短信的视频的图结构数据到第二模型，来获得富媒体短信是否包含违规信息的结果；

步骤S205，将不包含违规信息的富媒体短信进行发送。

本发明提供了一种存储介质，其特征在于，存储有非暂时性计算机可读指令，当所述非暂时性计算机可读指令由计算机运行时，由计算机执行前述的一种富媒体信息发送方法中的步骤。

本发明的有益效果在于：通过训练学习获取帧图像组合表达违规信息的规律分布，能够识别出只包含了帧图像组合表达的违规信息的富媒体短信，对于大规模发送短信的短信平台来说降低了违规信息大规模传播的可能性。

附图说明

图1是本发明的一种富媒体信息发送系统的模块示意图一；

图2是本发明的一种富媒体信息发送系统的模块示意图二；

图3是本发明的一种富媒体信息发送方法的流程图；

图4是本发明的存储介质的模块示意图。

图中：一种富媒体信息发送系统100，接收模块101，发送模块102，第一模块103，第二模块104，第三模块105，第一训练模块106，第二训练模块107，判断模块108，用户权限管理模块109，存储介质300，非暂时性计算机可读指令310。

具体实施方式

现在将参考示例实施方式讨论本文描述的主题。应该理解，讨论这些实施方式只是为了使得本领域技术人员能够更好地理解从而实现本文描述的主题，可以在不脱离本说明书内容的保护范围的情况下，对所讨论的元素的功能和排列进行改变。各个示例可以根据需要，省略、替代或者添加各种过程或组件。另外，相对一些示例所描述的特征在其他例子中也可以进行组合。

图1是本发明的至少一个实施例中提供一种富媒体信息发送系统100，包括：

接收模块101，用于从第一用户接收富媒体短信；

发送模块102，用于将富媒体短信发送到第二用户；

第一模块103，其用于将需要发送的富媒体短信的视频进行处理获得视频帧图像；

第二模块104，其用于将视频帧图像进行图像实例分割获得实例图像；

第三模块105，基于视频帧图像和实例图像构建图结构数据，图结构数据包括节点的表征向量，每个节点与一个实例图像建立数据联系，节点通过该数据联系能够索引到一个实例图像，节点的表征向量根据节点的数据联系的实例图像来生成。

节点的表征向量来源于该节点的数据联系的实例图像；

节点之间的边至少表达以下节点之间的关联关系中的一个：

节点的数据联系的实例图像来源于同一视频帧图像；

第一训练模块106，通过图结构数据来标注新的边生成样本结构数据，标注的边表达的节点之间的关联关系是：节点的数据联系的实例图像能够组合表示违规信息；

基于图结构数据和样本结构数据来训练第一模型，第一模型基于输入的图结构数据来生成节点之间的关联关系的新的表示，训练第一模型的目标是使生成的节点之间的关联关系的新的表示逼近于样本结构数据中的节点之间的关联关系；

第二训练模块107，其用于为图结构数据进行标注，标注的标签表示图结构数据来源的富媒体短信的视频是否包含违规信息，通过图结构数据和标注的标签对第二模型进行训练，第二模型被构造为包括训练完成的第一模型；第二模型输入图结构数据，输出表示图结构数据来源的富媒体短信的视频是否包含违规信息的结果，训练第二模型的目标是使其输出逼近于标注的标签。

判断模块108，其用于调用训练后的第二模型，输入待判断的富媒体短信的视频的图结构数据，来获得是否包含违规信息的结果，如果不包含违规信息，则调用发送模块102对富媒体短信进行发送，如果包含违规信息则不调用发送模块102对富媒体短信进行发送；

如图2所示，在本发明的一个实施例中提供的一种富媒体信息发送系统100，还包括用户权限管理模块109，其用于限制第一用户的权限，如果从第一用户接收的富媒体短信被判断为包含违规信息，则不再从第一用户接收富媒体短信。

在本发明的一个实施例中，第一用户和第二用户仅是为了区分富媒体短信发送方和接收方，其可以通过网络接口、无线通信等方式与接收模块101和发送模块102通信。

在本发明的一个实施例中，将需要发送的富媒体短信的视频进行处理获得视频帧图像时删除重复帧。

在本发明的一个实施例中，将需要发送的富媒体短信的视频进行处理获得视频帧图像时从富媒体短信的视频中抽取关键帧获得视频帧图像。抽取关键帧可以降低数据处理量，但是会丢失信息，由于原始的富媒体短信的视频的数据量有限，也可以不采用抽取关键帧的方式。

在本发明的一个实施例中，将视频帧图像进行图像实例分割获得实例图像的方法是：将视频帧图像输入实例分割模型，获得实例图像，实例分割模型可以选择SOLO（Segmenting Objects by Locations）算法或掩膜区域卷积神经网络(Mask R-CNN)。

在本发明的一个实施例中，将视频帧图像进行图像实例分割获得实例图像的方法是：基于贝叶斯算法对图像进行分类来进行实例分割。

在本发明的一个实施例中，节点的表征向量就是节点的数据联系的实例图像，此时第一模型需要包括CNN层，CNN层对实例图像进行卷积处理。

在本发明的一个实施例中，节点的表征向量是节点的数据联系的实例图像进行编码向量化获得的。

图像编码向量化的一个方法是基于聚类的图像向量化方法，具体的是首先聚类获得聚类中心，以图像与聚类中心的相似度作为图像的表示向量的一个分量。

在本发明的一个实施例中，实例图像之间的关联性大于第一判断标准的判断方法包括：计算余弦相似度、哈希算法、直方图方法、计算互信息、均方误差（MSE）算法、SSIM结构相似性、特征匹配方法。

例如采用计算余弦相似度的方法，则首先将实例图像进行向量化获得实例图像的图像向量，然后计算余弦相似度，此时第一判断标准是一个设定的余弦相似度的阈值，如果计算的余弦相似度大于设定的余弦相似度的阈值，则判断实例图像之间的关联性大于第一判断标准。

需要说明的是，适用上述的方法时可以通过对实例图像进行边缘填充等预处理过程进行处理。

在本发明的一个实施例中，通过图结构数据来标注新的边生成样本结构数据的方法是：在视频帧图像上标注实例图像，连续的播放视频帧图像来进行人工标注，人工标注的内容是能够组合表示违规信息的实例图像。

能够组合表示违规信息的实例图像可能是来源于同一个视频帧图像或不同的视频帧图像，组合的数量是两个以上。

对于违规信息的解释包括但不限于：一个实例图像或多个实例图像组合表达的暴力动作或暴力场景；

一个实例图像或多个实例图像组合表达的一个以上的违规词汇。

在本发明的一个实施例中，第一模型包括编码器和生成器，编码器输入图结构数据，输出节点的嵌入表示向量到生成器，生成器输出表示节点之间的关联关系的生成邻接矩阵。

编码器的计算公式如下：

；

其中，表示节点的嵌入表示矩阵，/>表示表征向量矩阵，表征向量矩阵的一个行向量表示一个节点的表征向量，/>、/>、/>分别表示第一权重矩阵、第二权重矩阵、第三权重矩阵，/>表示节点数量，/>表示矩阵的转置操作，/>表示softmax激活函数；

在本发明的一个实施例中，第一模型包括GNN层和生成器，其中GNN层输入图结构数据，输出节点的嵌入表示向量到生成器，生成器输出表示节点之间的关联关系的生成邻接矩阵；

GNN层的计算公式如下：

；

其中表示第i个节点的嵌入表示向量，/>表示第i个节点的表征向量，/>表示第j个节点的表征向量，/>表示第一权重向量，/>表示第二权重向量，/>表示与第i个节点存在边连接的节点的集合，/>表示sigmoid激活函数；

前述的第一模型的生成器的计算公式如下：

；

其中表示生成邻接矩阵，/>表示节点的嵌入表示矩阵，其中的行向量是节点的嵌入表示向量；

训练第一模型的目标是使生成邻接矩阵逼近于原始邻接矩阵，原始邻接矩阵表示的是图结构数据的节点的关联关系。原始邻接矩阵的表示规则是：原始邻接矩阵的第i行第j列的元素表示图结构数据的第i个第j个的节点之间是否存在边，如果存在则该元素的值为1，否则该元素的值为0。

在本发明的一个实施例中，对于生成邻接矩阵进行二值化处理之后再与原始邻接矩阵计算差值来作为第一模型训练时的损失值，一个方法可以是在第一模型的输出连接一个逻辑回归层；另一个方法是将生成邻接矩阵中大于0.5的元素值变为1，不大于0.5的元素值变为0。

在本发明的一个实施例中，第二模型包括第一模型和第一全连接层，第一全连接层输入第一模型生成的节点之间的关联关系的新的表示，输出表示图结构数据来源的富媒体短信的视频是否包含违规信息的结果；

第一模型生成的节点之间的关联关系的新的表示以生成邻接矩阵进行表示。

在本发明的一个实施例中，第二模型包括第一模型、第一拼接器、第二全连接层，第一拼接器输入图结构数据的所有节点的嵌入表示向量，将所有节点的嵌入表示向量拼接后输入第二全连接层，第二全连接层输出表示图结构数据来源的富媒体短信的视频是否包含违规信息的结果。

在本发明的一个实施例中，第二模型包括第一模型、第二拼接器、第一线性映射层、时序生成层、RNN层和第三全连接层，第二拼接器输入第一模型生成的图结构数据的所有节点的嵌入表示向量，将数据联系的实例图像来源于同一个视频帧图像的节点的嵌入表示向量进行拼接获得视频帧图像的表示向量，将视频帧图像的表示向量输入第一线性映射层，第一线性映射层将视频帧图像的表示向量映射到同一维度后输入时序生成层，时序生成层基于视频帧图像在富媒体短信的视频中的时间对视频帧图像的表示向量进行排序生成序列数据输入RNN层，RNN层的输出输入第三全连接层，第三全连接层输出表示图结构数据来源的富媒体短信的视频是否包含违规信息的结果。这种方式在图结构数据的基础上增加了数据的时序信息，有助于提高结果的准确度。

RNN层包括一个RNN单元，在每个时间步输入一个视频帧图像的表示向量，将每个时间步的输出拼接后输入第三全连接层。

在本发明的一个实施例中，第二模型输出的表示图结构数据来源的富媒体短信的视频是否包含违规信息的结果是一个值，判断模块108判断该值是否大于预设的判断阈值，如果是则表示富媒体短信的视频包含违规信息，如果否则表示富媒体短信的视频不包含违规信息。

在本发明的一个实施例中，第二模型输出的表示图结构数据来源的富媒体短信的视频是否包含违规信息的结果是两个值，两个值分别是A值和B值，A值大于B值则表示富媒体短信的视频包含违规信息，否则表示富媒体短信的视频不包含违规信息。

在本发明的一个实施例中，为图结构数据进行标注表示图结构数据来源的富媒体短信的视频是否包含违规信息的标签是人工标注的。

图3为本发明的至少一个实施例中提供一种富媒体信息发送方法，包括以下步骤：

步骤S202，将视频帧图像进行图像实例分割获得实例图像；

步骤S203，基于视频帧图像和实例图像构建图结构数据；

步骤S205，将不包含违规信息的富媒体短信进行发送。

图4为本公开的至少一实施例提供的一种存储介质300，存储有非暂时性计算机可读指令310，当所述非暂时性计算机可读指令310由计算机运行时，由计算机执行前述的一种富媒体信息发送方法中的步骤。

上面对本实施例的实施例进行了描述，但是本实施例并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本实施例的启示下，还可做出很多形式，均属于本实施例的保护之内。

Claims

1.一种富媒体信息发送系统，其特征在于，包括：接收模块，用于从第一用户接收富媒体短信；发送模块，用于将富媒体短信发送到第二用户；第一模块，其用于将需要发送的富媒体短信的视频进行处理获得视频帧图像；第二模块，其用于将视频帧图像进行图像实例分割获得实例图像；第三模块，基于视频帧图像和实例图像构建图结构数据，图结构数据包括节点的表征向量，每个节点与一个实例图像建立数据联系，节点通过该数据联系能够索引到一个实例图像，节点的表征向量根据节点的数据联系的实例图像来生成；节点之间的边至少表达以下节点之间的关联关系中的一个：

节点的数据联系的实例图像来源于同一视频帧图像；

2.根据权利要求1所述的一种富媒体信息发送系统，其特征在于，还包括用户权限管理模块，其用于限制第一用户的权限，如果从第一用户接收的富媒体短信被判断为包含违规信息，则不再从第一用户接收富媒体短信。

3.根据权利要求1所述的一种富媒体信息发送系统，其特征在于，将需要发送的富媒体短信的视频进行处理获得视频帧图像时从富媒体短信的视频中抽取关键帧获得视频帧图像。

4.根据权利要求1所述的一种富媒体信息发送系统，其特征在于，实例图像之间的关联性大于第一判断标准的判断方法是以下方法中的一个：计算余弦相似度、哈希算法、直方图方法、计算互信息、均方误差算法、特征匹配方法。

5.根据权利要求1所述的一种富媒体信息发送系统，其特征在于，通过图结构数据来标注新的边生成样本结构数据的方法是：在视频帧图像上标注实例图像，连续的播放视频帧图像来进行人工标注，人工标注的内容是能够组合表示违规信息的实例图像。

6.根据权利要求1所述的一种富媒体信息发送系统，其特征在于，第一模型包括GNN层和生成器，其中GNN层输入图结构数据，输出节点的嵌入表示向量到生成器，生成器输出表示节点之间的关联关系的生成邻接矩阵。

7.根据权利要求6所述的一种富媒体信息发送系统，其特征在于，第二模型包括第一模型和第一全连接层，第一全连接层输入第一模型生成的节点之间的关联关系的新的表示，输出表示图结构数据来源的富媒体短信的视频是否包含违规信息的结果。

8.根据权利要求1所述的一种富媒体信息发送系统，其特征在于，第二模型包括第一模型、第一拼接器、第二全连接层，第一拼接器输入图结构数据的所有节点的嵌入表示向量，将所有节点的嵌入表示向量拼接后输入第二全连接层，第二全连接层输出表示图结构数据来源的富媒体短信的视频是否包含违规信息的结果。

9.一种富媒体信息发送方法，其特征在于，其通过如权利要求1-8任一所述的富媒体信息发送系统执行以下步骤：

步骤S202，将视频帧图像进行图像实例分割获得实例图像；

步骤S203，基于视频帧图像和实例图像构建图结构数据；

步骤S205，将不包含违规信息的富媒体短信进行发送。

10.一种存储介质，其特征在于，存储有非暂时性计算机可读指令，当所述非暂时性计算机可读指令由计算机运行时，由计算机执行如权利要求9所述的一种富媒体信息发送方法中的步骤。