CN110175625A

CN110175625A - 一种基于改进的ssd算法的微信群信息识别及管理方法

Info

Publication number: CN110175625A
Application number: CN201910290542.XA
Authority: CN
Inventors: 朱全银; 朱亚飞; 陈凌云; 倪金霆; 陈小艺; 万瑾; 孙强; 季睿
Original assignee: Huaiyin Institute of Technology
Current assignee: Huaiyin Institute of Technology
Priority date: 2019-04-11
Filing date: 2019-04-11
Publication date: 2019-08-27
Anticipated expiration: 2039-04-11
Also published as: CN110175625B

Abstract

本专利公开发明了一种基于改进的SSD算法的微信群信息识别及管理方法，先申请一个微信账号，通过itchat库登录网页版微信，加入到目标微信群；将接收到的信息保存到数据库；在基础网络上添加卷积层，并在每一层输入时添加归一化进行数据预处理。使用两个SSD算法嵌套使用的方法识别目标图片，调用已训练好的第一个模型进行初步识别并切割出目标图片，判断该图片是否为识别凭证，若是，则调用第二个模型进行具体识别内容并记录该凭证及发送人信息并保存到数据库中；每天定时发送已完成凭证上传的人员名单，并提醒未发送人及时上传凭证。本发明增加了神经网络的层数使得识别的准确率得到提高，使用两个SSD识别模型的方法，提高了识别的效率。

Description

一种基于改进的SSD算法的微信群信息识别及管理方法

技术领域

本发明属于信息管理技术领域，特别涉及一种基于改进的SSD(Single ShotMultiBox Detector)算法的微信群信息识别及管理方法。

背景技术

微信经过数十年的发展，已拥有了庞大的使用人数，但在个人微信群管理上会出现众多繁琐重复的工作，本发明提出了一种提高微信群管理效率的方法。

随着图像识别技术的发展，在目标检测领域出现了众多有效的算法，SSD算法就是其中尤为突出的一种。但是由于固定网络层数，SSD算法会出现对小目标物体检测准确率过低等问题。针对这种问题，研究者提出了相应的改进SSD算法并将之与微信群管理相结合的方法。

冯万利，朱全银等人已有的研究基础包括：Wanli Feng.Research ofthemestatement extraction for chinese literature based on lexicalchain.International Journal of Multimedia and Ubiquitous Engineering,Vol.11,No.6(2016),pp.379-388；Wanli Feng,Ying Li,Shangbing Gao,Yunyang Yan,JianxunXue.A novel flame edge detection algorithm via a novel active contourmodel.International Journal ofHybrid Information Technology,Vol.9,No.9(2016),pp.275-282；刘金岭,冯万利.基于属性依赖关系的模式匹配方法[J].微电子学与计算机,2011,28(12):167-170；刘金岭,冯万利,张亚红.初始化簇类中心和重构标度函数的文本聚类[J].计算机应用研究,2011,28(11):4115-4117；刘金岭,冯万利,张亚红.基于重新标度的中文短信文本聚类方法[J].计算机工程与应用,2012,48(21):146-150.；朱全银,潘禄,刘文儒,等.Web科技新闻分类抽取算法[J].淮阴工学院学报,2015,24(5):18-24；李翔,朱全银.联合聚类和评分矩阵共享的协同过滤推荐[J].计算机科学与探索,2014,8(6):751-759；Quanyin Zhu,Sunqun Cao.ANovel Classifier-independent Feature SelectionAlgorithm for Imbalanced Datasets.2009,p:77-82；Quanyin Zhu,Yunyang Yan,JinDing,Jin Qian.The Case Study for Price Extracting of Mobile Phone SellOnline.2011,p:282-285；Quanyin Zhu,Suqun Cao,Pei Zhou,Yunyang Yan,HongZhou.Integrated Price Forecast based on Dichotomy Backfilling and DisturbanceFactor Algorithm.International Review on Computers and Software,2011,Vol.6(6):1089-1093；朱全银，冯万利等人申请、公开与授权的相关专利：冯万利,邵鹤帅,庄军.一种智能冷藏车状态监测无线网络终端装置:CN203616634U[P].2014；朱全银，胡蓉静，何苏群，周培等.一种基于线性插补与自适应滑动窗口的商品价格预测方法.中国专利:ZL201110423015.5,2015.07.01；朱全银，曹苏群，严云洋，胡蓉静等，一种基于二分数据修补与扰乱因子的商品价格预测方法.中国专利:ZL 201110422274.6,2013.01.02；李翔，朱全银，胡荣林，周泓.一种基于谱聚类的冷链物流配载智能推荐方法.中国专利公开号:CN105654267A,2016.06.08。

SSD(Single Shot MultiBox Detector)算法：

SSD算法是一种目标检测算法，是目前主要的检测框架之一。它继承了YOLO(YouOnly Look Once)转化regression的思路，同时提出了proior box的思路，并且加入了基于特征金字塔的检测方式，在多个feature maps上同时进行softmax分类和位置回归。

BN(BatchNormalization)算法：

BN算法对网络中间层数的数据做一个归一化处理，采用变换重构的方式，引入了可学习参数γ、β，它让我们的网络可以学习恢复出原始网络所学习的特征分布。它解决了对某一层的输出数据做归一化处理而影响到本层神经网络学习到的特征。

ReLU(Rectified Linear Units)激活函数：

ReLU激活函数起源于神经科学的研究，从生物学角度模拟出了脑神经元接受型号更精确的激活模型。通过ReLU实现稀疏后的模型能够更好的挖掘相关特征，拟合训练数据。ReLU的优势在于对线性函数而言，ReLU的表达能力更强。对非线性函数而言，不存在梯度消失的问题。

改进的SSD算法：

SSD算方法中对小尺度的目标检测效果较差，针对这一缺点，本发明改进了卷积层的层数，添加3个卷积层，并对每一层的数据做归一化处理再传递给下一层，在识别目标时将两个SSD算法联合使用，第一个SSD算法识别出目标位置并进行切割，第二个SSD算法针对切割后的图片进行具体内容的识别，提高了识别的效率。

发明内容

发明目的：针对现有技术中存在的问题，本发明提出一种基于改进的SSD算法的微信群信息识别及管理方法，对SSD算法进行改进，使用Relu函数作为激活函数，在基础网络上添加卷积层，并在每一层输入时添加归一化进行数据预处理，在识别目标时将两个SSD算法联合使用，第一个SSD算法识别出目标位置并进行切割，第二个SSD算法针对切割后的图片进行具体内容的识别，用微信群经过筛选的图片数据训练模型，并且提取微信群信息数据，使用训练好的图像识别模型识别凭证信息，辅助管理微信群。

技术方案：为解决上述技术问题，本发明提供一种基于改进的SSD算法的微信群信息识别及管理方法，其特征在于，具体步骤如下：

(1)对微信群信息进行收集，得到文本信息数据集G1，图片数据集G2；

(2)使用opencv方法处理图片数据集G2，得到待训练图片数据集G3；

(3)分析约定凭证得到识别信息，处理图片数据集G3得到训练集V1，通过SSD目标检测方法处理训练集V1，得到用以识别目标图片的模型R1；

(4)通过两个SSD嵌套使用的方法处理图片数据集G2，得到准确率集合R2；

(5)根据自定义要求比对准确率集合R2，得到符合要求的集合R3，结合图片数据集G2，统计不合格名单R4。

进一步的，所述步骤(1)中对微信群信息进行收集，得到文本信息数据集G1，图片数据集G2的具体步骤如下：

(1.1)申请微信账号并将其变为机器人账号监听目标微信群信息，得到群信息数据集G；

(1.2)定义Text为单个文本信息集，定义id1，name1，source1分别为单个文本的序号、名称和来源，并且满足关系Text＝{id1,name1,source1}；定义Picture为单个图片信息集，定义id2,name2,source2分别为单个图片的序号、名称和来源，并且满足关系Picture＝{id2,name2,source2}；

(1.3)定义G1、G2分别为文本数据集、图片数据集，G1＝{Text1,Text2,…,TextA}，G2＝{Picture1,Picture2,…,PictureA}，Texta为G1中第a个文本信息数据，Picturea为G2中第a个图片信息数据，其中，A＝Card(G1)，变量a∈[1,A]。

进一步的，所述步骤(2)中使用opencv方法处理图片数据集G2，得到待训练图片数据集G3的具体步骤如下：

(2.1)定义D2为待处理图片数据，D2＝{name2}，其中name2为名称；

(2.2)定义循环变量i3用来遍历G2，G3为待训练图片向量集，i1赋初值为1，G3赋初值为空；

(2.3)如果i1≤A则跳转到步骤(2.4)，否则跳转到步骤(2.6)；

(2.4)通过对G2i1使用opencv方法得到的待训练图片向量Gi1，G3＝G3∪{Gi1}；

(2.5)i1＝i1+1；

(2.6)得到G3＝{g1,g2,…,gA}，gf为待训练图片向量集中第f个单词文档向量，其中，变量f∈[1,A]。

进一步的，所述步骤(3)中分析约定凭证得到识别信息，处理图片数据集G3得到训练集V1，通过SSD目标检测方法处理训练集V1，得到用以识别目标图片的模型R1的具体步骤如下：

(3.1)定义循环变量为t,并赋值t＝1，A为待训练图片数据集G3的数量；

(3.2)如果t<＝A则跳转到步骤(3.3)，否则跳转到步骤(3.13)；

(3.3)定义循环变量k，并且赋值k＝1；

(3.4)将要识别的图片分批，每批次读取200个；

(3.5)人工标注groundtruth，记为category1，category2，…,categoryn；

(3.6)将标注得到的xml文件转化为csv格式，包含filename，width，height，class，xmin，ymin，xmax，ymax特征；

(3.7)从csv表格中创建tfrecords格式得到训练集V1；

(3.8)判断格式，如果是tfrecords格式则跳转到步骤(3.9)，否则跳转到步骤(3.5)；

(3.9)数据Sk经过以Relu函数作为激活函数的网络；

(3.10)在基础网络上添加额外的卷积层conv10_1,conv10_2,conv10_3，多尺度下进行预测；

(3.11)对添加的特征层使用卷积滤波器；

(3.12)定义循环变量k，并且赋值k＝1；

(3.13)模型R1训练完毕。

进一步的，所述步骤(4)中通过两个SSD嵌套使用的方法处理图片数据集G2，得到准确率集合R2的具体步骤如下：

(4.1)定义D2为待处理图片数据，其中D2＝{id2,name2}，其中id2,name2分别为编号和名称；

(4.2)定义循环变量i2用来遍历图片数据集G2，i2赋初值为1，V2赋初值为空；

(4.3)如果i2<＝A则跳转到步骤(4.4)，否则跳转到步骤(4.6)；

(4.4)通过对G2i1使用第一个ssd模型识别并切割得到的图片向量集vi1，V2＝V2∪{vi1}；

(4.5)将切割后的图片向量集加入V2后，为i2的值加1；

(4.6)得到V2＝{v1,v2,…,vA}，vc为图片向量集中第c个图片向量，其中，变量c∈[1,A]；

(4.7)定义循环变量i3，用来遍历V2，其中i3赋初值为1，R2为准确率集合，R2集合初始为空；

(4.8)如果i3的值<＝A则跳转到步骤(4.9)，否则跳转到步骤(4.11)；

(4.9)通过对V2使用第二个ssd模型具体识别Vi3得到准确率集合V3；

(4.10)将识别后的准确率加入V3后，为i3的值加1；

(4.11)得到准确率集合V3，选取准确率最高的放入集合R2，

R2＝{{id1,name1,accuracy1},{id2,name2,accuracy2},...,{idA,nameA,accuracyA}}。

进一步的，所述步骤(5)中根据自定义要求比对准确率集合R2，得到符合要求的集合R3，结合图片数据集G2，统计不合格名单R4的具体步骤如下：

(5.1)定义符合要求的集合

R3＝{{id1,name1,accuracy1},…,{ida,namea,accuracya}}，a∈[1,n]，从准确率集合R2中取出数据，根据自定义准确率A比对；

(5.2)如果Accuracya>A则跳转到步骤(5.3)，否则跳转到步骤(5.4)；

(5.3)R3＝R3∪{R3a}；

(5.4)R3＝R3∪null；

(5.5)得到最终符合要求的名单R3和不合格名单R4；

(5.6)提交名单R4为参考，辅助管理微信群。

与现有技术相比，本发明的优点在于：

本发明方法基于已有的SSD算法进行改进并将其应用到微信群中图片信息的识别上，增加了神经网络的层数使得识别的准确率得到提高，使用两个SSD识别模型的方法，提高了识别的效率。

附图说明

图1为本发明的总体流程图；

图2为图1中从微信群获得数据集的流程图；

图3为图1中使用opencv处理数据集得到待训练数据集流程图；

图4为图1中训练识别模型的流程图；

图5为图1中嵌套使用两个SSD识别模型的流程图；

图6为图1中比较准确率并得到名单辅助管理的流程图。

具体实施方式

下面结合附图和具体实施方式，进一步阐明本发明。

如图1-6示，本发明包括如下步骤：

步骤1：对微信群信息进行收集，得到文本信息数据集G1，图片数据集G2，具体方法为：

步骤1.1：申请微信账号并将其变为机器人账号监听目标微信群信息，得到群信息数据集G；

步骤1.2：定义Text为单个文本信息集，定义id1，name1，source1分别为单个文本的序号、名称和来源，并且满足关系Text＝{id1,name1,source1}。定义Picture为单个图片信息集，定义id2,name2,source2分别为单个图片的序号、名称和来源，并且满足关系Picture＝{id2,name2,source2}；

步骤1.3：定义G1、G2分别为文本数据集、图片数据集，G1＝{Text1,Text2,…,TextA}，G2＝{Picture1,Picture2,…,PictureA}，Texta为G1中第a个文本信息数据，Picturea为G2中第a个图片信息数据，其中，A＝Card(G1)，变量a∈[1,A]。

步骤2：使用opencv方法处理图片数据集G2，得到待训练图片数据集G3，具体方法为：

步骤2.1：定义D2为待处理图片数据，D2＝{name2}，其中name2为名称；

步骤2.2：定义循环变量i3用来遍历G2，G3为待训练图片向量集，i1赋初值为1，G3赋初值为空；

步骤2.3：如果i1≤A则跳转到步骤2.4，否则跳转到步骤2.6；

步骤2.4：通过对G2i1使用opencv方法得到的待训练图片向量Gi1，G3＝G3∪{Gi1}；

步骤2.5：i1＝i1+1；

步骤2.6：得到G3＝{g1,g2,…,gA}，gf为待训练图片向量集中第f个单词文档向量，其中，变量f∈[1,A]；

步骤3：分析约定凭证得到识别信息，处理图片数据集G3得到训练集V1，通过SSD目标检测方法处理训练集V1，得到用以识别目标图片的模型R1具体方法为：

步骤3.1：定义循环变量为t,并赋值t＝1，A为待训练图片数据集G3的数量；

步骤3.2：如果t<＝A则跳转到步骤3.3，否则跳转到步骤3.13；

步骤3.3：定义循环变量k，并且赋值k＝1；

步骤3.4：将要识别的图片分批，每批次读取200个；

步骤3.5：人工标注ground truth，记为category1，category2，…,categoryn；

步骤3.6：将标注得到的xml文件转化为csv格式，包含filename，width，height，class，xmin，ymin，xmax，ymax特征；

步骤3.7：从csv表格中创建tfrecords格式得到训练集V1；

步骤3.8：判断格式，如果是tfrecords格式则跳转到步骤3.9，否则跳转到步骤3.5；

步骤3.9：数据Sk经过以Relu函数作为激活函数的网络。

步骤3.10：在基础网络上添加额外的卷积层conv10_1,conv10_2,conv10_3，多尺度下进行预测

步骤3.11：对添加的特征层使用卷积滤波器

步骤3.12：定义循环变量k，并且赋值k＝1。

步骤3.13：模型R1训练完毕。

步骤4：通过两个SSD嵌套使用的方法处理图片数据集G2，得到准确率集合R2，具体方法为：

步骤4.1：定义D2为待处理图片数据，D2＝{id2,name2}，其中id2,name2分别为编号和名称；

步骤4.2：定义循环变量i2用来遍历图片数据集G2，i2赋初值为1，V2赋初值为空；

步骤4.3：如果i2<＝A则跳转到步骤4.4，否则跳转到步骤4.6；

步骤4.4：通过对G2i1使用第一个ssd模型识别并切割得到的图片向量集vi1，V2＝V2∪{vi1}；

步骤4.5：将切割后的图片向量集加入V2后，为i2的值加1；

步骤4.6：得到V2＝{v1,v2,…,vA}，vc为图片向量集中第c个图片向量，其中，变量c∈[1,A]；

步骤4.7：定义循环变量i3，用来遍历V2，其中i3赋初值为1，R2为准确率集合，R2集合初始为空；

步骤4.8：如果i3的值<＝A则跳转到步骤4.9，否则跳转到步骤4.11；

步骤4.9：通过对V2使用第二个ssd模型具体识别Vi3得到准确率集合V3；

步骤4.10：将识别后的准确率加入V3后，为i3的值加1；

步骤4.11：得到准确率集合V3，选取准确率最高的放入集合R2，R2＝{{id1,name1,accuracy1},{id2,name2,accuracy2},...,{idA,nameA,accuracyA}}；

步骤5：根据自定义要求比对准确率集合R2，得到符合要求的集合R3，结合图片数据集G2，统计不合格名单R4，具体方法为：

步骤5.1：定义符合要求的集合R3＝{{id1,name1,accuracy1},…,{ida,namea,accuracya}}，a∈[1,n]，从准确率集合R2中取出数据，根据自定义准确率A比对；

步骤5.2：如果Accuracya>A则跳转到步骤5.3，否则跳转到步骤5.4；

步骤5.3：R3＝R3∪{R3a}；

步骤5.4：R3＝R3∪null；

步骤5.5：得到最终符合要求的名单R3和不合格名单R4；

步骤5.6：提交名单R4为参考，辅助管理微信群。

以上所述仅为本发明的实施例子而已，并不用于限制本发明。凡在本发明的原则之内，所作的等同替换，均应包含在本发明的保护范围之内。本发明未作详细阐述的内容属于本专业领域技术人员公知的已有技术。

Claims

1.一种基于改进的SSD算法的微信群信息识别及管理方法，其特征在于，具体步骤如下：

2.根据权利要求1所述的一种基于改进的SSD算法的微信群信息识别及管理方法，其特征在于，所述步骤(1)中对微信群信息进行收集，得到文本信息数据集G1，图片数据集G2的具体步骤如下：

3.根据权利要求1所述的一种基于改进的SSD算法的微信群信息识别及管理方法，其特征在于，所述步骤(2)中使用opencv方法处理图片数据集G2，得到待训练图片数据集G3的具体步骤如下：