CN110175625A - 一种基于改进的ssd算法的微信群信息识别及管理方法 - Google Patents
一种基于改进的ssd算法的微信群信息识别及管理方法 Download PDFInfo
- Publication number
- CN110175625A CN110175625A CN201910290542.XA CN201910290542A CN110175625A CN 110175625 A CN110175625 A CN 110175625A CN 201910290542 A CN201910290542 A CN 201910290542A CN 110175625 A CN110175625 A CN 110175625A
- Authority
- CN
- China
- Prior art keywords
- obtains
- image data
- identification
- data collection
- accuracy rate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 34
- 238000007726 management method Methods 0.000 title claims abstract description 21
- 238000000034 method Methods 0.000 claims abstract description 30
- 238000013480 data collection Methods 0.000 claims description 41
- 238000012549 training Methods 0.000 claims description 20
- 125000004122 cyclic group Chemical group 0.000 claims description 18
- 238000001514 detection method Methods 0.000 claims description 11
- 241000568436 Namea Species 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 abstract description 3
- 238000010606 normalization Methods 0.000 abstract description 2
- 238000004321 preservation Methods 0.000 abstract 1
- 230000006870 function Effects 0.000 description 5
- 230000009191 jumping Effects 0.000 description 5
- 238000011160 research Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 101001050287 Mus musculus Transcription factor Jun Proteins 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000004377 microelectronic Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 229910052709 silver Inorganic materials 0.000 description 1
- 239000004332 silver Substances 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本专利公开发明了一种基于改进的SSD算法的微信群信息识别及管理方法,先申请一个微信账号,通过itchat库登录网页版微信,加入到目标微信群;将接收到的信息保存到数据库;在基础网络上添加卷积层,并在每一层输入时添加归一化进行数据预处理。使用两个SSD算法嵌套使用的方法识别目标图片,调用已训练好的第一个模型进行初步识别并切割出目标图片,判断该图片是否为识别凭证,若是,则调用第二个模型进行具体识别内容并记录该凭证及发送人信息并保存到数据库中;每天定时发送已完成凭证上传的人员名单,并提醒未发送人及时上传凭证。本发明增加了神经网络的层数使得识别的准确率得到提高,使用两个SSD识别模型的方法,提高了识别的效率。
Description
技术领域
本发明属于信息管理技术领域,特别涉及一种基于改进的SSD(Single ShotMultiBox Detector)算法的微信群信息识别及管理方法。
背景技术
微信经过数十年的发展,已拥有了庞大的使用人数,但在个人微信群管理上会出现众多繁琐重复的工作,本发明提出了一种提高微信群管理效率的方法。
随着图像识别技术的发展,在目标检测领域出现了众多有效的算法,SSD算法就是其中尤为突出的一种。但是由于固定网络层数,SSD算法会出现对小目标物体检测准确率过低等问题。针对这种问题,研究者提出了相应的改进SSD算法并将之与微信群管理相结合的方法。
冯万利,朱全银等人已有的研究基础包括:Wanli Feng.Research ofthemestatement extraction for chinese literature based on lexicalchain.International Journal of Multimedia and Ubiquitous Engineering,Vol.11,No.6(2016),pp.379-388;Wanli Feng,Ying Li,Shangbing Gao,Yunyang Yan,JianxunXue.A novel flame edge detection algorithm via a novel active contourmodel.International Journal ofHybrid Information Technology,Vol.9,No.9(2016),pp.275-282;刘金岭,冯万利.基于属性依赖关系的模式匹配方法[J].微电子学与计算机,2011,28(12):167-170;刘金岭,冯万利,张亚红.初始化簇类中心和重构标度函数的文本聚类[J].计算机应用研究,2011,28(11):4115-4117;刘金岭,冯万利,张亚红.基于重新标度的中文短信文本聚类方法[J].计算机工程与应用,2012,48(21):146-150.;朱全银,潘禄,刘文儒,等.Web科技新闻分类抽取算法[J].淮阴工学院学报,2015,24(5):18-24;李翔,朱全银.联合聚类和评分矩阵共享的协同过滤推荐[J].计算机科学与探索,2014,8(6):751-759;Quanyin Zhu,Sunqun Cao.ANovel Classifier-independent Feature SelectionAlgorithm for Imbalanced Datasets.2009,p:77-82;Quanyin Zhu,Yunyang Yan,JinDing,Jin Qian.The Case Study for Price Extracting of Mobile Phone SellOnline.2011,p:282-285;Quanyin Zhu,Suqun Cao,Pei Zhou,Yunyang Yan,HongZhou.Integrated Price Forecast based on Dichotomy Backfilling and DisturbanceFactor Algorithm.International Review on Computers and Software,2011,Vol.6(6):1089-1093;朱全银,冯万利等人申请、公开与授权的相关专利:冯万利,邵鹤帅,庄军.一种智能冷藏车状态监测无线网络终端装置:CN203616634U[P].2014;朱全银,胡蓉静,何苏群,周培等.一种基于线性插补与自适应滑动窗口的商品价格预测方法.中国专利:ZL201110423015.5,2015.07.01;朱全银,曹苏群,严云洋,胡蓉静等,一种基于二分数据修补与扰乱因子的商品价格预测方法.中国专利:ZL 201110422274.6,2013.01.02;李翔,朱全银,胡荣林,周泓.一种基于谱聚类的冷链物流配载智能推荐方法.中国专利公开号:CN105654267A,2016.06.08。
SSD(Single Shot MultiBox Detector)算法:
SSD算法是一种目标检测算法,是目前主要的检测框架之一。它继承了YOLO(YouOnly Look Once)转化regression的思路,同时提出了proior box的思路,并且加入了基于特征金字塔的检测方式,在多个feature maps上同时进行softmax分类和位置回归。
BN(BatchNormalization)算法:
BN算法对网络中间层数的数据做一个归一化处理,采用变换重构的方式,引入了可学习参数γ、β,它让我们的网络可以学习恢复出原始网络所学习的特征分布。它解决了对某一层的输出数据做归一化处理而影响到本层神经网络学习到的特征。
ReLU(Rectified Linear Units)激活函数:
ReLU激活函数起源于神经科学的研究,从生物学角度模拟出了脑神经元接受型号更精确的激活模型。通过ReLU实现稀疏后的模型能够更好的挖掘相关特征,拟合训练数据。ReLU的优势在于对线性函数而言,ReLU的表达能力更强。对非线性函数而言,不存在梯度消失的问题。
改进的SSD算法:
SSD算方法中对小尺度的目标检测效果较差,针对这一缺点,本发明改进了卷积层的层数,添加3个卷积层,并对每一层的数据做归一化处理再传递给下一层,在识别目标时将两个SSD算法联合使用,第一个SSD算法识别出目标位置并进行切割,第二个SSD算法针对切割后的图片进行具体内容的识别,提高了识别的效率。
发明内容
发明目的:针对现有技术中存在的问题,本发明提出一种基于改进的SSD算法的微信群信息识别及管理方法,对SSD算法进行改进,使用Relu函数作为激活函数,在基础网络上添加卷积层,并在每一层输入时添加归一化进行数据预处理,在识别目标时将两个SSD算法联合使用,第一个SSD算法识别出目标位置并进行切割,第二个SSD算法针对切割后的图片进行具体内容的识别,用微信群经过筛选的图片数据训练模型,并且提取微信群信息数据,使用训练好的图像识别模型识别凭证信息,辅助管理微信群。
技术方案:为解决上述技术问题,本发明提供一种基于改进的SSD算法的微信群信息识别及管理方法,其特征在于,具体步骤如下:
(1)对微信群信息进行收集,得到文本信息数据集G1,图片数据集G2;
(2)使用opencv方法处理图片数据集G2,得到待训练图片数据集G3;
(3)分析约定凭证得到识别信息,处理图片数据集G3得到训练集V1,通过SSD目标检测方法处理训练集V1,得到用以识别目标图片的模型R1;
(4)通过两个SSD嵌套使用的方法处理图片数据集G2,得到准确率集合R2;
(5)根据自定义要求比对准确率集合R2,得到符合要求的集合R3,结合图片数据集G2,统计不合格名单R4。
进一步的,所述步骤(1)中对微信群信息进行收集,得到文本信息数据集G1,图片数据集G2的具体步骤如下:
(1.1)申请微信账号并将其变为机器人账号监听目标微信群信息,得到群信息数据集G;
(1.2)定义Text为单个文本信息集,定义id1,name1,source1分别为单个文本的序号、名称和来源,并且满足关系Text={id1,name1,source1};定义Picture为单个图片信息集,定义id2,name2,source2分别为单个图片的序号、名称和来源,并且满足关系Picture={id2,name2,source2};
(1.3)定义G1、G2分别为文本数据集、图片数据集,G1={Text1,Text2,…,TextA},G2={Picture1,Picture2,…,PictureA},Texta为G1中第a个文本信息数据,Picturea为G2中第a个图片信息数据,其中,A=Card(G1),变量a∈[1,A]。
进一步的,所述步骤(2)中使用opencv方法处理图片数据集G2,得到待训练图片数据集G3的具体步骤如下:
(2.1)定义D2为待处理图片数据,D2={name2},其中name2为名称;
(2.2)定义循环变量i3用来遍历G2,G3为待训练图片向量集,i1赋初值为1,G3赋初值为空;
(2.3)如果i1≤A则跳转到步骤(2.4),否则跳转到步骤(2.6);
(2.4)通过对G2i1使用opencv方法得到的待训练图片向量Gi1,G3=G3∪{Gi1};
(2.5)i1=i1+1;
(2.6)得到G3={g1,g2,…,gA},gf为待训练图片向量集中第f个单词文档向量,其中,变量f∈[1,A]。
进一步的,所述步骤(3)中分析约定凭证得到识别信息,处理图片数据集G3得到训练集V1,通过SSD目标检测方法处理训练集V1,得到用以识别目标图片的模型R1的具体步骤如下:
(3.1)定义循环变量为t,并赋值t=1,A为待训练图片数据集G3的数量;
(3.2)如果t<=A则跳转到步骤(3.3),否则跳转到步骤(3.13);
(3.3)定义循环变量k,并且赋值k=1;
(3.4)将要识别的图片分批,每批次读取200个;
(3.5)人工标注groundtruth,记为category1,category2,…,categoryn;
(3.6)将标注得到的xml文件转化为csv格式,包含filename,width,height,class,xmin,ymin,xmax,ymax特征;
(3.7)从csv表格中创建tfrecords格式得到训练集V1;
(3.8)判断格式,如果是tfrecords格式则跳转到步骤(3.9),否则跳转到步骤(3.5);
(3.9)数据Sk经过以Relu函数作为激活函数的网络;
(3.10)在基础网络上添加额外的卷积层conv10_1,conv10_2,conv10_3,多尺度下进行预测;
(3.11)对添加的特征层使用卷积滤波器;
(3.12)定义循环变量k,并且赋值k=1;
(3.13)模型R1训练完毕。
进一步的,所述步骤(4)中通过两个SSD嵌套使用的方法处理图片数据集G2,得到准确率集合R2的具体步骤如下:
(4.1)定义D2为待处理图片数据,其中D2={id2,name2},其中id2,name2分别为编号和名称;
(4.2)定义循环变量i2用来遍历图片数据集G2,i2赋初值为1,V2赋初值为空;
(4.3)如果i2<=A则跳转到步骤(4.4),否则跳转到步骤(4.6);
(4.4)通过对G2i1使用第一个ssd模型识别并切割得到的图片向量集vi1,V2=V2∪{vi1};
(4.5)将切割后的图片向量集加入V2后,为i2的值加1;
(4.6)得到V2={v1,v2,…,vA},vc为图片向量集中第c个图片向量,其中,变量c∈[1,A];
(4.7)定义循环变量i3,用来遍历V2,其中i3赋初值为1,R2为准确率集合,R2集合初始为空;
(4.8)如果i3的值<=A则跳转到步骤(4.9),否则跳转到步骤(4.11);
(4.9)通过对V2使用第二个ssd模型具体识别Vi3得到准确率集合V3;
(4.10)将识别后的准确率加入V3后,为i3的值加1;
(4.11)得到准确率集合V3,选取准确率最高的放入集合R2,
R2={{id1,name1,accuracy1},{id2,name2,accuracy2},...,{idA,nameA,accuracyA}}。
进一步的,所述步骤(5)中根据自定义要求比对准确率集合R2,得到符合要求的集合R3,结合图片数据集G2,统计不合格名单R4的具体步骤如下:
(5.1)定义符合要求的集合
R3={{id1,name1,accuracy1},…,{ida,namea,accuracya}},a∈[1,n],从准确率集合R2中取出数据,根据自定义准确率A比对;
(5.2)如果Accuracya>A则跳转到步骤(5.3),否则跳转到步骤(5.4);
(5.3)R3=R3∪{R3a};
(5.4)R3=R3∪null;
(5.5)得到最终符合要求的名单R3和不合格名单R4;
(5.6)提交名单R4为参考,辅助管理微信群。
与现有技术相比,本发明的优点在于:
本发明方法基于已有的SSD算法进行改进并将其应用到微信群中图片信息的识别上,增加了神经网络的层数使得识别的准确率得到提高,使用两个SSD识别模型的方法,提高了识别的效率。
附图说明
图1为本发明的总体流程图;
图2为图1中从微信群获得数据集的流程图;
图3为图1中使用opencv处理数据集得到待训练数据集流程图;
图4为图1中训练识别模型的流程图;
图5为图1中嵌套使用两个SSD识别模型的流程图;
图6为图1中比较准确率并得到名单辅助管理的流程图。
具体实施方式
下面结合附图和具体实施方式,进一步阐明本发明。
如图1-6示,本发明包括如下步骤:
步骤1:对微信群信息进行收集,得到文本信息数据集G1,图片数据集G2,具体方法为:
步骤1.1:申请微信账号并将其变为机器人账号监听目标微信群信息,得到群信息数据集G;
步骤1.2:定义Text为单个文本信息集,定义id1,name1,source1分别为单个文本的序号、名称和来源,并且满足关系Text={id1,name1,source1}。定义Picture为单个图片信息集,定义id2,name2,source2分别为单个图片的序号、名称和来源,并且满足关系Picture={id2,name2,source2};
步骤1.3:定义G1、G2分别为文本数据集、图片数据集,G1={Text1,Text2,…,TextA},G2={Picture1,Picture2,…,PictureA},Texta为G1中第a个文本信息数据,Picturea为G2中第a个图片信息数据,其中,A=Card(G1),变量a∈[1,A]。
步骤2:使用opencv方法处理图片数据集G2,得到待训练图片数据集G3,具体方法为:
步骤2.1:定义D2为待处理图片数据,D2={name2},其中name2为名称;
步骤2.2:定义循环变量i3用来遍历G2,G3为待训练图片向量集,i1赋初值为1,G3赋初值为空;
步骤2.3:如果i1≤A则跳转到步骤2.4,否则跳转到步骤2.6;
步骤2.4:通过对G2i1使用opencv方法得到的待训练图片向量Gi1,G3=G3∪{Gi1};
步骤2.5:i1=i1+1;
步骤2.6:得到G3={g1,g2,…,gA},gf为待训练图片向量集中第f个单词文档向量,其中,变量f∈[1,A];
步骤3:分析约定凭证得到识别信息,处理图片数据集G3得到训练集V1,通过SSD目标检测方法处理训练集V1,得到用以识别目标图片的模型R1具体方法为:
步骤3.1:定义循环变量为t,并赋值t=1,A为待训练图片数据集G3的数量;
步骤3.2:如果t<=A则跳转到步骤3.3,否则跳转到步骤3.13;
步骤3.3:定义循环变量k,并且赋值k=1;
步骤3.4:将要识别的图片分批,每批次读取200个;
步骤3.5:人工标注ground truth,记为category1,category2,…,categoryn;
步骤3.6:将标注得到的xml文件转化为csv格式,包含filename,width,height,class,xmin,ymin,xmax,ymax特征;
步骤3.7:从csv表格中创建tfrecords格式得到训练集V1;
步骤3.8:判断格式,如果是tfrecords格式则跳转到步骤3.9,否则跳转到步骤3.5;
步骤3.9:数据Sk经过以Relu函数作为激活函数的网络。
步骤3.10:在基础网络上添加额外的卷积层conv10_1,conv10_2,conv10_3,多尺度下进行预测
步骤3.11:对添加的特征层使用卷积滤波器
步骤3.12:定义循环变量k,并且赋值k=1。
步骤3.13:模型R1训练完毕。
步骤4:通过两个SSD嵌套使用的方法处理图片数据集G2,得到准确率集合R2,具体方法为:
步骤4.1:定义D2为待处理图片数据,D2={id2,name2},其中id2,name2分别为编号和名称;
步骤4.2:定义循环变量i2用来遍历图片数据集G2,i2赋初值为1,V2赋初值为空;
步骤4.3:如果i2<=A则跳转到步骤4.4,否则跳转到步骤4.6;
步骤4.4:通过对G2i1使用第一个ssd模型识别并切割得到的图片向量集vi1,V2=V2∪{vi1};
步骤4.5:将切割后的图片向量集加入V2后,为i2的值加1;
步骤4.6:得到V2={v1,v2,…,vA},vc为图片向量集中第c个图片向量,其中,变量c∈[1,A];
步骤4.7:定义循环变量i3,用来遍历V2,其中i3赋初值为1,R2为准确率集合,R2集合初始为空;
步骤4.8:如果i3的值<=A则跳转到步骤4.9,否则跳转到步骤4.11;
步骤4.9:通过对V2使用第二个ssd模型具体识别Vi3得到准确率集合V3;
步骤4.10:将识别后的准确率加入V3后,为i3的值加1;
步骤4.11:得到准确率集合V3,选取准确率最高的放入集合R2,R2={{id1,name1,accuracy1},{id2,name2,accuracy2},...,{idA,nameA,accuracyA}};
步骤5:根据自定义要求比对准确率集合R2,得到符合要求的集合R3,结合图片数据集G2,统计不合格名单R4,具体方法为:
步骤5.1:定义符合要求的集合R3={{id1,name1,accuracy1},…,{ida,namea,accuracya}},a∈[1,n],从准确率集合R2中取出数据,根据自定义准确率A比对;
步骤5.2:如果Accuracya>A则跳转到步骤5.3,否则跳转到步骤5.4;
步骤5.3:R3=R3∪{R3a};
步骤5.4:R3=R3∪null;
步骤5.5:得到最终符合要求的名单R3和不合格名单R4;
步骤5.6:提交名单R4为参考,辅助管理微信群。
以上所述仅为本发明的实施例子而已,并不用于限制本发明。凡在本发明的原则之内,所作的等同替换,均应包含在本发明的保护范围之内。本发明未作详细阐述的内容属于本专业领域技术人员公知的已有技术。
Claims (6)
1.一种基于改进的SSD算法的微信群信息识别及管理方法,其特征在于,具体步骤如下:
(1)对微信群信息进行收集,得到文本信息数据集G1,图片数据集G2;
(2)使用opencv方法处理图片数据集G2,得到待训练图片数据集G3;
(3)分析约定凭证得到识别信息,处理图片数据集G3得到训练集V1,通过SSD目标检测方法处理训练集V1,得到用以识别目标图片的模型R1;
(4)通过两个SSD嵌套使用的方法处理图片数据集G2,得到准确率集合R2;
(5)根据自定义要求比对准确率集合R2,得到符合要求的集合R3,结合图片数据集G2,统计不合格名单R4。
2.根据权利要求1所述的一种基于改进的SSD算法的微信群信息识别及管理方法,其特征在于,所述步骤(1)中对微信群信息进行收集,得到文本信息数据集G1,图片数据集G2的具体步骤如下:
(1.1)申请微信账号并将其变为机器人账号监听目标微信群信息,得到群信息数据集G;
(1.2)定义Text为单个文本信息集,定义id1,name1,source1分别为单个文本的序号、名称和来源,并且满足关系Text={id1,name1,source1};定义Picture为单个图片信息集,定义id2,name2,source2分别为单个图片的序号、名称和来源,并且满足关系Picture={id2,name2,source2};
(1.3)定义G1、G2分别为文本数据集、图片数据集,G1={Text1,Text2,…,TextA},G2={Picture1,Picture2,…,PictureA},Texta为G1中第a个文本信息数据,Picturea为G2中第a个图片信息数据,其中,A=Card(G1),变量a∈[1,A]。
3.根据权利要求1所述的一种基于改进的SSD算法的微信群信息识别及管理方法,其特征在于,所述步骤(2)中使用opencv方法处理图片数据集G2,得到待训练图片数据集G3的具体步骤如下:
(2.1)定义D2为待处理图片数据,D2={name2},其中name2为名称;
(2.2)定义循环变量i3用来遍历G2,G3为待训练图片向量集,i1赋初值为1,G3赋初值为空;
(2.3)如果i1≤A则跳转到步骤(2.4),否则跳转到步骤(2.6);
(2.4)通过对G2i1使用opencv方法得到的待训练图片向量Gi1,G3=G3∪{Gi1};
(2.5)i1=i1+1;
(2.6)得到G3={g1,g2,…,gA},gf为待训练图片向量集中第f个单词文档向量,其中,变量f∈[1,A]。
4.根据权利要求1所述的一种基于改进的SSD算法的微信群信息识别及管理方法,其特征在于,所述步骤(3)中分析约定凭证得到识别信息,处理图片数据集G3得到训练集V1,通过SSD目标检测方法处理训练集V1,得到用以识别目标图片的模型R1的具体步骤如下:
(3.1)定义循环变量为t,并赋值t=1,A为待训练图片数据集G3的数量;
(3.2)如果t<=A则跳转到步骤(3.3),否则跳转到步骤(3.13);
(3.3)定义循环变量k,并且赋值k=1;
(3.4)将要识别的图片分批,每批次读取200个;
(3.5)人工标注groundtruth,记为category1,category2,…,categoryn;
(3.6)将标注得到的xml文件转化为csv格式,包含filename,width,height,class,xmin,ymin,xmax,ymax特征;
(3.7)从csv表格中创建tfrecords格式得到训练集V1;
(3.8)判断格式,如果是tfrecords格式则跳转到步骤(3.9),否则跳转到步骤(3.5);
(3.9)数据Sk经过以Relu函数作为激活函数的网络;
(3.10)在基础网络上添加额外的卷积层conv10_1,conv10_2,conv10_3,多尺度下进行预测;
(3.11)对添加的特征层使用卷积滤波器;
(3.12)定义循环变量k,并且赋值k=1;
(3.13)模型R1训练完毕。
5.根据权利要求1所述的一种基于改进的SSD算法的微信群信息识别及管理方法,其特征在于,所述步骤(4)中通过两个SSD嵌套使用的方法处理图片数据集G2,得到准确率集合R2的具体步骤如下:
(4.1)定义D2为待处理图片数据,其中D2={id2,name2},其中id2,name2分别为编号和名称;
(4.2)定义循环变量i2用来遍历图片数据集G2,i2赋初值为1,V2赋初值为空;
(4.3)如果i2<=A则跳转到步骤(4.4),否则跳转到步骤(4.6);
(4.4)通过对G2i1使用第一个ssd模型识别并切割得到的图片向量集vi1,V2=V2∪{vi1};
(4.5)将切割后的图片向量集加入V2后,为i2的值加1;
(4.6)得到V2={v1,v2,…,vA},vc为图片向量集中第c个图片向量,其中,变量c∈[1,A];
(4.7)定义循环变量i3,用来遍历V2,其中i3赋初值为1,R2为准确率集合,R2集合初始为空;
(4.8)如果i3的值<=A则跳转到步骤(4.9),否则跳转到步骤(4.11);
(4.9)通过对V2使用第二个ssd模型具体识别Vi3得到准确率集合V3;
(4.10)将识别后的准确率加入V3后,为i3的值加1;
(4.11)得到准确率集合V3,选取准确率最高的放入集合R2,R2={{id1,name1,accuracy1},{id2,name2,accuracy2},...,{idA,nameA,accuracyA}}。
6.根据权利要求1所述的一种基于改进的SSD算法的微信群信息识别及管理方法,其特征在于,所述步骤(5)中根据自定义要求比对准确率集合R2,得到符合要求的集合R3,结合图片数据集G2,统计不合格名单R4的具体步骤如下:
(5.1)定义符合要求的集合
R3={{id1,name1,accuracy1},…,{ida,namea,accuracya}},a∈[1,n],从准确率集合R2中取出数据,根据自定义准确率A比对;
(5.2)如果Accuracya>A则跳转到步骤(5.3),否则跳转到步骤(5.4);
(5.3)R3=R3∪{R3a};
(5.4)R3=R3∪null;
(5.5)得到最终符合要求的名单和不合格名单R4;
(5.6)提交名单R4为参考,辅助管理微信群。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910290542.XA CN110175625B (zh) | 2019-04-11 | 2019-04-11 | 一种基于改进的ssd算法的微信群信息识别及管理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910290542.XA CN110175625B (zh) | 2019-04-11 | 2019-04-11 | 一种基于改进的ssd算法的微信群信息识别及管理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110175625A true CN110175625A (zh) | 2019-08-27 |
CN110175625B CN110175625B (zh) | 2023-06-20 |
Family
ID=67689631
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910290542.XA Active CN110175625B (zh) | 2019-04-11 | 2019-04-11 | 一种基于改进的ssd算法的微信群信息识别及管理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110175625B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112541080A (zh) * | 2020-12-18 | 2021-03-23 | 北京清博大数据科技有限公司 | 基于深度学习的新媒体账号标签智能校验方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108595544A (zh) * | 2018-04-09 | 2018-09-28 | 深源恒际科技有限公司 | 一种文档图片分类方法 |
WO2018201349A1 (zh) * | 2017-05-03 | 2018-11-08 | 华为技术有限公司 | 一种应急车辆的识别方法及装置 |
CN109117715A (zh) * | 2018-06-27 | 2019-01-01 | 淮阴工学院 | 一种基于ssd模型的建筑图纸非构件识别方法 |
CN109543754A (zh) * | 2018-11-23 | 2019-03-29 | 中山大学 | 基于端对端深度学习的目标检测与语义分割的并行方法 |
-
2019
- 2019-04-11 CN CN201910290542.XA patent/CN110175625B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018201349A1 (zh) * | 2017-05-03 | 2018-11-08 | 华为技术有限公司 | 一种应急车辆的识别方法及装置 |
CN108595544A (zh) * | 2018-04-09 | 2018-09-28 | 深源恒际科技有限公司 | 一种文档图片分类方法 |
CN109117715A (zh) * | 2018-06-27 | 2019-01-01 | 淮阴工学院 | 一种基于ssd模型的建筑图纸非构件识别方法 |
CN109543754A (zh) * | 2018-11-23 | 2019-03-29 | 中山大学 | 基于端对端深度学习的目标检测与语义分割的并行方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112541080A (zh) * | 2020-12-18 | 2021-03-23 | 北京清博大数据科技有限公司 | 基于深度学习的新媒体账号标签智能校验方法 |
CN112541080B (zh) * | 2020-12-18 | 2023-05-26 | 北京清博智能科技有限公司 | 基于深度学习的新媒体账号标签智能校验方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110175625B (zh) | 2023-06-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020062660A1 (zh) | 企业信用风险评估方法、装置、设备及存储介质 | |
Xu et al. | Wheat ear counting using K-means clustering segmentation and convolutional neural network | |
WO2020125445A1 (zh) | 分类模型训练方法、分类方法、设备及介质 | |
CN104331502B (zh) | 针对快递员周边人群营销中快递员数据的识别方法 | |
CN106489149A (zh) | 一种基于数据挖掘和众包的数据标注方法及系统 | |
CN107491433A (zh) | 基于深度学习的电商异常金融商品识别方法 | |
CN108427729A (zh) | 一种基于深度残差网络与哈希编码的大规模图片检索方法 | |
CN109492673A (zh) | 一种基于谱聚类采样的不平衡数据预测方法 | |
CN107480690A (zh) | 一种基于支持向量机的包含未知类别的多分类方法 | |
CN108491388A (zh) | 数据集获取方法、分类方法、装置、设备及存储介质 | |
CN109993100A (zh) | 基于深层特征聚类的人脸表情识别的实现方法 | |
CN110390275A (zh) | 一种基于迁移学习的手势分类方法 | |
CN105760524B (zh) | 一种科学新闻标题的多层次多分类方法 | |
CN110415071B (zh) | 一种基于观点挖掘分析的汽车竞品对比方法 | |
CN108199951A (zh) | 一种基于多算法融合模型的垃圾邮件过滤方法 | |
CN104216876A (zh) | 信息文本过滤方法及系统 | |
CN102324038A (zh) | 一种基于数字图像的植物种类识别方法 | |
CN105654196A (zh) | 一种基于电力大数据的自适应负荷预测选择方法 | |
CN107818491A (zh) | 电子装置、基于用户上网数据的产品推荐方法及存储介质 | |
CN108614997A (zh) | 一种基于改进AlexNet的遥感图像识别方法 | |
CN109325860A (zh) | 用于海外投资风险预警的网络舆情检测方法及系统 | |
CN108763496A (zh) | 一种基于网格和密度的动静态数据融合客户分类算法 | |
CN107193974A (zh) | 基于人工智能的地域性信息确定方法和装置 | |
CN107220557A (zh) | 一种用户越权访问敏感数据行为的检测方法及系统 | |
CN110222176A (zh) | 一种文本数据的清洗方法、系统及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
EE01 | Entry into force of recordation of patent licensing contract | ||
EE01 | Entry into force of recordation of patent licensing contract |
Application publication date: 20190827 Assignee: Fanyun software (Nanjing) Co.,Ltd. Assignor: HUAIYIN INSTITUTE OF TECHNOLOGY Contract record no.: X2023980052895 Denomination of invention: A WeChat group information recognition and management method based on improved SSD algorithm Granted publication date: 20230620 License type: Common License Record date: 20231219 |