CN113642679A - 多种类数据识别方法 - Google Patents

多种类数据识别方法 Download PDF

Info

Publication number
CN113642679A
CN113642679A CN202111190736.6A CN202111190736A CN113642679A CN 113642679 A CN113642679 A CN 113642679A CN 202111190736 A CN202111190736 A CN 202111190736A CN 113642679 A CN113642679 A CN 113642679A
Authority
CN
China
Prior art keywords
data
identification
types
identifiers
pools
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111190736.6A
Other languages
English (en)
Other versions
CN113642679B (zh
Inventor
冯含哲
孙利利
曹克霞
段琳钰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Fenghehuang City Technology Co ltd
Original Assignee
Shandong Fenghehuang City Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Fenghehuang City Technology Co ltd filed Critical Shandong Fenghehuang City Technology Co ltd
Priority to CN202111190736.6A priority Critical patent/CN113642679B/zh
Publication of CN113642679A publication Critical patent/CN113642679A/zh
Application granted granted Critical
Publication of CN113642679B publication Critical patent/CN113642679B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及数据识别技术领域,具体涉及一种多种类数据识别方法,通过设置多个不同种类的数据类别池以及建立多个不同种类的数据识别器,来对数据进行判断和识别,以实现对多种类的数据混合组成的待识别数据的识别,相较于传统技术,其不通过单一的神经网络训练和识别模型来进行识别,而是基于多识别器的组合来进行识别,提升了识别的准确率,同时在识别过程中,有两个识别过程,粗识别首先找出数据中混合有多种类数据的部分,再使用组合的识别器进行细识别,保证了识别的效率,提升了识别的准确率。

Description

多种类数据识别方法
技术领域
本发明属于数据识别技术领域,具体涉及多种类数据识别方法。
背景技术
随着科技的进步和大数据时代的到来,人们可以访问获取的数据和信息资源呈现出爆炸式的增长,互联网上每天都诞生海量的文字、图像、音视频等数据和信息。为了有效地组织、查询和浏览如此大规模的数据和信息,需要对这些数据和信息进行分类,进而进行管理。为此,数据识别技术应运而生。
数据识别技术的自动化已经通过神经网络模型实现。其中,在经过大量训练之后的处理器实现的神经网络模型,可提供在输入模式与输出模式之间直观的映射。产生这种映射的训练能力被称为神经网络的学习能力。由于通过专门训练,神经网络会具有泛化能力,该能力会使可能尚未被针对训练的输入模式生成相对准确的输出。然而,因为这样的操作或应用在执行时,是通过专门的计算架构、并且以在非计算机实现或非自动化方法中被执行方式不同的自动化方式来执行,所以也产生了问题或缺陷,所述问题或缺陷一般在实现自动化和构建专用计算架构方式中发生。
专利号为CN110799995A的专利公开了数据识别器训练方法、数据识别器训练装置、程序及训练方法,其实现了在GAN中的识别器的训练的稳定化学习。数据识别器训练方法训练数据识别器,该数据识别器具备识别正确答案数据和伪数据的神经网络模型,其中,具备如下步骤:将前述正确答案数据输入前述数据识别器,取得第一预测结果;将前述伪数据输入前述数据识别器,取得第二预测结果;基于取得的前述第一预测结果以及取得的前述第二预测结果算出误差;基于前述误差和前述神经网络模型的各层权重矩阵的奇异值更新前述权重矩阵。
其依然通神经网络训练数据识别器来进行数据识别,但由于该识别方法在进行多种类数据识别时,往往会由于本身的缺陷,导致数据识别准确率降低。同时,由于多种类数据识别过程中,使用单一的模型判断器,往往会产生针对某一种类数据无法识别的问题。
发明内容
有鉴于此,本发明的主要目的在于提供多种类数据识别方法,相较于传统技术,其不通过单一的神经网络训练和识别模型来进行识别,而是基于多识别器的组合来进行识别,提升了识别的准确率,同时在识别过程中,有两个识别过程,粗识别首先找出数据中混合有多种类数据的部分,再使用组合的识别器进行细识别,保证了识别的效率,提升了识别的准确率。
为达到上述目的,本发明的技术方案是这样实现的:
多种类数据识别方法,所述方法执行以下步骤:
步骤1:设置多个不同种类的数据类别池,所述数据类别池的数量与数据种类相等;建立多个不同种类的数据识别器,所述数据识别器的数量与数据种类相等;
步骤2:进行数据粗识别,具体包括:分别使用每个数据识别器对待识别数据进行数据识别,在识别过程中,将包含有与当前数据识别器所对应的种类相同的数据筛选出来,并填充进入所对应的相同种类的数据类别池中;当所有的数据识别器都完成数据识别后,将有数据填充的数据池进行池交叉对比;
步骤3:进行数据池交叉对比,具体包括:将所有有数据填充的数据池均分别视为一个集合,然后进行集合的交集运算,找到每个数据池中与其他数据池的交集部分;
步骤4:进行数据识别器的调整,具体包括:基于交集部分所对应的数据池的种类,将数据识别器进行组合或调整,以生成对交集部分进行数据识别的细数据识别器;
步骤5:进行数据细识别,完成数据细识别,具体包括:将数据池交叉对比后,将得到的所有的交集部分提取出来,再分别使用每个细数据识别器进行识别,将交集部分的数据划分为多个数据分组,每个数据分组中只包含一个种类的数据;
步骤6:进行数据重新组合,完成数据识别,具体包括:将数据细识别得到的多个数据分组分别与对应种类的数据进行数据重新组合,完成数据识别。
进一步的,所述数据类别池的种类至少包括:图像数据类别池、文字数据类别池和声音数据类别池;所述数据识别器的种类至少包括:图像数据识别器、文字数据识别器和声音数据识别器。
进一步的,所述图像数据识别器使用如下公式表示:
Figure 784254DEST_PATH_IMAGE001
;其中,
Figure 680666DEST_PATH_IMAGE002
为待识别数据的数据头标识,取 值为1~3;
Figure 476584DEST_PATH_IMAGE003
为待识别数据的个数;
Figure 433038DEST_PATH_IMAGE004
为计算得到的图像数据识别值;
Figure 314407DEST_PATH_IMAGE005
为待识别数据中某 个数据出现的概率;
Figure 811247DEST_PATH_IMAGE006
为待识别数据中某个数据的位数;
Figure 461671DEST_PATH_IMAGE007
为待识别数据中某个数据对 应的数据矩阵的某个点的纵坐标值;
Figure 120186DEST_PATH_IMAGE008
为待识别数据中某个数据对应的数据矩阵的某个 点的横坐标值;
Figure 488850DEST_PATH_IMAGE009
为梯度函数;当计算得到的图像数据识别值在设定的图像识别阈值范围 内时,则判断图像数据识别器识别的数据为图像数据。
进一步的,所述文字数据识别器使用如下公式表示:
Figure 523802DEST_PATH_IMAGE010
;其中,
Figure 294312DEST_PATH_IMAGE011
为调整系数,取值范围为:20~50;
Figure 123728DEST_PATH_IMAGE012
为 计算得到的文字数据识别值,当计算得到的文字数据识别值在设定的文字识别阈值范围内 时,则判断文字数据识别器识别的数据为文字数据。
进一步的,所述声音数据识别器使用如下公式表示:
Figure 979688DEST_PATH_IMAGE013
;其中,
Figure 818331DEST_PATH_IMAGE014
为调整系数,取值范围为:1~5;
Figure 177769DEST_PATH_IMAGE015
为计算 得到的声音数据识别值,当计算得到的声音数据识别值在设定的声音识别阈值范围内时, 则判断声音数据识别器识别的数据为声音数据。
进一步的,所述步骤4中基于交集部分所对应的数据池的种类,将数据识别器进行组合或调整,以生成对交集部分进行数据识别的细数据识别器的方法包括:当交集部分对应的数据池的种类的数量等于数据识别器的种类的数量时,则将所有的数据识别器进行组合,得到细数据识别器;当交集部分对应的数据池的种类的数量小于数据识别器的种类的数量时,则将从所有的数据识别器中筛选出与交集部分所对应的数据池的种类的数量相等的数据识别器进行组合,得到细数据识别器,同时筛选出的数据识别器的种类与交集部分对应的数据池的种类一一对应。
进一步的,所述步骤6中进行数据重新组合,完成数据识别的方法包括:提取数据的数据头,在数据头中找到数据的时间标识,基于找到的时间标识,按照时间先后顺序,将数据进行组合。
进一步的,所述当交集部分对应的数据池的种类的数量等于数据识别器的种类的数量时,则将所有的数据识别器进行组合,得到细数据识别器的方法包括:将所有的数据识别器进行并联,在对数据进行识别时,所有的数据识别器并行工作。
进一步的,所述当交集部分对应的数据池的种类的数量小于数据识别器的种类的数量时,则将从所有的数据识别器中筛选出与交集部分所对应的数据池的种类的数量相等的数据识别器进行组合,得到细数据识别器的方法包括:将筛选出的数据识别器进行并联,在对数据进行识别时,所有的数据识别器并行工作。
一种多种类数据识别装置。
本发明的多种类数据识别方法,相较于传统技术,其不通过单一的神经网络训练和识别模型来进行识别,而是基于多识别器的组合来进行识别,提升了识别的准确率,同时在识别过程中,有两个识别过程,粗识别首先找出数据中混合有多种类数据的部分,再使用组合的识别器进行细识别,保证了识别的效率,提升了识别的准确率。主要通过以下过程实现:
1.多种类数据的识别:本发明在对数据进行识别时,不仅能识别单一种类的数据,还能对多种类数据的混合数据进行识别,采用多个不同种类的数据识别器,实现了数据识别的多样化,提升了数据识别的适用广度;
2.粗识别以提升效率:本发明在进行数据识别时,先使用粗识别来找到混合数据中的混合部分,所谓混合部分即存在多种类数据的部分,这些部分的数据识别往往难度较大,相较于单一数据的部分,其识别所需要的资源也更多,因此单独筛选出来进行识别,可以减少系统资源的浪费,因为如果对整个数据都使用多种类的数据识别器进行识别,势必降低数据识别的效率,而对整个数据都使用单一的数据识别器,又无法达到效果,倘若加入一个判断器,在识别过程中,一边识别一边判断是否使用多种类识别器,也需要耗费大量系统资源,因此本发明加入粗识别过程,以提升识别的效率;
3.细识别以提升准确率:本发明在进行数据识别时,针对混合部分使用细识别方法,将建立的多个数据识别器组合后进行识别,这样可以提升识别的准确率;同时本发明在提升准确率方面还加入了数据识别器的针对性,对不同的数据使用不同的识别器,而使用的算法和现有技术都完全不同,这些算法都基于数据矩阵且加入了数据头的影响,相较于现有技术,虽然单一的数据识别器的准确率降低了,但本发明将多个数据识别器进行联用又避免了这个问题,进一步在提升效率的基础上,保证了准确率。
附图说明
图1为本发明实施例提供的多种类数据识别方法的方法流程示意图;
图2为本发明实施例提供的多种类数据识别方法的数据分解的原理示意图;
图3为本发明实施例提供的多种类数据识别方法的数据重新组合的原理示意图;
图4为本发明实施例提供的多种类数据识别方法的识别误差率随着实验次数变化的曲线示意图与现有技术的对比实验效果示意图。
具体实施方式
下面结合附图及本发明的实施例对本发明的方法作进一步详细的说明。
实施例1
如图1所示,多种类数据识别方法,所述方法执行以下步骤:
步骤1:设置多个不同种类的数据类别池,所述数据类别池的数量与数据种类相等;建立多个不同种类的数据识别器,所述数据识别器的数量与数据种类相等;
步骤2:进行数据粗识别,具体包括:分别使用每个数据识别器对待识别数据进行数据识别,在识别过程中,将包含有与当前数据识别器所对应的种类相同的数据筛选出来,并填充进入所对应的相同种类的数据类别池中;当所有的数据识别器都完成数据识别后,将有数据填充的数据池进行池交叉对比;
步骤3:进行数据池交叉对比,具体包括:将所有有数据填充的数据池均分别视为一个集合,然后进行集合的交集运算,找到每个数据池中与其他数据池的交集部分;
步骤4:进行数据识别器的调整,具体包括:基于交集部分所对应的数据池的种类,将数据识别器进行组合或调整,以生成对交集部分进行数据识别的细数据识别器;
步骤5:进行数据细识别,完成数据细识别,具体包括:将数据池交叉对比后,将得到的所有的交集部分提取出来,再分别使用每个细数据识别器进行识别,将交集部分的数据划分为多个数据分组,每个数据分组中只包含一个种类的数据;
步骤6:进行数据重新组合,完成数据识别,具体包括:将数据细识别得到的多个数据分组分别与对应种类的数据进行数据重新组合,完成数据识别。
采用上述技术方案,相较于传统技术,其不通过单一的神经网络训练和识别模型来进行识别,而是基于多识别器的组合来进行识别,提升了识别的准确率,同时在识别过程中,有两个识别过程,粗识别首先找出数据中混合有多种类数据的部分,再使用组合的识别器进行细识别,保证了识别的效率,提升了识别的准确率。主要通过以下过程实现:
1.多种类数据的识别:本发明在对数据进行识别时,不仅能识别单一种类的数据,还能对多种类数据的混合数据进行识别,采用多个不同种类的数据识别器,实现了数据识别的多样化,提升了数据识别的适用广度;
2.粗识别以提升效率:本发明在进行数据识别时,先使用粗识别来找到混合数据中的混合部分,所谓混合部分即存在多种类数据的部分,这些部分的数据识别往往难度较大,相较于单一数据的部分,其识别所需要的资源也更多,因此单独筛选出来进行识别,可以减少系统资源的浪费,因为如果对整个数据都使用多种类的数据识别器进行识别,势必降低数据识别的效率,而对整个数据都使用单一的数据识别器,又无法达到效果,倘若加入一个判断器,在识别过程中,一边识别一边判断是否使用多种类识别器,也需要耗费大量系统资源,因此本发明加入粗识别过程,以提升识别的效率;
3.细识别以提升准确率:本发明在进行数据识别时,针对混合部分使用细识别方法,将建立的多个数据识别器组合后进行识别,这样可以提升识别的准确率;同时本发明在提升准确率方面还加入了数据识别器的针对性,对不同的数据使用不同的识别器,而使用的算法和现有技术都完全不同,这些算法都基于数据矩阵且加入了数据头的影响,相较于现有技术,虽然单一的数据识别器的准确率降低了,但本发明将多个数据识别器进行联用又避免了这个问题,进一步在提升效率的基础上,保证了准确率。
具体的,本发明中的数据识别器均使用基于深度学习的神经网络架构构建的数据识别器来实现。
更进一步的,在深度学习中,包括但不限于使用以下两种方法来训练神经网络。
深度信任网络模型,即贝叶斯概率生成模型,由多层随机隐变量组成,上面的两层具有无向对称连接,下面的层得到来自上一层的自顶向下的有向连接,最底层单元的状态为可见输入数据向量。由若2F结构单元堆栈组成,结构单元通常为RBM(RestIlctedBoltzmann Machine,受限玻尔兹曼机)。堆栈中每个RBM单元的可视层神经元数量等于前一RBM单元的隐层神经元数量。根据深度学习机制,采用输入样例训练第一层RBM单元,并利用其输出训练第二层RBM模型,将RBM模型进行堆栈通过增加层来改善模型性能。在无监督预训练过程中,DBN编码输入到顶层RBM后,解码顶层的状态到最底层的单元,实现输入的重构。RBM作为DBN的结构单元,与每一层DBN共享参数。
受视觉系统的结构启发而产生的卷积神经网络模型。其基于神经元之间的局部连接和分层组织图像转换,将有相同参数的神经元应用于前一层神经网络的不同位置,得到一种平移不变神经网络结构形式。同时,用误差梯度设计并训练卷积神经网络,将能显著本发明的准确率。
同时,数据识别器在进行识别时,往往需要经过检测和识别两个阶段。在本发明中的检测阶段,使用现有技术中的目标检测算法可以实现,例如:SSD,YOLO V1,YOLO V2,YOLOV3,Fast RCNN,Faster RCNN,RCNN。
实施例2
在上一实施例的基础上,所述数据类别池的种类至少包括:图像数据类别池、文字数据类别池和声音数据类别池;所述数据识别器的种类至少包括:图像数据识别器、文字数据识别器和声音数据识别器。
具体的,数据分类调研分析的基础是数据,而数据的类型可以分为连续性的变量和分类变量。数据分类就是把具有某种共同属性或特征的数据归并在一起,通过其类别的属性或特征来对数据进行区别。换句话说,就是相同内容、相同性质的信息以及要求统一管理的信息集合在一起,而把相异的和需要分别管理的信息区分开来,然后确定各个集合之间的关系,形成一个有条理的分类系统。
为了实现数据共享和提高处理效率,必须遵循约定的分类原则和方法,按照信息的内涵、性质及管理的要求,将系统内所有信息按一定的结构体系分为不同的集合,从而使得每个信息在相应的分类体系中都有一个对应位置。换句话说,就是相同内容、相同性质的信息以及要求统一管理的信息集合在一起,而把相异的和需要分别管理的信息区分开来,然后确定各个集合之间的关系,形成一个有条理的分类系统。
实施例3
在上一实施例的基础上,所述图像数据识别器使用如下公式表示:
Figure 443665DEST_PATH_IMAGE016
;其中,
Figure 521342DEST_PATH_IMAGE017
为待识别数据的数据头标识,取 值为1~3;
Figure 163676DEST_PATH_IMAGE018
为待识别数据的个数;
Figure 643199DEST_PATH_IMAGE019
为计算得到的图像数据识别值;
Figure 79997DEST_PATH_IMAGE020
为待识别数据中 某个数据出现的概率;
Figure 441708DEST_PATH_IMAGE021
为待识别数据中某个数据的位数;
Figure 622154DEST_PATH_IMAGE022
为待识别数据中某个数据 对应的数据矩阵的某个点的纵坐标值;
Figure 956183DEST_PATH_IMAGE023
为待识别数据中某个数据对应的数据矩阵的某 个点的横坐标值;
Figure 767144DEST_PATH_IMAGE024
为梯度函数;当计算得到的图像数据识别值在设定的图像识别阈值范 围内时,则判断图像数据识别器识别的数据为图像数据。
具体的,图像数据(Image Data)是指用数值表示的各像素(pixel)的灰度值的集合。
对真实世界的图像一般由图像上每一点光的强弱和频谱(颜色)来表示,把图像信息转换成数据信息时,须将图像分解为很多小区域,这些小区域称为像素,可以用一个数值来表示它的灰度,对于彩色图像常用红、绿、蓝三原色(trichromatic)分量表示。顺序地抽取每一个像素的信息,就可以用一个离散的阵列来代表一幅连续的图像。在地理信息系统中一般指栅格数据。
实施例4
在上一实施例的基础上,所述文字数据识别器使用如下公式表示:
Figure 819414DEST_PATH_IMAGE025
;其中,
Figure 537971DEST_PATH_IMAGE026
为调整系数,取值范围为:20~50;
Figure 992086DEST_PATH_IMAGE027
为 计算得到的文字数据识别值,当计算得到的文字数据识别值在设定的文字识别阈值范围内 时,则判断文字数据识别器识别的数据为文字数据。
实施例5
在上一实施例的基础上,所述声音数据识别器使用如下公式表示:
Figure 770686DEST_PATH_IMAGE028
;其中,
Figure 310252DEST_PATH_IMAGE029
为调整系数,取值范围为:1~5;
Figure 832500DEST_PATH_IMAGE030
为计算 得到的声音数据识别值,当计算得到的声音数据识别值在设定的声音识别阈值范围内时, 则判断声音数据识别器识别的数据为声音数据。
具体的,数字化的声音数据就是音频数据。
数字化声音的过程实际上就是以一定的频率对来自microphone等设备的连续的模拟音频信号进行模数转换(ADC)得到音频数据的过程;数字化声音的播放就是将音频数据进行数模转换(DAC)变成模拟音频信号输出。在数字化声音时有两个重要的指标,即采样频率(Sampling Rate)和采样大小(Sampling Size)。
采样频率即单位时间内的采样次数,采样频率越大采样点之间的间隔越小,数字化得到的声音就越逼真,但相应的数据量增大,处理起来就越困难;采样大小即记录每次样本值大小的数值的位数,它决定采样的动态变化范围,位数越多所能记录声音的变化程度就越细腻,所得的数据量也越大。
实施例6
在上一实施例的基础上,所述步骤4中基于交集部分所对应的数据池的种类,将数据识别器进行组合或调整,以生成对交集部分进行数据识别的细数据识别器的方法包括:当交集部分对应的数据池的种类的数量等于数据识别器的种类的数量时,则将所有的数据识别器进行组合,得到细数据识别器;当交集部分对应的数据池的种类的数量小于数据识别器的种类的数量时,则将从所有的数据识别器中筛选出与交集部分所对应的数据池的种类的数量相等的数据识别器进行组合,得到细数据识别器,同时筛选出的数据识别器的种类与交集部分对应的数据池的种类一一对应。
实施例7
在上一实施例的基础上,所述步骤6中进行数据重新组合,完成数据识别的方法包括:提取数据的数据头,在数据头中找到数据的时间标识,基于找到的时间标识,按照时间先后顺序,将数据进行组合。
实施例8
在上一实施例的基础上,所述当交集部分对应的数据池的种类的数量等于数据识别器的种类的数量时,则将所有的数据识别器进行组合,得到细数据识别器的方法包括:将所有的数据识别器进行并联,在对数据进行识别时,所有的数据识别器并行工作。
具体的,相关技术中,人工对样本信息中的样本数据标注样本数据标识,从而获得样本信息模板,根据样本信息模板对目标信息中的数据进行识别。其中,样本数据标识是标识样本数据类别的标识。例如,样本信息“闲时流量合计500MB,已使用200MB,剩余300MB”,人工标注获得样本信息模板:“闲时流量合计<LEISURE_TOTAL>,已使用<LEISURE_USED>,剩余<LEISURE_REMAINED>”。但由于信息多样化,人工需要标注的模板比较多,耗费大量的人力资源,标注效率低。
实施例9
在上一实施例的基础上,所述当交集部分对应的数据池的种类的数量小于数据识别器的种类的数量时,则将从所有的数据识别器中筛选出与交集部分所对应的数据池的种类的数量相等的数据识别器进行组合,得到细数据识别器的方法包括:将筛选出的数据识别器进行并联,在对数据进行识别时,所有的数据识别器并行工作。
术语“第一”、“另一部分”等是配置用于区别类似的对象,而不是配置用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者单元/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者单元/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术标记作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
以上所述,仅为本发明的较佳实施例而已,并非配置用于限定本发明的保护范围。

Claims (9)

1.一种多种类数据识别方法,其特征在于,所述方法执行以下步骤:
步骤1:设置多个不同种类的数据类别池,所述数据类别池的数量与数据种类相等;建立多个不同种类的数据识别器,所述数据识别器的数量与数据种类相等;
步骤2:进行数据粗识别,具体包括:分别使用每个数据识别器对待识别数据进行数据识别,在识别过程中,将包含有与当前数据识别器所对应的种类相同的数据筛选出来,并填充进入所对应的相同种类的数据类别池中;当所有的数据识别器都完成数据识别后,将有数据填充的数据池进行池交叉对比;
步骤3:进行数据池交叉对比,具体包括:将所有有数据填充的数据池均分别视为一个集合,然后进行集合的交集运算,找到每个数据池中与其他数据池的交集部分;
步骤4:进行数据识别器的调整,具体包括:基于交集部分所对应的数据池的种类,将数据识别器进行组合或调整,以生成对交集部分进行数据识别的细数据识别器;
步骤5:进行数据细识别,完成数据细识别,具体包括:将数据池交叉对比后,将得到的所有的交集部分提取出来,再分别使用每个细数据识别器进行识别,将交集部分的数据划分为多个数据分组,每个数据分组中只包含一个种类的数据;
步骤6:进行数据重新组合,完成数据识别,具体包括:将数据细识别得到的多个数据分组分别与对应种类的数据进行数据重新组合,完成数据识别。
2.如权利要求1所述的多种类数据识别方法,其特征在于,所述数据类别池的种类至少包括:图像数据类别池、文字数据类别池和声音数据类别池;所述数据识别器的种类至少包括:图像数据识别器、文字数据识别器和声音数据识别器。
3.如权利要求2所述的多种类数据识别方法,其特征在于,所述图像数据识别器使用如 下公式表示:
Figure 129650DEST_PATH_IMAGE001
;其中,
Figure DEST_PATH_IMAGE002
为待识别数据的数 据头标识,取值为1~3;
Figure 843528DEST_PATH_IMAGE003
为待识别数据的个数;
Figure DEST_PATH_IMAGE004
为计算得到的图像数据识别值;
Figure 688512DEST_PATH_IMAGE005
为待 识别数据中某个数据出现的概率;
Figure DEST_PATH_IMAGE006
为待识别数据中某个数据的位数;
Figure 146038DEST_PATH_IMAGE007
为待识别数据 中某个数据对应的数据矩阵的某个点的纵坐标值;
Figure DEST_PATH_IMAGE008
为待识别数据中某个数据对应的数 据矩阵的某个点的横坐标值;
Figure 757148DEST_PATH_IMAGE009
为梯度函数;当计算得到的图像数据识别值在设定的图像 识别阈值范围内时,则判断图像数据识别器识别的数据为图像数据。
4.如权利要求3所述的多种类数据识别方法,其特征在于,所述文字数据识别器使用如 下公式表示:
Figure DEST_PATH_IMAGE010
;其中,
Figure 235403DEST_PATH_IMAGE011
为调整系数,取值范围为: 20~50;
Figure DEST_PATH_IMAGE012
为计算得到的文字数据识别值,当计算得到的文字数据识别值在设定的文字识 别阈值范围内时,则判断文字数据识别器识别的数据为文字数据。
5.如权利要求4所述的多种类数据识别方法,其特征在于,所述声音数据识别器使用如 下公式表示:
Figure 299174DEST_PATH_IMAGE013
;其中,
Figure DEST_PATH_IMAGE014
为调整系数,取值范围为:1 ~5;
Figure 153866DEST_PATH_IMAGE015
为计算得到的声音数据识别值,当计算得到的声音数据识别值在设定的声音识别阈 值范围内时,则判断声音数据识别器识别的数据为声音数据。
6.如权利要求1所述的多种类数据识别方法,其特征在于,所述步骤4中基于交集部分所对应的数据池的种类,将数据识别器进行组合或调整,以生成对交集部分进行数据识别的细数据识别器的方法包括:当交集部分对应的数据池的种类的数量等于数据识别器的种类的数量时,则将所有的数据识别器进行组合,得到细数据识别器;当交集部分对应的数据池的种类的数量小于数据识别器的种类的数量时,则将从所有的数据识别器中筛选出与交集部分所对应的数据池的种类的数量相等的数据识别器进行组合,得到细数据识别器,同时筛选出的数据识别器的种类与交集部分对应的数据池的种类一一对应。
7.如权利要求6所述的多种类数据识别方法,其特征在于,所述步骤6中进行数据重新组合,完成数据识别的方法包括:提取数据的数据头,在数据头中找到数据的时间标识,基于找到的时间标识,按照时间先后顺序,将数据进行组合。
8.如权利要求7所述的多种类数据识别方法,其特征在于,所述当交集部分对应的数据池的种类的数量等于数据识别器的种类的数量时,则将所有的数据识别器进行组合,得到细数据识别器的方法包括:将所有的数据识别器进行并联,在对数据进行识别时,所有的数据识别器并行工作。
9.如权利要求8所述的多种类数据识别方法,其特征在于,所述当交集部分对应的数据池的种类的数量小于数据识别器的种类的数量时,则将从所有的数据识别器中筛选出与交集部分所对应的数据池的种类的数量相等的数据识别器进行组合,得到细数据识别器的方法包括:将筛选出的数据识别器进行并联,在对数据进行识别时,所有的数据识别器并行工作。
CN202111190736.6A 2021-10-13 2021-10-13 多种类数据识别方法 Active CN113642679B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111190736.6A CN113642679B (zh) 2021-10-13 2021-10-13 多种类数据识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111190736.6A CN113642679B (zh) 2021-10-13 2021-10-13 多种类数据识别方法

Publications (2)

Publication Number Publication Date
CN113642679A true CN113642679A (zh) 2021-11-12
CN113642679B CN113642679B (zh) 2021-12-28

Family

ID=78426528

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111190736.6A Active CN113642679B (zh) 2021-10-13 2021-10-13 多种类数据识别方法

Country Status (1)

Country Link
CN (1) CN113642679B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116226755A (zh) * 2023-05-10 2023-06-06 广东维信智联科技有限公司 一种基于大数据的实时数据识别方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1471042A (zh) * 2002-07-25 2004-01-28 摩托罗拉公司 用于中文手写汉字识别的预分类方法及系统
US20090037174A1 (en) * 2007-07-31 2009-02-05 Microsoft Corporation Understanding spoken location information based on intersections
CN103605964A (zh) * 2013-11-25 2014-02-26 上海骏聿数码科技有限公司 基于图像在线学习的人脸检测方法及系统
US20160189381A1 (en) * 2014-10-27 2016-06-30 Digimarc Corporation Signal detection, recognition and tracking with feature vector transforms
CN105938558A (zh) * 2015-03-06 2016-09-14 松下知识产权经营株式会社 学习方法
CN109671053A (zh) * 2018-11-15 2019-04-23 首都医科大学附属北京友谊医院 一种胃癌图像识别系统、装置及其应用
CN109784352A (zh) * 2017-11-14 2019-05-21 北京京东尚科信息技术有限公司 一种评估分类模型的方法和装置
CN110827333A (zh) * 2019-10-31 2020-02-21 国网河北省电力有限公司电力科学研究院 一种继电保护的压板拼接识别方法、系统及介质
CN113190154A (zh) * 2021-04-29 2021-07-30 北京百度网讯科技有限公司 模型训练、词条分类方法、装置、设备、存储介质及程序

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1471042A (zh) * 2002-07-25 2004-01-28 摩托罗拉公司 用于中文手写汉字识别的预分类方法及系统
US20090037174A1 (en) * 2007-07-31 2009-02-05 Microsoft Corporation Understanding spoken location information based on intersections
CN103605964A (zh) * 2013-11-25 2014-02-26 上海骏聿数码科技有限公司 基于图像在线学习的人脸检测方法及系统
US20160189381A1 (en) * 2014-10-27 2016-06-30 Digimarc Corporation Signal detection, recognition and tracking with feature vector transforms
CN105938558A (zh) * 2015-03-06 2016-09-14 松下知识产权经营株式会社 学习方法
CN109784352A (zh) * 2017-11-14 2019-05-21 北京京东尚科信息技术有限公司 一种评估分类模型的方法和装置
CN109671053A (zh) * 2018-11-15 2019-04-23 首都医科大学附属北京友谊医院 一种胃癌图像识别系统、装置及其应用
CN110827333A (zh) * 2019-10-31 2020-02-21 国网河北省电力有限公司电力科学研究院 一种继电保护的压板拼接识别方法、系统及介质
CN113190154A (zh) * 2021-04-29 2021-07-30 北京百度网讯科技有限公司 模型训练、词条分类方法、装置、设备、存储介质及程序

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YUANJUN LIU ETAL.: "Convolutional Network Model using Hierarchical Prediction and its Application in Clothing Image Classification", 《2019 3RD INTERNATIONAL CONFERENCE ON DATA SCIENCE AND BUSINESS ANALYTICS (ICDSBA)》 *
崔浩等: "基于粗略到精细分类的面部表情识别方法", 《计算机工程》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116226755A (zh) * 2023-05-10 2023-06-06 广东维信智联科技有限公司 一种基于大数据的实时数据识别方法

Also Published As

Publication number Publication date
CN113642679B (zh) 2021-12-28

Similar Documents

Publication Publication Date Title
CN112183258A (zh) 一种基于上下文信息和注意力机制的遥感图像道路分割方法
CN113239954A (zh) 基于注意力机制的图像语义分割特征融合方法
CN110287770B (zh) 一种基于卷积神经网络的水中个体目标匹配识别方法
CN107491729B (zh) 基于余弦相似度激活的卷积神经网络的手写数字识别方法
CN113516133B (zh) 一种多模态图像分类方法及系统
CN112347284A (zh) 一种组合商标图像检索方法
CN112347970A (zh) 一种基于图卷积神经网络的遥感影像地物识别方法
CN109492610B (zh) 一种行人重识别方法、装置及可读存储介质
CN113642679B (zh) 多种类数据识别方法
CN112507800A (zh) 一种基于通道注意力机制和轻型卷积神经网络的行人多属性协同识别方法
CN112163490A (zh) 一种基于场景图片的目标检测方法
CN114998602A (zh) 基于低置信度样本对比损失的域适应学习方法及系统
CN112580483A (zh) 一种基于粗糙模糊模型的遥感影像特征离散化方法
CN111178312A (zh) 基于多任务特征学习网络的人脸表情识别方法
CN115810191A (zh) 基于多注意力融合和高精度分割网络的病理细胞分类方法
CN113971735A (zh) 一种深度图像聚类方法、系统、设备、介质及终端
Zhiyan et al. Speech emotion recognition based on deep learning and kernel nonlinear PSVM
CN116452862A (zh) 基于领域泛化学习的图像分类方法
CN111310820A (zh) 基于交叉验证深度cnn特征集成的地基气象云图分类方法
CN115129884A (zh) 基于语义交互匹配网络的知识图谱补全方法及系统
CN114387454A (zh) 一种基于区域筛选模块和多层次对比的自监督预训练方法
CN117516937A (zh) 基于多模态特征融合增强的滚动轴承未知故障检测方法
CN117093849A (zh) 一种基于自动生成模型的数字矩阵特征分析方法
CN116665039A (zh) 基于两阶段因果干预的小样本目标识别方法
CN106570910B (zh) 基于自编码特征和近邻模型的图像自动标注方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant