CN113626588A - 卷积神经网络训练的方法和装置、文章分类的方法和装置 - Google Patents
卷积神经网络训练的方法和装置、文章分类的方法和装置 Download PDFInfo
- Publication number
- CN113626588A CN113626588A CN202010388933.8A CN202010388933A CN113626588A CN 113626588 A CN113626588 A CN 113626588A CN 202010388933 A CN202010388933 A CN 202010388933A CN 113626588 A CN113626588 A CN 113626588A
- Authority
- CN
- China
- Prior art keywords
- formula
- article
- processed
- neural network
- convolutional neural
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 139
- 238000012549 training Methods 0.000 title claims abstract description 109
- 238000000034 method Methods 0.000 title claims abstract description 72
- 230000006870 function Effects 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 12
- 230000015654 memory Effects 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 11
- 210000002569 neuron Anatomy 0.000 claims description 7
- 238000012216 screening Methods 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 238000011176 pooling Methods 0.000 description 15
- 238000004422 calculation algorithm Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 6
- 239000013598 vector Substances 0.000 description 5
- 238000012360 testing method Methods 0.000 description 4
- 238000013145 classification model Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000010224 classification analysis Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种卷积神经网络训练的方法和装置、文章分类的方法和装置,所述文章分类的方法包括,接收待处理文章,获取所述待处理文章中的公式;将所述待处理文章中的公式输入至卷积神经网络中,获得所述卷积神经网络输出的所述待处理文章对应的公式特征,根据所述待处理文章对应的公式特征对所述待处理文章进行分类,所述公式与待处理文章所属类别的相关性高,利用所述待处理文章中的公式信息,对所述待处理文章进行分类,进而提高用户在数据集中检索到目标信息的效率。
Description
技术领域
本申请涉及文本处理领域,特别涉及一种卷积神经网络训练的方法和装置、文章分类的方法和装置、计算设备以及计算机可读存储介质。
背景技术
随着互联网技术的快速发展,人们使用的各类数据正在以爆炸性速度不断增长,数据库中存储有大量的数据,通过数据的分类分析这一手段能够有效利用大量数据中有价值的信息,数据的分类分析能够应用于市场研究、数据分析、模式识别、图像处理、人工智能和文档分类等领域。
目前,对于文献的主题分类中,一般是基于文献中词的统计特性计算文献的主题分布,但这种方法只能对文献中包含主题信息的文本进行主题识别,而对于主题信息不在文献的文本中则无法识别文献的主题,因此对于主题信息不在文本中的文献难以进行有效分类,这将会大大影响用户检索目标信息的效率,甚至导致用户无法检索到目标信息。
发明内容
有鉴于此,本申请实施例提供了一种卷积神经网络的训练及文章分类的方法和装置、计算设备和计算机可读存储介质,以解决现有技术中存在的技术缺陷。
本申请实施例公开了一种卷积神经网络训练的方法,包括:
获取样本文章集,采集所述样本文章集中每个样本文章的公式获得公式集;
将所述公式集中的单个公式作为正样本,将所述单个公式所在的样本文章中其它单个公式作为正例,将其它样本文章中的公式作为负例,将所述正样本、正例和负例输入至卷积神经网络中进行训练,直至达到训练停止条件。
可选地,将所述正样本、正例和负例输入至卷积神经网络中进行训练,直至达到训练停止条件包括:
所述正样本、正例和负例输入至卷积神经网络中分别获得正样本特征、正例特征和负例特征;
分别计算所述正样本特征和正例特征之间的距离以及所述正样本特征和负例特征之间的距离,通过边际损失函数计算两个距离的差值;
根据所述差值从卷积神经网络的全连接层向输入层依次调整每一层神经元节点的权重值,完成当前次训练,并继续进行下一次训练直至达到训练停止条件。
可选地,所述训练停止条件包括:所述差值变化率小于预设稳定阈值。
可选地,在将所述正样本、正例和负例输入至卷积神经网络中进行训练之前,还包括:
提取单个所述公式所在的样本文章的关键词,将该关键词作为单个所述公式对应的标签;
将单个所述公式作为正样本,将其它样本文章中的公式作为负样本,将所述正样本、所述正样本对应的标签、所述负样本和所述负样本对应的标签输入至卷积神经网络中获得正样本特征和负样本特征;
基于正样本特征与正样本对应的标签以及所述负样本特征与负样本对应的标签计算得到损失值,根据所述损失值调整卷积神经网络的参数直至达到预训练停止条件。
本申请实施例公开了一种文章分类的方法,包括:
接收待处理文章,获取所述待处理文章中的公式;
将所述待处理文章中的公式输入至卷积神经网络中,获得所述卷积神经网络输出的所述待处理文章对应的公式特征,其中,所述卷积神经网络是通过上述卷积神经网络的训练方法训练得到的;
根据所述待处理文章对应的公式特征对所述待处理文章进行分类。
可选地,所述卷积神经网络包括输入层、中间层和全连接层;
将所述待处理文章中的公式输入至卷积神经网络中,获得所述卷积神经网络输出的所述待处理文章对应的公式特征,包括:
所述待处理文章中的公式经过卷积神经网络的输入层输入至中间层,所述中间层对公式进行处理得到高维特征;将高维特征输入至卷积神经网络的全连接层进行归一化处理获得公式特征。
可选地,根据待处理文章中的公式特征以对待处理文章进行分类,包括:
获取属于预设类别的标准文章;
采集所述标准文章中的公式;
根据所述标准文章中的公式,获取所述标准文章对应的公式特征;
计算所述待处理文章对应的公式特征与所述标准文章对应的公式特征的相似度;
将所述相似度超过预设相似阈值的所述待处理文章划分至预设类别中。
可选地,根据待处理文章中的公式特征以对待处理文章进行分类,包括:
获取各个组别中的已分组文本,采集所述已分组文本中的公式;
根据所述已分组文本中的公式,获取所述已分组文本对应的公式特征;
逐个计算所述待处理文章对应的公式特征与每个所述已分组文本对应的公式特征的原距离;
获取所述原距离小于预设距离的已分组文本作为筛选文本,分别确定各个组别中所述原距离小于预设距离的筛选文本的数量;
将所述待处理文章划分至包含筛选文本数量最多的组别中。
本申请实施例公开了一种卷积神经网络训练的装置,包括:
采集模块,被配置为获取样本文章集,采集所述样本文章集中每个样本文章的公式获得公式集;
训练模块,被配置为将所述公式集中的单个公式作为正样本,将单个公式所在的样本文章中其它单个公式作为正例,将其它样本文章中的公式作为负例,将所述正样本、正例和负例输入至卷积神经网络中直至达到训练停止条件。
本申请实施例还公开了一种文章分类的装置,包括:
接收模块,被配置为接收待处理文章,获取所述待处理文章中的公式;
获取模块,被配置为将所述待处理文章中的公式输入至卷积神经网络中,获得所述卷积神经网络输出的所述待处理文章对应的公式特征,其中,所述卷积神经网络是通过上述卷积神经网络的训练方法训练得到的;
分类模块,被配置为根据所述待处理文章对应的公式特征对所述待处理文章进行分类。
本申请实施例公开了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现如上所述的卷积神经网络训练的方法或文章分类的方法的步骤。
本申请实施例公开了一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现如上所述的卷积神经网络训练的方法或文章分类的方法的步骤。
本申请提供的一种卷积神经网络训练的方法和装置、文章分类的方法和装置,上述卷积神经网络训练的方法对卷积神经网络进行训练,以达到正例与正样本更相似,负例与正样本不相似的训练目的,也就是说使得同一篇样本文章中的任意两个公式的相关性高,这样训练好的卷积神经网络在使用的过程中,利用训练好的卷积神经网络来提取待处理文章中公式的特征,使得相似公式之间的相关性高,确保所述待处理文章中所有公式提取得到信息的准确性。
附图说明
图1是本申请实施例的计算设备的结构示意图;
图2是本申请第一实施例卷积神经网络训练的方法的流程示意图;
图3是本申请第二实施例卷积神经网络训练的方法的流程示意图;
图4是本申请卷积神经网络的结构示意图;
图5是本申请第三实施例文章分类的方法的流程示意图;
图6是本申请对待处理文章进行分类的流程示意图;
图7a和图7b是本申请中对待处理文章进行聚类示意图;
图8是本申请第四实施例卷积神经网络训练的装置结构示意图;
图9是本申请第五实施例文章分类的装置结构示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
首先,对本发明一个或多个实施例涉及的名词术语进行解释。
待处理文章:所述待处理文章是数据集中还未进行分类的文章,换言之,所述待处理文章即需要进行分类的文章,包括文字、公式、表格等。
公式特征:通过卷积神经网络提取公式的特征。
卷积神经网络(Convolutional Neural Network,CNN):是一种前馈型的神经网络,前馈型的神经网络也就是各神经元分层排列,每个神经元只与前一层的神经元相连,卷积神经网络能够用于提取图像特征。
卷积层(Convolutional layer):是用一个采样器从输入数据中采集关键数据内容。
最大池化层(Max pool layer):是对卷积层结果的压缩得到更加重要的特征,同时还能有效控制过拟合。
扁平化层(Flatten layer):用来将输入“压平”,即把多维的输入一维化。
全连接层(fully connected layer):将经过多次卷积后高度抽象化的特征进行整合,然后可以进行归一化最终输出公式对应的公式特征。
词嵌入技术(Word embedding):是自然语言处理中的一组语言建模和特征学习技术的统称,也就是将词汇中的单词或短语映射到具有更低维度的连续向量空间。
聚类:在给定的数据集中,通过聚类算法将其分成一些不同的组。在理论上,相同的组的数据之间有相同的属性或者是特征,不同组数据之间的属性或者特征差异较大。
余弦相似度:是通过计算两个向量的夹角余弦值来评估相似度。
样本文章集:包含大量的样本文章的集合。
样本文章:对卷积神经网络进行训练的文章。
预训练:对卷积神经网络进行初步训练,以使卷积神经网络获得较好的初始值。
Mean-shift聚类算法:是一个基于质心的算法,也就是说他的目标是通过更新中心点候选者定位每个组或类的中心点,将中心点候选者更新为滑窗内点的均值。这些候选滑窗之后会在后处理阶段被过滤,来减少临近的重复点,最后形成了中心点的集合和他们对应的组。
损失函数:是将随机事件或其有关随机变量的取值映射为非负实数以表示该随机事件的“风险”或“损失”的函数。
交叉熵损失函数(Cross Entropy Loss):是用来衡量卷积神经网络的预测值与实际值差异的一种方式,损失函数目的是学习如何去直接地预测标签。与二次代价函数相比,它能更有效地促进卷积神经网络的训练。
边际损失函数(margin loss):是一个三元损失函数,使用边界去衡量样本之间的嵌入表征距离,目的是去预测输入样本之间的相对距离。
在本申请中,提供了一种卷积神经网络训练的方法和装置、文章分类的方法和装置、计算设备以及计算机可读存储介质,在下面的实施例中逐一进行详细说明。
图1是示出了根据本说明书一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接,数据库150用于保存数据。
计算设备100还包括接入设备140,接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本说明书的一个实施例中,计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图1所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备100可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。
其中,处理器120可以执行图2所示方法中的步骤。图2是示出了根据本申请第一实施例的卷积神经网络训练的方法的示意性流程图,包括步骤202至步骤204。
步骤202:获取样本文章集,采集所述样本文章集中的公式获得公式集。
所述样本文章集中包含大量的样本文章的集合,所述样本文章可以为文献、论文、期刊或杂志中的文章。
对于公式,可以为文本格式的公式,也可以为图片格式的公式。对于为文本格式的公式,本实施例的卷积神经网络进行训练的目的是使卷积神经网络具有识别公式文本的能力;对于为图片格式的公式,本实施例的卷积神经网络进行训练的目的是使卷积神经网络具有识别公式图片的能力。
步骤204:将所述公式集中的单个公式作为正样本,将所述单个公式所在的样本文章中其它单个公式作为正例,将其它样本文章中的公式作为负例,将所述正样本、正例和负例输入至卷积神经网络中进行训练,直至达到训练停止条件。
具体地,步骤204包括下述步骤S2042~S2046:
S2042、将所述正样本、正例和负例输入至卷积神经网络中分别获得正样本特征、正例特征和负例特征。
S2044、分别计算所述正样本特征和正例特征之间的距离以及所述正样本特征和负例特征之间的距离,通过边际损失函数计算两个距离的差值。
本步骤中用于卷积神经网络训练的损失函数为边际损失函数,卷积神经网络结构中全连接层输出的特征通过边际损失进行计算,通过边际损失函数计算所述正样本特征和正例特征之间的距离与正样本特征和负例特征之间的距离的差值。
S2046、根据所述差值从卷积神经网络的全连接层向输入层依次调整每一层神经元节点的权重值,完成当前次训练,并继续进行下一次训练直至达到训练停止条件。
具体地,训练停止条件包括:所述差值的变化率小于预设稳定阈值。
另外,输入的正样本、正例和负例是一个从训练集中采样得到的三元组。这个三元组由一个正样本,一个正例,一个负例组成。卷积神经网络训练目的是正样本与正例之间的距离与正样本和负例之间的距离之差大于一个阈值,简而言之,就是让正样本与正例更相似,正样本和负例不相似。
下面具体说明训练数据的生成,假设所述公式集中有一万个公式,需要逐条生成训练数据。
第一条训练数据中,正样本为第一个公式;正例为与第一个公式所在样本文章中抽取的另一个公式;负例为公式集中除第一个公式所在样本文章的其它样本文章中的一个公式。
第二条训练数据中,正样本:第二个公式;正例为与第二个公式所在样本文章中抽取的另一个公式;负例为公式集中除第二个公式所在样本文章的其它样本文章中的一个公式,以此类推,完成所有训练数据的生成。
本实施例中对卷积神经网络进行训练,以达到正例与正样本更相似,负例与正样本不相似的训练目的,也就是说使得同一篇样本文章中的任意两个公式的相关性高,这样训练好的卷积神经网络在使用的过程中,利用训练好的卷积神经网络来提取待处理文章中公式的特征,使得相似公式之间的相关性高,确保所述待处理文章中所有公式提取得到信息的准确性。
图3是示出了根据本申请第二实施例的卷积神经网络训练的方法的示意性流程图,包括步骤302至步骤310。
步骤302:获取样本文章集,采集所述样本文章集中的公式获得公式集。
所述样本文章集中包含大量的样本文章的集合,所述样本文章可以为文献、论文、期刊或杂志中的文本。
对于公式,可以为文本格式的公式,也可以为图片格式的公式。对于为文本格式的公式,本实施例的卷积神经网络进行训练的目的是使卷积神经网络具有识别公式文本的能力;对于为图片格式的公式,本实施例的卷积神经网络进行训练的目的是使卷积神经网络具有识别公式图片的能力。
通过下述步骤304至步骤306为对卷积神经网络进行预训练。
步骤304:提取单个所述公式所在的样本文章摘要的关键词,将该关键词作为该单个公式对应的标签。
由于没有公式相似性的数据集,因此,这里将样本文章的摘要中抽取的关键词作为公式的标签,所述样本文章中公式与关键词的相关性高,下述步骤中预训练使得公式与关键词的语义连接,保证步骤310中训练的卷积神经网络能够快速地收敛。
本实施例采用的负采样技术,以0.5的概率生成负样本。这里负样本的标签为随机采样的标签,正样本的标签为公式所在样本文章中摘要的关键词,所述单个公式即为正样本,所述负样本中公式的标签为随机抽取的关键词,以此转化为二分类任务用于卷积神经网络的预训练。
具体地,下面说明预训练数据的生成。
生成一个0至1的随机数,随机数大于0.5,这条数据为正样本,随机数小于0.5,这条数据为负样本。
假设第一个公式的随机数大于0.5,因此为正样本,从第一个公式所在的样本文章中的摘要提取关键词作为标签。
假设第二个公式随机数小于0.5,第二个公式为负样本,从其它样本文章中抽取关键词作为标签,以此类推,完成预训练数据的生成。
上述生成的预训练数据,正样本与负样本数据量均衡,确保卷积神经网络预训练能够得到较好的初始值,提高下述步骤中卷积神经网路的训练效果。
步骤306:将单个所述公式作为正样本,将其它样本文章中的公式作为负样本,将所述正样本、所述正样本对应的标签、负样本和负样本对应的标签输入至卷积神经网络中获得正样本特征和负样本特征。
将单个所述公式作为正样本,将该公式对应的摘要关键词作为正样本对应的标签,将其它样本文章中的公式作为负样本,将随机抽取的摘要关键词作为负样本对应的标签输入至卷积神经网络中进行预训练。通过预训练,使得卷积神经网络获得较好的初始值,保证下述步骤中训练的卷积神经网络能够快速地收敛。
步骤308:基于正样本特征与正样本对应的标签以及所述负样本特征与负样本对应的标签计算得到损失值,根据所述损失值调整卷积神经网络的参数直至达到预训练停止条件。
下面结合图4示出的卷积神经网络的结构对本步骤的预训练过程进行具体说明。图4中,以公式为公式图片为例进行示意性的说明。
所述卷积神经网络包括输入层、中间层和全连接层,所述中间层为依次连接的第一层卷积层、第二层最大池化层、第三层卷积层、第四层最大池化层、第五层卷积层、第六层最大池化层和第七层扁平化层,假设样本文章的公式图片中的公式为对公式图片特征的提取依次经过下述步骤。
1)输入第一层卷积层的公式图片尺寸为32x333x1(高度x宽度x颜色通道数)。
2)第一层卷积层(Conv)的卷积核尺寸3x3,卷积核数量c为32个,计算时每次移动的步长s为1,公式图片经32个尺寸为3x3的卷积核作卷积计算后的结果输入至第二层最大池化层。
3)第二层最大池化层(Max pool)的尺寸s为2x4,第二层最大池化层对第一层卷积层结果进行压缩得到更加重要的特征,将压缩得到的特征输入至第三层卷积层。
4)第三层卷积层的卷积核尺寸5x5,卷积核数量c为32个。计算时每次移动的步长s为1,将第二层最大池化层输出的特征经32个尺寸为5x5的卷积核作卷积计算后的结果输入至第四层最大池化层。
5)第四层最大池化层的尺寸s为2x4,第四层最大池化层对第三层卷积层结果进行压缩得到更加重要的特征,将压缩得到的特征输入至第五层卷积层。
6)第五层卷积层的卷积核尺寸3x3,卷积核数量c为32个,计算时每次移动的步长s为1,将第四层最大池化层输出的特征经32个尺寸为3x3的卷积核作卷积计算后的结果输入至第六层最大池化层。
7)第六层最大池化层的尺寸s为3x3,步长s为3,第六层最大池化层对第五层卷积层结果进行压缩输出1x5x32维的特征。
8)第七层扁平化层(Flatten)将第六层最大池化层输出的1x5x32维进行一维化得到1x160维的特征。
9)全连接层(Fc):将前面经过多次卷积后高度抽象化的特征进行整合,然后可以进行归一化最终输出公式图片对应的公式特征为1x64维的特征。
用于卷积神经网络预训练的损失函数为交叉熵损失函数,交叉熵损失函数用来衡量卷积神经网络的预测值与实际值偏差的一种方式,卷积神经网络中的全连接层输出的特征通过与标签的向量计算点积,通过交叉熵损失函数得到预测值与实际值的误差,计算损失函数的梯度传回上一层神经网络修正模型的参数,至此完成卷积神经网络的预训练。
步骤310:将所述公式集中的单个公式作为正样本,将所述单个公式所在的样本文章中其它单个公式作为正例,将其它样本文章中的公式作为负例,将所述正样本、正例和负例输入至卷积神经网络中进行训练,直至达到训练停止条件。
本实施例通过对卷积神经网络先进行预训练,确保卷积神经网络预训练能够得到较好的初始值,这样在训练的过程中,将所述正样本、正例和负例输入至卷积神经网络中进行训练,以达到正例与正样本更相似并且负例与正样本不相似的训练目的,也就是说使得同一篇样本文章中的任意两个公式的相关性高,这样训练好的卷积神经网络在使用的过程中,利用训练好的卷积神经网络来提取待处理文章中公式的特征,使得相似公式之间的相关性高,确保所述待处理文章中所有公式提取得到信息的准确性。
图5示出了本申请实施例三提供的一种文章分类的方法,包括步骤502至步骤506。
步骤502:接收待处理文章,获取所述待处理文章中的公式。。
所述待处理文章为文献、论文、期刊或杂志中的文章,所述待处理文章是还未进行分类的文章。
所述待处理文章的语言种类可以为中文、英文、韩文和日文等,所述待处理文章的来源可以为文库或用户指定的文章,本申请对此不作限制。所述待处理文章中一般包括字符、表格、图片和公式,所述待处理文章中包括至少一个公式,本申请对所述待处理文章中公式的数量不做限制。
具体地,通过采集所述待处理文章中的公式,这样下述步骤中获取所述待处理文章中的公式特征,所述公式特征也就是提取所述待处理文章中所有公式的特征,所述待处理文章中的公式与所述待处理文章所属类别相关性高。
通过识别所述待处理文章中的公式,截取待处理文章中公式所在的区域获得公式,确保准确地采集所述待处理文章中的公式。
步骤504:将所述待处理文章中的公式输入至卷积神经网络中,获得所述卷积神经网络输出的所述待处理文章对应的公式特征,其中,所述卷积神经网络是通过上述卷积神经网络训练的方法训练得到的。
具体地,所述卷积神经网络包括输入层、中间层和全连接层。
所述待处理文章中的公式经过卷积神经网络的输入层输入至中间层,所述中间层对公式进行处理得到高维特征。
将所述高维特征输入至卷积神经网络的全连接层进行归一化处理获得公式特征。
利用卷积神经网络能够提取公式特征,将所述待处理文章中的公式输入至卷积神经网络,获取所述卷积神经网络的全连接层输出待处理文章对应的公式特征,确保所述待处理文章中公式提取得到信息的准确性。
步骤506:根据所述待处理文章对应的公式特征,对所述待处理文章进行分类。
具体地,对所述待处理文章进行分类包括无监督聚类和有监督分类,无监督聚类是输入样本数据集中的数据没有被标记,也没有确定的类别结果,样本数据的类别未知,需要根据样本数据间的相似性对样本集进行聚类,使得类别内的数据差距最小化,该类别中的数据与其它类别的数据差距最大化。
有监督分类是从给定的样本数据集中学习出一个分类模型的模型参数,样本数据集中每条数据均有类别标签,将新的待分类数据输入至分类模型中,分类模型预测出待分类数据的类别。
第一种待处理文章的分类方式是将所述待处理文章归为具体的预设类别,通过步骤602至步骤610对待处理文章进行分类。
步骤602:获取属于预设类别的标准文章。
所述预设类别是用户自己搜集的确定类别公式,比如,预设类别为长短期记忆网络类、机器翻译类和图像处理类。
所述标准文章是属于预设类别的文章,也就是标准文章中的公式为预设类别的典型公式,比如预设类别为长短期记忆网络,标准文章则是包含长短期记忆网络典型公式的文本,这样确保下述步骤中待处理文章能够准确地分类至预设类别中。
步骤604:采集所述标准文章中的公式。
可选地,可以通过文字识别采集标准文章中的公式;也可通过识别所述标准文章中的公式,截取标准文章中公式所在的区域获得公式图片,确保准确地采集所述标准文章中的公式。
步骤606:根据所述标准文章中的公式,获取所述标准文章对应的公式特征。
利用卷积神经网络能够提取图像特征,将所述待处理文章中的公式图片输入至卷积神经网络,获取所述卷积神经网络的全连接层输出待处理文章对应的公式特征,确保所述待处理文章中公式图片提取得到信息的准确性。
步骤608:计算所述待处理文章对应的公式特征与所述标准文章对应的公式特征的相似度。
本步骤中,可以来计算所述待处理文章对应的公式特征与所述标准文章对应的公式特征的余弦相似度,余弦相似度是通过计算所述待处理文章对应的公式特征的夹角与所述标准文章对应的公式特征的相似值来评估相似度。
步骤610:将所述相似度超过预设相似阈值的所述待处理文章划分至预设类别中。
下面说明所述待处理文章对应的公式特征与标准文章对应的公式特征的余弦相似度的计算过程。
假设一个待处理文章对应的公式特征A为(1,1,2,1,1,1,0,0,0);
属于图像处理类别的标准文章对应的公式特征B为(1,1,1,0,1,1,1,1,1)。
余弦相似度的计算公式如下:
其中,cos(θ)为余弦相似值,xi为公式特征A,yi为公式特征B。
对于公式特征A和B,相似值的计算过程如下:
相似值的范围在[-1,1]之间,相似值越趋近于1,代表两个向量的方向越接近,也就是第一实体与音译实体越相似;相似值越趋近于-1,两个向量的方向越相反,也就是第一实体与音译实体差异越大。
公式特征A与公式特征B的相似值为0.802超过预设相似阈值0.6,所以该待处理文章的公式特征与属于图像处理类的标准实体对应的公式特征基本相似,则将该待处理文章分类至图像处理类。
获取所述待处理文章与标准文章的相似度超过预设相似阈值的,则所述待处理文章属于预设类别,这将能够提高获取属于预设类别的待处理文章的效率。
第二种待处理文章的分类方式是将待处理文章进行聚类,也就是,在给定的所有待处理文章中,根据聚类算法将待处理文章分成一些不同的类别。
所述聚类算法可以是k近邻法(k-nearest neighbor,KNN),KNN算法是一种基本分类与回归方法,其基本原理是给定测试实例,基于某种距离度量找出训练集中与其最靠近的k个实例点,然后基于这k个最近邻的信息来进行预测。
具体的算法原理1)计算测试数据与各个训练数据之间的距离;2)按照距离的递增关系进行排序;3)选取距离最小的K个点;4)确定前K个点所在类别的出现频率;5)返回前K个点中出现频率最高的类别作为测试数据的预测分类。
所述聚类算法可以是Mean-shift聚类算法,Mean-shift聚类算法是一个基于质心的算法,也就是说其目标是通过更新中心点候选者定位每个组或类的中心点,将中心点候选者更新为滑窗内点的均值。这些候选滑窗之后会在后处理阶段被过滤,来减少临近的重复点,最后形成了中心点的集合作为一个类别。
下面结合图7a和图7b说明mean-shift算法,具体地,1)将每个待处理文章对应的公式特征映射至一个二维空间中形成如图7a所示的点集,每个点代表一个待处理文章,以一个圆心在随机选择点的圆形滑窗开始,以半径r作为核。通过每一步都迭代地把核移动到更高密度的区域,直到收敛位置。
2)在每次迭代时,通过移动中心点到滑窗中点的均值处,将滑窗移动到密度更高的区域。滑窗内的密度与在其内部点的数量成正比。很自然地,通过将中心移动到滑窗内点的均值处,可以逐步的移向有个高的密度的区域。
3)继续根据滑窗内点的均值来移动滑窗,直到有没有哪个方向可以使核中容纳更多的点,一直移动圆圈直到密度不再增长(即滑窗内点的数量不再增长)。
4)用很多滑窗重复1-3这个过程,直到所有的点都包含在了窗内。当多个滑动窗口重叠时,包含最多点的窗口将被保留。然后,根据数据点所在的滑动窗口对数据点进行聚类,比如,图7b示出了最终聚类的结果,也就是将待处理文章分成四个类别。
本实施例中通过获取所述待处理文章中的公式特征,采集待处理文章中的公式,所述公式与待处理文章所属类别的相关性高,利用所述待处理文章中的公式信息,来计算待处理文章对应的公式特征与所述标准文章对应的公式特征的相似度,对所述待处理文章进行分类,尤其是对于类别信息不在文献的文本中而出现无法识别文献的类别的情况,因此能够提高对于类别信息不在文本中的文献分类的准确度,进而提高用户在数据集中检索到目标信息的效率。
本申请第四实施例提供一种卷积神经网络训练的装置,参见图8所示,包括:
采集模块802,被配置为获取样本文章集,采集所述样本文章集中的公式获得公式集;
训练模块804,被配置为将所述公式集中的单个公式作为正样本,将所述单个公式所在的样本文章中其它单个公式作为正例,将其它样本文章中的公式作为负例,将所述正样本、正例和负例输入至卷积神经网络中进行训练,直至达到训练停止条件。
可选地,所述训练模块804被进一步配置为:
将所述正样本、正例和负例输入至卷积神经网络中分别获得正样本特征、正例特征和负例特征;
分别计算所述正样本特征和正例特征之间的距离以及所述正样本特征和负例特征之间的距离,通过边际损失函数计算两个距离的差值;
根据所述差值从卷积神经网络的全连接层向输入层依次调整每一层神经元节点的权重值,完成当前次训练,并继续进行下一次训练直至达到训练停止条件。
可选地,所述训练停止条件包括:所述差值的变化率小于预设稳定阈值。
可选地,所述卷积神经网络训练的装置,还包括:
提取模块,被配置为提取单个所述公式所在的样本文章摘要的关键词,将该关键词作为单个所述公式对应的标签;
处理模块,被配置为将单个所述公式作为正样本,将其它样本文章中的公式作为负样本,将所述正样本、所述正样本对应的标签、所述负样本和所述负样本对应的标签输入至卷积神经网络中获得正样本特征和负样本特征;
预训练模块,被配置为基于正样本特征与正样本对应的标签以及所述负样本特征与负样本对应的标签计算得到损失值,根据所述损失值调整卷积神经网络的参数直至达到预训练停止条件。
本实施例中对卷积神经网络进行训练,以达到正例与正样本更相似,负例与正样本不相似的训练目的,也就是说使得同一篇样本文章中的任意两个公式的相关性高,这样训练好的卷积神经网络在使用的过程中,利用训练好的卷积神经网络来提取待处理文章中公式的特征,使得相似公式之间的相关性高,确保所述待处理文章中所有公式提取得到信息的准确性。
本申请第五实施例提供一种文章分类的装置,参见图9所示,包括:
接收模块902,被配置为接收待处理文章,获取所述待处理文章中的公式;
获取模块904,被配置为将所述待处理文章中的公式输入至卷积神经网络中,获得所述卷积神经网络输出的所述待处理文章对应的公式特征,其中,所述卷积神经网络是通过上述卷积神经网络的训练方法训练得到的;
分类模块906,被配置为根据所述待处理文章对应的公式特征对所述待处理文章进行分类。
所述卷积神经网络包括输入层、中间层和全连接层;
获取模块904被进一步配置为所述待处理文章中的公式经过卷积神经网络的输入层输入至中间层,所述中间层对公式进行处理得到高维特征;将所述高维特征输入至卷积神经网络的全连接层进行归一化处理获得公式特征。
可选地,分类模块906被进一步配置为:获取属于预设类别的标准文章;
采集所述标准文章中的公式;
根据所述标准文章中的公式,获取所述标准文章对应的公式特征;
计算所述待处理文章对应的公式特征与所述标准文章对应的公式特征的相似度;
将所述相似度超过预设相似阈值的所述待处理文章划分至预设类别中。
可选地,分类模块906还被配置为:
获取各个组别中的已分组文本,采集所述已分组文本中的公式;
根据所述已分组文本中的公式,获取所述已分组文本对应的公式特征;
逐个计算所述待处理文章对应的公式特征与每个所述已分组文本对应的公式特征的原距离;
获取所述原距离小于预设距离的已分组文本作为筛选文本,分别确定各个组别中所述原距离小于预设距离的筛选文本的数量;
将所述待处理文章划分至包含筛选文本数量最多的组别中。
本实施例中通过获取所述待处理文章中的公式特征,通过采集待处理文章中的公式,所述公式与待处理文章所属类别的相关性高,利用所述待处理文章中的公式信息,来计算待处理文章对应的公式特征与所述标准文章对应的公式特征的相似度,对所述待处理文章进行分类,进而提高用户在数据集中检索到目标信息的效率。
本申请一实施例还提供一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现如前所述卷积神经网络训练的方法或文章分类的方法的步骤。
本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现如前所述卷积神经网络训练的方法或文章分类的方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述卷积神经网络训练的方法或文章分类的方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述卷积神经网络训练的方法或文章分类的方法的技术方案的描述。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。
Claims (12)
1.一种卷积神经网络训练的方法,其特征在于,包括:
获取样本文章集,采集所述样本文章集中的公式获得公式集;
将所述公式集中的单个公式作为正样本,将所述单个公式所在的样本文章中其它单个公式作为正例,将其它样本文章中的公式作为负例,将所述正样本、正例和负例输入至卷积神经网络中进行训练,直至达到训练停止条件。
2.根据权利要求1所述的方法,其特征在于,将所述正样本、正例和负例输入至卷积神经网络中进行训练,直至达到训练停止条件包括:
将所述正样本、正例和负例输入至卷积神经网络中分别获得正样本特征、正例特征和负例特征;
分别计算所述正样本特征和正例特征之间的距离以及所述正样本特征和负例特征之间的距离,通过边际损失函数计算两个距离的差值;
根据所述差值从卷积神经网络的全连接层向输入层依次调整每一层神经元节点的权重值,完成当前次训练,并继续进行下一次训练直至达到训练停止条件。
3.根据权利要求2所述的方法,其特征在于,所述训练停止条件包括:
所述差值变化率小于预设稳定阈值。
4.根据权利要求1所述的方法,其特征在于,在将所述正样本、正例和负例输入至卷积神经网络中进行训练之前,还包括:
提取单个所述公式所在的样本文章的关键词,将该关键词作为单个所述公式对应的标签;
将单个所述公式作为正样本,将其它样本文章中的公式作为负样本,将所述正样本、所述正样本对应的标签、所述负样本和所述负样本对应的标签输入至卷积神经网络中获得正样本特征和负样本特征;
基于正样本特征与正样本对应的标签以及所述负样本特征与负样本对应的标签计算得到损失值,根据所述损失值调整卷积神经网络的参数直至达到预训练停止条件。
5.一种文章分类的方法,其特征在于,包括:
接收待处理文章,获取所述待处理文章中的公式;
将所述待处理文章中的公式输入至卷积神经网络中,获得所述卷积神经网络输出的所述待处理文章对应的公式特征,其中,所述卷积神经网络是通过权利要求1至4任意一项卷积神经网络的训练方法训练得到的;
根据所述待处理文章对应的公式特征对所述待处理文章进行分类。
6.根据权利要求5所述的方法,其特征在于,所述卷积神经网络包括输入层、中间层和全连接层;
将所述待处理文章中的公式输入至卷积神经网络中,获得所述卷积神经网络输出的所述待处理文章对应的公式特征,包括:
所述待处理文章中的公式经过卷积神经网络的输入层输入至中间层,所述中间层对公式进行处理得到高维特征;
将所述高维特征输入至卷积神经网络的全连接层进行归一化处理获得公式特征。
7.根据权利要求5所述的方法,其特征在于,根据所述待处理文章中的公式特征以对所述待处理文章进行分类,包括:
获取属于预设类别的标准文章;
采集所述标准文章中的公式;
根据所述标准文章中的公式,获取所述标准文章对应的公式特征;
计算所述待处理文章对应的公式特征与所述标准文章对应的公式特征的相似度;
将所述相似度超过预设相似阈值的所述待处理文章划分至预设类别中。
8.根据权利要求5所述的方法,其特征在于,根据所述待处理文章中的公式特征以对所述待处理文章进行分类,包括:
获取各个组别中的已分组文本,采集所述已分组文本中的公式;
根据所述已分组文本中的公式,获取所述已分组文本对应的公式特征;
逐个计算所述待处理文章对应的公式特征与每个所述已分组文本对应的公式特征的原距离;
获取所述原距离小于预设距离的已分组文本作为筛选文本,分别确定各个组别中所述原距离小于预设距离的筛选文本的数量;
将所述待处理文章划分至包含筛选文本数量最多的组别中。
9.一种卷积神经网络训练的装置,其特征在于,包括:
采集模块,被配置为获取样本文章集,采集所述样本文章集中的公式获得公式集;
训练模块,被配置为将所述公式集中的单个公式作为正样本,将所述单个公式所在的样本文章中其它单个公式作为正例,将其它样本文章中的公式作为负例,将所述正样本、正例和负例输入至卷积神经网络中进行训练,直至达到训练停止条件。
10.一种文章分类的装置,其特征在于,包括:
接收模块,被配置为接收待处理文章,获取所述待处理文章中的公式;
获取模块,被配置为将所述待处理文章中的公式输入至卷积神经网络中,获得所述卷积神经网络输出的所述待处理文章对应的公式特征,其中,所述卷积神经网络是通过权利要求1-4任意一项卷积神经网络的训练方法训练得到的;
分类模块,被配置为根据所述待处理文章对应的公式特征对所述待处理文章进行分类。
11.一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,其特征在于,所述处理器执行所述指令时实现权利要求1-4或权利要求5-8任意一项所述方法的步骤。
12.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1-4或权利要求5-8任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010388933.8A CN113626588B (zh) | 2020-05-09 | 2020-05-09 | 卷积神经网络训练的方法和装置、文章分类的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010388933.8A CN113626588B (zh) | 2020-05-09 | 2020-05-09 | 卷积神经网络训练的方法和装置、文章分类的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113626588A true CN113626588A (zh) | 2021-11-09 |
CN113626588B CN113626588B (zh) | 2024-09-06 |
Family
ID=78377613
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010388933.8A Active CN113626588B (zh) | 2020-05-09 | 2020-05-09 | 卷积神经网络训练的方法和装置、文章分类的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113626588B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106021364A (zh) * | 2016-05-10 | 2016-10-12 | 百度在线网络技术(北京)有限公司 | 图片搜索相关性预测模型的建立、图片搜索方法和装置 |
CN107766603A (zh) * | 2017-04-24 | 2018-03-06 | 东华大学 | 一种色纺纱计算机测配色方法 |
CN108182177A (zh) * | 2018-01-24 | 2018-06-19 | 谢德刚 | 一种数学试题知识点自动化标注方法和装置 |
CN109685137A (zh) * | 2018-12-24 | 2019-04-26 | 上海仁静信息技术有限公司 | 一种题目分类方法、装置、电子设备及存储介质 |
CN110084239A (zh) * | 2019-04-10 | 2019-08-02 | 中国科学技术大学 | 降低离线手写数学公式识别时网络训练过拟合的方法 |
CN110688502A (zh) * | 2019-09-09 | 2020-01-14 | 重庆邮电大学 | 一种基于深度哈希和量化的图像检索方法及存储介质 |
CN110705399A (zh) * | 2019-09-19 | 2020-01-17 | 安徽七天教育科技有限公司 | 一种数学公式自动识别的方法 |
CN110705459A (zh) * | 2019-09-29 | 2020-01-17 | 北京爱学习博乐教育科技有限公司 | 数理化公式自动识别方法及装置、模型训练方法及装置 |
CN110796137A (zh) * | 2019-10-10 | 2020-02-14 | 中国建设银行股份有限公司 | 一种识别图像的方法和装置 |
CN110990383A (zh) * | 2019-10-14 | 2020-04-10 | 同济大学 | 一种基于工业大数据集的相似度计算方法 |
-
2020
- 2020-05-09 CN CN202010388933.8A patent/CN113626588B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106021364A (zh) * | 2016-05-10 | 2016-10-12 | 百度在线网络技术(北京)有限公司 | 图片搜索相关性预测模型的建立、图片搜索方法和装置 |
CN107766603A (zh) * | 2017-04-24 | 2018-03-06 | 东华大学 | 一种色纺纱计算机测配色方法 |
CN108182177A (zh) * | 2018-01-24 | 2018-06-19 | 谢德刚 | 一种数学试题知识点自动化标注方法和装置 |
CN109685137A (zh) * | 2018-12-24 | 2019-04-26 | 上海仁静信息技术有限公司 | 一种题目分类方法、装置、电子设备及存储介质 |
CN110084239A (zh) * | 2019-04-10 | 2019-08-02 | 中国科学技术大学 | 降低离线手写数学公式识别时网络训练过拟合的方法 |
CN110688502A (zh) * | 2019-09-09 | 2020-01-14 | 重庆邮电大学 | 一种基于深度哈希和量化的图像检索方法及存储介质 |
CN110705399A (zh) * | 2019-09-19 | 2020-01-17 | 安徽七天教育科技有限公司 | 一种数学公式自动识别的方法 |
CN110705459A (zh) * | 2019-09-29 | 2020-01-17 | 北京爱学习博乐教育科技有限公司 | 数理化公式自动识别方法及装置、模型训练方法及装置 |
CN110796137A (zh) * | 2019-10-10 | 2020-02-14 | 中国建设银行股份有限公司 | 一种识别图像的方法和装置 |
CN110990383A (zh) * | 2019-10-14 | 2020-04-10 | 同济大学 | 一种基于工业大数据集的相似度计算方法 |
Non-Patent Citations (2)
Title |
---|
艾拓等: "基于难负样本挖掘的改进Faster RCNN训练方法", 万方学术, 20 November 2019 (2019-11-20) * |
陈巧红;王磊;孙麒;贾宇波;: "卷积神经网络的短文本分类方法", 计算机系统应用, no. 05, 15 May 2019 (2019-05-15) * |
Also Published As
Publication number | Publication date |
---|---|
CN113626588B (zh) | 2024-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
Kong | Facial expression recognition method based on deep convolutional neural network combined with improved LBP features | |
Tarawneh et al. | Invoice classification using deep features and machine learning techniques | |
CN111324765A (zh) | 基于深度级联跨模态相关性的细粒度草图图像检索方法 | |
CN103473327A (zh) | 图像检索方法与系统 | |
CN109784405B (zh) | 基于伪标签学习和语义一致性的跨模态检索方法及系统 | |
CN112860898B (zh) | 一种短文本框聚类方法、系统、设备及存储介质 | |
Sumi et al. | Human gender detection from facial images using convolution neural network | |
CN110008365B (zh) | 一种图像处理方法、装置、设备及可读存储介质 | |
Li et al. | Dating ancient paintings of Mogao Grottoes using deeply learnt visual codes | |
Bawa et al. | Emotional sentiment analysis for a group of people based on transfer learning with a multi-modal system | |
Buvana et al. | Content-based image retrieval based on hybrid feature extraction and feature selection technique pigeon inspired based optimization | |
Ouyed et al. | Feature weighting for multinomial kernel logistic regression and application to action recognition | |
Xu et al. | Weakly supervised facial expression recognition via transferred DAL-CNN and active incremental learning | |
Abir et al. | Bangla handwritten character recognition with multilayer convolutional neural network | |
Parasher et al. | Anatomy on pattern recognition | |
Kumari et al. | A review of deep learning techniques in document image word spotting | |
Sowmyayani et al. | STHARNet: Spatio-temporal human action recognition network in content based video retrieval | |
Tian et al. | Automatic image annotation with real-world community contributed data set | |
Engel et al. | Information processing using intelligent algorithms by solving wcci 2010 tasks | |
CN113626588B (zh) | 卷积神经网络训练的方法和装置、文章分类的方法和装置 | |
Crammer et al. | Adaptive regularization for weight matrices | |
Prasad et al. | Modified Gabor Filter with Enhanced Naïve Bayes Algorithm for Facial Expression Recognition in Image Processing | |
Liu et al. | Cost-sensitive collaborative representation based classification via probability estimation with addressing the class imbalance | |
Ramlan et al. | Comparison of Deep Learning Model Performance for Handwritten Character Recognition of Schoolchildren |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |