CN109710924B - 文本模型训练方法、文本识别方法、装置、设备及介质 - Google Patents

文本模型训练方法、文本识别方法、装置、设备及介质 Download PDF

Info

Publication number
CN109710924B
CN109710924B CN201811493269.2A CN201811493269A CN109710924B CN 109710924 B CN109710924 B CN 109710924B CN 201811493269 A CN201811493269 A CN 201811493269A CN 109710924 B CN109710924 B CN 109710924B
Authority
CN
China
Prior art keywords
text
chinese
convolution
matrix
named entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811493269.2A
Other languages
English (en)
Other versions
CN109710924A (zh
Inventor
金戈
徐亮
肖京
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201811493269.2A priority Critical patent/CN109710924B/zh
Publication of CN109710924A publication Critical patent/CN109710924A/zh
Application granted granted Critical
Publication of CN109710924B publication Critical patent/CN109710924B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Discrimination (AREA)

Abstract

本发明公开了一种文本模型训练方法、文本识别方法、装置、设备及存储介质,所述文本模型训练方法包括:获取N个中文文本,将每一中文文本中的每一中文文字进行特征提取,得到每一中文文本的文本矩阵;采用词典匹配的方法确定每一文本矩阵的潜在命名对象;对每一文本矩阵进行卷积操作,得到全量卷积输出,并对每一文本矩阵的潜在命名对象进行卷积操作,得到潜在卷积输出;将每一文本矩阵的潜在卷积输出和全量卷积输出进行叠加计算,得到每一中文文本的命名实体输出;采用卷积神经网络对每一中文文本的命名实体输出进行学习,得到中文命名实体识别模型。该文本模型训练方法得到的中文命名实体识别模型识别具有较高的识别准确率。

Description

文本模型训练方法、文本识别方法、装置、设备及介质
技术领域
本发明涉及深度学习领域,尤其涉及一种文本模型训练方法、文本识别方法、装置、设备及存储介质。
背景技术
中文命名实体识别(Named Entity Recognition,简称NER),又称作“专名识别”,是指识别中文文本中具有特定意义的实体,由于命名实体是自然语言处理中重要的信息元素,使得命名实体成为正确理解文本的基础。中文命名实体主要包括人名、地名、机构名、专有名词等。由于中文区别于英文,存在空格间隔,因此中文命名实体识别存在更大困难。
传统的中文命名实体识别方法首先对中文文本进行分词,随后进行识别,但是分词边界可能并不准确,难以较好地消解潜在歧义,影响了中文命名实体识别的准确率。
发明内容
本发明实施例提供一种文本模型训练方法、装置、设备及存储介质,以解决实体识别模型训练效率不高的问题。
此外,本发明实施例还提供一种文本识别方法、装置、设备及存储介质,以解决中文命名实体识别准确率不高的问题。
一种文本模型训练方法,包括:
获取N个中文文本,将每一所述中文文本中的每一中文文字进行特征提取,得到每一所述中文文本的文本矩阵,其中,N为正整数;
采用词典匹配的方法确定每一所述文本矩阵的潜在命名对象;
对每一所述文本矩阵进行卷积操作,得到全量卷积输出,并对每一所述文本矩阵的潜在命名对象进行卷积操作,得到潜在卷积输出;
将每一所述文本矩阵的所述潜在卷积输出和所述全量卷积输出进行叠加计算,得到每一所述中文文本的命名实体输出;
采用卷积神经网络对每一所述中文文本的所述命名实体输出进行学习,得到中文命名实体识别模型。
一种文本模型训练装置,包括:
文本矩阵获取模块,用于获取N个中文文本,将每一所述中文文本中的每一中文文字进行特征提取,得到每一所述中文文本的文本矩阵,其中,N为正整数;
命名对象获取模块,用于采用词典匹配的方法确定每一所述文本矩阵的潜在命名对象;
卷积输出获取模块,用于对每一所述文本矩阵进行卷积操作,得到全量卷积输出,并对每一所述文本矩阵的潜在命名对象进行卷积操作,得到潜在卷积输出;
命名实体输出获取模块,用于将每一所述文本矩阵的所述潜在卷积输出和所述全量卷积输出进行叠加计算,得到每一所述中文文本的命名实体输出;
中文命名实体识别模型获取模块,用于采用卷积神经网络对每一所述中文文本的所述命名实体输出进行学习,得到中文命名实体识别模型。
一种文本识别方法,包括:
获取待识别的中文文本信息,将所述待识别的中文文本信息输入到所述的文本模型训练方法得到的中文命名实体识别模型进行命名实体识别,预测所述待识别的中文文本信息的每一分词的命名概率;
选取命名概率大于或者等于概率阈值的分词作为中文命名实体。
一种文本识别装置,包括:
命名概率获取模块,用于获取待识别的中文文本信息,将所述待识别的中文文本信息输入到所述的文本模型训练方法得到的中文命名实体识别模型进行命名实体识别,预测所述待识别的中文文本信息的每一分词的命名概率;
中文命名实体识别模块,用于选取命名概率大于或者等于概率阈值的分词作为中文命名实体。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述文本模型训练方法,或者,所述处理器执行所述计算机程序时实现上述文本识别方法。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述文本模型训练方法,或者,所述处理器执行所述计算机程序时实现上述文本识别方法。
上述文本模型训练方法、装置、设备及介质中,首先获取中文文本,将中文文本中的每一中文文字进行特征提取,得到文本矩阵。然后采用词典匹配的方法确定文本矩阵的潜在命名对象,能够实现中文命名实体消歧,进而提升后续中文命名实体识别的准确率。接着对文本矩阵进行卷积操作,得到全量卷积输出,并对潜在命名对象进行卷积操作,得到潜在卷积输出,有利于增加神经网络的深度,使得中文文本的文本矩阵以及潜在命名对象对应的特征矩阵该神经网络中具有更好的表达。接下来将潜在卷积输出和全量卷积输出进行叠加计算,得到命名实体输出,充分考虑了潜在命名对象对中文命名实体识别的消除歧义的作用,以使命名实体输出信息更为全面丰富。最后,采用卷积神经网络对命名实体输出进行学习,得到中文命名实体识别模型,提高了中文命名实体识别模型的识别准确率。
上述文本识别方法、装置、设备及介质中,获取待识别的中文文本信息,将待识别的中文文本信息输入到采用文本模型训练方法得到的中文命名实体识别模型,预测待识别的中文文本信息的每一分词的命名概率高了待识别的中文文本信息的每一分词的命名概率的准确率。选取命名概率大于或者等于概率阈值的分词作为中文命名实体,提高了中文命名实体的识别准确率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的文本模型训练方法的应用环境示意图;
图2是本发明实施例提供的文本模型训练方法一示例图;
图3是本发明实施例提供的文本模型训练方法的另一示例图;
图4是本发明实施例提供的文本模型训练方法的另一示例图;
图5是本发明实施例提供的文本模型训练方法的另一示例图;
图6是本发明实施例提供的文本模型训练装置的一原理框图;
图7是本发明实施例提供的文本模型训练装置的另一原理框图;
图8是本发明实施例提供的文本识别方法一示例图;
图9是本发明实施例提供的文本识别装置的一原理框图;
图10是本发明实施例提供的计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请提供的文本模型训练方法,可应用在如图1的应用环境中,其中,客户端通过网络与服务端进行通信,服务端接收客户端发送的中文文本,提取该中文文本中的每一中文文字进行特征,得到文本矩阵。然后采用词典匹配的方法确定文本矩阵的潜在命名对象,进而对文本矩阵和潜在命名对象分别进行卷积操作,叠加计算二者的卷积输出结果后,得到命名实体输出。最后采用卷积神经网络对命名实体输出进行学习,得到中文命名实体识别模型。其中,客户端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,以该方法应用于图1中的服务端为例进行说明,包括如下步骤:
S10:获取N个中文文本,将每一中文文本中的每一中文文字进行特征提取,得到每一中文文本的文本矩阵,其中,N为正整数。
其中,中文文本包括中文自然语言的文字、词语或者语句,如“上海市环球金融中心建成”。可以理解地,中文文本是由一个个中文文字组成。特征提取是指提取能够描述每个文字信息的特征,可选地,对每个文字进行特征提取可以是投影归一化的特征提取方法,也可以是矩技术的特征提取方法。
文本矩阵是指对中文文本的特征进行描述的矩阵,用于简化中文文本的特征描述。具体地,首先对中文文本进行文字定位,对中文文本中的每一个文字进行文字轮廓特征提取,从而得到中文文本中的每一个中文文字对应的多维特征向量,然后将每一个中文文字对应的多维特征向量合并成一个矩阵,从而将中文文本转换为文本矩阵。本实施例中,获了N个中文文本后,将每一中文文本中的每一中文文字进行特征提取,得到N个文本矩阵。以便后续对根据文本矩阵对中文文本进行进一步处理。并且,中文文本是用于进行训练学习的样本,N为中文文本的数量,可以理解地,N的数量越多,后续模型训练的准确度也越高。
在一具体实施方式中,对中文文本“上海市环球金融中心建成”提取投影归一化特征,其中的投影归一化特征是通过对中文文本进行横向扫描和纵向扫描生成行投影向量和列投影向量,并对行投影向量和列投影向量进行归一化处理后得到的特征,在投影归一化过程中,若使用M维向量进行归一化,则每一个字都是一个M维向量,那么该中文文本的文本矩阵为M×11维的矩阵(其中的文本矩阵列数11即为文本中中文文字的个数),其中,M为正整数。
S20:采用词典匹配的方法确定每一文本矩阵的潜在命名对象。
其中,词典匹配方法是指按照预设的规则将待分析的汉字串与大机器词典中的词条进行匹配,若在该大机器词典中找到某个字符串,即匹配成功,该字符串对应的特征矩阵即可作为潜在命名对象。其中,潜在命名对象是指文本矩阵中待挖掘的文本特征矩阵组成的所有命名实体。词典匹配的方法包括但不限于基于词格(Lattice)结构的词典匹配方法、基于最长词优先的词典匹配方法和基于规则的词典匹配方法。其中,词格结构的词典匹配算法是指词典为词格结构的大机器词典,将文本矩阵中的所有不同的汉字串的对应的特征构成的词序列与词格结构的大机器词典进行匹配的方法,其中的词格结构的大机器词典是包含所有可能字符串流向的有序字符组合,用于进行词条搜索匹配的词典。该方法对于文本矩阵的对应的矩阵维数的增加具有较强的鲁棒性,并且选择词典单词的自由度较大,提高了潜在命名对象的完整度。优选地,本实施例中采用基于词格结构的词典匹配算法。
具体地,对文本矩阵中按照预设的规则进行词典匹配,得到潜在命名对象。继续以步骤S10中的中文文本“上海市环球金融中心建成”为例,可以理解地,该中文文本包括将“上海市”(地名)与“环球金融中心”(机构名)这两个中文命名实体。该文本矩阵进行词典匹配后,得到的潜在命名对象包括“上海市”、“金融中心”和“环球金融中心”等,因此通过采用词典匹配的方法确定文本矩阵的潜在命名对象,能够实现中文命名实体消歧,进而提升后续中文命名实体识别的准确率。
本实施例中,由于中文命名实体存在歧义,导致实体边界可能并不准确。而进行词典匹配后的文本对应的特征矩阵则记录有更多潜在命名实体信息,因此能够提升命名实体识别的准确率。
S30:对每一文本矩阵进行卷积操作,得到全量卷积输出,并对每一文本矩阵的潜在命名对象进行卷积操作,得到潜在卷积输出。
其中,卷积操作是指深度卷积神经的卷积操作,例如,有一个5x5的文本矩阵,采用一个3x3的卷积核
Figure BDA0001896201200000081
来对文本矩阵进行卷积操作,即通过一个滑动窗口,把卷积核与对应的文本矩阵的元素做乘积然后求和,得到了3x3的卷积结果,该过程相当于使用一个过滤器(卷积核)来过滤文本矩阵对应的图像的各个小区域,从而得到这些小区域的特征值。需要说明的是,在实际训练过程中,卷积核的值是在学习过程中学到的。可以理解地,每个卷积核代表了一种图像模式,如果某个图像块与此卷积核卷积出的值大,则认为此图像块十分接近于此卷积核。如果设计了6个卷积核,则对应的图像上有6种底层纹理模式,即通过6种基础模式就能描绘出一副图像(中文文本的图像)。其中,全量卷积输出是指对文本矩阵进行卷积操作的卷积结果。潜在卷积输出是指对潜在命名对象进行卷积操作的卷积结果。可以理解地,文本矩阵的数量为N个,全量卷积输出的数量也为N。同时,文本矩阵的潜在命名对象的数量为N个,则潜在卷积输出的数量也为N个。
需要说明的是,本实施例中对文本矩阵和潜在命名对象进行卷积操作方法的方法一致,因此,关于对潜在命名对象进行卷积操作的方法此处不再赘述。
本实施例中,通过对文本矩阵和潜在命名对象进行卷积操作进行卷积操作,有利于增加神经网络的深度,使得中文文本的文本矩阵以及潜在命名对象对应的特征矩阵在神经网络中具有更好的表达,提高了后续中文命名实体识别模型的识别准确度。
S40:将每一文本矩阵的潜在卷积输出和全量卷积输出进行叠加计算,得到每一中文文本的命名实体输出。
其中,叠加计算是将矩阵对应位置的元素进行求和得到一个新矩阵的运算。本实施例中,是指将潜在卷积输出的矩阵和全量卷积输出的矩阵进行叠加运算,得到命名实体输出。例如,潜在卷积输出的矩阵为
Figure BDA0001896201200000091
全量卷积输出的矩阵为
Figure BDA0001896201200000092
全量卷积输出为
Figure BDA0001896201200000093
可以理解地,由于全量卷积输出和潜在卷积输出的数量为N,需要进行N次叠加计算,进而得到N个命名实体输出。本实施例中将潜在卷积输出和全量卷积输出进行叠加计算,得到命名实体输出。充分考虑了潜在命名对象对中文命名实体识别的消除歧义的作用,以使命名实体输出信息更为全面丰富。
S50:采用卷积神经网络对每一中文文本的命名实体输出进行学习,得到中文命名实体识别模型。
具体地,将命名实体输出输入到卷积神经网络进行深度学习,即首先将命名实体输出,单独进行逐行卷积操作后,然后对操作后的结果通过激活函数激活,得到中文命名实体识别模型。本实施例中,由于中文命名实体输出信息丰富全面,且能够消除歧义,从而使得中文命名实体识别模型的识别准确率得以提高。
本实施例中,首先获取中文文本,将中文文本中的每一中文文字进行特征提取,得到文本矩阵。然后采用词典匹配的方法确定文本矩阵的潜在命名对象,能够实现中文命名实体消歧,进而提升后续中文命名实体识别的准确率。接着对文本矩阵进行卷积操作,得到全量卷积输出,并对潜在命名对象进行卷积操作,得到潜在卷积输出,有利于增加神经网络的深度,使得中文文本的文本矩阵以及潜在命名对象对应的特征矩阵该神经网络中具有更好的表达。接下来将潜在卷积输出和全量卷积输出进行叠加计算,得到命名实体输出,充分考虑了潜在命名对象对中文命名实体识别的消除歧义的作用,以使命名实体输出信息更为全面丰富。最后,采用卷积神经网络对命名实体输出进行学习,得到中文命名实体识别模型,提高了中文命名实体识别模型的识别准确率。
在一实施例中,如图3所示,步骤S20中,采用词典匹配的方法确定每一文本矩阵的潜在命名对象,具体包括以下步骤:
S21:将文本矩阵输入词格结构,得到文本矩阵的词格结构的信息流。
其中,词格结构即Lattice结构,是一种用于对文本矩阵的命名实体识别置信度进行估计的中间输出结构。具体地,将文本矩阵作为词格结构的输入,词格结构通过对文本矩阵的每一文字进行路径规划,得到文本矩阵的词格结构的信息流,由于Lattice结构中的文字流向词语会有大量的(指数级)路径,信息流是指从文本矩阵开始流向文本矩阵结尾的路径的总和。相比于基于字粒度的方法,Lattice结构的信息流能够更好的利用文本矩阵以及文本矩阵序列的信息。从而根据文本矩阵的Lattice结构的信息流,避免了分词带来的错误。
S22:根据信息流计算文本矩阵的每一文字的词性概率。
具体地,以Lattice结构中的信息流对应的连接弧作为计算单元,通过预设的路径评分表给每一连接弧评分,该路径评分表是用于对每个连接弧根据其置信度赋予的分值,其中,如1分,2分……10分等,且分值越高,其置信度也越高。通过加权平均的计算方法计算Lattice结构中每个连接弧的每一文字的词性概率。具体地,可以采用下述公式进行计算:
Figure BDA0001896201200000111
式中,p为计算得到的词性概率,m为词性种类的数量,xk为某一连接弧为第k种词性的分数,xmax为预设的路径评分表中的最高分值。
其中,词性概率是度量该词语在Lattice结构中处于文字位置的概率,包括词首概率、词中概率和词尾概率,例如,中文文本为中文文本“上海市环球金融中心建成”,在该文本矩阵的信息流中,通过加权平均的计算方法计算Lattice结构中每个弧的每一文字的词性概率,得到文字“上”、“环”和“建”的词首概率均大于92%,文字“市”、“心”和“成”的词尾概率均大于93%,其余文字的词中概率均大于89%。
S23:基于文本矩阵的每一文字的词性概率对文本矩阵进行匹配,获取潜在命名对象。
具体地,根据文本矩阵的每一文字的词性概率对文本矩阵进行匹配,即依据每个文字的词性概率大小确定文本特征的命名实体边界,从而得到潜在命名对象。继续以步骤S22中的中文文本为例,根据文本矩阵的每一文字的词性概率对文本矩阵进行匹配,获取潜在命名对象为“上海市”、“金融中心”和“环球金融中心”等。
本实施例中,由于中文命名实体存在歧义,实体边界可能并不准确。而根据文本矩阵的每一文字的词性概率对文本矩阵进行匹配后,能够获取更多潜在命名对象的信息,以便后续潜在命名对象实现消歧的效果。因此能够提升命名实体识别的准确率,并且通过Lattice结构提高了搜索匹配的效率。
本实施例中,首先将文本矩阵输入词格结构,得到文本特征的词格结构的信息流。然后根据信息流计算文本矩阵的每一文字的词性概率。最后基于文本矩阵的每一文字的词性概率对文本矩阵进行匹配,获取潜在命名对象,获取了更多潜在命名对象的信息,因此能够提升命名实体识别的准确率,并且通过Lattice结构提高了搜索匹配的效率。
在一实施例中,如图4所示,步骤S30中,对每一文本矩阵进行卷积操作,得到全量卷积输出,具体包括如下步骤:
S31:将文本矩阵作为卷积神经网络VGGNet的输入样本进行第一层卷积运算,得到第一特征图。
其中,卷积神经网络VGGNet是深度卷积神经网络,卷积神经网络VGGNet能够使用很小的卷积(3*3)增加网络深度,可以有效提升模型的效果,而且卷积神经网络VGGNet对其他数据集具有很好的泛化能力。
具体地,将文本矩阵进行标准化处理后,代入到卷积神经网络VGGNet的第一层卷积网络中进行卷积计算,其中,输入样本的图像大小是112×112像素,层叠卷积层网络结构由三层卷积层组成,并分别为三层卷积层设置不同尺度的视觉感知范围,当3个卷积层分别一层一层重叠了3个3x3卷积层(层与层之间有非线性激活函数)。在这个排列下,第一个卷积层中的每个神经元都对输入样本有一个3x3的视野。例如,三层卷积层分别是A、B和C,每层对应的视觉感知范围分别为3×3、5×5和7×7的卷积核,卷积核的单位为像素点。
S22:将第一特征图输入到卷积神经网络VGGNet的第二层卷积网络中,并进行卷积计算,得到第二特征图。
具体地,第二层卷积神经网络上的神经元对第一层卷积神经网络有一个5x5的视野,也就是对输入第一特征图有5x5的视野。
S33:将第二特征图输入到卷积神经网络VGGNet的第三层卷积网络中进行卷积计算,得到第三特征图。
具体地,在第三层卷积神经网络上的神经元对第二层卷积神经网络有7x7的视野,也就是对输入第二特征图有7x7的视野。假设不采用这3个3x3的卷积层,而是使用一个单独的有7x7的感受野的卷积层,那么所有神经元的感受野也是7x7。
多个卷积层与非线性的激活层交替的结构,比单一卷积层的结构更能提取出深层的更好的特征。可以表达出文本矩阵中的更多个强力特征。
S34:将第三特征图输入到卷积神经网络VGGNet的回归层,采用ReLU函数对卷积输出进行激活,得到全量卷积输出。
具体地,将第三特征图输入到卷积神经网络VGGNet的回归层中,在第三特征图的每个位置上取预设维度(如3*3*C)的窗口的特征,这些特征将用于预测该位置对应的类别信息(如中文命名实体和非命名实体)和位置信息,且回归出来的矩形区域宽度是一定的,使得全量卷积输出更为准确。
本实施例中,将文本矩阵作为卷积神经网络VGGNet的输入进行第一层卷积运算,得到第一特征图。然后将第一特征图输入到卷积神经网络VGGNet的第二层卷积网络中,并进行卷积计算,得到第二特征图。接着,将第二特征图输入到卷积神经网络VGGNet的第三层卷积网络中进行卷积计算,得到第三特征图。最后,将第三特征图输入到卷积神经网络VGGNet的回归层,得到全量输出。通过使用卷积神经网络VGGNet对文本矩阵进行卷机操作,使得全量卷积输出更为准确。
在一实施例中,如图5所示,步骤S50中,采用卷积神经网络对每一中文文本的命名实体输出进行学习,得到中文命名实体识别模型,具体包括如下步骤:
S51:将每一中文文本的命名实体输出进行逐行卷积操作,得到卷积结果。
其中,卷积结果是指对命名实体输出对应的矩阵的每一行进行卷积操作后得到结果。
S52:采用激励层函数激活卷积结果,获取中文命名实体识别模型。
其中,激励层(The Rectified Linear Unit,ReLU)函数把卷积层输出结果做非线性映射,用于加快模型的收敛速度。具体地,采用激励层函数激活卷积结果,即可确定中文命名实体识别模型的参数,从而得到中文命名实体识别模型。通过采用激励层函数激活卷积结果,获取中文命名实体识别模型,加快了中文命名实体识别模型的收敛速度,提高了中文命名实体识别模型性能。
本实施例中,将命名实体输出进行逐行卷积操作,得到卷积结果。采用激励层函数激活卷积结果,获取中文命名实体识别模型,加快了中文命名实体识别模型的收敛速度,提高了中文命名实体识别模型性能。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种文本模型训练装置,该文本模型训练装置与上述实施例中文本模型训练方法一一对应。如图6所示,该文本模型训练装置包括文本矩阵获取模块10、命名对象获取模块20、卷积输出获取模块30、命名实体输出获取模块40和中文命名实体识别模型获取模块50。各功能模块详细说明如下:
文本矩阵获取模块10,用于获取N个中文文本,将每一中文文本中的每一中文文字进行特征提取,得到每一中文文本的文本矩阵,其中,N为正整数;
命名对象获取模块20,用于采用词典匹配的方法确定每一文本矩阵的潜在命名对象;
卷积输出获取模块30,用于对每一文本矩阵进行卷积操作,得到全量卷积输出,并对每一文本矩阵的潜在命名对象进行卷积操作,得到潜在卷积输出;
命名实体输出获取模块40,用于将每一文本矩阵的潜在卷积输出和全量卷积输出进行叠加计算,得到每一中文文本的命名实体输出;
中文命名实体识别模型获取模块50,用于采用卷积神经网络对每一中文文本的命名实体输出进行学习,得到中文命名实体识别模型。
优选地,如图7所示,命名对象获取模块20包括信息流获取单元21、词性概率获取单元22和命名对象获取单元23。
信息流获取单元21,用于将文本矩阵输入词格结构,得到文本矩阵的词格结构的信息流;
词性概率获取单元22,用于根据信息流计算文本矩阵的每一文字的词性概率;
命名对象获取单元23,用于基于文本矩阵的每一文字的词性概率对文本矩阵进行匹配,获取潜在命名对象。
优选地,卷积输出获取模块30包括第一特征图计算单元、第二特征图计算单元、第三特征图计算单元和全量卷积输出获取单元。
第一特征图计算单元,用于将文本矩阵作为卷积神经网络VGGNet的输入样本进行第一层卷积运算,得到第一特征图;
第二特征图计算单元,用于将第一特征图输入到卷积神经网络VGGNet的第二层卷积网络中,并进行卷积计算,得到第二特征图;
第三特征图计算单元,用于将第二特征图输入到卷积神经网络VGGNet的第三层卷积网络中进行卷积计算,得到第三特征图;
全量卷积输出获取单元,用于将第三特征图输入到卷积神经网络VGGNet的回归层,采用ReLU函数对卷积输出进行激活,得到全量卷积输出。
优选地,命名实体输出获取模块包括卷积结果获取单元和命名实体识别模型获取单元。
卷积结果获取单元,用于将每一中文文本的命名实体输出进行逐行卷积操作,得到卷积结果;
命名实体识别模型获取单元,用于采用激励层函数激活卷积结果,获取中文命名实体识别模型。
在一实施例中,提供一中文命名实体识别方法,该中文命名实体识别方法也可以应用在如图1的应用环境中,其中,客户端通过网络与服务端进行通信。服务端接收客户端发送的待识别的中文文本信息,通过中文命名实体识别模型对待识别的中文文本信息进行识别,得到中文命名实体。其中,客户端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图8所示,以该方法应用于图1中的服务端为例进行说明,包括如下步骤:
S60:获取待识别的中文文本信息,将待识别的中文文本信息输入到采用文本模型训练方法得到的中文命名实体识别模型进行命名实体识别,预测待识别的中文文本信息的每一分词的命名概率。
其中,待识别的中文文本信息是指需要进行中文命名实体识别的信息,用于作为中文命名实体识别模型进行实体命名识别的文本信息。命名概率是指中文命名实体识别模型预测的每个分词所属类型的概率。可以理解地,采用上述实施例中的文本模型训练方法得到的中文命名实体识别模型将能够预测每个分词的所属类别的概率,其中,所属类别包括命名实体类别和非命名实体类别两类。由于该中文命名实体识别模型的识别准确度高,因此,通过该中文命名实体识别模型,提高了待识别的中文文本信息的每一分词的命名概率的准确率。
S70:选取命名概率大于或者等于概率阈值的分词作为中文命名实体。
其中,概率阈值是用于确定命名概率对应的分词为中文命名实体的最小命名概率值。当命名概该率大于概率阈值时,命名概率对应的分词确定为中文命名实体。本实施例通过将预测得到的命名概率与阈值概率进行比较,并将命名概率大于或者等于概率阈值的分词作为中文命名实体,提高了中文命名实体的识别准确率。
本实施例中,获取待识别的中文文本信息,将待识别的中文文本信息输入到采用文本模型训练方法得到的中文命名实体识别模型,预测待识别的中文文本信息的每一分词的命名概率高了待识别的中文文本信息的每一分词的命名概率的准确率。选取命名概率大于或者等于概率阈值的分词作为中文命名实体,提高了中文命名实体的识别准确率。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种文本识别装置,该文本识别装置与上述实施例中文本识别方法一一对应。如图9所示,该文本识别装置包括命名概率获取模块60和中文命名实体识别模块70。各功能模块详细说明如下:
命名概率获取模块60,用于获取待识别的中文文本信息,将待识别的中文文本信息输入到采用文本模型训练方法得到的中文命名实体识别模型进行命名实体识别,预测待识别的中文文本信息的每一分词的命名概率;
中文命名实体识别模块70,用于选取命名概率大于或者等于概率阈值的分词作为中文命名实体。
关于文本模型训练装置的具体限定可以参见上文中对于文本模型训练方法的限定,在此不再赘述。上述文本模型训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储中文文本和和待识别的中文文本信息。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本模型训练方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
获取N个中文文本,将每一所述中文文本中的每一中文文字进行特征提取,得到每一所述中文文本的文本矩阵,其中,N为正整数;
采用词典匹配的方法确定每一所述文本矩阵的潜在命名对象;
对每一所述文本矩阵进行卷积操作,得到全量卷积输出,并对每一所述文本矩阵的潜在命名对象进行卷积操作,得到潜在卷积输出;
将每一所述文本矩阵的所述潜在卷积输出和所述全量卷积输出进行叠加计算,得到每一所述中文文本的命名实体输出;
采用卷积神经网络对每一所述中文文本的所述命名实体输出进行学习,得到中文命名实体识别模型。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取N个中文文本,将每一所述中文文本中的每一中文文字进行特征提取,得到每一所述中文文本的文本矩阵,其中,N为正整数;
采用词典匹配的方法确定每一所述文本矩阵的潜在命名对象;
对每一所述文本矩阵进行卷积操作,得到全量卷积输出,并对每一所述文本矩阵的潜在命名对象进行卷积操作,得到潜在卷积输出;
将每一所述文本矩阵的所述潜在卷积输出和所述全量卷积输出进行叠加计算,得到每一所述中文文本的命名实体输出;
采用卷积神经网络对每一所述中文文本的所述命名实体输出进行学习,得到中文命名实体识别模型。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (9)

1.一种文本模型训练方法,其特征在于,所述文本模型训练方法包括:
获取N个中文文本,将每一所述中文文本中的每一中文文字进行特征提取,得到每一所述中文文本的文本矩阵,其中,N为正整数;
采用词典匹配的方法确定每一所述文本矩阵的潜在命名对象;
对每一所述文本矩阵进行卷积操作,得到全量卷积输出,并对每一所述文本矩阵的潜在命名对象进行卷积操作,得到潜在卷积输出;
将每一所述文本矩阵的所述潜在卷积输出和所述全量卷积输出进行叠加计算,得到每一所述中文文本的命名实体输出;
采用卷积神经网络对每一所述中文文本的所述命名实体输出进行学习,得到中文命名实体识别模型;
所述对每一所述文本矩阵进行卷积操作,得到全量卷积输出,包括:
将所述文本矩阵作为卷积神经网络VGGNet的输入样本进行第一层卷积运算,得到第一特征图;
将所述第一特征图输入到卷积神经网络VGGNet的第二层卷积网络中,并进行卷积计算,得到第二特征图;
将所述第二特征图输入到卷积神经网络VGGNet的第三层卷积网络中进行卷积计算,得到第三特征图;
将所述第三特征图输入到卷积神经网络VGGNet的回归层,采用ReLU函数对卷积输出进行激活,得到所述全量卷积输出。
2.如权利要求1所述的文本模型训练方法,其特征在于,所述采用词典匹配的方法确定每一所述文本矩阵的潜在命名对象,包括:
将所述文本矩阵输入词格结构,得到所述文本矩阵的词格结构的信息流;
根据信息流计算所述文本矩阵的每一文字的词性概率;
基于所述文本矩阵的每一文字的词性概率对所述文本矩阵进行匹配,获取所述潜在命名对象。
3.如权利要求1所述的文本模型训练方法,其特征在于,所述采用卷积神经网络对每一所述中文文本的命名实体输出进行学习,得到中文命名实体识别模型,包括:
将每一所述中文文本的命名实体输出进行逐行卷积操作,得到卷积结果;
采用激励层函数激活所述卷积结果,获取所述中文命名实体识别模型。
4.一种文本识别方法,其特征在于,所述文本识别方法包括:
获取待识别的中文文本信息,将所述待识别的中文文本信息输入到采用如权利要求1-3任一项所述的文本模型训练方法得到的中文命名实体识别模型进行命名实体识别,预测所述待识别的中文文本信息的每一分词的命名概率;
选取命名概率大于或者等于概率阈值的分词作为中文命名实体。
5.一种文本模型训练装置,其特征在于,所述文本模型训练装置包括:
文本矩阵获取模块,用于获取N个中文文本,将每一所述中文文本中的每一中文文字进行特征提取,得到每一所述中文文本的文本矩阵,其中,N为正整数;
命名对象获取模块,用于采用词典匹配的方法确定每一所述文本矩阵的潜在命名对象;
卷积输出获取模块,用于对每一所述文本矩阵进行卷积操作,得到全量卷积输出,并对每一所述文本矩阵的潜在命名对象进行卷积操作,得到潜在卷积输出;
命名实体输出获取模块,用于将每一所述文本矩阵的所述潜在卷积输出和所述全量卷积输出进行叠加计算,得到每一所述中文文本的命名实体输出;
中文命名实体识别模型获取模块,用于采用卷积神经网络对每一所述中文文本的所述命名实体输出进行学习,得到中文命名实体识别模型;
所述卷积输出获取模块,包括:
第一特征图计算单元,用于将文本矩阵作为卷积神经网络VGGNet的输入样本进行第一层卷积运算,得到第一特征图;
第二特征图计算单元,用于将第一特征图输入到卷积神经网络VGGNet的第二层卷积网络中,并进行卷积计算,得到第二特征图;
第三特征图计算单元,用于将第二特征图输入到卷积神经网络VGGNet的第三层卷积网络中进行卷积计算,得到第三特征图;
全量卷积输出获取单元,用于将第三特征图输入到卷积神经网络VGGNet的回归层,采用ReLU函数对卷积输出进行激活,得到全量卷积输出。
6.如权利要求5所述的文本模型训练装置,其特征在于,所述命名对象获取模块,包括:
信息流获取单元,用于将所述文本矩阵输入词格结构,得到所述文本矩阵的词格结构的信息流;
词性概率获取单元,用于根据信息流计算所述文本矩阵的每一文字的词性概率;
命名对象获取单元,用于基于所述文本矩阵的每一文字的词性概率对所述文本矩阵进行匹配,获取所述潜在命名对象。
7.一种文本识别装置,其特征在于,所述文本识别装置包括:
命名概率获取模块,用于获取待识别的中文文本信息,将所述待识别的中文文本信息输入到采用如权利要求1-3任一项所述的文本模型训练方法得到的中文命名实体识别模型进行命名实体识别,预测所述待识别的中文文本信息的每一分词的命名概率;
中文命名实体识别模块,用于选取命名概率大于或者等于概率阈值的分词作为中文命名实体。
8.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至3任一项所述文本模型训练方法,或者所述处理器执行所述计算机程序时实现如权利要求4所述的文本识别方法。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至3任一项所述文本模型训练方法,或者,所述计算机程序被处理器执行时实现如权利要求4所述的文本识别方法。
CN201811493269.2A 2018-12-07 2018-12-07 文本模型训练方法、文本识别方法、装置、设备及介质 Active CN109710924B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811493269.2A CN109710924B (zh) 2018-12-07 2018-12-07 文本模型训练方法、文本识别方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811493269.2A CN109710924B (zh) 2018-12-07 2018-12-07 文本模型训练方法、文本识别方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN109710924A CN109710924A (zh) 2019-05-03
CN109710924B true CN109710924B (zh) 2022-04-12

Family

ID=66255496

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811493269.2A Active CN109710924B (zh) 2018-12-07 2018-12-07 文本模型训练方法、文本识别方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN109710924B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111062385A (zh) * 2019-11-18 2020-04-24 上海眼控科技股份有限公司 一种用于图像文本信息检测的网络模型构建方法与系统
CN113449524B (zh) * 2021-04-01 2023-04-07 山东英信计算机技术有限公司 一种命名实体识别方法、系统、设备以及介质
CN113378572B (zh) * 2021-06-22 2023-11-10 云知声智能科技股份有限公司 一种命名实体识别方法、装置、电子设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104572625A (zh) * 2015-01-21 2015-04-29 北京云知声信息技术有限公司 命名实体的识别方法
CN104933152A (zh) * 2015-06-24 2015-09-23 北京京东尚科信息技术有限公司 命名实体识别方法及装置
WO2018028077A1 (zh) * 2016-08-11 2018-02-15 中兴通讯股份有限公司 一种基于深度学习的中文语义分析的方法及装置
CN108829681A (zh) * 2018-06-28 2018-11-16 北京神州泰岳软件股份有限公司 一种命名实体提取方法及装置
CN108920460A (zh) * 2018-06-26 2018-11-30 武大吉奥信息技术有限公司 一种多类型实体识别的多任务深度学习模型的训练方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104572625A (zh) * 2015-01-21 2015-04-29 北京云知声信息技术有限公司 命名实体的识别方法
CN104933152A (zh) * 2015-06-24 2015-09-23 北京京东尚科信息技术有限公司 命名实体识别方法及装置
WO2018028077A1 (zh) * 2016-08-11 2018-02-15 中兴通讯股份有限公司 一种基于深度学习的中文语义分析的方法及装置
CN108920460A (zh) * 2018-06-26 2018-11-30 武大吉奥信息技术有限公司 一种多类型实体识别的多任务深度学习模型的训练方法及装置
CN108829681A (zh) * 2018-06-28 2018-11-16 北京神州泰岳软件股份有限公司 一种命名实体提取方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于CNN-BLSTM-CRF模型的生物医学命名实体识别;李丽双等;《中文信息学报》;20180131;第32卷(第1期);第116-122页 *

Also Published As

Publication number Publication date
CN109710924A (zh) 2019-05-03

Similar Documents

Publication Publication Date Title
CN109241903B (zh) 样本数据清洗方法、装置、计算机设备及存储介质
CN109241904B (zh) 文字识别模型训练、文字识别方法、装置、设备及介质
CN109960726B (zh) 文本分类模型构建方法、装置、终端及存储介质
CN110457431B (zh) 基于知识图谱的问答方法、装置、计算机设备和存储介质
CN110334179B (zh) 问答处理方法、装置、计算机设备和存储介质
CN108509596B (zh) 文本分类方法、装置、计算机设备和存储介质
WO2020248581A1 (zh) 图数据识别方法、装置、计算机设备和存储介质
CN108427707B (zh) 人机问答方法、装置、计算机设备和存储介质
CN109522393A (zh) 智能问答方法、装置、计算机设备和存储介质
CN109710924B (zh) 文本模型训练方法、文本识别方法、装置、设备及介质
US20210390370A1 (en) Data processing method and apparatus, storage medium and electronic device
CN110610154A (zh) 行为识别方法、装置、计算机设备和存储介质
CN109523014B (zh) 基于生成式对抗网络模型的新闻评论自动生成方法及系统
WO2021114620A1 (zh) 病历质控方法、装置、计算机设备和存储介质
CN113435594B (zh) 安防检测模型训练方法、装置、设备及存储介质
CN109977394B (zh) 文本模型训练方法、文本分析方法、装置、设备及介质
CN113297366B (zh) 多轮对话的情绪识别模型训练方法、装置、设备及介质
CN113641767B (zh) 实体关系抽取方法、装置、设备及存储介质
CN111598087A (zh) 不规则文字的识别方法、装置、计算机设备及存储介质
CN111444906B (zh) 基于人工智能的图像识别方法和相关装置
CN111832581A (zh) 肺部特征识别方法、装置、计算机设备及存储介质
CN113836192B (zh) 平行语料的挖掘方法、装置、计算机设备及存储介质
CN111666931A (zh) 基于混合卷积文字图像识别方法、装置、设备及存储介质
CN114821736A (zh) 基于对比学习的多模态人脸识别方法、装置、设备及介质
CN113486175B (zh) 文本分类方法、文本分类装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant