CN108920460A - 一种多类型实体识别的多任务深度学习模型的训练方法及装置 - Google Patents
一种多类型实体识别的多任务深度学习模型的训练方法及装置 Download PDFInfo
- Publication number
- CN108920460A CN108920460A CN201810669851.3A CN201810669851A CN108920460A CN 108920460 A CN108920460 A CN 108920460A CN 201810669851 A CN201810669851 A CN 201810669851A CN 108920460 A CN108920460 A CN 108920460A
- Authority
- CN
- China
- Prior art keywords
- entity
- character
- layer
- data
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本发明适用于数据抽取技术领域,提供一种多类型实体识别的多任务深度学习模型的训练方法及装置,所述方法包括:数据预处理;建立skip‑gram神经网络模型将预处理后的文本语料数据转为向量;根据要识别和提取的实体类型构建样本数据集;构建样本数据的分词特征;建立多类型实体识别的多任务深度学习模型。本发明中,相关类型的实体采用参数共享的方式实现共同特征的提取,又使用独立的模型完成实体的标注,使得模型对于一个文本数据的多种实体识别和提取有更好的泛化能力,即实体识别的整体正确性得到提升;另外,本发明只训练一个模型,在一次迭代过程中共同特征只用训练一次,可以极大的缩减训练时间。
Description
技术领域
本发明属于数据抽取技术领域,尤其涉及一种多类型实体识别的多任务深度学习模型的训练方法及装置。
背景技术
实体识别和抽取是指从文本中识别和抽取具有特定意义的文字,主要包括人名、地名、机构名、专有名词等;不同类型的实体有两种情况,一种情况是指上述人名、地名等因其特点不同而属于不同类型的实体,另一种情况是同为人名或者同为地名等,但是依其不同的含义而作为不同类型的实体,一般在一段文本数据中不同类型的实体是普遍存在的,但是常规的实体识别工具或者方法只能按照字典将人名、地名、机构名识别出来,并且不能按照不同的含义再进一步的识别实体,如现有方法将识别的机构名称都标注为机构实体,但是不能按照机构的性质或者作用再做区分。
现有技术方案将提取实体作为结束条件,并且在同一个模型中同时提取所有类型的实体,在含有多种实体类型的文本数据中,尤其是含有近似或相关关系的实体类型的文本数据中,会导致在提取不同类型的实体时错误率增加。
另外,现有的技术方案采用每个类型的实体分别建立模型的识别和提取,又必然会导致模型的训练时间加长,并且会产生提取结果交叉错误。
目前广泛使用的实体提取方法是采用双向长短时记忆神经网络算法Bi-LSTM和条件随机场算法CRF结合的方法,该方法的过程为:首先,对于文本语料数据按字符进行实体标注作为训练模型的样本,并对字符层面的信息进行编码转换成字符向量;其次,将字符向量与词向量进行组合并作为输入传到Bi-LSTM神经网络来对每个单词的上下文信息进行建模;最后,在Bi-LSTM神经网络的输出端,利用连续的条件随机场来对整个句子进行标签解码,并标注句子中的实体;在这种训练过程中,由于实体类型多,并且有的实体类型之间存在相关性或者歧义性,模型会存在识别错误的问题,对于一个文本数据,其中的每个实体都识别对的正确性不高。本发明的目的就是要提高一个文本数据中所有类型实体识别和提取的整体准确性。
发明内容
鉴于上述问题,本发明的目的在于提供一种多类型实体识别的多任务深度学习模型的训练及方法装置,旨在解决现有数据无法深度抽取,并且数据抽取过程时间长,错误率高等技术问题。
本发明采用如下技术方案:
一方面,所述多类型实体识别的多任务深度学习模型的训练方法包括如下步骤:
步骤S1、数据预处理:将所有获取的文本语料数据按照需求进行数据清洗操作;
步骤S2、建立skip-gram神经网络模型将预处理后的文本语料数据转为向量;
步骤S3、根据要识别和提取的实体类型构建样本数据集,所述样本数据集分为训练集、验证集、测试集;
步骤S4、构建样本数据的分词特征:将预处理后的文本语料数据按照单个文本进行分词,并对每个词进行标注,作为语料的分词特征;
步骤S5、建立多类型实体识别的多任务深度学习模型。
进一步的,步骤S2具体过程如下:
利用skip-gram神经网络模型进行训练,得到一个固定的字符特征向量文件,文件命名为vocb,其中每个字符都根据语义转为相同长度的向量,所述向量的长度为char_dim。
进一步的,步骤S3中具体过程如下:
对于步骤S1中预处理后的语料数据按字符进行实体标注,并且对于不同类型的实体分别创建标注样本,假设有M种类型的实体,生成M份标注不同类型实体的标注样本,其中同一类型内的实体单元标注相同,标注完毕后按比例分割成训练集、验证集、测试集。
进一步的,步骤S3中所述“按字符进行实体标注”具体过程如下:
若一个文本字符串是一个实体,那么该文本字符串的开头字符标注为“B-实体类型名”,其它字符均标注为“I-实体类型名”,若一个文本字符串是一个实体,但是只有一个字符,那么标注为“S-实体类型名”,语料中不是实体的字符全部标注为“O”。
进一步的,步骤S4中所述分词特征,即对分词结果中的每个字符进行标注,若字符是所在分词的第一个字符,标注为“B”,若字符是所在分词的最后一个字符,标注为“E”,若字符是所在分词的中间字符,标注为“I”,若分词后只有一个单字符,那么这个字符标注为“S”,并且按照“B”“I”“O”“S”顺序分别编码成数值1,2,3,4。
进一步的,步骤S5具体过程如下:
步骤S5.1、建立输入层:训练样本中抽样选择n个样本,取字符长度最长的样本的长度max_len作为输入层的节点数量,样本长度不足的节点用“UNK”填充,那么输出到模型下一个层次的所有字符长度为n*max_len;
步骤S5.2、建立共享层:共享层指对于同一种类型的实体,其相关性或者相似性的特征在共享层中计算并体现,共享层分为2部分:
第一部分为向量计算层,计算方式为:获取输入层的样本字符,查找每个字符对应在步骤S4中的分词特征和步骤S2文件vocb中的字符向量,同时把分词特征映射表达成seg_dim维度的分词特征向量,每个字符的分词特征向量和字符向量顺序拼接,那么输出到空洞卷积层的单个字符的向量长度是char_dim+seg_dim,所有的输出样本表达成[n,max_len,char_dim+seg_dim]的3维度的空间向量;
第二部分为空洞卷积层,该层内部包含4个网络层,具体为3次空洞卷积操作层以及一个输出层,所述空洞卷积层的具体算法为获取上一层计算的样本3维度的空间向量,然后依次计算3次空洞卷积层,最后在输出层进行合并转成特征向量进入下一层;
步骤S5.3、建立多任务层:根据所要提取的实体类型数量M,本层需要进行M个并行任务,每个任务都采用独立的CRF算法,具体的,对于每个任务有以下计算步骤:
获取共享层输出的样本的特征向量,输入到CRF算法中,采用极大似然估计法估计每个字符分别属于“B”“I”“O”“S”4种标注的概率值;
同时从样本数据中取得对应该任务的实体类型的实际标注,计算损失函数值即loss值,损失函数值反映的是经过此次训练样本数据的实际值与估计值之间的误差的期望;
步骤S5.4、建立合并处理层:从多任务层获取的样本数据中每个字符属于“B”“I”“O”“S”4种标注的概率值和对应的实体类型合并后,每个字符有4*M个概率值,从中取最大的一种概率值作为最后的估计标注;将多任务层同时训练的每个任务的loss值相加,即为整个模型的loss值,标记为total_loss,两次任务total_loss值之间的差值趋近于0时终止任务,停止训练并保存模型,否则重新执行步骤S3至S5。
另一方面,所述多类型实体识别的多任务深度学习模型的训练装置包括:
数据处理单元,用于数据清洗:将获取所有的文本语料数据按照需求进行数据清洗;
转换单元,用于建立skip-gram神经网络模型将预处理后的文本语料数据转为向量;
样本数据构建单元,用于建立数据集:将要识别和提取的实体类型构建样本数据集;
分词单元:用于构建样本的分词特征:将预处理后的文本语料数据按照单个文本进行分词,并对每个词进行标注,作为语料的分词特征;
模型建立单元,用于建立多类型实体识别的多任务深度学习模型。
本发明的有益效果是:现对于现有技术,本发明采用多任务深度学习训练方法,建立多类型实体识别模型,以达到更精确的识别和提取实体的目的;本发明中,相关类型的实体采用参数共享的方式实现共同特征的提取,又使用独立的模型完成实体的标注,使得模型对于一个文本数据的多种实体识别和提取有更好的泛化能力,即实体识别的整体正确性得到提升;另外,本发明只训练一个模型,在一次迭代过程中共同特征只用训练一次,可以极大的缩减训练时间。
附图说明
图1是本发明实施例一提供的多类型实体识别的多任务深度学习模型的训练方法的流程图;
图2是本发明实施例一提供的实体标注样本数据图;
图3是本发明实施例二提供的多类型实体识别的多任务深度学习模型的训练装置图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
实施例一:
如图1所示,本发明实施例提供的多类型实体识别的多任务深度学习模型的训练方法包括如下步骤:
步骤S1、数据预处理:将所有获取的文本语料数据按照需求进行数据清洗操作;
步骤S1中预处理操作主要是将文本语料数据中无效的字符、空格、换行符等去掉,或者将网页来源文本语料数据的网页格式去掉等,从而净化文本数据。
步骤S2、建立skip-gram神经网络模型将预处理后的文本语料数据转为向量;
步骤S2的具体过程如下:
利用skip-gram神经网络模型进行训练,得到一个固定的字符特征向量文件,文件命名为vocb,其中每个字符都根据语义转为相同长度的向量,所述向量的长度为char_dim,这里的char_dim设置为100。
步骤S3、根据要识别和提取的实体类型构建样本数据集,所述样本数据集分为训练集、验证集、测试集;
步骤S3中具体过程如下:
对于步骤S1中预处理后的语料数据按字符进行实体标注,并且对于不同类型的实体分别创建标注样本,假设有M种类型的实体,生成M份标注不同类型实体的标注样本,其中同一类型内的实体单元标注相同,标注完毕后按比例分割成训练集、验证集、测试集。
如图2所示,所述步骤S3中“按字符进行实体标注”具体过程如下:
若一个文本字符串是一个实体,那么该文本字符串的开头字符标注为“B-实体类型名”,其它字符均标注为“I-实体类型名”,若一个文本字符串是一个实体,但是只有一个字符,那么标注为“S-实体类型名”,语料中不是实体的字符全部标注为“O”。
步骤S4、构建样本数据的分词特征:将预处理后的文本语料数据按照单个文本进行分词,并对每个词进行标注,作为语料的分词特征;
步骤S4中所述分词特征,即对分词结果中的每个字符进行标注,若字符是所在分词的第一个字符,标注为“B”,若字符是所在分词的最后一个字符,标注为“E”,若字符是所在分词的中间字符,标注为“I”,若分词后只有一个单字符,那么这个字符标注为“S”,并且按照“B”“I”“O”“S”顺序分别编码成数值1,2,3,4。
步骤S5、建立多类型实体识别的多任务深度学习模型。
多任务深度学习模型由数据输入层、共享层、多任务层、合并处理层构成;
步骤S5具体过程如下:
步骤S5.1、建立输入层:训练样本中抽样选择n个样本,取字符长度最长的样本的长度max_len作为输入层的节点数量,样本长度不足的节点用“UNK”填充,那么输出到模型下一个层次的所有字符长度为n*max_len;
步骤S5.2、建立共享层:共享层指对于同一种类型的实体,其相关性或者相似性的特征在共享层中计算并体现,共享层分为2部分:
第一部分为向量计算层,计算方式为:获取输入层的样本字符,查找每个字符对应在步骤S4中的分词特征和步骤S2文件vocb中的字符向量,同时把分词特征映射表达成seg_dim维度的分词特征向量,这里设置seg_dim的值为20,每个字符的分词特征向量和字符向量顺序拼接,那么输出到空洞卷积层的单个字符的向量长度是char_dim+seg_dim,所有的输出样本表达成[n,max_len,char_dim+seg_dim]的3维度的空间向量;
第二部分为空洞卷积层,该层内部包含4个网络层,具体为3次空洞卷积操作层以及一个输出层,3次卷积的空洞值分别取1,1,2,每层卷积核的大小都是3*3,每层卷积核的个数num_filter设置为100,所述空洞卷积层的具体算法为获取上一层计算的样本3维度的空间向量,然后依次计算3次空洞卷积层,最后在输出层进行合并转成特征向量进入下一层;
步骤S5.3、建立多任务层:根据所要提取的实体类型数量M,本层需要进行M个并行任务,每个任务都采用独立的CRF算法,具体的,对于每个任务有以下计算步骤:
获取共享层输出的样本的特征向量,输入到CRF算法中,采用极大似然估计法估计每个字符分别属于“B”“I”“O”“S”4种标注的概率值;
同时从样本数据中取得对应该任务的实体类型的实际标注,计算损失函数值即loss值,损失函数值反映的是经过此次训练样本数据的实际值与估计值之间的误差的期望;本发明采用空洞卷积神经网络和条件随机场相结合的算法实现了文本数据中的实体识别;
本方法中的深度学习模型采用空洞卷积神经网络IDCNN和条件随机场算法CRF相结合,实现文本数据中的实体识别,IDCNN模型是卷积神经网络的一种,可以用于自然语言处理中,但是IDCNN神经网络比普通的CNN更好的保存的原始数据的信息,CRF算法广泛应用于文本数据中的实体识别,将IDCNN和CRF相结合比单独使用其中一种方法识别和提取实体更有效。
步骤S5.4、建立合并处理层:从多任务层获取的样本数据中每个字符属于“B”“I”“O”“S”4种标注的概率值和对应的实体类型合并后,每个字符有4*M个概率值,从中取最大的一种概率值作为最后的估计标注;将多任务层同时训练的每个任务的loss值相加,即为整个模型的loss值,标记为total_loss,两次任务total_loss值之间的差值趋近于0时终止任务,停止训练并保存模型,否则重新执行步骤S3至S5。
在本方案中,采用了多任务学习和深度学习相结合的方法用于非结构化文本数据中的多类型的实体识别。
深度学习是一种对数据特征进行学习的方法,其中多隐含层的神经网络是一种深度学习的结构,它能解决自然语言处理领域nlp的大部分问题,如文本分类、实体识别等问题,多任务学习通过使用共享表示并行训练多个相关任务来完成目标,这个共享表示具有较强的抽象能力,能够适应多个不同但相关的目标,通常可以使主任务获得更好的泛化能力;此外,使用共享表示,多个任务同时进行预测时,减少了数据来源的数量以及整体模型参数的规模,使预测更加高效;因此在数据识别与抽取领域可以广泛使用;本发明将多任务学习与深度学习相结合应用于文本数据中的实体识别和抽取。
此外,若利用现有的技术方案对每个类型的实体分别建立模型识别和提取,又必然会导致模型的训练时间加长,且会产生提取结果交叉性错误,本发明只训练一个模型,在一次迭代过程中共同特征只用训练一次,可以极大的缩减训练时间。
实施例二:
如图3所示,本发明提供一种多类型实体识别的多任务深度学习模型的训练装置,用于完成本发明提供的多类型实体识别的多任务深度学习模型的训练方法,所述多类型实体识别的多任务深度学习模型的训练装置包括:
数据处理单元,用于数据清洗:将获取所有的文本语料数据按照需求进行数据清洗;
转换单元,用于建立skip-gram神经网络模型将预处理后的文本语料数据转为向量;
样本数据构建单元,用于建立数据集:将要识别和提取的实体类型构建样本数据集;
分词单元:用于构建样本的分词特征:将预处理后的文本语料数据按照单个文本进行分词,并对每个词进行标注,作为语料的分词特征;
模型建立单元,用于建立多类型实体识别的多任务深度学习模型。
本实施例提供的各个功能单元对应实现了实施例一中的步骤S1-S5,具体实现过程这里不再赘述。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种多类型实体识别的多任务深度学习模型的训练方法,其特征在于,所述方法包括下述步骤:
步骤S1、数据预处理:将所有获取的文本语料数据按照需求进行数据清洗操作;
步骤S2、建立skip-gram神经网络模型将预处理后的文本语料数据转为向量;
步骤S3、根据要识别和提取的实体类型构建样本数据集,所述样本数据集分为训练集、验证集、测试集;
步骤S4、构建样本数据的分词特征:将预处理后的文本语料数据按照单个文本进行分词,并对每个词进行标注,作为语料的分词特征;
步骤S5、建立多类型实体识别的多任务深度学习模型。
2.如权利要求1所述基于多任务深度学习提取多类型实体的方法,其特征在于,步骤S2具体过程如下:
利用skip-gram神经网络模型进行训练,得到一个固定的字符特征向量文件,文件命名为vocb,其中每个字符都根据语义转为相同长度的向量,所述向量的长度为char_dim。
3.如权利要求2所述基于多任务深度学习提取多类型实体的方法,其特征在于,步骤S3中具体过程如下:
对于步骤S1中预处理后的语料数据按字符进行实体标注,并且对于不同类型的实体分别创建标注样本,假设有M种类型的实体,生成M份标注不同类型实体的标注样本,其中同一类型内的实体单元标注相同,标注完毕后按比例分割成训练集、验证集、测试集。
4.如权利要求3所述基于多任务深度学习提取多类型实体的方法,其特征在于,步骤S3中所述“按字符进行实体标注”具体过程如下:
若一个文本字符串是一个实体,那么该文本字符串的开头字符标注为“B-实体类型名”,其它字符均标注为“I-实体类型名”,若一个文本字符串是一个实体,但是只有一个字符,那么标注为“S-实体类型名”,语料中不是实体的字符全部标注为“O”。
5.如权利要求4所述基于多任务深度学习提取多类型实体的方法,其特征在于,步骤S4中所述分词特征,即对分词结果中的每个字符进行标注,若字符是所在分词的第一个字符,标注为“B”,若字符是所在分词的最后一个字符,标注为“E”,若字符是所在分词的中间字符,标注为“I”,若分词后只有一个单字符,那么这个字符标注为“S”,并且按照“B”“I”“O”“S”顺序分别编码成数值1,2,3,4。
6.如权利要求5所述基于多任务深度学习提取多类型实体的方法,其特征在于,步骤S5具体过程如下:
步骤S5.1、建立输入层:训练样本中抽样选择n个样本,取字符长度最长的样本的长度max_len作为输入层的节点数量,样本长度不足的节点用“UNK”填充,那么输出到模型下一个层次的所有字符长度为n*max_len;
步骤S5.2、建立共享层:共享层指对于同一种类型的实体,其相关性或者相似性的特征在共享层中计算并体现,共享层分为2部分:
第一部分为向量计算层,计算方式为:获取输入层的样本字符,查找每个字符对应在步骤S4中的分词特征和步骤S2文件vocb中的字符向量,同时把分词特征映射表达成seg_dim维度的分词特征向量,每个字符的分词特征向量和字符向量顺序拼接,那么输出到空洞卷积层的单个字符的向量长度是char_dim+seg_dim,所有的输出样本表达成[n,max_len,char_dim+seg_dim]的3维度的空间向量;
第二部分为空洞卷积层,该层内部包含4个网络层,具体为3次空洞卷积操作层以及一个输出层,所述空洞卷积层的具体算法为获取上一层计算的样本3维度的空间向量,然后依次计算3次空洞卷积层,最后在输出层进行合并转成特征向量进入下一层;
步骤S5.3、建立多任务层:根据所要提取的实体类型数量M,本层需要进行M个并行任务,每个任务都采用独立的CRF算法,具体的,对于每个任务有以下计算步骤:
获取共享层输出的样本的特征向量,输入到CRF算法中,采用极大似然估计法估计每个字符分别属于“B”“I”“O”“S”4种标注的概率值;
同时从样本数据中取得对应该任务的实体类型的实际标注,计算损失函数值即loss值,损失函数值反映的是经过此次训练样本数据的实际值与估计值之间的误差的期望;
步骤S5.4、建立合并处理层:从多任务层获取的样本数据中每个字符属于“B”“I”“O”“S”4种标注的概率值和对应的实体类型合并后,每个字符有4*M个概率值,从中取最大的一种概率值作为最后的估计标注;将多任务层同时训练的每个任务的loss值相加,即为整个模型的loss值,标记为total_loss,两次任务total_loss值之间的差值趋近于0时终止任务,停止训练并保存模型,否则重新执行步骤S3至S5。
7.一种基于多任务深度学习提取多类型实体装置,其特征在于,所述装置包括:
数据处理单元,用于数据清洗:将获取所有的文本语料数据按照需求进行数据清洗;
转换单元,用于建立skip-gram神经网络模型将预处理后的文本语料数据转为向量;
样本数据构建单元,用于建立数据集:将要识别和提取的实体类型构建样本数据集;
分词单元:用于构建样本的分词特征:将预处理后的文本语料数据按照单个文本进行分词,并对每个词进行标注,作为语料的分词特征;
模型建立单元,用于建立多类型实体识别的多任务深度学习模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810669851.3A CN108920460B (zh) | 2018-06-26 | 2018-06-26 | 一种多类型实体识别的多任务深度学习模型的训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810669851.3A CN108920460B (zh) | 2018-06-26 | 2018-06-26 | 一种多类型实体识别的多任务深度学习模型的训练方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108920460A true CN108920460A (zh) | 2018-11-30 |
CN108920460B CN108920460B (zh) | 2022-03-11 |
Family
ID=64421330
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810669851.3A Active CN108920460B (zh) | 2018-06-26 | 2018-06-26 | 一种多类型实体识别的多任务深度学习模型的训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108920460B (zh) |
Cited By (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109670179A (zh) * | 2018-12-20 | 2019-04-23 | 中山大学 | 基于迭代膨胀卷积神经网络的病历文本命名实体识别方法 |
CN109684645A (zh) * | 2018-12-29 | 2019-04-26 | 北京泰迪熊移动科技有限公司 | 中文分词方法及装置 |
CN109710924A (zh) * | 2018-12-07 | 2019-05-03 | 平安科技(深圳)有限公司 | 文本模型训练方法、文本识别方法、装置、设备及介质 |
CN109933662A (zh) * | 2019-02-15 | 2019-06-25 | 北京奇艺世纪科技有限公司 | 模型训练方法、信息生成方法、装置、电子设备和计算机可读介质 |
CN110070072A (zh) * | 2019-05-05 | 2019-07-30 | 厦门美图之家科技有限公司 | 一种生成物体检测模型的方法 |
CN110110088A (zh) * | 2019-05-17 | 2019-08-09 | 苏州大学 | 一种文本分类的方法、系统、设备及计算机可读存储介质 |
CN110147551A (zh) * | 2019-05-14 | 2019-08-20 | 腾讯科技(深圳)有限公司 | 多类别实体识别模型训练、实体识别方法、服务器及终端 |
CN110188358A (zh) * | 2019-05-31 | 2019-08-30 | 北京神州泰岳软件股份有限公司 | 自然语言处理模型的训练方法及装置 |
CN110209817A (zh) * | 2019-05-31 | 2019-09-06 | 安徽省泰岳祥升软件有限公司 | 文本处理模型的训练方法、装置和文本处理方法 |
CN110222188A (zh) * | 2019-06-18 | 2019-09-10 | 深圳司南数据服务有限公司 | 一种多任务学习的公司公告处理方法及服务端 |
CN110309511A (zh) * | 2019-07-04 | 2019-10-08 | 哈尔滨工业大学 | 基于共享表示的多任务语言分析系统及方法 |
CN110598210A (zh) * | 2019-08-29 | 2019-12-20 | 深圳市优必选科技股份有限公司 | 实体识别模型训练、实体识别方法、装置、设备及介质 |
CN110705296A (zh) * | 2019-09-12 | 2020-01-17 | 华中科技大学 | 一种基于机器学习和深度学习的中文自然语言处理工具系统 |
CN110781393A (zh) * | 2019-10-23 | 2020-02-11 | 中南大学 | 基于图模型和膨胀卷积神经网络的交通事件要素抽取算法 |
CN110826320A (zh) * | 2019-11-28 | 2020-02-21 | 上海观安信息技术股份有限公司 | 一种基于文本识别的敏感数据发现方法及系统 |
WO2020133470A1 (zh) * | 2018-12-29 | 2020-07-02 | 深圳市优必选科技有限公司 | 聊天语料的清洗方法、装置、计算机设备和存储介质 |
CN111444335A (zh) * | 2019-01-17 | 2020-07-24 | 阿里巴巴集团控股有限公司 | 中心词的提取方法及装置 |
CN111460157A (zh) * | 2020-04-01 | 2020-07-28 | 哈尔滨理工大学 | 用于多领域文本分类的循环卷积多任务学习方法 |
CN111651995A (zh) * | 2020-06-07 | 2020-09-11 | 上海建科工程咨询有限公司 | 基于深度循环神经网络的事故信息自动提取方法及系统 |
CN111737416A (zh) * | 2020-06-29 | 2020-10-02 | 重庆紫光华山智安科技有限公司 | 案件处理模型的训练方法、案件文本处理方法及相关装置 |
CN112052646A (zh) * | 2020-08-27 | 2020-12-08 | 安徽聚戎科技信息咨询有限公司 | 一种文本数据标注方法 |
CN112101023A (zh) * | 2020-10-29 | 2020-12-18 | 深圳市欢太科技有限公司 | 文本处理方法、装置以及电子设备 |
CN112116095A (zh) * | 2019-06-19 | 2020-12-22 | 北京搜狗科技发展有限公司 | 一种多任务学习模型训练的方法及相关装置 |
WO2020252950A1 (zh) * | 2019-06-17 | 2020-12-24 | 五邑大学 | 基于预训练模型和微调技术的医疗文本命名实体识别方法 |
CN112257417A (zh) * | 2020-10-29 | 2021-01-22 | 重庆紫光华山智安科技有限公司 | 一种多任务命名实体识别训练方法、介质及终端 |
CN112559747A (zh) * | 2020-12-15 | 2021-03-26 | 北京百度网讯科技有限公司 | 事件分类处理方法、装置、电子设备和存储介质 |
CN113111652A (zh) * | 2020-01-13 | 2021-07-13 | 阿里巴巴集团控股有限公司 | 数据处理方法、装置及计算设备 |
CN113743111A (zh) * | 2020-08-25 | 2021-12-03 | 国家计算机网络与信息安全管理中心 | 基于文本预训练和多任务学习的金融风险预测方法及装置 |
CN114036933A (zh) * | 2022-01-10 | 2022-02-11 | 湖南工商大学 | 基于法律文书的信息抽取方法 |
CN114741483A (zh) * | 2022-06-09 | 2022-07-12 | 浙江香侬慧语科技有限责任公司 | 数据识别的方法和装置 |
CN116091004A (zh) * | 2023-02-13 | 2023-05-09 | 支付宝(杭州)信息技术有限公司 | 一种举报信息处理方法、装置、存储介质及电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103034693A (zh) * | 2012-12-03 | 2013-04-10 | 哈尔滨工业大学 | 开放式实体及其类型识别方法 |
US20140163951A1 (en) * | 2012-12-07 | 2014-06-12 | Xerox Corporation | Hybrid adaptation of named entity recognition |
CN104615589A (zh) * | 2015-02-15 | 2015-05-13 | 百度在线网络技术(北京)有限公司 | 训练命名实体识别模型的方法、命名实体识别方法及装置 |
-
2018
- 2018-06-26 CN CN201810669851.3A patent/CN108920460B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103034693A (zh) * | 2012-12-03 | 2013-04-10 | 哈尔滨工业大学 | 开放式实体及其类型识别方法 |
US20140163951A1 (en) * | 2012-12-07 | 2014-06-12 | Xerox Corporation | Hybrid adaptation of named entity recognition |
CN104615589A (zh) * | 2015-02-15 | 2015-05-13 | 百度在线网络技术(北京)有限公司 | 训练命名实体识别模型的方法、命名实体识别方法及装置 |
Non-Patent Citations (1)
Title |
---|
GUOYU WANG等: "USING HYBRID NEURAL NETWORK TO ADDRESS CHINESE NAMED ENTITY RECOGNITION", 《PROCEEDINGS OF CCIS2014》 * |
Cited By (46)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109710924A (zh) * | 2018-12-07 | 2019-05-03 | 平安科技(深圳)有限公司 | 文本模型训练方法、文本识别方法、装置、设备及介质 |
CN109710924B (zh) * | 2018-12-07 | 2022-04-12 | 平安科技(深圳)有限公司 | 文本模型训练方法、文本识别方法、装置、设备及介质 |
CN109670179B (zh) * | 2018-12-20 | 2022-11-11 | 中山大学 | 基于迭代膨胀卷积神经网络的病历文本命名实体识别方法 |
CN109670179A (zh) * | 2018-12-20 | 2019-04-23 | 中山大学 | 基于迭代膨胀卷积神经网络的病历文本命名实体识别方法 |
CN109684645A (zh) * | 2018-12-29 | 2019-04-26 | 北京泰迪熊移动科技有限公司 | 中文分词方法及装置 |
WO2020133470A1 (zh) * | 2018-12-29 | 2020-07-02 | 深圳市优必选科技有限公司 | 聊天语料的清洗方法、装置、计算机设备和存储介质 |
CN111444335B (zh) * | 2019-01-17 | 2023-04-07 | 阿里巴巴集团控股有限公司 | 中心词的提取方法及装置 |
CN111444335A (zh) * | 2019-01-17 | 2020-07-24 | 阿里巴巴集团控股有限公司 | 中心词的提取方法及装置 |
CN109933662A (zh) * | 2019-02-15 | 2019-06-25 | 北京奇艺世纪科技有限公司 | 模型训练方法、信息生成方法、装置、电子设备和计算机可读介质 |
CN110070072A (zh) * | 2019-05-05 | 2019-07-30 | 厦门美图之家科技有限公司 | 一种生成物体检测模型的方法 |
CN110147551B (zh) * | 2019-05-14 | 2023-07-11 | 腾讯科技(深圳)有限公司 | 多类别实体识别模型训练、实体识别方法、服务器及终端 |
CN110147551A (zh) * | 2019-05-14 | 2019-08-20 | 腾讯科技(深圳)有限公司 | 多类别实体识别模型训练、实体识别方法、服务器及终端 |
CN110110088A (zh) * | 2019-05-17 | 2019-08-09 | 苏州大学 | 一种文本分类的方法、系统、设备及计算机可读存储介质 |
CN110110088B (zh) * | 2019-05-17 | 2023-11-24 | 苏州大学 | 一种文本分类的方法、系统、设备及计算机可读存储介质 |
CN110188358B (zh) * | 2019-05-31 | 2023-10-24 | 鼎富智能科技有限公司 | 自然语言处理模型的训练方法及装置 |
CN110209817B (zh) * | 2019-05-31 | 2023-06-09 | 安徽省泰岳祥升软件有限公司 | 文本处理模型的训练方法、装置和文本处理方法 |
CN110209817A (zh) * | 2019-05-31 | 2019-09-06 | 安徽省泰岳祥升软件有限公司 | 文本处理模型的训练方法、装置和文本处理方法 |
CN110188358A (zh) * | 2019-05-31 | 2019-08-30 | 北京神州泰岳软件股份有限公司 | 自然语言处理模型的训练方法及装置 |
WO2020252950A1 (zh) * | 2019-06-17 | 2020-12-24 | 五邑大学 | 基于预训练模型和微调技术的医疗文本命名实体识别方法 |
CN110222188A (zh) * | 2019-06-18 | 2019-09-10 | 深圳司南数据服务有限公司 | 一种多任务学习的公司公告处理方法及服务端 |
CN112116095A (zh) * | 2019-06-19 | 2020-12-22 | 北京搜狗科技发展有限公司 | 一种多任务学习模型训练的方法及相关装置 |
CN110309511A (zh) * | 2019-07-04 | 2019-10-08 | 哈尔滨工业大学 | 基于共享表示的多任务语言分析系统及方法 |
CN110309511B (zh) * | 2019-07-04 | 2022-12-09 | 哈尔滨工业大学 | 基于共享表示的多任务语言分析系统及方法 |
CN110598210A (zh) * | 2019-08-29 | 2019-12-20 | 深圳市优必选科技股份有限公司 | 实体识别模型训练、实体识别方法、装置、设备及介质 |
CN110598210B (zh) * | 2019-08-29 | 2023-08-04 | 深圳市优必选科技股份有限公司 | 实体识别模型训练、实体识别方法、装置、设备及介质 |
CN110705296A (zh) * | 2019-09-12 | 2020-01-17 | 华中科技大学 | 一种基于机器学习和深度学习的中文自然语言处理工具系统 |
CN110781393A (zh) * | 2019-10-23 | 2020-02-11 | 中南大学 | 基于图模型和膨胀卷积神经网络的交通事件要素抽取算法 |
CN110826320B (zh) * | 2019-11-28 | 2023-10-13 | 上海观安信息技术股份有限公司 | 一种基于文本识别的敏感数据发现方法及系统 |
CN110826320A (zh) * | 2019-11-28 | 2020-02-21 | 上海观安信息技术股份有限公司 | 一种基于文本识别的敏感数据发现方法及系统 |
CN113111652B (zh) * | 2020-01-13 | 2024-02-13 | 阿里巴巴集团控股有限公司 | 数据处理方法、装置及计算设备 |
CN113111652A (zh) * | 2020-01-13 | 2021-07-13 | 阿里巴巴集团控股有限公司 | 数据处理方法、装置及计算设备 |
CN111460157B (zh) * | 2020-04-01 | 2023-03-28 | 哈尔滨理工大学 | 用于多领域文本分类的循环卷积多任务学习方法 |
CN111460157A (zh) * | 2020-04-01 | 2020-07-28 | 哈尔滨理工大学 | 用于多领域文本分类的循环卷积多任务学习方法 |
CN111651995A (zh) * | 2020-06-07 | 2020-09-11 | 上海建科工程咨询有限公司 | 基于深度循环神经网络的事故信息自动提取方法及系统 |
CN111737416A (zh) * | 2020-06-29 | 2020-10-02 | 重庆紫光华山智安科技有限公司 | 案件处理模型的训练方法、案件文本处理方法及相关装置 |
CN111737416B (zh) * | 2020-06-29 | 2022-08-19 | 重庆紫光华山智安科技有限公司 | 案件处理模型的训练方法、案件文本处理方法及相关装置 |
CN113743111A (zh) * | 2020-08-25 | 2021-12-03 | 国家计算机网络与信息安全管理中心 | 基于文本预训练和多任务学习的金融风险预测方法及装置 |
CN112052646A (zh) * | 2020-08-27 | 2020-12-08 | 安徽聚戎科技信息咨询有限公司 | 一种文本数据标注方法 |
CN112052646B (zh) * | 2020-08-27 | 2024-03-29 | 安徽聚戎科技信息咨询有限公司 | 一种文本数据标注方法 |
CN112257417A (zh) * | 2020-10-29 | 2021-01-22 | 重庆紫光华山智安科技有限公司 | 一种多任务命名实体识别训练方法、介质及终端 |
CN112101023B (zh) * | 2020-10-29 | 2022-12-06 | 深圳市欢太科技有限公司 | 文本处理方法、装置以及电子设备 |
CN112101023A (zh) * | 2020-10-29 | 2020-12-18 | 深圳市欢太科技有限公司 | 文本处理方法、装置以及电子设备 |
CN112559747A (zh) * | 2020-12-15 | 2021-03-26 | 北京百度网讯科技有限公司 | 事件分类处理方法、装置、电子设备和存储介质 |
CN114036933A (zh) * | 2022-01-10 | 2022-02-11 | 湖南工商大学 | 基于法律文书的信息抽取方法 |
CN114741483A (zh) * | 2022-06-09 | 2022-07-12 | 浙江香侬慧语科技有限责任公司 | 数据识别的方法和装置 |
CN116091004A (zh) * | 2023-02-13 | 2023-05-09 | 支付宝(杭州)信息技术有限公司 | 一种举报信息处理方法、装置、存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN108920460B (zh) | 2022-03-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108920460A (zh) | 一种多类型实体识别的多任务深度学习模型的训练方法及装置 | |
CN107291693B (zh) | 一种改进词向量模型的语义计算方法 | |
CN106502985B (zh) | 一种用于生成标题的神经网络建模方法及装置 | |
CN110765775B (zh) | 一种融合语义和标签差异的命名实体识别领域自适应的方法 | |
CN104699763B (zh) | 多特征融合的文本相似性度量系统 | |
CN109359291A (zh) | 一种命名实体识别方法 | |
CN109697232A (zh) | 一种基于深度学习的中文文本情感分析方法 | |
CN109543181B (zh) | 一种基于主动学习和深度学习相结合的命名实体模型和系统 | |
CN110162749A (zh) | 信息提取方法、装置、计算机设备及计算机可读存储介质 | |
CN108920461B (zh) | 一种多类型且含复杂关系的实体抽取方法及装置 | |
CN111191002B (zh) | 一种基于分层嵌入的神经代码搜索方法及装置 | |
CN109284397A (zh) | 一种领域词典的构建方法、装置、设备及存储介质 | |
CN107480143A (zh) | 基于上下文相关性的对话话题分割方法和系统 | |
CN109829162B (zh) | 一种文本分词方法及装置 | |
CN111966812B (zh) | 一种基于动态词向量的自动问答方法和存储介质 | |
CN107391495B (zh) | 一种双语平行语料的句对齐方法 | |
CN110222329B (zh) | 一种基于深度学习的中文分词方法和装置 | |
CN109960728A (zh) | 一种开放域会议信息命名实体识别方法及系统 | |
CN111368544B (zh) | 命名实体识别方法及装置 | |
CN110969023B (zh) | 文本相似度的确定方法及装置 | |
CN111160041A (zh) | 语义理解方法、装置、电子设备和存储介质 | |
Almutiri et al. | Markov models applications in natural language processing: a survey | |
CN116245097A (zh) | 训练实体识别模型的方法、实体识别方法及对应装置 | |
CN110569355B (zh) | 一种基于词块的观点目标抽取和目标情感分类联合方法及系统 | |
Quick | Learning production probabilities for musical grammars |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder | ||
CP01 | Change in the name or title of a patent holder |
Address after: 430223 Wuda science and Technology Park, Jiangxia Avenue, Miaoshan community, Donghu Development Zone, Wuhan City, Hubei Province Patentee after: Geospace Information Technology Co., Ltd. Address before: 430223 Wuda science and Technology Park, Jiangxia Avenue, Miaoshan community, Donghu Development Zone, Wuhan City, Hubei Province Patentee before: WUDA GEOINFORMATICS Co.,Ltd. |