CN111950277A - 商情实体确定方法、装置和存储介质 - Google Patents
商情实体确定方法、装置和存储介质 Download PDFInfo
- Publication number
- CN111950277A CN111950277A CN201910365293.6A CN201910365293A CN111950277A CN 111950277 A CN111950277 A CN 111950277A CN 201910365293 A CN201910365293 A CN 201910365293A CN 111950277 A CN111950277 A CN 111950277A
- Authority
- CN
- China
- Prior art keywords
- text
- business
- word vector
- vector sequence
- entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 80
- 238000012549 training Methods 0.000 claims abstract description 83
- 238000013528 artificial neural network Methods 0.000 claims abstract description 63
- 239000013598 vector Substances 0.000 claims description 149
- 230000011218 segmentation Effects 0.000 claims description 47
- 238000007781 pre-processing Methods 0.000 claims description 34
- 238000012545 processing Methods 0.000 claims description 29
- 238000004590 computer program Methods 0.000 claims description 19
- 238000000605 extraction Methods 0.000 claims description 17
- 238000013527 convolutional neural network Methods 0.000 claims description 13
- 239000000284 extract Substances 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 239000000126 substance Substances 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 6
- 230000014509 gene expression Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 230000001364 causal effect Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005352 clarification Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000011800 void material Substances 0.000 description 1
Images
Landscapes
- Character Discrimination (AREA)
Abstract
本发明公开了一种商情实体确定方法、装置和计算机可读存储介质,包括:获取目标文本;基于预设的商情实体识别模型识别所述目标文本,获得识别结果;所述识别结果表征所述目标文本包含的商情实体;所述商情实体识别模型基于时间卷积神经网络和条件随机场生成。本发明提供了基于时间卷积神经网络和条件随机场生成的商情实体识别模型,可以节约训练时间,提高模型训练的效率。
Description
技术领域
本发明涉及大数据分析技术,尤其涉及一种商情实体确定方法、装置和计算机可读存储介质。
背景技术
命名实体识别是信息提取、问答系统、句法分析、机器翻译等应用领域的重要基础,在自然语言处理技术走向实用化的过程中占有重要地位,一般来说,命名实体识别的任务就是识别出待处理文本中三大类(即实体类、时间类和数字类)、七小类(即人名、机构名、地名、时间、日期、货币和百分百)。
目前,命名实体提取方法主要有三大类:基于规则的命名实体识别方法、基于统计机器学习的命名实体识别方法和基于深度神经网络方法的命名实体识别方法。具体来说:
基于规则的命名实体识别方法主要是通过制定好的规则模板提取相应的信息,这种方法需要大量的先验知识,熟悉各实体出现的规律,这将极大的提升任务难度,除此之外,还有时间效率低,可移植性弱等缺点,这种方法在处理结构化单一的数据集上有效,但随着大数据时代的到来,非结构化数据占着很大的比例,对于非结构化数据很难获取足够的先验知识建立规则模板。
基于统计机器学习的方法,融合了语言模型以及统计机器学习算法。例如,最大熵模型(ME,Maximum Entropy)、隐马尔可夫模型(HMM,Hidden Markov Model)、支持向量机(SVM,Support Vector Machine)以及条件随机场(CRF,Conditional Random Field)。然而这些方法的特征提取方面还是需要人工的进行,并且容易失去文本本身的情感信息,模型训练方面需要大量的人工标注的样本,并且效果也不是特别明显。
近年来,深度神经网络在自然语言处理领域取得了很大的成功,包括机器翻译、情感分析、短文本分类、对话系统等。基于深度神经网络方法在处理命名实体识别任务上主要承担着特征提取的任务,相比于传统方法需要人工模板来提取特征,传统机器学习方法需要大量特征工程的工作,深度神经网络方法在特征提取上更加深层次和自动化;然而特征更加精细的同时,网络训练也更加费时。
发明内容
有鉴于此,本发明的主要目的在于提供一种商情实体确定方法、装置和计算机可读存储介质。
为达到上述目的,本发明的技术方案是这样实现的:
本发明实施例提供了一种商情实体确定方法,所述方法包括:
获取目标文本;
基于预设的商情实体识别模型识别所述目标文本,获得识别结果;所述识别结果表征所述目标文本包含的商情实体;所述商情实体识别模型基于时间卷积神经网络和条件随机场生成。
上述方案中,所述方法还包括:生成所述商情实体识别模型;
所述生成所述商情实体识别模型,包括:
获取文本语料库,所述文本语料库包括至少一个文本语料;各文本语料对应有训练标签;
对所述文本语料库中的各文本语料进行预处理,获得预处理后的文本语料;
对各预处理后的文本语料进行分字和/或分词处理,获得由单个字组成的第一字向量序列和/或由词组组成的第一词向量序列;
根据各文本语料对应的训练标签及根据各文本语料获得的所述第一字向量序列和/或所述第一词向量序列对预设的网络模型进行训练,获得训练后的网络模型,作为所述商情实体识别模型。
上述方案中,所述预设的网络模型,包括:时间卷积神经网络和条件随机场;
所述根据各文本语料对应的训练标签及根据各文本语料获得的所述第一字向量序列和/或所述第一词向量序列对预设的网络模型进行训练,包括:
将各文本语料对应的训练标签及根据各文本语料获得的所述第一字向量序列和/或所述第一词向量序列输入所述时间卷积神经网络和条件随机场;运用有监督学习方式训练所述时间卷积神经网络和条件随机场;
获得训练后的时间卷积神经网络和条件随机场,作为所述商情实体识别模型。
上述方案中,所述基于预设的商情实体识别模型识别所述目标文本之前,所述方法还包括:对所述目标文本进行预处理,获得预处理后的目标文本;
相应的,所述基于预设的商情实体识别模型识别所述目标文本,包括:基于预设的商情实体识别模型识别所述预处理后的目标文本。
上述方案中,所述基于预设的商情实体识别模型识别所述预处理后的目标文本之前,所述方法还包括:
对所述预处理后的目标文本进行分字和/或分词处理,获得由单个字组成的第二字向量序列和/或由词组组成的第二词向量序列;
相应的,所述基于预设的商情实体识别模型识别所述预处理后的目标文本,包括:
所述商情实体识别模型中的时间卷积神经网络对所述第二字向量序列和/或所述第二词向量序列进行特征提取,获得第二文本特征;
所述商情实体识别模型中的条件随机场根据所述第二文本特征获得标签序列,根据所述标签序列获得所述商情实体。
本发明实施例提供了一种商情实体确定装置,所述装置包括:获取模块、处理模块;其中,
所述获取模块,用于获取目标文本;
所述处理模块,用于基于预设的商情实体识别模型识别所述目标文本,获得识别结果;所述识别结果表征所述目标文本包含的商情实体;所述商情实体识别模型基于时间卷积神经网络和条件随机场生成。
上述方案中,所述装置还包括:预处理模块,用于生成所述商情实体识别模型;
所述预处理模块,具体用于获取文本语料库,所述文本语料库包括至少一个文本语料;各文本语料对应有训练标签;
对所述文本语料库中的各文本语料进行预处理,获得预处理后的文本语料;
对各预处理后的文本语料进行分字和/或分词处理,获得由单个字组成的第一字向量序列和/或由词组组成的第一词向量序列;
根据各文本语料对应的训练标签及根据各文本语料获得的所述第一字向量序列和/或所述第一词向量序列对预设的网络模型进行训练,获得训练后的网络模型,作为所述商情实体识别模型。
上述方案中,所述预设的网络模型,包括:时间卷积神经网络和条件随机场;
所述预处理模块,具体用于将各文本语料对应的训练标签及根据各文本语料获得的所述第一字向量序列和/或所述第一词向量序列输入所述时间卷积神经网络和条件随机场;运用有监督学习方式训练所述时间卷积神经网络和条件随机场;
获得训练后的时间卷积神经网络和条件随机场,作为所述商情实体识别模型。
上述方案中,所述处理模块,还用于对所述目标文本进行预处理,获得预处理后的目标文本;
相应的,所述处理模块,具体用于基于预设的商情实体识别模型识别所述预处理后的目标文本。
上述方案中,所述处理模块,还用于对所述预处理后的目标文本进行分字和/或分词处理,获得由单个字组成的第二字向量序列和/或由词组组成的第二词向量序列;
所述处理模块,具体用于通过所述商情实体识别模型中的时间卷积神经网络对所述第二字向量序列和/或所述第二词向量序列进行特征提取,获得第二文本特征;
通过所述商情实体识别模型中的条件随机场根据所述第二文本特征获得标签序列,根据所述标签序列获得所述商情实体。
本发明实施例提供了一种商情实体确定装置,所述装置包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器;其中,
所述处理器用于运行所述计算机程序时,执行以上任一项所述商情实体确定方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现任一项所述商情实体确定方法的步骤。
本发明实施例所提供的商情实体确定方法、装置和计算机可读存储介质,获取目标文本;基于预设的商情实体识别模型识别所述目标文本,获得识别结果;所述识别结果表征所述目标文本包含的商情实体;所述商情实体识别模型基于时间卷积神经网络和条件随机场生成。本发明实施例中,运用时间卷积神经网络和条件随机场生成商情实体识别模型,解决深度神经网络模型,如卷积神经网络(CNN,Convolutional Neural Networks)、长短时记忆网络(LSTM,Long Short Term Memory Network)等模型训练耗时的问题,大大提高了模型训练的效率。
附图说明
图1为本发明实施例提供的一种商情实体确定方法的流程示意图;
图2为本发明实施例提供的另一种商情实体确定方法的流程示意图;
图3为本发明实施例提供的商情实体识别模型的离线训练方法的流程示意图;
图4为本发明实施例提供的运用训练获得的商情实体识别模型确定待识别文本的商情实体的方法的流程示意图;
图5为本发明实施例提供的一种商情实体确定方法示例的流程示意图;
图6为本发明实施例提供的一种时间卷积神经网络的结构示意图;
图7为本发明实施例提供的一种商情实体确定装置的结构示意图;
图8为本发明实施例提供的另一种商情实体确定装置的结构示意图。
具体实施方式
在本发明的各种实施例中,获取目标文本;基于预设的商情实体识别模型识别所述目标文本,获得识别结果;所述识别结果表征所述目标文本包含的商情实体;所述商情实体识别模型基于时间卷积神经网络和条件随机场生成。
下面结合实施例对本发明再作进一步详细的说明。
图1为本发明实施例提供的一种商情实体确定方法的流程示意图;所述方法可以应用于服务器;如图1所示,所述方法包括:
步骤101、获取目标文本。
这里,所述目标文本为待识别其中的商情实体的文本。
步骤102、基于预设的商情实体识别模型识别所述目标文本,获得识别结果;所述识别结果表征所述目标文本包含的商情实体;所述商情实体识别模型基于时间卷积神经网络和条件随机场生成。
具体地,所述基于预设的商情实体识别模型识别所述目标文本之前,所述方法还包括:对所述目标文本进行预处理,获得预处理后的目标文本。
相应的,所述基于预设的商情实体识别模型识别所述目标文本,包括:基于预设的商情实体识别模型识别所述预处理后的目标文本。
这里,所述预处理用以实现文本规范化、清晰化,所述预处理可以包括以下之一:
将目标文本中的繁体中文转化为简体中文;
去除目标文本中的常用停用词、非法字符、非法字符串、乱码等烦扰文本语义理解的干扰字符。
具体地,所述基于预设的商情实体识别模型识别所述预处理后的目标文本之前,所述方法还包括:对所述预处理后的目标文本进行分字和/或分词处理,获得由单个字组成的第二字向量序列和/或由词组组成的第二词向量序列;
相应的,所述基于预设的商情实体识别模型识别所述预处理后的目标文本,包括:所述商情实体识别模型中的时间卷积神经网络对所述第二字向量序列和/或所述第二词向量序列进行特征提取,获得第二文本特征;
所述商情实体识别模型中的条件随机场根据所述第二文本特征获得标签序列,根据所述标签序列获得所述商情实体。
这里,所述时间卷积神经网络用于对字向量序列和/或词向量序列中的字向量和/或词向量进行特征提取,获得文本特征;所述条件随机场用于根据所述文本特征进行特征映射,获得包含至少一个标签的标签序列。根据所述标签序列中的标签可以确定商情实体。
所述服务器内可以预先保存有标签与商情实体和/或商情实体类别的对应关系,从而可以直接根据获得的标签序列和所述对应关系确定商情实体。
所述第二词向量序列,包括:至少一个词组向量;所述第二字向量序列,包括:至少一个字向量。
具体地,所述方法还包括:生成所述商情实体识别模型。
这里,所述生成所述商情实体识别模型,包括:
获取文本语料库,所述文本语料库包括至少一个文本语料;各文本语料对应有训练标签;
对所述文本语料库中的各文本语料进行预处理,获得预处理后的文本语料;
对各预处理后的文本语料进行分字和/或分词处理,获得由单个字组成的第一字向量序列和/或由词组组成的第一词向量序列;
根据各文本语料对应的训练标签及根据各文本语料获得的所述第一字向量序列和/或所述第一词向量序列对预设的网络模型进行训练,获得训练后的网络模型,作为所述商情实体识别模型。
所述训练标签为所述文本语料中包含的商情实体。
所述第一词向量序列,包括:至少一个词组向量;所述第一字向量序列,包括:至少一个字向量。
具体来说,所述预设的网络模型,包括:时间卷积神经网络和条件随机场。
所述根据各文本语料对应的训练标签及根据各文本语料获得的所述第一字向量序列和/或所述第一词向量序列对预设的网络模型进行训练,包括:
将各文本语料对应的训练标签及根据各文本语料获得的所述第一字向量序列和/或所述第一词向量序列输入所述时间卷积神经网络和条件随机场;运用有监督学习方式训练所述时间卷积神经网络和条件随机场;
获得训练后的时间卷积神经网络和条件随机场,作为所述商情实体识别模型。
本实施例中,采用字向量序列和/或词向量序列结合作为输入的方式,相较于其他仅使用词向量作为输入的方式,字向量的结果不需要依赖分词的准确度,减少了实体提取结果的不确定性,可大大提高商情实体提取系统的健壮性和有效性。
具体来说,所述方法还可以包括:更新所述商情实体识别模型;这里,所述更新所述商情实体识别模型,包括:根据所述目标文本及其训练标签(即识别出的商情实体),继续训练所述商情实体识别模型,获得训练后的商情实体识别模型,即为更新后的商情实体识别模型。
图2为本发明实施例提供的另一种商情实体确定方法的流程示意图;如图2所示,所述方法包括:商情实体识别模型的离线训练和运用训练获得的商情实体识别模型确定待识别文本的商情实体。这里,所述商情实体识别模型是基于时间卷积神经网络和条件随机场模型训练获得。
以下针对商情实体识别模型的离线训练和运用训练获得的商情实体识别模型确定待识别文本的商情实体分别进行具体说明。
图3为本发明实施例提供的商情实体识别模型的离线训练方法的流程示意图;如图3所示;所述方法包括:
步骤301、获取文本语料库。
所述文本语料库包括:文本语料;所述文本语料用于提取字向量和/或词向量进行训练;每个文本语料对应有用于训练模型的训练标签,即文本语料对应的商情实体。
步骤302、文本语料的预处理。
这里,所述文本语料的预处理用以实现对所述文本语料进行文本规范化处理,所述预处理可以包括:将繁体中文转换为简体中文、去除文本中的非法字符、非法字符串、乱码等。
步骤303、文本语料的分字和/或分词处理,获得字向量序列和/或词向量序列。
这里,将预处理后的文本语料划分为由单个字组成的字向量序列(包括至少一个字向量),和/或根据词性语义对文本进行中文分词,将文本语料划分成词向量序列(包括至少一个词向量)。
这里,所述步骤303之后,所述方法还包括:字向量和/或词向量的训练。
具体来说,以无监督学习的方式,统计词频、词的共性、词的搭配等信息,实现文本语料库中词分布式表达和编码,同时将字向量随机初始化;提高词分割的准确性,从而可以提高商情实体识别模型的识别准确性。
步骤304、根据各文本语料对应的训练标签、词向量序列和/或字向量序列,采用时间卷积神经网络和条件随机场,通过有监督学习方式训练所述网络模型。
这里,所述训练网络模型之前,所述方法还包括:将词向量序列和/或字向量序列编码为可输入到预设的网络模型中的数据。
所述网络模型包括:所述时间卷积神经网络和条件随机场。所述网络模型设有损失函数,根据各文本语料对应的训练标签、词向量序列和/或字向量序列训练所述网络模型,直到所述损失函数收敛,获得训练后的所述网络模型。
步骤305、将训练后的所述网络模型命名商情实体识别模型。
这里,训练获得的所述商情实体识别模型可以用于识别待识别文本,获得所述待识别文本包含的商情实体。为方便部署和调用,训练后获得的商情实体识别模型提供有网络调用接口(Web API),通过Web API可实现商情实体提取。
本实施例中,所述商情实体识别模型的离线训练,还可以包括:更新所述商情实体识别模型。
这里,所述更新所述商情实体识别模型,包括:根据待识别文本及其识别出的商情实体(这里商情实体识别结果须准确),继续训练所述商情实体识别模型(具体包括:对待识别文本进行预处理、分字和/或分词、识别等步骤,可参见下图4所示步骤),获得继续训练后的商情实体识别模型,即为更新后的商情实体识别模型。
图4为本发明实施例提供的一种运用训练获得的商情实体识别模型确定待识别文本的商情实体的方法的流程示意图;如图4所示,所述方法可以包括:
步骤401、对待识别文本进行预处理。
这里,所述预处理指对待识别文本进行文本规范化处理,如:去除文本中的非法字符、非法字符串、乱码、将繁体中文转换为简体中文等。
步骤402、对预处理后的待识别文本进行分字和/或分词处理,获得词向量序列和/或字向量序列。
这里,将预处理后的待识别文本划分为由单个字组成的字向量序列,和/或根据词性语义对预处理后的待识别文本进行中文分词,将预处理后的待识别文本划分为词向量序列。
步骤403、将词向量序列和/或字向量序列编码为可输入到商情实体识别模型中的数据。
步骤404、调用已训练好的商情实体识别模型进行在线识别,确定所述待识别文本包含的商情实体。
这里,以语句“招标方:中国移动”为例,结合图5对商情实体确定方法的流程进行说明。具体来说,所述方法包括:
步骤501、将语句“招标方:中国移动”按照字进行切割,获得“招标方:中国移动”。
步骤502、将切割后的字初始化或利用已训练的字向量分布式表达为字向量序列。
这里,所述字向量序列用以输入到时间卷积神经网路中。
步骤503、字向量序列经过时间卷积神经网络进行提取特征,获得文本特征。
步骤504、利用条件随机场对文本特征进行特征映射,获得标签序列,如“O O O OB-ORG I-ORG I-ORG I-ORG”。
步骤505、识别所述标签序列中的标签,确定语句“招标方:中国移动”中的商情实体为“中国移动”、实体类别为‘ORG’(即招标人)。
这里,所述标签与对应的实体和/或实体类别的对应关系预先保存在服务器中。
需要说明的是,上述实施例仅以字向量为例,实际应用中,还可以基于词向量进行特征提取、基于字向量和词向量进行特征提取。
图6为本发明实施例提供的一种时间卷积神经网络的结构示意图;如图6所示,时间卷积神经网络主要负责对文本的词向量表达进行编码,也称特征提取,以将词向量编码成指定维度的特征向量。时间卷积神经网络用卷积来进行特征提取,相较于循环神经网络(RNN,Recurrent Neural Network)系列的网络结构,由于时间卷积神经网络可以并行处理,所以处理速度更快;与全连接神经网络相比,时间卷积神经网络大幅度精简了参数的规模,而且能够沿着时间维度进行卷积,更有益于向量序列的建模和特征的表达。
时间卷积神经网络主要由三个基本结构构成:因果卷积、空洞卷积、残差结构。所述因果卷积,它计算当前的神经元的值仅依赖于之前部分时刻的输入,而不涉及之后的信息,这是时间卷积神经网络的一大特性,相当于从时间上对输入向量序列进行特征提取。所述空洞卷积,它的作用是为了扩大卷积核的感受野,使得当前时刻下的神经元的值受到之前较大范围的神经元的影响,这就与人看文章类似,之前看过的内容会影响到当前看的内容。此外,通过多层不同尺度的空洞卷积层的堆叠,可以捕捉更远的长期依赖,使得特征提取和表达更加全面。所述残差结构,随着网络结构层数的增加,它可以改善网络的性能,使网络运行效果更好。时间卷积神经网络中因果卷积的实现主要通过对输入向量进行适当的填充(padding);残差结构的连接通过1x1的卷积操作来进行维度匹配。从性能上来说,时间卷积神经网络不仅具有高效并行性,而且可以灵活地调节网络的感受野,得到稳定的模型梯度。训练过程中,模型内存消耗少,并且模型可以接受任意长度的变量,具有较好的可扩展性。
图7为本发明实施例提供了一种商情实体确定装置的结构示意图,如图7所示,所述装置包括:获取模块701、处理模块702。其中,
所述获取模块701,用于获取目标文本;
所述处理模块702,用于基于预设的商情实体识别模型识别所述目标文本,获得识别结果;所述识别结果表征所述目标文本包含的商情实体;所述商情实体识别模型基于时间卷积神经网络和条件随机场生成。
具体地,所述装置还包括:预处理模块,用于生成所述商情实体识别模型;
所述预处理模块,具体用于获取文本语料库,所述文本语料库包括至少一个文本语料;各文本语料对应有训练标签;
对所述文本语料库中的各文本语料进行预处理,获得预处理后的文本语料;
对各预处理后的文本语料进行分字和/或分词处理,获得由单个字组成的第一字向量序列和/或由词组组成的第一词向量序列;
根据各文本语料对应的训练标签及根据各文本语料获得的所述第一字向量序列和/或所述第一词向量序列对预设的网络模型进行训练,获得训练后的网络模型,作为所述商情实体识别模型。
具体地,所述预设的网络模型,包括:时间卷积神经网络和条件随机场;
所述预处理模块,具体用于将各文本语料对应的训练标签及根据各文本语料获得的所述第一字向量序列和/或所述第一词向量序列输入所述时间卷积神经网络和条件随机场;运用有监督学习方式训练所述时间卷积神经网络和条件随机场;获得训练后的时间卷积神经网络和条件随机场,作为所述商情实体识别模型。
具体地,所述处理模块702,还用于对所述目标文本进行预处理,获得预处理后的目标文本;
相应的,所述处理模块702,具体用于基于预设的商情实体识别模型识别所述预处理后的目标文本。
具体地,所述处理模块702,还用于对所述预处理后的目标文本进行分字和/或分词处理,获得由单个字组成的第二字向量序列和/或由词组组成的第二词向量序列;
所述处理模块702,具体用于通过所述商情实体识别模型中的时间卷积神经网络对所述第二字向量序列和/或所述第二词向量序列进行特征提取,获得第二文本特征;
通过所述商情实体识别模型中的条件随机场根据所述第二文本特征获得标签序列,根据所述标签序列获得所述商情实体。
需要说明的是:上述实施例提供的商情实体确定装置在进行商情实体确定方法时,仅以上述各程序模块的划分进行举例说明,实际应用中,可以根据需要而将上述处理分配由不同的程序模块完成,即将装置的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分处理。另外,上述实施例提供的商情实体确定装置与商情实体确定方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本发明实施例还提供了另一种商情实体确定装置,所述装置可以包括:文本预处理模块、分字分词模块、向量训练模块、模型训练更新模块、商情实体提取模块。
所述文本预处理模块,用于对待识别文本进行文本规范化处理。具体包括:繁体中文转换为简体中文,去除文本中的常用停用词、非法字符、非法字符串、乱码等烦扰文本语义理解的干扰,使文本数据更清晰和规范化。
所述分字分词模块,用于将待识别文本划分为由单个字组成的字向量序列;和/或根据词性语义对文本进行中文分词,将文本划分为词向量序列。
所述向量训练模块,用于以无监督学习的方式,统计词频、词的共性、词的搭配等信息,实现语料库中词分布式表达(即获得词向量),同时实现字向量随机初始化;根据字向量和词向量将词向量序列和字向量序列编码为可输入到网络模型中的数据。
所述模型训练更新模块,用于训练获得商情实体识别模型,以及更新商情实体识别模型。所述商情实体识别模型用于确定待识别文本中的商情实体,可以采用如图5所示的结构。
所述商情实体提取模块,用于调用所述商情实体识别模型,确定待识别文本中的商情实体。
图8为本发明实施例提供的另一种商情实体确定装置的结构示意图。所述装置80包括:处理器801和用于存储能够在所述处理器上运行的计算机程序的存储器802;其中,所述处理器801用于运行所述计算机程序时,执行:获取目标文本;基于预设的商情实体识别模型识别所述目标文本,获得识别结果;所述识别结果表征所述目标文本包含的商情实体;所述商情实体识别模型基于时间卷积神经网络和条件随机场生成。
在一实施例中,所述处理器801还用于运行所述计算机程序时,执行:获取文本语料库,所述文本语料库包括至少一个文本语料;各文本语料对应有训练标签;对所述文本语料库中的各文本语料进行预处理,获得预处理后的文本语料;对各预处理后的文本语料进行分字和/或分词处理,获得由单个字组成的第一字向量序列和/或由词组组成的第一词向量序列;根据各文本语料对应的训练标签及根据各文本语料获得的所述第一字向量序列和/或所述第一词向量序列对预设的网络模型进行训练,获得训练后的网络模型,作为所述商情实体识别模型。
在一实施例中,所述处理器801还用于运行所述计算机程序时,执行:将各文本语料对应的训练标签及根据各文本语料获得的所述第一字向量序列和/或所述第一词向量序列输入所述时间卷积神经网络和条件随机场;运用有监督学习方式训练所述时间卷积神经网络和条件随机场;获得训练后的时间卷积神经网络和条件随机场,作为所述商情实体识别模型;其中,所述预设的网络模型,包括:时间卷积神经网络和条件随机场。
在一实施例中,所述处理器801还用于运行所述计算机程序时,执行:对所述目标文本进行预处理,获得预处理后的目标文本;相应的,所述基于预设的商情实体识别模型识别所述目标文本,包括:基于预设的商情实体识别模型识别所述预处理后的目标文本。
在一实施例中,所述处理器801还用于运行所述计算机程序时,执行:对所述预处理后的目标文本进行分字和/或分词处理,获得由单个字组成的第二字向量序列和/或由词组组成的第二词向量序列;相应的,所述基于预设的商情实体识别模型识别所述预处理后的目标文本,包括:所述商情实体识别模型中的时间卷积神经网络对所述第二字向量序列和/或所述第二词向量序列进行特征提取,获得第二文本特征;所述商情实体识别模型中的条件随机场根据所述第二文本特征获得标签序列,根据所述标签序列获得所述商情实体。
需要说明的是:上述实施例提供的商情实体确定装置与商情实体确定方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
实际应用时,所述装置80还可以包括:至少一个网络接口803。商情实体确定装置80中的各个组件通过总线系统804耦合在一起。可理解,总线系统804用于实现这些组件之间的连接通信。总线系统804除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图8中将各种总线都标为总线系统804。其中,所述处理器801的个数可以为至少一个。网络接口803用于商情实体确定装置80与其他设备之间有线或无线方式的通信。
本发明实施例中的存储器802用于存储各种类型的数据以支持商情实体确定装置80的操作。
上述本发明实施例揭示的方法可以应用于处理器801中,或者由处理器801实现。处理器801可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器801中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器801可以是通用处理器、数字信号处理器(DSP,DiGital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器801可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器802,处理器801读取存储器802中的信息,结合其硬件完成前述方法的步骤。
在示例性实施例中,商情实体确定装置80可以被一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable LogicDevice)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)、通用处理器、控制器、微控制器(MCU,Micro Controller Unit)、微处理器(Microprocessor)、或其他电子元件实现,用于执行前述方法。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器运行时,执行:获取目标文本;基于预设的商情实体识别模型识别所述目标文本,获得识别结果;所述识别结果表征所述目标文本包含的商情实体;所述商情实体识别模型基于时间卷积神经网络和条件随机场生成。
在一实施例中,所述计算机程序被处理器运行时,执行:获取文本语料库,所述文本语料库包括至少一个文本语料;各文本语料对应有训练标签;对所述文本语料库中的各文本语料进行预处理,获得预处理后的文本语料;对各预处理后的文本语料进行分字和/或分词处理,获得由单个字组成的第一字向量序列和/或由词组组成的第一词向量序列;根据各文本语料对应的训练标签及根据各文本语料获得的所述第一字向量序列和/或所述第一词向量序列对预设的网络模型进行训练,获得训练后的网络模型,作为所述商情实体识别模型。
在一实施例中,所述计算机程序被处理器运行时,执行:将各文本语料对应的训练标签及根据各文本语料获得的所述第一字向量序列和/或所述第一词向量序列输入所述时间卷积神经网络和条件随机场;运用有监督学习方式训练所述时间卷积神经网络和条件随机场;获得训练后的时间卷积神经网络和条件随机场,作为所述商情实体识别模型;其中,所述预设的网络模型,包括:时间卷积神经网络和条件随机场。
在一实施例中,所述计算机程序被处理器运行时,执行:对所述目标文本进行预处理,获得预处理后的目标文本;相应的,所述基于预设的商情实体识别模型识别所述目标文本,包括:基于预设的商情实体识别模型识别所述预处理后的目标文本。
在一实施例中,所述计算机程序被处理器运行时,执行:对所述预处理后的目标文本进行分字和/或分词处理,获得由单个字组成的第二字向量序列和/或由词组组成的第二词向量序列;相应的,所述基于预设的商情实体识别模型识别所述预处理后的目标文本,包括:所述商情实体识别模型中的时间卷积神经网络对所述第二字向量序列和/或所述第二词向量序列进行特征提取,获得第二文本特征;所述商情实体识别模型中的条件随机场根据所述第二文本特征获得标签序列,根据所述标签序列获得所述商情实体。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (12)
1.一种商情实体确定方法,其特征在于,所述方法包括:
获取目标文本;
基于预设的商情实体识别模型识别所述目标文本,获得识别结果;所述识别结果表征所述目标文本包含的商情实体;所述商情实体识别模型基于时间卷积神经网络和条件随机场生成。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:生成所述商情实体识别模型;
所述生成所述商情实体识别模型,包括:
获取文本语料库,所述文本语料库包括至少一个文本语料;各文本语料对应有训练标签;
对所述文本语料库中的各文本语料进行预处理,获得预处理后的文本语料;
对各预处理后的文本语料进行分字和/或分词处理,获得由单个字组成的第一字向量序列和/或由词组组成的第一词向量序列;
根据各文本语料对应的训练标签及根据各文本语料获得的所述第一字向量序列和/或所述第一词向量序列对预设的网络模型进行训练,获得训练后的网络模型,作为所述商情实体识别模型。
3.根据权利要求2所述的方法,其特征在于,所述预设的网络模型,包括:时间卷积神经网络和条件随机场;
所述根据各文本语料对应的训练标签及根据各文本语料获得的所述第一字向量序列和/或所述第一词向量序列对预设的网络模型进行训练,包括:
将各文本语料对应的训练标签及根据各文本语料获得的所述第一字向量序列和/或所述第一词向量序列输入所述时间卷积神经网络和条件随机场;运用有监督学习方式训练所述时间卷积神经网络和条件随机场;
获得训练后的时间卷积神经网络和条件随机场,作为所述商情实体识别模型。
4.根据权利要求1所述的方法,其特征在于,所述基于预设的商情实体识别模型识别所述目标文本之前,所述方法还包括:对所述目标文本进行预处理,获得预处理后的目标文本;
相应的,所述基于预设的商情实体识别模型识别所述目标文本,包括:基于预设的商情实体识别模型识别所述预处理后的目标文本。
5.根据权利要求4所述的方法,其特征在于,所述基于预设的商情实体识别模型识别所述预处理后的目标文本之前,所述方法还包括:
对所述预处理后的目标文本进行分字和/或分词处理,获得由单个字组成的第二字向量序列和/或由词组组成的第二词向量序列;
相应的,所述基于预设的商情实体识别模型识别所述预处理后的目标文本,包括:
所述商情实体识别模型中的时间卷积神经网络对所述第二字向量序列和/或所述第二词向量序列进行特征提取,获得第二文本特征;
所述商情实体识别模型中的条件随机场根据所述第二文本特征获得标签序列,根据所述标签序列获得所述商情实体。
6.一种商情实体确定装置,其特征在于,所述装置包括:获取模块、处理模块;其中,
所述获取模块,用于获取目标文本;
所述处理模块,用于基于预设的商情实体识别模型识别所述目标文本,获得识别结果;所述识别结果表征所述目标文本包含的商情实体;所述商情实体识别模型基于时间卷积神经网络和条件随机场生成。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:预处理模块,用于生成所述商情实体识别模型;
所述预处理模块,具体用于获取文本语料库,所述文本语料库包括至少一个文本语料;各文本语料对应有训练标签;
对所述文本语料库中的各文本语料进行预处理,获得预处理后的文本语料;
对各预处理后的文本语料进行分字和/或分词处理,获得由单个字组成的第一字向量序列和/或由词组组成的第一词向量序列;
根据各文本语料对应的训练标签及根据各文本语料获得的所述第一字向量序列和/或所述第一词向量序列对预设的网络模型进行训练,获得训练后的网络模型,作为所述商情实体识别模型。
8.根据权利要求7所述的装置,其特征在于,所述预设的网络模型,包括:时间卷积神经网络和条件随机场;
所述预处理模块,具体用于将各文本语料对应的训练标签及根据各文本语料获得的所述第一字向量序列和/或所述第一词向量序列输入所述时间卷积神经网络和条件随机场;运用有监督学习方式训练所述时间卷积神经网络和条件随机场;
获得训练后的时间卷积神经网络和条件随机场,作为所述商情实体识别模型。
9.根据权利要求6所述的装置,其特征在于,所述处理模块,还用于对所述目标文本进行预处理,获得预处理后的目标文本;
相应的,所述处理模块,具体用于基于预设的商情实体识别模型识别所述预处理后的目标文本。
10.根据权利要求9所述的装置,其特征在于,所述处理模块,还用于对所述预处理后的目标文本进行分字和/或分词处理,获得由单个字组成的第二字向量序列和/或由词组组成的第二词向量序列;
所述处理模块,具体用于通过所述商情实体识别模型中的时间卷积神经网络对所述第二字向量序列和/或所述第二词向量序列进行特征提取,获得第二文本特征;
通过所述商情实体识别模型中的条件随机场根据所述第二文本特征获得标签序列,根据所述标签序列获得所述商情实体。
11.一种商情实体确定装置,其特征在于,所述装置包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器;其中,
所述处理器用于运行所述计算机程序时,执行权利要求1至5任一项所述方法的步骤。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910365293.6A CN111950277A (zh) | 2019-04-30 | 2019-04-30 | 商情实体确定方法、装置和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910365293.6A CN111950277A (zh) | 2019-04-30 | 2019-04-30 | 商情实体确定方法、装置和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111950277A true CN111950277A (zh) | 2020-11-17 |
Family
ID=73335590
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910365293.6A Pending CN111950277A (zh) | 2019-04-30 | 2019-04-30 | 商情实体确定方法、装置和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111950277A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106557462A (zh) * | 2016-11-02 | 2017-04-05 | 数库(上海)科技有限公司 | 命名实体识别方法和系统 |
CN106569998A (zh) * | 2016-10-27 | 2017-04-19 | 浙江大学 | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 |
CN107644014A (zh) * | 2017-09-25 | 2018-01-30 | 南京安链数据科技有限公司 | 一种基于双向lstm和crf的命名实体识别方法 |
CN109145294A (zh) * | 2018-08-07 | 2019-01-04 | 北京三快在线科技有限公司 | 文本实体识别方法及装置、电子设备、存储介质 |
CN109446514A (zh) * | 2018-09-18 | 2019-03-08 | 平安科技(深圳)有限公司 | 新闻实体识别模型的构建方法、装置和计算机设备 |
CN109492215A (zh) * | 2018-09-18 | 2019-03-19 | 平安科技(深圳)有限公司 | 新闻实体识别方法、装置、计算机设备和存储介质 |
WO2019071661A1 (zh) * | 2017-10-09 | 2019-04-18 | 平安科技(深圳)有限公司 | 电子装置、医疗文本实体命名的识别方法、系统及存储介质 |
-
2019
- 2019-04-30 CN CN201910365293.6A patent/CN111950277A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106569998A (zh) * | 2016-10-27 | 2017-04-19 | 浙江大学 | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 |
CN106557462A (zh) * | 2016-11-02 | 2017-04-05 | 数库(上海)科技有限公司 | 命名实体识别方法和系统 |
CN107644014A (zh) * | 2017-09-25 | 2018-01-30 | 南京安链数据科技有限公司 | 一种基于双向lstm和crf的命名实体识别方法 |
WO2019071661A1 (zh) * | 2017-10-09 | 2019-04-18 | 平安科技(深圳)有限公司 | 电子装置、医疗文本实体命名的识别方法、系统及存储介质 |
CN109145294A (zh) * | 2018-08-07 | 2019-01-04 | 北京三快在线科技有限公司 | 文本实体识别方法及装置、电子设备、存储介质 |
CN109446514A (zh) * | 2018-09-18 | 2019-03-08 | 平安科技(深圳)有限公司 | 新闻实体识别模型的构建方法、装置和计算机设备 |
CN109492215A (zh) * | 2018-09-18 | 2019-03-19 | 平安科技(深圳)有限公司 | 新闻实体识别方法、装置、计算机设备和存储介质 |
Non-Patent Citations (1)
Title |
---|
李丽双;郭元凯;: "基于CNN-BLSTM-CRF模型的生物医学命名实体识别", 中文信息学报, no. 01, pages 120 - 126 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107085581B (zh) | 短文本分类方法和装置 | |
CN110427461B (zh) | 智能问答信息处理方法、电子设备及计算机可读存储介质 | |
CN111930942B (zh) | 文本分类方法、语言模型训练方法、装置及设备 | |
CN111062217B (zh) | 语言信息的处理方法、装置、存储介质及电子设备 | |
CN112151015B (zh) | 关键词检测方法、装置、电子设备以及存储介质 | |
CN112699686B (zh) | 基于任务型对话系统的语义理解方法、装置、设备及介质 | |
CN111709242B (zh) | 一种基于命名实体识别的中文标点符号添加方法 | |
CN111046660B (zh) | 一种识别文本专业术语的方法及装置 | |
CN111859964A (zh) | 一种语句中命名实体的识别方法及装置 | |
CN113990352B (zh) | 用户情绪识别与预测方法、装置、设备及存储介质 | |
CN110717045A (zh) | 一种基于信访信件概况的信件要素自动提取方法 | |
CN111401058A (zh) | 一种基于命名实体识别工具的属性值抽取方法及装置 | |
CN115759119B (zh) | 一种金融文本情感分析方法、系统、介质和设备 | |
CN108595426B (zh) | 基于汉字字形结构性信息的词向量优化方法 | |
CN115906835B (zh) | 一种基于聚类和对比学习的中文问句文本表示学习的方法 | |
CN116795970A (zh) | 一种对话生成方法及其在情感陪护中的应用 | |
CN116978367A (zh) | 语音识别方法、装置、电子设备和存储介质 | |
CN112131879A (zh) | 一种关系抽取系统、方法和装置 | |
CN115510230A (zh) | 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法 | |
CN114974310A (zh) | 基于人工智能的情感识别方法、装置、计算机设备及介质 | |
CN111950277A (zh) | 商情实体确定方法、装置和存储介质 | |
CN110874408A (zh) | 模型训练方法、文本识别方法、装置及计算设备 | |
CN115344694A (zh) | 一种基于Bert和BiLSTM的短文本情感分析方法、装置及存储介质 | |
Ramesh et al. | Interpretable natural language segmentation based on link grammar | |
CN114841143A (zh) | 语音房质量评估方法及其装置、设备、介质、产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |