CN112597299A - 文本的实体分类方法、装置、终端设备和存储介质 - Google Patents
文本的实体分类方法、装置、终端设备和存储介质 Download PDFInfo
- Publication number
- CN112597299A CN112597299A CN202011417189.6A CN202011417189A CN112597299A CN 112597299 A CN112597299 A CN 112597299A CN 202011417189 A CN202011417189 A CN 202011417189A CN 112597299 A CN112597299 A CN 112597299A
- Authority
- CN
- China
- Prior art keywords
- entity
- text
- embedding
- word
- emotion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 238000003860 storage Methods 0.000 title claims abstract description 14
- 238000001514 detection method Methods 0.000 claims abstract description 151
- 239000013598 vector Substances 0.000 claims abstract description 71
- 238000007781 pre-processing Methods 0.000 claims abstract description 17
- 230000008451 emotion Effects 0.000 claims description 107
- 230000006870 function Effects 0.000 claims description 69
- 238000013527 convolutional neural network Methods 0.000 claims description 32
- 238000012545 processing Methods 0.000 claims description 27
- 238000004590 computer program Methods 0.000 claims description 21
- 230000011218 segmentation Effects 0.000 claims description 18
- 230000015654 memory Effects 0.000 claims description 17
- 238000012549 training Methods 0.000 claims description 17
- 238000002372 labelling Methods 0.000 claims description 10
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 238000003062 neural network model Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 abstract description 8
- 238000003058 natural language processing Methods 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 19
- 238000013528 artificial neural network Methods 0.000 description 5
- 230000008878 coupling Effects 0.000 description 5
- 238000010168 coupling process Methods 0.000 description 5
- 238000005859 coupling reaction Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 238000013145 classification model Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000007935 neutral effect Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
Abstract
本申请适用于自然语言处理技术领域,提供了一种文本的实体分类方法、装置、终端设备和存储介质。该文本的实体分类方法包括:获取待处理文本;对所述待处理文本进行预处理操作,得到多个词嵌入;将所述多个词嵌入输入预先构建的实体检测模型,得到所述待处理文本包含的实体以及每个所述词嵌入对应的隐层向量;将每个所述词嵌入对应的隐层向量输入预先构建的类别检测模型,得到所述实体的实体类别。本申请通过在识别出文本中的实体之后,对该实体的实体类别进行检测,即可对实体分类展示,能够让用户快速定位到关注的实体,提高对该实体对应的有效信息的提取效率。
Description
技术领域
本申请属于自然语言处理技术领域,尤其涉及一种文本的实体分类方法、装置、终端设备和存储介质。
背景技术
目前,可以通过对文本进行实体识别来进行有效信息的提取,但是当文本的篇幅过长时,识别出的实体个数较多,对于仅关注其中某一实体的用户来说,不能快速找到关注的实体,导致对该实体相关的有效信息提取效率较低。
发明内容
有鉴于此,本申请实施例提供了一种文本的实体分类方法、装置、终端设备和存储介质,可以对识别出来的实体分类展示,能够让用户快速定位到关注的实体,提高对该实体对应的有效信息的提取效率。
第一方面,本申请实施例提供了一种文本的实体分类方法,包括:
获取待处理文本;
对所述待处理文本进行预处理操作,得到多个词嵌入;
将所述多个词嵌入输入预先构建的实体检测模型,得到所述待处理文本包含的实体以及每个所述词嵌入对应的隐层向量;
将每个所述词嵌入对应的隐层向量输入预先构建的类别检测模型,得到所述实体的实体类别。
本申请实施例在识别出文本中的实体之后,对该实体的实体类别进行检测,进而可对实体分类展示,能够让用户快速定位到关注的实体,提高对该实体对应的有效信息的提取效率。
进一步的,在得到所述待处理文本包含的实体以及每个所述词嵌入对应的隐层向量之后,还包括:
将目标词嵌入对应的隐层向量输入预先构建的情感检测模型,得到所述实体的情感类别,其中,所述目标词嵌入为所述多个词嵌入中所述实体所在句子的词嵌入以及所述实体所在句子前后相邻的句子的词嵌入。
对待处理文本进行实体识别后,还可以对实体的情感类别进行检测,以便于用户获取关注的实体的情感类别,从而针对该情感类别做出决策,例如关注的实体为A,A对应的情感类型为负面,当关注A的用户获取到A的情感类型为负面时,可以尽快采取公关策略,以减少该负面情感对A带来的影响。
进一步的,所述情感检测模型为情感卷积神经网络模型,将目标词嵌入对应的隐层向量输入预先构建的情感检测模型,得到所述实体的情感类别,包括:
将所述目标词嵌入对应的隐层向量输入所述情感卷积神经网络模型中,得到情感嵌入;
采用所述情感卷积神经网络模型对所述情感嵌入进行识别,得到所述实体的情感类别。
在本实施例中,情感检测模型可以是情感卷积神经网络模型,采用卷积神经网络对情感类别进行检测,能够提高情感类别检测的准确性。具体的,先将目标词嵌入对应的隐层向量输入该模型中,得到情感嵌入,然后再利用该模型对得到的情感嵌入进行识别,以获得实体的情感类别。
进一步的,在获取待处理文本之前,还包括:
获取所述实体检测模型的第一目标函数、所述类别检测模型的第二目标函数以及所述情感检测模型的第三目标函数;
计算所述第一目标函数、所述第二目标函数和所述第三目标函数之和,得到总目标函数;
采用所述总目标函数对所述实体检测模型的网络参数、所述类别检测模型的网络参数以及所述情感检测模型的网络参数进行优化更新。
三种检测模型的参数优化都取决于目标函数的设定,好的目标函数的设定,能够让训练完成的检测模型的损失函数值、经验风险值以及模型复杂度最小,即确保检测模型检测准确率较高且不会出现过拟合。进一步的,在本实施例还通过将三种检测模型的目标函数之和作为总目标函数,能够让三个检测模型协同优化各自的网络参数,并达到平衡,以提高三种模型检测的准确性。
进一步的,对所述待处理文本进行预处理操作,得到多个词嵌入,包括:
对所述待处理文本执行分词处理;
将分词处理后的所述待处理文本输入词嵌入转换工具中训练,得到所述多个词嵌入。
分词处理是自然语言处理的技术手段之一,通过该处理能够使得分词处理后的文本既能够承载语义,又可以切断上下文耦合,降低词序的影响,从而降低后续文本处理的难度。并且,为了便于检测模型对分词后的待处理文本进行分析,还可以将分词后的待处理文本转换为数字向量,即转换为词嵌入,具体的可以使用词嵌入转换工具实现转换,将词嵌入应用到后续各个检测步骤中,能够提高后续各个检测模型对文本分析处理的效率。
进一步的,所述实体检测模型为时间序列模型,将所述多个词嵌入输入预先构建的实体检测模型,得到所述待处理文本包含的实体以及每个所述词嵌入对应的隐层向量,包括:
将所述多个词嵌入输入所述时间序列模型的时间序列中,得到每个所述词嵌入对应的隐层向量;
采用所述时间序列模型对每个所述词嵌入对应的隐层向量执行序列标注处理,得到所述待处理文本包含的实体。
在本实施例中,实体检测模型采用的是时间序列模型,通过将预处理后得到的多个词嵌入输时间序列模型的时间序列中,能够得到每个词嵌入对应的隐层向量,然后通过时间序列模型对隐层向量进行序列标注,最后根据标注结果得出待处理文本中的实体。
进一步的,所述类别检测模型为实体卷积神经网络模型,将每个所述词嵌入对应的隐层向量输入预先构建的类别检测模型,得到所述实体的实体类别,包括:
将每个所述词嵌入对应的隐层向量输入所述实体卷积神经网络模型中,得到多个实体嵌入;
采用所述实体卷积神经网络模型对所述多个实体嵌入进行识别,得到所述实体的实体类别。
在获得每个词嵌入对应的隐层向量之后,会进行保存,当进行实体类别检测时,将每个词嵌入对应的隐层向量输入实体卷积神经网络模型中,得出对应的多个实体嵌入,然后利用实体卷积神经网络模型对获得的实体嵌入进行识别以获得实体的实体类别。该方法在获得词嵌入对应的隐层向量之后,可以同时进行实体检测和实体类型检测,能够提高实体和实体类型的检测效率。
第二方面,本申请实施例提供了一种文本的实体分类装置,包括:
文本获取模块,用于获取待处理文本;
预处理模块,用于对所述待处理文本进行预处理操作,得到多个词嵌入;
实体检测模块,用于将所述多个词嵌入输入预先构建的实体检测模型,得到所述待处理文本包含的实体以及每个所述词嵌入对应的隐层向量;
类别检测模块,用于将每个所述词嵌入对应的隐层向量输入预先构建的类别检测模型,得到所述实体的实体类别。
第三方面,本申请实施例提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如本申请实施例第一方面提出的文本的实体分类方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如本申请实施例第一方面提出的文本的实体分类方法。
本申请实施例与现有技术相比存在的有益效果是:可以对识别出来的实体分类展示,让用户快速定位到关注的实体,并提高对该实体对应的有效信息的提取效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种文本的实体分类方法的流程图;
图2是本申请实施例提供的一种基于模型的实体检测方法流程图;
图3是本申请实施例提供的一种基于模型的情感类别检测方法流程图;
图4是本申请实施例提供的一种基于模型的实体类型检测方法流程图;
图5是本申请实施例提供的一种联合检测模型的训练流程图;
图6是本申请实施例提供的一种文本的实体分类装置的结构图;
图7是本申请实施例提供的一种终端设备的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定装置结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
以下实施例中所使用的术语只是为了描述特定实施例的目的,而并非旨在作为对本申请的限制。如在本申请的说明书和所附权利要求书中所使用的那样,单数表达形式“一个”、“一种”、“所述”、“上述”、“该”和“这一”旨在也包括例如“一个或多个”这种表达形式,除非其上下文中明确地有相反指示。还应当理解,在本申请实施例中,“一个或多个”是指一个、两个或两个以上;“和/或”,描述关联对象的关联关系,表示可以存在三种关系;例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B的情况,其中A、B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。
本申请实施例提供的文本的实体分类方法可以应用于手机、平板电脑、医疗设备、可穿戴设备、车载设备、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本、个人数字助理(personal digital assistant,PDA)等终端设备或者服务器上,本申请实施例对终端设备和服务器的具体类型不作任何限制。
现有技术中,一般对文本进行实体识别来进行有效信息的提取,但是当文本的篇幅过长时,识别出的实体个数较多,对于仅关注其中某一实体的用户来说,不能快速找到关注的目标实体,导致有效信息提取效率较低。针对这个问题,本申请提出文本的实体分类方法,使识别出来的多个实体分类别展示,有助于用户快速定位到关注的实体,并提高对该实体对应的有效信息的提取效率。
请参阅图1,图1示出了本申请提供的一种文本的实体分类方法的流程图,包括:
101、获取待处理文本;
首先,获取待处理文本,在本实施例中,待处理文本可以是任一文章、简讯、新闻稿等,也可以是其他长句或者短,在本申请中不作限定。但需要注意的是,基于后续文本处理的步骤,对于篇幅较长的文本,本申请的方法优势更明显,处理效果更佳。
在本申请中,通过实体检测模型识别出待处理文本中的实体,通过类别检测模型识别实体类别,并通过情感检测模型识别出情感类别,其中,实体类型和情感类别都是基于待处理文本中存在的实体进行分类识别得到的,即实体识别和实体类型检测之间是有关联的,实体识别和情感类别检测之间也是有关联的。因此,为了提高模型检测的准确性,在一个实施例中,在获取待处理文本之前,可以通过以下步骤对三个检测模型各自的网络参数进行优化:
获取所述实体检测模型的第一目标函数、所述类别检测模型的第二目标函数以及所述情感检测模型的第三目标函数;
计算所述第一目标函数、所述第二目标函数和所述第三目标函数之和,得到总目标函数;
采用所述总目标函数对所述实体检测模型的网络参数、所述类别检测模型的网络参数以及所述情感检测模型的网络参数进行优化更新。
在训练检测模型时,会设计一个目标函数来衡量模型是否训练完成,这里的目标函数,包含了训练过程中的经验损失和结构损失,其中经验损失常用损失函数来表征,损失函数越小,代表模型拟合的越好,即模型的预测值和真实值越接近。但是并不是算是函数越小越好,损失函数过小,容易使模型过度学习训练样本的特征,导致模型在真正预测时效果差,即出现过拟合。为了避免模型过拟合,可以降低模型函数的复杂度,即考虑模型的结构损失,可以通过正则项之类的方式来控制模型函数的复杂程度。通过平衡检测模型的经验损失和结构损失,就能够设计出适合的目标函数来完成检测模型网络参数的优化。
而在现有技术中,是通过流水线的方式实现实体识别和情感类别检测的,即在得到实体识别结果后,将该结果作为情感类别检测的输入,最终得出实体的情感类别。该方法虽然简便,但是在检测过程中会将实体识别步骤的误差累积到情感类别检测的步骤中,降低情感类别检测的准确性。而在本实施例中,在每个检测模型选取到合适的目标函数之后,考虑到实体识别和实体类型检测之间的关联性,以及实体识别和情感类别检测之间的关联性,在对各个检测模型的网络参数进行优化前,通过获取实体检测模型的第一目标函数、类别检测模型的第二目标函数以及情感检测模型的第三目标函数进行加和构建出总目标函数,然后根据总目标函数对实体检测模型的网络参数、类别检测模型的网络参数以及情感检测模型的网络参数进行优化更新,能够联合优化三个检测模型,避免将实体识别步骤中的误差传递到实体类型检测和情感类别检测两个步骤中,从而提高实体类型检测和情感类别检测的准确性。
102、对所述待处理文本进行预处理操作,得到多个词嵌入;
在获得待处理文本之后,对该文本进行预处理操作,可以得到多个词嵌入,词嵌入是一种词的类型表示,即将词汇映射成实数向量,能够将相似意义的词通过相似的类型进行表示,以提高后续对文本处理的效率。
要得到词嵌入,在一个实施例中,可以通过以下步骤实现:
对所述待处理文本执行分词处理;
将分词处理后的所述待处理文本输入词嵌入转换工具中训练,得到所述多个词嵌入。
在进行文本处理时,首先要做的就是进行分词操作,分词是将连续的字序列按照一定的规范重新组合成词序列的过程。执行分词操作后获得的待处理文本,能够更清楚的表达文本的含义,切断上下文耦合,降低词序的影响,从而降低后续文本处理的难度。优选的,预处理操作除了分词操作以外,还可以对执行分词操作后的待处理文本执行数据清洗操作,例如删除一些没有具体含义但又对文本处理造成干扰的副词、介词、连接词等。通过预处理操作,能够提取出文本中的核心信息,从而提升文本处理效率。
在获得分词处理后的待处理文本之后,即可将该文本输入词嵌入转换工具中进行训练,以获得多个词嵌入。其中,词嵌入转换工具可以是word2vec、glove等,在本申请中不作限定。
103、将所述多个词嵌入输入预先构建的实体检测模型,得到所述待处理文本包含的实体以及每个所述词嵌入对应的隐层向量;
在得到词嵌入之后,可以将词嵌入输入构建好的实体检测模型中进行实体检测,在实体检测的过程中,除了获得待处理文本包含的实体外,还会保留每个词嵌入通过实体检测模型生成的隐层向量,以便于后续实体类型检测和情感类别检测。
优选的,实体检测模型可以是时间序列模型,在一个实施例中,利用时间序列模型对实体类别进行检测,可以通过以下步骤实现:
将所述多个词嵌入输入所述时间序列模型的时间序列中,得到每个所述词嵌入对应的隐层向量;
采用所述时间序列模型对每个所述词嵌入对应的隐层向量执行序列标注处理,得到所述待处理文本包含的实体。
在本实施例中,时间序列模型可以是常用的双向长短时记忆循环神经网络(Bi-directional Long Short-Term Memory,Bi-LSTM)模型、循环神经网络(Recurrent Neuralnetwork,RNN)模型、长短期记忆网络(Long Short-Term Memory,LSTM)模型等。其中LSTM模型和Bi-LSTM模型是从RNN模型衍生来的,RNN模型适用于处理序列数据的神经网络,与一般的神经网络相比,适用于处理序列变化的数据,但由于该模型只考虑了短期因素,没有考虑长期因素,在长序列训练过程中会存在梯度消失和梯度爆炸的问题,因此不适合长序列,即不适合处理篇幅较长的文本。而对于LSTM模型和Bi-LSTM模型来说,在其训练的过程中,可以学习如何记忆有效信息,如何遗忘无效信息,因此可以更好的捕捉到较长距离的依赖关系,更适于处理篇幅较长的文本。在实际的使用过程中,可以根据处理的文本长处选择不同的模型进行实体检测,以发挥各模型的优势,从而提高实体检测的准确性和效率。
为了更好的理解实体识别的过程,参阅图2,以LSTM模型为例。假设完成预处理的待处理文本共获得6个词嵌入,分别为w1、w2、w3、w4、w5、w6,将这6个词嵌入输入到LSTM模型的时间序列中,可以得到每个词嵌入对应的隐层向量,在获得隐层向量之后,LSTM模型以B(实体开始)、I(实体中间)、O(非实体词)对每个词嵌入对应的隐层向量进行标注,也即将每个词嵌入对应的隐层向量输入softmax层进行分类标注,最后根据标注结果,即可得到待处理文本中的实体1和实体2。
在一个实施例中,在实体识别完成之后,还可以通过以下步骤对实体的情感类别进行检测:
将目标词嵌入对应的隐层向量输入预先构建的情感检测模型,得到所述实体的情感类别,其中,所述目标词嵌入为所述多个词嵌入中所述实体所在句子的词嵌入以及所述实体所在句子前后相邻的句子的词嵌入。
先通过实体识别的结果,定位到实体所在句子以及与该句子前后相邻的两个句子,定位出来后获取这些句子对应的词嵌入,即获取目标词嵌入,获得目标词嵌入之后即可将其输入到构建好的情感检测模型中进行情感检测,以检测出实体的情感类别。通过将实体所在句子前后相邻的句子的词嵌入也作为目标词嵌入,能够在判断实体的情感类别时联系上下文,进一步提高实体的情感类别检测的准确性。
优选的,情感类别检测模型可以是情感卷积神经网络(Sentiment-CNN)模型,在一个实施例中,利用情感卷积神经网络模型对情感类别进行检测,可以通过以下步骤实现:
将所述目标词嵌入对应的隐层向量输入所述情感卷积神经网络模型中,得到情感嵌入;
采用所述情感卷积神经网络模型对所述情感嵌入进行识别,得到所述实体的情感类别。
卷积神经网络(Convolutional Neural Networks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks),是深度学习(deeplearning)的代表算法之一。利用卷积神经网络的平移不变性,可以精确的识别出文本中的特征,例如在一个长文本中选取出一小段文本让卷积神经网络学习其所具有的特征,当在文本的其他位置也存在相应特征时,能够准确被识别出来。具体的,利用情感卷积神经网络检测情感类别的过程可以参考图3,首先将目标词嵌入对应的隐层向量输入情感卷积网络,得到情感嵌入,然后将情感嵌入通过输入softmax层进行情感类别识别之后,最终得出实体的情感类别,其中,情感类别可以包括:正面、负面、中性等。
104、将每个所述词嵌入对应的隐层向量输入预先构建的类别检测模型,得到所述实体的实体类别。
在实体检测模型获得每个词嵌入对应的隐层向量之后,即根据该向量输入构建好的类别检测模型进行实体类别检测,以得到实体对应的实体类别。通过对实体类别进行检测,能够实现对实体按照类别进行展示,例如按照人名、地名、机构名等分门别类的进行展示,有助于用户快速定位到想要关注的实体,对该实体对应的有效信息进行提取。
优选的,类别检测模型可以是实体卷积神经网络(Entity-CNN)模型。在一个实施例中,利用实体卷积神经网络模型对实体类型进行检测,可以通过以下步骤实现:
将每个所述词嵌入对应的隐层向量输入所述实体卷积神经网络模型中,得到多个实体嵌入;
采用所述实体卷积神经网络模型对所述多个实体嵌入进行识别,得到所述实体的实体类别。
具体的,利用实体卷积网络检测实体类型的过程参考图4,首先将每个词嵌入对应的隐层向量输入到该模型中,得到实体嵌入,然后将实体嵌入输入该模型的softmax层进行实体类型检测之后,即可得出实体的实体类别。
本申请通过在识别出文本中的实体之后,对该实体的实体类别进行检测,即可对实体分类展示,能够让用户快速定位到关注的实体,并提高对该实体对应的有效信息的提取效率。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
为便于理解,下面以对三个检测模型联合训练的流程作简要说明。
本申请提出的文本的实体分类方法的联合检测模型训练的流程图如图5所示。在图5中,
训练联合检测分为两个步骤:前向传播及后向传播。
在前向传播过程中,联合检测模型与现有技术中的流水线检测模型的不同之处在于,首先,输入文本格式不同,即联合检测需要将所有需要输出的标注数据一次性给出;其次,需要保留LSTM模型的隐层向量,用于构建实体嵌入和情感嵌入;最后,需要保留每个模块的目标函数,用于最终联合优化模型参数。
首先,将文本S及其对应的三元组输入模型,经过“实体识别”和softmax模块,得到识别的实体及其范围(B、I、O标记),将其与标注的enti(B、I、O标记)进行对比,该过程中对实体标注的概率可以表示为:
P(tspan|s)=softmax(Wrechi)
其中,S为文本,wi为词嵌入,hi为词嵌入对应的隐层向量,Wrec为实体范围(B、I、O)分类模型的网络参数,tspan为实体范围的标记,即B、I、O标记。
进一步的,可以将LSTM模型的目标函数,即上述中的第一目标函数表示为:
其中,i∈[1,n]。
同时构建词表字典D={(wi,hi)},i∈[1,V],其中wi为词本身,hi为对应的隐层表示(通过LSTM可以获取),V为词表大小。
然后将识别实体对应的隐层向量,如[h大连,h理工,h大学]ent=“大连理工大学”作为Entity-CNN和softmax的输入,获取实体嵌入和对应预测的实体类型,如“人名”,“机构名”等。同时将其与标注实体类型进行比对,该过程中对实体类别检测的概率可以表示为:
进一步的,可以将实体卷积神经网络模型的目标函数,即上述中的第二目标函数表示为:
再获取实体所在句、前一句及后一句的隐层表示,作为Sentiment-CNN和softmax的输入,获取情感嵌入和对应的情感倾向,如“正面”,“中性”及“负面”。同时将其与标注的情感类别进行比对,对情感类别检测的概率可以表示为:
进一步的,可以将情感卷积模型的目标函数,即上述中的第三目标函数表示为:
最后将3个目标函数相加,计算出联合模型总目标函数:L=Lrec+Lent+Lsent
在后向传播的过程中,本申请检测模型的训练方法明显有别于现有技术中检测模型的训练方法,现有技术中实体检测模型和情感检测模型相互之间独立,仅利用各自独立的目标函数进行单一检测模型的训练,而本申请是基于联合模型的目标函数和梯度下降算法,能够同时优化实体检测模型、类型检测模型及情感检测模型的网络参数。
图6示出了本申请实施例提供的文本的实体分类装置的结构框图,为了便于说明,仅示出了与本申请实施例相关的部分。
参照图6,该装置包括:
文本获取模块601,用于获取待处理文本;
预处理模块602,用于对所述待处理文本进行预处理操作,得到多个词嵌入;
实体检测模块603,用于将所述多个词嵌入输入预先构建的实体检测模型,得到所述待处理文本包含的实体以及每个所述词嵌入对应的隐层向量;
类别检测模块604,用于将每个所述词嵌入对应的隐层向量输入预先构建的类别检测模型,得到所述实体的实体类别。
进一步的,所述该装置还可以包括:
情感检测模块,用于在得到所述待处理文本包含的实体以及每个所述词嵌入对应的隐层向量之后,将目标词嵌入对应的隐层向量输入预先构建的情感检测模型,得到所述实体的情感类别,其中,所述目标词嵌入为所述多个词嵌入中所述实体所在句子的词嵌入以及所述实体所在句子前后相邻的句子的词嵌入。
进一步的,所述情感检测模块可以包括:
情感嵌入输出单元,用于将所述目标词嵌入对应的隐层向量输入所述情感卷积神经网络模型中,得到情感嵌入;
情感检测单元,用于采用所述情感卷积神经网络模型对所述情感嵌入进行识别,得到所述实体的情感类别。
进一步的,所述装置还可以包括:
目标函数获取模块,用于在获取待处理文本之前,获取所述实体检测模型的第一目标函数、所述类别检测模型的第二目标函数以及所述情感检测模型的第三目标函数;
总目标函数构建模块,用于计算所述第一目标函数、所述第二目标函数和所述第三目标函数之和,得到总目标函数;
模型网络参数优化模块,用于采用所述总目标函数对所述实体检测模型的网络参数、所述类别检测模型的网络参数以及所述情感检测模型的网络参数进行优化更新。
进一步的,所述预处理模块602可以包括:
文本分词单元,用于对所述待处理文本执行分词处理;
词嵌入输出单元,用于将分词处理后的所述待处理文本输入词嵌入转换工具中训练,得到所述多个词嵌入。
进一步的,所述实体检测模型603为时间序列模型,所述实体检测模块603还可以包括:
隐层向量输出单元,用于将所述多个词嵌入输入所述时间序列模型的时间序列中,得到每个所述词嵌入对应的隐层向量;
实体检测单元,用于采用所述时间序列模型对每个所述词嵌入对应的隐层向量执行序列标注处理,得到所述待处理文本包含的实体。
进一步的,所述类别检测模型604为实体卷积神经网络模型,所述类别检测模块604可以包括:
实体嵌入输出单元,用于将每个所述词嵌入对应的隐层向量输入所述实体卷积神经网络模型中,得到多个实体嵌入;
实体类型检测单元,用于采用所述实体卷积神经网络模型对所述多个实体嵌入进行识别,得到所述实体的实体类别。
本申请实施例还提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如本申请提出的各个文本的实体分类方法的步骤。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如本申请提出的各个文本的实体分类方法的步骤。
本申请实施例还提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行本申请提出的各个文本的实体分类方法的步骤。
图7为本申请一实施例提供的终端设备的结构示意图。如图7所示,该实施例的终端设备7包括:至少一个处理器70(图7中仅示出一个)处理器、存储器71以及存储在所述存储器71中并可在所述至少一个处理器70上运行的计算机程序72,所述处理器70执行所述计算机程序72时实现上述任意浏览器驱动的配置方法实施例中的步骤。
所述终端设备7可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备,以及智能手表、智能手环等可穿戴设备。该终端设备可包括,但不仅限于,处理器70、存储器71。本领域技术人员可以理解,图7仅仅是终端设备7的举例,并不构成对终端设备7的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如还可以包括输入输出设备、网络接入设备等。
所称处理器70可以是中央处理单元(Central Processing Unit,CPU),该处理器70还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器71在一些实施例中可以是所述终端设备7的内部存储单元,例如终端设备7的硬盘或内存。所述存储器71在另一些实施例中也可以是所述终端设备7的外部存储设备,例如所述终端设备7上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器71还可以既包括所述终端设备7的内部存储单元也包括外部存储设备。所述存储器71用于存储操作装置、应用程序、引导装载程序(BootLoader)、数据以及其他程序等,例如所述计算机程序的程序代码等。所述存储器71还可以用于暂时地存储已经输出或者将要输出的数据。s
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述装置中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种文本的实体分类方法,其特征在于,包括:
获取待处理文本;
对所述待处理文本进行预处理操作,得到多个词嵌入;
将所述多个词嵌入输入预先构建的实体检测模型,得到所述待处理文本包含的实体以及每个所述词嵌入对应的隐层向量;
将每个所述词嵌入对应的隐层向量输入预先构建的类别检测模型,得到所述实体的实体类别。
2.如权利要求1所述的实体分类方法,其特征在于,在得到所述待处理文本包含的实体以及每个所述词嵌入对应的隐层向量之后,还包括:
将目标词嵌入对应的隐层向量输入预先构建的情感检测模型,得到所述实体的情感类别,其中,所述目标词嵌入为所述多个词嵌入中所述实体所在句子的词嵌入以及所述实体所在句子前后相邻的句子的词嵌入。
3.如权利要求2所述的实体分类方法,其特征在于,所述情感检测模型为情感卷积神经网络模型,将目标词嵌入对应的隐层向量输入预先构建的情感检测模型,得到所述实体的情感类别,包括:
将所述目标词嵌入对应的隐层向量输入所述情感卷积神经网络模型中,得到情感嵌入;
采用所述情感卷积神经网络模型对所述情感嵌入进行识别,得到所述实体的情感类别。
4.如权利要求2所述的实体分类方法,其特征在于,在获取待处理文本之前,还包括:
获取所述实体检测模型的第一目标函数、所述类别检测模型的第二目标函数以及所述情感检测模型的第三目标函数;
计算所述第一目标函数、所述第二目标函数和所述第三目标函数之和,得到总目标函数;
采用所述总目标函数对所述实体检测模型的网络参数、所述类别检测模型的网络参数以及所述情感检测模型的网络参数进行优化更新。
5.如权利要求1所述的实体分类方法,其特征在于,对所述待处理文本进行预处理操作,得到多个词嵌入,包括:
对所述待处理文本执行分词处理;
将分词处理后的所述待处理文本输入词嵌入转换工具中训练,得到所述多个词嵌入。
6.如权利要求1所述的实体分类方法,其特征在于,所述实体检测模型为时间序列模型,将所述多个词嵌入输入预先构建的实体检测模型,得到所述待处理文本包含的实体以及每个所述词嵌入对应的隐层向量,包括:
将所述多个词嵌入输入所述时间序列模型的时间序列中,得到每个所述词嵌入对应的隐层向量;
采用所述时间序列模型对每个所述词嵌入对应的隐层向量执行序列标注处理,得到所述待处理文本包含的实体。
7.如权利要求1至6中任一项所述的实体分类方法,其特征在于,所述类别检测模型为实体卷积神经网络模型,将每个所述词嵌入对应的隐层向量输入预先构建的类别检测模型,得到所述实体的实体类别,包括:
将每个所述词嵌入对应的隐层向量输入所述实体卷积神经网络模型中,得到多个实体嵌入;
采用所述实体卷积神经网络模型对所述多个实体嵌入进行识别,得到所述实体的实体类别。
8.一种文本的实体分类装置,其特征在于,包括:
文本获取模块,用于获取待处理文本;
预处理模块,用于对所述待处理文本进行预处理操作,得到多个词嵌入;
实体检测模块,用于将所述多个词嵌入输入预先构建的实体检测模型,得到所述待处理文本包含的实体以及每个所述词嵌入对应的隐层向量;
类别检测模块,用于将每个所述词嵌入对应的隐层向量输入预先构建的类别检测模型,得到所述实体的实体类别。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的文本的实体分类方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的文本的实体分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011417189.6A CN112597299A (zh) | 2020-12-07 | 2020-12-07 | 文本的实体分类方法、装置、终端设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011417189.6A CN112597299A (zh) | 2020-12-07 | 2020-12-07 | 文本的实体分类方法、装置、终端设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112597299A true CN112597299A (zh) | 2021-04-02 |
Family
ID=75188613
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011417189.6A Pending CN112597299A (zh) | 2020-12-07 | 2020-12-07 | 文本的实体分类方法、装置、终端设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112597299A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113220887A (zh) * | 2021-05-31 | 2021-08-06 | 华南师范大学 | 一种利用目标知识增强模型的情感分类方法和装置 |
CN113689288A (zh) * | 2021-08-25 | 2021-11-23 | 深圳前海微众银行股份有限公司 | 基于实体列表的风险识别方法、装置、设备及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108170681A (zh) * | 2018-01-15 | 2018-06-15 | 中南大学 | 文本情感分析方法、系统及计算机可读存储介质 |
CN110781273A (zh) * | 2019-09-17 | 2020-02-11 | 华东交通大学 | 文本数据处理方法、装置、电子设备及存储介质 |
CN111079432A (zh) * | 2019-11-08 | 2020-04-28 | 泰康保险集团股份有限公司 | 文本检测方法、装置、电子设备及存储介质 |
CN111177394A (zh) * | 2020-01-03 | 2020-05-19 | 浙江大学 | 基于句法注意力神经网络的知识图谱关系数据分类方法 |
CN111368541A (zh) * | 2018-12-06 | 2020-07-03 | 北京搜狗科技发展有限公司 | 命名实体识别方法及装置 |
CN111382575A (zh) * | 2020-03-19 | 2020-07-07 | 电子科技大学 | 一种基于联合标注和实体语义信息的事件抽取方法 |
CN111476035A (zh) * | 2020-05-06 | 2020-07-31 | 中国人民解放军国防科技大学 | 中文开放关系预测方法、装置、计算机设备和存储介质 |
CN113254637A (zh) * | 2021-05-07 | 2021-08-13 | 山东师范大学 | 一种融合语法的方面级文本情感分类方法及系统 |
-
2020
- 2020-12-07 CN CN202011417189.6A patent/CN112597299A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108170681A (zh) * | 2018-01-15 | 2018-06-15 | 中南大学 | 文本情感分析方法、系统及计算机可读存储介质 |
CN111368541A (zh) * | 2018-12-06 | 2020-07-03 | 北京搜狗科技发展有限公司 | 命名实体识别方法及装置 |
CN110781273A (zh) * | 2019-09-17 | 2020-02-11 | 华东交通大学 | 文本数据处理方法、装置、电子设备及存储介质 |
CN111079432A (zh) * | 2019-11-08 | 2020-04-28 | 泰康保险集团股份有限公司 | 文本检测方法、装置、电子设备及存储介质 |
CN111177394A (zh) * | 2020-01-03 | 2020-05-19 | 浙江大学 | 基于句法注意力神经网络的知识图谱关系数据分类方法 |
CN111382575A (zh) * | 2020-03-19 | 2020-07-07 | 电子科技大学 | 一种基于联合标注和实体语义信息的事件抽取方法 |
CN111476035A (zh) * | 2020-05-06 | 2020-07-31 | 中国人民解放军国防科技大学 | 中文开放关系预测方法、装置、计算机设备和存储介质 |
CN113254637A (zh) * | 2021-05-07 | 2021-08-13 | 山东师范大学 | 一种融合语法的方面级文本情感分类方法及系统 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113220887A (zh) * | 2021-05-31 | 2021-08-06 | 华南师范大学 | 一种利用目标知识增强模型的情感分类方法和装置 |
CN113689288A (zh) * | 2021-08-25 | 2021-11-23 | 深圳前海微众银行股份有限公司 | 基于实体列表的风险识别方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108717406B (zh) | 文本情绪分析方法、装置及存储介质 | |
CN111695352A (zh) | 基于语义分析的评分方法、装置、终端设备及存储介质 | |
CN111382565B (zh) | 基于多标签的情绪-原因对抽取方法及系统 | |
CN108984530A (zh) | 一种网络敏感内容的检测方法及检测系统 | |
CN112084381A (zh) | 一种事件抽取方法、系统、存储介质以及设备 | |
CN111709240A (zh) | 实体关系抽取方法、装置、设备及其存储介质 | |
CN112699686B (zh) | 基于任务型对话系统的语义理解方法、装置、设备及介质 | |
CN111144120A (zh) | 一种训练语句的获取方法、装置、存储介质及电子设备 | |
CN112084746A (zh) | 一种实体识别方法、系统、存储介质及设备 | |
CN113094478B (zh) | 表情回复方法、装置、设备及存储介质 | |
CN112597299A (zh) | 文本的实体分类方法、装置、终端设备和存储介质 | |
CN115168590A (zh) | 文本特征提取方法、模型训练方法、装置、设备及介质 | |
CN113486174B (zh) | 模型训练、阅读理解方法、装置、电子设备及存储介质 | |
CN112182167B (zh) | 一种文本匹配方法、装置、终端设备和存储介质 | |
CN112380861A (zh) | 模型训练方法、装置及意图识别方法、装置 | |
CN112559711A (zh) | 一种同义文本提示方法、装置及电子设备 | |
CN116450829A (zh) | 医疗文本分类方法、装置、设备及介质 | |
CN114417891B (zh) | 基于粗糙语义的回复语句确定方法、装置及电子设备 | |
CN111401069A (zh) | 会话文本的意图识别方法、意图识别装置及终端 | |
CN115718889A (zh) | 针对公司简介的行业分类方法及装置 | |
CN113408265B (zh) | 基于人机交互的语义解析方法、装置、设备及存储介质 | |
CN115510188A (zh) | 文本关键词关联方法、装置、设备及存储介质 | |
CN114676699A (zh) | 实体情感分析方法、装置、计算机设备和存储介质 | |
CN113836297A (zh) | 文本情感分析模型的训练方法及装置 | |
CN111382247A (zh) | 一种内容推送优化方法、内容推送优化装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |