CN110580292B - 一种文本标签生成方法、装置和计算机可读存储介质 - Google Patents
一种文本标签生成方法、装置和计算机可读存储介质 Download PDFInfo
- Publication number
- CN110580292B CN110580292B CN201910802285.3A CN201910802285A CN110580292B CN 110580292 B CN110580292 B CN 110580292B CN 201910802285 A CN201910802285 A CN 201910802285A CN 110580292 B CN110580292 B CN 110580292B
- Authority
- CN
- China
- Prior art keywords
- word
- text
- words
- information
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000000605 extraction Methods 0.000 claims abstract description 97
- 238000013528 artificial neural network Methods 0.000 claims description 27
- 230000004927 fusion Effects 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 8
- 238000012216 screening Methods 0.000 claims description 7
- 238000004458 analytical method Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims 1
- 239000013598 vector Substances 0.000 description 123
- 230000006870 function Effects 0.000 description 22
- 238000012549 training Methods 0.000 description 18
- 230000011218 segmentation Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 11
- 230000009467 reduction Effects 0.000 description 11
- 238000004364 calculation method Methods 0.000 description 6
- 238000002372 labelling Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 210000005036 nerve Anatomy 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 3
- 238000012423 maintenance Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例公开了一种文本标签生成方法、装置和计算机可读存储介质;本发明实施例在获取文本对应的词集合后,对词集合的词进行特征提取,得到词的语义特征信息,然后,对词的语义特征信息进行解析,得到词的上下文信息,对词的上下文信息进行特征提取,得到词的上下文特征,再然后,根据词的上下文信息和上下文特征,计算词的注意力信息,基于词的上下文特征和注意力信息,生成文本的标签;该方案可以更加准确的生成文本内容的标签,提升文本标签生成的准确率。
Description
技术领域
本发明涉及通信技术领域,具体涉及一种文本标签生成方法、装置和计算机可读存储介质。
背景技术
近年来,随着神经网络技术在人工智能领域的大热,将神经网络应用于自然语言处理系统(Natural Language Processing,NLP)也有了长足的发展。尤其是将神经网络应用于生成资讯文章的标签。现有的资讯生成标签往往基于分类或抽取关键词提取的手段。
在对现有技术的研究和实践过程中,本发明的发明人发现对于分类的方法来说,由于有限的类目体系,不能满足长尾的细粒度标签要求,对于抽取关键词的方法来说,从资讯原文中提取权重较大的词语或者短语返回关键词,而不能泛化的返回原文中没有出现过的概括性标签词汇,从而导致生成的标签准确性不足。
发明内容
本发明实施例提供一种文本标签生成方法、装置和计算机可读存储介质。可以提高生成标签的准确性。
一种文本标签生成方法,包括:
获取文本对应的词集合;
对所述词集合的词进行特征提取,得到所述词的语义特征信息;
对所述词的语义特征信息进行解析,得到所述词的上下文信息;
对所述词的上下文信息进行特征提取,得到所述词的上下文特征;
根据所述词的上下文信息和上下文特征,计算所述词的注意力信息,所述注意力信息为关注所述词集合中词被选为标签的信息
相应的,本发明实施例提供一种文本标签生成装置,包括:
获取单元,用于获取文本对应的词集合;
第一提取单元,用于对所述词集合的词进行特征提取,得到所述词的语义特征信息;
解析单元,用于对所述词的语义特征信息进行解析,得到所述词的上下文信息;
第二提取单元,用于对所述词的上下文信息进行特征提取,得到所述词的上下文特征;
计算单元,用于根据所述词的上下文信息和上下文特征,计算所述词的注意力信息,所述注意力信息为关注所述词集合中词被选为标签的信息;
生成单元,用于基于所述词的上下文特征和所述注意力信息,生成所述文本的标签。
可选的,在一些实施例中,所述生成单元,具体可以用于根据所述词的注意力权重信息,生成所述词的作为所述文本的标签的文本标签概率,基于所述词的上下文特征,获取预设标签词集合的预设标签词作为所述文本的标签的文本标签概率,根据所述词和所述预设标签词的文本标签概率,生成所述文本的标签。
可选的,在一些实施例中,所述生成单元,具体可以用于将所述词的上下文特征添加至所述预设标签词集合,得到所述预设标签词集合的预设标签词的特征信息,对所述预设标签词的特征信息进行加权,得到加权结果,根据加权结果,生成所述预设标签词作为所述文本的标签的文本标签概率。
可选的,在一些实施例中,所述生成单元,具体可以用于在所述词集合中筛选与预设标签词集合中重合的词,当存在所述重合的词时,对所述重合的词对应的文本标签概率进行调整,基于调整后的文本标签概率,在所述词集合和所述预设标签词集合中筛选目标词,作为所述文本的标签,当不存在所述重合的词时,根据所述词和所述预设标签词的文本标签概率,在所述词集合和所述预设标签词集合中筛选目标词,作为所述文本的标签。
可选的,在一些实施例中,所述解析单元,具体可以用于采用训练后识别模型的编码器网络的第一注意力模块分别在多个第一表示子空间中对所述词的语义特征信息进行特征提取,得到所述词的初始上下文信息,对所述词的初始上下文信息进行加权,将所述词的加权结果通过所述第一前馈神经网络输入到所述第一残差模块进行特征提取,得到所述词的上下文信息。
可选的,在一些实施例中,所述解析单元,具体可以用于在所述词的语义特征信息中添加所述词在所述词集合中对应的位置信息,得到所述词的更新后语义特征信息,将所述词的更新后语义特征信息分别输入至多个所述第一表示子空间,采用所述训练后识别模型的编码器网络的第一注意力模块在所述多个第一表示子空间中分别对所述词的更新后语义特征信息进行特征提取,得到所述词的初始上下文信息。
可选的,在一些实施例中,所述解析单元,具体可以用于采集多个文本样本对应的词集合,所述文本样本对应的词集合包括已标注标签的词集合,采用预设识别模型对所述文本样本对应的词集合的标签进行预测,得到预测的标签,根据所述预测的标签与标注的标签对所述预设识别模型进行收敛,得到训练后识别模型。
可选的,在一些实施例中,所述第二特征提取单元,具体可以用于采用所述训练后识别模型的解码器网络的第二注意力模块分别在多个第二表示子空间中对所述词的上下文信息进行特征提取,得到所述词的初始上下文特征,对所述词的初始上下文特征进行加权,将所述词的加权结果通过所述第二前馈神经网络输入至所述第二残差模块进行特征提取,得到所述词的上下文特征。
可选的,在一些实施例中,所述计算单元,具体可以用于在所述词的上下文信息和所述上下文特征中分别提取注意力元素,将所述上下文信息和所述上下文特征分别对应的注意力元素进行融合,对将所述注意力元素的融合结果进行特征提取,得到所述词的注意力信息。
此外,本发明实施例还提供一种电子设备,包括处理器和存储器,所述存储器存储有应用程序,所述处理器用于运行所述存储器内的应用程序实现本发明实施例提供的文本标签生成方法。
此外,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行本发明实施例所提供的任一种文本标签生成方法中的步骤。
本发明实施例在获取文本对应的词集合后,对词集合的词进行特征提取,得到词的语义特征信息,然后,对词的语义特征信息进行解析,得到词的上下文信息,对词的上下文信息进行特征提取,得到词的上下文特征,再然后,根据词的上下文信息和上下文特征,计算词的注意力信息,基于词的上下文特征和注意力信息,生成文本的标签;由于该方案不依赖于有限的类目体系,同时又可以返回原文中的重要关键词以及不在原文中出现的标签词,因此,可以更加准确的生成资讯或文本内容的标签,提升文本标签生成的准确率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的文本标签生成方法的场景示意图;
图2是本发明实施例提供的文本标签生成方法的流程示意图;
图3是本发明实施例提供的编码器网络的结构示例图;
图4是本发明实施例提供的训练后识别模型的结构示意图;
图5是本发明实施例提供的解码器网络的结构示意图;
图6是本发明实施例提供的训练后识别模型的另一结构示意图;
图7是本发明实施例提供的文本标签生成方法的另一流程示意图;
图8是本发明实施例提供的文本标签生成装置的结构示意图;
图9是本发明实施例提供的文本标签生成装置解析单元的结构示例图;
图10是本发明实施例提供的文本标签生成装置第二提取单元的结构示意图;
图11是本发明实施例提供的文本标签生成装置生成单元的结构示意图;
图12是本发明实施例提供的文本标签生成装置的另一结构示意图;
图13是本发明实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种文本标签生成方法、装置和计算机可读存储介质。其中,该文本标签生成装置可以集成在电子设备中,该电子设备可以是服务器,也可以是终端等设备。
所谓文本标签,是一种文本比如资讯文章在网络传播中常出现的信息,可以包括文章内容总结性的词或者词组,该总结性的词或词组可以来自于文章本身的内容,也可以来自外部,主要作用可以为便于用户快速的了解文章内容,增加用户的阅读效率,还可以提升该文章在搜索系统中的检索效率,除此之外,还可以通过文本标签方便推荐系统进行内容的推荐。在本实施例中,文本标签的生成主要指的是对文本比如资讯文章进行解析或理解,根据解析或理解的内容,从原文或者从预设标签词表中生成该资讯的文章的至少一个标签。
例如,参见图1,以文本标签生成装置集成在电子设备中为例,该电子设备在获取文本对应的词集合后,对词集合的词进行特征提取,得到词的语义特征信息,然后,对词的语义特征信息进行解析,得到词的上下文信息,对词的上下文信息进行特征提取,得到词的上下文特征,再然后,根据词的上下文信息和上下文特征,计算词的注意力信息,基于词的上下文特征和注意力信息,生成文本的标签以下分别进行详细说明。需要说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
本实施例将从文本标签生成装置的角度进行描述,该文本标签生成装置具体可以集成在电子设备中,该电子设备可以是服务器,也可以是终端等设备;其中,该终端可以包括平板电脑、笔记本电脑、以及个人计算(PC,Personal Computer)等设备。
一种文本标签生成方法,包括:获取文本对应的词集合,对词集合的词进行特征提取,得到词的语义特征信息,对词的语义特征信息进行解析,得到词的上下文信息,对词的上下文信息进行特征提取,得到词的上下文特征,根据词的上下文信息和上下文特征,计算词的注意力信息,基于词的上下文特征和注意力信息,生成文本的标签
如图2所示,该文本标签生成方法的具体流程如下:
101、获取文本对应的词集合。
其中,词集合可以为整篇文本比如新闻报道或者资讯类文章的所有词或词组的集合,比如,一篇文章的内容为“我是中国人”,这么篇文章对应的词集合可以为“我、是、中、国、人”,也可以为“我、是、中国人”,等等,其中词集合中还可以包括文本内容中相应的标点符号。
本发明实施例中,具体可以从资讯数据库中获取需要生成标签的文章或资讯,还可以接收用户上传的文本,比如电子书或者电子类文本。获取到文本后需要对文本中的内容进行分词,分词的方式可以有多种,比如,基于字符串匹配的分词方法、基于理解的分词方法和/或基于统计的分词方法,还可以借助分词工具来进行分词,提取出文本中的词或词组,将提取出的词或词组进行排列组合,得到文本对应的词集合。
其中,分词后得到的词或词组的语言可以为任意语言,比如中文、英文、法文、德文和/或俄文等词或词组,再此没有特别限定。
102、对词集合的词进行特征提取,得到词的语义特征信息。
其中,语义特征信息可以包括文本中通过多维的向量来表示文本中的词的语义信息,其中向量的维度为文本对应的词集合的大小,语义信息可以包括文本中词的语法、语义等信息。
本发明实施例中,在文本对应的词集合中将每个词进行顺序编号,可以通过词嵌入算法对词集合中每个编号的词进行特征提取,比如,将文本对应的词集合作为一个整体,词集合中编号的词就变成了一个很长的向量,向量的维度就是该词集合的大小,譬如,将词集合划分N个格,编号的词对应格定义数字1,其他格定义数字0,就得到了该编号的词在词集合中的词向量。类似操作步骤对词集合中的每个词进行词嵌入,得到词集合中每个词对应的词向量,词向量为多维向量,比如,向量的维数可以为512维也可以为256维等维数。将得到的文本对应词集合中各个词的词向量作为各个词对应的语义特征信息,该词向量中包含表示该词在文本集合中语义信息。
103、对词的语义特征信息进行解析,得到词的上下文信息。
其中,上下文信息可以为词集合中不同的词之间的相互作用信息,词与词集合的场景之间的相互作用信息作为条件对目标词进行识别和处理之后,得到的信息,比如,通过上下文的信息判断目标词在词集合中的作用或者权重。其中,词集合中的词的上下文信息不能直接从目标词中得到,而是从领域的数据或者目标词的标注、目标词的空间位置或者数据统计信息中得到。
本发明实施例中,在词集合每个词的语义特征信息中添加各个词在词集合中对应的位置信息,比如,可以通过添加位置编码向量,通过位置编码向量确定各个词在在文本对应的词集合中的位置,可以更好的表达词与词之间的距离。在各个词的语义特征信息中添加位置编码向量后,得到更新后语义特征信息。
在一实施例中,采用训练后识别模型的编码器网络对更新后语义特征信息进行特征提取。训练后识别模型的编码器网络包括多个第一注意力模块、至少一个第一前馈神经网络和至少一个第一残差模块。比如,将更新后语义特征信息分别输入至多个第一表示子空间,采用第一注意力模块在各个第一表示子空间中对词集合每个词的更新后语义特征信息进行特征提取,以在一个第一表示子空间中,第一注意力模块对词集合中各个词的更新后语义特征信息进行提取为例来说明,第一注意力模块对各个词的更新后语义特征信息进行降维,在降维后的语义特征信息中生成查询向量、键向量和值向量,在词集合中确定目标词,通过词集合中剩余的词对目标词计算自注意力向量,得到目标词的初始上下文信息。
其中,目标词的自注意机制输出的上下文信息的计算可以如下:
其中,qi为目标词的查询向量,KT为目标词的键向量,V为目标词的值向量,d为目标词的键向量的维数。
通过计算公式,可以看出目标词的注意力向量即初始上下文信息可以通过该目标词的三个向量进行计算得到,比如,可以通过剩余词的键向量与目标词的查询向量进行点积,得到目标词的自注意向量集,将词集合中各个词的自注意力向量集中的值再次进行降维,降维的方式可以为除以目标词的键向量的平方根来实现。对目标词的自注意向量集中的自注意向量与目标词对应的值向量相乘,将相乘后的结果进行加权求和,得到词集合中选定的目标词的自注意力输出,得到目标词的初始上下文信息,重复通过上述步骤,完成对词集合中剩余词的自注意力输出,最后得到词集合中各个词在不同第一表示子空间中的初始上下文信息。
在一实施例中,对各个第一表示子空间下的词集合每个词的初始上下文信息进行加权,比如,对每个词在不同的第一表示子空间下的初始上下文信息进行拼接,对拼接后的每个词的初始上下文信息进行加权,就得到融合所有第一表示子空间的每个词的融合后初始上下文信息。
在一实施例中,将得到每个词的融合后初始上下文信息通过第一前馈神经网络输入到第一残差模块进行特征提取。比如,通过第一前馈神经将每个词的融合后初始上下文信息输入到第一残差模块中进行求和与归一化,得到各个词的上下文信息。
在此需要说明的是,训练后识别模型可以包括编码器网络,编码器网络可以包括第一注意力模块、第一前馈神经网络和第一残差模块,如图3所示。在对词集合中各个词的更新后语义特征信息进行解析得到各个词的上下文特征信息的过程中,可以通过多个编码器网络串联来得到。比如,第一编码器网络将词集合每个词的更新后语义特征信息进行解析,得到各个词的第一层上下文信息,第二编码器网络将词集合中各个词的第一层上下文信息重复第一编码器网络的解析或编码步骤,得到第二层上下文信息,依次类推,通过多层编码器网络的解析得到词集合中各个词最终的上下文信息。其中,编码器网络的个数需要根据实际应用需求来进行设定。
可选的,该训练后识别模型可以除了可以由运维人员预先进行设置之外,也可以由该文本标签生成装置自行训练来得到。即步骤“采用训练后识别模型的编码器网络的第一注意力模块分别在多个第一表示子空间中对词的语义特征信息进行特征提取”之前,该文本标签生成方法还可以包括:
(1)采集多个文本样本对应的词集合,该文本样本对应的词集合包括已标注标签的词集合。
本发明实施例中,具体可以采集多个文本样本,比如从数据库或者网络等获取文本样本,然后对文本样本进行预处理,以得到输入至识别模型的词集合,然后,对这些预处理后的文本样本对应的词集合标注标签,即可得到多个含有标签的多个文本样本对应的词集合。
其中,预处理可以包括对文本进行分词处理,得到文本样本的词集合,当然,还可以进一步对这些文本样本进行其他的预处理操作。
(2)采用预设识别模型对文本样本对应的词集合的标签进行预测,得到预测的标签。
本发明实施例中,具体可以通过对词集合的词进行特征提取,得到词的语义特征信息,然后,对词的语义特征信息进行解析,得到词的上下文信息,对词的上下文信息进行特征提取,得到词的上下文特征,再然后,根据词的上下文信息和上下文特征,计算词的注意力信息,基于词的上下文特征和注意力信息,生成文本样本的预测标签。
(3)根据预测的标签与标注的标签对预设识别模型进行收敛,得到训练后识别模型。
本发明实施例中,可以通过插值损失函数,根据文本样本标注的标签与预测标签对预设识别模型进行收敛,得到训练后识别模型。譬如,具体可以如下:
采用Dice函数(一种损失函数),根据该文本样本标注的标签和预测标签对该识别模型的识别网络中用于上下文特征输出的参数进行调整,以及通过插值损失函数,根据文本的标注标签与预测标签对该识别模型的识别网络中用于上下文特征输出的参数进行调整,得到训练后识别模型。
可选的,为了提高上下文特征的精确性,除了采用Dice函数之外,还可以采用其他的损失函数如交叉熵损失函数来进行收敛,具体可以如下:
采用交叉熵损失函数,根据该文本样本标注的标签和预测标签对该识别模型的识别网络中用于上下文特征输出的参数进行调整,以及通过插值损失函数,根据文本的标注标签与预测标签对该识别模型的识别网络中用于上下文特征输出的参数进行调整,得到训练后识别模型,如图4所示。
104、对词的上下文信息进行特征提取,得到词的上下文特征。
其中,上下文特征可以广义的理解为词集合中各个词之间相互作用之后得到的各个词在词集合中的相关语义、语法和逻辑等特征。比如,词集合中包括“我、是、中、国、人,他、也、是”,对词“他”进行特征提取,可以得出“他”指的是“中国人”这是从语义方面的来判断的上下文特征。狭义的可以理解为通过对词集合中各个词进行解析,得到的上下文向量,可以根据上下文向量判断出词集合对应文本的含义或者结构,通过判断出的含义或者结构基于预设标签词集合与文本对应的词集合生成文本的标签。
本发明实施例中,接收到最后一层编码器网络输出的上下文信息后,对词集合每个词的上下文信息进行特征提取,得到词集合中各个词初始上下文特征。比如,可以采用训练后识别模型的解码器网络对词集合中各个词的上下文信息进行特征提取。训练后识别模型的解码器网络包括至少一个注意力模块、至少一个第二前馈神经网络和至少一个第二残差模块。譬如,具体可以如下:
将词集合中各个词的上下文信息分别输入至多个第二表示子空间,通过第二注意力模块在各个第二表示子空间中对各个词的上下文信息进行特征提取,以在一个第二表示子空间中第二注意力模块对各个词的上下文信息进行特征提取为例来说明,在各个词的上下文信息中提取键向量和值向量,解码器网络生成各个词在第二表示子空间下的中间向量,将中间向量作为查询向量。在词集合中确定目标词,通过词集合中剩余词对目标词计算自注意力进行解码。比如,可以通过剩余词的键向量与目标词的查询向量进行点积,得到目标词的自注意向量集,将词集合中各个词的自注意力向量集中的值再次进行降维,降维的方式可以为除以目标词的键向量的平方根来实现。对目标词的自注意向量集中的自注意向量与目标词对应的值向量相乘,将相乘后的结果进行加权求和,得到词集合中选定的目标词的自注意力输出,得到目标词的初始上下文信息,重复通过上述步骤,完成对词集合中剩余词的自注意力输出,最后得到词集合中所有词在各个第二表示子空间中的初始上下文特征。
在一实施例中,对各个第二表示子空间下词集合中各个词的初始上下文特征进行加权,比如,对词集合中各个词在不同的第二表示子空间下的初始上下文特征进行拼接,对拼接后的各个词的初始上下文特征进行加权,就得到融合所有第二表示子空间的各个词的融合后初始上下文特征。
在一实施例中,将得到的词集合中各个词的融合后的初始上下文特征通过第二前馈神经网络输入到第二残差模块进行特征提取。比如,通过第二前馈神经将各个词的融合后的初始上下文特征输入到第二残差模块中进行求和与归一化,得到各个词的上下文特征。
在此需要说明的是,解码器网络中的第二注意力模块也可以称之为“解码-编码注意力层”,可以将“解码-编码注意力层”、第二前馈神经网络和第二残差模块组成训练后识别模型的解码器网络,如图5所示。在对词集合中各个词的上下文信息进行特征提取得到各个词的上下文特征的过程中,可以通过多个解码器网络串联来得到。比如,第一解码器网络将词集合中各个词的上下文信息进行特征提取,得到各个词的第一层上下文特征,第二解码器网络将词集合中各个词的第一层上下文特征重复第一解码器网络的特征提取的步骤,得到第二层上下文特征,依次类推,通过多层解码器网络的特征提取得到词集合中各个词最终输出的上下文特征。其中,解码器网络的个数根据实际应用需要来进行设定。
105、根据词的上下文信息和上下文特征,计算词的注意力信息。
其中,注意力信息可以包括注意力权重信息,主要用来强调或选择目标处理对象的重要信息,并抑制一些无关的细节信息。在本发明中,主要可以包括词集合中各个词作为词集合对应文本的标签的权重信息或者概率。
本发明实施例中,在词集合中各个词的上下文信息和上下文特征分别提取注意力元素,其中,上下文信息中的注意力元素可以包括各个词的键向量和值向量组成的注意力向量集,上下文特征的注意力元素可以包括含有查询向量、键向量和值向量的上下文向量集。
在一实施例中,将词集合中各个词的上下文信息和上下文特征对应的注意力元素进行融合,比如,将上下文信息的注意力向量集和上下文特征的上下文向量集进行融合,融合的方式有多种,比如可以点积或者加权后点积,还可以进行分类组合。
在一实施例中,将词集合中各个词的注意力元素的融合结果进行特征提取,得到词集合中各个词的注意力信息。比如,可以将词集合中各个词的融合结果进行降维,对降维后的融合结果进行归一化,得到词集合中各个词的注意力信息,其中,各个词的注意力信息包括各个词的注意力权重信息,即各个词作为词集合对应文本的标签的注意力权重。
106、基于词集合中各个词的注意力信息和上下文特征,生成所述文本的标签。
其中,文本的标签可以包括文本总结性的词或词组,还可以包括对文本进行分类后的类目对应的分类词或词组等。
S1、根据词的注意力权重信息,生成词的作为文本的标签的文本标签概率。
其中,文本标签概率可以包括目标词作为文本对应标签的概率。
本发明实施例中,根据词的注意力权重信息,生成词的作为文本的标签的文本标签概率。其中,各个词的注意力权重信息可以用来关注词集合中标签选取中各个词作为标签的权重信息。比如,可以将各个词的注意力权重信息作为各个词作为文本的标签的文本标签概率。譬如,词集合中有“我、是、中国人”等词,得到的各个词的注意力权重信息为“我”对应的为0.2,“是”对应的为0.1,“中国人”对应的为0.7,则各个词的文本标签概率分别为0.2、0.1和0.7,即各个词的文本标签概率为20%、10%和70%。
其中,需要先计算一个指针概率pgen∈[0,1]
其中,向量和bptr为学习参数,σ是sigmoid函数(一种输出在0和1之间的分类函数),该指针概率用来决定从预设标签词集合中生成标签,还是从文本中复制词或词组作为标签的概率。
定义生成标签的概率为:
其中,P(w)可以为在词集合的各个词和预设标签词集合中各个预设标签词作为文本的标签的文本标签概率。Pvocab可以为预设标签词集合中选择预设标签词作为标签的文本标签概率,可以为在词集合中选择词作为标签的文本标签概率。因此可以得出用注意力权重作为输入文本的词在生成文本的标签时的额外概率,这保证了输出的标签能够跟输入的文本相对应。
S2、基于词的上下文特征,获取预设标签词集合的预设标签词作为文本的标签的文本标签概率。
其中,预设标签词集合可以为提取采集的各类标签词组成的预设标签词集合,可以根据预设标签词集合中的预设标签词的文本标签概率来选择文本的标签。
本发明实施例中,词的上下文特征可以为一个实数向量,将词集合中各个词的上下文特征分别添加至预设标签词集合中,得到预设标签词集合中各个预设标签词的特征信息。比如,将最后输出的各个词的实数向量投射到一个比它大得多的、被称作对数几率的向量里。其中,对数几率向量与预设标签词表紧密相关,比如,预设标签词表中有500个词或词组,那么对数几率可以为500个单元格长度的向量,每个词或词组对应一个单元格长度。将词集合中各个词的上下文特征投射到对数几率向量后,对对数几率向量中各个预设标签词对应的单元格的值进行加权,将加权值作为各个预设标签词的文本标签概率。譬如,词集合中包括5个词,将第1个词的上下文特征通过全连接神经网络投射到包含预设标签词集合的对数几率向量,得到对数几率向量中每个单元格的值,再将第2个词的上下文特征通过全连接神经网络投射到包含预设标签词集合的对数几率向量中,得到第二次投射后的每个单元的值,依次类推将5个词的上下文特征全部投射到包含预设标签词集合的对数几率向量,得到对数几率向量中每个单元格的最后的值,进而得到每个单元格对应的预设标签词的特征信息或者特征值。
在一实施例中,对各个预设标签词的特征信息或特征值进行加权,得到加权结果,将各个预设标签词的加权结果作为各个预设标签词的文本标签概率。比如,预设标签词集合中包含预设标签词1、预设标签词2和预设标签词3,3个预设标签词的特征信息或特征值通过Softmax层(一种神经网络中的分类模块的结构)进行加权,得到预设标签词的加权值为0.1,预设标签词2的加权值为0.2,预设标签词3的加权值为0.7,将3个预设标签词的加权值作为它们的文本标签概率,即预设标签词1的文本标签概率为0.1,预设标签词2的文本标签概率为0.2,预设标签词3的文本标签概率为0.7。
S3、根据词和预设标签词的文本标签概率,生成文本的标签。
本发明实施例中,在词集合中筛选与预设标签词集合重合的词,当存在重合的词时,对重合的词对应的文本标签概率进行调整,调整的方式有多种,可以直接相加,也可以加权后相加,以相加为例,比如,词集合中存在词1、词2和词3,分别对应的文本标签概率2%、5%和10%,预设标签词集合中存在词2、词3和词4,分别对应的文本标签概率为6%、8%和15%,筛选出重合的词为词2和词3,对词2和词3的文本标签概率进行调整,得到调整后的词2和词3的文本标签概率分别为11%和18%。根据调整后的文本标签概率,在词集合和预设标签词集合中筛选目标词,作为文本的标签。例如,可以在词集合和预设标签词集合中筛选超过预设文本标签阈值的词作为文本的标签,比如,设定文本标签概率阈值为10%,则需要从词集合和预设标签词集合中选定文本标签概率超过10%的词或词组,可以得出词2、词3和词4的文本标签概率分别超过了10%,则词2、词3和词4作为文本的标签。除了设定阈值以外,还可以对词集合和预设标签词集合中的词对应的文本标签概率进行排序,设定取文本标签概率前多少位的词集合和预设标签词集合中的词或词组,比如,可以设定文本标签概率排序中取前3或者前5的词或词组作为文本的标签。
在一实施例中,当不存在重合的词时,根据词集合中各个词和各个预设标签词的文本标签概率,在词集合和预设标签词集合中筛选目标词,作为文本的标签。比如,可以在词集合和预设标签词集合中筛选超过预设文本标签概率的词作为文本的标签。比如,词集合中存在词1、词2和词3,预设标签词集合中存在词4、词5和词6,其中,词1、词2和词3分别对应的文本标签概率为4%、10%和15%,词4、词5和词6分别对应的文本标签概率为6%、30%和50%,预设文本标签概率阈值为20%,则预设标签词集合中的词5和词6满足要求,即词5和词6作为文本的标签。除了设定阈值以外,还可以对词集合和预设标签词集合中的词对应的文本标签概率进行排序,设定取文本标签概率前多少位的词集合和预设标签词集合中的词或词组,比如,可以设定文本标签概率排序中取前3或者前5的词或词组作为文本的标签。
由以上可知,本实施例在获取文本对应的词集合后,对词集合的词进行特征提取,得到词的语义特征信息,然后,对词的语义特征信息进行解析,得到词的上下文信息,对词的上下文信息进行特征提取,得到词的上下文特征,再然后,根据词的上下文信息和上下文特征,计算词的注意力信息,基于词的上下文特征和注意力信息,生成文本的标签;由于该方案不依赖于有限的类目体系,同时又可以返回原文中的重要关键词以及不在原文中出现的标签词,因此,可以更加准确的生成资讯或文本内容的标签,提升文本标签生成的准确率。
根据上面实施例所描述的方法,以下将举例作进一步详细说明。
在本实施例中,将以该文本标签生成装置具体集成在电子设备为例进行说明。
(一)识别模型的训练
首先,电子设备可以采集多个文本样本,比如从数据库或者网络等获取文本样本,然后对文本样本进行预处理,比如对文本进行分词处理,得到文本样本的词集合,以得到输入至预设识别模型的词集合,然后,对这些预处理后的文本对应的词集合标注标签,即可得到多个含有标签的多个文本样本对应的词集合。
其次,电子设备可以将文本样本对应的词集合输入至预设识别模型,通过对词集合的词进行特征提取,得到词的语义特征信息,然后,对词的语义特征信息进行解析,得到词的上下文信息,对词的上下文信息进行特征提取,得到词的上下文特征,再然后,根据词的上下文信息和上下文特征,计算词的注意力信息,基于词的上下文特征和注意力信息,生成文本样本的预测标签。
再者,电子设备可以通过插值损失函数,根据文本样本标注的标签与预测标签对预设识别模型进行收敛,得到训练后识别模型,比如,具体可以采用交叉熵损失函数,根据该文本样本标注的标签和预测标签对该识别模型的识别网络中用于上下文特征输出的参数进行调整,以及通过插值损失函数,根据文本的标注标签与预测标签对该识别模型的识别网络中用于上下文特征输出的参数进行调整,得到训练后识别模型。
(二)通过训练后识别模型,便可以对文本生成文本对应的标签。
其中,该训练后识别模型可以包括多个编码器网络和多个解码器网络,如图6所示,其中编码器网络可以包括第一注意力模块、第一前馈神经网络和第一残差网络,解码器网络可以包括“编码-解码注意力层”(第二注意力模块)、第二前馈神经网络和第二残差网络。
如图7所示,一种文本标签生成方法,具体流程如下:
201、电子设备获取文本对应的词集合。
本发明实施例中,电子设备具体可以从资讯数据库中获取需要生成标签的文章或资讯,还可以接收用户上传的文本,比如电子书或者电子类文本。在获取到文本后需要对文本中的内容进行分词,分词的方式可以有多种,比如,基于字符串匹配的分词方法、基于理解的分词方法和/或基于统计的分词方法,还可以借助分词工具来进行分词,提取出文本中的词或词组,将提取出的词或词组进行排列组合,得到文本对应的词集合。
202、电子设备对词集合的词进行特征提取,得到词的语义特征信息。
本发明实施例中,电子设备在文本对应的词集合中将每个词进行顺序编号,可以通过词嵌入算法对词集合中每个编号的词进行特征提取,比如,将文本对应的词集合作为一个整体,词集合中编号的词就变成了一个很长的向量,向量的维度就是该词集合的大小,譬如,将词集合划分N个格,编号的词对应格定义数字1,其他格定义数字0,就得到了该编号的词在词集合中的词向量。类似操作步骤对词集合中的每个词进行词嵌入,得到词集合中每个词对应的词向量,词向量为多维向量,比如,向量的维数可以为512维也可以为256维等维数。将得到的文本对应词集合中各个词的词向量作为各个词对应的语义特征信息,该词向量中包含表示该词在文本集合中语义信息。
203、电子设备对词的语义特征信息进行解析,得到词的上下文信息。
本发明实施例中,电子设备在词集合中各个词的语义特征信息中添加各个词在词集合中对应的位置信息,比如,可以通过添加位置编码向量,通过位置编码向量确定各个词在在文本对应的词集合中的位置,可以更好的表达词与词之间的距离。在各个词的语义特征信息中添加位置编码向量后,得到各个词的更新后语义特征信息。
在一实施例中,电子设备采用训练后识别模型的编码器网络对更新后语义特征信息进行特征提取。比如,将更新后语义特征信息分别输入至多个第一表示子空间,在各个第一表示子空间中,采用第一注意力模块对各个词的更新后语义特征信息进行特征提取,以在一个第一表示子空间中对词集合中各个词的更新后语义特征信息进行提取为例来说明,对各个词的更新后语义特征信息进行降维,在降维后的语义特征信息中生成查询向量、键向量和值向量,在词集合中确定目标词,通过词集合中剩余的词对目标词计算自注意力向量,得到目标词的初始上下文信息。
其中,目标词的自注意机制输出的上下文信息的计算可以如下:
其中,qi为目标词的查询向量,KT为目标词的键向量,V为目标词的值向量,d为目标词的键向量的维数。
通过计算公式,可以看出目标词的注意力向量即初始上下文信息可以通过该目标词的三个向量进行计算得到,比如,可以通过剩余词的键向量与目标词的查询向量进行点积,得到目标词的自注意向量集,将词集合中各个词的自注意力向量集中的值再次进行降维,降维的方式可以为除以目标词的键向量的平方根来实现。对目标词的自注意向量集中的自注意向量与目标词对应的值向量相乘,将相乘后的结果进行加权求和,得到词集合中选定的目标词的自注意力输出,得到目标词的初始上下文信息,重复通过上述步骤,完成对词集合中剩余词的自注意力输出,最后得到词集合中各个词在不同第一表示子空间中的初始上下文信息。
在一实施例中,电子设备对各个第一表示子空间下的词集合中各个词的初始上下文信息进行加权,比如,对各个词在不同的第一表示子空间下的初始上下文信息进行拼接,对拼接后的各个词的初始上下文信息进行加权,就得到融合所有第一表示子空间的融合后初始上下文信息,通过第一前馈神经将各个词的融合后的初始上下文信息输入到第一残差模块中进行求和与归一化,得到各个词的上下文信息。
204、电子设备对词的上下文信息进行特征提取,得到词的上下文特征。
本发明实施例中,电子设备接收到最后一层编码器网络输出的上下文信息后,可以采用采用训练后识别模型的解码器网络对词集合中各个词的上下文信息进行特征提取。具体可以如下:
电子设备将各个词的上下文信息分别输入至多个第二表示子空间,通过第二注意力模块在各个表示子空间中对各个词的上下文信息进行特征提取,以在一个第二表示子空间中对各个词的上下文信息进行特征提取为例来说明,在各个词的上下文信息中提取键向量和值向量,解码器网络生成各个词在第二表示子空间下的中间向量,将中间向量作为查询向量。在词集合中确定目标词,通过词集合中剩余词对目标词计算自注意力进行解码。比如,可以通过剩余词的键向量与目标词的查询向量进行点积,得到目标词的自注意向量集,将词集合中各个词的自注意力向量集中的值再次进行降维,降维的方式可以为除以目标词的键向量的平方根来实现。对目标词的自注意向量集中的自注意向量与目标词对应的值向量相乘,将相乘后的结果进行加权求和,得到词集合中选定的目标词的自注意力输出,得到目标词的初始上下文信息,重复通过上述步骤,完成对词集合中剩余词的自注意力输出,最后得到词集合中所有词在各个第二表示子空间中的初始上下文特征。
在一实施例中,电子设备对各个第二表示子空间下各个词的初始上下文特征进行加权,比如,对各个词在不同的第二表示子空间下的初始上下文特征进行拼接,对拼接后的各个词的初始上下文特征进行加权,就得到融合所有第二表示子空间的各个词的融合后初始上下文特征,通过第二前馈神经将各个词的融合后初始上下文特征输入到第二残差模块中进行求和与归一化,得到各个词的上下文特征。
205、电子设备根据词的上下文信息和上下文特征,计算词的注意力信息。
本发明实施例中,电子设备在词集合中各个词的上下文信息和上下文特征分别提取注意力元素,其中,上下文信息中的注意力元素可以包括各个词的键向量和值向量组成的注意力向量集,上下文特征的注意力元素可以包括含有查询向量、键向量和值向量的上下文向量集。
在一实施例中,电子设备将词集合中各个词的上下文信息和上下文特征对应的注意力元素进行融合,比如,将上下文信息的注意力向量集和上下文特征的上下文向量集进行融合,融合的方式有多种,比如可以点积或者加权后点积,还可以进行分类组合。
在一实施例中,电子设备将词集合中各个词的注意力元素的融合结果进行特征提取,得到词集合中各个词的注意力信息。比如,可以将词集合中各个词的融合结果进行降维,对降维后的融合结果进行归一化,得到词集合中各个词的注意力信息,其中,各个词的注意力信息包括各个词的注意力权重信息,即各个词作为词集合对应文本的标签的注意力权重。
206、电子设备根据词的注意力权重信息,生成词的作为文本的标签的文本标签概率。
本发明实施例中,电子设备根据词的注意力权重信息,生成词的作为文本的标签的文本标签概率。其中,各个词的注意力权重信息可以用来关注词集合中标签选取中各个词作为标签的权重信息。比如,可以将各个词的注意力权重信息作为各个词作为文本的标签的文本标签概率。譬如,词集合中有“我、是、中国人”等词,得到的各个词的注意力权重信息为“我”对应的为0.2,“是”对应的为0.1,“中国人”对应的为0.7,则各个词的文本标签概率分别为0.2、0.1和0.7,即各个词的文本标签概率为20%、10%和70%。
207、电子设备基于词的上下文特征,获取预设标签词集合的预设标签词作为文本的标签的文本标签概率。
本发明实施例中,各个词的上下文特征可以为一个实数向量,电子设备将词集合中各个词的上下文特征分别添加至预设标签词集合中,得到预设标签词集合中各个预设标签词的特征信息。将各个词的上下文特征投射到对数几率向量后,对对数几率向量中各个预设标签词对应的单元格的值进行加权,将加权值作为各个预设标签词的文本标签概率。
在一实施例中,电子设备对各个预设标签词的特征信息或特征值进行加权,得到加权结果,将各个预设标签词的加权结果作为各个预设标签词的文本标签概率。比如,预设标签词集合中包含预设标签词1、预设标签词2和预设标签词3,3个预设标签词的特征信息或特征值通过Softmax层(一种神经网络中的分类模块的结构)进行加权,得到预设标签词的加权值为0.1,预设标签词2的加权值为0.2,预设标签词3的加权值为0.7,将3个预设标签词的加权值作为它们的文本标签概率,即预设标签词1的文本标签概率为0.1,预设标签词2的文本标签概率为0.2,预设标签词3的文本标签概率为0.7。
208、电子设备根据词和预设标签词的文本标签概率,生成文本的标签。
本发明实施例中,电子设备在词集合中筛选与预设标签词集合重合的词,当存在重合的词时,对重合的词对应的文本标签概率进行调整,根据调整后的文本标签概率,在词集合和预设标签词集合中筛选目标词,作为文本的标签。筛选的方式可以有多种,比如,可以在词集合和预设标签词集合中筛选超过预设文本标签阈值的词作为文本的标签。除了设定阈值以外,还可以对词集合和预设标签词集合中的词对应的文本标签概率进行排序,设定取文本标签概率前多少位的词集合和预设标签词集合中的词或词组,比如,可以设定文本标签概率排序中取前3或者前5的词或词组作为文本的标签。
在一实施例中,当不存在重合的词时,电子设备根据词集合中各个词和各个预设标签词的文本标签概率,在词集合和预设标签词集合中筛选目标词,作为文本的标签。筛选的方式有多种,比如可以在词集合和预设标签词集合中筛选超过预设文本标签概率的词作为文本的标签,还可以对词集合和预设标签词集合中的词对应的文本标签概率进行排序,设定取文本标签概率前多少位的词集合和预设标签词集合中的词或词组,比如,可以设定文本标签概率排序中取前3或者前5的词或词组作为文本的标签。
由以上可知,本实施例电子设备在获取文本对应的词集合后,对词集合的词进行特征提取,得到词的语义特征信息,然后,对词的语义特征信息进行解析,得到词的上下文信息,对词的上下文信息进行特征提取,得到词的上下文特征,再然后,根据词的上下文信息和上下文特征,计算词的注意力信息,基于词的上下文特征和注意力信息,生成文本的标签;由于该方案不依赖于有限的类目体系,同时又可以返回原文中的重要关键词以及不在原文中出现的标签词,因此,可以更加准确的生成资讯或文本内容的标签,提升文本标签生成的准确率。
为了更好地实施以上方法,本发明实施例还提供一种文本标签生成装置,该文本标签生成装置可以集成在电子设备,比如服务器或终端等设备中,该终端可以包括平板电脑、笔记本电脑和/或个人计算机等。
例如,如图8所示,该文本标签生成装置可以包括获取单元301、第一提取单元302、解析单元303、第二提取单元304、计算单元305和生成单元306,如下:
(1)获取单元301;
获取单元301,用于获取文本对应的词集合。
例如,获取单元301,具体可以用于从资讯数据库中获取需要生成标签的文章或资讯,还可以接收用户上传的文本,获取到文本后需要对文本中的内容进行分词,提取出文本中的词或词组,将提取出的词或词组进行排列组合,得到文本对应的词集合。
(2)第一提取单元302;
第一提取单元302,用于对所述词集合的词进行特征提取,得到所述词的语义特征信息。
例如,第一提取单元302,具体可以用于在文本对应的词集合中将每个词进行顺序编号,可以通过词嵌入算法对词集合中每个编号的词进行特征提取。
(3)解析单元303;
解析单元303,用于对所述词的语义特征信息进行解析,得到所述词的上下文信息。
其中,解析单元303可以包括第一提取子单元3031、第一加权子单元3032和第二提取子单元3033,如图9所示,具体如下:
第一提取子单元3031,用于采用训练后识别模型的编码器网络中的第一注意力模块分别在多个第一表示子空间中对各个词的语义特征信息进行特征提取,得到各个词初始上下文信息;
第一加权子单元3032,用于对各个词的初始上下文信息进行加权;
第二提取子单元3033,用于将各个词的加权结果通过第一前馈神经网络输入到第一残差模块进行特征提取,得到词集合中各个词的上下文信息。
例如,第一提取子单元3031采用训练后识别模型的编码器网络中的第一注意力模块分别在多个第一表示子空间中对各个词的语义特征信息进行特征提取,得到各个词初始上下文信息,加权子单元3032对各个词的初始上下文信息进行加权,第二提取子单元3033将各个词的加权结果通过第一前馈神经网络输入到第一残差模块进行特征提取,得到词集合中各个词的上下文信息。
(4)第二提取单元304;
第二提取单元304,用于对所述词集合中各个词的上下文信息进行特征提取,得到所述词集合中各个词的上下文特征。
其中,第二提取单元304可以包括第三提取子单元3041、第二加权子单元3042和第四提取子单元3043,如图10所示,具体如下:
第三提取子单元3041,用于采用训练后识别模型的解码器网络中的第二注意力模块分别在多个第二表示子空间中对各个词的上下文信息进行特征提取,得到各个词初始上下文特征;
第二加权子单元3042,用于对各个词的初始上下文特征进行加权;
第四提取子单元3043,用于将各个词的加权结果通过第二前馈神经网络输入到第二残差模块进行特征提取,得到词集合中各个词的上下文特征。
例如,第三提取子单元3041采用训练后识别模型的解码器网络中的第二注意力模块分别在多个第二表示子空间中对各个词的上下文信息进行特征提取,得到各个词初始上下文特征,第二加权子单元3042对各个词的初始上下文特征进行加权,第四提取子单元3043将各个词的加权结果通过第二前馈神经网络输入到第二残差模块进行特征提取,得到词集合中各个词的上下文特征。
(5)计算单元305;
计算单元305,用于根据词的上下文信息和上下文特征,计算该词的注意力信息,该注意力信息为关注所述词集合中词被选为标签的信息。
例如,计算单元305,用于在所述词的上下文信息和所述上下文特征中分别提取注意力元素,将所述上下文信息和所述上下文特征分别对应的注意力元素进行融合,对将所述注意力元素的融合结果进行特征提取,得到所述词的注意力信息。
(6)生成单元306;
生成单元306,用于基于词的上下文特征和注意力信息,生成文本的标签。
其中,生成单元306可以包括第五提取子单元3061、获取子单元3062和生成子单元3063,如图11所示,具体如下:
第一生成子单元3061,用于根据词的注意力权重信息,生成所述词的作为所述文本的标签的文本标签概率;
获取子单元3062,用于基于词的上下文特征,获取预设标签词集合的预设标签词作为文本的标签的文本标签概率;
第二生成子单元3063,用于根据词和预设标签词的文本标签概率,生成文本的标签。
例如,第一生成子单元3061根据词的注意力权重信息,生成所述词的作为所述文本的标签的文本标签概率,获取子单元3062基于词的上下文特征,获取预设标签词集合的预设标签词作为文本的标签的文本标签概率,第二生成子单元3063根据词和预设标签词的文本标签概率,生成文本的标签。
可选的,该训练后识别模型可以除了由运维人员预先进行设置之外,也可以由该识别模型自行训练来得到。即如图12所示,该识别模型还可以包括采集单元307和训练单元308,如下:
采集单元307,用于采集多个文本样本对应的词集合,所述文本样本对应的词集合包括已标注标签的词集合。
例如,采集单元307采集多个文本样本,比如从数据库或者网络等获取文本样本,然后对文本样本进行预处理,以得到输入至识别模型的词集合,然后,对这些预处理后的文本标注文本标签,即可得到多个含有标签的多个文本样本对应的词集合。
训练单元308,用于采用预设识别网络对该文本样本的标签进行预测,得到预测标签,根据预测标签与标注标签对预设识别模型进行收敛,得到训练后识别模型。
例如,训练单元308,具体可以通过对词集合的词进行特征提取,得到词的语义特征信息,然后,对词的语义特征信息进行解析,得到词的上下文信息,对词的上下文信息进行特征提取,得到词的上下文特征,再然后,根据词的上下文信息和上下文特征,计算词的注意力信息,基于词的上下文特征和注意力信息,生成文本样本的预测标签;此后,便可以根据预测标签与标注标签对预设识别模型进行收敛,得到训练后识别模型。
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
由以上可知,本实施例在获取单元301获取文本对应的词集合后,第一提取单元302对词集合的词进行特征提取,得到词的语义特征信息,然后,解析单元303对词的语义特征信息进行解析,得到词的上下文信息,第二提取单元304对词的上下文信息进行特征提取,得到词的上下文特征,再然后,计算单元305根据词的上下文信息和上下文特征,计算词的注意力信息,生成单元306基于词的上下文特征和注意力信息,生成文本的标签;由于该方案不依赖于有限的类目体系,同时又可以返回原文中的重要关键词以及不在原文中出现的标签词,因此,可以更加准确的生成资讯或文本内容的标签,提升文本标签生成的准确率。
本发明实施例还提供一种电子设备,如图13所示,其示出了本发明实施例所涉及的电子设备的结构示意图,具体来讲:
该电子设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图13中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
电子设备还包括给各个部件供电的电源403,优选的,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该电子设备还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,电子设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,电子设备中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:
获取文本对应的词集合,对词集合的词进行特征提取,得到词的语义特征信息,对词的语义特征信息进行解析,得到词的上下文信息,对词的上下文信息进行特征提取,得到词的上下文特征,根据词的上下文信息和上下文特征,计算词的注意力信息,基于词的上下文特征和注意力信息,生成文本的标签。
例如,具体可以通过获取文本,对文本进行分词得到文本对应的词集合,通过词嵌入算法对词集合中各个词进行特征提取,得到词集合中各个词的语义特征信息,然后,在各个词的语义特征信息中添加各个词在词集合中对应的位置信息,得到更新后语义特征信息,采用训练后识别模型的编码器网络的第一注意力模块在多个第一表示子空间中对更新后语义特征信息进行特征提取,得到各个词的初始上下文信息,对各个词的初始上下文信息进行加权,将得到的各个词的融合后初始上下文信息通过第一前馈神经网络输入到第一残差模块进行特征提取,得到词集合中各个词的上下文信息。采用训练后识别模型的编码器网络对各个词的上下文信息进行特征提取,得到各个词的上下文特征,在各个词的上下文信息和上下文特征分别提取注意力元素,将各个词的上下文信息和上下文特征对应的注意力元素进行融合,将各个词的注意力元素的融合结果进行特征提取,得到词集合中各个词的注意力信息。根据各个词的注意力信息中的注意力权重信息,生成词集合中各个词作为文本的标签的文本标签概率,基于词的上下文特征,获取预设标签词集合的预设标签词作为文本的标签的文本标签概率,根据词和预设标签词的文本标签概率,生成文本的标签。
可选的,该训练后识别模型可以除了可以由运维人员预先进行设置之外,也可以由该文本标签生成装置自行训练来得到,即该指令还可以执行如下步骤:
采集多个文本样本对应的词集合,所述文本样本对应的词集合包括已标注标签的文本样本对应的词集合,采用预设识别网络对文本样本的标签进行预测,得到预测标签,根据预测标签与标注的标签对预设识别模型进行收敛,得到训练后识别模型。
以上各个操作的具体实施可参见前面的实施例,在此不作赘述。
由以上可知,本发明实施例的电子设备在获取文本对应的词集合后,对词集合的词进行特征提取,得到词的语义特征信息,然后,对词的语义特征信息进行解析,得到词的上下文信息,对词的上下文信息进行特征提取,得到词的上下文特征,再然后,根据词的上下文信息和上下文特征,计算词的注意力信息,基于词的上下文特征和注意力信息,生成文本的标签;由于该方案不依赖于有限的类目体系,同时又可以返回原文中的重要关键词以及不在原文中出现的标签词,因此,可以更加准确的生成资讯或文本内容的标签,提升文本标签生成的准确率。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本发明实施例提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本发明实施例所提供的任一种文本标签生成方法中的步骤。例如,该指令可以执行如下步骤:
获取文本对应的词集合,对词集合的词进行特征提取,得到词的语义特征信息,对词的语义特征信息进行解析,得到词的上下文信息,对词的上下文信息进行特征提取,得到词的上下文特征,根据词的上下文信息和上下文特征,计算词的注意力信息,基于词的上下文特征和注意力信息,生成文本的标签。
例如,具体可以通过获取文本,对文本进行分词得到文本对应的词集合,通过词嵌入算法对词集合中各个词进行特征提取,得到词集合中各个词的语义特征信息,然后,在各个词的语义特征信息中添加各个词在词集合中对应的位置信息,得到更新后语义特征信息,采用训练后识别模型的编码器网络的第一注意力模块在多个第一表示子空间中对更新后语义特征信息进行特征提取,得到各个词的初始上下文信息,对各个词的初始上下文信息进行加权,将得到的各个词的融合后初始上下文信息通过第一前馈神经网络输入到第一残差模块进行特征提取,得到词集合中各个词的上下文信息。采用训练后识别模型的编码器网络对各个词的上下文信息进行特征提取,得到各个词的上下文特征,在各个词的上下文信息和上下文特征分别提取注意力元素,将各个词的上下文信息和上下文特征对应的注意力元素进行融合,将各个词的注意力元素的融合结果进行特征提取,得到词集合中各个词的注意力信息。根据各个词的注意力信息中的注意力权重信息,生成词集合中各个词作为文本的标签的文本标签概率,基于词的上下文特征,获取预设标签词集合的预设标签词作为文本的标签的文本标签概率,根据词和预设标签词的文本标签概率,生成文本的标签。
可选的,该训练后识别模型可以除了可以由运维人员预先进行设置之外,也可以由该文本标签生成装置自行训练来得到,即该指令还可以执行如下步骤:
采集多个文本样本对应的词集合,所述文本样本对应的词集合包括已标注标签的文本样本对应的词集合,采用预设识别网络对文本样本的标签进行预测,得到预测标签,根据预测标签与标注的标签对预设识别模型进行收敛,得到训练后识别模型。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该计算机可读存储介质中所存储的指令,可以执行本发明实施例所提供的任一种文本标签生成方法中的步骤,因此,可以实现本发明实施例所提供的任一种文本标签生成方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本发明实施例所提供的一种文本标签生成方法、装置和计算机可读存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种文本标签生成方法,其特征在于,包括:
获取文本对应的词集合;
对所述词集合的词进行特征提取,得到所述词的语义特征信息;
对所述词的语义特征信息进行解析,得到所述词的上下文信息;
对所述词的上下文信息进行特征提取,得到所述词的上下文特征;
根据所述词的上下文信息和上下文特征,计算所述词的注意力权重信息,所述注意力权重信息为关注所述词集合中词被选为标签的信息;
根据所述词的注意力权重信息,生成所述词的作为所述文本的标签的文本标签概率;
基于所述词的上下文特征,获取预设标签词集合的预设标签词作为所述文本的标签的文本标签概率;
在所述词集合中筛选与预设标签词集合中重合的词;
当存在所述重合的词时,对所述重合的词对应的文本标签概率进行调整,基于调整后的文本标签概率,在所述词集合和所述预设标签词集合中筛选目标词,作为所述文本的标签;或者,
当不存在所述重合的词时,根据所述词和所述预设标签词的文本标签概率,在所述词集合和所述预设标签词集合中筛选目标词,作为所述文本的标签。
2.根据权利要求1所述的文本标签生成方法,其特征在于,基于所述词的上下文特征,获取预设标签词集合的预设标签词作为所述文本的标签的文本标签概率,包括:
将所述词的上下文特征添加至所述预设标签词集合,得到所述预设标签词集合的预设标签词的特征信息;
对所述预设标签词的特征信息进行加权,得到加权结果;
根据加权结果,生成所述预设标签词作为所述文本的标签的文本标签概率。
3.根据权利要求1或2所述的文本标签生成方法,其特征在于,对所述语义特征信息进行解析,得到所述词的上下文信息,包括:
采用训练后识别模型的编码器网络的第一注意力模块分别在多个第一表示子空间中对所述词的语义特征信息进行特征提取,得到所述词的初始上下文信息,所述训练后识别模型的编码器网络包括至少一个第一前馈神经网络和至少一个第一残差模块;
对所述词的初始上下文信息进行加权;
将所述词的加权结果通过所述第一前馈神经网络输入到所述第一残差模块进行特征提取,得到所述词的上下文信息。
4.根据权利要求3所述的文本标签生成方法,其特征在于,采用训练后识别模型的编码器网络的第一注意力模块分别在多个第一表示子空间中对所述词的语义特征信息进行特征提取,得到所述词的初始上下文信息,包括:
在所述词的语义特征信息中添加所述词在所述词集合中对应的位置信息,得到所述词的更新后语义特征信息;
将所述词的更新后语义特征信息分别输入至多个所述第一表示子空间;
采用所述训练后识别模型的编码器网络的第一注意力模块在所述多个第一表示子空间中分别对所述词的更新后语义特征信息进行特征提取,得到所述词的初始上下文信息。
5.根据权利要求3所述的文本标签生成方法,其特征在于,采用训练后识别模型的编码器网络的第一注意力模块分别在多个第一表示子空间中对所述词的语义特征信息进行特征提取之前,还包括:
采集多个文本样本对应的词集合,所述文本样本对应的词集合包括已标注标签的词集合;
采用预设识别模型对所述文本样本对应的词集合的标签进行预测,得到预测标签;
根据所述预测标签与标注的标签对所述预设识别模型进行收敛,得到训练后识别模型。
6.根据权利要求1或2所述的文本标签生成方法,其特征在于,对所述词的上下文信息进行特征提取,得到所述词的上下文特征,包括:
采用训练后识别模型的解码器网络的第二注意力模块分别在多个第二表示子空间中对所述词的上下文信息进行特征提取,得到所述词的初始上下文特征,所述训练后识别模型的解码器网络包括至少一个第二前馈神经网络和至少一个第二残差模块;
对所述词的初始上下文特征进行加权;
将所述词的加权结果通过所述第二前馈神经网络输入至所述第二残差模块进行特征提取,得到所述词的上下文特征。
7.根据权利要求1或2所述的文本标签生成方法,其特征在于,根据所述词的上下文信息和上下文特征,计算所述词的注意力信息,包括:
在所述词的上下文信息和所述上下文特征中分别提取注意力元素;
将所述上下文信息和所述上下文特征分别对应的注意力元素进行融合;
对将所述注意力元素的融合结果进行特征提取,得到所述词的注意力信息。
8.一种文本标签生成装置,其特征在于,包括:
获取单元,用于获取文本对应的词集合;
第一提取单元,用于对所述词集合的词进行特征提取,得到所述词的语义特征信息;
解析单元,用于对所述词的语义特征信息进行解析,得到所述词的上下文信息;
第二提取单元,用于对所述词的上下文信息进行特征提取,得到所述词的上下文特征;
计算单元,用于根据所述词的上下文信息和上下文特征,计算所述词的注意力权重信息,所述注意力权重信息为关注所述词集合中词被选为标签的信息;
生成单元,用于根据所述词的注意力权重信息,生成所述词的作为所述文本的标签的文本标签概率;以及基于所述词的上下文特征,获取预设标签词集合的预设标签词作为所述文本的标签的文本标签概率;以及在所述词集合中筛选与预设标签词集合中重合的词;当存在所述重合的词时,对所述重合的词对应的文本标签概率进行调整,基于调整后的文本标签概率,在所述词集合和所述预设标签词集合中筛选目标词,作为所述文本的标签;或者,当不存在所述重合的词时,根据所述词和所述预设标签词的文本标签概率,在所述词集合和所述预设标签词集合中筛选目标词,作为所述文本的标签。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至7任一项所述的文本标签生成方法中的步骤。
10.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有计算机程序,所述计算机程序适于所述处理器加载,以执行权利要求1-7任一项所述的文本标签生成方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910802285.3A CN110580292B (zh) | 2019-08-28 | 2019-08-28 | 一种文本标签生成方法、装置和计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910802285.3A CN110580292B (zh) | 2019-08-28 | 2019-08-28 | 一种文本标签生成方法、装置和计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110580292A CN110580292A (zh) | 2019-12-17 |
CN110580292B true CN110580292B (zh) | 2023-11-03 |
Family
ID=68811985
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910802285.3A Active CN110580292B (zh) | 2019-08-28 | 2019-08-28 | 一种文本标签生成方法、装置和计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110580292B (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111177569B (zh) * | 2020-01-07 | 2021-06-11 | 腾讯科技(深圳)有限公司 | 基于人工智能的推荐处理方法、装置及设备 |
CN111553363B (zh) * | 2020-04-20 | 2023-08-04 | 北京易道博识科技有限公司 | 一种端到端的图章识别方法及系统 |
CN111709248B (zh) * | 2020-05-28 | 2023-07-11 | 北京百度网讯科技有限公司 | 文本生成模型的训练方法、装置及电子设备 |
CN111639185B (zh) * | 2020-06-04 | 2023-06-02 | 虎博网络技术(上海)有限公司 | 关系信息抽取方法、装置、电子设备和可读存储介质 |
CN111767727B (zh) * | 2020-06-24 | 2024-02-06 | 北京奇艺世纪科技有限公司 | 数据处理方法及装置 |
CN112000822B (zh) * | 2020-08-21 | 2024-05-14 | 北京达佳互联信息技术有限公司 | 多媒体资源排序方法、装置、电子设备及存储介质 |
CN112131350B (zh) * | 2020-09-30 | 2024-04-30 | 腾讯科技(深圳)有限公司 | 文本标签确定方法、装置、终端及可读存储介质 |
CN112214591B (zh) * | 2020-10-29 | 2023-11-07 | 腾讯科技(深圳)有限公司 | 一种对话预测的方法及装置 |
CN112800226A (zh) * | 2021-01-29 | 2021-05-14 | 上海明略人工智能(集团)有限公司 | 用于获取文本分类模型的方法、用于文本分类的方法、装置及设备 |
CN113220872A (zh) * | 2021-02-08 | 2021-08-06 | 民生科技有限责任公司 | 一种文档标签生成方法、系统及可读存储介质 |
CN112800234B (zh) * | 2021-04-15 | 2021-06-22 | 腾讯科技(深圳)有限公司 | 信息处理方法、装置、电子设备和存储介质 |
CN113158051B (zh) * | 2021-04-23 | 2022-11-18 | 山东大学 | 一种基于信息传播和多层上下文信息建模的标签排序方法 |
CN113268614A (zh) * | 2021-05-25 | 2021-08-17 | 平安银行股份有限公司 | 标签体系更新方法、装置、电子设备及可读存储介质 |
CN113255780B (zh) * | 2021-05-28 | 2024-05-03 | 润联智能科技股份有限公司 | 一种减速箱故障预测方法、装置、计算机设备及存储介质 |
CN113822074B (zh) * | 2021-06-21 | 2024-05-10 | 腾讯科技(深圳)有限公司 | 内容分类方法、装置、电子设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109885673A (zh) * | 2019-02-13 | 2019-06-14 | 北京航空航天大学 | 一种基于预训练语言模型的自动文本摘要方法 |
CN110162749A (zh) * | 2018-10-22 | 2019-08-23 | 哈尔滨工业大学(深圳) | 信息提取方法、装置、计算机设备及计算机可读存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107293296B (zh) * | 2017-06-28 | 2020-11-20 | 百度在线网络技术(北京)有限公司 | 语音识别结果纠正方法、装置、设备及存储介质 |
-
2019
- 2019-08-28 CN CN201910802285.3A patent/CN110580292B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110162749A (zh) * | 2018-10-22 | 2019-08-23 | 哈尔滨工业大学(深圳) | 信息提取方法、装置、计算机设备及计算机可读存储介质 |
CN109885673A (zh) * | 2019-02-13 | 2019-06-14 | 北京航空航天大学 | 一种基于预训练语言模型的自动文本摘要方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110580292A (zh) | 2019-12-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110580292B (zh) | 一种文本标签生成方法、装置和计算机可读存储介质 | |
CN108363790B (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
CN110928994B (zh) | 相似案例检索方法、相似案例检索装置和电子设备 | |
CN112131350B (zh) | 文本标签确定方法、装置、终端及可读存储介质 | |
CN111401077B (zh) | 语言模型的处理方法、装置和计算机设备 | |
CN110796160A (zh) | 一种文本分类方法、装置和存储介质 | |
CN112036168B (zh) | 事件主体识别模型优化方法、装置、设备及可读存储介质 | |
CN111985228A (zh) | 文本关键词提取方法、装置、计算机设备和存储介质 | |
CN112101010B (zh) | 一种基于bert的电信行业oa办公自动化文稿审核的方法 | |
CN111414513B (zh) | 音乐流派的分类方法、装置及存储介质 | |
CN112307770A (zh) | 敏感信息的检测方法、装置、电子设备及存储介质 | |
CN115017266A (zh) | 一种基于文本检测和语义匹配的场景文本检索模型、方法及计算机设备 | |
CN115168541A (zh) | 基于框架语义映射和类型感知的篇章事件抽取方法及系统 | |
CN115859980A (zh) | 一种半监督式命名实体识别方法、系统及电子设备 | |
CN112434166A (zh) | 基于时效性的文本分类方法、装置、设备及存储介质 | |
CN114444476B (zh) | 信息处理方法、装置和计算机可读存储介质 | |
CN116304042A (zh) | 一种基于多模态特征自适应融合的虚假新闻检测方法 | |
CN116628186A (zh) | 文本摘要生成方法及系统 | |
CN110659392A (zh) | 检索方法及装置、存储介质 | |
CN116842936A (zh) | 关键词识别方法、装置、电子设备和计算机可读存储介质 | |
CN115186085A (zh) | 回复内容处理方法以及媒体内容互动内容的交互方法 | |
KR102215259B1 (ko) | 주제별 단어 또는 문서의 관계성 분석 방법 및 이를 구현하는 장치 | |
CN114911922A (zh) | 一种情感分析方法、装置和存储介质 | |
CN114595324A (zh) | 电网业务数据分域的方法、装置、终端和非暂时性存储介质 | |
CN109388800B (zh) | 一种基于加窗词向量特征的短文本情感分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40018730 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |