CN110472198B - 一种关键词的确定方法、文本处理的方法及服务器 - Google Patents

一种关键词的确定方法、文本处理的方法及服务器 Download PDF

Info

Publication number
CN110472198B
CN110472198B CN201810444290.7A CN201810444290A CN110472198B CN 110472198 B CN110472198 B CN 110472198B CN 201810444290 A CN201810444290 A CN 201810444290A CN 110472198 B CN110472198 B CN 110472198B
Authority
CN
China
Prior art keywords
information
trained
group
word
dialog
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810444290.7A
Other languages
English (en)
Other versions
CN110472198A (zh
Inventor
李菁
宋彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201810444290.7A priority Critical patent/CN110472198B/zh
Publication of CN110472198A publication Critical patent/CN110472198A/zh
Application granted granted Critical
Publication of CN110472198B publication Critical patent/CN110472198B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明实施例公开了一种文本处理的方法,包括:获取目标对话组信息,其中,所述目标对话组信息中包括目标文本信息;通过关键词抽取模型获取所述目标文本信息所对应的目标标签序列,其中,所述关键词抽取模型为根据待训练文本信息以及待训练附属信息训练得到的,所述待训练附属信息与所述待训练文本信息具有关联关系,所述目标标签序列用于表示目标关键词在所述目标文本信息中的位置;根据所述目标标签序列确定所述目标文本信息中的目标关键词。本发明实施例还提供一种服务器。本发明实施例可以有效地提升关键词获取的可靠性,同时解决了单条文本信息数据稀疏,信息量缺乏的问题。

Description

一种关键词的确定方法、文本处理的方法及服务器
技术领域
本发明涉及人工智能领域,尤其涉及一种关键词确定的方法、文本处理的方法及服务器。
背景技术
随着互联网的高速发展,上网娱乐已经成为很多人的爱好。在互联网业务中,关键词的确定是非常重要的。这是因为关键词能够表达一句话或者一段话的核心,无论在电商行业、社交平台还是搜索引擎中,关键词的作用都是至关重要的。
社交媒体中的文本信息具有长度短和信息量少等特点。使用单条文本信息作为关键词抽取的目标文本,会引发数据稀疏等问题。为避免和解决这类问题,目标可以采用如下方式:首先需要对多条内容相似的文本信息进行聚类,得到文本信息集合,然后对每个分类下的文本信息集合进行关键词抽取,由此得到关键词。
然而,通过文本信息集合抽取关键词,虽然能够解决数据稀疏的问题,但是采用该方法所抽取到的关键词是多条文本信息的共享关键词,而非某条文本信息特有的关键词,当单条文本信息中包含特有的关键词时,那么这部分关键词往往会被忽略,从而降低关键词获取的可靠性。
发明内容
本发明实施例提供了一种关键词的确定方法、文本处理的方法及服务器,可以有效地提升关键词获取的可靠性,同时解决了单条文本信息数据稀疏,信息量缺乏的问题。
有鉴于此,本发明的第一方面提供了一种关键词的确定方法,包括:
获取待训练对话组信息集合,其中,所述待训练对话组信息集合中包括N个待训练对话组信息,所述待训练对话组信息包括待训练文本信息以及与所述待训练文本信息关联的待训练附属信息,所述N为大于或等于1的整数;
对所述N个待训练对话组信息进行编码处理,得到每个待训练对话组信息所对应的对话组特征信息;
根据所述每个待训练对话组信息所对应的对话组特征信息,以及每个待训练文本信息所对应的标签序列,训练得到关键词抽取模型,其中,所述标签序列用于表示所述待训练文本信息中每个词语关键词之间的关系;
获取目标对话组信息,其中,所述目标对话组信息中包括目标文本信息;
通过所述关键词抽取模型获取所述目标文本信息所对应的目标标签序列,其中,所述目标标签序列用于表示目标关键词在所述目标文本信息中的位置;
根据所述目标标签序列确定所述目标文本信息中的目标关键词。
本发明的第二方面提供了一种文本处理的方法,包括:
获取目标对话组信息,其中,所述目标对话组信息中包括目标文本信息;
通过关键词抽取模型获取所述目标文本信息所对应的目标标签序列,其中,所述关键词抽取模型为根据待训练文本信息以及待训练附属信息训练得到的,所述待训练附属信息与所述待训练文本信息具有关联关系,所述目标标签序列用于表示目标关键词在所述目标文本信息中的位置;
根据所述目标标签序列确定所述目标文本信息中的目标关键词。
本发明的第三方面提供了一种服务器,包括:
获取模块,用于获取目标对话组信息,其中,所述目标对话组信息中包括目标文本信息;
所述获取模块,还用于通过关键词抽取模型获取所述目标文本信息所对应的目标标签序列,其中,所述关键词抽取模型为根据待训练文本信息以及待训练附属信息训练得到的,所述待训练附属信息与所述待训练文本信息具有关联关系,所述目标标签序列用于表示目标关键词在所述目标文本信息中的位置;
确定模块,用于根据所述获取模块获取的所述目标标签序列确定所述目标文本信息中的目标关键词。
本发明的第四方面提供了一种服务器,包括:存储器、收发器、处理器以及总线系统;
其中,所述存储器用于存储程序;
所述处理器用于执行所述存储器中的程序,包括如下步骤:
获取目标对话组信息,其中,所述目标对话组信息中包括目标文本信息;
通过关键词抽取模型获取所述目标文本信息所对应的目标标签序列,其中,所述关键词抽取模型为根据待训练文本信息以及待训练附属信息训练得到的,所述待训练附属信息与所述待训练文本信息具有关联关系,所述目标标签序列用于表示目标关键词在所述目标文本信息中的位置;
根据所述目标标签序列确定所述目标文本信息中的目标关键词;
所述总线系统用于连接所述存储器以及所述处理器,以使所述存储器以及所述处理器进行通信。
本发明的第五方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面的方法。
从以上技术方案可以看出,本发明实施例具有以下优点:
本发明实施例中,提供了一种文本处理的方法,首先服务器获取目标对话组信息,其中,目标对话组信息中包括目标文本信息,然后服务器通过关键词抽取模型获取目标对话组信息所对应的目标标签序列,其中,关键词抽取模型为根据待训练文本信息以及待训练附属信息训练得到的,待训练附属信息与待训练文本信息具有关联关系,目标标签序列用于表示目标关键词在目标文本信息中的位置,最后,服务器可以根据目标标签序列确定目标文本信息中的目标关键词。通过上述方式,在训练关键词抽取模型时采用了与待训练文本信息相关的待训练附属信息,待训练附属信息即包括评论信息和转发信息,这类信息可能包含待训练文本信息的背景知识和大众观点,以此作为信息扩充,有利于提升关键词抽取模型的精度,当单条文本信息中包含特有的关键词时,采用关键词抽取模型确定单条文本信息的关键词,可以有效地提升关键词获取的可靠性,同时解决了单条文本信息数据稀疏,信息量缺乏的问题。
附图说明
图1为本发明实施例中文本处理系统的一个架构示意图;
图2为本发明实施例中抽取关键词的一个流程示意图;
图3为本发明实施例中关键词的确定方法一个实施例示意图;
图4为本发明实施例中文本处理的方法一个实施例示意图;
图5为本发明实施例中结合编码器进行关键词抽取的一个框架示意图;
图6为本发明实施例中基于注意力模型的一个编码器结构示意图;
图7为本发明实施例中基于记忆网络模型的一个编码器结构示意图;
图8为本发明实施例中服务器的一个实施例示意图;
图9为本发明实施例中服务器的另一个实施例示意图;
图10为本发明实施例中服务器的一个结构示意图。
具体实施方式
本发明实施例提供了一种关键词的确定方法、文本处理的方法及服务器,可以有效地提升关键词获取的可靠性,同时解决了单条文本信息数据稀疏,信息量缺乏的问题。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应理解,本申请所提供的文本处理方法主要用于确定文本信息中的关键词,比如,本申请能被广泛用于信息检索(可以根据抽取的关键词确定用户想要检索的内容),摘要生成(可以根据抽取的关键词集合组成与关键词相关的摘要),舆情监测(可以根据抽取的关键词,在论坛、微博以及朋友圈等社交平台上监测网友的评论内容)和事件追寻(可以根据抽取的关键词,追寻某个事件的发展情况,且该事件与关键词具有强相关性)等任务中。此外,确定关键词还可以直接应用于社交媒体文本(如“天天快报”,聊天机器人以及朋友圈等应用)中。如在新闻平台中,用户针对新闻内容进行评论,通过使用这部分评论,抽取新闻关键词,从而提高新闻文本的组织与检索准确率。另外,关键词一定程度上反映了新闻的主旨内容,利用关键词可以提升对于用户的兴趣建模和信息推荐的准确率。
为了便于介绍,请参阅图1,图1为本发明实施例中文本处理系统的一个架构示意图,如图所示,本发明所提供的方法主要应用于服务器,该服务器可以是中央处理器(Central Processing Unit,CPU),也可以是图形处理器(Graphics Processing Unit,GPU)。如图1所示,终端设备可以将采集到的待训练对话组信息集合发送至服务器,待训练对话组信息集合中包括有训练文本信息以及与待训练附属信息,待训练附属信息包括与待训练文本信息相关的评论信息以及转发信息。服务器对待训练对话组信息集合进行训练,并得到关键词抽取模型。当终端设备向服务器发送单条文本信息时,服务器可以将这单条文本信息输入至关键词抽取模型,通过关键词抽取模型输出属于该条文本信息的标签序列,通过标签序列即可确定这条文本信息中的关键词。
需要说明的是,终端设备包含但不仅限于平板电脑、掌上电脑、手机、笔记本电脑以及个人电脑,此处不做限定。
请参阅图2,图2为本发明实施例中抽取关键词的一个流程示意图,如图所示,整个流程分为三大模块,分别为数据预处理模块、训练模块以及测试模块,在数据预处理模块中包括三个步骤,步骤S1中,获取文本信息,这里的文本信息可以是待训练文本信息,也可以是待测试文本信息。在步骤S2中获取评论信息和转发信息,可以理解的是,这里的评论信息和转发信息也可是待训练的评论信息和转发信息,或者是待测试的评论信息和转发信息,在步骤S3中,需要对评论信息和转发信息进行内容筛选,比如,评论信息中可能会存在一些对模型训练没有积极作用的词语,如“呵呵”或者“真的吗”等这类词语。
在训练模块的步骤S4中,采用对话组编码器对待训练文本信息、待训练评论信息以及待训练转发信息进行编码处理,然后得到对话组特征信息。于是在步骤S5中对编码后的对话组特征信息进行关键词提取,从而识别出待训练文本信息中的关键词。
在测试模块的步骤S6中,根据待训练文本信息中的关键词以及关键词所对应的标签序列,训练得到关键词抽取模型。步骤S7中,将待测试文本信息、待测试评论信息和待测试转发信息组成对话组信息,将对话组信息输入至关键词抽取模型中,从而在步骤S8中,通过该关键词抽取模型输出该对话组信息对应的标签序列,根据该标签序列确定待测试文本信息对应的关键词。
其中,标签序列需要与待测试文本信息具有相等的长度,目标标签序列也需要与目标文本信息具有相等的长度。
下面将从服务器的角度,对本发明中关键词的确定方法进行介绍,请参阅图3,本发明实施例中关键词的确定方法一个实施例包括:
101、获取待训练对话组信息集合,其中,待训练对话组信息集合中包括N个待训练对话组信息,待训练对话组信息包括待训练文本信息以及与待训练文本信息关联的待训练附属信息,N为大于或等于1的整数;
本实施例中,服务器可以先获取待训练对话组集合,在该待训练对话组信息集合中包括N个待训练对话组信息,N通常是大于1的整数,因为在多个待训练对话组信息进行训练的情况下能够得到更为可靠的模型。
其中,待训练对话组信息包括待训练文本信息以及与待训练文本信息关联的待训练附属信息,待训练附属信息可以是待训练评论信息和/或待训练转发信息。下面将以一个例子介绍待训练对话组信息。
例如,待训练文本信息为“我今年要去俄罗斯看2018世界杯,想想都觉得好兴奋啊,哈哈哈”。
待训练附属信息为“回复1:真的吗?你准备看哪场比赛,我好想看法国对阵澳大利亚的那场比赛”。“回复2:梅西会上场吗,必须看啊”。该待训练文本信息的关键词为“世界杯”。在对应的待训练附属信息中,如“澳大利亚”、“法国”和“梅西”等词与关键词相关度较高。这部分内容有助于理清待训练文本信息的主旨内容,并有利于关键词抽取模型识别出与目标文本信息主题相关的词。因此,本发明的核心在于利用社交媒体中用户评论与转发内容,帮助提升目标文本信息上的关键词抽取质量。
102、对N个待训练对话组信息进行编码处理,得到每个待训练对话组信息所对应的对话组特征信息;
本实施例中,于是服务器采用编码器模块对N个待训练对话组信息进行编码处理,由此得到每个待训练对话组信息所对应的对话组特征信息。
其中,编码器模块的目的是将待训练对话组信息输入序列编码为一个给定长度的隐藏状态。
103、根据每个待训练对话组信息所对应的对话组特征信息,以及每个待训练文本信息所对应的标签序列,训练得到关键词抽取模型,其中,标签序列用于表示待训练文本信息中每个词语与关键词之间的关系;
本实施例中,服务器可以获取每个待训练文本信息所对应的标签序列,标签序列是用于表示待训练文本信息中每个词语与关键词之间的关系。比如,待训练文本信息为“我爱北京天安门”,关键词为“北京”,将待训练文本信息进行拆分后得到如下四个词语,即“我”、“爱”、“北京”以及“天安门”,由此可见,关键词为待训练文本信息中的第三个词语,因此,标签序列可以表示为(0,0,1,0)。
服务器利用每个待训练对话组信息所对应的对话组特征信息以及标签序列,训练得到关键词抽取模型。
104、获取目标对话组信息,其中,目标对话组信息中包括目标文本信息;
本实施例中,服务器获取待测试的目标对话组信息,该目标对话组信息需要包括目标文本信息,但可以理解的是,目标对话组信息中既可以携带目标附属信息(即待测试的评论信息和/或转发信息),也可以不携带目标附属信息,如果不携带目标附属信息,则在抽取关键词时,输入空序列作为目标附属信息。
因此,本发明使用带有评论信息和/或转发信息的内容进行训练,当测试内容缺少评论和转发内容时,依然可以用关键词抽取器对抽取关键词,这时候只需要对话组编码器输入空序列。因此,本发明可以只在训练阶段使用对话组信息,在测试数据缺少评论信息和/或转发信息时,采用键词抽取模型也可被用于关键词的抽取。
105、通过关键词抽取模型获取目标文本信息所对应的目标标签序列,其中,目标标签序列用于表示目标关键词在目标文本信息中的位置;
本实施例中,将目标对话组信息输入至关键词抽取模型,这里的目标对话组信息必须包含目标文本信息,可选地,目标对话组信息还可以包含目标附属信息,在实际应用中,如果包含目标附属信息所确定关键词会更准确。
通过关键词抽取模型输出与目标对话组信息相关的目标标签序列,目标标签序列可以表示目标关键词在目标文本信息中的位置,通常情况下,目标关键词可以是一个或者多个。
106、根据目标标签序列确定目标文本信息中的目标关键词。
本实施例中,服务器根据关键词抽取模型输出的目标标签序列,确定目标标签序列所对应的目标关键词,该目标关键词为目标文本信息的关键词。其中,目标关键词可以是单个字,或者多个字组成的,又或者是多个词组组成的,本申请不做限定。
下面将从服务器的角度,对本发明中文本处理的方法进行介绍,请参阅图4,本发明实施例中文本处理的方法一个实施例包括:
201、获取目标对话组信息,其中,目标对话组信息中包括目标文本信息;
本实施例中,服务器获取待测试的目标对话组信息,该目标对话组信息需要包括目标文本信息,但可以理解的是,目标对话组信息中既可以携带目标附属信息(即待测试的评论信息和/或转发信息),也可以不携带目标附属信息,如果不携带目标附属信息,则在抽取关键词时,输入空序列作为目标附属信息。其中,目标文本信息可以是指社交媒体上发布的一条信息,如新浪微博上的一条微博,天天快报上的一条新闻标题一句话等,比如“我爱北京天安门”。
202、通过关键词抽取模型获取目标对话组信息所对应的目标标签序列,其中,关键词抽取模型为根据待训练文本信息以及待训练附属信息训练得到的,待训练附属信息与待训练文本信息具有关联关系,目标标签序列用于表示目标关键词在目标文本信息中的位置;
本实施例中,服务器将目标对话组信息输入至关键词抽取模型,这里的目标对话组信息必须包含目标文本信息,可选地,目标对话组信息还可以包含目标附属信息,在实际应用中,如果包含目标附属信息所确定关键词会更准确。通过关键词抽取模型输出与目标对话组信息相关的目标标签序列,目标标签序列可以表示目标关键词在目标文本信息中的位置,通常情况下,目标关键词可以是一个或者多个。
其中,目标标签序列也需要与目标文本信息具有相等的长度。
在训练关键词抽取模型的过程中,需要采用待训练对话组信息进行训练,待训练对话组信息中包括待训练文本信息以及待训练附属信息。具体地,待训练对话组信息是一组由待训练文本信息以及待训练附属信息(评论信息和/或转发信息)组成的对话,按照时间序列排列之后形成的,例如,微博上一条微博以及其下方所有评论和转发的内容可以构成待训练对话组信息。
203、根据目标标签序列确定目标文本信息中的目标关键词。
本实施例中,服务器根据关键词抽取模型输出的目标标签序列,确定目标标签序列所对应的目标关键词,该目标关键词即为目标对话组信息的关键词,具体地,目标关键词为目标文本信息的关键词。
其中,目标关键词是目标文本信息中的重要部分,由目标文本信息中的单个字、多个字或者多个词语组成,能够代表目标文本信息的主题内容。
本发明实施例中,提供了一种文本处理的方法,首先服务器获取目标对话组信息,其中,目标对话组信息中包括目标文本信息,然后服务器通过关键词抽取模型获取目标对话组信息所对应的目标标签序列,其中,关键词抽取模型为根据待训练文本信息以及待训练附属信息训练得到的,待训练附属信息与待训练文本信息具有关联关系,目标标签序列用于表示目标关键词在目标文本信息中的位置,最后,服务器可以根据目标标签序列确定目标文本信息中的目标关键词。通过上述方式,在训练关键词抽取模型时采用了与待训练文本信息相关的待训练附属信息,待训练附属信息即包括评论信息和转发信息,这类信息可能包含待训练文本信息的背景知识和大众观点,以此作为信息扩充,有利于提升关键词抽取模型的精度,当单条文本信息中包含特有的关键词时,采用关键词抽取模型确定单条文本信息的关键词,可以有效地提升关键词获取的可靠性,同时解决了单条文本信息数据稀疏,信息量缺乏的问题。
可选地,在上述图4对应的实施例的基础上,本发明实施例提供的文本处理的方法第一个可选实施例中,通过关键词抽取模型获取目标对话组信息所对应的目标标签序列之前,还可以包括:
获取待训练对话组信息集合,其中,待训练对话组信息集合中包括N个待训练对话组信息,待训练对话组信息包括待训练文本信息以及与待训练文本信息关联的待训练附属信息,N为大于或等于1的整数;
对待训练对话组信息集合中的每个待训练对话组信息进行编码处理,得到每个待训练对话组信息所对应的对话组特征信息;
根据每个待训练对话组信息所对应的对话组特征信息,以及每个待训练文本信息所对应的标签序列,训练得到关键词抽取模型,其中,标签序列用于表示待训练文本信息中每个词语关键词之间的关系。
本实施例中,服务器可以先获取待训练对话组集合,在该待训练对话组信息集合中包括N个待训练对话组信息,N通常是大于1的整数,因为在多个待训练对话组信息进行训练的情况下能够得到更为可靠的模型。其中,待训练对话组信息包括待训练文本信息以及与待训练文本信息关联的待训练附属信息,待训练附属信息可以是待训练的评论信息和/或待训练的转发信息。服务器采用编码器模块对N个待训练对话组信息进行编码处理,由此得到每个待训练对话组信息所对应的对话组特征信息。服务器获取每个待训练文本信息所对应的标签序列,并且利用每个待训练对话组信息所对应的对话组特征信息以及标签序列,训练得到关键词抽取模型。
具体地,请参阅图5,图5为本发明实施例中结合编码器进行关键词抽取的一个框架示意图,如图所示,该框架由两部分组成,分别是关键词抽取器和对话组编码器。关键词抽取器主要用于从目标文本信息中识别出目标关键词,对话组编码器目的在于捕捉待训练对话组中的重要信息,这些重要信息有助于关键词的识别。该关键词抽取模型对输入的待训练对话组信息进行同步学习,在关键词判断阶段,由对话组编码器生成的对话组特征信息能够帮助关键词抽取器抽取目标关键词。
其中,
Figure GDA0003956358500000111
表示第i个待训练对话组信息所对应的对话组词序列,xi表示第i个待训练对话组信息所对应的待训练文本信息,通过输入层Ic()使得对话组词序列
Figure GDA0003956358500000112
中的每个词语
Figure GDA0003956358500000113
被映射成词向量
Figure GDA0003956358500000114
即I(xi,s)=vi,s
Figure GDA0003956358500000115
可以用预训练好的词向量对输入特征映射进行初始化,该词向量可以在训练的过程中进行更新。
可以理解的是,待训练对话组信息是由待训练文本信息和待训练附属信息构成的,其中,待训练附属信息中包括的评论信息和/或转发信息是按照发布时间进行排序的,由于评论信息和转发信息中可能存在部分噪音数据,这部分数据会降低关键词的抽取效率,因此,可以利用自动摘要的方式筛选高质量的评论信息和转发信息。
其次,本发明实施例中,介绍了训练关键词抽取模型的方式,可以先获取待训练对话组信息集合,然后对待训练对话组信息集合中的每个待训练对话组信息进行编码处理,得到每个待训练对话组信息所对应的对话组特征信息,最后根据每个待训练对话组信息所对应的对话组特征信息,以及每个待训练文本信息所对应的标签序列,训练得到关键词抽取模型。通过上述方式,利用评论信息和/或转发信息丰富了待训练文本信息的上下文信息,解决了社交媒体短文本造成的信息量缺少,数据稀疏等问题,生成相应的关键词抽取模型能够识别出目标文本信息中与主旨内容相关的目标关键词。
可选地,在上述图4对应的第一个实施例的基础上,本发明实施例提供的文本处理的方法第二个可选实施例中,对待训练对话组信息集合中的每个待训练对话组信息进行编码处理,得到每个待训练对话组信息所对应的对话组特征信息,可以包括:
获取每个待训练对话组信息中的对话组词序列,其中,对话组词序列与待训练文本信息具有对应关系;
根据每个待训练对话组信息中的对话组词序列,获取对话组词序列对应的词向量;
根据对话组词序列以及对话组词序列对应的词向量,计算得到每个待训练对话组信息所对应的对话组特征信息。
本实施例中,将介绍如何利用平均向量法(Averaged Embedding)计算得到每个待训练对话组信息所对应的对话组特征信息。其中,平均向量法是一种简单的序列编码方法。该方法得到序列中所有词向量的平均值。
具体地,由于训练过程中会采用待训练对话组信息集合,为了便于介绍,我们将以一个待训练对话组信息为例进行介绍。假设待训练对话组信息的待训练文本信息为“我爱北京天安门”,待训练附属信息为“我要去北京玩一周”,将两者组合在一起构成待训练对话组信息为,“我爱北京天安门我要去北京玩一周”,接下来可以对待训练对话组信息进行分词,得到分词结果为“我/爱/北京/天安门/我/要/去/北京/玩/一周”。根据预先定义的词语编码关系,生成待训练对话组信息所对应的对话组词序列。例如“1/2/3/4/1/5/6/3/7/8”。
对话组词序列中的每个词语通过输入层之后,会被映射为词向量,每个词语对应一个词向量。最后根据对话组词序列以及对话组词序列对应的词向量,计算得到每个待训练对话组信息所对应的对话组特征信息。
再次,本发明实施例中,介绍了一种编码方式,即平均向量法,服务器先获取每个待训练对话组信息中的对话组词序列,然后根据每个待训练对话组信息中的对话组词序列,获取对话组词序列对应的词向量,最后计算得到每个待训练对话组信息所对应的对话组特征信息。通过上述方式,采用平均向量法能够生成每个待训练对话组信息所对应的对话组特征信息,从而保证方案的可操作性和实用性,并且利用平均向量法得到的特征信息具有较好的可靠性,进而有利于提升关键词抽取模型的精度。
可选地,在上述图4对应的第二个实施例的基础上,本发明实施例提供的文本处理的方法第三个可选实施例中,根据对话组词序列以及对话组词序列对应的词向量,计算得到每个待训练对话组信息所对应的对话组特征信息,可以包括:
通过如下方式计算对话组特征信息:
Figure GDA0003956358500000121
其中,
Figure GDA0003956358500000131
表示第i个待训练对话组信息所对应的对话组特征信息,
Figure GDA0003956358500000132
表示第i个待训练对话组信息所对应的对话组词序列,
Figure GDA0003956358500000133
表示第i个待训练对话组信息中对话组词序列的第s个词语所对应的词向量,s表示对话组词序列的中的第s个词语。
本实施例中,将结合公式介绍如何计算每个待训练对话组信息所对应的对话组特征信息。
具体地,根据图4对应的第二个实施例可知,在获取每个待训练对话组信息中的对话组词序列之后,可以根据每个待训练对话组信息中的对话组词序列,获取对话组词序列对应的词向量。服务器利用对话组词序列以及对话组词序列对应的词向量,采用如下公式进行计算:
Figure GDA0003956358500000134
其中,
Figure GDA0003956358500000135
表示第i个待训练对话组信息所对应的对话组特征信息,
Figure GDA0003956358500000136
表示第i个待训练对话组信息所对应的对话组词序列,
Figure GDA0003956358500000137
表示第i个待训练对话组信息所对应的对话组词序列长度,
Figure GDA0003956358500000138
表示第i个待训练对话组信息中对话组词序列的第s个词语所对应的词向量,s表示对话组词序列的中的第s个词语。
利用平均向量法对每个待训练对话组信息进行编码后,可以获取每个待训练对话组信息中所有词语的词向量均值。
进一步地,本发明实施例中,采用公式说明了利用平均向量法如何计算得到每个待训练对话组信息所对应的对话组特征信息。通过上述方式,能够提升方案的可操作性和可行性。
可选地,在上述图4对应的第一个实施例的基础上,本发明实施例提供的文本处理的方法第四个可选实施例中,对待训练对话组信息集合中的每个待训练对话组信息进行编码处理,得到每个待训练对话组信息所对应的对话组特征信息,可以包括:
获取每个待训练对话组信息中的对话组词序列,其中,对话组词序列与待训练文本信息具有对应关系;
根据每个待训练对话组信息中的对话组词序列,获取对话组词序列对应的词向量;
根据对话组词序列对应的词向量确定每个词向量所对应的中间态矩阵;
根据中间态矩阵计算得到每个待训练对话组信息所对应的对话组特征信息。
本实施例中,将介绍如何利用神经网络计算得到每个待训练对话组信息所对应的对话组特征信息。其中,神经网络可以是循环神经网络(Recurrent Neural Network,RNN)、长短时记忆网络(Long Short-Term Memory,LSTM)、门控循环单元(Gated RecurrentUnit,GRU)以及双向长短时记忆网络(Bidirectional Long Short-Term Memory,BiLSTM)中的至少一种,还可以其他类型的神经网络,此处不做限定。
下面将分别对这四种神经网络进行简单介绍:
(1)RNN主要用于处理序列数据。在该神经网络中,每个序列中前后单元不独立,一个序列当前的输出与前一时刻的输出也有关,表现为会对历史的信息进行记忆,并将其保存在网络的隐藏状态中。
(2)LSTM是一种循环神经网络。该网络通过门结构选择去除或者增加对信息的记忆。其包含三个门,分别为遗忘门(forget gate),输入门(input gate)和输出门(outputgate)。forget gate决定当前网络是否丢弃该信息,input gate决定将什么新信息存放到当前网络中,output gate决定将网络中的哪一部分进行输出。
(3)GRU是一种循环神经网络。该网络使用了更新门(update gate)与重置门(reset gate)。这两个门控向量决定了哪些信息最终能作为门控循环单元的输出。
(4)BiLSTM是一种循环神经网络。单向循环神经网络只根据历史的信息推算出未来的信息,但在很多情况中,只看历史的信息是不够的,未来信息也需要考虑。因此双向循环神经网络被引入。该网络同时编码正向序列和反向序列,并结合双向序列的编码结果作为序列表示。
以神经网络模型以RNN为例,由于训练过程中会采用待训练对话组信息集合,为了便于介绍,我们将以一个待训练对话组信息为例进行介绍。首先获取每个待训练对话组信息中的对话组词序列,并且根据每个待训练对话组信息中的对话组词序列,获取对话组词序列对应的词向量。服务器获取对话组词序列以及词向量的方式如上述图4对应的第二个实施例所描述的内容,此处不作赘述。
服务器可以根据对话组词序列对应的词向量确定每个词向量所对应的中间态矩阵,然后根据中间态矩阵计算得到每个待训练对话组信息所对应的对话组特征信息。
再次,本发明实施例中,介绍了另一种编码方式,即采用神经网络编码,服务器获取每个待训练对话组信息中的对话组词序列,然后根据每个待训练对话组信息中的对话组词序列,获取对话组词序列对应的词向量,再根据对话组词序列对应的词向量确定每个词向量所对应的中间态矩阵,最后计算得到每个待训练对话组信息所对应的对话组特征信息。通过上述方式,采用神经网络能够编码得到每个待训练对话组信息所对应的对话组特征信息,从而保证方案的可操作性和实用性,并且利用神经网络得到的特征信息具有较好的可靠性,进而有利于提升关键词抽取模型的精度。
可选地,在上述图4对应的第四个实施例的基础上,本发明实施例提供的文本处理的方法第五个可选实施例中,根据中间态矩阵计算得到每个待训练对话组信息所对应的对话组特征信息,可以包括:
通过如下方式计算对话组特征信息:
Figure GDA0003956358500000151
Figure GDA0003956358500000152
其中,
Figure GDA0003956358500000153
表示第i个待训练对话组信息所对应的对话组特征信息,
Figure GDA0003956358500000154
表示第i个待训练对话组信息所对应的对话组词序列,
Figure GDA0003956358500000155
表示第i个待训练对话组信息中第s个词语的中间态矩阵,
Figure GDA0003956358500000156
用于确定
Figure GDA0003956358500000157
δh表示sigmoid函数,
Figure GDA0003956358500000158
表示第一权重向量,
Figure GDA0003956358500000159
表示第二权重向量,
Figure GDA00039563585000001510
表示第i个待训练对话组信息中第(s-1)个词语的中间态矩阵,
Figure GDA00039563585000001511
表示第i个待训练对话组信息中对话组词序列的第s个词语所对应的词向量。
本实施例中,服务器中的编码器模块采用RNN、GRU、LSTM和BiLTSM中的任意一种网络模型进行编码,具体地,根据图4对应的第二个实施例可知,在获取每个待训练对话组信息中的对话组词序列之后,根据每个待训练对话组信息中的对话组词序列,获取对话组词序列对应的词向量。服务器利用对话组词序列以及对话组词序列对应的词向量,采用如下公式进行计算每个词向量所对应的中间态矩阵:
Figure GDA0003956358500000161
理,而第一权重向量
Figure GDA0003956358500000162
和第二权重向量
Figure GDA0003956358500000163
是自学习的权重向量,第一权重向量和第二权重向量的取值范围不做限定,并且是根据拟合训练集训练得到的。
Figure GDA0003956358500000164
表示第i个待训练对话组信息中第s个词语的中间态矩阵,将每个词语的中间态矩阵组合之后即可得到
Figure GDA0003956358500000165
编码器模块的输出为神经元的最后一个状态,也就是可以表示为对话组特征信息:
Figure GDA0003956358500000166
进一步地,本发明实施例中,采用公式说明了利用神经网络模型如何计算得到每个待训练对话组信息所对应的对话组特征信息。通过上述方式,能够提升方案的可操作性和可行性。
可选地,在上述图4对应的第一个实施例的基础上,本发明实施例提供的文本处理的方法第六个可选实施例中,对待训练对话组信息集合中的每个待训练对话组信息进行编码处理,得到每个待训练对话组信息所对应的对话组特征信息,可以包括:
获取每个待训练对话组信息中的对话组词序列,其中,对话组词序列与待训练文本信息具有对应关系;
根据每个待训练对话组信息中的对话组词序列,获取对话组词序列对应的词向量;
根据对话组词序列对应的词向量确定每个词向量所对应的中间态矩阵;
根据每个词向量所对应的中间态矩阵确定每个词语的权重系数,其中,权重系数与关键词识别重要程度呈正相关;
根据每个词向量所对应的中间态矩阵以及每个词语的权重系数,计算得到每个待训练对话组信息所对应的对话组特征信息。
本实施例中,基于注意力模型(Attention Model,AM)的编码器模块将注意力(Attention)机制安置于RNN模型之上,用于识别对话组词序列中重要的词语。为了便于理解,请参阅图6,图6为本发明实施例中基于注意力模型的一个编码器结构示意图,如图所示,深度学习里的AM其实模拟的是人脑的注意力模型,举个例子来说,当我们观赏一幅画时,虽然我们可以看到整幅画的全貌,但是在我们深入仔细地观察时,其实眼睛聚焦的就只有很小的一块,这个时候人的大脑主要关注在这一小块图案上,也就是说这个时候人脑对整幅图的关注并不是均衡的,是有一定的权重区分的。
在设定权重系数α时主要分为两个步骤,首先设计一个打分函数f,针对每个中间态矩阵h计算出一个分数,h与AM模型所关注的对象(即词向量)相关程度越高,分数也就越大。然后对所得到的k个分数通过softmax函数,最后得到权重系数α。这里需要说的是,假设对话组词序列中有5个词向量,那么这5个词向量加起来的权重系数之和为1。
服务器在确定每个词语的权重系数之后,根据每个词向量所对应的中间态矩阵以及每个词语的权重系数,就能够计算得到每个待训练对话组信息所对应的对话组特征信息。
再次,本发明实施例中,介绍了另一种编码方式,即采用注意力模型编码,服务器获取每个待训练对话组信息中的对话组词序列,根据每个待训练对话组信息中的对话组词序列,获取对话组词序列对应的词向量,再根据对话组词序列对应的词向量确定每个词向量所对应的中间态矩阵,最后根据每个词向量所对应的中间态矩阵确定每个词语的权重系数,根据每个词向量所对应的中间态矩阵以及每个词语的权重系数,计算得到每个待训练对话组信息所对应的对话组特征信息。通过上述方式,注意力模型能够识别出待训练对话组信息中的重要内容,并将这部分内容赋予较高的权重。带有不同权重的对话组编译器输出,能够发现待训练对话组信息的主旨内容,从而协助关键词抽取器识别出与主旨内容相关的词语。
可选地,在上述图4对应的第六个实施例的基础上,本发明实施例提供的文本处理的方法第七个可选实施例中,根据每个词向量所对应的中间态矩阵以及每个词语的权重系数,计算得到每个待训练对话组信息所对应的对话组特征信息,可以包括:
通过如下方式计算对话组特征信息:
Figure GDA0003956358500000181
Figure GDA0003956358500000182
Figure GDA0003956358500000183
Figure GDA0003956358500000184
其中,
Figure GDA0003956358500000185
表示第i个待训练对话组信息所对应的对话组特征信息,
Figure GDA0003956358500000186
表示第i个待训练对话组信息所对应的对话组词序列,
Figure GDA0003956358500000187
表示第i个待训练对话组信息中第s个词语的中间态矩阵,
Figure GDA0003956358500000188
表示第i个待训练对话组信息中第s个词语的权重系数,δh表示sigmoid函数,
Figure GDA0003956358500000189
表示第一权重向量,
Figure GDA00039563585000001810
表示第二权重向量,
Figure GDA00039563585000001811
表示第i个待训练对话组信息中第(s-1)个词语的中间态矩阵,
Figure GDA00039563585000001812
表示第i个待训练对话组信息中对话组词序列的第s个词语所对应的词向量,softmax表示激活函数,
Figure GDA00039563585000001813
表示将
Figure GDA00039563585000001814
作为输入参数的自学习函数,Wa表示自学习系数,tanh表示非线性激活函数。
本实施例中,服务器中的编码器模块可以在获取每个待训练对话组信息中的对话组词序列之后,根据每个待训练对话组信息中的对话组词序列,获取对话组词序列对应的词向量。服务器利用对话组词序列以及对话组词序列对应的词向量,采用如下公式计算得到每个词向量所对应的中间态矩阵:
Figure GDA00039563585000001815
理,而第一权重向量
Figure GDA00039563585000001816
和第二权重向量
Figure GDA00039563585000001817
是自学习的权重向量,第一权重向量和第二权重向量的取值范围不做限定。
服务器采用如下公式获取自学习函数:
Figure GDA00039563585000001818
Figure GDA00039563585000001819
Figure GDA00039563585000001820
的输出作为输入,由于
Figure GDA00039563585000001821
会随着词向量的变化而变化,因此,
Figure GDA00039563585000001822
也会随着
Figure GDA00039563585000001823
的变化而不断更新,Wa表示自学习系数,Wa的取值可根据经验进行设定。服务器跟自学习函数,利用如下公式,计算第i个待训练对话组信息中第s个词语的权重系数
Figure GDA0003956358500000191
Figure GDA0003956358500000192
其中,
Figure GDA0003956358500000193
表示词语
Figure GDA0003956358500000194
的权重系数,一个的词语的权重系数越高,表示该词语对于关键词识别的重要程度越高。
最后,服务器通过如下方式计算对话组特征信息:
Figure GDA0003956358500000195
其中,
Figure GDA0003956358500000196
表示第i个待训练对话组信息所对应的对话组特征信息,
Figure GDA0003956358500000197
表示第i个待训练对话组信息所对应的对话组词序列。
进一步地,本发明实施例中,采用公式说明了利用注意力模型如何计算得到每个待训练对话组信息所对应的对话组特征信息。通过上述方式,能够提升方案的可操作性和可行性。
可选地,在上述图4对应的第一个实施例的基础上,本发明实施例提供的文本处理的方法第八个可选实施例中,对待训练对话组信息集合中的每个待训练对话组信息进行编码处理,得到每个待训练对话组信息所对应的对话组特征信息,可以包括:
获取每个待训练对话组信息所对应的对话组词序列,以及每个待训练文本信息所对应的文本词序列;
根据对话组词序列以及文本词序列,确定每个待训练对话组信息的相似度值;
根据每个待训练对话组信息的相似度值以及词向量矩阵,计算得到每个待训练对话组信息所对应的对话组特征信息。
本实施例中,基于记忆网络(Memory Networks,MemNN)的编码器利用一个记忆模块,将待训练对话组信息的表示进行存储和更新。更新后的待训练对话组信息示可以用于指导关键词抽取。为了便于理解,请参阅图7,图7为本发明实施例中基于记忆网络模型的一个编码器结构示意图。一个MemNN由一个记忆数组m(个向量的数组或者一个字符串数组)和四个组件(输入组件、更新组件、输出组件和回答组件)组成。
其中,输入组件用于将输入转化为网络里内在的向量。作者使用了简单的向量空间模型。更新组件包括了记忆的忘记,记忆的重新组织。输出组件从记忆里结合输入,把合适的记忆抽取出来,返回一个向量。
服务器在获取每个待训练对话组信息所对应的对话组词序列
Figure GDA0003956358500000201
以及每个待训练文本信息所对应的文本词序列
Figure GDA0003956358500000202
之后,根据对话组词序列以及文本词序列,确定每个待训练对话组信息的相似度值。其中,相似度值具体表示为对话组词序列中第i个词语与文本词序列中第j个词语之间的相似度。
比如,对话组词序列为“人工智能发展的飞快”,文本词序列为“我们可以和机器人对话”,于是,分别计算“人工智能”与“我们”的相似度,“人工智能”与“可以”的相似度,“人工智能”与“和”的相似度,,“人工智能”与“机器人”的相似度,“人工智能”与“对话”的相似度,“发展”与“我们”的相似度,等等,以此类推,知道获取每个待训练对话组信息中各个词语之间的相似度值。
最后,服务器可以根据每个待训练对话组信息的相似度值以及词向量矩阵,计算得到每个待训练对话组信息所对应的对话组特征信息。
再次,本发明实施例中,介绍了另一种编码方式,即采用记忆网络模型编码,服务器首先获取每个待训练对话组信息所对应的对话组词序列,以及每个待训练文本信息所对应的文本词序列,然后根据对话组词序列以及文本词序列,确定每个待训练对话组信息的相似度值,最后根据每个待训练对话组信息的相似度值以及词向量矩阵,计算得到每个待训练对话组信息所对应的对话组特征信息。通过上述方式,记忆网络模型能够识别出待训练对话组信息中的重要内容,并将这部分内容赋予较高的权重。带有不同权重的对话组编译器输出,能够发现待训练对话组信息的主旨内容,从而协助关键词抽取器识别出与主旨内容相关的词语。
可选地,在上述图4对应的第八个实施例的基础上,本发明实施例提供的文本处理的方法第九个可选实施例中,根据每个待训练对话组信息的相似度值以及词向量矩阵,计算得到每个待训练对话组信息所对应的对话组特征信息,可以包括:
通过如下方式计算对话组特征信息:
Figure GDA0003956358500000211
Pi=softmax(Vi+Mi);
其中,
Figure GDA0003956358500000212
表示第i个待训练对话组信息所对应的对话组特征信息,Pi表示第i个待训练对话组信息的相似度值,Ci表示第i个待训练对话组信息的词向量矩阵,Vi表示第i个待训练文本信息所对应的文本词序列,Mi表示第i个待训练对话组信息的对话组词序列,softmax表示激活函数。
本实施例中,每个对话组词序列
Figure GDA0003956358500000213
被存储到记忆模块Mi中,然后采用一个softmax层将待训练文本信息的文本词序列
Figure GDA0003956358500000214
和记忆模块Mi中存储的内容进行整合。服务器采用如下公式计算第i个待训练对话组信息的相似度值:
Pi=softmax(Vi+Mi); (8)
根据式(8)可知,Vi表示第i个待训练文本信息所对应的文本词序列,Mi表示第i个待训练对话组信息的对话组词序列,softmax表示激活函数。
为了将对话组词序列转化为对齐的模型,以便于与Pi进行合并,从而引入另一个词向量矩阵Ci,类似于基于Attention的编码器模块,MemNN编码器模块致力于识别待训练对话组信息中的重要内容,并利用其帮助关键词抽取。
服务器采用如下公式计算对话组特征信息:
Figure GDA0003956358500000215
其中,
Figure GDA0003956358500000216
表示第i个待训练对话组信息所对应的对话组特征信息,Pi表示第i个待训练对话组信息的相似度值,Ci表示第i个待训练对话组信息的词向量矩阵。
进一步地,本发明实施例中,采用公式说明了利用记忆网络模型如何计算得到每个待训练对话组信息所对应的对话组特征信息。通过上述方式,能够提升方案的可操作性和可行性。
可选地,在上述图4对应的第一个至第九个实施例中任一项的基础上,本发明实施例提供的文本处理的方法第十个可选实施例中,训练得到关键词抽取模型之前,还可以包括:
获取每个待训练文本信息所对应的标签序列,其中,标签序列为二值标签序列和/或五值标签序列;
二值标签序列包括第一标签或者第二标签,其中,第一标签表示第i个待训练文本信息中第s个词语为关键词,第二标签表示第i个待训练文本信息中第s个词语为非关键词,i为大于或等于1的整数,s为大于或等于1的整数;
五值标签序列包括第三标签、第四标签、第五标签、第六标签或者第七标签,其中,第三标签表示第i个待训练文本信息中第s个词语为关键词的一部分,且关键词只包含第s个词语,第四标签表示第i个待训练文本信息中第s个词语为关键词的一部分,且第s个词语为关键词的第一个词语,第五标签表示第i个待训练文本信息中第s个词语为关键词的一部分,且第s个词语既非关键词的第一个词语,又非关键词的最后一个词语,第六标签表示第i个待训练文本信息中第s个词语为关键词的一部分,且第s个词语为关键词的最后一个词语,第七标签表示第i个待训练文本信息中第s个词语不为关键词的一部分。
本实施例中,在关键词抽取模型训练的过程中,除了需要输入每个待训练文本信息所对应的对话组特征信息以外,还需要输入每个待训练文本信息所对应的标签序列。
具体的,标签序列可以为二值标签序列和/或五值标签序列,下面将分别介绍这两种标签序列。
二值标签序列可以表示为
Figure GDA0003956358500000221
其中,
Figure GDA0003956358500000222
是一个二值标签,能够表示词语xi,s是否为关键词,如果词语xi,s是关键词,则表示为第一标签,反之,如果词语xi,s是非关键词,则表示为第二标签。比如待训练文本信息为“我要去俄罗斯看2018世界杯比赛好开心”,分词后可以得到“我/要/去/俄罗斯/看/2018/世界杯/比赛/好/开心”,假设第一标签采用“1”来表示,第二标签采用“0”来表示,且假设关键字为“俄罗斯”、“2018”、“世界杯”和“比赛”,那么该待训练文本信息可以表示为[0,0,0,1,0,1,1,1,0,0]。
五值标签序列可以表示为
Figure GDA0003956358500000231
其中,
Figure GDA0003956358500000232
是一个二值标签,能够表示词语xi,s在待训练文本信息中的位置。五值标签包括第三标签(SINGLE标签)、第四标签(START标签)、第五标签(MIDDLE标签)、第六标签(END标签)或者第七标签(NOT标签)。其中,第三标签表示第i个待训练文本信息中第s个词语为关键词的一部分,且关键词只包含第s个词语,即词语xi,s是关键词的一部分且该关键词只包含该xi,s。第四标签表示第i个待训练文本信息中第s个词语为关键词的一部分,且第s个词语为关键词的第一个词语,即词语xi,s是关键词的一部分且是关键词的第一个词。第五标签表示第i个待训练文本信息中第s个词语为关键词的一部分,且第s个词语既非关键词的第一个词语,又非关键词的最后一个词语,即词语xi,s是关键词的一部分,且不是关键词中的第一个词也不是关键词中的最后一个词。第六标签表示第i个待训练文本信息中第s个词语为关键词的一部分,且第s个词语为关键词的最后一个词语,即词语xi,s是关键词的一部分,且是关键词的最后一个词。第七标签表示第i个待训练文本信息中第s个词语不为关键词的一部分,即词语xi,s不是关键词的一部分。
比如待训练文本信息为“我要去俄罗斯看2018世界杯比赛好开心”,分词后可以得到“我/要/去/俄罗斯/看/2018/世界杯/比赛/好/开心”,假设第三标签用“3”来表示,第四标签用“4”来表示,第五标签用“5”来表示,第六标签用“6”来表示,第七标签用“7”来表示,且假设关键字为“俄罗斯”、“2018”、“世界杯”和“比赛”,那么该待训练文本信息可以表示为[7,7,7,3,7,4,5,6,7,7],其中,“俄罗斯”是由单个词组成的关键词,而“2018世界杯比赛”是由三个词组成的关键词,“2018”是第四标签(START标签),“世界杯”是第五标签(MIDDLE标签),“比赛”是第六标签(END标签)。
更进一步地,本发明实施例中,介绍了如何设置每个待训练文本信息所对应的标签序列,这里的标签序列可以为二值标签序列和/或五值标签序列。通过上述方式,能够为待训练文件信息设定合理的标签序列,通过标签序列反映出待训练文本信息的特点,并且能够更准确地反映出关键词在待训练文本信息的位置,从而提升模型训练的准确性。
下面对本发明中的服务器进行详细描述,请参阅图8,图8为本发明实施例中服务器一个实施例示意图,服务器30包括:
获取模块301,用于获取目标对话组信息,其中,所述目标对话组信息中包括目标文本信息;
所述获取模块301,还用于通过关键词抽取模型获取所述目标文本信息所对应的目标标签序列,其中,所述关键词抽取模型为根据待训练文本信息以及待训练附属信息训练得到的,所述待训练附属信息与所述待训练文本信息具有关联关系,所述目标标签序列用于表示目标关键词在所述目标文本信息中的位置;
确定模块302,用于根据所述获取模块301获取的所述目标标签序列确定所述目标文本信息中的目标关键词。
本实施例中,获取模块301获取目标对话组信息,其中,所述目标对话组信息中包括目标文本信息;所述获取模块301通过关键词抽取模型获取所述目标文本信息所对应的目标标签序列,其中,所述关键词抽取模型为根据待训练文本信息以及待训练附属信息训练得到的,所述待训练附属信息与所述待训练文本信息具有关联关系,所述目标标签序列用于表示目标关键词在所述目标文本信息中的位置,确定模块302根据所述获取模块301获取的所述目标标签序列确定所述目标文本信息中的目标关键词。
本发明实施例中,提供了一种服务器,首先获取目标对话组信息,然后服务器通过关键词抽取模型获取目标对话组信息所对应的目标标签序列,其中,关键词抽取模型为根据待训练文本信息以及待训练附属信息训练得到的,待训练附属信息与待训练文本信息具有关联关系,目标标签序列用于表示目标关键词在目标文本信息中的位置,最后,服务器可以根据目标标签序列确定目标文本信息中的目标关键词。通过上述方式,在训练关键词抽取模型时采用了与待训练文本信息相关的待训练附属信息,待训练附属信息即包括评论信息和转发信息,这类信息可能包含待训练文本信息的背景知识和大众观点,以此作为信息扩充,有利于提升关键词抽取模型的精度,当单条文本信息中包含特有的关键词时,采用关键词抽取模型确定单条文本信息的关键词,可以有效地提升关键词获取的可靠性,同时解决了单条文本信息数据稀疏,信息量缺乏的问题。
可选地,在上述图8所对应的实施例的基础上,请参阅图9,本发明实施例提供的服务器30的另一实施例中,所述服务器30还包括编码模块303以及训练模块304;
所述获取模块301,还用于通过关键词抽取模型获取所述目标文本信息所对应的目标标签序列之前,获取待训练对话组信息集合,其中,所述待训练对话组信息集合中包括N个待训练对话组信息,所述待训练对话组信息包括待训练文本信息以及与所述待训练文本信息关联的待训练附属信息,所述N为大于或等于1的整数;
所述编码模块303,用于对所述获取模块301获取的所述待训练对话组信息集合中的每个待训练对话组信息进行编码处理,得到所述每个待训练对话组信息所对应的对话组特征信息;
所述训练模块304,用于根据所述编码模块303编码后得到的所述每个待训练对话组信息所对应的对话组特征信息,以及每个待训练文本信息所对应的标签序列,训练得到所述关键词抽取模型,其中,所述标签序列用于表示所述待训练文本信息中每个词语关键词之间的关系。
其次,本发明实施例中,介绍了训练关键词抽取模型的方式,可以先获取待训练对话组信息集合,然后对待训练对话组信息集合中的每个待训练对话组信息进行编码处理,得到每个待训练对话组信息所对应的对话组特征信息,最后根据每个待训练对话组信息所对应的对话组特征信息,以及每个待训练文本信息所对应的标签序列,训练得到关键词抽取模型。通过上述方式,利用评论信息和/或转发信息丰富了待训练文本信息的上下文信息,解决了社交媒体短文本造成的信息量缺少,数据稀疏等问题,生成相应的关键词抽取模型能够识别出目标文本信息中与主旨内容相关的目标关键词。
可选地,在上述图9所对应的实施例的基础上,本发明实施例提供的服务器30的另一实施例中,
所述编码模块303,具体用于获取所述每个待训练对话组信息中的对话组词序列,其中,所述对话组词序列与所述待训练文本信息具有对应关系;
根据所述每个待训练对话组信息中的对话组词序列,获取所述对话组词序列对应的词向量;
根据所述对话组词序列以及所述对话组词序列对应的词向量,计算得到所述每个待训练对话组信息所对应的对话组特征信息。
再次,本发明实施例中,介绍了一种编码方式,即平均向量法,服务器先获取每个待训练对话组信息中的对话组词序列,然后根据每个待训练对话组信息中的对话组词序列,获取对话组词序列对应的词向量,最后计算得到每个待训练对话组信息所对应的对话组特征信息。通过上述方式,采用平均向量法能够生成每个待训练对话组信息所对应的对话组特征信息,从而保证方案的可操作性和实用性,并且利用平均向量法得到的特征信息具有较好的可靠性,进而有利于提升关键词抽取模型的精度。
可选地,在上述图9所对应的实施例的基础上,本发明实施例提供的服务器30的另一实施例中,
所述编码模块303,具体用于通过如下方式计算所述对话组特征信息:
Figure GDA0003956358500000261
其中,所述
Figure GDA0003956358500000262
表示第i个待训练对话组信息所对应的对话组特征信息,所述
Figure GDA0003956358500000263
表示所述第i个待训练对话组信息所对应的所述对话组词序列,所述
Figure GDA0003956358500000264
表示所述第i个待训练对话组信息中所述对话组词序列的第s个词语所对应的词向量,所述s表示所述对话组词序列的中的第s个词语。
进一步地,本发明实施例中,采用公式说明了利用平均向量法如何计算得到每个待训练对话组信息所对应的对话组特征信息。通过上述方式,能够提升方案的可操作性和可行性。
可选地,在上述图9所对应的实施例的基础上,本发明实施例提供的服务器30的另一实施例中,
所述编码模块303,具体用于获取所述每个待训练对话组信息中的对话组词序列,其中,所述对话组词序列与所述待训练文本信息具有对应关系;
根据所述每个待训练对话组信息中的对话组词序列,获取所述对话组词序列对应的词向量;
根据所述对话组词序列对应的词向量确定所述每个词向量所对应的中间态矩阵;
根据所述中间态矩阵计算得到所述每个待训练对话组信息所对应的对话组特征信息。
再次,本发明实施例中,介绍了另一种编码方式,即采用神经网络编码,服务器获取每个待训练对话组信息中的对话组词序列,然后根据每个待训练对话组信息中的对话组词序列,获取对话组词序列对应的词向量,再根据对话组词序列对应的词向量确定每个词向量所对应的中间态矩阵,最后计算得到每个待训练对话组信息所对应的对话组特征信息。通过上述方式,采用神经网络能够编码得到每个待训练对话组信息所对应的对话组特征信息,从而保证方案的可操作性和实用性,并且利用神经网络得到的特征信息具有较好的可靠性,进而有利于提升关键词抽取模型的精度。
可选地,在上述图9所对应的实施例的基础上,本发明实施例提供的服务器30的另一实施例中,
所述编码模块303,具体用于通过如下方式计算所述对话组特征信息:
Figure GDA0003956358500000271
Figure GDA0003956358500000272
其中,所述
Figure GDA0003956358500000273
表示第i个待训练对话组信息所对应的对话组特征信息,所述
Figure GDA0003956358500000274
表示所述第i个待训练对话组信息所对应的所述对话组词序列,所述
Figure GDA0003956358500000275
表示所述第i个待训练对话组信息中第s个词语的中间态矩阵,所述
Figure GDA0003956358500000276
用于确定所述
Figure GDA0003956358500000277
所述δh表示sigmoid函数,所述
Figure GDA0003956358500000278
表示第一权重向量,所述
Figure GDA0003956358500000279
表示第二权重向量,所述
Figure GDA00039563585000002710
表示所述第i个待训练对话组信息中第(s-1)个词语的中间态矩阵,所述
Figure GDA00039563585000002711
表示所述第i个待训练对话组信息中所述对话组词序列的第s个词语所对应的词向量。
进一步地,本发明实施例中,采用公式说明了利用神经网络模型如何计算得到每个待训练对话组信息所对应的对话组特征信息。通过上述方式,能够提升方案的可操作性和可行性。
可选地,在上述图9所对应的实施例的基础上,本发明实施例提供的服务器30的另一实施例中,
所述编码模块303,具体用于获取所述每个待训练对话组信息中的对话组词序列,其中,所述对话组词序列与所述待训练文本信息具有对应关系;
根据所述每个待训练对话组信息中的对话组词序列,获取所述对话组词序列对应的词向量;
根据所述对话组词序列对应的词向量确定所述每个词向量所对应的中间态矩阵;
根据所述每个词向量所对应的中间态矩阵确定所述每个词语的权重系数,其中,所述权重系数与关键词识别重要程度呈正相关;
根据所述每个词向量所对应的中间态矩阵以及所述每个词语的权重系数,计算得到所述每个待训练对话组信息所对应的对话组特征信息。
再次,本发明实施例中,介绍了另一种编码方式,即采用注意力模型编码,服务器获取每个待训练对话组信息中的对话组词序列,根据每个待训练对话组信息中的对话组词序列,获取对话组词序列对应的词向量,再根据对话组词序列对应的词向量确定每个词向量所对应的中间态矩阵,最后根据每个词向量所对应的中间态矩阵确定每个词语的权重系数,根据每个词向量所对应的中间态矩阵以及每个词语的权重系数,计算得到每个待训练对话组信息所对应的对话组特征信息。通过上述方式,注意力模型能够识别出待训练对话组信息中的重要内容,并将这部分内容赋予较高的权重。带有不同权重的对话组编译器输出,能够发现待训练对话组信息的主旨内容,从而协助关键词抽取器识别出与主旨内容相关的词语。
可选地,在上述图9所对应的实施例的基础上,本发明实施例提供的服务器30的另一实施例中,
所述编码模块303,具体用于通过如下方式计算所述对话组特征信息:
Figure GDA0003956358500000281
Figure GDA0003956358500000282
Figure GDA0003956358500000291
Figure GDA0003956358500000292
其中,所述
Figure GDA0003956358500000293
表示第i个待训练对话组信息所对应的对话组特征信息,所述
Figure GDA0003956358500000294
表示所述第i个待训练对话组信息所对应的所述对话组词序列,所述
Figure GDA0003956358500000295
表示所述第i个待训练对话组信息中第s个词语的中间态矩阵,所述
Figure GDA0003956358500000296
表示所述第i个待训练对话组信息中第s个词语的权重系数,所述δh表示sigmoid函数,所述
Figure GDA0003956358500000297
表示第一权重向量,所述
Figure GDA0003956358500000298
表示第二权重向量,所述
Figure GDA0003956358500000299
表示所述第i个待训练对话组信息中第(s-1)个词语的中间态矩阵,所述
Figure GDA00039563585000002910
表示所述第i个待训练对话组信息中所述对话组词序列的第s个词语所对应的词向量,所述softmax表示激活函数,所述
Figure GDA00039563585000002911
表示将所述
Figure GDA00039563585000002912
作为输入参数的自学习函数,所述Wa表示自学习系数,所述tanh表示非线性激活函数。
进一步地,本发明实施例中,采用公式说明了利用注意力模型如何计算得到每个待训练对话组信息所对应的对话组特征信息。通过上述方式,能够提升方案的可操作性和可行性。
可选地,在上述图9所对应的实施例的基础上,本发明实施例提供的服务器30的另一实施例中,
所述编码模块303,具体用于获取所述每个待训练对话组信息所对应的对话组词序列,以及每个待训练文本信息所对应的文本词序列;
根据所述对话组词序列以及所述文本词序列,确定所述每个待训练对话组信息的相似度值;
根据所述每个待训练对话组信息的相似度值以及词向量矩阵,计算得到所述每个待训练对话组信息所对应的对话组特征信息。
再次,本发明实施例中,介绍了另一种编码方式,即采用记忆网络模型编码,服务器首先获取每个待训练对话组信息所对应的对话组词序列,以及每个待训练文本信息所对应的文本词序列,然后根据对话组词序列以及文本词序列,确定每个待训练对话组信息的相似度值,最后根据每个待训练对话组信息的相似度值以及词向量矩阵,计算得到每个待训练对话组信息所对应的对话组特征信息。通过上述方式,记忆网络模型能够识别出待训练对话组信息中的重要内容,并将这部分内容赋予较高的权重。带有不同权重的对话组编译器输出,能够发现待训练对话组信息的主旨内容,从而协助关键词抽取器识别出与主旨内容相关的词语。
可选地,在上述图9所对应的实施例的基础上,本发明实施例提供的服务器30的另一实施例中,
所述编码模块303,具体用于通过如下方式计算所述对话组特征信息:
Figure GDA0003956358500000301
Pi=softmax(Vi+Mi);
其中,所述
Figure GDA0003956358500000302
表示第i个待训练对话组信息所对应的对话组特征信息,所述Pi表示所述第i个待训练对话组信息的相似度值,所述Ci表示所述第i个待训练对话组信息的词向量矩阵,所述Vi表示第i个待训练文本信息所对应的文本词序列,所述Mi表示所述第i个待训练对话组信息的对话组词序列,所述softmax表示激活函数。
进一步地,本发明实施例中,采用公式说明了利用记忆网络模型如何计算得到每个待训练对话组信息所对应的对话组特征信息。通过上述方式,能够提升方案的可操作性和可行性。
可选地,在上述图8或图9所对应的实施例的基础上,本发明实施例提供的服务器30的另一实施例中,
所述获取模块301,还用于所述训练模块304训练得到所述关键词抽取模型之前,获取所述每个待训练文本信息所对应的标签序列,其中,所述标签序列为二值标签序列和/或五值标签序列;
所述二值标签序列包括第一标签或者第二标签,其中,所述第一标签表示所述第i个待训练文本信息中第s个词语为关键词,所述第二标签表示所述第i个待训练文本信息中第s个词语为非关键词,所述i为大于或等于1的整数,所述s为大于或等于1的整数;
所述五值标签序列包括第三标签、第四标签、第五标签、第六标签或者第七标签,其中,所述第三标签表示所述第i个待训练文本信息中第s个词语为关键词的一部分,且所述关键词只包含所述第s个词语,第四标签表示所述第i个待训练文本信息中第s个词语为关键词的一部分,且所述第s个词语为所述关键词的第一个词语,第五标签表示所述第i个待训练文本信息中第s个词语为关键词的一部分,且所述第s个词语既非所述关键词的第一个词语,又非所述关键词的最后一个词语,所述第六标签表示所述第i个待训练文本信息中第s个词语为关键词的一部分,且所述第s个词语为所述关键词的最后一个词语,所述第七标签表示所述第i个待训练文本信息中第s个词语不为关键词的一部分。
更进一步地,本发明实施例中,介绍了如何设置每个待训练文本信息所对应的标签序列,这里的标签序列可以为二值标签序列和/或五值标签序列。通过上述方式,能够为待训练文件信息设定合理的标签序列,通过标签序列反映出待训练文本信息的特点,并且能够更准确地反映出关键词在待训练文本信息的位置,从而提升模型训练的准确性。
图10是本发明实施例提供的一种服务器结构示意图,该服务器400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processingunits,CPU)422(例如,一个或一个以上处理器)和存储器432,一个或一个以上存储应用程序442或数据444的存储介质430(例如一个或一个以上海量存储设备)。其中,存储器432和存储介质430可以是短暂存储或持久存储。存储在存储介质430的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器422可以设置为与存储介质430通信,在服务器400上执行存储介质430中的一系列指令操作。
服务器400还可以包括一个或一个以上电源426,一个或一个以上有线或无线网络接口450,一个或一个以上输入输出接口458,和/或,一个或一个以上操作系统441,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由服务器所执行的步骤可以基于该图10所示的服务器结构。
CPU 422用于执行如下步骤:
获取目标对话组信息,其中,所述目标对话组信息中包括目标文本信息;
通过关键词抽取模型获取所述目标文本信息所对应的目标标签序列,其中,所述关键词抽取模型为根据待训练文本信息以及待训练附属信息训练得到的,所述待训练附属信息与所述待训练文本信息具有关联关系,所述目标标签序列用于表示目标关键词在所述目标文本信息中的位置;
根据所述目标标签序列确定所述目标文本信息中的目标关键词。
可选地,CPU 422还用于执行如下步骤:
获取待训练对话组信息集合,其中,所述待训练对话组信息集合中包括N个待训练对话组信息,所述待训练对话组信息包括待训练文本信息以及与所述待训练文本信息关联的待训练附属信息,所述N为大于或等于1的整数;
对所述待训练对话组信息集合中的每个待训练对话组信息进行编码处理,得到所述每个待训练对话组信息所对应的对话组特征信息;
根据所述每个待训练对话组信息所对应的对话组特征信息,以及每个待训练文本信息所对应的标签序列,训练得到所述关键词抽取模型,其中,所述标签序列用于表示所述待训练文本信息中每个词语关键词之间的关系。
可选地,CPU 422具体用于执行如下步骤:
获取所述每个待训练对话组信息中的对话组词序列,其中,所述对话组词序列与所述待训练文本信息具有对应关系;
根据所述每个待训练对话组信息中的对话组词序列,获取所述对话组词序列对应的词向量;
根据所述对话组词序列以及所述对话组词序列对应的词向量,计算得到所述每个待训练对话组信息所对应的对话组特征信息。
可选地,CPU 422具体用于执行如下步骤:
通过如下方式计算所述对话组特征信息:
Figure GDA0003956358500000321
其中,所述
Figure GDA0003956358500000322
表示第i个待训练对话组信息所对应的对话组特征信息,所述
Figure GDA0003956358500000323
表示所述第i个待训练对话组信息所对应的所述对话组词序列,所述
Figure GDA0003956358500000324
表示所述第i个待训练对话组信息中所述对话组词序列的第s个词语所对应的词向量,所述s表示所述对话组词序列的中的第s个词语。
可选地,CPU 422具体用于执行如下步骤:
获取所述每个待训练对话组信息中的对话组词序列,其中,所述对话组词序列与所述待训练文本信息具有对应关系;
根据所述每个待训练对话组信息中的对话组词序列,获取所述对话组词序列对应的词向量;
根据所述对话组词序列对应的词向量确定所述每个词向量所对应的中间态矩阵;
根据所述中间态矩阵计算得到所述每个待训练对话组信息所对应的对话组特征信息。
可选地,CPU 422具体用于执行如下步骤:
通过如下方式计算所述对话组特征信息:
Figure GDA0003956358500000331
Figure GDA0003956358500000332
其中,所述
Figure GDA0003956358500000333
表示第i个待训练对话组信息所对应的对话组特征信息,所述
Figure GDA0003956358500000334
表示所述第i个待训练对话组信息所对应的所述对话组词序列,所述
Figure GDA0003956358500000335
表示所述第i个待训练对话组信息中第s个词语的中间态矩阵,所述
Figure GDA0003956358500000336
用于确定所述
Figure GDA0003956358500000337
所述δh表示sigmoid函数,所述
Figure GDA0003956358500000338
表示第一权重向量,所述
Figure GDA0003956358500000339
表示第二权重向量,所述
Figure GDA00039563585000003310
表示所述第i个待训练对话组信息中第(s-1)个词语的中间态矩阵,所述
Figure GDA00039563585000003311
表示所述第i个待训练对话组信息中所述对话组词序列的第s个词语所对应的词向量。
可选地,CPU 422具体用于执行如下步骤:
获取所述每个待训练对话组信息中的对话组词序列,其中,所述对话组词序列与所述待训练文本信息具有对应关系;
根据所述每个待训练对话组信息中的对话组词序列,获取所述对话组词序列对应的词向量;
根据所述对话组词序列对应的词向量确定所述每个词向量所对应的中间态矩阵;
根据所述每个词向量所对应的中间态矩阵确定所述每个词语的权重系数,其中,所述权重系数与关键词识别重要程度呈正相关;
根据所述每个词向量所对应的中间态矩阵以及所述每个词语的权重系数,计算得到所述每个待训练对话组信息所对应的对话组特征信息。
可选地,CPU 422具体用于执行如下步骤:
通过如下方式计算所述对话组特征信息:
Figure GDA0003956358500000341
Figure GDA0003956358500000342
Figure GDA0003956358500000343
Figure GDA0003956358500000344
其中,所述
Figure GDA00039563585000003414
表示第i个待训练对话组信息所对应的对话组特征信息,所述
Figure GDA0003956358500000345
表示所述第i个待训练对话组信息所对应的所述对话组词序列,所述
Figure GDA0003956358500000346
表示所述第i个待训练对话组信息中第s个词语的中间态矩阵,所述
Figure GDA0003956358500000347
表示所述第i个待训练对话组信息中第s个词语的权重系数,所述δh表示sigmoid函数,所述
Figure GDA0003956358500000348
表示第一权重向量,所述
Figure GDA0003956358500000349
表示第二权重向量,所述
Figure GDA00039563585000003410
表示所述第i个待训练对话组信息中第(s-1)个词语的中间态矩阵,所述
Figure GDA00039563585000003411
表示所述第i个待训练对话组信息中所述对话组词序列的第s个词语所对应的词向量,所述softmax表示激活函数,所述
Figure GDA00039563585000003412
表示将所述
Figure GDA00039563585000003413
作为输入参数的自学习函数,所述Wa表示自学习系数,所述tanh表示非线性激活函数。
可选地,CPU 422具体用于执行如下步骤:
获取所述每个待训练对话组信息所对应的对话组词序列,以及每个待训练文本信息所对应的文本词序列;
根据所述对话组词序列以及所述文本词序列,确定所述每个待训练对话组信息的相似度值;
根据所述每个待训练对话组信息的相似度值以及词向量矩阵,计算得到所述每个待训练对话组信息所对应的对话组特征信息。
可选地,CPU 422具体用于执行如下步骤:
通过如下方式计算所述对话组特征信息:
Figure GDA0003956358500000351
Pi=softmax(Vi+Mi);
其中,所述
Figure GDA0003956358500000352
表示第i个待训练对话组信息所对应的对话组特征信息,所述Pi表示所述第i个待训练对话组信息的相似度值,所述Ci表示所述第i个待训练对话组信息的词向量矩阵,所述Vi表示第i个待训练文本信息所对应的文本词序列,所述Mi表示所述第i个待训练对话组信息的对话组词序列,所述softmax表示激活函数。
可选地,CPU 422还用于执行如下步骤:
获取所述每个待训练文本信息所对应的标签序列,其中,所述标签序列为二值标签序列和/或五值标签序列;
所述二值标签序列包括第一标签或者第二标签,其中,所述第一标签表示所述第i个待训练文本信息中第s个词语为关键词,所述第二标签表示所述第i个待训练文本信息中第s个词语为非关键词,所述i为大于或等于1的整数,所述s为大于或等于1的整数;
所述五值标签序列包括第三标签、第四标签、第五标签、第六标签或者第七标签,其中,所述第三标签表示所述第i个待训练文本信息中第s个词语为关键词的一部分,且所述关键词只包含所述第s个词语,第四标签表示所述第i个待训练文本信息中第s个词语为关键词的一部分,且所述第s个词语为所述关键词的第一个词语,第五标签表示所述第i个待训练文本信息中第s个词语为关键词的一部分,且所述第s个词语既非所述关键词的第一个词语,又非所述关键词的最后一个词语,所述第六标签表示所述第i个待训练文本信息中第s个词语为关键词的一部分,且所述第s个词语为所述关键词的最后一个词语,所述第七标签表示所述第i个待训练文本信息中第s个词语不为关键词的一部分。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (5)

1.一种文本处理的方法,其特征在于,包括:
获取待训练对话组信息集合,其中,所述待训练对话组信息集合中包括N个待训练对话组信息,所述待训练对话组信息包括待训练文本信息以及与所述待训练文本信息关联的待训练附属信息,所述N为大于或等于1的整数;
对所述待训练对话组信息集合中的每个待训练对话组信息进行编码处理,得到所述每个待训练对话组信息所对应的对话组特征信息;
根据所述每个待训练对话组信息所对应的对话组特征信息,以及每个待训练文本信息所对应的标签序列,训练得到关键词抽取模型,其中,所述标签序列用于表示所述待训练文本信息中每个词语与关键词之间的关系;
获取目标对话组信息,其中,所述目标对话组信息中包括目标文本信息;
通过所述关键词抽取模型获取所述目标文本信息所对应的目标标签序列,所述目标标签序列用于表示目标关键词在所述目标文本信息中的位置;
根据所述目标标签序列确定所述目标文本信息中的目标关键词;
所述对所述待训练对话组信息集合中的每个待训练对话组信息进行编码处理,得到所述每个待训练对话组信息所对应的对话组特征信息,包括:
获取所述每个待训练对话组信息中的对话组词序列,其中,所述对话组词序列与所述待训练文本信息具有对应关系;
根据所述每个待训练对话组信息中的对话组词序列,获取所述对话组词序列对应的词向量;
根据所述对话组词序列以及所述对话组词序列对应的词向量,计算得到所述每个待训练对话组信息所对应的对话组特征信息,具体包括:
通过如下方式计算所述对话组特征信息:
Figure FDA0003956358490000011
其中,所述
Figure FDA0003956358490000012
表示第i个待训练对话组信息所对应的对话组特征信息,所述
Figure FDA0003956358490000013
表示所述第i个待训练对话组信息所对应的所述对话组词序列,所述
Figure FDA0003956358490000014
表示所述第i个待训练对话组信息中所述对话组词序列的第s个词语所对应的词向量,所述s表示所述对话组词序列的中的第s个词语;
或者,
所述对所述待训练对话组信息集合中的每个待训练对话组信息进行编码处理,得到所述每个待训练对话组信息所对应的对话组特征信息,包括:
获取所述每个待训练对话组信息所对应的对话组词序列,以及每个待训练文本信息所对应的文本词序列;
根据所述对话组词序列以及所述文本词序列,确定所述每个待训练对话组信息的相似度值;
根据所述每个待训练对话组信息的相似度值以及词向量矩阵,计算得到所述每个待训练对话组信息所对应的对话组特征信息,具体包括:
通过如下方式计算所述对话组特征信息:
Figure FDA0003956358490000021
Pi=softmax(Vi+Mi);
其中,所述
Figure FDA0003956358490000022
表示第i个待训练对话组信息所对应的对话组特征信息,所述Pi表示所述第i个待训练对话组信息的相似度值,所述Ci表示所述第i个待训练对话组信息的词向量矩阵,所述Vi表示第i个待训练文本信息所对应的文本词序列,所述Mi表示所述第i个待训练对话组信息的对话组词序列,所述softmax表示激活函数。
2.根据权利要求1所述的方法,其特征在于,所述训练得到所述关键词抽取模型之前,所述方法还包括:
获取所述每个待训练文本信息所对应的标签序列,其中,所述标签序列为二值标签序列和/或五值标签序列;
所述二值标签序列包括第一标签或者第二标签,其中,所述第一标签表示所述第i个待训练文本信息中第s个词语为关键词,所述第二标签表示所述第i个待训练文本信息中第s个词语为非关键词,所述i为大于或等于1的整数,所述s为大于或等于1的整数;
所述五值标签序列包括第三标签、第四标签、第五标签、第六标签或者第七标签,其中,所述第三标签表示所述第i个待训练文本信息中第s个词语为关键词的一部分,且所述关键词只包含所述第s个词语,第四标签表示所述第i个待训练文本信息中第s个词语为关键词的一部分,且所述第s个词语为所述关键词的第一个词语,第五标签表示所述第i个待训练文本信息中第s个词语为关键词的一部分,且所述第s个词语既非所述关键词的第一个词语,又非所述关键词的最后一个词语,所述第六标签表示所述第i个待训练文本信息中第s个词语为关键词的一部分,且所述第s个词语为所述关键词的最后一个词语,所述第七标签表示所述第i个待训练文本信息中第s个词语不为关键词的一部分。
3.一种服务器,其特征在于,包括:
获取模块,用于获取待训练对话组信息集合,其中,所述待训练对话组信息集合中包括N个待训练对话组信息,所述待训练对话组信息包括待训练文本信息以及与所述待训练文本信息关联的待训练附属信息,所述N为大于或等于1的整数;
编码模块,用于对所述待训练对话组信息集合中的每个待训练对话组信息进行编码处理,得到所述每个待训练对话组信息所对应的对话组特征信息;
训练模块,用于根据所述每个待训练对话组信息所对应的对话组特征信息,以及每个待训练文本信息所对应的标签序列,训练得到关键词抽取模型,其中,所述标签序列用于表示所述待训练文本信息中每个词语与关键词之间的关系;
所述获取模块,还用于获取目标对话组信息,其中,所述目标对话组信息中包括目标文本信息;
所述获取模块,还用于通过所述关键词抽取模型获取所述目标文本信息所对应的目标标签序列,所述目标标签序列用于表示目标关键词在所述目标文本信息中的位置;
确定模块,用于根据所述获取模块获取的所述目标标签序列确定所述目标文本信息中的目标关键词;
所述对所述待训练对话组信息集合中的每个待训练对话组信息进行编码处理,得到所述每个待训练对话组信息所对应的对话组特征信息,包括:
获取所述每个待训练对话组信息中的对话组词序列,其中,所述对话组词序列与所述待训练文本信息具有对应关系;
根据所述每个待训练对话组信息中的对话组词序列,获取所述对话组词序列对应的词向量;
根据所述对话组词序列以及所述对话组词序列对应的词向量,计算得到所述每个待训练对话组信息所对应的对话组特征信息,具体包括:
通过如下方式计算所述对话组特征信息:
Figure FDA0003956358490000041
其中,所述
Figure FDA0003956358490000042
表示第i个待训练对话组信息所对应的对话组特征信息,所述
Figure FDA0003956358490000043
表示所述第i个待训练对话组信息所对应的所述对话组词序列,所述
Figure FDA0003956358490000044
表示所述第i个待训练对话组信息中所述对话组词序列的第s个词语所对应的词向量,所述s表示所述对话组词序列的中的第s个词语;
或者,
所述对所述待训练对话组信息集合中的每个待训练对话组信息进行编码处理,得到所述每个待训练对话组信息所对应的对话组特征信息,包括:
获取所述每个待训练对话组信息所对应的对话组词序列,以及每个待训练文本信息所对应的文本词序列;
根据所述对话组词序列以及所述文本词序列,确定所述每个待训练对话组信息的相似度值;
根据所述每个待训练对话组信息的相似度值以及词向量矩阵,计算得到所述每个待训练对话组信息所对应的对话组特征信息,具体包括:
通过如下方式计算所述对话组特征信息:
Figure FDA0003956358490000045
Pi=softmax(Vi+Mi);
其中,所述
Figure FDA0003956358490000046
表示第i个待训练对话组信息所对应的对话组特征信息,所述Pi表示所述第i个待训练对话组信息的相似度值,所述Ci表示所述第i个待训练对话组信息的词向量矩阵,所述Vi表示第i个待训练文本信息所对应的文本词序列,所述Mi表示所述第i个待训练对话组信息的对话组词序列,所述softmax表示激活函数。
4.一种服务器,其特征在于,包括:存储器、收发器、处理器以及总线系统;
其中,所述存储器用于存储程序;
所述处理器用于执行所述存储器中的程序,包括如下步骤:
获取待训练对话组信息集合,其中,所述待训练对话组信息集合中包括N个待训练对话组信息,所述待训练对话组信息包括待训练文本信息以及与所述待训练文本信息关联的待训练附属信息,所述N为大于或等于1的整数;
对所述待训练对话组信息集合中的每个待训练对话组信息进行编码处理,得到所述每个待训练对话组信息所对应的对话组特征信息;
根据所述每个待训练对话组信息所对应的对话组特征信息,以及每个待训练文本信息所对应的标签序列,训练得到关键词抽取模型,其中,所述标签序列用于表示所述待训练文本信息中每个词语与关键词之间的关系;
获取目标对话组信息,其中,所述目标对话组信息中包括目标文本信息;
通过所述关键词抽取模型获取所述目标文本信息所对应的目标标签序列,所述目标标签序列用于表示目标关键词在所述目标文本信息中的位置;
根据所述目标标签序列确定所述目标文本信息中的目标关键词;
所述对所述待训练对话组信息集合中的每个待训练对话组信息进行编码处理,得到所述每个待训练对话组信息所对应的对话组特征信息,包括:
获取所述每个待训练对话组信息中的对话组词序列,其中,所述对话组词序列与所述待训练文本信息具有对应关系;
根据所述每个待训练对话组信息中的对话组词序列,获取所述对话组词序列对应的词向量;
根据所述对话组词序列以及所述对话组词序列对应的词向量,计算得到所述每个待训练对话组信息所对应的对话组特征信息,具体包括:
通过如下方式计算所述对话组特征信息:
Figure FDA0003956358490000051
其中,所述
Figure FDA0003956358490000052
表示第i个待训练对话组信息所对应的对话组特征信息,所述
Figure FDA0003956358490000053
表示所述第i个待训练对话组信息所对应的所述对话组词序列,所述
Figure FDA0003956358490000054
表示所述第i个待训练对话组信息中所述对话组词序列的第s个词语所对应的词向量,所述s表示所述对话组词序列的中的第s个词语;
或者,
所述对所述待训练对话组信息集合中的每个待训练对话组信息进行编码处理,得到所述每个待训练对话组信息所对应的对话组特征信息,包括:
获取所述每个待训练对话组信息所对应的对话组词序列,以及每个待训练文本信息所对应的文本词序列;
根据所述对话组词序列以及所述文本词序列,确定所述每个待训练对话组信息的相似度值;
根据所述每个待训练对话组信息的相似度值以及词向量矩阵,计算得到所述每个待训练对话组信息所对应的对话组特征信息,具体包括:
通过如下方式计算所述对话组特征信息:
Figure FDA0003956358490000061
Pi=softmax(Vi+Mi);
其中,所述
Figure FDA0003956358490000062
表示第i个待训练对话组信息所对应的对话组特征信息,所述Pi表示所述第i个待训练对话组信息的相似度值,所述Ci表示所述第i个待训练对话组信息的词向量矩阵,所述Vi表示第i个待训练文本信息所对应的文本词序列,所述Mi表示所述第i个待训练对话组信息的对话组词序列,所述softmax表示激活函数;
所述总线系统用于连接所述存储器以及所述处理器,以使所述存储器以及所述处理器进行通信。
5.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得所述计算机执行如权利要求1或2所述的方法。
CN201810444290.7A 2018-05-10 2018-05-10 一种关键词的确定方法、文本处理的方法及服务器 Active CN110472198B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810444290.7A CN110472198B (zh) 2018-05-10 2018-05-10 一种关键词的确定方法、文本处理的方法及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810444290.7A CN110472198B (zh) 2018-05-10 2018-05-10 一种关键词的确定方法、文本处理的方法及服务器

Publications (2)

Publication Number Publication Date
CN110472198A CN110472198A (zh) 2019-11-19
CN110472198B true CN110472198B (zh) 2023-01-24

Family

ID=68503900

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810444290.7A Active CN110472198B (zh) 2018-05-10 2018-05-10 一种关键词的确定方法、文本处理的方法及服务器

Country Status (1)

Country Link
CN (1) CN110472198B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111666759B (zh) * 2020-04-17 2024-03-26 北京百度网讯科技有限公司 文本的关键信息的抽取方法、装置、电子设备及存储介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009070180A (ja) * 2007-09-13 2009-04-02 Internatl Business Mach Corp <Ibm> 情報の検索を支援する装置及び方法
CN106815194A (zh) * 2015-11-27 2017-06-09 北京国双科技有限公司 模型训练方法及装置和关键词识别方法及装置
CN106095749A (zh) * 2016-06-03 2016-11-09 杭州量知数据科技有限公司 一种基于深度学习的文本关键词提取方法
CN106844344B (zh) * 2017-02-06 2020-06-05 厦门快商通科技股份有限公司 用于对话的贡献度计算方法及主题抽取方法和系统
CN106909656B (zh) * 2017-02-27 2019-03-08 腾讯科技(深圳)有限公司 获取文本提取模型的方法及装置
CN107577763A (zh) * 2017-09-04 2018-01-12 北京京东尚科信息技术有限公司 检索方法和装置
CN107679225B (zh) * 2017-10-20 2021-03-09 哈尔滨工业大学 一种基于关键词的回复生成方法
CN107844560B (zh) * 2017-10-30 2020-09-08 北京锐安科技有限公司 一种数据接入的方法、装置、计算机设备和可读存储介质
CN107862058B (zh) * 2017-11-10 2021-10-22 北京百度网讯科技有限公司 用于生成信息的方法和装置
CN110188158B (zh) * 2019-05-06 2022-12-27 腾讯科技(深圳)有限公司 关键词及话题标签生成方法、装置、介质及电子设备

Also Published As

Publication number Publication date
CN110472198A (zh) 2019-11-19

Similar Documents

Publication Publication Date Title
CN108536681B (zh) 基于情感分析的智能问答方法、装置、设备及存储介质
CN108304439B (zh) 一种语义模型优化方法、装置及智能设备、存储介质
CN111966800B (zh) 情感对话生成方法、装置及情感对话模型训练方法、装置
CN109754317B (zh) 融合评论的可解释性服装推荐方法、系统、设备及介质
Scheidwasser-Clow et al. Serab: A multi-lingual benchmark for speech emotion recognition
CN109271493A (zh) 一种语言文本处理方法、装置和存储介质
CN111897933A (zh) 情感对话生成方法、装置及情感对话模型训练方法、装置
CN109582956A (zh) 应用于句子嵌入的文本表示方法和装置
CN107832295B (zh) 阅读机器人的标题选择方法及系统
CN113723166A (zh) 内容识别方法、装置、计算机设备和存储介质
CN114202791A (zh) 面部情绪识别模型的训练方法、情绪识别方法及相关设备
JP6366749B2 (ja) 対話インターフェース
CN110597968A (zh) 一种回复选择方法及装置
CN112364148A (zh) 一种基于深度学习方法的生成型聊天机器人
CN115713797A (zh) 训练感情识别模型的方法、感情识别方法及装置
de Velasco et al. Emotion Detection from Speech and Text.
CN110472198B (zh) 一种关键词的确定方法、文本处理的方法及服务器
Ahmed et al. Context based Emotion Recognition from Bengali Text using Transformers
Kusuma et al. Deep learning based facial expressions recognition system for assisting visually impaired persons
Schuller Speech analysis in the big data era
CN109918484B (zh) 对话生成方法和装置
CN114417891B (zh) 基于粗糙语义的回复语句确定方法、装置及电子设备
CN114141271B (zh) 心理状态检测方法及系统
Chumak et al. Analysis of user profiles in social networks
Ren et al. Acoustics, content and geo-information based sentiment prediction from large-scale networked voice data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant