CN110188158B - 关键词及话题标签生成方法、装置、介质及电子设备 - Google Patents

关键词及话题标签生成方法、装置、介质及电子设备 Download PDF

Info

Publication number
CN110188158B
CN110188158B CN201910372712.9A CN201910372712A CN110188158B CN 110188158 B CN110188158 B CN 110188158B CN 201910372712 A CN201910372712 A CN 201910372712A CN 110188158 B CN110188158 B CN 110188158B
Authority
CN
China
Prior art keywords
feature vector
vector
text data
generating
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910372712.9A
Other languages
English (en)
Other versions
CN110188158A (zh
Inventor
李菁
史树明
王樾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910372712.9A priority Critical patent/CN110188158B/zh
Publication of CN110188158A publication Critical patent/CN110188158A/zh
Application granted granted Critical
Publication of CN110188158B publication Critical patent/CN110188158B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请的实施例提供了一种关键词及话题标签生成方法、装置、介质及电子设备。文本数据的关键词生成方法包括:获取需要生成关键词的第一文本数据,并获取与所述第一文本数据相关联的第二文本数据;对所述第一文本数据进行编码处理得到第一特征向量,对所述第二文本数据进行编码处理得到第二特征向量;根据所述第一特征向量和所述第二特征向量,确定所述第一特征向量与所述第二特征向量之间的相关性特征;基于所述第一特征向量、所述第二特征向量和所述相关性特征,生成与所述第一文本数据相关联的关键词。本申请实施例的技术方案可以提高生成的文本数据的关键词的准确性及可扩展性。

Description

关键词及话题标签生成方法、装置、介质及电子设备
技术领域
本申请涉及计算机及通信技术领域,具体而言,涉及一种关键词及话题标签生成方法、装置、介质及电子设备。
背景技术
在生成社交文本中的话题标签时,相关技术中通常是在社交文本中直接抽取关键词作为话题标签,由于通过这种方式抽取出的关键词都是社交文本中存在的词语,因此抽取得到的关键词难免存在局限性,并且也会由于社交文本数据较少而导致抽取出的关键词不准确、不能客观反映社交文本中话题标签的问题。
发明内容
本申请的实施例提供了一种关键词及话题标签生成方法、装置、介质及电子设备,进而至少在一定程度上可以提高生成的文本数据的关键词的准确性及可扩展性。
本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
根据本申请实施例的一个方面,提供了一种文本数据的关键词生成方法,包括:获取需要生成关键词的第一文本数据,并获取与所述第一文本数据相关联的第二文本数据;对所述第一文本数据进行编码处理得到第一特征向量,对所述第二文本数据进行编码处理得到第二特征向量;根据所述第一特征向量和所述第二特征向量,确定所述第一特征向量与所述第二特征向量之间的相关性特征;基于所述第一特征向量、所述第二特征向量和所述相关性特征,生成与所述第一文本数据相关联的关键词。
根据本申请实施例的一个方面,提供了一种话题标签的生成方法,包括:获取内容分享平台中的消息数据,并获取所述消息数据的关联数据,所述关联数据包括所述消息数据的回复信息和/或评论信息;对所述消息数据进行编码处理得到第一特征向量,对所述关联数据进行编码处理得到第二特征向量;根据所述第一特征向量和所述第二特征向量,确定所述第一特征向量与所述第二特征向量之间的相关性特征;基于所述第一特征向量、所述第二特征向量和所述相关性特征,生成所述消息数据的话题标签。
根据本申请实施例的一个方面,提供了一种文本数据的关键词生成装置,包括:获取单元,用于获取需要生成关键词的第一文本数据,并获取与所述第一文本数据相关联的第二文本数据;编码单元,用于对所述第一文本数据进行编码处理得到第一特征向量,对所述第二文本数据进行编码处理得到第二特征向量;第一处理单元,用于根据所述第一特征向量和所述第二特征向量,确定所述第一特征向量与所述第二特征向量之间的相关性特征;第二处理单元,用于基于所述第一特征向量、所述第二特征向量和所述相关性特征,生成与所述第一文本数据相关联的关键词。
在本申请的一些实施例中,基于前述方案,所述编码单元配置为:通过第一编码器对所述第一文本数据的词向量特征进行编码处理得到所述第一特征向量,通过第二编码器对所述第二文本数据的词向量特征进行编码处理得到所述第二特征向量。
在本申请的一些实施例中,基于前述方案,所述第一处理单元包括:第一计算单元,用于根据所述第一特征向量和所述第二特征向量,计算所述第一特征向量所包含的各个第一元素与所述第二特征向量所包含的各个第二元素之间的相似性;第一生成单元,用于根据所述各个第一元素与所述各个第二元素之间的相似性,生成通过所述第二特征向量表征所述第一特征向量的第一内容向量,并生成通过所述第一特征向量表征所述第二特征向量的第二内容向量;第一确定单元,用于基于所述第一内容向量和所述第二内容向量,确定所述第一特征向量与所述第二特征向量之间的相关性特征。
在本申请的一些实施例中,基于前述方案,所述第一生成单元配置为:根据所述各个第一元素与所述各个第二元素之间的相似性,确定所述各个第二元素针对所述各个第一元素的注意力权重,以及所述各个第一元素针对所述各个第二元素的注意力权重;根据所述各个第二元素和所述各个第二元素针对所述各个第一元素的注意力权重,生成所述第一内容向量;根据所述各个第一元素和所述各个第一元素针对所述各个第二元素的注意力权重,生成所述第二内容向量。
在本申请的一些实施例中,基于前述方案,所述第一生成单元配置为通过以下公式确定所述各个第二元素针对所述各个第一元素的注意力权重:
Figure BDA0002050529760000031
其中,
Figure BDA0002050529760000032
表示第j个第二元素针对第i个第一元素的注意力权重;
Figure BDA0002050529760000033
表示第i个第一元素;
Figure BDA0002050529760000034
表示第j个第二元素;
Figure BDA0002050529760000035
用于表示第i个第一元素与第j个第二元素之间的相似性;|xc|表示所述第二特征向量所包含的第二元素的数量。
在本申请的一些实施例中,基于前述方案,所述第一生成单元配置为通过以下公式确定所述各个第一元素针对所述各个第二元素的注意力权重:
Figure BDA0002050529760000036
其中,
Figure BDA0002050529760000037
表示第j个第一元素针对第i个第二元素的注意力权重;
Figure BDA0002050529760000038
表示第i个第二元素;
Figure BDA0002050529760000039
表示第j个第一元素;
Figure BDA00020505297600000310
用于表示第i个第二元素与第j个第一元素之间的相似性;|xp|表示所述第一特征向量所包含的第一元素的数量。
在本申请的一些实施例中,基于前述方案,所述第二处理单元包括:第二生成单元,用于根据所述第一特征向量、所述第二特征向量和所述相关性特征,生成所述第一文本数据和所述第二文本数据对应的总特征向量;第三生成单元,用于根据所述总特征向量生成与所述第一文本数据相关联的关键词。
在本申请的一些实施例中,基于前述方案,所述第二生成单元配置为:将所述第一特征向量和所述第一内容向量进行合并处理,生成第一合并特征向量,并将所述第二特征向量和所述第二内容向量进行合并处理,生成第二合并特征向量;对所述第一合并特征向量和所述第二合并特征向量进行拼接处理,得到所述第一文本数据和所述第二文本数据对应的总特征向量。
在本申请的一些实施例中,基于前述方案,所述第二生成单元配置为通过以下公式将所述第一特征向量和所述第一内容向量进行合并处理:
vp=tanh(Wp[hp;rc]+bp)
其中,vp表示所述第一合并特征向量;hp表示所述第一特征向量;rc表示所述第一内容向量;[hp;rc]表示将hp与rc进行拼接处理;Wp与bp表示权重矩阵参数。
在本申请的一些实施例中,基于前述方案,所述第二生成单元配置为通过以下公式将所述第二特征向量和所述第二内容向量进行合并处理:
vc=tanh(Wc[hc;rp]+bc)
其中,vc表示所述第二合并特征向量;hc表示所述第二特征向量;rp表示所述第二内容向量;[hc;rp]表示将hc与rp进行拼接处理;Wc与bc表示权重矩阵参数。
在本申请的一些实施例中,基于前述方案,所述第三生成单元配置为:对所述总特征向量进行解码处理,生成各个文本标签的词分布概率;根据所述各个文本标签的词分布概率,选择预定数量个文本标签作为与所述第一文本数据相关联的关键词。
在本申请的一些实施例中,基于前述方案,所述第三生成单元配置为:通过解码器对所述总特征向量进行解码处理得到第三特征向量;计算所述总特征向量所包含的各个元素与所述第三特征向量所包含的各个第三元素之间的相似性;根据所述总特征向量所包含的各个元素与所述各个第三元素之间的相似性,确定所述总特征向量所包含的各个元素针对所述各个第三元素的注意力权重;根据所述总特征向量所包含的各个元素和所述总特征向量所包含的各个元素针对所述各个第三元素的注意力权重,生成第三内容向量;根据所述第三特征向量和所述第三内容向量,生成各个文本标签的词分布概率。
在本申请的一些实施例中,基于前述方案,所述第三生成单元配置为:对所述第三特征向量和所述第三内容向量进行合并生成第三合并特征向量;对所述第三合并特征向量进行归一化处理,得到各个文本标签的词分布概率。
在本申请的一些实施例中,基于前述方案,在所述第一文本数据包括内容分享平台中的消息数据的情况下,所述获取单元配置为:获取针对所述消息数据的回复信息和/或评论信息,将所述回复信息和/或评论信息作为所述第二文本数据。
根据本申请实施例的一个方面,提供了一种计算机可读介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述实施例中所述的文本数据的关键词生成方法。
根据本申请实施例的一个方面,提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述实施例中所述的文本数据的关键词生成方法。
在本申请的一些实施例所提供的技术方案中,通过获取与第一文本数据相关联的第二文本数据,对第一文本数据进行编码处理得到第一特征向量,对第二文本数据进行编码处理得到第二特征向量,根据第一特征向量和第二特征向量确定第一特征向量与第二特征向量之间的相关性特征,进而基于第一特征向量、第二特征向量和该相关性特征生成与第一文本数据相关联的关键词,使得能够通过第二文本数据对第一文本数据的信息量进行扩充,解决了仅依靠第一文本数据来生成关键词而出现的数据稀疏性问题;同时由于考虑了第一特征向量和第二特征向量之间的相关性特征,因此能够识别出第二文本数据中与第一文本数据关联性较大的特征,进而能够提高生成的关键词的准确性。可见,本申请实施例的技术方案能够提高生成的文本数据的关键词的准确性及可扩展性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示出了可以应用本申请实施例的技术方案的示例性系统架构的示意图;
图2示出了根据本申请的一个实施例的文本数据的关键词生成方法的流程图;
图3示出了根据本申请的一个实施例的确定第一特征向量与第二特征向量之间的相关性特征的流程图;
图4示出了根据本申请的一个实施例的生成第一内容向量和第二内容向量的流程图;
图5示出了根据本申请的一个实施例的生成与第一文本数据相关联的关键词的流程图;
图6示出了根据本申请的一个实施例的根据总特征向量生成与第一文本数据相关联的关键词的流程图;
图7示出了根据本申请的一个实施例的生成各个文本标签的词分布概率的流程图;
图8示出了根据本申请的一个实施例的通过标签生成模型生成社交文本的话题标签的流程图;
图9示出了根据本申请的一个实施例的标签生成模型的结构图;
图10示出了根据本申请的一个应用场景中的社交文本及对话信息的示意图;
图11示出了根据本申请的一个实施例的文本数据的关键词生成装置的框图;
图12示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本申请将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本申请的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
图1示出了可以应用本申请实施例的技术方案的示例性系统架构的示意图。
如图1所示,系统架构可以包括终端设备(如图1中所示智能手机101、平板电脑102和便携式计算机103中的一种或多种,当然也可以是台式计算机等等)、网络104和服务器105。网络104用以在终端设备和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线通信链路、无线通信链路等等。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。
在本申请的一个实施例中,服务器可以获取终端设备上传的需要生成关键词的第一文本数据,并获取与该第一文本数据相关联的第二文本数据。比如第一文本数据可以是社交文本数据,如在内容分享平台(比如微博、Facebook、新闻应用客户端等)发布的消息数据等,第二文本数据可以是针对社交文本数据的评论数据、回复数据等。
在本申请的一个实施例中,服务器在获取到第一文本数据和第二文本数据之后,可以对第一文本数据进行编码处理得到第一特征向量,并对第二文本数据进行编码处理得到第二特征向量。比如可以通过GRU(Gated Recurrent Unit,门循环单元)网络来对第一文本数据和第二文本数据(具体是对第一文本数据对应的词向量特征和第二文本数据对应的词向量特征)进行编码处理。在得到第一特征向量和第二特征向量之后,服务器可以根据第一特征向量和第二特征向量确定第一特征向量与第二特征向量之间的相关性特征,进而基于第一特征向量、第二特征向量和该相关性特征生成与第一文本数据相关联的关键词。
在本申请的一个实施例中,服务器在生成与第一文本数据相关联的关键词之后,可以将该关键词反馈给终端设备,以便终端设备将该关键词呈现给用户。
可见,本申请实施例的技术方案能够通过第二文本数据对第一文本数据的信息量进行扩充,解决了仅依靠第一文本数据来生成关键词而出现的数据稀疏性问题,提高了生成的关键词的可扩展性;同时由于考虑了第一特征向量和第二特征向量之间的相关性特征,因此能够识别出第二文本数据中与第一文本数据关联性较大的特征,进而能够提高生成的关键词的准确性。
需要说明的是,本申请实施例所提供的文本数据的关键词生成方法一般由服务器105执行,相应地,文本数据的关键词生成装置一般设置于服务器105中。但是,在本申请的其它实施例中,终端设备也可以与服务器具有相似的功能,从而执行本申请实施例所提供的文本数据的关键词生成方案。
以下对本申请实施例的技术方案的实现细节进行详细阐述:
图2示出了根据本申请的一个实施例的文本数据的关键词生成方法的流程图,该文本数据的关键词生成方法可以由具有计算处理功能的设备来执行,比如可以由图1中所示的服务器105来执行。参照图2所示,该文本数据的关键词生成方法至少包括步骤S210至步骤S240,详细介绍如下:
在步骤S210中,获取需要生成关键词的第一文本数据,并获取与所述第一文本数据相关联的第二文本数据。
在本申请的一个实施例中,获取的第二文本数据可以扩充第一文本数据的数据量,进而能够提高生成的关键词的可扩展性,解决了文本数据稀疏的问题。
在本申请的一个实施例中,第一文本数据可以是内容分享平台(比如微博、Facebook、论坛、新闻应用客户端等)中的消息数据,那么第二文本数据可以是针对该消息数据的回复信息和/或评论信息。
在本申请的一个实施例中,第一文本数据也可以是一篇文章的标题,第二文本数据可以是该文章的正文内容。
在步骤S220中,对所述第一文本数据进行编码处理得到第一特征向量,对所述第二文本数据进行编码处理得到第二特征向量。
在本申请的一个实施例中,可以通过第一编码器对第一文本数据的词向量特征进行编码处理得到第一特征向量,并通过第二编码器对第二文本数据的词向量特征进行编码处理得到第二特征向量。比如,可以先通过词嵌入层(Embedding)产生第一文本数据的词向量特征和第二文本数据的词向量特征,然后将第一文本数据的词向量特征输入至第一编码器进行编码处理得到第一特征向量,将第二文本数据的词向量特征输入至第二编码器进行编码处理得到第二特征向量。其中,第一特征向量是对第一文本数据的词向量特征进行矩阵变换得到的特征向量;第二特征向量是对第二文本数据的词向量特征进行矩阵变换得到的特征向量。
在本申请的一个实施例中,第一编码器和第二编码器可以是不同的编码器,这样可以分别获取到第一文本数据对应的第一特征向量和第二文本数据对应的第二特征向量,以便于后续确定第一特征向量和第二特征向量之间的相关性特征。
在本申请的一个实施例中,第一编码器和第二编码器都可以是GRU网络,即通过两个GRU网络来分别对第一文本数据的词向量特征和第二文本数据的词向量特征进行编码处理。
继续参照图2所示,在步骤S230中,根据所述第一特征向量和所述第二特征向量,确定所述第一特征向量与所述第二特征向量之间的相关性特征。
在本申请的一个实施例中,第一特征向量与第二特征向量之间的相关性特征可以用于识别出第二文本数据中与第一文本数据关联性较大的特征,进而可以辅助确定关键词,提高确定的关键词的准确性及可扩展性。
在本申请的一个实施例中,如图3所示,根据第一特征向量和所述第二特征向量,确定第一特征向量与第二特征向量之间的相关性特征的过程,可以包括如下步骤S310至步骤S330,详细说明如下:
在步骤S310中,根据第一特征向量和第二特征向量,计算所述第一特征向量所包含的各个第一元素与所述第二特征向量所包含的各个第二元素之间的相似性。
在本申请的一个实施例中,可以计算各个第一元素与各个第二元素之间的内积,并以此作为各个第一元素与各个第二元素之间的相似性。或者,也可以计算各个第一元素与各个第二元素之间的余弦相似度,并将余弦相似度的值作为各个第一元素与各个第二元素之间的相似性。
在本申请的一个实施例中,也可以通过公式
Figure BDA0002050529760000091
来计算第i个第一元素和第j个第二元素之间的相似性。其中,Wbi-att表示一个可训练的参数矩阵,即可以通过模型训练的方式来确定该参数矩阵的值。具体而言,可以设置多个向量对,每个向量对包含两个向量,然后根据每个向量对和每个向量对包含的两个向量之间的相似性来生成训练样本,进而基于该训练样本来对
Figure BDA0002050529760000092
进行训练,以找出Wbi-att的最优解。
继续参照图3所示,在步骤S320中,根据所述各个第一元素与所述各个第二元素之间的相似性,生成通过所述第二特征向量表征所述第一特征向量的第一内容向量,并生成通过所述第一特征向量表征所述第二特征向量的第二内容向量。
在本申请的一个实施例中,第一内容向量是通过第二特征向量表征第一特征向量生成的,其包含了第二特征向量中与第一特征向量相关的特征;类似地,第二内容向量是通过第一特征向量表征第二特征向量生成的,其包含了第一特征向量中与第二特征向量相关的特征。
在本申请的一个实施例中,如图4所示,步骤S320中生成第一内容向量和第二内容向量的过程,可以包括如下步骤S410和步骤S420:
在步骤S410中,根据各个第一元素与各个第二元素之间的相似性,确定所述各个第二元素针对所述各个第一元素的注意力权重,以及所述各个第一元素针对所述各个第二元素的注意力权重。
在本申请的一个实施例中,可以通过以下公式确定各个第二元素针对各个第一元素的注意力权重:
Figure BDA0002050529760000093
其中,
Figure BDA0002050529760000101
表示第j个第二元素针对第i个第一元素的注意力权重;
Figure BDA0002050529760000102
表示第i个第一元素;
Figure BDA0002050529760000103
表示第j个第二元素;
Figure BDA0002050529760000104
用于表示第i个第一元素与第j个第二元素之间的相似性;|xc|表示所述第二特征向量所包含的第二元素的数量。
在本申请的一个实施例中,可以通过以下公式确定各个第一元素针对各个第二元素的注意力权重:
Figure BDA0002050529760000105
其中,
Figure BDA0002050529760000106
表示第j个第一元素针对第i个第二元素的注意力权重;
Figure BDA0002050529760000107
表示第i个第二元素;
Figure BDA0002050529760000108
表示第j个第一元素;
Figure BDA0002050529760000109
用于表示第i个第二元素与第j个第一元素之间的相似性;|xp|表示所述第一特征向量所包含的第一元素的数量。
在步骤S420中,根据所述各个第二元素和所述各个第二元素针对所述各个第一元素的注意力权重,生成所述第一内容向量,并根据所述各个第一元素和所述各个第一元素针对所述各个第二元素的注意力权重,生成所述第二内容向量。
在本申请的一个实施例中,可以根据各个第二元素和各个第二元素针对各个第一元素的注意力权重,通过如下公式生成第一内容向量rc中的各个元素:
Figure BDA00020505297600001010
其中,
Figure BDA00020505297600001011
表示第一内容向量rc中的第i个元素;
Figure BDA00020505297600001012
表示第j个第二元素针对第i个第一元素的注意力权重;
Figure BDA00020505297600001013
表示第j个第二元素;|xc|表示第二特征向量所包含的第二元素的数量。
在本申请的一个实施例中,可以根据各个第一元素和各个第一元素针对各个第二元素的注意力权重,通过如下公式生成第二内容向量rp中的各个元素:
Figure BDA00020505297600001014
其中,
Figure BDA0002050529760000111
表示第二内容向量rp中的第i个元素;
Figure BDA0002050529760000112
表示第j个第一元素针对第i个第二元素的注意力权重;
Figure BDA0002050529760000113
表示第j个第一元素;|xp|表示第一特征向量所包含的第一元素的数量。
继续参照图3所示,在步骤S330中,基于所述第一内容向量和所述第二内容向量,确定所述第一特征向量与所述第二特征向量之间的相关性特征。
在本申请的一个实施例中,可以直接将第一内容向量和第二内容向量作为第一特征向量和第二特征向量之间的相关性特征。当然,也可以对第一内容向量和第二内容向量进行处理(比如根据过滤规则过滤掉其中的部分元素)之后作为第一特征向量和第二特征向量之间的相关性特征。
继续参照图2所示,在步骤S240中,基于所述第一特征向量、所述第二特征向量和所述相关性特征,生成与所述第一文本数据相关联的关键词。
在本申请的一个实施例中,如图5所示,步骤S240中基于第一特征向量、第二特征向量和相关性特征,生成与第一文本数据相关联的关键词的过程,可以包括如下步骤S510和步骤S520:
在步骤S510中,根据第一特征向量、第二特征向量和相关性特征,生成第一文本数据和第二文本数据对应的总特征向量。
在本申请的一个实施例中,可以对第一特征向量、第二特征向量和相关性特征进行合并处理,以得到第一文本数据和第二文本数据对应的总特征向量。
在本申请的一个实施例中,如果相关性特征包括前述实施例中的第一内容向量和第二内容向量,则可以将第一特征向量和第一内容向量进行合并处理,生成第一合并特征向量,并将第二特征向量和第二内容向量进行合并处理,生成第二合并特征向量;然后对第一合并特征向量和第二合并特征向量进行拼接处理,得到第一文本数据和第二文本数据对应的总特征向量。
在本申请的一个实施例中,可以通过以下公式将第一特征向量和第一内容向量进行合并处理:
vp=tanh(Wp[hp;rc]+bp)
其中,vp表示第一合并特征向量;hp表示第一特征向量;rc表示第一内容向量;[hp;rc]表示将hp与rc进行拼接处理;Wp与bp表示权重矩阵参数。
在本申请的一个实施例中,类似地,可以通过以下公式将第二特征向量和第二内容向量进行合并处理:
vc=tanh(Wchc;rp]+bc)
其中,vc表示第二合并特征向量;hc表示第二特征向量;rp表示第二内容向量;[hc;rp]表示将hc与rp进行拼接处理;Wc与bc表示权重矩阵参数。
继续参照图5所示,在步骤S520中,根据所述总特征向量生成与所述第一文本数据相关联的关键词。
在本申请的一个实施例中,如图6所示,步骤S520中根据总特征向量生成与第一文本数据相关联的关键词的过程,可以包括如下步骤S610和步骤S620:
在步骤S610中,对总特征向量进行解码处理,生成各个文本标签的词分布概率。
在本申请的一个实施例中,可以通过GRU网络来对总特征向量进行解码处理。在一个实施例中,如图7所示,对总特征向量进行解码处理,生成各个文本标签的词分布概率的过程,可以包括如下步骤S710至步骤S750:
在步骤S710中,通过解码器对总特征向量进行解码处理得到第三特征向量。
在本申请的一个实施例中,第三特征向量可以是GRU网络中的隐藏层对总特征向量进行矩阵变换得到的隐向量。
在步骤S720中,计算所述总特征向量所包含的各个元素与第三特征向量所包含的各个第三元素之间的相似性。
在本申请的一个实施例中,可以计算总特征向量所包含的各个元素与各个第三元素之间的内积,并以此作为总特征向量所包含的各个元素与各个第三元素之间的相似性。或者,也可以计算总特征向量所包含的各个元素与各个第三元素之间的余弦相似度,并将余弦相似度的值作为总特征向量所包含的各个元素与各个第三元素之间的相似性。
在本申请的一个实施例中,也可以通过公式(stWattvi)来计算第t个第三元素和总特征向量所包含的第i个元素之间的相似性。其中,Watt表示一个可训练的参数矩阵,即可以通过模型训练的方式来确定该参数矩阵的值。具体而言,可以设置多个向量对,每个向量对包含两个向量,然后根据每个向量对和每个向量对包含的两个向量之间的相似性来生成训练样本,进而基于该训练样本来对(stWattvi)进行训练,以找出Watt的最优解。
在步骤S730中,根据所述总特征向量所包含的各个元素与所述各个第三元素之间的相似性,确定所述总特征向量所包含的各个元素针对所述各个第三元素的注意力权重。
在本申请的一个实施例中,可以通过以下公式确定总特征向量所包含的各个元素针对各个第三元素的注意力权重:
Figure BDA0002050529760000131
其中,
Figure BDA0002050529760000132
表示总特征向量所包含的第i个元素针对第t个第三元素的注意力权重;vi表示总特征向量所包含的第i个元素;st表示第t个第三元素;gscore(st,vi)用于表示总特征向量所包含的第i个元素与第t个第三元素之间的相似性;m表示总特征向量中的元素个数。
在步骤S740中,根据所述总特征向量所包含的各个元素和所述总特征向量所包含的各个元素针对所述各个第三元素的注意力权重,生成第三内容向量。
在本申请的一个实施例中,可以根据总特征向量所包含的各个元素和总特征向量所包含的各个元素针对各个第三元素的注意力权重,通过如下公式生成第三内容向量中的第t个元素:
Figure BDA0002050529760000133
其中,ct表示第三内容向量中的第t个元素;
Figure BDA0002050529760000134
表示总特征向量所包含的第i个元素针对第t个第三元素的注意力权重;vi表示总特征向量所包含的第i个元素;m表示总特征向量中的元素个数。
在步骤S750中,根据所述第三特征向量和所述第三内容向量,生成各个文本标签的词分布概率。
在本申请的一个实施例中,可以对第三特征向量和第三内容向量进行合并生成第三合并特征向量,然后对第三合并特征向量进行归一化处理,得到各个文本标签的词分布概率。
继续参照图6所示,在步骤S620中,根据所述各个文本标签的词分布概率,选择预定数量个文本标签作为与所述第一文本数据相关联的关键词。
在本申请的一个实施例中,可以根据各个文本标签的词分布概率,采用BeamSearch(集束搜索)来生成一个有序的文本标签列表,然后选择前K个文本标签作为关键词。当然,在本申请的其它实施例中,也可以采用Greedy Search(贪心搜索)来生成文本标签列表。
本申请前述实施例的技术方案能够通过第二文本数据对第一文本数据的信息量进行扩充,解决了仅依靠第一文本数据来生成关键词而出现的数据稀疏性问题,提高了生成的关键词的可扩展性;同时由于考虑了第一特征向量和第二特征向量之间的相关性特征,因此能够识别出第二文本数据中与第一文本数据关联性较大的特征,提高了生成的关键词的准确性。
以下以第一文本数据是社交文本,第二文本数据是社交文本的对话信息(包括回复信息、评论信息等)为例,对本申请实施例中生成社交文本的话题标签的技术方案进行详细阐述:
在本申请的一个实施例中,可以通过标签生成模型来生成社交文本的话题标签。具体地,如图8所示,通过标签生成模型生成社交文本的话题标签的方案主要可以包括数据预处理过程801、模型训练过程802和模型测试/预测过程803。
其中,数据预处理过程801可以包括提取社交文本的词向量特征的过程和提取对话信息的词向量特征的过程。
模型训练过程802可以包括对社交文本的词向量特征进行编码得到社交文本编码的过程;对对话信息的词向量特征进行编码得到对话信息编码的过程;将社交文本编码和对话信息编码进行合并,并解码得到话题标签的过程。模型训练过程802是通过训练样本(训练样本包含了社交文本和对话信息)对机器学习模型进行训练的过程,当训练完成之后可以得到标签生成模型。
模型测试/预测过程803可以包括通过测试样本(测试样本包含了社交文本和对话信息)对标签生成模型进行测试的过程,以确定标签预测模型的准确性。模型测试/预测过程803也可以包括将社交文本和对话信息输入至标签生成模型来生成话题标签的过程,即标签生成模型的应用过程。
在本申请的一个实施例中,标签生成模型的主要结构如图9所示,以下结合图9对本申请实施例的生成社交文本的话题标签的过程进行说明。
参照图9所示,本申请实施例中的标签生成模型是基于经典的序列到序列的框架,即编码器和解码器结合的模型。假设社交文本、对话信息和话题标签分别定义如下:
社交文本:
Figure BDA0002050529760000141
其中,|xp|表示社交文本的词向量中的元素个数;
对话信息:
Figure BDA0002050529760000142
其中,|xc|表示对话信息的词向量中的元素个数;
话题标签:y=<y1,y2,…,y|y|>,其中,|y|表示话题标签集合中的元素个数。
在本申请的一个实施例中,如图9所示,标签生成模型采用了双编码器的结构,即通过不同的GRU单元来分别编码社交文本和对话信息,解决了仅依赖于社交文本而出现的文本稀疏性问题;其次,标签生成模型通过双向注意力机制来探索社交文本和对话信息之间有用信息,以提取两种数据表示中指示性强的信息,然后经过一个合并层901将社交文本和对话信息处理后的特征传递给解码单元902,这样能更有效的识别出社交文本和对话信息中对话题标签预测的指示性较强的信息;最后通过解码单元902中的解码器(如GRU单元)来生成话题标签。可见,本申请实施例的技术方案是将话题标签的识别问题视为序列生成问题来解决。以下结合图9说明标签生成模型的具体处理过程:
在本申请的一个实施例中,如图9所示,双编码器由社交文本编码器和对话信息编码器组成,每个编码器都可以采用Bi-GRU(Bidirectional Gated Recurrent Unit,双向门循环单元)进行编码。具体的,社交文本经过一个词嵌入层产生对应的词向量,然后社交文本的词向量传入以Bi-GRU为基本模块的编码器中,得到隐藏层(隐藏层的处理过程主要是对词向量进行矩阵变换处理)的表示为
Figure BDA0002050529760000151
同理,对话信息经过一个词嵌入层产生对应的词向量,然后对话信息的词向量传入以Bi-GRU为基本模块的编码器中,得到隐藏层的表示为
Figure BDA0002050529760000152
在本申请的一个实施例中,可以采用双向注意力机制来探索社交文本和对话信息之间的相关性。具体地,可以在对话信息编码器的输出上进行基于社交文本的注意力机制,得到注意力权重如公式(1)所示:
Figure BDA0002050529760000153
公式(1)中的
Figure BDA0002050529760000154
用于衡量hp中第i个元素与hc中第j个元素之间的相似性。可选地,
Figure BDA0002050529760000155
其中的Wbi-att∈Rd×d是一个可训练的d×d维的参数矩阵,d为自然数。
在计算得到公式(1)所示的注意力权重之后,可以据此生成内容向量rc,即根据社交文本的对话信息表示,rc中的第i个元素
Figure BDA0002050529760000156
可以用以下公式(2)来计算:
Figure BDA0002050529760000157
类似地,在社交文本编码器的输出上进行基于对话信息的注意力机制,可以得到相应的注意力权重如公式(3)所示:
Figure BDA0002050529760000161
公式(3)中的
Figure BDA0002050529760000162
用于衡量hc中第i个元素与hp中第j个元素之间的相似性。可选地,
Figure BDA0002050529760000163
其中的Wbi-att∈Rd×d是一个可训练的d×d维的参数矩阵,d为自然数。
在计算得到公式(3)所示的注意力权重之后,可以据此生成内容向量rp,即根据对话信息的社交文本表示,rp中的第i个元素
Figure BDA0002050529760000164
可以用以下公式(4)来计算:
Figure BDA0002050529760000165
在本申请的一个实施例中,可以通过合并层(Merge)901将根据社交文本的对话信息表示和社交文本编码器的输出结合起来,得到特征向量vp如公式(5)所示:
vp=tanh(Wp[hp;rc]+bp) (5)
公式(5)中的[hp;rc]表示将hp与rc进行拼接处理,Wp∈Rd×2d是一个可训练的d×2d维的参数矩阵,bp∈Rd是一个可训练的d维参数矩阵,d为自然数。
类似地,可以通过合并层901将根据对话信息的社交文本表示和对话信息编码器的输出结合起来,得到特征向量vc如公式(6)所示:
vc=tanh(Wc[hc;rp]+bc) (6)
公式(6)中的[hc;rp]表示将hc与rp进行拼接处理,Wc∈Rd×2d是一个可训练的d×2d维的参数矩阵,bc∈Rd是一个可训练的d维参数矩阵,d为自然数。
在本申请的一个实施例中,当得到特征向量vp和vc之后,可以将vp和vc进行拼接得到特征v=[vp;vc],并传递给解码单元902来生成话题标签。
在本申请的一个实施例中,在得到拼接后的特征表示v=[vp;vc]之后,可以采用一个基于注意力机制的单向GRU网络进行解码处理,以生成话题标签的概率表示,具体如公式(7)所示:
Figure BDA0002050529760000171
公式(7)中的Pr(y|xp,xc)表示在已知社交文本xp和对话信息xc的前提下,生成的话题标签y的概率分布;y<t表示话题标签的第t个词yt之前的词,即话题标签的前t-1个词;Pr(yt|y<t,xp,xc)表示在已知社交文本xp、对话信息xc和话题标签的前t-1个词的前提下,生成的话题标签的第t个词yt的概率分布。
具体而言,在本申请的一个实施例中,在生成话题标签的第t个词时,解码单元902中的解码器会产生一个隐藏向量s,隐藏向量s中的第t个元素表示为st,同时注意力机制会去探索编码器的输出中指示性强的特征,其内容向量中的第t个元素ct可以通过如下公式(8)计算:
Figure BDA0002050529760000172
其中,|xp|+|xc|表示拼接得到特征v中的元素个数,由于特征v是由vp和vc拼接得到的,而vp中元素个数为|xp|,vc中元素个数为|xc|,因此特征v中的元素个数为|xp|+|xc|;vi表示特征v中的第i个元素,
Figure BDA0002050529760000173
表示注意力权重,可以通过以下公式(9)进行计算:
Figure BDA0002050529760000174
公式(9)中的gscore(st,vi)用于衡量隐藏向量s中的第t个元素st与特征v中第i个元素之间的相似性,能够指示解码器去识别编码器输出中的有效信息。可选地,gscore(st,vi)=stWattvi,其中的Watt是一个可学习的参数矩阵。
在本申请的一个实施例中,解码器输出的隐藏表示st和内容表示ct会被映射到一个词汇大小为V的分布中,如公式(10)所示:
Pr(yt|y<t,xp,xc)=softmax(Wv[st;ct]+bv) (10)
公式(10)中的Pr(yt|y<t,xp,xc)即表示在已知社交文本xp、对话信息xc和话题标签的前t-1个词的前提下,要生成的话题标签的第t个词yt的概率分布;Wv和bv均表示可训练的矩阵参数权重。
在本申请的一个实施例中,图9所示的标签生成模型可以采用end to end(端到端)的训练方式,即标签生成模型的输入端(输入原始数据)与输出端(输出最终目标)之间直接用一个神经网络相连,让这个神经网络来承担原先所有模块的功能,并通过训练样本对该神经网络进行训练。在本申请的一个实施例中,标签生成模型的损失函数如下述公式(11)所示,并且在训练时可以采用随机梯度下降的方法来最小化模型的损失函数。
Figure BDA0002050529760000181
公式(11)中的L(θ)表示损失函数,N表示训练样本集的大小,θ表示所有可以训练的参数。
在本申请的一个实施例中,当对标签生成模型训练完成之后,在生成话题标签时,可以采用了beam search的方式来生成一个有序的话题标签列表,并选取前K个话题标签作为标签生成模型的最终输出。
需要说明的是,在本申请的上述实施例中,标签生成模型中的编码器和解码器除了采用GRU网络之外,还可以采用LSTM(Long Short-Term Memory,长短时记忆)网络。并且,标签生成模型可以采用RNN(Recurrent Neural Network,循环神经网络)模型,也可以采用其它神经网络模型,如CNN(Convolutional Neural Network,卷积神经网络)模型。
本申请上述实施例的技术方案中通过利用社交文本的对话信息(如回复/评论)可以使社交文本传递的信息更具象化,一定程度上解决了社交媒体短文本造成的信息量少、数据稀疏等问题,克服了短文本领域中关键词生成困难的问题;并且通过编码社交文本和对话信息进行联合学习,提高了短文本关键词生成的准确度和可扩展性,为噪音大、文本短、文风随意的社交文本处理提供强有力的底层技术支持。同时,相比于相关技术中提出的标签抽取方法,本申请实施例的技术方案能够生成社交文本中没有的话题标签,甚至能生成全新的标签(即预定义的标签集合以外的标签),进而能够更好应对现实中社交媒体实时产生新内容与标签的场景。
具体地,在本申请的一个应用场景中,如图10所示,由于需要生成话题标签的社交文本较短,缺少足够信息量的词汇,因此如果单纯依赖于该社交文本,则很难从字面上提取出该文本的真实话题标签。当采用本申请实施例的技术方案之后,可以将该社交文本对应的评论信息考虑进来,比如根据评论信息[T2]和[T4]中提到了网球和人名Nadal及Tomic(这两位是专业网球运动员)可以推测出这个社交文本的话题标签可能是跟网球相关的比赛。可见,本申请实施例的技术方案通过利用社交文本的对话信息,可以丰富简短的社交文本的上下文,使其内容语义更具体化,一定程度上可以缓解数据稀疏性的问题。
此外,本申请实施例的技术方案还可以用于诸如情感分析、关键词生成、用户观点挖掘、事件跟踪的场景中。并且可以推广到任何需要根据两种数据来源进行文本处理的场景中,比如给定文章的标题和内容生成文章对应的关键词的场景等。
以下介绍本申请的装置实施例,可以用于执行本申请上述实施例中的文本数据的关键词生成方法。对于本申请装置实施例中未披露的细节,请参照本申请上述的文本数据的关键词生成方法的实施例。
图11示出了根据本申请的一个实施例的文本数据的关键词生成装置的框图。
参照图11所示,根据本申请的一个实施例的文本数据的关键词生成装置1100,包括:获取单元1102、编码单元1104、第一处理单元1106和第二处理单元1108。
其中,获取单元1102用于获取需要生成关键词的第一文本数据,并获取与所述第一文本数据相关联的第二文本数据;编码单元1104用于对所述第一文本数据进行编码处理得到第一特征向量,对所述第二文本数据进行编码处理得到第二特征向量;第一处理单元1106用于根据所述第一特征向量和所述第二特征向量,确定所述第一特征向量与所述第二特征向量之间的相关性特征;第二处理单元1108用于基于所述第一特征向量、所述第二特征向量和所述相关性特征,生成与所述第一文本数据相关联的关键词。
在本申请的一些实施例中,编码单元1104配置为:通过第一编码器对所述第一文本数据的词向量特征进行编码处理得到所述第一特征向量,通过第二编码器对所述第二文本数据的词向量特征进行编码处理得到所述第二特征向量。
在本申请的一些实施例中,第一处理单元1106包括:第一计算单元,用于根据所述第一特征向量和所述第二特征向量,计算所述第一特征向量所包含的各个第一元素与所述第二特征向量所包含的各个第二元素之间的相似性;第一生成单元,用于根据所述各个第一元素与所述各个第二元素之间的相似性,生成通过所述第二特征向量表征所述第一特征向量的第一内容向量,并生成通过所述第一特征向量表征所述第二特征向量的第二内容向量;第一确定单元,用于基于所述第一内容向量和所述第二内容向量,确定所述第一特征向量与所述第二特征向量之间的相关性特征。
在本申请的一些实施例中,所述第一生成单元配置为:根据所述各个第一元素与所述各个第二元素之间的相似性,确定所述各个第二元素针对所述各个第一元素的注意力权重,以及所述各个第一元素针对所述各个第二元素的注意力权重;根据所述各个第二元素和所述各个第二元素针对所述各个第一元素的注意力权重,生成所述第一内容向量;根据所述各个第一元素和所述各个第一元素针对所述各个第二元素的注意力权重,生成所述第二内容向量。
在本申请的一些实施例中,所述第一生成单元配置为通过以下公式确定所述各个第二元素针对所述各个第一元素的注意力权重:
Figure BDA0002050529760000201
其中,
Figure BDA0002050529760000202
表示第j个第二元素针对第i个第一元素的注意力权重;
Figure BDA0002050529760000203
表示第i个第一元素;
Figure BDA0002050529760000204
表示第j个第二元素;
Figure BDA0002050529760000205
用于表示第i个第一元素与第j个第二元素之间的相似性;|xc|表示所述第二特征向量所包含的第二元素的数量。
在本申请的一些实施例中,所述第一生成单元配置为通过以下公式确定所述各个第一元素针对所述各个第二元素的注意力权重:
Figure BDA0002050529760000206
其中,
Figure BDA0002050529760000207
表示第j个第一元素针对第i个第二元素的注意力权重;
Figure BDA0002050529760000208
表示第i个第二元素;
Figure BDA0002050529760000209
表示第j个第一元素;
Figure BDA00020505297600002010
用于表示第i个第二元素与第j个第一元素之间的相似性;|xp|表示所述第一特征向量所包含的第一元素的数量。
在本申请的一些实施例中,第二处理单元1108包括:第二生成单元,用于根据所述第一特征向量、所述第二特征向量和所述相关性特征,生成所述第一文本数据和所述第二文本数据对应的总特征向量;第三生成单元,用于根据所述总特征向量生成与所述第一文本数据相关联的关键词。
在本申请的一些实施例中,所述第二生成单元配置为:将所述第一特征向量和所述第一内容向量进行合并处理,生成第一合并特征向量,并将所述第二特征向量和所述第二内容向量进行合并处理,生成第二合并特征向量;对所述第一合并特征向量和所述第二合并特征向量进行拼接处理,得到所述第一文本数据和所述第二文本数据对应的总特征向量。
在本申请的一些实施例中,所述第二生成单元配置为通过以下公式将所述第一特征向量和所述第一内容向量进行合并处理:
vp=tanh(Wp[hp;rc]+bp)
其中,vp表示所述第一合并特征向量;hp表示所述第一特征向量;rc表示所述第一内容向量;[hp;rc]表示将hp与rc进行拼接处理;Wp与bp表示权重矩阵参数。
在本申请的一些实施例中,所述第二生成单元配置为通过以下公式将所述第二特征向量和所述第二内容向量进行合并处理:
vc=tanh(Wc[hc;rp]+bc)
其中,vc表示所述第二合并特征向量;hc表示所述第二特征向量;rp表示所述第二内容向量;[hc;rp]表示将hc与rp进行拼接处理;Wc与bc表示权重矩阵参数。
在本申请的一些实施例中,所述第三生成单元配置为:对所述总特征向量进行解码处理,生成各个文本标签的词分布概率;根据所述各个文本标签的词分布概率,选择预定数量个文本标签作为与所述第一文本数据相关联的关键词。
在本申请的一些实施例中,所述第三生成单元配置为:通过解码器对所述总特征向量进行解码处理得到第三特征向量;计算所述总特征向量所包含的各个元素与所述第三特征向量所包含的各个第三元素之间的相似性;根据所述总特征向量所包含的各个元素与所述各个第三元素之间的相似性,确定所述总特征向量所包含的各个元素针对所述各个第三元素的注意力权重;根据所述总特征向量所包含的各个元素和所述总特征向量所包含的各个元素针对所述各个第三元素的注意力权重,生成第三内容向量;根据所述第三特征向量和所述第三内容向量,生成各个文本标签的词分布概率。
在本申请的一些实施例中,所述第三生成单元配置为:对所述第三特征向量和所述第三内容向量进行合并生成第三合并特征向量;对所述第三合并特征向量进行归一化处理,得到各个文本标签的词分布概率。
在本申请的一些实施例中,在第一文本数据包括内容分享平台中的消息数据的情况下,获取单元1102配置为:获取针对所述消息数据的回复信息和/或评论信息,将所述回复信息和/或评论信息作为所述第二文本数据。
图12示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
需要说明的是,图12示出的电子设备的计算机系统1200仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图12所示,计算机系统1200包括中央处理单元(Central Processing Unit,CPU)1201,其可以根据存储在只读存储器(Read-Only Memory,ROM)1202中的程序或者从存储部分1208加载到随机访问存储器(Random Access Memory,RAM)1203中的程序而执行各种适当的动作和处理,例如执行上述实施例中所述的方法。在RAM 1203中,还存储有系统操作所需的各种程序和数据。CPU 1201、ROM 1202以及RAM 1203通过总线1204彼此相连。输入/输出(Input/Output,I/O)接口1205也连接至总线1204。
以下部件连接至I/O接口1205:包括键盘、鼠标等的输入部分1206;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分1207;包括硬盘等的存储部分1208;以及包括诸如LAN(Local AreaNetwork,局域网)卡、调制解调器等的网络接口卡的通信部分1209。通信部分1209经由诸如因特网的网络执行通信处理。驱动器1210也根据需要连接至I/O接口1205。可拆卸介质1211,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1210上,以便于从其上读出的计算机程序根据需要被安装入存储部分1208。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1209从网络上被下载和安装,和/或从可拆卸介质1211被安装。在该计算机程序被中央处理单元(CPU)1201执行时,执行本申请的系统中限定的各种功能。
需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现上述实施例中所述的方法。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的实施方式后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims (14)

1.一种文本数据的关键词生成方法,其特征在于,包括:
获取需要生成关键词的第一文本数据,并获取与所述第一文本数据相关联的第二文本数据;
对所述第一文本数据进行编码处理得到第一特征向量,对所述第二文本数据进行编码处理得到第二特征向量;
根据所述第一特征向量和所述第二特征向量,计算所述第一特征向量所包含的各个第一元素与所述第二特征向量所包含的各个第二元素之间的相似性;
根据所述各个第一元素与所述各个第二元素之间的相似性,生成通过所述第二特征向量表征所述第一特征向量的第一内容向量,并生成通过所述第一特征向量表征所述第二特征向量的第二内容向量;
基于所述第一内容向量和所述第二内容向量,确定所述第一特征向量与所述第二特征向量之间的相关性特征;
基于所述第一特征向量、所述第二特征向量和所述相关性特征,生成与所述第一文本数据相关联的关键词。
2.根据权利要求1所述的文本数据的关键词生成方法,其特征在于,对所述第一文本数据进行编码处理得到第一特征向量,对所述第二文本数据进行编码处理得到第二特征向量,包括:
通过第一编码器对所述第一文本数据的词向量特征进行编码处理得到所述第一特征向量,通过第二编码器对所述第二文本数据的词向量特征进行编码处理得到所述第二特征向量。
3.根据权利要求1所述的文本数据的关键词生成方法,其特征在于,根据所述各个第一元素与所述各个第二元素之间的相似性,生成通过所述第二特征向量表征所述第一特征向量的第一内容向量,并生成通过所述第一特征向量表征所述第二特征向量的第二内容向量,包括:
根据所述各个第一元素与所述各个第二元素之间的相似性,确定所述各个第二元素针对所述各个第一元素的注意力权重,以及所述各个第一元素针对所述各个第二元素的注意力权重;
根据所述各个第二元素和所述各个第二元素针对所述各个第一元素的注意力权重,生成所述第一内容向量;
根据所述各个第一元素和所述各个第一元素针对所述各个第二元素的注意力权重,生成所述第二内容向量。
4.根据权利要求3所述的文本数据的关键词生成方法,其特征在于,根据所述各个第一元素与所述各个第二元素之间的相似性,通过以下公式确定所述各个第二元素针对所述各个第一元素的注意力权重:
Figure FDA0003890161870000021
其中,
Figure FDA0003890161870000022
表示第j个第二元素针对第i个第一元素的注意力权重;
Figure FDA0003890161870000023
表示第i个第一元素;
Figure FDA0003890161870000024
表示第j个第二元素;
Figure FDA0003890161870000025
用于表示第i个第一元素与第j个第二元素之间的相似性;|xc|表示所述第二特征向量所包含的第二元素的数量。
5.根据权利要求1所述的文本数据的关键词生成方法,其特征在于,基于所述第一特征向量、所述第二特征向量和所述相关性特征,生成与所述第一文本数据相关联的关键词,包括:
根据所述第一特征向量、所述第二特征向量和所述相关性特征,生成所述第一文本数据和所述第二文本数据对应的总特征向量;
根据所述总特征向量生成与所述第一文本数据相关联的关键词。
6.根据权利要求5所述的文本数据的关键词生成方法,其特征在于,根据所述第一特征向量、所述第二特征向量和所述相关性特征,生成所述第一文本数据和所述第二文本数据对应的总特征向量,包括:
将所述第一特征向量和所述第一内容向量进行合并处理,生成第一合并特征向量,并将所述第二特征向量和所述第二内容向量进行合并处理,生成第二合并特征向量;
对所述第一合并特征向量和所述第二合并特征向量进行拼接处理,得到所述第一文本数据和所述第二文本数据对应的总特征向量。
7.根据权利要求6所述的文本数据的关键词生成方法,其特征在于,通过以下公式将所述第一特征向量和所述第一内容向量进行合并处理:
vp=tanh(Wp[hp;rc]+bp)
其中,vp表示所述第一合并特征向量;hp表示所述第一特征向量;rc表示所述第一内容向量;[hp;rc]表示将hp与rc进行拼接处理;Wp与bp表示权重矩阵参数。
8.根据权利要求5所述的文本数据的关键词生成方法,其特征在于,根据所述总特征向量生成与所述第一文本数据相关联的关键词,包括:
对所述总特征向量进行解码处理,生成各个文本标签的词分布概率;
根据所述各个文本标签的词分布概率,选择预定数量个文本标签作为与所述第一文本数据相关联的关键词。
9.根据权利要求8所述的文本数据的关键词生成方法,其特征在于,对所述总特征向量进行解码处理,生成各个文本标签的词分布概率,包括:
通过解码器对所述总特征向量进行解码处理得到第三特征向量;
计算所述总特征向量所包含的各个元素与所述第三特征向量所包含的各个第三元素之间的相似性;
根据所述总特征向量所包含的各个元素与所述各个第三元素之间的相似性,确定所述总特征向量所包含的各个元素针对所述各个第三元素的注意力权重;
根据所述总特征向量所包含的各个元素和所述总特征向量所包含的各个元素针对所述各个第三元素的注意力权重,生成第三内容向量;
根据所述第三特征向量和所述第三内容向量,生成各个文本标签的词分布概率。
10.根据权利要求9所述的文本数据的关键词生成方法,其特征在于,根据所述第三特征向量和所述第三内容向量,生成各个文本标签的词分布概率,包括:
对所述第三特征向量和所述第三内容向量进行合并生成第三合并特征向量;
对所述第三合并特征向量进行归一化处理,得到各个文本标签的词分布概率。
11.一种话题标签的生成方法,其特征在于,包括:
获取内容分享平台中的消息数据,并获取所述消息数据的关联数据,所述关联数据包括所述消息数据的回复信息和/或评论信息;
对所述消息数据进行编码处理得到第一特征向量,对所述关联数据进行编码处理得到第二特征向量;
根据所述第一特征向量和所述第二特征向量,计算所述第一特征向量所包含的各个第一元素与所述第二特征向量所包含的各个第二元素之间的相似性;
根据所述各个第一元素与所述各个第二元素之间的相似性,生成通过所述第二特征向量表征所述第一特征向量的第一内容向量,并生成通过所述第一特征向量表征所述第二特征向量的第二内容向量;
基于所述第一内容向量和所述第二内容向量,确定所述第一特征向量与所述第二特征向量之间的相关性特征;
基于所述第一特征向量、所述第二特征向量和所述相关性特征,生成所述消息数据的话题标签。
12.一种文本数据的关键词生成装置,其特征在于,包括:
获取单元,用于获取需要生成关键词的第一文本数据,并获取与所述第一文本数据相关联的第二文本数据;
编码单元,用于对所述第一文本数据进行编码处理得到第一特征向量,对所述第二文本数据进行编码处理得到第二特征向量;
第一计算单元,用于根据所述第一特征向量和所述第二特征向量,计算所述第一特征向量所包含的各个第一元素与所述第二特征向量所包含的各个第二元素之间的相似性;
第一生成单元,用于根据所述各个第一元素与所述各个第二元素之间的相似性,生成通过所述第二特征向量表征所述第一特征向量的第一内容向量,并生成通过所述第一特征向量表征所述第二特征向量的第二内容向量;
第一确定单元,用于基于所述第一内容向量和所述第二内容向量,确定所述第一特征向量与所述第二特征向量之间的相关性特征;
第二处理单元,用于基于所述第一特征向量、所述第二特征向量和所述相关性特征,生成与所述第一文本数据相关联的关键词。
13.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至10中任一项所述的文本数据的关键词生成方法,或实现如权利要求11所述的话题标签的生成方法。
14.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至10中任一项所述的文本数据的关键词生成方法,或实现如权利要求11所述的话题标签的生成方法。
CN201910372712.9A 2019-05-06 2019-05-06 关键词及话题标签生成方法、装置、介质及电子设备 Active CN110188158B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910372712.9A CN110188158B (zh) 2019-05-06 2019-05-06 关键词及话题标签生成方法、装置、介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910372712.9A CN110188158B (zh) 2019-05-06 2019-05-06 关键词及话题标签生成方法、装置、介质及电子设备

Publications (2)

Publication Number Publication Date
CN110188158A CN110188158A (zh) 2019-08-30
CN110188158B true CN110188158B (zh) 2022-12-27

Family

ID=67715660

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910372712.9A Active CN110188158B (zh) 2019-05-06 2019-05-06 关键词及话题标签生成方法、装置、介质及电子设备

Country Status (1)

Country Link
CN (1) CN110188158B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110472198B (zh) * 2018-05-10 2023-01-24 腾讯科技(深圳)有限公司 一种关键词的确定方法、文本处理的方法及服务器
CN111797589A (zh) * 2020-05-29 2020-10-20 华为技术有限公司 一种文本处理网络、神经网络训练的方法以及相关设备
CN111897965B (zh) * 2020-09-29 2021-01-01 北京三快在线科技有限公司 话题生成方法、装置、存储介质和电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006040058A (ja) * 2004-07-28 2006-02-09 Mitsubishi Electric Corp 文書分類装置
CN106485525A (zh) * 2015-08-31 2017-03-08 百度在线网络技术(北京)有限公司 信息处理方法及装置
CN108038205A (zh) * 2017-12-15 2018-05-15 福州大学 针对中文微博的观点分析原型系统
CN108121700A (zh) * 2017-12-21 2018-06-05 北京奇艺世纪科技有限公司 一种关键词提取方法、装置及电子设备
WO2018232622A1 (en) * 2017-06-21 2018-12-27 Microsoft Technology Licensing, Llc RECOMMENDATION OF MULTIMEDIA CONTENT THROUGH CONVERSATIONAL ROBOTS

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107220352B (zh) * 2017-05-31 2020-12-08 北京百度网讯科技有限公司 基于人工智能构建评论图谱的方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006040058A (ja) * 2004-07-28 2006-02-09 Mitsubishi Electric Corp 文書分類装置
CN106485525A (zh) * 2015-08-31 2017-03-08 百度在线网络技术(北京)有限公司 信息处理方法及装置
WO2018232622A1 (en) * 2017-06-21 2018-12-27 Microsoft Technology Licensing, Llc RECOMMENDATION OF MULTIMEDIA CONTENT THROUGH CONVERSATIONAL ROBOTS
CN108038205A (zh) * 2017-12-15 2018-05-15 福州大学 针对中文微博的观点分析原型系统
CN108121700A (zh) * 2017-12-21 2018-06-05 北京奇艺世纪科技有限公司 一种关键词提取方法、装置及电子设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Topic Detection from Microblog Based on Text Clustering and Topic Model Analysis;Siqi Huang等;《2014 Asia-Pacific Services Computing Conference》;20150806;88-92 *
基于大数据新闻网站文本挖掘的网络舆情监测设计与实现;梁永春等;《华北科技学院学报》;20180815;第15卷(第4期);82-87+92 *
面向实体的观点挖掘关键技术研究;张明;《中国优秀硕士学位论文全文数据库 (信息科技辑)》;20140915(第9期);I138-1275 *

Also Published As

Publication number Publication date
CN110188158A (zh) 2019-08-30

Similar Documents

Publication Publication Date Title
CN109493977B (zh) 文本数据处理方法、装置、电子设备及计算机可读介质
CN111444340B (zh) 文本分类方法、装置、设备及存储介质
US20200012953A1 (en) Method and apparatus for generating model
CN109874029B (zh) 视频描述生成方法、装置、设备及存储介质
US20180336193A1 (en) Artificial Intelligence Based Method and Apparatus for Generating Article
CN111680159B (zh) 数据处理方法、装置及电子设备
CN109376222B (zh) 问答匹配度计算方法、问答自动匹配方法及装置
CN113869044A (zh) 关键词自动提取方法、装置、设备及存储介质
CN112231569B (zh) 新闻推荐方法、装置、计算机设备及存储介质
CN110188158B (zh) 关键词及话题标签生成方法、装置、介质及电子设备
CN111414561B (zh) 用于呈现信息的方法和装置
CN107862058B (zh) 用于生成信息的方法和装置
CN110263218B (zh) 视频描述文本生成方法、装置、设备和介质
CN108268629B (zh) 基于关键词的图像描述方法和装置、设备、介质
CN116541492A (zh) 一种数据处理方法及相关设备
CN115810068A (zh) 一种图像描述生成方法、装置、存储介质及电子设备
CN117216535A (zh) 推荐文本生成模型的训练方法、装置、设备及介质
CN113723077B (zh) 基于双向表征模型的句向量生成方法、装置及计算机设备
CN114330483A (zh) 数据处理方法及模型训练方法、装置、设备、存储介质
CN111241273A (zh) 文本数据分类方法、装置、电子设备及计算机可读介质
CN113704393A (zh) 关键词提取方法、装置、设备及介质
CN116680392A (zh) 一种关系三元组的抽取方法和装置
CN114417891B (zh) 基于粗糙语义的回复语句确定方法、装置及电子设备
Deepak et al. Automatic image captioning system using a deep learning approach
CN114970467A (zh) 基于人工智能的作文初稿生成方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant