CN110263340B - 评论生成方法、装置、服务器及存储介质 - Google Patents

评论生成方法、装置、服务器及存储介质 Download PDF

Info

Publication number
CN110263340B
CN110263340B CN201910537401.3A CN201910537401A CN110263340B CN 110263340 B CN110263340 B CN 110263340B CN 201910537401 A CN201910537401 A CN 201910537401A CN 110263340 B CN110263340 B CN 110263340B
Authority
CN
China
Prior art keywords
entity
vector
target
attribute
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910537401.3A
Other languages
English (en)
Other versions
CN110263340A (zh
Inventor
潘禄
陈玉光
彭卫华
罗雨
刘远圳
韩翠云
施茜
黄俊衡
李法远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910537401.3A priority Critical patent/CN110263340B/zh
Publication of CN110263340A publication Critical patent/CN110263340A/zh
Application granted granted Critical
Publication of CN110263340B publication Critical patent/CN110263340B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种评论生成方法、装置、服务器及存储介质。该方法包括:从目标文章中提取至少一个目标实体,并获取每个目标实体的至少一种属性信息;将每个目标实体的每种属性信息的属性向量进行合并,得到每个目标实体的属性合并向量;将属性合并向量进行拼接,得到每个目标实体的实体信息向量;将每个目标实体的实体信息向量进行拼接,得到目标文章的实体集合信息向量;获取目标文章的语义特征向量,并将语义特征向量与实体集合信息向量进行拼接,将拼接后的向量作为预先训练的评论生成模型的输入,利用评论生成模型生成目标文章的评论。本发明实施例提高了评论与文章的关联性,以及评论生成的泛化能力和准确性。

Description

评论生成方法、装置、服务器及存储介质
技术领域
本发明实施例涉及计算机应用技术领域,尤其涉及一种评论生成方法、装置、服务器及存储介质。
背景技术
随着互联网技术的普及和发展,各种网络多媒体的兴起,增加了用户获取各种新闻资讯的途径和方式,提高了人们阅读新闻资讯的效率,丰富了人们的生活方式。例如,用户可以在手机上下载各类新闻应用,通过新闻应用随时随地阅读新闻。但是,每个应用里都包含了大量冷门新闻,评论区只有少量评论甚至没有评论,对于信息生产者来说,造成其提供的没有被充分地利用,对于应用来说部分新闻用户参与度低产生冷启动问题。
一般来说,为了吸引用户的参与和关注新闻,应用开发团队通常会采用主动给新闻增加一些评论的方式,来吸引用户的关注和参与,在一定程度上解决冷启动问题,同时改善读者与作者之间的互动性。然而,目前的评论生成方法主要是根据其他相似文章中的评论,以替换部分关键词的方式生成新的评论,这种方式生成的评论泛化能力差,并且与文章关联度较差。
发明内容
本发明实施例提供一种评论生成方法、装置、服务器及存储介质,以实现提高文章评论生成的泛化能力以及与评论与文章的关联度。
第一方面,本发明实施例提供了一种评论生成方法,该方法包括:
从目标文章中提取至少一个目标实体,并获取每个目标实体的至少一种属性信息,其中,所述属性信息用于从不同维度对实体进行描述;
将每种属性信息转化为属性向量,并将每个目标实体的每种属性信息的属性向量进行合并,得到每个目标实体的属性合并向量;
将每个目标实体转化为实体向量,并将每个目标实体的实体向量和属性合并向量进行拼接,得到每个目标实体的实体信息向量;
将每个目标实体的实体信息向量进行拼接,得到目标文章的实体集合信息向量;
获取目标文章的语义特征向量,并将所述语义特征向量与所述实体集合信息向量进行拼接,将拼接后的向量作为预先训练的评论生成模型的输入,利用所述评论生成模型生成目标文章的评论。
第二方面,本发明实施例提供了一种评论生成装置,该装置包括:
信息获取模块,用于从目标文章中提取至少一个目标实体,并获取每个目标实体的至少一种属性信息,其中,所述属性信息用于从不同维度对实体进行描述;
属性向量转化模块,用于将每种属性信息转化为属性向量,并将每个目标实体的每种属性信息的属性向量进行合并,得到每个目标实体的属性合并向量;
实体向量转化模块,用于将每个目标实体转化为实体向量,并将每个目标实体的实体向量和属性合并向量进行拼接,得到每个目标实体的实体信息向量;
实体信息向量拼接模块,用于将每个目标实体的实体信息向量进行拼接,得到目标文章的实体集合信息向量;
评论生成模块,用于获取目标文章的语义特征向量,并将所述语义特征向量与所述实体集合信息向量进行拼接,将拼接后的向量作为预先训练的评论生成模型的输入,利用所述评论生成模型生成目标文章的评论。
第三方面,本发明实施例还提供了一种服务器,该服务器包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明实施例中任一所述的评论生成方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例中任一所述的评论生成方法。
本发明实施例中,从目标文章中提取至少一个目标实体,并获取每个目标实体的至少一种属性信息,通过将每个目标实体的每种属性信息的属性向量进行合并,得到每个目标实体的属性合并向量,再将每个目标实体的实体向量和属性合并向量进行拼接,得到每个目标实体的实体信息向量,然后进一步将每个目标实体的实体信息向量进行拼接,得到目标文本的实体集合信息向量,最后将目标文章的语义特征向量与所述实体集合信息向量进行拼接,并将拼接后的向量作为预先训练的评论生成模型的输入,利用所述评论生成模型生成目标文章的评论。由此,通过在评论生成过程中融入实体以及实体的属性特征,并结合文章的语义特征通过评论生成模型生成评论,从而使生成的评论与文章具有更高的关联性,并提高了评论生成的泛化能力和准确性,从而达到吸引读者关注文章内容的目的,减少文章因无评论而被埋没的情况,同时改善文章作者与读者之间的互动。
附图说明
图1是本发明实施例一中的一种评论生成方法的流程图;
图2是本发明实施例二中的一种评论生成方法的流程图;
图3是本发明实施例三中的一种评论生成方法的流程图;
图4是本发明实施例四中的一种评论生成装置结构示意图;
图5是本发明实施例五中的一种服务器的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1是本发明实施例一中的一种评论生成方法的流程图。本实施例提供的评论生成方法可适用于自动生成对文章的评论的情况,该方法具体可以由评论生成装置来执行,该装置可以由软件和/或硬件的方式实现,该装置可以集成在服务器中,参见图1,本发明实施例的方法具体包括:
S110、从目标文章中提取至少一个目标实体,并获取每个目标实体的至少一种属性信息。
其中,所述属性信息用于从不同维度对实体进行描述。所述目标文章可以为互联网中的文本,或终端设备中的文本,例如新闻文本、小说文本、论坛文本等。所述目标实体为目标文章中的实体,所述实体为客观存在并可相互区别的实际存在的事物,例如职工、学生、课程等。所述属性信息为目标实体的特性,例如目标实体学生的属性信息包括:学号、姓名、年龄、性别等,可以从多个方面对目标实体进行描述,以体现目标实体的特征。
具体的,对目标评文章进行评论需要体现目标文章中的关键信息,而目标实体和属性信息包含了人工知识,能够更加全面准确地反映目标文章的内容和关键信息,因此,在本发明实施例中,从目标文章中提取至少一个目标实体,并获取每个目标实体的至少一种属性信息,从而通过融入目标实体以及其属性信息,提高生成的评论与目标文章之间的关联性。
S120、将每种属性信息转化为属性向量,并将每个目标实体的每种属性信息的属性向量进行合并,得到每个目标实体的属性合并向量。
具体的,每个目标实体可能会对应多种属性信息,每种属性信息可能会包含多个属性信息,例如,目标实体张三的属性信息种类可以包括:学习方面属性信息、生活方面属性信息、性格方面属性信息等,其中,学习方面属性信息可以包括学校信息、年纪信息、班级信息、学号信息、成绩信息等,生活方面属性信息可以包括住址信息、作息信息、日常穿着信息等,性格方面属性信息可以包括活跃程度信息、脾气信息、热心程度信息等。
对于每种属性信息,将其转化为属性向量,进一步将每种属性信息对应的属性向量进行合并,得到每个目标实体的属性合并向量。例如,使用word2vec(word to vector,词到向量)模型将属性信息转化为属性向量。可选的,将每个目标实体的每种属性信息的属性向量进行合并,得到每个目标实体的属性合并向量,包括:将每个目标实体的每种属性信息的属性向量,利用max-pool进行合并,得到每个目标实体的属性合并向量。具体的,所述max-pool为取区域中的最大值的方式提取特征的操作,例如,各属性向量为n*n维向量,最终得到的属性合并向量也为n*n维向量,取第一个属性向量中的最大值作为属性合并向量中第一行第一列位置处的数值,取第二个属性向量中的最大值作为属性合并向量中第一行第二列位置处的数值,以此类推,得到每个目标实体的属性合并向量。通过将属性信息转化为每个目标实体的属性合并向量,从而将属性信息整合为一个整体的向量,从而便于后续根据实体信息向量生成评论,以融入实体的属性信息。
S130、将每个目标实体转化为实体向量,并将每个目标实体的实体向量和属性合并向量进行拼接,得到每个目标实体的实体信息向量。
具体的,可以根据word2vec模型将各目标实体转化为实体向量,所述实体向量的维度可以和属性向量的维度相同。再将每个目标实体转化为实体向量,并将每个目标实体的实体向量和属性合并向量进行拼接,得到每个目标实体的实体信息向量。示例性的,可以将实体向量拼接于属性合并向量的前部,也可以将实体向量拼接于属性合并向量的后部,以构成2n*n维的向量。
S140、将每个目标实体的实体信息向量进行拼接,得到目标文章的实体集合信息向量。
具体的,目标文章中对应有多个目标实体,因此对应存在多个实体信息向量。将各个目标实体的实体信息向量拼接后得到的向量进行拼接,得到最终的实体集合信息向量。通过得到实体集合信息向量,从而使各个实体及属性信息集中在实体集合信息向量中体现,全面地体现实体以及其特性的同时,简化了向量的表示,从而提高了根据实体集合信息向量生成评论的处理效率。
S150、获取目标文章的语义特征向量,并将所述语义特征向量与所述实体集合信息向量进行拼接,将拼接后的向量作为预先训练的评论生成模型的输入,利用所述评论生成模型生成目标文章的评论。
其中,语义特征即目标文章在意义上所具有的特征,获取目标文章的语义特征向量能够更加全面地体现目标文章在意义上所包含的特征,从而根据语义特征向量生成评论以提高评论与文章的关联度。可选的,获取目标文章的语义特征向量,包括:利用Encoder-Decoder框架的Encoder部分对目标文章进行编码,得到所述语义特征向量。所述Encoder-Decoder框架即深度学习中所应用的编码-解码框架,Encoder部分即框架中的编码部分。根据编码部分对目标文章进行编码,即得到目标文章的语义特征向量。将语义特征向量与实体集合信息向量进行拼接,使向量具有整体性,以便于后续根据拼接的向量生成评论。
其中,所述评论生成模型是利用Encoder-Decoder框架生成;将拼接后的向量作为预先训练的评论生成模型的输入,利用所述评论生成模型生成目标文章的评论,包括:将拼接后的向量作为Encoder-Decoder框架Decoder部分的起始信号输入,得到输出的目标文章的评论。所述Decoder部分即为编码-解码框架中的解码部分。通过将拼接后的向量作为解码部分的起始信号输入,从而根据包含有语义特征向量、实体向量以及实体信息向量的拼接向量得到语言序列,即目标文章的评论,使评论生成过程中融入了目标实体、目标实体属性以及目标文章的语义特征,提高了评论与目标文章的关联度,并通过Encoder-Decoder的框架自动生成评论,提高评论生成的泛化能力。
本发明实施例的技术方案,从目标文章中提取至少一个目标实体,并获取每个目标实体的至少一种属性信息,将每种属性信息转化为属性向量,并将每种属性信息的属性向量进行合并,得到每个目标实体的属性合并向量,进一步将每个目标实体转化为实体向量,并将每个目标实体的实体向量和属性合并向量进行拼接,得到每个目标实体的实体信息向量,将每个目标实体的实体信息向量进行拼接,得到目标文章的实体集合信息向量,获取目标文章的语义特征向量,并将所述语义特征向量与所述实体集合信息向量进行拼接,将拼接后的向量作为预先训练的评论生成模型的输入,生成目标文章的评论。通过在评论生成过程中融入目标实体以及目标实体的属性特征,并结合文章的语义特征,从而使生成的评论与文章具有更高的关联性,并通过评论生成模型生成评论,提高了评论生成的泛化能力和准确性,从而达到吸引读者关注文章内容的目的,减少文章因无评论而被埋没的情况,同时改善文章作者与读者之间的互动。
实施例二
图2是本发明实施例二中的一种评论生成方法的流程图。本实施例在上述实施例的基础上进行了优化,未在本实施例中详细描述的细节详见上述实施例。参见图2,本实施例提供的评论生成方法可以包括:
S210、按照预设规则从所述目标文章中提取句子集合,对所述句子集合中的每个句子进行文本分词,得到分词集合。
其中,所述预设规则可以由技术人员进行设定,例如设置为提取主谓宾结构完整的句子集合,或者提取文章中每个段落的第一个句子和最后一个句子,形成句子集合。进一步对每个句子进行文本分词,得到分词集合,例如基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法等对句子进行分词,以便对实体进行筛选。
S220、在所述分词集合中通过词性筛选,确定实体备选集合。
根据实体的特征,其一般为客观存在并可相互区别的实际存在的事物,即名词词性,因此通过词性筛选将分词集合中的名词筛选出来,组成实体备选集合。
S230、将所述实体备选集合中的每个实体在预先创建的知识库中进行比对,将存在于所述知识库中的实体确定为所述至少一个目标实体。
其中,所述知识库中包含常见的实体以及其对应的属性信息。实体备选集合中的实体并不一定为具有参考价值的实际的实体,需要进一步筛选得到真正的实体,因此,将实体备选集合中的每个实体在知识库中进行比对,若经过比对确定该实体存在于知识库中,则确定该实体为真正有价值的实体,因此将该实体确定为目标实体。
S240、从所述知识库中获取每个目标实体的至少一种属性信息。
其中,所述知识库中记载有多个实体以及各实体的至少一种属性信息。
具体的,知识库中预先记载多个实体以及各实体的至少一种属性信息,所述知识库全面地包含了日常互联网中出现的所有实体及其属性特征,以保证实体和属性特征及时、全面地获取,当实体备选集合中的备选实体存在知识库中,则将该试题确定为目标实体,并从知识库中获取与目标实体相对应的至少一种属性信息。
S250、将每种属性信息转化为属性向量,并将每个目标实体的每种属性信息的属性向量进行合并,得到每个目标实体的属性合并向量。
S260、将每个目标实体转化为实体向量,并将每个目标实体的实体向量和属性合并向量进行拼接,得到每个目标实体的实体信息向量。
S270、将每个目标实体的实体信息向量进行拼接,得到目标文章的实体集合信息向量。
S280、获取目标文章的语义特征向量,并将所述语义特征向量与所述实体集合信息向量进行拼接,将拼接后的向量作为预先训练的评论生成模型的输入,利用所述评论生成模型生成目标文章的评论。
本发明实施例的技术方案,通过将从目标文章中提取的句子进行分词,并根据词性筛选得到实体备选集合,进一步根据知识库确定目标实体以及属性信息,从而使评论生成过程中融入目标实体以及属性信息,提高了评论与目标文章的关联度,从而达到吸引读者关注文章内容的目的,减少文章因无评论而被埋没的情况,同时改善文章作者与读者之间的互动。
实施例三
图3是本发明实施例三中的一种评论生成方法的流程图。本实施例在上述实施例的基础上针对评论生成模型的训练过程进行了详细的介绍,未在本实施例中详细描述的细节详见上述实施例。参见图3,本实施例提供的评论生成方法可以包括:
S310、获取文章样本及其多个候选评论样本。
其中,所述文章样本为互联网或终端设备中的存在的文章文本,作为文章样本,所述候选评论样本为各文章样本的阅读者所发表的关于对于文章样本的评论性文本,将至少一个评论性样本作为候选评论样本。各文章样本与其候选评论样本相对应。
S320、从所述文章样本中提取至少一个实体,并获取每个实体的至少一种属性信息。
其中,所述实体为知识库中存在的实体。所述知识库中记载有多个实体以及各实体的至少一种属性信息。从文章样本中提取的至少一个实体并不一定为有参考价值的真正实体,因此,将从文章样本中提取的至少一个实体与知识库中存在的实体进行比对,若知识库中存在该实体,则确定该实体为真正的可应用的实体,并通过知识库获取该实体的至少一个属性信息。
S330、在所述多个候选评论样本中按照实体进行过滤,保留包含至少一个实体的候选评论,作为用于训练的评论样本。
具体的,多个候选样本中,可能会存在候选评论样本中并不包含文章样本中的实体,而此类评论则不能够作为本发明实施例中的模型的训练样本,因此,在多个候选评论样本中进行过滤,得到包含至少一个实体的候选评论,将其作为用于模型训练的评论样本。由于评论样本中包含文章样本的实体,评论样本与文章样本具有更高的关联度,从而使训练模型中包含了实体特征,训练得到的模型能够根据获取的目标文章中的实体更准确地获取评论,提高了评论与文章的相关性。
S340、将每种属性信息转化为属性向量,并将每个实体的每种属性信息的属性向量进行合并,得到每个实体的属性合并向量。
S350、将每个实体转化为实体向量,并将每个实体的实体向量和属性合并向量进行拼接,得到每个实体的实体信息向量。
S360、将每个评论样本中出现的实体的实体信息向量进行拼接,得到每个评论样本的实体集合信息向量。
S370、利用seq2seq模型中的Encoder部分对所述文章样本进行编码,得到所述文章样本的样本语义特征向量。
可选的,所述评论生成模型为seq2seq模型。其中,所述seq2seq模型为能够根据给定的序列通过特定的方法生成另一个序列的模型。通过seq2seq模型中的编码部分能够对文章样本编码得到样本语义特征向量。
S380、将所述样本语义特征向量、与所述评论样本中的任一目标评论样本的实体集合信息向量进行拼接,并将拼接后的向量作为seq2seq模型中Decoder部分的起始信号输入,将所述目标评论样本的向量表示作为解码部分的输出,即训练目标,对所述seq2seq模型进行训练。
具体的,将样本语义特征向量与评论样本中的任一目标评论样本的实体集合信息向量进行拼接,可以是将样本语义特征向量的每一个目标评论样本的实体集合信息向量分别进行拼接,得到多个拼接后的向量,通过向量拼接实现向量的整合,从而便于对向量的应用。将多个拼接后的向量分别作为seq2seq模型中解码部分的起始信号输入样本,将目标评论样本的向量表示作为解码部分的输出样本,对seq2seq模型进行训练,得到评论生成模型。
本发明实施例的技术方案,通过获取文章样本及其多个候选评论样本,并获取文章样本的实体和实体属性,对seq2seq模型进行训练,得到评论生成模型,从而根据评论生成模型得到评论,使生成的评论融合了文章的实体和实体属性信息特征,提高了评论生成的泛化能力,以及评论和文章的关联度,从而使生成的评论更加符合文章的内容意义,有助于引导阅读者对文章进行阅读。
实施例四
图4为本发明实施例四提供的一种评论生成装置结构示意图。该装置适用于自动生成对文章的评论的情况,该装置可以由软件和/或硬件的方式实现,该装置可以集成在服务器中。参见图4,该装置具体包括:
信息获取模块410,用于从目标文章中提取至少一个目标实体,并获取每个目标实体的至少一种属性信息,其中,所述属性信息用于从不同维度对实体进行描述;
属性向量转化模块420,用于将每种属性信息转化为属性向量,并将每个目标实体的每种属性信息的属性向量进行合并,得到每个目标实体的属性合并向量;
实体向量转化模块430,用于每个目标实体转化为实体向量,并将每个目标实体的实体向量和属性合并向量进行拼接,得到每个目标实体的实体信息向量;
实体信息向量拼接模块440,用于将每个目标实体的实体信息向量进行拼接,得到目标文章的实体集合信息向量;
评论生成模块450,用于获取目标文章的语义特征向量,并将所述语义特征向量与所述实体集合信息向量进行拼接,将拼接后的向量作为预先训练的评论生成模型的输入,利用所述评论生成模型生成目标文章的评论。
可选的,所述信息获取模块410,包括:
文本分词单元,用于按照预设规则从所述目标文章中提取句子集合,对所述句子集合中的每个句子进行文本分词,得到分词集合;
筛选单元,用于在所述分词集合中通过词性筛选,确定实体备选集合;
比对单元,用于将所述实体备选集合中的每个实体在预先创建的知识库中进行比对,将存在于所述知识库中的实体确定为所述至少一个目标实体;
属性信息获取单元,用于从所述知识库中获取每个目标实体的至少一种属性信息;
其中,所述知识库中记载有多个实体以及各实体的至少一种属性信息。
可选的,所述属性向量转化模块420,具体用于:
将每个目标实体的每种属性信息的属性向量,利用max-pool进行合并,得到每个目标实体的属性合并向量。
可选的,所述评论生成模型是利用Encoder-Decoder框架生成;
相应的,所述评论生成模块440,包括:
编码单元,用于利用Encoder-Decoder框架的Encoder部分对目标文章进行编码,得到所述语义特征向量;
评论输出单元,用于将拼接后的向量作为Encoder-Decoder框架Decoder部分的起始信号输入,得到输出的目标文章的评论。
可选的,所述评论生成模型为seq2seq模型;
相应的,还包括:
候选评论样本获取模块,用于获取文章样本及其多个候选评论样本;
实体及属性信息获取模块,用于从所述文章样本中提取至少一个实体,并获取每个实体的至少一种属性信息,其中,所述实体为知识库中存在的实体;
过滤模块,用于在所述多个候选评论样本中按照实体进行过滤,保留包含至少一个实体的候选评论,作为用于训练的评论样本;
合并模块,用于将每种属性信息转化为属性向量,并将每个实体的每种属性信息的属性向量进行合并,得到每个目标实体的属性合并向量;
实体信息向量获取模块,用于将每个实体转化为实体向量,并将每个实体的实体向量和属性合并向量进行拼接,得到每个实体的实体信息向量。
拼接模块,用于将每个评论样本中出现的实体的实体信息向量进行拼接,得到每个评论样本的实体集合信息向量;
语义特征向量获取模块,用于利用seq2seq模型中的编码部分对所述文章样本进行编码,得到所述文章样本的样本语义特征向量;
训练模块,用于将所述样本语义特征向量、与所述评论样本中的任一目标评论样本的实体集合信息向量进行拼接,并将拼接后的向量作为seq2seq模型中解码部分的起始信号输入,将所述目标评论样本的向量表示作为解码部分的输出,即训练目标,对所述seq2seq模型进行训练。
本发明实施例的技术方案,信息获取模块从目标文章中提取至少一个目标实体,并获取每个目标实体的至少一种属性信息,属性向量转化模块将每种属性信息转化为属性向量,并将每个目标实体的每种属性信息的属性向量进行合并,得到每个目标实体的属性合并向量;实体向量转化模块将每个目标实体转化为实体向量,并将每个目标实体的实体向量和属性合并向量进行拼接,得到每个目标实体的实体信息向量;实体信息向量拼接模块将每个目标实体的实体信息向量进行拼接,得到目标文章的实体集合信息向量;评论生成模块获取目标文章的语义特征向量,并将所述语义特征向量与所述实体集合信息向量进行拼接,将拼接后的向量作为预先训练的评论生成模型的输入,利用所述评论生成模型生成目标文章的评论。通过在评论生成过程中融入目标实体以及目标实体的属性特征,并结合文章的语义特征,从而使生成的评论与文章具有更高的关联性,并通过评论生成模型生成评论,提高了评论生成的泛化能力和准确性,从而达到吸引读者关注文章内容的目的,减少文章因无评论而被埋没的情况,同时改善文章作者与读者之间的互动。
实施例五
图5是本发明实施例五提供的一种服务器的结构示意图。图5示出了适于用来实现本发明实施例的示例性服务器512的框图。图5显示的服务器512仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,服务器512包括:一个或多个处理器516;存储器528,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器516执行,使得所述一个或多个处理器516实现本发明实施例所提供的评论生成方法,包括:
从目标文章中提取至少一个目标实体,并获取每个目标实体的至少一种属性信息,其中,所述属性信息用于从不同维度对实体进行描述;
将每种属性信息转化为属性向量,并将每个目标实体的每种属性信息的属性向量进行合并,得到每个目标实体的属性合并向量;
将每个目标实体转化为实体向量,并将每个目标实体的实体向量和属性合并向量进行拼接,得到每个目标实体的实体信息向量;
将每个目标实体的实体信息向量进行拼接,得到目标文章的实体集合信息向量;
获取目标文章的语义特征向量,并将所述语义特征向量与所述实体集合信息向量进行拼接,将拼接后的向量作为预先训练的评论生成模型的输入,利用所述评论生成模型生成目标文章的评论。
以通用服务器的形式表现。服务器512的组件可以包括但不限于:一个或者多个处理器或者处理器516,系统存储器528,连接不同系统组件(包括系统存储器528和处理器516)的总线518。
总线518表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
服务器512典型地包括多种计算机系统可读存储介质。这些存储介质可以是任何能够被服务器512访问的可用存储介质,包括易失性和非易失性存储介质,可移动的和不可移动的存储介质。
系统存储器528可以包括易失性存储器形式的计算机系统可读存储介质,例如随机存取存储器(RAM)530和/或高速缓存存储器532。服务器512可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统534可以用于读写不可移动的、非易失性磁存储介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光存储介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据存储介质接口与总线518相连。存储器528可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块542的程序/实用工具540,可以存储在例如存储器528中,这样的程序模块562包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块562通常执行本发明所描述的实施例中的功能和/或方法。
服务器512也可以与一个或多个外部服务器514(例如键盘、指向服务器、显示器526等)通信,还可与一个或者多个使得用户能与该服务器512交互的服务器通信,和/或与使得该服务器512能与一个或多个其它计算服务器进行通信的任何服务器(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口522进行。并且,服务器512还可以通过网络适配器520与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器520通过总线518与服务器512的其它模块通信。应当明白,尽管图5中未示出,可以结合服务器512使用其它硬件和/或软件模块,包括但不限于:微代码、服务器驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理器516通过运行存储在系统存储器528中的多个程序中其他程序的至少一个,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的一种评论生成方法,包括:
从目标文章中提取至少一个目标实体,并获取每个目标实体的至少一种属性信息,其中,所述属性信息用于从不同维度对实体进行描述;
将每种属性信息转化为属性向量,并将每个目标实体的每种属性信息的属性向量进行合并,得到每个目标实体的属性合并向量;
将每个目标实体转化为实体向量,并将每个目标实体的实体向量和属性合并向量进行拼接,得到每个目标实体的实体信息向量;
将每个目标实体的实体信息向量进行拼接,得到目标文章的实体集合信息向量;
获取目标文章的语义特征向量,并将所述语义特征向量与所述实体集合信息向量进行拼接,将拼接后的向量作为预先训练的评论生成模型的输入,利用所述评论生成模型生成目标文章的评论。
实施例六
本发明实施例六还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种评论生成方法:
从目标文章中提取至少一个目标实体,并获取每个目标实体的至少一种属性信息,其中,所述属性信息用于从不同维度对实体进行描述;
将每种属性信息转化为属性向量,并将每个目标实体的每种属性信息的属性向量进行合并,得到每个目标实体的属性合并向量;
将每个目标实体转化为实体向量,并将每个目标实体的实体向量和属性合并向量进行拼接,得到每个目标实体的实体信息向量;
将每个目标实体的实体信息向量进行拼接,得到目标文章的实体集合信息向量;
获取目标文章的语义特征向量,并将所述语义特征向量与所述实体集合信息向量进行拼接,将拼接后的向量作为预先训练的评论生成模型的输入,利用所述评论生成模型生成目标文章的评论。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的存储介质的任意组合。计算机可读存储介质可以是计算机可读信号存储介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明实施例中,计算机可读存储介质可以是任何包含或存储程序的有形存储介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号存储介质还可以是计算机可读存储介质以外的任何计算机可读存储介质,该计算机可读存储介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读存储介质上包含的程序代码可以用任何适当的存储介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (8)

1.一种评论生成方法,其特征在于,所述方法包括:
从目标文章中提取至少一个目标实体,并获取每个目标实体的至少一种属性信息,其中,所述属性信息用于从不同维度对实体进行描述;
将每种属性信息转化为属性向量,并将每个目标实体的每种属性信息的属性向量进行合并,得到每个目标实体的属性合并向量;
将每个目标实体转化为实体向量,并将每个目标实体的实体向量和属性合并向量进行拼接,得到每个目标实体的实体信息向量;
将每个目标实体的实体信息向量进行拼接,得到目标文章的实体集合信息向量;
获取目标文章的语义特征向量,并将所述语义特征向量与所述实体集合信息向量进行拼接,将拼接后的向量作为预先训练的评论生成模型的输入,利用所述评论生成模型生成目标文章的评论;
其中,所述将每个目标实体的每种属性信息的属性向量进行合并,得到每个目标实体的属性合并向量,包括:
将每种属性信息的属性向量作为max-pool算法的取值区域,基于max-pool算法对各属性向量进行合并,得到每个目标实体的属性合并向量。
2.根据权利要求1所述的方法,其特征在于,所述从目标文章中提取至少一个目标实体,并获取每个目标实体的至少一种属性信息,包括:
按照预设规则从所述目标文章中提取句子集合,对所述句子集合中的每个句子进行文本分词,得到分词集合;
在所述分词集合中通过词性筛选,确定实体备选集合;
将所述实体备选集合中的每个实体在预先创建的知识库中进行比对,将存在于所述知识库中的实体确定为所述至少一个目标实体;
从所述知识库中获取每个目标实体的至少一种属性信息;
其中,所述知识库中记载有多个实体以及各实体的至少一种属性信息。
3.根据权利要求1所述的方法,其特征在于,所述评论生成模型是利用Encoder-Decoder框架生成;
相应的,所述获取目标文章的语义特征向量,包括:利用Encoder-Decoder框架的Encoder部分对目标文章进行编码,得到所述语义特征向量;
相应的,所述将拼接后的向量作为预先训练的评论生成模型的输入,利用所述评论生成模型生成目标文章的评论,包括:
将拼接后的向量作为Encoder-Decoder框架Decoder部分的起始信号输入,得到输出的目标文章的评论。
4.根据权利要求1所述的方法,其特征在于,所述评论生成模型为seq2seq模型;
相应的,所述seq2seq模型的训练过程包括:
获取文章样本及其多个候选评论样本;
从所述文章样本中提取至少一个实体,并获取每个实体的至少一种属性信息,其中,所述实体为知识库中存在的实体;
在所述多个候选评论样本中按照实体进行过滤,保留包含至少一个实体的候选评论,作为用于训练的评论样本;
将每种属性信息转化为属性向量,并将每个实体的每种属性信息的属性向量进行合并,得到每个实体的属性合并向量;
将每个实体转化为实体向量,并将每个实体的实体向量和属性合并向量进行拼接,得到每个实体的实体信息向量;
将每个评论样本中出现的实体的实体信息向量进行拼接,得到每个评论样本的实体集合信息向量;
利用seq2seq模型中的Encoder部分对所述文章样本进行编码,得到所述文章样本的样本语义特征向量;
将所述样本语义特征向量、与所述评论样本中的任一目标评论样本的实体集合信息向量进行拼接,并将拼接后的向量作为seq2seq模型中Decoder部分的起始信号输入,将所述目标评论样本的向量表示作为所述Decoder部分的输出,对所述seq2seq模型进行训练。
5.一种评论生成装置,其特征在于,所述装置包括:
信息获取模块,用于从目标文章中提取至少一个目标实体,并获取每个目标实体的至少一种属性信息,其中,所述属性信息用于从不同维度对实体进行描述;
属性向量转化模块,用于将每种属性信息转化为属性向量,并将每个目标实体的每种属性信息的属性向量进行合并,得到每个目标实体的属性合并向量;
实体向量转化模块,用于将每个目标实体转化为实体向量,并将每个目标实体的实体向量和属性合并向量进行拼接,得到每个目标实体的实体信息向量;
实体信息向量拼接模块,用于将每个目标实体的实体信息向量进行拼接,得到目标文章的实体集合信息向量;
评论生成模块,用于获取目标文章的语义特征向量,并将所述语义特征向量与所述实体集合信息向量进行拼接,将拼接后的向量作为预先训练的评论生成模型的输入,利用所述评论生成模型生成目标文章的评论;
其中,所述属性向量转化模块,具体用于:
将每种属性信息的属性向量作为max-pool算法的取值区域,基于max-pool算法对各属性向量进行合并,得到每个目标实体的属性合并向量。
6.根据权利要求5所述的装置,其特征在于,所述信息获取模块,包括:
文本分词单元,用于按照预设规则从所述目标文章中提取句子集合,对所述句子集合中的每个句子进行文本分词,得到分词集合;
筛选单元,用于在所述分词集合中通过词性筛选,确定实体备选集合;
比对单元,用于将所述实体备选集合中的每个实体在预先创建的知识库中进行比对,将存在于所述知识库中的实体确定为所述至少一个目标实体;
属性信息获取单元,用于从所述知识库中获取每个目标实体的至少一种属性信息;
其中,所述知识库中记载有多个实体以及各实体的至少一种属性信息。
7.一种服务器,其特征在于,所述服务器包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-4中任一所述的一种评论生成方法。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-4中任一所述的一种评论生成方法。
CN201910537401.3A 2019-06-20 2019-06-20 评论生成方法、装置、服务器及存储介质 Active CN110263340B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910537401.3A CN110263340B (zh) 2019-06-20 2019-06-20 评论生成方法、装置、服务器及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910537401.3A CN110263340B (zh) 2019-06-20 2019-06-20 评论生成方法、装置、服务器及存储介质

Publications (2)

Publication Number Publication Date
CN110263340A CN110263340A (zh) 2019-09-20
CN110263340B true CN110263340B (zh) 2023-05-23

Family

ID=67919824

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910537401.3A Active CN110263340B (zh) 2019-06-20 2019-06-20 评论生成方法、装置、服务器及存储介质

Country Status (1)

Country Link
CN (1) CN110263340B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110866800A (zh) * 2019-09-23 2020-03-06 车智互联(北京)科技有限公司 评论生成方法及计算设备
CN110991187B (zh) * 2019-12-05 2024-03-08 北京奇艺世纪科技有限公司 一种实体链接的方法、装置、电子设备及介质
CN113076756A (zh) * 2020-01-06 2021-07-06 北京沃东天骏信息技术有限公司 一种文本生成方法和装置
CN112115718A (zh) * 2020-09-29 2020-12-22 腾讯科技(深圳)有限公司 内容文本生成方法和装置、音乐评论文本生成方法
CN112667780A (zh) * 2020-12-31 2021-04-16 上海众源网络有限公司 一种评论信息的生成方法、装置、电子设备及存储介质
CN114064974A (zh) * 2021-11-15 2022-02-18 腾讯科技(深圳)有限公司 信息处理方法、装置、电子设备、存储介质及程序产品

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106777080A (zh) * 2016-12-13 2017-05-31 竹间智能科技(上海)有限公司 短摘要生成方法、数据库建立方法及人机对话方法
CN107783960A (zh) * 2017-10-23 2018-03-09 百度在线网络技术(北京)有限公司 用于抽取信息的方法、装置和设备
CN107943774A (zh) * 2017-11-20 2018-04-20 北京百度网讯科技有限公司 文章生成方法和装置
CN108520324A (zh) * 2018-04-13 2018-09-11 北京京东金融科技控股有限公司 用于生成信息的方法和装置
CN108932220A (zh) * 2018-06-29 2018-12-04 北京百度网讯科技有限公司 文章生成方法和装置
CN109582945A (zh) * 2018-12-17 2019-04-05 北京百度网讯科技有限公司 文章生成方法、装置及存储介质
CN109783651A (zh) * 2019-01-29 2019-05-21 北京百度网讯科技有限公司 提取实体相关信息的方法、装置、电子设备和存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130311395A1 (en) * 2012-05-17 2013-11-21 Yahoo! Inc. Method and system for providing personalized reviews to a user

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106777080A (zh) * 2016-12-13 2017-05-31 竹间智能科技(上海)有限公司 短摘要生成方法、数据库建立方法及人机对话方法
CN107783960A (zh) * 2017-10-23 2018-03-09 百度在线网络技术(北京)有限公司 用于抽取信息的方法、装置和设备
CN107943774A (zh) * 2017-11-20 2018-04-20 北京百度网讯科技有限公司 文章生成方法和装置
CN108520324A (zh) * 2018-04-13 2018-09-11 北京京东金融科技控股有限公司 用于生成信息的方法和装置
CN108932220A (zh) * 2018-06-29 2018-12-04 北京百度网讯科技有限公司 文章生成方法和装置
CN109582945A (zh) * 2018-12-17 2019-04-05 北京百度网讯科技有限公司 文章生成方法、装置及存储介质
CN109783651A (zh) * 2019-01-29 2019-05-21 北京百度网讯科技有限公司 提取实体相关信息的方法、装置、电子设备和存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"Natural Scene Text Recognition Based on Encoder-Decoder Framework";Ling-Qun Zuo 等;《IEEE Access》;20190514;62616-61623 *
"基于生成对抗网络的文本自动生成方法研究";孙博;《中国优秀硕士学位论文全文数据库 信息科技辑》;20190115;I138-5137 *
实体―属性抽取的GRU+CRF方法;王仁武等;《现代情报》;20181015(第10期);59-66 *

Also Published As

Publication number Publication date
CN110263340A (zh) 2019-09-20

Similar Documents

Publication Publication Date Title
CN110287278B (zh) 评论生成方法、装置、服务器及存储介质
CN110263340B (zh) 评论生成方法、装置、服务器及存储介质
CN107908635B (zh) 建立文本分类模型以及文本分类的方法、装置
US10657325B2 (en) Method for parsing query based on artificial intelligence and computer device
CN108052577B (zh) 一种通用文本内容挖掘方法、装置、服务器及存储介质
US10831762B2 (en) Extracting and denoising concept mentions using distributed representations of concepts
US20200210468A1 (en) Document recommendation method and device based on semantic tag
US11017301B2 (en) Obtaining and using a distributed representation of concepts as vectors
CN111026861B (zh) 文本摘要的生成方法、训练方法、装置、设备及介质
US11521603B2 (en) Automatically generating conference minutes
US11158206B2 (en) Assisting learners based on analytics of in-session cognition
CN109241286B (zh) 用于生成文本的方法和装置
US9619209B1 (en) Dynamic source code generation
US9830316B2 (en) Content availability for natural language processing tasks
WO2021218028A1 (zh) 基于人工智能的面试内容精炼方法、装置、设备及介质
US9703773B2 (en) Pattern identification and correction of document misinterpretations in a natural language processing system
US11144569B2 (en) Operations to transform dataset to intent
CN111597800B (zh) 同义句的获取方法及装置、设备及存储介质
US10558760B2 (en) Unsupervised template extraction
CN113392265A (zh) 多媒体处理方法、装置及设备
Hassani et al. LVTIA: A new method for keyphrase extraction from scientific video lectures
CN111400454A (zh) 摘要生成方法、装置、电子设备及存储介质
CN113096687B (zh) 音视频处理方法、装置、计算机设备及存储介质
US11194816B2 (en) Structured article generation
CN111666405B (zh) 用于识别文本蕴含关系的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant