CN113486649B - 文本评论的生成方法以及电子设备 - Google Patents
文本评论的生成方法以及电子设备 Download PDFInfo
- Publication number
- CN113486649B CN113486649B CN202110707456.1A CN202110707456A CN113486649B CN 113486649 B CN113486649 B CN 113486649B CN 202110707456 A CN202110707456 A CN 202110707456A CN 113486649 B CN113486649 B CN 113486649B
- Authority
- CN
- China
- Prior art keywords
- comment
- sentences
- text
- sentence
- library
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种文本评论的生成方法及装置、电子设备、包括:获取待评论文本;根据待评论文本中每个句子的关键词,确定不同句子之间的语义关系;将每个句子对应的句子特征以及不同句子之间的语义关系,作为已训练的文本生成模型的输入;将文本生成模型输出的组合概率最高的多条词汇序列,作为模型评论语句。上述方案,丰富了评论语句的种类,且由于充分考虑了句子之间的语义关系,使生成的评论语句更准确,更有效。
Description
技术领域
本申请涉及自然语言处理技术领域,特别涉及一种文本评论的生成方法以及电子设备。
背景技术
自然语言生成(NLG)是自然语言处理(NLP)的重要研究领域之一。现有研究大多是针对如何生成文本摘要,如何生成文本标题以及智能问答等,对于评论生成的研究较少。
现有技术的生成模型存在以下问题:对于同一条文本数据生成的评论内容单一;生成效果不稳定,语病逻辑错误等问题不可避免;3.泛化能力较低,在与训练数据差异较大的案例上效果显著降低。
发明内容
本申请实施例提供了文本评论的生成方法,用于生成多样化且准确性高的文本评论。
本申请实施例提供了一种文本评论的生成方法,包括:
获取待评论文本;
根据所述待评论文本中每个句子的关键词,确定不同句子之间的语义关系;
将每个句子对应的句子特征以及所述不同句子之间的语义关系,作为已训练的文本生成模型的输入;
将所述文本生成模型输出的组合概率最高的多条词汇序列,作为模型评论语句。
在一实施例中,所述方法还包括:
根据所述待评论文本对应的相似文本的评论语句,得到相似评论语句;
根据所述待评论文本的索引信息对应的评论语句,得到库评论语句;
汇总所述模型评论语句、相似评论语句和库评论语句,得到所述待评论文本的评论结果。
在一实施例中,所述根据所述待评论文本对应的相似文本的评论语句,得到相似评论语句,包括:
计算所述待评论文本与每篇样本文稿之间的文本相似度;
根据所述待评论文本与每篇样本文稿之间的文本相似度,筛选出所述文本相似度大于阈值的样本文稿作为所述相似文本;
根据所述相似文本对应的评论语句,得到所述相似评论语句。
在一实施例中,所述根据所述待评论文本的索引信息对应的评论语句,得到库评论语句,包括:
根据所述待评论文本的索引信息,从评论库中选取所述索引信息对应的评论语句,得到库评论语句;
其中,所述评论库中存储有不同索引信息对应的评论语句。
在一实施例中,所述索引信息包括文本关键词和/或分类标签;根据所述待评论文本的索引信息,从评论库中选取所述索引信息对应的评论语句,得到库评论语句;
根据所述待评论文本的文本关键词,从评论库中选取所述文本关键词对应的评论语句,得到所述库评论语句;
或者,
根据所述待评论文本的分类标签,从评论库中选取所述分类标签对应的评论语句,得到所述库评论语句;
或者;
根据所述待评论文本的文本关键词和分类标签,从评论库中选取所述文本关键词对应的评论语句以及所述分类标签对应的评论语句,得到所述库评论语句。
在一实施例中,所述汇总所述模型评论语句、相似评论语句和库评论语句,得到所述待评论文本的评论结果,包括:
按照所述模型评论语句排列在前,所述相似评论语句和库评论语句排列在后的顺序,按序分批显示所述模型评论语句、相似评论语句以及库评论语句。
在一实施例中,所述按照所述模型评论语句排列在前,所述相似评论语句和库评论语句排列在后的顺序,按序分批显示所述模型评论语句、相似评论语句以及库评论语句,包括:
按照每个批次的预设数量,以及所述模型评论语句排列在前,所述相似评论语句和库评论语句排列在后的顺序,将所述模型评论语句、相似评论语句以及库评论语句划分为多个批次;
显示前一批次的评论语句,当接收到下一次批次功能按钮的触发指令时,显示所述前一批次之后的下一批次的评论语句。
在一实施例中,所述根据所述待评论文本中每个句子的关键词,确定不同句子之间的语义关系,包括:
根据句子标识符,对所述待评论文本进行分句操作,得到多个句子;
通过关键词提取算法获取每个所述句子的关键词;
若存在两个句子具有相同的关键词,确定所述两个句子语义相关联。
在一实施例中,所述将每个句子对应的句子特征以及所述不同句子之间的语义关系,作为已训练的文本生成模型的输入,包括:
以每个句子为节点,具有相同关键词的两个句子对应的节点相连,构建图谱结构;
根据所述图谱结构中每个节点对应的句子特征,构建第一特征矩阵;
根据所述图谱结构中不同节点之间的连接关系,构建第二特征矩阵;
将所述第一特征矩阵和第二特征矩阵作为已训练的文本生成模型的输入。
在一实施例中,所述根据所述图谱结构中每个节点对应的句子特征,构建第一特征矩阵,包括:
针对每个节点对应的句子,对所述句子进行分词操作;
通过查找词向量表,确定每个分词对应的词向量;
根据每个分词对应的词向量,拼接得到所述句子对应的句子特征;
将每个句子对应的句子特征,拼接得到所述第一特征矩阵。
在一实施例中,所述根据所述图谱结构中不同节点之间的连接关系,构建第二特征矩阵,包括:
对所有节点按序编号,若第i个节点与第j个节点存在连接关系,将所述第二特征矩阵中的第i行第j列的数值标记为第一数值;
若第i个节点与第j个节点不存连接关系,将所述第二特征矩阵中的第i行第j列的数值标记为第二数值;
其中,i和j表示节点编号。
在一实施例中,所述将所述文本生成模型输出的组合概率最高的多条词汇序列,作为模型评论语句,包括:
根据所述文本生成模型每一步输出的词汇,通过束搜索算法,选取组合概率最高的多条词汇序列,作为所述模型评论语句。
在一实施例中,所述根据所述文本生成模型每一步输出的词汇,通过束搜索算法,选取组合概率最高的多条词汇序列,作为所述模型评论语句,包括:
根据所述文本生成模型每一步输出的词汇以及概率得分,每一次保留概率得分最高的前若干词汇,最终保留多个词汇构成的序列的组合概率得分最高的前若干条词汇序列,作为所述模型评论语句。
本申请实施例提供了一种文本评论的生成装置,包括:
文本获取模块,用于获取待评论文本;
关系确定模块,用于根据所述待评论文本中每个句子的关键词,确定不同句子之间的语义关系;
模型输入模块,用于将每个句子对应的句子特征以及所述不同句子之间的语义关系,作为已训练的文本生成模型的输入;
模型输出模块,用于将所述文本生成模型输出的组合概率最高的多条词汇序列,作为模型评论语句。
本申请实施例提供了一种电子设备,所述电子设备包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行上述文本评论的生成方法。
上述实施例提供的技术方案,基于待评论文本中每个句子的句子特征以及不同句子之间的语义关系来生成多条评论语句,丰富了评论语句的种类,且由于充分考虑了句子之间的语义关系,使生成的评论语句更准确,更有效。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍。
图1为本申请一实施例提供的电子设备的结构示意图;
图2是本申请实施例提供的文本评论的生成方法的流程示意图;
图3是图2对应实施例中步骤S230的细节流程图;
图4是图2对应实施例基础上本申请另一实施例提供的文本评论的生成方法的流程示意图;
图5是本申请实施例提供的文本评论的生成装置的框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
图1是本申请实施例提供的电子设备的结构示意图。该电子设备100 可以用于执行本申请实施例提供的文本评论的生成方法。如图1所示,该电子设备100包括:一个或多个处理器102、一个或多个存储处理器可执行指令的存储器104。其中,所述处理器102被配置为执行本申请下述实施例提供的文本评论的生成方法。
所述处理器102可以是网关,也可以为智能终端,或者是包含中央处理单元(CPU)、图像处理单元(GPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元的设备,可以对所述电子设备100中的其它组件的数据进行处理,还可以控制所述电子设备100中的其它组件以执行期望的功能。
所述存储器104可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM) 和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器102可以运行所述程序指令,以实现下文所述的文本评论的生成方法。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据,例如所述应用程序使用和/或产生的各种数据等。
在一实施例中,图2所示电子设备100还可以包括输入装置106、输出装置108以及数据采集装置110,这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意,图2所示的电子设备100的组件和结构只是示例性的,而非限制性的,根据需要,所述电子设备100也可以具有其他组件和结构。
所述输入装置106可以是用户用来输入指令的装置,并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。所述输出装置108可以向外部(例如,用户)输出各种信息(例如,图像或声音),并且可以包括显示器、扬声器等中的一个或多个。所述数据采集装置110可以采集对象的图像,并且将所采集的图像存储在所述存储器104中以供其它组件使用。示例性地,该数据采集装置110可以为摄像头。
在一实施例中,用于实现本申请实施例的文本评论的生成方法的示例电子设备100中的各器件可以集成设置,也可以分散设置,诸如将处理器 102、存储器104、输入装置106和输出装置108集成设置于一体,而将数据采集装置110分离设置。
在一实施例中,用于实现本申请实施例的文本评论的生成方法的示例电子设备100可以被实现为诸如智能手机、平板电脑、服务器等智能终端。
图2是本申请实施例提供的文本评论的生成方法的流程示意图。该方法可以由上述电子设备执行,如图2所示,该方法可以包括以下步骤S210- 步骤S240。
步骤S210:获取待评论文本。
待评论文本可以是电子设备本地存储的文本,也可以是电子设备从外部设备获取的文本。举例来说,待评论文本可以是新闻文稿。
步骤S220:根据所述待评论文本中每个句子的关键词,确定不同句子之间的语义关系。
具体的,可以以句号、问号、叹号等句子标识符,先对待评论文本进行分句操作,得到多个句子。待评论文本中每个句子的关键词可以通过 Textrank(关键词提取)算法得到,也可以采用人工标注的方式得到。语义关系用于指示不同句子之间的语义是否关联。在一实施例中,如果多个句子存在相同的关键词,可以认为这些句子的语义相关联,如果两个句子之间不存在相同的关键词,那么可以认为这两个句子之间语义不关联。
步骤S230:将每个句子对应的句子特征以及所述不同句子之间的语义关系,作为已训练的文本生成模型的输入。
需要说明的是,每个句子的句子特征可以用特征向量来表示,不同句子之间的语义关系可以用矩阵来表示。举例来说,假设有N个句子,每个句子的特征向量可以是D维的特征向量,N个句子的特征向量可以用N×D 维的矩阵X表示。不同句子之间的语义关系可以用N×N维的矩阵A表示。第i行和第j列的值可以是0或1,1表示第i个句子和第j个句子之间具有相同的关键词,语义相关联,相反的,0表示第i个句子和第j个句子之间不具有相同的关键词,语义不关联。上述矩阵A和矩阵X可以作为文本生成模型的输入。
在一实施例中,如图3所示,上述步骤S230具体包括以下步骤S231- 步骤S232。
步骤S231:以每个句子为节点,具有相同关键词的两个句子对应的节点相连,构建图谱结构。
步骤S232:根据所述图谱结构中每个节点对应的句子特征,构建第一特征矩阵。
具体的,针对每个节点对应的句子,可以对句子进行分词操作,通过查找词向量表,确定每个分词对应的词向量(Word Embedding)。根据每个分词对应的词向量,拼接得到所述句子对应的句子特征。具体拼接方式可以采用词向量相加的方式。将每个句子对应的句子特征,拼接得到所述第一特征矩阵。举例来说,对于图谱结构中的N个节点,即N个句子,假设每个句子的句子特征是D维,则这些节点的特征组成一个N×D维的矩阵 X,该矩阵X可以称为第一特征矩阵。
步骤S233:根据所述图谱结构中不同节点之间的连接关系,构建第二特征矩阵。
具体的,可以对所有节点按序编号1、2、3……若第i个节点与第j个节点存在连接关系,则第二特征矩阵中的第i行第j列的数值标记为第一数值(例如1);若第i个节点与第j个节点不存连接关系,将所述第二特征矩阵中的第i行第j列的数值标记为第二数值(例如2);其中,i和j表示节点编号。
参见上文,各个节点之间的关系可以形成一个N×N维的矩阵A,为进行区分,矩阵A可以称为第二特征矩阵。矩阵A也称为邻接矩阵 (adjacency matrix)。需要说明的是,上述步骤S232和步骤S233的先后顺序可以不限。
步骤S234:将所述第一特征矩阵和第二特征矩阵作为已训练的文本生成模型的输入。
其中,文本生成模型可以采用已知评论语句的样本文稿训练得到,用于生成词向量的词向量回归模型的部分参数也可以一起进行训练。文本生成模型可以是Graph2seq结构,包括图卷积编码器(GCN Encoder)以及循环神经网络解码器(RNN Decoder)。上述第一特征矩阵X和第二特征矩阵 A可以作为图卷积编码器的输入,层与层之间的传播方式如公式:
综上可见,GCN结构在对于节点特征建模的同时高效利用了图谱结构中的信息。将GCN层的输出<g0,g1,……,gN>传入循环神经网络解码器 (RNN Decoder),通过训练学习文本生成规律。
基本的循环神经网络(RNN)的更新公式为:
St=f(U*Xt+W*St-1)
ot=softmax(VSt)
其中Xt表示t时刻的输入,St表示t时刻的状态(记忆),ot表示t时刻的输出,f()是神经网络中的激活函数,参数(U,W,V)会在训练中更新。
根据训练数据大小设置最大迭代次数和早停步长(earlystopstep,模型 loss不下降则停止训练的步数),本实施例中最大迭代次数为20,早停步长为5。
步骤S240:将所述文本生成模型输出的组合概率最高的多条词汇序列,作为模型评论语句。
词汇序列是指若干个词汇按序排列组成的句子,组合概率是指词汇序列中各个词汇组合在一起成为一个句子的概率。概率越高,则表示该词汇序列属于评论语句的可能性越大。文本生成模型可以输出组合概率最高的前若干条词汇序列,作为评论语句。为了与下文的评论语句进行区分,文本生成模型生成的评论语句,可以称为模型评论语句。
在一实施例中,电子设备可以根据文本生成模型每一步输出的词汇,通过束搜索算法,选取组合概率最高的多条词汇序列,作为所述模型评论语句。
束搜索算法是指文本生成模型生成的每一个词,根据文本生成模型给出的概率分布,不止保留概率得分最高的结果,而是保留概率得分最高的前面K个结果(K为束大小beamsize),最后返回搜索过程中组合概率得分最高的前K个的所有结果,获得一份待评论文本的多条生成结果(词汇序列)。
举例来说,选择beam size=3,输入一条新闻文稿作为待评论文本,文本生成模型最后一层输出概率排名最高的三个词为(括号中为概率):
我(0.5)
这(0.3)
你(0.2)
分别以以上三个字为生成的第一个字继续分别生成下一个词:
我爱(0.3)
我喜欢(0.2)
我说(0.1)
这是(0.5)
这很(0.1)
这不是(0.1)
你说的(0.3)
你说(0.1)
你好(0.1)
只保留其中概率最高的三条,即:我爱(0.3)/这是(0.5)/你说的(0.3),重复上一步的操作得到:
我爱xx(0.4)
我爱中国(0.1)
我爱北京(0.1)
这是好事(0.2)
这是对的(0.1)
这是什么(0.1)
你说的对(0.3)
你说的好(0.4)
你说的啥(0.1)
输出概率最高的三条,即:我爱xx(0.4)/你说的好(0.4)/你说的对 (0.3)。
上述实施例提供的技术方案,基于待评论文本中每个句子的句子特征以及不同句子之间的语义关系来生成多条评论语句,丰富了评论语句的种类,且由于充分考虑了句子之间的语义关系,使生成的评论语句更准确,更有效。
在一实施例中,如图4所示,本申请实施例提供的方法还包括以下步骤S410-步骤S430。
步骤S410:根据所述待评论文本对应的相似文本的评论语句,得到相似评论语句。
其中,相似文本是指与待评论文本语义相似的文本。相似文本的评论语句也可以作为待评论文本的评论语句,为进行区分,此评论语句可以称为相似评论语句。在一实施例中,电子设备可以通过计算待评论文本与每篇样本文稿之间的文本相似度。根据待评论文本与每篇样本文稿之间的文本相似度,筛选出文本相似度大于阈值的样本文稿作为相似文本;根据相似文本对应的评论语句,得到相似评论语句。
其中,样本文稿是已存在评论语句的文本,样本文稿可以作为上述文本生成模型的训练样本。上述阈值可以是0.9。文本相似度可以是待评论文本与样本文稿之间的Simhash相似度或余弦相似度。
举例来说,Simhash相似度可以通过计算待评论文本的simhash值和样本文稿的simhash值,之后计算这两个值的汉明距离,表示待评论文本与样本文稿之间的文本相似度。待评论文本的simhash值的计算可以通过分词,计算每个词汇的哈希值,根据每个词汇的词频对哈希值进行加权,对每个词汇加权后的hash值按位求和,对求和后的数据进行降维,得到simhash 值。样本文稿的simhash值的计算同上。
步骤S420:根据所述待评论文本的索引信息对应的评论语句,得到库评论语句。
索引信息可以是待评论文本的文本关键词或者分类标签,也可以同时包括文本关键词和分类标签。具体的,待评论文本的文本关键词可以通过 Textrank(关键词提取)算法得到,举例来说,待评论文本中可以提取出8 个文本关键词。
待评论文本的分类标签可以使用HAN分类算法分类得到。如果两个文本的分类标签或文本关键词一致,可以认为这两个文本的评论语句可以通用,故可以提前汇总同一分类标签或文本关键词的所有评论,建立评论库。也就是说,评论库中可以存储有不同索引信息(分类标签或文本关键词) 对应的评论语句。进而根据待评论文本的索引信息,从评论库中选取所述索引信息对应的评论语句,得到库评论语句。库评论语句是指待评论文本的索引信息对应的评论语句,为进行区分,称为库评论语句。
索引信息包括关键词和/或分类标签。在一实施例中,当索引信息为文本关键词时,根据待评论文本的文本关键词,从评论库中选取所述文本关键词对应的评论语句,得到所述库评论语句。在一实施例中,当索引信息为分类标签时,根据待评论文本的分类标签,从评论库中选取所述分类标签对应的评论语句,得到所述库评论语句。在一实施例中,当索引信息为分类标签和文本关键词时,根据所述待评论文本的文本关键词和分类标签,从评论库中选取所述文本关键词对应的评论语句以及所述分类标签对应的评论语句,得到所述库评论语句。从而可以使待评论文本的评论语句更加多样化。
步骤S430:汇总所述模型评论语句、相似评论语句和库评论语句,得到所述待评论文本的评论结果。
参见上文,模型评论语句是通过文本生成模型生成的待评论文本的多条评论语句,相似评论语句是待评论文本的相似文本的评论语句,库评论语句是待评论文本的索引信息对应的评论语句,待评论文本的评论结果可以包括上述三种方式得到的评论语句,从而使评论语句更加多样化,克服了评论内容单一的问题。
在一实施例中,电子设备可以按照模型评论语句排列在前,相似评论语句和库评论语句排列在后的顺序,按序分批显示模型评论语句、相似评论语句以及库评论语句。
举例来说,假设有5条模型评论语句,5条相似评论语句,5条库评论语句,可以先将5条模型评论语句随机打散顺序,然后将5条相似评论语句和5条库评论语句一共10条评论语句一起随机打散顺序。之后,将模型评论语句排列在前5,将相似评论语句和库评论语句排列在6-15位。
按照每个批次的预设数量,以及所述模型评论语句排列在前,所述相似评论语句和库评论语句排列在后的顺序,将所述模型评论语句、相似评论语句以及库评论语句划分为多个批次。举例来说,假设一个批次是4条,则按序排列的15条评论语句可以分为4批,第一批可以是4条模型评论语句。
电子设备可以先显示第一批的评论语句,在显示前一批次的评论语句时,如果接收到下一次批次功能按钮的触发指令时,显示前一批次之后的下一批次的评论语句。
举例来说,显示第一批的4条评论语句时,用户可以点击“换一批”功能按钮,电子设备接收到点击此按钮的触发指令,显示第二批次的评论语句。同样的,用户再次点击“换一批”功能按钮,可以显示第三批次的评论语句。由此,可以使大量评论语句的展示更加清晰,且模型生成的评论语句可以优先显示,使展示的评论语句更有效。
下面以一份新闻稿件为例,说明文本评论的生成方法。新闻稿件内容如下:
“广泛汇聚群众意见,切实提高宣贯质量余某某参加主题接待活动
11月24日下午,主任余某某来到xx区白云街道联络站,就《xx市全民健身条例(草案)》《xx市住宅小区物业管理条例(修订草案)》的修改完善,向基层群众和有关单位征求意见建议。余某某强调,要端正思想,广泛汇聚群众意见,切实提高宣贯质量,进一步增强人民群众获得感幸福感。彭某某参加活动。《xx市全民健身条例(草案)》8月底已由政府提请第三十二次会议一审,计划提请12月底召开的会议二审,并拟提请明年年初召开的会议审议通过。《xx市住宅小区物业管理条例(修订草案)》10月下旬已由市政府提请第三十三次会议一审,下一步将提请会议二审。近期,报经某某同意,组织全体代表由领导带队,赴代表联络站开展主题接待活动,听取基层群众和有关单位对两个条例草案的意见。座谈会上,某A、某B、某C、某D、某E等10余位群众代表和有关单位负责人踊跃发言,结合法规草案,就引领物业管理、提升业委会自治水平、破解物业服务收费难、科学规划住宅小区体育设施配套、健全健身设施管理制度等提出意见建议。余某某倾听发言、认真记录,不时与大家互动交流。她说,大家提出的意见建议很有针对性和建设性,草案起草小组要逐一梳理、认真研究,能吸收的尽量吸收,对相关具体工作的建议将交有关部门研究处理。余某某强调,全民健身和小区物业管理都是与人民群众生活密切相关的民生实事,制定《xx市全民健身条例》和修订《xx市住宅小区物业管理条例》意义重大、社会关切。要积极回应群众关切,综合统筹平衡各方利益,精细打磨法规条文,确保法规务实管用。通过制定、修订和实施条例,进一步降低社会管理成本,促进全民健身活动开展、提高市民健康水平,破解住宅小区物业管理难题、增强人民群众获得感幸福感。编辑:张某某”
假设每一批的预设数量是5,首先调用训练好的文本生成模型进行预测,束搜索(beam search)算法的束大小(beam_size)设置为5,模型返回结果解码后(即模型评论语句)如下:
第一句:创文明社区,破解物业难题;
第二句:小区的物业管理难题可以得到解决啦;
第三句:希望可以切实落实到各个社区;
第四句:太好啦,终于可以解决物业的难题啦;
第五句:鼓励加强xx市社区物业管理水平。
计算每一篇样本文稿与待评论文本之间的Simhash文本相似度,如果相似度得分大于阈值0.9,取出该条样本文稿对应的评论语句,获得相似评论语句如下:
第一句:物业管理要加强,这个宣贯太及时了;
第二句:增强人民群众的幸福感很重要啊;
第三句:xx市是最棒的;
第四句:太好啦,终于可以解决物业的难题啦;
第五句:小区管理确实需要重视,大家集思广益。
使用Textrank算法获得该篇待评论文本的文本关键词:合作,国际,中欧,疫苗,发展,协定,气候变化,推动;使用HAN分类算法获取该篇文章的文本分类标签:社会。依照分类标签及问女关键词从已建立的分类标签/ 关键词评论库中取出对应的评论语句(即库评论语句),与相似评论语句组合在一起(总称库结果),获得库结果如下:
第一句:物业管理要加强,这个宣贯太及时了;
第二句:增强人民群众的幸福感很重要啊;
第三句:xx市是最棒的;
第四句:太好啦,终于可以解决物业的难题啦;
第五句:小区管理确实需要重视,大家集思广益;
第六句:完善的规则制度,赞;
第七句:这很体现民意;
第八句:安居乐业,国泰民安;
第九句:什么时候我们那边也可以做到全民健身设施的建设呢;
第十句:加强公共体育健身设施的建设;
第N句:后略。
将模型评论语句和库结果分别随机打散顺序,组合在一起,模型评论语在前,库结果在后,获得全部评论如下:
第一句:鼓励加强xx市社区物业管理水平;
第二句:小区的物业管理难题可以得到解决啦;
第三句:创文明社区,破解物业难题;
第四句:太好啦,终于可以解决物业的难题啦;
第五句:希望可以切实落实到各个社区;
第六句:太好啦,终于可以解决物业的难题啦;
第七句:安居乐业,国泰民安;
第八句:xx市是最棒的;
第九句:物业管理要加强,这个宣贯太及时了;
第十句:小区管理确实需要重视,大家集思广益;
第十一句:完善的规则制度,赞;
第十二句:加强公共体育健身设施的建设;
第十三句:增强人民群众的幸福感很重要啊;
第十四句:什么时候我们那边也可以做到全民健身设施的建设呢
第十五句:这很体现民意;
第N句:后略。
最后根据每个批次的数量(num_of_output),分批输出结果,具体可通过“换一批”选项展示后续评论。
下述为本申请装置实施例,可以用于执行本申请上述文本评论的生成方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请文本评论的生成方法实施例。
图5为本申请一实施例示出的文本评论的生成装置的框图。如图5所示,该装置包括:文本获取模块510、关系确定模块520、模型输入模块530 以及模型输出模块540。
文本获取模块510,用于获取待评论文本。
关系确定模块520,用于根据所述待评论文本中每个句子的关键词,确定不同句子之间的语义关系。
模型输入模块530,用于将每个句子对应的句子特征以及所述不同句子之间的语义关系,作为已训练的文本生成模型的输入。
模型输出模块540,用于将所述文本生成模型输出的组合概率最高的多条词汇序列,作为模型评论语句。
上述装置中各个模块的功能和作用的实现过程具体详见上述文本评论的生成方法中对应步骤的实现过程,在此不再赘述。
在本申请所提供的几个实施例中,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
Claims (12)
1.一种文本评论的生成方法,其特征在于,包括:
获取待评论文本;
根据所述待评论文本中每个句子的关键词,确定不同句子之间的语义关系,包括:根据句子标识符,对所述待评论文本进行分句操作,得到多个句子;通过关键词提取算法获取每个所述句子的关键词;若存在两个句子具有相同的关键词,确定所述两个句子语义相关联;
将每个句子对应的句子特征以及所述不同句子之间的语义关系,作为已训练的文本生成模型的输入,包括:以每个句子为节点,具有相同关键词的两个句子对应的节点相连,构建图谱结构;根据所述图谱结构中每个节点对应的句子特征,构建第一特征矩阵;根据所述图谱结构中不同节点之间的连接关系,构建第二特征矩阵;将所述第一特征矩阵和第二特征矩阵作为已训练的文本生成模型的输入;
将所述文本生成模型输出的组合概率最高的多条词汇序列,作为模型评论语句。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述待评论文本对应的相似文本的评论语句,得到相似评论语句;
根据所述待评论文本的索引信息对应的评论语句,得到库评论语句;
汇总所述模型评论语句、相似评论语句和库评论语句,得到所述待评论文本的评论结果。
3.根据权利要求2所述的方法,其特征在于,所述根据所述待评论文本对应的相似文本的评论语句,得到相似评论语句,包括:
计算所述待评论文本与每篇样本文稿之间的文本相似度;
根据所述待评论文本与每篇样本文稿之间的文本相似度,筛选出所述文本相似度大于阈值的样本文稿作为所述相似文本;
根据所述相似文本对应的评论语句,得到所述相似评论语句。
4.根据权利要求2所述的方法,其特征在于,所述根据所述待评论文本的索引信息对应的评论语句,得到库评论语句,包括:
根据所述待评论文本的索引信息,从评论库中选取所述索引信息对应的评论语句,得到库评论语句;
其中,所述评论库中存储有不同索引信息对应的评论语句。
5.根据权利要求4所述的方法,其特征在于,所述索引信息包括文本关键词和/或分类标签;根据所述待评论文本的索引信息,从评论库中选取所述索引信息对应的评论语句,得到库评论语句;
根据所述待评论文本的文本关键词,从评论库中选取所述文本关键词对应的评论语句,得到所述库评论语句;
或者,
根据所述待评论文本的分类标签,从评论库中选取所述分类标签对应的评论语句,得到所述库评论语句;
或者;
根据所述待评论文本的文本关键词和分类标签,从评论库中选取所述文本关键词对应的评论语句以及所述分类标签对应的评论语句,得到所述库评论语句。
6.根据权利要求2所述的方法,其特征在于,所述汇总所述模型评论语句、相似评论语句和库评论语句,得到所述待评论文本的评论结果,包括:
按照所述模型评论语句排列在前,所述相似评论语句和库评论语句排列在后的顺序,按序分批显示所述模型评论语句、相似评论语句以及库评论语句。
7.根据权利要求6所述的方法,其特征在于,所述按照所述模型评论语句排列在前,所述相似评论语句和库评论语句排列在后的顺序,按序分批显示所述模型评论语句、相似评论语句以及库评论语句,包括:
按照每个批次的预设数量,以及所述模型评论语句排列在前,所述相似评论语句和库评论语句排列在后的顺序,将所述模型评论语句、相似评论语句以及库评论语句划分为多个批次;
显示前一批次的评论语句,当接收到下一次批次功能按钮的触发指令时,显示所述前一批次之后的下一批次的评论语句。
8.根据权利要求1所述的方法,其特征在于,所述根据所述图谱结构中每个节点对应的句子特征,构建第一特征矩阵,包括:
针对每个节点对应的句子,对所述句子进行分词操作;
通过查找词向量表,确定每个分词对应的词向量;
根据每个分词对应的词向量,拼接得到所述句子对应的句子特征;
将每个句子对应的句子特征,拼接得到所述第一特征矩阵。
9.根据权利要求1所述的方法,其特征在于,所述根据所述图谱结构中不同节点之间的连接关系,构建第二特征矩阵,包括:
对所有节点按序编号,若第i个节点与第j个节点存在连接关系,将所述第二特征矩阵中的第i行第j列的数值标记为第一数值;
若第i个节点与第j个节点不存连接关系,将所述第二特征矩阵中的第i行第j列的数值标记为第二数值;
其中,i和j表示节点编号。
10.根据权利要求1所述的方法,其特征在于,所述将所述文本生成模型输出的组合概率最高的多条词汇序列,作为模型评论语句,包括:
根据所述文本生成模型每一步输出的词汇,通过束搜索算法,选取组合概率最高的多条词汇序列,作为所述模型评论语句。
11.根据权利要求10所述的方法,其特征在于,所述根据所述文本生成模型每一步输出的词汇,通过束搜索算法,选取组合概率最高的多条词汇序列,作为所述模型评论语句,包括:
根据所述文本生成模型每一步输出的词汇以及概率得分,每一次保留概率得分最高的前若干词汇,最终保留多个词汇构成的序列的组合概率得分最高的前若干条词汇序列,作为所述模型评论语句。
12.一种电子设备,其特征在于,所述电子设备包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行权利要求1-11任意一项所述的文本评论的生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110707456.1A CN113486649B (zh) | 2021-06-24 | 2021-06-24 | 文本评论的生成方法以及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110707456.1A CN113486649B (zh) | 2021-06-24 | 2021-06-24 | 文本评论的生成方法以及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113486649A CN113486649A (zh) | 2021-10-08 |
CN113486649B true CN113486649B (zh) | 2023-07-04 |
Family
ID=77936035
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110707456.1A Active CN113486649B (zh) | 2021-06-24 | 2021-06-24 | 文本评论的生成方法以及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113486649B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116136839B (zh) * | 2023-04-17 | 2023-06-23 | 湖南正宇软件技术开发有限公司 | 法规文件花脸稿的生成方法、生成系统及相关设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110287278A (zh) * | 2019-06-20 | 2019-09-27 | 北京百度网讯科技有限公司 | 评论生成方法、装置、服务器及存储介质 |
WO2019214149A1 (zh) * | 2018-05-11 | 2019-11-14 | 平安科技(深圳)有限公司 | 文本关键信息的识别方法、电子装置及可读存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3787623B2 (ja) * | 2002-09-11 | 2006-06-21 | 独立行政法人情報通信研究機構 | 会話表現生成装置、及び会話表現生成プログラム |
-
2021
- 2021-06-24 CN CN202110707456.1A patent/CN113486649B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019214149A1 (zh) * | 2018-05-11 | 2019-11-14 | 平安科技(深圳)有限公司 | 文本关键信息的识别方法、电子装置及可读存储介质 |
CN110287278A (zh) * | 2019-06-20 | 2019-09-27 | 北京百度网讯科技有限公司 | 评论生成方法、装置、服务器及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113486649A (zh) | 2021-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111737495B (zh) | 基于领域自分类的中高端人才智能推荐系统及其方法 | |
CN106649818B (zh) | 应用搜索意图的识别方法、装置、应用搜索方法和服务器 | |
CN108920622B (zh) | 一种意图识别的训练方法、训练装置和识别装置 | |
CN108363743B (zh) | 一种智能问题生成方法、装置和计算机可读存储介质 | |
CN109376222B (zh) | 问答匹配度计算方法、问答自动匹配方法及装置 | |
WO2019153737A1 (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
CN110717034A (zh) | 一种本体构建方法及装置 | |
Mehri et al. | The complex networks approach for authorship attribution of books | |
CN110096575B (zh) | 面向微博用户的心理画像方法 | |
Huang et al. | Expert as a service: Software expert recommendation via knowledge domain embeddings in stack overflow | |
CN113821605B (zh) | 一种事件抽取方法 | |
EP3940582A1 (en) | Method for disambiguating between authors with same name on basis of network representation and semantic representation | |
CN112328800A (zh) | 自动生成编程规范问题答案的系统及方法 | |
Min et al. | Joint passage ranking for diverse multi-answer retrieval | |
CN112926308B (zh) | 匹配正文的方法、装置、设备、存储介质以及程序产品 | |
CN112182145A (zh) | 文本相似度确定方法、装置、设备和存储介质 | |
CN106897274B (zh) | 一种跨语种的点评复述方法 | |
CN111666374A (zh) | 一种在深度语言模型中融入额外知识信息的方法 | |
CN113486649B (zh) | 文本评论的生成方法以及电子设备 | |
CN114841353A (zh) | 一种融合句法信息的量子语言模型建模系统及其应用 | |
CN117077679B (zh) | 命名实体识别方法和装置 | |
CN110929169A (zh) | 基于改进Canopy聚类协同过滤算法的职位推荐方法 | |
Eskandari et al. | Predicting best answer using sentiment analysis in community question answering systems | |
Hussain et al. | A technique for perceiving abusive bangla comments | |
CN110750967B (zh) | 一种发音的标注方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |