CN116187334B - 一种基于mt5模型融合ner实体识别的评论生成方法 - Google Patents

一种基于mt5模型融合ner实体识别的评论生成方法 Download PDF

Info

Publication number
CN116187334B
CN116187334B CN202310422539.5A CN202310422539A CN116187334B CN 116187334 B CN116187334 B CN 116187334B CN 202310422539 A CN202310422539 A CN 202310422539A CN 116187334 B CN116187334 B CN 116187334B
Authority
CN
China
Prior art keywords
layer
ner
sequence
comment
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310422539.5A
Other languages
English (en)
Other versions
CN116187334A (zh
Inventor
宋耀
魏传强
司君波
李喆
刘鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Qilu Yidian Media Co ltd
Original Assignee
Shandong Qilu Yidian Media Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Qilu Yidian Media Co ltd filed Critical Shandong Qilu Yidian Media Co ltd
Priority to CN202310422539.5A priority Critical patent/CN116187334B/zh
Publication of CN116187334A publication Critical patent/CN116187334A/zh
Application granted granted Critical
Publication of CN116187334B publication Critical patent/CN116187334B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种基于mt5模型融合ner实体识别的评论生成方法,属于文本生成技术领域。通过对mt5模型结构进行修改,增加ner实体识别部分,利用输入的实体信息提高评论生成的质量,并且利用sep_token作为分隔符将每个片段生成的评论连接起来,生成完整的评论。本方法针对文章主题进行多条评论的生成,生成的评论具有更高的相关性和连贯性。本方法实现了ner实体识别和评论生成的整合,减少了模型的训练和生成时间,提高了模型的效率。

Description

一种基于mt5模型融合ner实体识别的评论生成方法
技术领域
本发明涉及一种基于mt5模型融合ner实体识别的评论生成方法,属于文本生成技术领域。
背景技术
新闻评论让用户表达自己对文章的观点和态度,通过鼓励用户浏览评论、相互交流,从而扩展新闻的内容和提高新闻客户端的用户参与度。现阶段主要采用传统seq2seq模型进行评论生成,但是评论生成质量一般。当前急需一种高质量的评论生成方法。
发明内容
本发明目的是提供了一种基于mt5模型融合ner实体识别的评论生成方法,实现对输入文本的分隔处理,使每条评论的输入信息更加明确清晰。
本发明为实现上述目的,通过以下技术方案实现:
步骤1:数据预处理,将输入文本的新闻数据进行位置信息标注,得到序列x,同时将多条评论label数据进行实体信息提取标注得到,然后每条评论数据通过seq_token分隔符拼接,得到训练label数据 Y;
步骤2:把序列转化为词向量/>和位置向量/>,其中,i表示每个字符的绝对位置,/>、/>的维度为模型的隐向量维度;将词向量和位置向量相加,得到输入序列/>;并将输入序列划分为测试集和训练集;
步骤3:构建评论生成模型,所述评论生成模型包括编码和解码两部分,所述编码部分和解码部分均由9个Block组成,其中解码部分最后多了一层Linear;
步骤4:将训练集输入序列输入评论生成模型进行训练,编码后续全连接层的输出和真实数据计算交叉熵损失得到实体识别部分的交叉熵损失;解码后续的输出通过和训练label数据Y计算交熵损失得到生成任务的交叉熵损失,然后两个损失加权求和作为最后的损失函数,通过adam优化器优化,得到评论生成模型;
步骤5:将测试集输入训练好的评论生成模型,得到最终结果。
优选的,所述编码部分整合ner,对输入序列处理过程如下:
训练集输入序列输入编码部分,得到输出隐状态h,再通过一个全连接层将隐状态h映射为NER的概率分布,具体公式如下:
式中,表示每个字符的实体概率分布、/>表示计算每个实体类别的概率、表示感知机网络、/>表示第/>个包含实体信息的隐状态向量;
将输出隐状态h和ner输出y通过关联模块合并,得到包含ner信息的隐状态向量,具体公式如下:/>
其中,表示隐状态向量对ner概率分布的得分,/>表示编码部分的输出隐状态。
优选的,所述隐状态向量对ner概率分布的得分具体公式如下:
其中,,/>,/>表示通过全连接层对/>进行信息提取后的结果、/>表示通过全连接层对/>进行信息提取后的结果,/>表示连接/>的全连接层的权重,/>表示连接/>的全连接层权重。
优选的,所述损失函数为:
其中,为比例系数,/>表示生成任务的交叉熵损失,/>表示实体识别部分的交叉熵损失。
优选的,所述为0.3。
优选的,所述编码部分的每个块由两层组成,第一层的结构依次为自注意力层、层归一化、随机失活,第二层的结构依次传统线性整流函数的全连接层、层归一化、随机失活。
优选的,所述解码部分每个块由三层组成,第一层依次为自注意力层、层归一化和随机失活,第二层依次为线性整流函数的全连接层、层归一化和随机失活,第三层依次为线性整流函数的全连接层、层归一化和随机失活。
本发明的优点在于:本发明利用输入的实体信息提高生成评论的质量并通过特殊的排序方案,对评论进行排序,并通过的分隔符,将每个片段生成的评论连接起来,提高评论的相关性和连贯性。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
图1为本发明结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
1、一种基于mt5模型融合ner实体识别的评论生成方法,其特征在于,包括以下步骤:
步骤1:数据预处理,将输入文本的新闻数据进行位置信息标注,得到序列x,同时将多条评论label数据进行实体信息提取标注得到,然后每条评论数据通过seq_token分隔符拼接,得到训练label数据 Y;
步骤2:把序列转化为词向量/>和位置向量/>,其中,i表示每个字符的绝对位置,/>、/>的维度为模型的隐向量维度;将词向量和位置向量相加,得到输入序列/>;并将输入序列划分为测试集和训练集;
步骤3:构建评论生成模型,所述评论生成模型包括编码和解码两部分,所述编码部分和解码部分均由9个Block组成,其中解码部分最后多了一层Linear;
编码部分的每个块由两层组成,第一层的结构依次为自注意力层、层归一化、随机失活,第二层的结构依次传统线性整流函数的全连接层、层归一化、随机失活。
所述解码部分每个块由三层组成,第一层依次为自注意力层、层归一化和随机失活,第二层依次为线性整流函数的全连接层、层归一化和随机失活,第三层依次为线性整流函数的全连接层、层归一化和随机失活。
所述编码部分整合ner,对输入序列处理过程如下:
训练集输入序列输入编码部分,得到输出隐状态h,再通过一个全连接层将隐状态h映射为NER的概率分布,具体公式如下:
式中,表示每个字符的实体概率分布、/>表示计算每个实体类别的概率、表示感知机网络、/>表示第/>个包含实体信息的隐状态向量;
将输出隐状态h和ner输出y通过关联模块合并,得到包含ner信息的隐状态向量,具体公式如下:/>
其中,表示隐状态向量对ner概率分布的得分,/>表示编码部分的输出隐状态。
所述隐状态向量对ner概率分布的得分具体公式如下:
其中,,/>,/>表示通过全连接层对/>进行信息提取后的结果、/>表示通过全连接层对/>进行信息提取后的结果,/>表示连接/>的全连接层的权重,/>表示连接/>的全连接层权重。
步骤4:将训练集输入序列输入评论生成模型进行训练,编码后续全连接层的输出和真实数据计算交叉熵损失得到实体识别部分的交叉熵损失;解码后续的输出通过和真实数据Y计算交熵损失得到生成任务的交叉熵损失,然后两个损失加权求和作为最后的损失函数,通过adam优化器优化,得到评论生成模型;所述损失函数为:
其中,为比例系数,所述/>为0.3,/>表示生成任务的交叉熵损失,/>表示实体识别部分的交叉熵损失。
步骤5:将测试集输入训练好的评论生成模型,得到最终结果。
实施例2
利用本发明,从互联网网站获取的新闻,如下
芦笋是一种营养价值比较高的蔬菜,它里面含有人体所需的氨基酸,还有很多微量元素。现在的芦笋一年四季都能吃上,但春天的芦笋才是最好吃的,这个季节的芦笋水分很足,又鲜又嫩,还带有微微的甜味。
洛阳牡丹是中国传统名花之一,其珍品“银丝贯顶”更是它们中的佼佼者。每年五月,当这些花盛开时,成千上万的游客会来自世界各地前来观看。而这些“银丝贯顶”珍品,更是如同明珠一般,在花丛中熠熠生辉。不过,在这里,保护这些珍贵的花朵同样也非常重要。
表1评论生成结果对比表
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于mt5模型融合ner实体识别的评论生成方法,其特征在于,包括以下步骤:
步骤1:数据预处理,将输入文本的新闻数据进行位置信息标注,得到序列x,同时将多条评论label数据进行实体信息提取标注得到,然后每条评论数据通过seq_token分隔符拼接,得到训练label数据 Y;
步骤2:把序列转化为词向量/>和位置向量/>,其中,i表示每个字符的绝对位置,/>、/>的维度为模型的隐向量维度;将词向量和位置向量相加,得到输入序列/>;并将输入序列划分为测试集和训练集;
步骤3:构建评论生成模型,所述评论生成模型包括编码和解码两部分,所述编码部分和解码部分均由9个Block组成,其中解码部分最后多了一层Linear;
所述编码部分整合ner,对输入序列处理过程如下:
训练集输入序列输入编码部分,得到输出隐状态h,再通过一个全连接层将隐状态h映射为NER的概率分布,具体公式如下:
式中,表示每个字符的实体概率分布、/>表示计算每个实体类别的概率、表示感知机网络、/>表示第/>个包含实体信息的隐状态向量;
将输出隐状态h和ner输出y通过关联模块合并,得到包含ner信息的隐状态向量,具体公式如下:/>
其中,表示隐状态向量对ner概率分布的得分,/>表示编码部分的输出隐状态;
所述隐状态向量对ner概率分布的得分具体公式如下:
其中,,/>,/>表示通过全连接层对/>进行信息提取后的结果、/>表示通过全连接层对/>进行信息提取后的结果,/>表示连接/>的全连接层的权重,/>表示连接/>的全连接层权重;
步骤4:将训练集输入序列输入评论生成模型进行训练,编码后续全连接层的输出和真实数据计算交叉熵损失得到实体识别部分的交叉熵损失;解码后续的输出通过和训练label数据Y计算交熵损失得到生成任务的交叉熵损失,然后两个损失加权求和作为最后的损失函数,通过adam优化器优化,得到评论生成模型;
步骤5:将测试集输入训练好的评论生成模型,得到最终结果。
2.根据权利要求1所述的基于mt5模型融合ner实体识别的评论生成方法,其特征在于,所述损失函数为:
其中,为比例系数,/>表示生成任务的交叉熵损失,/>表示实体识别部分的交叉熵损失。
3.根据权利要求2所述的基于mt5模型融合ner实体识别的评论生成方法,其特征在于,所述为0.3。
4.根据权利要求1所述的基于mt5模型融合ner实体识别的评论生成方法,其特征在于,所述编码部分的每个块由两层组成,第一层的结构依次为自注意力层、层归一化、随机失活,第二层的结构依次传统线性整流函数的全连接层、层归一化、随机失活。
5.根据权利要求1所述的基于mt5模型融合ner实体识别的评论生成方法,其特征在于,所述解码部分每个块由三层组成,第一层依次为自注意力层、层归一化和随机失活,第二层依次为线性整流函数的全连接层、层归一化和随机失活,第三层依次为线性整流函数的全连接层、层归一化和随机失活。
CN202310422539.5A 2023-04-20 2023-04-20 一种基于mt5模型融合ner实体识别的评论生成方法 Active CN116187334B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310422539.5A CN116187334B (zh) 2023-04-20 2023-04-20 一种基于mt5模型融合ner实体识别的评论生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310422539.5A CN116187334B (zh) 2023-04-20 2023-04-20 一种基于mt5模型融合ner实体识别的评论生成方法

Publications (2)

Publication Number Publication Date
CN116187334A CN116187334A (zh) 2023-05-30
CN116187334B true CN116187334B (zh) 2023-07-25

Family

ID=86449117

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310422539.5A Active CN116187334B (zh) 2023-04-20 2023-04-20 一种基于mt5模型融合ner实体识别的评论生成方法

Country Status (1)

Country Link
CN (1) CN116187334B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117151084B (zh) * 2023-10-31 2024-02-23 山东齐鲁壹点传媒有限公司 一种中文拼写、语法纠错方法、存储介质及设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114492407A (zh) * 2022-01-26 2022-05-13 中国科学技术大学 一种新闻评论生成方法、系统、设备及存储介质
CN115935991A (zh) * 2022-11-04 2023-04-07 招联消费金融有限公司 多任务模型生成方法、装置、计算机设备和存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11436481B2 (en) * 2018-09-18 2022-09-06 Salesforce.Com, Inc. Systems and methods for named entity recognition
CN111325571B (zh) * 2019-12-30 2023-08-18 北京航空航天大学 一种多任务学习的商品评论标签自动生成方法、装置及系统
WO2021184311A1 (zh) * 2020-03-19 2021-09-23 中山大学 一种自动生成可推理问答的方法和装置
CN111738006A (zh) * 2020-06-22 2020-10-02 苏州大学 基于商品评论命名实体识别的问题生成方法
CN115774772A (zh) * 2021-09-09 2023-03-10 中移物联网有限公司 一种敏感信息识别方法、装置及网络设备
CN114218936A (zh) * 2021-09-29 2022-03-22 广东南方新媒体科技有限公司 一种媒体领域的优质评论自动生成算法
CN114881035B (zh) * 2022-05-13 2023-07-25 平安科技(深圳)有限公司 训练数据的增广方法、装置、设备和存储介质
CN115935975A (zh) * 2022-05-20 2023-04-07 厦门大学 一种情感可控的新闻评论生成方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114492407A (zh) * 2022-01-26 2022-05-13 中国科学技术大学 一种新闻评论生成方法、系统、设备及存储介质
CN115935991A (zh) * 2022-11-04 2023-04-07 招联消费金融有限公司 多任务模型生成方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN116187334A (zh) 2023-05-30

Similar Documents

Publication Publication Date Title
CN109992764B (zh) 一种文案生成方法及装置
CN116187334B (zh) 一种基于mt5模型融合ner实体识别的评论生成方法
Gallo et al. Image and encoded text fusion for multi-modal classification
CN109492101A (zh) 基于标签信息与文本特征的文本分类方法、系统及介质
CN112905739B (zh) 虚假评论检测模型训练方法、检测方法及电子设备
CN110222163A (zh) 一种融合cnn与双向lstm的智能问答方法及系统
CN110390018A (zh) 一种基于lstm的社交网络评论生成方法
CN110096587A (zh) 基于注意力机制的lstm-cnn词嵌入的细粒度情感分类模型
CN107145573A (zh) 人工智能客服机器人的问题解答方法及系统
CN108256968A (zh) 一种电商平台商品专家评论生成方法
CN107491439A (zh) 一种基于贝叶斯统计学习的医学古汉语句子切分方法
CN116205222A (zh) 一种基于多通道注意力融合的方面级情感分析系统及方法
CN110263164A (zh) 一种基于模型融合的情感倾向分析方法
CN108021908A (zh) 人脸年龄段识别方法及装置、计算机装置及可读存储介质
CN110728144A (zh) 一种基于上下文语义感知的抽取式文档自动摘要方法
CN108345633A (zh) 一种自然语言处理方法及装置
CN106776740A (zh) 一种基于卷积神经网络的社交网络文本聚类方法
CN116737922A (zh) 一种游客在线评论细粒度情感分析方法和系统
CN110909167A (zh) 一种微博文本分类系统
CN110472056A (zh) 一种评论数据分类方法及系统
WO2023000811A1 (zh) 一种饮用酒制作方式的共享方法、装置及服务器
CN116244429A (zh) 社交关系引导的多级特征交互融合的微博情感分析方法
Deng et al. Deep learning for gender recognition
AU2021100480A4 (en) Natural Scene Text Recognition Method Based on Two-Dimensional Feature Attention Mechanism
CN112417149B (zh) 一种基于多任务学习的标题生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant