CN117952146A

CN117952146A - 一种基于t5神经网络的智能nlp系统的生成方法及其系统和系统执行方法

Info

Publication number: CN117952146A
Application number: CN202311724580.4A
Authority: CN
Inventors: 罗建新; 沈强; 池毓成; 李嘉炎
Original assignee: Fujian Zefu Software Co ltd
Current assignee: Fujian Zefu Software Co ltd
Priority date: 2023-12-15
Filing date: 2023-12-15
Publication date: 2024-04-30

Abstract

本发明公开一种基于T5神经网络的智能NLP系统的生成方法及其系统和系统执行方法，其包括以下步骤：获得数据集；建立T5神经网络模型，并在T5神经网络模型的基础上加入头部预训练模型；将所述数据集输入T5神经网络模型中，并基于不同文本任务对同一头部预训练模型同时进行多个相关文本任务训练，实现多文本任务学习；更新头部预训练模型的参数，获得的目标头部模型；获得基于T5神经网络的智能NLP系统，上述技术方案通过在T5神经网络模型架构中添加多个头部预训练模型，同时对每个头部预训练模型训练多个相关任务，实现多任务学习；这样能够共享模型的表示能力，提供更好的泛化性能，可以应用在诸多复杂的环境中。

Description

一种基于T5神经网络的智能NLP系统的生成方法及其系统和系统执行方法

技术领域

本发明涉及自然语言识别处理领域，尤其涉及一种基于T5神经网络的智能NLP系统的生成方法及其系统和系统执行方法。

背景技术

一直以来，如何赋予机器理解人类语言的能力是自然语言处理(Na turalLanguage Processing，NLP)研究领域的热点，同时也是自然语言处理研究中的重点以及难点。

参见CN 115129819 A一种文本摘要模型生产方法及其装置、设备、介质，所述方法包括：获取训练集，所述训练集包括多个样本数据，所述样本数据包括段落文本及其对应的摘要文本；以所述样本数据中的段落文本中非核心语句的关键词序列作为训练样本，以所述非核心语句作为监督标签，对预设的生成器实施自监督训练；以等效语句替换所述样本数据中的段落文本中对应的非核心语句且遮盖所述段落文本中的部分核心语句作为训练样本，以所述核心语句作为监督标签，对文本摘要模型实施预训练至收敛；以所述段落文本作为训练样本，以所述段落文本相对应的摘要文本作为监督标签，对文本摘要模型实施微调训练至收敛。但是该方法生产的文本摘要模型功能单一，无法适应复杂的工作环境。

发明内容

为此，需要提供一种基于T5神经网络的智能NLP系统的生成方法解决目前NLP系统的生成方法所生成的NLP系统功能单一，无法适应复杂的工作环境的问题。

为实现上述目的，本发明提供了一种基于T5神经网络的智能NLP系统的生成方法，其包括以下步骤：

获得数据集；

建立T5神经网络模型，并在T5神经网络模型的基础上加入头部预训练模型；所述T5神经网络模型的编码器作为每个头部预训练模型的共享的编码器；

将所述数据集输入T5神经网络模型中，并基于不同文本任务对同一头部预训练模型同时进行多个相关文本任务训练，实现多文本任务学习；

更新头部预训练模型的参数，获得的目标头部模型；

获得基于T5神经网络的智能NLP系统。

进一步地，所述获得数据集包括以下步骤：

获得文本集；

所述文本集根据针对不同的文本任务生成多个样本数据集；

每个样本数据集中的文本根据该数据集中的文本任务获得答案标签；

将样本数据集与对应的答案标签关联形成数据集。

进一步地，所述头部预训练模型包括textCNN预训练模型、BERT+BiLSTM预训练模型和T5Corrector预训练模型。

进一步地，所述textCNN预训练模型进行文本分类任务和情感分析任务训练；所述BERT+BiLSTM预训练模型进行词性标注任务、实体识别任务、关系抽取任务和关键词抽取任务训练；所述T5Corrector预训练模型进行文本纠错和自动补全训练。

进一步地，所述更新头部预训练模型的参数，获得的目标头部模型，包括以下步骤：

在训练过程中，使用交叉熵损失函数，并引入正则化项；利用自适应的优化算法Adam，调节学习率和动量参数，获得的目标头部模型。

进一步地，还包括将基于T5神经网络的智能NLP系统采用模型蒸馏技术进行模型压缩。

进一步地，将基于T5神经网络的智能NLP系统采用模型蒸馏技术进行模型压缩包括以下步骤：

将数据集中的样本数据集输入基于T5神经网络的智能NLP系统中，获得基于T5神经网络的智能NLP系统的真实标签，将样本数据集和真实标签关联获得辅助数据集；

将基于T5神经网络的智能NLP系统作为教师模型，使用教师模型对辅助数据集进行推理，并记录教师模型的输出结果作为软目标；

将T5神经网络删除相应的层数，构成学生模型；

使用辅助数据集和教师模型的软目标对学生模型进行训练；结合真实标签和教师模型的软目标来计算综合的损失函数；

通过反向传播算法更新学生模型的权重；

获得目标学生模型，所述目标学生模型即为采用模型蒸馏技术进行模型压缩后的基于T5神经网络的智能NLP系统。

进一步地，还包括构建知识图谱任务，所述BERT+BiLSTM预训练模型的对输入文本进行实体识别任务处理，获取实体和事件；BERT+BiLSTM预训练模型的对输入文本进行关系抽取任务处理，获取实体与实体之间的关联关系，以及实体与事件之间的属性信息；以实体作为节点，关联关系和属性信息作为边，构建知识图谱，并将知识图谱以结构化的形式存储到图数据库中。

一种基于T5神经网络的智能NLP系统，应用上述基于T5神经网络的智能NLP系统的生成方法生成，其还包括前端，所述前端用于输入文本和选择文本任务，以及返回执行后的结果。

一种基于T5神经网络的智能NLP系统的执行方法，上述基于T5神经网络的智能NLP系统，其包括以下步骤：

在前端输入文本和选择文本任务；

T5神经网络模型的编码器根据文本任务将文本和文本任务传输到与处理文本任务对应的目标头部模型中；

目标头部模型执行文本任务后，在前端返回执行后的结果。

区别于现有技术，上述技术方案通过在T5神经网络模型(T5神经网络模型全称为Text-To-Text Transfer Transformer)架构中添加多个头部预训练模型(任务头(taskhead))，同时对每个头部预训练模型训练多个相关任务，实现多任务学习；这样能够共享模型的表示能力，提供更好的泛化性能，集成了多功能智能NLP系统，基于T5神经网络的智能NLP系统的多功能性和高效性使其在文本分析和自然语言处理领域具有广泛的应用前景，可以应用在诸多复杂的环境中。

附图说明

图1为本发明的一种基于T5神经网络的智能NLP系统的生成方法的流程示意图；

图2为本发明的一种基于T5神经网络的智能NLP系统的结构示意图；

图3为本发明的一种基于T5神经网络的智能NLP系统的执行结果图；

图4为本发明的一种基于T5神经网络的智能NLP系统的执行结果图；

图5为本发明的一种基于T5神经网络的智能NLP系统的执行结果图；

图6为本发明的一种基于T5神经网络的智能NLP系统的执行结果图；

图7为本发明的一种基于T5神经网络的智能NLP系统的执行结果图；

图8为本发明的一种基于T5神经网络的智能NLP系统的执行结果图；

图9为本发明的一种基于T5神经网络的智能NLP系统的执行结果图；

图10为本发明的一种基于T5神经网络的智能NLP系统的执行结果图；

图11为本发明的一种基于T5神经网络的智能NLP系统的执行结果图。

具体实施方式

为详细说明技术方案的技术内容、构造特征、所实现目的及效果，以下结合具体实施例并配合附图详予说明。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中各个位置出现的“实施例”一词并不一定指代相同的实施例，亦不特别限定其与其它实施例之间的独立性或关联性。原则上，在本申请中，只要不存在技术矛盾或冲突，各实施例中所提到的各项技术特征均可以以任意方式进行组合，以形成相应的可实施的技术方案。

除非另有定义，本文所使用的技术术语的含义与本申请所属技术领域的技术人员通常理解的含义相同；本文中对相关术语的使用只是为了描述具体的实施例，而不是旨在限制本申请。

在本申请的描述中，用语“和/或”是一种用于描述对象之间逻辑关系的表述，表示可以存在三种关系，例如A和/或B，表示：存在A，存在B，以及同时存在A和B这三种情况。另外，本文中字符“/”一般表示前后关联对象是一种“或”的逻辑关系。

在本申请中，诸如“第一”和“第二”之类的用语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何实际的数量、主次或顺序等关系。

在没有更多限制的情况下，在本申请中，语句中所使用的“包括”、“包含”、“具有”或者其他类似的表述，意在涵盖非排他性的包含，这些表述并不排除在包括所述要素的过程、方法或者产品中还可以存在另外的要素，从而使得包括一系列要素的过程、方法或者产品中不仅可以包括那些限定的要素，而且还可以包括没有明确列出的其他要素，或者还包括为这种过程、方法或者产品所固有的要素。

与《审查指南》中的理解相同，在本申请中，“大于”、“小于”、“超过”等表述理解为不包括本数；“以上”、“以下”、“以内”等表述理解为包括本数。此外，在本申请实施例的描述中“多个”的含义是两个以上(包括两个)，与之类似的与“多”相关的表述亦做此类理解，例如“多组”、“多次”等，除非另有明确具体的限定。

在本申请实施例的描述中，所使用的与空间相关的表述，诸如“中心”“纵向”“横向”“长度”“宽度”“厚度”“上”“下”“前”“后”“左”“右”“竖直”“水平”“垂直”“顶”“底”“内”“外”“顺时针”“逆时针”“轴向”“径向”“周向”等，所指示的方位或位置关系是基于具体实施例或附图所示的方位或位置关系，仅是为了便于描述本申请的具体实施例或便于读者理解，而不是指示或暗示所指的装置或部件必须具有特定的位置、特定的方位、或以特定的方位构造或操作，因此不能理解为对本申请实施例的限制。

除非另有明确的规定或限定，在本申请实施例的描述中，所使用的“安装”“相连”“连接”“固定”“设置”等用语应做广义理解。例如，所述“连接”可以是固定连接，也可以是可拆卸连接，或成一体设置；其可以是机械连接，也可以是电连接，也可以是通信连接；其可以是直接相连，也可以通过中间媒介间接相连；其可以是两个元件内部的连通或两个元件的相互作用关系。对于本申请所属技术领域的技术人员而言，可以根据具体情况理解上述用语在本申请实施例中的具体含义。

请参阅图1到图11，本发明提供一种基于T5神经网络的智能NLP系统的生成方法，其包括以下步骤：

通过在T5神经网络模型(T5神经网络模型全称为Text-To-Text TransferTransformer。)架构中添加多个头部预训练模型(任务头(task head))，同时对每个头部预训练模型训练多个相关任务，实现多任务学习。这样能够共享模型的表示能力，提供更好的泛化性能，集成了多功能智能NLP系统。基于T5神经网络的智能NLP系统的多功能性和高效性使其在文本分析和自然语言处理领域具有广泛的应用前景，可以应用在诸多复杂的环境中。

所述获得数据集包括以下步骤：

获得文本集；

所述文本集根据针对不同的文本任务生成多个样本数据集；

将样本数据集与对应的答案标签关联形成数据集。

如数据集中的样例：

{文本：2023年2月3日，公司第一次全体会议在总部大楼召开。

文本任务：时间，地点

答案标签：

时间：2023年2月3日

地点：总部大楼}。

所述头部预训练模型包括textCNN预训练模型、BERT+BiLSTM预训练模型和T5Corrector预训练模型。所述textCNN预训练模型进行文本分类任务和情感分析任务训练；所述BERT+BiLSTM预训练模型进行词性标注任务、实体识别任务、关系抽取任务和关键词抽取任务训练；所述T5Corrector预训练模型进行文本纠错和自动补全训练。因此基于T5神经网络的智能NLP系统可以处理通用的文本数据，并提供准确的分析结果。基于T5神经网络的智能NLP系统可以自动执行词性分析、实体识别、关系抽取、事件抽取、关键词抽取、文本纠错和摘要生成等多项自然语言处理功能。支持词性分析、实体识别、关系抽取、事件抽取、关键词抽取、文本纠错、摘要生成等多种自然语言处理任务，可以适用于多个应用领域，如如企业文件处理：多功能智能NLP系统可以用企业中的合同文件，会议文件中的构建信息提取，更高效地获取文件信息与管理文件；如信息检索与问答系统：多功能智能NLP系统可以用于构建智能搜索引擎和问答系统，它可以理解用户的查询意图、提供准确的搜索结果、回答用户的问题，并支持复杂的问答对话。如舆情监测和社交媒体分析：多功能智能NLP系统可以分析社交媒体上的用户观点和情感倾向，对舆情进行监测和分析，它可以帮助企业和组织了解公众对其产品、服务或事件的看法，并进行相应的决策。如智能客服与虚拟助手：多功能智能NLP系统可以用于构建垂直领域的智能客服系统和虚拟助手，提供自动化的客户支持和指导，它可以理解用户的问题、回答疑问、提供相关信息，并支持自然的对话交互。

可以在已有语言模型的基础上进行改造，通过迭代训练和优化模型，提高头部预训练模型的精度和鲁棒性。即在训练过程中，使用交叉熵损失函数，并引入正则化项；利用自适应的优化算法Adam，调节学习率和动量参数，获得的目标头部模型。

还包括将基于T5神经网络的智能NLP系统采用模型蒸馏技术进行模型压缩。利用模型蒸馏技术对基于T5神经网络的智能NLP系统进行压缩，在保证推理精度的前提下压缩基于T5神经网络的智能NLP系统的大小来提高基于T5神经网络的智能NLP系统的预测速度，确保该基于T5神经网络的智能NLP系统具有较高的精度，并能够生成准确的预测结果。

其具体包括以下步骤：

将T5神经网络删除相应的层数，构成学生模型；

使用辅助数据集和教师模型的软目标对学生模型进行训练；结合真实标签和教师模型的软目标来计算综合的损失函数；可以使用均方差损失函数或其他适当的损失函数。

通过反向传播算法更新学生模型的权重，使其能够更好地拟合教师模型的知识；

所述BERT+BiLSTM预训练模型还可以用构建知识图谱任务，其实体识别、关系抽取和事件抽取等功能可以用于从文本中自动抽取实体、属性信息和关联关系等信息，并将其转化为知识图谱中的节点和边。这些节点和边可以帮助理解和表达领域知识，并支持知识推理和智能问答等应用。即所述BERT+BiLSTM预训练模型的对输入文本进行实体识别任务处理，获取实体和事件；BERT+BiLSTM预训练模型的对输入文本进行关系抽取任务处理，获取实体与实体之间的关联关系，以及实体与事件之间的属性信息；以实体作为节点，关联关系和属性信息作为边，构建知识图谱，并将知识图谱以结构化的形式存储到图数据库中。

一种基于T5神经网络的智能NLP系统，应用上述基于T5神经网络的智能NLP系统的生成方法生成，其还包括前端，所述前端用于输入文本和选择文本任务，以及返回执行后的结果。针对不同的自然语言处理任务进行定制化开发，可以灵活地添加和调整不同的组件，可以根据业务需求进行组件组合，并以可视化的方式进行呈现，从而满足不同应用场景和需求。

一种基于T5神经网络的智能NLP系统的执行方法，上述一种基于T5神经网络的智能NLP系统，其包括以下步骤：

在前端输入文本和选择文本任务；

目标头部模型执行文本任务后，在前端返回执行后的结果。

下列举例说明基于T5神经网络的智能NLP系统的功能：

参见图3所示，对任意文本可自动标注出文本中每个词的词性，并可视化展示；如输入文本：“会议主题：加快区块链技术创新赋能实体经济，近年来，区块链技术与越来越多的行业深度融合”，选择的文本任务为“词性标注”，返回“[(‘会议’，‘文化类奖项赛事活动’),(‘主题’，‘信息资料’),(‘:’，‘w’),(‘加快’，‘场景事件’),(‘区块链技术’，‘术语类_术语类型'),(‘创新’，‘场景事件’),(‘赋能’，‘场景事件’),(‘实体经济’，‘术语类_术语类型’),(‘，’，‘w’),(‘近年来’，‘时间类’),(‘，’,‘w’),(‘区块链技术’，‘术语类_术语类型’),(‘与’，‘连词’),(‘越来越多’，‘修饰词’),(‘的’，‘助词’),(‘行业’，‘词汇用语’),(‘深度’，‘术语类_符号指标类'),(‘融合’，‘场景事件’),(‘。’，‘w')]”。

参见图4所示，可对任意文本抽取文本中的实体，支持多实体的类别的选择，也可以自定义实体进行识别。本系统支持可视化呈现实体抽取情况。如输入文本：“2022年7月13日上午10:30，福建软件有限公司2022年度第九次总经理办公会在本部大厦2401会议室召开，公司总经理陈明主持会议，公司副总经理李明轩、公司销售部经理陈旭、公司技术部经理郑晓出席会议。”，选择的文本任务为“实体识别”，返回“2022年7月13日上午10:30会议时间，福建软件有限公司2022年度第九次总经理办公会会议名称在本部大厦2401会议室召开。公司总经理陈明主持会议人主持会议:公司副总经理李明轩、公司销售部经理陈旭、公司技术部经理郑晓出席会议。”

实体	实体名
		主持会议人	陈明
会议时间	2022年7月13日上午10:30
		会议名称	2022年度第九次总经理办公会

参见图5所示，可对任意文本抽取文本中存在的关系，支持多关系的类别的选择，也可以自定义关系进行抽取。本系统支持可视化呈现实体关系的三元组信息。如输入文本：“蔡敏生于1989年8月,中国国籍,本科学历，现任福州软件股份有限公司工程师，在2010年参加工作陈明生于1987年9月.中国国籍,研究生学历，现任福州软件股份有限公司总经理，在2008年参加工作。陈明的下属是蔡敏。”，选择的文本任务为“关系抽取”，返回“[蔡敏，出生日期，1989年8月,[蔡敏，学历，本科学历1,[陈明，出生日期，1987年9月,["陈明，学历，研究生学历],["陈明，下属，"蔡敏]]”

实体	关系/属性	实体/值
			蔡敏	出生日期	1989年8月
蔡敏	学历	本科学历
			陈明	出生日期	1987年9月
陈明	学历	研究生学历
			陈明	下属	蔡敏

参见图6所示，可对任意文本抽取文本中事件信息，支持事件属性自定义。本系统支持可视化呈现事件抽取的信息。如输入文本：“北京时间2008年5月12日14时28分4秒发生汶川大地震，震级为8.0级，震中位于四川省阿坝藏族羌族自治州汶川县映秀镇(北纬31.0°东经103.4，共有69227人死亡、17923人失踪、374643人不同程度受伤。”，选择的文本任务为“事件抽取”，返回“[[汶川大地震，时间，北京时间2008年5月12日14时28分4秒,[汶川大地震，震中位置，四川省阿坝藏族羌族自治州汶川县映秀镇,[汶川大地震，地震震级，8.0级],[汶川大地震，死亡人数，69227人]”

参见图7所示，可将文本中的关键词信息抽取出并可视化展示。如输入文本：“鼓励高端软件协同创新。鼓励行业企业加大行业通用软件研发。鼓励龙头骨干企业牵头协同创新，组织基础软件、工业软件以及人工智能、大数据、区块链等未来产业领域重大软件产品创新研发”，选择的文本任务为“关键词”，返回“软件,鼓励,创新,协同,区块,骨干企业,人工智能,行业,牵头,龙头”。

参见图8所示，可以检查文本中的错别字信息，并做出错别字的纠错。如输入文本：“国有企业发生资产损失，经过查证核实和责任认定后，除依招有关规定移送司法机关处里外，应当按以下方式处理提交”，选择的文本任务为“文本纠错”，返回“国有企业发生资产损失，经过查证核实和责任认定后，除依照(纠错)有关规定移送司法机关处理(纠错)应当按以下方式处理”

参见图9所示，可以自定义文本类别，系统根据文本中的描述判断文本的类别属性。如输入文本：“为了庆祝第38个教师节，弘扬尊师重教的社会风尚，活跃广大教职工的文化生活，展示人民教师的良好精神风貌，经校务会研究决定，拟于9月10日举办教师节文艺演出活动。”，选择的文本任务为“文本分类”，返回“教育”。

参见图10所示，可以自定义情感类别，系统根据文本中的描述判断文本的情感类别属性，获取文本的情感取向。如输入文本：“这件商品非常好，有了问题能很好的处理，可以信赖比较好店家，以后有机会我们再合作。”选择的文本任务为“情感分析”，返回“喜欢”。

参见图11所示，我们可以提供一段长文本，然后针对这个长文本进行提问，系统会根据问题进行回答，答案的内容在长文本中，主要用于阅读理解式的抽取信息。如输入文本：“王斌1981年9月出生,中国国籍,大学学历，现任福建软件股份有限公司董事长。在2003年参加工作。”，选择的文本任务为“阅读理解”，提出问题“王斌什么时候参加工作”，返回“2003”。

需要说明的是，尽管在本文中已经对上述各实施例进行了描述，但并非因此限制本发明的专利保护范围。因此，基于本发明的创新理念，对本文所述实施例进行的变更和修改，或利用本发明说明书及附图内容所作的等效结构或等效流程变换，直接或间接地将以上技术方案运用在其他相关的技术领域，均包括在本发明的专利保护范围之内。

Claims

1.一种基于T5神经网络的智能NLP系统的生成方法，其特征在于：包括以下步骤：

获得数据集；

更新头部预训练模型的参数，获得的目标头部模型；

获得基于T5神经网络的智能NLP系统。

2.根据权利要求1所述的一种基于T5神经网络的智能NLP系统的生成方法，其特征在于：所述获得数据集包括以下步骤：

获得文本集；

所述文本集根据针对不同的文本任务生成多个样本数据集；

将样本数据集与对应的答案标签关联形成数据集。

3.根据权利要求1所述的一种基于T5神经网络的智能NLP系统的生成方法，其特征在于：所述头部预训练模型包括textCNN预训练模型、BERT+BiLSTM预训练模型和T5Corrector预训练模型。

4.根据权利要求3所述的一种基于T5神经网络的智能NLP系统的生成方法，其特征在于：所述textCNN预训练模型进行文本分类任务和情感分析任务训练；所述BERT+BiLSTM预训练模型进行词性标注任务、实体识别任务、关系抽取任务和关键词抽取任务训练；所述T5Corrector预训练模型进行文本纠错和自动补全训练。

5.根据权利要求1所述的一种基于T5神经网络的智能NLP系统的生成方法，其特征在于：所述更新头部预训练模型的参数，获得的目标头部模型，包括以下步骤：

6.根据权利要求1所述的一种基于T5神经网络的智能NLP系统的生成方法，其特征在于：还包括将基于T5神经网络的智能NLP系统采用模型蒸馏技术进行模型压缩。

7.根据权利要求5所述的一种基于T5神经网络的智能NLP系统的生成方法，其特征在于：将基于T5神经网络的智能NLP系统采用模型蒸馏技术进行模型压缩包括以下步骤：

将T5神经网络删除相应的层数，构成学生模型；

通过反向传播算法更新学生模型的权重；

8.根据权利要求4所述的一种基于T5神经网络的智能NLP系统的生成方法，其特征在于：还包括构建知识图谱任务，所述BERT+BiLSTM预训练模型的对输入文本进行实体识别任务处理，获取实体和事件；BERT+BiLSTM预训练模型的对输入文本进行关系抽取任务处理，获取实体与实体之间的关联关系，以及实体与事件之间的属性信息；以实体作为节点，关联关系和属性信息作为边，构建知识图谱，并将知识图谱以结构化的形式存储到图数据库中。

9.一种基于T5神经网络的智能NLP系统，应用权利要求1到8任意一项所述一种基于T5神经网络的智能NLP系统的生成方法生成，其特征在于：还包括前端，所述前端用于输入文本和选择文本任务，以及返回执行后的结果。

10.一种基于T5神经网络的智能NLP系统的执行方法，应用权利要求9所述的一种基于T5神经网络的智能NLP系统，其特征在于：包括以下步骤：

在前端输入文本和选择文本任务；

目标头部模型执行文本任务后，在前端返回执行后的结果。