CN116956835A - 一种基于预训练语言模型的文书生成方法 - Google Patents
一种基于预训练语言模型的文书生成方法 Download PDFInfo
- Publication number
- CN116956835A CN116956835A CN202311187670.4A CN202311187670A CN116956835A CN 116956835 A CN116956835 A CN 116956835A CN 202311187670 A CN202311187670 A CN 202311187670A CN 116956835 A CN116956835 A CN 116956835A
- Authority
- CN
- China
- Prior art keywords
- text
- model
- key word
- keyword
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 50
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000013136 deep learning model Methods 0.000 claims description 19
- 238000013527 convolutional neural network Methods 0.000 claims description 18
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 8
- 238000003062 neural network model Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 230000001537 neural effect Effects 0.000 claims description 6
- 230000001172 regenerating effect Effects 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 6
- 230000006870 function Effects 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及自动文本生成技术领域,具体公开了一种基于预训练语言模型的文书生成方法,包括步骤把需要生成的文书的提示词输入预训练语言生成多个文本集,用所有文本集训练预设的深度学习模型得到文书生成模型,对每个文本集进行分词,得到每个文本集中的关键词组集合,提取关键词组的词组特征,使关键词组的词组特征与提示词对比得到联合度,根据联合度获得候选词集合,根据候选词集合和文书生成模型生成合并的文书。本发明实现了利用预训练语言模型生成高质量的文本。
Description
技术领域
本发明涉及自动文本生成技术领域,具体涉及一种基于预训练语言模型的文书生成方法。
背景技术
随着人工智能技术的快速发展,预训练语言模型逐渐用于文书生成。预训练语言模型(Bidirectional Encoder Representations from Transformers,BERT)能够进一步增加词向量模型泛化能力,充分描述字符级、词级、句子级甚至句间关系特征。预训练语言模型BERT是一种处理文本信息的方法,其网络架构使用的是多层Transformer结构,其最大的特点是抛弃了传统的循环神经网络(Recurrent Neural Network,RNN)和卷积神经网络(Convolutional Neural Networks,CNN),通过注意力机制(Attention)将任意位置的两个单词的距离转换,有效的解决了自然语言处理(Natural Language Processing,NLP)中棘手的长期依赖问题。
但预训练语言生成模型存在缺陷,尽管预训练语言模型在大规模的文本数据上进行了训练,但它们并没有真正的理解和推理能力,预训练语言生成模型是基于统计模式进行预测和生成文本,而不是真正理解其中的含义。这可能导致模型在某些情况下产生错误或不准确的回答,比如获得的词语的词性或表达不准确,生成的文本与提示词的语义不一致,使得文本语义出现偏差。
发明内容
本发明的目的在于提出一种基于预训练语言模型的文书生成方法,以解决现有技术中所存在的一个或多个技术问题,至少提供一种有益的选择或创造条件。
为实现上述技术目的,本发明技术方案如下:
一种基于预训练语言模型的文书生成方法,所述方法包括以下步骤:
步骤1,把需要生成的文书的提示词输入预训练语言生成多个文本集,用所有文本集训练预设的深度学习模型得到文书生成模型;
步骤2,对每个文本集进行分词,得到每个文本集中的关键词组集合,提取关键词组的词组特征;
步骤3,使关键词组的词组特征与提示词对比得到联合度,根据联合度获得候选词集合;
步骤4,根据候选词集合和文书生成模型生成合并的文书。
进一步地,步骤1中,把需要生成的文书的提示词输入预训练语言生成多个文本集,用所有文本集训练预设的深度学习模型得到文书生成模型的子步骤为:
把需要生成的文书的提示词输入预训练语言生成N个文本集,其中,N≥3;
在生成一个新的文本集后对现有的每个文本集进行比较得到差异值,如果文本集间的差异值大于设定的阈值则重新生成,具体为:
通过预设的双流神经网络模型对文本集提取得到多个关键词组;
分别对提取得到的关键词组进行二进制转换,得到关键词序列;将所述关键词序列分别与其他文本集的关键词序列进行空间距离计算,得到对应的相似值作为不同文本集的相似度;
如果新的文本集与任意已经存在的文本集对比得到的相似度高于设定的阈值则丢弃新的文本集并重新生成;
在得到N个文本集后,根据所有N个文本集对预设的深度学习模型进行训练,以使所述深度学习模型学习所有文本集的构造规则,得到训练后的文书生成模型。
进一步地,步骤2中,对每个文本集进行分词,得到每个文本集中的关键词组集合,提取关键词组的词组特征的子步骤为:
通过预设的卷积神经模型提取文本集得到多个关键词组,构建关键词组集合;
把关键词组转换成关键词向量,把关键词向量拼接成关键词向量矩阵,关键词向量矩阵输入训练后的卷积神经网络模型得到关键词分类结果,卷积神经网络模型输出各个类别对应的概率预测结果,每个类别对应的概率预测结果表示关键词组属于该类别的概率,取概率大于设定阈值的类别作为词组特征;
所述词组特征还包括关键词组的连接关系和关键词组的上下文关系。
进一步地,步骤3中,使关键词组的词组特征与提示词对比得到联合度,根据联合度获得候选词集合的子步骤为:
分别计算每个关键词组集合中的关键词组与提示词的联合度:
把不同分类结果的关键词向量矩阵对应的关键词按照在文本集中的顺序分别与提示词进行比较,根据词组特征中关键词组对所在文本集的权重,得到不同文本集中关键词组与提示词的联合度;
所述权重由卷积神经网络模型根据关键词分类结果得到;
将关键词组与提示词的联合度最大的关键词组添加至候选词组集合。
优选地,词组特征还包括关键词组的类别,即不同词组的属性,比如名词,形容词,动词以及其他助词,分别根据不同类别词的权重与提示词比较以提高效率及准确度。
进一步地,步骤4中,根据候选词集合和文书生成模型生成合并的文书的子步骤为:
把候选词组集合输入步骤1得到的文书生成模型,通过所述文书生成模型预设的解码器词组特征进行关键词组合,最终得到拼接的文书。
优选地,其中,本发明中所有未定义的变量,若未有明确定义,均可为人工设置的阈值。
一种基于预训练语言模型的文书生成系统,所述系统包括:
文本生成模块:用于把提示词输入语言生成模型获得文本集;
文本比对模块:用于对新生成的文本集与现有的每个文本集进行比较得到差异值,决定是否丢弃新生成的文本集,具体为:
通过预设的双流神经网络模型对文本集提取得到多个关键词组;
分别对提取得到的关键词组进行二进制转换,得到关键词序列;将所述关键词序列分别与其他文本集的关键词序列进行空间距离计算,得到对应的相似值作为不同文本集的相似度;
如果新的文本集与任意已经存在的文本集对比得到的相似度高于设定的阈值则丢弃新的文本集并重新生成;
模型生成模块:用于利用得到的文本集对预设的深度学习模型进行训练,以使所述深度学习模型学习所有文本集的构造规则,得到训练后的文书生成模型;
特征提取模块:用于生成词组特征,具体为:通过预设的卷积神经模型提取文本集得到多个关键词组,构建关键词组集合;把关键词组转换成关键词向量,把关键词向量拼接成关键词向量矩阵,关键词向量矩阵输入训练后的卷积神经网络模型得到关键词分类结果,卷积神经网络模型输出各个类别对应的概率预测结果,每个类别对应的概率预测结果表示关键词组属于该类别的概率,取概率大于设定阈值的类别作为词组特征;
候选词组提取模块:用于根据词组特征从多个文本集中提取候选词组,构造候选词组集合;
文书生成模块:利用文书生成模型和候选词组集合生成拼接的文书。
第三方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明第一方面提供的所述一种基于预训练语言模型的文书生成方法的步骤。
第四方面,本发明提供一种电子设备,包括:存储器,其上存储有计算机程序;处理器,用于执行所述存储器中的所述计算机程序,以实现本发明提供的所述一种基于预训练语言模型的文书生成方法的步骤。
与现有技术相比,本发明具有以下有益的技术效果:
本发明一实施例提供了一种基于预训练语言模型的文书生成方法,解决了现有的生成方法无法在保证生成文本质量的问题。
一般情况下,预训练语言模型生成的文本结构不稳定,词组存在误用等问题,因为预训练语言模型在训练的时候获输入错误的信息。为了解决这一问题,就必须对生成的文本进行检查,本发明先生成并筛选出结构较为一致的文本,利用了改进的双流神经网络模型的提取了关键词组,提高了识别精确性,对比方法利用了空间距离计算比对不同文本的相似度,避免了现有技术中文本匹配运算量大的问题;
之后对筛选出的文本集训练预设的深度学习模型,得到文书生成模型,优点是可以适应不同文本。之后根据关键词组的词组特征与提示词的联合度筛选提取不同文本集的候选词组,之后生成拼接的文书。
附图说明
图1为本发明提供的一种基于预训练语言模型的文书生成方法的流程图;
图2为本发明一个实施例的一种基于预训练语言模型的文书生成系统结构示意框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清晰,以下结合附图及实施例,对本发明进行进一步详尽说明。此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
同样应理解,以下实施例只用于对本发明进行进一步说明,不能理解为对本发明保护范围的限制,本领域的技术人员根据本发明上述内容做出的一些非本质的改进和调整均属于本发明的保护范围。下述示例具体的工艺参数等也仅是合适范围内的一个示例,即本领域技术人员可以通过本文的说明做合适的范围内选择,而并非要限定于下文示例的具体数值。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
以下示例性地说明本发明提供的一种基于预训练语言模型的文书生成方法。
如图1所示为一种基于预训练语言模型的文书生成方法的流程图,下面结合图1来阐述根据本发明的实施方式的一种基于预训练语言模型的文书生成方法,所述方法包括以下步骤:
步骤1,把需要生成的文书的提示词输入预训练语言生成多个文本集,用所有文本集训练预设的深度学习模型得到文书生成模型;
步骤2,对每个文本集进行分词,得到每个文本集中的关键词组集合,提取关键词组的词组特征;
步骤3,使关键词组的词组特征与提示词对比得到联合度,根据联合度获得候选词集合;
步骤4,根据候选词集合和文书生成模型生成合并的文书。
进一步地,步骤1中,把需要生成的文书的提示词输入预训练语言生成多个文本集,用所有文本集训练预设的深度学习模型得到文书生成模型的子步骤为:
把需要生成的文书的提示词输入预训练语言生成N个文本集,其中,N≥3;
在生成一个新的文本集后对现有的每个文本集进行比较得到差异值,如果文本集间的差异值大于设定的阈值则重新生成,具体为:
通过预设的双流神经网络模型对文本集提取得到多个关键词组;
分别对提取得到的关键词组进行二进制转换,得到关键词序列;将所述关键词序列分别与其他文本集的关键词序列进行空间距离计算,得到对应的相似值作为不同文本集的相似度;
如果新的文本集与任意已经存在的文本集对比得到的相似度高于设定的阈值则丢弃新的文本集并重新生成;
在得到N个文本集后,根据所有N个文本集对预设的深度学习模型进行训练,以使所述深度学习模型学习所有文本集的构造规则,得到训练后的文书生成模型。
进一步地,步骤2中,对每个文本集进行分词,得到每个文本集中的关键词组集合,提取关键词组的词组特征的子步骤为:
通过预设的卷积神经模型提取文本集得到多个关键词组,构建关键词组集合;
把关键词组转换成关键词向量,把关键词向量拼接成关键词向量矩阵,关键词向量矩阵输入训练后的卷积神经网络模型得到关键词分类结果,卷积神经网络模型输出各个类别对应的概率预测结果,每个类别对应的概率预测结果表示关键词组属于该类别的概率,取概率大于设定阈值的类别作为词组特征;
所述词组特征还包括关键词组的连接关系和关键词组的上下文关系。
进一步地,步骤3中,使关键词组的词组特征与提示词对比得到联合度,根据联合度获得候选词集合的子步骤为:
分别计算每个关键词组集合中的关键词组与提示词的联合度:
把不同分类结果的关键词向量矩阵对应的关键词按照在文本集中的顺序分别与提示词进行比较,根据词组特征中关键词组对所在文本集的权重,得到不同文本集中关键词组与提示词的联合度;
所述权重由卷积神经网络模型根据关键词分类结果得到;
将关键词组与提示词的联合度最大的关键词组添加至候选词组集合。
优选地,词组特征还包括关键词组的类别,即不同词组的属性,比如名词,形容词,动词以及其他助词,分别根据不同类别词的权重与提示词比较以提高效率及准确度。
进一步地,步骤4中,根据候选词集合和文书生成模型生成合并的文书的子步骤为:
把候选词组集合输入步骤1得到的文书生成模型,通过所述文书生成模型预设的解码器词组特征进行关键词组合,最终得到拼接的文书。
优选地,其中,本发明中所有未定义的变量,若未有明确定义,均可为人工设置的阈值。
如图2所示是本发明一个实施例的一种基于预训练语言模型的文书生成系统结构示意框图。
一种基于预训练语言模型的文书生成系统,所述系统包括:
文本生成模块:用于把提示词输入语言生成模型获得文本集;
文本比对模块:用于对新生成的文本集与现有的每个文本集进行比较得到差异值,决定是否丢弃新生成的文本集,具体为:
通过预设的双流神经网络模型对文本集提取得到多个关键词组;
分别对提取得到的关键词组进行二进制转换,得到关键词序列;将所述关键词序列分别与其他文本集的关键词序列进行空间距离计算,得到对应的相似值作为不同文本集的相似度;
如果新的文本集与任意已经存在的文本集对比得到的相似度高于设定的阈值则丢弃新的文本集并重新生成;
模型生成模块:用于利用得到的文本集对预设的深度学习模型进行训练,以使所述深度学习模型学习所有文本集的构造规则,得到训练后的文书生成模型;
特征提取模块:用于生成词组特征,具体为:通过预设的卷积神经模型提取文本集得到多个关键词组,构建关键词组集合;把关键词组转换成关键词向量,把关键词向量拼接成关键词向量矩阵,关键词向量矩阵输入训练后的卷积神经网络模型得到关键词分类结果,卷积神经网络模型输出各个类别对应的概率预测结果,每个类别对应的概率预测结果表示关键词组属于该类别的概率,取概率大于设定阈值的类别作为词组特征;
候选词组提取模块:用于根据词组特征从多个文本集中提取候选词组,构造候选词组集合;
文书生成模块:利用文书生成模型和候选词组集合生成拼接的文书。
所述基于一种基于预训练语言模型的文书生成系统可以运行于桌上型计算机、笔记本电脑、掌上电脑及云端服务器等计算设备中。所述一种基于预训练语言模型的文书生成系统,可运行的系统可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,所述例子仅仅是一种基于预训练语言模型的文书生成系统的示例,并不构成对一种基于预训练语言模型的文书生成系统的限定,可以包括比例子更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述一种基于预训练语言模型的文书生成系统还可以包括输入输出设备、网络接入设备、总线等。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述一种基于预训练语言模型的文书生成系统运行系统的控制中心,利用各种接口和线路连接整个一种基于预训练语言模型的文书生成系统可运行系统的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述一种基于预训练语言模型的文书生成系统的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)。此外,存储器可以包括随机存取存储器(RAM,Random AccessMemory),还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
尽管本发明的描述已经相当详尽且特别对几个所述实施例进行了描述,但其并非旨在局限于任何这些细节或实施例或任何特殊实施例,从而有效地涵盖本发明的预定范围。此外,上文以发明人可预见的实施例对本发明进行描述,其目的是为了提供有用的描述,而那些目前尚未预见的对本发明的非实质性改动仍可代表本发明的等效改动。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型。
Claims (8)
1.一种基于预训练语言模型的文书生成方法,其特征在于,所述方法包括以下步骤:
步骤1,把需要生成的文书的提示词输入预训练语言生成多个文本集,用所有文本集训练预设的深度学习模型得到文书生成模型;
步骤2,对每个文本集进行分词,得到每个文本集中的关键词组集合,提取关键词组的词组特征;
步骤3,使关键词组的词组特征与提示词对比得到联合度,根据联合度获得候选词集合;
步骤4,根据候选词集合和文书生成模型生成合并的文书。
2.根据权利要求1所述的一种基于预训练语言模型的文书生成方法,其特征在于,步骤1中,把需要生成的文书的提示词输入预训练语言生成多个文本集,用所有文本集训练预设的深度学习模型得到文书生成模型的子步骤为:
把需要生成的文书的提示词输入预训练语言生成N个文本集,其中,N≥3;
在生成一个新的文本集后对现有的每个文本集进行比较得到差异值,如果文本集间的差异值大于设定的阈值则重新生成,具体为:
通过预设的双流神经网络模型对文本集提取得到多个关键词组;
分别对提取得到的关键词组进行二进制转换,得到关键词序列;将所述关键词序列分别与其他文本集的关键词序列进行空间距离计算,得到对应的相似值作为不同文本集的相似度;
如果新的文本集与任意已经存在的文本集对比得到的相似度高于设定的阈值则丢弃新的文本集并重新生成;
在得到N个文本集后,根据所有N个文本集对预设的深度学习模型进行训练,以使所述深度学习模型学习所有文本集的构造规则,得到训练后的文书生成模型。
3.根据权利要求1所述的一种基于预训练语言模型的文书生成方法,其特征在于,步骤2中,对每个文本集进行分词,得到每个文本集中的关键词组集合,提取关键词组的词组特征的子步骤为:
通过预设的卷积神经模型提取文本集得到多个关键词组,构建关键词组集合;
把关键词组转换成关键词向量,把关键词向量拼接成关键词向量矩阵,关键词向量矩阵输入训练后的卷积神经网络模型得到关键词分类结果,卷积神经网络模型输出各个类别对应的概率预测结果,每个类别对应的概率预测结果表示关键词组属于该类别的概率,取概率大于设定阈值的类别作为词组特征;
所述词组特征还包括关键词组的连接关系和关键词组的上下文关系。
4.根据权利要求1所述的一种基于预训练语言模型的文书生成方法,其特征在于,步骤3中,使关键词组的词组特征与提示词对比得到联合度,根据联合度获得候选词集合的子步骤为:
分别计算每个关键词组集合中的关键词组与提示词的联合度:
把不同分类结果的关键词向量矩阵对应的关键词按照在文本集中的顺序分别与提示词进行比较,根据词组特征中关键词组对所在文本集的权重,得到不同文本集中关键词组与提示词的联合度;
所述权重由卷积神经网络模型根据关键词分类结果得到;
将关键词组与提示词的联合度最大的关键词组添加至候选词组集合。
5.根据权利要求1所述的一种基于预训练语言模型的文书生成方法,其特征在于,步骤4中,根据候选词集合和文书生成模型生成合并的文书的子步骤为:
把候选词组集合输入步骤1得到的文书生成模型,通过所述文书生成模型预设的解码器词组特征进行关键词组合,最终得到拼接的文书。
6.一种基于预训练语言模型的文书生成系统,其特征在于,所述系统包括:
文本生成模块:用于把提示词输入语言生成模型获得文本集;
文本比对模块:用于对新生成的文本集与现有的每个文本集进行比较得到差异值,决定是否丢弃新生成的文本集,具体为:
通过预设的双流神经网络模型对文本集提取得到多个关键词组;
分别对提取得到的关键词组进行二进制转换,得到关键词序列;将所述关键词序列分别与其他文本集的关键词序列进行空间距离计算,得到对应的相似值作为不同文本集的相似度;
如果新的文本集与任意已经存在的文本集对比得到的相似度高于设定的阈值则丢弃新的文本集并重新生成;
模型生成模块:用于利用得到的文本集对预设的深度学习模型进行训练,以使所述深度学习模型学习所有文本集的构造规则,得到训练后的文书生成模型;
特征提取模块:用于生成词组特征,具体为:通过预设的卷积神经模型提取文本集得到多个关键词组,构建关键词组集合;把关键词组转换成关键词向量,把关键词向量拼接成关键词向量矩阵,关键词向量矩阵输入训练后的卷积神经网络模型得到关键词分类结果,卷积神经网络模型输出各个类别对应的概率预测结果,每个类别对应的概率预测结果表示关键词组属于该类别的概率,取概率大于设定阈值的类别作为词组特征;
候选词组提取模块:用于根据词组特征从多个文本集中提取候选词组,构造候选词组集合;
文书生成模块:利用文书生成模型和候选词组集合生成拼接的文书。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1~5中任一项所述一种基于预训练语言模型的文书生成方法的步骤。
8.一种电子设备,其特征在于,包括:存储器,其上存储有计算机程序;处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1~5中任一项所述一种基于预训练语言模型的文书生成方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311187670.4A CN116956835B (zh) | 2023-09-15 | 2023-09-15 | 一种基于预训练语言模型的文书生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311187670.4A CN116956835B (zh) | 2023-09-15 | 2023-09-15 | 一种基于预训练语言模型的文书生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116956835A true CN116956835A (zh) | 2023-10-27 |
CN116956835B CN116956835B (zh) | 2024-01-02 |
Family
ID=88462284
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311187670.4A Active CN116956835B (zh) | 2023-09-15 | 2023-09-15 | 一种基于预训练语言模型的文书生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116956835B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117744661A (zh) * | 2024-02-21 | 2024-03-22 | 中国铁道科学研究院集团有限公司电子计算技术研究所 | 基于提示词工程的文本生成模型训练方法和文本生成方法 |
CN117829107A (zh) * | 2024-03-05 | 2024-04-05 | 成都华栖云科技有限公司 | 一种基于大模型的预习文案生成方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113934837A (zh) * | 2021-09-14 | 2022-01-14 | 达而观数据(成都)有限公司 | 基于预训练模型的关键短语生成方法、装置及储存介质 |
CN113987209A (zh) * | 2021-11-04 | 2022-01-28 | 浙江大学 | 基于知识指导前缀微调的自然语言处理方法、装置、计算设备和存储介质 |
CN114298010A (zh) * | 2021-12-09 | 2022-04-08 | 广州大学 | 一种融合双语言模型和句子检测的文本生成方法 |
CN115017870A (zh) * | 2022-05-30 | 2022-09-06 | 平安科技(深圳)有限公司 | 一种闭环的话术扩写方法、装置、计算机设备及存储介质 |
KR102458457B1 (ko) * | 2021-12-21 | 2022-10-26 | 주식회사 티맥스에이아이 | 문서 데이터 검색 기법 |
CN115687626A (zh) * | 2022-11-18 | 2023-02-03 | 浙江工业大学 | 一种基于提示学习融合关键词的法律文书分类方法 |
EP4239496A1 (en) * | 2022-03-01 | 2023-09-06 | Microsoft Technology Licensing, LLC | Near real-time in-meeting content item suggestions |
-
2023
- 2023-09-15 CN CN202311187670.4A patent/CN116956835B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113934837A (zh) * | 2021-09-14 | 2022-01-14 | 达而观数据(成都)有限公司 | 基于预训练模型的关键短语生成方法、装置及储存介质 |
CN113987209A (zh) * | 2021-11-04 | 2022-01-28 | 浙江大学 | 基于知识指导前缀微调的自然语言处理方法、装置、计算设备和存储介质 |
CN114298010A (zh) * | 2021-12-09 | 2022-04-08 | 广州大学 | 一种融合双语言模型和句子检测的文本生成方法 |
KR102458457B1 (ko) * | 2021-12-21 | 2022-10-26 | 주식회사 티맥스에이아이 | 문서 데이터 검색 기법 |
EP4239496A1 (en) * | 2022-03-01 | 2023-09-06 | Microsoft Technology Licensing, LLC | Near real-time in-meeting content item suggestions |
CN115017870A (zh) * | 2022-05-30 | 2022-09-06 | 平安科技(深圳)有限公司 | 一种闭环的话术扩写方法、装置、计算机设备及存储介质 |
CN115687626A (zh) * | 2022-11-18 | 2023-02-03 | 浙江工业大学 | 一种基于提示学习融合关键词的法律文书分类方法 |
Non-Patent Citations (1)
Title |
---|
杜刚 等: "一种基于人工智能的关键词组合策略提取方法", 电信工程技术与标准化, vol. 33, no. 2, pages 11 - 16 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117744661A (zh) * | 2024-02-21 | 2024-03-22 | 中国铁道科学研究院集团有限公司电子计算技术研究所 | 基于提示词工程的文本生成模型训练方法和文本生成方法 |
CN117744661B (zh) * | 2024-02-21 | 2024-05-17 | 中国铁道科学研究院集团有限公司电子计算技术研究所 | 基于提示词工程的文本生成模型训练方法和文本生成方法 |
CN117829107A (zh) * | 2024-03-05 | 2024-04-05 | 成都华栖云科技有限公司 | 一种基于大模型的预习文案生成方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN116956835B (zh) | 2024-01-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109887484B (zh) | 一种基于对偶学习的语音识别与语音合成方法及装置 | |
CN116956835B (zh) | 一种基于预训练语言模型的文书生成方法 | |
CN110782870A (zh) | 语音合成方法、装置、电子设备及存储介质 | |
WO2022121251A1 (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
CN110321563B (zh) | 基于混合监督模型的文本情感分析方法 | |
CN112749274B (zh) | 基于注意力机制和干扰词删除的中文文本分类方法 | |
WO2021159803A1 (zh) | 文本摘要生成方法、装置、计算机设备及可读存储介质 | |
CN113239169A (zh) | 基于人工智能的回答生成方法、装置、设备及存储介质 | |
CN112101042A (zh) | 文本情绪识别方法、装置、终端设备和存储介质 | |
CN115048944A (zh) | 一种基于主题增强的开放域对话回复方法及系统 | |
CN116911289B (zh) | 政务领域大模型可信文本生成方法、装置及存储介质 | |
CN111241820A (zh) | 不良用语识别方法、装置、电子装置及存储介质 | |
CN111126084B (zh) | 数据处理方法、装置、电子设备和存储介质 | |
US12094453B2 (en) | Fast emit low-latency streaming ASR with sequence-level emission regularization utilizing forward and backward probabilities between nodes of an alignment lattice | |
CN112668325B (zh) | 一种机器翻译增强方法、系统、终端及存储介质 | |
WO2024093578A1 (zh) | 语音识别方法、装置、电子设备、存储介质及计算机程序产品 | |
Lyu et al. | Deep learning for textual entailment recognition | |
US20230394240A1 (en) | Method and apparatus for named entity recognition, and non-transitory computer-readable recording medium | |
CN115248846B (zh) | 文本识别方法、设备、介质 | |
CN113327581B (zh) | 一种提升语音识别准确率的识别模型优化方法及系统 | |
CN111401069A (zh) | 会话文本的意图识别方法、意图识别装置及终端 | |
CN114330367A (zh) | 一种基于句子的语义相似度获得方法、装置以及设备 | |
CN110569331A (zh) | 一种基于上下文的关联性预测方法、装置及存储设备 | |
US12073299B2 (en) | Systems and methods for using contrastive pre-training to generate text and code embeddings | |
CN117113977B (zh) | 一种识别试卷中包含ai生成文字的方法、介质及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |