CN115422324A - 一种文本处理方法及设备 - Google Patents

一种文本处理方法及设备 Download PDF

Info

Publication number
CN115422324A
CN115422324A CN202211020195.7A CN202211020195A CN115422324A CN 115422324 A CN115422324 A CN 115422324A CN 202211020195 A CN202211020195 A CN 202211020195A CN 115422324 A CN115422324 A CN 115422324A
Authority
CN
China
Prior art keywords
document
model
training
text
keyword generation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211020195.7A
Other languages
English (en)
Inventor
王则远
任丽军
刘鹏
张震
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lingxi Quantum Beijing Medical Technology Co ltd
Original Assignee
Lingxi Quantum Beijing Medical Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lingxi Quantum Beijing Medical Technology Co ltd filed Critical Lingxi Quantum Beijing Medical Technology Co ltd
Priority to CN202211020195.7A priority Critical patent/CN115422324A/zh
Publication of CN115422324A publication Critical patent/CN115422324A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种文本处理方法及设备,可以获得文献关键词生成模型;其中,文献关键词生成模型是基于模型处理方式生成的,模型处理方式至少包括训练方式,训练方式是基于提示学习范式生成的至少一个训练样本,对预训练语言模型进行训练的;获得目标文献的摘要文本和题目文本;将目标文献的摘要文本和题目文本输入至文献关键词生成模型中;获得由文献关键词生成模型生成并输出的目标文献的至少一个文献关键词。本发明可以获得具备预测和生成文献关键词能力的文献关键词生成模型,通过使用文献关键词生成模型,来预测和生成目标文献的文献关键词,无需通过人工提取的处理方式来从文献中提取出文献关键词,可以有效提高文献关键词的生成效率。

Description

一种文本处理方法及设备
技术领域
本发明涉及文本处理技术领域,尤其涉及一种文本处理方法及设备。
背景技术
随着互联网科学的纵深发展,电子文献的作用愈发重要。
在当前的现实生产环境中,对于高质量相关性电子文献的需求呈现爆发式增长,如医学文献。具体的,工作人员可以通过检索文献关键词的方式,来查找其需要的相关电子文献。现有技术可以由人工确定电子文献的关键词。
但是,当电子文献的数量较多时,通过人工处理方式来生成电子文献关键词的处理效率较低。
发明内容
本发明提供一种文本处理方法及设备,用以解决现有技术中通过人工处理方式来生成文献关键词的缺陷,有效提高文献关键词的生成效率。
第一方面,本发明提供一种文本处理方法,包括:
获得文献关键词生成模型;其中,所述文献关键词生成模型是基于模型处理方式生成的,所述模型处理方式至少包括训练方式,所述训练方式是基于提示学习范式生成的至少一个训练样本,对预训练语言模型进行训练的;
获得目标文献的摘要文本和题目文本;
将所述目标文献的摘要文本和题目文本输入至所述文献关键词生成模型中;
获得由所述文献关键词生成模型生成并输出的所述目标文献的至少一个文献关键词。
进一步地,当所述模型处理方式仅包括所述训练方式时,所述获得文献关键词生成模型,包括:
获得在文献描述模板的基础上生成的至少一个与文献相对应的文献描述文本;其中,所述文献描述模板为基于提示学习范式设计出的用于描述文献题目和文献关键词的文本模板,各所述文献描述文本均是通过将文献的文献题目和文献关键词分别填充至所述文献描述模板中的预定义位置处而生成的;
分别将各所述文献描述文本和相对应的文献摘要文本确定为各所述训练样本;
使用各所述训练样本对所述预训练语言模型进行训练,以训练所述预训练语言模型预测文献关键词的能力,将训练好的所述预训练语言模型确定为所述文献关键词生成模型。
进一步地,所述模型处理方式还包括:反向传播优化方式;所述预训练语言模型中设置有旁支模型结构;所述获得文献关键词生成模型,包括:
在使用所述训练方式对所述预训练语言模型进行训练的过程中,通过所述旁支模型结构对所述预训练语言模型的反向传播进行优化;
将训练好的所述预训练语言模型确定为所述文献关键词生成模型。
进一步地,所述模型处理方式还包括:白化操作方式;所述获得文献关键词生成模型,包括:
利用所述白化操作方式对所述预训练语言模型进行白化操作处理,获得处理后模型;
使用所述训练方式对所述处理后模型进行训练,将训练好的所述处理后模型确定为所述文献关键词生成模型。
进一步地,所述模型处理方式还包括模型评估方式,所述模型评估方式中包括预定义的模型评估指标,所述模型评估指标包括样本分类准确率阈值和综合指标阈值,所述综合指标阈值为关于精度与召回率的综合指标的阈值;所述获得文献关键词生成模型,包括:
使用所述训练方式对所述预训练语言模型进行训练,获得已训练的所述预训练语言模型;
获得已训练的所述预训练语言模型的样本分类准确率和综合指标值;
如果所述样本分类准确率不小于所述样本分类准确率阈值,且所述综合指标值不小于所述综合指标阈值,则确定已训练的所述预训练语言模型通过评估,将已训练的所述预训练语言模型确定为所述文献关键词生成模型。
进一步地,所述获得文献关键词生成模型,还包括:
如果所述样本分类准确率小于所述样本分类准确率阈值,或所述综合指标值小于所述综合指标阈值,则确定已训练的所述预训练语言模型未通过评估,返回执行所述使用所述训练方式对所述预训练语言模型进行训练的步骤,直至通过评估以获得所述文献关键词生成模型。
第二方面,本发明提供一种文本处理装置,包括:第一获得单元、第二获得单元、第一输入单元和第三获得单元,其中:
所述第一获得单元,用于获得文献关键词生成模型;其中,所述文献关键词生成模型是基于模型处理方式生成的,所述模型处理方式至少包括训练方式,所述训练方式是基于提示学习范式生成的至少一个训练样本,对预训练语言模型进行训练的;
所述第二获得单元,用于获得目标文献的摘要文本和题目文本;
所述第一输入单元,用于将所述目标文献的摘要文本和题目文本输入至所述文献关键词生成模型中;
所述第三获得单元,用于获得由所述文献关键词生成模型生成并输出的所述目标文献的至少一个文献关键词。
进一步地,当所述模型处理方式仅包括所述训练方式时,所述第一获得单元包括:第四获得单元、第一确定单元、第一训练单元和第二确定单元;
所述第四获得单元,用于获得在文献描述模板的基础上生成的至少一个与文献相对应的文献描述文本;其中,所述文献描述模板为基于提示学习范式设计出的用于描述文献题目和文献关键词的文本模板,各所述文献描述文本均是通过将文献的文献题目和文献关键词分别填充至所述文献描述模板中的预定义位置处而生成的;
所述第一确定单元,用于分别将各所述文献描述文本和相对应的文献摘要文本确定为各所述训练样本;
所述第一训练单元,用于使用各所述训练样本对所述预训练语言模型进行训练,以训练所述预训练语言模型预测文献关键词的能力;
所述第二确定单元,用于将训练好的所述预训练语言模型确定为所述文献关键词生成模型。
进一步地,所述模型处理方式还包括:反向传播优化方式;所述预训练语言模型中设置有旁支模型结构;所述第一获得单元,包括:优化单元和第三确定单元;其中:
所述优化单元,用于在使用所述训练方式对所述预训练语言模型进行训练的过程中,通过所述旁支模型结构对所述预训练语言模型的反向传播进行优化;
所述第三确定单元,用于将训练好的所述预训练语言模型确定为所述文献关键词生成模型。
进一步地,所述模型处理方式还包括:白化操作方式;所述第一获得单元,包括:处理单元、第五获得单元、第二训练单元和第四确定单元;
所述处理单元,用于利用所述白化操作方式对所述预训练语言模型进行白化操作处理;
所述第五获得单元,用于获得处理后模型;
所述第二训练单元,用于使用所述训练方式对所述处理后模型进行训练;
所述第四确定单元,用于将训练好的所述处理后模型确定为所述文献关键词生成模型。
进一步地,所述模型处理方式还包括模型评估方式,所述模型评估方式中包括预定义的模型评估指标,所述模型评估指标包括样本分类准确率阈值和综合指标阈值,所述综合指标阈值为关于精度与召回率的综合指标的阈值;所述第一获得单元,包括:第三训练单元、第六获得单元、第七获得单元和第五确定单元;
所述第三训练单元,用于使用所述训练方式对所述预训练语言模型进行训练;
所述第六获得单元,用于获得已训练的所述预训练语言模型;
所述第七获得单元,用于获得已训练的所述预训练语言模型的样本分类准确率和综合指标值;
所述第五确定单元,用于如果所述样本分类准确率不小于所述样本分类准确率阈值,且所述综合指标值不小于所述综合指标阈值,则确定已训练的所述预训练语言模型通过评估,将已训练的所述预训练语言模型确定为所述文献关键词生成模型。
进一步地,所述第一获得单元,还包括:第六确定单元;
所述第六确定单元,用于如果所述样本分类准确率小于所述样本分类准确率阈值,或所述综合指标值小于所述综合指标阈值,则确定已训练的所述预训练语言模型未通过评估,触发所述第三训练单元,直至通过评估以获得所述文献关键词生成模型。
第三方面,本发明还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一种所述文本处理方法的步骤。
第四方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一种所述文本处理方法的步骤。
第五方面,本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现上述任一种所述文本处理方法的步骤。
本发明提供的文本处理方法及设备,可以获得文献关键词生成模型;其中,文献关键词生成模型是基于模型处理方式生成的,模型处理方式至少包括训练方式,训练方式是基于提示学习范式生成的至少一个训练样本,对预训练语言模型进行训练的;获得目标文献的摘要文本和题目文本;将目标文献的摘要文本和题目文本输入至文献关键词生成模型中;获得由文献关键词生成模型生成并输出的目标文献的至少一个文献关键词。本发明可以获得具备预测和生成文献关键词能力的文献关键词生成模型,通过使用文献关键词生成模型,来预测和生成目标文献的文献关键词,无需通过人工提取的处理方式来从文献中提取出文献关键词,可以有效提高文献关键词的生成效率。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的文本处理方法的流程示意图之一;
图2是本发明实施例提供的文本处理方法的流程示意图之二;
图3是本发明实施例提供的LST的结构示意图;
图4是本发明实施例提供的文本处理方法的流程示意图之三;
图5是本发明实施例提供的文本处理装置的结构示意图;
图6是本发明实施例提供的电子设备的结构示意图。
附图标记:
501:第一获得单元;502:第二获得单元;503:第一输入单元;504:第三获得单元;
601:处理器;602:通信接口;603:存储器;604:通信总线。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1-图4描述本发明的文本处理方法。
如图1所示,本发明实施例提出第一种文本处理方法,该文本处理方法可以包括以下步骤:
S101、获得文献关键词生成模型;其中,文献关键词生成模型是基于模型处理方式生成的,模型处理方式至少包括训练方式,训练方式是基于提示学习范式生成的至少一个训练样本,对预训练语言模型进行训练的;
其中,文献关键词生成模型可以为基于文献的相关内容文本,生成文献的文献关键词的模型。
具体的,文献关键词生成模型可以为机器学习模型、神经网络模型和深度学习模型等类型的模型,本发明对于文献关键词生成模型的具体类型不作限定。
具体的,模型处理方式可以包括用于对某种模型进行模型处理的某种或多种方式。
其中,训练方式可以为针对某种模型的训练方式。
具体的,训练方式的具体内容可以包括基于提示学习Prompt Learning范式生成的至少一个训练样本,对预训练语言模型进行训练。
其中,预训练语言模型可以为现有技术中已有的预训练语言模型。
可选的,预训练语言模型可以为开源预训练变换(OPT,Open Pre-trainedTransformer)语言模型,也可以为其他模型,如生成式预训练(Generative Pre-Training,GPT)模型。
具体的,本发明可以通过采用训练方式对预训练语言模型进行训练,来获得文献关键词生成模型。
可选的,如图2所示,在本发明实施例提出的第二种文本处理方法中,当模型处理方式仅包括训练方式时,步骤S101可以包括步骤S201、S202、S203和S204,其中:
S201、获得在文献描述模板的基础上生成的至少一个与文献相对应的文献描述文本;其中,文献描述模板为基于提示学习范式设计出的用于描述文献题目和文献关键词的文本模板,各文献描述文本均是通过将文献的文献题目和文献关键词分别填充至文献描述模板中的预定义位置处而生成的;
具体的,文献描述模板可以是由技术人员按照提示学习Prompt Learning范式设计出的用于描述文献的文献题目和文献关键词的文本模板Pattern。
可选的,文献描述模板可以为一个需要在预定义位置处填充某个文献的文献题目和文献关键词的自然语句。比如,文本描述模板可以为“上述是一篇题目为XXX的摘要,文献关键词为[M][M][M]”,其中,“XXX”即为待填充的文献题目,“[M]”即为待填充的一个文献关键词。
具体的,本发明可以通过将一个文献的文献题目和文献关键词分别填充至文献描述模板中的相应位置处,来生成与该文献相对应的文献描述文本。可以理解的是,文献描述文本可以为一个语义较为完整的自然语句。
具体的,本发明可以基于多个文献,获得相对应的多个文献描述文本。
S202、分别将各文献描述文本和相对应的文献摘要文本确定为各训练样本;
具体的,本发明在获得一个文献对应的文献描述文本后,可以将该文献描述文本和该文献的摘要文本确定为一个训练样本。
具体的,本发明可以基于不同文献的文献描述文本和摘要文本,获得多个训练样本。
S203、使用各训练样本对预训练语言模型进行训练,以训练预训练语言模型预测文献关键词的能力;
具体的,本发明可以获得一个或多个训练样本,并使用获得的各训练样本对预训练语言模型进行训练。
其中,本发明在使用训练样本对预训练语言模型进行训练的过程中,可以训练预训练语言模型的理解摘要文本,预测和生成Token即文献关键词的能力,以使得预训练语言模型可以基于训练样本来预测和生成相应的文献关键词。
S204、将训练好的预训练语言模型确定为文献关键词生成模型。
具体的,本发明可以在将预训练语言模型训练至满足一定性能要求后,将当前已训练的预训练语言模型作为训练好的预训练语言模型,即文献关键词生成模型。
需要说明的是,本发明可以通过由文献题目和文献关键词构成的文献描述模板Pattern生成训练样本,利用训练样本对预训练语言模型进行训练,使得下游任务跟预训练任务一致,以更加充分地利用预训练语言模型的已积累知识,实现更好的零样本或小样本学习效果。
S102、获得目标文献的摘要文本和题目文本;
其中,目标文献可以是需要进行文献关键词提取的某篇文献。
需要说明的是,本发明对于目标文献的具体类型不作限定。比如,目标文献可以为医学文献;再比如,目标文献可以为工学文献;再比如,目标文献可以历史文献。
其中,摘要文本可以包括目标文献的摘要部分的文本内容。
其中,题目文本可以为目标文献的题目文本。
可以理解的是,目标文献的摘要文本和题目文本,均可以位于目标文献中的特定位置。本发明可以从目标文献的相应位置中,提取出目标文献的摘要文本和题目文本。
S103、将目标文献的摘要文本和题目文本输入至文献关键词生成模型中;
具体的,本发明可以在获得目标文献的摘要文本和题目文本后,将目标文献的摘要文本和题目文本输入到文献关键词生成模型中。
S104、获得由文献关键词生成模型生成并输出的目标文献的至少一个文献关键词。
具体的,本发明可以在将目标文献的摘要文本和题目文本输入到文献关键词生成模型中后,获得由文献关键词生成模型基于目标文献的摘要文本和题目文本生成并输出的至少一个文献关键词。
可选的,本发明可以在获得文献关键词生成模型输出的各文献关键词后,将该各文献关键词均确定为目标文献的文献关键词。
可选的,本发明可以在获得文献关键词生成模型输出的各文献关键词后,从该各文献关键词中选取特定数量的文献关键词确定为目标文献的文献关键词。
需要说明的是,在现有技术中,针对词汇的生成,主流的方式是采用Seq2Seq结构,但Seq2Seq结构存在一定缺陷,因为编码器将文本统一映射成了固定的中间序列,这让文本中每一个词语在固定的中间序列的信息(贡献量)是一致的。显然,一句话的中心往往有文本中的几个词来表征,故而固定的中间序列信息对后续的解码产生了一定影响;后面,根据上述问题诞生了基于注意力机制的Seq2Seq模型,注意力机制下的Seq2Seq模型的输入中间序列不是固定的,而是经过编码器转换的中间语义(C),而这些输入C也各不相同,每一个C都是由权重(w)和译码器的隐藏层输出(h)加权组成,在解码器decoder部分,中间语义C1,C2,C3之间的权值表征是不同的,这也就是注意力机制。
具体的,本发明可以依靠在大量文本集合上训练得到的大型预训练语言模型,基于提示学习的Prompt范式和自注意力机制,可以更好的理解上下文信息,表征文本语义,让下游任务更好地适应预训练模型,从而充分利用预训练模型已有的知识,利用较小规模的数据大幅提高生成任务的准确率。
需要说明的是,本发明通过借助基于Prompt的fine-tune架构生成的文献关键词生成模型,可以解决医学文献关键词准确性低、数量较少和范围不全的问题,可用于文献关键词数据扩充和文献检索等医学生产环节。
还需要说明的是,本发明通过执行图1中的步骤S101至S104,可以获得具备预测和生成文献关键词能力的文献关键词生成模型,通过使用文献关键词生成模型,来预测和生成目标文献的文献关键词,无需通过人工提取的处理方式来从文献中提取出文献关键词,可以有效提高文献关键词的生成效率。且本发明可以在生成目标文献的文献关键词后,可以继续利用文献关键词生成模型来处理另一个文献,生成该另一个文献的文献关键词,即可以实现对多个文献的文献关键词生成任务,批量次执行多个文献的文献关键词生成任务,进一步提高文献关键词的生成效率。
本发明提出的文本处理方法,可以获得文献关键词生成模型;其中,文献关键词生成模型是基于模型处理方式生成的,模型处理方式至少包括训练方式,训练方式是基于提示学习范式生成的至少一个训练样本,对预训练语言模型进行训练的;获得目标文献的摘要文本和题目文本;将目标文献的摘要文本和题目文本输入至文献关键词生成模型中;获得由文献关键词生成模型生成并输出的目标文献的至少一个文献关键词。本发明可以获得具备预测和生成文献关键词能力的文献关键词生成模型,通过使用文献关键词生成模型,来预测和生成目标文献的文献关键词,无需通过人工提取的处理方式来从文献中提取出文献关键词,可以有效提高文献关键词的生成效率。
基于图1,本发明实施例提出第三种文本处理方法。在该方法中,模型处理方式还包括:反向传播优化方式;预训练语言模型中设置有旁支模型结构,旁支模型结构中包括预训练语言模型的所有训练参数;此时,步骤S101可以包括:
S301、在使用训练方式对预训练语言模型进行训练的过程中,通过旁支模型结构对预训练语言模型的反向传播进行优化;
需要说明的是,本发明在采用上述训练方式对预训练语言模型进行训练的同时,还可以采用过墙梯(LST,Ladder Side-Tuning)对预训练语言模型的反向传播进行优化。
具体的,本发明可以在预训练语言模型中,在其结构基础上设置一个旁支的模型结构,即上述旁支模型结构。如图3所示的LST的结构示意图中,左侧大方框表示预训练语言模型的基础结构Backbone(Frozen),右侧小方框表示旁支模型结构即LST的结构New PAram(Updated),直线箭头表示Forward前向传播,虚线箭头表示Backward反向传播。Input表示输入,Output表示输出。
具体的,旁支模型结构中可以包括预训练语言模型的所有训练参数。本发明可以将预训练语言模型的部分层输出作为旁支模型结构的输入。由于预训练语言模型仅提供输入,因此反向传播的复杂度可以取决于旁支模型结构的规模。此时,本发明可以无需直接在预训练语言模型的基础结构上进行反向传播,可以有效提升训练效率。
S302、将训练好的预训练语言模型确定为文献关键词生成模型。
具体的,本发明可以在利用上述训练方式和反向传播优化方式训练好预训练语言模型,使得预训练语言模型具备文献关键词的预测和生成能力,满足一定性能要求时,将训练好的预训练语言模型确定为文献关键词生成模型。
需要说明的是,本发明通过上述步骤S301和S302,可以有效提高文献关键词生成模型的训练效率。
本发明提出的文本处理方法,可以有效提高文献关键词生成模型的训练效率。
基于图1,本发明实施例提出第四种文本处理方法。在该方法中,模型处理方式还可以包括:白化操作方式;此时,上述步骤S101可以包括:
S401、利用白化操作方式对预训练语言模型进行白化操作处理;
需要说明的是,本发明可以先行利用白化操作方式对预训练语言模型进行白化操作处理,以提高预训练语言模型的语义向量相似度计算的计算效果,同时减低预训练语言模型语义的向量维度,获得相应的生成模型架构。
具体的,白化操作方式可以包括将预训练语言模型输出的向量矩阵变换为均值为0。其中,可以将向量集合
Figure BDA0003813595460000131
变换为
Figure BDA0003813595460000132
通过控制
Figure BDA0003813595460000133
来使得将向量集合αk的均值设置为0。
具体的,白化操作方式还可以包括将预训练语言模型输出的协方差矩阵变换为单位矩阵;其中,可以将原协方差矩阵记为:
Figure BDA0003813595460000141
之后,经变形可以获得:
Figure BDA0003813595460000142
之后,可以获得变换后的协方差矩阵,由∑=βT∑β,获得∑=(βT)-1β-1=(β-1)Tβ-1
需要说明的是,由于协方差矩阵为一个半正定对称矩阵,具有∑=∪Λ∪T(∪为正交矩阵,Λ为对角矩阵)形式的SVD分解,令
Figure BDA0003813595460000143
可以获得
Figure BDA0003813595460000144
S402、获得处理后模型;
具体的,本发明可以将进行白化操作方式处理后的预训练语言模型,确定为处理后模型。
S403、使用训练方式对处理后模型进行训练,将训练好的处理后模型确定为文献关键词生成模型。
具体的,本发明可以在获得处理后模型后,使用上述训练方式对处理后模型进行训练,使得处理后模型具备预测和生成文献关键词的能力,且在处理后模型满足一定性能要求时,将处理后模型确定为文献关键词生成模型。
需要说明的是,本发明通过上述步骤S401、S402和S403,可以通过白化操作,提升文献关键词生成模型的语义理解效果,增强文献关键词生成模型的性能,提高文献关键词的生成效率及准确度。
本发明提出的文本处理方法,可以通过白化操作,提升文献关键词生成模型的语义理解效果,增强文献关键词生成模型的性能,提高文献关键词的生成效率及准确度。
基于图1,本发明实施例提出第五种文本处理方法。在该方法中,模型处理方式还包括模型评估方式,模型评估方式中包括预定义的模型评估指标,模型评估指标包括样本分类准确率阈值和综合指标阈值,综合指标阈值为关于精度与召回率的综合指标的阈值;此时,上述步骤S101可以包括:
S501、使用训练方式对预训练语言模型进行训练;
其中,样本分类准确率可以为模型正确分类的样本数与总样本数之比;
可选的,综合指标阈值可以为宏观F1值;其中,宏观F1值可以为所有类别的F1的均值。其中:
Figure BDA0003813595460000151
其中,P为精确率,表示在所有被预测正样本中,正确样本所占的比例;R为召回率,标识在所有正样本中,被预测为正样本的比例;宏观F1为所有类别F1的均值。
可以理解的是,模型的宏观F1的值越大,可以说明模型性能越好。
需要说明的是,样本分类准确率阈值和综合指标阈值可以由技术人员根据实际情况进行制定,本发明对此不作限定。
S502、获得已训练的预训练语言模型;
具体的,已训练的预训练语言模型可以为正使用上述训练方式进行训练的预训练语言模型,也可以为通过上述训练方式完成某次训练但未完全训练好的预训练语言模型,也可以为已训练好的满足一定性能要求的预训练语言模型。
S503、获得已训练的预训练语言模型的样本分类准确率和综合指标值;
具体的,本发明可以对预训练语言模型进行测试,以获得其样本分类准确率和综合指标值。
S504、如果已训练的预训练语言模型的样本分类准确率不小于样本分类准确率阈值,且已训练的预训练语言模型的综合指标值不小于综合指标阈值,则确定已训练的预训练语言模型通过评估,将已训练的预训练语言模型确定为文献关键词生成模型。
具体的,当已训练的预训练语言模型的样本分类准确率不小于样本分类准确率阈值,且综合指标值不小于综合指标阈值时,本发明可以确定预训练语言模型通过评估,满足性能要求,可以直接将该已训练的预训练语言模型确定为文献关键词生成模型。
需要说明的是,本发明通过上述步骤S501、S502、S503和S504,可以获得通过模型性能评估,满足性能要求的文献关键字生成模型,可以有效保障文献关键字生成模型的模型性能,进一步保障文献关键词的生成效率及准确度。
可选的,上述步骤S101还可以包括:
S505、如果已训练的预训练语言模型的样本分类准确率小于样本分类准确率阈值,或已训练的预训练语言模型的综合指标值小于综合指标阈值,则确定已训练的预训练语言模型未通过评估,返回执行上述步骤S501,直至通过评估以获得文献关键词生成模型。
具体的,当已训练的预训练语言模型的样本分类准确率小于样本分类准确率阈值,或综合指标值小于综合指标阈值时,本发明可以确定已训练的预训练语言模型未满足性能要求,确定其未通过评估,此时可以继续对该已训练的预训练语言模型进行训练,直至训练后的预训练语言模型可以通过评估。当训练后的预训练语言模型可以通过评估时,本发明可以将通过评估的预训练语言模型确定为文献关键词生成模型。
需要说明的是,本发明可以通过步骤S505,对未满足性能评估的预训练语言模型继续进行训练,直至其满足性能要求,可以进一步保障文献关键词生成模型的模型性能,进一步保障文献关键词的生成效率和准确度。
本发明提出的文本处理方法,可以进一步保障文献关键词生成模型的模型性能,进一步保障文献关键词的生成效率和准确度。
基于上述方法,如图4所示,本发明实施例提出第六种文本处理方法。在该方法中,模型处理方式可以包括训练方式、反向传播优化方式、白化操作方式和模型评估方式;此时,本发明可以先行基于提示学习范式设计出文献描述模板Pattern,获得文献的题目文本和摘要文本,将文献的题目文本和摘要文本填充到Pattern中的预定义位置处,生成相应的文献描述文本,将文献描述文本和文献的摘要文本确定为训练样本,利用训练样本对属于预训练语言模型的OPT语言模型进行训练,同时利用LST方式和白化操作Whitening方式对OPT语言模型进行优化和训练,获得已训练的OPT语言模型,利用模型评估方式对OPT语言模型进行性能评估,如果通过评估,则可以将训练好的OPT语言模型确定为文献关键词生成模型,否则继续对OPT语言模型进行训练。本发明可以有效保障和优化文献关键词生成模型的模型性能,利用文献关键词生成模型进行对文献的文献关键词的生成处理,获得相应的文献关键词,即获得模型推理结果,提高文献关键词的生成效率。
本发明提出的文本处理方法,可以保障和优化文献关键词生成模型的模型性能,提高文献关键词的生成效率。
下面对本发明提供的文本处理装置进行描述,下文描述的文本处理装置与上文描述的文本处理方法可相互对应参照。
与图1所示方法相对应,如图5所示,本发明实施例提出一种文本处理装置。该装置可以包括:第一获得单元501、第二获得单元502、第一输入单元503和第三获得单元504,其中:
第一获得单元501,用于获得文献关键词生成模型;其中,文献关键词生成模型是基于模型处理方式生成的,模型处理方式至少包括训练方式,训练方式是基于提示学习范式生成的至少一个训练样本,对预训练语言模型进行训练的;
第二获得单元502,用于获得目标文献的摘要文本和题目文本;
第一输入单元503,用于将目标文献的摘要文本和题目文本输入至文献关键词生成模型中;
第三获得单元504,用于获得由文献关键词生成模型生成并输出的目标文献的至少一个文献关键词。
需要说明的是,第一获得单元501、第二获得单元502、第一输入单元503和第三获得单元504的具体处理过程及其带来的技术效果,可以分别参照本发明关于图1中步骤S101、S102、S103和S104的相关说明,此处不再赘述。
可选的,当模型处理方式仅包括训练方式时,第一获得单元501包括:第四获得单元、第一确定单元、第一训练单元和第二确定单元;
第四获得单元,用于获得在文献描述模板的基础上生成的至少一个与文献相对应的文献描述文本;其中,文献描述模板为基于提示学习范式设计出的用于描述文献题目和文献关键词的文本模板,各文献描述文本均是通过将文献的文献题目和文献关键词分别填充至文献描述模板中的预定义位置处而生成的;
第一确定单元,用于分别将各文献描述文本和相对应的文献摘要文本确定为各训练样本;
第一训练单元,用于使用各训练样本对预训练语言模型进行训练,以训练预训练语言模型预测文献关键词的能力;
第二确定单元,用于将训练好的预训练语言模型确定为文献关键词生成模型。
可选的,模型处理方式还包括:反向传播优化方式;预训练语言模型中设置有旁支模型结构;第一获得单元501,包括:优化单元和第三确定单元;其中:
优化单元,用于在使用训练方式对预训练语言模型进行训练的过程中,通过旁支模型结构对预训练语言模型的反向传播进行优化;
第三确定单元,用于将训练好的预训练语言模型确定为文献关键词生成模型。
可选的,模型处理方式还包括:白化操作方式;第一获得单元501,包括:处理单元、第五获得单元、第二训练单元和第四确定单元;
处理单元,用于利用白化操作方式对预训练语言模型进行白化操作处理;
第五获得单元,用于获得处理后模型;
第二训练单元,用于使用训练方式对处理后模型进行训练;
第四确定单元,用于将训练好的处理后模型确定为文献关键词生成模型。
可选的,模型处理方式还包括模型评估方式,模型评估方式中包括预定义的模型评估指标,模型评估指标包括样本分类准确率阈值和综合指标阈值,综合指标阈值为关于精度与召回率的综合指标的阈值;第一获得单元501,包括:第三训练单元、第六获得单元、第七获得单元和第五确定单元;
第三训练单元,用于使用训练方式对预训练语言模型进行训练;
第六获得单元,用于获得已训练的预训练语言模型;
第七获得单元,用于获得已训练的预训练语言模型的样本分类准确率和综合指标值;
第五确定单元,用于如果已训练的预训练语言模型的样本分类准确率不小于样本分类准确率阈值,且已训练的预训练语言模型的综合指标值不小于综合指标阈值,则确定已训练的预训练语言模型通过评估,将已训练的预训练语言模型确定为文献关键词生成模型。
可选的,第一获得单元501,还包括:第六确定单元;
第六确定单元,用于如果已训练的预训练语言模型的样本分类准确率小于样本分类准确率阈值,或已训练的预训练语言模型的综合指标值小于综合指标阈值,则确定已训练的预训练语言模型未通过评估,触发第三训练单元,直至通过评估以获得文献关键词生成模型。
本发明提供的文本处理装置,可以获得文献关键词生成模型;其中,文献关键词生成模型是基于模型处理方式生成的,模型处理方式至少包括训练方式,训练方式是基于提示学习范式生成的至少一个训练样本,对预训练语言模型进行训练的;获得目标文献的摘要文本和题目文本;将目标文献的摘要文本和题目文本输入至文献关键词生成模型中;获得由文献关键词生成模型生成并输出的目标文献的至少一个文献关键词。本发明可以获得具备预测和生成文献关键词能力的文献关键词生成模型,通过使用文献关键词生成模型,来预测和生成目标文献的文献关键词,无需通过人工提取的处理方式来从文献中提取出文献关键词,可以有效提高文献关键词的生成效率。
本发明实施例还提出一种电子设备,该电子设备可以包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现上述任一文本处理方法的步骤,上述文本处理方法可以包括:
获得文献关键词生成模型;其中,文献关键词生成模型是基于模型处理方式生成的,模型处理方式至少包括训练方式,训练方式是基于提示学习范式生成的至少一个训练样本,对预训练语言模型进行训练的;
获得目标文献的摘要文本和题目文本;
将目标文献的摘要文本和题目文本输入至文献关键词生成模型中;
获得由文献关键词生成模型生成并输出的目标文献的至少一个文献关键词。
图6示例了一种电子设备的实体结构示意图,该电子设备可以包括:处理器(processor)601、通信接口(CommunicationsInterface)602、存储器(memory)603和通信总线604,其中,处理器601,通信接口602,存储器603通过通信总线604完成相互间的通信。处理器601可以调用存储器603中的逻辑指令,以执行上述任一文本处理方法。
此外,上述的存储器603中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,计算机程序被处理器执行时,计算机能够执行上述各方法所提供的文本处理方法,该文本处理方法可以包括:
获得文献关键词生成模型;其中,文献关键词生成模型是基于模型处理方式生成的,模型处理方式至少包括训练方式,训练方式是基于提示学习范式生成的至少一个训练样本,对预训练语言模型进行训练的;
获得目标文献的摘要文本和题目文本;
将目标文献的摘要文本和题目文本输入至文献关键词生成模型中;
获得由文献关键词生成模型生成并输出的目标文献的至少一个文献关键词。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的文本处理方法,该文本处理方法可以包括:
获得文献关键词生成模型;其中,文献关键词生成模型是基于模型处理方式生成的,模型处理方式至少包括训练方式,训练方式是基于提示学习范式生成的至少一个训练样本,对预训练语言模型进行训练的;
获得目标文献的摘要文本和题目文本;
将目标文献的摘要文本和题目文本输入至文献关键词生成模型中;
获得由文献关键词生成模型生成并输出的目标文献的至少一个文献关键词。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种文本处理方法,其特征在于,包括:
获得文献关键词生成模型;其中,所述文献关键词生成模型是基于模型处理方式生成的,所述模型处理方式至少包括训练方式,所述训练方式是基于提示学习范式生成的至少一个训练样本,对预训练语言模型进行训练的;
获得目标文献的摘要文本和题目文本;
将所述目标文献的摘要文本和题目文本输入至所述文献关键词生成模型中;
获得由所述文献关键词生成模型生成并输出的所述目标文献的至少一个文献关键词。
2.根据权利要求1所述的文本处理方法,其特征在于,当所述模型处理方式仅包括所述训练方式时,所述获得文献关键词生成模型,包括:
获得在文献描述模板的基础上生成的至少一个与文献相对应的文献描述文本;其中,所述文献描述模板为基于提示学习范式设计出的用于描述文献题目和文献关键词的文本模板,各所述文献描述文本均是通过将文献的文献题目和文献关键词分别填充至所述文献描述模板中的预定义位置处而生成的;
分别将各所述文献描述文本和相对应的文献摘要文本确定为各所述训练样本;
使用各所述训练样本对所述预训练语言模型进行训练,以训练所述预训练语言模型预测文献关键词的能力,将训练好的所述预训练语言模型确定为所述文献关键词生成模型。
3.根据权利要求1所述的文本处理方法,其特征在于,所述模型处理方式还包括:反向传播优化方式;所述预训练语言模型中设置有旁支模型结构;所述获得文献关键词生成模型,包括:
在使用所述训练方式对所述预训练语言模型进行训练的过程中,通过所述旁支模型结构对所述预训练语言模型的反向传播进行优化;
将训练好的所述预训练语言模型确定为所述文献关键词生成模型。
4.根据权利要求1所述的文本处理方法,其特征在于,所述模型处理方式还包括:白化操作方式;所述获得文献关键词生成模型,包括:
利用所述白化操作方式对所述预训练语言模型进行白化操作处理,获得处理后模型;
使用所述训练方式对所述处理后模型进行训练,将训练好的所述处理后模型确定为所述文献关键词生成模型。
5.根据权利要求1所述的文本处理方法,其特征在于,所述模型处理方式还包括模型评估方式,所述模型评估方式中包括预定义的模型评估指标,所述模型评估指标包括样本分类准确率阈值和综合指标阈值,所述综合指标阈值为关于精度与召回率的综合指标的阈值;所述获得文献关键词生成模型,包括:
使用所述训练方式对所述预训练语言模型进行训练,获得已训练的所述预训练语言模型;
获得已训练的所述预训练语言模型的样本分类准确率和综合指标值;
如果所述样本分类准确率不小于所述样本分类准确率阈值,且所述综合指标值不小于所述综合指标阈值,则确定已训练的所述预训练语言模型通过评估,将已训练的所述预训练语言模型确定为所述文献关键词生成模型。
6.根据权利要求5所述的文本处理方法,其特征在于,所述获得文献关键词生成模型,还包括:
如果所述样本分类准确率小于所述样本分类准确率阈值,或所述综合指标值小于所述综合指标阈值,则确定已训练的所述预训练语言模型未通过评估,返回执行所述使用所述训练方式对所述预训练语言模型进行训练的步骤,直至通过评估以获得所述文献关键词生成模型。
7.一种文本处理装置,其特征在于,包括:第一获得单元、第二获得单元、第一输入单元和第三获得单元,其中:
所述第一获得单元,用于获得文献关键词生成模型;其中,所述文献关键词生成模型是基于模型处理方式生成的,所述模型处理方式至少包括训练方式,所述训练方式是基于提示学习范式生成的至少一个训练样本,对预训练语言模型进行训练的;
所述第二获得单元,用于获得目标文献的摘要文本和题目文本;
所述第一输入单元,用于将所述目标文献的摘要文本和题目文本输入至所述文献关键词生成模型中;
所述第三获得单元,用于获得由所述文献关键词生成模型生成并输出的所述目标文献的至少一个文献关键词。
8.根据权利要求7所述的文本处理装置,其特征在于,当所述模型处理方式仅包括所述训练方式时,所述第一获得单元包括:第四获得单元、第一确定单元、第一训练单元和第二确定单元;
所述第四获得单元,用于获得在文献描述模板的基础上生成的至少一个与文献相对应的文献描述文本;其中,所述文献描述模板为基于提示学习范式设计出的用于描述文献题目和文献关键词的文本模板,各所述文献描述文本均是通过将文献的文献题目和文献关键词分别填充至所述文献描述模板中的预定义位置处而生成的;
所述第一确定单元,用于分别将各所述文献描述文本和相对应的文献摘要文本确定为各所述训练样本;
所述第一训练单元,用于使用各所述训练样本对所述预训练语言模型进行训练,以训练所述预训练语言模型预测文献关键词的能力;
所述第二确定单元,用于将训练好的所述预训练语言模型确定为所述文献关键词生成模型。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述文本处理方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述文本处理方法的步骤。
CN202211020195.7A 2022-08-24 2022-08-24 一种文本处理方法及设备 Pending CN115422324A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211020195.7A CN115422324A (zh) 2022-08-24 2022-08-24 一种文本处理方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211020195.7A CN115422324A (zh) 2022-08-24 2022-08-24 一种文本处理方法及设备

Publications (1)

Publication Number Publication Date
CN115422324A true CN115422324A (zh) 2022-12-02

Family

ID=84197471

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211020195.7A Pending CN115422324A (zh) 2022-08-24 2022-08-24 一种文本处理方法及设备

Country Status (1)

Country Link
CN (1) CN115422324A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117319750A (zh) * 2023-08-16 2023-12-29 浙江印象软件有限公司 直播信息的实时显示方法及装置
CN118094019A (zh) * 2024-04-29 2024-05-28 中国铁道科学研究院集团有限公司电子计算技术研究所 一种文本关联内容推荐方法、装置及电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117319750A (zh) * 2023-08-16 2023-12-29 浙江印象软件有限公司 直播信息的实时显示方法及装置
CN118094019A (zh) * 2024-04-29 2024-05-28 中国铁道科学研究院集团有限公司电子计算技术研究所 一种文本关联内容推荐方法、装置及电子设备

Similar Documents

Publication Publication Date Title
US20230100376A1 (en) Text sentence processing method and apparatus, computer device, and storage medium
CN113254599B (zh) 一种基于半监督学习的多标签微博文本分类方法
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN106502985B (zh) 一种用于生成标题的神经网络建模方法及装置
CN112464656B (zh) 关键词抽取方法、装置、电子设备和存储介质
CN111061861B (zh) 一种基于XLNet的文本摘要自动生成方法
CN115422324A (zh) 一种文本处理方法及设备
CN113505200B (zh) 一种结合文档关键信息的句子级中文事件检测的方法
CN111339260A (zh) 一种基于bert和qa思想的细粒度情感分析方法
EP4094197A1 (en) Neural architecture search with weight sharing
CN110134950B (zh) 一种字词结合的文本自动校对方法
CN113392209A (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN110968725A (zh) 图像内容描述信息生成方法、电子设备及存储介质
CN113505583A (zh) 基于语义决策图神经网络的情感原因子句对提取方法
US20230205994A1 (en) Performing machine learning tasks using instruction-tuned neural networks
CN110569355A (zh) 一种基于词块的观点目标抽取和目标情感分类联合方法及系统
CN112446217B (zh) 情感分析方法、装置及电子设备
CN110717316B (zh) 字幕对话流的主题分割方法及装置
CN112287667A (zh) 一种文本生成方法及设备
CN115204143B (zh) 一种基于prompt的文本相似度计算方法及系统
CN113095063A (zh) 一种基于遮蔽语言模型的两阶段情感迁移方法和系统
CN110852066B (zh) 一种基于对抗训练机制的多语言实体关系抽取方法及系统
Zhang et al. An effective convolutional neural network model for Chinese sentiment analysis
CN107729509B (zh) 基于隐性高维分布式特征表示的篇章相似度判定方法
CN115809658A (zh) 平行语料的生成方法及装置和无监督同义转写方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination