CN117034956A - 文本质量评价方法和装置 - Google Patents

文本质量评价方法和装置 Download PDF

Info

Publication number
CN117034956A
CN117034956A CN202310761684.6A CN202310761684A CN117034956A CN 117034956 A CN117034956 A CN 117034956A CN 202310761684 A CN202310761684 A CN 202310761684A CN 117034956 A CN117034956 A CN 117034956A
Authority
CN
China
Prior art keywords
sub
task
question
instruction
evaluated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310761684.6A
Other languages
English (en)
Inventor
黄民烈
柯沛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202310761684.6A priority Critical patent/CN117034956A/zh
Publication of CN117034956A publication Critical patent/CN117034956A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明提供一种文本质量评价方法和装置,包括:获取待评价任务和预先构建的指令;基于所述待评价任务和预先选定的评价维度,生成至少一个指令式问题;分解所述指令式问题,以得到预设数量个子问题;将所述指令、所述待评价任务和所述子问题输入至预先选择的基座模型,以得到预设数量个子问题数据对;将所述指令、所述待评价任务、所述子问题数据对以及所述指令式问题拼接,以得到重组问题;将所述重组问题输入至所述基座模型,以得到评价分数。本发明将文本质量评价任务转化为形式统一的指令式问答任务,避免在特定任务的评测集上训练,将指令式问题分解为多个子问题,利用子问题及其答案计算生成文本的整体评价分数,提升了泛化能力和可解释性。

Description

文本质量评价方法和装置
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种文本质量评价方法和装置。
背景技术
近年来,预训练语言模型在文本摘要、对话生成等自然语言生成任务上取得了优异的性能。随着模型生成文本的质量逐渐接近人类水平,如何设计自动评价方法以准确地衡量生成文本的质量成为了自然语言处理领域的研究热点,受到学术界和工业界的广泛关注。
现有的自动评价方法主要根据生成文本和参考文本的相似度来衡量生成文本的质量。传统评价指标通过n元语法(n-gram)重叠度来计算相似度,近期基于模型的评价指标则通过预训练模型提供的上下文表示或生成概率来计算相似度。为了在特定的评测集上得到与人工评价相关性更高的自动评价结果,现有工作还尝试在评测集上训练评价模型以拟合人工评价分数或区分真实文本与生成文本。
然而,现有的文本质量评价方法在泛化能力和可解释性上均面临巨大挑战。在泛化能力上,现有性能较好的评价方法大多需要在特定任务的评测集上训练,容易造成过拟合从而难以泛化至其他生成任务和评价维度;而在可解释性上,现有方法绝大多数只能针对各个评价维度给出相应的评价分数,无法提供证据来解释该分数是如何计算得到的。
综上所述,现有的文本质量评价方法存在泛化能力不足、可解释性不足的问题。
发明内容
本发明提供一种文本质量评价方法和装置,用以解决现有技术中泛化能力不足、可解释性不足的缺陷,实现泛化能力更强、可解释性更好的文本质量评价。
本发明提供一种文本质量评价方法,包括:
获取待评价任务和预先构建的指令;
基于所述待评价任务和预先选定的评价维度,生成至少一个指令式问题;
分解所述指令式问题,以得到预设数量个子问题;
将所述指令、所述待评价任务和所述子问题输入至预先选择的基座模型,以得到预设数量个子问题数据对;其中,所述子问题数据对包括子问题以及所述子问题的答案;
将所述指令、所述待评价任务、所述子问题数据对以及所述指令式问题拼接,以得到重组问题;
将所述重组问题输入至所述基座模型,以得到评价分数;其中,所述评价分数是利用重组问题的答案的生成概率计算得到的。
根据本发明提供的一种文本质量评价方法,基于所述待评价任务和预先选定的评价维度,生成至少一个指令式问题,具体包括:
根据预先选定的评价维度,采用预设问句类型对所述待评价任务进行提问,以得到至少一个指令式问题。
根据本发明提供的一种文本质量评价方法,分解所述指令式问题,以得到预设数量个子问题,具体包括:
将所述待评价任务按照预设的任务类型分类;其中,所述任务类型至少包括文本摘要和对话生成;
基于所述任务类型,在所述待评价任务的原始输入信息前添加提示信息;其中所述待评价任务的原始输入信息包括上下文、模型生成文本和参考文本;
根据所述任务类型、所述待评价任务的原始输入信息及所述提示信息微调所述指令式问题,以得到预设数量个子问题。
根据本发明提供的一种文本质量评价方法,将所述指令、所述待评价任务和所述子问题输入至预先选择的基座模型,以得到预设数量个子问题数据对,具体包括:
S1:提取目标子问题;
S2:将所述指令、所述待评价任务、所述目标子问题之前的子问题、所述目标子问题之前的子问题的答案以及所述目标子问题拼接,以得到目标子问题输入信息;
S3:将所述目标子问题输入信息输入至预先选择的基座模型,利用第一预设公式生成所述目标子问题的答案;
S4:将所述目标子问题和所述目标子问题的答案拼接,得到一个子问题数据对;
重复步骤S1-S4,以得到预设数量个子问题数据对。
根据本发明提供的一种文本质量评价方法,所述第一预设公式包括:
t=1,2,…,n
其中,at表示第t个子问题的答案;n表示预设数量;θ表示基座模型的参数;Pθ(yes|It)表示第t个子问题的答案为yes的生成概率;Pθ(no|It)表示第t个子问题的答案为no的生成概率;It表示第t个子问题的目标子问题输入信息。
根据本发明提供的一种文本质量评价方法,将所述指令、所述待评价任务、所述子问题数据对以及所述指令式问题拼接,以得到重组问题,具体包括:
依次拼接所有所述子问题数据对,将所述指令式问题拼接至所有所述子问题数据对后,以得到问题输入信息;
将所述指令、所述待评价任务与所述问题输入信息拼接,得到重组问题。
根据本发明提供的一种文本质量评价方法,利用重组问题的答案的生成概率计算得到评价分数,具体包括:
基于第二预设公式利用重组问题的答案的生成概率计算得到评价分数;
所述第二预设公式包括:
其中,l代表重组问题的答案,即yes或no;f(l)表示l的生成概率;θ表示基座模型的参数;s表示指令;c、x、r表示待评价任务的原始输入信息,即上下文、模型生成文本和参考文本;表示子问题数据对;sqt表示第t个子问题;at表示第t个子问题的答案;q表示指令式问题;score表示评价分数;n表示预设数量。
本发明还提供一种文本质量评价装置,包括:
获取单元,用于获取待评价任务和预先构建的指令;
问题单元,用于基于所述待评价任务和预先选定的评价维度,生成至少一个指令式问题;
分解单元,用于分解所述指令式问题,以得到预设数量个子问题;
答案单元,用于将所述指令、所述待评价任务和所述子问题输入至预先选择的基座模型,以得到预设数量个子问题数据对;其中,所述子问题数据对包括子问题以及所述子问题的答案;
拼接单元,将所述指令、所述待评价任务、所述子问题数据对以及所述指令式问题拼接,以得到重组问题;
评价单元,用于将所述重组问题输入至所述基座模型,以得到评价分数;其中,所述评价分数是利用重组问题的答案的生成概率计算得到的。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述文本质量评价方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述文本质量评价方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述文本质量评价方法。
本发明提供的一种文本质量评价方法和装置,通过获取待评价任务和预先构建的指令;基于所述待评价任务和预先选定的评价维度,生成至少一个指令式问题;分解所述指令式问题,以得到预设数量个子问题;将所述指令、所述待评价任务和所述子问题输入至预先选择的基座模型,以得到预设数量个子问题数据对;其中,所述子问题数据对包括子问题以及所述子问题的答案;将所述指令、所述待评价任务、所述子问题数据对以及所述指令式问题拼接,以得到重组问题;将所述重组问题输入至所述基座模型,以得到评价分数;其中,所述评价分数是利用重组问题的答案的生成概率计算得到的。本发明将文本质量评价任务转化为形式统一的指令式问答任务,避免在特定任务的评测集上训练,将指令式问题分解为多个子问题,利用子问题及其答案计算生成文本的整体评价分数,提升了评价方法的泛化能力和可解释性。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的文本质量评价方法的流程示意图之一;
图2是本发明提供的文本质量评价方法的流程示意图之二;
图3是本发明提供的文本质量评价装置的结构示意图;
图4是本发明提供的电子设备的结构示意图。
附图标记:
310:获取单元;320:问题单元;330:分解单元;340:答案单元;350:拼接单元;360:评价单元;
410:处理器;420:通信接口;430:存储器;440:通信总线。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
基于现有技术中存在的问题,本发明所要解决的技术问题是:如何设计文本质量评价方法,使其能同时应用至各类自然语言生成任务和各种评价维度,且具有较高的可解释性。基于此,本发明提出了一种文本质量评价方法。
下面结合图1-图2描述本发明的文本质量评价方法。图1是本发明提供的文本质量评价方法的流程示意图之一,如图1所示,包括以下步骤:
步骤110:获取待评价任务和预先构建的指令。
获取的待评价任务是文本质量评价任务。在一些实施例中,文本可以是语言模型生成的文本,也就是说,获取的待评价任务是语言模型生成的文本的质量评价任务。需要注意的是,各类文本质量评价任务的任务类型包括文本摘要、对话生成等。在此基础上,待评价任务的输入信息除了模型生成文本x以外,还通常包含上下文c、参考文本r等。
进一步地,待评价任务的描述形式可以是文本形式,具体地,在一些实施例中,待评价任务由自然语言文本描述。其中,自然语言可以是英语、中文、韩语、日语等,本发明在此不做限定。
优选地,待评价任务可以包括已经根据任务类型分类并添加提示信息的原始输入信息。提示信息用于区分不同的原始输入信息。也就是说,在获取待评价任务之前,对待评价任务的原始输入信息前添加提示信息,即待评价任务可以是经过分类并根据分类在原始输入信息前添加了提示信息的任务。
对待评价任务进行分类并添加提示信息的步骤包括:
将所述待评价任务按照预设的任务类型分类;其中,所述任务类型至少包括文本摘要和对话生成;
基于所述任务类型,在所述待评价任务的原始输入信息前添加提示信息;其中所述待评价任务的原始输入信息包括上下文、模型生成文本和参考文本。
例如,在一个实施例中,在对话评价任务中,待评价任务的内容包括上下文c、模型生成文本x和参考文本r,在获取待评价任务之前,本发明在对话历史(即上下文)、生成回复(即模型生成文本)和参考回复(即参考文本)前分别添加“dialogue history(对话历史):”、“response(生成回复):”和“reference(参考回复):”的提示信息,构成新的待评价任务。
需要了解的是,对待评价任务进行分类并添加提示信息的步骤也可以在获取待评价任务后,在分解所述指令式问题,以得到预设数量个子问题前完成。
指令(Instruction)是根据基座模型的指令微调数据形式和问题种类预先构建的。在一些实施例中,采用一般疑问句衡量生成文本在不同维度的质量,因此指令为s=“Answer the following yes/no question.(回答下列yes/no的问题。)”。
步骤120:基于所述待评价任务和预先选定的评价维度,生成至少一个指令式问题。
根据待评价任务的任务类型和评价维度构建指令式问题。在一些实施例中,评价维度是预先选定的,可以包括连贯性、一致性、流畅性、相关性等。其中连贯性用于评价模型生成文本的话题是否与上下文保持连贯,一致性用于评价模型生成文本的内容是否与上下文保持一致,流畅性用于评价模型生成文本在语法上是否流畅,相关性用于评价模型生成文本的内容是否与参考文本相关。
构建的指令式问题的数量可以是一个,也可以是多个,根据文本质量评价的需要确定指令式问题的数量。为方便描述,本发明以一个指令式问题为例进行阐述,但这并不代表对本发明的限制。
优选地,根据预先选定的评价维度,采用预设问句类型对所述待评价任务进行提问,以得到至少一个指令式问题。预设问句类型包括一般疑问句、特殊疑问句等。本发明在此不做限制。对所述待评价任务进行提问时,可以根据待评价任务类型及提示信息进行提问。
例如,在一个实施例中,如图2,在对话评价任务中衡量模型生成文本的连贯性时,指令式问题q可以设计为q=“Is this a coherent response given the dialoguehistory(从对话的历史来看,这是一个连贯的回答吗)?”。
步骤130:分解所述指令式问题,以得到预设数量个子问题。
为了提升评价方法的可解释性,根据待评价任务将指令式问题分解,将步骤120中生成的指令式问题分解成多个子问题,子问题的数量与待评价任务以及评价维度有关。当指令式问题的数量为1时,在一个实施例中,在对话评价任务中衡量模型生成文本的连贯性时,假设模型生成文本包含n句话,则子问题的数量为n。
进一步地,每个子问题的形式与指令式问题类似。
步骤140:将所述指令、所述待评价任务和所述子问题输入至预先选择的基座模型,以得到预设数量个子问题数据对;其中,所述子问题数据对包括子问题以及所述子问题的答案。
基座模型是预先选择的,在一些实施例中,使用经过指令微调的预训练模型FLAN-T5作为基座模型,参数量为30亿。输入文本序列的最大长度设置为1024。
将指令、待评价任务和子问题输入至预先选择的基座模型,需要注意的是,各个子问题依次与指令、待评价任务一起输入基座模型,生成子问题的答案,将子问题以及子问题的答案拼接,得到子问题数据对。其中,子问题的答案包括yes和no。
在实际操作过程中,对于第t个子问题sqt(1≤t≤n)的答案at,需要将指令、待评价任务、第1至t-1个子问题及其答案第t个子问题sqt一起输入基座模型。之后,利用基座模型生成子问题的答案(即yes或no)的概率来计算当前子问题的答案at
对于每个子问题都重复上述步骤,得到预设数量个子问题数据对。
步骤150:将所述指令、所述待评价任务、所述子问题数据对以及所述指令式问题拼接,以得到重组问题。
也就是说,将指令、待评价任务、所有子问题数据对以及指令式问题以拼接的形式重组,重组后的信息作为生成评价分数的重组问题。
步骤160:将所述重组问题输入至所述基座模型,以得到评价分数;其中,所述评价分数是利用重组问题的答案的生成概率计算得到的。
图2通过举例的形式说明了本发明提供的文本质量评价方法的整体框架。左图将文本质量评价任务转化为指令式问答任务,其输入信息包括指令、待评价任务的原始输入信息以及指令式问题。中间的图将指令式问题分解为若干个子问题,每个子问题用于衡量生成文本中相应句子的质量,子问题的答案由经过指令微调的预训练语言模型生成。右图将指令、待评价任务、所有子问题及其答案以及指令式问题合并作为预训练语言模型的输入,计算最终的评价分数。
因此,本发明提供的文本质量评价方法。首先将文本质量评价任务转化为形式统一的指令式问答任务,并利用经过指令微调的预训练语言模型来无监督地求解该任务,避免在特定任务的评测集上训练,从而提升了评价方法的泛化能力。然后,将指令式问题分解为多个子问题,每个子问题用于评价生成文本中相应句子的生成质量,并将所有子问题及其答案作为证据用于计算生成文本的整体评价分数,从而在得到最终分数的同时展示出生成文本中具体哪句话影响了最终分数,因此提升了评价方法的可解释性。
基于上述实施例,该方法中,分解所述指令式问题,以得到预设数量个子问题,具体包括:
将所述待评价任务按照预设的任务类型分类;其中,所述任务类型至少包括文本摘要和对话生成;
基于所述任务类型,在所述待评价任务的原始输入信息前添加提示信息;其中所述待评价任务的原始输入信息包括上下文、模型生成文本和参考文本;
根据所述任务类型、所述待评价任务的原始输入信息及所述提示信息微调所述指令式问题,以得到预设数量个子问题。
具体地,在分解所述指令式问题,以得到预设数量个子问题前,对待评价任务进行分类并添加提示信息,例如,在一个实施例中,根据预设的任务类型,若任务类型为对话生成,则可以将待评价任务分类为对话评价任务,所述待评价任务的原始输入信息包含对话历史(即上下文)、生成回复(即模型生成文本)和参考回复(即参考文本)。在待评价任务的原始输入信息前添加提示文本信息,以区分不同的输入信息。
例如,在一个实施例中,在对话历史(即上下文)、生成回复(即模型生成文本)和参考回复(即参考文本)的内容前分别添加“dialogue history(对话历史):”、“response(生成回复):”和“reference(参考回复):”的提示信息。
根据待评价任务及其提示信息微调指令式问题,将指令式问题分解以得到预设数量个子问题。每个子问题的形式与指令式问题类似,区别只是将评价主体由整个模型生成文本变为生成文本中相应的句子。例如,在一个实施例中,如图2,在步骤120指令式问题:q=“Is this a coherent response given the dialogue history(从对话的历史来看,这是一个连贯的回答吗)?”的基础上,第一个子问题sq1可以设计为sq1=“Is this responsesentence 1…a coherent response given the dialogue history?(鉴于对话历史,回复的第一句…是连贯的回复吗?)”,其中的省略部分指待评价任务包括的模型生成文本中第一句话的内容。这些子问题能够逐个评价生成文本中每句话的质量。
基于上述实施例,该方法中,将所述指令、所述待评价任务和所述子问题输入至预先选择的基座模型,以得到预设数量个子问题数据对,具体包括:
S1:提取目标子问题;
S2:将所述指令、所述待评价任务、所述目标子问题之前的子问题、所述目标子问题之前的子问题的答案以及所述目标子问题拼接,以得到目标子问题输入信息;
S3:将所述目标子问题输入信息输入至预先选择的基座模型,利用第一预设公式生成所述目标子问题的答案;
S4:将所述目标子问题和所述目标子问题的答案拼接,得到一个子问题数据对;
重复步骤S1-S4,以得到预设数量个子问题数据对。
具体地,假定待评价任务包括的模型生成文本包含n句话,则将指令式问题分解后,子问题的数量也同样为n。
提取目标子问题,将目标子问题记为第t个子问题。为了获得第t个子问题sqt(1≤t≤n)的答案at,本发明将预先构建的指令s、待评价任务输入(c,x,r)、第1至t-1个子问题及其答案第t个子问题sqt共同作为目标子问题输入信息It
然后,利用基座模型Pθ生成子问题的答案词(即yes或no)的概率来计算当前子问题的答案at,表示为第一预设公式:
t=1,2,…,n
其中,at表示第t个子问题的答案;n表示预设数量;θ表示基座模型的参数;Pθ(yes|It)表示第t个子问题的答案为yes的生成概率;Pθ(no|It)表示第t个子问题的答案为no的生成概率;It表示第t个子问题的目标子问题输入信息。
待计算完成后,当前子问题的答案at将会被添加至输入信息It的尾部,辅助模型求解下一个子问题sqt+1。重复上述步骤,即可得到所有子问题的答案,进而得到与子问题数量相同的、预设数量个子问题数据对。
基于上述实施例,该方法中,将所述指令、所述待评价任务、所述子问题数据对以及所述指令式问题拼接,以得到重组问题,具体包括:
依次拼接所有所述子问题数据对,将所述指令式问题拼接至所有所述子问题数据对后,以得到问题输入信息;
将所述指令、所述待评价任务与所述问题输入信息拼接,得到重组问题。
具体地,将指令式问题拼接至所有子问题及其答案后面,从而得到问题输入信息。之后,将问题输入信息与指令、待评价任务再次拼接,得到计算最终评价结果所需要的重组问题。该重组问题包含预先构建的指令s、待评价任务的原始输入信息(c,x,r)、所有子问题及其答案以及指令式问题q,如图2所示。需要注意的是,预先构建的指令s、待评价任务的原始输入信息(c,x,r)以及问题输入信息的顺序并不是唯一确定的。在一个实施例中,依次拼接指令s、待评价任务的原始输入信息(c,x,r)、所有子问题及其答案以及指令式问题q。但这不是本发明唯一的拼接方式。
基于上述实施例,该方法中,利用重组问题的答案的生成概率计算得到评价分数,具体包括:
基于第二预设公式利用重组问题的答案的生成概率计算得到评价分数;
所述第二预设公式包括:
其中,l代表重组问题的答案,即yes或no;f(l)表示l的生成概率;θ表示基座模型的参数;s表示指令;c、x、r表示待评价任务的原始输入信息,即上下文、模型生成文本和参考文本;表示子问题数据对;sqt表示第t个子问题;at表示第t个子问题的答案;q表示指令式问题;scosr表示评价分数;n表示预设数量。
具体地,本发明根据输入信息,利用基座模型Pθ生成重组问题的答案(即yes或no)的概率来计算相应维度的最终评价分数score,表示为第二预设公式:
其中,l表示重组问题的答案,即yes或no;f(l)表示l的生成概率;θ表示基座模型的参数;s表示指令;c表示上下文;x表示模型生成文本;r表示参考文本;表示子问题数据对;sqt表示第t个子问题;at表示第t个子问题的答案;q表示指令式问题;score表示评价分数;n表示预设数量。
本发明提出了一种基于分解式问答的文本质量评价方法,具有较强的泛化能力,能够应用于评价各类自然语言生成任务(如文本摘要、对话生成等)和各种维度(如连贯性、一致性等),并在无需训练的文本质量评价方法中取得当前最优性能。
同时,除了生成文本的最终评价分数外,本发明还能提供生成文本中每句话的评价结果,便于发现影响最终分数的低质量句子,从而提升了评价结果的可解释性。
在一个实施例中,本发明提出的文本质量评价方法在文本摘要的评测集SummEval、对话生成的评测集Topical-Chat以及结构化数据到文本生成的评测集SFRES/SFHOT上测试性能。涉及的评价维度包括连贯性、一致性、流畅度等。
本发明针对上述文本质量评价任务中每个生成文本在指定维度上的质量均会给出自动评价分数。为了判断自动评价方法的优劣,本发明采用自动评价和人工评价的相关系数作为指标,涉及的相关系数包括Pearson、Spearman和Kendall。相关系数的值越高,说明自动评价方法的效果越好。
本发明提供的一种文本质量评价方法,通过获取待评价任务和预先构建的指令;基于所述待评价任务和预先选定的评价维度,生成至少一个指令式问题;分解所述指令式问题,以得到预设数量个子问题;将所述指令、所述待评价任务和所述子问题输入至预先选择的基座模型,以得到预设数量个子问题数据对;其中,所述子问题数据对包括子问题以及所述子问题的答案;将所述指令、所述待评价任务、所述子问题数据对以及所述指令式问题拼接,以得到重组问题;将所述重组问题输入至所述基座模型,以得到评价分数;其中,所述评价分数是利用重组问题的答案的生成概率计算得到的。本发明将文本质量评价任务转化为形式统一的指令式问答任务,避免在特定任务的评测集上训练,将指令式问题分解为多个子问题,利用子问题及其答案计算生成文本的整体评价分数,提升了评价方法的泛化能力和可解释性。
下面对本发明提供的文本质量评价装置进行描述,下文描述的文本质量评价装置与上文描述的文本质量评价方法可相互对应参照。图3是本发明提供的文本质量评价装置的结构示意图,如图3所示,包括获取单元310、问题单元320、分解单元330、答案单元340、拼接单元350、评价单元360,其中,
获取单元310,用于获取待评价任务和预先构建的指令;
问题单元320,用于基于所述待评价任务和预先选定的评价维度,生成至少一个指令式问题;
分解单元330,用于分解所述指令式问题,以得到预设数量个子问题;
答案单元340,用于将所述指令、所述待评价任务和所述子问题输入至预先选择的基座模型,以得到预设数量个子问题数据对;其中,所述子问题数据对包括子问题以及所述子问题的答案;
拼接单元350,用于将所述指令、所述待评价任务、所述子问题数据对以及所述指令式问题拼接,以得到重组问题;
评价单元360,用于将所述重组问题输入至所述基座模型,以得到评价分数;其中,所述评价分数是利用重组问题的答案的生成概率计算得到的。
基于上述实施例,该装置中,基于所述待评价任务和预先选定的评价维度,生成至少一个指令式问题,具体包括:
根据预先选定的评价维度,采用预设问句类型对所述待评价任务进行提问,以得到至少一个指令式问题。
基于上述实施例,该装置中,分解所述指令式问题,以得到预设数量个子问题,具体包括:
将所述待评价任务按照预设的任务类型分类;其中,所述任务类型至少包括文本摘要和对话生成;
基于所述任务类型,在所述待评价任务的原始输入信息前添加提示信息;其中所述待评价任务的原始输入信息包括上下文、模型生成文本和参考文本;
根据所述任务类型、所述待评价任务的原始输入信息及所述提示信息微调所述指令式问题,以得到预设数量个子问题。
基于上述实施例,该装置中,将所述指令、所述待评价任务和所述子问题输入至预先选择的基座模型,以得到预设数量个子问题数据对,具体包括:
S1:提取目标子问题;
S2:将所述指令、所述待评价任务、所述目标子问题之前的子问题、所述目标子问题之前的子问题的答案以及所述目标子问题拼接,以得到目标子问题输入信息;
S3:将所述目标子问题输入信息输入至预先选择的基座模型,利用第一预设公式生成所述目标子问题的答案;
S4:将所述目标子问题和所述目标子问题的答案拼接,得到一个子问题数据对;
重复步骤S1-S4,以得到预设数量个子问题数据对。
基于上述实施例,该装置中,所述第一预设公式包括:
其中,at表示第t个子问题的答案;n表示预设数量;θ表示基座模型的参数;Pθ(yes|It)表示第t个子问题的答案为yes的生成概率;Pθ(no|It)表示第t个子问题的答案为no的生成概率;It表示第t个子问题的目标子问题输入信息。
基于上述实施例,该装置中,将所述指令、所述待评价任务、所述子问题数据对以及所述指令式问题拼接,以得到重组问题,具体包括:
依次拼接所有所述子问题数据对,将所述指令式问题拼接至所有所述子问题数据对后,以得到问题输入信息;
将所述指令、所述待评价任务与所述问题输入信息拼接,得到重组问题。
基于上述实施例,该装置中,利用重组问题的答案的生成概率计算得到评价分数,具体包括:
基于第二预设公式利用重组问题的答案的生成概率计算得到评价分数;
所述第二预设公式包括:
其中,l代表重组问题的答案,即yes或no;f(l)表示l的生成概率;θ表示基座模型的参数;s表示指令;c、x、r表示待评价任务的原始输入信息,即上下文、模型生成文本和参考文本;表示子问题数据对;sqt表示第t个子问题;at表示第t个子问题的答案;q表示指令式问题;score表示评价分数;n表示预设数量。
本发明提供的一种文本质量评价装置,通过获取待评价任务和预先构建的指令;基于所述待评价任务和预先选定的评价维度,生成至少一个指令式问题;分解所述指令式问题,以得到预设数量个子问题;将所述指令、所述待评价任务和所述子问题输入至预先选择的基座模型,以得到预设数量个子问题数据对;其中,所述子问题数据对包括子问题以及所述子问题的答案;将所述指令、所述待评价任务、所述子问题数据对以及所述指令式问题拼接,以得到重组问题;将所述重组问题输入至所述基座模型,以得到评价分数;其中,所述评价分数是利用重组问题的答案的生成概率计算得到的。本发明将文本质量评价任务转化为形式统一的指令式问答任务,避免在特定任务的评测集上训练,将指令式问题分解为多个子问题,利用子问题及其答案计算生成文本的整体评价分数,提升了评价方法的泛化能力和可解释性。
图4示例了一种电子设备的实体结构示意图,如图4所示,该电子设备可以包括:处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令,以执行文本质量评价方法,该方法包括:获取待评价任务和预先构建的指令;基于所述待评价任务和预先选定的评价维度,生成至少一个指令式问题;分解所述指令式问题,以得到预设数量个子问题;将所述指令、所述待评价任务和所述子问题输入至预先选择的基座模型,以得到预设数量个子问题数据对;其中,所述子问题数据对包括子问题以及所述子问题的答案;将所述指令、所述待评价任务、所述子问题数据对以及所述指令式问题拼接,以得到重组问题;将所述重组问题输入至所述基座模型,以得到评价分数;其中,所述评价分数是利用重组问题的答案的生成概率计算得到的。
此外,上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的以执行文本质量评价方法,该方法包括:获取待评价任务和预先构建的指令;基于所述待评价任务和预先选定的评价维度,生成至少一个指令式问题;分解所述指令式问题,以得到预设数量个子问题;将所述指令、所述待评价任务和所述子问题输入至预先选择的基座模型,以得到预设数量个子问题数据对;其中,所述子问题数据对包括子问题以及所述子问题的答案;将所述指令、所述待评价任务、所述子问题数据对以及所述指令式问题拼接,以得到重组问题;将所述重组问题输入至所述基座模型,以得到评价分数;其中,所述评价分数是利用重组问题的答案的生成概率计算得到的。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的以执行文本质量评价方法,该方法包括:获取待评价任务和预先构建的指令;基于所述待评价任务和预先选定的评价维度,生成至少一个指令式问题;分解所述指令式问题,以得到预设数量个子问题;将所述指令、所述待评价任务和所述子问题输入至预先选择的基座模型,以得到预设数量个子问题数据对;其中,所述子问题数据对包括子问题以及所述子问题的答案;将所述指令、所述待评价任务、所述子问题数据对以及所述指令式问题拼接,以得到重组问题;将所述重组问题输入至所述基座模型,以得到评价分数;其中,所述评价分数是利用重组问题的答案的生成概率计算得到的。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种文本质量评价方法,其特征在于,包括:
获取待评价任务和预先构建的指令;
基于所述待评价任务和预先选定的评价维度,生成至少一个指令式问题;
分解所述指令式问题,以得到预设数量个子问题;
将所述指令、所述待评价任务和所述子问题输入至预先选择的基座模型,以得到预设数量个子问题数据对;其中,所述子问题数据对包括子问题以及所述子问题的答案;
将所述指令、所述待评价任务、所述子问题数据对以及所述指令式问题拼接,以得到重组问题;
将所述重组问题输入至所述基座模型,以得到评价分数;其中,所述评价分数是利用重组问题的答案的生成概率计算得到的。
2.根据权利要求1所述的文本质量评价方法,其特征在于,基于所述待评价任务和预先选定的评价维度,生成至少一个指令式问题,具体包括:
根据预先选定的评价维度,采用预设问句类型对所述待评价任务进行提问,以得到至少一个指令式问题。
3.根据权利要求1或2所述的文本质量评价方法,其特征在于,分解所述指令式问题,以得到预设数量个子问题,具体包括:
将所述待评价任务按照预设的任务类型分类;其中,所述任务类型至少包括文本摘要和对话生成;
基于所述任务类型,在所述待评价任务的原始输入信息前添加提示信息;其中所述待评价任务的原始输入信息包括上下文、模型生成文本和参考文本;
根据所述任务类型、所述待评价任务的原始输入信息及所述提示信息微调所述指令式问题,以得到预设数量个子问题。
4.根据权利要求1所述的文本质量评价方法,其特征在于,将所述指令、所述待评价任务和所述子问题输入至预先选择的基座模型,以得到预设数量个子问题数据对,具体包括:
S1:提取目标子问题;
S2:将所述指令、所述待评价任务、所述目标子问题之前的子问题、所述目标子问题之前的子问题的答案以及所述目标子问题拼接,以得到目标子问题输入信息;
S3:将所述目标子问题输入信息输入至预先选择的基座模型,利用第一预设公式生成所述目标子问题的答案;
S4:将所述目标子问题和所述目标子问题的答案拼接,得到一个子问题数据对;
重复步骤S1-S4,以得到预设数量个子问题数据对。
5.根据权利要求4所述的文本质量评价方法,其特征在于,所述第一预设公式包括:
t=1,2,…,n
其中,at表示第t个子问题的答案;n表示预设数量;θ表示基座模型的参数;Pθ(yes|It)表示第t个子问题的答案为yes的生成概率;Pθ(no|It)表示第t个子问题的答案为no的生成概率;It表示第t个子问题的目标子问题输入信息。
6.根据权利要求1所述的文本质量评价方法,其特征在于,将所述指令、所述待评价任务、所述子问题数据对以及所述指令式问题拼接,以得到重组问题,具体包括:
依次拼接所有所述子问题数据对,将所述指令式问题拼接至所有所述子问题数据对后,以得到问题输入信息;
将所述指令、所述待评价任务与所述问题输入信息拼接,得到重组问题。
7.根据权利要求1所述的文本质量评价方法,其特征在于,利用重组问题的答案的生成概率计算得到评价分数,具体包括:
基于第二预设公式利用重组问题的答案的生成概率计算得到评价分数;
所述第二预设公式包括:
其中,l代表重组问题的答案,即yes或no;f(l)表示l的生成概率;θ表示基座模型的参数;s表示指令;c、x、r表示待评价任务的原始输入信息,即上下文、模型生成文本和参考文本;表示子问题数据对;sqt表示第r个子问题;at表示第t个子问题的答案;q表示指令式问题;score表示评价分数;n表示预设数量。
8.一种文本质量评价装置,其特征在于,包括:
获取单元,用于获取待评价任务和预先构建的指令;
问题单元,用于基于所述待评价任务和预先选定的评价维度,生成至少一个指令式问题;
分解单元,用于分解所述指令式问题,以得到预设数量个子问题;
答案单元,用于将所述指令、所述待评价任务和所述子问题输入至预先选择的基座模型,以得到预设数量个子问题数据对;其中,所述子问题数据对包括子问题以及所述子问题的答案;
拼接单元,将所述指令、所述待评价任务、所述子问题数据对以及所述指令式问题拼接,以得到重组问题;
评价单元,用于将所述重组问题输入至所述基座模型,以得到评价分数;其中,所述评价分数是利用重组问题的答案的生成概率计算得到的。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述文本质量评价方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述文本质量评价方法。
CN202310761684.6A 2023-06-26 2023-06-26 文本质量评价方法和装置 Pending CN117034956A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310761684.6A CN117034956A (zh) 2023-06-26 2023-06-26 文本质量评价方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310761684.6A CN117034956A (zh) 2023-06-26 2023-06-26 文本质量评价方法和装置

Publications (1)

Publication Number Publication Date
CN117034956A true CN117034956A (zh) 2023-11-10

Family

ID=88630646

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310761684.6A Pending CN117034956A (zh) 2023-06-26 2023-06-26 文本质量评价方法和装置

Country Status (1)

Country Link
CN (1) CN117034956A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117634468A (zh) * 2023-11-30 2024-03-01 北京智谱华章科技有限公司 一种基于大语言模型的通用文本质量评价方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117634468A (zh) * 2023-11-30 2024-03-01 北京智谱华章科技有限公司 一种基于大语言模型的通用文本质量评价方法
CN117634468B (zh) * 2023-11-30 2024-05-28 北京智谱华章科技有限公司 一种基于大语言模型的通用文本质量评价方法

Similar Documents

Publication Publication Date Title
CN111221939A (zh) 评分方法、装置和电子设备
CN111326040B (zh) 语文阅读理解智能测试和智能辅导系统和方法
CN109614480B (zh) 一种基于生成式对抗网络的自动摘要的生成方法及装置
CN116561538A (zh) 问答评分方法、问答评分装置、电子设备及存储介质
CN106875940A (zh) 一种基于神经网络的机器自学习构建知识图谱训练方法
CN117077792B (zh) 一种基于知识图谱生成提示数据的方法及装置
CN117034956A (zh) 文本质量评价方法和装置
CN116029306A (zh) 一种限定域文科简答题自动评分方法
CN115640200A (zh) 对话系统的评估方法、装置、电子设备及存储介质
CN116881470A (zh) 一种生成问答对的方法及装置
CN114936274A (zh) 模型训练方法、对话生成方法和装置、设备及存储介质
CN117711404A (zh) 口语复述题测评方法、装置、设备及存储介质
CN117435705A (zh) 教学答疑方法、装置、设备和存储介质
Datta et al. Optimization of an automated examination generation system using hybrid recurrent neural network
CN115795007A (zh) 智能问答方法、智能问答装置、电子设备及存储介质
CN115408500A (zh) 问答一致性的评估方法、装置、电子设备及介质
CN115203356A (zh) 专业领域问答库构建方法、问答方法及系统
CN114155957A (zh) 文本确定方法、装置、存储介质及电子设备
CN114357964A (zh) 主观题评分方法、模型的训练方法、计算机设备及存储介质
CN112836034A (zh) 虚拟教学方法、装置和电子设备
Iqbal et al. ASAGeR: Automated Short Answer Grading Regressor via Sentence Simplification
CN117252209B (zh) 一种理科大题自动评分方法、系统、存储介质及处理终端
CN110851579B (zh) 用户意图识别方法、系统、移动终端及存储介质
CN117973513A (zh) 语料数据构建方法、装置、设备及存储介质
CN114861913A (zh) 常识知识评分和排序方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination