CN116187282B - 文本复述模型的训练方法、文本复述方法及装置 - Google Patents

文本复述模型的训练方法、文本复述方法及装置 Download PDF

Info

Publication number
CN116187282B
CN116187282B CN202211727389.0A CN202211727389A CN116187282B CN 116187282 B CN116187282 B CN 116187282B CN 202211727389 A CN202211727389 A CN 202211727389A CN 116187282 B CN116187282 B CN 116187282B
Authority
CN
China
Prior art keywords
text
sequence
model
keyword
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211727389.0A
Other languages
English (en)
Other versions
CN116187282A (zh
Inventor
韩雅倩
王硕寰
孙宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202211727389.0A priority Critical patent/CN116187282B/zh
Publication of CN116187282A publication Critical patent/CN116187282A/zh
Application granted granted Critical
Publication of CN116187282B publication Critical patent/CN116187282B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本公开提供了文本复述模型的训练方法、文本复述方法及装置,涉及计算机技术领域,尤其涉及人工智能、自然语言处理等技术领域。具体实现方案为:获取文本对,文本对中包括输入序列、输入序列对应的真实文本,真实文本与输入序列的意义相近、且真实文本中的至少部分句子间的表达方式与输入序列中至少部分句子间的表达方式不同;将输入序列输入待训练模型,得到待训练模型对输入序列进行改写后得到的输出序列;基于输出序列和真实文本之间的差异确定损失值;基于损失值调整待训练模型的模型参数,在满足训练收敛条件的情况下,结束训练得到文本复述模型。基于本公开实施例训练得到的文本复述模型,能够支持篇章级的文本改写。

Description

文本复述模型的训练方法、文本复述方法及装置
技术领域
本公开涉及计算机技术领域,尤其涉及人工智能、自然语言处理等技术领域。
背景技术
自然语言处理(Natural Language Processing,NLP)在人工智能和语言学领域中占有重要的地位。自然语言处理是一门融合语言学、计算机科学、数学于一体的科学。其主要应用于机器翻译、舆情监测、自动生成摘要、观点提取、文本分类、问题回答、文本复述、语音识别等方面。
文本复述在自然语言处理中有着广泛的应用,如机器翻译、自动问答、信息抽取、信息检索等。文本复述的结果可用于数据增强、文本泛化,从而可以增强特定场景的语料规模,提高模型的泛化能力。但相关技术中仅支持句子级的文本复述。
发明内容
本公开提供了一种文本复述模型的训练方法、文本复述方法及装置。
根据本公开的一方面,提供了一种文本复述模型的训练方法,包括:
获取文本对,文本对中包括输入序列、输入序列对应的真实文本;真实文本与输入序列的意义相近、且真实文本中的至少部分句子间的表达方式与输入序列中至少部分句子间的表达方式不同;
将输入序列输入待训练模型,得到待训练模型对输入序列进行改写后得到的输出序列;
基于输出序列和真实文本之间的差异确定损失值;
基于损失值调整待训练模型的模型参数,在满足训练收敛条件的情况下,结束训练得到文本复述模型。
根据本公开的另一方面,提供了一种文本复述方法,包括:
获取待改写文本;
将待改写文本输入文本复述模型,得到与待改写文本意义相近的输出文本。
根据本公开的另一方面,提供了一种文本复述模型的训练装置,包括:
第一获取模块,用于获取文本对,文本对中包括输入序列、输入序列对应的真实文本;真实文本与输入序列的意义相近、且真实文本中的至少部分句子间的表达方式与输入序列中至少部分句子间的表达方式不同;
第一改写模块,用于将输入序列输入待训练模型,得到待训练模型对输入序列进行改写后得到的输出序列;
损失确定模块,用于基于输出序列和真实文本之间的差异确定损失值;
调整模块,用于基于损失值调整待训练模型的模型参数,在满足训练收敛条件的情况下,结束训练得到文本复述模型。
根据本公开的另一方面,提供了一种文本复述装置,包括:
第二获取模块,用于获取待改写文本;
第二改写模块,用于将待改写文本输入文本复述模型,得到与待改写文本意义相近的输出文本。
根据本公开的另一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与该至少一个处理器通信连接的存储器;其中,
该存储器存储有可被该至少一个处理器执行的指令,该指令被该至少一个处理器执行,以使该至少一个处理器能够执行本公开中任一实施例的方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,该计算机指令用于使该计算机执行根据本公开中任一实施例的方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现根据本公开中任一实施例的方法。
本公开实施例训练得到的文本复述模型,能够支持篇章级的文本改写。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开一实施例的文本复述模型的训练方法的流程示意图;
图2(a)是根据本公开一实施例的获取关键词序列的场景示意图;
图2(b)是根据本公开另一实施例的获取关键词序列的场景示意图;
图3是根据本公开另一实施例的文本复述模型的训练方法的流程示意图;
图4是根据本公开一实施例的用户操作界面示意图;
图5是根据本公开一实施例的对文本调序操作的场景示意图;
图6是根据本公开一实施例的输入序列的格式的场景的示意图;
图7是根据本公开一实施例的文本复述模型的框架示意图;
图8是根据本公开一实施例的文本复述方法的流程示意图;
图9是根据本公开一实施例的文本复述模型的训练装置的结构示意图;
图10是根据本公开一实施例的文本复述装置的结构示意图;
图11是用来实现本公开实施例的文本复述模型的训练方法/文本复述方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
相关技术中,主要是基于Seq2Seq(Sequence to Sequence,句子到句子)的复述生成技术。该方法通过多层注意力机制分别对源端(即模型输入端)和目标端(即模型输出端)进行建模,并使用标准的最大似然估计进行训练。
多层注意力机制采用了Transformer模型,而该模型的结构是非循环的,所以Encoder(编码)和Decoder(解码)端的输入中需要对应的位置向量来建模文本的位置信息,同时在Encoder端的输出层需要加入额外的位置信息指导源端进行复述。该方式仅支持句子级的文本复述生成,并不支持篇章级文本复述生成。而用户在实际使用过程中,往往需要对整个篇章进行改写。有鉴于此,本公开实施例提出了一种文本复述模型的训练方法,可实施为如图1所示:
S101,获取文本对,文本对中包括输入序列、输入序列对应的真实文本;真实文本与输入序列的意义相近、且真实文本中的至少部分句子间的表达方式与输入序列中该至少部分句子间的表达方式不同。
S102,将输入序列输入待训练模型,得到待训练模型对输入序列进行改写后得到的输出序列。
S103,基于输出序列和真实文本之间的差异确定损失值。
S104,基于损失值调整待训练模型的模型参数,在满足训练收敛条件的情况下,结束训练得到文本复述模型。
其中,收敛条件可以为损失值趋于稳定或迭代训练次数满足预设次数。
本公开实施例中,文本复述模型可在大量的文本数据上进行学习,用于监督学习的真实文本不仅表达了输入序列的意义,还能够实现在句子间的表达方式上具有差异。由此,文本复述模型能够学习到同一含义的不同句子间的表述方式。在大量样本的学习下,文本复述模型不仅能够支持句子内的改写,还能够支持句子间的改写,从而支持篇章级别的文本复述。
在一些实施例中,为了能够学习到丰富的句子间的表述方式,本公开实施例中,获取文本对可实施为:获取原始文本,该原始文本与输入序列的意义相近;通过调整句子顺序、合并句子和拆分句子中的至少一种方式,调整原始文本,得到真实文本。
例如,原始文本可以从新闻、小说、博客、论文等创作的作品中获取。举例来说,原始文本可以为“万物更新,旧疾当愈,长安常安”,对其句子顺序进行调整,获取到真实文本可以为“旧疾当愈,长安常安,万物更新”。由此可见,该真实文本仅改变了句子的形式,未对其句子含义进行修改,因此表达的意义未发生改变,但表述方式发生了改变。
本公开实施例中,以原始文本为基础,能够保证得到的真实文本的文本质量,在此基础上采用不同的方式改变原始文本的句式,进而获取到真实文本。具有多种差异类型的句式能够丰富训练样本,使得文本复述模型学习到不同的句式表达,由此更好地支持篇章级的文本改写。
在一些实施例中,为了能够减少人工标注,本公开实施例中可自动地构建文本对。一种可能的实施方式中,将采用第一语言表述的原始文本翻译为采用第二语言表述的第一中间文本;之后,将采用第二语言表述的第一中间文本翻译为采用第一语言表述的文本,得到输入序列。
其中,翻译过程可以基于翻译软件的API(Application Programming Interface,应用程序编程接口)进行翻译。该翻译过程可以称之为回译法,该回译法可理解为对原始文本进行了同义词替换、语法结构替换、删除无关紧要词汇等丰富的变换。举例来说,第一语言为中文,第二语言为英文,通过翻译,先将中文数据翻译成英语数据,再将英语数据回译成伪中文数据,由此得到输入序列。其中,由于回译出的文本数据与原始文本存在表述形式上的差异,且能准确地表达出原始文本的句意,所以称之为伪中文数据。
其中,<输入序列,真实中文>可以构成文本复述模型的文本对,可以将<输入序列,真实中文>形式化为<Fake_Zh,Ref_Zh>。由于翻译软件的中译英和英译中效果均比较理想,通过中->英->中构造的伪中文数据和原始的中文数据之间的意义差异性并不是很大。基于此,为了构造更加多样性的训练数据,如图2(a)所示,本公开实施例中选择了多种外语分别作为第二语言,不仅包括英语,还可以包括法语、西班牙语、德语、日语、韩语等。此外,也可以选用其他语种作为第二语言,本公开对此不进行限定。
本公开实施例中,基于回译的方式可以获取到贴近原始文本含义的输入序列,同时采用不同的第二语言可以扩充文本数量,相当于可以获取到与原始文本不完全一样的多种表述。此外,通过翻译的方式自动得到输入序列,训练模型所需的文本对可自动构建,无需人工标注。
在另一些实施例中,不仅可以采用一种语言作为中间语言,本公开实施例中还可以采用多种语言作为中间语言。可实施为:将采用第一语言表述的原始文本翻译为采用第二语言表述的第一中间文本;采用至少一种翻译模型依序处理采用第二语言表述的第一中间文本,得到采用第三语言表述的第二中间文本;将采用第三语言表述的第二中间文本翻译为采用第一语言表述的文本,得到输入序列。其中每种翻译模型支持不同的语言翻译,例如将汉语翻译成英语是一种翻译模型,将英文翻译成法语是另一种翻译模型,以此类推。
其中,以第一语言为中文为例,第二语言可以为英语、法语、西班牙语、德语、日语、韩语等中的至少一种,最后一个翻译得到第二中间文本的中间语言是第三语言。如图2(b)所示,第二语言为英文、第三语言为法语。也即,将中文翻译成英文由此得到第一中间文本,然后将英文翻译为法语由此得到第二中间文本,之后将第二中间文本从法语翻译为中文,由此得到输入序列。图2(b)展示的其他语言类似处理,不再赘述。需要说明的是,作为中间语言的语种不局限图2(b)中的两种语言,还可以是更多种数量的语言,本公开实施例不作限定。例如,将中文翻译成英文,之后将英文翻译成法语,再将法语翻译成德语,然后由德语翻译成中文,最终得到输入序列。
本公开实施例中,基于多种语言进行多次翻译获取到输入序列,该输入序列与原始文本之间存在表述上的差异,进而可以获取到更为丰富的文本数据。通过这些样本数据,文本复述模型能够学习到更多的句子内和句子间的表述方式,为支持篇章级的文本复述提供数据基础。
在一些实施例中,为了更好地训练模型,使得模型支持篇章级改写,本公开实施例中将输入序列输入待训练模型,得到待训练模型对输入序列进行改写后得到的输出序列,可实施为如图3所示:
S301,获取输入序列的任务描述信息。
其中,任务描述信息用于引导待训练模型基于任务描述信息所限定的任务要求完成对篇章级文本复述任务的训练。由此,可保证待训练模型的能够快速学习到篇章级改写的能力。
任务描述信息可包括以下中的至少一种:关键词序列、逆序程度、文本相似度、同义改写任务等。
其中,任务描述信息中的关键词序列,要求待训练模型得到的输出序列中保留关键词序列中的关键词。也即,待训练模型支持保留关键的实体名词,例如,人名、地名等关键的实体名词可以在改写后得到的文本中继续保留,由此保证改写的质量。
在一些实施例中,可以从真实文本中抽取实体关键词,得到关键词序列。其中实体关键词可以为人名,地名以及每个领域内的业内术语等。
其中,可以基于序列标注(Sequence labeling)的方式从真实文本中抽取实体关键词。在序列标注中,可以对一个序列的每一个元素标注一个标签。
其中,标注方式可以为BIO(Begin,Inside,Outside,短语起始,短语内部,不在短语中)标注,将每个元素标注为“B-X”、“I-X”或者“O”。其中,“B-X”表示此元素所在的片段属于X类型并且此元素在此片段的开头,“I-X”表示此元素所在的片段属于X类型并且此元素在此片段的中间位置,“O”表示不属于任何类型。
比如,X类型为名词短语(Noun Phrase,NP),则BIO的三个标记为:B-NP:名词短语的开头;I-NP:名词短语的中间;O:不是名词短语。
实施时,可以采用命名实体识别(Named entity recognition,NER)的方式得到关键词,并用BIO标注方法标注出关键词。NER是信息提取问题的一个子任务,需要将元素进行定位和分类,如人名、组织名、地点、时间、专业词汇等。
以NER为例,一个句子为:昨天,李先生开展了一次演讲。其中包括一个实体关键词:李先生。则可以将标签“人名”标注到整个短语“李先生”中,其BIO标注的结果可以表现为“李_B-NP先_I-NP生_I-NP”。由此,可以基于BIO标注的结果,将关键词抽取出来,得到关键词序列。
此外,在真实文本包括至少一个实体关键词的情况下,还可以对真实文本中的实体关键词进行关系抽取。举例来说,可以使用实体关系抽取的方式。实体关系抽取是从文本中的句子里抽取出一对实体并给出实体间关系的任务。该任务的输入是一句话,输出是一个资源-属性-属性值三元组(subject-predicate-object,spo)。
对于实体关系抽取任务,可以先抽取句子中的实体对,然后再对实体对进行关系分类,从而找出spo三元组,这种思想被称作管道模型(Pipeline)。管道模型把实体关系抽取分成了两个子任务,实体识别和关系分类。两个子任务按照顺序依次执行,它们之间没有交互。由此,本公开实施例中,任务描述信息中不仅可以包括关键词序列,还可以包含关键词序列中包含的关键词之间的关系,以此在学习阶段,让模型按照关键词之间的关系进行改写。
当然,需要说明的是,除了使用前述方式获取实体关键词以及实体关键词之间的关系外,本公开实施例对如何抽取实体关键词,以及实体关键词之间的关系不进行限定,凡可以获取实体关键词以及实体关键词之间的关系的方式均适用于本公开实施例。
本公开实施例中,对于实体关键词可以实现自动化抽取,为待训练模型能够学习到尽可能使用关键词序列中的词提供数据基础。让待训练模型按照要求的关键词进行改写,由此使得改写结果灵活可控。
除了基于模型自动化抽取实体关键词外,为了保证待训练模型能够灵活地支持篇章级的改写,本公开实施例中还可以由用户自由指定关键词。具体可实施为:响应于关键词输入操作,将输入的关键词确定为关键词序列中包括的关键词。其用户界面如图4所示,对于用户想要保留的关键词可以自行输入到关键词窗口内,在检测到用户输入的关键词后,将用户输入的关键词自动作为改写后的文本需要保留的关键词,便于待训练模型学会采用关键词序列中的词进行文本复述。
本公开实施例中,提供了供用户人工指定关键词的方式,使得改写任务能够保留用户期望的关键词,由此保证了篇章级改写的灵活性和改写结果的可控性。
在一些实施例中,任务描述信息中的逆序程度,要求待训练模型得到的输出序列和输入序列之间表达同一含义的多个句子间的差异程度满足逆序程度。这是由于训练样本数量多,待训练模型能够学习到不同的逆序程度,由此,使得待训练模型能够支持不同逆序程度的改写。而实际使用中,由于对改写程度的要求不同,通过逆序程度可实现同一文本复述模型支持不同的改写程度,由此使得篇章级的同一复述模型能够满足不同的应用需求。
在一些实施例中,确定逆序程度可实施为:从输入序列中筛选出至少一个调序位置;对各调序位置上的连续多个句子进行调序;在确定调序后的句子保持连贯的情况下,确定调序后的输入序列和调序前的输入序列之间的句子排序差异为任务描述信息中的逆序程度;同时,将调序后的输入序列确定为文本对中的输入序列。
为了实现句子间的合理调序,可以基于输入序列中每个子句的位置顺序进行标注,进而基于位置标注对其进行调序。其中调序方式可以为对输入序列的多个随机位置的子句调用shuffle(调序)函数,shuffle函数可以实现把数组中的元素按随机顺序重新排列。
本公开实施例中,为了同时支持句子级和篇章级文本复述生成,并考虑到待训练模型对输入序列和输出序列的长度限制,将原始的篇章数据或原始的篇章数据经过翻译得到伪中文构造成随机10-1024个字的长度,由此得到原始句子,一个或多个原始句子构建输入序列。
其中,可以随机筛选出至少一个调序位置。同一篇章中,可筛选出多个调序位置,以支持改写后的篇章有多处语序表达不同。实施时,调序位置可以表达为排序在第i个位置的原始句子进行调序,i表示至少一个正整数。例如按照随机10-1024个字的长度对构建输入序列的原始文本进行切分,得到n个原始输入序列,可以从中抽取多个句子作为筛选出的调序位置。每个调序位置上,可以将目标位置如原始句子中的第3-5子句进行调序。
这是因为,由于最长的序列长度是1024个字,假设单个子句平均长度20个字,那同一原始句子中最长会有50个子句。由于子句数量过多,对于全篇调用shuffle函数是不合理的。由此可以在比较临近的句子间进行调序操作,而对于比较长的篇章,极有可能会在多个位置进行调序操作。基于调序后的子句的位置,对调序后句子的连贯性进行打分,进而获取到该句子的综合评分,在该句子综合评分满足预设阈值的情况下,则可以确定该句子连贯,进而获取到该句子对应的逆序程度,并将调序后的输入序列确定为文本对中的输入序列。
其中,对于句子的调序方式可以如图5所示,对于输入序列的每个子句位置进行位置标记,将原本排序方式为①②③④⑤⑥⑦的句子序列进行调序,获取调序结果,其调序结果为①③②⑥⑦④⑤。对调序后的句子序列中每相邻两个子句间的连贯性进行打分。对于连贯的句子评分方式可以为:在相邻的句子连贯的情况下,可以对其评分为1;在相邻的句子不连贯的情况下,可以对其评分为0,获取到每个相邻子句的连贯性得分后,对其进行均值处理,如表达式(1)所示。以图5示出的示例进行解释,假设调序后的子句的分数<①,③>0;<③,②>0;<②,⑥>1;<⑥,⑦>1;<⑦,④>1;<④,⑤>1,进而获取到该句子序列的连贯性的评分为2/3。
其中,Ck表示第k个输入序列的句子评分,n1,n2,...nm表示调序后相邻子句间连贯性的得分,m表示该输入序列中存在m个子句,m为正整数。
在调序后综合评分大于预设阈值的情况下,则可以确定该输入序列连贯,假设预设阈值为0.5分,则可以确定该调序后的句子保持连贯。在调序后综合评分不大于预设阈值的情况下,则可以确定该调序后的句子不能保持连贯,则将放弃对该句子进行前述的调序方式。
在上述确定出句子连贯的基础上,对其计算逆序程度。逆序程度的计算方式基于下述方式进行说明:假设调序前的句子排序为[1,2,3],经过shuffle调序后是[1,3,2],那么调序前序列内句子时序排列是[12,23,13],调序后句子时序排列是[13,32,12],由此可见,则该句子对应的逆序程度的分数值就是1/3。
本公开实施例中,考虑到对篇章级的文本进行调序操作,生成的输出序列的效果除了可以实现句子内差异性外,还可以实现句子间的表述差异性,进而获取到句子间差异性更大的输出结果,由此更好地支持篇章级的复述。
在一些实施例中,任务描述信息中的文本相似度,要求训练模型得到的输出序列与输入序列之间的相似度满足文本相似度。由此,可以保证在改写时,按照文本相似度的要求进行改写。例如,小幅度的改写,可以要求较高的文本相似度,大幅度的改写可以要求较低的文本相似度。由此使得待训练模型能够基于文本相似度的要求进行改写,使得模型能够进一步支持不同的改写程度。
在一些实施例中,可以确定文本对中输入序列和真实文本之间的内容相似度;将内容相似度确定为任务描述信息中的文本相似度。
例如,可以基于机器翻译模型的评价指标确定文本对中输入序列和真实文本之间的内容相似度,其中评价方法可以采用基于统计词汇级别的词重叠率方法和基于预训练语言模型计算词级别的语义相似度方法。其中基于统计词汇级别的词重叠率方法,可以分为双语评测替换(Bilingual evaluation understudy,BLEU),文本摘要指标(Recall-Oriented Understudy for Gisting Evaluation,ROUGE)。其中,基于预训练语言模型计算词级别的语义相似度方法可以包括中文预训练模型(Enhanced Representation throughKnowledge Integration,ERNIE-Sim),文本生成评价指标(BertScore)等,本公开对此不进行限定。
在另一种可能的实施方式中,可以对输入序列和真实文本进行特征提取,基于提取出的特征计算特征间的相似度。计算相似度的方式可以使用余弦相似度计算二者的相似度,也可以使用皮尔逊相关系数计算二者的相似度,本公开实施例对此不进行限定。
本公开实施例中,确定输入序列以及真实文本间的内容相似度,基于不同的训练样本的文本相似度可以使模型依照不同的相似度要求进行学习,在大量训练样本的支持下,使得模型能够支持不同的改写强度。
考虑到不同的相似度区间内的样本数量可能存在较大差异,为了能够更好地学习不同文本相似度的情况,本公开实施例可以对不同相似度区间内的样本数量进行统计,获取训练样本的相似度分布情况。可实施为:获取训练样本集,训练样本集中包括多个待处理文本对;确定各待处理文本对中输入序列和真实文本之间的文本相似度;基于文本相似度将各待处理文本对划分到对应的相似度区间;针对待处理文本对的数量低于数量阈值的目标相似度区间,基于上采样的方式扩充目标相似度区间内的待处理文本对的数量。
举例来说,假设相似度的最高取值为100,取值越高,相似度越高。可以将相似度的取值区间划分为10个区间,对应的相似度区间为0~10,11~20,21~30,...,91~100共10个相似度区间。假如81~90区间内的待处理文本对为500个,而91~100区间内的待处理文本对为20个,在这种情况下,则对相似度低区间的数据进行上采样。其中,上采样的方式可以为对该区间内的待处理文本对进行复制,使得各个相似度区间的待处理文本对的数量分布大致相同,基于这种方式则可以保证文本复述模型可以对不同改写程度的数据进行有效建模。
本公开实施例中,基于上采样的方式丰富缺少训练样本的相似度区间内的样本数量,进而可以丰富语料库中的样本数据,可以使待训练模型按照不同的文本相似度进行改写,使模型支持不同的改写程度,进而使得模型更加具有通用性。
在一些实施例中,任务描述信息中的同义改写任务,要求待训练模型将输入序列中的词改写为同义词。由此,使得待训练模型能够尽可能按照同义词改写的方式进行学习。使得改写后得到的内容,尽可能有别于原始内容。
本公开实施例中,基于关键词序列可以保证输出序列中的实体词和要求的关键词一致性,由此保证改写结果满足关键词序列的要求;文本相似度和逆序程度均可以使得模型学习到按照要求的改写程度进行改写,可以使得模型支持任意改写程度。同义词改写可以进一步保证改写后的内容有别于原文的内容,使得文本复述模型能够更好的完成改写任务。
S302,将任务描述信息和输入序列输入待训练模型,得到待训练模型基于任务描述信息对输入序列进行改写后得到的输出序列。
本公开实施例中,采用任务描述信息对模型进行引导式训练,可以使得模型学会按照任务描述信息的要求进行改写,由此使得篇章级的改写更加灵活可控。
其中,输入序列的格式如图6所示,其中任务描述信息包括同义改写任务、文本相似度、逆序程度、关键词序列以及输入序列。为了更好的理解输入序列和任务描述信息,如图6中的示例所示,以输入序列:“李先生在北京展开以“保护动物”为主题的演讲,很多人都想去参加”为例,其中,其对应的任务描述信息中将文本相似度:0.2509,逆序程度:0.5023,关键词序列:李先生,北京,动物,确定为任务描述信息,将前述多种信息进行拼接,进而获取到带有任务描述信息的输入序列。
在一些实施例中,为了使得待训练模型能够更好地支持不同的改写程度,带有任务描述信息的文本对在训练样本集中的占比为预设比值。
简单来说,相当于使用预设比例的文本对的任务描述信息进行训练,另一部分的样本对不采用任务描述信息进行训练。其中预设比例可以为0.5,该预设比例的取值可以基于情况决定,本公开对此不进行限定。例如,可以为了同时支持可控的改写程度,任务描述信息中的文本相似度提示(Prompt)和逆序程度Prompt可分别以0.5的概率作为输入序列的任务描述信息,以实现对待训练模型的训练。在用户不对改写程度进行编辑的情况下,输入的是默认的改写能力,则默认的输出结果为以占比0.5的文本相似度Prompt以及逆序程度Prompt来训练模型,得到输出序列。
本公开实施例中,将带有任务描述信息的文本对与不带有任务描述信息的文本对基于同一模型进行训练,使得模型能够学习到带有任务描述信息情况下的改写能力,同时支持不带有任务描述信息情况下的改写能力,进一步提升了模型对于不同下游任务的建模能力。
任务描述信息中的每个任务都可以分别称之为一种Prompt,本公开实施例中最终的多粒度Prompt篇章级文本复述模型训练数据示例如图6所示,这里不再赘述。
示例性地,待训练模型可以为文心大模型3.0版本之宙斯模型(ERNIE3.0 Zeus)。在该模型经过与训练之后,可以对其采用本公开实施例提供的方法进行学习,实现对该模型的微调。该模型的主要结构如图7所示,左侧双向的语言模型和右侧单向的语言模型共享相同的网络参数。通过不同的自注意力掩码机制进行文本复述。其中,左侧的双向注意力机制对源端序列进行编码,双向注意力机制是结合前后文对当前字符进行处理,例如基于前面一个字符和后面一个字符对当前字符进行处理,右侧单向注意力机制对目标端序列进行编码,单向注意力机制是结合前文对当前字符进行处理,例如基于前一个字符对当前字符进行处理。输入包括三个部分,如图7所示,包括输入序列和文本描述信息的文本向量、输入序列位置向量和输出序列位置向量。
ERNIE3.0 Zeus在学习过程中使用统一范式的多任务学习,建模了数据中不同Prompt的信息。为了进一步学习特定任务的相关知识,待训练模型的预训练阶段可基于层次化提示学习技术进行学习。在数据构造时通过层次化的文本提示(Text Prompt)库将百余种不同的任务统一组织成自然语言的形式,和海量无监督文本以及百度知识图谱联合学习。此外训练过程引入了层次化的软提示(Soft Prompt)建模了不同任务之间的共性与特性,进一步提升了模型对于不同下游任务的建模能力。
简单来说,提示学习是给模型的输入包含任务描述、示例样本和目标问题。其中任务描述则为提示,在训练过程中,输入序列可以基于任务描述的引导完成训练过程。而在任务描述包括多个提示(Prompt)的情况下,则每个Prompt都按照单Prompt的方法并行进行,然后再把最终的结果汇总,可以通过加权或者投票的方式对多个单Prompt的结果进行汇总。
以实际处理文本的微调阶段的训练过程为例,在处理文本的过程中,输入序列包括提示信息、源端内容和[MASK](掩码)标签,[MASK]标签表示目标端内容的生成位置。
基于相同的技术构思,本公开还提出了一种文本复述方法,应用于前文的方法训练得到的文本复述模型,可实施为如图8所示:
S801,获取待改写文本。
S802,将待改写文本输入文本复述模型,得到与待改写文本意义相近的输出文本。
本公开实施例中,文本复述模型是在大量的文本数据上进行学习,监督学习的真实数据不仅表达了输入序列的意义,还在句子间的表达方式上具有差异。由此,文本复述模型能够学习到同一含义的不同句子间的表述方式。在大量样本的学习下,文本复述模型能够支持句子内的改写,还能够支持句子间的改写,从而采用文本复述模型对待改写文本进行改写,可实现篇章级别的改写。而且,还可以支持句子级的文本改写。
在一些实施例中,为了实现对改写的可控,本公开实施例中获取待改写文本的任务描述信息;将任务描述信息和待改写文本输入文本复述模型,得到与待改写文本意义相近的输出文本。
基于本公开实施例中提出的方式,基于任务描述信息可引导改写,由此可以支持可控的改写程度。
在一些实施例中,任务描述信息包括以下中的至少一种:关键词序列、逆序程度、文本相似度和同义改写任务;
关键词序列,要求文本复述模型得到的输出文本中保留关键词序列中的关键词;
逆序程度,要求文本复述模型得到的输出文本和待改写文本之间表达同一含义的多个句子间的差异程度满足逆序程度;
文本相似度,要求文本复述模型得到的输出文本与待改写文本之间的相似度满足文本相似度;
同义改写任务,要求文本复述模型将待改写文本中的词改写为同义词。
本公开实施例中,采用任务描述信息对模型进行引导式改写,可以使得文本复述模型按照任务描述信息的要求进行改写,由此使得生成的结果具备灵活性以及可控性。例如,基于关键词序列可保证改写得到的文本中包含要求的关键词;通过同义词改写任务可以使得改写得到的文本尽可能与原文内容不同;通过逆序程度和文本相似度均可以控制改写程度。总之,在任务描述信息的引导下,可以支持灵活可控的文本复述。
在一些实施例中,与前文阐述的类似,获取关键词序列可实施为:从待改写文本中抽取实体关键词,得到关键词序列。
其中,用户操作界面如图4所示,对于人名,地名等实体名词,用户可以自由决定是否对其进行修改。若对“人名”处进行勾选,则表明不对输入序列中的人名进行修改;若对“人名”处不进行勾选,则表明对输入序列中的人名可以进行修改。对“地名”的操作与对“人名”的操作相似,这里不进行一一赘述。
基于本公开实施例中提出的方式,可以实现对于实体关键词进行自动化抽取,可以提高构建训练样本的效率。即因为无需人工标注关键词,从而提高文本复述模型的改写效率。
在一些实施例中,为了灵活地控制改写所采用的关键词,本公开实施例中还可以支持用户自定义关键词。由此获取关键词序列还可实施为:响应于关键词输入操作,将输入的关键词确定为关键词序列中包括的关键词。
其中,用户操作界面如图4所示,用户可以将无需改变的关键词输入关键词的输入框内,模型将会检测到用户的输入操作,将用户输入的关键词自动作为改写后的文本需要保留的关键词,便于文本复述模型采用关键词序列中的词进行文本改写。
本公开实施例中,提供了用户人工指定关键词的方式,使得改写任务能够保留用户期望的关键词,由此保证了篇章级改写的灵活性和改写结果的准确性。
在一些实施例中,为了支持多种改写程度,满足不同应用需求,本公开实施例中也支持用户自定义逆序程度,来引导文本复述模型对原始文本的改写。相应地,确定逆序程度可实施为:响应于逆序程度的输入操作,得到逆序程度。
其中,用户操作界面如图4所示,基于用户所要求的逆序程度的分值,来引导文本复述模型对待改写文本进行文本复述。
基于本公开实施例中提出的逆序程度,引导对输入的待改写文本的改写,生成的文本不仅可以实现句子内差异性外,还可以实现句子间的差异性,而且由于调序导致的这种句子间的差异性是可控的,进而获取期望的改写结果,由此可以更好的支持篇章级的文本复述。
在一些实施例中,类似地,本公开实施例中还可以通过文本相似度来控制改写程度。确定文本相似度可实施为:响应于相似度的输入操作,得到文本相似度。
其中,用户操作界面如图4所示,基于用户要求的文本相似度进行改写。例如,用户需要小幅度的改写,可以要求较高的文本相似度,也就是将文本相似度设置为较高数值;用户需要大幅度的改写,可以要求较低的文本相似度,也就是将文本相似度设置为较低数值。由此使得模型能够在文本相似度的引导要求下,获取改写后的输出文本。
需要说明的是,对关键词、逆序程度、文本相似度调整完成后,则点击“确认”控件,则可以获取如图4右侧所述的输出文本。图4中示例出不同改写程度下,得到的输出的多个文本的示例。在用户不满意这些输出文本的情况下,则可以点击“清除”插件,对前述操作进行清除,即可以重新调整关键词、逆序程度、改写程度,可实现再次对输入文本进行改写。
本公开实施例中,基于灵活可控的文本相似度,可以引导文本复述模型按照要求的文本相似度进行改写,使得模型的改写程度可控,能够满足不同的改写要求,得到不同改写强度的文本复述结果。
基于相同的技术构思,本公开还提出了一种文本复述模型的训练装置,如图9所示包括:
第一获取模块901,用于获取文本对,文本对中包括输入序列、输入序列对应的真实文本;真实文本与输入序列的意义相近、且真实文本中的至少部分句子间的表达方式与输入序列中至少部分句子间的表达方式不同;
第一改写模块902,用于将输入序列输入待训练模型,得到待训练模型对输入序列进行改写后得到的输出序列;
损失确定模块903,用于基于输出序列和真实文本之间的差异确定损失值;
调整模块904,用于基于损失值调整待训练模型的模型参数,在满足训练收敛条件的情况下,结束训练得到文本复述模型。
在一些实施方式中,第一获取模块,用于:
获取原始文本,原始文本与输入序列的意义相近;
通过调整句子顺序、合并句子和拆分句子中的至少一种方式,调整原始文本,得到真实文本。
在一些实施方式中,还包括输入序列确定模块,用于:
将采用第一语言表述的原始文本翻译为采用第二语言表述的第一中间文本;
将采用第二语言表述的第一中间文本翻译为采用第一语言表述的文本,得到输入序列。
在一些实施方式中,输入序列确定模块,还用于:
将采用第一语言表述的原始文本翻译为采用第二语言表述的第一中间文本;
采用至少一种翻译模型依序处理采用第二语言表述的第一中间文本,得到采用第三语言表述的第二中间文本;
将采用第三语言表述的第二中间文本翻译为采用第一语言表述的文本,得到输入序列。
在一些实施方式中,第一改写模块,用于:
获取输入序列的任务描述信息;
将任务描述信息和输入序列输入待训练模型,得到待训练模型基于任务描述信息对输入序列进行改写后得到的输出序列。
在一些实施方式中,任务描述信息包括以下中的至少一种:关键词序列、逆序程度、文本相似度、同义改写任务;
关键词序列,要求待训练模型得到的输出序列中保留关键词序列中的关键词;
逆序程度,要求待训练模型得到的输出序列和输入序列之间表达同一含义的多个句子间的差异程度满足逆序程度;
文本相似度,要求待训练模型得到的输出序列与输入序列之间的相似度满足文本相似度;
同义改写任务,要求待训练模型将输入序列中的词改写为同义词。
在一些实施方式中,还包括关键词确定模块,用于:
从真实文本中抽取实体关键词,得到关键词序列。
在一些实施方式中,还包括逆序程度确定模块,用于:
从输入序列中筛选出至少一个调序位置;
对各调序位置上的连续多个句子进行调序;
在确定调序后的句子保持连贯的情况下,确定调序后的输入序列和调序前的输入序列之间的句子排序差异为任务描述信息中的逆序程度;
将调序后的输入序列确定为文本对中的输入序列。
在一些实施方式中,还包括文本相似度确定模块,用于:
确定文本对中输入序列和真实文本之间的内容相似度;
将内容相似度确定为任务描述信息中的文本相似度。
在一些实施方式中,关键词确定模块,还用于:
响应于关键词输入操作,将输入的关键词确定为关键词序列中包括的关键词。
在一些实施方式中,带有任务描述信息的文本对在训练样本集中的占比为预设比值。
在一些实施方式中,文本相似度确定模块,还用于:
获取训练样本集,训练样本集中包括多个待处理文本对;
确定各待处理文本对中输入序列和真实文本之间的文本相似度;
基于文本相似度将各待处理文本对划分到对应的相似度区间;
针对待处理文本对的数量低于数量阈值的目标相似度区间,基于上采样的方式扩充目标相似度区间内的待处理文本对的数量。
基于相同的技术构思,本公开还提出了一种文本复述装置,应用于前述装置训练得到的文本复述模型,如图10所示包括:
第二获取模块1001,用于获取待改写文本;
第二改写模块1002,用于将待改写文本输入文本复述模型,得到与待改写文本意义相近的输出文本。
在一些实施方式中,第二改写模块,用于:
获取待改写文本的任务描述信息;
将任务描述信息和待改写文本输入文本复述模型,得到与待改写文本意义相近的输出文本。
在一些实施方式中,任务描述信息包括以下中的至少一种:关键词序列、逆序程度、文本相似度和同义改写任务;
关键词序列,要求文本复述模型得到的输出文本中保留关键词序列中的关键词;
逆序程度,要求文本复述模型得到的输出文本和待改写文本之间表达同一含义的多个句子间的差异程度满足逆序程度;
文本相似度,要求文本复述模型得到的输出文本与待改写文本之间的相似度满足文本相似度;
同义改写任务,要求文本复述模型将待改写文本中的词改写为同义词。
在一些实施方式中,还包括关键词确定模块,用于:
从待改写文本中抽取实体关键词,得到关键词序列。
在一些实施方式中,关键词确定模块,还用于:
响应于关键词输入操作,将输入的关键词确定为关键词序列中包括的关键词。
在一些实施方式中,还包括逆序程度确定模块,用于:
响应于逆序程度的输入操作,得到逆序程度。
在一些实施方式中,还包括文本相似度确定模块,用于:
响应于相似度的输入操作,得到文本相似度。
本公开实施例的装置的各模块、子模块的具体功能和示例的描述,可以参见上述方法实施例中对应步骤的相关描述,在此不再赘述。
本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图11示出了可以用来实施本公开的实施例的示例电子设备1100的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图11所示,设备1100包括计算单元1101,其可以根据存储在只读存储器(ROM)1102中的计算机程序或者从存储单元1108加载到随机访问存储器(RAM)1103中的计算机程序,来执行各种适当的动作和处理。在RAM 1103中,还可存储设备1100操作所需的各种程序和数据。计算单元1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(I/O)接口1105也连接至总线1104。
设备1100中的多个部件连接至I/O接口1105,包括:输入单元1106,例如键盘、鼠标等;输出单元1107,例如各种类型的显示器、扬声器等;存储单元1108,例如磁盘、光盘等;以及通信单元1109,例如网卡、调制解调器、无线通信收发机等。通信单元1109允许设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元1101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1101的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1101执行上文所描述的各个方法和处理,例如文本复述模型的训练方法/文本复述方法。例如,在一些实施例中,文本复述模型的训练方法/文本复述方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1108。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1102和/或通信单元1109而被载入和/或安装到设备1100上。当计算机程序加载到RAM 1103并由计算单元1101执行时,可以执行上文描述的文本复述模型的训练方法/文本复述方法的一个或多个步骤。备选地,在其他实施例中,计算单元1101可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行文本复述模型的训练方法/文本复述方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入、或者触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括终端设备和服务器。终端设备和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有终端设备-服务器关系的计算机程序来产生终端设备和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (36)

1.一种文本复述模型的训练方法,包括:
获取文本对,所述文本对中包括输入序列、所述输入序列对应的真实文本;所述真实文本与所述输入序列的意义相近、且所述真实文本中的至少部分句子间的表达方式与所述输入序列中所述至少部分句子间的表达方式不同;
将任务描述信息和所述输入序列输入待训练模型,得到所述待训练模型对所述输入序列进行改写后得到的输出序列;所述任务描述信息用于引导所述待训练模型基于所述任务描述信息所限定的任务要求完成对篇章级文本复述任务的训练;
基于所述输出序列和所述真实文本之间的差异确定损失值;
基于所述损失值调整所述待训练模型的模型参数,在满足训练收敛条件的情况下,结束训练得到文本复述模型;
其中,所述任务描述信息中包括逆序程度;所述输入序列和所述输出序列之间的所述逆序程度基于以下方法确定:
确定所述输入序列中各句子对的先后顺序,得到所述输入序列的句子时序序列;其中,各句子对在所述句子时序序列中分别对应各自的元素,各元素用于标记相应句子对中两个句子的先后顺序;
确定所述输出序列中各句子对的先后顺序,得到所述输出序列的句子时序序列;
确定所述输入序列的句子时序序列和所述输出序列的句子时序序列之间的差集,基于所述差集和所述句子时序序列中元素总数的比值,确定所述逆序程度。
2.根据权利要求1所述的方法,其中,所述获取文本对,包括:
获取原始文本,所述原始文本与所述输入序列的意义相近;
通过调整句子顺序、合并句子和拆分句子中的至少一种方式,调整所述原始文本,得到所述真实文本。
3.根据权利要求1或2所述的方法,还包括:
将采用第一语言表述的原始文本翻译为采用第二语言表述的第一中间文本;
将所述采用第二语言表述的第一中间文本翻译为采用第一语言表述的文本,得到所述输入序列。
4.根据权利要求1或2所述的方法,还包括:
将采用第一语言表述的原始文本翻译为采用第二语言表述的第一中间文本;
采用至少一种翻译模型依序处理所述采用第二语言表述的第一中间文本,得到采用第三语言表述的第二中间文本;
将所述采用第三语言表述的第二中间文本翻译为采用第一语言表述的文本,得到所述输入序列。
5.根据权利要求1或2所述的方法,其中,所述任务描述信息中还包括以下中的至少一种:关键词序列、文本相似度、同义改写任务;
所述关键词序列,要求所述待训练模型得到的输出序列中保留所述关键词序列中的关键词;
所述文本相似度,要求所述待训练模型得到的输出序列与所述输入序列之间的相似度满足所述文本相似度;
所述同义改写任务,要求所述待训练模型将输入序列中的词改写为同义词。
6.根据权利要求5所述的方法,还包括基于以下方法得到所述关键词序列:
从所述真实文本中抽取实体关键词,得到所述关键词序列。
7.根据权利要求6所述的方法,还包括:
从所述输入序列中筛选出至少一个调序位置;
对各调序位置上的连续多个句子进行调序;
在确定调序后的句子保持连贯的情况下,确定调序后的输入序列和调序前的输入序列之间的所述逆序程度;
将调序后的输入序列确定为所述文本对中的输入序列。
8.根据权利要求6或7所述的方法,还包括:
确定所述文本对中所述输入序列和所述真实文本之间的内容相似度;
将所述内容相似度确定为所述任务描述信息中的文本相似度。
9.根据权利要求1或2所述的方法,还包括:
响应于关键词输入操作,将输入的关键词确定为关键词序列中包括的关键词。
10.根据权利要求1或2所述的方法,其中,带有所述任务描述信息的文本对在训练样本集中的占比为预设比值。
11.根据权利要求1或2所述的方法,还包括:
获取训练样本集,所述训练样本集中包括多个待处理文本对;
确定各待处理文本对中输入序列和真实文本之间的文本相似度;
基于文本相似度将各待处理文本对划分到对应的相似度区间;
针对待处理文本对的数量低于数量阈值的目标相似度区间,基于上采样的方式扩充所述目标相似度区间内的待处理文本对的数量。
12.一种文本复述方法,应用于如权利要求1-11中任一项所述方法训练得到的文本复述模型,包括:
获取待改写文本;
将任务描述信息和所述待改写文本输入所述文本复述模型,得到与所述待改写文本意义相近的输出文本;
其中,所述任务描述信息中包括所述待改写文本和所述输出文本之间的逆序程度;所述逆序程度基于以下方法确定:
确定所述待改写文本中各句子对的先后顺序,得到所述待改写文本的句子时序序列;其中,各句子对在所述句子时序序列中分别对应各自的元素,各元素用于标记相应句子对中两个句子的先后顺序;
确定所述输出文本中各句子对的先后顺序,得到所述输出文本的句子时序序列;
确定所述待改写文本的句子时序序列和所述输出文本的句子时序序列之间的差集,基于所述差集和所述句子时序序列中元素总数的比值,确定所述逆序程度。
13.根据权利要求12所述的方法,所述任务描述信息中还包括以下中的至少一种:关键词序列、文本相似度和同义改写任务;
所述关键词序列,要求所述文本复述模型得到的输出文本中保留所述关键词序列中的关键词;
所述文本相似度,要求所述文本复述模型得到的输出文本与所述待改写文本之间的相似度满足所述文本相似度;
所述同义改写任务,要求所述文本复述模型将所述待改写文本中的词改写为同义词。
14.根据权利要求13所述的方法,获取所述关键词序列包括:
从所述待改写文本中抽取实体关键词,得到所述关键词序列。
15.根据权利要求13或14所述的方法,获取所述关键词序列包括:
响应于关键词输入操作,将输入的关键词确定为所述关键词序列中包括的关键词。
16.根据权利要求13或14所述的方法,获取所述逆序程度包括:
响应于逆序程度的输入操作,得到所述逆序程度。
17.根据权利要求13或14所述的方法,获取所述文本相似度包括:
响应于相似度的输入操作,得到所述文本相似度。
18.一种文本复述模型的训练装置,包括:
第一获取模块,用于获取文本对,所述文本对中包括输入序列、所述输入序列对应的真实文本;所述真实文本与所述输入序列的意义相近、且所述真实文本中的至少部分句子间的表达方式与所述输入序列中所述至少部分句子间的表达方式不同;
第一改写模块,用于将任务描述信息和所述输入序列输入待训练模型,得到所述待训练模型对所述输入序列进行改写后得到的输出序列;所述任务描述信息用于引导所述待训练模型基于所述任务描述信息所限定的任务要求完成对篇章级文本复述任务的训练;
损失确定模块,用于基于所述输出序列和所述真实文本之间的差异确定损失值;
调整模块,用于基于所述损失值调整所述待训练模型的模型参数,在满足训练收敛条件的情况下,结束训练得到文本复述模型;
其中,所述任务描述信息中包括逆序程度;所述输入序列和所述输出序列之间的所述逆序程度基于以下方法确定:
确定所述输入序列中各句子对的先后顺序,得到所述输入序列的句子时序序列;其中,各句子对在所述句子时序序列中分别对应各自的元素,各元素用于标记相应句子对中两个句子的先后顺序;
确定所述输出序列中各句子对的先后顺序,得到所述输出序列的句子时序序列;
确定所述输入序列的句子时序序列和所述输出序列的句子时序序列之间的差集,基于所述差集和所述句子时序序列中元素总数的比值,确定所述逆序程度。
19.根据权利要求18所述的装置,其中,所述第一获取模块,用于:
获取原始文本,所述原始文本与所述输入序列的意义相近;
通过调整句子顺序、合并句子和拆分句子中的至少一种方式,调整所述原始文本,得到所述真实文本。
20.根据权利要求18或19所述的装置,还包括输入序列确定模块,用于:
将采用第一语言表述的原始文本翻译为采用第二语言表述的第一中间文本;
将所述采用第二语言表述的第一中间文本翻译为采用第一语言表述的文本,得到所述输入序列。
21.根据权利要求18或19所述的装置,还包括输入序列确定模块,用于:
将采用第一语言表述的原始文本翻译为采用第二语言表述的第一中间文本;
采用至少一种翻译模型依序处理所述采用第二语言表述的第一中间文本,得到采用第三语言表述的第二中间文本;
将所述采用第三语言表述的第二中间文本翻译为采用第一语言表述的文本,得到所述输入序列。
22.根据权利要求18或19所述的装置,其中,所述任务描述信息中还包括以下中的至少一种:关键词序列、文本相似度、同义改写任务;
所述关键词序列,要求所述待训练模型得到的输出序列中保留所述关键词序列中的关键词;
所述文本相似度,要求所述待训练模型得到的输出序列与所述输入序列之间的相似度满足所述文本相似度;
所述同义改写任务,要求所述待训练模型将输入序列中的词改写为同义词。
23.根据权利要求22所述的装置,还包括关键词确定模块,用于:
从所述真实文本中抽取实体关键词,得到所述关键词序列。
24.根据权利要求23所述的装置,还包括逆序程度确定模块,用于:
从所述输入序列中筛选出至少一个调序位置;
对各调序位置上的连续多个句子进行调序;
在确定调序后的句子保持连贯的情况下,确定调序后的输入序列和调序前的输入序列之间的所述逆序程度;
将调序后的输入序列确定为所述文本对中的输入序列。
25.根据权利要求23或24所述的装置,还包括文本相似度确定模块,用于:
确定所述文本对中所述输入序列和所述真实文本之间的内容相似度;
将所述内容相似度确定为所述任务描述信息中的文本相似度。
26.根据权利要求18或19所述的装置,还包括关键词确定模块,用于:响应于关键词输入操作,将输入的关键词确定为关键词序列中包括的关键词。
27.根据权利要求18或19所述的装置,其中,带有所述任务描述信息的文本对在训练样本集中的占比为预设比值。
28.根据权利要求18或19所述的装置,还包括样本构建模块,用于:
获取训练样本集,所述训练样本集中包括多个待处理文本对;
确定各待处理文本对中输入序列和真实文本之间的文本相似度;
基于文本相似度将各待处理文本对划分到对应的相似度区间;
针对待处理文本对的数量低于数量阈值的目标相似度区间,基于上采样的方式扩充所述目标相似度区间内的待处理文本对的数量。
29.一种文本复述装置,应用于如权利要求18-28中任一项所述装置训练得到的文本复述模型,包括:
第二获取模块,用于获取待改写文本;
第二改写模块,用于将任务描述信息和所述待改写文本输入所述文本复述模型,得到与所述待改写文本意义相近的输出文本;
其中,所述任务描述信息中包括所述待改写文本和所述输出文本之间的逆序程度;所述逆序程度基于以下方法确定:
确定所述待改写文本中各句子对的先后顺序,得到所述待改写文本的句子时序序列;其中,各句子对在所述句子时序序列中分别对应各自的元素,各元素用于标记相应句子对中两个句子的先后顺序;
确定所述输出文本中各句子对的先后顺序,得到所述输出文本的句子时序序列;
确定所述待改写文本的句子时序序列和所述输出文本的句子时序序列之间的差集,基于所述差集和所述句子时序序列中元素总数的比值,确定所述逆序程度。
30.根据权利要求29所述的装置,所述任务描述信息中还包括以下中的至少一种:关键词序列、文本相似度和同义改写任务;
所述关键词序列,要求所述文本复述模型得到的输出文本中保留所述关键词序列中的关键词;
所述文本相似度,要求所述文本复述模型得到的输出文本与所述待改写文本之间的相似度满足所述文本相似度;
所述同义改写任务,要求所述文本复述模型将所述待改写文本中的词改写为同义词。
31.根据权利要求30所述的装置,还包括关键词确定模块,用于从所述待改写文本中抽取实体关键词,得到所述关键词序列。
32.根据权利要求30或31所述的装置,还包括关键词确定模块,用于
响应于关键词输入操作,将输入的关键词确定为所述关键词序列中包括的关键词。
33.根据权利要求30或31所述的装置,还包括逆序程度确定模块,用于响应于逆序程度的输入操作,得到所述逆序程度。
34.根据权利要求30或31所述的装置,还包括文本相似度确定模块,用于响应于相似度的输入操作,得到所述文本相似度。
35.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-17中任一项所述的方法。
36.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-17中任一项所述的方法。
CN202211727389.0A 2022-12-30 2022-12-30 文本复述模型的训练方法、文本复述方法及装置 Active CN116187282B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211727389.0A CN116187282B (zh) 2022-12-30 2022-12-30 文本复述模型的训练方法、文本复述方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211727389.0A CN116187282B (zh) 2022-12-30 2022-12-30 文本复述模型的训练方法、文本复述方法及装置

Publications (2)

Publication Number Publication Date
CN116187282A CN116187282A (zh) 2023-05-30
CN116187282B true CN116187282B (zh) 2024-03-08

Family

ID=86443590

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211727389.0A Active CN116187282B (zh) 2022-12-30 2022-12-30 文本复述模型的训练方法、文本复述方法及装置

Country Status (1)

Country Link
CN (1) CN116187282B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116894431B (zh) * 2023-09-07 2024-01-09 腾讯科技(深圳)有限公司 文本处理模型训练方法、文本改写方法及装置和存储介质
CN117271851A (zh) * 2023-11-22 2023-12-22 北京小米移动软件有限公司 垂类搜索方法及装置、搜索系统、存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111027331A (zh) * 2019-12-05 2020-04-17 百度在线网络技术(北京)有限公司 用于评估翻译质量的方法和装置
CN113673261A (zh) * 2021-09-07 2021-11-19 北京小米移动软件有限公司 数据生成方法、装置及可读存储介质
CN113807098A (zh) * 2021-08-26 2021-12-17 北京百度网讯科技有限公司 模型训练方法和装置、电子设备以及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150179169A1 (en) * 2013-12-19 2015-06-25 Vijay George John Speech Recognition By Post Processing Using Phonetic and Semantic Information

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111027331A (zh) * 2019-12-05 2020-04-17 百度在线网络技术(北京)有限公司 用于评估翻译质量的方法和装置
CN113807098A (zh) * 2021-08-26 2021-12-17 北京百度网讯科技有限公司 模型训练方法和装置、电子设备以及存储介质
CN113673261A (zh) * 2021-09-07 2021-11-19 北京小米移动软件有限公司 数据生成方法、装置及可读存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"Automatic scoring method of English composition based on language depth perception";Tang Dan 等;《Journal of Physics》;全文 *
"基于BERT-IDCNN-CRF的中文命名实体识别方法";李妮 等;《山东大学学报(理学版)》;第55卷(第1期);全文 *
"基于深度学习的机器写作研究——以论文摘要写作为研究案例";熊凯丽;《中国优秀硕士学位论文全文数据库 哲学与人文科学辑》;全文 *

Also Published As

Publication number Publication date
CN116187282A (zh) 2023-05-30

Similar Documents

Publication Publication Date Title
Bragg et al. Sign language recognition, generation, and translation: An interdisciplinary perspective
CN110717017B (zh) 一种处理语料的方法
US11150875B2 (en) Automated content editor
CN112131366B (zh) 训练文本分类模型及文本分类的方法、装置及存储介质
CN116187282B (zh) 文本复述模型的训练方法、文本复述方法及装置
RU2607416C2 (ru) Крауд-сорсные системы обучения лексике
CN107818085B (zh) 阅读机器人进行阅读理解的答案选择方法及系统
US8903707B2 (en) Predicting pronouns of dropped pronoun style languages for natural language translation
KR20210116379A (ko) 텍스트 창작 방법, 텍스트 창작 장치, 전자 기기 및 저장 매체
RU2721190C1 (ru) Обучение нейронных сетей с использованием функций потерь, отражающих зависимости между соседними токенами
Lin et al. Automatic translation of spoken English based on improved machine learning algorithm
WO2021121198A1 (zh) 基于语义相似度的实体关系抽取方法、装置、设备及介质
US20230023789A1 (en) Method for identifying noise samples, electronic device, and storage medium
JP7335300B2 (ja) 知識事前訓練モデルの訓練方法、装置及び電子機器
US9703773B2 (en) Pattern identification and correction of document misinterpretations in a natural language processing system
Tily et al. Rational phonological lengthening in spoken Dutch
US20220012437A1 (en) Translating method using visually represented elements, and device therefor
Hassani et al. LVTIA: A new method for keyphrase extraction from scientific video lectures
Zhu et al. Improving low-resource named entity recognition via label-aware data augmentation and curriculum denoising
CN116011450A (zh) 分词模型训练方法、系统、设备、存储介质及分词方法
CN115809658A (zh) 平行语料的生成方法及装置和无监督同义转写方法及装置
US20230111052A1 (en) Self-learning annotations to generate rules to be utilized by rule-based system
KR102299001B1 (ko) 문장의 중의성을 해결하고 생략된 문법 요소를 함께 표시하는 사용자 맞춤형 번역 방법 및 그 장치
Asscher The explanatory power of descriptive translation studies in the machine translation era
KR20210022288A (ko) 문장을 이루는 단위를 단계별 확장하여 스텝화한 영어 교육 서비스 제공 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant