CN115545010A - 一种导航播报语句生成网络的训练方法、装置及设备 - Google Patents

一种导航播报语句生成网络的训练方法、装置及设备 Download PDF

Info

Publication number
CN115545010A
CN115545010A CN202211248297.4A CN202211248297A CN115545010A CN 115545010 A CN115545010 A CN 115545010A CN 202211248297 A CN202211248297 A CN 202211248297A CN 115545010 A CN115545010 A CN 115545010A
Authority
CN
China
Prior art keywords
navigation
statement
broadcast
network
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211248297.4A
Other languages
English (en)
Inventor
阮诗斯
唐俊杰
孙振起
田宸宇
李家乐
赵文迪
曹远
王雨欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Alibaba China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba China Co Ltd filed Critical Alibaba China Co Ltd
Priority to CN202211248297.4A priority Critical patent/CN115545010A/zh
Publication of CN115545010A publication Critical patent/CN115545010A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本说明书提供一种导航播报语句生成网络的训练方法、装置及设备,获取带有风格的导航播报语句集合;其中,所述导航播报语句集合中的每个带有风格的导航播报语句具有对应的风格信息和以下至少一种:场景信息和关联信息;生成第一训练样本集,所述第一训练样本集中的每个训练样本以带有风格的导航播报语句对应的无风格的导航播报语句,以及该带有风格的导航播报语句对应的风格信息、场景信息和关联信息作为特征值,以该带有风格的导航播报语句作为标签;基于已完成预训练的通用语句生成网络,通过所述第一训练样本集更新所述通用语句生成网络,得到导航播报语句生成网络。

Description

一种导航播报语句生成网络的训练方法、装置及设备
技术领域
本说明书一个或多个实施例涉及导航技术领域,尤其涉及一种导航播报语句生成网络的训练方法、装置及设备。
背景技术
相关技术的地图应用的导航功能中一般都能选择导航播报语句的风格,比如可以选择可爱风格的导航播报语句、温柔风格的导航播报语句等等。
相关技术中不同风格的导航播报语句,一般都是通过人工对无风格的导航播报语句进行改写得到的,人工改写的方式使得不同风格导航播报语句的生成过程耗费较多人力,且人工改写的周期较长,无法快速生成多种风格的导航播报语句。
发明内容
有鉴于此,本说明书一个或多个实施例提供一种导航播报语句生成网络的训练方法、装置及设备。
根据本说明书一个或多个实施例的第一方面,提出了一种导航播报语句生成网络的训练方法,包括:
获取带有风格的导航播报语句集合;其中,所述导航播报语句集合中的每个带有风格的导航播报语句具有对应的风格信息和以下至少一种:场景信息和关联信息,所述场景信息用于表征触发播报该导航播报语句的事件,所述关联信息用于表征导航播报语句中相互关联的至少两个词;
生成第一训练样本集,所述第一训练样本集中的每个训练样本以带有风格的导航播报语句对应的无风格的导航播报语句,以及该带有风格的导航播报语句对应的风格信息、场景信息和关联信息作为特征值,以该带有风格的导航播报语句作为标签;
基于已完成预训练的通用语句生成网络,通过所述第一训练样本集更新所述通用语句生成网络,得到导航播报语句生成网络,所述通用语句生成网络用于基于输入的不完整语句生成该不完整语句对应的完整语句,所述导航播报语句生成网络用于基于无风格的导航播报语句生成带有风格的导航播报语句。
根据本说明书一个或多个实施例的第二方面,提出了一种导航播报语句的生成方法,所述方法包括:
获取网络输入信息,所述网络输入信息包括:第一导航播报语句、以及期望生成的导航播报语句的风格信息和导航信息,所述第一导航播报语句为无风格语句;
将所述网络输入信息输入导航播报语句生成网络,得到所述导航播报语句生成网络输出的第二导航播报语句,所述第二导航播报语句是与第一导航播报语句对应的带风格语句;所述导航播报语句生成网络通过上述的导航播报语句生成网络的训练方法训练得到。
根据本说明书实施例的第三方面,提供一种导航播报语句生成网络的训练装置,包括:
语句集合获取模块,用于获取带有风格的导航播报语句集合;其中,所述导航播报语句集合中的每个带有风格的导航播报语句具有对应的风格信息和以下至少一种:场景信息和关联信息,所述场景信息用于表征触发播报该导航播报语句的事件,所述关联信息用于表征导航播报语句中相互关联的至少两个词;
样本集生成模块,用于生成第一训练样本集,所述第一训练样本集中的每个训练样本以带有风格的导航播报语句对应的无风格的导航播报语句,以及该带有风格的导航播报语句对应的风格信息、场景信息和关联信息作为特征值,以该带有风格的导航播报语句作为标签;
网络更新模块,用于基于已完成预训练的通用语句生成网络,通过所述第一训练样本集更新所述通用语句生成网络,得到导航播报语句生成网络,所述通用语句生成网络用于基于输入的不完整语句生成该不完整语句对应的完整语句,所述导航播报语句生成网络用于基于无风格的导航播报语句生成带有风格的导航播报语句。
根据本说明书实施例的第四方面,提供一种导航播报语句的生成装置,包括:
输入信息获取模块,用于获取网络输入信息,所述网络输入信息包括:第一导航播报语句、以及期望生成的导航播报语句的风格信息和导航信息,所述第一导航播报语句为无风格语句;
语句生成模块,用于将所述网络输入信息输入导航播报语句生成网络,得到所述导航播报语句生成网络输出的第二导航播报语句,所述第二导航播报语句是与第一导航播报语句对应的带风格语句;所述导航播报语句生成网络通过上述的导航播报语句生成网络的训练方法训练得到。
根据本说明书实施例的第五方面,提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现本说明书实施例的导航播报语句生成网络的训练方法或导航播报语句的生成方法。
根据本说明书实施例的第六方面,提供一种计算机设备,所述计算机设备包括:
处理器;
用于存储处理器可执行指令的存储器;
所述处理器通过运行所述可执行指令以实现本说明书实施例的导航播报语句生成网络的训练方法或导航播报语句的生成方法。
本说明书提供一种导航播报语句生成网络的训练方法、装置及设备,获取带有风格的导航播报语句集合;其中,所述导航播报语句集合中的每个带有风格的导航播报语句具有对应的风格信息和以下至少一种:场景信息和关联信息,所述场景信息用于表征触发播报该导航播报语句的事件,所述关联信息用于表征导航播报语句中相互关联的至少两个词;生成第一训练样本集,所述第一训练样本集中的每个训练样本以带有风格的导航播报语句对应的无风格的导航播报语句,以及该带有风格的导航播报语句对应的风格信息、场景信息和关联信息作为特征值,以该带有风格的导航播报语句作为标签;基于已完成预训练的通用语句生成网络,通过所述第一训练样本集更新所述通用语句生成网络,得到导航播报语句生成网络,所述通用语句生成网络用于基于输入的不完整语句生成该不完整语句对应的完整语句,所述导航播报语句生成网络用于基于无风格的导航播报语句生成带有风格的导航播报语句。
利用已完成预训练的、从预训练过程中学习到了语义语法知识的语句生成网络,使得网络基于小样本进行更新后也能生成流畅通顺的导航播报语句,且在训练样本中增加了关于风格的信息,以使网络可以识别不同风格对应的表达话术,以及基于导航场景的特性,在训练样本中增加了关于导航场景相关的关联信息和场景信息,以使得模型可以学习到和风格、导航场景相关的知识,从而完成了导航播报语句生成网络的训练过程。
通过上述导航播报语句生成网络,可以快速生成导航播报语句,且生成的导航播报语句语义语法准确、带有需求风格且能正确表达导航场景下的含义。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本说明书。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本说明书的实施例,并与说明书一起用于解释本说明书的原理。
图1是本说明书根据一示例性实施例示出的一种导航播报语句生成网络的训练方法的流程图。
图2是本说明书根据一示例性实施例示出的一种导航播报语句的生成方法的流程图。
图3是本说明书根据一示例性实施例示出的一种导航播报语句生成网络的训练装置的框图。
图4是本说明书根据一示例性实施例示出的一种导航播报语句的生成装置的框图。
图5是本说明书根据一示例性实施例示出的一种导航播报语句的生成装置或导航播报语句生成网络的训练装置所在电子设备的一种硬件结构图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。
需要说明的是:在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中,其方法所包括的步骤可以比本说明书所描述的更多或更少。此外,本说明书中所描述的单个步骤,在其他实施例中可能被分解为多个步骤进行描述;而本说明书中所描述的多个步骤,在其他实施例中也可能被合并为单个步骤进行描述。
为了辅助用户按照地图应用的导航功能推荐的路线行走,导航功能一般都配备有相应的导航播报语句,地图应用一般在需要用户注意做某件事的时候播报导航播报语句以提醒用户。比如导航功能推荐的路线显示用户需要在下一个路口左转,地图应用就需要播报以下导航播报语句:“慢行,在前方红绿灯路口左转”;导航功能发现用户超速了,应用就需要播放提示用户不要超速对应的导航播报语句。
为了提升用户的使用体验,地图应用中一般会向用户提供多种拟人化风格(下文简称风格)的导航播报语句,比如可爱风格的导航播报语句、温柔风格的导航播报语句和幽默风格的导航播报语句等等。以可爱风格为例,原始的无风格的导航播报语句为“小心前方右侧来车”,可爱风格改写后的该播报语句可以为“叮咚,小心前方右侧来车!我们躲闪躲闪”。
现有的导航播报语句的风格种类有限,为了给用户更好的使用体验,地图应用存在提供给用户更多种风格的导航播报语句的需求。
相关技术中存在以下几种生成导航播报语句的方式:
第一,通过人工来对导航播报语句进行改写。这种方式通常由专业的人工团队根据需求的风格来对无风格的导航播报话术进行改写,但是这种改写需要写手具有专业的导航知识,且较为耗时,需要较高的人力和时间成本。且一般一种风格,针对一条导航播报语句只会改写出一种导航播报语句,导航播报语句难以具有多样性。而且无法针对多种不同的风格进行大规模且快速的生成。
第二,基于传统的人工神经网络来进行改写。
首先,可以基于有监督的神经网络来进行导航播报语句的改写,但是为了使得神经网络可以学习到导航领域的说法,并且能学习到需要改写的相应风格,这种有监督神经网络的训练一般需要大量的平行语料(即无风格的导航播报语句与具有特定风格的导航播报语句的组合,特定风格即该神经网络需要学习到的需要改写的相应风格),通过平行语料来训练输入无风格的导航播报语句,输出带有风格的导航播报语句的网络。而一般神经网络的训练需要大量的平行语料,而对于导航场景而言,导航的话术有限,使得带有风格的导航播报语句本身数量稀少,带有特定风格的导航播报语句就更少了(如果不是为了增加导航播报语句的多样性,而是为了生成一种新风格的导航播报语句,带有特定风格的导航播报语句的数量几乎为零),难以达到训练需求,这种方法不适用于导航应用场景。
其次,可以基于无监督的神经网络来进行导航播报语句的改写,无监督的神经网络可以通过大量带有风格的导航播报语句训练样本,来学习到句子内容和属性的潜在表示,将文本中的风格和内容抽离开,从抽取的内容中学习到风格相关的表达。训练完成后输入无风格的导航播报语句,网络会融合输入的文本和学习到的风格相关的表达,从而输出带有特定风格的导航播报语句。这种方式中,为了让网络学习到导航领域哪些是风格相关的表达,哪些是导航领域的专业词汇,一般也是需要以大量带有特定风格(即需要输出的语句的风格)的导航播报语句为训练样本,如上所述,导航场景无法获取到大量带有特定风格的导航播报语句,该方法无法适用于本场景。
此外,还可以通过将文本中的特定词语替换的方式来生成具有特定风格的导航播报语句,但是这种方式难以使得生成的导航播报语句表意清晰。
为了解决上述问题,首先,可以通过大量的语料(不限制场景,可以不是导航播报语句)对语言网络进行预训练,让网络学习到语义句法知识,这样使得通过该网络生成的语句语法正确语句通顺,并使得接下来的训练可以不使用大量样本。
相关技术中一般通过这种预训练的语言网络来执行阅读理解、摘要生成和分类任务,这样做的原因是预训练网络的训练样本一般是将一段语句中随机选取几个词替换成特殊标记[MASK],预训练网络的训练过程一般就是通过还原[MASK]处的字词从而学习到语义和语法相关的知识。在预训练完成后,便可以根据特定的小样本进行微调,将需要输出的阅读理解答案、需要生成的摘要和需要输出的分类结果作为[MASK],从而使得网络可以得到这些结果。由于网络的输入信息可能会包含多个句子,通过句子和句子之间的关联来还原[MASK],而本说明书中的方案在利用预训练网络的基础上,并不仅仅是利用了预训练网络,还将原本的多个句子的输入替换为了句子+风格信息/导航信息(将在下文进行详述),使得网络可以学习到和风格或导航相关的信息,以使得更新完成后的网络可以完成导航播报语句生成任务。
由于网络已完成了预训练(已经学习到很多带有风格的语句了),便可以通过带有风格的导航播报语句的小样本对网络进行微调,而无需再基于大量样本进行训练,让网络学习到风格相关的表达和导航场景下的特定表达,以输出符合导航场景要求的表达。
对于风格信息而言,由于网络已完成预训练,预训练的过程中会遇到各种风格的语句,因此网络中已学习到多种风格的表达,这种情况下,即使带有特定风格的导航播报语句样本的数量很少,也能通过预训练过程中学习到的风格表达,输出带有特定风格的导航播报语句。网络学习过程中的目标也就是学会该风格信息所对应的表达特征。还需要说明的是,之所以需要通过带有风格的导航播报语句来训练,而不是通过带有风格的其他语句来训练,是因为需要让网络学习到导航场景下融合风格该如何表达,这样才能使得生成的带有风格的导航播报语句更为准确。
对于导航场景下的特定表达而言,首先考虑到一般在遇到不同的事件(比如拐弯、超速等)下的表达是不同的,而在遇到相同事件的情况下的表达又是相似的,因此可以提取导航播报语句中的事件作为场景信息,使得网络学习到特定场景下的表达。
对于导航场景下的特定表达而言,其次考虑到在相同的导航场景(即上文的场景信息相同)下,很多词句一般是同时出现在同一导航播报语句中的,比如在“匝道转弯”场景下,一般会出现“控制速度”。因此可以提取出导航播报语句中的关联信息(即在相同场景下,会在导航播报语句中同时出现的至少两个词句),使得网络学习到特定场景下应该表达的内容。
换言之,本说明书提供一种导航播报语句生成网络的训练方法、装置及设备,获取带有风格的导航播报语句集合;其中,所述导航播报语句集合中的每个带有风格的导航播报语句具有对应的风格信息和以下至少一种:场景信息和关联信息,所述场景信息用于表征触发播报该导航播报语句的事件,所述关联信息用于表征导航播报语句中相互关联的至少两个词;生成第一训练样本集,所述第一训练样本集中的每个训练样本以带有风格的导航播报语句对应的无风格的导航播报语句,以及该带有风格的导航播报语句对应的风格信息、场景信息和关联信息作为特征值,以该带有风格的导航播报语句作为标签;基于已完成预训练的通用语句生成网络,通过所述第一训练样本集更新所述通用语句生成网络,得到导航播报语句生成网络,所述通用语句生成网络用于基于输入的不完整语句生成该不完整语句对应的完整语句,所述导航播报语句生成网络用于基于无风格的导航播报语句生成带有风格的导航播报语句。
通过上述导航播报语句生成网络,可以利用导航场景下的小样本快速生成导航播报语句,且生成的导航播报语句语义语法准确、带有需求风格且能正确表达导航场景下的含义。
接下来将对本说明书中示出的一种导航播报语句生成方法进行说明。
如图1所示,图1是本说明书根据一示例性实施例示出的一种导航播报语句生成网络的训练方法的流程图,包括:
步骤101,获取带有风格的导航播报语句集合。
其中,其中,所述导航播报语句集合中的每个带有风格的导航播报语句具有对应的风格信息和以下至少一种:场景信息和关联信息,所述场景信息用于表征触发播报该导航播报语句的事件,所述关联信息用于表征导航播报语句中相互关联的至少两个词。
具体而言,为了完成对于已完成预训练的语言网络的调整,需要先获取到用于调整该语言网络的样本,即带有风格的导航播报语句集合。
对于本说明书中示出的方法的执行主体而言,可以是任意可以计算的设备来执行,比如可以是地图应用的服务器,本说明书对于本说明书中的方法的执行主体不做限定。
接下来将对步骤101中涉及的各个名词进行说明。
首先,导航播报语句也就是前文说的在为用户导航过程中,用于辅助用户行驶、提醒用户按照导航功能推荐的路线行走或提醒用户规避问题的播报语句,比如可以是“一百米处,有闯红灯和违法拍照”、“当前车速87,限速80,请注意减速”、“五百米后坐庄,前方红绿灯请直行,走左侧三车道”。
带有风格的导航播报语句也就是拟人化的导航播报语句,所带有的风格也就是拟人化的方向,比如可以是可爱风格的导航播报语句,温柔风格的导航播报语句、幽默风格的导航播报语句等等。
风格信息也就是用于表征导航播报语句风格类型的信息。比如可以是“风格类型:可爱”、“风格类型:温柔”等等。加入风格信息的目的是为了让网络可以通过每个导航播报语句学习到每个风格究竟对应于什么样的表达。
场景信息和关联信息都是属于和导航场景相关的信息,和导航场景相关的信息也即导航场景下,语句中与导航相关的词句,和导航场景相关的信息是为了让网络学习到与导航相关的表达特点,从而使得最终网络生成的语句能更专业。导航信息选取场景信息和关联信息的原因详见前文,在此不再赘述。
场景信息也即触发导航播报语句的事件,这些事件一般会以某种表达形式存在于导航播报语句中。沿用前文的例子,“一百米处,有闯红灯和违法拍照”一般在导航功能推荐的路线的前方道路中有闯红灯和违法拍照时播报,以提醒用户不要违反规定,“闯红灯和违法拍照”即为场景信息;“当前车速87,限速80,请注意减速”一般在用户的车辆超速的情况下播报,以提醒用户不要违反规定,“超速”即为场景信息。此外,类似“电子眼”、“经过设施”、“来车”等也可以作为场景信息。
通过场景信息作为训练样本,可以使得网络学习到场景下的知识,从而使得生成的表达符合不同场景下对于导航播报语句的需求。
关联信息也即导航播报语句中相互关联的至少两个词句,也即一般会在导航播报语句中同时出现的至少两个词句,比如对于“匝道转弯”播报场景,生成的导航播报语句要求与“控制速度”相关,“匝道转弯”和“控制速度”也即会在导航播报语句中同时出现的两个词句。
对于导航信息的获取方法而言,其可以是获取用户输入的每个导航播报语句的导航信息,也可以是对每个导航播报语句进行关键词检测,将检测到的预设的词语作为导航信息。也可以是基于导航信息确定网络来确定的,本说明书对于导航信息的获取途径不做限定。
风格信息的获取方法,可以是获取用户输入的每个导航播报语句的导航信息,还可以是其他获取方法,其他获取方法详见后文描述,在此暂不赘述。
还需要说明的是,有些导航播报语句可能只有场景信息而没有关联信息,这种情况下,可以仅通过场景信息来生成训练样本。
最后,对步骤101的具体实现方法进行说明。
获取的带有风格的导航播报语句集合,可以是获取的已有的由人工改写的所有带有风格的导航播报语句集合。此外,有些情况下已有的由人工改写的带有风格的导航播报语句数量较少,还可以通过数据增强的方式对于人工改写的带有风格的导航播报语句进行数据增强,扩充训练数据。
数据增强的手段而言,首先可以通过同义词替换来进行数据增强。除了上述数据增强的方式,还可以是通过以下方式来进行数据增强。
具体而言,可以先获取人工改写的带有风格的导航播报语句作为第三训练样本集,由于人工改写的带有风格的导航播报语句中的大部分都是某个明星风格或者某个卡通人物风格的语句,这些导航播报语句中一般包括特殊的播报主语,或者特殊的播报实体等。比如明星A风格的导航播报语句可能是“明星A提醒您,xxxx”,这种情况下,特殊的播报主语就是“明星A”,有些卡通人物可能会有特殊的生活环境,比如卡通人物B住在C星球,那么导航播报语句中可能会含有C星球,C星球就是播报实体。
为了使得网络可以区分特殊的播报主语,或者特殊的播报实体和风格相关的表达,可以将每一句中的特殊的播报主语,或者特殊的播报实体和风格相关的表达,以及无风格的导航播报语句一起作为训练样本中的特征值(即训练样本的输入信息),将带有风格的导航播报语句(和无风格的导航播报语句表达含义相同)作为标签,得到训练样本集。并通过上述训练样本集来更新已完成预训练的语言网络,得到用于生成训练样本(即带有风格的导航播报语句)的网络,并通过该网络来获取步骤101中所需的导航播报语句集合。
此外,考虑到有些情况下希望输出的是一些不带特殊主语、实体的导航播报语句,通过将特殊主语和实体作为输入,使得网络在能够区分特殊主语和风格信息后,还可以生成不包含特殊主语的句子,从而丰富第一训练样本(由于导航播报语句生成网络最终可能也需要生成不包含特殊主语的导航播报语句,那么希望第一训练样本中的语句最好不包含特殊主语实体等,否则训练过程中还需要把特殊主语作为输入,让网络可以区分特殊主语和实体,从而输出不包含特殊主语和实体的语句),也即基于包含特殊主语和实体的训练样本得到不包含特殊主语和实体的训练样本。
换言之,所述第一训练样本集中的带有风格的导航播报语句,通过如下方式生成:生成第三训练样本集,所述第三训练样本集中的训练样本以带有风格的导航播报语句作为标签,以无风格的导航播报语句以及所述标签对应的风格信息、播报主语、谓语和实体作为特征值;通过所述第三训练样本集,对已通过非导航播报语句完成预训练的初始语句生成网络进行更新,得到样本生成网络;将无风格的导航播报语句与期望的风格信息作为输入,基于所述样本生成网络生成所述第一训练样本集中的带有风格的导航播报语句。
其中,如上所述,这里训练的时候由于第三训练样本集中很多训练样本都是含有特殊的播报主语或实体的语句,为了让网络不要把播报主语之类的内容误学习为风格相关的表达,因此本步骤中不仅需要把风格相关的信息作为输入,还需要把播报主语、谓语和实体等作为输入,以使网络学习到哪些是风格相关的表达,哪些是播报主语等信息。
上述训练样本集中有特征值和标签,也就是说上述训练过程中采用有监督的方式进行学习。
已完成预训练的初始语句生成网络,也就是通过大量的不限制场景的语料完成无监督学习的语言网络,其可以是PLMs(Pre-trained Language Models,预训练语言网络),比如可以是PLMs中的BART(Bidirectional and Auto-Regressive Transformers,双向自回归变压器),当然也可以采用GPT(Generative Pre-Training,生成式的预训练网络)、Palm(Scaling Language Modeling with Pathways,基于路径的手掌缩放语言建模)、T5(Transfer Text-to-Text Transformer,文本到文本迁移的变压器)。本说明书中对采用的语言网络不做限定。
还需要说明的是,在初始语句生成网络为PLMs的情况下,由于这种网络预训练和更新过程中一般都是通过掩码处理的语句进行的训练,比如相关技术中的已完成预训练的语言网络的训练方式一般是对一句话或几句连续的话中的词语进行随机掩码处理,也即将随机选中的词替换成预设的符号(一般是[MASK]),这样使得网络可以学习到词语的含义以及语法知识,从而能生成语义语法合适的语句。
因此在上述情况下,需要对样本生成网络更新过程中掩码处理的内容进行说明。
首先,掩码内容可以和相关技术中相同,都是随机选取部分词句进行掩码处理。
其次,考虑到掩码处理的内容实际上是网络在学习过程中需要恢复的内容,那么考虑到带有风格的导航播报语句实际上就是无风格的导航播报语句+风格信息对应的表达特征,那么可以将带有风格的导航播报语句中的风格信息对应的表达特征进行掩码(mask)处理,然后将处理后的内容作为无风格的导航播报语句,从而能使得网络更好地学习如何生成每种风格对应的表达。
其中风格对应的表达特征也即与风格表达相关的播报短句、词语等等。比如温柔风格的导航播报语句为“小心哦,前方有急转弯呀,我们慢慢来”,这里“小心哦”、“呀”、“我们慢慢来”都是温柔风格下的独有表达。
还需要说明的是,在文中其他需要对通用/初始语句生成网络进行更新的情况下,如果采用PLMs作为该语句生成网络,掩码处理的思路和上述相同,后文不再赘述。
此外,在通过样本生成网络得到大量的导航播报语句后,为了减少特殊的播报主语对于训练的影响,可以在后续训练过程中去除包括特殊播报主语和实体的样本。当然考虑到网络已经学习到主语实体等的知识,即使训练样本中包含特殊主语也不会把这些误认为是风格相关的表达,也可以是将包括特殊主语的训练样本和上述过程得到的训练样本一起作为第一训练样本集中的样本。
还需要说明的是,由于上述过程中的样本生成网络与步骤105中的导航播报语句生成网络相比,两者目的都是为了生成带有特定风格的导航播报语句,但是步骤105中的网络相比样本生成网络,其训练过程中的与导航场景相关的内容更多,这样,步骤105中网络生成的语句可以更为准确,更符合导航场景中的要求,可以被应用于地图应用中。虽然样本生成网络生成的导航播报语句不能直接应用于地图应用中,但是生成的样本可以很好的应用于步骤105的网络的更新过程中(虽然生成的有噪声,即生成的不准确,但是噪声也是更新过程中所需要的训练样本,通过利用噪声来训练可以增强网络的泛化能力)。
此外,风格信息的获取方法、输入的训练样本的具体形式将在下文进行说明,在此暂不赘述。
还需要说明的是,样本生成网络的训练过程中,训练样本除了可以包括上述内容,还可以包括:与带有风格的导航播报语句相似的语句,这样网络把相似语句作为输入,可以增强训练样本的数量。相似语句可以是通过相似度检索等的方式获取的。
换言之,所述方法还包括:从获取的第三训练样本集的带有风格的导航播报语句中,确定与每条带有风格的导航播报语句的相似度大于预设相似度阈值的相似导航播报语句;所述生成第三训练样本集,包括:生成第三训练样本集,所述第三训练样本集中的训练样本以带有风格的导航播报语句或确定的相似导航播报语句作为标签,以无风格的导航播报语句以及所述标签对应的风格信息、播报主语、谓语和实体作为特征值。
其中,播报主语、谓语和实体可以是通过网络抽取出来的,当然也可以是人工标注的。本说明书对于播报主语、谓语和实体的获取方式不做限定。
通过获取上述风格信息和导航信息,使得已完成预训练的网络在已经学习到语法语义相关的知识后,可以进一步学习到风格相关的表达以及导航相关的表达。
步骤103,生成第一训练样本集。
所述第一训练样本集中的每个训练样本以带有风格的导航播报语句对应的无风格的导航播报语句,以及该带有风格的导航播报语句对应的风格信息和导航信息作为特征值,以该带有风格的导航播报语句作为标签。
具体而言,为了完成语言网络的训练(更新),需要通过已获取的带有风格的导航播报语句集合来构建合适的训练样本集,以使得网络可以学习到相关的风格和导航知识。
本说明书中示出的方法中的导航播报语句生成网络的更新过程为有监督学习的网络,有监督学习的网络需要有标签以及标签对应的特征值(也即网络的输入)。
其中,特征值的形式可以是通过上述输入来构建提示(prompt),提示也就是能够帮助预训练语言网络回忆起自己预训练学到的知识,并将生成导航播报语句和预训练任务的统一(近似),从而让预训练语言网络作用得到更大的发挥,也就是说,将风格信息和导航信息加入到prompt中,然后拼接上无风格的导航播报语句,这样的含义也就是使得无风格的导航播报语句能以提示的内容作为学习目标,从而使得网络具有把无风格的导航播报语句改写为具有风格的导航播报语句的能力。
此外,除了直接将无风格的导航播报语句直接作为网络的输入之外,考虑到对于导航播报语句而言,其中的停用词(也可以理解为风格信息对应的表达特征)大部分是无意义的语气词和连接词,去掉了停用词之后作为输入,能让网络学到特定风格所常用的连词和语气词,从而提高训练效果。因此可以将无风格的导航播报语句的停用词去除后拼接到第一训练样本中。
停用词一般指的是无意义的语气词(比如呀、呢、了、咯等等)和连接词和一些特殊的非语气词:比如固定表达,类似宝贝。停用词具体含义详见相关技术中的描述,在此不再赘述。
当然本说明书中提及的其他训练样本集也可以采用上述的构建提示、去除停用词等的处理。
如前文所述,如果使用的是需要通过掩码处理后的样本进行训练的模型,比如PLMs等,这种情况下可以选择对风格信息对应的表达特征进行掩码处理,接下来将对导航播报语句中,风格信息对应的表达特征的获取方法进行说明。
对于风格信息对应的表达特征的获取方法而言,可以是:基于分词、TF-IDF(termfrequency–inverse document frequency,词频-逆文本频率指数)和停用词占比,以及向量相似度检索的方式来确定风格信息。
具体而言,首先需要对句子按照词意进行划分(对于中文而言),比如“当前车速87”,分词后,可以分为“当前”、“车速”和“87”。分词后就可以计算停用词占比和TF-IDF,然后基于停用词占比高TF-IDF占比低,更可能为风格相关表达的原则来筛选得到风格相关的表达,从而确定风格信息对应的表达特征(当然这里可以只基于停用词占比来确定)。
其中,停用词占比即指的是停用词在句子(非整个句子,而是短句)中的比例,比如“小心咯”中的“咯”是停用词,“小心咯”中的停用词占比即为33.3%。TF-IDF的含义详见相关技术中的描述,在此暂不赘述。
之所以是停用词占比高的句子更可能为风格相关表达(即风格信息对应的表达特征,后文同),是因为停用词占比高表征这句话中表达实际含义的词句更少,那么更可能是风格相关的表达。
还需要说明的是,分词的过程中可以先确定导航场景下的特有表达,然后再基于导航场景下的特有表达,来通过停用词占比等方式来确定风格相关的表达。这样做的原因在于,对于导航场景一些固定表达,比如“左侧”,不希望被分成“左”和“侧”,“请走”不希望被分成“请”和“走”,这样在统计停用词占比的时候,“请”会被记为停用词进行计算,这样利用停用词占比对风格相关的表达判断会不准确。同时得到导航场景下的特有表达后,根据词性进行选择,比如名词(红绿灯、路口),那这些词一定是导航相关的词,不可能为风格词,从而排除一些不可能为风格相关表达的词,使得风格信息的确定过程更为准确。其中,分词可以基于在大量导航语句中训练的导航分词器来完成。
当然分词过程中直接进行分词(不通过导航分词器)然后人工再修正也是可以的。
相似度检索也就指的是,在确定了一些风格相关表达后,可以基于确定的风格相关表达的向量,从训练样本中寻找与风格相关表达相似的词句,并将这些词句也作为风格相关的表达。
此外,考虑到如果只基于导航播报语句来寻找各个风格的风格信息,可能不能找到全部的风格相关的表达,因此这里还可以通过非导航领域的文本来学习风格相关的表达。即获取其他的文本,比如可以从互联网中挖掘一些任务访谈语料以及符合人物风格特点的短句,从挖掘出的语句中通过上述方法确定风格相关的表达。
还需要说明的是,对于挖掘的语句而言,有些句子较短,其中的风格相关的表达一般为语气词,而语气词通过长句也能学习到,因此可以不从短句中寻找风格相关的表达。
步骤105,基于已完成预训练的通用语句生成网络,通过所述第一训练样本集更新所述通用语句生成网络,得到导航播报语句生成网络。
所述通用语句生成网络用于基于输入的不完整语句生成该不完整语句对应的完整语句,所述导航播报语句生成网络用于基于无风格的导航播报语句生成带有风格的导航播报语句。
具体而言,在获取到第一训练样本集后,便可以基于第一训练样本集对已完成预训练的通用语句生成网络进行微调,从而得到所需要的导航播报语句生成网络。
其中,已完成预训练的通用语句生成网络可以参见上文描述,在此不再赘述。
对于网络的更新过程而言,可以是一次性更新,将风格信息和导航信息均作为提示,一次性完成训练过程。
当然考虑到一步一步进行训练,每次增加一个学习项目,可以使得网络的学习效果更好。因此可以分为多步,让网络学习到不同的信息。
这里将示出一种分为多步进行训练的过程,当然需要说明的是,下述例子只是一种示例并不表示对于本说明书实施方式的限定。
步骤105具体包括:基于已完成预训练的通用语句生成网络,通过所述第一训练样本集包括的第一子集更新所述通用语句生成网络,得到第一网络;所述第一子集中的训练样本以带有风格的导航播报语句作为标签,以无风格的导航播报语句以及所述标签对应的风格信息作为特征值;通过所述第一训练样本集包括的第二子集更新所述第一网络,得到第二网络;所述第二子集中的训练样本以带有风格的导航播报语句作为标签,以无风格的导航播报语句以及所述标签对应的风格信息和场景信息作为特征值;通过所述第一训练样本集包括的第三子集更新所述第二网络,得到所述导航播报语句生成网络;所述第三子集中的训练样本以带有风格的导航播报语句作为标签,以无风格的导航播报语句以及所述标签对应的风格信息、场景信息和关联信息作为特征值。
这里分为三步进行训练,使得网络可以在学习到风格信息的情况下,进一步学习到场景信息以及场景信息和风格信息之间的关联(将场景信息和风格信息都作为了输入),并再进一步学习到关联信息以及关联信息风格信息场景信息之间的关联。
此外,在进行步骤105之前,为了使得网络学习到导航场景下的表达,可以基于大量的导航场景下的语句进一步完成预训练,换言之,可以先对导航播报语句中风格对应的全部表达特征进行掩码处理,并基于这些语句对已完成预训练的初始语言网络进行预训练,预训练阶段的工作可以理解成是进行一个数据重构的过程,目的就是恢复出mask(遮蔽掩码)掉的句子相关信息(即去除的风格对应的表达特征),获得更好的词向量信息。
此外,预训练的过程中考虑到小样本场景下,导航播报语句数量可能是不足的,还可以利用与导航场景无关的互联网人物语料来完成预训练。因此将互联网语料进行风格打标(比如温柔风格、可爱风格),并将风格信息拼接到文本中,一起作为第二训练样本集中的数据参与到网络的上述预训练过程,让网络更好地学到风格相关的信息。
其中,mask是语言网络的一种训练方式,在训练的时候,会mask掉一些词,通过训练让网络恢复出mask掉的词语。预训练的方式可以参见相关技术中的描述,在此不再赘述。
换言之,在更新所述语言网络之前,所述方法还包括:确定带有风格的导航播报语句中风格信息对应的表达特征,以及获取该风格信息对应的非导航播报语句;将每个带有风格的导航播报语句中风格信息对应的表达特征进行掩码处理(这里采用的网络是需要通过掩码处理后样本进行训练的网络),并将处理后的带有风格的导航播报语句与获取的非导航播报语句进行拼接,得到第二训练样本集;针对已通过非导航播报语句完成预训练的初始语句生成网络网络,通过所述第二训练样本集继续进行预训练,得到所述已完成预训练的通用语句生成网络。
其中,该风格信息对应的非导航播报语句可以是上文说的互联网语料,由于互联网语料都有打标,可以根据打标结果确定每个风格信息对应的非导航播报语句。
其中风格信息对应的表达特征可以基于上文所述的方法进行获取,也就是至少基于每个句子中停用词的占比来确定风格信息对应的表达特征。
换言之,上述步骤中,确定带有风格的导航播报语句中风格信息对应的表达特征,包括:针对每个带有风格的导航播报语句,将该带有风格的导航播报语句分为至少一个播报短句;确定每个播报短句中的停用词和每个播报短句的停用词占比,将停用词占比大于预设阈值的播报短句作为风格信息对应的表达特征。
这样预训练得到的语言网络对于导航领域的相似词句的表达更为相似,学习到风格相关的embedding信息,比如没有经过上述预训练的网络可能“小心咯”和“注意咯”对应的向量之间的距离不是很近,但通过上述预训练后,两者的距离会更近,更合理。这样可以使得网络更好学习到风格相关的信息,使得网络可以生成与风格更相关的导航播报语句。
此外,由于预训练需要大量的语料,预训练可以基于上文样本生成网络得到的数据进行,当然也可以基于获取的人工改写的带有风格的导航播报语句进行。
此外,上述基于小样本微调的过程中(即步骤105的更新过程中),也可以采用参数冻结、对抗训练扰动等方式,来保证泛化多样性。
还需要说明的是,为了防止网络输出一些表达内容不合适(比如具有一些负面含义的词语)、表达不通畅的导航播报语句(比如前方红绿灯路口左转,请遵守交规,否则小命不保),还可以对于网络设置网络对于负面词语的过滤,不生成包含负面词语(比如命、吓、恐、怖等等)的语句。
在通过上述方法完成网络训练后,接下来便可以通过训练完成的导航播报语句生成网络来生成所需的导航播报语句。
接下来将对本说明书示出的一种导航播报语句的生成方法进行说明。
如图2所示,图2是本说明书根据一示例性实施例示出的一种导航播报语句的生成方法的流程图,包括:
步骤201,获取网络输入信息,所述网络输入信息包括:第一导航播报语句、以及期望生成的导航播报语句的风格信息和导航信息。
所述第一导航播报语句为无风格语句。
步骤203,将所述网络输入信息输入导航播报语句生成网络,得到所述导航播报语句生成网络输出的第二导航播报语句。
所述第二导航播报语句是与第一导航播报语句对应的带风格语句。
其中,和上文名称相同的词语的解释详见前文,在此不再赘述。
其中,上述导航播报语句生成网络可以是步骤105中训练得到的生成网络(也即导航播报语句生成网络通过上述的导航播报语句生成网络训练方法训练得到),也可以是通过其他方法训练得到的网络,只要是以第一导航播报语句、以及期望生成的导航播报语句的风格信息和导航信息作为输入的网络都可以作为上述的导航播报语句生成网络,本说明书对于该网络不做限定。
此外,除了输入导航播报语句和导航信息、风格信息之外,还可以输入播报主语、谓语和实体等,从而输出某个真实人物或虚拟生物所对应的导航播报语句。
在得到导航播报语句后,还可以进行相似度检测,从而排除掉一些相似的语句,保证输出的语句的多样性,得到最终的输出。
此外,还需要说明的是,在得到导航播报语句后,还可以通过人工审核筛选出符合上线要求的导航播报语句。
具体而言,首先可以基于算法计算每个输出的带有风格的导航播报语句的流畅度,从而输出流畅度大于预设阈值的导航播报语句,进而人工对这些流畅度满足要求的导航播报语句进行筛选,挑选出符合要求的导航播报语句,当然人工也可以对导航播报语句进行轻微修改以使得其更合适,从而得到大量符合导航播报场景的导航播报语句。
此外,也可以通过人工审核结果反馈给网络,进一步优化导航播报语句生成网络。
通过上述方式,可以生成满足流畅度、导航场景的要求的导航播报语句,且通过网络生成,保证了语句的生成效率。且上述过程中通过数据增强和已完成预训练的语言网络(基于大量的语料完成的)等手段使得网络训练不需要大量的导航场景下的平行语料。并且一般人工改写只会给某种含义的话提供一种说法(一种风格的情况下),但是通过上述网络可以将一种风格的一种含义的语句通过多种方式表示,提高了表达的多样性,提高了用户的使用体验。比如“前方路段限速100”,生成的各种提示慢点开的多样性表达:前方路段限速100,不要开太嗨啦。前方路段限速100,速度太快我会担心的。前方路段限速80,稍微慢一点,我会陪着你的。前方路段限速80,不要让我心跳加速啦。前方路段限速100,慢慢通过,我们一起享受美好时光吧。
接下来将通过一具体实施例来对本说明书中示出的一种导航播报语句生成网络训练方法和一种导航播报语句生成方法进行说明。
先进行总体说明。利用预训练语言网络的文本生成能力,构建了利用少量样本进行导航播报语句拟人化改写的流程机制,为播报提供不同风格文本改写的能力。该框架首先利用互联网挖掘的方式挖掘出一批中等数据量的不同人物风格数据,并获取人工写手提供的一批少量带有风格的导航播报语句;接着基于预训练语言网络BART构建合适的提示生成带有风格的导航播报语句并进行数据增强;并利用生成的伪样本领域数据对BART进行进一步预训练;随后利用精细程度较高小样本对训练过的网络进行进一步微调,使用调整后的网络进行风格文本生成。为保证生成结果的多样性,输出结果会进行相似度比较打分,使得生成语句之间的重复性尽可能降低,并将生成较优的结果自动入表交由人工审核。人工审核通过的播报话术会下发触达不同导航场景下的用户,同时会反馈给网络优化环节。
该框架能够自动化产出具有风格的导航播报话术,相比于传统的人工改写方式,极大缩短了产出周期,并可以保证带有风格的导航播报语句的快速优化迭代。
具体的流程步骤为:
Step1:互联网挖掘+导航领域小样本标注。
先从互联网中挖掘出一批人物访谈语料以及符合人物风格特点的短句(比如温柔风格可以挖掘出走温柔风格的明星A相关的语料),作为风格语料补充数据。并从上述语料中挖掘出风格相关的表达,并进行一些低质量的数据过滤和数据(例如较短的句子、停用词占比极低的句子),留下风格较明显的语料。同时,对于一小部分已有的人工写手所写的导航播报语句,进行人物风格(例如:温柔、可爱、高冷)标注,并利用导航分词器构建导航场景领域词,基于分词结果挖掘出风格相关的表达。针对已有的互联网数据和小样本领域数据,利用网络抽取出其中的主语、宾语以及实体等特征信息。
上述挖掘风格相关的表达也就是对风格相关的表达进行标注。
Step2:伪领域数据样本生成。
为了解决小样本泛化能力不高的问题,利用数据增强的方法,基于已有的导航小样本数据生成一些“伪领域数据样本”,来提升网络的泛化能力。对少量样本进行标注识别导航话术词和风格话术词。构建合适的提示(prompt)生成导航领域风格文本并进行数据增强。
具体过程如下:
1.将已有的带有风格的导航播报语句中的风格信息、特殊主语、谓语、实体等一起作为提示参与到网络的训练与生成。
其中需要说明的是,风格信息作为提示的过程具体来说,是先将语句的风格信息进行mask处理,并在训练样本中标注mask掉的内容对应的风格。
比如样本X(即样本的特征值)为:[CLS]前方急转弯[MASK][SEP]文案风格:可爱;[SEP]播报主语:明星A;[SEP]特殊称谓宾语:nan;[SEP]播报实体:nan[SEP]。标签Y为:明星A提醒你,前方有急转弯,速度慢下来,才能稳稳过弯喏~
其中[CLS]等即为特殊字符,是在预训练语言网络中的一种字符,nan意为无。“前方急转弯”即为去除停用词后的无风格导航播报语句。
还需要说明的是,上文中实际上是将风格表达特征(即与风格表达相关的内容)进行了替换处理,替换为了空格或者mask。与相关技术中不同的是,相关技术中一般会将预训练网络中的词语进行随机mask处理,本说明书中的方法并没有改变网络的输入的形式,而是改变了输入的选取方法,从随机选词进行mask处理改成了针对具有特殊特点的词进行mask处理。
且相关技术中的预训练语言网络一般用于问答、摘要生成等。且通过[SEP]拼接的内容一般是两句话,而本说明书中通过[SEP]拼接了风格类型、播报主语等内容,从而能使得网络在微调(即步骤105对应的更新过程)中能学习到导航场景下的特点。
2.训练阶段,对特征进行标记,并与无风格的导航播报语句进行停用词去除后,进行拼接,作为网络的输入,不同的特征标签间插入特殊的分隔符(插入分割符是为了使得网络可以学习到不同的特征的含义);
3.推理阶段,将无风格的导航原始播报语句进行停用词处理,加上期望生成的风格信息(部分提示词,比如特殊主语、实体、谓语,可以缺失,这样可以生成不带特殊主语的导航播报语句),作为提示,送入训练好的网络,生成带有风格的导航播报语句。
同时基于其它两个维度进行数据增强:
1.EDA:同义词替换;即在完成上述内容后,进行同义词替换,完成数据增强。
2.检索数据增强:从训练数据检索与输入文本最相似的文本,然后将它们作为提示与输入文本拼接后以输入网络。
还需要说明的是,由于step2和step3中一直是对同一个网络进行一步一步的处理,在step2中已学习到的和风格相关的内容网络不会忘记,因此在step3的训练过程中无需单独以风格信息作为提示进行训练。
Step3:带有风格的导航播报语句的生成
利用step2中生成的量级较大的伪领域数据样本,采取三阶段训练的模式,进行带有风格的导航播报语句的生成。
第一阶段采用启发式预训练,使用第一步中学习到的风格信息识别来mask掉生成的带有风格的导航播报语句中与风格相关的字(即去掉伪领域数据样本中的风格对应的表达特征),基于大规模预训练网络上进行进一步预训练,学到风格相关的字的embedding信息,迫使预训练网络生成更相关的文本。考虑到小样本场景下,需要利用起来领域无关的互联网人物语料,因此将互联网语料进行风格打标,并将风格信息拼接到文本中,一起作为训练语料参与到网络的训练过程,让网络更好地学到风格相关的信息。
第二阶段利用带有风格的导航播报语句去微调第一阶段预训练的网络,学习导航场景上下文特征。主要考虑以下几点:1、导航领域播报话术涉及不同的场景,例如:“电子眼”、“限速”、“经过设施”等。我们考虑将文本的风格信息以及场景信息,一起作为提示;2、训练阶段,将风格信息以及场景信息(这里风格信息被mask掉,训练样本中的风格信息即指的是风格的种类,比如温柔、可爱、幽默等等),以及原始无风格的播报话术进行停用词去除后,进行拼接,作为网络的输入,不同的特征标签间插入特殊的分隔符。3、让网络在上述训练样本上学到风格加场景信息。
第三阶段利用更少的数据区精调第二阶段生成的网络,进一步学到关联信息。考虑到对于可上线的拟人化导航播报语句,通常有一些额外的其它限制。例如:对于“匝道转弯”播报场景,生成的挂接文本要求与“控制速度”相关。因此这里考虑对使用符合上线要求的小样本带有风格的导航播报UI及,进行关联信息提取,然后将文本的风格信息、场景信息、以及关联信息,一起作为提示参与到网络的训练与生成。最终利用微调后网络预测出来的结果使用text2vec进行相似度去重,保证生成的多样性。
Step4:人工审核上线
经过前3个自动化流程后,将算法认为生成的优质拟人化导航播报语句(即流畅度大于一定值)发送给运营人员,运营人员从用户体验的角度挑选,或进行轻微修改,生成更符合导航场景的播报话术。人工审核通过的播报话术会下发触达不同导航场景下的用户,同时也会反馈给我们进入网络优化环节,回流结果供网络训练数据补充优化。这套流程不再依赖于写手人工改写,仅需从网络生成的结果中进行挑选或轻微修改,就能快速得到合适的拟人化导航播报语句,效率得到了较大的提升。
利用已从大规模语料库中学习到了大量的语义和句法知识的预训练网络,在不需要大量的平行语料的条件下,进行导航场景下小样本基于提示的微调,生成伪领域数据样本;并采用分段训练的结构,分步让网络学到风格信息、场景信息以及关联信息,达到生成文本流畅度、准确度较高的语句的效果。并且提升了内容生成的多样性。
与前述方法的实施例相对应,本说明书还提供了装置及其所应用的计算机设备的实施例。
如图3所示,图3是本说明书根据一示例性实施例示出的一种导航播报语句生成网络的训练装置的框图,所述装置包括:
语句集合获取模块310,用于获取带有风格的导航播报语句集合;其中,所述导航播报语句集合中的每个带有风格的导航播报语句具有对应的风格信息和以下至少一种:场景信息和关联信息,所述场景信息用于表征触发播报该导航播报语句的事件,所述关联信息用于表征导航播报语句中相互关联的至少两个词。
样本集生成模块320,用于生成第一训练样本集,所述第一训练样本集中的每个训练样本以带有风格的导航播报语句对应的无风格的导航播报语句,以及该带有风格的导航播报语句对应的风格信息、场景信息和关联信息作为特征值,以该带有风格的导航播报语句作为标签。
网络更新模块330,用于基于已完成预训练的通用语句生成网络,通过所述第一训练样本集更新所述通用语句生成网络,得到导航播报语句生成网络,所述通用语句生成网络用于基于输入的不完整语句生成该不完整语句对应的完整语句,所述导航播报语句生成网络用于基于无风格的导航播报语句生成带有风格的导航播报语句。
在一可选实施例中,还包括预训练模块300(图中未示出),包括特征确定子模块301(图中未示出),用于确定带有风格的导航播报语句中风格信息对应的表达特征,以及获取该风格信息对应的非导航播报语句;预训练子模块302(图中未示出),用于将每个带有风格的导航播报语句中风格信息对应的表达特征进行掩码处理,并将处理后的带有风格的导航播报语句与获取的非导航播报语句进行拼接,得到第二训练样本集;针对已通过非导航播报语句完成预训练的初始语句生成网络网络,通过所述第二训练样本集继续进行预训练,得到所述已完成预训练的通用语句生成网络。
在一可选实施例中,特征确定子模块301(图中未示出),用于针对每个带有风格的导航播报语句,将该带有风格的导航播报语句分为至少一个播报短句;确定每个播报短句中的停用词和每个播报短句的停用词占比,将停用词占比大于预设阈值的播报短句作为风格信息对应的表达特征,获取该风格信息对应的非导航播报语句。
在一可选实施例中,网络更新模块330,用于基于已完成预训练的通用语句生成网络,通过所述第一训练样本集包括的第一子集更新所述通用语句生成网络,得到第一网络;所述第一子集中的训练样本以带有风格的导航播报语句作为标签,以无风格的导航播报语句以及所述标签对应的风格信息作为特征值;通过所述第一训练样本集包括的第二子集更新所述第一网络,得到第二网络;所述第二子集中的训练样本以带有风格的导航播报语句作为标签,以无风格的导航播报语句以及所述标签对应的风格信息和场景信息作为特征值;通过所述第一训练样本集包括的第三子集更新所述第二网络,得到所述导航播报语句生成网络;所述第三子集中的训练样本以带有风格的导航播报语句作为标签,以无风格的导航播报语句以及所述标签对应的风格信息、场景信息和关联信息作为特征值。
在一可选实施例中,还包括用于获取第一训练样本集中的带有风格的导航播报语句的语句获取模块340(图中未示出),包括样本集获取子模块341(图中未示出),用于生成第三训练样本集,所述第三训练样本集中的训练样本以带有风格的导航播报语句作为标签,以无风格的导航播报语句以及所述标签对应的风格信息、播报主语、谓语和实体作为特征值;样本生成子模块342(图中未示出),用于通过所述第三训练样本集,对已通过非导航播报语句完成预训练的初始语句生成网络进行更新,得到样本生成网络;将无风格的导航播报语句与期望的风格信息作为输入,基于所述样本生成网络生成所述第一训练样本集中的带有风格的导航播报语句。
在一可选实施例中,还包括相似语句获取模块350(图中未示出),用于从获取的第三训练样本集的带有风格的导航播报语句中,确定与每条带有风格的导航播报语句的相似度大于预设相似度阈值的相似导航播报语句;样本集获取子模块341(图中未示出),用于生成第三训练样本集,所述第三训练样本集中的训练样本以带有风格的导航播报语句或确定的相似导航播报语句作为标签,以无风格的导航播报语句以及所述标签对应的风格信息、播报主语、谓语和实体作为特征值。
如图4所示,图4是本说明书根据一示例性实施例示出的一种导航播报语句的生成装置的框图,所述装置包括:
输入信息获取模块410,用于获取网络输入信息,所述网络输入信息包括:第一导航播报语句、以及期望生成的导航播报语句的风格信息和导航信息,所述第一导航播报语句为无风格语句;
语句生成模块420,用于将所述网络输入信息输入导航播报语句生成网络,得到所述导航播报语句生成网络输出的第二导航播报语句,所述第二导航播报语句是与第一导航播报语句对应的带风格语句;所述导航播报语句生成网络通过上述的导航播报语句生成网络的训练方法训练得到。
上述装置中各个模块的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
如图5所示,图5示出了实施例导航播报语句的生成装置或导航播报语句生成网络的训练装置所在计算机设备的一种硬件结构图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的导航播报语句的生成方法或导航播报语句生成网络的训练方法。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
本说明书实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本说明书实施例的导航播报语句的生成方法或导航播报语句生成网络的训练方法。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
本说明书还提供一种计算机程序,该程序被处理器运行时实现本说明书实施例的导航播报语句的生成方法或导航播报语句生成网络的训练方法。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。

Claims (11)

1.一种导航播报语句生成网络的训练方法,包括:
获取带有风格的导航播报语句集合;其中,所述导航播报语句集合中的每个带有风格的导航播报语句具有对应的风格信息和以下至少一种:场景信息和关联信息,所述场景信息用于表征触发播报该导航播报语句的事件,所述关联信息用于表征导航播报语句中相互关联的至少两个词;
生成第一训练样本集,所述第一训练样本集中的每个训练样本以带有风格的导航播报语句对应的无风格的导航播报语句,以及该带有风格的导航播报语句对应的风格信息、场景信息和关联信息作为特征值,以该带有风格的导航播报语句作为标签;
基于已完成预训练的通用语句生成网络,通过所述第一训练样本集更新所述通用语句生成网络,得到导航播报语句生成网络,所述通用语句生成网络用于基于输入的不完整语句生成该不完整语句对应的完整语句,所述导航播报语句生成网络用于基于无风格的导航播报语句生成带有风格的导航播报语句。
2.根据权利要求1所述的方法,在更新所述通用语句生成网络之前,所述方法还包括:
确定带有风格的导航播报语句中风格信息对应的表达特征,以及获取该风格信息对应的非导航播报语句;
将每个带有风格的导航播报语句中风格信息对应的表达特征进行掩码处理,并将处理后的带有风格的导航播报语句与获取的非导航播报语句进行拼接,得到第二训练样本集;
针对已通过非导航播报语句完成预训练的初始语句生成网络,通过所述第二训练样本集继续进行预训练,得到所述已完成预训练的通用语句生成网络。
3.根据权利要求2所述的方法,所述确定带有风格的导航播报语句中风格信息对应的表达特征,包括:
针对每个带有风格的导航播报语句,将该带有风格的导航播报语句分为至少一个播报短句;
确定每个播报短句中的停用词和每个播报短句的停用词占比,将停用词占比大于预设阈值的播报短句作为风格信息对应的表达特征。
4.根据权利要求1所述的方法,所述基于已完成预训练的通用语句生成网络,通过所述第一训练样本集更新所述通用语句生成网络,得到导航播报语句生成网络,包括:
基于已完成预训练的通用语句生成网络,通过所述第一训练样本集包括的第一子集更新所述通用语句生成网络,得到第一网络;所述第一子集中的训练样本以带有风格的导航播报语句作为标签,以无风格的导航播报语句以及所述标签对应的风格信息作为特征值;
通过所述第一训练样本集包括的第二子集更新所述第一网络,得到第二网络;所述第二子集中的训练样本以带有风格的导航播报语句作为标签,以无风格的导航播报语句以及所述标签对应的风格信息和场景信息作为特征值;
通过所述第一训练样本集包括的第三子集更新所述第二网络,得到所述导航播报语句生成网络;所述第三子集中的训练样本以带有风格的导航播报语句作为标签,以无风格的导航播报语句以及所述标签对应的风格信息、场景信息和关联信息作为特征值。
5.根据权利要求1所述的方法,所述第一训练样本集中的带有风格的导航播报语句,通过如下方式生成:
生成第三训练样本集,所述第三训练样本集中的训练样本以带有风格的导航播报语句作为标签,以无风格的导航播报语句以及所述标签对应的风格信息、播报主语、谓语和实体作为特征值;
通过所述第三训练样本集,对已通过非导航播报语句完成预训练的初始语句生成网络进行更新,得到样本生成网络;
将无风格的导航播报语句与期望的风格信息作为输入,基于所述样本生成网络生成所述第一训练样本集中的带有风格的导航播报语句。
6.根据权利要求5所述的方法,
所述方法还包括:从获取的第三训练样本集的带有风格的导航播报语句中,确定与每条带有风格的导航播报语句的相似度大于预设相似度阈值的相似导航播报语句;
所述生成第三训练样本集,包括:
生成第三训练样本集,所述第三训练样本集中的训练样本以带有风格的导航播报语句或确定的相似导航播报语句作为标签,以无风格的导航播报语句以及所述标签对应的风格信息、播报主语、谓语和实体作为特征值。
7.一种导航播报语句的生成方法,所述方法包括:
获取网络输入信息,所述网络输入信息包括:第一导航播报语句、以及期望生成的导航播报语句的风格信息和导航信息,所述第一导航播报语句为无风格语句;
将所述网络输入信息输入导航播报语句生成网络,得到所述导航播报语句生成网络输出的第二导航播报语句,所述第二导航播报语句是与第一导航播报语句对应的带风格语句;所述导航播报语句生成网络通过权利要求1-6任一所述的方法训练得到。
8.一种导航播报语句生成网络的训练装置,包括:
语句集合获取模块,用于获取带有风格的导航播报语句集合;其中,所述导航播报语句集合中的每个带有风格的导航播报语句具有对应的风格信息和以下至少一种:场景信息和关联信息,所述场景信息用于表征触发播报该导航播报语句的事件,所述关联信息用于表征导航播报语句中相互关联的至少两个词;
样本集生成模块,用于生成第一训练样本集,所述第一训练样本集中的每个训练样本以带有风格的导航播报语句对应的无风格的导航播报语句,以及该带有风格的导航播报语句对应的风格信息、场景信息和关联信息作为特征值,以该带有风格的导航播报语句作为标签;
网络更新模块,用于基于已完成预训练的通用语句生成网络,通过所述第一训练样本集更新所述通用语句生成网络,得到导航播报语句生成网络,所述通用语句生成网络用于基于输入的不完整语句生成该不完整语句对应的完整语句,所述导航播报语句生成网络用于基于无风格的导航播报语句生成带有风格的导航播报语句。
9.一种导航播报语句的生成装置,包括:
输入信息获取模块,用于获取网络输入信息,所述网络输入信息包括:第一导航播报语句、以及期望生成的导航播报语句的风格信息和导航信息,所述第一导航播报语句为无风格语句;
语句生成模块,用于将所述网络输入信息输入导航播报语句生成网络,得到所述导航播报语句生成网络输出的第二导航播报语句,所述第二导航播报语句是与第一导航播报语句对应的带风格语句;所述导航播报语句生成网络通过权利要求1-6任一所述的方法训练得到。
10.一种计算机设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器通过运行所述可执行指令以实现如权利要求1-7中任一项所述的方法。
11.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机指令,所述计算机指令被处理器执行时实现如权利要求1-7中任一项所述的方法。
CN202211248297.4A 2022-10-12 2022-10-12 一种导航播报语句生成网络的训练方法、装置及设备 Pending CN115545010A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211248297.4A CN115545010A (zh) 2022-10-12 2022-10-12 一种导航播报语句生成网络的训练方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211248297.4A CN115545010A (zh) 2022-10-12 2022-10-12 一种导航播报语句生成网络的训练方法、装置及设备

Publications (1)

Publication Number Publication Date
CN115545010A true CN115545010A (zh) 2022-12-30

Family

ID=84734015

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211248297.4A Pending CN115545010A (zh) 2022-10-12 2022-10-12 一种导航播报语句生成网络的训练方法、装置及设备

Country Status (1)

Country Link
CN (1) CN115545010A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117709355A (zh) * 2024-02-05 2024-03-15 四川蜀天信息技术有限公司 一种提高大语言模型训练效果的方法、装置及介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117709355A (zh) * 2024-02-05 2024-03-15 四川蜀天信息技术有限公司 一种提高大语言模型训练效果的方法、装置及介质

Similar Documents

Publication Publication Date Title
CN110717339A (zh) 语义表示模型的处理方法、装置、电子设备及存储介质
WO2018028077A1 (zh) 一种基于深度学习的中文语义分析的方法及装置
CN110717017A (zh) 一种处理语料的方法
CN111738016B (zh) 多意图识别方法及相关设备
US11847414B2 (en) Robustness to adversarial behavior for text classification models
CN109145153A (zh) 意图类别的识别方法和装置
CN107657056B (zh) 基于人工智能展示评论信息的方法和装置
CN107767871A (zh) 文本显示方法、终端及服务器
CN108628868B (zh) 文本分类方法和装置
CN110598095B (zh) 一种识别包含指定信息文章的方法、装置及存储介质
CN114218379B (zh) 一种面向智能问答系统的无法回答问题的归因方法
CN111241285A (zh) 问题回答类型的识别方法、装置、设备及存储介质
CN111611393A (zh) 一种文本分类方法、装置及设备
CN115099197A (zh) 一种公文自动写作方法
CN109472022A (zh) 基于机器学习的新词识别方法及终端设备
CN115545010A (zh) 一种导航播报语句生成网络的训练方法、装置及设备
US11653071B2 (en) Responsive video content alteration
CN110377691A (zh) 文本分类的方法、装置、设备及存储介质
CN113779227B (zh) 案情事实抽取方法及系统及装置及介质
CN112183095A (zh) 一种事件抽取方法和装置
Tseng et al. Tree-structured semantic encoder with knowledge sharing for domain adaptation in natural language generation
CN114722832A (zh) 一种摘要提取方法、装置、设备以及存储介质
CN113505589A (zh) 一种基于bert模型的mooc学习者认知行为识别方法
Bartička et al. Evaluating attribution methods for explainable nlp with transformers
O’Neill et al. Quantitative discourse analysis at Scale—AI, NLP and the transformer revolution

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination