CN115795008A

CN115795008A - 口语对话状态追踪模型训练方法及口语对话状态追踪方法

Info

Publication number: CN115795008A
Application number: CN202211464999.6A
Authority: CN
Inventors: 王德远; 袁彩霞; 高晖; 王小捷; 许文俊; 张平; 冯方向
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2022-11-22
Filing date: 2022-11-22
Publication date: 2023-03-14

Abstract

本申请公开了一种口语对话状态追踪模型训练方法及口语对话状态追踪方法，其中训练方法包括：获取预设的样本数据；样本数据包括正确的对话过程文本数据、经过噪声融合处理的对话过程文本数据和目标槽值标签；利用口语对话状态追踪模型，基于经过噪声融合处理的所述对话过程文本数据，进行文本纠错和槽值提取，并基于文本纠错和槽值提取的结果、正确的对话过程文本数据和目标槽值标签，计算总损失函数值，利用总损失函数值，对口语对话状态追踪模型的参数进行优化调整；其中，基于对话过程文本数据在文本纠错前后分别对应的语义向量的拼接结果，利用对话状态追踪解码器，进行槽值提取。采用本申请，可以提高口语对话状态追踪的准确度。

Description

口语对话状态追踪模型训练方法及口语对话状态追踪方法

技术领域

本发明涉及人工智能技术，特别是涉及一种口语对话状态追踪模型训练方法及口语对话状态追踪方法。

背景技术

口语对话系统旨在提取用户语句中的意图和相应的槽值，并且采取合适的对话动作生成回复。在这个系统中，一句口语经常会先经过语音识别(ASR)模块转化成文本，然后将识别的文本输入到下游模块(如对话状态追踪(DST)模块)中。在这样的管道式结构中，ASR可能会将某个实体词转录成另外一个同音词，转录后的ASR文本中包含了噪声，这些噪声严重影响了下游模块的性能。针对该问题，目前提出了一种解决方案，该方案通过引入文本纠错模型，将噪声句子恢复成干净句子再输入到下游任务模块。

发明人在实现本发明的过程中发现：采用上述解决方案进行对话状态追踪，会由存在级联误差的问题，具体分析如下：

上述引入文本纠错模型的解决方案中，对话状态追踪模块的输入数据为经由文本纠错模型进行纠错处理后的句子序列，如此，对话状态追踪模块的目标任务性能取决于文本纠错模型恢复句子序列的正确性，即如果文本纠错模型无法准确地恢复句子序列，相应的对话状态追踪模块将会输出错误的语义理解文本。因此，采用上述解决方案会存在级联误差的问题，进而影响口语对话状态追踪的准确度。

发明内容

有鉴于此，本发明的主要目的在于提供一种口语对话状态追踪模型训练方法及口语对话状态追踪方法，可以提高口语对话状态追踪的准确度。

为了达到上述目的，本发明实施例提出的技术方案为：

一种口语对话状态追踪模型的训练方法，包括：

获取预设的样本数据；所述样本数据包括正确的对话过程文本数据、经过噪声融合处理的所述对话过程文本数据和目标槽值标签；

利用口语对话状态追踪模型，基于经过噪声融合处理的所述对话过程文本数据，进行文本纠错和槽值提取，并基于所述文本纠错和所述槽值提取的结果、所述正确的对话过程文本数据和所述目标槽值标签，计算总损失函数值，利用所述总损失函数值，对所述口语对话状态追踪模型的参数进行优化调整；其中，基于所述对话过程文本数据在所述文本纠错前后分别对应的语义向量的拼接结果，利用对话状态追踪解码器，进行所述槽值提取。

本发明实施例还提出一种口语对话状态追踪方法，包括：

获取目标对话过程文本数据；

将所述目标对话过程文本数据，输入至预先训练的口语对话状态追踪模型进行槽值提取，得到所述目标对话过程文本数据对应的槽值；

其中，所述口语对话状态追踪模型基于上述训练方法得到。

综上所述，本发明提出的口语对话状态追踪模型训练方案，在口语对话状态追踪模型中融合了文本纠错功能，并在对口语对话状态追踪模型进行训练时，同时进行文本纠错和槽值提取的训练，将文本纠错后的语义向量与文本纠错前的语义向量进行拼接后，再基于该拼接的结果进行槽值提取，如此，可以避免现有技术中文本纠错模型和口语对话状态追踪模型分别独立训练所导致的级联误差问题，从而可以有效提高口语对话状态追踪的准确度。

附图说明

图1为本发明实施例的口语对话状态追踪模型训练方法流程示意图；

图2为本发明实施例的口语对话状态追踪模型框架示意图；

图3为本发明实施例的文本纠错和槽值提取方法流程示意图。

图4为本发明实施例的口语对话状态追踪方法流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图及具体实施例对本发明作进一步地详细描述。

图1为本发明实施例的口语对话状态追踪模型的训练方法流程示意图，如图1所示，该实施例主要包括：

步骤101、获取预设的样本数据；所述样本数据包括正确的对话过程文本数据、经过噪声融合处理的所述对话过程文本数据和目标槽值标签。

这里，为了在口语对话状态追踪模型训练过程中提高模型的鲁棒性，样本数据中需要包含经过噪声融合处理的对话过程文本数据。

样本数据中的对话过程文本数据即对话的上下文数据，通过将所有上文用户语句和系统语句拼接得到，可以表示为x＝{x₀,x₁,…,x_n}，其中，n表示对话过程文本数据包含的词数。相应的，经过噪声融合处理的所述对话过程文本数据可以表示为

其中，n′表示经过噪声融合处理的所述对话过程文本数据包含的词数，该文本数据中只有用户的语句带有噪声。

一种实施方式中，为了更好地模拟口语转录噪声，以提高模型的抗噪能力，可以采用下述方法对对话过程文本数据进行噪声融合处理：

步骤a1、将所述对话过程文本数据转换为语音数据。

步骤a2、将所述语音数据与预设的噪声音频进行融合。

步骤a3、将所述融合的结果转换为文本数据，得到经过噪声融合处理的所述对话过程文本数据。

一种实施方式中，为了更好地增加模型的鲁棒性，可以基于规模较大的MultiWOZ对话状态追踪数据集，构建样本数据。

考虑到本发明中的口语对话状态追踪模型为多任务模型，即整合了文本纠正任务和对话状态追踪任务(即进行槽值提取的任务)，在实际应用中，为了便于实施，对于一个正确的对话过程文本数据，可以相应地生成两个样本数据，以分别用于文本纠正任务和对话状态追踪任务的训练，相应地，这两个样本数据中还包含任务类型信息，以指示模型基于样本数据执行哪种任务，这两个样本数据中除了任务类型之外其他内容相同。

步骤102、利用口语对话状态追踪模型，基于经过噪声融合处理的所述对话过程文本数据，进行文本纠错和槽值提取，并基于所述文本纠错和所述槽值提取的结果、所述正确的对话过程文本数据和所述目标槽值标签，计算总损失函数值，利用所述总损失函数值，对所述口语对话状态追踪模型的参数进行优化调整；其中，基于所述对话过程文本数据在所述文本纠错前后分别对应的语义向量的拼接结果，利用对话状态追踪解码器，进行所述槽值提取。

这里需要说明的是，本发明中在口语对话状态追踪模型中融合了文本纠错功能，在对口语对话状态追踪模型进行训练时，同时进行文本纠错和槽值提取的训练，并将文本纠错后的语义向量与文本纠错前的语义向量进行拼接后，再基于该拼接的结果进行槽值提取，如此，可以避免现有技术中文本纠错模型和口语对话状态追踪模型分别独立训练所导致的级联误差的问题，从而可以有效提高口语对话状态追踪的准确度。

图2为本发明实施例所采用的口语对话状态追踪模型框架示意图。一种实施方式中，如图2和图3所示，具体可以采用下述方法进行文本纠错和槽值提取：

步骤301、生成所述对话过程文本数据的向量表示。

本步骤用于基于经过噪声融合处理的对话过程文本数据，生成相应的向量表示，具体可以采用现有方法实现，在此不再赘述。

步骤302、基于所述向量表示，利用纠错编码器和纠错解码器，进行文本纠错处理，得到所述对话过程文本数据的第一语义向量。

一种实施方式中，具体可以采用下述方法基于所述向量表示，利用纠错编码器和纠错解码器，进行文本纠错处理：

将所述向量表示输入至所述纠错编码器进行编码处理，并将相应的编码处理结果输入至所述纠错解码器进行解码处理，得到所述第一语义向量。

上述方法中，先利用纠错编码器对步骤201中生成的向量表示进行多头注意力计算，将其转化为一个隐向量序列H′(语义向量)，纠错编码器包含N层全连接前馈网络，具体实现同现有技术，在此不再赘述。

纠错编码器最终的输出结果，将输入至纠错解码器进行解码处理，以获得文本纠错后的语义向量，即第一语义向量。纠错解码器的具体实现同现有技术，在此不再赘述。

步骤303、基于所述向量表示，利用对话状态追踪编码器进行编码处理，得到所述对话过程文本数据的第二语义向量。

本步骤，用于利用对话状态追踪编码器，基于步骤201得到的经过噪声融合处理的对话过程文本数据对应的向量表示，进行编码处理，得到经过噪声融合处理的对话过程文本数据在文本纠错前的语义向量，即第二语义向量。

步骤304、将所述第一语义向量和所述第二语义向量进行拼接，并利用自注意力网络层，对所述拼接结果进行语义融合。

这里，为了提高后续槽值提取的准确性，利用一自注意力网络层，对文本纠错前后语义向量的拼接进行融合。

步骤305、将所述语义融合的结果，输入至对话状态追踪解码器进行解码处理，得到所述对话过程文本数据的槽值提取结果。

考虑到文本纠错处理时可能会生成错误的纠错结果，从而会影响对话状态追踪的准确性，为了减少该问题的发生，本步骤中，基于文本纠错前后语义向量的拼接融合结果，利用对话状态追踪解码器，进行槽值提取，由于语义融合结果中融合了文本纠错前后的信息，因此，可以有效减少文本纠错所导致的上述级联误差问题。

一种实施方式中，为了提高损失函数值的准确性，较佳地，步骤102中可以采用下述方法基于所述文本纠错和所述槽值提取的结果、所述正确的对话过程文本数据和所述目标槽值标签，计算总损失函数值：

步骤x1、按照

计算第一损失函数值

其中，α为预设的超参数，α≤1，

表示经过噪声融合处理的所述对话过程文本数据；x表示所述正确的对话过程文本数据，x＝{x₀,x₁,…,x_n}，n表示x中的词数；x_i表示x中的第i个词，

表示纠错解码器的输出概率，x_＜i表示在对x_i进行解码之前已经解码出的所有词，

表示x_i不是实体词，

表示x_i是实体词。

这里需要说明的是，为了提升纠错编、解码器对实体词的纠错能力，引入超参数α区分实体词和非实体词，来控制实体词的损失和非实体词的损失，即当x_i是实体词时，对应的损失值按照

得到，当x_i不是实体词时，对应的损失值按照

得到。

步骤x2、按照

计算第二损失函数值

其中，y表示所述目标槽值标签；

表示所述对话状态追踪解码器的输出概率。

步骤x3、计算所述第一损失函数值与所述第二损失函数值的和，得到所述总损失函数值。

这里由于口语对话状态追踪模型整合了文本纠正任务和对话状态追踪任务，因此，本步骤中，总损失函数值是通过计算两种任务对应的损失函数值之和得到，利用总损失函数值对模型参数进行优化。

一种实施方式中，上述纠错编码器和对话状态追踪编码器，具体可以利用预先训练的第一编码器的参数进行初始化；利用预先训练的第一解码器的参数，对所述纠错解码器和所述对话状态追踪解码器进行初始化。

为了解决预训练初期纠错任务损失方差大的问题，较佳地，可以引入课程学习的方式，利用句子困惑度等级，对所述第一编码器和所述第一解码器进行训练，具体可以采用下述步骤y1-y4实现：

步骤y1、获取预设的预训练样本数据集合，所述预训练样本数据集合包括纠错任务样本数据集合和对话状态追踪任务样本数据集合；所述预训练样本数据集合中的每个样本数据包括任务类型指示信息、正确的对话过程文本数据和相应的经过噪声融合处理的对话过程文本数据，以及目标槽值标签；所述任务类型包括纠错任务和对话状态追踪任务。

步骤y2、确定所述纠错任务样本数据集合中每个样本数据的句子困惑度，基于所述句子困惑度和预设的句子困惑度等级划分策略，确定相应样本数据的句子困惑度等级；按照所述句子困惑度等级，对所述纠错任务样本数据集合中的样本数据进行分类，得到每种句子困惑度等级各自对应的纠错任务样本数据子集。

本步骤用于将纠错任务样本数据集合中的样本数据，划分成不同句子困惑度等级对应的子集，以在后续步骤y3中，将每个子集与对话状态追踪任务样本数据集合组合，得到不同句子困惑度等级各自对应的预训练样本数据集合组。

每个样本数据的句子困惑度具体可以采用现有方式确定，在此不再赘述。

所述句子困惑度等级划分策略，可由本领域技术人员根据实际应用需要设置，例如，可以将句子困惑度等级划分为简单、中等和困难三个等级，每个等级对应不同的句子困惑度范围，但不限于此。

步骤y3、将所述对话状态追踪任务样本数据集合分别与每个所述纠错任务样本数据子集组合，得到相应句子困惑度等级对应的预训练样本数据集合组。

步骤y4、按照句子困惑度等级由低至高的顺序，依次选择一个所述预训练样本数据集合组，利用该预训练样本数据集合组中的样本数据，对编解码器训练模型进行训练。

其中，所述训练包括：从所述预训练样本数据集合组中，批量选取样本数据，利用所选取的每批样本数据，对编解码器训练模型进行相应任务的训练；每批样本数据中纠错任务和对话状态追踪任务各占一半样本数据；所述编解码器训练模型由所述第一编码器和所述第一解码器构成。

这里需要说明的是，如上文所述，由于本发明实施例中的口语对话状态追踪模型整合了文本纠错任务和对话状态追踪任务，因此，用于预训练的样本数据也有两类，一类用于纠错任务，另一类用于对话状态追踪任务。

在实际应用中，上述第一编码器和第一解码器具体可以利用T5模型进行训练。

通过上述技术方案可以看出，上述方法实施例仅利用经过语音识别的对话过程文本数据，不需要引入额外的特征信息，就可以构建准确度高、鲁棒性强的口语理解模型，具有良好的可扩展性。

基于上述口语对话状态追踪模型的训练方法实施例，相应地，本发明实施例提供了一种口语对话状态追踪方法，如图4所示，该方法包括下述步骤：

步骤401、获取目标对话过程文本数据。

步骤402、将所述目标对话过程文本数据，输入至预先训练的口语对话状态追踪模型进行槽值提取，得到所述目标对话过程文本数据对应的槽值。

其中，所述口语对话状态追踪模型基于上述口语对话状态追踪模型的训练方法实施例得到。

上述口语对话状态追踪方法实施例中，由于所采用的模型是利用本发明的口语对话状态追踪模型的训练方法实施例得到，因此，采用上述口语对话状态追踪方法，可以提高槽值提取结果的准确性和可靠性。

本发明的每一个实施例可以通过由数据处理设备如计算机执行的数据处理程序来实现。显然，数据处理程序构成了本发明。此外，通常存储在一个存储介质中的数据处理程序通过直接将程序读取出存储介质或者通过将程序安装或复制到数据处理设备的存储设备(如硬盘和或内存)中执行。因此，这样的存储介质也构成了本发明。存储介质可以使用任何类型的记录方式，例如纸张存储介质(如纸带等)、磁存储介质(如软盘、硬盘、闪存等)、光存储介质(如CD-ROM等)、磁光存储介质(如MO等)等。

因此本发明还公开了一种存储介质，其中存储有数据处理程序，该数据处理程序用于执行本发明上述方法的任何一种实施例。

另外，本发明所述的方法步骤除了可以用数据处理程序来实现，还可以由硬件来实现，例如，可以由逻辑门、开关、专用集成电路(ASIC)、可编程逻辑控制器和嵌入微控制器等来实现。因此这种可以实现本发明所述方法的硬件也可以构成本发明。

综上所述，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种口语对话状态追踪模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述进行文本纠错和槽值提取包括：

生成所述对话过程文本数据的向量表示；

基于所述向量表示，利用纠错编码器和纠错解码器，进行文本纠错处理，得到所述对话过程文本数据的第一语义向量；

基于所述向量表示，利用对话状态追踪编码器进行编码处理，得到所述对话过程文本数据的第二语义向量；

将所述第一语义向量和所述第二语义向量进行拼接，并利用自注意力网络层，对所述拼接结果进行语义融合；

将所述语义融合的结果，输入至对话状态追踪解码器进行解码处理，得到所述对话过程文本数据的槽值提取结果。

3.根据权利要求2所述的方法，其特征在于，所述基于所述向量表示，利用纠错编码器和纠错解码器，进行文本纠错处理包括：

4.根据权利要求1所述的方法，其特征在于，所述基于所述文本纠错和所述槽值提取的结果、所述正确的对话过程文本数据和所述目标槽值标签，计算总损失函数值包括：

按照

计算第一损失函数值

其中，α为预设的超参数，α≤1，

表示x_i不是实体词，

表示x_i是实体词；

按照

计算第二损失函数值

其中，y表示所述目标槽值标签；

表示所述对话状态追踪解码器的输出概率；

计算所述第一损失函数值与所述第二损失函数值的和，得到所述总损失函数值。

5.根据权利要求1所述的方法，其特征在于，所述噪声融合处理包括：

将所述对话过程文本数据转换为语音数据；

将所述语音数据与预设的噪声音频进行融合；

将所述融合的结果转换为文本数据，得到经过噪声融合处理的所述对话过程文本数据。

6.根据权利要求1所述的方法，其特征在于，所述方法进一步包括：利用预先训练的第一编码器，对所述纠错编码器和所述对话状态追踪编码器进行初始化；利用预先训练的第一解码器，对所述纠错解码器和所述对话状态追踪解码器进行初始化；其中，所述第一编码器和所述第一解码器的训练方法包括：

获取预设的预训练样本数据集合，所述预训练样本数据集合包括纠错任务样本数据集合和对话状态追踪任务样本数据集合；所述预训练样本数据集合中的每个样本数据包括任务类型指示信息、正确的对话过程文本数据和相应的经过噪声融合处理的对话过程文本数据，以及目标槽值标签；所述任务类型包括纠错任务和对话状态追踪任务；

确定所述纠错任务样本数据集合中每个样本数据的句子困惑度，基于所述句子困惑度和预设的句子困惑度等级划分策略，确定相应样本数据的句子困惑度等级；按照所述句子困惑度等级，对所述纠错任务样本数据集合中的样本数据进行分类，得到每种句子困惑度等级各自对应的纠错任务样本数据子集；

将所述对话状态追踪任务样本数据集合分别与每个所述纠错任务样本数据子集组合，得到相应句子困惑度等级对应的预训练样本数据集合组；

按照句子困惑度等级由低至高的顺序，依次选择一个所述预训练样本数据集合组，利用该预训练样本数据集合组中的样本数据，对编解码器训练模型进行训练；其中，所述训练包括：从所述预训练样本数据集合组中，批量选取样本数据，利用所选取的每批样本数据，对编解码器训练模型进行相应任务的训练；每批样本数据中纠错任务和对话状态追踪任务各占一半样本数据；所述编解码器训练模型由所述第一编码器和所述第一解码器构成。

7.一种口语对话状态追踪方法，其特征在于，包括：

获取目标对话过程文本数据；

其中，所述口语对话状态追踪模型基于权利要求1至6所述的任一训练方法得到。