CN111048074A

CN111048074A - 一种用于辅助语音识别的上下文信息生成方法及装置

Info

Publication number: CN111048074A
Application number: CN201911355330.1A
Authority: CN
Inventors: 岳思齐; 解刚; 雷欣; 李志飞
Original assignee: Mobvoi Information Technology Co Ltd
Current assignee: Mobvoi Information Technology Co Ltd; Chumen Wenwen Information Technology Co Ltd
Priority date: 2019-12-25
Filing date: 2019-12-25
Publication date: 2020-04-21

Abstract

本申请公开了一种用于辅助语音识别的上下文信息生成方法、装置及存储介质，其中，所述方法包括：在与用户的第n轮对话过程中，基于上下文处理策略，得到在第n轮对话中用户回复中预计包含的上下文信息；其中，所述预计包含的上下文信息用于为语音识别模块对所述用户在第n轮对话中的语音信息进行识别提供识别参考；其中，n为大于等于1的整数；存储所述在第n轮对话中用户回复中预计包含的上下文信息及其对应的链接信息；其中，所述链接信息用于为语音识别模块提供获取所述预计包含的上下文信息的接口链接。

Description

一种用于辅助语音识别的上下文信息生成方法及装置

技术领域

本申请涉及信息处理领域，尤其涉及一种用于辅助语音识别的上下文信息生成方法、装置及存储介质。

背景技术

随机技术的发展，越来越多的行业使用到了人机对话系统来进行业务处理，比如，一些行业中需要通过使用人机对话系统对用户进行核实身份等处理。人机对话系统中的智能问答系统可以结合用户信息，生成多种问题，再通过语音交互流程，收集用户的答案，最终对用户回答进行正确性判别。在前述的处理过程中，如何准确有效的对语音进行识别是保证整体对话效果的一个重要因素。

发明内容

本申请提供一种用于辅助语音识别的上下文信息生成方法、装置及存储介质，以解决现有技术中存在的上述问题。

本发明一方面提供一种用于辅助语音识别的上下文信息生成方法，所述方法包括：

在与用户的第n轮对话过程中，基于上下文处理策略，得到在第n轮对话中用户回复中预计包含的上下文信息；其中，所述预计包含的上下文信息用于为语音识别模块对所述用户在第n轮对话中的语音信息进行识别提供识别参考；其中，n为大于等于1的整数；

存储所述在第n轮对话中用户回复中预计包含的上下文信息及其对应的链接信息；其中，所述链接信息用于为语音识别模块提供获取所述预计包含的上下文信息的接口链接

本发明另一方面提供一种用于辅助语音识别的上下文信息生成装置，所述装置包括：

上下文处理策略单元，用于在与用户的第n轮对话过程中，基于上下文处理策略，得到在第n轮对话中用户回复中预计包含的上下文信息；其中，所述预计包含的上下文信息用于为语音识别模块对所述用户在第n轮对话中的语音信息进行识别提供识别参考；其中，n为大于等于1的整数；

数据库，用于存储所述在第n轮对话中用户回复中预计包含的上下文信息及其对应的链接信息；其中，所述链接信息用于为语音识别模块提供获取所述预计包含的上下文信息的接口链接。

本发明另一方面还提供一种存储介质，所述存储介质用于存储计算机指令，所述计算机指令用于使所述计算机执行前述方法。

通过采用上述方案，就能够在与用户的对话交互过程中，对用户回复的内容进行预测得到预计包含的上下文信息，进而保存该上下文信息及其链接信息；该链接信息能够为语音识别模块预先提供获取所述上下文信息的接口链接。如此，通过预判用户回复可能包含的上下文信息，为语音识别提供相应的参考，就能够提升语音识别模块的识别的准确率，进而由于能够提升识别的准确率，能够有效的避免在后续的识别过程中会出现的同音字、近音字等问题。

附图说明

图1为本发明实施例提供的一种用于辅助语音识别的上下文信息生成方法流程示意图一；

图2为本发明实施例提供的一种用于辅助语音识别的上下文信息生成方法流程示意图二；

图3为本发明实施例提供的一种用于辅助语音识别的上下文信息生成装置的组成结构示意图一；

图4为本发明实施例提供的一种用于辅助语音识别的上下文信息生成装置的组成结构示意图二。

具体实施方式

为使本申请的目的、特征、优点能够更加的明显和易懂，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而非全部实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在相关技术中，经常将人机对话系统应用在电话核验中，比如，一些金融机构将其用于对客户进行身份核实等处理过程中。由于电话核验问题多样化、用户信息个性化程度高的特点，使得一般的对话系统在此场景下表现难以满足商业需求。其中，语音识别的准确率对对话整体效果的影响至关重要。因此，作为对话流程控制者的对话管理系统，在实现基本流程设计的基础上，应当可以提供额外的信息，帮助语音识别模块完成任务。

具体来说，相关技术中一个典型的人机对话系统有五大模块：

语音识别(ASR)模块，负责将用户语音转换为文字；

语义理解(NLU)模块，负责从文字中提取用户意图与相关信息；

对话管理系统(DM)模块，负责管理对话流程，更新对话状态，决定系统下一步的回复；

自然语言生成(NLG)模块，负责将DM模块给出的回复转换为自然语言；

语音合成(TTS)模块，负责将NLG输出的文本转化为音频。

其中，现在主流的支持多轮对话的对话系统设计有三种模式：

任务式对话系统：以微软提出的TCP系统为代表，对话被抽象为提取意图-追问并填充词槽-完成任务的形式；

端到端的对话系统：DM与NLU以及NLG模块融合，基于统计学习，对于给定的输入直接给出回复文本；

流程式对话系统：人为指定对话流程，规定在给定状态下的回复策略与状态的转移策略。

在电核场景下，流程式对话系统更加适用。这是因为任务式对话系统较多地用于客服场景。会话起始于用户的提问，考虑到用户意图的开放性，系统只能基于用户表达本身进行分析；而在电核场景下，是由系统进行提问，上下文由系统引导，有更多可以参考的信息。

端到端对话系统较多地用于闲聊场景。因为设计师难以显式地控制对话流程，根据数据与模型的不同，可能出现意料之外的回复，不适合电核的严肃场景。

因此，流程式对话系统更加适合电核场景的需要。在流程式对话系统中，DM模块可以严格地控制当前对话所处的状态，了解整个系统的各种信息，包括问卷的进度甚至问题的答案等。

大多数的语音对话系统中，ASR模块与DM模块是无关的，DM模块中获取的对话状态信息不能对ASR的识别提供帮助。而在电核场景下，一方面电话信号本身的音频质量较差，用户使用环境通常比较嘈杂，因此识别效果相对较差；另一方面，电核问卷中包含“请说出您家附近的餐厅”“请问您的联系人是谁”等问题，而地点名、人名等专有名词大概率包含多音、近音字，如“夹拣成厨麻辣烫”“邓紫棋”等，只凭音频数据无法正确转写。

进一步的分析表明，对于用户问题的判断，绝大多数情况下依赖的只是ASR结果中的部分关键词。反之，若关键词错误，即使ASR整体字/词准确率较高，对于顺利完成对话交互却并无太大帮助。

ASR识别的识别效果可以通过在新数据集上重新训练模型提升。但是以下原因使得ASR模型的训练成本极高：电核场景下的问题多种多样，且业务方希望快速迭代；地名信息更新换代极快，而人名信息更是不可预知；语音标注任务需要大量人工参与；ASR模型训练本身算力消耗大。

因此，多次训练模型是不现实的。应当寻找在对话过程中实时辅助ASR识别的方法。而DM模块所持有的系统信息，可以对ASR提供一定的帮助。

针对这一需求，本实施例提供一种方案，能够适应电核场景下的对话特点，辅助语音识别，提升端到端准确率，节省定制化开发的时间。

基于以上的分析，本申请实施例提供一种用于辅助语音识别的上下文信息生成方法，如图1所示，包括：

S11：在与用户的第n轮对话过程中，基于上下文处理策略，得到在第n轮对话中用户回复中预计包含的上下文信息；其中，所述预计包含的上下文信息用于为语音识别模块对所述用户在第n轮对话中的语音信息进行识别提供识别参考；其中，n为大于等于1的整数；

S12：存储所述在第n轮对话中用户回复中预计包含的上下文信息及其对应的链接信息；其中，所述链接信息用于为语音识别模块提供获取所述预计包含的上下文信息的接口链接。

前述在第n轮对话中用户回复中预计包含的上下文信息，可以理解为在第n轮对话过程中，对用户在本轮对话中可能的回复进行预判得到的上下文信息。需要理解的是，不同轮对话过程可能预判得到的上下文信息是不同的。比如，第n+1轮对话中生成在第n+1轮对话中预判得到的上下文信息，就与第n轮预判得到的上下文信息是不同的。

本实施例可以应用于对话系统中，具体的可以设置在前述的DM模块中。也就是说，可以通过DM模块中添加一个子模块：上下文处理模块，来实现本实施例的功能。

前述上下文处理模块会依照当前所处的流程位置，提供用户可能使用的上下文信息，作为ASR模块下一轮识别的参考。这样能显著地提升ASR的识别效果，从而提升端到端准确率。

总的来说本实施例提供的方案为，在DM模块给出本轮的系统回复同时，通过追踪当前对话状态，预判用户回复中可能包含的问题类型、关键字等上下文信息，储存并在需要时更新。同时，DM的系统回复中会包含一个用来获取这些上下文信息的链接字段，供ASR服务调用。在下一轮次的语音识别开始之前，ASR会通过此链接，获取当轮信息，从而定向增强识别效果。

具体的，在执行前述步骤S11之前，还可以包括：

保存初始的上下文信息。

也就是说，在整个对话开始之前，可以先进行初始化，将初始化的上下文信息存储在数据库中。

其中，所述初始的上下文信息可以为空，又或者，可以根据实际需要进行设置，比如设置为某些关键词或者设置为某种语音模型类型，这里不进行限定。

完成前述设置之后可以执行后续步骤S11以及S12。

前述第n轮对话交互可以理解为对话开始之后，用户会与系统进行多轮对话，比如可以描述为用户会与系统之间进行N轮对话(N大于等于1)，其中的当前的一轮对话即为前述第n轮。其中，n可以为N轮对话中的任意一轮，因此，n可以认为是大于等于1且小于等于N的整数。

前述S11中，所述基于上下文处理策略，得到在第n轮对话中用户回复中预计包含的上下文信息，包括：

在第n轮对话交互过程中，在确定第n轮系统回复、并且在发出所述第n轮系统回复之前，判断所述第n轮系统回复是否满足上下文更新条件，得到判断结果；

基于所述判断结果，确定是否基于上下文处理策略，生成所述在第n轮对话中用户回复中预计包含的上下文信息。

也就是说，在每一轮对话交互过程中，在系统确定进行回复，并且在发出回复之前，判断是否满足上下文更新条件。

其中，所述上下文更新条件包括以下至少之一：

旧问题结束、新问题开始、进入非问答流程。

其中，所述非问答流程可以理解为一种特殊交互流程。例如用户要求停止审核，系统将对此进行确认。此时的上下文信息也可能会更新。由上下文追踪器和上下文处理策略决定。

进一步地，所述基于所述判断结果，确定是否基于上下文处理策略生成所述在第n轮对话中用户回复中预计包含的上下文信息，包括：

在所述判断结果表征满足上下文更新条件的情况下，调用上下文处理策略，基于所述上下文处理策略，生成所述在第n轮对话中用户回复中预计包含的上下文信息，将保存的原上下文信息，更新为所述在第n轮对话中用户回复中预计包含的上下文信息；

在所述判断结果表征不满足上下文更新条件的情况下，保持原上下文信息不变。

原上下文信息可以为第n-1轮对话中预计包含的上下文信息。再进一步地，如果当前第n轮交互为第1轮交互，那么第n-1轮为第0轮，此时，原上下文信息可以理解为前述初始上下文信息。

又或者，如果第n-1轮没有预判得到上下文信息，但是第n-2轮得到对应的上下文信息，那么所述原上下文信息即为第n-2轮预判得到的上下文信息。

也就是说，如果在当前情况满足上下文更新条件的时候，可以基于上下文处理策略，生成对应的本轮的上下文信息，并且替换掉原来保存的上下文信息；否则，仍然沿用原上下文信息。

所的上下文信息，包括以下至少之一：

问题对应的语音模型的类型；至少一个备选词。

具体来说，所述问题对应的语音模型的类型用于使得ASR基于此字段确认基础模型类型。例如，确认性问题的ASR模型定向增强了“是的”“没问题”等句子的识别效果；年份相关问题定向增强了时间相关的识别效果。所述问题对应的语音模型，是由上下文处理策略基于当前问题独立的配置字段确定的。

所述备选词，可以为用户在此轮回答中最可能使用的词汇列表。如特定地点名、人名等。ASR在基础模型支持的前提下，会定向增强对备选词的识别效果。

上下文处理策略将会基于以下条件中至少之一来确定是否进行备选词的选择：

当前题目的预设类型；当前题目的题干是否满足某个规则(如包含某词或匹配某正则表达式)；当前题目是否有配置固定添加的上下文信息。

比如，当本轮对话对应的题目的预设类型为地铁类型的题，那么可以认为是预设类型，可以进一步进行后续的备选词的选择。又或者，如果当前的题目经过预设规则的判断，认为其满足预设规则，那么可以执行后续的备选词的选择。又或者，如果本轮对话对应的题目配置为具备上下文信息，那么就进行后续的备选词的选择，否则，不进行备选词的选择以及添加。

需要指出的是，所述上下文信息除了上述问题对应语音模型类型和备选词外，还可能包含其他辅助ASR的字段。

另外，对于非基于流程的对话系统，即使没有“问题”的概念，可以改变上下文追踪器和上下文处理策略的逻辑，也可以适用以增强ASR效果。其中，上下文处理策略的具体逻辑，包括判别条件与数据来源都可以变更。

相应的，进行备选词的选取的处理中，所述备选词的来源包括以下至少之一：

针对问题设置的固定词表；这类备选词可以应用于答案范围较为有限的情况，比如，适用于生肖这种答案范围有限的问题。

基于问题正确答案的内容；比如，可以适用于与地理兴趣点(POI)相关的开放答案问题，举例来说，如在“请说出地址A附近的地铁站”问题中，提供“地铁站1”“地铁站2”等词语作为备选词。

对于选择题，除了一个或多个选项的内容外，还可以提供每一个选项对应的标签，如“A”“地铁站1”两个词，作为备选词。

用户属性的部分字段及其推导结果，例如用户联系人问题中，添加用户真实联系人的姓名作为备选词。

以上内容的简称与同义词，如“B医院”是“xxxxB医院”的同义词，那么可以添加该同义词作为备选词。

实际使用时，至少一个备选词可以为一个备选词列表，该备选词列表中可以包含有前述多种类型的一个或全部，比如，可以是以上各项结果的合并。

前述数据库不仅可以存储初始的上下文信息，还可以存储步骤S12中的上下文信息。因为上下文信息为词表，相对较大，且无持久化需求，上下文信息储存数据库使用高性能的内存数据库，如Redis。

当然，所述数据库还可以是除Redis之外的其他类型的数据库，任何现代高性能数据库都可以作为本实施例中的数据库，这里不做穷举。

在一种示例中，本实施例提供的方案执行流程，如图2所示，可以包括：

1、对话开始；此时，上下文处理模块随DM模块一起初始化，并将初始的上下文信息储存于上下文信息储存数据库中。

2、在每一轮对话交互中，DM模块将在确定系统回复之后、将系统回复实际发出之前，进行判定：如果本轮回复满足上下文信息更新条件，则调用上下文处理策略，生成本轮次的上下文信息，并在上下文信息储存数据库中更新；如果本轮回复不满足上下文信息更新条件，则上下文信息保持不变。

3、在下一轮交互开始前，ASR模块将通过内网环境的高速网络调用此接口，获取上下文信息用于增强自身识别效果。

4、下一轮交互开始，DM模块从步骤2开始重复以上步骤，直至对话结束。

在本示例中，需要指出的是，一轮对话在同一时间只存在一套上下文信息。或者，可以理解为在一轮对话的交互期间，数据库中仅存储该轮对话的一套上下文信息。

在预设问题之外，对话可能会进入特殊流程，例如用户要求停止审核，系统将对此进行确认。此时的上下文信息也可能会更新。由上下文追踪器和上下文处理策略决定。

当用户对问题进行含混回答或表示没有听清语音播报时，系统将对当前问题进行复述。此时的上下文信息会继承上一轮的信息，或者可以认为是旧问题未结束/新问题未开始，此时可以不用重新生成本轮的上下文信息。

另外，如果ASR模块基于链接信息在上下文信息获取接口在找不到对应对话的上下文信息时，会返回默认配置。

可见，通过采用上述方案，就能够在与用户的对话交互过程中，对用户回复的内容进行预测得到预计包含的上下文信息，进而保存该上下文信息及其链接信息；该链接信息能够为语音识别模块提供获取所述预计包含的上下文信息的接口链接。如此，通过预判用户回复可能包含的上下文信息，为语音识别提供相应的参考，就能够提升语音识别模块的识别的准确率，进而由于能够提升识别的准确率，能够有效的避免在后续的识别过程中会出现的同音字、近音字等问题。

另外，本申请还通过为不同的问题设置不同的备选词，减少了后端需要的ASR专有模型数量。如此，不仅降低了ASR训练的高昂成本，也使得新增问题变得更加便利。并且，通过问题对应语音模型类型字段，在DM模块中集成了根据对话轮次切换ASR模型的能力。此能力可以用来支持流程更加复杂的对话。

本发明实施例还一种用于辅助语音识别的上下文信息生成装置，如图3所示，所述装置包括：

上下文处理策略单元31，用于在与用户的第n轮对话过程中，基于上下文处理策略，得到在第n轮对话中用户回复中预计包含的上下文信息；其中，所述预计包含的上下文信息用于为语音识别模块对所述用户在第n轮对话中的语音信息进行识别提供识别参考；其中，n为大于等于1的整数；

数据库32，用于存储所述在第n轮对话中用户回复中预计包含的上下文信息及其对应的链接信息；其中，所述链接信息用于为语音识别模块提供获取所述预计包含的上下文信息的接口链接。

具体来说，本实施例中所述用于辅助语音识别的上下文信息生成装置可以作为上下文处理模块，可以集成与前述DM模块中。

进一步地，在图3的基础上，参见图4，所述装置还可以包括：

上下文追踪单元33：可以紧密集成于流程控制系统中。负责确定当前对话状态、检查当前提问的问题，也负责判断当前会话的上下文是否需要更新。具体用于在第n轮对话交互过程中，在确定第n轮系统回复、并且在发出所述第n轮系统回复之前，判断所述第n轮系统回复是否满足上下文更新条件，得到判断结果；基于所述判断结果，确定上下文处理策略单元是否基于上下文处理策略，生成所述在第n轮对话中用户回复中预计包含的上下文信息。

上下文处理策略单元31：基于上下文追踪器获取的信息，通过预设的策略，推导整理出ASR模块(也就是语音识别模块)需要的上下文信息。它还负责生成供ASR模块调用的信息获取接口链接。所述上下文处理策略单元，用于在所述判断结果表征满足上下文更新条件的情况下，调用上下文处理策略，基于所述上下文处理策略，生成所述在第n轮对话中用户回复中预计包含的上下文信息，将所述数据库中保存的原上下文信息，更新为所述在第n轮对话中用户回复中预计包含的上下文信息；

数据库：被上下文处理策略定义的上下文信息将被记录在信息储存数据库中。

所述装置还包括：

上下文信息获取接口34，用于为语音识别模块提供数据库中保存的第n轮对话中用户回复中预计包含的上下文信息。也就是说，ASR模块可以通过网络调用此接口，获取当轮对话的上下文信息。

本实施例中包含的上述多个模块的具体功能与前述方法中的功能相同，因此不再进行赘述。

可见，通过采用上述方案，就能够在于用户的对话交互过程中，对用户回复的内容进行预测得到预计包含的上下文信息，进而保存该上下文信息及其链接信息；该链接信息能够为语音识别模块提供获取所述预计包含的上下文信息的接口链接。如此，通过预判用户回复可能包含的上下文信息，为语音识别提供相应的参考，就能够提升语音识别模块的识别的准确率，进而由于能够提升识别的准确率，能够有效的避免在后续的识别过程中会出现的同音字、近音字等问题。

在示例性实施例中，本发明实施例还提供了一种存储介质，即计算机存储介质，具体为计算机可读存储介质，例如包括存储计算机程序的存储器，上述计算机程序可由终端的处理器执行，以完成前述方法所述步骤。计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、Flash Memory、磁表面存储器、光盘、或CD-ROM等存储器。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种用于辅助语音识别的上下文信息生成方法，其特征在于，所述方法包括：

存储所述在第n轮对话中用户回复中预计包含的上下文信息及其对应的链接信息；其中，所述链接信息用于为语音识别模块提供获取所述预计包含的上下文信息的接口链接。

2.根据权利要求1所述的方法，其特征在于，所述基于上下文处理策略，得到在第n轮对话中用户回复中预计包含的上下文信息，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述判断结果，确定是否基于上下文处理策略生成所述在第n轮对话中用户回复中预计包含的上下文信息，包括：

4.根据权利要求3所述的方法，其特征在于，所述上下文更新条件，包括以下至少之一：

旧问题结束、新问题开始、进入非问答流程。

5.根据权利要求1所述的方法，其特征在于，所述上下文信息，包括以下至少之一：

问题对应的语音模型的类型；

至少一个备选词。

6.一种用于辅助语音识别的上下文信息生成装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

上下文追踪单元，用于在第n轮对话交互过程中，在确定第n轮系统回复、并且在发出所述第n轮系统回复之前，判断所述第n轮系统回复是否满足上下文更新条件，得到判断结果；基于所述判断结果，确定上下文处理策略单元是否基于上下文处理策略，生成所述在第n轮对话中用户回复中预计包含的上下文信息。

8.根据权利要求7所述的装置，其特征在于，所述上下文处理策略单元，用于在所述判断结果表征满足上下文更新条件的情况下，调用上下文处理策略，基于所述上下文处理策略，生成所述在第n轮对话中用户回复中预计包含的上下文信息，将所述数据库中保存的原上下文信息，更新为所述在第n轮对话中用户回复中预计包含的上下文信息；

9.根据权利要求8所述的装置，其特征在于，所述上下文更新条件，包括以下至少之一：

旧问题结束、新问题开始、进入非问答流程。

10.根据权利要求6所述的装置，其特征在于，所述上下文信息，包括以下至少之一：

问题对应的语音模型的类型；

至少一个备选词。

11.根据权利要求6所述的装置，其特征在于，所述装置还包括：

上下文信息获取接口，用于为语音识别模块提供数据库中保存的第n轮对话中用户回复中预计包含的上下文信息。

12.一种存储介质，其特征在于，所述存储介质用于存储计算机指令，所述计算机指令用于使所述计算机执行权利要求1-5中任一项所述的方法。