CN111049996A

CN111049996A - 多场景语音识别方法及装置、和应用其的智能客服系统

Info

Publication number: CN111049996A
Application number: CN201911363554.7A
Authority: CN
Inventors: 陆一帆; 钱彦旻
Original assignee: AI Speech Ltd
Current assignee: AI Speech Ltd
Priority date: 2019-12-26
Filing date: 2019-12-26
Publication date: 2020-04-21
Anticipated expiration: 2039-12-26
Also published as: CN111049996B

Abstract

本发明公开一种多场景语音识别方法，其包括根据预设的场景分别配置与各个场景关联的场景语音识别资源存储；响应于接收到的用户呼入指令，获取与意图场景关联的场景语音识别资源进行语音识别；在对话响应过程中，根据当前用户意图确定关联场景，并根据确定的关联场景，获取对应的场景语音识别资源对监听到的用户音频进行语音识别。本发明还公开了多场景语音识别装置及智能客服系统。根据本发明公开的方案可以实现基于场景对用户语音进行针对性识别，提高识别准确率，提高用户交互体验，满足不同场景的需求。

Description

多场景语音识别方法及装置、和应用其的智能客服系统

技术领域

本发明涉及语音交互技术领域，特别是一种多场景语音识别方法及装置、以及一种应用了该识别方案的智能客服系统。

背景技术

近年来，随着智能语音技术的发展，基于智能语音来取代传统交互模式从而为用户提供服务的应用层出不穷，而基于语音识别的智能客服系统就是其中一种。通过智能客服系统的有效应用，能够大幅节约人力和时间成本，而要想真正达到这种效果，智能客服系统的语音识别准确率就至关重要，即识别准确率高的智能客服系统才能够有效地为用户提供服务，以节约人力，而识别准确率低的智能客服系统必然漏洞百出，忙中添乱，可见提高智能客服系统的语音识别准确率师非常重要的。目前的智能客服系统均是采用单一泛化的语音识别模块进行识别，识别准确率并不高。

发明内容

为了能够实现在智能客服的对话过程中进行更准确的语音识别，发明人想到基于智能客服的多场景特性进行识别模块的设计，以打破传统智能客服系统中单一泛化的识别模式，通过场景化、定制化来满足更多用户需求，实现基于场景的精准识别。

根据本发明的一个方面，提供了一种多场景语音识别方法，其包括

根据预设的场景分别配置与各个场景关联的场景语音识别资源存储；

响应于接收到的用户呼入指令，获取与意图场景关联的场景语音识别资源进行语音识别；

在对话响应过程中，根据当前用户意图确定关联场景，并根据确定的关联场景，获取对应的场景语音识别资源对监听到的用户音频进行语音识别。

根据本发明的另一个方面，提供了一种多场景语音识别装置，其包括

存储模块，用于根据预设的场景分别配置与各个场景关联的场景语音识别资源存储；

第一识别模块，用于响应于接收到的用户呼入指令，从存储模块获取与意图场景关联的场景语音识别资源进行语音识别；

第二识别模块，用于根据在对话响应过程中确定的与当前用户意图关联的场景，从存储模块获取对应的场景语音识别资源对监听到的用户音频进行语音识别。

根据本发明的第三个方面，提供了一种基于多场景语音识别的智能客服系统，其包括

第一存储模块，用于根据预设的场景分别配置与各个场景关联的场景语音识别资源存储；

语音识别模块，用于响应于接收到的用户呼入指令从第一存储模块获取与意图场景关联的场景语音识别资源进行语音识别、或根据对话管理模块确定的场景从第一存储模块获取关联的场景语音识别资源对监听到的用户音频进行语音识别，并将语音识别结果输出至语义解析模块；

语义解析模块，用于根据对语音识别结果的解析确定用户意图输出至对话管理模块；和

对话管理模块，用于根据用户意图进行对话响应，在对话响应过程中确定与当前用户意图关联的场景输出至所述语音识别模块。

根据本发明的第四个方面，提供了一种电子设备，其包括：至少一个处理器，以及与至少一个处理器通信连接的存储器，其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行上述方法的步骤。

根据本发明的第五个方面，提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述方法的步骤。

本发明实施例的方案，不但能够提升识别的准确率，还能够改善智能客服和用户质检的对话流程，提升智能客服的服务质量，从而有效减少人工客服的工作量并减少成本；并且本方案还可以将不同场景的识别资源开放出来，让使用者自己去定制，灵活性大大提高。

附图说明

图1为本发明一实施方式的多场景语音识别方法的方法流程图；

图2为本发明另一实施方式的多场景语音识别方法的方法流程图；

图3为本发明一实施方式的多场景语音识别装置的框架结构图；

图4为本发明另一实施方式的多场景语音识别装置的框架结构图；

图5为本发明一实施方式的智能客服系统的框架结构示意图；

图6为本发明另一实施方式的智能客服系统的框架结构示意图；

图7为本发明一实施方式的电子设备结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

在本发明中，“模块”、“装置”、“系统”等指应用于计算机的相关实体，如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说，例如，组件可以、但不限于是运行于处理器的过程、处理器、对象、可执行组件、执行线程、程序和/或计算机。还有，运行于服务器上的应用程序或脚本程序、服务器都可以是组件。一个或多个组件可在执行的过程和/或线程中，并且组件可以在一台计算机上本地化和/或分布在两台或多台计算机之间，并可以由各种计算机可读介质运行。组件还可以根据具有一个或多个数据包的信号，例如，来自一个与本地系统、分布式系统中另一组件交互的，和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

由于本发明实施例涉及的多场景语音识别的方案可以应用于任何具有智能语音交互功能的智能设备上，实现对智能设备上承载的语音产品的个性化配置，例如手机、手表、耳机、个人PC电脑等，但是本发明的适用范围并不局限于此。通过本发明实施例提供的方案，能够基于场景配置场景语音识别资源对接收的音频进行识别，提高识别的准确率和交互时的用户体验。

下面结合附图对本发明作进一步详细的说明。

图1示意性地显示了根据本发明的一种实施方式的多场景语音识别方法的方法流程，如图1所示，本实施例的方法包括如下步骤：

步骤S101：根据预设的场景分别配置与各个场景关联的场景语音识别资源存储。传统的语音识别中，一般语音识别模块比较单一泛化，所有的语音交互都利用通用的语音识别模块进行语音识别处理，不能针对场景进行个性化识别，识别正确率不能保障，尤其是特殊场景下，更容易出现识别错误。在本发明实施例中，在配置用于进行语音识别的资源时，会根据需求和语音产品可能涉及的场景，进行针对性地语音识别资源的配置，即针对场景配置与各个场景关联的场景语音资源进行存储。其中，语音识别中一般包括声学模型和语言模型，实际配置过程中，一般会提供音频用于训练声学模型，提供语料用于训练语言模型，因而在配置时，会根据场景分别配置不同场景的音频和语料，以进行训练得到针对不同场景的语音识别资源(包括训练出的声学模型和语言模型，训练方法参照现有技术，只需要配置相应场景的音频和语料输入到现有技术的训练模型进行训练即可得到所需的语音识别资源)。通过该步骤，即可针对不同流程和场景，分别定制声学模型(AM)和语言模型(LM)，即得到多场景的场景语音识别资源。

作为一种优选实现例，配置的场景语音识别资源采用分布式的方式分别存储在不同的服务器上，并在应用中集成到系统的语音识别模块中，以根据不同的会话流程和场景，调用相应的AM和LM，提升识别率。

步骤S103：响应于接收到的用户呼入指令，获取与意图场景关联的场景语音识别资源进行语音识别。在基于场景进行语音识别资源的配置时，用户的呼入指令由于在语音交互中的相似性，就可以被作为一个场景进行单独配置，由于用户的呼入指令一般是为了表达呼入意图，因而就可以将这个场景定义为意图场景，在步骤S101中为其对应配置场景语音识别资源。这样，在接收到用户呼入指令时，就可以从配置存储的与场景关联的场景语音识别资源中获取意图场景对应的场景语音识别资源进行语音识别。

步骤S105：在对话响应过程中，根据当前用户意图确定关联场景，并根据确定的关联场景，获取对应的场景语音识别资源对监听到的用户音频进行语音识别。由于用户呼入指令一般启动语音产品的第一条有效语音指令，因而在呼入时可以直接根据对呼入指令的场景归类，获取意图场景的语音识别资源进行语音识别。而在启动语音产品后，会进入语音交互过程，此时语音产品和用户之间会存在交互和对话。本发明实施例优选在对话过程中进行识别资源的切换，由于对话过程中能够获取用户意图和对用户音频的响应内容(即对话内容)，因而能够很方便、精准地确定当前的场景，因而基于对话过程来确定当前的场景，从而基于确定的场景进行语音识别资源的切换，会提高所选用的语音识别资源与场景的贴合度，进一步提高准确率。具体的，在对话响应过程中，确定当前的关联场景可以基于当前用户意图来进行确定。由于对话控制模块(DM)需要准备问答知识库，训练深度学习模型，针对不同的用户意图去选择相应的回答，并用语音合成(TTS)生成合成音去回答客户，因而在获取到用户意图时，能够从中找到对应的回答，而用户的进一步反馈与播放的回答内容相关(是下一轮交互的前提)，所以在配置回答内容时就可以同时为其关联场景，这样基于用户意图来确定回答内容的同时，也能确定接下来的关联场景，这样对接下来获取到的用户音频基于关联场景对应的场景语音识别资源进行识别，就能够准确把握交互场景，大幅提高准确率。

图2示意性地显示了本发明另一实施方式的多场景语音识别方法的方法流程，本发明实施例在图1所示的实施例基础上还包括如下步骤

步骤S100：响应于接收到的配置请求，将语音产品与场景语音识别资源关联绑定。在配置了与场景关联的场景语音识别资源之后，在语音产品的开发过程中，产品开发者就可以基于其语音产品的特性来配置与语音产品关联的场景语音识别资源。而语音开发平台根据产品开发者的配置请求，就可以通过语音产品ID和场景语音识别资源的资源ID将产品开发者为其语音产品配置的场景语音识别资源关联绑定。这样，就可以基于不同的产品特征和场景特性来选择不同的ASR资源，只需将两者的ID绑定存在数据库中即可，示例性地可以是redis数据库。

步骤S102：在接收到用户呼入指令时，加载与该语音产品关联绑定的场景语音识别资源。在产品开发阶段对产品进行了场景资源的选择后，在接收到呼入指令时，就可以先把为该产品配置的语音识别资源加载进来。示例性地，根据当前语音产品的产品ID去redis数据库中寻找相应的场景语音识别资源进行预加载。

这样，在进行语音识别时，包括对用户呼入指令的识别以及对话交互中对用户反馈的音频的识别，都可以直接从加载的场景语音识别资源中获取对应的场景语音识别资源对用户呼入指令或监听到的用户音频进行语音识别。由于配置存储的语音识别资源容量比较大，而且针对不同产品或相同产品进行场景配置时，每个产品在具体的应用中涉及的场景可能没有那么多，因而通过预加载可以将识别的资源范围缩小，提高识别效率，而且由于进行了预加载不需要再去从分布式服务器上进行资源获取，也能有效缩短识别响应时间。

作为另一优选实施例，为了进一步提高识别的准确率，上述方法还可以包括在配置场景语音识别资源的同时，也配置通用语音识别资源存储。而在对话响应过程中，还根据对话管理模块的问答知识库判断用户意图是否得到支持(即用户意图是否在问答知识库找到匹配项)，并在用户意图得不到支持的次数达到预设值时(例如三次都不能得到支持)，获取通用语音识别资源对监听到的用户音频进行语音识别。这样，就在进行场景语音识别资源的配置的同时，还准备一个通用的ASR资源来识别场景资源没有涵盖的领域，以保证识别结果的正确率。

图3示意性显示了本发明一种实施方式的多场景语音识别装置，如图3所示，其包括

存储模块30，用于根据预设的场景分别配置与各个场景关联的场景语音识别资源存储；

第一识别模块31，用于响应于接收到的用户呼入指令，从存储模块获取与意图场景关联的场景语音识别资源进行语音识别；和

第二识别模块32，用于根据在对话响应过程中确定的与当前用户意图关联的场景，从存储模块获取对应的场景语音识别资源对监听到的用户音频进行语音识别。

图4示意性显示了本发明另一种实施方式的多场景语音识别装置，在图3所示实施例的基础上，本发明实施例中的存储模块还用于配置通用识别资源存储，如图4所示，本发明实施例的装置还包括

第三识别模块33，用于根据在对话响应过程中确定的当前用户意图得不到支持的次数，从存储模块获取通用识别资源对监听到的用户音频进行语音识别。

根据图3和图4所示的实施例，在接收到用户呼入指令时，会首先通过第一识别模块31利用意图场景的语音识别资源进行语音识别，而在语音交互过程中，会根据对话响应中确定的当前用户意图获取对应场景的语音识别资源进行语音识别。通过基于场景进行资源配置和基于配置的场景资源进行语音识别，能够改善传统单一泛化的语音识别的弊端，在提高识别准确率的同时，还能够使得产品很好地适应其应用场景，满足用户的不同场景需求。其中，图3和图4所示的装置实施例中涉及的各模块的具体实现方式可以参照前文方法部分叙述。

图5示意性地显示了本发明一种实施方式的基于多场景语音识别的智能客服系统，如图5所示，其包括

第一存储模块50，用于根据预设的场景分别配置与各个场景关联的场景语音识别资源存储；

语音识别模块51，用于响应于接收到的用户呼入指令从第一存储模块获取与意图场景关联的场景语音识别资源进行语音识别、或根据对话管理模块确定的场景从第一存储模块获取关联的场景语音识别资源对监听到的用户音频进行语音识别，并将语音识别结果输出至语义解析模块；

语义解析模块52，用于根据对语音识别结果的解析确定用户意图输出至对话管理模块；和

对话管理模块53，用于根据用户意图进行对话响应，在对话响应过程中确定与当前用户意图关联的场景输出至所述语音识别模块。

图6示意性地显示了本发明另一种实施方式的基于多场景语音识别的智能客服系统，在本发明实施例中，该系统还包括

第二存储模块54，用于存储语音产品与场景语音识别资源的关联关系；和

预加载模块55，用于在接收到用户呼入指令时，从第二存储模块加载与当前语音产品关联绑定的场景语音识别资源。

在该实现例中，语音识别模块是根据从预加载模块获取关联的场景语音识别资源对监听到的用户音频进行语音识别。其中，第一存储模块可以实现为分布式存储服务器，第二存储模块可以实现为智能客服系统的本地存储模块如数据库。

通过图5和6所示的系统，在用户呼入时，语音识别模块51可以基于意图场景的场景资源进行语音识别，并将识别结果输入语义解析模块52(需要准备相应的知识图库，训练深度学习模型，以对识别结果进行语义分析确定用户意图，可参照现有技术进行实现或选用现有技术产品)以确定用户意图。之后将用户意图输出给对话管理模块53，以由对话管理模块53来确定回答内容进行播报，同时对话管理模块53还基于用户意图来确定关联的场景，以在获取到用户的反馈语音后，由语音识别模块利用场景语音识别资源对用户反馈的语音进行识别。在图6所示的实施例中，还可以通过预加载，利用预加载的对应场景资源进行语音识别。当然，在优选实施例中，还可以同时配置通用语音识别资源进行存储，并在对话管理模块对获取到的用户意图进行监测，在用户意图得不到支持的次数达到预设阈值时，利用通用资源进行识别。

通过本发明实施例的装置和系统，不但能够提升识别的准确率，还能够改善智能客服和用户质检的对话流程，提升智能客服的服务质量，从而有效减少人工客服的工作量并减少成本；并且本方案还可以将不同场景的识别资源开放出来，让使用者自己去定制，灵活性大大提高。

在一些实施例中，本发明实施例提供一种非易失性计算机可读存储介质，所述存储介质中存储有一个或多个包括执行指令的程序，所述执行指令能够被电子设备(包括但不限于计算机，服务器，或者网络设备等)读取并执行，以用于执行本发明上述多场景语音识别方法。

在一些实施例中，本发明实施例还提供一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当所程序指令被计算机执行时，使计算机执行上述多场景语音识别方法。

在一些实施例中，本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被所述至少一个处理器执行，以使至少一个处理器能够执行上述多场景语音识别方法。

在一些实施例中，本发明实施例还提供一种存储介质，其上存储有计算机程序，该程序被处理器执行时能够执行上述多场景语音识别方法。

上述本发明实施例的多场景语音识别装置可用于执行本发明实施例的多场景语音识别方法，并相应的达到上述本发明实施例的多场景语音识别方法所达到的技术效果，这里不再赘述。本发明实施例中可以通过硬件处理器(hardware processor)来实现相关功能模块。

图7是本申请另一实施例提供的执行多场景语音识别方法的电子设备的硬件结构示意图，如图7所示，该设备包括：

一个或多个处理器510以及存储器520，图7中以一个处理器510为例。

执行多场景语音识别方法的设备还可以包括：输入装置530和输出装置540。

处理器510、存储器520、输入装置530和输出装置540可以通过总线或者其他方式连接，图7中以通过总线连接为例。

存储器520作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施例中的多场景语音识别方法对应的程序指令/模块。处理器510通过运行存储在存储器520中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的多场景语音识别方法。

存储器520可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据多场景语音识别方法的使用所创建的数据等。此外，存储器520可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器520可选包括相对于处理器510远程设置的存储器，这些远程存储器可以通过网络连接至多场景语音识别方法。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置530可接收输入的数字或字符信息，以及产生与多场景语音识别方法的用户设置以及功能控制有关的信号。输出装置540可包括显示屏等显示设备。

上述一个或者多个模块存储在所述存储器520中，当被所述一个或者多个处理器510执行时，执行上述任意方法实施例中的多场景语音识别方法。

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请实施例所提供的方法。

本申请实施例的电子设备以多种形式存在，包括但不限于:

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁盘、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围

以上所述的仅是本发明的一些实施方式。对于本领域的普通技术人员来说，在不脱离本发明创造构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.多场景语音识别方法，其特征在于，包括

2.根据权利要求1所述的方法，其特征在于，配置的所述场景语音识别资源通过分布式存储的方式按场景分别存储在不同的服务器中。

3.根据权利要求2所述的识别方法，其特征在于，还包括

响应于接收到的配置请求，将语音产品与场景语音识别资源关联绑定；

在接收到用户呼入指令时，加载与该语音产品关联绑定的场景语音识别资源；

在进行语音识别时，从加载的场景语音识别资源中获取对应的场景语音识别资源对用户呼入指令或监听到的用户音频进行语音识别。

4.根据权利要求1至3任一项所述的方法，其特征在于，还包括

配置通用语音识别资源存储；

在对话响应过程中，还判断用户意图是否得到支持，并在用户意图得不到支持的次数达到预设值时，获取通用语音识别资源对监听到的用户音频进行语音识别。

5.多场景语音识别装置，其特征在于，包括

6.根据权利要求5所述的装置，其特征在于，所述存储模块还用于配置通用识别资源存储；所述装置还包括

第三识别模块，用于根据在对话响应过程中确定的当前用户意图得不到支持的次数，从存储模块获取通用识别资源对监听到的用户音频进行语音识别。

7.基于多场景语音识别的智能客服系统，其特征在于，包括

8.根据权利要求7所述的系统，其特征在于，所述第一存储模块实现为分布式存储服务器。

9.根据权利要求8所述的系统，其特征在于，还包括

第二存储模块，用于存储语音产品与场景语音识别资源的关联关系；

预加载模块，用于在接收到用户呼入指令时，从第二存储模块加载与当前语音产品关联绑定的场景语音识别资源；

所述语音识别模块还用于根据对话管理模块确定的场景从预加载模块获取关联的场景语音识别资源对监听到的用户音频进行语音识别。

10.存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至6任一项所述方法的步骤。