CN112929501A

CN112929501A - 语音通话服务方法、装置、设备、介质及计算机程序产品

Info

Publication number: CN112929501A
Application number: CN202110096193.5A
Authority: CN
Inventors: 赵伟伟; 陈潮涛
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2021-01-25
Filing date: 2021-01-25
Publication date: 2021-06-08

Abstract

本申请提供了一种语音通话服务方法、装置、电子设备、存储介质及计算机程序产品；方法包括：在语音通话过程中，获取实时的语音流片段；对语音流片段进行声纹提取，得到目标声纹；将所述目标声纹与所述语音通话对应的注册声纹进行匹配，得到相应的匹配度；其中，所述注册声纹，为对目标语音流片段中对应最大语音能量采样窗口的语音数据进行声纹提取得到；对所述语音流片段对应的文本内容进行意图识别，得到意图识别结果；当所述匹配度达到匹配度阈值、且所述意图识别结果表征所述语音流片段对应有语音服务意图时，基于所述意图识别结果，执行相应的语音服务；通过本申请，能够避免背景人声对语音通话服务的干扰，提高语音通话服务的服务准确性。

Description

语音通话服务方法、装置、设备、介质及计算机程序产品

技术领域

本申请涉及人工智能技术领域，尤其涉及一种语音通话服务方法、装置、电子设备、存储介质及计算机程序产品。

背景技术

随着语音识别、自然语言处理等技术发展，智能语音通话服务开始服务于各行各业。在智能语音通话服务系统中实时语音识别是系统的关键，语音识别的准确与否直接影响系统的决策。由于用户语音通话的场景多样，尤其处于有背景人声的环境下(如不安静的办公场所、闹市区等)，语音通话服务系统很容易将背景人声识别出来，给系统决策提供错误信息。相关技术中，通常采用信道降噪、背景降噪、语音增强、端上硬件麦克风降噪等方式来改善。但在实践过程中，仍存在一定比例的误识别情况发生，去除背景人声的效果并不理想。

发明内容

本申请实施例提供一种语音通话服务方法、装置、电子设备、存储介质及计算机程序产品，能够避免背景人声对语音通话服务的干扰，提高语音通话服务的服务准确性。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种语音通话服务方法，包括：

在语音通话过程中，获取实时的语音流片段；

对所述语音流片段进行声纹提取，得到目标声纹；

将所述目标声纹与所述语音通话对应的注册声纹进行匹配，得到相应的匹配度；

其中，所述注册声纹，为对目标语音流片段中对应最大语音能量采样窗口的语音数据进行声纹提取得到；

对所述语音流片段对应的文本内容进行意图识别，得到意图识别结果；

当所述匹配度达到匹配度阈值、且所述意图识别结果表征所述语音流片段对应有语音服务意图时，基于所述意图识别结果，执行相应的语音服务。

本申请实施例还提供一种语音通话服务装置，包括：

获取模块，用于在语音通话过程中，获取实时的语音流片段；

声纹提取模块，用于对所述语音流片段进行声纹提取，得到目标声纹；

匹配模块，用于将所述目标声纹与所述语音通话对应的注册声纹进行匹配，得到相应的匹配度；

意图识别模块，用于对所述语音流片段对应的文本内容进行意图识别，得到意图识别结果；

执行模块，用于当所述匹配度达到匹配度阈值、且所述意图识别结果表征所述语音流片段对应有语音服务意图时，基于所述意图识别结果，执行相应的语音服务。

上述方案中，所述获取模块，还用于在所述语音通话过程中，获取实时的语音流数据；

对所述语音流数据进行静音检测，得到所述语音流数据对应的静音时长；

当所述静音时长达到预设的静音检测时长时，对所述语音流数据进行分段，得到所述语音流片段。

上述方案中，所述声纹提取模块，还用于对所述语音流片段进行文本转换，得到所述语音流片段对应的文本内容；

对所述文本内容进行目标文本识别，得到识别结果；

当所述识别结果表征所述文本内容中包含目标文本时，对所述语音流片段进行声纹提取，得到目标声纹。

上述方案中，所述声纹提取模块，还用于确定语音能量采样窗口；

基于所述语音能量采样窗口，对所述语音流片段进行目标次数的采样，得到与所述目标次数相对应的目标数量的语音流子片段；

确定各所述语音流子片段对应的语音能量，并确定所述目标数量的语音流子片段中对应最大语音能量的目标语音流子片段；

对所述目标语音流子片段进行声纹提取，得到目标声纹。

上述方案中，所述声纹提取模块，还用于对所述语音流片段进行静音检测，得到所述语音流片段中的静音部分；

去除所述语音流片段中的静音部分，得到所述语音流片段包含的目标语音流片段；

基于所述语音能量采样窗口，对所述目标语音流片段进行目标次数的采样，得到与所述目标次数相对应的目标数量的语音流子片段。

上述方案中，所述意图识别模块，还用于获取至少一个语音服务的服务文本内容；

对各所述语音服务的服务文本内容进行语义分析，得到各所述语音服务对应的第一语义内容，并对所述语音流片段对应的文本内容进行语义分析，得到所述语音流片段对应的第二语义内容；

将所述第二语义内容分别与各所述第一语义内容进行匹配，得到各所述语音服务与所述语音流片段的语义匹配度；

基于所述语义匹配度，确定相应的意图识别结果，所述意图识别结果用于表征所述语音流片段是否对应有语音服务意图。

上述方案中，所述装置还包括：

注册声纹更新模块，用于当所述匹配度达到匹配度阈值、且所述意图识别结果表征所述语音流片段未对应有语音服务意图时，删除所述注册声纹；

当所述匹配度未达到匹配度阈值、且所述意图识别结果表征所述语音流片段对应有语音服务意图时，采用所述目标声纹替换所述注册声纹。

上述方案中，所述注册声纹更新模块，还用于在所述语音通话过程中，获取实时的第一语音流片段；

对所述第一语音流片段进行声纹提取，得到第一声纹；

将所述第一声纹与所述目标声纹进行匹配，得到相应的第一匹配度；

对所述第一语音流片段对应的文本内容进行意图识别，得到第一意图识别结果；

当所述第一匹配度达到匹配度阈值、且所述意图识别结果表征所述第一语音流片段对应有语音服务意图时，基于所述第一意图识别结果，执行相应的语音服务。

上述方案中，所述注册声纹更新模块，还用于在所述语音通话过程中，获取实时的第二语音流片段；

对所述第二语音流片段中对应最大语音能量采样窗口的语音数据进行声纹提取，得到第二声纹；

基于所述第二声纹进行声纹注册，得到对应所述语音通话的新的注册声纹。

上述方案中，所述装置还包括：

声纹注册模块，用于获取首次采集的所述语音通话的语音流片段；

将所述首次采集的语音流片段作为所述目标语音流片段；

对所述目标语音流片段中对应最大语音能量采样窗口的语音数据进行声纹提取，得到所述注册声纹。

本申请实施例还提供一种电子设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本申请实施例提供的语音通话服务方法。

本申请实施例还提供一种计算机可读存储介质，存储有可执行指令，所述可执行指令被处理器执行时，实现本申请实施例提供的语音通话服务方法。

本申请实施例还提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现本申请实施例提供的语音通话服务方法。

本申请实施例具有以下有益效果：

与相关技术中采用信道降噪、背景降噪、语音增强等方式去除背景人声的干扰相比，本申请实施例中在语音通话过程中，通过计算实时的语音流片段的目标声纹、与语音通话对应的注册声纹的匹配度，并对语音流片段的文本内容进行意图识别，当匹配度达到匹配度阈值、且意图识别结果表征语音流片段对应有语音服务意图时，基于意图识别结果，执行相应的语音服务；

这里，注册声纹为对目标语音流片段中对应最大语音能量采样窗口的语音数据进行声纹提取得到，即注册声纹为语音通话所对应的目标通话用户(即前景用户)的声纹，只有在语音流片段的目标声纹与注册声纹的匹配度达到匹配度阈值、且意图识别结果表征语音流片段对应有语音服务意图时，才执行相应的语音服务，如此能够避免背景人声对语音通话服务的干扰，提高语音通话服务的服务准确性。

附图说明

图1是本申请实施例提供的语音通话服务系统10的架构示意图；

图2是本申请实施例提供的语音通话服务方法的电子设备500的结构示意图；

图3是本申请实施例提供的语音通话服务方法的流程示意图；

图4是本申请实施例提供的语音通话服务的工作流程示意图；

图5是本申请实施例提供的语音通话服务方法的流程示意图；

图6是本申请实施例提供的语音通话服务装置555的结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)响应于，用于表示所执行的操作所依赖的条件或者状态，当满足所依赖的条件或状态时，所执行的一个或多个操作可以是实时的，也可以具有设定的延迟；在没有特别说明的情况下，所执行的多个操作不存在执行先后顺序的限制。

2)声纹识别，生物识别技术的一种，也称为说话人识别，包括说话人辨认和说话人确认。声纹识别就是把声信号转换成电信号，再用计算机进行识别。不同的任务和应用会使用不同的声纹识别技术，如缩小刑侦范围时可能需要声纹辨认技术，而银行交易时则需要声纹确认技术。

基于上述对本申请实施例中涉及的名词和术语的解释，下面说明本申请实施例提供的语音通话服务系统。参见图1，图1是本申请实施例提供的语音通话服务系统10的架构示意图，为实现支撑一个示例性应用，终端400通过话务系统服务器100与语音服务的服务器200建立通信连接以实现语音通话。在语音通话过程中，话务系统服务器100采集实时的语音流片段并发送至语音服务的服务器200，话务系统服务器100通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合，使用无线或有线链路实现数据传输。

终端400，用于通过话务系统服务器100与语音服务的服务器200建立通信连接以实现语音通话；

话务系统服务器100，用于采集实时的语音流片段并发送至语音服务的服务器200；

语音服务的服务器200，用于接收实时的语音流片段，对语音流片段进行声纹提取，得到目标声纹；将目标声纹与语音通话对应的注册声纹进行匹配，得到相应的匹配度；对语音流片段对应的文本内容进行意图识别，得到意图识别结果；当匹配度达到匹配度阈值、且意图识别结果表征语音流片段对应有语音服务意图时，基于意图识别结果，执行相应的语音服务，并通过话务系统服务器100返回语音服务包含的语音应答信息。

在实际应用中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端400可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能电视、智能手表等，但并不局限于此。终端400以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

参见图2，图2是本申请实施例提供的语音通话服务方法的电子设备500的结构示意图。在实际应用中，电子设备500可以为图1示出的服务器或终端，以电子设备500为图1示出的服务器为例，对实施本申请实施例的语音通话服务方法的电子设备进行说明，本申请实施例提供的电子设备500包括：至少一个处理器510、存储器550、至少一个网络接口520和用户接口530。电子设备500中的各个组件通过总线系统540耦合在一起。可理解，总线系统540用于实现这些组件之间的连接通信。总线系统540除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统540。

处理器510可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口530包括使得能够呈现媒体内容的一个或多个输出装置531，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口530还包括一个或多个输入装置532，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器550可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器550可选地包括在物理位置上远离处理器510的一个或多个存储设备。

存储器550包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本申请实施例描述的存储器550旨在包括任意适合类型的存储器。

在一些实施例中，存储器550能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统551，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块552，用于经由一个或多个(有线或无线)网络接口520到达其他计算设备，示例性的网络接口520包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

呈现模块553，用于经由一个或多个与用户接口530相关联的输出装置531(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作外围设备和显示内容和信息的用户接口)；

输入处理模块554，用于对一个或多个来自一个或多个输入装置532之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本申请实施例提供的语音通话服务装置可以采用软件方式实现，图2示出了存储在存储器550中的语音通话服务装置555，其可以是程序和插件等形式的软件，包括以下软件模块：获取模块5551、声纹提取模块5552、匹配模块5553、意图识别模块5554和执行模块5555，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分，将在下文中说明各个模块的功能。

在另一些实施例中，本申请实施例提供的语音通话服务装置可以采用软硬件结合的方式实现，作为示例，本申请实施例提供的语音通话服务装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的语音通话服务方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，ApplicationSpecific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable LogicDevice)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

基于上述对本申请实施例提供的语音通话服务系统及电子设备的说明，下面说明本申请实施例提供的语音通话服务方法。在一些实施例中，本申请实施例提供的语音通话服务方法可由服务器或终端单独实施，或由服务器及终端协同实施，下面以服务器实施为例说明本申请实施例提供的语音通话服务方法。

参见图3，图3是本申请实施例提供的语音通话服务方法的流程示意图，本申请实施例提供的语音通话服务方法包括：

步骤101：服务器在语音通话过程中，获取实时的语音流片段。

在实际应用中，该语音通话可以是智能呼叫通话，用户与智能客服(比如智能机器人客服)通过话务系统建立通信连接以实现两者之间的语音通话。为实现语音通话服务，服务器在语音通话的过程中，需要实时地获取通话过程中的语音流片段，以基于该语音流片段提供相应的语音服务。该语音流片段可以是按照预设的时间间隔划分的，也可以是按照用户讲话的停顿时间划分的等等。

在一些实施例中，服务器可通过如下方式获取实时的语音流片段：在语音通话过程中，获取实时的语音流数据；对语音流数据进行静音检测，得到语音流数据对应的静音时长；当静音时长达到预设的静音检测时长时，对语音流数据进行分段，得到语音流片段。

这里，用户在语音通话过程中，当用户讲话发生停顿时往往是用户当前所说的话已经结束正在等待通话对方的回复，因此，在本申请实施例中，可以对语音通话过程中的实时的语音流数据进行静音检测，具体地可以通过实时语音活动检测(VAD，Voice ActivityDetection)算法来实现，以得到当前语音通话过程中实时语音流数据的静音时长，即语音通话过程中用户在讲话过程中的停顿时长。当该静音时长达到预设的静音检测时长时，即表征语音通话过程中此刻用户所要讲的话已经结束正在等待回复，此时，则对语音流数据进行分段处理，以得到用于语音通话服务的语音流片段。

步骤102：对语音流片段进行声纹提取，得到目标声纹。

服务器在获取到语音通话过程中的实时的语音流片段后，对语音流片段进行声纹提取，得到目标声纹。具体地，服务器可通过声纹识别技术对语音流片段进行声纹生物特征的识别并提取，得到目标声纹，在实际实施时，在通过声纹识别技术对语音流片段进行声纹识别时，可以预先训练得到声纹识别神经网络模型，比如卷积神经网络模型、深度学习神经网络模型，从而通过声纹识别神经网络模型对语音流片段进行声纹识别并提取，得到目标声纹。

在一些实施例中，服务器可通过如下方式对语音流片段进行声纹提取：对语音流片段进行文本转换，得到语音流片段对应的文本内容；对文本内容进行目标文本识别，得到识别结果；当识别结果表征文本内容中包含目标文本时，对语音流片段进行声纹提取，得到目标声纹。

这里，服务器在对语音流片段进行声纹提取时，首先对语音流片段进行文本转换，得到语音流片段对应的文本内容，具体地，对语音流片段进行语音识别，得到语音识别结果，基于该语音识别结果生成语音流片段对应的文本内容。

然后对语音流片段对应的文本内容进行目标文本识别，得到识别结果，从而基于该识别结果判断该文本内容中是否包含目标文本。在实际应用中，该目标文本可以为有意义文本，即语音流片段中对应用户讲话的语音数据的文本。如此则可以舍弃为静音片段的语音流片段，减少后续处理的资源浪费，进一步地，还可以预先设置无意义文本的文本库，比如包含“啊”、“额”等语气词，在得到语音流片段对应的文本内容后，将该文本内容与预设的文本库中的文本进行匹配，判断语音流片段中是否均为无意义文本，若是，则确定该语音流片段所对应的文本内容不包含目标文本。

继续地，当识别结果表征文本内容中包含目标文本时，对语音流片段进行声纹提取，得到目标声纹。如此，排除了对应无意义文本的语音流片段，减少了后续处理资源的浪费。

在一些实施例中，服务器可通过如下方式对语音流片段进行声纹提取：确定语音能量采样窗口；基于语音能量采样窗口，对语音流片段进行目标次数的采样，得到与目标次数相对应的目标数量的语音流子片段；确定各语音流子片段对应的语音能量，并确定目标数量的语音流子片段中对应最大语音能量的目标语音流子片段；对目标语音流子片段进行声纹提取，得到目标声纹。

这里，服务器在对语音流片段进行声纹提取时，可以先对语音流片段进行采样，然后针对采样得到的语音流片段中的语音流子片段进行声纹提取，得到目标声纹。具体地，首先确定语音能量采样窗口，该语音能量采样窗口可以是预先设置的，具体可以设置采样窗口的大小以及采样的目标次数。基于此，在确定语音能量采样窗口后，基于语音能量采样窗口对语音流片段进行目标次数的采样，得到与目标次数相对应的目标数量的语音流子片段；

然后确定每个语音流子片段对应的语音能量，具体地，每个语音流子片段对应的语音能量可以将该语音流子片段中每个音频帧的能量的绝对值进行加和并求平均而得到。从而基于各语音流子片段对应的语音能量，确定该目标数量的语音流自片段中对应最大语音能量的目标语音流子片段，由于对应最大语音能量的目标语音流子片段为所采集的语音流片段中说话声音最集中和最密集、声音强度最大的语音数据，因此该目标语音流子片段可以认定为目标用户集中说话的语音数据，因此可以对该目标语音流子片段进行声纹提取，得到目标声纹。

在实际应用中，语音能量采样窗口还可以采用如下方式设置：比如可以以时间长度t(t>＝0.5s，且t<＝7s)为采样窗口，t/2为采样跨度，设置滑动语音能量采样窗口；基于此，该采样的目标次数则可以基于采样窗口的大小、采样跨度以及语音流片段的时长进行确定。在确定语音能量采样窗口后，基于设置的滑动语音能量采样窗口对语音流片段进行目标次数的采样，得到与目标次数相对应的目标数量的语音流子片段；然后确定每个语音流子片段对应的语音能量，基于各语音流子片段对应的语音能量，确定该目标数量的语音流自片段中对应最大语音能量的目标语音流子片段，由于对应最大语音能量的目标语音流子片段为所采集的语音流片段中说话声音频率最高(最集中密集)、声音强度最大的语音数据，因此该目标语音流子片段可以认定为目标用户集中说话的语音数据，因此可以对该目标语音流子片段进行声纹提取，得到目标声纹。

在一些实施例中，服务器可通过如下方式对语音流片段进行目标次数的采样：对语音流片段进行静音检测，得到语音流片段中的静音部分；去除语音流片段中的静音部分，得到语音流片段包含的目标语音流片段；基于语音能量采样窗口，对目标语音流片段进行目标次数的采样，得到与目标次数相对应的目标数量的语音流子片段。

在实际应用中，服务器在对语音流片段进行采样时，可以先对语音流片段进行静音检测，得到语音流片段中的静音部分，然后对语音流片段中的静音部分进行去除处理，得到语音流片段中包含的目标语音流片段，即语音流片段中的非静音部分；从而基于语音能量采样窗口，对目标语音流片段进行目标次数的采样，得到与目标次数相对应的目标数量的语音流子片段。如此，减少了后续采样处理以及语音能量计算处理的资源消耗，提高处理效率。

步骤103：将目标声纹与语音通话对应的注册声纹进行匹配，得到相应的匹配度。

其中，该注册声纹，为对目标语音流片段中对应最大语音能量采样窗口的语音数据进行声纹提取得到。

服务器在对语音流片段进行声纹提取，得到目标声纹之后，将目标声纹与语音通过对应的注册声纹进行匹配，以得到相应的匹配度。该注册声纹，为对目标语音流片段中对应最大语音能量采样窗口的语音数据进行声纹提取得到。

在一些实施例中，服务器可通过如下方式得到注册声纹：获取首次采集的语音通话的语音流片段；将首次采集的语音流片段作为目标语音流片段；对目标语音流片段中对应最大语音能量采样窗口的语音数据进行声纹提取，得到注册声纹。

在实际应用中，当语音通话建立通信连接后，首次采集的语音通话的过程中包含用户声音的语音流片段，可以作为此次语音通话所对应的目标用户的语音流片段。该目标用户即为语音通话服务所对应的待服务用户，为保证后续的语音服务均为该目标用户提供，需要获取该目标用户的声纹，具体可以从该首次采集的语音流片段中进行声纹提取以得到。

具体地，将该首次采集的语音流片段作为目标语音流片段，然后对确定该目标语音流片段中对应最大语音能量采样窗口的语音数据。具体地，可以对针对该目标语音流片段设置相应的采样窗口以及采样次数，然后基于采样窗口对目标语音流片段进行采样次数的采样，得到与采样次数相对应的目标数量的目标语音流子片段，进一步确定各目标语音流子片段的语音能量，从而确定对应最大语音能量的目标语音流子片段。由于对应最大语音能量的目标语音流子片段为目标用户讲话最集中和最密集、声音强度最大的语音数据，因此可以认定该目标用户即为语音通话的前景用户。此时将对应最大语音能量的目标语音流子片段，确定为目标语音流片段中对应最大语音能量采样窗口的语音数据。从而对得到的语音数据进行声纹提取，得到目标用户(即前景用户)的声纹，为保证后续的语音服务均为该目标用户提供，避免对采集到的背景用户的语音进行应答，影响语音服务质量，将该目标用户的声纹进行声纹注册，得到注册声纹。

如此，在后续的语音通话过程中，当获取到实时的语音流片段时，可以对该语音流片段进行声纹提取，得到目标声纹，然后将目标声纹与注册声纹进行匹配，以确定后续采集的语音流片段是目标用户的语音数据而非背景用户声音，以基于此确定是否执行相应的语音服务。

步骤104：对语音流片段对应的文本内容进行意图识别，得到意图识别结果。

服务器在将目标声纹与注册声纹进行匹配得到两者之间的匹配度后，对语音流片段对应的文本内容进行意图识别，以确定语音流片段是否对应有语音服务意图，得到意图识别结果，以便于后续基于得到的意图识别结果执行相应的语音服务。

在一些实施例中，服务器可通过如下方式对语音流片段对应的文本内容进行意图识别：获取至少一个语音服务的服务文本内容；对各语音服务的服务文本内容进行语义分析，得到各语音服务对应的第一语义内容，并对语音流片段对应的文本内容进行语义分析，得到语音流片段对应的第二语义内容；将第二语义内容分别与各第一语义内容进行匹配，得到各语音服务与语音流片段的语义匹配度；基于语义匹配度，确定相应的意图识别结果，该意图识别结果用于表征语音流片段是否对应有语音服务意图。

在实际应用中，针对语音通话可以预先设置所能够提供的至少一个语音服务，比如余额查询、办理A业务、取消B业务等。服务器在对语音流片段对应的文本内容进行意图识别，可以首先获取该至少一个语音服务的服务文本内容，并对各语音服务的服务文本进行语义分析，得到各语音服务对应的第一语义内容；同时对语音流片段对应的文本内容也进行语义识别，得到语音流片段对应的第二语义内容。从而将第二语义内容分别与各第一语义内容进行匹配，得到各语音服务与语音流片段的语义匹配度，以基于语义匹配度，确定相应的意图识别结果，该意图识别结果用于表征语音流片段是否对应有语音服务意图。具体地，可以设置语义匹配度阈值，当计算得到的语义匹配度达到语义匹配度阈值时，则意图识别结果表征语音流片段对应有语音服务意图；当计算得到的语义匹配度未达到语义匹配度阈值时，则意图识别结果表征语音流片段未对应有语音服务意图。

步骤105：当匹配度达到匹配度阈值、且意图识别结果表征语音流片段对应有语音服务意图时，基于意图识别结果，执行相应的语音服务。

服务器在得到目标声纹与注册声纹之间的匹配度、以及得到语音流片段对应的意图识别结果后，基于该匹配度以及意图识别结果，确定是否执行语音服务。具体地，当匹配度达到匹配度阈值、且意图识别结果表征语音流片段对应有语音服务意图时，则基于意图识别结果，执行相应的语音服务，比如查询余额、办理A业务等。

在一些实施例中，服务器可通过如下方式对注册声纹进行更新：当匹配度达到匹配度阈值、且意图识别结果表征语音流片段未对应有语音服务意图时，删除注册声纹；当匹配度未达到匹配度阈值、且意图识别结果表征语音流片段对应有语音服务意图时，采用目标声纹替换注册声纹。

在实际应用中，当匹配度达到匹配度阈值、但是意图识别结果表征语音流片段未对应有语音服务意图时，则表征该注册声纹是错误的，可能是通话语音过程中背景用户的声纹，此时则需要删除该注册声纹。

在一些实施例中，删除注册声纹之后，服务器可通过如下方式注册新的注册声纹：在语音通话过程中，获取实时的第二语音流片段；对第二语音流片段中对应最大语音能量采样窗口的语音数据进行声纹提取，得到第二声纹；基于第二声纹进行声纹注册，得到对应语音通话的新的注册声纹。

在实际应用中，当将注册声纹删除后，需要注册新的注册声纹。具体地，在语音通话过程中，继续获取实时的第二语音流片段，对该第二语音流片段中对应最大语音能量采样窗口的语音数据进行声纹提取，得到第二声纹，从而将第二声纹进行声纹注册，得到对应语音通话的新的注册声纹。

这里，可以对针对该第二语音流片段设置相应的采样窗口以及采样次数，然后基于采样窗口对第二语音流片段进行采样次数的采样，得到与采样次数相对应的目标数量的第二语音流子片段，进一步确定各第二语音流子片段的语音能量，从而确定对应最大语音能量的第二语音流子片段，将对应最大语音能量的第二语音流子片段，确定为第二语音流片段中对应最大语音能量采样窗口的语音数据。从而对得到的语音数据进行声纹提取，得到第二声纹。然后将第二声纹进行声纹注册处理，得到对应语音通话的新的注册声纹。

在实际应用中，可能存在注册声纹错误的情况，比如注册声纹时基于语音通话过程中首次采集的用户语音数据提取得到的，但是现实中可能存在通话接通时，目标用户并未说话，而是其他背景用户说话的情况，基于此首次采集的用户语音数据则并不属于目标用户，所提取的注册声纹也不属于目标用户，在这种情况下，后续采集的语音流片段对应的目标声纹与注册声纹之间的匹配度可能未达到匹配度阈值、但是意图识别结果表征语音流片段对应有语音服务意图，此时，将采用目标声纹替换注册声纹，以更换注册错误的注册声纹。

在实际应用中，语音通话过程中还可能存在中途更换目标用户的情况存在，由于目前的注册声纹属于目标用户更换前的第一用户，而目标用户更换后所采集的语音流片段对应的目标声纹则属于更换后的第二用户，此时也存在目标声纹与注册声纹之间的匹配度未达到匹配度阈值、但是意图识别结果表征语音流片段对应有语音服务意图的情况，在这种情况下，也可以采用目标声纹替换注册声纹，以更换目标用户更换之前的注册声纹。

在一些实施例中，采用目标声纹替换注册声纹之后，服务器可通过如下方式对执行语音服务：在语音通话过程中，获取实时的第一语音流片段；对第一语音流片段进行声纹提取，得到第一声纹；将第一声纹与目标声纹进行匹配，得到相应的第一匹配度；对第一语音流片段对应的文本内容进行意图识别，得到第一意图识别结果；当第一匹配度达到匹配度阈值、且意图识别结果表征第一语音流片段对应有语音服务意图时，基于第一意图识别结果，执行相应的语音服务。

在实际应用中，当采用目标声纹替换注册声纹之后，服务器后续执行语音服务时，则基于该目标声纹进行匹配。具体地，在语音通话过程中，获取实时的第一语音流片段；对第一语音流片段进行声纹提取，得到第一声纹；将第一声纹与目标声纹进行匹配，得到相应的第一匹配度；对第一语音流片段对应的文本内容进行意图识别，得到第一意图识别结果；当第一匹配度达到匹配度阈值、且意图识别结果表征第一语音流片段对应有语音服务意图时，基于第一意图识别结果，执行相应的语音服务。

应用本申请上述实施例，与相关技术中采用信道降噪、背景降噪、语音增强等方式去除背景人声的干扰相比，本申请实施例中在语音通话过程中，通过计算实时的语音流片段的目标声纹、与语音通话对应的注册声纹的匹配度，并对语音流片段的文本内容进行意图识别，当匹配度达到匹配度阈值、且意图识别结果表征语音流片段对应有语音服务意图时，基于意图识别结果，执行相应的语音服务；

下面继续说明本申请实施例提供的语音通话服务方法。参见图4，图4是本申请实施例提供的语音通话服务的工作流程示意图。这里，对于一次智能语音通话，从接通那刻起，话务系统会实时的将采集的用户的音频数据分片(一般为0.2秒左右的语音数据)顺序发送给实时语音识别系统。

语音识别系统会根据语音流的静音情况将语音数据进行分段，得到语音流片段，并将语音流片段进行文本转换，得到相应的文本内容，然后把语音流片段对应的文本内容发送给智能语音服务系统进行意图识别，得到意图识别结果；同时语音识别系统还提取语音流片段的目标声纹，将目标声纹与语音通话的注册声纹进行匹配，得到声纹匹配度发送至智能语音服务系统。

进而智能语音服务系统根据意图识别结果以及匹配度确定语音服务决策，当匹配度达到匹配度阈值且意图识别结果表征语音流片段对应有语音服务意图时，生成应答话术，通过话务系统发送给用户或者执行相应的语音服务。

继续参见图5，图5是本申请实施例提供的语音通话服务方法的流程示意图，本申请实施例提供的语音通话服务方法包括：

步骤201：建立语音通话服务。

步骤202：实时语音识别系统实时接收话务系统发送的语音流数据分片。

步骤203：检测语音流数据的静音时长是否达到静音检测时长？若是，执行步骤204，若否，返回执行步骤202。

这里，对于当前正在工作的实时语音流数据，将实时收到的语音流片段发送语音识别解码器，检测语音流数据的静音时长是否达到静音检测时长时，执行步骤204，若否，返回执行步骤202实时接收语音流数据。

步骤204：对语音流数据进行分段，得到语音流片段，并获取语音流片段对应的文本内容。

步骤205：判断文本内容是否为有意义文本？若否，执行步骤206，若是，执行步骤207。

步骤206：置空语音流片段对应的文本内容，将语音流片段的目标声纹与注册声纹之间的声纹相似度设置为最小值。

步骤207：获取语音流片段中对应最大语音能量采样窗口的语音数据。

这里，对于语音流片段audio_segment_all，根据VAD算法去除静音部分，得到非静音部分的语音片段audio_segment_energy；以时间长度t(t>＝0.5秒，且t<＝7秒)为采样窗口，t/2为跨度，对语音流片段audio_segment_all进行滑动采样，得到对应滑动采样窗口的多个语音流子片段；然后计算各个语音流子片段对应的语音能量，具体地，每个语音流子片段对应的语音能量，可以将该语音流子片段中每个音频帧(即采样窗口内的音频采样点)的能量的绝对值进行加和，并将加和后的结果基于音频帧的数量进行平均值计算，最后将经过平均值计算得到的结果作为相应语音流子片段对应的语音能量；然后基于每个语音流子片段对应的语音能量，确定对应最大语音能量的语音流子片段，其中，最大语音能量的语音流子片段即为语音流片段中声音频率最高、声音强度最大的语音数据。基于此，将对应最大语音能量的语音流子片段确定为对应最大能量值采样窗口的语音数据audio_max_energy，用于声纹的注册或者对比。

步骤208：判断是否存在已注册声纹？若否，执行步骤209，若是，执行步骤210。

步骤209：提取语音流片段的声纹并进行声纹注册，得到注册声纹，设置语音流片段的目标声纹与注册声纹之间的声纹相似度为最大值。

步骤210：提取语音流片段的目标声纹，确定目标声纹与注册声纹的之间的声纹相似度。

步骤211：返回语音流片段的文本内容和声纹相似度至智能语音服务系统。

步骤212：智能语音服务系统对语音流片段的文本内容进行意图识别，得到意图识别结果。

步骤213：文本内容是否为有意图文本且声纹相似度低于相似度阈值，若是，则执行步骤214，若否，则执行步骤215。

步骤214：使用语音流片段的目标声纹替换注册声纹。

这里，在使用语音流片段的目标声纹替换注册声纹后，当继续接收到语音流片段时，则将后续接收的语音流片段的声纹与目标声纹进行对比。

步骤215：文本内容是否为无意图文本且声纹相似度高于相似度阈值，若是，则执行步骤216，若否，则执行步骤217。

步骤216：删除当前的注册声纹。

步骤217：判断语音流数据是否结束，若是，执行步骤218，若否，返回执行步骤202。

这里，文本内容为无意图文本且声纹相似度低于相似度阈值，则生成兜底应答信息返回至用户；文本内容为有意图文本且声纹相似度高于相似度阈值，则执行相应的语音服务并返回对应的应答信息。

步骤218：结束语音通话服务。

应用本申请上述实施例，第一，声纹与意图识别系统联动，实时动态更新注册的声纹，避免一开始注册错误声纹而无法更正；第二，基于语音能量获取用于声纹注册和对比的语音数据，降低计算量提升实时性。

下面继续说明本申请实施例提供的语音通话服务装置555，在一些实施例中，语音通话服务装置可采用软件模块的方式实现。参见图6，图6是本申请实施例提供的语音通话服务装置555的结构示意图，本申请实施例提供的语音通话服务装置555包括：

获取模块5551，用于在语音通话过程中，获取实时的语音流片段；

声纹提取模块5552，用于对所述语音流片段进行声纹提取，得到目标声纹；

匹配模块5553，用于将所述目标声纹与所述语音通话对应的注册声纹进行匹配，得到相应的匹配度；

意图识别模块5554，用于对所述语音流片段对应的文本内容进行意图识别，得到意图识别结果；

执行模块5555，用于当所述匹配度达到匹配度阈值、且所述意图识别结果表征所述语音流片段对应有语音服务意图时，基于所述意图识别结果，执行相应的语音服务。

在一些实施例中，所述获取模块5551，还用于在所述语音通话过程中，获取实时的语音流数据；

在一些实施例中，所述声纹提取模块5552，还用于对所述语音流片段进行文本转换，得到所述语音流片段对应的文本内容；

对所述文本内容进行目标文本识别，得到识别结果；

在一些实施例中，所述声纹提取模块5552，还用于确定语音能量采样窗口；

对所述目标语音流子片段进行声纹提取，得到目标声纹。

在一些实施例中，所述声纹提取模块5552，还用于对所述语音流片段进行静音检测，得到所述语音流片段中的静音部分；

在一些实施例中，所述意图识别模块5554，还用于获取至少一个语音服务的服务文本内容；

在一些实施例中，所述装置还包括：

在一些实施例中，所述注册声纹更新模块，还用于在所述语音通话过程中，获取实时的第一语音流片段；

对所述第一语音流片段进行声纹提取，得到第一声纹；

在一些实施例中，所述注册声纹更新模块，还用于在所述语音通话过程中，获取实时的第二语音流片段；

在一些实施例中，所述装置还包括：

将所述首次采集的语音流片段作为所述目标语音流片段；

本申请实施例还提供一种电子设备，所述电子设备包括：

存储器，用于存储可执行指令；

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种语音通话服务方法，其特征在于，所述方法包括：

在语音通话过程中，获取实时的语音流片段；

对所述语音流片段进行声纹提取，得到目标声纹；

2.如权利要求1所述的方法，其特征在于，所述对所述语音流片段进行声纹提取，得到目标声纹，包括：

对所述语音流片段进行文本转换，得到所述语音流片段对应的文本内容；

对所述文本内容进行目标文本识别，得到识别结果；

3.如权利要求1所述的方法，其特征在于，所述对所述语音流片段进行声纹提取，得到目标声纹，包括：

确定语音能量采样窗口；

对所述目标语音流子片段进行声纹提取，得到目标声纹。

4.如权利要求3所述的方法，其特征在于，所述基于所述语音能量采样窗口，对所述语音流片段进行目标次数的采样，得到与所述目标次数相对应的目标数量的语音流子片段，包括：

对所述语音流片段进行静音检测，得到所述语音流片段中的静音部分；

5.如权利要求1所述的方法，其特征在于，所述对所述语音流片段对应的文本内容进行意图识别，得到意图识别结果，包括：

获取至少一个语音服务的服务文本内容；

6.如权利要求1所述的方法，其特征在于，所述方法还包括：

当所述匹配度达到匹配度阈值、且所述意图识别结果表征所述语音流片段未对应有语音服务意图时，删除所述注册声纹；

7.如权利要求6所述的方法，其特征在于，所述采用所述目标声纹替换所述注册声纹之后，所述方法还包括：

在所述语音通话过程中，获取实时的第一语音流片段；

对所述第一语音流片段进行声纹提取，得到第一声纹；

8.如权利要求6所述的方法，其特征在于，所述删除所述注册声纹之后，所述方法还包括：

在所述语音通话过程中，获取实时的第二语音流片段；

9.如权利要求1所述的方法，其特征在于，所述方法还包括：

获取首次采集的所述语音通话的语音流片段；

将所述首次采集的语音流片段作为所述目标语音流片段；

10.如权利要求1所述的方法，其特征在于，所述在语音通话过程中，获取实时的语音流片段，包括：

在所述语音通话过程中，获取实时的语音流数据；

11.一种语音通话服务装置，其特征在于，所述装置包括：

12.一种电子设备，其特征在于，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至10任一项所述的语音通话服务方法。

13.一种计算机可读存储介质，其特征在于，存储有可执行指令，所述可执行指令被执行时，用于实现权利要求1至10任一项所述的语音通话服务方法。

14.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至10任一项所述的语音通话服务方法。