CN115086283A

CN115086283A - 语音流的处理方法和单元

Info

Publication number: CN115086283A
Application number: CN202210551507.0A
Authority: CN
Inventors: 朱今
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2022-05-18
Filing date: 2022-05-18
Publication date: 2022-09-20
Anticipated expiration: 2042-05-18
Also published as: CN115086283B

Abstract

本申请披露一种语音流的处理方法和单元，应用于服务器，所述服务器支持多种多媒体信令协议，能够访问预设的语音流策略库，所述语音流策略库中存储有语音服务提供方与语音流处理策略之间的对应关系，所述语音流处理策略代表所述语音服务提供方对语音流的处理需求，所述方法包括：接收语音服务提供方发送的信令媒体流；确定所述信令媒体流使用的多媒体信令协议，并采用确定出的所述多媒体信令协议解析所述信令媒体流，得到所述信令媒体流中携带的语音流；在所述语音流策略库中查找所述语音服务提供方对应的语音流处理策略，并基于所述语音流处理策略对所述语音流进行处理，得到与所述语音服务提供方处理需求对应的语音流处理结果。

Description

语音流的处理方法和单元

技术领域

本申请涉及多媒体技术领域，尤其涉及一种语音流的处理方法和单元。

背景技术

随着技术的不断发展，实时语音对话的应用越来越广泛。在客服场景中，用户可与客服人员进行语音通话；在使用移动终端时，用户也可以与移动终端中装载的语音助手进行实时的人机对话等。

实时语音服务的提供方往往需要对上述语音对话进行分析，以改进语音服务，而不同的提供方的具体需求不同，如何及时地满足不同提供方的需求已成为亟待解决的技术问题。

发明内容

有鉴于此，本申请提供一种语音流的处理方法和单元。

具体地，本申请是通过如下技术方案实现的：

一种语音流的处理方法，应用于服务器，所述服务器支持多种多媒体信令协议，能够访问预设的语音流策略库，所述语音流策略库中存储有语音服务提供方与语音流处理策略之间的对应关系，所述语音流处理策略代表所述语音服务提供方对语音流的处理需求，所述方法包括：

接收语音服务提供方发送的信令媒体流；

确定所述信令媒体流使用的多媒体信令协议，并采用确定出的所述多媒体信令协议解析所述信令媒体流，得到所述信令媒体流中携带的语音流；

在所述语音流策略库中查找所述语音服务提供方对应的语音流处理策略，并基于所述语音流处理策略对所述语音流进行处理，得到与所述语音服务提供方处理需求对应的语音流处理结果。

可选的，所述信令媒体流中还携带有所述语音流的辅助信令，所述基于所述语音流处理策略对所述语音流进行处理，包括：

在所述语音流处理策略为转写的情况下，基于所述辅助信令中的语音流编码格式对所述语音流进行解码；

将解码后的语音流转换为文本；

基于所述辅助信令中的对话者身份标识为所述文本添加对话者身份，以实现对所述语音流进行转写，得到所述语音流对应的对话文本。

可选的，所述基于所述语音流处理策略对所述语音流进行处理，包括：

在所述语音流处理策略为智能化处理的情况下，获取所述语音流处理策略中指定的智能化处理类型；

调用所述智能化处理类型对应的智能系统基于所述对话文本对所述语音流进行智能化处理。

在所述语音流处理策略为重新编码的情况下，获取所述语音流处理策略中指定的编码格式；

基于所述辅助信令中的语音流编码格式对所述语音流进行解码；

基于获取到的所述编码格式对解码后的语音流重新进行编码。

可选的，所述信令媒体流中还携带有所述语音流的辅助信令，所述方法还包括：

获取预设的辅助信令标准描述方式；

基于所述辅助信令标准描述方式，对所述信令媒体流中的辅助信令进行描述方式转换。

可选的，所述确定所述信令媒体流使用的多媒体信令协议，包括：

获取所述信令媒体流使用的端口号；

查询端口号与多媒体信令协议之间的映射关系来确定所述信令媒体流使用的多媒体信令协议。

当所述端口号对应多个多媒体信令协议时，获取所述信令媒体流中携带的协议标识；

查询协议标识与多媒体信令协议之间的映射关系来确定所述信令媒体流使用的多媒体信令协议。

可选的，所述语音流策略库的设置方法，包括：

接收语音服务提供方发送的语音流策略设置请求，所述语音策略设置请求中携带有语音服务提供方指定的语音流处理策略；

响应于所述语音流策略设置请求，在所述语音流策略库中存储所述语音服务提供方与所述语音流处理策略之间的对应关系。

可选的，还包括：

通过消息队列将所述语音流处理结果返回至所述语音服务提供方。

一种语音流的处理单元，应用于服务器，所述服务器支持多种多媒体信令协议，能够访问预设的语音流策略库，所述语音流策略库中存储有语音服务提供方与语音流处理策略之间的对应关系，所述语音流处理策略代表所述语音服务提供方对语音流的处理需求，所述单元包括：

媒体流接收模块，接收语音服务提供方发送的信令媒体流；

媒体流解析模块，确定所述信令媒体流使用的多媒体信令协议，并采用确定出的所述多媒体信令协议解析所述信令媒体流，得到所述信令媒体流中携带的语音流；

语音流处理模块，在所述语音流策略库中查找所述语音服务提供方对应的语音流处理策略，并基于所述语音流处理策略对所述语音流进行处理，得到与所述语音服务提供方处理需求对应的语音流处理结果。

一种电子设备，包括：

处理器；

用于存储机器可执行指令的存储器；

其中，所述处理器通过运行所述可执行指令以实现如前述方法的步骤。

一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如前述方法的步骤。

采用上述实施方式，服务器在接收到语音服务提供方发送的实时信令媒体流后，可采用该信令媒体流使用的多媒体信令协议对其进行解析，得到实时语音流，然后可基于语音服务提供方对应的语音流处理策略对语音流进行处理，得到与语音服务提供方处理需求对应的语音流处理结果。

采用本申请提供的上述语音流处理方案，服务器支持多种语音流处理策略，语音服务提供方可基于自身的处理需求设置语音流处理策略，服务器进而可采用对应的语音流处理策略对语音服务提供方提供的实时语音流及时的进行处理，满足不同语音服务提供方的不同处理需求，为语音服务提供方提供了完整、闭环的解决方案。并且，服务器支持有多种多媒体信令协议，适用范围更广，兼容性更高。

附图说明

图1是本申请一示例性实施例示出的一种语音流处理系统的架构示意图。

图2是本申请一示例性实施例示出的一种语音流的处理方法的流程示意图。

图3是本申请一示例性实施例示出的一种语音流策略库的设置方法的流程示意图。

图4是本申请一示例性实施例示出的另一种语音流处理系统的架构示意图。

图5是本申请一示例性实施例示出的一种语音流的处理单元所在电子设备的一种硬件结构图。

图6是本申请一示例性实施例示出的一种语音流的处理单元的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

实时语音服务的提供方往往需要对上述语音对话进行分析，以改进语音服务，而不同的提供方的分析需求不同，如何及时地满足不同提供方的分析需求已成为亟待解决的技术问题。

上述语音服务的提供方可包括智能客服服务的提供方，例如，电商平台、政务平台等。也可包括语音助手服务的提供方，例如，移动终端开发方等。

以电商平台为例，电商平台需要监测客服人员的客服质量，例如：服务态度、回答用户问题的准确度等；电商平台也需要为客服人员提供智能辅助，例如：检索到用户问题的答案并及时展示给客服人员等。

本申请提供一种语音流的处理方案，可基于语音服务提供方的处理需求对语音对话过程中产生的实时语音流及时的进行处理，以满足不同语音服务提供方的不同处理需求。

本申请提供的语音流处理方法可应用在服务器或服务器集群中，所述服务器或服务器集群可接收语音服务提供方发送的信令媒体流，然后对所述信令媒体流中携带的实时语音流进行处理，并可将语音流处理结果再返回给语音服务提供方。语音服务提供方可部署语音交互端和语音管理端，由语音交互端和语音管理端参与前述与服务器的交互过程，语音交互端和语音管理端的物理载体可以相同，也可以不同。

其中，语音交互端可实现与用户进行语音对话，包括呼叫中心和非呼叫中心，所述非呼叫中心可包括移动终端中装载的语音助手应用、web浏览器等。

语音管理端可用于管理、分析语音服务，语音管理端可将语音分析结果等管理信息通过可视化界面输出给主管等管理人员查看等。

请参考图1，执行本申请中语音流处理方法的所述服务器或服务器集群在通信过程中位于语音交互端和语音管理端之间，可对语音交互端发送的实时信令媒体流进行处理，并可将语音流处理结果反馈给语音管理端。

所述语音流的处理方法可应用在图1所示的服务器或服务器集群中，所述服务器可支持多种多媒体信令协议，例如：MRCP协议(Media Resource Control Protocol，媒体资源控制协议)、SIP协议(Session initialization Protocol，会话初始协议)、SipRec协议(SIP Record协议，一种SIP扩展协议)、WebSocket协议(基于TCP的全双工通信协议)等。

请参考图2，所述语音流的处理方法可包括以下步骤：

步骤202，接收语音服务提供方发送的信令媒体流。

在本申请中，语音服务提供方部署的语音交互端可在用户与客服通话、用户与语音助手对话的过程中，将实时产生的信令媒体流发送给服务器。一般而言，所述信令媒体流中包括有对话过程中的实时语音流，以及所述实时语音流对应的辅助信令。

其中，所述辅助信令可包括：语音流中对话者身份标识，所述对话者身份可包括用户、客服人员、语音助手等，用来区分说话者的身份。

所述辅助信令中还可包括语音流的编码格式，例如u-Law、PCM等，基于所述编码格式，可实现对所述语音流的解码。

在本申请中，以用户与客服人员(智能客服或人工客服)通话为例，语音交互端可将用户和客服通信过程中产生的实时语音流导出，并且，还可将语音流对应的对话者身份标识、编码格式等辅助信令也一并导出。然后采用其支持的多媒体信令协议对导出的语音流和辅助协议进行封装，得到实时语音通话对应的信令媒体流，然后可将该信令媒体流发送至执行本申请语音流处理方案的服务器。

在本申请中，不同的语音交互端支持的多媒体信令协议往往不同，例如，呼叫中心通常使用MRCP协议，移动终端的语音助手通常使用WebSocket协议等。

步骤204，确定所述信令媒体流使用的多媒体信令协议，并采用确定出的所述多媒体信令协议解析所述信令媒体流，得到所述信令媒体流中携带的语音流。

基于前述步骤202，服务器在接收到语音交互端发送的信令媒体流后，可先确定所述信令媒体流使用的多媒体信令协议，然后基于确定出的多媒体信令协议对所述信令媒体流进行解析，进而得到所述信令媒体流中携带的语音流和其对应的辅助信令。

在一个例子中，可以根据信令媒体流使用的端口号来确定其使用的协议。

在本例中，可预设各协议使用的端口号，服务器预先保存有端口号与多媒体信令协议之间的映射关系。在接收到信令媒体流后，可获取该信令媒体流使用的端口号，并通过查询该映射关系确定该信令媒体流使用的多媒体信令协议。

例如，针对WebSocket协议，可预设该协议使用的端口号457。即，服务器预先保存有端口号457与WebSocket协议之间的映射关系。当服务器接收到信令媒体流时，若获取到该信令媒体流的端口号为457，通过查询上述映射关系，可确定其使用的协议为WebSocket，进而基于WebSocket协议解析所述信令媒体流。

在另一个例子中，语音交互端发送的信令媒体流中还可携带有多媒体信令协议的协议标识，本申请中执行语音流处理的服务器在接收到所述信令媒体流后，可基于其携带的协议标识查询协议标识与多媒体信令协议之间的映射关系来确定其使用的多媒体信令协议，并基于其使用的多媒体信令协议解析所述信令媒体流。

在又一个例子中，还可结合端口号和协议标识来确定信令媒体流使用的协议。

在本例中，可优先根据信令媒体流使用的端口号来确定其使用的协议。若基于端口号无法确定其使用的协议，例如该端口号对应有多个协议，那么可再获取信令媒体流中携带的协议标识，然后通过协议标识来确定其使用的协议。

举例来说，MRCP协议、SIP协议和SipRec协议可使用相同的端口号，例如均使用端口号684。服务器在接收到信令媒体流后，若获取到其使用的端口号是684，无法确定该信令媒体流使用的是这三种协议中的哪一种，进而可再从信令媒体流中获取其携带的协议标识，然后基于协议标识来确定该信令媒体流使用的是何种协议。

当然，在其他例子中，服务器也可以依次采用其支持的各个多媒体信令协议对接收到的信令媒体流进行解析，直至解析成功，本申请对此不作特殊限制。

步骤206，在语音流策略库中查找所述语音服务提供方对应的语音流处理策略，并基于所述语音流处理策略对所述语音流进行处理，得到与所述语音服务提供方处理需求对应的语音流处理结果。

在本申请中，语音服务提供方可基于自身业务上的处理需求，预先设置语音流处理策略，所述语音流处理策略可代表语音服务提供方对语音流的处理需求，该语音流的处理策略可被存储至预设的语音流策略库中，所述语音流策略库可位于服务器，也可位于服务器能够访问到的其他设备中。

请参考图3，所述语音流策略库的设置方法可包括以下步骤：

步骤302，接收语音服务提供方发送的语音流策略设置请求，所述语音策略设置请求中携带有语音服务提供方指定的语音流处理策略。

在本申请中，语音服务提供方可通过语音流策略设置请求触发语音流处理策略的设置。

例如，可将服务器支持的语音流处理策略通过客户端页面展示给语音服务提供方，语音服务提供方可根据自身处理需求选择相应的语音流处理策略，客户端进而可发送语音流策略设置请求至服务器。该语音流策略请求中携带有语音服务提供方选定的语音流处理策略，以及语音提供方标识等信息。

步骤304，响应于所述语音流策略设置请求，在所述语音流策略库中存储所述语音服务提供方与所述语音流处理策略之间的对应关系。

基于前述步骤302，响应于所述语音流策略设置请求，服务器可从该语音流策略请求中提取出语音服务提供方选定的语音流处理策略，然后可将语音流处理策略和语音服务提供方之间的对应关系存储到语音流策略库中。例如，可将语音流处理策略和语音服务提供方标识之间的对应关系存储到语音流策略库中。

在本申请中，所述语音流的处理策略可包括转写、重新编码、智能化处理等。

其中，所述转写是将语音流转换为文本，即将用户与客服的语音流转换为用户与客服的对话文本。

所述重新编码是将语音流编码为预设格式，所述预设格式可以由语音服务提供方来指定。

所述智能化处理是指对语音流进行质检、情绪识别、智能辅助等智能化处理等。

举例来说，假设语音服务提供方提供的是语音客服服务，其对语音流的处理需求是智能化处理，例如质检、情绪识别等，进而可设置智能化处理的语音流处理策略。在获得语音流的智能化处理结果后，语音服务提供方后续可基于该智能化处理结果进行业务质量分析等。

又假设，语音服务提供方提供的是语音翻译服务，其对语音流的处理需求是转写，进而可设置转写的语音流处理策略，即将语音流转换为文本。在获得语音流转写后的对话文本后，可基于对话文本分析翻译的准确性。

再假设，在语音服务提供方自身具有转写、智能化处理能力的情况下，其可设置重新编码的语音流处理策略，以将语音流重新编码为其需要的格式，方便其对重新编码后的语音流进行后续处理。

请参考表1的示例，表1示出了语音流策略库中存储的一种语音服务提供方与语音流处理策略之间对应关系的示例。其中，所述语音服务提供方标识可以为语音服务提供方的地址(例如语音交互端地址)、ID等唯一信息。所述语音流处理策略也可采用唯一标识的方式来进行存储。当然，表1仅为示例性说明，在实际应用中，也可不组织这样的表格。

语音服务提供方	语音流处理策略
		语音服务提供方1	转写
语音服务提供方2	质检
		语音服务提供方3	重新编码

表1

在本申请中，服务器可根据语音服务提供方标识在语音流策略库中查找到对应的语音流处理策略，然后基于查找到的语音流处理策略和所述辅助信令对所述语音流进行处理。

以查找到的语音流处理策略是转写为例，服务器可先基于辅助信令中的语音流编码格式对语音流进行解码，然后可调用ASR(Automatic Speech Recognition，自助语音识别技术)系统将解码后的语音流转换为文本，并基于辅助信令中的对话者身份标识为所述文本添加对话者身份，例如用户或客服，进而得到所述语音流对应的对话文本，并可将所述对话文本作为语音流处理结果。

以查找到的语音流处理策略是智能化处理为例，智能化处理的对象往往是文本，服务器可在调用ASR系统将语音流转换为对话文本后，基于对话文本进行智能化处理。

在本例中，智能化处理的语音流处理策略中往往还会指定有智能化处理类型，例如质检、情绪识别等，该智能化处理类型可由语音服务提供方在设置语音流处理策略时指定。

假设，智能化处理类型为质检，服务器可调用实时质检系统对前述对话文本进行质量检测，例如，分析客服人员的态度、客服人员回答用户问题的准确度等，并可将得到的质检结果，作为语音流处理结果。

又假设，智能化处理类型为客服辅助，服务器可调用实时客服辅助系统对前述对话文本进行客服辅助，例如，在客服知识库中检索用户问题对应的标准回答，并可将所述标准回答作为语音流处理结果。

再假设，智能化处理类型为情绪识别，服务器可调用实时情绪识别系统基于前述对话文本对用户情绪进行识别，用户的情绪可包括：焦急、愤怒、伤心、高兴等，并可将识别出的用户情绪作为语音流处理结果。

当然，在其他例子中，服务器中也可集成有上述质检、客服辅助、情绪识别等智能化处理功能，在调用ASR系统将语音流转换为对话文本后，可自行基于对话文本进行智能化处理，无需调用其他智能系统，本申请对此不作特殊限制。

以查找到的语音流处理策略是重新编码为例，该语音流处理策略中通常包括有语音服务提供方指定的语音编码格式。服务器也可先基于辅助信令中的语音流编码格式对语音流进行解码，然后获取语音流处理策略中指定的所述语音编码格式，然后基于该语音编码格式重新对语音流进行编码，将语音流编码为语音服务提供方所需的格式，重新编码后的语音流即为语音流处理结果。

举例来说，语音交互端发送的语音流是WAV格式，语音服务提供方预先设置的是MP3格式，服务器可将语音流重新编码为MP3格式。

在本申请中，不同语音交互端发送的辅助信令中相同信息的描述方式可能会不同，执行语音流处理的服务器可支持不同语音交互端的不同描述方式。服务器中可预设有辅助信令标准描述方式，在对接收到的信令媒体流进行解析后，针对其中的辅助信令，可基于该辅助信令标准描述方式对信令媒体流中的所述辅助信令进行描述方式转换，以统一辅助信令的描述方式，便于后续对语音流的处理。

其中，所述描述方式可以为语种，例如中文、英文等，所述辅助信令标准描述方式可以为某一预先指定的语种，例如英文。

举例来说，假设信令媒体流中携带的辅助信令是中文，而辅助信令标准描述方式为英文，服务器可将中文转换为对应的英文。

所述描述方式还可以为指定类型信息的标识，所述指定类型信息可包括通话信息、对话者身份信息等，所述辅助信令标准描述方式可以为预先指定的可代表某类型信息的标识。

举例来说，假设指定类型信息为通话信息，辅助信令标准描述方式为Call ID，即采用Call ID来代表通话信息(例如通话标识等)。一些语音交互端会使用Call ID来表示通话信息，一些语音交互端会使用Session ID来表示通话信息。在本例中，针对使用SessionID的辅助信令，服务器可根据所述辅助信令标准描述方式将其转换为Call ID。

当然，所述辅助信令标准描述方式不限于前述示例，可基于实际业务需求进行设置，本申请对此不作特殊限制。

在本申请中，服务器可基于辅助信令标准描述方式对信令媒体流中携带的辅助信令进行描述方式转换，并可基于转换后的辅助信令对语音流进行处理，进而适应不同的语音交互端，提高了本申请方案的适用性。

在本申请中，服务器基于语音服务提供方指定的语音流处理策略对实时语音流进行处理后，可得到与所述语音服务提供方处理需求对应的语音流处理结果，服务器可将所述语音流处理策略返回给语音服务提供方，例如，可通过消息队列将所述语音流处理策略发送至语音管理端。

其中，所述消息队列可位于服务器中，也可位于服务器之外的其他设备中，本申请对此不作特殊限制。

需要说明的是，若前述步骤206中服务器调用了智能化系统对语音流进行智能化处理，可由智能化系统将语音流处理结果返回给服务器，再由服务器提供给语音管理端；也可由智能化系统在进行智能化处理后，将语音流处理结果直接提供给语音管理端，本申请对此不作特殊限制。

在本申请中，语音管理端在获取到实时信令媒体流中语音流的处理结果后，可通过可视化界面将所述处理结果展示给语音服务提供方的管理人员。

假设，语音流处理结果为语音流的情绪识别，管理人员发现用户愤怒时，可提醒客服人员的主管介入；管理人员发现用户焦急时，可优先给用户安排客服人员等。当然，这些提醒和安排也可智能化触发，无需管理人员人工介入。

又假设，语音流处理结果为语音流的质检结果，语音管理端可将质检结果通过可视化界面展示给管理人员，管理人员可通过展示的结果直观了解客服质量。

由以上描述可以看出，本申请服务器在接收到语音服务提供方发送的实时信令媒体流后，可采用该信令媒体流使用的多媒体信令协议对其进行解析，得到实时语音流，然后可基于语音服务提供方对应的语音流处理策略对语音流进行处理，得到与语音服务提供方处理需求对应的语音流处理结果。

下面结合具体的实施例来描述本申请的实现过程。

图4示出了四种语音交互端，这四种语音交互端支持不同的多媒体信令。

其中，语音交互端1可以是支持SipRec协议的呼叫中心。语音交互端2可以是支持MRCP协议的呼叫中心。语音交互端3可以是使用FreeSWITCH(一种电话的软交换解决方案)的呼叫中心，该语音交互端3支持SIP协议。语音交互端4可以是支持WebSocket协议的语音助手应用。

以语音客服为例，语音交互端可将用户与客服人员之间的实时通话语音流以及该语音流的辅助信令导出，并基于自身支持的协议将实时语音流和其辅助信令封装为信令媒体流发送给执行本申请中语音流处理的服务器。

请参考图4，执行本申请中语音流处理的服务器可包括网络架构层、SipRec协议解析模块、MRCP协议解析模块、SIP协议解析模块、WebSocket协议解析模块、辅助信令转换层、语音流处理层。

其中，网络架构层可以支持TCP(Transmission Control Protocol，传输控制协议)、UDP(User Datagram Protocol，用户数据报协议)等多种协议，网络架构层在接收到语音交互端发送的信令媒体流后，可通过该信令媒体流的端口号和/或携带的协议标识确定该信令媒体流采用的多媒体信令协议，然后调用对应的解析模块对该信令媒体流进行解析，得到语音流和其对应的辅助信令。

辅助信令转换层可根据辅助信令标准描述方式对协议解析模块解析出的辅助信令进行描述方式转换，以统一不同语音交互端的描述方式。

语音流处理层可在语音流策略库中查找语音服务提供方对应的语音流处理策略，然后基于该语音流处理策略和辅助信令转换层转换后的辅助信令对语音流进行处理。

例如，语音流处理层可先基于辅助信令中的语音流编码格式对语音流进行解码，然后调用ASR系统将语音流转换为对话文本，接着调用质检系统基于对话文本对语音流进行质检，得到质检结果，并可由质检系统将质检结果提供给语音管理端。

当然，在这个过程中，质检系统与服务器的语音流处理层之间还可设置有控制器，该控制器可基于语音流处理层的通知事件获取对话文本，并与质检系统对接，将该对话文本发送给质检系统，以及接收质检系统返回的质检结果，然后，还可将质检结果提供给语音管理端。

再例如，语音流处理层在基于辅助信令中的语音流编码格式对语音流进行解码后，可基于语音流处理策略中语音服务提供方预设的编码格式对解码后的语音流重新进行编码，然后将重新编码后的语音流提供给语音管理端。

举例来说，假设语音交互端1是电商平台客服系统的呼叫中心，该客服系统可为用户提供语音客户服务。呼叫中心将用户小黑与客服小白的实时通话语音流以及该语音流的辅助信令导出，然后采用SIP协议将其封装并发送至服务器。

服务器在接收到封装后的数据包后，可根据头部携带的协议标识确定其采用SIP协议封装，然后调用SIP协议解析模块对该数据包进行解析，得到呼叫中心发送的用户小黑与客服小白之间通话的语音流以及该语音流的辅助信令。

在进行协议解析后，服务器的辅助信令转换层可对呼叫中心发送的原始辅助信令进行转换，例如，将Session ID转换为Call ID。

接着，语音流处理层可在语音流策略库中查询部署呼叫中心的电商平台预先设置的语音流处理策略。假设该语音流处理策略是客服辅助，语音流处理层可采用辅助信令中携带的语音流编码格式对该语音流进行解码，然后调用ASR系统将所述语音流转换为对话文本，再调用实时客服辅助系统(未图示)在知识库中查找所述对话文本中用户问题的标准答案，并将查找到的标准答案作为处理结果提供给电商平台的客服小白。例如，可采用弹窗的方式在小白的主机上显示该标准答案，小白进而可将该标准答案直接回复给小黑，无需小白手动检索，可大大提升客服效果。

与前述语音流的处理方法的实施例相对应，本申请还提供了语音流的处理单元的实施例。

本申请语音流的处理单元的实施例可以应用在服务器中。单元实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的单元，是通过其所在电子设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图5所示，为本申请语音流的处理单元所在服务器的一种硬件结构图，除了图5所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中单元所在的服务器通常根据该服务器的实际功能，还可以包括其他硬件，对此不再赘述。

图6是本申请一示例性实施例示出的一种语音流处理单元的框图。

请参考图6，所述语音流处理单元600可以应用在前述图5所示的服务器上，所述服务器支持多种多媒体信令协议，能够访问预设的语音流策略库，所述语音流策略库中存储有语音服务提供方与语音流处理策略之间的对应关系，所述语音流处理策略代表所述语音服务提供方对语音流的处理需求。

所述语音流处理单元600包括有：流接收模块601、协议确定模块602、流处理模块603。

其中，流接收模块601用以接收语音服务提供方发送的信令媒体流。协议确定模块602用以确定所述信令媒体流使用的多媒体信令协议，并采用确定出的所述多媒体信令协议解析所述信令媒体流，得到所述信令媒体流中携带的语音流。流处理模块603用以在所述语音流策略库中查找所述语音服务提供方对应的语音流处理策略，并基于所述语音流处理策略对所述语音流进行处理，得到与所述语音服务提供方处理需求对应的语音流处理结果。

可选的，所述信令媒体流中还携带有所述语音流的辅助信令，所述流处理模块603基于所述语音流处理策略对所述语音流进行处理的步骤包括：在所述语音流处理策略为转写的情况下，基于所述辅助信令中的语音流编码格式对所述语音流进行解码；将解码后的语音流转换为文本；基于所述辅助信令中的对话者身份标识为所述文本添加对话者身份，以实现对所述语音流进行转写，得到所述语音流对应的对话文本。

可选的，所述流处理模块603基于所述语音流处理策略对所述语音流进行处理的步骤包括：在所述语音流处理策略为智能化处理的情况下，获取所述语音流处理策略中指定的智能化处理类型；调用所述智能化处理类型对应的智能系统基于所述对话文本对所述语音流进行智能化处理。

可选的，所述信令媒体流中还携带有所述语音流的辅助信令，所述流处理模块603基于所述语音流处理策略对所述语音流进行处理的步骤包括：在所述语音流处理策略为重新编码的情况下，获取所述语音流处理策略中指定的编码格式；基于所述辅助信令中的语音流编码格式对所述语音流进行解码；基于获取到的所述编码格式对解码后的语音流重新进行编码。

可选的，所述信令媒体流中还携带有所述语音流的辅助信令，所述流处理模块603还用以获取预设的辅助信令标准描述方式；基于所述辅助信令标准描述方式，对所述信令媒体流中的辅助信令进行描述方式转换。

可选的，所述协议确定模块602确定所述信令媒体流使用的多媒体信令协议的步骤包括：获取所述信令媒体流使用的端口号；查询端口号与多媒体信令协议之间的映射关系来确定所述信令媒体流使用的多媒体信令协议。

可选的，所述协议确定模块602确定所述信令媒体流使用的多媒体信令协议的步骤包括：当所述端口号对应多个多媒体信令协议时，获取所述信令媒体流中携带的协议标识；查询协议标识与多媒体信令协议之间的映射关系来确定所述信令媒体流使用的多媒体信令协议。

可选的，所述语音流策略库的设置步骤包括：接收语音服务提供方发送的语音流策略设置请求，所述语音策略设置请求中携带有语音服务提供方指定的语音流处理策略；响应于所述语音流策略设置请求，在所述语音流策略库中存储所述语音服务提供方与所述语音流处理策略之间的对应关系。

可选的，所述流处理模块603还用以通过消息队列将所述语音流处理结果返回至所述语音服务提供方。

上述语音流处理单元中各个模块的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于语音流处理单元实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的语音流处理单元实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

在一个典型的配置中，计算机包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带、磁盘存储、量子存储器、基于石墨烯的存储介质或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

与前述语音流的处理方法的实施例相对应，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现以下步骤：

接收语音服务提供方发送的信令媒体流；

可选的，所述信令媒体流中还携带有所述语音流的辅助信令，所述基于所述语音流处理策略对所述语音流进行处理的步骤包括：在所述语音流处理策略为转写的情况下，基于所述辅助信令中的语音流编码格式对所述语音流进行解码；将解码后的语音流转换为文本；基于所述辅助信令中的对话者身份标识为所述文本添加对话者身份，以实现对所述语音流进行转写，得到所述语音流对应的对话文本。

可选的，所述基于所述语音流处理策略对所述语音流进行处理的步骤包括：在所述语音流处理策略为智能化处理的情况下，获取所述语音流处理策略中指定的智能化处理类型；调用所述智能化处理类型对应的智能系统基于所述对话文本对所述语音流进行智能化处理。

可选的，所述信令媒体流中还携带有所述语音流的辅助信令，所述基于所述语音流处理策略对所述语音流进行处理的步骤包括：在所述语音流处理策略为重新编码的情况下，获取所述语音流处理策略中指定的编码格式；基于所述辅助信令中的语音流编码格式对所述语音流进行解码；基于获取到的所述编码格式对解码后的语音流重新进行编码。

可选的，所述信令媒体流中还携带有所述语音流的辅助信令，所述程序被处理器执行时还实现以下步骤：获取预设的辅助信令标准描述方式；基于所述辅助信令标准描述方式，对所述信令媒体流中的辅助信令进行描述方式转换。

可选的，所述确定所述信令媒体流使用的多媒体信令协议的步骤包括：获取所述信令媒体流使用的端口号；查询端口号与多媒体信令协议之间的映射关系来确定所述信令媒体流使用的多媒体信令协议。

可选的，所述确定所述信令媒体流使用的多媒体信令协议的步骤包括：当所述端口号对应多个多媒体信令协议时，获取所述信令媒体流中携带的协议标识；查询协议标识与多媒体信令协议之间的映射关系来确定所述信令媒体流使用的多媒体信令协议。

可选的，所述语音流策略库的设置方法包括：接收语音服务提供方发送的语音流策略设置请求，所述语音策略设置请求中携带有语音服务提供方指定的语音流处理策略；响应于所述语音流策略设置请求，在所述语音流策略库中存储所述语音服务提供方与所述语音流处理策略之间的对应关系。

可选的，所述程序被处理器执行时还实现以下步骤：通过消息队列将所述语音流处理结果返回至所述语音服务提供方。

上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种语音流的处理方法，应用于服务器，所述服务器支持多种多媒体信令协议，能够访问预设的语音流策略库，所述语音流策略库中存储有语音服务提供方与语音流处理策略之间的对应关系，所述语音流处理策略代表所述语音服务提供方对语音流的处理需求，所述方法包括：

接收语音服务提供方发送的信令媒体流；

2.根据权利要求1所述的方法，所述信令媒体流中还携带有所述语音流的辅助信令，所述基于所述语音流处理策略对所述语音流进行处理，包括：

将解码后的语音流转换为文本；

3.根据权利要求2所述的方法，所述基于所述语音流处理策略对所述语音流进行处理，包括：

4.根据权利要求1所述的方法，所述信令媒体流中还携带有所述语音流的辅助信令，所述基于所述语音流处理策略对所述语音流进行处理，包括：

5.根据权利要求1所述的方法，所述信令媒体流中还携带有所述语音流的辅助信令，所述方法还包括：

获取预设的辅助信令标准描述方式；

6.根据权利要求1所述的方法，所述确定所述信令媒体流使用的多媒体信令协议，包括：

获取所述信令媒体流使用的端口号；

7.根据权利要求6所述的方法，所述确定所述信令媒体流使用的多媒体信令协议，包括：

8.根据权利要求1所述的方法，所述语音流策略库的设置方法包括：

9.根据权利要求1所述的方法，还包括：

10.一种语音流的处理单元，应用于服务器，所述服务器支持多种多媒体信令协议，能够访问预设的语音流策略库，所述语音流策略库中存储有语音服务提供方与语音流处理策略之间的对应关系，所述语音流处理策略代表所述语音服务提供方对语音流的处理需求，所述单元包括：

媒体流接收模块，接收语音服务提供方发送的信令媒体流；

11.一种电子设备，包括：

处理器；

用于存储机器可执行指令的存储器；

其中，所述处理器通过运行所述可执行指令以实现如权利要求1-9中任一项所述的方法的步骤。

12.一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如权利要求1-9中任一项所述方法的步骤。