CN106572067A

CN106572067A - 语音流传送的方法及系统

Info

Publication number: CN106572067A
Application number: CN201510657034.2A
Authority: CN
Inventors: 甘利民; 陈凯; 吴兆波
Original assignee: Alibaba Group Holding Ltd
Current assignee: Advanced New Technologies Co Ltd; Advantageous New Technologies Co Ltd
Priority date: 2015-10-12
Filing date: 2015-10-12
Publication date: 2017-04-19
Anticipated expiration: 2035-10-12
Also published as: CN106572067B

Abstract

本申请公开了一种语音流传送的方法和系统，该方法包括：接收输入的第一语音流；判断第一语音流的参数是否落入预设阈值范围；当第一语音流的参数未落入预设阈值范围时，调整第一语音流以形成语音流的参数落入预设阈值范围的第二语音流；输出第二语音流。本申请提供的技术方案中，当第一语音流的参数未落入预设阈值范围时，调整第一语音流形成参数落入预设阈值范围的第二语音流，从而可以调整对话中的语音参数，增加语音输入方和语音接收方终端稳定链接的概率，提高信息有效传递的效率。

Description

语音流传送的方法及系统

技术领域

本申请涉及传送领域，尤其涉及一种语音流传送的方法及系统。

背景技术

现有技术中，通常的语音传送的方法是终端设备接收语音的输入方发出的语音，然后将语音转换为电子数据，然后将电子数据发送到语音的接收方。语音的接收方，将电子数据反向转化为语音进行收听。当语音的输入方发出的语音中声压不适当时，或者语速不适当时，再或者包含容易引发语音的接收方情绪的禁忌词时，容易增加语音的输入方和语音的接收方中断链接的概率，影响了信息有效传递的效率。

在实现现有技术过程中，发明人发现现有技术中还不存在一种涉及语音的人机工程学，可以增加语音输入方和语音接收方终端稳定链接的概率，提高信息有效传递的效率。

发明内容

本申请实施例提供一种可以调整对话中的语音参数的方法，增加语音输入方和语音接收方终端稳定链接的概率，提高信息有效传递的效率。具体的，一种语音流传送的方法，包括：

接收输入的第一语音流；

判断第一语音流的参数是否落入预设阈值范围；

当第一语音流的参数未落入预设阈值范围时，调整第一语音流以形成语音流的参数落入预设阈值范围的第二语音流；

输出第二语音流。

本申请实施例还提供另一种语音流传送的方法，包括：

接收输入的第一语音流；

判断第一语音流的参数是否落入预设阈值范围；

当第一语音流的参数未落入预设阈值范围时，暂停第一语音流输出，并向第一语音流的输入方发出提醒消息。

本申请实施例还提供一种语音流传送的系统，包括：

接收模块，用于接收输入的第一语音流；

运算模块，用于判断第一语音流的参数是否落入预设阈值范围；

调整模块，用于当第一语音流的参数未落入预设阈值范围时，调整第一语音流以形成参数落入预设阈值范围的第二语音流；

输出模块，用于输出第二语音流。

本申请实施例还提供另一种语音传送的系统，包括：

接收模块，用于接收输入的第一语音流；

调整模块，用于当第一语音流的参数未落入预设阈值范围时，暂停第一语音流输出，并向第一语音流的输入方发出提醒消息。

本申请实施例提供的语音传送的方法及系统，至少具有如下有益效果：

当第一语音流的参数未落入预设阈值范围时，调整第一语音流形成参数落入预设阈值范围的第二语音流，从而可以调整对话中的语音参数，增加语音输入方和语音接收方终端稳定链接的概率，提高信息有效传递的效率。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例提供的语音传送的方法的流程图。

图2为本申请实施例提供的语音传送的系统的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为本申请实施例提供的语音传送的方法的流程图，具体包括以下步骤：

S100：接收输入的第一语音流。

终端设备接收语音的输入方发出的第一语音流。例如，终端设备接收客服发出的第一语音流。

在本申请提供的一种实施方式中，接收输入的第一语音流，具体包括：

接收两次相邻停顿之间的第一语音流。

具体的，语音的输入方发出语音时，会有自然的停顿。正常进行语音传送时，相邻的音节之间会有短暂的间隔，而一个语意表达完成时，会有一个相对较长的间隔作为停顿。终端设备可以识别出语音间隔时间的长短，从而将语音切分为若干语音流。第一语音流可以是其中的某一个时段的语音片段。例如，在陈述一句话时，一句话陈述完毕时的时间间隔通常大于陈述该句话时两个字之间的时间间隔。正常对话时，字间的时间间隔大约在0.3秒-0.5秒之间。而一句话陈述完毕时，时间间隔大约在0.8秒-1.5秒之间。这样可以设定时间间隔的标准将语音切分为若干语音流。

S200：判断第一语音流的参数是否落入预设阈值范围。

在本申请提供的又一实施例中，参数为语音流的声压值，预设阈值范围包括预设声压阈值范围。预设声压阈值范围可以具有上下限。当输入的第一语音流的声压值偏小时，容易导致语音的接收方收听不清楚。而当输入的第一语音流的声压值偏大时，容易使得语音的接收方对语音的输入方产生情绪失控的误判。

在本申请提供的又一实施例中，参数为语音流的语速值，预设阈值范围包括预设语速阈值范围。预设语速阈值范围可以具有上下限。当输入的第一语音流的语速值偏小时，容易导致语音的接收方对语音的输入方产生懈怠的误判。而当输入的第一语音流的语速值偏大时，容易导致语音的接收方对语音的输入方产生情绪失控的误判。

在本申请提供的又一实施例中，参数为语音流包含的禁忌词,预设阈值范围包括预设禁忌词范围。当输入的第一语音流包含禁忌词时，容易导致语音的接收方对语音的输入方产生情绪失控的误判。

S300：当第一语音流的参数未落入预设阈值范围时，调整第一语音流以形成参数落入预设阈值范围的第二语音流。

在本申请提供的又一实施例中，调整第一语音流以形成参数落入预设阈值范围的第二语音流，具体包括：

当第一语音流的声压值未落入预设声压阈值范围时，比例放缩第一语音流的声压值，以形成声压值在预设声压阈值范围内的第二语音流。

进一步的，在本申请提供的又一实施例中，比例放缩第一语音流的声压值，以形成声压值在预设声压阈值范围内的第二语音流，具体包括：

计算第一语音流的平均声压值；

计算预设声压阈值范围的中间值与所述平均声压值的第一比值；

以第一比值为放缩倍数，放缩第一语音流的信号电压，以形成第二语音流。

具体的，终端设备可以建立声压值与信号电压之间的对应关系。从而终端设备可以通过调整第一语音流的信号电压，达到调整声压值的目的。终端设备将第一语音流的声压值调整到预设声压阈值范围内，从而可以避免语音的接收方产生误判。终端设备计算第一语音流的平均声压值。假设，第一语音流的平均声压值可以是50分贝声压级。再假设，预设声压阈值范围可以是的10分贝声压级到30分贝声压级。终端设备计算预设声压阈值范围的中间值20分贝声压级与平均声压值50分贝声压级的第一比值为0.4。终端设备将第一语音流的信号电压乘以0.4，以形成第二语音流。

当第一语音流的语速值未落入预设语速阈值范围时，比例增减第一语音流的语速值，以形成语速值在预设语速阈值范围内的第二语音流。

进一步的，在本申请提供的又一实施例中，比例增减第一语音流的语速值，以形成语速值在预设语速阈值范围内的第二语音流，具体包括：

计算第一语音流的每秒经过的音节数；

计算预设语速阈值范围的每秒经过的音节数的中间值与第一语音流的每秒经过的音节数的第二比值；

以第二比值为增减倍数，增减第一语音流每秒经过的音节数，以形成第二语音流。

具体的，终端设备可以将第一语音流的语速值调整到预设语速阈值范围内，从而避免语音的接收方产生误判。终端设备计算第一语音流的每秒经过的音节数，例如，每秒5个音节。假设，预设语速阈值范围每秒1个音节到每秒3个音节。终端设备计算预设语速阈值范围的每秒经过的音节数的中间值——2个音节，与第一语音流的每秒经过的音节数——5个音节的第二比值0.4。终端设备将第一语音流的语速值乘以0.4，形成第二语音流。

在本申请提供的又一实施例中，调整第一语音流形成参数落入预设阈值范围的第二语音流，具体包括：

当第一语音流包含预设的禁忌词时，屏蔽第一语音流中的禁忌词以形成第二语音流。

进一步的，在本申请提供的又一实施例中，屏蔽第一语音流中的禁忌词以形成第二语音流，具体包括：

确定禁忌词在第一语音流中出现的时段；

将所述时段替换为空白以形成第二语音流。

具体的，终端设备可以屏蔽第一语音流中的禁忌词，从而可以避免语音的接收方产生误判。终端设备确定禁忌词在第一语音流中出现的时段，例如，禁忌词出现在10毫秒到100毫秒。然后，终端设备将时段10毫秒到100毫秒替换为空白，以形成第二语音流。

S400：输出第二语音流。

终端设备将调整后的第二语音流向语音的接收方发出。

在本申请提供的实施方式中，当第一语音流的参数未落入预设阈值范围时，调整第一语音流形成参数落入预设阈值范围的第二语音流，从而可以调整对话中的语音参数，增加语音输入方和语音接收方终端稳定链接的概率，提高信息有效传递的效率。

进一步的，在本申请提供的又一实施例中，提供一种语音流传送的方法，包括：

接收输入的第一语音流；

判断第一语音流是否落入预设阈值范围；

当第一语音流未落入预设阈值范围时，暂停第一语音流输出，并向第一语音流的输入方发出提醒消息。

具体的，终端设备接收语音的输入方发出的第一语音流。然后，终端设备判断第一语音流是否落入预设阈值范围。当第一语音流的参数未落入预设阈值范围时，终端设备暂停第一语音流输出，并向第一语音流的输入方发出提醒消息。

进一步的，在本申请提供的又一实施例中，参数为声压值，预设阈值范围包括预设声压阈值范围。向第一语音流的输入方发出提醒消息，具体包括：

向第一语音流的输入方发出第一语音流的声压值未落入预设声压阈值范围的提醒消息。

具体的，当第一语音流未落入预设声压阈值范围时，终端设备暂停第一语音流输出，并向第一语音流的输入方发出第一语音流的声压值未落入预设声压阈值范围的提醒消息。

进一步的，在本申请提供的又一实施例中，参数为语速值，预设阈值范围包括预设语速阈值范围。向第一语音流的输入方发出提醒消息，具体包括：

向第一语音流的输入方发出第一语音流的语速值未落入预设语速阈值范围的提醒消息。

具体的，当第一语音流未落入预设语速阈值范围时，终端设备暂停第一语音流输出，并向第一语音流的输入方发出第一语音流的语速值未落入预设语速阈值范围的提醒消息。

进一步的，在本申请提供的又一实施例中，参数为语音流包含的禁忌词，预设阈值范围包括预设禁忌词范围。向第一语音流的输入方发出提醒消息，具体包括：

向第一语音流的输入方发出第一语音流的包含禁忌词的提醒消息。

具体的，当第一语音流包含禁忌词时，终端设备暂停第一语音流输出，并向第一语音流的输入方发出第一语音流包含禁忌词的提醒消息。

应当重点指出的是，这里的语音传送的方法可以自动决定第一语音流是否需要调整及如何调整，区别于现有技术中人工方式通过机械式或电子式控制钮调整音量的大小，以及现有技术中人工方式通过机械式或电子式控制钮调整音视频的播放速率。

以上是本申请实施例提供的语音传送的方法，基于同样的思路，请参照图2，本申请还提供一种语音流传送的系统1，包括：

接收模块10，用于接收输入的第一语音流；

运算模块20，用于判断第一语音流的参数是否未落入预设阈值范围；

调整模块30，用于当第一语音流的参数未落入预设阈值范围时，调整第一语音流以形成参数落入预设阈值范围的第二语音流；

输出模块40，用于输出第二语音流。

在本申请提供的又一实施例中，参数为语音流的声压值，预设阈值范围包括预设声压阈值范围。调整模块30，用于调整第一语音流形成在预设阈值范围的第二语音流，具体用于：

在本申请提供的又一实施例中，接收模块10，用于接收输入的第一语音流，具体用于：

接收两次相邻停顿之间的第一语音流。

调整模块30，用于比例放缩第一语音流的声压值，以形成声压值在预设声压阈值范围内的第二语音流，具体用于：

计算第一语音流的平均声压值；

在本申请提供的又一实施例中，参数为语音流的语速值，预设阈值范围包括预设语速阈值范围。

调整模块30，用于当第一语音流的语速值未落入预设语速阈值范围时，比例增减第一语音流的语速值，以形成语速值在预设语速阈值范围内的第二语音流。

接收两次相邻停顿之间的第一语音流。

调整模块30，用于比例增减第一语音流的语速值，以形成语速值在预设语速阈值范围内的第二语音流，具体用于：

计算第一语音流的每秒经过的音节数；

在本申请提供的又一实施例中，预设阈值范围包括预设禁忌词范围。

调整模块30，用于调整第一语音流以形成参数落入预设阈值范围的第二语音流，具体用于：

在本申请提供的又一实施例中，调整模块30，用于屏蔽第一语音流中的禁忌词以形成第二语音流，具体用于：

确定禁忌词在第一语音流中出现的时段；

将所述时段替换为空白以形成第二语音流。

在本申请提供的又一实施例中，还提供一种语音传送的系统，包括：

接收模块10，用于接收输入的第一语音流；

运算模块20，用于判断第一语音流是否未落入预设阈值范围；

调整模块30，用于当第一语音流未落入预设阈值范围时，暂停第一语音流输出，并向第一语音流的输入方发出提醒消息。

在本申请提供的又一实施例中，参数为语音流的声压值，预设阈值范围包括预设声压阈值范围。调整模块30，用于向第一语音流的输入方发出提醒消息，具体用于：

在本申请提供的又一实施例中，参数为语音流的语速值，预设阈值范围包括预设语速阈值范围。调整模块30，用于向第一语音流的输入方发出提醒消息，具体用于：

向第一语音流的输入方发出第一语音流的语速值未落入预设声压阈值范围的提醒消息。

在本申请提供的又一实施例中，参数为语音流包含的禁忌词，预设阈值范围包括预设禁忌词范围。调整模块30，用于向第一语音流的输入方发出提醒消息，具体用于：

下面提供一种本申请实施例的应用场景。在贷款催收业务中，可以选择接入该语音流传送系统。催收员在执行催收任务时，进行语音对话。语音流传送系统接收催收员的第一语音流。然后，语音流传送系统判断第一语音流的声压值是否落入预设声压值范围、第一语音流的语速值是否落入预设语速值范围、第一语音流是否包含禁忌词。当声压值未落入预设声压值范围时，语音流传送系统调整第一语音流以形成声压值在预设声压值范围的第二语音流。当语速值未落入预设语速值范围时，语音流传送系统调整第一语音流以形成语速值在预设语速值范围的第二语音流。当第一语音流包含禁忌词时，语音流传送系统屏蔽其中的禁忌词以形成第二语音流。当第一语音流落入预设阈值范围时，则不对第一语音进行处理。同时，语音流传送系统还可以对第一语音流是否落入预设阈值范围的情形进行记录并进行反馈，以便提高催收员以语音方式执行催收任务的服务质量。

本领域内的技术人员应明白，本发明的实施例可提供为系统、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的系统、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数值处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数值处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数值处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数值处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flashRAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何系统或技术来实现信息存储。信息可以是计算机可读指令、数值结构、程序的模块或其他数值。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调整的数值信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、系统、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、系统、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、系统、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为系统、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种语音流传送的方法，其特征在于，包括：

接收输入的第一语音流；

判断第一语音流的参数是否落入预设阈值范围；

输出第二语音流。

2.如权利要求1所述的方法，其特征在于，所述参数为语音流的声压值，所述预设阈值范围包括预设声压阈值范围；

调整第一语音流以形成参数落入预设阈值范围的第二语音流，具体包括：

3.如权利要求2所述的方法，其特征在于，所述接收输入的第一语音流，具体包括：

接收两次相邻停顿之间的第一语音流；

所述比例放缩第一语音流的声压值，以形成声压值在预设声压阈值范围内的第二语音流，具体包括：

计算第一语音流的平均声压值；

4.如权利要求1所述的方法，其特征在于，所述参数为语音流的语速值，所述预设阈值范围包括预设语速阈值范围；

5.如权利要求4所述的方法，其特征在于，接收输入的第一语音流，具体包括：

接收两次相邻停顿之间的第一语音流；

比例增减第一语音流的语速值，以形成语速值在预设语速阈值范围内的第二语音流，具体包括：

计算第一语音流的每秒经过的音节数；

6.如权利要求1所述的方法，其特征在于，所述参数为语音流包含的禁忌词，所述预设阈值范围包括预设禁忌词范围；

当第一语音流包含预设的禁忌词时，屏蔽第一语音流中的禁忌词形成第二语音流。

7.如权利要求6所述的方法，其特征在于，接收输入的第一语音流，具体包括：

接收两次相邻停顿之间的第一语音流；

屏蔽第一语音流中的禁忌词以形成第二语音流，具体包括：

确定禁忌词在第一语音流中出现的时段；

将所述时段替换为空白以形成第二语音流。

8.一种语音流传送的方法，其特征在于，包括：

接收输入的第一语音流；

判断第一语音流的参数是否落入预设阈值范围；

9.如权利要求8所述的方法，其特征在于，所述参数为语音流的声压值、语音流的语速值或语音流包含的禁忌词，所述预设阈值范围包括预设声压阈值范围、预设语速阈值范围或预设禁忌词范围；

向第一语音流的输入方发出提醒消息，具体包括：

向第一语音流的输入方发出第一语音流的声压值未落入预设阈值范围的提醒消息、第一语音流的语速值未落入预设阈值范围的提醒消息或第一语音流包含禁忌词的提醒消息。

10.一种语音流传送的系统，其特征在于，包括：

接收模块，用于接收输入的第一语音流；

输出模块，用于输出第二语音流。

11.如权利要求10所述的系统，其特征在于，所述参数为语音流的声压值，所述预设阈值范围包括预设声压阈值范围；

所述调整模块，用于调整第一语音流以形成参数落入预设阈值范围的第二语音流，具体用于：

12.如权利要求11所述的系统，其特征在于，所述接收模块，用于接收输入的第一语音流，具体用于：

接收两次相邻停顿之间的第一语音流；

所述调整模块，用于比例放缩第一语音流的声压值，以形成声压值在预设声压阈值范围内的第二语音流，具体用于：

计算第一语音流的平均声压值；

13.如权利要求10所述的系统，其特征在于，所述参数为语音流的语速值，所述预设阈值范围包括预设语速阈值范围；

所述调整模块，用于当第一语音流的语速值未落入预设语速阈值范围时，比例增减第一语音流的语速值，以形成语速值在预设语速阈值范围内的第二语音流。

14.如权利要求13所述的系统，其特征在于，所述接收模块，用于接收输入的第一语音流，具体用于：

接收两次相邻停顿之间的第一语音流；

所述调整模块，用于比例增减第一语音流的语速值，以形成语速值在预设语速阈值范围内的第二语音流，具体用于：

计算第一语音流的每秒经过的音节数；

15.如权利要求10所述的系统，其特征在于，所述参数为语音流包含的禁忌词，所述预设阈值范围包括预设禁忌词范围；

所述调整模块，用于调整第一语音流形成参数落入预设阈值范围的第二语音流，具体用于：

16.如权利要求15所述的系统，其特征在于，所述调整模块，用于屏蔽第一语音流中的禁忌词形成第二语音流，具体用于：

确定禁忌词在第一语音流中出现的时段；

将所述时段替换为空白以形成第二语音流。

17.一种语音流传送的系统，其特征在于，包括：

接收模块，用于接收输入的第一语音流；

调整模块，用于当第一语音流未落入预设阈值范围时，暂停第一语音流输出，并向第一语音流的输入方发出提醒消息。

18.如权利要求17所述的系统，其特征在于，所述预设阈值范围包括预设声压阈值范围、预设语速阈值范围或预设禁忌词范围；

所述调整模块，用于向第一语音流的输入方发出提醒消息，具体用于：