CN110018806A

CN110018806A - 一种语音处理方法和装置

Info

Publication number: CN110018806A
Application number: CN201811397263.5A
Authority: CN
Inventors: 柳林东
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2018-11-22
Filing date: 2018-11-22
Publication date: 2019-07-16
Also published as: TW202020652A; WO2020103562A1; TWI724507B

Abstract

本申请提供一种语音处理方法和装置。基于用户语音播放次数判断确定这段语音的信息获取难度，并主动提供不同的语音播放策略，提升用户在语音交流场景下的使用体验。

Description

一种语音处理方法和装置

技术领域

本说明书涉及互联网技术领域，尤其涉及一种语音处理方法和装置。

背景技术

随着互联网技术的发展，传统的聊天工具开始具备语音交流的功能，用户除了打字发送文本信息外，还可以选择录入并发送一段语音与他人进行聊天交流。

在现有技术的语音聊天功能中，用户在接收到一段语音后，可能因为环境嘈杂或者对方语速太快等因素，需要反复倾听某段语音来获取其中包含的信息量，用户体验较差，目前尚没有对这种场景进行优化和处理的方案。

发明内容

针对上述技术问题，本说明书实施例提供一种语音处理方法和装置，技术方案如下：

根据本说明书实施例的第一方面，提供一种语音处理方法，该方法包括：

监测到单条语音播放后，确定所述语音信息在预定时间内的已播放次数，判断所述已播放次数是否处于预定的播放次数区间内；

若所述已播放次数处于预定的播放次数区间内，则按照预定义的语音处理策略处理所述语音信息。

根据本说明书实施例的第二方面，提供一种语音处理装置，该装置包括：

播放次数监测模块：用于监测到单条语音播放后，确定所述语音信息在预定时间内的已播放次数，判断所述已播放次数是否处于预定的播放次数区间内；

语音信息处理模块：用于当所述已播放次数处于预定的播放次数区间内时，按照预定义的语音处理策略处理所述语音信息。

根据本说明书实施例的第三方面，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现一种语音播放方法，该方法包括：

本说明书实施例所提供的技术方案，提供了一种语音处理方法，基于用户语音播放次数判断确定这段语音的信息获取难度，并主动提供不同的语音播放策略，提升用户在语音交流场景下的使用体验。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本说明书实施例。

此外，本说明书实施例中的任一实施例并不需要达到上述的全部效果。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是本说明书一示例性实施例示出的语音处理方法的一种流程图；

图2是本说明书一示例性实施例示出的语音处理方法的另一种流程图；

图3是本说明书一示例性实施例示出的后续语音处理方法的一种流程图；

图4是本说明书一示例性实施例示出的后续语音处理方法的另一种流程图；

图5是本说明书一示例性实施例示出的语音处理装置的一种示意图；

图6是本说明书一示例性实施例示出的一种计算机设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。

在本说明书使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

针对以上问题，本说明书实施例提供一种语音处理方法，以及一种用于执行该方法的语音处理装置，下面对本实施例涉及的语音处理方法进行详细说明，参见图1所示，该方法可以包括以下步骤：

S101，监测到单条语音播放后，确定所述语音信息在预定时间内的已播放次数；

S102，判断所述已播放次数是否处于预定的播放次数区间内；若所述已播放次数处于预定的播放次数区间内，执行步骤S103，若所述已播放次数未处于预定的播放次数区间内，则不操作。

本实施例提供的方法应用于通过语音信息进行交流的场景。具体地，该语音信息指的是并不是打电话一类的语音通话，而是录制好的一段音频。举例说明，在用户使用微信进行交流的过程中，用户可录入一段语音信息发送给自己指定的联系人，也可收到并播放联系人录制好的一段语音信息。

在一些情况下，用户可能无法顺利获取每一条语音信息包含的信息量，例如：发送语音信息的联系人语速过快，音量过低，发送环境较嘈杂。或用户自身所处的环境较嘈杂等等。为了听清对方的语音信息，用户通常会进行多次播放。

在本实施例中，当用户播放语音信息后，确定该语音信息在预定时间内的已播放次数是否处于预定的播放次数区间内。其中，该播放次数区间为预先划分的，可由用户自定义的次数区间。举例说明，可将1-2次播放设定为第一次数区间，3-5次播放设定为第二次数区间，高于6次播放设定为第三次数区间。进一步地，可根据每条语音信息的被播放次数所落在的次数区间范围为该语音信息选取不同的处理策略。

需要注意的是，本实施例监测的是单条语音信息在预定时间内的已播放次数，如，单条语音信息在2分钟内的已播放次数、如果语音信息在超过预定时间，如几天内被间隔性的反复播放，则大概率并不是用户听不清楚语音信息，不需要采取语音处理策略进行处理。

S103，按照预定义的语音处理策略处理所述语音信息。

具体地，语音处理策略可以包括降低所述语音信息的播放速度、提高所述语音信息的播放音量或将所述语音信息转换成文本显示等等。每种语音处理策略可以单独使用，在某些情况下，也可对同一条语音信息使用一种以上的语音处理策略。

其中，按照预定义的语音处理策略处理语音信息可包含多种处理方式。下面举出几种较常用的处理方式，以下举例并不用以限制本说明书，用户可根据不同应用场景设定更多不同的处理方式。

a)若所述播放次数处于预定的播放次数区间内，则按照所述播放次数区间对应的语音处理策略处理所述语音信息，其中，不同的播放次数区间被设定了对应的语音处理策略。

举例说明：如上文所述，可将1-2次播放设定为第一次数区间，3-5次播放设定为第二次数区间，高于6次播放设定为第三次数区间。当单条语音的播放次数落在第一次数区间时，不使用语音处理策略对该条语音进行处理；当单条语音的播放次数落在第二次数区间时，使用语音处理策略-按比例提高音量对该条语音进行处理；当单条语音的播放次数落在第三次数区间时，使用语音处理策略-按比例提高音量和语音策略按比例降低播放速度共同对该条语音进行处理。

其中，每种次数区间被设定的语音处理策略可以不同，也可以相同。不同次数区间对应的语音处理策略可由用户自行设定。

b)若所述播放次数处于预定的播放次数区间内，则检测所述语音信息的语音质量问题，根据检测结果选择对应的语音处理策略处理所述语音信息。

举例说明，可将高于3次播放设定为第一次数区间，当单条语音的播放次数落在第一次数区间时，检测该条语音信息的语音质量问题。语音质量问题可能包括：音量太小，语速过快，背景音过于嘈杂等。则可依据检测出的不同语音质量问题采取相对应的语音处理策略，如，提高音量，放慢播放速度，进行降噪处理等。

在一些较为简单和普遍的应用场景中，可只设定一个次数区间，并对应设定该次数区间的处理策略。参见图2所示，为本实施例提供的一种语音播放方法，该方法可以包括以下步骤：

S201，监测到单条语音播放后，确定所述语音信息在预定时间内的已播放次数；

S202，判断所述已播放次数是否高于预设阈值；若所述已播放次数高于预设阈值，执行步骤S203，若所述已播放次数未高于预设阈值，则不操作；

S203，按照预定义的语音处理策略处理所述语音信息。具体可为降低所述语音信息的播放速度、提高所述语音信息的播放音量或将所述语音信息转换成文本显示等。

该预定义的语音处理策略为用户预先设定的，在语音信息播放次数高于预设阈值后采取的语音处理策略。举例说明，只要单条语音信息在2分钟内的播放次数高于3次，则提高该条语音信息的播放音量。也可在首次监测到有语音信息的播放次数高于预设阈值后，将不同的语音处理策略作为可选项展示给用户，在用户选择后，后续自动使用该语音处理策略处理播放次数高于预设阈值的语音信息。

具体地，在用户如何预先设定不同语音处理策略的问题上，有多种可行方式，下面举出几种较常用的处理方式，以下举例并不用以限制本说明书，用户可根据不同应用场景设定更多不同的处理方式。

a)针对联系人情况进行设定，用户可为不同的联系人设定一种或多种常用语音处理策略。举例说明，若联系人A语速较快，则为该联系人设定语音处理策略-放慢播放速度，当用户播放联系人A的语音信息到达预设次数区间后，自动放慢来自联系人A的语音信息的播放速度；若联系人D的方言较重，则为该联系人设定语音处理策略-转为文本，当用户播放联系人D的语音信息到达预设次数区间后，自动将来自联系人D的语音信息转为文本展示。

b)针对自身情况进行设定，例如自身所处环境嘈杂，则将语音处理策略设定为-提高音量；或自身处于不方便播放语音信息的环境中，则可将语音处理策略设定为-转为文本展示。

进一步地，该播放次数区间可被设定为0，如上文，在自身所处环境不方便播放语音信息时，不需要检测已被播放次数，直接将收到的语音信息自动转为文本展示。

进一步地，当检测到用户在一段时间内对多条语音信息进行反复播放后，可进一步提供一种更为智能地处理方式，参见图3所示，为本说明书提供的语音播放方法，该方法可以包括以下步骤：

S301，检测在预定时间内被语音处理策略处理过的语音信息的条数；

S302，判断所述被语音处理策略处理过的语音信息的条数是否高于预定阈值，若所述条数高于预定阈值，执行步骤S303，若所述条数不高于预定阈值，则不操作；

S303，自动使用预定义的语音处理策略处理后续收到的语音信息；

具体地，若预定时间内被语音处理策略处理过的语音信息的条数是否高于预定阈值，则说明用户在一段时间内对多条语音信息进行反复播放。则可进一步去掉“反复播放”这一判定步骤，将后续收到的语音信息都使用语音处理策略进行处理。

进一步地，可确定预定时间内使用次数最多的语音处理策略，自动使用所述使用次数最多的语音处理策略处理后续收到的语音信息。

进一步地，当检测到用户在一段时间内对多条语音信息进行反复播放后，可进一步判断造成反复播放的是否为单个联系人，参见图4所示，为本说明书提供的一种语音播放方法，该方法可以包括以下步骤：

S401，确定预定时间内，被语音处理策略处理过的语音信息的条数高于预设阈值的联系人；

S402，使用预定义的语音处理策略处理来自所述联系人的后续语音信息。

具体地，若预定时间内被语音处理策略处理过的语音信息的条数是否高于预定阈值，则说明用户在一段时间内对多条语音信息进行反复播放。若该多条语音信息来自相同联系人，而其他联系人的语音信息并未被多次处理，则可判定这段时间内，来自该联系人的语音信息需要进行智能的后续处理。

进一步地，可确定预定时间内对该联系人的语音信息使用过次数最多的语音处理策略，自动使用所述使用次数最多的语音处理策略处理后续收到的，来自该联系人的语音信息。或，具体检测该联系人的语音信息的语音质量问题，根据语音质量检测结果选取有针对性的语音处理策略处理后续收到的，来自该联系人的语音信息。或，为用户展示可选用的，针对该联系人的语音改善选项，并使用被选择的语音处理策略处理后续收到的，来自该联系人的语音信息。

相应于上述方法实施例，本说明书实施例还提供一种语音处理方法装置，应用于客户端，参见图5所示，所述装置可以包括：播放次数监测模块510和语音信息处理模块520。

播放次数监测模块510：用于监测到单条语音播放后，确定所述语音信息在预定时间内的已播放次数，判断所述已播放次数是否处于预定的播放次数区间内；

语音信息处理模块520：用于当所述已播放次数处于预定的播放次数区间内时，按照预定义的语音处理策略处理所述语音信息。

本说明书实施例还提供一种计算机设备，其至少包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行所述程序时实现前述语音处理方法，所述方法包括：

图6示出了本说明书实施例所提供的一种更为具体的计算设备硬件结构示意图，该设备可以包括：处理器1110、存储器1120、输入/输出接口1130、通信接口1140和总线1150。其中处理器1110、存储器1120、输入/输出接口1130和通信接口1140通过总线1150实现彼此之间在设备内部的通信连接。

处理器1110可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器1120可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1120可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1120中，并由处理器1110来调用执行。

输入/输出接口1130用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1140用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1150包括一通路，在设备的各个组件(例如处理器1110、存储器1120、输入/输出接口1130和通信接口1140)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1110、存储器1120、输入/输出接口1130、通信接口1140以及总线1150，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

本说明书实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述的语音处理方法，所述方法包括：

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitorymedia)，如调制的数据信号和载波。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本说明书实施例可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本说明书实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本说明书实施例各个实施例或者实施例的某些部分所述的方法。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，在实施本说明书实施例方案时可以把各模块的功能在同一个或多个软件和/或硬件中实现。也可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅是本说明书实施例的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本说明书实施例原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本说明书实施例的保护范围。

Claims

1.一种语音处理方法，所述方法包括：

2.如权利要求1所述的方法，所述若所述已播放次数处于预定的播放次数区间内，则按照预定义的语音处理策略处理所述语音信息，包括：

若所述播放次数处于预定的播放次数区间内，则按照所述播放次数区间对应的语音处理策略处理所述语音信息，其中，不同的播放次数区间被设定了对应的语音处理策略。

3.如权利要求1所述的方法，所述若所述已播放次数处于预定的播放次数区间内，则按照预定义的语音处理策略处理所述语音信息，包括：

若所述播放次数处于预定的播放次数区间内，则检测所述语音信息的语音质量问题，根据检测结果选择对应的语音处理策略处理所述语音信息。

4.如权利要求1所述的方法，所述预定义的语音处理策略，包括：降低所述语音信息的播放速度、提高所述语音信息的播放音量或将所述语音信息转换成文本显示。

5.如权利要求1所述的方法，所述按照预定义的语音处理策略处理所述语音信息后，还包括：

检测在预定时间内被语音处理策略处理过的语音信息的条数，若所述条数高于预定阈值，则自动使用预定义的语音处理策略处理后续收到的语音信息。

6.如权利要求5所述的方法，所述自动使用预定义的语音处理策略处理后续收到的语音信息，包括：

确定预定时间内使用次数最多的语音处理策略，自动使用所述使用次数最多的语音处理策略处理后续收到的语音信息。

7.如权利要求1所述的方法，所述按照预定义的语音处理策略处理所述语音信息后，还包括：

确定预定时间内，被语音处理策略处理过的语音信息的条数高于预设阈值的联系人，自动使用预定义的语音处理策略处理来自所述联系人的后续语音信息。

8.一种语音处理装置，所述装置包括：

9.如权利要求8所述的装置，所述若所述已播放次数处于预定的播放次数区间内，则按照预定义的语音处理策略处理所述语音信息，包括：

10.如权利要求8所述的装置，所述若所述已播放次数处于预定的播放次数区间内，则按照预定义的语音处理策略处理所述语音信息，包括：

11.如权利要求8所述的装置，所述预定义的语音处理策略，包括：降低所述语音信息的播放速度、提高所述语音信息的播放音量或将所述语音信息转换成文本显示。

12.如权利要求8所述的装置，所述按照预定义的语音处理策略处理所述语音信息后，还包括：

13.如权利要求12所述的装置，所述自动使用预定义的语音处理策略处理后续收到的语音信息，包括：

14.如权利要求8所述的装置，所述按照预定义的语音处理策略处理所述语音信息后，还包括：

确定预定时间内，被语音处理策略处理过的语音信息的条数高于预设预置的联系人，自动使用预定义的语音处理策略处理来自所述联系人的后续语音信息。

15.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现如权利要求1所述的方法。