CN107659603A

CN107659603A - 用户与推送信息互动的方法及装置

Info

Publication number: CN107659603A
Application number: CN201610842714.6A
Authority: CN
Inventors: 任春剑; 王平; 柳萌宇; 吴兵; 周彬
Original assignee: Tencent Technology Beijing Co Ltd
Current assignee: Tencent Technology Beijing Co Ltd
Priority date: 2016-09-22
Filing date: 2016-09-22
Publication date: 2018-02-02
Anticipated expiration: 2036-09-22
Also published as: CN107659603B

Abstract

本申请公开了一种用户与推送信息互动的方法。该方法包括：获取推送信息对应的互动文本信息；展示所述互动文本信息，并接收用户输入的语音数据；获取本地用户设备的状态；根据所述状态和/或所述互动文本信息确定转码方案；利用所述转码方案对所述语音数据进行转码得到语音数据包；将所述语音数据包提供给服务器进行语音识别，并从所述服务器获得语音识别结果；根据所述互动文本信息和所述语音识别结果确定互动结果，根据所述互动结果执行所述互动结果对应的操作。

Description

用户与推送信息互动的方法及装置

技术领域

本申请涉及互联网技术，特别地，涉及一种用户与推送信息互动的方法及装置。

背景技术

目前，用户在上网过程中，例如浏览网页、使用应用软件时，可以与推送信息进行互动。通常，用户可以通过点击展示的推送信息中的按钮、图片、动画等来与推送信息进行互动。

申请内容

本申请提供一种用户与推送信息互动的方法，可以实现用户与推送信息进行语音形式的互动。

本申请实施例的用户与推送信息互动的方法可以包括：

获取推送信息对应的互动文本信息；

展示所述互动文本信息，并接收用户输入的语音数据；

获取本地用户设备的状态；

根据所述状态和/或所述互动文本信息确定转码方案；

利用所述转码方案对所述语音数据进行转码得到语音数据包；

将所述语音数据包提供给服务器进行语音识别，并从所述服务器获得语音识别结果；

根据所述互动文本信息和所述语音识别结果确定互动结果，根据所述互动结果执行所述互动结果对应的操作。

本申请实施例的用户与推送信息互动的装置可以包括：

通信模块，用于获取推送信息对应的互动文本信息；

接口模块，用于在用户设备上展示所述互动文本信息，并接收用户输入的语音数据；

确定模块，用于获取本地用户设备的状态，根据所述状态和/或所述互动文本信息确定转码方案；

转码模块，用于利用所述转码方案对所述语音数据进行转码得到语音数据包；

识别模块，用于将所述语音数据包提供给服务器进行语音识别，并从所述服务器获得语音识别结果，根据所述互动文本信息和所述语音识别结果确定互动结果，根据所述互动结果执行所述互动结果对应的操作。

根据本申请实施例的技术方案，根据本地用户设备的状态和互动文本信息确定语音数据的转码方案，使得用户设备可以高效地将用户输入的语音数据转码得到语音数据包并发送给服务器获取语音识别结果，使语音互动过程中语音处理时间耗时少，互动过程流畅。

附图说明

图1为本申请实施例的一种用户与推送信息互动的方法的流程图；

图2为本申请实施例的一种用户与推送信息互动的方法的流程图；

图3为本申请实施例的用户与推送信息互动的装置的示意图。

具体实施方式

为了描述上的简洁和直观，下文通过描述若干代表性的实施例来对本申请的方案进行阐述。实施例中大量的细节仅用于帮助理解本申请的方案，本申请的技术方案实现时可以不局限于这些细节。为了避免不必要地模糊了本申请的方案，一些实施方式没有进行细致地描述，而是仅给出了框架。下文中，“包括”是指“包括但不限于”，“根据……”是指“至少根据……，但不限于仅根据……”，应当解释为除了之后提到的特征外，其它特征也可以存在。

本申请实施例提供了一种用户与推送信息互动的方法。该方法可以由用户设备执行。如图1所示，该方法10可以包括以下步骤。

步骤S11，获取推送信息对应的互动文本信息。

步骤S12，展示所述互动文本信息，并接收用户输入的语音数据。

步骤S13，获取本地用户设备的状态。

步骤S14，根据所述状态和/或所述互动文本信息确定转码方案。

步骤S15，利用所述转码方案对所述语音数据进行转码得到语音数据包。

步骤S16，将所述语音数据包提供给服务器进行语音识别，并从所述服务器获得语音识别结果。

步骤S17，根据所述互动文本信息和所述语音识别结果确定互动结果，根据所述互动结果执行所述互动结果对应的操作。

这样，根据本地用户设备的状态和互动文本信息确定语音数据的转码方案，使得用户设备可以高效地将用户输入的语音数据转码得到语音数据包并发送给服务器获取语音识别结果，使语音互动过程中语音处理时间耗时少，互动过程流畅。

其中，互动文本信息是指在提供推送信息的过程中，与需要用户说出的文本有关的描述信息。例如，互动文本信息可以包括需要用户读出的一段文本，可以包括文字、数字等；展示时，可以将需要用户读出的文本展示给用户。又例如，互动文本信息可以包括一个问题，需要用户说出问题的答案，等；展示时，可以仅展示互动文本信息中有关该问题的部分文本给用户。步骤S14中确定转码方案以及步骤S17中确定互动结果，可以根据所述互动文本信息中用户需要说出的内容对应的文本来进行，例如，互动文本信息中需要展示给用户并使用户读出的文本，或者互动文本信息中答案对应的文本，等。

用户设备可以从服务器获取推送信息和互动文本信息。例如，用户设备可以从服务器获取一则推送信息对应的配置信息，其中包括推送信息中视频或者图片的下载地址、互动文本信息、时间长度、互动结果对应的操作类型，跳转的链接等。配置信息可以是结构化数据格式的文件，例如XML文件、json格式文件，等。当展示推送信息时，用户设备可以根据配置信息获取推送内容并展示给用户，将配置信息中的互动文本信息展示给用户，并在获取到互动结果后执行配置信息中该互动结果对应的操作。

本地用户设备的状态是指可以体现用户设备自身的处理能力的状态信息。用户设备的状态可以包括硬件信息、软件信息、网络信息等。其中，转码速度、用户设备支持的转码算法的种类可能与用户设备的硬件信息和软件信息有关。转码后得到的语音数据包的传输速度可能与用户设备的网络信息有关。

一些例子中，可以获取所述本地用户设备的型号，根据预设的设备型号与设备能力的对应关系确定所述型号对应的设备能力。例如，可以预设几种设备能力等级，如高能力设备、中等能力设备、低能力设备，等。同时预设各种设备型号与各设备能力等级的对应关系。预设的对应关系中可以涵盖市面上流通的各种用户设备的型号，例如手机型号等。该对应关系可以由服务器提供。一些例子中，用户设备可以定期从服务器获取最新版本的对应关系。另一些例子中，服务器可以在更新对应关系后发送通知消息给用户设备，使用户设备获得更新后的对应关系。

一些例子中，可以获取所述本地用户设备的网络信息和/或数据传输速度，根据预设的网络类型和/或网速与网络状态的对应关系确定所述本地用户设备的网络状态。网络信息是指用户设备当前通信所采用的网络的描述信息，例如，可以包括通信协议的信息(例如802.1系列协议、WCDMA协议、CDMA2000协议等)、网络制式的信息(例如WiFi、2G、3G、4G)、信号强度的信息，等。一些例子中，通信协议、网络制式、信号信号强度、数据传输速度等中的一个或者多个可以直接作为网络状态使用。另一些例子中，可以预设几种网络状态，如高速网络、中速网络、低速网络，等。用户设备中可以预设有各种网络信息和/或数据传输速度与各网络状态的对应关系。预设的对应关系中可以涵盖市面上流通的各种用户设备的型号，例如手机型号等。该对应关系也可以由用户设备从服务器获得。

各例中，可以将确定的设备能力等级和/或网络状态作为本地用户设备的状态，用于在步骤S14中确定转码方案。

各例中，由于需要用户说出的文本部分的长度也影响着最终生成的语音数据包的大小，步骤S14中，可以根据互动文本信息中这部分文本的长度来确定转码方案。例如，可以预设几种文本长度级别，如长文本、中等文本、短文本，等。用户设备中可以预设有各种文本长度级别对应的文本长度范围，例如长度大于20字的文本为长文本，8-20字的文本为中等文本，小于8字的文本为短文本，等。这些对应关系也可以由用户设备从服务器获得。

通过用户设备采集到的用户语音数据一般是线性的未编码的数据，例如PCM格式的数据，为了压缩数据量，需要采用合适的转码方案对其转码。转码方案可以包括转码算法及相关参数。参数可以包括以下中的至少一个：采样率、每个语音采样值编码所需的字节数、通道数。一些例子中，可以利用预设的状态和/或互动文本信息的长度与转码方案之间的对应关系确定转码方案。这里对应关系是指可以根据状态和/或互动文本信息的长度确定转码方案的机制。这种机制可以包括，但不限于，对应关系表、算法、公式，等。一般来说，能够得到较好音质的转码方案计算复杂度较高，生成的数据量比较大，而复杂度较低、生成的数据量较小的转码方案得到的语音音质稍差。各实施例中，根据上述对应关系，性能高的硬件、传输速度较快的网络、较短的文本可以对应性能较好的转码方案，而性能较低的硬件、速度较慢的网络、较长的文本可以对应性能较差的转码方案。例如，当用户设备使用的是WIFI或4G网络，并且网络速度超过30K/S，则可以采用较高的采样率(比如16KHz)，并可采用音质较好的转码算法(例如Speex，等)；其它情况下，可以采用较低的采样率(比如8KHz)，并可采用音质稍差的转码算法(例如AMR，等)。通常，3秒左右的录音，采用16KHz(即16000Hz)采样率，完整的源语音数据(非压缩的PCM格式)约为30-60K，在转码后约为3-5K；采用8KHz(即8000Hz)采样率，完整源语音数据约为15-30K，转码后约为1-3K(以上数据在不同环境下可能存在差异)。

一些例子中，可以直接根据所述状态和/或所述互动文本信息确定包括转码算法和参数的整套转码方案。例如，可以在预设的状态和/或互动文本信息的长度与转码方案之间的对应关系中查找与所述状态和/或所述互动文本信息的长度对应的对应关系条目，将所述条目中记录的转码算法及参数作为所述转码方案。表二给出一个对应关系表的例子。

表二状态和文本长度与转码方案的对应关系表

一些例子中，可以分别确定转码方案中的转码算法和各参数。例如，可以在所述对应关系中查找与所述状态和/或所述互动文本信息的长度对应的第一条目，获取所述第一条目中记录的转码算法；在所述对应关系中查找与所述网络状态和/或所述互动文本信息的长度对应的第二条目，获取所述第二条目中记录的参数；其中，所述参数包括以下中的一个：采样率、帧速率、每个语音采样值编码所需的字节数、以及通道数；将获取的所述转码算法和所述参数作为所述转码方案。

本申请各实施例中，用户设备可以在存储空间中建立缓冲区，利用所述缓冲区存放所述用户输入的语音数据，从所述缓冲区中读取语音数据以进行转码。通过使用缓冲区存储用户语音数据并定时回调，可以实现在录音的同时进行转码，缩短转码过程所需的时间，提高处理效率。

其中，用户设备可以根据预设的回调时间和所述转码方案确定缓冲区大小。缓冲区大小可以为回调时间、采样率、每个采样编码后的字节数的乘积。例如，预设的回调时间为0.1秒，采样率为16KHz，则0.1秒内获取的采样数是1600帧，如果每个采样编码为2个字节，那么缓冲区大小＝0.1*16000*2＝3200字节。

一些例子中，用户设备可以在存储空间中建立缓冲区，该缓冲区的大小等于所述缓冲区大小。每隔所述回调时间从所述缓冲区中读取语音数据，利用所述转码方案对读取的所述语音数据进行转码；利用各次转码得到的转码结果生成所述语音数据包。

一些例子中，用户设备也可以利用多个缓冲区来存储语音数据。图2为本申请实施例的一种用户与推送信息互动的方法。该方法20可以包括以下步骤。

步骤S21，获取推送信息对应的互动文本信息。

步骤S22，获取本地用户设备的状态。

步骤S23，根据所述状态和/或所述互动文本信息确定转码方案。

步骤S24，根据预设的回调时间和所述转码方案确定缓冲区大小，并在存储空间中建立至少两个缓冲区。其中，每个缓冲区的大小等于所确定的缓冲区大小。

一些例子中，可以将所述回调时间、所述转码方案中的采样率、以及每个语音采样值编码所需的字节数的乘积作为所述缓冲区大小。

步骤S25，展示所述互动文本信息，利用所述至少两个缓冲区依次存放所述用户输入的语音数据。

步骤S26，每隔所述回调时间依次从所述至少两个缓冲区中的一个缓冲区读取语音数据，利用所述转码方案对读取的所述语音数据进行转码，利用各次转码得到的转码结果生成所述语音数据包。

这里，从至少两个缓冲区中读取语音数据的方式可以是，每次回调时，按照语音数据的存放顺序确定本地回调应当读取的缓冲区，并从该缓冲区中读取语音数据。例如，假设有缓冲区a、b、c，陆续接收到的语音数据首先存入缓冲区a，存满后存入缓冲区b，然后再存入缓冲区c。第一次回调，用户设备从缓冲区a读取语音数据；第二次回调，用户设备从缓冲区b读取语音数据；第三次回调，用户设备从缓冲区c读取语音数据；第四次回调，用户设备从缓冲区a读取语音数据，以此类推，直至所有语音数据都被读取完毕。用户设备可以按照顺序，将各次转码的结果拼接起来生成语音数据包。

步骤S27，将所述语音数据包提供给服务器进行语音识别，并从所述服务器获得语音识别结果。

步骤S28，根据所述互动文本信息和所述语音识别结果确定互动结果，根据所述互动结果执行所述互动结果对应的操作。

本申请实施例还提供一种用户与推送信息互动的装置。图3为本申请实施例的用户与推送信息互动的装置的示意图。如图3所示，该装置30可以包括处理器31、通信接口34、显示接口35、存储装置36和总线39。存储装置36中包括操作系统37、通信模块38、缓存32和转码模块33。

处理器31可以有一个或者多个。

装置30可以利用通信接口34通过网络与服务器通信，并通过显示接口35将推送信息和互动文本信息展示给用户。

缓存32可以用于存储用户输入的语音数据。

转码模块33可以根据本地用户设备的状态和互动文本信息确定转码方案，并利用转码方案对用户输入的语音数据进行转码得到语音数据包，并将语音数据包发送给服务器并获得语音识别结果，确定互动结果，并执行相应的操作。

转码模块33可以包括：通信模块331、接口模块332、确定模块333、语音转码模块334和识别模块335。模块331～335可以共同实现以上各实施例的方法。

通信模块331可以获取推送信息对应的互动文本信息。

接口模块332可以在用户设备上展示所述互动文本信息，并接收用户输入的语音数据。接口模块332可以通过用户设备的语音数据输入设备，例如麦克风，接收用户的语音数据。接口模块332可以在用户设备的显示设备上展示互动文本信息，还可以提供操作接口，例如按钮。用户可以通过对操作接口进行操作来触发接口模块331接收语音数据。

确定模块333，用于获取本地用户设备的状态，根据所述状态和/或所述互动文本信息确定转码方案；

语音转码模块334，用于利用所述转码方案对所述语音数据进行转码得到语音数据包；

识别模块335，用于将所述语音数据包提供给服务器进行语音识别，并从所述服务器获得语音识别结果，根据所述互动文本信息和所述语音识别结果确定互动结果，根据所述互动结果执行所述互动结果对应的操作。

一些例子中，确定模块333可以利用预设的状态和/或互动文本信息的长度与转码方案之间的对应关系确定所述转码方案。确定模块333可以从第二服务器获取所述对应关系。第二服务器可以是与获取语音识别结果的服务器不同的服务器。

一些例子中，接口模块332可以在缓存32中建立缓冲区，利用所述缓冲区存放所述用户输入的语音数据。语音转码模块334可以从所述缓冲区中读取语音数据以进行转码。

需要说明的是，上述各流程和各结构图中不是所有的步骤和模块都是必须的，可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的，可以根据需要进行调整。各模块的划分仅仅是为了便于描述采用的功能上的划分，实际实现时，一个模块可以分由多个模块实现，多个模块的功能也可以由同一个模块实现，这些模块可以位于同一个设备中，也可以位于不同的设备中。另外，上面描述中采用“第一”、“第二”仅仅为了方便区分具有同一含义的两个对象，并不表示其有实质的区别。

各例中，各模块可以由专门的硬件或执行机器可读指令的硬件实现。例如，硬件可以为专门设计的永久性电路或逻辑器件(如专用处理器，如FPGA或ASIC)用于完成特定的操作。硬件也可以包括由软件临时配置的可编程逻辑器件或电路(如包括通用处理器或其它可编程处理器)用于执行特定操作。

各模块对应的机器可读指令可以存储在非易失性计算机可读存储介质中，使计算机上操作的操作系统等来完成这里描述的部分或者全部操作。非易失性计算机可读存储介质包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地，可以由通信网络从服务器计算机上下载程序代码。

综上所述，权利要求的范围不应局限于以上描述的例子中的实施方式，而应当将说明书作为一个整体并给予最宽泛的解释。

Claims

1.一种用户与推送信息互动的方法，其特征在于，包括：

获取推送信息对应的互动文本信息；

展示所述互动文本信息，并接收用户输入的语音数据；

获取本地用户设备的状态；

根据所述状态和/或所述互动文本信息确定转码方案；

2.根据权利要求1所述的方法，其特征在于，根据所述状态和/或所述互动文本信息确定转码方案包括：

利用预设的状态和/或互动文本信息的长度与转码方案之间的对应关系确定所述转码方案。

3.根据权利要求2所述的方法，其特征在于，利用预设的状态和/或互动文本信息的长度与转码方案之间的对应关系确定所述转码方案包括：

在所述对应关系中查找与所述状态和/或所述互动文本信息的长度对应的对应关系条目，将所述条目中记录的转码算法及参数作为所述转码方案；

其中，所述参数包括以下中的至少一个：采样率、每个语音采样值编码所需的字节数、通道数。

4.根据权利要求2所述的方法，其特征在于，利用预设的状态和/或互动文本信息的长度与转码方案之间的对应关系确定所述转码方案包括：

在所述对应关系中查找与所述状态和/或所述互动文本信息的长度对应的第一条目，获取所述第一条目中记录的转码算法；

在所述对应关系中查找与所述网络状态和/或所述互动文本信息的长度对应的第二条目，获取所述第二条目中记录的参数；其中，所述参数包括以下中的一个：采样率、帧速率、每个语音采样值编码所需的字节数、以及通道数；

将获取的所述转码算法和所述参数作为所述转码方案。

5.根据权利要求1或2所述的方法，其特征在于，获取本地用户设备的状态包括：

获取所述本地用户设备的型号，根据预设的第二对应关系确定所述型号对应的设备能力；和/或

获取所述本地用户设备的网络信息和/或数据传输速度，根据预设的第三对应关系确定所述本地用户设备的网络状态。

6.根据权利要求1所述的方法，其特征在于，进一步包括：

在存储空间中建立缓冲区；

利用所述缓冲区存放所述用户输入的语音数据；

从所述缓冲区中读取语音数据以进行转码。

7.根据权利要求6所述的方法，其特征在于，进一步包括：

根据预设的回调时间和所述转码方案确定缓冲区大小；

其中，

在存储空间中建立缓冲区包括：在所述存储空间建立所述缓冲区，所述缓冲区的大小等于所述缓冲区大小；

利用所述转码方案对所述语音数据进行转码得到语音数据包包括：每隔所述回调时间从所述缓冲区中读取语音数据，利用所述转码方案对读取的所述语音数据进行转码；利用各次转码得到的转码结果生成所述语音数据包。

8.根据权利要求6所述的方法，其特征在于，进一步包括：

根据预设的回调时间和所述转码方案确定缓冲区大小；

其中，在存储空间中建立缓冲区包括：在所述存储空间中建立至少两个缓冲区，每个缓冲区的大小等于所述缓冲区大小；

其中，

利用所述缓冲区存放所述用户输入的语音数据包括：利用所述至少两个缓冲区依次存放所述用户输入的语音数据；

利用所述转码方案对所述语音数据进行转码得到语音数据包包括：每隔所述回调时间依次从所述至少两个缓冲区中读取语音数据，利用所述转码方案对读取的所述语音数据进行转码；利用各次转码得到的转码结果生成所述语音数据包。

9.根据权利要求7或者8所述的方法，其特征在于，所述根据预设的回调时间和所述转码方案确定缓冲区大小包括：

将所述回调时间、所述转码方案中的采样率、以及每个语音采样值编码所需的字节数的乘积作为所述缓冲区大小。

10.一种用户与推送信息互动的装置，其特征在于，包括：

通信模块，用于获取推送信息对应的互动文本信息；

11.根据权利要求10所述的装置，其特征在于，

所述确定模块用于：利用预设的状态和/或互动文本信息的长度与转码方案之间的对应关系确定所述转码方案。

12.根据权利要求11所述的装置，其特征在于，

所述确定模块用于：在所述对应关系中查找与所述状态和/或所述互动文本信息的长度对应的对应关系条目，将所述条目中记录的转码算法及参数作为所述转码方案；

13.根据权利要求11所述的装置，其特征在于，所述确定模块用于：

将获取的所述转码算法和所述参数作为所述转码方案。

14.根据权利要求10所述的装置，其特征在于，

所述接口模块进一步用于：在存储空间中建立缓冲区，利用所述缓冲区存放所述用户输入的语音数据；

所述转码模块用于，从所述缓冲区中读取语音数据以进行转码。

15.根据权利要求14所述的装置，其特征在于，进一步包括：

所述接口模块用于：

根据预设的回调时间和所述转码方案确定缓冲区大小；

在所述存储空间建立所述缓冲区，所述缓冲区的尺寸等于所述缓冲区大小；

所述转码模块用于：

每隔所述回调时间从所述缓冲区中读取语音数据，利用所述转码方案对读取的所述语音数据进行转码；

利用各次转码得到的转码结果生成所述语音数据包。

16.根据权利要求14所述的装置，其特征在于，

所述接口模块进一步用于：

根据预设的回调时间和所述转码方案确定缓冲区大小；

在所述存储空间中建立至少两个缓冲区，每个缓冲区的大小等于所述缓冲区大小；

利用所述至少两个缓冲区依次存放所述用户输入的语音数据；

所述转码模块用于：

每隔所述回调时间依次从所述至少两个缓冲区中读取语音数据，利用所述转码方案对读取的所述语音数据进行转码；

利用各次转码得到的转码结果生成所述语音数据包。

17.根据权利要求11-13中任一权利要求所述的装置，其特征在于，

所述确定模块用于：从第二服务器获取所述对应关系。