CN107659847B

CN107659847B - 语音互动方法和装置

Info

Publication number: CN107659847B
Application number: CN201610842712.7A
Authority: CN
Inventors: 任春剑; 柳萌宇; 王平; 吴兵; 周彬
Original assignee: Tencent Technology Beijing Co Ltd
Current assignee: Tencent Technology Beijing Co Ltd
Priority date: 2016-09-22
Filing date: 2016-09-22
Publication date: 2019-10-15
Anticipated expiration: 2036-09-22
Also published as: CN107659847A

Abstract

本申请提供了一种语音互动方法和装置。其中，先获取推送信息对应的第一文本信息，并展示所述第一文本信息。然后将所述第一文本信息转换为第一拼音字符串。之后接收用户输入的语音，将所述语音提供给服务器进行语音识别，并从所述服务器获得通过语音识别得到的第二文本信息。将所述第二文本信息转换为第二拼音字符串。确定所述第一拼音字符串与所述第二拼音字符串的相似度。根据所述相似度和预设的阈值确定互动结果，并根据所述互动结果执行所述互动结果对应的操作。本申请的语音互动方式比较新颖，增加了用户与广告之间的互动，在满足广告商利益的情况下，增强了用户观看的趣味性，提高了用户体验。

Description

语音互动方法和装置

技术领域

本申请涉及互联网技术领域，特别涉及一种语音互动方法和装置。

背景技术

随着互联网的发展，广告主通过各种形式在互联网上投放广告。例如，在视频网站中，播放电视剧、电影、综艺节目等视频之前会有一段广告。通常，用户需要看完整段广告才可以看到电视剧、电影、综艺节目等视频，或者，用户需要付费成为会员，才可以不用看广告。

发明内容

本申请的目的在于提供一种语音互动方法和装置，在用户观看视频的过程中，通过和广告进行互动，可以跳过广告。

本申请实施例提供了一种语音互动方法，该方法包括：

获取推送信息对应的第一文本信息，展示所述第一文本信息；

将所述第一文本信息转换为第一拼音字符串；

接收用户输入的语音；

将所述语音提供给服务器进行语音识别，并从所述服务器获得通过语音识别得到的第二文本信息；

将所述第二文本信息转换为第二拼音字符串；

确定所述第一拼音字符串与所述第二拼音字符串的相似度；

根据所述相似度和预设的阈值确定互动结果，并根据所述互动结果执行所述互动结果对应的操作。

另外，本申请实施例提供了一种语音互动装置，该装置包括：

第一文本获取模块，用于获取推送信息对应的第一文本信息，展示所述第一文本信息；

第一转换模块，用于将所述第一文本信息转换为第一拼音字符串；

语音接收模块，接收用户输入的语音；

收发模块，用于将所述语音提供给服务器进行语音识别，并从所述服务器获得通过语音识别得到的第二文本信息；

第二转换模块，用于将所述第二文本信息转换为第二拼音字符串；

相似度确定模块，用于确定所述第一拼音字符串与所述第二拼音字符串的相似度；

操作模块，用于根据所述相似度和预设的阈值确定互动结果，并根据所述互动结果执行所述互动结果对应的操作。

本申请实施例的语音互动方式比较新颖，增加了用户与广告之间的互动，在满足广告商利益的情况下，增强了用户观看的趣味性，提高了用户体验。

附图说明

为了更清楚的说明本申请中的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。其中，

图1为根据本申请实施例的语音互动方法和装置的应用场景示意图；

图2a至2e为根据本申请实施例的语音互动用户界面示意图；

图3为根据本申请实施例的语音互动方法流程图；

图4为根据本申请实施例的语音互动方法流程图；

图5为根据本申请实施例的语音互动装置示意图；

图6为根据本申请实施例的语音互动装置的硬件结构示意图。

具体实施方式

以下结合说明书附图及具体实施例进一步说明本申请。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

图1为根据本申请实施例的语音互动方法和装置的应用场景示意图，其中包括终端设备10、业务供应商服务器20、网络30、广告商设备40。终端设备10和业务供应商服务器20通过网络30进行有线或无线通信。广告商设备40可以和业务供应商服务器20通过网络30或其他网络进行通信。

终端设备10可以为手机、智能电话、笔记本电脑、台式电脑、PDA(个人数字助理)、PAD(平板电脑)、掌上电脑、PMP(便携式多媒体播放器)、穿戴式设备(比如智能手环、智能手表等)等等。终端设备10可以包括：处理器(例如CPU)、存储器、通信总线。其中，通信总线用于实现该终端设备中各组成部件之间的连接通信。另外，终端设备可以包括用户接口，例如，显示屏、键盘、鼠标等组件，用于接收用户输入的信息，并将接收的信息发送至处理器进行处理。显示屏可以为LCD显示屏、LED显示屏，也可以为触摸屏。可选用户接口还可以包括标准的有线接口、无线接口(如WI-FI接口)等网络接口。存储器可以是高速RAM存储器，也可以是非易失性存储器，例如磁盘存储器。存储器可选的还可以是独立于前述处理器的存储装置。

业务供应商服务器20例如为计算机设备，其包括：处理器、存储器、通信总线和各种接口等，用于由业务供应商给用户提供各种业务，例如：电影、电视剧、综艺节目等视频和电子红包。

当广告商需要在业务供应商提供的业务中投放一则广告时，可以通过广告商设备40访问业务供应商服务器20提供的网站，上传相应的广告文件及广告语到业务供应商服务器20。这些广告文件例如为可以加在业务供应商的电影、电视剧、综艺节目等视频之前或中间，或者可以贴在业务供应商的电子红包上的视频广告、图片广告等。

当用户使用终端设备10观看电影、电视剧、综艺节目视频时，终端设备10会先播放广告商的广告，同时显示广告语。用户可以通过说出广告语，跳过广告，开始观看电视剧、电影、综艺节目的视频。或者当用户使用终端设备10收到电子红包时，通过喊出广告语，可以打开电子红包。

图2a至2e为根据本申请实施例的语音互动用户界面(UI)示意图。

如图2a所示，广告商的广告例如为“农夫山泉”的视频广告22，在终端设备10的显示屏上通过应用程序呈现的播放窗口21上播放。同时，在播放窗口21上展示用户界面23。用户界面23可以是透明的或半透明的，上面显示有一些可见的控件，例如图标和提示框，供用户操作或获得信息，也可以是其他形式。如图2a所示，用户界面23中显示有可供用户操作的录音图标26和包含广告商的广告语“农夫山泉”24的提示框25。除广告语24之外，提示框25还可以包括提示用户如何和广告进行互动的语句，例如，“说出‘农夫山泉’跳过当前广告长按录音松开分析”。提示框25例如是可伸缩的，在其显示5秒后，可以缩回到录音图标26处看不见，在用户点击录音图标26后再次显示。

如果用户希望跳过广告，则可以长按用户界面23上的录音图标26开始录音。然后，用户界面由图2a变为图2b。在图2b的状态下，当用户说完广告语，松开录音图标26后，用户界面可以由图2b变为图2c。在图2c的用户界面23上，提示框25中的提示变为“分析中，请稍等……”。

如果通过分析，判断用户说出的广告语“农夫山泉”是正确的，则用户界面23由图2c变为图2d，其中录音图标26变为打“√”的图标，提示框25中的语句变为“农夫山泉”。这时，如果视频广告是在电影视频的开头，则终端设备的应用程序便停止播放视频广告22，开始播放电影视频；如果视频广告22是在电影视频的中间，因为在播放视频广告期间，电影视频是暂停的，当判断用户说出的广告语是正确的情况下，停止播放视频广告，接着播放电影视频。

如果通过分析，判断用户说出的广告语不正确，则用户界面从图2c变为图2e，其中，提示框25中的提示为“说的不对哦，继续观看”。

然后用户可以选择重新说出广告语，重复上述处理过程，或者选择继续观看广告。

图3为根据本申请实施例的语音互动方法的流程图。该语音互动方法应用于终端设备上，可以通过终端设备或终端设备的应用程序来实现。

如图3所示，根据本申请实施例的语音互动方法包括以下步骤：

步骤101：获取推送信息对应的第一文本信息，展示所述第一文本信息。

例如，在终端设备上安装有应用程序，用于业务供应商向用户提供各种业务，例如，电影、电视剧、综艺节目等主媒体内容。在应用程序提供主媒体内容之前，会从服务器获取主媒体内容、推送信息及与推送信息对应的第一文本信息，也可以在提供主媒体内容的过程中，获取推送信息及与推送信息对应的第一文本信息。推送信息为主媒体内容的附加媒体内容。例如，推送信息为视频广告，第一文本信息为与该视频广告对应的广告语；或者，推送信息为图片广告，第一文本信息为与该图片广告对应的广告语。

推送信息及推送信息对应的第一文本信息例如是先由广告商提供给服务器，然后再由终端设备上的应用程序从服务器上获取。

第一文本信息例如可以包括在推送信息的一个XML格式或Json格式的配置文件中。则本申请实施例的语音互动方法还包括：从服务器获取所述推送信息的配置文件(下文称作广告配置文件)。除了该第一文本信息之外，如果为视频广告，该广告配置文件还可以包括视频广告的长度、视频广告的链接等信息；如果为图片广告，则该广告配置文件还可以包括图片广告的时间、图片广告的链接等信息。

例如，当用户使用该应用程序观看电影时，可以通过触摸终端设备的显示屏点击相应的电影进行播放。应用程序获得用户的播放电影的请求时，会从服务器获取电影视频文件、视频广告及视频广告对应的广告语。或者，在用户观看电影的过程中，在某个时间点上，应用程序自动从服务器获取视频广告及该视频广告对应的广告语。

终端设备上的应用程序在根据广告配置文件的信息开始播放视频广告或展示图片广告的过程中，同时在播放视频广告的窗口上或者展示图片广告的窗口上提供一种形式的用户界面，示例的用户界面参见图2a-2e。用户界面例如是半透明的、可伸缩的。在图2a的用户界面上，展示广告语“农夫山泉”，并显示有提示用户可以通过读出该广告语而跳过广告的语句。另外，用户界面还可以展示一些图标，用于让用户点击触发相应的操作。

步骤102：将所述第一文本信息转换为第一拼音字符串。

终端设备上的应用程序可以在获取第一文本信息之后，按照第一文本信息的发音将第一文本信息转换为第一拼音字符串。例如，可以将步骤101的广告语“农夫山泉”转换为“nong fu shan quan”。

步骤103：接收用户输入的语音。

该步骤具体包括：在所播放的所述附加媒体内容上提供用户界面，该用户界面中包括可触发录音功能的图标；响应于用户对所述图标的操作，打开声音输入设备，开始录音；在判断用户停止录音后，获取所录制的语音。

用图2a的用户界面进行示例性描述。当用户希望跳过视频广告时，可以通过触摸屏长按用户界面23上的录音图标26开始说广告语和录音。当应用程序判断用户长按录音图标26时，开始录音；并且当应用程序判断用户抬起手指，即松开该录音图标26时，则判断录音结束。当录音结束后，应用程序获取所录取的用户的语音。可以预先设置一个阈值时间，当确认用户按压录音图标26的时间大于或等于这个预先设置的阈值时间时，判断用户长按了录音图标26。

步骤104：将所述语音提供给服务器进行语音识别，并从所述服务器获得通过语音识别得到的第二文本信息。

在应用程序获得所录取的用户的语音之后，可以将该语音提供给服务器进行语音识别。服务器通过语音识别，将用户的语音转换为文本，返回给终端设备上的应用程序。与广告商的第一文本信息对应，这个用户的语音所转换的文本为第二文本信息。例如，通过识别，用户说出的广告语为“农夫山田”。

步骤105：将所述第二文本信息转换为第二拼音字符串。

根据类似于步骤102的第一文本信息和第一拼音字符串的转换，在此步骤中，终端上的应用程序按照第二文本信息的发音，将第二文本信息转换为第二拼音字符串。例如，将“农夫山田”转换为“nong fu shan tian”。

步骤106：确定所述第一拼音字符串与所述第二拼音字符串的相似度。

在此过程中，终端设备上的应用程序可以使用字符串相似度算法，计算从所述第一拼音字符串转成所述第二拼音字符串所需的最少编辑次数。然后，再根据该最少编辑次数和所述第一拼音字符串与所述第二拼音字符串中长度较大者的长度，计算所述第一拼音字符串与所述第二拼音字符串的相似度。

字符串相似度算法例如为编辑距离算法(Levenshtein Distance或者EditDistance)。编辑距离算法计算的是两个字符串之间，由一个字符串转换成另一个字符串所需的最少编辑次数，如果所需的编辑次数越多，则两个字符串之间的距离越大，两个字符串越不同。编辑操作例如包括：将字符串中的一个字符替换成另一个字符、插入一个字符、删除一个字符等。

例如，将用户说出的“nong fu shan tian”转换为广告主的广告语“nong fu shanquan”，只需要一次编辑操作，将“t”替换为“q”。然后利用相似度计算公式(公式(1))计算相似度：

相似度＝1-编辑次数/字符串长度的最大值 (公式1)

其中，字符串的长度单位为字节，取其数值部分，相似度例如取两位小数的精度。

在本申请实施例中，计算出的相似度＝1-1/14＝0.93。

具体实现时，可以用JavaScript语言中的Math.Max()函数返回两个进行比较的字符串的长度的最大值，例如Math.Max(str1.length,str2.length)，其中“str1.length”为第一拼音字符串的长度，“str2.length”为第二拼音字符串的长度。

步骤107：根据所述相似度和预设的阈值确定互动结果，并根据所述互动结果执行所述互动结果对应的操作。

在计算出第一拼音字符串和第二拼音字符串之间的相似度之后，终端设备上的应用程序可以根据预设的阈值确定用户和广告的互动结果。该预设的阈值例如为0.7，是在所述XML格式或Json格式的广告配置文件中，由应用程序从服务器上获取的。如果第一拼音字符串和第二拼音字符串之间的相似度大于0.7，则认为用户说出的广告语与广告商的广告语符合要求，可以通过。如果低于这个阈值，可以让用户再次说出广告语，再进行判断。

上述预设的阈值可以动态调整。例如，服务器可以收集多个用户说出广告语的成功率，在用户说出广告语的成功率比较低的情况下，可以降低所述预设的阈值，在用户说出广告语的成功率比较高的情况下，可以提高所述预设的阈值。

其中，步骤107具体包括：在所述相似度满足所述预设的阈值时，停止播放所述附加媒体内容，并开始播放或者继续播放所述主媒体内容。

如果根据所述相似度和预设的阈值判断用户说出的广告语符合要求，例如，在步骤106中获得的相似度为0.93，大于预设的阈值0.7，则可以跳过广告。例如，如果视频广告是在业务供应商的视频的前面，可以停止播放视频广告，开始播放业务供应商的视频；如果视频广告是在业务供应商的视频的中间，则可以停止播放视频广告，继续播放业务供应商的视频。

例如，在图片广告的情况下，如果根据所述相似度和预设的阈值判断用户说出的广告语符合要求，则可以停止展示图片广告，开始播放业务供应商的视频。

如果是电子红包的广告，在根据所述相似度和预设的阈值判断用户说出的广告语符合要求的情况下，可以打开电子红包，获得电子金额。

通过本申请实施例的语音互动方法，可以增加用户与广告之间的互动，在满足广告商利益的情况下，增加用户观看的趣味性，提高了用户体验。

图4为根据本申请实施例的语音互动方法的流程图。如图4所示，在图3的基础上，在步骤102中，将第一文本信息转换为第一拼音字符串具体包括以下步骤：

步骤201，根据预设的拼音转换规则表和预设的模糊音转换规则表，将所述第一文本信息转换为第一拼音字符串，其中所述模糊音转换规则表使用了口音特征。

终端设备的应用程序可以在终端设备本地存储一个预设的拼音转换规则表，根据第一文本信息的准确发音，将第一文本信息转换为准确拼音字符串。例如，步骤101的广告语“农夫山泉”可以转换为“nong fu shan quan”。同时，在终端设备本地还存储有一个预设的具有方言口音特征的模糊音转换规则表。通过这个模糊音转换规则表，将第一文本信息转换为模糊拼音字符串。因为这种语音互动的特点是不需要有准确的文本识别结果，即不用展示给用户看最后识别的文字，关键是判断用户的发音与预先设定的广告语的发音接近，就执行广告相关的动作，如跳过广告等。例如，根据中国的方言口音特征，有些地方的发音有平翘舌和后鼻音的影响，“zh”、“ch”、“sh”会分别发成“z”、“c”、“s”；“in”、“en”、“un”会分别发成“ing”、“eng”、“ung”；“n”发成“l”。例如，“chi”会发成“ci”，“yin”发成“ying”,“nong”发成“long”、“shan”发成“san”的音。模糊音转换规则表使用这些特征。通过这个模糊音转换规则表，例如可以将广告语“农夫山泉”转换为“long fu san quan”、“long fushan quan”、“nong fu san quan”。

上述广告商的广告语所转换的准确拼音字符串和模糊拼音字符串统称为第一拼音字符串。

类似地，在步骤105中，将所述第二文本信息转换为第二拼音字符串包括：

步骤202，根据所述预设的拼音转换规则表和所述预设的模糊音转换规则表，将所述第二文本信息转换为第二拼音字符串。

例如，根据步骤104，识别出的文本信息为“农夫山田”。通过预设的拼音转换规则表和所述预设的模糊音转换规则表，分别将识别出的“农夫山田”转换为准确拼音字符串“nong fu shan tian”和模糊拼音字符串“long fu san tian”、“long fu shan tian”、“nong fu san tian”。

将用户说出的广告语所转换的准确拼音字符串和模糊拼音字符串统称为第二拼音字符串。

然后，再确定所述第一拼音字符串与所述第二拼音字符串的相似度。

具体过程包括：使用字符串相似度算法，计算从所述第一拼音字符串转成所述第二拼音字符串所需的最少编辑次数；根据该最少编辑次数和所述第一拼音字符串与所述第二拼音字符串中长度较大者的长度，计算所述第一拼音字符串与所述第二拼音字符串的相似度。

例如，应用程序分别匹配“nong fu shan quan”、“long fu san quan”、“long fushan quan”、“nong fu san quan”和“nong fu shan tian”、“long fu san tian”、“longfu shan tian”、“nong fu san tian”。如果应用程序匹配到某两个拼音字符串的相似度大于预设的阈值，则可以判断用户说出的广告语满足要求，不再进行后续的匹配，可以跳过广告。如果应用程序将所有的第一拼音字符串和所有的第二拼音字符串都进行匹配后，没有相似度大于预设的阈值的第一拼音字符串和第二字符拼音字符串，则判断用户说出的广告语不满足要求，不能跳过广告。

在本申请实施例中，通过使用具有方言口音特征，提高了对用户说出的广告语的识别率，可以使用户说出的广告语与广告商提供的广告语匹配的可能性增大，满足在广告情况下，准确性可以不用很高的要求，提高了用户互动的成功率和用户的体验。

虽然上述实施例的语音互动方法的各步骤是通过在终端设备上实现来描述的，但也可以其中一些步骤在服务器上执行，另外一些步骤在终端设备上执行。

例如，终端设备获取推送信息对应的第一文本信息，展示所述第一文本信息，然后接收用户输入的语音，并发给服务器。服务器先将第一文本信息转换为第一拼音字符串。在服务器收到终端设备发送的语音后，进行语音识别，获得第二文本信息，然后将第二文本信息转换为第二拼音字符串，并确定第一拼音字符串和第二拼音字符串的相似度，再根据所述相似度和预设的阈值确定互动结果。然后服务器将互动结果下发给终端设备，使终端设备执行所述互动结果对应的操作。

与本申请实施例的语音互动方法相对应，本申请还提供了一种语音互动装置。

图5所示为根据本申请实施例的语音互动装置的示意图。该语音互动装置例如是在终端设备上。如图5所示，该语音互动装置500包括：

第一文本获取模块501，用于获取推送信息对应的第一文本信息；

显示模块502，用于展示所述第一文本信息；

第一转换模块503，用于将所述第一文本信息转换为第一拼音字符串；

语音接收模块504，接收用户输入的语音；

收发模块505，用于将所述语音提供给服务器进行语音识别，并从所述服务器获得通过语音识别得到的第二文本信息；

第二转换模块506，用于将所述第二文本信息转换为第二拼音字符串；

相似度确定模块507，用于确定所述第一拼音字符串与所述第二拼音字符串的相似度；

操作模块508，用于根据所述相似度和预设的阈值确定互动结果，并根据所述互动结果执行所述互动结果对应的操作。

其中，所述收发模块505还用于从服务器获取所述推送信息的配置文件，其中该配置文件可以包括下列信息：所述第一文本信息、所述预设的阈值。所述第一文本获取模块501用于从所述配置文件获取所述第一文本信息，所述操作模块508用于根据所述相似度和所述配置文件中的所述预设的阈值确定互动结果。

例如，终端设备上有业务供应商向用户提供的各种业务，例如，电影、电视剧、综艺节目等主媒体内容。在终端设备向用户提供主媒体内容之前或者中间，终端设备从服务器获取主媒体内容的附加媒体内容，即推送信息。所述第一文本获取模块501从收发模块505获取的推送信息的配置文件中获取推送信息对应的第一文本信息。例如，推送信息为视频广告，第一文本信息为与该视频广告对应的广告语；或者，推送信息为图片广告，第一文本信息为与该图片广告对应的广告语。

推送信息及推送信息对应的第一文本信息例如是先由广告商提供给服务器，然后再由终端设备从服务器上拉取。

第一文本信息例如可以包括在推送信息的一个XML格式或Json格式的配置文件(下文称作广告配置文件)中。除了该第一文本信息之外，如果为视频广告，该广告配置文件还可以包括视频广告的长度、视频广告的链接等信息；如果为图片广告，则该广告配置文件还可以包括图片广告的时间、图片广告的链接等信息。

所述语音互动装置还包括：媒体播放模块，用于在播放所述主媒体容之前或期间，播放所述附加媒体内容。

例如，当用户观看电影时，可以通过触摸终端设备的显示屏点击相应的电影进行播放。在获得用户的播放电影的请求时，终端设备会从服务器获取电影视频文件、视频广告及视频广告对应的广告语。或者，在用户观看电影的过程中，在某个时间点上，终端设备自动从服务器获取视频广告及与该视频广告对应的广告语。

在终端设备根据广告配置文件的信息开始播放视频广告或展示图片广告的过程中，显示模块502用于在所播放的所述附加媒体内容上提供用户界面，该用户界面中包括可触发录音功能的图标。例如，显示模块502在播放视频广告的窗口上或者展示图片广告的窗口上提供一种形式的用户界面，示例的用户界面参见图2a-2e。用户界面例如是半透明的、可伸缩的。在图2a的用户界面上，显示模块502展示广告语“农夫山泉”，并显示有提示用户可以通过读出该广告语而跳过广告的语句。另外，用户界面还可以展示一些图标，用于让用户点击触发相应的操作。

第一转换模块503具体用于在获取第一文本信息之后，按照第一文本信息的发音将第一文本信息转换为第一拼音字符串。例如，可以将广告语“农夫山泉”转换为“nong fushan quan”。

语音接收模块504具体用于，响应于用户对所述图标的操作，打开声音输入设备，开始录音；在判断用户停止录音后，获取所录制的语音。例如，在图2a所示的用户界面情况下，当判断用户长按录音图标26时，开始录音；并且当判断用户抬起手指时，即松开该录音图标26，则判断录音结束。当录音结束时，语音接收模块504获取所录取的用户的语音。可以预先设置一个阈值时间，当确认用户按压录音图标26的时间大于或等于这个预先设置的阈值时间时，判断用户长按了录音图标26。

在语音接收模块504获取所录取的用户的语音之后，收发模块505可以将该语音提供给服务器进行语音识别。服务器通过语音识别，将用户的语音转换为文本，返回给终端设备上的收发模块505。与广告商的第一文本信息对应，这个用户的语音所转换的文本为第二文本信息。例如，通过识别，用户说出的广告语为“农夫山田”

第二转换模块506和第一转换模块503的操作类似，按照第二文本信息的发音，将第二文本信息转换为第二拼音字符串。例如，将“农夫山田”转换为“nong fu shan tian”。

相似度确定模块507可以使用字符串相似度算法，计算从所述第一拼音字符串转成所述第二拼音字符串所需的最少编辑次数。然后，再根据该最少编辑次数和所述第一拼音字符串与所述第二拼音字符串中长度较大者的长度，计算所述第一拼音字符串与所述第二拼音字符串的相似度。

例如，将用户说出的“nong fu shan tian”转换为广告主的广告语“nong fu shanquan”，只需要一次编辑操作，将“t”替换为“q”。然后利用相似度计算公式(公式(1))计算相似度。

在本申请实施例中，计算出的相似度＝1-1/14＝0.93。

在计算出第一拼音字符串和第二拼音字符串之间的相似度之后，操作模块508可以根据预设的阈值确定用户和广告的互动结果。该预设的阈值例如为0.7，是在所述XML格式或Json格式的广告配置文件中。如果第一拼音字符串和第二拼音字符串之间的相似度大于0.7，则认为用户说出的广告语与广告商的广告语符合要求，可以通过。如果低于这个阈值，可以让用户再次说出广告语，再进行判断

其中，所述操作模块508用于：在所述相似度满足所述预设的阈值时，停止播放所述附加媒体内容，并开始播放或者继续播放所述主媒体内容。

如果操作模块508根据所述相似度和预设的阈值判断用户说出的广告语符合要求，例如，相似度为0.93，大于预设的阈值0.7，则可以跳过广告。例如，如果视频广告是在业务供应商的视频的前面，可以停止播放视频广告，开始播放业务供应商的视频；如果视频广告是在业务供应商的视频的中间，则可以停止播放视频广告，继续播放业务供应商的视频。

在图片广告的情况下，如果根据所述相似度和预设的阈值判断用户说出的广告语符合要求，则可以停止展示图片广告，开始播放业务供应商的视频。

根据本申请的实施例，在图5的基础上，第一转换模块503具体用于根据预设的拼音转换规则表和预设的模糊音转换规则表，将所述第一文本信息转换为第一拼音字符串，其中所述模糊音转换规则表使用了口音特征。

终端设备可以在终端设备本地存储一个预设的拼音转换规则表，第一转换模块503可以根据第一文本信息的准确发音，将第一文本信息转换为准确拼音字符串。例如，广告语“农夫山泉”可以转换为“nong fu shan quan”。同时，在终端设备本地还存储有一个预设的具有方言口音特征的模糊音转换规则表。第一转换模块503通过这个模糊音转换规则表，将第一文本信息转换为模糊拼音字符串。因为这种语音互动的特点是不需要有准确的文本识别结果，即不用展示给用户看最后识别的文字，关键是判断用户的发音与预先设定的广告语的发音接近，就执行广告相关的动作，如跳过广告等。例如，根据中国的方言口音特征，有些地方的发音有平翘舌和后鼻音的影响，“zh”、“ch”、“sh”会分别发成“z”、“c”、“s”；“in”、“en”、“un”会分别发成“ing”、“eng”、“ung”；“n”发成“l”。例如，“chi”会发成“ci”，“yin”发成“ying”,“nong”发成“long”、“shan”发成“san”的音。模糊音转换规则表使用这些特征。通过这个模糊音转换规则表，例如可以将广告语“农夫山泉”转换为“long fusan quan”、“long fu shan quan”、“nong fu san quan”。

上述广告商的广告语所转换的准确音频字符串和模糊拼音字符串统称为第一拼音字符串。

类似地，在第二转换模块504中，将所述第二文本信息转换为第二拼音字符串包括：根据所述预设的拼音转换规则表和所述预设的模糊音转换规则表，将所述第二文本信息转换为第二拼音字符串。

例如，服务器识别出的文本信息为“农夫山田”。第二转换模块504分别将识别出的“农夫山田”转换为准确拼音字符串“nong fu shan tian”和模糊拼音字符串“long fu santian”、“long fu shan tian”、“nong fu san tian”。

然后，相似度确认模块507再确定所述第一拼音字符串与所述第二拼音字符串的相似度。

例如分别匹配“nong fu shan quan”、“long fu san quan”、“long fu shanquan”、“nong fu san quan”和“nong fu shan tian”、“long fu san tian”、“long fushan tian”、“nong fu san tian”。如果相似度确认模块507匹配到某两个拼音字符串的相似度大于预设的阈值，则可以判断用户说出的广告语满足要求，不再进行后续的匹配，可以跳过广告。如果相似度确认模块507将所有的第一拼音字符串和所有的第二拼音字符串都进行匹配后，没有相似度大于预设的阈值的第一拼音字符串和第二字符拼音字符串，则判断用户说出的广告语不满足要求，不能跳过广告。

虽然图5所示的模块是通过在终端设备上实现来描述的，但是这些模块中也可以一部分在服务器上，另一部分在终端设备上。本申请并不对此进行限制。

图6所示为根据本申请实施例的语音互动装置的硬件结构示意图。该语音互动装置例如实现为终端设备。

参照图6，该语音互动装置可以包括：处理器601(例如CPU)、通信总线602、接口603、存储器604。其中，通信总线602用于实现该语音互动装置中各组成部件之间的连接通信。接口603包括用户接口和网络接口。用户接口可以包括显示器、键盘、鼠标等外设，用于接收用户输入的信息，并将接收的信息发送至处理器601进行处理。显示器可以为LCD显示器、LED显示器，也可以为触摸屏，用于显示需要显示的数据。可选的用户接口还可以包括标准的有线接口、无线接口等。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器604可以是高速RAM存储器，也可以是稳定的或非易失性存储器，例如磁盘存储器。存储器604可选的还可以是独立于前述处理器601的存储装置。如图6所示，作为一种计算机存储介质的存储器604中可以存储有图5中的各个模块。在图6中，仅示出了模块501-508用于示例。这些模块例如为指令模块。处理器601执行存储于存储器604中的模块，用于完成这些模块的指定功能。作为一种计算机存储介质的存储器604中还可以存储计算机程序指令，用于当由处理器601执行时，执行图3-图4中的方法。

本申请实施例的语音互动装置中的语音互动方式比较新颖，增加了用户与广告之间的互动，在满足广告商利益的情况下，增强了用户观看的趣味性，提高了用户体验。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的，应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。所述各实施例的功能模块可以位于一个终端或网络节点，或者也可以分布到多个终端或网络节点上。

另外，本申请的每个实例可以通过由数据处理设备如计算机执行的数据处理程序来实现。显然，数据处理程序构成了本申请。此外，通常存储在一个存储介质中的数据处理程序通过直接将程序读取出存储介质或者通过将程序安装或复制到数据处理设备的存储设备(如硬盘和或内存)中执行。因此，这样的存储介质也构成了本申请。存储介质可以使用任何类型的记录方式，例如纸张存储介质(如纸带等)、磁存储介质(如软盘、硬盘、闪存等)、光存储介质(如CD-ROM等)、磁光存储介质(如MO等)等。

因此，本申请还提供了一种非易失性存储介质，其中存储有内容分级程序，该内容分级程序用于执行本申请上述实施例方法中的任何一种实例。

以上所述仅为本申请的实例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种语音互动方法，其特征在于，该方法包括：

将所述第一文本信息转换为第一拼音字符串；

接收用户输入的语音；

将所述第二文本信息转换为第二拼音字符串；

确定所述第一拼音字符串与所述第二拼音字符串的相似度；

根据所述相似度和预设的阈值确定互动结果，并根据所述互动结果执行所述互动结果对应的操作；

其中，将所述第一文本信息转换为第一拼音字符串包括：

根据预设的拼音转换规则表和预设的模糊音转换规则表，将所述第一文本信息分别转换为准确拼音字符串和模糊拼音字符串，形成第一拼音字符串，其中所述模糊音转换规则表使用了口音特征；

将所述第二文本信息转换为第二拼音字符串包括：

根据所述预设的拼音转换规则表和所述预设的模糊音转换规则表，将所述第二文本信息分别转换为准确拼音字符串和模糊拼音字符串，形成第二拼音字符串；

其中，所述确定所述第一拼音字符串与所述第二拼音字符串的相似度包括：

通过比较所述第一拼音字符串中的准确拼音字符串与所述第二拼音字符串中的各个准确拼音字符串和模糊拼音字符串，以及比较所述第一拼音字符串中的模糊拼音字符串与所述第二拼音字符串中的各个准确拼音字符串和模糊拼音字符串，确定所述第一拼音字符串与所述第二拼音字符串的相似度。

2.根据权利要求1的语音互动方法，其中，确定所述第一拼音字符串与所述第二拼音字符串的相似度包括：

使用字符串相似度算法，计算从所述第一拼音字符串中的准确拼音字符串和模糊拼音字符串转成所述第二拼音字符串中的准确拼音字符串和模糊拼音字符串所需的最少编辑次数；

根据该最少编辑次数和所述第一拼音字符串与所述第二拼音字符串中长度较大者的长度，计算所述第一拼音字符串与所述第二拼音字符串的相似度。

3.根据权利要求1至2任一项的语音互动方法，其中，所述推送信息为`主媒体内容的附加媒体内容，所述方法进一步包括：

在播放所述主媒体内容之前或期间，播放所述附加媒体内容；

其中，根据所述相似度和预设的阈值确定互动结果，并根据所述互动结果执行所述互动结果对应的操作包括：

在所述相似度满足所述预设的阈值时，停止播放所述附加媒体内容，并开始播放或者继续播放所述主媒体内容。

4.根据权利要求3的语音互动方法，其中，接收用户输入的语音包括：

在所播放的所述附加媒体内容上提供用户界面，该用户界面中包括可触发录音功能的图标；

响应于用户对所述图标的操作，打开声音输入设备，开始录音；

在判断用户停止录音后，获取所录制的语音。

5.根据权利要求4的语音互动方法，其中，

用户对所述图标的操作包括：用户长按所述图标；

用户停止录音包括：用户松开所述图标。

6.根据权利要求4的语音互动方法，其中，所述第一文本信息显示在所述用户界面上。

7.根据权利要求1的语音互动方法，其中，所述方法进一步包括：

从服务器获取所述推送信息的配置文件，其中该配置文件包括下列信息：所述第一文本信息、所述预设的阈值；

其中，从所述配置文件获取所述第一文本信息，根据所述相似度和所述配置文件中的所述预设的阈值确定互动结果。

8.一种语音互动装置，其特征在于，该装置包括：

第一文本获取模块，用于获取推送信息对应的第一文本信息；

显示模块，用于展示所述第一文本信息；

语音接收模块，接收用户输入的语音；

操作模块，用于根据所述相似度和预设的阈值确定互动结果，并根据所述互动结果执行所述互动结果对应的操作；

其中，第一转换模块用于：

第二转换模块用于：

所述相似度确定模块用于：

9.根据权利要求8的语音互动装置，其中，所述相似度确定模块用于：

10.根据权利要求8至9任一项的语音互动装置，其中，所述推送信息为主媒体内容的附加媒体内容，所述语音互动装置进一步包括：

媒体播放模块，用于在播放所述主媒体内容之前或期间，播放所述附加媒体内容；

其中，所述操作模块用于：

11.根据权利要求10的语音互动装置，其中，所述显示模块还用于：

所述语音接收模块用于：

在判断用户停止录音后，获取所录制的语音。

12.根据权利要求11的语音互动装置，其中，

用户对所述图标的操作包括：用户长按所述图标；

用户停止录音包括：用户松开所述图标。

13.根据权利要求8的语音互动装置，其中，所述收发模块进一步用于：

其中，所述第一文本获取模块用于从所述配置文件获取所述第一文本信息，所述操作模块用于根据所述相似度和所述配置文件中的所述预设的阈值确定互动结果。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至7任一项所述的语音互动方法。