CN104714937A

CN104714937A - 一种评论信息发布方法及装置

Info

Publication number: CN104714937A
Application number: CN201510144254.5A
Authority: CN
Inventors: 乔兵
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2015-03-30
Filing date: 2015-03-30
Publication date: 2015-06-17
Anticipated expiration: 2035-03-30
Also published as: CN104714937B

Abstract

本发明实施例公开了一种评论信息发布方法及装置，一种评论信息发布方法应用于多媒体文件播放终端，所述多媒体文件播放终端具有语音输入接口，该方法包括以下步骤：在多媒体文件播放过程中，对评论触发操作进行实时检测；检测到评论触发操作后，开启语音输入功能；接收用户通过所述语音输入接口输入的语音信息；对所述语音信息进行语音识别处理，获得与所述语音信息相对应的文本信息；根据所述文本信息，生成待发布评论信息；将所述待发布评论信息进行发布。应用本发明实施例所提供的技术方案，可以为用户带来更好的交互体验和观看体验。

Description

一种评论信息发布方法及装置

技术领域

本发明涉及互联网技术领域，特别涉及一种评论信息发布方法及装置。

背景技术

随着互联网技术的快速发展，很多网站为增加用户对网站的粘性，为用户提供了即时评论功能，比较典型的是多媒体网站中的弹幕功能，应用该功能，用户可以对当前播放的多媒体文件的内容进行实时吐槽，增加用户观看多媒体文件的趣味性。

现有的评论信息发布方法是，在多媒体文件播放区域的临近区域设置文本输入框和发送按钮，用户在观看多媒体文件过程中，如果想对当前播放的多媒体文件的内容进行即时评论，则可以在文本输入框中输入文本内容，点击发送按钮后，用户输入的文本内容即可作为评论信息由网站系统即时发布出来。

这种方法存在一定的缺点，因为无论用户是在支持物理键盘的终端(如台式电脑、笔记本电脑等)上观看多媒体文件，还是在只支持虚拟键盘的终端(如触屏手机、平板电脑等)上观看多媒体文件，如果想要进行即时评论，都需要通过键盘完成文本内容的输入，用户的注意力都将从多媒体文件播放界面转移到键盘上或文本输入框上，影响用户的交互体验和观看效果，用户体验较差。

发明内容

为解决上述问题，本发明实施例公开了一种评论信息发布方法及装置。技术方案如下：

一种评论信息发布方法，应用于多媒体文件播放终端，所述多媒体文件播放终端具有语音输入接口，包括：

在多媒体文件播放过程中，对评论触发操作进行实时检测；

检测到评论触发操作后，开启语音输入功能；

接收用户通过所述语音输入接口输入的语音信息；

对所述语音信息进行语音识别处理，获得与所述语音信息相对应的文本信息；

根据所述文本信息，生成待发布评论信息；

将所述待发布评论信息进行发布。

在本发明的一种具体实施方式中，所述对所述语音信息进行语音识别处理，获得与所述语音信息相对应的文本信息，包括：

在本地对所述语音信息进行语音识别，获得与所述语音信息相对应的文本信息。

将所述语音信息发送给语音识别服务器，以由所述语音识别服务器对所述语音信息进行识别，并返回识别结果；

接收所述语音识别服务器返回的识别结果，获得与所述语音信息相对应的文本信息。

在本发明的一种具体实施方式中，所述根据所述文本信息，生成待发布评论信息，包括：

将所述文本信息确定为待发布评论信息。

向用户展示所述文本信息，以供用户编辑；

接收用户的编辑结果，并将所述编辑结果确定为待发布评论信息。

在本发明的一种具体实施方式中，

在所述检测到评论触发操作后，开启语音输入功能之后、所述接接收用户通过所述语音输入接口输入的语音信息之前，还包括：

关闭所述多媒体文件的音频输出；

相应的，在所述接收用户通过所述语音输入接口输入的语音信息之后，还包括：

开启所述多媒体文件的音频输出。

在本发明的一种具体实施方式中，还包括：

在接收用户通过所述语音输入接口输入的语音信息的过程中，获得语音输入开始时刻对应的多媒体文件播放的第一进度点和语音输入结束时刻对应的多媒体文件播放的第二进度点；

所述对所述语音信息进行语音识别处理，获得与所述语音信息相对应的文本信息，包括：

在预先存储的多媒体音频库中提取所述第一进度点和所述第二进度点间的多媒体音频数据；

根据所提取的多媒体音频数据，对所述语音信息进行去噪处理；

对进行去噪处理后的语音信息进行语音识别处理，获得与所述语音信息相对应的文本信息。

一种评论信息发布装置，应用于多媒体文件播放终端，所述多媒体文件播放终端具有语音输入接口，包括：

评论触发操作检测模块，用于在多媒体文件播放过程中，对评论触发操作进行实时检测；

语音输入功能开启模块，用于检测到评论触发操作后，开启语音输入功能；

语音信息接收模块，用于接收用户通过所述语音输入接口输入的语音信息；

文本信息获得模块，用于对所述语音信息进行语音识别处理，获得与所述语音信息相对应的文本信息；

待发布评论信息生成模块，用于根据所述文本信息，生成待发布评论信息；

待发布评论信息发布模块，用于将所述待发布评论信息进行发布。

在本发明的一种具体实施方式中，所述文本信息获得模块，包括：

第一文本信息获得子模块，用于在本地对所述语音信息进行语音识别，获得与所述语音信息相对应的文本信息。

语音信息发送子模块，用于将所述语音信息发送给语音识别服务器，以由所述语音识别服务器对所述语音信息进行识别，并返回识别结果；

第二文本信息获得子模块，用于接收所述语音识别服务器返回的识别结果，获得与所述语音信息相对应的文本信息。

在本发明的一种具体实施方式中，所述待发布评论信息生成模块，包括：

第一待发布评论信息确定子模块，用于将所述文本信息确定为待发布评论信息。

文本信息展示子模块，用于向用户展示所述文本信息，以供用户编辑；

第二待发布评论信息确定子模块，用于接收用户的编辑结果，并将所述编辑结果确定为待发布评论信息。

在本发明的一种具体实施方式中，还包括：

音频输出关闭模块，用于在所述检测到评论触发操作后，开启语音输入功能之后、所述接接收用户通过所述语音输入接口输入的语音信息之前，关闭所述多媒体文件的音频输出；

音频输出开启模块，用于在所述接收用户通过所述语音输入接口输入的语音信息之后，开启所述多媒体文件的音频输出。

在本发明的一种具体实施方式中，还包括：

进度点获得模块，用于在接收用户通过所述语音输入接口输入的语音信息的过程中，获得语音输入开始时刻对应的多媒体文件播放的第一进度点和语音输入结束时刻对应的多媒体文件播放的第二进度点；

所述文本信息获得模块，包括：

音频数据提取子模块，用于在预先存储的多媒体音频库中提取所述第一进度点和所述第二进度点间的多媒体音频数据；

去噪处理子模块，用于根据所提取的多媒体音频数据，对所述语音信息进行去噪处理；

第三文本信息获得子模块，用于对进行去噪处理后的语音信息进行语音识别处理，获得与所述语音信息相对应的文本信息。

应用本发明实施例所提供的技术方案，在多媒体文件播放过程中，通过对用户输入的语音信息进行语音识别处理，获得与该语音信息相对应的文本信息，从用户角度来看，用户想要发表评论时，通过语音输入方式即可完成相应的评论信息发布操作，不需要使用物理键盘或者虚拟键盘，可以避免用户的注意力从多媒体文件播放界面转移到文本输入界面上，不影响用户的观看效果，从而可以为用户带来更好的交互体验和观看体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中评论信息发布方法的一种实施流程图；

图2为本发明实施例中评论信息发布方法的一种工作流程图；

图3为本发明实施例中评论信息发布方法的另一种工作流程图；

图4为本发明实施例中评论信息发布装置的结构示意图。

具体实施方式

首先对本发明实施例所提供的一种评论信息发布方法进行说明，该方法应用于多媒体文件播放终端，该多媒体文件播放终端具有语音输入接口。该方法可以包括以下步骤：

在多媒体文件播放过程中，对评论触发操作进行实时检测；

检测到评论触发操作后，开启语音输入功能；

接收用户通过所述语音输入接口输入的语音信息；

根据所述文本信息，生成待发布评论信息；

将所述待发布评论信息进行发布。

在多媒体文件播放终端播放多媒体文件过程中，如果用户想要发表即时评论，可以执行评论触发操作，表示当前有评论请求。当检测到用户的评论触发操作后，多媒体文件播放终端开启语音输入功能，由用户通过语音输入接口输入语音信息，并接收该语音信息。对于接收到的语音信息，可以在本地进行语音识别，还可以将该语音信息发送到语音识别服务器，由语音识别服务器对该语音信息进行语音识别。对用户输入的语音信息进行语音识别处理后，可以获得与该语音信息相对应的文本信息，从而根据该文本信息，可以生成待发布评论信息，并将待发布评论信息发布出来。

为了使本领域技术人员更好地理解本发明实施例中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1所示，为本发明实施例所提供的一种评论信息发布方法的实施流程图，该方法应用于多媒体文件播放终端，所述多媒体文件播放终端具有语音输入接口。该方法可以包括以下步骤：

S110：在多媒体文件播放过程中，对评论触发操作进行实时检测；

在实际应用中，可以对用户的评论触发操作进行预先定义，比如，在多媒体文件播放界面预先设置评论按钮，用户点击该评论按钮，即可视为用户执行了评论触发操作，或者，用户在具有触摸屏的多媒体文件播放终端的触摸屏上的触摸时长达到预设阈值，可以视为用户执行了评论触发操作。当然，用户的评论触发操作不限于举例的这两种，本发明对此不做限制。

在多媒体文件播放过程中，如果用户要发表即时评论，会执行相应的评论触发操作，可以对用户的评论触发操作进行实时检测。

S120：检测到评论触发操作后，开启语音输入功能；

检测到用户的评论触发操作后，确定用户想要发表即时评论，则可以开启语音输入功能，在实际应用中，开启语音输入功能后，可以向用户展示语音输入提示，以由用户输入相应的语音信息。

S130：接收用户通过所述语音输入接口输入的语音信息；

在步骤S120开启语音输入功能后，用户通过语音输入接口输入语音信息，接收用户输入的语音信息，继续执行步骤S140的操作。

S140：对所述语音信息进行语音识别处理，获得与所述语音信息相对应的文本信息；

在步骤S130接收到用户输入的语音信息后，需要对该语音信息进行语音识别处理，需要说明的是，本领域技术人员可以利用现有语音识别技术对语音信息进行语音识别处理，本发明实施例对具体使用的语音识别技术不做限定。对该语音信息进行语音识别处理后，可以获得与该语音信息相对应的文本信息。

在本发明的一种具体实施方式中，可以直接在本地对所述语音信息进行语音识别，获得与所述语音信息相对应的文本信息。

当多媒体文件播放终端接收到用户输入的语音信息后，可以直接在本终端上对语音信息进行语音识别处理，获得与该语音信息相对应的文本信息。在实际应用中，对语音信息进行识别处理的过程，可以进一步包含过滤非法字符、语义调整等处理过程，以获得与接收到的语音信息更为符合的文本信息。

在本发明的另一种具体实施方式中，步骤S140可以包括以下步骤：

步骤一：将所述语音信息发送给语音识别服务器，以由所述语音识别服务器对所述语音信息进行识别，并返回识别结果；

步骤二：接收所述语音识别服务器返回的识别结果，获得与所述语音信息相对应的文本信息。

在实际应用中，多媒体文件播放终端的处理能力可能有限，所以一种比较优选的实施方式是，将接收到的语音信息发送给语音识别服务器，由语音识别服务器对该语音信息进行识别处理，当然，还可以进一步进行过滤非法字符、语义调整等处理，并向多媒体文件播放终端返回识别结果。多媒体文件播放终端接收到语音识别服务器返回的识别结果，获得与该语音信息相对应的文本信息。

在本发明的一种实施方式中，语音识别服务器对语音信息进行识别后，其识别结果即为和该语音信息相对应的文本信息，可以由语音识别服务器将该文本信息发送给信息发布服务器，由信息发布服务器将其作为待发布评论信息直接进行发布。

S150：根据所述文本信息，生成待发布评论信息；

步骤S140获得了与接收到的语音信息相对应的文本信息，可以根据该文本信息，生成待发布评论信息。

在本发明的一种具体实施方式中，可以直接将所述文本信息确定为待发布评论信息。

在本发明的另一种具体实施方式中，可以向用户展示所述文本信息，以供用户编辑，用户编辑后，接收用户的编辑结果，并将所述编辑结果确定为待发布评论信息。

可以理解的是，理想情况下，对语音信息进行语音识别处理后所获得的文本信息符合用户期望，但因为所使用的语音识别技术的差异性，有时，识别效果可能不是很理想，也就是说，对语音信息进行语音识别处理后所获得的文本信息不一定和用户的实际期望相符合，所以可以将获得的文本信息先展示给用户，并提供编辑功能，用户进行编辑后，将用户的编辑结果确定为待发布评论信息。这样，一方面可以更好的满足用户的需求，另一方面，用户进行编辑时，即使需要通过键盘输入文本内容，也能够在较短时间内完成编辑操作，减少其对多媒体文件的观看效果的影响，用户体验较好。

S160：将所述待发布评论信息进行发布。

在步骤S150生成待发布评论信息后，将待发布评论信息进行发布。对于待发布评论信息的发布，可以按照以下两种流程进行：

第一种流程：多媒体文件播放终端直接将待发布评论信息发布给当前用户，以方便当前用户及时查看到自己的评论信息，同时，多媒体文件播放终端将该待发布评论信息发送给信息发布服务器，由信息发布服务器推送至其他多媒体文件播放终端进行发布；

第二种流程：多媒体文件播放终端直接将待发布评论信息发送给信息发布服务器，由信息发布服务器推送至所有多媒体文件播放终端。

综合以上各实施方式的描述可知，多媒体文件播放终端和语音识别服务器、信息发布服务器之间的工作流程可以有以下几种方式：

第一种方式，如图2所示：

S210：多媒体文件播放终端对评论触发操作进行实时检测；

S220：多媒体文件播放终端检测到评论触发操作后，开启语音输入功能；

S230：多媒体文件播放终端接收用户通过语音输入接口输入的语音信息；

S240：多媒体播放终端对语音信息进行语音识别，获得与该语音信息相对应的文本信息；

S250：多媒体播放终端根据文本信息，生成待发布评论信息；

S260：多媒体播放终端在本终端发布待发布评论信息；

S270：多媒体播放终端将待发布评论信息发送给信息发布服务器；

其中，步骤S260和步骤S270没有执行顺序的限制。

第二种方式，如图3所示：

S310：多媒体文件播放终端对评论触发操作进行实时检测；

S320：多媒体文件播放终端检测到评论触发操作后，开启语音输入功能；

S330：多媒体文件播放终端接收用户通过语音输入接口输入的语音信息；

S340：多媒体文件播放终端将语音信息发送给语音识别服务器；

S350：语音识别服务器对语音信息进行语音识别；

S360：语音识别服务器将识别结果返回给多媒体文件播放终端；

S370：多媒体文件播放终端根据识别结果中的文本信息，生成待发布评论信息；

S380：多媒体文件播放终端在本终端发布待发布评论信息；

S390：多媒体文件播放终端将待发布评论信息发送给信息发布服务器；

其中，步骤S380和步骤S390没有执行顺序的限制。

需要说明的是，在实际应用中，图2和图3所示的语音识别服务器和信息发布服务器可以是多个实体服务器，还可以是同一个实体服务器，本发明对此不做限制。

在本发明的一个实施例中，在步骤S120之后、步骤S130之前，还可以包括以下步骤：

关闭所述多媒体文件的音频输出；

相应的，在步骤S130之后，还可以包括以下步骤：

开启所述多媒体文件的音频输出。

可以理解的是，多媒体文件的声音信息将构成用户的语音信息的噪声，在用户输入语音信息过程中，关闭多媒体文件的音频输出，并在接收到用户的语音信息之后，开启多媒体文件的音频输出，可以避免用户的语音信息掺杂过多噪声，提高语音信息的识别准确率。

在本发明的一个实施例中，还可以包括以下步骤：

相应的，步骤S140可以包括以下步骤：

步骤一：在预先存储的多媒体音频库中提取所述第一进度点和所述第二进度点间的多媒体音频数据；

步骤二：根据所提取的多媒体音频数据，对所述语音信息进行去噪处理；

步骤三：对进行去噪处理后的语音信息进行语音识别处理，获得与所述语音信息相对应的文本信息。

在实际应用中，多媒体文件播放终端获得第一进度点、第二进度点后，可以直接在本地进行去噪处理，再进一步对去噪处理后的语音信息进行语音识别处理，或者，将进度点信息发送给语音识别服务器，由语音识别服务器对语音信息进行去噪处理后，进一步对去噪处理后的语音信息进行语音识别处理。对接收到的语音信息进行去噪处理，可以提高语音信息识别的准确率。

为方便理解，对该实施例进行举例说明。

用户开始输入语音信息的时刻对应的多媒体文件播放的第一进度点为：3分20秒，用户停止输入语音信息的时刻对应的多媒体文件播放的第二进度点为：3份30秒，从预先存储的多媒体音频库中提取这两个进度点之间的多媒体音频数据，根据该多媒体音频数据，对语音信息进行去噪处理，再进一步对进行去噪处理后的语音信息进行语音识别处理，获得与该语音信息相对应的文本信息。

相应于上面的方法实施例，本发明实施例还提供了一种评论信息发布装置，该装置应用于多媒体文件播放终端，所述多媒体文件播放终端具有语音输入接口，参见图4所示，该装置可以包括以下模块：

评论触发操作检测模块410，用于在多媒体文件播放过程中，对评论触发操作进行实时检测；

语音输入功能开启模块420，用于检测到评论触发操作后，开启语音输入功能；

语音信息接收模块430，用于接收用户通过所述语音输入接口输入的语音信息；

文本信息获得模块440，用于对所述语音信息进行语音识别处理，获得与所述语音信息相对应的文本信息；

待发布评论信息生成模块450，用于根据所述文本信息，生成待发布评论信息；

待发布评论信息发布模块460，用于将所述待发布评论信息进行发布。

在本发明的一种具体实施方式中，所述文本信息获得模块440，可以包括以下子模块：

在本发明的一种具体实施方式中，所述待发布评论信息生成模块450，可以包括以下子模块：

在本发明的另一个实施例中，还可以包括以下模块：

所述文本信息获得模块440，可以包括以下子模块：

应用本发明实施例所提供的装置，在多媒体文件播放过程中，通过对用户输入的语音信息进行语音识别处理，获得与该语音信息相对应的文本信息，从用户角度来看，用户想要发表评论时，通过语音输入方式即可完成相应的评论信息发布操作，不需要使用物理键盘或者虚拟键盘，可以避免用户的注意力从多媒体文件播放界面转移到文本输入界面上，不影响用户的观看效果，从而可以为用户带来更好的交互体验和观看体验。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述方法实施方式中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于计算机可读取存储介质中，这里所称得的存储介质，如：ROM/RAM、磁碟、光盘等。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种评论信息发布方法，应用于多媒体文件播放终端，所述多媒体文件播放终端具有语音输入接口，其特征在于，包括：

在多媒体文件播放过程中，对评论触发操作进行实时检测；

检测到评论触发操作后，开启语音输入功能；

接收用户通过所述语音输入接口输入的语音信息；

根据所述文本信息，生成待发布评论信息；

将所述待发布评论信息进行发布。

2.根据权利要求1所述的方法，其特征在于，所述对所述语音信息进行语音识别处理，获得与所述语音信息相对应的文本信息，包括：

3.根据权利要求1所述的方法，其特征在于，所述对所述语音信息进行语音识别处理，获得与所述语音信息相对应的文本信息，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述文本信息，生成待发布评论信息，包括：

将所述文本信息确定为待发布评论信息。

5.根据权利要求1所述的方法，其特征在于，所述根据所述文本信息，生成待发布评论信息，包括：

向用户展示所述文本信息，以供用户编辑；

6.根据权利要求1所述的方法，其特征在于，

关闭所述多媒体文件的音频输出；

开启所述多媒体文件的音频输出。

7.根据权利要求1所述的方法，其特征在于，还包括：

8.一种评论信息发布装置，应用于多媒体文件播放终端，所述多媒体文件播放终端具有语音输入接口，其特征在于，包括：

9.根据权利要求8所述的装置，其特征在于，所述文本信息获得模块，包括：

10.根据权利要求8所述的装置，其特征在于，所述文本信息获得模块，包括：

11.根据权利要求8所述的装置，其特征在于，所述待发布评论信息生成模块，包括：

12.根据权利要求8所述的装置，其特征在于，所述待发布评论信息生成模块，包括：

13.根据权利要求8所述的装置，其特征在于，还包括：

14.根据权利要求8所述的装置，其特征在于，还包括：

所述文本信息获得模块，包括：