CN110058838A

CN110058838A - 语音控制方法、装置、计算机可读存储介质和计算机设备

Info

Publication number: CN110058838A
Application number: CN201910348815.1A
Authority: CN
Inventors: 廖锡光
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-04-28
Filing date: 2019-04-28
Publication date: 2019-07-26
Anticipated expiration: 2039-04-28
Also published as: CN110058838B

Abstract

本申请涉及一种语音控制方法、装置、计算机可读存储介质和计算机设备，方法包括：接收第一终端发送的语音信息和对应的页面图片；识别语音信息中的控制信息和被控主体信息；提取页面图片中的候选文本信息；确定候选文本信息中与被控主体信息匹配的目标文本信息；获取目标文本信息在页面图片中的目标位置信息；将目标位置信息和控制信息发送至第一终端，以使第一终端根据目标位置信息在页面图片对应的页面确定目标页面区域，通过目标页面区域触发控制信息对应的控制操作，通过控制操作实现对被控主体信息对应的被控主体的控制，无需应用程序与语音服务间存在关联关系也能实现通过语音信息对应用程序进行控制，能够通过语音服务全面的适配并控制应用程序，提高对应用程序控制的有效度。

Description

语音控制方法、装置、计算机可读存储介质和计算机设备

技术领域

本申请涉及计算机技术领域，特别是涉及一种语音控制方法、装置、计算机可读存储介质和计算机设备。

背景技术

随着计算机技术领域的高速发展，语音服务的出现大大的便利了人们的生活，同时语音服务也已渗透到人们生活中的各个领域，比如通过语音服务对应用程序进行操控。

传统地通过语音服务对应用程序进行操控时，需要语音服务与应用程序间存在关联关系，当语音服务与应用程序间不存在关联关系时，无法通过语音服务全面的适配并控制应用程序。

发明内容

基于此，有必要针对上述技术问题，提供一种语音控制方法、装置、计算机设备和存储介质，无需应用程序与语音服务间存在关联关系也能实现通过语音信息对应用程序进行控制，能够通过语音服务全面的适配并控制应用程序，提高对应用程序控制的有效度。

一种语音控制方法，所述方法包括：

接收第一终端发送的语音信息和对应的页面图片；

识别所述语音信息中的控制信息和被控主体信息；

提取所述页面图片中的候选文本信息；

确定所述候选文本信息中与所述被控主体信息匹配的目标文本信息；

获取所述目标文本信息在所述页面图片中的目标位置信息；

将所述目标位置信息和所述控制信息发送至所述第一终端，以使所述第一终端根据所述目标位置信息在所述页面图片对应的页面确定目标页面区域，通过所述目标页面区域触发所述控制信息对应的控制操作，通过所述控制操作实现对所述被控主体信息对应的被控主体的控制。

一种语音控制方法，所述方法包括：

获取语音信息和页面图片；

将所述语音信息和所述页面图片发送至服务器，以使所述服务器识别所述语音信息中的控制信息和被控主体信息，确定所述页面图片中与所述被控主体信息匹配的目标文本信息的目标位置信息；

接收所述服务器返回的所述控制信息和所述目标位置信息；

根据所述目标位置信息在所述页面图片对应的页面确定目标页面区域，通过所述目标页面区域触发所述控制信息对应的控制操作，通过所述控制操作实现对所述被控主体信息对应的被控主体的控制。

在其中一个实施例中，所述方法还包括：

扫描得到同一局域网内的所述第二终端的终端标识；

根据所述终端标识与所述第二终端建立关联关系。

在其中一个实施例中，所述方法还包括：

扫描所述第二终端展示的图形码；

解析所述图形码得到所述第二终端的终端标识；

根据所述终端标识与所述第二终端建立关联关系。

在其中一个实施例中，所述方法还包括：

所述目标位置信息为通过在页面图片中识别与预设类型控制信息匹配的目标形状子图确定的目标形状位置信息，所述控制操作为播放状态更改操作；

通过所述目标页面区域触发所述播放状态更改操作，根据所述播放状态更改操作实现对所述页面正在播放的文件的播放状态的更改。

一种语音控制装置，所述装置包括：

图片接收模块，用于接收第一终端发送的语音信息和对应的页面图片；

第一信息接收模块，用于接收识别所述语音信息中的控制信息和被控主体信息；

候选信息接收模块，用于接收提取所述页面图片中的候选文本信息；

目标信息接收模块，用于接收确定所述候选文本信息中与所述被控主体信息匹配的目标文本信息；

位置信息接收模块，用于接收获取所述目标文本信息在所述页面图片中的目标位置信息；

第一主体控制模块，用于接收将所述目标位置信息和所述控制信息发送至所述第一终端，以使所述第一终端根据所述目标位置信息在所述页面图片对应的页面确定目标页面区域，通过所述目标页面区域触发所述控制信息对应的控制操作，通过所述控制操作实现对所述被控主体信息对应的被控主体的控制。

一种语音控制装置，所述装置包括：

页面图片获取模块，用于获取语音信息和页面图片；

信息确定模块，用于将所述语音信息和所述页面图片发送至服务器，以使所述服务器识别所述语音信息中的控制信息和被控主体信息，确定所述页面图片中与所述被控主体信息匹配的目标文本信息的目标位置信息；

第二信息接收模块，用于接收所述服务器返回的所述控制信息和所述目标位置信息；

第二主体控制模块，用于根据所述目标位置信息在所述页面图片对应的页面确定目标页面区域，通过所述目标页面区域触发所述控制信息对应的控制操作，通过所述控制操作实现对所述被控主体信息对应的被控主体的控制。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述方法的步骤。

上述语音控制方法、装置、计算机可读存储介质和计算机设备，服务器接收第一终端发送的语音信息和对应的页面图片，传统地通过语音信息对应用程序进行控制时，需要应用程序与语音信息间存在关联关系，例如，应用程序需提供页面中相应的文本信息，而当应用程序与语音信息不存在关联关系的时，无法通过语音信息实现对应用程序的控制。然而，在上述语音控制方法中，服务器通过接收第一终端发送的语音信息和对应的页面图片，提取页面图片中的候选文本信息，确定候选文本信息中与被控主体信息匹配的目标文本信息，并获取目标文本信息在页面图片中的目标位置信息，通过在服务器中识别页面图片，并提取候选文本信息，确定目标文本信息和目标位置信息，将目标位置信息和控制信息发送至第一终端，以使第一终端根据目标位置信息在页面图片对应的页面确定目标页面区域，通过目标页面区域触发控制信息对应的控制操作，通过控制操作实现对被控主体信息对应的被控主体的控制。通过在服务器中识别语音信息并提取页面图片中的候选文本信息，进一步确定目标文本信息和目标文本位置，无需应用程序与语音服务间存在关联关系也能实现通过语音信息对应用程序进行控制，能够通过语音服务全面的适配并控制应用程序，提高对应用程序控制的有效度。

附图说明

图1为一个实施例中语音控制方法的应用环境图；

图2为一个实施例中语音控制方法的流程示意图；

图3为一个实施例中语音控制方法中提取候选文本信息的流程示意图；

图4为一个实施例中语音控制方法中获取候选文本框流程示意图；

图5为一个实施例中语音控制方法中识别语音信息的流程示意图；

图6为一个实施例中语音控制方法中执行形状子图的控制操作的流程示意图；

图7为又一个实施例中语音控制方法的流程示意图；

图8为一个实施例中语音控制方法中播放待播放文件的流程示意图；

图9为一个实施例中语音控制方法的界面示意图；

图10为一个实施例中语音控制方法的界面示意图；

图11为一个实施例中语音控制方法的界面示意图；

图12为一个实施例中语音控制方法的界面示意图；

图13为一个实施例中语音控制装置的结构框图；

图14为又一个实施例中语音控制装置的结构框图；

图15为一个实施例中计算机设备的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本发明实施例中所提供的语音控制方法可以应用于如图1所示的应用环境中，该语音控制方法应用于语音控制系统。该语音控制系统包括第一终端110、第二终端120、服务器130、应用服务器140。第一终端110和第二终端120通过网络连接、第一终端110和服务器130通过网络连接、第一终端110和应用服务器140通过网络连接。第一终端110和第二终端120具体可以是台式终端或移动终端，移动终端具体可以是手机、平板电脑、笔记本电脑等中的至少一种。服务器130和应用服务器140可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

基于上述语音控制系统，服务器130接收第一终端110发送的语音信息和对应的页面图片，服务器130识别语音信息中的控制信息和被控主体信息，服务器130提取页面图片中的候选文本信息，服务器130确定候选文本信息中与被控主体信息匹配的目标文本信息，服务器130获取目标文本信息在页面图片中的目标位置信息，服务器130将目标位置信息和控制信息发送至第一终端110，以使第一终端110根据目标位置信息在页面图片对应的页面确定目标页面区域，第一终端110通过目标页面区域触发控制信息对应的控制操作，第一终端110通过控制操作实现对被控主体信息对应的被控主体的控制。

在一个实施例中，如图2和图9所示，提供了一种语音控制方法。本实施例主要以该方法应用于上述图1中的服务器130来举例说明。参照图2，该语音控制方法具体包括如下步骤：

S202，接收第一终端发送的语音信息和对应的页面图片。

其中，语音信息是第一终端所获取的用户语音信息，第一终端获取到语音信息并将语音信息发送至服务器。页面图片是包括文本信息的图片，可以理解的是，页面图片中包括候选文本信息，候选文本信息是指页面图片中存在的文本信息。

具体地，页面图片可以是应用程序中某一页面的图片，也可以是在进入应用程序前所处的界面的图片。第一终端获取的页面图片可为第一终端预先存储的页面图片，也可为在获取到语音信息时触发截图操作，所截取的页面图片。

S204，识别语音信息中的控制信息和被控主体信息。

其中，语音信息包括但不限于控制信息和/或被控主体信息，语音信息中的控制信息是指用于对被控主体信息对应的被控主体进行相应控制的信息，被控主体信息是服务器在语音信息中所识别出的主体信息。具体地，控制信息可为表示动作或状态的信息，被控主体信息可为表示人、事物、地点或抽象概念的主体信息，例如，当第一终端对应的用户输入的语音信息为“播放西游记”，则该语音信息中的控制信息为“播放”，被控主体信息为“西游记”。

S206，提取页面图片中的候选文本信息。

S208，确定候选文本信息中与被控主体信息匹配的目标文本信息。

其中，候选文本信息是指页面图片中存在的文本信息，目标文本信息是指存在于候选文本信息中且与被控主体信息相匹配的文本信息。

在一个实施例中，当页面图片为视频播放类页面图片时，候选文本信息可为视频名称、视频类型等。当页面图片为音乐播放类页面图片时，候选文本信息可为音乐名称、发行信息、歌手信息等。例如，当页面图片为视频播放类页面图片时，服务器提取页面图片中的候选文本信息，候选文本信息为“西游记、红楼梦和水浒传”，服务器识别语音信息中的被控主体信息，若被控主体信息为“西游记”，服务器将确定候选文本信息中与被控主体信息匹配的目标文本信息，此例中目标文本信息为“西游记”。

S210，获取目标文本信息在页面图片中的目标位置信息。

其中，目标位置信息是指目标文本信息在页面图片中的位置信息。在一个实施例中，目标位置信息可由服务器通过构建中心坐标系进行生成，通过建立中心坐标系，选择适当的参照点为原点，确定X轴、Y轴的正方向，并确定适当的单位长度，进一步通过坐标表征目标文本信息在页面图片中的目标位置信息。

S212，将目标位置信息和控制信息发送至第一终端，以使第一终端根据目标位置信息在页面图片对应的页面确定目标页面区域，通过目标页面区域触发控制信息对应的控制操作，通过控制操作实现对被控主体信息对应的被控主体的控制。

其中，目标页面区域是指目标位置信息在页面图片对应的页面中所处的位置区域，控制操作是指对被控主体信息进行的相关操作，被控主体是指与被控主体信息对应的实际主体信息。

具体地，服务器将目标位置信息和控制信息发送至第一终端，第一终端根据目标位置信息在页面图片对应的页面确定目标页面区域，可以理解的是，目标区域中包括目标文本信息，第一终端通过目标页面区域触发控制信息对应的控制操作。控制操作包括但不限于播放操作、暂停操作、快进或后退操作和启动功能控件等操作，第一终端通过控制操作实现对被控主体信息对应的被控主体的控制。

举例说明，当目标位置信息为(2，1)时，控制信息为“播放”，被控主体信息为“西游记”时，服务器将目标位置信息和控制信息发送至第一终端，第一终端根据目标位置信息为(2，1)确定该目标位置信息在页面中的目标页面区域，第一终端通过在该目标页面区域出发“播放”控件，通过播放控件实现对被控主体“西游记”的播放。

本实施例中，服务器接收第一终端发送的语音信息和对应的页面图片，传统地通过语音信息对应用程序进行控制时，需要应用程序与语音信息间存在关联关系，例如，应用程序需提供页面中相应的文本信息，而当应用程序与语音信息不存在关联关系时，无法通过语音信息实现对应用程序的控制。然而，在上述语音控制方法中，服务器通过接收第一终端发送的语音信息和对应的页面图片，提取页面图片中的候选文本信息，确定候选文本信息中与被控主体信息匹配的目标文本信息，并获取目标文本信息在页面图片中的目标位置信息，通过在服务器中识别页面图片，并提取候选文本信息，确定目标文本信息和目标位置信息，将目标位置信息和控制信息发送至第一终端，以使第一终端根据目标位置信息在页面图片对应的页面确定目标页面区域，通过目标页面区域触发控制信息对应的控制操作，通过控制操作实现对被控主体信息对应的被控主体的控制。通过在服务器中识别语音信息并提取页面图片中的候选文本信息，进一步确定目标文本信息和目标文本位置，无需应用程序与语音服务间存在关联关系也能通过语音信息实现对应用程序进行控制，能够通过语音服务全面的适配并控制应用程序，提高对应用程序控制的有效度。

在一个实施例中，如图3和图10所示，步骤S206包括：

S206A，根据文本定位算法对页面图片进行文本定位检测，以确定页面图片中的候选文本框。

其中，文本定位算法是指对页面图片中的文本进行检测以及定位的算法，候选文本框是指在页面图片中包含文字的区域，候选文本框中包括被控主体信息。

在一个实施例中，文本定位算法可使用最大极值稳定区域算法(MSER)，最大极值稳定区域算法是指对一幅灰度图像(灰度值为0～255)取阈值进行二值化处理，阈值从0到255依次递增，在得到的所有二值图像中，图像中的某些连通区域变化很小，甚至没有变化，则该区域就被称为最大稳定极值区域。通过使用最大极值稳定区域算法对页面图片进行文本定位检测，进一步确定页面图片中的候选文本框。

在一个实施例中，可使用基于连通区域的文本定位算法，鉴于页面图片中的处于同一语义文本字符具有相似的颜色、大小、宽高比等几何特征，基于连通区域的文本定位算法基于该假设，将颜色信息相近的像素点聚类技术(彩色图像)或者二值化方法(灰度图像)聚合候选文本框，最后结合处于同一语义文本字符在图像中的排列特征，定位出文本，以此获得候选文本框。

在一个实施例中，可使用基于纹理的文本定位算法，基于纹理的文本定位算法首先对页面图片进行变换从而提取页面图片中的纹理信息，进一步使用小窗口遍历变换后的页面图片，并结合分类器判定该窗口区域是否为文本，从而得到候选文本的二值图像，最后对二值图像进行形态学处理，滤除噪声点一级链接断裂的文本区域，得到候选文本框。

在一个实施例中，可使用基于边缘的文本定位算法，基于边缘的文本定位算法首先提取页面图片中的边缘，再利用页面图片中文本中各个字符处于同一水平线上的排列特征，应用形态学操作聚合为候选文本框，最后应用页面图片中文本的宽高比等集合特征定位文本。

S206B，提取候选文本框中的候选文本信息。

具体地，服务器将提取候选文本框中的候选文本信息，候选文本信息是指页面图片中存在的文本信息。在一个实施例中，服务器提取候选文本框中的候选文本信息可使用已训练的文本识别模型，该文本识别模型用于提取候选文本框中文本信息，服务器进行文本识别模型的训练时预先将大量候选文本框划分为训练文本框和验证文本框，将训练文本框输入文本识别模型中进行训练，得到相应的训练结果，直到该训练结果满足预先设定的条件，将验证文本框输入该文本识别模型中进行验证，得到验证结果，进一步根据验证结果对文本识别模型进行优化，得到已训练的文本识别模型，将候选文本框输入已训练的文本识别模型，得到候选文本信息。

本实施例中，服务器根据文本定位算法对页面图片进行文本定位检测，以确定页面图片中的候选文本框，并提取候选文本框中的候选文本信息，能够对页面图片中的文本信息进行有效地识别，并根据识别出的候选文本信息与被控主体信息的匹配进一步确定目标文本信息，实现了对候选文本信息的精准提取。

在一个实施例中，如图4所示，步骤S206A包括：

S206A2，根据页面图片的像素值对将页面图片进行分层处理，得到至少两个目标子页面。

其中，像素值是原稿图像被数字化时由计算机赋予的值，它代表了原稿某一小方块的平均亮度信息，或者说是该小方块的平均反射(透射)密度信息。在将数字图像转化为网目调图像时，网点面积率(网点百分比)与数字图像的像素值(灰度值)有直接的关系，即网点以其大小表示原稿某一小方块的平均亮度信息。分层处理是指根据页面图片的像素值将该页面图片分成若干层，得到目标子页面。可以理解的是，目标子页面是指页面图片进行分层处理后得到的目标子页面。

S206A4，对各个目标子页面进行二值化处理，得到各个目标子页面的二值图。

其中，二值化处理是指将图像上的像素点的灰度值设置为0或255，也就是将整个图像呈现出明显的只有黑和白的视觉效果。服务器对各个目标子页面进行二值化处理，得到各个目标子页面的二值图，可以理解的是，目标子页面的二值图为至少两个。

S206A6，提取各个目标子页面的二值图的连通区域。

其中，连通区域是由具有相同像素值的相邻像素组成像素集合。在一个实施例中，服务器可采用深度优先搜索思想提取连通区域，可以理解的是，深度优先搜索思想是指首先访问图中某一个起始顶点v，然后由v出发，访问与v相邻且未被访问的任一顶点w1，再访问与w1邻接且未被访问的任一顶点w2，….重复上述过程。当不能再继续向下访问时，依次退回到最近被访问的顶点，若它还有邻接顶点未被访问过，则从该点开始继续上述搜索过程，直到图中所有顶点均被访问过为止。

S206A8，将各个二值图的连通区域进行合并，得到页面图片中的候选文本框。

其中，服务器将各个二值图的连通区域进行合并，得到页面图片中的候选文本框。在一个实施例中，服务器将各个二值图的连通区域进行合并时可对各个二值图执行两次扫描。第一次扫描通过逐行逐列扫描像素。判断像素之间的相邻关系，对属于同一连通区域的像素赋予相同的连通标号，实现连通标识。这种逐行逐列的次序扫描的结果，通常会产生同一像素点被重复标记的现象，同一连通区域的不同子区域被赋予不同的标记号。因此，需要执行第二次扫描来消除重复的标记，合并属于同一连通区域但是具有不同标记号的子区域。通过服务器将各个二值图的联通区域进行合并，得到页面图片中的候选文本框。

本实施例中，服务器根据页面图片的像素值对页面图片进行分层处理，得到至少两个目标子页面，并对各个目标子页面进行二值化处理，得到各个目标子页面的二值图，服务器提取各个目标子页面的二值图的连通区域，再将各个二值图的连通区域进行合并，得到页面图片中的候选文本框，能够对页面图片中的文本信息进行定位以及检测，以此使得从页面图片中提取出的候选文本信息更加精确，也进一步提高服务器得到的目标文本信息对应的目标位置信息的准确性。

在一个实施例中，如图5所示，步骤S204包括：

S204A，将语音信息转换为对应的文本信息。

其中，文本信息是指服务器将语音信息转换为文本类的信息。服务器将语音信息转换为对应的文本信息可采用模板匹配法、随机模型法和概率语法分析法。模板匹配法是指在训练阶段，用户将词汇表中的每一个词依次通过语音输入，并且将其特征向量作为模板存入模板库。在识别阶段，将输入语音的特征向量序列，依次与模板库中的每个模板进行相似度比较，将相似度最高者作为识别结果输出。随机模型法是指利用隐马尔可夫模型，可以理解的是，隐马尔可夫模型是统计模型，它用来描述一个含有隐含未知参数的马尔可夫过程。由于语音信号在足够短的时间段上的信号特征近似于稳定，而总的过程可看成是依次相对稳定的某一特性过渡到另一特性，隐马尔可夫模型通过概率统计的方法来描述此过程，通过概率统计得到与语音信息对应的文本信息。概率语法分析法用于大长度范围的连续语音识别，通过概率语法分析法进一步得到语音信息对应的文本信息。

S204B，将文本信息进行分词处理，得到子文本信息。

其中，服务器将文本信息进行分词处理，得到子文本信息。分词处理指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。

在一个实施例中，可基于字符串匹配的分词方法对文本信息进行分词处理，得到子文本信息。基于字符串匹配的分词方法又称机械分词方法，它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配，若在词典中找到某个字符串，则匹配成功(识别出一个词)。按照扫描方向的不同，字符串匹配分词方法可以分为正向匹配和逆向匹配；按照不同长度优先匹配的情况，可以分为最大(最长)匹配和最小(最短)匹配；按照是否与词性标注过程相结合，可以分为单纯分词方法和分词与词性标注相结合的一体化方法。常用的字符串匹配方法包括但不限于正向最大匹配法(从左到右的方向)；逆向最大匹配法(从右到左的方向)；最小切分(每一句中切出的词数最小)；双向最大匹配(进行从左到右、从右到左两次扫描)。

在一个实施例中，可基于理解的分词方法对文本信息进行分词处理，得到子文本信息。基于理解的分词方法是通过让计算机模拟人对句子的理解，达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析，利用句法信息和语义信息来处理歧义现象。它通常包括三个部分：分词子系统、句法语义子系统、总控部分。在总控部分的协调下，分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断，进而获取对文本信息进行分词处理后的分词结果，即子文本信息。

在一个实施例中，可基于统计的分词方法对文本信息进行分词处理，得到子文本信息。基于统计的分词方法是在给定大量已经分词的文本的前提下，利用统计机器学习模型学习词语切分的规律(称为训练)，从而实现对未知文本的切分。例如最大概率分词方法和最大熵分词方法等。基于统计的分词方法可使用以下模型对文本信息进行分词处理：N元文法模型(N-gram)，隐马尔可夫模型(Hidden Markov Model，HMM)，最大熵模型(ME)，条件随机场模型(Conditional Random Fields，CRF)等。基于统计的分词系统可进一步使用分词词典来进行字符串匹配分词，同时使用统计方法识别一些新词，即将字符串频率统计和字符串匹配结合起来，既发挥匹配分词切分速度快、效率高的特点，又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。

S204C，对各个子文本信息进行标注，得到标注序列。

其中，标注序列是指服务器对各个子文本信息进行标注后得到的序列。具体地，对各个子文本信息进行标注是指对各个子文本信息进行词性标注，词性标注是指为分词结果中的每个单词标注一个正确的词性的程序，也即确定每个词是名词、动词、形容词或其他词性的过程。举例说明，当子文本信息为“播放/西游记”时，服务器对该子文本信息进行标注，可得到标注序列“播放(PLAY_ACT)/西游记(VIDEO_NAME)”。

S204D，从标注序列中确定控制标注和被控主体标注。

其中，控制标注是指与控制信息对应的标注，被控主体标注是指与被控主体信息对应的标注。服务器从标注序列中确定控制标注和被控主体标注以用于进一步确定控制信息和被控主体信息。

S204E，根据控制标注从各个子文本信息中查找得到对应的控制信息。

S204F，根据被控主体标注从各个子文本信息中查找得到对应的被控主体信息。

具体地，服务器根据控制标注从各个子文本信息中查找得到对应的控制信息，服务器根据被控主体标注从各个子文本信息中查找得到对应的被控主体信息。当控制标注为“PLAY_ACT”时，服务器将根据该控制标注从各个子文本信息中查找得到对应的控制信息“播放”，当被控主体标注为“VIDEO_NAME”时，服务器将根据该控制标注从各个子自文本信息中查找得到对应的控制信息“西游记”，以此得到控制信息和被控主体信息。

本实施例中，服务器将语音信息转换为对应的文本信息，再将文本信息进行分词处理，得到子文本信息，对各个子文本信息进行标注，得到标注序列，从标注序列中确定控制标注和被控主体标注，进一步根据控制标注从各个子文本信息中查找得到对应的控制信息，根据被控主体标注从各个子文本信息中查找得到对应的被控主体信息，能够准确地识别语音信息中的控制信息和被控主体信息，提高候选文本信息与被控主体信息进行匹配时的准确率，也进一步提高第一终端通过语音信息对应用程序进行控制时的准确性。

在一个实施例中，候选文本信息包括多个候选子文本，步骤S208包括：将各个候选子文本分别与被控主体信息进行比对，得到各个候选子文本与被控主体信息间的相似度，将与被控主体信息间的相似度符合相似条件的候选子文本作为目标文本信息。

具体地，服务器将各个候选子文本分别与被控主体信息进行比对可采用向量空间余弦相似度、皮尔森相关系数、Jaccard相似系数进行相似度比对。向量空间余弦相似度是指通过计算两个向量的夹角余弦值来评估他们的相似度。余弦相似度将向量根据坐标值，绘制到向量空间中，如最常见的二维空间。皮尔森相关系数是一种线性相关系数。皮尔森相关系数是用来反映两个变量线性相关程度的统计量。相关系数用r表示，其中n为样本量，分别为两个变量的观测值和均值。r描述的是两个变量间线性相关强弱的程度，r的绝对值越大表明相关性越强。

本实施例中，服务器将各个候选子文本分别与被控主体信息进行比对，得到各个候选子文本与被控主体信息间的相似度，再将与被控主体信息间的相似度符合相似条件的候选子文本作为目标文本信息，通过将候选子文本信息与被控主体信息进行相似度的比对，能够准确获取对应的目标文本信息，进而确定与目标文本信息对应的目标位置信息，能够通过语音服务全面的适配并控制应用程序，提高对应用程序控制的有效度。

在一个实施例中，将各个候选子文本分别与被控主体信息进行比对，得到各个候选文本信息与被控主体信息间的相似度包括：将各个候选子文本映射为第一词向量序列，将被控主体信息映射为第二词向量序列，确定各第一向量词序列与第二向量词序列的相似词向量和差异词向量，基于相似词向量和差异词向量确定各个候选文本信息与被控主体信息间的相似度。

其中，第一向量词序列表示各个候选子文本中词向量按一定顺序排列组成的序列，词向量可以通过词向量工具从各个候选子文本中提取。第二词向量序列表示被控主体信息中词向量按一定顺序排列组成的序列。可以理解的是，词向量可以是用于表示词语特征的向量，词向量的每一维的值代表一个具有一定的语义和语法上解释的特征。其中，特征可以是用于对词语的基本要素进行表征的各种信息。相似词向量是指在第一向量序列和第二向量序列中相同或相似的分词信息，差异词向量是指在第一向量序列和第二向量序列中具有差异的分词信息。

具体地，服务器将各个候选子文本映射为第一词向量序列，将被控主体信息映射为第二词向量序列，确定第一词向量序列与第二词次向量序列中的相似词向量和差异词向量，服务器进一步基于相似词向量和差异词向量确定各个候选文本信息与被控主体信息间的相似度。

在一个实施例中，服务器可以预先存储大量的词和词向量的对应关系表，各个词向量可以具有相同的维数。对于所分割成的每一个词的词向量，从上述对应关系表中查找该词所对应的词向量。此处，预先存储的大量的词的词向量可以是利用机器学习方法预先训练得到的，或者是基于大量数据统计而预先设置的。

在一个实施例中，可以通过文本编码的方法获得相似向量与差异向量，例如simhash方法，通过将各文本对应进行二进制编码，确定文本之间的海明距离(两个文本的simhash进行异或运算)，基于获得的相似向量与差异向量确定文本间的相似度。

举例说明，例如，当候选子文本为“请、开始、播放、西游记”，通过词向量工具中的特征词库，查询得到请的词向量为(0，0，0，0，1)，开始的词向量为(0，1，0，0，0)，播放的词向量为(0，0，1，0，0)，西游记的词向量为(0，0，0，1，0)。获取词向量后，得到第一词向量序列为{(0，0，0，0，1)、(0，1，0，0，0)、(0，0，1，0，0)、(0，0，0，1，0)}。可以采用相同的方法，获得第二词向量序列，若第二词向量序列中包括的查询得到的词向量为红楼梦的词向量为(1，0，0，0，1)，水浒传的词向量为(0，1，0，1，0)，三国演义的词向量为(1，0，1，0，0)，西游记的词向量为(0，0，0，1，0)，得到第二词向量序列为{(1，0，0，0，1)、(0，1，0，1，0)、(1，0，1，0，0)、(0，0，0，1，0)}，确定第一词向量序列和第二词向量序列的相似词向量“西游记(0，0，0，1，0)”，差异词向量“红楼梦(1，0，0，0，1)，水浒传(0，1，0，1，0)，三国演义(1，0，1，0，0)”，服务器基于相似词向量和差异词向量确定各个候选文本信息与被控主体信息间的相似度。

本实施例中，服务器将各个候选子文本映射为第一词向量序列，将被控主体信息映射为第二词向量序列，并确定各第一词向量序列与第二词向量序列的相似词向量和差异词向量，基于相似词向量和差异词向量确定各个候选文本信息与被控主体信息间的相似度，能够将语音信息与页面图片中的候选文本信息进行匹配，再进一步根据匹配结果实现第一终端对页面中的被控主体的控制。

在一个实施例中，如图6所示，该方法还包括以下步骤：

S302，当控制信息为预设类型控制信息时，识别页面图片中的形状子图。

其中，预设类型控制信息是指预先设置的具有固定类型的控制信息，形状子图是指存在于页面图片中的非文本信息类图形。当控制信息为预设类型控制信息时，服务器将识别页面图片中的形状子图。

S304，确定形状子图中与预设类型控制信息匹配的目标形状子图。

其中，目标形状子图是指与预设类型控制信息匹配的形状子图，可以理解的是，预设类型控制信息对应的形状子图可预先关联至映射表中，通过预设类型控制信息和形状子图的控制关系确定目标形状子图。

S306，获取目标形状子图在页面图片中的目标形状位置信息。

其中，目标形状位置信息是指目标形状子图在页面图片中的位置信息，服务器获取目标形状子图在页面图片中的目标形状位置信息以用于第一终端根据该目标形状位置信息确定目标页面区域，目标页面区域是指目标位置信息在页面图片对应的页面中所处的页面区域。

S308，将目标形状位置信息和控制信息发送至第一终端，以使第一终端根据目标形状位置信息在页面图片对应的页面确定目标页面区域，通过目标页面区域触发控制信息对应的控制操作，通过控制操作实现对被控主体信息对应的被控主体的控制。

具体地，服务器将目标形状位置信息和控制信息发送至第一终端，第一终端根据目标形状位置信息在页面图片对应的页面确定目标页面区域，通过目标页面区域触发控制信息对应的控制操作，通过控制操作实现对被控主体信息对应的被控主体的控制。举例说明，预设类型控制信息可以是暂停、快进和后退等控制信息，当服务器识别出语音信息中的控制信息为“暂停”时，将确定页面图片中的形状子图中与预设类型控制信息匹配的目标形状子图，并获取与“暂停”这一目标形状子图在页面图片中的目标形状位置信息，将目标形状位置信息和控制信息发送至第一终端，第一终端将根据目标形状位置信息在页面图片对应的页面确定目标页面区域，可以理解的是，该目标页面区域中包括该目标形状子图，第一终端通过目标页面区域触发控制信息对应的控制操作，即触发“暂停”操作，通过暂停操作实现对被控主体信息对应的被控主体的控制。

本实施例中，当控制信息为预设类型控制信息时，识别页面图片中的形状子图，并确定形状子图中与预设类型控制信息匹配的目标形状子图，服务器获取目标形状子图在页面图片中的目标形状位置信息，将目标形状位置信息和控制信息发送至第一终端，以使第一终端根据目标形状位置信息在页面图片对应的页面确定目标页面区域，通过目标页面区域触发控制信息对应的控制操作，并通过控制操作实现对被控主体信息对应的被控主体的控制，能够在当页面图片中无文本信息时，实现对形状子图的有效识别，例如在视频播放或音乐播放过程中也能够实现对应用程序的控制，提高了对应用程序控制的覆盖率。

在一个实施例中，如图7所示，提供了一种语音控制方法。本实施例主要以该方法应用于上述图1中的第一终端110来举例说明。参照图7，该语音控制方法具体包括如下步骤：

S402，获取语音信息和页面图片。

其中，语音信息是第一终端对应的用户输入的语音信息，页面图片是被控主体信息所在的页面。当第一终端检测到语音信息时，获取页面图片。可以理解的是，该页面图片可以是预先存储至第一终端，也可以是当第一终端检测到语音信息时，实时对当前页面进行截取得到的图片。

S404，将语音信息和页面图片发送至服务器，以使服务器识别语音信息中的控制信息和被控主体信息，确定页面图片中与被控主体信息匹配的目标文本信息的目标位置信息。

其中，语音信息中包括但不限于控制信息和被控主体信息。语音信息中的控制信息是指用于对被控主体信息对应的主体所需实施的控制信息，被控主体信息是服务器在语音信息中所识别出的主体信息。举例说明，当第一终端对应的用户输入的语音信息为“播放西游记”，则该语音信息中的控制信息为“播放”，被控主体信息为“西游记”。

具体地，候选文本信息是指页面图片中的文本信息，目标文本信息是指存在于候选文本信息中且与被控主体信息相匹配的文本信息。例如，服务器提取页面图片中的候选文本信息，候选文本信息为“西游记、红楼梦和水浒传”，服务器识别语音信息中的被控主体信息，若被控主体信息为“西游记”时，服务器将确定候选文本信息中与被控主体信息匹配的目标文本信息，该目标文本信息为“西游记”。目标位置信息是指目标文本信息在页面图片中的坐标位置信息。目标位置信息的生成包括但不限于通过构建中心坐标系等方法。

S406，接收服务器返回的控制信息和目标位置信息。

S408，根据目标位置信息在页面图片对应的页面确定目标页面区域，通过目标页面区域触发控制信息对应的控制操作，通过控制操作实现对被控主体信息对应的被控主体的控制.

其中，目标页面区域是指目标位置信息在页面图片对应的页面所处的页面区域，控制操作是指对被控主体信息进行的相关操作，被控主体是指与被控主体信息对应的实际主体信息。举例说明，当目标位置信息为(2，1)时，控制信息为“播放”，被控主体信息为“西游记”时，服务器将目标位置信息和控制信息发送至第一终端，第一终端根据目标位置信息为(2，1)确定该目标位置信息在页面中的目标页面区域，第一终端通过在该目标页面区域出发“播放”控件，通过播放控件实现对被控主体“西游记”的播放。

本实施例中，当检测到语音信息时，第一终端获取页面图片，并将语音信息和页面图片发送至服务器，以使服务器识别语音信息中的控制信息和被控主体信息，并确定页面图片中与被控主体信息匹配的目标文本信息的目标位置信息，接收服务器返回的控制信息和目标位置信息，进一步根据目标位置信息在页面图片对应的页面确定目标页面区域，通过目标页面区域触发控制信息对应的控制操作，通过控制操作实现对被控主体信息对应的被控主体的控制，第一终端能够根据用户的语音信息实现对应用程序的控制。

在一个实施例中，步骤S402包括：通过语音控件获取录入的语音信息，根据语音信息触发截图操作，对获取到语音信息时显示的页面进行截图，得到页面图片。

其中，语音控件是第一终端用于获取用户输入的语音信息的控件，第一终端根据语音信息触发截图操作，对获取到语音信息时显示的页面进行截图，得到页面图片。在一个实施例中，第一终端通过语音控件获取录入的语音信息时，将调用当前系统的截图接口，对获取到语音信息时显示的页面进行截图，得到页面图片。

本实施例中，第一终端通过语音控件获取录入的语音信息，并根据语音信息触发截图操作，对获取到语音信息时显示的页面进行截图，得到页面图片。通过实时的获取到语音信息时显示的页面进行截图，能够获取实时的候选文本信息，进一步提高获取目标文本信息时的准确度。

在一个实施例中，步骤S402包括：接收关联的第二终端发送的语音请求，语音请求中携带语音信息，根据语音请求触发截图操作，对接收到语音信息时显示的页面进行截图，得到页面图片。

其中，第二终端是与第一终端进行关联，用于接收用户输入的语音信息。第一终端接收关联的第二终端发送的语音请求，语音请求中携带语音信息，第一终端根据该语音请求触发截图操作，具体地，第一终端将调用当前系统的截图接口，对接收到语音信息时显示的页面进行截图，得到页面图片。

举例说明，如图11所示，当第二终端为电视，第一终端为移动第一终端时，移动第一终端与第二终端相互关联，当移动第一终端接收到用户的语音信息时，移动第一终端将该语音信息发送至电视，电视接收关联的第二终端发送的语音信息，根据该语音信息调用当前系统的截图接口，并对接收到语音信息时显示的页面进行截图，得到页面图片。

本实施例中，第一终端通过接收关联的第二终端发送的语音请求，语音请求中携带语音信息，并根据语音请求触发截图操作，对接收到语音信息时显示的页面进行截图，得到页面图片，能够使得语音信息的输入更加多元化，可由不同的第一终端进行获取用户录入的语音信息，并通过语音信息实现对应用程序的控制。

在一个实施例中，接收关联的第二终端发送的语音请求之前包括：扫描得到同一局域网内的第二终端的终端标识，根据终端标识与第二终端建立关联关系。

其中，当第一终端与第二终端位于同一局域网中时，第一终端扫描得到同一局域网内的第二终端的终端标识，可以理解的是，终端标识是用于标识第二终端的信息，第一终端根据该终端标识与第二终端建立关联关系。

具体地，第一终端与第二终端建立关联关系，当第二终端接收到语音信息时，将该语音信息发送至第一终端，由于第二终端与第一终端处于同一局域网内，因此可直接将语音信息同步发送至第一终端，可以理解的是，第二终端将语音信息发送至第一终端的过程无需数据流量的消耗，可直接将语音信息发送至第一终端。

本实施例中，第一终端扫描得到同一局域网内的第二终端的终端标识，根据终端标识与第二终端建立关联关系，能够使得第一终端与第二终端位于同一局域网内，并实现语音信息的同步免流传输。

在一个实施例中，接收关联的第二终端发送的语音请求之前包括：扫描第二终端展示的图形码，解析图形码得到第二终端的终端标识，根据终端标识与第二终端建立关联关系。

其中，图形码是由第二终端生成用于与第一终端进行关联的图像信息，第一终端解析图形码得到第二终端的终端标识，终端标识是用于标识第二终端的信息，第一终端根据终端标识与第二终端建立关联关系。

在一个实施例中，图形码可为二维码，第二终端生成并展示该二维码，第一终端扫码第二终端展示的二维码，解析二维码得到第二终端的终端标识，第一终端根据该终端标识与第二终端建立关联关系。当第二终端接收到用户语音信息时，将通过网络将该语音信息发送至第一终端。

本实施例中，第一终端扫描第二终端展示的图形码，解析图形码得到第二终端的终端标识，第一终端根据终端标识与第二终端建立关联关系。能够使得不处于同一局域网中的第一终端通过扫描图形码进行关联，以此实现语音信息的同步传输。

在一个实施例中，如图8所示，控制操作为播放操作，通过目标页面区域触发控制信息对应的控制操作包括：

S502，通过目标页面区域触发播放请求，发送播放请求至应用服务器，播放请求携带目标页面区域对应的待播放文件标识。

其中，播放请求是指第一终端在目标页面区域触发的用于播放数据文件的请求。待播放文件标识是指与被控主体对应的文件标识。第一终端通过目标页面区域触发播放请求，发送播放请求至应用服务器，该播放请求中携带目标页面区域对应的待播放文件标识。

举例说明，当目标页面区域对应的目标文本信息为“西游记”时，第一终端通过目标页面区域触发“西游记”的播放请求，该播放请求中携带与“西游记”对应的待播放文件标识，应用服务器接收“西游记”的播放请求，并根据该待播放文件标识返回对应的“西游记”播放文件。可以理解的是，上述举例可应用至视频播放软件中，但并不仅限于视频播放软件，例如还可应用至音乐播放软件、购物软件等等。

S504，接收应用服务器返回的与待播放文件标识对应的待播放文件。

S506，在页面播放待播放文件。

其中，第一终端接收应用服务器返回的与待播放文件标识对应的待播放文件，在页面中播放待播放文件。在一个实施例中，当待播放文件为视频类文件时，第一终端将在页面播放与待播放视频标识对应的视频，当待播放文件为音乐类文件时，第一终端将在页面播放与待播放音乐标识对应的音乐。

本实施例中，第一终端通过目标页面区域触发播放请求，发送播放请求至应用服务器，播放请求携带目标页面区域对应的待播放文件标识，第一终端接收应用服务器返回的与待播放文件标识对应的待播放文件，并在页面播放待播放文件。通过第一终端在目标页面区域中触发播放请求，实现了对目标页面区域中的被控主体的播放操作。

在一个实施例中，通过目标页面区域触发控制信息对应的控制操作包括：目标位置信息为通过在页面图片中识别与预设类型控制信息匹配的目标形状子图确定的目标形状位置信息，控制操作为对播放状态更改操作，通过目标页面区域触发播放状态更改操作，根据播放状态更改操作实现对页面正在播放的文件的播放状态的更改。

其中，预设类型控制信息是指预先设置的具有固定类型的控制信息，形状子图是指存在于页面图片中的非文本信息类图形。目标形状子图是指预设类型控制信息与形状子图进行匹配后确定的形状子图，目标形状位置信息是指目标形状子图在页面图片中的位置信息，播放状态更改操作是指对当前数据文件播放过程中的状态更改操作。

具体地，第一终端通过在目标页面区域触发播放状态更改操作，根据播放状态更改操作实现对页面正在播放的文件的播放状态的更改。举例说明，当文件正在播放时，播放状态更改操作为暂停操作，第一终端通过在目标页面区域触发暂停操作，根据暂停操作对当前正在播放的文件进行暂停。

本实施例中，目标位置信息为通过在页面图片中识别与预设类型控制信息匹配的目标形状子图确定的目标形状位置信息，控制操作为对播放状态更改操作，通过目标页面区域触发播放状态更改操作，第一终端根据播放状态更改操作实现对页面正在播放的文件的播放状态的更改，能够对正在播放的文件进行相应的控制操作，提高了第一终端对应用程序中的页面进行相应控制操作的覆盖率。

在一个实施例中，如图12所示，该方法还包括以下步骤：

S602，语音输入。其中，用户通过语音控件将语音进行输入，可以理解的是，语音控件是存在于第一终端内，且用于获取用户输入的语音信息的控件。

S604，终端截图。其中，该终端为第一终端，当第一终端获取到用户输入的语音信息后，将对页面进行截图。具体地，第一终端调用截图接口对页面进行截图，并将截图得到的页面图片发送至语音后台服务器。

S606，上传图片。其中，第一终端通过对页面进行截图得到页面图片，并将该页面图片上传至语音后台服务器，语音后台服务器将根据第一终端发送的页面图片进行文本检测、文本识别以及文本匹配。

S608，识别命中的文本。其中，语音后台服务器对页面图片进行文本定位检测以及文本识别得到候选文本信息，并将候选文本信息与被控主体信息进行文本匹配得到目标文本信息。

S610，返回命中坐标。其中，语音后台服务器将目标文本信息对应的目标位置信息和控制信息发送至第一终端。

S612，触发点击事件。其中，第一终端根据目标位置信息在页面图片对应的页面确定目标页面区域，通过目标页面区域触发控制信息对应的控制操作，通过控制操作实现对被控主体信息对应的被控主体的控制，即触发相应的点击事件。

本实施例中，用户通过语音控件输入语音信息，并调用截图接口获取页面图片，将页面图片上传至语音后台服务器，语音后台服务器将识别页面图片中的文本，其中进行文本检测、文本识别以及文本匹配，再返回目标文本信息对应的目标位置信息，第一终端根据目标位置信息在页面图片对应的页面确定目标页面区域，通过目标页面区域触发控制信息对应的控制操作，通过控制操作实现对被控主体信息对应的被控主体的控制，即触发相应的点击事件。通过在语音后台服务器中识别语音信息并提取页面图片中的候选文本信息，进一步确定目标文本信息和目标文本位置，无需应用程序与语音服务间存在关联关系也能实现通过语音信息对应用程序进行控制，能够通过语音服务全面的适配并控制应用程序，提高对应用程序控制的有效度。

如图13所示，为一实施例中的语音控制装置的示意图，该装置包括：

图片接收模块702，用于接收第一终端发送的语音信息和对应的页面图片；

第一信息接收模块704，用于接收识别语音信息中的控制信息和被控主体信息；

候选信息接收模块706，用于接收提取页面图片中的候选文本信息；

目标信息接收模块708，用于接收确定候选文本信息中与被控主体信息匹配的目标文本信息；

位置信息接收模块710，用于接收获取目标文本信息在页面图片中的目标位置信息；

第一主体控制模块712，用于接收将目标位置信息和控制信息发送至第一终端，以使第一终端根据目标位置信息在页面图片对应的页面确定目标页面区域，通过目标页面区域触发控制信息对应的控制操作，通过控制操作实现对被控主体信息对应的被控主体的控制。

在一个实施例中，候选文本信息提取模块用于根据文本定位算法对页面图片进行文本定位检测，以确定页面图片中的候选文本框，提取候选文本框中的候选文本信息。

在一个实施例中，候选文本框获取模块用于根据页面图片的像素值对将页面图片进行分层处理，得到至少两个目标子页面，对各个目标子页面进行二值化处理，得到各个目标子页面的二值图，提取各个目标子页面的二值图的连通区域，将各个二值图的连通区域进行合并，得到页面图片中的候选文本框。

在一个实施例中，控制信息和被控主体信息获取模块用于将语音信息转换为对应的文本信息，将文本信息进行分词处理，得到子文本信息，对各个子文本信息进行标注，得到标注序列，从标注序列中确定控制标注和被控主体标注，根据控制标注从各个子文本信息中查找得到对应的控制信息，根据被控主体标注从各个子文本信息中查找得到对应的被控主体信息。

在一个实施例中，目标文本信息确定模块用于将各个候选子文本分别与被控主体信息进行比对，得到各个候选子文本与被控主体信息间的相似度，将与被控主体信息间的相似度符合相似条件的候选子文本作为目标文本信息。

在一个实施例中，相似度确定模块用于将各个候选子文本映射为第一词向量序列，将被控主体信息映射为第二词向量序列，确定各第一向量词序列与第二向量词序列的相似词向量和差异词向量，基于相似词向量和差异词向量确定各个候选文本信息与被控主体信息间的相似度。

在一个实施例中，预设类型控制信息控制模块用于当控制信息为预设类型控制信息时，识别页面图片中的形状子图，确定形状子图中与预设类型控制信息匹配的目标形状子图，获取目标形状子图在页面图片中的目标形状位置信息，将目标形状位置信息和控制信息发送至第一终端，以使第一终端根据目标形状位置信息在页面图片对应的页面确定目标页面区域，通过目标页面区域触发控制信息对应的控制操作，通过控制操作实现对被控主体信息对应的被控主体的控制。

如图14所示，为一实施例中的语音控制装置的示意图，该装置包括：

页面图片获取模块802，用于获取语音信息和页面图片；

信息确定模块804，用于将语音信息和页面图片发送至服务器，以使服务器识别语音信息中的控制信息和被控主体信息，确定页面图片中与被控主体信息匹配的目标文本信息的目标位置信息；

第二信息接收模块806，用于接收服务器返回的控制信息和目标位置信息；

第二主体控制模块808，用于根据目标位置信息在页面图片对应的页面确定目标页面区域，通过目标页面区域触发控制信息对应的控制操作，通过控制操作实现对被控主体信息对应的被控主体的控制。

在一个实施例中，第一语音获取模块用于通过语音控件获取录入的语音信息，根据语音信息触发截图操作，对获取到语音信息时显示的页面进行截图，得到页面图片。

在一个实施例中，第二语音获取模块用于接收关联的第二终端发送的语音请求，语音请求中携带语音信息，根据语音请求触发截图操作，对接收到语音信息时显示的页面进行截图，得到页面图片。

在一个实施例中，第一终端关联模块用于扫描得到同一局域网内的第二终端的终端标识，根据终端标识与第二终端建立关联关系。

在一个实施例中，第一终端关联模块还用于扫描第二终端展示的图形码，解析图形码得到第二终端的终端标识，根据终端标识与第二终端建立关联关系。

在一个实施例中，文件播放模块用于通过目标页面区域触发播放请求，发送播放请求至应用服务器，播放请求携带目标页面区域对应的待播放文件标识，接收应用服务器返回的与待播放文件标识对应的待播放文件，在页面播放待播放文件。

在一个实施例中，播放状态更改模块用于目标位置信息为通过在页面图片中识别与预设类型控制信息匹配的目标形状子图确定的目标形状位置信息，控制操作为对播放状态更改操作，通过目标页面区域触发播放状态更改操作，根据播放状态更改操作实现对页面正在播放的文件的播放状态的更改。

关于语音控制装置的具体限定可以参见上文中对于语音控制方法的限定，在此不再赘述。上述语音控制装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。该处理器可以为中央处理单元(CPU)、微处理器、单片机等。上述语音控制装置可以实现为一种计算机程序的形式。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，也可以是终端。当该计算机设备为服务器时，其内部结构图可以如图15所示。当该计算机设备为终端时，其内部结构包括显示屏、输入装置、摄像头、声音采集装置和扬声器等。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音控制方法。本领域技术人员可以理解，图15中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，处理器执行程序时实现以下步骤：接收第一终端发送的语音信息和对应的页面图片，识别语音信息中的控制信息和被控主体信息，提取页面图片中的候选文本信息，确定候选文本信息中与被控主体信息匹配的目标文本信息，获取目标文本信息在页面图片中的目标位置信息，将目标位置信息和控制信息发送至第一终端，以使第一终端根据目标位置信息在页面图片对应的页面确定目标页面区域，通过目标页面区域触发控制信息对应的控制操作，通过控制操作实现对被控主体信息对应的被控主体的控制。

其中，处理器执行程序时实现以下步骤：获取语音信息和页面图片，将语音信息和页面图片发送至服务器，以使服务器识别语音信息中的控制信息和被控主体信息，确定页面图片中与被控主体信息匹配的目标文本信息的目标位置信息，接收服务器返回的控制信息和目标位置信息，根据目标位置信息在页面图片对应的页面确定目标页面区域，通过目标页面区域触发控制信息对应的控制操作，通过控制操作实现对被控主体信息对应的被控主体的控制。

上述对于计算机设备的限定可以参见上文中对于语音控制方法的具体限定，在此不再赘述。

请继续参阅图15，还提供一种计算机可读存储介质，其上存储有计算机程序，如图15中所示的非易失性存储介质，其中，该程序被处理器执行时实现以下步骤：接收第一终端发送的语音信息和对应的页面图片，识别语音信息中的控制信息和被控主体信息，提取页面图片中的候选文本信息，确定候选文本信息中与被控主体信息匹配的目标文本信息，获取目标文本信息在页面图片中的目标位置信息，将目标位置信息和控制信息发送至第一终端，以使第一终端根据目标位置信息在页面图片对应的页面确定目标页面区域，通过目标页面区域触发控制信息对应的控制操作，通过控制操作实现对被控主体信息对应的被控主体的控制。

其中，该程序被处理器执行时实现以下步骤：获取语音信息和页面图片，将语音信息和页面图片发送至服务器，以使服务器识别语音信息中的控制信息和被控主体信息，确定页面图片中与被控主体信息匹配的目标文本信息的目标位置信息，接收服务器返回的控制信息和目标位置信息，根据目标位置信息在页面图片对应的页面确定目标页面区域，通过目标页面区域触发控制信息对应的控制操作，通过控制操作实现对被控主体信息对应的被控主体的控制。

上述对于计算机可读存储介质的限定可以参见上文中对于语音控制方法的具体限定，在此不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory，ROM)等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种语音控制方法，所述方法包括：

接收第一终端发送的语音信息和对应的页面图片；

识别所述语音信息中的控制信息和被控主体信息；

提取所述页面图片中的候选文本信息；

获取所述目标文本信息在所述页面图片中的目标位置信息；

2.根据权利要求1所述的方法，其特征在于，所述提取所述页面图片中的候选文本信息包括：

根据文本定位算法对所述页面图片进行文本定位检测，以确定所述页面图片中的候选文本框；

提取所述候选文本框中的候选文本信息。

3.根据权利要求2所述的方法，其特征在于，所述根据文本定位算法对所述页面图片进行文本定位检测，以确定所述页面图片中的候选文本框包括：

根据页面图片的像素值对将所述页面图片进行分层处理，得到至少两个目标子页面；

对各个所述目标子页面进行二值化处理，得到各个所述目标子页面的二值图；

提取各个所述目标子页面的二值图的连通区域；

将各个所述二值图的连通区域进行合并，得到所述页面图片中的候选文本框。

4.根据权利要求1所述的方法，其特征在于，所述识别所述语音信息中的控制信息和被控主体信息包括：

将所述语音信息转换为对应的文本信息；

将所述文本信息进行分词处理，得到子文本信息；

对各个所述子文本信息进行标注，得到标注序列；

从所述标注序列中确定控制标注和被控主体标注；

根据控制标注从各个所述子文本信息中查找得到对应的所述控制信息；

根据被控主体标注从各个所述子文本信息中查找得到对应的所述被控主体信息。

5.根据权利要求1所述的方法，其特征在于，所述候选文本信息包括多个候选子文本，所述确定所述候选文本信息中与所述被控主体信息匹配的目标文本信息包括：

将各个所述候选子文本分别与所述被控主体信息进行比对，得到各个所述候选子文本与所述被控主体信息间的相似度；

将与所述被控主体信息间的相似度符合相似条件的候选子文本作为目标文本信息。

6.根据权利要求5所述的方法，其特征在于，所述将各个所述候选子文本分别与所述被控主体信息进行比对，得到各个所述候选文本信息与所述被控主体信息间的相似度包括：

将各个所述候选子文本映射为第一词向量序列；

将所述被控主体信息映射为第二词向量序列；

确定各所述第一向量词序列与所述第二向量词序列的相似词向量和差异词向量；

基于所述相似词向量和差异词向量确定各个所述候选文本信息与所述被控主体信息间的相似度。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

当所述控制信息为预设类型控制信息时，识别所述页面图片中的形状子图；

确定所述形状子图中与所述预设类型控制信息匹配的目标形状子图；

获取所述目标形状子图在所述页面图片中的目标形状位置信息；

将所述目标形状位置信息和所述控制信息发送至所述第一终端，以使所述第一终端根据所述目标形状位置信息在所述页面图片对应的页面确定目标页面区域，通过所述目标页面区域触发所述控制信息对应的控制操作，通过所述控制操作实现对所述被控主体信息对应的被控主体的控制。

8.一种语音控制方法，所述方法包括：

获取语音信息和页面图片；

接收所述服务器返回的所述控制信息和所述目标位置信息；

9.根据权利要求8所述的方法，其特征在于，所述获取语音信息和页面图片，包括：

通过语音控件获取录入的语音信息；

根据所述语音信息触发截图操作，对获取到语音信息时显示的页面进行截图，得到所述页面图片。

10.根据权利要求8所述的方法，其特征在于，所述获取语音信息和页面图片，包括：

接收关联的第二终端发送的语音请求，所述语音请求中携带语音信息；

根据所述语音请求触发截图操作，对接收到所述语音信息时显示的页面进行截图，得到所述页面图片。

11.根据权利要求8所述的方法，其特征在于，所述控制操作为播放操作，所述通过所述目标页面区域触发所述控制信息对应的控制操作包括：

通过所述目标页面区域触发播放请求，发送所述播放请求至应用服务器，所述播放请求携带所述目标页面区域对应的待播放文件标识；

接收所述应用服务器返回的与所述待播放文件标识对应的待播放文件；

在所述页面播放所述待播放文件。

12.一种语音控制装置，其特征在于，所述装置包括：

13.一种语音控制装置，其特征在于，所述装置包括：

页面图片获取模块，用于获取语音信息和页面图片；

14.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至11中任一项所述方法的步骤。

15.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至11中任一项所述方法的步骤。