CN109413470A

CN109413470A - 一种待检测图像帧的确定方法和终端设备

Info

Publication number: CN109413470A
Application number: CN201811229946.XA
Authority: CN
Inventors: 宋虎; 鲍姗娟; 付延松; 李志强
Original assignee: Qingdao Hisense Electronics Co Ltd
Current assignee: Qingdao Hisense Electronics Co Ltd
Priority date: 2018-10-22
Filing date: 2018-10-22
Publication date: 2019-03-01
Anticipated expiration: 2038-10-22
Also published as: CN109413470B

Abstract

本发明的实施例公开一种待检测图像帧的确定方法和终端设备，涉及智能家电设备领域，能够提高图像识别的准确率。该方法包括：接收语音检测开启指令；获取用户输入的语音，并连续获取当前显示设备上显示的多个图像帧；解析所述用户输入的语音，根据所述语音包含的图像识别指令在所述多个图像帧中确定用于图像识别的图像帧。

Description

一种待检测图像帧的确定方法和终端设备

技术领域

本发明的实施例涉及智能家电设备领域，尤其涉及一种图像识别方法和终端设备。

背景技术

随着智能电视语音识别和图像识别功能的引入，用户可以在遥控器语音键按下时，通过自然语言形式输入操作命令，如“这人是谁”或者“这些人是谁”等类似的自然语言，进而通过图像识别功能将当前屏幕中所展示的人物进行识别。

但是，由于语音按键操作进行人脸识别的完整过程，需要经过用户按下遥控器语音键、语音录入、语音数据网络传输、后台服务器语音识别、识别命令返回后才能开始整机屏幕截图等环节，而此时再截图可能不再是用户“说话”那一时刻的目标帧，同时人脸识别功能对人的正脸要求比较高(若超过45度，则无法识别成功)。即“语音识别过程”复杂导致屏幕截图针对的画面已切换。

同时，在用户实际操作过程中，可能会由于用户思考和组织输入语言，或遥控器靠近音源等肢体动作的延迟过程造成当前屏幕画面已经切换至下一帧，不再是用户想要的目标画面。即“延迟”导致屏幕截图针对的画面已切换。从而造成后期的图像识别准确率降低。

发明内容

本发明的实施例提供一种待检测图像帧的确定方法和终端设备，能够提高图像识别的准确率。

第一方面，提供一种待检测图像帧的确定方法，包括如下步骤：接收语音检测开启指令；获取用户输入的语音，并连续获取当前显示设备上显示的多个图像帧；解析所述用户输入的语音，根据所述语音包含的图像识别指令在所述多个图像帧中确定用于图像识别的图像帧。

本发明的实施例可以在用户开始输入语音时，获取连续的多个图像帧，并从其中确定用于图像识别的图像帧，相比于现有技术中只将识别命令返回后某一时刻的一个图像帧作为图像识别的图像帧，能够降低或避免语音识别过程复杂及延迟而导致的屏幕截图针对的画面已切换，提高图像识别的准确率。

第二方面，提供一种终端设备，包括：获取模块，用于接收语音检测开启指令；处理模块，用于获取用户输入的语音，并连续获取当前显示设备上显示的多个图像帧；所述处理模块，还用于解析所述用户输入的语音，根据所述语音包含的图像识别指令在所述多个图像帧中确定用于图像识别的图像帧。

第三方面，提供一种终端设备，包括通信接口、处理器、存储器、总线；所述存储器用于存储计算机执行指令，所述处理器与所述存储器通过所述总线连接，当所述终端设备运行时，所述处理器执行所述存储器存储的计算机执行指令，以使所述终端设备执行如上述的待检测图像帧的确定方法。

第四方面，提供一种计算机存储介质，包括指令，其特征在于，当所述指令在计算机上运行时，使得所述计算机执行如上述的待检测图像帧的确定方法。

可以理解地，上述提供的任一种终端设备或计算机存储介质均用于执行上文所提供的第一方面对应的方法，因此，其所能达到的有益效果可参考上文第一方面的方法以及下文具体实施方式中对应的方案的有益效果，此处不再赘述。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的实施例提供的一种待检测图像帧的确定方法的流程示意图；

图2为本发明的另一实施例提供的一种待检测图像帧的确定方法的流程示意图；

图3为本发明的实施例提供的语音检测开启指令到接收到语音检测关闭指令之间的时间区间示意图；

图4为本发明的实施例提供的一种终端设备的结构示意图；

图5为本发明的另一实施例提供的一种终端设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

随着智能电视语音识别和图像识别功能的引入，用户可以在遥控器语音键按下时，通过自然语言形式输入操作命令，如“这人是谁”或者“这些人是谁”等类似的自然语言，进而通过图像识别能力将当前屏幕中所展示的人物进行识别。但是，由于语音按键操作进行人脸识别的完整过程，需要经过语音录入、语音数据网络传输、后台语音识别、识别命令返回并开始整机屏幕截图等环节，此时再截图可能不再是用户“说话”那一时刻的目标帧，同时人脸识别功能对人的正脸要求比较高(若超过45度，则无法识别成功)。即“语音识别过程”复杂导致截图场景切换。同时，在用户实际操作过程中，可能会由于用户思考和组织输入语言，或遥控器靠近音源等肢体动作的延迟过程造成当前屏幕画面已经切换至下一帧，不再是用户想要的目标画面。即“延迟”导致截图场景切换，从而造成后期的图像识别准确率降低。

为解决上述问题，本发明的实施例提供一种待检测图像帧的确定方法，包括如下步骤：

101、接收语音检测开启指令。

示例性的，针对终端设备，例如智能电视。该语音检测开启指令可以是用户通过遥控器发送的按键指令触发，例如，语音键收到KeyEvent Down(按键按下事件)事件触发；或者，可以是检测到唤醒词输入指令触发，例如通过远场拾音检测到用户语音方式输入的语音检测开启指令。

102、获取用户输入的语音，并连续获取当前显示设备上显示的多个图像帧。

103、解析用户输入的语音，根据语音包含的图像识别指令在多个图像帧中确定用于图像识别的图像帧。

其中，用户可以通过语音控制智能电视识别显示的图像中的目标，例如，该目标可以是人物、车辆、地名以及建筑等等，以人物为例，用户可以通过语音输入“这是谁”、“他叫什么名字”等等，则解析用户输入的语音后可以生成对图像中的人脸目标的图像识别指令，对于其他目标的处理方式是类似的，例如：针对地名，用户可以通过语音输入“这是哪里”，针对建筑，用户可以通过语音输入“这是什么建筑”等等。

本发明的实施例可以在用户开始输入语音时，获取连续的多个图像帧，并从其中确定用于图像识别的图像帧，相比于现有技术中只将图像识别命令返回后某一时刻的一个图像帧作为图像识别的图像帧，能够降低或避免延迟的影响，提高图像识别的准确率。

参照图2所示，以下以用户通过语音指示识别图像帧中的人脸为例对待检测图像帧的确定方法说明如下：

201、接收语音检测开启指令。

202、获取用户输入的语音，并连续获取当前显示设备上显示的多个图像帧。

203、在多个图像帧中，确定接收语音检测开启指令的预定时长后的第一时间区间的图像帧。

204、解析用户输入的语音，根据语音包含的图像识别指令对第一时间区间的图像帧中确定用于图像识别的图像帧。

如图3所示，将从接收到语音检测开启指令到接收到语音检测关闭指令为止的时间段分为三个区域，第二时间区间、第一时间区间以及第三时间区间，在下述示例中将第一时间区间称作临界区B、将第二时间区间称作静音区A、将第三时间区间称作录音区C。此外，这里从接收到语音检测开启指令到接收到语音检测关闭指令的这一时间段，可以不间断的获取当前显示设备上显示画面对应的多个图像帧，例如可以按照一定周期对显示画面进行截图并暂存。

其中，静音区A是指语音键被按下(即KeyEvent Down事件触发时)或唤醒词输入(远场拾音)时刻与临界区B的起始时刻之间的一个时间范围区间，表示用户思考、等待或组织语言的过程，是一个相对静音的区域当然此时仍有环境白噪声。

临界区B是指智能电视可能根据用户输入的语音识别用户意图(即图像识别指令)所在的时间区域，即用户语音控制识别人脸的目标区域(第一时间区间)。具体的在临界区B确定用于图像识别的图像帧的方式为：根据语音包含的图像识别指令确定临界区B的任一图像帧中待识别目标大于等于预定的检测阈值，则确定任一图像帧为用于图像识别的图像帧。如检测阈值可以为：在具体实现过程中既定人脸目标的检测阈值Threshold是一个经验值，例如设定为0.8。

此外，临界区B是一个可动态变化的时间窗口Window，时间范围可大可小。根据其区间范围可以与临界区B内待识别目标的检测结果而动态调整。例如：确定临界区B的所有图像帧中的待识别目标均小于预定的检测阈值Threshold时；更新临界区B，其中，更新临界区B包括将临界区B的起始时刻向前调整，和/或，将临界区B的结束时刻向后调整。

例如：当临界区B任一图像帧中待识别目标大于等于预定的检测阈值Threshold时，则临界区B的范围不作调整；当临界区B的所有图像帧中的待识别目标均小于预定的检测阈值Threshold时，则临界区B的两侧端点分别向静音区A和录音区C移动，并重新检测该更新后的临界区B中任一图像帧中待识别目标与预定的检测阈值Threshold的关系，直至临界区B达到最大区间阈值MaxThreshold。其中，在具体实现过程中既定最大区间阈值MaxThreshold是一个经验值，例如设定为0.4s。

录音区C是指用户自然语言输出并被智能电视录制的范围区间，即临界区B的结束时刻至智能电视接收到语音检测关闭指令的时间区间。

这里，通过对接收到语音检测开启指令到接收到语音检测关闭指令的这一时间段进行不同时间区间范围的划分，并进一步缩小时间区间范围，在临界区B包含的多个图像帧中确定最优截图，能够进一步避免语音过程复杂和解析到图像识别命令延迟导致的显示画面已切换问题。

此外，若临界区B达到最大区间阈值MaxThreshold时，在MaxThreshold的临界区B中所有图像帧中的待识别目标均小于预定的检测阈值时，则该方案还包括：

205、在更新的临界区B之前的静音区A的图像帧中，和/或在更新的临界区B之后的录音区C的图像帧中确定用于图像识别的图像帧。

至此，可以获得用于图像识别的图像帧，例如最优目标待检测图像帧，该目标可以为人脸、物品以及动物等等；以人脸为例，该图像帧是指一张近似最优的屏幕截图，可直接用于人脸识别过程并获得较高的识别结果。其衡量指标包括所有人脸(如果存在)的位置、大小和位姿信息，显示正面的、人脸轮廓较大的人脸识别结果较好。通常的，人脸检测在图像处理技术领域已有较通用的技术方案，其具体过程包括：(1)通过面部特征之间的关系进行人脸定位，用一个简单的规则来描述人脸特征和它们的相互关系，如在一幅图像帧中出现的人脸，通常具有互相对称的两只眼睛、一个鼻子和一张嘴。特征之间的相互关系可以通过它们的相对距离和位置来描述。(2)用Sobel算法提取边缘，并将边缘组织在一起，形成人脸模板。在头轮廓定位以后，用相同的过程以不同的尺度重复定位眼睛、眼眉和嘴唇等特征。当然，本发明主要来确定用于图像识别的图像帧，针对图像帧中的目标识别可以采用任意方式，本发明不作限定。

参照图4所示，提供一种终端设备，包括：

获取模块41，用于接收语音检测开启指令；

处理模块42，用于获取用户输入的语音，并连续获取当前显示设备上显示的多个图像帧；

所述处理模块42，还用于解析所述用户输入的语音，根据所述语音包含的图像识别指令在所述多个图像帧中确定用于图像识别的图像帧。

在一种示例性的方案中，所述处理模块42，还用于在所述多个图像帧中，确定接收语音检测开启指令的预定时长后的第一时间区间的图像帧；所述处理模块42，具体用于根据所述语音包含的图像识别指令对所述第一时间区间的图像帧中确定用于图像识别的图像帧。

在一种示例性的方案中，所述处理模块42具体用于根据所述语音包含的图像识别指令确定所述第一时间区间的任一图像帧中待识别目标大于等于预定的检测阈值，则确定所述任一图像帧为用于图像识别的图像帧。

在一种示例性的方案中，所述处理模块42具体用于，在确定所述第一时间区间的所有图像帧中的待识别目标均小于预定的检测阈值时；更新所述第一时间区间，其中，更新所述第一时间区间包括将所述第一时间区间的起始时刻向前调整，和/或，将所述第一时间区间的结束时刻向后调整。

在一种示例性的方案中，所述处理模块42具体用于当所述更新的第一时间区间大于最大区间阈值时，并且所述更新的第一时间区间的所有图像帧中的待识别目标均小于预定的检测阈值时；在所述更新的第一时间区间之前的第二时间区间的图像帧中，和/或在所述更新的第一时间区间之后的第三时间区间的图像帧中确定用于图像识别的图像帧。

在采用集成的模块的情况下，终端设备包括：存储单元、处理单元以及接口单元。处理单元用于对终端设备的动作进行控制管理，例如，处理单元用于支持终端设备执行图1、2中的过程102-103、202-205；接口单元用于支持终端设备与其他设备的信息交互例如执行步骤101、201。存储单元，用于存储终端设备的程序代码和数据。

其中，以处理单元为处理器，存储单元为存储器，接口单元为通信接口为例。其中，终端设备参照图5中所示，包括通信接口501、处理器502、存储器503和总线504，通信接口501、处理器502通过总线504与存储器503相连。

处理器502可以是一个通用中央处理器(Central Processing Unit，CPU)，微处理器，特定应用集成电路(Application-Specific Integrated Circuit，ASIC)，或一个或多个用于控制本申请方案程序执行的集成电路。

存储器503可以是只读存储器(Read-Only Memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(Random Access Memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(ElectricallyErasable Programmable Read-only Memory，EEPROM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器可以是独立存在，通过总线与处理器相连接。存储器也可以和处理器集成在一起。

其中，存储器503用于存储执行本申请方案的应用程序代码，并由处理器502来控制执行。通讯接口501用于与其他设备进行信息交互，例如与图像处理服务器以及终端设备的信息交互。处理器502用于执行存储器503中存储的应用程序代码，从而实现本申请实施例中所述的方法。

此外，还提供一种计算存储媒体(或介质)，包括在被执行时进行上述实施例中的终端设备执行的方法操作的指令。另外，还提供一种计算机程序产品，包括上述计算存储媒体(或介质)。

其中，上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述，其作用在此不再赘述。

应理解，在本发明的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文全称:read-only memory，英文简称：ROM)、随机存取存储器(英文全称：random access memory，英文简称：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种待检测图像帧的确定方法，其特征在于，

接收语音检测开启指令；

获取用户输入的语音，并连续获取当前显示设备上显示的多个图像帧；

解析所述用户输入的语音，根据所述语音包含的图像识别指令在所述多个图像帧中确定用于图像识别的图像帧。

2.根据权利要求1所述的待检测图像帧的确定方法，其特征在于，所述方法还包括：

在所述多个图像帧中，确定接收语音检测开启指令的预定时长后的第一时间区间的图像帧；

所述根据所述语音包含的图像识别指令在所述多个图像帧中确定用于图像识别的图像帧，包括：

根据所述语音包含的图像识别指令对所述第一时间区间的图像帧中确定用于图像识别的图像帧。

3.根据权利要求2所述的待检测图像帧的确定方法，其特征在于，所述根据所述语音包含的图像识别指令对所述第一时间区间的图像帧中确定用于图像识别的图像帧，包括：

根据所述语音包含的图像识别指令确定所述第一时间区间的任一图像帧中待识别目标大于等于预定的检测阈值，则确定所述任一图像帧为用于图像识别的图像帧。

4.根据权利要求3所述的待检测图像帧的确定方法，其特征在于，

确定所述第一时间区间的所有图像帧中的待识别目标均小于预定的检测阈值时；更新所述第一时间区间，其中，更新所述第一时间区间包括将所述第一时间区间的起始时刻向前调整，和/或，将所述第一时间区间的结束时刻向后调整。

5.根据权利要求4所述的待检测图像帧的确定方法，其特征在于，当所述更新的第一时间区间大于最大区间阈值时，并且所述更新的第一时间区间的所有图像帧中的待识别目标均小于预定的检测阈值时；在所述更新的第一时间区间之前的第二时间区间的图像帧中，和/或在所述更新的第一时间区间之后的第三时间区间的图像帧中确定用于图像识别的图像帧。

6.一种终端设备，其特征在于，包括：

获取模块，用于接收语音检测开启指令；

处理模块，用于获取用户输入的语音，并连续获取当前显示设备上显示的多个图像帧；

所述处理模块，还用于解析所述用户输入的语音，根据所述语音包含的图像识别指令在所述多个图像帧中确定用于图像识别的图像帧。

7.根据权利要求6所述的终端设备，其特征在于，所述处理模块，还用于在所述多个图像帧中，确定接收语音检测开启指令的预定时长后的第一时间区间的图像帧；

所述处理模块，具体用于根据所述语音包含的图像识别指令对所述第一时间区间的图像帧中确定用于图像识别的图像帧。

8.根据权利要求7所述的终端设备，其特征在于，所述处理模块具体用于根据所述语音包含的图像识别指令确定所述第一时间区间的任一图像帧中待识别目标大于等于预定的检测阈值，则确定所述任一图像帧为用于图像识别的图像帧。

9.根据权利要求8所述的终端设备，其特征在于，所述处理模块具体用于，在确定所述第一时间区间的所有图像帧中的待识别目标均小于预定的检测阈值时；更新所述第一时间区间，其中，更新所述第一时间区间包括将所述第一时间区间的起始时刻向前调整，和/或，将所述第一时间区间的结束时刻向后调整。

10.一种终端设备，其特征在于，包括通信接口、处理器、存储器、总线；所述存储器用于存储计算机执行指令，所述处理器与所述存储器通过所述总线连接，当所述终端设备运行时，所述处理器执行所述存储器存储的计算机执行指令，以使所述终端设备执行如权利要求1-5任一项所述的待检测图像帧的确定方法。