CN112711971A - 终端消息处理方法及其图像识别方法、装置、介质和系统 - Google Patents

终端消息处理方法及其图像识别方法、装置、介质和系统 Download PDF

Info

Publication number
CN112711971A
CN112711971A CN201911025289.1A CN201911025289A CN112711971A CN 112711971 A CN112711971 A CN 112711971A CN 201911025289 A CN201911025289 A CN 201911025289A CN 112711971 A CN112711971 A CN 112711971A
Authority
CN
China
Prior art keywords
image
message
mouth shape
recognized
larger
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911025289.1A
Other languages
English (en)
Inventor
杨舒
勾军委
李阜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201911025289.1A priority Critical patent/CN112711971A/zh
Priority to PCT/CN2020/108463 priority patent/WO2021077863A1/zh
Publication of CN112711971A publication Critical patent/CN112711971A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/28Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本申请涉及图像处理技术领域,公开了一种图像识别方法、终端消息处理方法及其装置、介质和系统。本申请的图像识别方法包括获取待识别图像;将待识别图像转换为黑白的转换图像,其中,待识别图像中像素的第一分量值和第二分量值之间的差值越大,转换后的转换图像中对应位置像素的灰度值越大,并且在转换图像中,目标处像素的灰度值大于位于目标外部且与目标相接的像素的灰度值;基于转换图像识别出目标。本申请的图像识别方法可以用于人工智能的机器视觉处理中,也可以用于神经网络中,还可以用于终端含打扰内容的消息处理中。

Description

终端消息处理方法及其图像识别方法、装置、介质和系统
技术领域
本申请涉及终端领域,特别涉及一种终端消息处理方法及其图像识别方法、装置、介 质和系统。
背景技术
随着科学技术的迅速发展,智能手机等终端设备越来越受到用户的喜爱,用户可以使 用终端设备进行聊天、看电影、购物、打游戏、看新闻等。当用户在使用其中一个应用时, 时常会有来自其他应用的通知弹出。例如,当用户在全屏玩游戏或看电影时,时常有广告、 短信等通知弹出,用户通常会提前关闭某个或多个应用的消息或手动划掉当前通知。然而 提前关闭某个或多个应用的消息,容易错过关键电话或信息。而手动划掉当前通知,会影 响用户体验。
发明内容
本申请实施例提供了一种图像识别方法、终端消息处理方法及其装置、介质和系统。
第一方面,本申请实施例提供了一种图像识别方法,所述方法包括:
获取待识别图像;将待识别图像转换为黑白的转换图像,其中,所述待识别图像中像 素的第一分量值和第二分量值之间的差值越大,转换后的所述转换图像中对应位置像素的 灰度值越大,并且在所述转换图像中,所述目标处像素的灰度值大于位于所述目标外部且 与所述目标相接的像素的灰度值;基于所述转换图像识别出所述目标。即在该图像识别方 法中,通过确定目标区域与非目标区域像素在颜色空间中的差异性来将目标区域区分出来。
在上述第一方面的一种可能的实现中,上述图像识别方法还包括:所述基于所述转换 图像识别出所述目标包括:基于所述转换图像中各像素的所述灰度值,对所述转换图像进 行二值化处理,得到二值化图像;从所述二值化图像中分割出所述目标。进行二值化处理 后,将黑白的转换图像中的目标的像素值转换最大值(即显示白色),非目标区域的像素 值处理为0(即显示黑色),或者将目标转换为黑色,非目标区域转换为白色,更好的将目标和非目标区域区分开来。
在上述第一方面的一种可能的实现中,上述图像识别方法还包括:
对所述二值化图像进行降噪处理,并确定降噪处理后的所述二值化图像中的目标的轮 廓;并且所述从所述二值化图像中分割出所述目标包括:基于所述二值化图像中所述目标 的轮廓分割出所述目标。
在上述第一方面的一种可能的实现中,上述图像识别方法还包括:所述将所述待识别 图像转换为黑白的转换图像包括:获取人脸图像,并对人脸图像进行初定位,得到仅包含 人的嘴唇的所述待识别图像;并且所述将所述待识别图像转换为黑白的转换图像包括:
将所述待识别图像中各像素在RGB空间的像素值输入下列公式中,得出所述转换图 像中各像素的灰度值:
Figure BDA0002248439970000021
其中,h表示转换图像中像素的灰度值,R、G、B分别表示待识别图像中的像素在RGB空间中的分量值。
第二方面,本申请实施例提供了一种终端的消息处理方法,所述方法包括:
在终端屏幕显示第一应用时,判断屏幕上是否出现来自第二应用的消息;在屏幕上出 现来自第二应用的消息的情况下,获取所述屏幕前用户的人脸图像;对获取到的人脸图像 进行图像识别,以识别出人脸图像中的嘴唇的口型;基于识别出的所述嘴唇的口型确定对 所述第二应用的消息的处理方式。即通过将消息处理方式对应的指令与口型相对应,来使 得用户可以通过口型来对消息进行控制。例如,将用户吹气的口型与将消息移出的指令对 应,如此在检测到用户做出吹气的口型的时候,可以将消息吹出屏幕。
在上述第二方面的一种可能的实现中,上述终端的消息处理方法还包括:基于识别出 的所述嘴唇的口型确定对所述第二应用的消息的处理方式包括:判断识别出的所述嘴唇的 口型与对应免打扰指令的口型之间的相似度是否大于第一口型阈值;在判断出所述口型之 间的相似度大于第一口型阈值的情况下,将所述第二应用的消息移出屏幕。即将消息移出 的免打扰指令与一定的口型相对应,在检测出用户的口型与免打扰指令的口型匹配时,将 消息移出屏幕。
在上述第二方面的一种可能的实现中,上述终端的消息处理方法还包括:基于识别出 的所述嘴唇的口型确定对所述第二应用的消息的处理方式包括:判断识别出的所述嘴唇的 口型与对应查看指令的口型之间的相似度是否大于第二口型阈值;在判断出所述口型之间 的相似度大于第二口型阈值的情况下,将所述屏幕从显示所述第一应用切换为显示所述第 二应用中的所述消息。即将消息移出的查看指令与一定的口型相对应,在检测出用户的口 型与查看指令的口型匹配时,在显示屏上显示消息。
在上述第二方面的一种可能的实现中,上述终端的消息处理方法还包括:采集用户发 出的语音,并对采集到的语音进行语音识别;并且基于识别出的所述嘴唇确定对所述第 二应用的消息的处理方式包括:
判断识别出的所述嘴唇的口型与对应免打扰指令的口型之间的相似度是否大于第一 口型阈值,并判断所述语音识别识别出的语音与对应免打扰指令的语音之间的相似度是否 大于第一语音阈值;在判断出所述口型之间的相似度大于第一口型阈值并且所述语音之间 的相似度大于第一语音阈值的情况下,将所述第二应用的消息移出屏幕。
即同时通过语音识别和口型识别来实现对消息的显示控制,在口型和语音的识别结果 都与免打扰指令对应的口型和语音匹配时,才将消息移出屏幕。
在上述第二方面的一种可能的实现中,上述终端的消息处理方法还包括:基于识别出 的所述嘴唇的口型确定对所述第二应用的消息的处理方式包括:
判断识别出的所述嘴唇的口型与对应查看指令的口型之间的相似度是否大于第二口 型阈值,并判断所述语音识别识别出的语音与对应查看指令的语音之间的相似度是否大于 第二语音阈值;
在判断出所述口型之间的相似度大于第二口型阈值并且所述语音之间的相似度大于 第二语音阈值的情况下,将所述屏幕从显示所述第一应用切换为显示所述第二应用中的所 述消息。
即同时通过语音识别和口型识别来实现对消息的显示控制,在口型和语音的识别结果 都与查看指令对应的口型和语音匹配时,才进行显示切换,在显示屏中显示出显示消息。
在上述第二方面的一种可能的实现中,上述终端的消息处理方法还包括:所述对获取 到的人脸图像进行图像识别,以识别出人脸图像中的嘴唇包括:
采用如上述第一方面所述的图像识别方法,识别出所述人脸图像中的嘴唇。
在上述第二方面的一种可能的实现中,上述终端的消息处理方法还包括:通过卷积神 经网络算法判断识别出的所述嘴唇的口型与对应免打扰指令的口型之间的相似度是否大 于第一口型阈值。
在上述第二方面的一种可能的实现中,上述终端的消息处理方法还包括:通过卷积神 经网络算法判断识别出的所述嘴唇的口型与对应查看指令的口型之间的相似度是否大于 第二口型阈值。
在上述第二方面的一种可能的实现中,上述终端的消息处理方法还包括:所述卷积神 经网络算法在进行训练时,采用权利要求4所述的图像识别方法识别训练所用的人脸图像 中的嘴唇。
第三方面,本申请实施例提供了一种图像识别装置,所述装置包括:
获取模块,用于获取待识别图像;
图像转换模块,用于将所述待识别图像转换为黑白的转换图像,其中,
所述待识别图像中像素的第一分量值和第二分量值之间的差值越大,转换后的所述转换图像中对应位置像素的灰度值越大,并且在所述转换图像中,所述目标处的像 素的灰度值大于位于所述目标外部且与所述目标相接的像素的灰度值;
第一图像识别模块,用于基于所述转换图像识别出所述目标。
第四方面,本申请实施例提供了一种终端的显示处理装置,所述装置包括:
消息判断模块,用于在终端屏幕显示第一应用时,判断屏幕上是否出现来自第二应用 的消息;
获取模块,用于在屏幕上出现来自第二应用的消息的情况下,获取所述用户的人脸图 像;
第二图像识别模块,用于对获取到的人脸图像进行图像识别,以识别出人脸图像中的 嘴唇的口型;
消息处理模块,用于基于识别出的所述嘴唇的口型确定对所述第二应用的消息的处理 方式。
第五方面,本申请实施例提供一种机器可读介质,所述机器可读介质上存储有指令, 该指令在机器上执行时使机器执行第一方面以及第一方面可能的各实现中的图像识别方 法。
第六方面,本申请实施例提供一种机器可读介质,所述机器可读介质上存储有指令, 该指令在机器上执行时使机器执行第二方面以及第二方面可能的各实现中的终端的消息 处理方法。
第七方面,本申请实施例提供一种系统,包括:
存储器,用于存储由系统的一个或多个处理器执行的指令,以及
处理器,是系统的处理器之一,用于执行第一方面以及第一方面可能的各实现中的图 像识别方法。
第八方面,本申请实施例提供一种系统,包括:
存储器,用于存储由系统的一个或多个处理器执行的指令,以及
处理器,是系统的处理器之一,用于执行第二方面以及第二方面可能的各实现中的终 端的消息处理方法。
附图说明
图1根据本申请的一些实施例,示出了一种手机的系统框架图;
图2a根据本申请的一些实施例,示出了手机的一种使用场景图;
图2b根据本申请的一些实施例,示出了手机的另一种使用场景图;
图3根据本申请的一些实施例,示出了图1中手机的计算机视觉模块的结构示意图;
图4a根据本申请的一些实施例,示出了图1中手机的计算机视觉模块获取人脸图像的 示意图;
图4b根据本申请的一些实施例,示出了图1中手机的计算机视觉模块获取嘴唇区域 图像的示意图;
图4c根据本申请的一些实施例,示出了将图4b中的嘴唇区域图像转换为黑白图像的 示意图;
图4d根据本申请的一些实施例,示出了对图4c中的黑白嘴唇区域图像进行不同阈值 下的二值化处理的示意图;
图5a和图5b根据本申请的一些实施例,分别示出了嘴唇和面部皮肤区域在RGB颜色空间的各分量值的分布情况示意图;
图6a根据本申请的一些实施例,示出了一种嘴唇外轮廓的抛物线拟合图;
图6b根据本申请的一些实施例,示出了一种对图4d所示的第三列嘴唇区域图像的抛 物线拟合图;
图7根据本申请的一些实施例,示出了一种口型识别结果图;
图8根据本申请的一些实施例,示出了一种语音处理模块的结构框图;
图9根据本申请的一些实施例,示出了一种图像识别方法的流程示意图;
图10根据本申请的一些实施例,示出了一种终端消息处理方法的流程示意图。
图11根据本申请的一些实施例,示出了另一种终端消息处理方法的流程示意图。
图12根据本申请的一些实施例,示出了一种图像识别装置的示意框图;
图13根据本申请的一些实施例,示出了一种终端的示意框图;
图14根据本申请的一些实施例,示出了一种系统的框图;
图15根据本申请的一些实施例,示出了一种片上系统(SoC)的框图。
具体实施例
本申请的说明性实施例包括但不限于图像识别方法、终端消息处理方法及其装置、介 质和系统。
可以理解,如本文所使用的,术语“模块””可以指代或者包括专用集成电路(ASIC)、电 子电路、执行一个或多个软件或固件程序的处理器(共享、专用、或群组)和/或存储器、组 合逻辑电路、和/或提供所描述的功能的其他适当硬件组件,或者可以作为这些硬件组件的 一部分。
下面将结合附图对本申请的实施例作进一步地详细描述。
可以理解,在本申请的一些实施例中,公开了一种图像识别方法,在该图像识别方法 中,基于待识别图像中目标和非目标区域上的像素在颜色空间的分量的分布特征,将像素 色彩值从颜色空间的三通道值转换为黑白图像中的单通道值,即待识别图像转换为黑白的 转换图像,转换为黑白图像后待识别图像中的目标与其他区域之间存在一定的灰度差,从 而使得目标被区别出来。该方法可以用于识别图像中的各种目标。例如,识别人脸图像中 的五官,识别监控图像中的不同颜色的车辆,识别商品图像中颜色与周围环境不同的商品 等。下面描述本申请的图像识别方法的一种应用场景——一种终端消息处理技术,其中, 详细介绍了本申请的图像识别方法。
可以理解,本申请的终端可以是具有显示屏的各种计算设备,包括但不限于,手机、 平板电脑、膝上型计算机、台式计算机、可穿戴设备、头戴式显示器、移动电子邮件设备、 便携式游戏机、便携式音乐播放器、阅读器设备、个人数字助理、虚拟现实或者增强现实 设备、其中嵌入或耦接有一个或多个处理器的电视机等电子设备。
下面以手机10为例说明本申请的终端消息处理技术。根据本申请的一些实施例,图1 示出了手机10的系统框架图。可以理解,该系统框架也适用于其他终端,不限于手机。
具体地,如图1所示,手机10包括软件系统110和硬件系统120。硬件系统120包括摄像头模块121、音频模块122、以及显示屏123,软件系统110包括操作系统111和位于 应用程序层112的计算机视觉模块113、语音处理模块114及消息管理模块115。其中,操 作系统111是集成在终端内的管理终端设备的硬件与软件资源的计算机程序。应用程序层 112是运行在操作系统111之上的具有特定功能的模块程序。摄像头模块121用来采集视 频或图像信息,例如可以采集用户的面部图像。在一些实施例中,摄像头模块121包括前 置摄像头。音频模块122包括麦克风,用来采集语音信号,例如可以采集用户发出的声音 信号。
根据本申请的一些实施例,图2a和图2b示出了手机10使用视频应用观看视频的场景 图。具体地,在图2a中,用户正在用手机观看“国家宝藏”节目,此时没有其他应用的消息弹出,前置摄像头1211和麦克风1221均关闭。在图2b中,用户正在用手机观看“国家宝 藏”节目,此时有聊天软件发送的2条来自张德志的消息弹出。对于这种情况,手机10可 以通过图像识别技术和语音识别技术中的至少一种来处理弹出的消息。
可以理解,含有打扰内容的消息可以是与显示屏当前所显示的应用不同的应用发出的 消息,此处的应用可以是操作系统上运行的各种APP(Application,应用),也可以是操作 系统中的各种应用进程,等等。例如,当用户正在使用一款在线视频软件观看电影时,终 端设备弹出聊天软件的聊天消息框,或者出现操作系统的提示信息。
此外,如图2a和图2b所示,手机10的摄像头模块121包括前置摄像头1211,可以 用于采集用户的人脸图像。音频模块122包括麦克风1221,可以用于采集用户的语音信号。 手机10可以通过对用户的口型和用户发出的语音进行识别来对出现在应用中的消息产生 处理指令,其中消息管理模块115可以根据该指令动态管理出现在手机显示屏123上的消 息或者消息框。手机10可以根据手机10的显示屏123上是否出现含有打扰内容的消息框 弹出,控制前置摄像头1211和麦克风1221是否打开。在一些实施例中,当且仅当含有打 扰内容的消息框弹出时,才打开前置摄像头1211和麦克风1221中的至少一个,其余时间 前置摄像头1211和麦克风1221均关闭,不采集任何数据。如此可以根据应用场景动态管 理前置摄像头1211和麦克风1221,降低功耗。
在一些实施例中,当手机10出现图2b所示的情况,或者在其他有含打扰内容的消息 出现的情况下,对出现的消息的一种处理方式如下:
(1)在含打扰内容的消息出现时,前置摄像头1211被自动打开,捕捉手机10前用户的图像(彩色图像)。
(2)通过计算机视觉模块113确定前置摄像头1211拍摄到的用户图像中的口型是否 为对应的消息处理指令的口型。消息处理指令可以包括免打扰指令和查看指令。为了便于 说明,下面以“吹气”口型对应免打扰指令,以说“开”字时的“开”口型对应查看指令。 可以理解,此处“吹气”口型和“开”口型是示例性的,并非限制性的,在本申请的其他 实施例中,也可以采用其他口型对应免打扰指令和查看指令。
如图3所示,计算机视觉模块113可以包括人脸检测单元1131、图像分割单元1132及口型识别单元1133。计算机视觉模块113通过各单元识别出用户图像中的口型的过程如下:
A)人脸检测单元1131检测前置摄像头1211捕捉到的用户图像中的人脸区域,得到人脸图像。例如,图4a左边所示的为前置摄像头1211捕捉到的用户图像,右边所示的为 检测出的对应各用户图像的人脸图像。人脸检测单元1131将检测出的人脸图像发送给图 像分割单元1132。
B)图像分割单元1132在接收到人脸图像后,先对嘴唇进行初步定位,得出嘴唇区域 或者说感兴趣区域(ROI)。例如,可以定义ROI为检测到的面部矩形框高度的三分之一和中间宽度的一半处。例如,图4b的第三列图像示出了第二列人脸图像定位出的嘴唇区 域图像。
C)图像分割单元1132在初步定位出嘴唇区域后,将彩色的嘴唇区域图像(即待识别 图像)转换为黑白的嘴唇区域图像(即转换图像)。
具体地,在一些实施例中,图像分割单元1132可以根据嘴唇和脸部皮肤在RGB颜色空间中各分量分布的差异性,来定义颜色变换公式,并利用颜色变换公式来对B)中初步 分割出的嘴唇区域图像进行颜色转换。
图5a和图5b示出了根据一些实施例,嘴唇和面部皮肤在RGB颜色空间中的分布情况。在图5a和图5b中,图中V表示各颜色分量的值,P表示归一化取值,RVlip、GVlip、 BVlip分别表示嘴唇在RGB颜色空间的R分量、G分量以及B分量的值,RVskin、GVskin、 BVskin分别表示嘴唇周围的面部皮肤在RGB颜色空间的R分量、G分量以及B分量的值。 从图5a和图5b可以得到嘴唇和面部皮肤在RGB颜色空间的R、G和B色彩通道之间的 关系如下:
GVskin>BVskin (1)
GVlip≈BVlip (2)
(RVlip-GVlip)>(RVskin-GVskin) (3)
从上述关系式可以看出,面部皮肤颜色中的G分量的值大于B分量的值;嘴唇颜色中 的G分量的值和B分量值近似相等;嘴唇颜色的R分量的值和G分量的值之间的差值大 于面部其他区域皮肤颜色的R分量的值和G分量的值之间的差值。基于上述关系式,可以 基于R分量和G分量之间的差值,定义出颜色变换公式如下:
Figure BDA0002248439970000091
其中h表示转换后的嘴唇区域图像中像素的灰度值。根据公式(4),初步定为后的嘴唇 区域图像(如图4c中的第一行图像)中的每个像素点的R、G、B三原色通道被转换为单通道黑白图,并做归一化处理,如图4c的第二行图像所示。可以理解,R分量和G分量 的差值越大,h越大,嘴唇颜色的R分量和G分量的差值大于面部其他区域皮肤颜色的R 分量和G分量的差值。因此可以通过h的大小区分嘴唇区域和皮肤区域。
可以理解,在一些实施例中,颜色变换公式可以定义为其他形式,只要在变换后能够 将嘴唇从周围的区域中区分出来即可。例如,上述公式(4)还可以是h=R-G,或者
Figure BDA0002248439970000101
或者
Figure BDA0002248439970000102
在其他实施例中,颜色变换公式可以定义为其他形式,以区 分嘴唇区域和皮肤区域,颜色变换公式的形式在此不做限定。
此外,可以理解,虽然上述实施例以RGB空间为例进行图像转换,但是,该转换方法适用于各种颜色空间,例如,CIE(Commission Internationale de L'Eclairage,国际照明 委员会)颜色空间、HSI(Hue-Saturation-Intensity,色调-饱和度-亮度)颜色空间、CMY(Cyan-Magenta-Yellow,青-品红-黄)颜色空间等。例如,在一些实施例中,可以根据嘴 唇和皮肤在CIE色度模型的两维颜色和亮度分布的差异性,对初步定位出的嘴唇区域图像 进行颜色或亮度的转换。在一些实施例中,可以根据嘴唇和皮肤在HSI颜色空间中色调、 色饱和度和亮度分布的差异性,对初步定位出的嘴唇区域图像进行色调、色饱和度或亮度 的转换。
D)将图4c中得到的黑白图像进行二值化处理,得到二值化图像,其中,进行二值化处理所采用的二值化阈值,可以根据实际情况进行设置。在进行二值化处理时,若像素点的灰度值大于二值化阈值则将该像素点的灰度值设置成255(或者其他最大灰度值),此 时对应的颜色为白色,反之,如果像素点的灰度值小于二值化阈值,则将该像素点的灰度 值设置为0,此时对应的颜色为黑色。不同阈值下,可以得到不同的二值化嘴唇区域图像, 例如,图4d示出了第一列中转换为黑白的嘴唇区域图像在采用不同二值化阈值后,得到 的二值化图像。
此外,可以理解,在一些实施例中,还可以对上述二值化图像进行滤波处理,例如,图4d中同一行的四个二值化图像所表示的嘴唇区域图像均存在噪音,滤波处理可以减少二值化图像中的噪音。例如,一种滤波方式为:对于同一图像在不同的二值化阈值下得到的多个二值化图像,计算某个位置的像素在各二值化图像中灰度值为255的概率,在出现概率大于某一阈值时保留其灰度值为255,否则,将其灰度值设置为0。
E)确定二值化图像中的嘴唇的轮廓。例如,在一些实施例中,由于分割出的嘴唇边界可能不够平滑,为了使分割出的嘴唇边界比较平滑,定义下面的抛物线方程(5)来拟 合嘴唇外轮廓:
y=ax2+bx+c (5)
如图6a所示,其中Lc、Rc、Uc、Oc表示计算抛物线参数所需的坐标。选取二值化图像中嘴唇边缘横坐标的最小值和最大值来表示Lc、Rc。以Lc、Rc两点的中心点为横坐标, 找到上边缘的中点和下边缘的中点作为Uc、Oc,例如,图6b中第三列和第四列的图像分 别示出了在嘴唇上确定出计算抛物线所需的坐标和计算出的抛物线。通过坐标Lc、Rc、 Uc、Oc可以得出两条抛物线,这两条抛物线可以作为嘴唇的轮廓。
此外,可以理解,在其他实施例中,也可以采取其他方式得到嘴唇的轮廓,不限于上 述设置抛物线的方法。
E)基于上述确定的嘴唇轮廓提取用户的口型,并将提取的口型输入到口型识别单元 1133。可以理解,在确定嘴唇轮廓时得到两条抛物线为嘴唇外轮廓可以有效去除嘴唇区域 外的干扰信息从而分割出较为纯净的嘴型样本。这有利于提高模型训练的收敛速度和口型 识别的准确度。
F)口型识别单元1133可以利用卷积神经网络算法计算出输入口型与“吹气”口型或者 “开”口型的相似度,然后通过判断相似度是否大于设定的口型阈值来确定输入的用户图像 的口型是否为“吹气”口型或者“开”口型。
可以理解,在一些实施例中,在卷积神经网络中,引入稀疏性并将全连接层替换为稀 疏的全连接层甚至是卷积层,将样本数据集的概率分布通过一个大型稀疏的卷积神经网络 表示,以减少样品数据的处理负担。此外,卷积神经网络在处理样本时,可以采用口型识 别单元1133中的方法对人脸图像进行识别。
在一些实施例中,可以根据卷积神经网络输出的相似度是否大于某一个设定的口型阈 值来判断该口型是否为“吹气”动作或者“开”动作。如图7所示的第4行第1列的口型,Δσ 大于σ,则判定该口型为“吹气”动作,其中Δσ和σ分别表示口型识别单元1133输出的相似度和口型阈值(即第一口型)。如此,能有效分离嘴唇区域和面部其他皮肤区域,提高 模型训练的收敛速度和口型识别的准确性。算法鲁棒性好、实时性高。
可以理解,在其他实施例中,计算机视觉模块113也可以采用现有的其他图像识别技 术识别出用户图像中的口型与上述指令的口型的相似度,并不限于A)至F)中所描述的图像识别技术,在此不做限制。
3)如上所述,在一些实施例中,如果计算机视觉模块113确定前置摄像头1211拍摄到的用户图像中的口型为“吹气”口型,则向消息管理模块115发送免打扰指令并关闭前 置摄像头1211。消息管理模块115接收到免打扰指令后,可以将显示屏123上出现的含有 打扰内容的消息移出显示屏123,例如,将消息关闭或者将消息移动到其他屏幕(比如折 叠屏设备或者双屏设备)显示。此外,在一些实施例中,如果计算机视觉模块113确定前 置摄像头1211拍摄到的用户图像中的口型为“开”口型,则向消息管理模块115发送查看 指令,并关闭前置摄像头1211。消息管理模块115接收到查看指令后,可以在显示屏123 将当前显示的应用切换为发送含有打扰内容的消息的应用,并在该应用的显示界面中显示 该消息。
可以理解,在本申请的其他实施例中,也可以采用具有其他结构的计算机视觉模块113 识别人脸图像中的口型与相应指令的相似度,在此不做限制。
在另外一些实施例中,当手机10出现图2b所示的情况,或者在其他有含打扰内容的 消息出现的情况下,对出现的消息的另一种处理方式还可以考虑用户发出的声音。具体的 处理过程如下:
(1)在含打扰内容的消息出现时,前置摄像头1211和麦克风1221被自动打开,分别采集手机10前用户的图像(彩色图像)和用户发出的声音。
(2)通过计算机视觉模块113确定前置摄像头1211拍摄到的用户图像中的口型是否 为对应的消息处理指令的口型。计算机视觉模块113的具体处理过程可以与前面实施例中 的A)至F)中的描述相同,为了避免重复,在此不再赘述。
同时,通过语音处理模块114确定麦克风1221采集到的用户发出的语音是否为对应的 消息处理指令的声音。例如,对应免打扰指令的语音为“吹气”的声音,对应查看指令的 语音为音“开”的声音。可以理解,此处“吹气”的语音和“开”的语音是示例性的,并 非限制性的,在本申请的其他实施例中,也可以采用其他语音对应免打扰指令和查看指令。
图8示出了语音处理模块114的一种结构示意图。具体地,如图8所示,语音处理模块114包括语音降噪单元1141、语音增强单元1142以及语音识别单元1143。其中,语音 降噪单元141可以将输入的用户的语音信号进行降噪处理。语音经过语音降噪单元1141 处理后可以有效抑制噪声信号,同时也会一定程度上抑制含有“吹气”的语音或者“开” 的语音的信号分量。因此,一般在语音信号降噪后再传入到语音增强单元112进行有用信 号分量的增强处理。最后,将增强的含有“吹气”或者“开”特征的语音信号传入语音识 别单元143,该单元会自动输出与训练好的“吹气”语音模型或者“开”语音模型的相似 度。例如,语音识别单元143识别出用户发出的语音与“吹气”语音模型的相似度大于某 一语音阈值(即第一语音阈值),则确定用户发出的语音为“吹气”,如果语音识别单元143识别出用户发出的语音与“开”语音模型的相似度大于某一语音阈值(即第二语音阈 值),则确定用户发出的语音为“开”。
此外,可以理解,也可以采用其他语音处理方式来识别用户的语音,不限于图8所示 的结构,在此不做限制。
(3)在一些实施例中,如果计算机视觉模块113确定前置摄像头1211拍摄到的用户图像中的口型为“吹气”口型,并且语音处理模块114识别出用户发出的语音为“吹气”, 则可以向消息管理模块115发送免打扰指令,并关闭前置摄像头1211和麦克风1221。消 息管理模块115接收到免打扰指令后,将显示屏123上出现的含有打扰内容的消息移出显 示屏123,例如,将消息关闭或者将消息移动到其他屏幕(比如折叠屏设备或者双屏设备) 显示。此外,在一些实施例中,如果计算机视觉模块113确定前置摄像头1211拍摄到的用 户图像中的口型为“开”口型,并且语音处理模块114识别出用户发出的语音为“开”, 则向消息管理模块115发送查看指令,并关闭前置摄像头1211和麦克风1221。消息管理 模块115接收到查看指令后,可以在显示屏123将当前显示的应用切换为发送含有打扰内 容的消息的应用,并在该应用的显示界面中显示该消息。
此外,在另外一些实施例中,也可以单独基于语音处理模块114识别出的语音结果来 处理显示屏123上出现的含有打扰内容的消息。例如,当用户发出的语音为“吹气”时,将显示屏123上出现的含有打扰内容的消息移出显示屏123,当用户发出的语音为“开” 时,在显示屏123将当前显示的应用切换为发送含有打扰内容的消息的应用,并在该应用 的显示界面中显示该消息。
在另外一些实施例中,当手机10出现图2b所示的情况,或者在其他有含打扰内容的 消息出现的情况下,对出现的消息的另一种处理方式还可以考虑用户发出的声音。具体的 处理过程如下:
(1)在含打扰内容的消息出现时,前置摄像头1211和麦克风1221被自动打开,分别采集手机10前用户的图像(彩色图像)和用户发出的声音。
(2)通过计算机视觉模块113确定前置摄像头1211拍摄到的用户图像中的口型是否 为对应的消息处理指令的口型。计算机视觉模块113的具体处理过程可以与前面实施例中 的A)至F)中的描述相同,为了避免重复,在此不再赘述。
同时,通过语音处理模块114确定麦克风1221采集到的用户发出的语音是否为对应的 消息处理指令的声音。例如,对应免打扰指令的语音为“吹气”的声音。语音处理模块114 的具体处理过程可以与前面实施例描述的语音处理模块114的处理过程相同,为了避免重 复,在此不再赘述。
此外,也可以采用其他语音处理方式来识别用户的语音,不限于图8所示的结构,在 此不做限制。
(3)在一些实施例中,如果计算机视觉模块113确定前置摄像头1211拍摄到的用户图像中的口型为“吹气”口型,并且语音处理模块114识别出用户发出的语音为“吹气”, 则可以向消息管理模块115发送免打扰指令,并关闭前置摄像头1211和麦克风1221。消 息管理模块115接收到免打扰指令后,将显示屏123上出现的含有打扰内容的消息移出显 示屏123,例如,将消息关闭或者将消息移动到其他屏幕(比如折叠屏设备或者双屏设备) 显示。
可以理解,虽然在上述实施例中,以“吹气”口型对应免打扰指令,以“开”口型对应查看指令,但是,在另外一些实施例中,上述与免打扰指令或者查看指令对应的口型还可以是其他口型,例如,咧开嘴、噘嘴等。
此外,可以理解,在另外一些实施例中,上述对口型的识别可以替换为对人脸上的其 他器官的识别,例如,对眼睛的识别,而与免打扰指令或者查看指令对应的眼睛状态可以 是眼睛从睁开的状态变成闭眼的状态、眼球从直视终端设备的状态变成向上看、眼球左右 移动等动作。
此外,可以理解,在本申请的一些实施例中,只需提取用户口型特征而非整个面部特 征便可实现对含有打扰内容的消息的处理,相比于表情识别,减少了五官识别复杂度,整 个交互流程满足实时性要求。并且,计算机视觉模块所采用的嘴唇分割算法可以有效提取 嘴唇样本,提高了口型识别模型训练和识别的精度。此外,通过识别用户口型是否为“吹气”动作从而判断用户是否有免打扰意图,具有形象性(对着屏幕吹气的动作与吹走屏幕上的消息框的目的形象地结合在一起)和趣味性,提高了用户体验。
此外,可以理解,在本申请的一些实施例中,通过采用图像识别和语音识别的方式, 结合了用户的视听觉信息,能够更加准确却更加简单有效的与用户交互,实现对含有打扰 内容的消息的处理。
基于上面对手机10的消息处理方式的描述,下面具体介绍本申请的图像识别方法的 具体流程。上述描述中的各种相关细节在本流程中依然适用,为了避免重复,在此不再赘 述。具体地,如图9所示,本申请的图像识别方法包括:
1)获取待识别图像(900)。例如,待识别图像可以是上述实施例中描述的从人脸图像中得出的嘴唇区域图像。
2)将待识别图像转换为黑白的转换图像(900)。例如,如上述实施例中描述的,基于公式(4)将彩色的嘴唇区域图像转换为黑白的嘴唇区域图像(即转换图像)。其中,在 转换图像中,像素的第一分量值(如R分量值)和第二分量值(如G分量值)之间的差值 越大,转换后的转换图像中对应位置像素的灰度值越大,并且在转换图像中,目标处(如 嘴唇上)像素的灰度值大于位于目标外部且与目标相接的像素(如嘴唇周围皮肤上的像素) 的灰度值。可以理解,虽然本申请各实施例中虽然像素的灰度值越大,像素越亮,即黑白 的嘴唇区域图像中嘴唇是白色的,但是,在其他实施例中,也可以设置为灰度值越大,像 素越暗,即黑白的嘴唇区域图像中嘴唇是黑色的,周围区域为白色的,只要能将目标从图 像中区分出来即可。
3)基于转换图像识别出目标(902)。例如,如上述实施例中描述的,对转换后的黑白的嘴唇区域图像进行二值化处理得出二值化图像,然后对二值化图像进行降噪处理,并确定降噪处理后的二值化图像中的目标的轮廓,然后基于二值化图像中目标的轮廓分割出目标。
基于上面对手机10的消息处理方式的描述,下面具体介绍本申请的终端消息处理方 法的具体流程。上述描述中的各种相关细节在本流程中依然适用,为了避免重复,在此不 再赘述。具体地,如图10所示,本申请的一种终端消息处理方法包括:
1)在终端屏幕显示第一应用时,判断屏幕上是否出现来自第二应用的消息(1000)。 例如,如上所述的,在手机10观看视频时,出现来自聊天软件的消息。
2)打开终端的摄像头获取终端屏幕前用户的人脸图像(1002),并对人脸图像进行图 像识别,以识别出人脸图像中的嘴唇的口型(1004)。
3)判断识别出的口型与对应免打扰指令的口型之间的相似度是否大于第一口型阈值 (1006),如果判断结果为是,则将第二应用的消息移出屏幕(1012),如果判断结果为否, 则判断识别出的口型与对应查看指令的口型之间的相似度是否大于第二口型阈值(1008)。
可以理解,第一和第二口型阈值可以根据实际情况进行设置。
此外,可以理解,在一些实施例中,对消息的处理方式可以只有移出,即不进行查看 指令的相关判断。
4)如果识别出的口型与对应查看指令的口型之间的相似度大于第二口型阈值,则将 屏幕从显示第一应用切换为显示第二应用中的消息(1010)。
图11示出了本申请的另一种终端消息处理方法的流程示意图,具体地,如图11所示, 本申请的一种终端消息处理方法包括:
1)在终端屏幕显示第一应用时,判断屏幕上是否出现来自第二应用的消息(1100)。 例如,如上所述的,在手机10观看视频时,出现来自聊天软件的消息。
2)打开终端的摄像头获取终端屏幕前用户的人脸图像,并打开终端的麦克风采集用 户发出的语音(1102)。
3)对人脸图像进行图像识别,以识别出人脸图像中的嘴唇的口型,并对采集到的语 音进行语音识别(1104)。
4)判断识别出的口型与对应免打扰指令的口型之间的相似度是否大于第一口型阈值, 并且识别出的语音与对应免打扰指令的语音之间的相似度是否大于第一语音阈值(1006), 如果两者的判断结果均为是,则将第二应用的消息移出屏幕(1012),如果判断结果为否, 则判断识别出的口型与对应查看指令的口型之间的相似度是否大于第二口型阈值,并判断 识别出的语音与对应查看指令的语音之间的相似度是否大于第二语音阈值(1108)。
可以理解,第一和第二口型阈值、第一和第二语音阈值可以根据实际情况进行设置。
此外,可以理解,在一些实施例中,对消息的处理方式可以只有移出,即不进行查看 指令的相关判断。
5)如果识别出的口型与对应查看指令的口型之间的相似度大于第二口型阈值,并且 识别出的语音与对应查看指令的语音之间的相似度大于第二语音阈值,则将屏幕从显示第 一应用切换为显示第二应用中的消息(1110)。
对应上述图像识别方法,图12示出了一种图像识别装置的结构示意图,可以理解,上述图像识别方法中的具体技术细节,在该装置中也适用,为了避免重复,在此不再赘述。
如图12所示,图像识别装置包括:
获取模块1200,用于获取待识别图像。
图像转换模块1202,用于将待识别图像转换为黑白的转换图像,其中,待识别图像中 像素的第一分量值和第二分量值之间的差值越大,转换后的转换图像中对应位置像素的灰 度值越大,并且在转换图像中,目标处的像素的灰度值大于位于目标外部且与目标相接的 像素的灰度值。
第一图像识别模块1204,用于基于转换图像识别出目标。
对应上述终端消息处理方法,图13示出了一种终端的结构示意图,可以理解,上述终端消息处理方法中的具体技术细节,在该装置中也适用,为了避免重复,在此不再赘述。
具体地,如图13所示,该终端包括:
消息判断模块1300,用于在终端屏幕显示第一应用时,判断屏幕上是否出现来自第二 应用的消息。
获取模块1302,用于在屏幕上出现来自第二应用的消息的情况下,获取所述用户的人 脸图像。
第二图像识别模块1304,用于对获取到的人脸图像进行图像识别,以识别出人脸图像 中的嘴唇的口型。例如,第二图像识别模块1304利用上述图像识别装置识别出人脸图像 中的嘴唇的口型。
消息处理模块1306,用于基于识别出的所述嘴唇确定对所述第二应用的消息的处理方 式。
现在参考图14,所示为根据本申请的一个实施例的系统1400的框图。图14示意性地 示出了根据多个实施例的示例系统1400。在一个实施例中,系统1400可以包括一个或多个处理器1404,与处理器1404中的至少一个连接的系统控制逻辑1408,与系统控制逻辑1408连接的系统内存1412,与系统控制逻辑1408连接的非易失性存储器(NVM)1416, 以及与系统控制逻辑1408连接的网络接口1420。
在一些实施例中,处理器1404可以包括一个或多个单核或多核处理器。在一些实施 例中,处理器1404可以包括通用处理器和专用处理器(例如,图形处理器,应用处理器,基带处理器等)的任意组合。在系统1400采用eNB(Evolved Node B,增强型基站)101 或RAN(Radio Access Network,无线接入网)控制器102的实施例中,处理器1404可以 被配置为执行各种符合的实施例,例如,如图1-4所示的多个实施例中的一个或多个。
在一些实施例中,系统控制逻辑1408可以包括任意合适的接口控制器,以向处理器 1404中的至少一个和/或与系统控制逻辑1408通信的任意合适的设备或组件提供任意合适 的接口。
在一些实施例中,系统控制逻辑1408可以包括一个或多个存储器控制器,以提供连 接到系统内存1412的接口。系统内存1412可以用于加载以及存储数据和/或指令。在一些 实施例中系统1400的内存1412可以包括任意合适的易失性存储器,例如合适的动态随机 存取存储器(DRAM)。
NVM/存储器1416可以包括用于存储数据和/或指令的一个或多个有形的、非暂时性的 计算机可读介质。在一些实施例中,NVM/存储器1416可以包括闪存等任意合适的非易失 性存储器和/或任意合适的非易失性存储设备,例如HDD(Hard Disk Drive,硬盘驱动器), CD(Compact Disc,光盘)驱动器,DVD(Digital Versatile Disc,数字通用光盘)驱动器 中的至少一个。
NVM/存储器1416可以包括安装系统1400的装置上的一部分存储资源,或者它可以由设备访问,但不一定是设备的一部分。例如,可以经由网络接口1420通过网络访问NVM/存储1416。
特别地,系统内存1412和NVM/存储器1416可以分别包括:指令1424的暂时副本 和永久副本。指令1424可以包括:由处理器1404中的至少一个执行时导致系统1400实 施如图3-4所示的方法的指令。在一些实施例中,指令1424、硬件、固件和/或其软件组件 可另外地/替代地置于系统控制逻辑1408,网络接口1420和/或处理器1404中。
网络接口1420可以包括收发器,用于为系统1400提供无线电接口,进而通过一个或 多个网络与任意其他合适的设备(如前端模块,天线等)进行通信。在一些实施例中,网络接口1420可以集成于系统1400的其他组件。例如,网络接口1420可以集成于处理器 1404的,系统内存1412,NVM/存储器1416,和具有指令的固件设备(未示出)中的至 少一种,当处理器1404中的至少一个执行所述指令时,系统1400实现如图9-11所示的方 法。
网络接口1420可以进一步包括任意合适的硬件和/或固件,以提供多输入多输出无线 电接口。例如,网络接口1420可以是网络适配器,无线网络适配器,电话调制解调器和/ 或无线调制解调器。
在一个实施例中,处理器1404中的至少一个可以与用于系统控制逻辑1408的一个或 多个控制器的逻辑封装在一起,以形成系统封装(SiP)。在一个实施例中,处理器1404中的至少一个可以与用于系统控制逻辑1408的一个或多个控制器的逻辑集成在同一管芯上,以形成片上系统(SoC)。
系统1400可以进一步包括:输入/输出(I/O)设备1432。I/O设备1432可以包括用户界面,使得用户能够与系统1400进行交互;外围组件接口的设计使得外围组件也能够与 系统1400交互。在一些实施例中,系统1400还包括传感器,用于确定与系统1400相关 的环境条件和位置信息的至少一种。
在一些实施例中,用户界面可包括但不限于显示器(例如,液晶显示器,触摸屏显示 器等),扬声器,麦克风,一个或多个相机(例如,静止图像照相机和/或摄像机),手电筒(例如,发光二极管闪光灯)和键盘。
在一些实施例中,外围组件接口可以包括但不限于非易失性存储器端口、音频插孔和 电源接口。
在一些实施例中,传感器可包括但不限于陀螺仪传感器,加速度计,近程传感器,环 境光线传感器和定位单元。定位单元还可以是网络接口1420的一部分或与网络接口1420 交互,以与定位网络的组件(例如,全球定位系统(GPS)卫星)进行通信。
根据本申请的实施例,图15示出了一种SoC(System on Chip,片上系统)1500的框图。在图15中,相似的部件具有同样的附图标记。另外,虚线框是更先进的SoC的可 选特征。在图15中,SoC 1500包括:互连单元1550,其被耦合至应用处理器1515;系统 代理单元1570;总线控制器单元1580;集成存储器控制器单元1540;一组或一个或多个 协处理器1520,其可包括集成图形逻辑、图像处理器、音频处理器和视频处理器;静态 随机存取存储器(SRAM)单元1530;直接存储器存取(DMA)单元1560。在一个实施例中, 协处理器1520包括专用处理器,诸如例如网络或通信处理器、压缩引擎、GPGPU、高吞吐 量MIC处理器、或嵌入式处理器等等。
本申请公开的机制的各实施例可以被实现在硬件、软件、固件或这些实现方法的组合 中。本申请的实施例可实现为在可编程系统上执行的计算机程序或程序代码,该可编程系 统包括至少一个处理器、存储系统(包括易失性和非易失性存储器和/或存储元件)、至少 一个输入设备以及至少一个输出设备。
可将程序代码应用于输入指令,以执行本申请描述的各功能并生成输出信息。可以 按已知方式将输出信息应用于一个或多个输出设备。为了本申请的目的,处理系统包括具 有诸如例如数字信号处理器(DSP)、微控制器、专用集成电路(ASIC)或微处理器之类的处理器的任何系统。
程序代码可以用高级程序化语言或面向对象的编程语言来实现,以便与处理系统通 信。在需要时,也可用汇编语言或机器语言来实现程序代码。事实上,本申请中描述的机制不限于任何特定编程语言的范围。在任一情形下,该语言可以是编译语言或解释语言。
在一些情况下,所公开的实施例可以以硬件、固件、软件或其任何组合来实现。所公开的实施例还可以被实现为由一个或多个暂时或非暂时性机器可读(例如,计算机可读)存储介质承载或存储在其上的指令,其可以由一个或多个处理器读取和执行。例如,指令可以通过网络或通过其他计算机可读介质分发。因此,机器可读介质可以包括用于以机器(例如,计算机)可读的形式存储或传输信息的任何机制,包括但不限于,软盘、光盘、 光碟、只读存储器(CD-ROMs)、磁光盘、只读存储器(ROM)、随机存取存储器(RAM)、 可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、磁卡或 光卡、闪存、或用于利用因特网以电、光、声或其他形式的传播信号来传输信息(例如, 载波、红外信号数字信号等)的有形的机器可读存储器。因此,机器可读介质包括适合于 以机器(例如,计算机)可读的形式存储或传输电子指令或信息的任何类型的机器可读介 质。
在附图中,可以以特定布置和/或顺序示出一些结构或方法特征。然而,应该理解,可能不需要这样的特定布置和/或排序。而是,在一些实施例中,这些特征可以以不同于说明性附图中所示的方式和/或顺序来布置。另外,在特定图中包括结构或方法特征并不意味着暗示在所有实施例中都需要这样的特征,并且在一些实施例中,可以不包括这些特征或者可以与其他特征组合。
需要说明的是,本申请各设备实施例中提到的各单元/模块都是逻辑单元/模块,在物 理上,一个逻辑单元/模块可以是一个物理单元/模块,也可以是一个物理单元/模块的一部 分,还可以以多个物理单元/模块的组合实现,这些逻辑单元/模块本身的物理实现方式并 不是最重要的,这些逻辑单元/模块所实现的功能的组合才是解决本申请所提出的技术问题 的关键。此外,为了突出本申请的创新部分,本申请上述各设备实施例并没有将与解决本 申请所提出的技术问题关系不太密切的单元/模块引入,这并不表明上述设备实施例并不存 在其它的单元/模块。
需要说明的是,在本专利的示例和说明书中,诸如第一和第二等之类的关系术语仅仅 用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体 或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其 他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备 不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方 法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个”限定的要 素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
虽然通过参照本申请的某些优选实施例,已经对本申请进行了图示和描述,但本领域 的普通技术人员应该明白,可以在形式上和细节上对其作各种改变,而不偏离本申请的精 神和范围。

Claims (19)

1.一种图像识别方法,其特征在于,包括:
获取待识别图像;
将待识别图像转换为黑白的转换图像,其中,
所述待识别图像中像素的第一分量值和第二分量值之间的差值越大,转换后的所述转换图像中对应位置像素的灰度值越大,并且在所述转换图像中,所述目标处像素的灰度值大于位于所述目标外部且与所述目标相接的像素的灰度值;基于所述转换图像识别出所述目标。
2.如权利要求1所述的图像识别方法,其特征在于,所述基于所述转换图像识别出所述目标包括:
基于所述转换图像中各像素的所述灰度值,对所述转换图像进行二值化处理,得到二值化图像;
从所述二值化图像中分割出所述目标。
3.如权利要求2所述的图像识别方法,其特征在于,所述基于所述转换图像识别出所述目标还包括:
对所述二值化图像进行降噪处理,并确定降噪处理后的所述二值化图像中的目标的轮廓;
并且所述从所述二值化图像中分割出所述目标包括:
基于所述二值化图像中所述目标的轮廓分割出所述目标。
4.如权利要求1至3中任一项所述的图像识别方法,其特征在于,所述目标为嘴唇,并且所述方法还包括:
获取人脸图像,并对人脸图像进行初定位,得到仅包含人的嘴唇的所述待识别图像;并且
所述将所述待识别图像转换为黑白的转换图像包括:
将所述待识别图像中各像素在RGB空间的像素值输入下列公式中,得出所述转换图像中各像素的灰度值:
Figure FDA0002248439960000021
其中,h表示转换图像中像素的灰度值,R、G、B分别表示待识别图像中的像素在RGB空间中的分量值。
5.一种终端的消息处理方法,其特征在于,包括:
在终端屏幕显示第一应用时,判断屏幕上是否出现来自第二应用的消息;
在屏幕上出现来自第二应用的消息的情况下,获取所述屏幕前用户的人脸图像;
对获取到的人脸图像进行图像识别,以识别出人脸图像中的嘴唇的口型;
基于识别出的所述嘴唇的口型确定对所述第二应用的消息的处理方式。
6.如权利要求5所述的消息处理方法,其特征在于,基于识别出的所述嘴唇的口型确定对所述第二应用的消息的处理方式包括:
判断识别出的所述嘴唇的口型与对应免打扰指令的口型之间的相似度是否大于第一口型阈值;
在判断出所述口型之间的相似度大于第一口型阈值的情况下,将所述第二应用的消息移出屏幕。
7.如权利要求6所述的消息处理方法,其特征在于,基于识别出的所述嘴唇的口型确定对所述第二应用的消息的处理方式包括:
判断识别出的所述嘴唇的口型与对应查看指令的口型之间的相似度是否大于第二口型阈值;
在判断出所述口型之间的相似度大于第二口型阈值的情况下,将所述屏幕从显示所述第一应用切换为显示所述第二应用中的所述消息。
8.如权利要求5所述的消息处理方法,其特征在于,还包括:
采集用户发出的语音,并对采集到的语音进行语音识别;并且
基于识别出的所述嘴唇确定对所述第二应用的消息的处理方式包括:
判断识别出的所述嘴唇的口型与对应免打扰指令的口型之间的相似度是否大于第一口型阈值,并判断所述语音识别识别出的语音与对应免打扰指令的语音之间的相似度是否大于第一语音阈值;
在判断出所述口型之间的相似度大于第一口型阈值并且所述语音之间的相似度大于第一语音阈值的情况下,将所述第二应用的消息移出屏幕。
9.如权利要求8所述的消息处理方法,其特征在于,基于识别出的所述嘴唇的口型确定对所述第二应用的消息的处理方式包括:
判断识别出的所述嘴唇的口型与对应查看指令的口型之间的相似度是否大于第二口型阈值,并判断所述语音识别识别出的语音与对应查看指令的语音之间的相似度是否大于第二语音阈值;
在判断出所述口型之间的相似度大于第二口型阈值并且所述语音之间的相似度大于第二语音阈值的情况下,将所述屏幕从显示所述第一应用切换为显示所述第二应用中的所述消息。
10.如权利要求5至9中任一项所述的消息处理方法,其特征在于,所述对获取到的人脸图像进行图像识别,以识别出人脸图像中的嘴唇的口型包括:
采用权利要求4所述的图像识别方法,识别出所述人脸图像中的嘴唇。
11.如权利要求6至9中任一项所述的消息处理方法,其特征在于,通过卷积神经网络算法判断识别出的所述嘴唇的口型与对应免打扰指令的口型之间的相似度是否大于第一口型阈值。
12.如权利要求7或9所述的消息处理方法,其特征在于,通过卷积神经网络算法判断识别出的所述嘴唇的口型与对应查看指令的口型之间的相似度是否大于第二口型阈值。
13.如权利要求11或12所述的消息处理方法,其特征在于,所述卷积神经网络算法在进行训练时,采用权利要求4所述的图像识别方法识别训练所用的人脸图像中的嘴唇。
14.一种图像识别装置,其特征在于,所述装置包括:
获取模块,用于获取待识别图像;
图像转换模块,用于将所述待识别图像转换为黑白的转换图像,其中,
所述待识别图像中像素的第一分量值和第二分量值之间的差值越大,转换后的所述转换图像中对应位置像素的灰度值越大,并且在所述转换图像中,所述目标处的像素的灰度值大于位于所述目标外部且与所述目标相接的像素的灰度值;
第一图像识别模块,用于基于所述转换图像识别出所述目标。
15.一种终端,其特征在于,包括:
消息判断模块,用于在终端屏幕显示第一应用时,判断屏幕上是否出现来自第二应用的消息;
获取模块,用于在屏幕上出现来自第二应用的消息的情况下,获取所述用户的人脸图像;
第二图像识别模块,用于对获取到的人脸图像进行图像识别,以识别出人脸图像中的嘴唇的口型;
消息处理模块,用于基于识别出的所述嘴唇的口型确定对所述第二应用的消息的处理方式。
16.一种机器可读介质,其特征在于,所述机器可读介质上存储有指令,该指令在机器上执行时使机器执行权利要求1至4中任一项所述的图像识别方法。
17.一种机器可读介质,其特征在于,所述机器可读介质上存储有指令,该指令在机器上执行时使机器执行权利要求5至13中任一项所述的终端的消息处理方法。
18.一种系统,包括:
存储器,用于存储由系统的一个或多个处理器执行的指令,以及
处理器,是系统的处理器之一,用于执行权利要求1至4中任一项所述的图像识别方法。
19.一种系统,包括:
存储器,用于存储由系统的一个或多个处理器执行的指令,以及
处理器,是系统的处理器之一,用于执行权利要求5至13中任一项所述的终端的消息处理方法。
CN201911025289.1A 2019-10-25 2019-10-25 终端消息处理方法及其图像识别方法、装置、介质和系统 Pending CN112711971A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201911025289.1A CN112711971A (zh) 2019-10-25 2019-10-25 终端消息处理方法及其图像识别方法、装置、介质和系统
PCT/CN2020/108463 WO2021077863A1 (zh) 2019-10-25 2020-08-11 终端消息处理方法及其图像识别方法、装置、介质和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911025289.1A CN112711971A (zh) 2019-10-25 2019-10-25 终端消息处理方法及其图像识别方法、装置、介质和系统

Publications (1)

Publication Number Publication Date
CN112711971A true CN112711971A (zh) 2021-04-27

Family

ID=75540855

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911025289.1A Pending CN112711971A (zh) 2019-10-25 2019-10-25 终端消息处理方法及其图像识别方法、装置、介质和系统

Country Status (2)

Country Link
CN (1) CN112711971A (zh)
WO (1) WO2021077863A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113486892B (zh) * 2021-07-02 2023-11-28 东北大学 基于智能手机图像识别的生产信息采集方法及系统
WO2023197296A1 (en) * 2022-04-15 2023-10-19 Orange Hand-free method for operating a device with an operating interface
CN115171677A (zh) * 2022-06-01 2022-10-11 合众新能源汽车有限公司 语音处理方法、装置、电子设备、存储介质及产品
CN115424353B (zh) * 2022-09-07 2023-05-05 杭银消费金融股份有限公司 基于ai模型的业务用户特征识别方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09198082A (ja) * 1996-01-12 1997-07-31 Oki Electric Ind Co Ltd 音声認識装置
CN101916566A (zh) * 2010-07-09 2010-12-15 西安交通大学 一种电子喉语音重建方法及其系统
CN105096935A (zh) * 2014-05-06 2015-11-25 阿里巴巴集团控股有限公司 一种语音输入方法、装置和系统
CN105516576A (zh) * 2014-09-22 2016-04-20 中兴通讯股份有限公司 一种基于口型识别的拍照方法、装置和移动终端
CN107038401A (zh) * 2016-02-03 2017-08-11 北方工业大学 一种嘴唇轮廓的分割及特征提取方法
CN107678547A (zh) * 2017-09-27 2018-02-09 维沃移动通信有限公司 一种信息通知的处理方法及移动终端

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005284471A (ja) * 2004-03-29 2005-10-13 Omron Corp 画像処理装置及び画像処理方法
CN102129683B (zh) * 2011-03-17 2013-01-09 上海大学 基于中医望诊的口唇图像自动分割方法
CN107205079A (zh) * 2016-03-17 2017-09-26 北京京东尚科信息技术有限公司 隐藏推送通知的方法和装置
CN107578008B (zh) * 2017-09-02 2020-07-17 吉林大学 基于分块特征矩阵算法和svm的疲劳状态检测方法
CN107682530A (zh) * 2017-09-06 2018-02-09 深圳天珑无线科技有限公司 一种清理消息的方法、移动终端及具有存储功能的装置
CN107832714B (zh) * 2017-11-14 2020-07-07 腾讯科技(上海)有限公司 活体鉴别方法、装置及存储设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09198082A (ja) * 1996-01-12 1997-07-31 Oki Electric Ind Co Ltd 音声認識装置
CN101916566A (zh) * 2010-07-09 2010-12-15 西安交通大学 一种电子喉语音重建方法及其系统
CN105096935A (zh) * 2014-05-06 2015-11-25 阿里巴巴集团控股有限公司 一种语音输入方法、装置和系统
CN105516576A (zh) * 2014-09-22 2016-04-20 中兴通讯股份有限公司 一种基于口型识别的拍照方法、装置和移动终端
CN107038401A (zh) * 2016-02-03 2017-08-11 北方工业大学 一种嘴唇轮廓的分割及特征提取方法
CN107678547A (zh) * 2017-09-27 2018-02-09 维沃移动通信有限公司 一种信息通知的处理方法及移动终端

Also Published As

Publication number Publication date
WO2021077863A1 (zh) 2021-04-29

Similar Documents

Publication Publication Date Title
US11727577B2 (en) Video background subtraction using depth
US10430694B2 (en) Fast and accurate skin detection using online discriminative modeling
CN108229277B (zh) 手势识别、手势控制及多层神经网络训练方法、装置及电子设备
CN112711971A (zh) 终端消息处理方法及其图像识别方法、装置、介质和系统
US20240112035A1 (en) 3d object recognition using 3d convolutional neural network with depth based multi-scale filters
CN106797451B (zh) 具有模型验证和管理的视觉对象跟踪系统
US10491895B2 (en) Fast and robust human skin tone region detection for improved video coding
CN107810505B (zh) 实时图像捕获参数的机器学习
CN107257980B (zh) 视频中的局部改变检测
US20170339417A1 (en) Fast and robust face detection, region extraction, and tracking for improved video coding
US20220319077A1 (en) Image-text fusion method and apparatus, and electronic device
CN108038836B (zh) 一种图像处理方法、装置及移动终端
EP3129915B1 (en) Object detection using directional filtering
CN108234882B (zh) 一种图像虚化方法及移动终端
CN108259758B (zh) 图像处理方法、装置、存储介质和电子设备
CN112669197A (zh) 图像处理方法、装置、移动终端及存储介质
US20180314916A1 (en) Object detection with adaptive channel features
CN110321896A (zh) 黑头识别方法、装置及计算机可读存储介质
CN113610720A (zh) 视频去噪方法及装置、计算机可读介质和电子设备
CN116580305A (zh) 一种基于深度学习的茶芽检测方法及其模型搭建方法
KR20130111021A (ko) 영상처리장치 및 영상처리방법
US20240320806A1 (en) Image processing method and apparatus, electronic device and computer readable storage medium
CN114882226A (zh) 图像处理方法、智能终端及存储介质
CN109218803A (zh) 视频增强控制方法、装置以及电子设备
CN114676360B (zh) 图像处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination