CN110309799B - 基于摄像头的说话判断方法 - Google Patents
基于摄像头的说话判断方法 Download PDFInfo
- Publication number
- CN110309799B CN110309799B CN201910604180.7A CN201910604180A CN110309799B CN 110309799 B CN110309799 B CN 110309799B CN 201910604180 A CN201910604180 A CN 201910604180A CN 110309799 B CN110309799 B CN 110309799B
- Authority
- CN
- China
- Prior art keywords
- key point
- user
- discrete data
- training
- mouth
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明涉及互联网多媒体技术领域,公开了一种基于摄像头的说话判断方法,用以提高说话判断的精确度。本发明先通过摄像头连续获取用户图像,调用预先训练完毕的人脸关键点检测模型对图像进行检测识别,实时得到各个用户图像的用户人脸的关键点坐标集;再基于关键点坐标集得到数秒内嘴部上下坐标欧式距离的一组离散数据以及嘴部的左右宽度;再将上述得到的离散数据映射到频域进行分析计算,计算出离散数据落在不同数值区间的概率值;最后通过分析各个数值区间的概率值,得出人是否在说话。本发明适用于电视语音交互。
Description
技术领域
本发明涉及图像处理技术领域,特别涉及基于摄像头的说话判断方法。
背景技术
随着近几年国家大力发展AI技术,AI基本上渗透了各行各业,电视领域也不例外。相比传统的电视技术,AI为电视领域技术的发展提供了突破口,使得电视可以和用户之间进行智能交互,让电视能够更懂用户。
智能交互包含语音、图像甚至是体感的交互,目前电视上使用最多的交互还是语音交互,由于目前电视本身存在的硬件计算能力限制,不可能电视随时都要对用户语音进行处理,所以目前的技术都需要每次语音交互前都用上唤醒词。如果加上图像技术,电视‘观察’用户是否在说话,就可以避免用户使用唤醒词,电视也更加智能。
而判断用户是否在说话,目前的技术仍然仅在判断用户是否张嘴这种简单的判断上,忽视了用户可能在大笑、打哈欠甚至是吃东西。这种简单的判断会增加电视的误判,影响用户的AI体验。
发明内容
本发明要解决的技术问题是:提供一种基于摄像头的说话判断方法,用以提高说话判断的精确度。
为解决上述问题,本发明采用的技术方案是:基于摄像头的说话判断方法,包括以下步骤:
通过摄像头连续获取用户图像,调用预先训练完毕的人脸关键点检测模型对图像进行检测识别,实时得到各个用户图像的用户人脸的关键点坐标集;
从关键点坐标集中取出上嘴唇和下嘴唇的关键点坐标,并计算两个坐标的欧式距离,将距离数据存入缓存中,从而得到数秒内嘴部上下坐标欧式距离的一组离散数据;
基于关键点坐标集中的左右关键点坐标计算嘴部的左右宽度;
将上述得到的离散数据映射到频域进行分析计算,包括:首先,以用户嘴部宽度设定一个判定张嘴阈值,获取这组离散数据中用户可能正在说话的某段数据,这段数据以从前往后和从后往前两种序列方向选取离散数据组中第一个超出张嘴阈值的数值作为开始和结束;然后基于张嘴阈值构建多个数值区间,计算这段离散数据落在不同数值区间的概率值;
通过分析各个数值区间的概率值,得出人是否在说话。
具体的,所述预先训练完毕的人脸关键点检测模型为卷积神经网络,基础网络可采用基于tensorflow的mobilenet神经网络,该神经网络的训练过程如下:
A、针对神经网络输入特点,收集预设数量的人脸图像样本;
B、对每一张人脸图像样本,提取出人脸关键点信息以及图像样本本身的图像大小和图像格式等信息;
C、针对上述两步获取的图像样本及其样本信息,将其生成tensorflow支持的tfrecord格式的训练文件和验证文件,训练文件和验证文件的图像不同,但其存储的图像格式和图像信息格式相同;
D、利用训练文件对模型进行训练,以生成预先确定的人脸关键点检测模型,并利用验证文件对生成的人脸关键点检测模型进行验证;
E、若模型loss下降到预设阈值,或者训练步数达到一定的步数,则训练完成;
F、若模型loss未下降到预设阈值,则增加有人脸图像样本,或者调试模型参数,重复执行上述步骤A、B、C、D、E,直到训练完成。
进一步的,本发明可以以用户嘴部宽度的0.1倍作为判定张嘴阈值,记张嘴阈值L,基于张嘴阈值构建的数值区间可依次包括(0,0.5L]、(0.5L,L]、(L,2L]、(2L,3L]、(3L,4L]、(4L,最大张嘴值]六个区间。
进一步的,所述通过分析各个数值区间的概率值,得出人是否在说话具体包括:
若离散数据在第1个数值区间的概率在0.5以上,则判定为吃东西;若离散数据在第5、6个数值区间其中一个概率在50%以上,则判定为开口笑或打哈欠;若前两种情况都没发生,则判为说话。
本发明的有益效果是:本发明在充分研究人的各种张嘴行为的规律上,通过分析时间序列上,嘴巴张合的频率和张合的大小来判断人是否在说话,能更加准确的识别用户是否在语音交互,减少电视对用户非语音交互时的误判,使电视更加的智能,进一步提升了用户体验。且利用电视端侧能力进行开发,在实现准确性、实时性的同时更保护了用户的隐私。
附图说明
图1为一种基于电视摄像头的说话判断方法的计算流程图。
具体实施方式
为了解决在目前的图像技术中,对说话的判断往往仅判断人的嘴巴是否张合,张开即说话,忽视了人张嘴有可能是笑,吃东西,甚至是打哈欠。本发明公开的一种基于摄像头的说话判断方法是一种在充分研究人的各种张嘴行为的规律上,通过分析时间序列上,嘴巴张合的频率和张合的大小来判断人是否在说话,可用于电视判断用户是否在进行语音交互。本发明以电视说话判断为例,图1为该方法的流程图,本发明方法具体包括以下步骤:
系统通过电视机上的摄像头获取用户人像画面,将用户画面送入到处理程序中进行分析。
调用预先训练完毕的人脸关键点检测模型对用户画面进行检测识别,实时得到用户人脸的关键点坐标集。本发明中,预先训练完毕的人脸关键点检测模型可为卷积神经网络,基础网络采用基于tensorflow的mobilenet神经网络。该神经网络的训练过程如下:
A、针对神经网络输入特点,收集预设数量的人脸图像样本;
B、对每一张人脸图像样本,提取出人脸关键点信息以及图像样本本身的图像大小和图像格式等信息;
C、针对上述两步获取的图像样本及其样本信息,将其生成tensorflow支持的tfrecord格式的训练文件和验证文件,训练文件和验证文件的图像不同,但其存储的图像格式和图像信息格式相同;
D、利用训练文件对模型进行训练,以生成预先确定的人脸关键点检测模型,并利用验证文件对生成的人脸关键点检测模型进行验证;
E、若模型loss下降到预设阈值,或者训练步数达到一定的步数,则训练完成;
F、若模型loss未下降到预设阈值,则增加有人脸图像样本,或者调试模型参数,重复执行上述步骤A、B、C、D、E,直到训练完成。
得到嘴部关键点后,计算上嘴唇和下嘴唇坐标的欧式距离,将距离数据存入缓存中。经过连续多帧的图像处理计算,便得到与时间序列有关的嘴部上下坐标欧式距离的一组离散数据。
将上述得到的离散数据,处理成连续数据,分析该连续数据中用户说话与未说话时的状态,便可以看出在一段时间内,说话的时候数据中会有多个峰值,而用户在大笑和打哈欠的时候,数据中的峰值只有一两个,吃东西的时候峰值基本会是说话时候峰值的两倍以上。
在这里,考虑了用户观看电视的远近,当用户距离电视较近时,嘴部上下坐标的欧式距离相比用户距离电视较远时得到的欧式距离要大一些。为了消除用户距离远近对判断的影响,采用每一帧用户自己的嘴部左右宽度做为嘴部上下坐标的欧式距离的相对基准。
根据以上的特征,将上述得到的离散数据映射到频域进行分析计算:首先,可以以用户嘴部宽度距离的0.1倍作为判定张嘴阈值L,获取这组离散数据中用户可能正在说话的某段数据,这段数据以从前往后和从后往前两种序列方向选取离散数据组中第一个超出阈值的数值作为开始和结束;然后以(0,0.5L]、(0.5L,L]、(L,2L]、(2L,3L]、(3L,4L]、(4L,最大张嘴值]六个值作为数值区间;计算这段离散数据落在不同数值区间的概率值。
分析上述6个数值区间的概率值:若离散数据在第1个数值区间的概率在某个阈值以上,则判定为吃东西;若离散数据在第5、6个数值区间其中一个概率在某个阈值以上,则判定为开口笑或打哈欠;若前两种情况都没发生,则判为说话。
下面通过实施例对本发明做进一步说明。
参考图1,图1为一种基于电视摄像头的说话判断方法的计算流程图。
实施例基于电视摄像头的说话判断方法包括以下步骤:
1、系统持续通过电视机上的摄像头获取720P(1280*720)的用户图像,调用预先训练完毕的人脸关键点检测模型对图像进行检测识别,实时得到用户人脸的106个关键点坐标。
实施例中,预先训练完毕的人脸关键点检测模型为卷积神经网络,基础网络采用基于tensorflow的mobilenet神经网络。该神经网络的训练过程如下:
A、针对神经网络输入特点,收集整理约10w张人脸图像样本,统一设置成224*224*3的图像大小;
B、对每一张人脸图像样本,通过软件和人工处理提取出人脸106个关键点信息;
C、针对上述两步获取的图像样本及其样本信息,将其生成tensorflow支持的tfrecord格式的训练文件和验证文件,训练文件和验证文件的图像不同,但其存储的图像格式和图像信息格式相同。
D、利用训练文件对模型进行训练,以生成预先确定的人脸关键点检测模型,并利用验证文件对生成的人脸关键点检测模型进行验证;
E、若模型loss下降到0.1,或者训练步数达到一定的步数(2万步),则训练完成;
F、若模型loss未下降到0.1,则增加有人脸图像样本,或者调试模型参数,重复执行上述步骤A、B、C、D、E,直到训练完成
2、106个关键点中第97、104分别为上、下嘴唇关键点坐标,从106个关键点中,取上嘴唇第97和下嘴唇第104两个嘴部关键点坐标,计算两个坐标的欧式距离,将距离数据存入缓存中。经过连续多帧的图像处理计算,便可得到数秒内嘴部上下坐标欧式距离的一组离散数据。
3、106个关键点中第86、91分别为嘴部两端的关键点坐标,选取的嘴部左右宽度,即嘴部的第86和第91两个关键点坐标的欧式距离,做为嘴部上下坐标的欧式距离的相对基准。
4、将上述得到的离散数据映射到频域进行分析计算:首先,以用户嘴部宽度距离的0.1倍作为判定张嘴阈值L,获取这组离散数据中用户可能正在说话的某段数据,这段数据以从前往后和从后往前两种序列方向选取离散数据组中第一个超出阈值的数值作为开始和结束;然后以(0,0.5L]、(0.5L,L]、(L,2L]、(2L,3L]、(3L,4L]、(4L,最大张嘴值]六个值作为数值区间;计算这段离散数据落在不同数值区间的概率值。
5、分析6个数值区间的概率值:若离散数据在第1个数值区间的概率在0.5以上,则判定为吃东西;若离散数据在第5、6个数值区间其中一个概率在50%以上,则判定为开口笑或打哈欠;若前两种情况都没发生,则判为说话。
Claims (4)
1.基于摄像头的说话判断方法,其特征在于,包括如下步骤:
通过摄像头连续获取用户图像,调用预先训练完毕的人脸关键点检测模型对图像进行检测识别,实时得到各个用户图像的用户人脸的关键点坐标集;
从关键点坐标集中取出上嘴唇和下嘴唇的关键点坐标,并计算两个坐标的欧式距离,将距离数据存入缓存中,从而得到数秒内嘴部上下坐标欧式距离的一组离散数据;
基于关键点坐标集中的左右关键点坐标计算嘴部的左右宽度;
将上述得到的离散数据映射到频域进行分析计算,包括:首先,以用户嘴部宽度设定一个判定张嘴阈值,获取这组离散数据中用户可能正在说话的某段数据,这段数据以从前往后和从后往前两种序列方向选取离散数据组中第一个超出张嘴阈值的数值作为开始和结束;然后基于张嘴阈值构建多个数值区间,计算这段离散数据落在不同数值区间的概率值;
通过分析各个数值区间的概率值,得出人是否在说话。
2.如权利要求1所述基于摄像头的说话判断方法,其特征在于,所述预先训练完毕的人脸关键点检测模型为卷积神经网络,基础网络采用基于tensorflow的mobilenet神经网络,该神经网络的训练过程如下:
A、针对神经网络输入特点,收集预设数量的人脸图像样本;
B、对每一张人脸图像样本,提取出人脸关键点信息以及图像样本本身的图像大小和图像格式信息;
C、针对上述两步获取的图像样本及其样本信息,将其生成tensorflow支持的tfrecord格式的训练文件和验证文件;
D、利用训练文件对模型进行训练,以生成预先确定的人脸关键点检测模型,并利用验证文件对生成的人脸关键点检测模型进行验证;
E、若模型loss下降到预设阈值,或者训练步数达到一定的步数,则训练完成;
F、若模型loss未下降到预设阈值,则增加有人脸图像样本,或者调试模型参数,重复执行上述步骤A、B、C、D、E,直到训练完成。
3.如权利要求1所述基于摄像头的说话判断方法,其特征在于,以用户嘴部宽度的0.1倍作为判定张嘴阈值,记张嘴阈值L,基于张嘴阈值构建的数值区间依次包括(0,0.5L]、(0.5L,L]、(L,2L]、(2L,3L]、(3L,4L]、(4L,最大张嘴值]六个区间。
4.如权利要求3所述基于摄像头的说话判断方法,其特征在于,所述通过分析各个数值区间的概率值,得出人是否在说话具体包括:
若离散数据在第1个数值区间的概率在0.5以上,则判定为吃东西;若离散数据在第5、6个数值区间其中一个概率在50%以上,则判定为开口笑或打哈欠;若前两种情况都没发生,则判为说话。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910604180.7A CN110309799B (zh) | 2019-07-05 | 2019-07-05 | 基于摄像头的说话判断方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910604180.7A CN110309799B (zh) | 2019-07-05 | 2019-07-05 | 基于摄像头的说话判断方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110309799A CN110309799A (zh) | 2019-10-08 |
CN110309799B true CN110309799B (zh) | 2022-02-08 |
Family
ID=68079197
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910604180.7A Active CN110309799B (zh) | 2019-07-05 | 2019-07-05 | 基于摄像头的说话判断方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110309799B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111428672A (zh) * | 2020-03-31 | 2020-07-17 | 北京市商汤科技开发有限公司 | 交互对象的驱动方法、装置、设备以及存储介质 |
CN112380946B (zh) * | 2020-11-09 | 2022-12-16 | 苏州爱可尔智能科技有限公司 | 一种基于端侧ai芯片的跌倒检测方法及装置 |
CN112380972B (zh) * | 2020-11-12 | 2022-03-15 | 四川长虹电器股份有限公司 | 一种应用于电视场景的音量调节方法 |
CN113158936A (zh) * | 2021-04-29 | 2021-07-23 | 天津市实想科技有限公司 | 一种小学生课堂监控系统及监控方法 |
CN114245032B (zh) * | 2021-12-21 | 2023-06-02 | 睿魔智能科技(深圳)有限公司 | 视频取景的自动切换方法及系统、视频播放器及存储介质 |
CN117198295B (zh) * | 2023-10-30 | 2024-05-14 | 北京龙翼风科技有限公司 | 自适应环境感知的语音智能识别方法和系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102298443A (zh) * | 2011-06-24 | 2011-12-28 | 华南理工大学 | 结合视频通道的智能家居语音控制系统及其控制方法 |
CN105117681A (zh) * | 2015-06-29 | 2015-12-02 | 电子科技大学 | 基于安卓的多特征疲劳实时检测方法 |
CN105159111A (zh) * | 2015-08-24 | 2015-12-16 | 百度在线网络技术(北京)有限公司 | 基于人工智能的智能交互设备控制方法及系统 |
CN105335755A (zh) * | 2015-10-29 | 2016-02-17 | 武汉大学 | 一种涉及媒体片段的说话检测方法及系统 |
CN106358061A (zh) * | 2016-11-11 | 2017-01-25 | 四川长虹电器股份有限公司 | 电视语音遥控系统及方法 |
CN107358167A (zh) * | 2017-06-19 | 2017-11-17 | 西南科技大学 | 一种基于主动红外视频的打哈欠判别方法 |
CN107679506A (zh) * | 2017-10-12 | 2018-02-09 | Tcl通力电子(惠州)有限公司 | 智能产品的唤醒方法、智能产品及计算机可读存储介质 |
CN108668013A (zh) * | 2018-04-06 | 2018-10-16 | 东莞市华睿电子科技有限公司 | 移动终端解锁方法 |
CN109472228A (zh) * | 2018-10-29 | 2019-03-15 | 上海交通大学 | 一种基于深度学习的哈欠检测方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10922567B2 (en) * | 2010-06-07 | 2021-02-16 | Affectiva, Inc. | Cognitive state based vehicle manipulation using near-infrared image processing |
US9672829B2 (en) * | 2015-03-23 | 2017-06-06 | International Business Machines Corporation | Extracting and displaying key points of a video conference |
-
2019
- 2019-07-05 CN CN201910604180.7A patent/CN110309799B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102298443A (zh) * | 2011-06-24 | 2011-12-28 | 华南理工大学 | 结合视频通道的智能家居语音控制系统及其控制方法 |
CN105117681A (zh) * | 2015-06-29 | 2015-12-02 | 电子科技大学 | 基于安卓的多特征疲劳实时检测方法 |
CN105159111A (zh) * | 2015-08-24 | 2015-12-16 | 百度在线网络技术(北京)有限公司 | 基于人工智能的智能交互设备控制方法及系统 |
CN105335755A (zh) * | 2015-10-29 | 2016-02-17 | 武汉大学 | 一种涉及媒体片段的说话检测方法及系统 |
CN106358061A (zh) * | 2016-11-11 | 2017-01-25 | 四川长虹电器股份有限公司 | 电视语音遥控系统及方法 |
CN107358167A (zh) * | 2017-06-19 | 2017-11-17 | 西南科技大学 | 一种基于主动红外视频的打哈欠判别方法 |
CN107679506A (zh) * | 2017-10-12 | 2018-02-09 | Tcl通力电子(惠州)有限公司 | 智能产品的唤醒方法、智能产品及计算机可读存储介质 |
CN108668013A (zh) * | 2018-04-06 | 2018-10-16 | 东莞市华睿电子科技有限公司 | 移动终端解锁方法 |
CN109472228A (zh) * | 2018-10-29 | 2019-03-15 | 上海交通大学 | 一种基于深度学习的哈欠检测方法 |
Non-Patent Citations (3)
Title |
---|
A Practical Approach for Recognizing Eating Moments with Wrist-Mounted Inertial Sensing;Edison Thomaz 等;《Proc ACM Int Conf Ubiquitous Compu》;20150930;1-32 * |
基于HMM与深度学习的唇读识别研究;宋文明;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20180415(第04期);I138-2312 * |
基于机器视觉的驾驶员嘴部状态检测方法;施树明 等;《吉林大学学报(工学版)》;20040430;第34卷(第2期);232-236 * |
Also Published As
Publication number | Publication date |
---|---|
CN110309799A (zh) | 2019-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110309799B (zh) | 基于摄像头的说话判断方法 | |
CN107928673B (zh) | 音频信号处理方法、装置、存储介质和计算机设备 | |
CN110853646A (zh) | 会议发言角色的区分方法、装置、设备及可读存储介质 | |
US20210118151A1 (en) | Methods and apparatus to generate temporal representations for action recognition systems | |
US20220269881A1 (en) | Micro-expression recognition method based on multi-scale spatiotemporal feature neural network | |
CN105160318A (zh) | 基于面部表情的测谎方法及系统 | |
CN109934300B (zh) | 模型压缩方法、装置、计算机设备及存储介质 | |
CN110321863A (zh) | 年龄识别方法及装置、存储介质 | |
CN106847305B (zh) | 一种处理客服电话的录音数据的方法及装置 | |
WO2022166532A1 (zh) | 人脸识别方法、装置、电子设备及存储介质 | |
CN113111690B (zh) | 一种人脸表情分析方法和系统及满意度分析方法和系统 | |
CN113139439B (zh) | 一种基于人脸识别的在线学习专注度评价方法及装置 | |
US11238289B1 (en) | Automatic lie detection method and apparatus for interactive scenarios, device and medium | |
CN112132797B (zh) | 一种短视频质量筛选方法 | |
CN112257491B (zh) | 自适应调度人脸识别和属性分析方法及装置 | |
CN114492579A (zh) | 情绪识别方法、摄像装置、情绪识别装置及存储装置 | |
CN111860057A (zh) | 人脸图像模糊和活体检测方法、装置、存储介质及设备 | |
WO2021179714A1 (zh) | 人工合成语音检测方法、装置、计算机设备及存储介质 | |
CN115880782B (zh) | 基于ai的签字动作识别定位方法、识别训练方法及系统 | |
CN110796071B (zh) | 行为检测方法、系统、机器可读介质及设备 | |
CN112151054A (zh) | 音频降噪处理方法、装置、服务器及存储介质 | |
CN109255016A (zh) | 基于深度学习的应答方法、装置及计算机可读存储介质 | |
CN106599765A (zh) | 基于对象连续发音的视-音频判断活体的方法及系统 | |
CN113554685A (zh) | 遥感卫星运动目标检测方法、装置、电子设备及存储介质 | |
CN105956550A (zh) | 一种视频鉴别的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |