CN107239139A - 基于正视的人机交互方法与系统 - Google Patents

基于正视的人机交互方法与系统 Download PDF

Info

Publication number
CN107239139A
CN107239139A CN201710354064.5A CN201710354064A CN107239139A CN 107239139 A CN107239139 A CN 107239139A CN 201710354064 A CN201710354064 A CN 201710354064A CN 107239139 A CN107239139 A CN 107239139A
Authority
CN
China
Prior art keywords
user
behavior
identification
equipment
view data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710354064.5A
Other languages
English (en)
Other versions
CN107239139B (zh
Inventor
刘国华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201710354064.5A priority Critical patent/CN107239139B/zh
Publication of CN107239139A publication Critical patent/CN107239139A/zh
Application granted granted Critical
Publication of CN107239139B publication Critical patent/CN107239139B/zh
Priority to EP18803148.8A priority patent/EP3627290A4/en
Priority to PCT/CN2018/086805 priority patent/WO2018210219A1/zh
Priority to US16/614,694 priority patent/US11163356B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/012Head tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/002Specific input/output arrangements not covered by G06F3/01 - G06F3/16
    • G06F3/005Input arrangements through a video camera
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/4223Cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/44213Monitoring of end-user related data
    • H04N21/44218Detecting physical presence or behaviour of the user, e.g. using sensors to detect if the user is leaving the room or changes his face expression during a TV program
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Social Psychology (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • User Interface Of Digital Computer (AREA)
  • Collating Specific Patterns (AREA)

Abstract

本发明提供一种基于正视的人机交互方法与系统,获取通过图像采集设备采集的用户与设备处于相对正视状态下的正视图像数据,采集用户当前图像数据,将当前采集的图像数据与正视图像数据比较,当一致时,通过计算机的视觉识别技术和语音识别技术识别用户行为和意图,根据预设用户的行为与意图与操作对应关系,控制设备执行与用户当前的行为与意图对应的操作。整个过程中,基于图像采集设备采集的图像数据进行正视判定,并以用户与设备的正视状态判定作为人机交互前提条件,整个人机交互过程自然,另外采用包括人脸识别、语音识别、手势识别、唇语识别、瞳孔识别以及虹膜识别的多种计算机的视觉识别技术和语音识别技术识别用户下一步动作,能够实现多样式人机交互。

Description

基于正视的人机交互方法与系统
技术领域
本发明涉及人机交互技术领域,特别是涉及基于正视的人机交互方法与系统。
背景技术
人机交互是指人与设备之间使用某种对话语言,以一定的交互方式,为完成确定任务的人与设备之间的信息交换过程。
随着科学技术的发展,人机交互技术的应用领域越来越宽广,小如收音机的播放按键,大至飞机上的仪表板、或是发电厂的控制室,用户都可以通过人机交互界面与系统交流,并进行操作。目前在人机交互技术中,主流的人机交互方式主要包括3种,第一种是传统按键方式;第二种是特定语音词激活方式,如:在对话前先说“小冰你好”,设备才识别后面所听到的语音;第三种是“举手发言”,即先用一个特定手势动作来让设备启动语音识别。
上述人机交互方式,虽然在一定程度上可以实现人机交互功能,但是由于交互方式单一,需要预先设定一定特定手势动作,交互过程并不十分自然,在一定程度上给用户操作带来不便。
发明内容
基于此,有必要针对一般人机交互方式单一且不自然给用户带来不便操作的问题,提供一种人机交互方式多样,且交互过程自然,给用户带来便捷操作的基于正视的人机交互方法与系统。
一种基于正视的人机交互方法,包括步骤:
获取通过图像采集设备采集的用户与设备处于相对正视状态下的正视图像数据;
通过图像采集设备实时采集用户当前图像数据,将当前采集的图像数据与正视图像数据比较;
当当前采集的图像数据和正视图像数据一致时,判定用户与设备处于相对正视状态;
当用户与设备处于相对正视状态时,通过计算机的视觉识别技术和语音识别技术识别用户行为和意图,根据预设用户的行为与意图与操作对应关系,控制设备执行与用户当前的行为与意图对应的操作,所述计算机的视觉识别技术和语音识别技术包括人脸识别、语音识别、语义理解、手势识别、唇语识别、声纹识别、表情识别、年龄识别、卡片识别、人脸跟踪、瞳孔识别以及虹膜识别。
一种基于正视的人机交互系统,包括:
获取模块,用于获取通过图像采集设备采集的用户与设备处于相对正视状态下的正视图像数据;
比较模块,用于通过图像采集设备实时采集用户当前图像数据,将当前采集的图像数据与正视图像数据比较;
判定模块,用于当当前采集的图像数据和正视图像数据一致时,判定用户与设备处于相对正视状态;
控制模块,用于当用户与设备处于相对正视状态时,通过计算机的视觉识别技术和语音识别技术识别用户行为和意图,根据预设用户的行为与意图与操作对应关系,控制设备执行与用户当前的行为与意图对应的操作,所述计算机的视觉识别技术和语音识别技术包括人脸识别、语音识别、语义理解、手势识别、唇语识别、声纹识别、表情识别、年龄识别、卡片识别、人脸跟踪、瞳孔识别以及虹膜识别。
本发明基于正视的人机交互方法与系统,获取通过图像采集设备采集的用户与设备处于相对正视状态下的正视图像数据,采集用户当前图像数据,将当前采集的图像数据与正视图像数据比较,当一致时,判定用户与设备处于相对正视状态,通过计算机的视觉识别技术和语音识别技术识别用户行为和意图,根据预设用户的行为与意图与操作对应关系,控制设备执行与用户当前的行为与意图对应的操作。整个过程中,基于图像采集设备采集的图像数据进行正视判定,并以用户与设备的正视状态判定作为人机交互前提条件,确保当前用户确实有人机交互需求,整个人机交互过程自然,另外采用包括人脸识别、语音识别、手势识别、唇语识别、声纹识别、表情识别、年龄识别、卡片识别、瞳孔识别以及虹膜识别的多种动作识别方式识别用户下一步动作,能够实现多样式人机交互,给用户带来便捷操作。
附图说明
图1为本发明基于正视的人机交互方法第一个实施例的流程示意图;
图2为本发明基于正视的人机交互方法第二个实施例的流程示意图;
图3为本发明基于正视的人机交互系统第一个实施例的结构示意图;
图4为本发明基于正视的人机交互方法与系统具体应用场景示意图。
具体实施方式
如图1所示,一种基于正视的人机交互方法,包括步骤:
S200:获取通过图像采集设备采集的用户与设备处于相对正视状态下的正视图像数据。
设备具体来说可以为电视机、空调、电脑以及机器人等,另外设备还可以包括车载设备等。用户与设备处于相对正视状态是指用户正视设备,例如当设备为电视机时,用户正视电视机的状态即为用户与电视机处于相对正视状态。由于图像采集设备一般是无法设置于设备正中心的,所以图像采集设备采集用户与设备处于相对正视状态下图像时,从图像采集设备角度看去用户眼睛或用户人脸并不是正对图像采集设备的,一般会呈现一定的角度。为了有利于后续精准判定正视状态,先获取图像采集设备采集的用户与设备处于相对正视状态下的正视图像数据。具体来说,用户与设备处于相对正视状态下的正视图像数据可以是历史记录中采集好的数据,也可以是当场采集的数据。图像采集设备可以是摄像头等设备,在这里,用户与设备处于相对正视状态下的正视图像数据是通过图像采集设备采集的图像采集设备可以设置于设备上,还可以设置设备的辅助设备或外围设备上,例如当设备为电视机时,图像采集设备可以设置于电视,也可以设置于与电视配套的机顶盒上。更具体来说,摄像头拍摄的用户与设备处于相对正视状态下的正视图像数据,进行图像处理和图像目标坐标换算之后即可确定设备和用户人脸相对位置,即可以获取用户与设备处于相对正视状态下用户的人脸图像数据。判定用户与设备处于相对正视状态可以选择采用头部姿态估计(head pose estimation)或者视线跟踪(gaze tracking)等技术来实现。
S400:通过图像采集设备实时采集用户当前图像数据,将当前采集的图像数据与正视图像数据比较。
通过步骤S200中相同的图像采集设备实时采集用户当前图像数据,并且将实时采集的图像数据与步骤S200获取的正视图像数据比较,以判断当前用户与设备是否处于相对正视状态。
S600:当当前采集的图像数据和正视图像数据一致时,判定用户与设备处于相对正视状态。
当步骤S200获取的正视图像数据与步骤S400实时采集的图像数据一致时,即表明当前用户与设备处于相对正视状态。
S800:当用户与设备处于相对正视状态时,通过计算机的视觉识别技术和语音识别技术识别用户行为和意图,根据预设用户的行为与意图与操作对应关系,控制设备执行与用户当前的行为与意图对应的操作,所述计算机的视觉识别技术和语音识别技术包括人脸识别、语音识别、语义理解、手势识别、唇语识别、声纹识别、表情识别、年龄识别、卡片识别、人脸跟踪、瞳孔识别以及虹膜识别。
用户与设备处于相对正视状态的前提下,通过计算机的视觉识别技术和语音识别技术识别用户行为和意图,根据预设用户的行为与意图与操作对应关系,控制设备执行与用户当前的行为与意图对应的操作。即只有判定用户与设备处于相对正视状态的前提下,设备才会启动响应用户操作,这样,一方面避免误操作,例如可以避免电视机错误启动、错误切换电视机节目等;另一方面,由于用户与设备处于相对正视状态时,即有极大可能性用户对设备进行操作,给用户带来便利。具体来说,计算机的视觉识别技术和语音识别技术主要可以包括人脸识别、人脸检测、人脸跟踪、语音识别、手势识别、唇语识别、声纹识别、表情识别、年龄识别、卡片识别、瞳孔识别以及虹膜识别等。采用上述丰富的计算机的视觉识别技术和语音识别技术能够从人脸、语音、瞳孔、手势等方面实现人机交互,更进一步丰富用户生活,给用户带来便捷操作。
本发明基于正视的人机交互方法,获取通过图像采集设备采集的用户与设备处于相对正视状态下的正视图像数据,采集用户当前图像数据,将当前采集的图像数据与正视图像数据比较,当一致时,判定用户与设备处于相对正视状态,通过计算机的视觉识别技术和语音识别技术识别用户行为和意图,根据预设用户的行为与意图与操作对应关系,控制设备执行与用户当前的行为与意图对应的操作。整个过程中,基于图像采集设备采集的图像数据进行正视判定,并以用户与设备的正视状态判定作为人机交互前提条件,确保当前用户确实有人机交互需求,整个人机交互过程自然,另外采用包括人脸识别、语音识别、手势识别、唇语识别、声纹识别、表情识别、年龄识别、卡片识别、瞳孔识别以及虹膜识别的多种动作识别方式识别用户下一步动作,能够实现多样式人机交互,给用户带来便捷操作。
如图2所示,在其中一个实施例中,步骤S800包括:
S820:对用户与设备处于相对正视状态的时间进行计时。
S840:当用户与设备处于相对正视状态的时间大于预设时间时,通过计算机的视觉识别技术和语音识别技术识别用户行为和意图,根据预设用户的行为与意图与操作对应关系,控制设备执行与用户当前的行为与意图对应的操作。
预设时间是事先设定的好的时间阈值,具体可以根据实际情况的需要进行设定,例如可以设定为2秒、3秒、5秒等。当步骤S600判定用户与设备处于相对正视状态下时,开始对用户与设备处于相对正视状态的时间进行计时,当用户与设备处于相对正视状态的时间大于预设时间时,表明很大概率用户当前需要对显示设定进行下一步操作,此时,通过计算机的视觉识别技术和语音识别技术识别用户行为和意图,根据预设用户的行为与意图与操作对应关系,控制设备执行与用户当前的行为与意图对应的操作,例如启动设备。可以采用人脸识别、瞳孔识别以及虹膜识别等技术确定用户与设备保持着相对正视状态,即保持正视状态也属于用户动作的一种。非必要的,在启动设备之后,采用人脸识别技术,识别用户身份,查找与用户身份匹配的视频图像数据,控制设备显示查找到的视频图像数据。在实际应用中,当设备为电视机时,计时用户与电视机保持相对正视状态的时间,即计时用户正视电视机屏幕的时间,当用户正视电视机的时间大于预设时间(例如2秒)时,启动电视机,并识别用户身份,查找与当前用户喜好的电视机节目,控制电视机切换至该电视节目播放。
具体来说,在实际应用场景中,上述实施例为:“正视状态”+时间,即用户“正视”电视机达到一定时间,比如2秒钟,可以认为用户想看电视节目,电视机可以从待机开启播放节目;电视机也可以跟用户主动打招呼交流。还可以是:“正视状态”+时间+“人脸识别”,即知道这个用户是谁,可以播放这个用户喜欢的节目;电视机还可以主动呼叫用户,主动跟用户交流。
在其中一个实施例中,通过计算机的视觉识别技术和语音识别技术识别用户行为和意图,根据预设用户的行为与意图与操作对应关系,控制设备执行与用户当前的行为与意图对应的操作的步骤包括:
步骤一:对用户进行语音识别和唇语识别。
步骤二:当语音识别结果和唇语识别结果一致时,控制设备响应用户的语音操作。
对设备前处于“正视状态”的用户进行唇语识别,同时对检测到的语音信息进行语音识别。将唇语识别结果与语音识别结果比对,如果结果一致,可以判定该正视状态用户是在跟设备(电视机)对话,控制设备作出相应的响应,如果结果不一致,则设备不响应。
通过计算机的视觉识别技术和语音识别技术识别用户行为和意图,根据预设用户的行为与意图与操作对应关系,控制设备执行与用户当前的行为与意图对应的操作的步骤包括:
步骤一:对所述用户进行语音识别和语义理解。
步骤二:当语音识别结果和语义理解的结果与设备当前场景相符时,控制设备响应所述用户的语音操作。
在本实施例中,还需要对用户进行语音识别和语义理解,理解用户意图,当语音识别结果和语义理解的结果与设备当前场景相符时,控制设备响应所述用户的语音操作。例如用户在看电视时,如果说的话是:“我明天休息”,显然不是操作电视机的,电视机不响应。如果用户说的是“中央一台”,则显然是要切换到中央一台。
在实际应用中,以设备为电视机为例对用户A进行语音识别和唇语识别,即一方面采集用户A发出的语音信息,另一方面基于正视状态,对用户A进行唇语识别,当语音识别和唇语识别结果一致时,判定用户A是在跟电视机交互,控制电视机做出相应的响应,例如切换电视节目,调节电视音量等操作。
在其中一个实施例中,所述当所述当前采集的图像数据和所述正视图像数据一致时,判定用户与设备处于相对正视状态的步骤之前还包括:
步骤一:当侦测到用户时,定位所述用户的面部位置为音源位置;
步骤二:将声音采集设备正对所述音源位置;
所述通过计算机的视觉识别技术和语音识别技术识别用户行为和意图,根据预设用户的行为与意图与操作对应关系,控制设备执行与用户当前的行为与意图对应的操作的步骤包括:
通过所述声音采集设备采集用户声音数据,当采集的用户声音数据中携带有语音操作指令时,提取所述语音操作指令,控制设备执行与所述语音操作指令对应操作。
当侦测到用户时,将用户面部位置定位为声源位置,让声音采集设备正对该声源位置,准备采集用户声音数据。具体来说,这个过程具体可以是基于人脸检测和跟踪技术检测到用户人脸的位置,定位该位置为音源位置。在后续操作中,在判定当前用户与设备处于相对正视状态时,采集用户语音数据,进行语音识别,当采集的用户语音数据中携带有语音操作指令时,提取语音操作指令,控制设备执行与语音操作指令对应操作。另外,侦测用户可以通过人脸检测、人脸跟踪、人体检测等侦测方法侦测,当侦测到人脸位置时,将用户的面部位置设定为声源位置。在实际应用中,声音采集设备可以为阵列麦克风,将阵列麦克风正对音源位置,采集用户语音数据,当采集的用户语音数据中携带有语音操作指令(例如“下一频道”)时,提取语音操作指令,控制设备执行与语音操作指令对应操作。更具体来说,在实际应用场景中,比如有几个人看电视时,几个人都是正视电视,如果几个人同时说话,将来的阵列麦克风(像雷达一样可以跟踪多个目标)可以对多个音源录音。通过人脸检测等方式侦测用户数量和位置,即为目标音源的数量和位置,给阵列麦克风提供目标音源的位置信息,结合人脸身份识别,可以实现同时采集多人的声音,并区分是谁说的内容,当有用户发出的声音数据中携带有“下一频道”的操作指令时,控制电视机切换至下一频道。另外,还可以结合人脸身份识别针对用户身份合法性进行识别,只有合法(拥有控制权的)用户发出的声音数据才会被采集,并进行后续操作。
本发明基于正视的人机交互方法,以正视状态作为后续处理的“开关”,只有判定用户与设备处于相对正视状态,才会进行后续包括开启录音、或者开启语音识别、或开启语音识别结果在内的操作。
另外,在其中一个实施例中,所述当所述当前采集的图像数据和所述正视图像数据一致时,判定用户与设备处于相对正视状态的步骤之后还包括:
步骤一:接收用户输入的操作指令,所述操作指令包括非正视状态操作指令和正视状态操作指令。
步骤二:当侦测到用户不再处于所述正视状态时,响应用户输入的非正视状态操作指令。
步骤三:当侦测到用户再次进入所述正视状态时,响应用户输入的正视状态操作指令。
在实际应用中电视机接收用户输入的操作指令,具体可以是用户通过遥控器或直接触碰按键又或是点击电视机上设置的触摸显示区域输入操作指令,该操作指令分为非正视状态操作指令和正视状态操作指令,当侦测到用户不再处于所述正视状态时,响应用户输入的非正视状态操作指令;当侦测到用户再次进入所述正视状态时,响应用户输入的正视状态操作指令。例如通过语音指令或其它方式,让电视机进入“录背影”状态,人从正视电视机转为侧视,电视机自动开启录像模式,人旋转一圈,再正视电视机时停止录像,并开启视频播放模式,播放刚才所录视频。
在其中一个实施例中,通过图像采集设备实时采集用户当前图像数据的步骤之后还包括:
步骤一:获取用户正视设备时的图像数据。
步骤二:比较用户正视设备时的图像数据和当前采集的图像数据。
步骤三:当用户正视设备时的图像数据和当前采集的图像数据一致时,启动计算机的视觉识别技术和语音识别技术、和/或预设操作。
具体来说,只有当检测到用户正视设备时,才启动预设对应的计算机的视觉识别和语音识别技术功能。检测用户是否正视设备可以采用比较用户正视设备时的图像数据和当前采集的图像数据的方式进行,当一致时,表明当前用户正视设备,启动计算机的视觉识别和语音识别技术功能(例如手势识别、人脸识别以及语音识别等);当不一致时,表明当前用户尚未正视设备,不启动计算机的视觉识别和语音识别技术功能。在实际应用中,以设备为空调为例,通过摄像头实时采集用户当前图像数据,获取用户正视空调时的图像数据;比较用户正视空调时的图像数据和当前采集的图像数据,当两者一致时,表明当前用户正视于空调,启动语音识别技术和人脸识别技术、手势识别技术,语音识别技术用于识别用户语音指令,人脸识别技术用于识别用户身份,手势识别技术用于识别用户手势指令。
如图3所示,一种基于正视的人机交互系统,包括:
获取模块200,用于获取通过图像采集设备采集的用户与设备处于相对正视状态下的正视图像数据。
比较模块400,用于通过图像采集设备实时采集用户当前图像数据,将当前采集的图像数据与正视图像数据比较。
判定模块600,用于当当前采集的图像数据和正视图像数据一致时,判定用户与设备处于相对正视状态。
控制模块800,用于当用户与设备处于相对正视状态时,通过计算机的视觉识别技术和语音识别技术识别用户行为和意图,根据预设用户的行为与意图与操作对应关系,控制设备执行与用户当前的行为与意图对应的操作,计算机的视觉识别技术和语音识别技术包括人脸识别、语音识别、手势识别、唇语识别、声纹识别、表情识别、年龄识别、卡片识别、瞳孔识别以及虹膜识别。
本发明基于正视的人机交互系统,获取模块200获取通过图像采集设备采集的用户与设备处于相对正视状态下的正视图像数据,比较模块400采集用户当前图像数据,将当前采集的图像数据与正视图像数据比较,当一致时,判定模块600判定用户与设备处于相对正视状态,控制模块800通过计算机的视觉识别技术和语音识别技术识别用户行为和意图,根据预设用户的行为与意图与操作对应关系,控制设备执行与用户当前的行为与意图对应的操作。整个过程中,基于图像采集设备采集的图像数据进行正视判定,并以用户与设备的正视状态判定作为人机交互前提条件,确保当前用户确实有人机交互需求,整个人机交互过程自然,另外采用包括人脸识别、语音识别、手势识别、唇语识别、瞳孔识别以及虹膜识别的多种动作识别方式识别用户下一步动作,能够实现多样式人机交互,给用户带来便捷操作。
在其中一个实施例中,控制模块800包括:
计时单元,用于对用户与设备处于相对正视状态的时间进行计时,当用户与设备处于相对正视状态的时间大于预设时间时,通过计算机的视觉识别技术和语音识别技术识别用户行为和意图,根据预设用户的行为与意图与操作对应关系,控制设备执行与用户当前的行为与意图对应的操作。
在其中一个实施例中,控制模块800还包括:
查找控制单元,用于查找预设与用户身份匹配的视频图像数据,控制设备显示查找到的视频图像数据。
在其中一个实施例中,控制模块800包括:
识别单元,用于对用户进行语音识别和唇语识别;
控制单元,用于当语音识别结果和唇语识别结果一致时,控制设备响应用户的语音操作。
在其中一个实施例中,控制模块800包括:
定位单元,用于当侦测到用户时,定位用户的面部位置为音源位置;
调节单元,用于将声音采集设备正对音源位置,采集用户声音数据;
提取控制单元,用于当采集的用户声音数据中携带有语音操作指令时,提取语音操作指令,控制设备执行与语音操作指令对应操作。
为了更进一步详细解释本发明基于正视的人机交互方法与系统的技术方案,下面将采用多个具体应用实例,模拟不同实际应用场景,并结合图4进行说明,在下述应用实例中设备均为电视机。
获取通过如图4所示的摄像头采集的用户与电视机处于相对正视状态下的正视图像数据。
通过如图4所示的摄像头实时采集当前图像数据,将实时采集的数据与用户与电视机处于相对正视状态下的正视图像数据比较。
当一致时,判定用户与电视机处于相对正视状态。
应用实例一、正视状态+时间
用户正视电视机达到一定时间,比如2秒钟,可以认为用户想看电视节目,电视机可以从待机开启播放节目,也可以跟用户主动打招呼交流。
应用实例二、正视状态+时间+人脸识别
知道这个用户是谁,可以播放这个用户喜欢的节目;电视机还可以主动呼叫用户,主动跟用户交流。
应用实例三、正视状态+人脸身份识别+表情识别
显然,知道用户是谁,而且知道他的表情,可以主动跟该用户交流,甚至提供相应的服务。如果是一个小孩对着电视机哭,电视机可以自动拨打妈妈的视频电话,电视机上很快就可以出现妈妈的视频,让宝宝跟妈妈视频交流。
应用实例四、正视状态+人脸识别+语音识别
人脸识别确认现场只有一个用户时,电视机可以把语音识别的结果视为该用户对电视机所说,电视机作出相应回复和反馈。
应用实例五、正视状态+人脸识别+唇语识别+语音识别
人脸识别确认现场有多个用户时,判断用户是否“正视状态”,检测“正视”用户的嘴唇变化,对正视用户进行唇语识别;同时对检测到的语音信息进行语音识别。将唇语识别结果与语音识别结果比对,如果结果一致,可以判定该正视用户是在跟电视机对话,电视机作出相应的回应;如果结果不一致,则电视机不回应。
应用实例六、正视状态+阵列麦克风+人脸识别(或者声纹识别)
比如有几个人看电视时,几个人都是正视电视。如果几个人同时说话,将来的阵列麦克风(像雷达一样可以跟踪多个目标)可以对多个音源录音。正视识别可以确定目标有几个,给阵列麦克风提供目标音源的位置信息,结合人脸身份识别,可以实现同时采集多人的声音,并区分是谁说的内容。
应用实例七、应用于空调
用户望着空调,空调管理系统通过头部姿态估计确认用户为“正视”状态,空调启动人脸识别——知道用户是谁,打开并调节到用户喜欢的状态;空调启动手势识别——可以接受用户的手势操作;空调启动录音和语音识别--可以接受用户的语音指令操作。
以上实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (11)

1.一种基于正视的人机交互方法,其特征在于,包括步骤:
获取通过图像采集设备采集的用户与设备处于相对正视状态下的正视图像数据;
通过所述图像采集设备实时采集用户当前图像数据,将当前采集的图像数据与所述正视图像数据比较;
当所述当前采集的图像数据和所述正视图像数据一致时,判定用户与设备处于相对正视状态;
当用户与设备处于相对正视状态时,通过计算机的视觉识别技术和语音识别技术识别用户行为和意图,根据预设用户的行为与意图与操作对应关系,控制设备执行与用户当前的行为与意图对应的操作,所述计算机的视觉识别技术和语音识别技术包括人脸识别、语音识别、语义理解、手势识别、唇语识别、声纹识别、表情识别、年龄识别、卡片识别、人脸跟踪、瞳孔识别以及虹膜识别。
2.根据权利要求1所述的基于正视的人机交互方法,其特征在于,所述通过计算机的视觉识别技术和语音识别技术识别用户行为和意图,根据预设用户的行为与意图与操作对应关系,控制设备执行与用户当前的行为与意图对应的操作的步骤包括:
对用户与设备处于相对正视状态的时间进行计时;
当用户与设备处于相对正视状态的时间大于预设时间时,通过计算机的视觉识别技术和语音识别技术识别用户行为和意图,根据预设用户的行为与意图与操作对应关系,控制设备执行与用户当前的行为与意图对应的操作。
3.根据权利要求2所述的基于正视的人机交互方法,其特征在于,所述当用户与设备处于相对正视状态的时间大于预设时间时,通过计算机的视觉识别技术和语音识别技术识别用户行为和意图,根据预设用户的行为与意图与操作对应关系,控制设备执行与用户当前的行为与意图对应的操作的步骤之后还包括:
查找预设与用户身份匹配的视频图像数据,控制设备显示查找到的视频图像数据。
4.根据权利要求1所述的基于正视的人机交互方法,其特征在于,所述通过计算机的视觉识别技术和语音识别技术识别用户行为和意图,根据预设用户的行为与意图与操作对应关系,控制设备执行与用户当前的行为与意图对应的操作的步骤包括:
对所述用户进行语音识别和唇语识别;
当语音识别结果和唇语识别结果一致时,控制设备响应所述用户的语音操作。
5.根据权利要求1所述的基于正视的人机交互方法,其特征在于,所述通过计算机的视觉识别技术和语音识别技术识别用户行为和意图,根据预设用户的行为与意图与操作对应关系,控制设备执行与用户当前的行为与意图对应的操作的步骤包括:
对所述用户进行语音识别和语义理解;
当语音识别结果和语义理解的结果与设备当前场景相符时,控制设备响应所述用户的语音操作。
6.根据权利要求1所述的基于正视的人机交互方法,其特征在于;
所述当所述当前采集的图像数据和所述正视图像数据一致时,判定用户与设备处于相对正视状态的步骤之前还包括:
当侦测到用户时,定位所述用户的面部位置为音源位置;
将声音采集设备正对所述音源位置;
所述通过计算机的视觉识别技术和语音识别技术识别用户行为和意图,根据预设用户的行为与意图与操作对应关系,控制设备执行与用户当前的行为与意图对应的操作的步骤包括:
通过所述声音采集设备采集用户声音数据,当采集的用户声音数据中携带有语音操作指令时,提取所述语音操作指令,控制设备执行与所述语音操作指令对应操作。
7.根据权利要求1所述的基于正视的人机交互方法,其特征在于,所述当所述当前采集的图像数据和所述正视图像数据一致时,判定用户与设备处于相对正视状态的步骤之后还包括:
接收用户输入的操作指令,所述操作指令包括非正视状态操作指令和正视状态操作指令;
当侦测到用户不再处于所述正视状态时,响应用户输入的非正视状态操作指令;
当侦测到用户再次进入所述正视状态时,响应用户输入的正视状态操作指令。
8.根据权利要求1所述的基于正视的人机交互方法,其特征在于,所述通过所述图像采集设备实时采集用户当前图像数据的步骤之后还包括:
获取用户正视设备时的图像数据;
比较所述用户正视设备时的图像数据和当前采集的图像数据;
当所述用户正视设备时的图像数据和当前采集的图像数据一致时,启动计算机的视觉识别技术和语音识别技术、和/或预设操作,所述预设操作包括录音与播放视频。
9.一种基于正视的人机交互系统,其特征在于,包括:
获取模块,用于获取通过图像采集设备采集的用户与设备处于相对正视状态下的正视图像数据;
比较模块,用于通过所述图像采集设备实时采集用户当前图像数据,将当前采集的图像数据与所述正视图像数据比较;
判定模块,用于当所述当前采集的图像数据和所述正视图像数据一致时,判定用户与设备处于相对正视状态;
控制模块,用于当用户与设备处于相对正视状态时,通过计算机的视觉识别技术和语音识别技术识别用户行为和意图,根据预设用户的行为与意图与操作对应关系,控制设备执行与用户当前的行为与意图对应的操作,所述计算机的视觉识别技术和语音识别技术包括人脸识别、语音识别、语义理解、手势识别、唇语识别、声纹识别、表情识别、年龄识别、卡片识别、人脸跟踪、瞳孔识别以及虹膜识别。
10.根据权利要求9所述的基于正视的人机交互系统,其特征在于,所述控制模块包括:
识别单元,用于对所述用户进行语音识别和唇语识别;
控制单元,用于当语音识别结果和唇语识别结果一致时,通过计算机的视觉识别技术和语音识别技术识别用户行为和意图,根据预设用户的行为与意图与操作对应关系,控制设备执行与用户当前的行为与意图对应的操作。
11.根据权利要求9所述的基于正视的人机交互系统,其特征在于,所述控制模块包括:
定位单元,用于当侦测到用户时,定位所述用户的面部位置为音源位置;
调节单元,用于将声音采集设备正对所述音源位置,采集用户声音数据;
提取控制单元,用于当采集的用户声音数据中携带有语音操作指令时,提取所述语音操作指令,控制设备执行与所述语音操作指令对应操作。
CN201710354064.5A 2017-05-18 2017-05-18 基于正视的人机交互方法与系统 Active CN107239139B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201710354064.5A CN107239139B (zh) 2017-05-18 2017-05-18 基于正视的人机交互方法与系统
EP18803148.8A EP3627290A4 (en) 2017-05-18 2018-05-15 DEVICE SIDE HUMAN COMPUTER INTERACTION METHOD AND SYSTEM
PCT/CN2018/086805 WO2018210219A1 (zh) 2017-05-18 2018-05-15 基于正视的人机交互方法与系统
US16/614,694 US11163356B2 (en) 2017-05-18 2018-05-15 Device-facing human-computer interaction method and system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710354064.5A CN107239139B (zh) 2017-05-18 2017-05-18 基于正视的人机交互方法与系统

Publications (2)

Publication Number Publication Date
CN107239139A true CN107239139A (zh) 2017-10-10
CN107239139B CN107239139B (zh) 2018-03-16

Family

ID=59984389

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710354064.5A Active CN107239139B (zh) 2017-05-18 2017-05-18 基于正视的人机交互方法与系统

Country Status (4)

Country Link
US (1) US11163356B2 (zh)
EP (1) EP3627290A4 (zh)
CN (1) CN107239139B (zh)
WO (1) WO2018210219A1 (zh)

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108052079A (zh) * 2017-12-12 2018-05-18 北京小米移动软件有限公司 设备控制方法、装置、设备控制装置及存储介质
CN108428453A (zh) * 2018-03-27 2018-08-21 王凯 一种基于唇语识别的智能终端操控系统
CN108509890A (zh) * 2018-03-27 2018-09-07 百度在线网络技术(北京)有限公司 用于提取信息的方法和装置
CN108632373A (zh) * 2018-05-09 2018-10-09 方超 设备控制方法和系统
WO2018210219A1 (zh) * 2017-05-18 2018-11-22 刘国华 基于正视的人机交互方法与系统
CN108897589A (zh) * 2018-05-31 2018-11-27 刘国华 显示设备中人机交互方法、装置、计算机设备和存储介质
CN109032345A (zh) * 2018-07-04 2018-12-18 百度在线网络技术(北京)有限公司 设备控制方法、装置、设备、服务端和存储介质
CN109410957A (zh) * 2018-11-30 2019-03-01 福建实达电脑设备有限公司 基于计算机视觉辅助的正面人机交互语音识别方法及系统
CN109754814A (zh) * 2017-11-08 2019-05-14 阿里巴巴集团控股有限公司 一种声音处理方法、交互设备
CN109815804A (zh) * 2018-12-19 2019-05-28 平安普惠企业管理有限公司 基于人工智能的交互方法、装置、计算机设备及存储介质
CN109977811A (zh) * 2019-03-12 2019-07-05 四川长虹电器股份有限公司 基于嘴部关键位置特征检测实现免语音唤醒的系统及方法
CN109976506A (zh) * 2017-12-28 2019-07-05 深圳市优必选科技有限公司 一种电子设备的唤醒方法、存储介质及机器人
CN110196642A (zh) * 2019-06-21 2019-09-03 济南大学 一种基于意图理解模型的导航式虚拟显微镜
CN110221693A (zh) * 2019-05-23 2019-09-10 南京双路智能科技有限公司 一种基于人机交互的智能零售终端操作系统
CN110266806A (zh) * 2019-06-28 2019-09-20 北京金山安全软件有限公司 内容推送方法、装置及电子设备
CN110288016A (zh) * 2019-06-21 2019-09-27 济南大学 一种多模态意图融合方法及应用
CN110689889A (zh) * 2019-10-11 2020-01-14 深圳追一科技有限公司 人机交互方法、装置、电子设备及存储介质
CN110857067A (zh) * 2018-08-24 2020-03-03 上海汽车集团股份有限公司 一种人车交互装置和人车交互方法
CN111128157A (zh) * 2019-12-12 2020-05-08 珠海格力电器股份有限公司 一种智能家电的免唤醒语音识别控制方法、计算机可读存储介质及空调
CN111145739A (zh) * 2019-12-12 2020-05-12 珠海格力电器股份有限公司 一种基于视觉的免唤醒语音识别方法、计算机可读存储介质及空调
CN111541951A (zh) * 2020-05-08 2020-08-14 腾讯科技(深圳)有限公司 基于视频的交互处理方法、装置、终端及可读存储介质
CN111625094A (zh) * 2020-05-25 2020-09-04 北京百度网讯科技有限公司 智能后视镜的交互方法、装置、电子设备和存储介质
CN112381001A (zh) * 2020-11-16 2021-02-19 四川长虹电器股份有限公司 基于专注度的智能电视用户识别方法及装置
CN113221699A (zh) * 2021-04-30 2021-08-06 杭州海康威视数字技术股份有限公司 一种提高识别安全性的方法、装置、识别设备
CN114035689A (zh) * 2021-11-26 2022-02-11 朱芳程 一种基于人工智能的可追随飞行人机交互系统和方法
CN116434027A (zh) * 2023-06-12 2023-07-14 深圳星寻科技有限公司 一种基于图像识别人工智能交互系统
EP4221160A3 (en) * 2018-03-29 2023-08-09 Huawei Technologies Co., Ltd. Inter-device data migration method
CN118011893A (zh) * 2024-01-09 2024-05-10 西乔科技南京有限公司 一种基于人工智能的人机交互系统

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108363557B (zh) * 2018-02-02 2020-06-12 刘国华 人机交互方法、装置、计算机设备和存储介质
US20190332848A1 (en) 2018-04-27 2019-10-31 Honeywell International Inc. Facial enrollment and recognition system
CN109920436A (zh) * 2019-01-28 2019-06-21 武汉恩特拉信息技术有限公司 一种提供辅助服务的装置及方法
KR20210035968A (ko) * 2019-09-24 2021-04-02 엘지전자 주식회사 사용자의 표정이나 발화를 고려하여 마사지 동작을 제어하는 인공 지능 마사지 장치 및 그 방법
CN110767226B (zh) * 2019-10-30 2022-08-16 山西见声科技有限公司 具有高准确度的声源定位方法、装置、语音识别方法、系统、存储设备及终端
CN113485617B (zh) * 2021-07-02 2024-05-03 广州博冠信息科技有限公司 动画展示方法、装置、电子设备及存储介质
CN114265499A (zh) * 2021-12-17 2022-04-01 交控科技股份有限公司 应用于客服终端的交互方法和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1700242A (zh) * 2005-06-15 2005-11-23 北京中星微电子有限公司 一种判别视线方向的方法和装置
CN105183169A (zh) * 2015-09-22 2015-12-23 小米科技有限责任公司 视线方向识别方法及装置
CN105700683A (zh) * 2016-01-12 2016-06-22 厦门施米德智能科技有限公司 一种智能窗及其控制方法

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1215658A3 (en) * 2000-12-05 2002-08-14 Hewlett-Packard Company Visual activation of voice controlled apparatus
AU2002354181A1 (en) * 2001-12-03 2003-06-17 Nikon Corporation Electronic apparatus, electronic camera, electronic device, image display apparatus, and image transmission system
US20100217590A1 (en) 2009-02-24 2010-08-26 Broadcom Corporation Speaker localization system and method
KR101092820B1 (ko) * 2009-09-22 2011-12-12 현대자동차주식회사 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템
CN102324035A (zh) 2011-08-19 2012-01-18 广东好帮手电子科技股份有限公司 口型辅助语音识别术在车载导航中应用的方法及系统
US9823742B2 (en) * 2012-05-18 2017-11-21 Microsoft Technology Licensing, Llc Interaction and management of devices using gaze detection
US8965170B1 (en) * 2012-09-04 2015-02-24 Google Inc. Automatic transition of content based on facial recognition
US8970656B2 (en) * 2012-12-20 2015-03-03 Verizon Patent And Licensing Inc. Static and dynamic video calling avatars
JP2014153663A (ja) * 2013-02-13 2014-08-25 Sony Corp 音声認識装置、および音声認識方法、並びにプログラム
US9384751B2 (en) * 2013-05-06 2016-07-05 Honeywell International Inc. User authentication of voice controlled devices
CN103413467A (zh) * 2013-08-01 2013-11-27 袁苗达 可控强制引导型自主学习系统
US10048765B2 (en) * 2015-09-25 2018-08-14 Apple Inc. Multi media computing or entertainment system for responding to user presence and activity
CN106125771A (zh) * 2016-08-16 2016-11-16 江西联创宏声电子有限公司 声频定向扬声器及其转向方法
CN106356057A (zh) 2016-08-24 2017-01-25 安徽咪鼠科技有限公司 一种基于计算机应用场景语义理解的语音识别系统
US10467509B2 (en) * 2017-02-14 2019-11-05 Microsoft Technology Licensing, Llc Computationally-efficient human-identifying smart assistant computer
CN107239139B (zh) 2017-05-18 2018-03-16 刘国华 基于正视的人机交互方法与系统
US11145299B2 (en) * 2018-04-19 2021-10-12 X Development Llc Managing voice interface devices
US11152001B2 (en) * 2018-12-20 2021-10-19 Synaptics Incorporated Vision-based presence-aware voice-enabled device

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1700242A (zh) * 2005-06-15 2005-11-23 北京中星微电子有限公司 一种判别视线方向的方法和装置
CN105183169A (zh) * 2015-09-22 2015-12-23 小米科技有限责任公司 视线方向识别方法及装置
CN105700683A (zh) * 2016-01-12 2016-06-22 厦门施米德智能科技有限公司 一种智能窗及其控制方法

Cited By (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018210219A1 (zh) * 2017-05-18 2018-11-22 刘国华 基于正视的人机交互方法与系统
US11163356B2 (en) 2017-05-18 2021-11-02 Guohua Liu Device-facing human-computer interaction method and system
CN109754814B (zh) * 2017-11-08 2023-07-28 阿里巴巴集团控股有限公司 一种声音处理方法、交互设备
CN109754814A (zh) * 2017-11-08 2019-05-14 阿里巴巴集团控股有限公司 一种声音处理方法、交互设备
CN108052079A (zh) * 2017-12-12 2018-05-18 北京小米移动软件有限公司 设备控制方法、装置、设备控制装置及存储介质
CN109976506A (zh) * 2017-12-28 2019-07-05 深圳市优必选科技有限公司 一种电子设备的唤醒方法、存储介质及机器人
CN108509890A (zh) * 2018-03-27 2018-09-07 百度在线网络技术(北京)有限公司 用于提取信息的方法和装置
CN108509890B (zh) * 2018-03-27 2022-08-16 百度在线网络技术(北京)有限公司 用于提取信息的方法和装置
CN108428453A (zh) * 2018-03-27 2018-08-21 王凯 一种基于唇语识别的智能终端操控系统
US11748017B2 (en) 2018-03-29 2023-09-05 Huawei Technologies Co., Ltd. Inter-device data migration method and device
EP4221160A3 (en) * 2018-03-29 2023-08-09 Huawei Technologies Co., Ltd. Inter-device data migration method
CN108632373B (zh) * 2018-05-09 2021-11-30 方超 设备控制方法和系统
CN108632373A (zh) * 2018-05-09 2018-10-09 方超 设备控制方法和系统
US11416068B2 (en) 2018-05-31 2022-08-16 Guohua Liu Method and apparatus for human-computer interaction in display device, and computer device and storage medium
CN108897589B (zh) * 2018-05-31 2020-10-27 刘国华 显示设备中人机交互方法、装置、计算机设备和存储介质
WO2019228236A1 (zh) * 2018-05-31 2019-12-05 Liu Guohua 显示设备中人机交互方法、装置、计算机设备和存储介质
CN108897589A (zh) * 2018-05-31 2018-11-27 刘国华 显示设备中人机交互方法、装置、计算机设备和存储介质
CN109032345A (zh) * 2018-07-04 2018-12-18 百度在线网络技术(北京)有限公司 设备控制方法、装置、设备、服务端和存储介质
CN110857067B (zh) * 2018-08-24 2023-04-07 上海汽车集团股份有限公司 一种人车交互装置和人车交互方法
CN110857067A (zh) * 2018-08-24 2020-03-03 上海汽车集团股份有限公司 一种人车交互装置和人车交互方法
CN109410957A (zh) * 2018-11-30 2019-03-01 福建实达电脑设备有限公司 基于计算机视觉辅助的正面人机交互语音识别方法及系统
CN109815804A (zh) * 2018-12-19 2019-05-28 平安普惠企业管理有限公司 基于人工智能的交互方法、装置、计算机设备及存储介质
CN109977811A (zh) * 2019-03-12 2019-07-05 四川长虹电器股份有限公司 基于嘴部关键位置特征检测实现免语音唤醒的系统及方法
CN110221693A (zh) * 2019-05-23 2019-09-10 南京双路智能科技有限公司 一种基于人机交互的智能零售终端操作系统
CN110288016A (zh) * 2019-06-21 2019-09-27 济南大学 一种多模态意图融合方法及应用
CN110196642A (zh) * 2019-06-21 2019-09-03 济南大学 一种基于意图理解模型的导航式虚拟显微镜
CN110288016B (zh) * 2019-06-21 2021-09-28 济南大学 一种多模态意图融合方法及应用
CN110196642B (zh) * 2019-06-21 2022-05-17 济南大学 一种基于意图理解模型的导航式虚拟显微镜
CN110266806A (zh) * 2019-06-28 2019-09-20 北京金山安全软件有限公司 内容推送方法、装置及电子设备
CN110689889A (zh) * 2019-10-11 2020-01-14 深圳追一科技有限公司 人机交互方法、装置、电子设备及存储介质
CN110689889B (zh) * 2019-10-11 2021-08-17 深圳追一科技有限公司 人机交互方法、装置、电子设备及存储介质
CN111145739A (zh) * 2019-12-12 2020-05-12 珠海格力电器股份有限公司 一种基于视觉的免唤醒语音识别方法、计算机可读存储介质及空调
CN111128157B (zh) * 2019-12-12 2022-05-27 珠海格力电器股份有限公司 一种智能家电的免唤醒语音识别控制方法、计算机可读存储介质及空调
CN111128157A (zh) * 2019-12-12 2020-05-08 珠海格力电器股份有限公司 一种智能家电的免唤醒语音识别控制方法、计算机可读存储介质及空调
CN111541951A (zh) * 2020-05-08 2020-08-14 腾讯科技(深圳)有限公司 基于视频的交互处理方法、装置、终端及可读存储介质
CN111625094A (zh) * 2020-05-25 2020-09-04 北京百度网讯科技有限公司 智能后视镜的交互方法、装置、电子设备和存储介质
CN112381001A (zh) * 2020-11-16 2021-02-19 四川长虹电器股份有限公司 基于专注度的智能电视用户识别方法及装置
CN113221699A (zh) * 2021-04-30 2021-08-06 杭州海康威视数字技术股份有限公司 一种提高识别安全性的方法、装置、识别设备
CN113221699B (zh) * 2021-04-30 2023-09-08 杭州海康威视数字技术股份有限公司 一种提高识别安全性的方法、装置、识别设备
CN114035689A (zh) * 2021-11-26 2022-02-11 朱芳程 一种基于人工智能的可追随飞行人机交互系统和方法
CN116434027A (zh) * 2023-06-12 2023-07-14 深圳星寻科技有限公司 一种基于图像识别人工智能交互系统
CN118011893A (zh) * 2024-01-09 2024-05-10 西乔科技南京有限公司 一种基于人工智能的人机交互系统

Also Published As

Publication number Publication date
CN107239139B (zh) 2018-03-16
WO2018210219A1 (zh) 2018-11-22
US20200209950A1 (en) 2020-07-02
EP3627290A1 (en) 2020-03-25
US11163356B2 (en) 2021-11-02
EP3627290A4 (en) 2021-03-03

Similar Documents

Publication Publication Date Title
CN107239139B (zh) 基于正视的人机交互方法与系统
CN110785735B (zh) 用于语音命令情景的装置和方法
CN104410883B (zh) 一种移动可穿戴非接触式交互系统与方法
Waibel et al. SMaRT: The smart meeting room task at ISL
US6894714B2 (en) Method and apparatus for predicting events in video conferencing and other applications
JP5323770B2 (ja) ユーザ指示取得装置、ユーザ指示取得プログラムおよびテレビ受像機
WO2017141502A1 (ja) 情報処理装置、情報処理方法およびプログラム
CN108363557B (zh) 人机交互方法、装置、计算机设备和存储介质
CN109637518A (zh) 虚拟主播实现方法及装置
WO2021135685A1 (zh) 身份认证的方法以及装置
EP2384465A1 (en) Method to control media with face detection and hot spot motion
US12003804B2 (en) Information processing device, information processing method, and computer program
JPH11249773A (ja) マルチモーダルインタフェース装置およびマルチモーダルインタフェース方法
CN111596760A (zh) 操作控制方法、装置、电子设备及可读存储介质
WO2021073187A1 (zh) 电视机及其电视控制方法、控制装置和可读存储介质
CN111583937A (zh) 一种语音控制唤醒方法及存储介质、处理器、语音设备、智能家电
WO2020220154A1 (zh) 屏幕显示切换方法、显示设备、可移动平台
CN111442464B (zh) 空调器及其控制方法
US20190237078A1 (en) Voice recognition image feedback providing system and method
CN115691496A (zh) 基于tts的健康管理机器人语音交互模块
CN110517683A (zh) 头戴式vr/ar设备及其控制方法
CN114779922A (zh) 教学设备的控制方法、控制设备、教学系统和存储介质
CN112399239A (zh) 视频播放方法及装置
WO2017104089A1 (ja) ヘッドマウントディスプレイ連携表示システム、及び、表示装置とヘッドマウントディスプレイとを含むシステム、及び、その表示装置
CN114257824A (zh) 直播显示方法、装置、存储介质及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant