CN108363557B - 人机交互方法、装置、计算机设备和存储介质 - Google Patents

人机交互方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN108363557B
CN108363557B CN201810108122.0A CN201810108122A CN108363557B CN 108363557 B CN108363557 B CN 108363557B CN 201810108122 A CN201810108122 A CN 201810108122A CN 108363557 B CN108363557 B CN 108363557B
Authority
CN
China
Prior art keywords
user
voice
output volume
preset
recognition function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810108122.0A
Other languages
English (en)
Other versions
CN108363557A (zh
Inventor
刘国华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201810108122.0A priority Critical patent/CN108363557B/zh
Publication of CN108363557A publication Critical patent/CN108363557A/zh
Priority to JP2020564301A priority patent/JP7066877B2/ja
Priority to PCT/CN2019/073324 priority patent/WO2019149160A1/zh
Priority to US16/966,373 priority patent/US11483657B2/en
Application granted granted Critical
Publication of CN108363557B publication Critical patent/CN108363557B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • H04R29/004Monitoring arrangements; Testing arrangements for microphones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/01Aspects of volume control, not necessarily automatic, in sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/15Transducers incorporated in visual displaying devices, e.g. televisions, computer displays, laptops

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Radiology & Medical Imaging (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Medical Informatics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Otolaryngology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请涉及一种人机交互方法、装置、计算机设备和存储介质,其中方法包括:检测当前输出音量,当输出音量小于预设第一阈值时,启动语音识别功能,采集用户语音消息,同时检测用户语音音量的大小,响应用户语音操作,当用户语音音量大于预设第二阈值时,调小输出音量,返回检测当前输出音量的步骤。整个过程中,通过设备本身输出音量大小控制语音识别功能的开启,以便准确响应用户语音操作,并且在用户语音大于一定时,减小输出音量,以便凸显以及准确采集用户后续语音消息,给用户操作来带便捷,可以实现良好的人机交互。

Description

人机交互方法、装置、计算机设备和存储介质
技术领域
本申请涉及人机交互技术领域,特别是涉及一种人机交互方法、装置、计算机设备和存储介质。
背景技术
人机交互是指人与设备之间使用某种对话语言,以一定的交互方式,为完成确定任务的人与设备之间的信息交换过程。
随着科学技术的发展,人机交互技术的应用领域越来越宽广,小如收音机的播放按键,大至飞机上的仪表板、或是发电厂的控制室,用户都可以通过人机交互界面与系统交流,并进行操作。目前在人机交互技术中,主流的人机交互方式主要包括3种,第一种是传统按键方式;第二种是特定语音词激活方式,如:在对话前先说“小冰你好”,设备才识别后面所听到的语音;第三种是“举手发言”,即先用一个特定手势动作来让设备启动语音识别。
上述人机交互方式,虽然在一定程度上可以实现人机交互功能,但是由于交互方式单一,需要预先设定一定特定手势动作,交互过程并不十分自然,在一定程度上给用户操作带来不便。
发明内容
基于此,有必要针对上述技术问题,提供一种能够给用户带来便捷操作的人机交互方法、装置、计算机设备和存储介质。
一种人机交互方法,所述方法包括:
检测当前输出音量,当输出音量小于预设第一阈值时,启动语音识别功能;
当侦听到用户语音时,采集用户语音消息;
检测用户语音音量,并响应用户语音操作;
当用户语音音量大于预设第二阈值时,减小输出音量,返回所述检测当前输出音量的步骤。
在其中一个实施例中,所述检测当前输出音量之后还包括:
当所述输出音量大于预设第一阈值时,关闭语音识别功能。
在其中一个实施例中,所述检测当前输出音量之后还包括:
当未检测到用户人脸时,关闭语音识别功能。
在其中一个实施例中,所述当所述输出音量小于预设第一阈值时,启动语音识别功能包括:
当所述输出音量小于预设第一阈值且检测到人脸时,启动语音识别功能。
在其中一个实施例中,所述当所述输出音量小于预设第一阈值且检测到人脸时,启动语音识别功能的步骤包括:
当所述输出音量小于预设第一阈值时,启动人脸头部姿态检测;
当检测到正脸时,启动语音识别功能。
在其中一个实施例中,所述当所述输出音量小于预设第一阈值且检测到人脸时,启动语音识别功能的步骤包括:
当所述输出音量小于预设第一阈值时,获取用户与设备处于相对正视状态下的正视图像数据;
实时采集用户当前图像数据,将当前采集的图像数据与所述正视图像数据比较;
当所述当前采集的图像数据和所述正视图像数据一致时,判定用户与设备处于相对正视状态,启动语音识别功能。
在其中一个实施例中,所述响应用户语音操作包括:
识别当前播放图像类型,所述图像类型包括视频图像、照片图像以及语音节目;
根据预设图像类型与语音响应指令词对应关系,获取当前播放图像类型对应的支持响应指令词集;
解析所述用户语音消息,获取所述用户语音消息对应指令词;
当获取的指令词属于所述当前播放图像类型对应的支持响应指令词集时,响应用户语音操作;
当获取的指令词不属于所述当前播放图像类型对应的支持响应指令词集时,不响应用户语音操作。
一种人机交互装置,所述装置包括:
输出音量检测模块,用于检测当前输出音量,当输出音量小于预设第一阈值时,启动语音识别功能;
侦听模块,用于当侦听到用户语音时,采集用户语音消息;
响应模块,用于检测用户语音音量,并响应用户语音操作;
音量调节模块,用于当用户语音音量大于预设第二阈值时,减小输出音量,控制输出音量检测模块重新执行所述检测当前输出音量的操作。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法的步骤。
上述人机交互方法、装置、计算机设备和存储介质,检测当前输出音量,当输出音量小于预设第一阈值时,启动语音识别功能,采集用户语音消息,同时检测用户语音音量的大小,响应用户语音操作,当用户语音音量大于预设第二阈值时,调小输出音量,返回检测当前输出音量的步骤。整个过程中,通过设备本身输出音量大小控制语音识别功能的开启,以便准确响应用户语音操作,并且在用户语音大于一定时,减小输出音量,以便凸显以及准确采集用户后续语音消息,给用户操作来带便捷,可以实现良好的人机交互。
附图说明
图1为一个实施例中人机交互方法的应用环境图;
图2为一个实施例中人机交互方法的流程示意图;
图3为一个实施例中人机交互装置的结构框图;
图4为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的人机交互方法,可以应用于如图1所示的应用环境中。其中,设备运行时,检测自身输出音量,当输出音量小于预设第一阈值时,启动自身语音识别功能,例如开启自身内置的拾音模块,用户发出语音消息,以进行语音操作,当设备侦听到该语音消息时,采集语音消息,检测语音音量,并且响应用户语音操作,例如进行切换操作,另外,设备还会检测用户语音音量是否大于预设值,当大于时,减小自身输出音量,并且返回检测当前输出音量的操作。
在其中一个实施例,如图2所示,提供一种人机交互方法,以该方法应用于图1中的设备为例进行说明,包括以下步骤:
S200:检测当前输出音量,当输出音量小于预设第一阈值时,启动语音识别功能。
设备检测自身当前输出音量,其检测方式可以是直接检测输出至设备中发声设备(例如扬声器)的电信号。例如当设备为电视机时,电视机中控制系统可以检测当前输出到电视机扬声器的电信号,来检测当前输出音量。预设第一阈值是预先设定的阈值,这个值可以根据实际情况的需要进行设定,例如可以设定为30分贝、35分贝或40分贝等。语音识别功能是指能够采集并响应用户语音操作的功能,其具体启动可以通过启用语音模块或拾音模块来实现。以设备为电视机为例,电视机上内置有麦克风(或者麦克风阵列)以及声音处理模块,能够拾取电视机前面观众的语音,当电视机输出音量小于预设第一阈值时,启动这些内置硬件设备,并且电视机内部控制系统启用语音识别功能。
S400:当侦听到用户语音时,采集用户语音消息。
设备在启动语音识别功能后,保持语音侦听状态,当侦听到用户语音时,采集用户语音消息。设备自身输出的语音信号对于设备来说是已知的,设备可以将采集到的语音信号“减去(去噪)”已知的输出的语音信号即可得到当前采集的用户语音消息。以设备为电视机为例,电视机在启动语音识别功能之后,保持语音侦听状态,当侦听到用户语音时,将采集到的语音信号去除电视机自身播放的语音信号得到用户语音消息。
S600:检测用户语音音量,并响应用户语音操作。
根据采集到的用户语音消息,检测用户语音音量,并且执行语音识别操作,响应用户语音操作。以设备为电视机为例,电视机侦听到用户发出“下一个节目”语音时,采集该用户的“下一个节目”语音消息,检测用户发出该语音消息的音量为40分贝,响应用户该语音消息,将电视机节目切换至下一个节目。需要指出的时,响应用户语音操作和检测用户语音是两个并行的动作,两者可以并行(同时)实现。
S800:当用户语音音量大于预设第二阈值时,减小输出音量,返回检测当前输出音量的步骤。
当步骤S600检测到用户语音音量大于预设第二阈值时,减小输出音量,以便后续用户语音消息能够更加及时、准确被侦听到。预设第二阈值是预先设定的值,其可以根据实际情况的需要进行设定,例如40分贝、35分贝等。
上述人机交互方法,检测当前输出音量,当输出音量小于预设第一阈值时,启动语音识别功能,采集用户语音消息,同时检测用户语音音量的大小,响应用户语音操作,当用户语音音量大于预设第二阈值时,调小输出音量,返回检测当前输出音量的步骤。整个过程中,通过设备本身输出音量大小控制语音识别功能的开启,以便准确响应用户语音操作,并且在用户语音大于一定时,减小输出音量,以便凸显以及准确采集用户后续语音消息,给用户操作来带便捷,可以实现良好的人机交互。
在其中一个实施例中,检测当前输出音量之后还包括:
当输出音量大于预设第一阈值时,关闭语音识别功能。当设备输出音量大于预设第一阈值时,此时设备输出声音较大,用户一般是没有进行语音操作的意图,为避免外部噪音干扰,关闭语音识别功能,例如可以关闭设备中拾音模块。以设备为电视机为例,当电视机输出音量大于预设第一阈值(40分贝)时,电视机关闭自身内置的拾音模块,以关闭语音识别功能,不响应语音操作。
在其中一个实施例中,当输出音量大于预设第一阈值时,关闭语音识别功能包括:当输出音量大于预设第一阈值且未检测到用户人脸时,关闭语音识别功能。
为避免用户无法在特殊情况实现语音操作,在这里,当设备输出音量大于预设第一阈值时,进一步检测是否存在用户人脸,当不存在用户人脸时表明当前用户无语音操作的需求,关闭语音识别功能。非必要的,当检测到存在用户人脸时,不关闭语音识别功能,以便用户可以紧急、突发启动语音操作功能。以设备为电视机为例,当电视机检测到输出音量大于预设第一阈值时,进一步检测当前可视角度范围内是否存在合法、已知用户人脸,当不存在时,关闭语音识别功能;当存在时,不关闭语音识别功能。非必要的,用户人脸检测也可以在输出音量之前进行,当未检测到用户人脸时,不论输出音量大小,直接关闭语音识别功能,避免外部环境杂音的干扰。
在其中一个实施例中,当用户语音音量大于预设第二阈值时,启动语音识别功能,响应用户语音操作。
针对可能存在特殊情况语音控制需求,在本实施例中,当用户语音音量大于预设第二阈值时,表明当前用户迫切需要进行语音控制,因此,此时重新启动语音识别功能,并响应用户语音操作。
在其中一个实施例中,当输出音量小于预设第一阈值时,启动语音识别功能包括:当输出音量小于预设第一阈值且检测到人脸时,启动语音识别功能。
当输出音量小于预设第一阈值时,进一步检测是否存在人脸,当存在用人脸时,说明用户有进行语音操作的需求,启动语音识别功能。非必要的,当检测到不存在用户人脸时,不启动语音识别功能。以设备为电视机为例,当电视机检测到输出音量小于预设第一阈值时,进一步检测在可视角度范围内是否存在用户人脸,当检测到用户人脸时,启动语音识别功能;当未检测到用户人脸时,不启动语音识别功能。
在其中一个实施例中,当输出音量小于预设第一阈值且检测到人脸时,启动语音识别功能的步骤包括:当输出音量小于预设第一阈值时,启动人脸头部姿态检测;当检测到正脸时,启动语音识别功能。
当输出音量小于预设第一阈值时,进一步检测当前设备周围是否存在用户(操作人员),对此,进行人脸头部姿态检测,当检测到用户正脸时,启动语音识别功能,当未检测到用户正脸时,不启动语音识别功能。以设备为电视机为例,电视机中内置的摄像头能够检测观众人脸的位置,将此人脸位置信息提供给阵列拾音模块,拾音能够对该位置目标用户实现精准拾音,有利于屏蔽其它声音。
在其中一个实施例中,当输出音量小于预设第一阈值且检测到人脸时,启动语音识别功能的步骤包括:当输出音量小于预设第一阈值时,获取用户与设备处于相对正视状态下的正视图像数据;实时采集用户当前图像数据,将当前采集的图像数据与正视图像数据比较;当当前采集的图像数据和正视图像数据一致时,判定用户与设备处于相对正视状态,启动语音识别功能。
当输出音量小于预设第一阈值时,启动正视识别。具体来说,在正视识别过程中,设备可以为电视机、空调、电脑以及机器人等,另外设备还可以包括车载设备等。用户与设备处于相对正视状态是指用户正视设备,例如当设备为电视机时,用户正视电视机的状态即为用户与电视机处于相对正视状态。可以通过图像采集设备获取用户与设备处于相对正视状态下的正视图像数据,又由于图像采集设备一般是无法设置于设备正中心的,所以图像采集设备采集用户与设备处于相对正视状态下图像时,从图像采集设备角度看去用户眼睛或用户人脸并不是正对图像采集设备的,一般会呈现一定的角度。为了有利于后续精准判定正视状态,先获取图像采集设备采集的用户与设备处于相对正视状态下的正视图像数据。用户与设备处于相对正视状态下的正视图像数据可以是历史记录中采集好的数据,也可以是当场采集的数据。图像采集设备可以是摄像头等设备,在这里,用户与设备处于相对正视状态下的正视图像数据是通过图像采集设备采集的图像采集设备可以设置于设备上,还可以设置设备的辅助设备或外围设备上,例如当设备为电视机时,图像采集设备可以设置于电视,也可以设置于与电视配套的机顶盒上。更具体来说,摄像头拍摄的用户与设备处于相对正视状态下的正视图像数据,进行图像处理和图像目标坐标换算之后即可确定设备和用户人脸相对位置,即可以获取用户与设备处于相对正视状态下用户的人脸图像数据。判定用户与设备处于相对正视状态可以选择采用头部姿态估计(head pose estimation)或者视线跟踪(gaze tracking)等技术来实现。用户与设备处于相对正视状态的前提下,通过计算机的视觉识别技术和语音识别技术识别用户行为和意图,根据预设用户的行为与意图与操作对应关系,控制设备执行与用户当前的行为与意图对应的操作。即只有判定用户与设备处于相对正视状态的前提下,设备才会启动响应用户操作,这样,一方面避免误操作,例如可以避免电视机错误启动、错误切换电视机节目等;另一方面,由于用户与设备处于相对正视状态时,即有极大可能性用户对设备进行操作,给用户带来便利。具体来说,计算机的视觉识别技术和语音识别技术主要可以包括人脸识别、人脸检测、人脸跟踪、语音识别、手势识别、唇语识别、声纹识别、表情识别、年龄识别、卡片识别、瞳孔识别以及虹膜识别等。采用上述丰富的计算机的视觉识别技术和语音识别技术能够从人脸、语音、瞳孔、手势等方面实现人机交互,更进一步丰富用户生活,给用户带来便捷操作。
在其中一个实施例中,响应用户语音操作包括:识别当前播放图像类型,图像类型包括视频图像、照片图像以及语音节目;根据预设图像类型与语音响应指令词对应关系,获取当前播放图像类型对应的支持响应指令词集;解析用户语音消息,获取用户语音消息对应指令词;当获取的指令词属于当前播放图像类型对应的支持响应指令词集时,响应用户语音操作;当获取的指令词不属于当前播放图像类型对应的支持响应指令词集时,不响应用户语音操作。
交互设备可以包括电视机、平板电脑、笔记本电脑以及触摸屏等显示设备,还可以为机器人或投影仪。当显示设备需要响应用户语音操作时,识别当前播放图像类型,图像类型主要包括视频图像、照片图像以及语音节目,不同的图像类型对应有不同的预设语音响应指令词,例如针对视频图像有“快进”、“后退”、“下一个节目”、“切换至XX节目”等;针对照片图像有“上一张”、“下一张”、“放大”、“缩小”等。针对当前播放图像类型,获取对应的支持响应指令词,解析用户语音消息,获得对应的指令词,当获取的指令词属于当前播放图像类型对应的支持响应指令词集时,响应用户语音操作,否则不响应。以交互设备为电视机为例,当电视机当前正常播放电视接口节目时,识别当前播放图像类型为视频图像中的电视直播节目,获取电视直播节目对应的支持响应指令词为“下一个节目”、“上一个节目”以及“切换至XX台”,解析当前获取的用户语音消息,获取用户语音消息对应指令词为“切换至XX台”,判定“切换至XX台”属于当前支持响应指令词,响应用户“切换至XX台”的语音操作;若解析当前获取的用户语音消息,获取用户语音消息对应指令词为“下一张”时,判定“下一张”不属于当前支持响应指令词,不响应用户“下一张”的语音操作。
应该理解的是,虽然图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行
如图3所示,一种人机交互装置,装置包括:
输出音量检测模块200,用于检测当前输出音量,当输出音量小于预设第一阈值时,启动语音识别功能;
侦听模块400,用于当侦听到用户语音时,采集用户语音消息;
响应模块600,用于检测用户语音音量,并响应用户语音操作;
音量调节模块800,用于当用户语音音量大于预设第二阈值时,减小输出音量,控制输出音量检测模块重新执行检测当前输出音量的操作。
上述人机交互装置,检测当前输出音量,当输出音量小于预设第一阈值时,启动语音识别功能,采集用户语音消息,同时检测用户语音音量的大小,响应用户语音操作,当用户语音音量大于预设第二阈值时,调小输出音量,返回检测当前输出音量的步骤。整个过程中,通过设备本身输出音量大小控制语音识别功能的开启,以便准确响应用户语音操作,并且在用户语音大于一定时,减小输出音量,以便凸显以及准确采集用户后续语音消息,给用户操作来带便捷,可以实现良好的人机交互。
在其中一个实施例中,输出音量检测模块200还用于当输出音量大于预设第一阈值时,关闭语音识别功能。
在其中一个实施例中,输出音量检测模块200还用于当输出音量大于预设第一阈值且未检测到用户人脸时,关闭语音识别功能。
在其中一个实施例中,输出音量检测模块200还用于当输出音量小于预设第一阈值且检测到人脸时,启动语音识别功能。
在其中一个实施例中,输出音量检测模块200还用于当输出音量小于预设第一阈值时,启动人脸头部姿态检测;当检测到正脸时,启动语音识别功能。
在其中一个实施例中,输出音量检测模块200还用于当输出音量小于预设第一阈值时,获取用户与设备处于相对正视状态下的正视图像数据;实时采集用户当前图像数据,将当前采集的图像数据与正视图像数据比较;当当前采集的图像数据和正视图像数据一致时,判定用户与设备处于相对正视状态,启动语音识别功能。
在其中一个实施例中,响应模块600还用于识别当前播放图像类型,图像类型包括视频图像、照片图像以及语音节目;根据预设图像类型与语音响应指令词对应关系,获取当前播放图像类型对应的支持响应指令词集;解析用户语音消息,获取用户语音消息对应指令词;当获取的指令词属于当前播放图像类型对应的支持响应指令词集时,响应用户语音操作;当获取的指令词不属于当前播放图像类型对应的支持响应指令词集时,不响应用户语音操作。
关于人机交互装置的具体限定可以参见上文中对于人机交互方法的限定,在此不再赘述。上述人机交互装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储预设数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种人机交互方法。
本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
检测当前输出音量,当输出音量小于预设第一阈值时,启动语音识别功能;
当侦听到用户语音时,采集用户语音消息;
检测用户语音音量,并响应用户语音操作;
当用户语音音量大于预设第二阈值时,减小输出音量,返回检测当前输出音量的步骤。
在其中一个实施例中,处理器执行计算机程序时还实现以下步骤:当输出音量大于预设第一阈值时,关闭语音识别功能。
在其中一个实施例中,处理器执行计算机程序时还实现步骤:当输出音量大于预设第一阈值且未检测到用户人脸时,关闭语音识别功能。
在其中一个实施例中,处理器执行计算机程序时还实现步骤:当输出音量小于预设第一阈值且检测到人脸时,启动语音识别功能。
在其中一个实施例中,处理器执行计算机程序时还实现步骤:当输出音量小于预设第一阈值时,启动人脸头部姿态检测;当检测到正脸时,启动语音识别功能。
在其中一个实施例中,处理器执行计算机程序时还实现步骤:当输出音量小于预设第一阈值时,获取用户与设备处于相对正视状态下的正视图像数据;实时采集用户当前图像数据,将当前采集的图像数据与正视图像数据比较;当当前采集的图像数据和正视图像数据一致时,判定用户与设备处于相对正视状态,启动语音识别功能。
在其中一个实施例中,处理器执行计算机程序时还实现步骤:识别当前播放图像类型,图像类型包括视频图像、照片图像以及语音节目;根据预设图像类型与语音响应指令词对应关系,获取当前播放图像类型对应的支持响应指令词集;解析用户语音消息,获取用户语音消息对应指令词;当获取的指令词属于当前播放图像类型对应的支持响应指令词集时,响应用户语音操作;当获取的指令词不属于当前播放图像类型对应的支持响应指令词集时,不响应用户语音操作。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
检测当前输出音量,当输出音量小于预设第一阈值时,启动语音识别功能;
当侦听到用户语音时,采集用户语音消息;
检测用户语音音量,并响应用户语音操作;
当用户语音音量大于预设第二阈值时,减小输出音量,返回检测当前输出音量的步骤。
在其中一个实施例中,计算机程序被处理器执行时还实现以下步骤:当输出音量大于预设第一阈值时,关闭语音识别功能。
在其中一个实施例中,计算机程序被处理器执行时还实现以下步骤:当输出音量大于预设第一阈值且未检测到用户人脸时,关闭语音识别功能。
在其中一个实施例中,计算机程序被处理器执行时还实现以下步骤:当输出音量小于预设第一阈值且检测到人脸时,启动语音识别功能。
在其中一个实施例中,计算机程序被处理器执行时还实现以下步骤:当输出音量小于预设第一阈值时,启动人脸头部姿态检测;当检测到正脸时,启动语音识别功能。
在其中一个实施例中,计算机程序被处理器执行时还实现以下步骤:当输出音量小于预设第一阈值时,获取用户与设备处于相对正视状态下的正视图像数据;实时采集用户当前图像数据,将当前采集的图像数据与正视图像数据比较;当当前采集的图像数据和正视图像数据一致时,判定用户与设备处于相对正视状态,启动语音识别功能。
在其中一个实施例中,计算机程序被处理器执行时还实现以下步骤:识别当前播放图像类型,图像类型包括视频图像、照片图像以及语音节目;根据预设图像类型与语音响应指令词对应关系,获取当前播放图像类型对应的支持响应指令词集;解析用户语音消息,获取用户语音消息对应指令词;当获取的指令词属于当前播放图像类型对应的支持响应指令词集时,响应用户语音操作;当获取的指令词不属于当前播放图像类型对应的支持响应指令词集时,不响应用户语音操作。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种人机交互方法,所述方法包括:
检测当前输出音量,当输出音量小于预设第一阈值时,启动语音识别功能,所述检测当前输出音量包括检测输出至声音设备的电信号,获取当前输出音量;
当侦听到用户语音时,采集用户语音消息;
检测用户语音音量,并响应用户语音操作;
当用户语音音量大于预设第二阈值时,减小输出音量,返回所述检测当前输出音量的步骤;
所述检测当前输出音量之后还包括:
当输出音量大于预设第一阈值且未检测到用户人脸时,关闭语音识别功能;
所述响应用户语音操作包括:
识别当前播放图像类型,所述图像类型包括视频图像、照片图像以及语音节目;
根据预设图像类型与语音响应指令词对应关系,获取当前播放图像类型对应的支持响应指令词集;
解析所述用户语音消息,获取所述用户语音消息对应指令词;
当获取的指令词属于所述当前播放图像类型对应的支持响应指令词集时,响应用户语音操作。
2.根据权利要求1所述的方法,其特征在于,所述当所述输出音量小于预设第一阈值时,启动语音识别功能包括:
当所述输出音量小于预设第一阈值且检测到人脸时,启动语音识别功能。
3.根据权利要求2所述的方法,其特征在于,所述当所述输出音量小于预设第一阈值且检测到人脸时,启动语音识别功能的步骤包括:
当所述输出音量小于预设第一阈值时,启动人脸头部姿态检测;
当检测到正脸时,启动语音识别功能。
4.根据权利要求2所述的方法,其特征在于,所述当所述输出音量小于预设第一阈值且检测到人脸时,启动语音识别功能的步骤包括:
当所述输出音量小于预设第一阈值时,获取用户与设备处于相对正视状态下的正视图像数据;
实时采集用户当前图像数据,将当前采集的图像数据与所述正视图像数据比较;
当所述当前采集的图像数据和所述正视图像数据一致时,判定用户与设备处于相对正视状态,启动语音识别功能。
5.根据权利要求1所述的方法,其特征在于,还包括:
当获取的指令词不属于所述当前播放图像类型对应的支持响应指令词集时,不响应用户语音操作。
6.一种人机交互装置,其特征在于,所述装置包括:
输出音量检测模块,用于检测当前输出音量,当输出音量小于预设第一阈值时,启动语音识别功能,所述检测当前输出音量包括检测输出至声音设备的电信号,获取当前输出音量;
侦听模块,用于当侦听到用户语音时,采集用户语音消息;
响应模块,用于检测用户语音音量,并响应用户语音操作;
音量调节模块,用于当用户语音音量大于预设第二阈值时,减小输出音量,控制输出音量检测模块重新执行所述检测当前输出音量的操作;
输出音量检测模块还用于当输出音量大于预设第一阈值且未检测到用户人脸时,关闭语音识别功能;
所述响应用户语音操作包括:识别当前播放图像类型,所述图像类型包括视频图像、照片图像以及语音节目;根据预设图像类型与语音响应指令词对应关系,获取当前播放图像类型对应的支持响应指令词集;解析所述用户语音消息,获取所述用户语音消息对应指令词;当获取的指令词属于所述当前播放图像类型对应的支持响应指令词集时,响应用户语音操作。
7.根据权利要求6所述的装置,其特征在于,所述输出音量检测模块还用于当输出音量小于预设第一阈值且检测到人脸时,启动语音识别功能。
8.根据权利要求6所述的装置,其特征在于,所述输出音量检测模块还用于当所述输出音量小于预设第一阈值时,启动人脸头部姿态检测;当检测到正脸时,启动语音识别功能。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。
CN201810108122.0A 2018-02-02 2018-02-02 人机交互方法、装置、计算机设备和存储介质 Active CN108363557B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201810108122.0A CN108363557B (zh) 2018-02-02 2018-02-02 人机交互方法、装置、计算机设备和存储介质
JP2020564301A JP7066877B2 (ja) 2018-02-02 2019-01-28 ヒューマンマシンインタラクション方法、装置、コンピュータデバイス及び記憶媒体
PCT/CN2019/073324 WO2019149160A1 (zh) 2018-02-02 2019-01-28 人机交互方法、装置、计算机设备和存储介质
US16/966,373 US11483657B2 (en) 2018-02-02 2019-01-28 Human-machine interaction method and device, computer apparatus, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810108122.0A CN108363557B (zh) 2018-02-02 2018-02-02 人机交互方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN108363557A CN108363557A (zh) 2018-08-03
CN108363557B true CN108363557B (zh) 2020-06-12

Family

ID=63004559

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810108122.0A Active CN108363557B (zh) 2018-02-02 2018-02-02 人机交互方法、装置、计算机设备和存储介质

Country Status (4)

Country Link
US (1) US11483657B2 (zh)
JP (1) JP7066877B2 (zh)
CN (1) CN108363557B (zh)
WO (1) WO2019149160A1 (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108363557B (zh) * 2018-02-02 2020-06-12 刘国华 人机交互方法、装置、计算机设备和存储介质
CN111260510A (zh) * 2018-11-30 2020-06-09 北京师范大学 辅助学习方法、装置、计算机设备和存储介质
CN111292732B (zh) * 2018-12-06 2023-07-21 深圳市广和通无线股份有限公司 音频信息处理方法、装置、计算机设备和存储介质
CN111629156A (zh) * 2019-02-28 2020-09-04 北京字节跳动网络技术有限公司 图像特效的触发方法、装置和硬件装置
CN109920427A (zh) * 2019-04-23 2019-06-21 上海天诚通信技术股份有限公司 基于语音控制的音量调节方法
CN110070870B (zh) * 2019-05-06 2022-02-08 阿波罗智联(北京)科技有限公司 车载系统的信号处理方法和系统
CN111028828A (zh) * 2019-12-20 2020-04-17 京东方科技集团股份有限公司 一种基于画屏的语音交互方法、画屏及存储介质
CN111462744B (zh) * 2020-04-02 2024-01-30 深圳创维-Rgb电子有限公司 一种语音交互方法、装置、电子设备及存储介质
US11722731B2 (en) * 2020-11-24 2023-08-08 Google Llc Integrating short-term context for content playback adaption
CN112631543A (zh) * 2020-12-28 2021-04-09 青岛海信传媒网络技术有限公司 一种智能语音音量控制方法及显示设备
CN113014815B (zh) * 2021-03-03 2022-06-17 南京地平线机器人技术有限公司 对封闭空间中的设备进行控制的方法和装置、介质、设备
CN113218058B (zh) * 2021-04-21 2022-09-02 海尔(深圳)研发有限责任公司 用于控制空调器的方法及装置、服务器
CN114071221A (zh) * 2021-11-10 2022-02-18 深圳创维-Rgb电子有限公司 音量值调整方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103688531A (zh) * 2011-07-26 2014-03-26 索尼公司 控制装置、控制方法和程序
CN104699446A (zh) * 2013-12-06 2015-06-10 赐福科技股份有限公司 数控系统及方法
CN104820556A (zh) * 2015-05-06 2015-08-05 广州视源电子科技股份有限公司 唤醒语音助手的方法及装置
CN106843800A (zh) * 2016-12-30 2017-06-13 深圳天珑无线科技有限公司 以语音指令启动功能选单的方法及其系统

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5949886A (en) * 1995-10-26 1999-09-07 Nevins; Ralph J. Setting a microphone volume level
US7263489B2 (en) * 1998-12-01 2007-08-28 Nuance Communications, Inc. Detection of characteristics of human-machine interactions for dialog customization and analysis
US6434527B1 (en) * 1999-05-17 2002-08-13 Microsoft Corporation Signalling and controlling the status of an automatic speech recognition system for use in handsfree conversational dialogue
JP2003044075A (ja) 2001-07-30 2003-02-14 Matsushita Electric Ind Co Ltd 音声認識機能を備えた電子機器
WO2005076660A1 (ja) * 2004-02-10 2005-08-18 Mitsubishi Denki Engineering Kabushiki Kaisha 超指向性スピーカ搭載型移動体
JP2007533235A (ja) * 2004-04-15 2007-11-15 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ メディアコンテンツ処理装置の制御方法及びメディアコンテンツ処理装置
KR20060022053A (ko) * 2004-09-06 2006-03-09 삼성전자주식회사 Av 시스템 및 그 튜닝 방법
US9543920B2 (en) * 2006-10-24 2017-01-10 Kent E. Dicks Methods for voice communication through personal emergency response system
US20090253457A1 (en) * 2008-04-04 2009-10-08 Apple Inc. Audio signal processing for certification enhancement in a handheld wireless communications device
US8218790B2 (en) * 2008-08-26 2012-07-10 Apple Inc. Techniques for customizing control of volume level in device playback
JP5332798B2 (ja) * 2009-03-26 2013-11-06 ブラザー工業株式会社 通信制御装置、通信制御方法、及び通信制御プログラム
JP5229209B2 (ja) * 2009-12-28 2013-07-03 ブラザー工業株式会社 ヘッドマウントディスプレイ
US8699723B2 (en) * 2010-07-20 2014-04-15 International Business Machines Corporation Audio device volume manager using measured volume perceived at a first audio device to control volume generation by a second audio device
US8611559B2 (en) * 2010-08-31 2013-12-17 Apple Inc. Dynamic adjustment of master and individual volume controls
US9318129B2 (en) * 2011-07-18 2016-04-19 At&T Intellectual Property I, Lp System and method for enhancing speech activity detection using facial feature detection
KR101590332B1 (ko) * 2012-01-09 2016-02-18 삼성전자주식회사 영상장치 및 그 제어방법
KR20140072927A (ko) * 2012-11-15 2014-06-16 엘지전자 주식회사 이동 단말기 및 이의 제어방법
TW201510770A (zh) * 2013-09-03 2015-03-16 Top Victory Invest Ltd 顯示器語音辨識的啟動方法
CN104683557A (zh) * 2013-12-02 2015-06-03 中兴通讯股份有限公司 一种移动终端自动切换通话模式的方法及装置
CN105934791B (zh) 2014-01-31 2019-11-22 惠普发展公司,有限责任合伙企业 语音输入命令
US10499164B2 (en) * 2015-03-18 2019-12-03 Lenovo (Singapore) Pte. Ltd. Presentation of audio based on source
US10134425B1 (en) * 2015-06-29 2018-11-20 Amazon Technologies, Inc. Direction-based speech endpointing
KR102538348B1 (ko) * 2015-09-17 2023-05-31 삼성전자 주식회사 전자 장치 및 전자 장치의 동작 제어 방법
CN105469794B (zh) * 2015-12-08 2019-09-24 联想(北京)有限公司 信息处理方法及电子设备
JP6767796B2 (ja) * 2016-07-08 2020-10-14 株式会社日立情報通信エンジニアリング 通話管理システム及びその音声認識制御方法
US20180070008A1 (en) * 2016-09-08 2018-03-08 Qualcomm Incorporated Techniques for using lip movement detection for speaker recognition in multi-person video calls
US10074371B1 (en) * 2017-03-14 2018-09-11 Amazon Technologies, Inc. Voice control of remote device by disabling wakeword detection
CN107239139B (zh) * 2017-05-18 2018-03-16 刘国华 基于正视的人机交互方法与系统
US10733990B2 (en) * 2017-10-18 2020-08-04 Motorola Mobility Llc Preventing initiation of a voice recognition session
CN108363557B (zh) * 2018-02-02 2020-06-12 刘国华 人机交互方法、装置、计算机设备和存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103688531A (zh) * 2011-07-26 2014-03-26 索尼公司 控制装置、控制方法和程序
CN104699446A (zh) * 2013-12-06 2015-06-10 赐福科技股份有限公司 数控系统及方法
CN104820556A (zh) * 2015-05-06 2015-08-05 广州视源电子科技股份有限公司 唤醒语音助手的方法及装置
CN106843800A (zh) * 2016-12-30 2017-06-13 深圳天珑无线科技有限公司 以语音指令启动功能选单的方法及其系统

Also Published As

Publication number Publication date
JP2021513123A (ja) 2021-05-20
JP7066877B2 (ja) 2022-05-13
US11483657B2 (en) 2022-10-25
WO2019149160A1 (zh) 2019-08-08
US20200374630A1 (en) 2020-11-26
CN108363557A (zh) 2018-08-03

Similar Documents

Publication Publication Date Title
CN108363557B (zh) 人机交互方法、装置、计算机设备和存储介质
EP3627290A1 (en) Device-facing human-computer interaction method and system
US10671342B2 (en) Non-contact gesture control method, and electronic terminal device
CN108052079B (zh) 设备控制方法、装置、设备控制装置及存储介质
CN110730115B (zh) 语音控制方法及装置、终端、存储介质
US20210327436A1 (en) Voice Interaction Method, Device, and System
CN108766438B (zh) 人机交互方法、装置、存储介质及智能终端
JP2020521997A (ja) ロボットのウェイクアップ方法、装置及びロボット
US11488596B2 (en) Method and system for recording audio content in a group conversation
US11416068B2 (en) Method and apparatus for human-computer interaction in display device, and computer device and storage medium
CN111063354B (zh) 人机交互方法及装置
CN110705356B (zh) 功能控制方法及相关设备
CN110619873A (zh) 音频处理方法、装置及存储介质
CN112040119B (zh) 会议发言人追踪方法、装置、计算机设备和存储介质
KR20210011146A (ko) 비음성 웨이크업 신호에 기반한 서비스 제공 장치 및 그 방법
WO2019227552A1 (zh) 基于行为识别的语音定位方法以及装置
CN110286771B (zh) 交互方法、装置、智能机器人、电子设备及存储介质
EP3761627B1 (en) Image processing method and apparatus
CN104423992A (zh) 显示器语音辨识的启动方法
CN107680592A (zh) 一种移动终端语音识别方法、及移动终端及存储介质
CN114363547A (zh) 一种双录装置、双录交互控制方法
CN106896917B (zh) 辅助用户体验虚拟现实的方法及装置、电子设备
CN112333258A (zh) 一种智能客服方法、存储介质及终端设备
CN111292732A (zh) 音频信息处理方法、装置、计算机设备和存储介质
CN114079729B (zh) 拍摄控制方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant