CN108363557A - 人机交互方法、装置、计算机设备和存储介质 - Google Patents
人机交互方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN108363557A CN108363557A CN201810108122.0A CN201810108122A CN108363557A CN 108363557 A CN108363557 A CN 108363557A CN 201810108122 A CN201810108122 A CN 201810108122A CN 108363557 A CN108363557 A CN 108363557A
- Authority
- CN
- China
- Prior art keywords
- output volume
- user
- speech
- volume
- user speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 230000003993 interaction Effects 0.000 title claims abstract description 35
- 230000004044 response Effects 0.000 claims abstract description 43
- 238000001514 detection method Methods 0.000 claims abstract description 41
- 230000006870 function Effects 0.000 claims description 75
- 238000004590 computer program Methods 0.000 claims description 29
- 230000008569 process Effects 0.000 abstract description 7
- 238000005516 engineering process Methods 0.000 description 11
- 210000003128 head Anatomy 0.000 description 8
- 210000000887 face Anatomy 0.000 description 7
- 230000002452 interceptive effect Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 210000001508 eye Anatomy 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 210000001747 pupil Anatomy 0.000 description 2
- 238000004378 air conditioning Methods 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 210000005252 bulbus oculi Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000013011 mating Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/04—Circuits for transducers, loudspeakers or microphones for correcting frequency response
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3343—Query execution using phonetics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/165—Management of the audio stream, e.g. setting of volume, audio stream path
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R29/00—Monitoring arrangements; Testing arrangements
- H04R29/004—Monitoring arrangements; Testing arrangements for microphones
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/01—Aspects of volume control, not necessarily automatic, in sound systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2499/00—Aspects covered by H04R or H04S not otherwise provided for in their subgroups
- H04R2499/10—General applications
- H04R2499/15—Transducers incorporated in visual displaying devices, e.g. televisions, computer displays, laptops
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Medical Informatics (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Radiology & Medical Imaging (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Otolaryngology (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本申请涉及一种人机交互方法、装置、计算机设备和存储介质,其中方法包括:检测当前输出音量,当输出音量小于预设第一阈值时,启动语音识别功能,采集用户语音消息,同时检测用户语音音量的大小,响应用户语音操作,当用户语音音量大于预设第二阈值时,调小输出音量,返回检测当前输出音量的步骤。整个过程中,通过设备本身输出音量大小控制语音识别功能的开启,以便准确响应用户语音操作,并且在用户语音大于一定时,减小输出音量,以便凸显以及准确采集用户后续语音消息,给用户操作来带便捷,可以实现良好的人机交互。
Description
技术领域
本申请涉及人机交互技术领域,特别是涉及一种人机交互方法、装置、计算机设备和存储介质。
背景技术
人机交互是指人与设备之间使用某种对话语言,以一定的交互方式,为完成确定任务的人与设备之间的信息交换过程。
随着科学技术的发展,人机交互技术的应用领域越来越宽广,小如收音机的播放按键,大至飞机上的仪表板、或是发电厂的控制室,用户都可以通过人机交互界面与系统交流,并进行操作。目前在人机交互技术中,主流的人机交互方式主要包括3种,第一种是传统按键方式;第二种是特定语音词激活方式,如:在对话前先说“小冰你好”,设备才识别后面所听到的语音;第三种是“举手发言”,即先用一个特定手势动作来让设备启动语音识别。
上述人机交互方式,虽然在一定程度上可以实现人机交互功能,但是由于交互方式单一,需要预先设定一定特定手势动作,交互过程并不十分自然,在一定程度上给用户操作带来不便。
发明内容
基于此,有必要针对上述技术问题,提供一种能够给用户带来便捷操作的人机交互方法、装置、计算机设备和存储介质。
一种人机交互方法,所述方法包括:
检测当前输出音量,当输出音量小于预设第一阈值时,启动语音识别功能;
当侦听到用户语音时,采集用户语音消息;
检测用户语音音量,并响应用户语音操作;
当用户语音音量大于预设第二阈值时,减小输出音量,返回所述检测当前输出音量的步骤。
在其中一个实施例中,所述检测当前输出音量之后还包括:
当所述输出音量大于预设第一阈值时,关闭语音识别功能。
在其中一个实施例中,所述检测当前输出音量之后还包括:
当未检测到用户人脸时,关闭语音识别功能。
在其中一个实施例中,所述当所述输出音量小于预设第一阈值时,启动语音识别功能包括:
当所述输出音量小于预设第一阈值且检测到人脸时,启动语音识别功能。
在其中一个实施例中,所述当所述输出音量小于预设第一阈值且检测到人脸时,启动语音识别功能的步骤包括:
当所述输出音量小于预设第一阈值时,启动人脸头部姿态检测;
当检测到正脸时,启动语音识别功能。
在其中一个实施例中,所述当所述输出音量小于预设第一阈值且检测到人脸时,启动语音识别功能的步骤包括:
当所述输出音量小于预设第一阈值时,获取用户与设备处于相对正视状态下的正视图像数据;
实时采集用户当前图像数据,将当前采集的图像数据与所述正视图像数据比较;
当所述当前采集的图像数据和所述正视图像数据一致时,判定用户与设备处于相对正视状态,启动语音识别功能。
在其中一个实施例中,所述响应用户语音操作包括:
识别当前播放图像类型,所述图像类型包括视频图像、照片图像以及语音节目;
根据预设图像类型与语音响应指令词对应关系,获取当前播放图像类型对应的支持响应指令词集;
解析所述用户语音消息,获取所述用户语音消息对应指令词;
当获取的指令词属于所述当前播放图像类型对应的支持响应指令词集时,响应用户语音操作;
当获取的指令词不属于所述当前播放图像类型对应的支持响应指令词集时,不响应用户语音操作。
一种人机交互装置,所述装置包括:
输出音量检测模块,用于检测当前输出音量,当输出音量小于预设第一阈值时,启动语音识别功能;
侦听模块,用于当侦听到用户语音时,采集用户语音消息;
响应模块,用于检测用户语音音量,并响应用户语音操作;
音量调节模块,用于当用户语音音量大于预设第二阈值时,减小输出音量,控制输出音量检测模块重新执行所述检测当前输出音量的操作。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法的步骤。
上述人机交互方法、装置、计算机设备和存储介质,检测当前输出音量,当输出音量小于预设第一阈值时,启动语音识别功能,采集用户语音消息,同时检测用户语音音量的大小,响应用户语音操作,当用户语音音量大于预设第二阈值时,调小输出音量,返回检测当前输出音量的步骤。整个过程中,通过设备本身输出音量大小控制语音识别功能的开启,以便准确响应用户语音操作,并且在用户语音大于一定时,减小输出音量,以便凸显以及准确采集用户后续语音消息,给用户操作来带便捷,可以实现良好的人机交互。
附图说明
图1为一个实施例中人机交互方法的应用环境图;
图2为一个实施例中人机交互方法的流程示意图;
图3为一个实施例中人机交互装置的结构框图;
图4为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的人机交互方法,可以应用于如图1所示的应用环境中。其中,设备运行时,检测自身输出音量,当输出音量小于预设第一阈值时,启动自身语音识别功能,例如开启自身内置的拾音模块,用户发出语音消息,以进行语音操作,当设备侦听到该语音消息时,采集语音消息,检测语音音量,并且响应用户语音操作,例如进行切换操作,另外,设备还会检测用户语音音量是否大于预设值,当大于时,减小自身输出音量,并且返回检测当前输出音量的操作。
在其中一个实施例,如图2所示,提供一种人机交互方法,以该方法应用于图1中的设备为例进行说明,包括以下步骤:
S200:检测当前输出音量,当输出音量小于预设第一阈值时,启动语音识别功能。
设备检测自身当前输出音量,其检测方式可以是直接检测输出至设备中发声设备(例如扬声器)的电信号。例如当设备为电视机时,电视机中控制系统可以检测当前输出到电视机扬声器的电信号,来检测当前输出音量。预设第一阈值是预先设定的阈值,这个值可以根据实际情况的需要进行设定,例如可以设定为30分贝、35分贝或40分贝等。语音识别功能是指能够采集并响应用户语音操作的功能,其具体启动可以通过启用语音模块或拾音模块来实现。以设备为电视机为例,电视机上内置有麦克风(或者麦克风阵列)以及声音处理模块,能够拾取电视机前面观众的语音,当电视机输出音量小于预设第一阈值时,启动这些内置硬件设备,并且电视机内部控制系统启用语音识别功能。
S400:当侦听到用户语音时,采集用户语音消息。
设备在启动语音识别功能后,保持语音侦听状态,当侦听到用户语音时,采集用户语音消息。设备自身输出的语音信号对于设备来说是已知的,设备可以将采集到的语音信号“减去(去噪)”已知的输出的语音信号即可得到当前采集的用户语音消息。以设备为电视机为例,电视机在启动语音识别功能之后,保持语音侦听状态,当侦听到用户语音时,将采集到的语音信号去除电视机自身播放的语音信号得到用户语音消息。
S600:检测用户语音音量,并响应用户语音操作。
根据采集到的用户语音消息,检测用户语音音量,并且执行语音识别操作,响应用户语音操作。以设备为电视机为例,电视机侦听到用户发出“下一个节目”语音时,采集该用户的“下一个节目”语音消息,检测用户发出该语音消息的音量为40分贝,响应用户该语音消息,将电视机节目切换至下一个节目。需要指出的时,响应用户语音操作和检测用户语音是两个并行的动作,两者可以并行(同时)实现。
S800:当用户语音音量大于预设第二阈值时,减小输出音量,返回检测当前输出音量的步骤。
当步骤S600检测到用户语音音量大于预设第二阈值时,减小输出音量,以便后续用户语音消息能够更加及时、准确被侦听到。预设第二阈值是预先设定的值,其可以根据实际情况的需要进行设定,例如40分贝、35分贝等。
上述人机交互方法,检测当前输出音量,当输出音量小于预设第一阈值时,启动语音识别功能,采集用户语音消息,同时检测用户语音音量的大小,响应用户语音操作,当用户语音音量大于预设第二阈值时,调小输出音量,返回检测当前输出音量的步骤。整个过程中,通过设备本身输出音量大小控制语音识别功能的开启,以便准确响应用户语音操作,并且在用户语音大于一定时,减小输出音量,以便凸显以及准确采集用户后续语音消息,给用户操作来带便捷,可以实现良好的人机交互。
在其中一个实施例中,检测当前输出音量之后还包括:
当输出音量大于预设第一阈值时,关闭语音识别功能。当设备输出音量大于预设第一阈值时,此时设备输出声音较大,用户一般是没有进行语音操作的意图,为避免外部噪音干扰,关闭语音识别功能,例如可以关闭设备中拾音模块。以设备为电视机为例,当电视机输出音量大于预设第一阈值(40分贝)时,电视机关闭自身内置的拾音模块,以关闭语音识别功能,不响应语音操作。
在其中一个实施例中,当输出音量大于预设第一阈值时,关闭语音识别功能包括:当输出音量大于预设第一阈值且未检测到用户人脸时,关闭语音识别功能。
为避免用户无法在特殊情况实现语音操作,在这里,当设备输出音量大于预设第一阈值时,进一步检测是否存在用户人脸,当不存在用户人脸时表明当前用户无语音操作的需求,关闭语音识别功能。非必要的,当检测到存在用户人脸时,不关闭语音识别功能,以便用户可以紧急、突发启动语音操作功能。以设备为电视机为例,当电视机检测到输出音量大于预设第一阈值时,进一步检测当前可视角度范围内是否存在合法、已知用户人脸,当不存在时,关闭语音识别功能;当存在时,不关闭语音识别功能。非必要的,用户人脸检测也可以在输出音量之前进行,当未检测到用户人脸时,不论输出音量大小,直接关闭语音识别功能,避免外部环境杂音的干扰。
在其中一个实施例中,当用户语音音量大于预设第二阈值时,启动语音识别功能,响应用户语音操作。
针对可能存在特殊情况语音控制需求,在本实施例中,当用户语音音量大于预设第二阈值时,表明当前用户迫切需要进行语音控制,因此,此时重新启动语音识别功能,并响应用户语音操作。
在其中一个实施例中,当输出音量小于预设第一阈值时,启动语音识别功能包括:当输出音量小于预设第一阈值且检测到人脸时,启动语音识别功能。
当输出音量小于预设第一阈值时,进一步检测是否存在人脸,当存在用人脸时,说明用户有进行语音操作的需求,启动语音识别功能。非必要的,当检测到不存在用户人脸时,不启动语音识别功能。以设备为电视机为例,当电视机检测到输出音量小于预设第一阈值时,进一步检测在可视角度范围内是否存在用户人脸,当检测到用户人脸时,启动语音识别功能;当未检测到用户人脸时,不启动语音识别功能。
在其中一个实施例中,当输出音量小于预设第一阈值且检测到人脸时,启动语音识别功能的步骤包括:当输出音量小于预设第一阈值时,启动人脸头部姿态检测;当检测到正脸时,启动语音识别功能。
当输出音量小于预设第一阈值时,进一步检测当前设备周围是否存在用户(操作人员),对此,进行人脸头部姿态检测,当检测到用户正脸时,启动语音识别功能,当未检测到用户正脸时,不启动语音识别功能。以设备为电视机为例,电视机中内置的摄像头能够检测观众人脸的位置,将此人脸位置信息提供给阵列拾音模块,拾音能够对该位置目标用户实现精准拾音,有利于屏蔽其它声音。
在其中一个实施例中,当输出音量小于预设第一阈值且检测到人脸时,启动语音识别功能的步骤包括:当输出音量小于预设第一阈值时,获取用户与设备处于相对正视状态下的正视图像数据;实时采集用户当前图像数据,将当前采集的图像数据与正视图像数据比较;当当前采集的图像数据和正视图像数据一致时,判定用户与设备处于相对正视状态,启动语音识别功能。
当输出音量小于预设第一阈值时,启动正视识别。具体来说,在正视识别过程中,设备可以为电视机、空调、电脑以及机器人等,另外设备还可以包括车载设备等。用户与设备处于相对正视状态是指用户正视设备,例如当设备为电视机时,用户正视电视机的状态即为用户与电视机处于相对正视状态。可以通过图像采集设备获取用户与设备处于相对正视状态下的正视图像数据,又由于图像采集设备一般是无法设置于设备正中心的,所以图像采集设备采集用户与设备处于相对正视状态下图像时,从图像采集设备角度看去用户眼睛或用户人脸并不是正对图像采集设备的,一般会呈现一定的角度。为了有利于后续精准判定正视状态,先获取图像采集设备采集的用户与设备处于相对正视状态下的正视图像数据。用户与设备处于相对正视状态下的正视图像数据可以是历史记录中采集好的数据,也可以是当场采集的数据。图像采集设备可以是摄像头等设备,在这里,用户与设备处于相对正视状态下的正视图像数据是通过图像采集设备采集的图像采集设备可以设置于设备上,还可以设置设备的辅助设备或外围设备上,例如当设备为电视机时,图像采集设备可以设置于电视,也可以设置于与电视配套的机顶盒上。更具体来说,摄像头拍摄的用户与设备处于相对正视状态下的正视图像数据,进行图像处理和图像目标坐标换算之后即可确定设备和用户人脸相对位置,即可以获取用户与设备处于相对正视状态下用户的人脸图像数据。判定用户与设备处于相对正视状态可以选择采用头部姿态估计(head pose estimation)或者视线跟踪(gaze tracking)等技术来实现。用户与设备处于相对正视状态的前提下,通过计算机的视觉识别技术和语音识别技术识别用户行为和意图,根据预设用户的行为与意图与操作对应关系,控制设备执行与用户当前的行为与意图对应的操作。即只有判定用户与设备处于相对正视状态的前提下,设备才会启动响应用户操作,这样,一方面避免误操作,例如可以避免电视机错误启动、错误切换电视机节目等;另一方面,由于用户与设备处于相对正视状态时,即有极大可能性用户对设备进行操作,给用户带来便利。具体来说,计算机的视觉识别技术和语音识别技术主要可以包括人脸识别、人脸检测、人脸跟踪、语音识别、手势识别、唇语识别、声纹识别、表情识别、年龄识别、卡片识别、瞳孔识别以及虹膜识别等。采用上述丰富的计算机的视觉识别技术和语音识别技术能够从人脸、语音、瞳孔、手势等方面实现人机交互,更进一步丰富用户生活,给用户带来便捷操作。
在其中一个实施例中,响应用户语音操作包括:识别当前播放图像类型,图像类型包括视频图像、照片图像以及语音节目;根据预设图像类型与语音响应指令词对应关系,获取当前播放图像类型对应的支持响应指令词集;解析用户语音消息,获取用户语音消息对应指令词;当获取的指令词属于当前播放图像类型对应的支持响应指令词集时,响应用户语音操作;当获取的指令词不属于当前播放图像类型对应的支持响应指令词集时,不响应用户语音操作。
交互设备可以包括电视机、平板电脑、笔记本电脑以及触摸屏等显示设备,还可以为机器人或投影仪。当显示设备需要响应用户语音操作时,识别当前播放图像类型,图像类型主要包括视频图像、照片图像以及语音节目,不同的图像类型对应有不同的预设语音响应指令词,例如针对视频图像有“快进”、“后退”、“下一个节目”、“切换至XX节目”等;针对照片图像有“上一张”、“下一张”、“放大”、“缩小”等。针对当前播放图像类型,获取对应的支持响应指令词,解析用户语音消息,获得对应的指令词,当获取的指令词属于当前播放图像类型对应的支持响应指令词集时,响应用户语音操作,否则不响应。以交互设备为电视机为例,当电视机当前正常播放电视接口节目时,识别当前播放图像类型为视频图像中的电视直播节目,获取电视直播节目对应的支持响应指令词为“下一个节目”、“上一个节目”以及“切换至XX台”,解析当前获取的用户语音消息,获取用户语音消息对应指令词为“切换至XX台”,判定“切换至XX台”属于当前支持响应指令词,响应用户“切换至XX台”的语音操作;若解析当前获取的用户语音消息,获取用户语音消息对应指令词为“下一张”时,判定“下一张”不属于当前支持响应指令词,不响应用户“下一张”的语音操作。
应该理解的是,虽然图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行
如图3所示,一种人机交互装置,装置包括:
输出音量检测模块200,用于检测当前输出音量,当输出音量小于预设第一阈值时,启动语音识别功能;
侦听模块400,用于当侦听到用户语音时,采集用户语音消息;
响应模块600,用于检测用户语音音量,并响应用户语音操作;
音量调节模块800,用于当用户语音音量大于预设第二阈值时,减小输出音量,控制输出音量检测模块重新执行检测当前输出音量的操作。
上述人机交互装置,检测当前输出音量,当输出音量小于预设第一阈值时,启动语音识别功能,采集用户语音消息,同时检测用户语音音量的大小,响应用户语音操作,当用户语音音量大于预设第二阈值时,调小输出音量,返回检测当前输出音量的步骤。整个过程中,通过设备本身输出音量大小控制语音识别功能的开启,以便准确响应用户语音操作,并且在用户语音大于一定时,减小输出音量,以便凸显以及准确采集用户后续语音消息,给用户操作来带便捷,可以实现良好的人机交互。
在其中一个实施例中,输出音量检测模块200还用于当输出音量大于预设第一阈值时,关闭语音识别功能。
在其中一个实施例中,输出音量检测模块200还用于当输出音量大于预设第一阈值且未检测到用户人脸时,关闭语音识别功能。
在其中一个实施例中,输出音量检测模块200还用于当输出音量小于预设第一阈值且检测到人脸时,启动语音识别功能。
在其中一个实施例中,输出音量检测模块200还用于当输出音量小于预设第一阈值时,启动人脸头部姿态检测;当检测到正脸时,启动语音识别功能。
在其中一个实施例中,输出音量检测模块200还用于当输出音量小于预设第一阈值时,获取用户与设备处于相对正视状态下的正视图像数据;实时采集用户当前图像数据,将当前采集的图像数据与正视图像数据比较;当当前采集的图像数据和正视图像数据一致时,判定用户与设备处于相对正视状态,启动语音识别功能。
在其中一个实施例中,响应模块600还用于识别当前播放图像类型,图像类型包括视频图像、照片图像以及语音节目;根据预设图像类型与语音响应指令词对应关系,获取当前播放图像类型对应的支持响应指令词集;解析用户语音消息,获取用户语音消息对应指令词;当获取的指令词属于当前播放图像类型对应的支持响应指令词集时,响应用户语音操作;当获取的指令词不属于当前播放图像类型对应的支持响应指令词集时,不响应用户语音操作。
关于人机交互装置的具体限定可以参见上文中对于人机交互方法的限定,在此不再赘述。上述人机交互装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储预设数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种人机交互方法。
本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
检测当前输出音量,当输出音量小于预设第一阈值时,启动语音识别功能;
当侦听到用户语音时,采集用户语音消息;
检测用户语音音量,并响应用户语音操作;
当用户语音音量大于预设第二阈值时,减小输出音量,返回检测当前输出音量的步骤。
在其中一个实施例中,处理器执行计算机程序时还实现以下步骤:当输出音量大于预设第一阈值时,关闭语音识别功能。
在其中一个实施例中,处理器执行计算机程序时还实现步骤:当输出音量大于预设第一阈值且未检测到用户人脸时,关闭语音识别功能。
在其中一个实施例中,处理器执行计算机程序时还实现步骤:当输出音量小于预设第一阈值且检测到人脸时,启动语音识别功能。
在其中一个实施例中,处理器执行计算机程序时还实现步骤:当输出音量小于预设第一阈值时,启动人脸头部姿态检测;当检测到正脸时,启动语音识别功能。
在其中一个实施例中,处理器执行计算机程序时还实现步骤:当输出音量小于预设第一阈值时,获取用户与设备处于相对正视状态下的正视图像数据;实时采集用户当前图像数据,将当前采集的图像数据与正视图像数据比较;当当前采集的图像数据和正视图像数据一致时,判定用户与设备处于相对正视状态,启动语音识别功能。
在其中一个实施例中,处理器执行计算机程序时还实现步骤:识别当前播放图像类型,图像类型包括视频图像、照片图像以及语音节目;根据预设图像类型与语音响应指令词对应关系,获取当前播放图像类型对应的支持响应指令词集;解析用户语音消息,获取用户语音消息对应指令词;当获取的指令词属于当前播放图像类型对应的支持响应指令词集时,响应用户语音操作;当获取的指令词不属于当前播放图像类型对应的支持响应指令词集时,不响应用户语音操作。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
检测当前输出音量,当输出音量小于预设第一阈值时,启动语音识别功能;
当侦听到用户语音时,采集用户语音消息;
检测用户语音音量,并响应用户语音操作;
当用户语音音量大于预设第二阈值时,减小输出音量,返回检测当前输出音量的步骤。
在其中一个实施例中,计算机程序被处理器执行时还实现以下步骤:当输出音量大于预设第一阈值时,关闭语音识别功能。
在其中一个实施例中,计算机程序被处理器执行时还实现以下步骤:当输出音量大于预设第一阈值且未检测到用户人脸时,关闭语音识别功能。
在其中一个实施例中,计算机程序被处理器执行时还实现以下步骤:当输出音量小于预设第一阈值且检测到人脸时,启动语音识别功能。
在其中一个实施例中,计算机程序被处理器执行时还实现以下步骤:当输出音量小于预设第一阈值时,启动人脸头部姿态检测;当检测到正脸时,启动语音识别功能。
在其中一个实施例中,计算机程序被处理器执行时还实现以下步骤:当输出音量小于预设第一阈值时,获取用户与设备处于相对正视状态下的正视图像数据;实时采集用户当前图像数据,将当前采集的图像数据与正视图像数据比较;当当前采集的图像数据和正视图像数据一致时,判定用户与设备处于相对正视状态,启动语音识别功能。
在其中一个实施例中,计算机程序被处理器执行时还实现以下步骤:识别当前播放图像类型,图像类型包括视频图像、照片图像以及语音节目;根据预设图像类型与语音响应指令词对应关系,获取当前播放图像类型对应的支持响应指令词集;解析用户语音消息,获取用户语音消息对应指令词;当获取的指令词属于当前播放图像类型对应的支持响应指令词集时,响应用户语音操作;当获取的指令词不属于当前播放图像类型对应的支持响应指令词集时,不响应用户语音操作。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种人机交互方法,所述方法包括:
检测当前输出音量,当输出音量小于预设第一阈值时,启动语音识别功能;
当侦听到用户语音时,采集用户语音消息;
检测用户语音音量,并响应用户语音操作;
当用户语音音量大于预设第二阈值时,减小输出音量,返回所述检测当前输出音量的步骤。
2.根据权利要求1所述的方法,其特征在于,所述检测当前输出音量之后还包括:
当所述输出音量大于预设第一阈值时,关闭语音识别功能。
3.根据权利要求2所述的方法,其特征在于,所述检测当前输出音量之后还包括:
当未检测到用户人脸时,关闭语音识别功能。
4.根据权利要求1所述的方法,其特征在于,所述当所述输出音量小于预设第一阈值时,启动语音识别功能包括:
当所述输出音量小于预设第一阈值且检测到人脸时,启动语音识别功能。
5.根据权利要求4所述的方法,其特征在于,所述当所述输出音量小于预设第一阈值且检测到人脸时,启动语音识别功能的步骤包括:
当所述输出音量小于预设第一阈值时,启动人脸头部姿态检测;
当检测到正脸时,启动语音识别功能。
6.根据权利要求4所述的方法,其特征在于,所述当所述输出音量小于预设第一阈值且检测到人脸时,启动语音识别功能的步骤包括:
当所述输出音量小于预设第一阈值时,获取用户与设备处于相对正视状态下的正视图像数据;
实时采集用户当前图像数据,将当前采集的图像数据与所述正视图像数据比较;
当所述当前采集的图像数据和所述正视图像数据一致时,判定用户与设备处于相对正视状态,启动语音识别功能。
7.根据权利要求1所述的方法,其特征在于,所述响应用户语音操作包括:
识别当前播放图像类型,所述图像类型包括视频图像、照片图像以及语音节目;
根据预设图像类型与语音响应指令词对应关系,获取当前播放图像类型对应的支持响应指令词集;
解析所述用户语音消息,获取所述用户语音消息对应指令词;
当获取的指令词属于所述当前播放图像类型对应的支持响应指令词集时,响应用户语音操作;
当获取的指令词不属于所述当前播放图像类型对应的支持响应指令词集时,不响应用户语音操作。
8.一种人机交互装置,其特征在于,所述装置包括:
输出音量检测模块,用于检测当前输出音量,当输出音量小于预设第一阈值时,启动语音识别功能;
侦听模块,用于当侦听到用户语音时,采集用户语音消息;
响应模块,用于检测用户语音音量,并响应用户语音操作;
音量调节模块,用于当用户语音音量大于预设第二阈值时,减小输出音量,控制输出音量检测模块重新执行所述检测当前输出音量的操作。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810108122.0A CN108363557B (zh) | 2018-02-02 | 2018-02-02 | 人机交互方法、装置、计算机设备和存储介质 |
US16/966,373 US11483657B2 (en) | 2018-02-02 | 2019-01-28 | Human-machine interaction method and device, computer apparatus, and storage medium |
JP2020564301A JP7066877B2 (ja) | 2018-02-02 | 2019-01-28 | ヒューマンマシンインタラクション方法、装置、コンピュータデバイス及び記憶媒体 |
PCT/CN2019/073324 WO2019149160A1 (zh) | 2018-02-02 | 2019-01-28 | 人机交互方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810108122.0A CN108363557B (zh) | 2018-02-02 | 2018-02-02 | 人机交互方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108363557A true CN108363557A (zh) | 2018-08-03 |
CN108363557B CN108363557B (zh) | 2020-06-12 |
Family
ID=63004559
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810108122.0A Active CN108363557B (zh) | 2018-02-02 | 2018-02-02 | 人机交互方法、装置、计算机设备和存储介质 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11483657B2 (zh) |
JP (1) | JP7066877B2 (zh) |
CN (1) | CN108363557B (zh) |
WO (1) | WO2019149160A1 (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109920427A (zh) * | 2019-04-23 | 2019-06-21 | 上海天诚通信技术股份有限公司 | 基于语音控制的音量调节方法 |
CN111028828A (zh) * | 2019-12-20 | 2020-04-17 | 京东方科技集团股份有限公司 | 一种基于画屏的语音交互方法、画屏及存储介质 |
CN111260510A (zh) * | 2018-11-30 | 2020-06-09 | 北京师范大学 | 辅助学习方法、装置、计算机设备和存储介质 |
CN111292732A (zh) * | 2018-12-06 | 2020-06-16 | 深圳市广和通无线股份有限公司 | 音频信息处理方法、装置、计算机设备和存储介质 |
CN111462744A (zh) * | 2020-04-02 | 2020-07-28 | 深圳创维-Rgb电子有限公司 | 一种语音交互方法、装置、电子设备及存储介质 |
CN111629156A (zh) * | 2019-02-28 | 2020-09-04 | 北京字节跳动网络技术有限公司 | 图像特效的触发方法、装置和硬件装置 |
CN112566757A (zh) * | 2018-08-07 | 2021-03-26 | 具象有限公司 | 使用多模式用户反馈来调整和优化人机交互的系统和方法 |
CN112631543A (zh) * | 2020-12-28 | 2021-04-09 | 青岛海信传媒网络技术有限公司 | 一种智能语音音量控制方法及显示设备 |
CN110070870B (zh) * | 2019-05-06 | 2022-02-08 | 阿波罗智联(北京)科技有限公司 | 车载系统的信号处理方法和系统 |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108363557B (zh) * | 2018-02-02 | 2020-06-12 | 刘国华 | 人机交互方法、装置、计算机设备和存储介质 |
CN111984222A (zh) * | 2020-07-21 | 2020-11-24 | 北京梧桐车联科技有限责任公司 | 调节音量的方法、装置、电子设备及可读存储介质 |
JP7536566B2 (ja) * | 2020-09-10 | 2024-08-20 | 株式会社ディーアンドエムホールディングス | オーディオ装置 |
US11722731B2 (en) | 2020-11-24 | 2023-08-08 | Google Llc | Integrating short-term context for content playback adaption |
CN113014815B (zh) * | 2021-03-03 | 2022-06-17 | 南京地平线机器人技术有限公司 | 对封闭空间中的设备进行控制的方法和装置、介质、设备 |
CN113218058B (zh) * | 2021-04-21 | 2022-09-02 | 海尔(深圳)研发有限责任公司 | 用于控制空调器的方法及装置、服务器 |
CN114071221A (zh) * | 2021-11-10 | 2022-02-18 | 深圳创维-Rgb电子有限公司 | 音量值调整方法、装置、设备及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103198832A (zh) * | 2012-01-09 | 2013-07-10 | 三星电子株式会社 | 图像显示设备及控制图像显示设备的方法 |
CN103688531A (zh) * | 2011-07-26 | 2014-03-26 | 索尼公司 | 控制装置、控制方法和程序 |
US20140135076A1 (en) * | 2012-11-15 | 2014-05-15 | Yeri LEE | Mobile terminal and method of controlling the same |
TW201510770A (zh) * | 2013-09-03 | 2015-03-16 | Top Victory Invest Ltd | 顯示器語音辨識的啟動方法 |
CN104699446A (zh) * | 2013-12-06 | 2015-06-10 | 赐福科技股份有限公司 | 数控系统及方法 |
CN104820556A (zh) * | 2015-05-06 | 2015-08-05 | 广州视源电子科技股份有限公司 | 唤醒语音助手的方法及装置 |
CN105469794A (zh) * | 2015-12-08 | 2016-04-06 | 联想(北京)有限公司 | 信息处理方法及电子设备 |
CN106843800A (zh) * | 2016-12-30 | 2017-06-13 | 深圳天珑无线科技有限公司 | 以语音指令启动功能选单的方法及其系统 |
Family Cites Families (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5949886A (en) * | 1995-10-26 | 1999-09-07 | Nevins; Ralph J. | Setting a microphone volume level |
US7263489B2 (en) * | 1998-12-01 | 2007-08-28 | Nuance Communications, Inc. | Detection of characteristics of human-machine interactions for dialog customization and analysis |
US6434527B1 (en) * | 1999-05-17 | 2002-08-13 | Microsoft Corporation | Signalling and controlling the status of an automatic speech recognition system for use in handsfree conversational dialogue |
JP2003044075A (ja) * | 2001-07-30 | 2003-02-14 | Matsushita Electric Ind Co Ltd | 音声認識機能を備えた電子機器 |
US7424118B2 (en) * | 2004-02-10 | 2008-09-09 | Honda Motor Co., Ltd. | Moving object equipped with ultra-directional speaker |
JP2007533235A (ja) * | 2004-04-15 | 2007-11-15 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | メディアコンテンツ処理装置の制御方法及びメディアコンテンツ処理装置 |
KR20060022053A (ko) * | 2004-09-06 | 2006-03-09 | 삼성전자주식회사 | Av 시스템 및 그 튜닝 방법 |
US9543920B2 (en) * | 2006-10-24 | 2017-01-10 | Kent E. Dicks | Methods for voice communication through personal emergency response system |
US20090253457A1 (en) * | 2008-04-04 | 2009-10-08 | Apple Inc. | Audio signal processing for certification enhancement in a handheld wireless communications device |
US8218790B2 (en) * | 2008-08-26 | 2012-07-10 | Apple Inc. | Techniques for customizing control of volume level in device playback |
JP5332798B2 (ja) * | 2009-03-26 | 2013-11-06 | ブラザー工業株式会社 | 通信制御装置、通信制御方法、及び通信制御プログラム |
JP5229209B2 (ja) * | 2009-12-28 | 2013-07-03 | ブラザー工業株式会社 | ヘッドマウントディスプレイ |
US8699723B2 (en) * | 2010-07-20 | 2014-04-15 | International Business Machines Corporation | Audio device volume manager using measured volume perceived at a first audio device to control volume generation by a second audio device |
US8611559B2 (en) * | 2010-08-31 | 2013-12-17 | Apple Inc. | Dynamic adjustment of master and individual volume controls |
US9318129B2 (en) * | 2011-07-18 | 2016-04-19 | At&T Intellectual Property I, Lp | System and method for enhancing speech activity detection using facial feature detection |
CN104683557A (zh) * | 2013-12-02 | 2015-06-03 | 中兴通讯股份有限公司 | 一种移动终端自动切换通话模式的方法及装置 |
US10978060B2 (en) * | 2014-01-31 | 2021-04-13 | Hewlett-Packard Development Company, L.P. | Voice input command |
US10499164B2 (en) * | 2015-03-18 | 2019-12-03 | Lenovo (Singapore) Pte. Ltd. | Presentation of audio based on source |
US10134425B1 (en) * | 2015-06-29 | 2018-11-20 | Amazon Technologies, Inc. | Direction-based speech endpointing |
KR102538348B1 (ko) * | 2015-09-17 | 2023-05-31 | 삼성전자 주식회사 | 전자 장치 및 전자 장치의 동작 제어 방법 |
JP6767796B2 (ja) * | 2016-07-08 | 2020-10-14 | 株式会社日立情報通信エンジニアリング | 通話管理システム及びその音声認識制御方法 |
US20180070008A1 (en) * | 2016-09-08 | 2018-03-08 | Qualcomm Incorporated | Techniques for using lip movement detection for speaker recognition in multi-person video calls |
US10074371B1 (en) * | 2017-03-14 | 2018-09-11 | Amazon Technologies, Inc. | Voice control of remote device by disabling wakeword detection |
CN107239139B (zh) * | 2017-05-18 | 2018-03-16 | 刘国华 | 基于正视的人机交互方法与系统 |
US10733990B2 (en) * | 2017-10-18 | 2020-08-04 | Motorola Mobility Llc | Preventing initiation of a voice recognition session |
CN108363557B (zh) * | 2018-02-02 | 2020-06-12 | 刘国华 | 人机交互方法、装置、计算机设备和存储介质 |
-
2018
- 2018-02-02 CN CN201810108122.0A patent/CN108363557B/zh active Active
-
2019
- 2019-01-28 US US16/966,373 patent/US11483657B2/en active Active
- 2019-01-28 JP JP2020564301A patent/JP7066877B2/ja active Active
- 2019-01-28 WO PCT/CN2019/073324 patent/WO2019149160A1/zh active Application Filing
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103688531A (zh) * | 2011-07-26 | 2014-03-26 | 索尼公司 | 控制装置、控制方法和程序 |
CN103198832A (zh) * | 2012-01-09 | 2013-07-10 | 三星电子株式会社 | 图像显示设备及控制图像显示设备的方法 |
US20140135076A1 (en) * | 2012-11-15 | 2014-05-15 | Yeri LEE | Mobile terminal and method of controlling the same |
TW201510770A (zh) * | 2013-09-03 | 2015-03-16 | Top Victory Invest Ltd | 顯示器語音辨識的啟動方法 |
CN104699446A (zh) * | 2013-12-06 | 2015-06-10 | 赐福科技股份有限公司 | 数控系统及方法 |
CN104820556A (zh) * | 2015-05-06 | 2015-08-05 | 广州视源电子科技股份有限公司 | 唤醒语音助手的方法及装置 |
CN105469794A (zh) * | 2015-12-08 | 2016-04-06 | 联想(北京)有限公司 | 信息处理方法及电子设备 |
CN106843800A (zh) * | 2016-12-30 | 2017-06-13 | 深圳天珑无线科技有限公司 | 以语音指令启动功能选单的方法及其系统 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112566757A (zh) * | 2018-08-07 | 2021-03-26 | 具象有限公司 | 使用多模式用户反馈来调整和优化人机交互的系统和方法 |
CN111260510A (zh) * | 2018-11-30 | 2020-06-09 | 北京师范大学 | 辅助学习方法、装置、计算机设备和存储介质 |
CN111292732A (zh) * | 2018-12-06 | 2020-06-16 | 深圳市广和通无线股份有限公司 | 音频信息处理方法、装置、计算机设备和存储介质 |
CN111292732B (zh) * | 2018-12-06 | 2023-07-21 | 深圳市广和通无线股份有限公司 | 音频信息处理方法、装置、计算机设备和存储介质 |
CN111629156A (zh) * | 2019-02-28 | 2020-09-04 | 北京字节跳动网络技术有限公司 | 图像特效的触发方法、装置和硬件装置 |
US11595591B2 (en) | 2019-02-28 | 2023-02-28 | Beijing Bytedance Network Technology Co., Ltd. | Method and apparatus for triggering special image effects and hardware device |
CN109920427A (zh) * | 2019-04-23 | 2019-06-21 | 上海天诚通信技术股份有限公司 | 基于语音控制的音量调节方法 |
CN110070870B (zh) * | 2019-05-06 | 2022-02-08 | 阿波罗智联(北京)科技有限公司 | 车载系统的信号处理方法和系统 |
CN111028828A (zh) * | 2019-12-20 | 2020-04-17 | 京东方科技集团股份有限公司 | 一种基于画屏的语音交互方法、画屏及存储介质 |
CN111462744A (zh) * | 2020-04-02 | 2020-07-28 | 深圳创维-Rgb电子有限公司 | 一种语音交互方法、装置、电子设备及存储介质 |
CN111462744B (zh) * | 2020-04-02 | 2024-01-30 | 深圳创维-Rgb电子有限公司 | 一种语音交互方法、装置、电子设备及存储介质 |
CN112631543A (zh) * | 2020-12-28 | 2021-04-09 | 青岛海信传媒网络技术有限公司 | 一种智能语音音量控制方法及显示设备 |
Also Published As
Publication number | Publication date |
---|---|
WO2019149160A1 (zh) | 2019-08-08 |
US20200374630A1 (en) | 2020-11-26 |
US11483657B2 (en) | 2022-10-25 |
CN108363557B (zh) | 2020-06-12 |
JP2021513123A (ja) | 2021-05-20 |
JP7066877B2 (ja) | 2022-05-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108363557A (zh) | 人机交互方法、装置、计算机设备和存储介质 | |
WO2018210219A1 (zh) | 基于正视的人机交互方法与系统 | |
CN110730115B (zh) | 语音控制方法及装置、终端、存储介质 | |
CN105828101B (zh) | 生成字幕文件的方法及装置 | |
CN108337362A (zh) | 语音交互方法、装置、设备和存储介质 | |
EP2993860B1 (en) | Method, apparatus, and system for presenting communication information in video communication | |
WO2019037732A1 (zh) | 麦克风阵列的电视机及电视系统 | |
CN107564523B (zh) | 一种耳机接听方法、装置以及耳机 | |
JP2015535952A (ja) | マルチメディアデバイス用音声制御システム及び方法、及びコンピュータ記憶媒体 | |
US20160381233A1 (en) | Mobile Terminal Talk Mode Switching Method, Device and Storage Medium | |
CN112261218B (zh) | 视频控制方法、视频控制装置、电子设备和可读存储介质 | |
JP2019521440A (ja) | 装置および関連する方法 | |
CN111009239A (zh) | 回声消除方法、回声消除装置及电子设备 | |
CN110769280A (zh) | 一种接续播放文件的方法及装置 | |
CN111179923A (zh) | 一种基于可穿戴设备的音频播放方法及可穿戴设备 | |
JP2011257943A (ja) | ジェスチャ操作入力装置 | |
CN113129893B (zh) | 一种语音识别方法、装置、设备及存储介质 | |
KR101995443B1 (ko) | 화자 검증 방법 및 음성인식 시스템 | |
CN111966321A (zh) | 音量调节方法、ar设备及存储介质 | |
CN104423992A (zh) | 显示器语音辨识的启动方法 | |
WO2022089131A1 (zh) | 智能终端自动回信方法、装置、计算机设备和存储介质 | |
CN110286771A (zh) | 交互方法、装置、智能机器人、电子设备及存储介质 | |
CN111107283A (zh) | 一种信息显示方法、电子设备及存储介质 | |
CN114373464A (zh) | 文本展示方法、装置、电子设备及存储介质 | |
CN112584225A (zh) | 视频录制处理方法、视频播放控制方法及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |