CN111063354A - 人机交互方法及装置 - Google Patents

人机交互方法及装置 Download PDF

Info

Publication number
CN111063354A
CN111063354A CN201911064717.1A CN201911064717A CN111063354A CN 111063354 A CN111063354 A CN 111063354A CN 201911064717 A CN201911064717 A CN 201911064717A CN 111063354 A CN111063354 A CN 111063354A
Authority
CN
China
Prior art keywords
signal
module
voice
lip
determined
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911064717.1A
Other languages
English (en)
Other versions
CN111063354B (zh
Inventor
李旭滨
王利平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Original Assignee
Unisound Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unisound Intelligent Technology Co Ltd filed Critical Unisound Intelligent Technology Co Ltd
Priority to CN201911064717.1A priority Critical patent/CN111063354B/zh
Publication of CN111063354A publication Critical patent/CN111063354A/zh
Application granted granted Critical
Publication of CN111063354B publication Critical patent/CN111063354B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/4401Bootstrapping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本公开是关于一种人机交互方法及装置。该方法包括:获取环境的声音信号;在确定所述环境的声音信号大于或等于预设值时,通过所述摄像头获取唇部状态信号和语音信号;其中,所述唇部状态信号包括唇动状态和未唇动状态;根据所述唇动状态发生的时刻和所述未唇动状态发生的时刻,从所述语音信号中确定待识别语音信号;对所述待识别语音信号进行识别;在确定所述待识别语音信号与预设信号匹配时,开启对话系统。该技术方案在电子设备处于嘈杂环境中时,可以根据唇部状态信号来对嘈杂环境中获取的语音信号进行断句,准确的获取唤醒词,实现了对电子设备的准确唤醒,提高了用户体验。

Description

人机交互方法及装置
技术领域
本公开涉及人机交互技术领域,尤其涉及一种人机交互方法及装置。
背景技术
随着信息技术的不断发展,智能大屏或者带屏的硬件机器人等电子设备已逐渐普及。
相关技术中,在唤醒电子设备时,需要用户语音输入唤醒词,电子设备在接收到用户输入的唤醒词与预设唤醒词进行匹配,在确定唤醒词与预设唤醒词匹配时,则主动唤醒电子设备,用户就可以通过语音与电子设备实现人机交互。
但上述唤醒电子设备的方法,若电子设备所处环境比较嘈杂,则电子设备接收到的语音信号比较杂乱,无法正确实现唤醒词的断句,从而导致无法唤醒或者误唤醒电子设备,降低了人机交互体验。
发明内容
为克服相关技术中存在的问题,本公开实施例提供一种人机交互方法及装置。所述技术方案如下:
根据本公开实施例的第一方面,提供一种人机交互方法,应用于具备摄像头的电子设备,所述方法包括:
获取环境的声音信号;
在确定所述环境的声音信号大于或等于预设值时,通过所述摄像头获取唇部状态信号和语音信号;其中,所述唇部状态信号包括唇动状态和未唇动状态;
根据所述唇动状态发生的时刻和所述未唇动状态发生的时刻,从所述语音信号中确定待识别语音信号;
对所述待识别语音信号进行识别;
在确定所述待识别语音信号与预设信号匹配时,开启对话系统。
本公开的实施例提供的技术方案可以包括以下有益效果:在检测到环境的声音信号大于或等于预设值时,获取唇部状态信号和语音信号,其中,唇部状态信号包括唇动状态和未唇动状态,根据发生唇动状态的时刻和未发生唇动状态的时刻从语音信号中确定出待识别语音信号,进而对待识别语音信号进行识别,当待识别语音信号与预设信号匹配时,则确定唤醒成功,开始对话系统进行人机交互。这样,在电子设备处于嘈杂环境中时,可以根据唇部状态信号来对嘈杂环境中获取的语音信号进行断句,准确的获取唤醒词,实现了对电子设备的准确唤醒,提高了用户体验。
在一个实施例中,还包括:
在确定所述环境的声音信号小于所述预设值时,通过所述摄像头获取目标物的脸部信号;
根据所述脸部信号确定所述目标物的停留时间;
在确定所述目标物的停留时间大于第一预设时间时,开启所述对话系统。
在一个实施例中,在所述开启对话系统之后,还包括:
获取所述目标物输入的语音指令信息;
对所述语音指令信息进行语义识别,得到语义信息;
获取与所述语义信息匹配的语音响应信息;
播放所述语音响应信息。
在一个实施例中,在所述播放所述语音响应信息之后,还包括:
对所述对话系统的轮数进行计数;
在确定所述对话系统的轮数小于预设轮数时,继续执行所述获取所述目标物输入的语音指令信息的步骤,直至所述对话系统的轮数等于所述预设轮数。
在一个实施例中,在所述获取环境的声音信号之前,还包括:
开启所述摄像头。
根据本公开实施例的第二方面,提供一种人机交互装置,包括:第一获取模块,用于获取环境的声音信号;
第二获取模块,用于在确定所述环境的声音信号大于或等于预设值时,通过所述摄像头获取唇部状态信号和语音信号;其中,所述唇部状态信号包括唇动状态和未唇动状态;
第一确定模块,用于根据所述唇动状态发生的时刻和所述未唇动状态发生的时刻,从所述语音信号中确定待识别语音信号;
第一识别模块,用于对所述待识别语音信号进行识别;
第一开启模块,用于在确定所述待识别语音信号与预设信号匹配时,开启对话系统。
本公开的实施例提供的技术方案可以包括以下有益效果:在检测到环境的声音信号大于或等于预设值时,获取唇部状态信号和语音信号,其中,唇部状态信号包括唇动状态和未唇动状态,根据发生唇动状态的时刻和未发生唇动状态的时刻从语音信号中确定出待识别语音信号,进而对待识别语音信号进行识别,当待识别语音信号与预设信号匹配时,则确定唤醒成功,开始对话系统进行人机交互。这样,在电子设备处于嘈杂环境中时,可以根据唇部状态信号来对嘈杂环境中获取的语音信号进行断句,准确的获取唤醒词,实现了对电子设备的准确唤醒,提高了用户体验。
在一个实施例中,还包括第三获取模块、第二确定模块和第二开启模块;
所述第三获取模块,用于在确定所述环境的声音信号小于所述预设值时,通过所述摄像头获取目标物的脸部信号;
所述第二确定模块,用于根据所述脸部信号确定所述目标物的停留时间;
所述第二开启模块,用于在确定所述目标物的停留时间大于第一预设时间时,开启所述对话系统。
在一个实施例中,还包括第四获取模块、第二识别模块、第五获取模块和播放模块;
所述第四获取模块,用于获取所述目标物输入的语音指令信息;
所述第二识别模块,用于对所述语音指令信息进行语义识别,得到语义信息;
所述第五获取模块,用于获取与所述语义信息匹配的语音响应信息;
所述播放模块,用于播放所述语音响应信息。
在一个实施例中,还包括计数模块和执行模块;
所述计数模块,用于对所述对话系统的轮数进行计数;
所述执行模块,用于在确定所述对话系统的轮数小于预设轮数时,继续执行所述获取所述目标物输入的语音指令信息的步骤,直至所述对话系统的轮数等于所述预设轮数。
在一个实施例中,还包括第三开启模块;
所述第三开启模块,用于开启所述摄像头。
根据本公开实施例的第三方面,提供一种人机交互装置,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取环境的声音信号;
在确定所述环境的声音信号大于或等于预设值时,通过所述摄像头获取唇部状态信号和语音信号;其中,所述唇部状态信号包括唇动状态和未唇动状态;
根据所述唇动状态发生的时刻和所述未唇动状态发生的时刻,从所述语音信号中确定待识别语音信号;
对所述待识别语音信号进行识别;
在确定所述待识别语音信号与预设信号匹配时,开启对话系统。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的人机交互方法的流程图。
图2是根据一示例性实施例示出的人机交互方法的流程图。
图3是根据一示例性实施例示出的人机交互方法的流程图。
图4是根据一示例性实施例示出的人机交互方法的流程图。
图5是根据一示例性实施例示出的人机交互方法的流程图。
图6a是根据一示例性实施例示出的人机交互装置的结构示意图。
图6b是根据一示例性实施例示出的人机交互装置的结构示意图。
图6c是根据一示例性实施例示出的人机交互装置的结构示意图。
图6d是根据一示例性实施例示出的人机交互装置的结构示意图。
图6e是根据一示例性实施例示出的人机交互装置的结构示意图。
图7是根据一示例性实施例示出的人机交互装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种人机交互方法的流程图,应用于具备摄像头的电子设备,如图1所示,该人机交互方法包括以下步骤101至步骤105:
在步骤101中,获取环境的声音信号。
示例的,电子设备通过摄像头或者麦克风获取环境中的声音信号,并对获取到的声音信号进行检测;还可以通过其他设备获取环境中的声音信号,其他设备再将获取到的声音信号通过有线或者无线发送至该电子设备。
在步骤102中,在确定所述环境的声音信号大于或等于预设值时,通过所述摄像头获取唇部状态信号和语音信号。
其中,所述唇部状态信号包括唇动状态和未唇动状态。
示例的,电子设备可以对环境的声音信号的幅度进行检测,在确定环境的声音信号的幅度大于预设值时,说明外界环境中的声音比较嘈杂,可能会有多个人在说话,此时通过摄像头获取用户的唇部状态信号和语音信号。
在步骤103中,根据所述唇动状态发生的时刻和所述未唇动状态发生的时刻,从所述语音信号中确定待识别语音信号。
示例的,电子设备在检测到唇部状态信号为唇动状态时,则说明用户已经开始说话,此时,电子设备将第一次发生唇动的时刻记为第一时刻,接着继续监测唇部状态信号,在检测到唇部一直处于闭合的时间大于或等于预设时间时,则确定用户已经说完话,电子设备将嘴唇一直闭合的起始时刻记为第二时刻,然后将第一时刻与第二时刻之间的语音信号确定为待识别语音信号,也就是用户输入的唤醒词信息。
在步骤104中,对所述待识别语音信号进行识别。
示例的,电子设备在获取到待识别语音信号时,将待识别语音信号进行语义识别,并将识别出的语义信息与预设语义信息进行匹配,在确定识别出的语义信息与预设语义信息匹配时,则确定识别成功;在确定识别出的语义信息与预设语义信息不匹配时,则确定识别失败。
需要说明的是,电子设备根据对待识别语音信号的识别的结果不同,下述执行的步骤也不同,在确定待识别语音信号与预设信号匹配时,则执行步骤105;在确定待识别语音信号与预设信号不匹配时,则不执行任何步骤或者展示识别失败的提示信息。
在步骤105中,在确定所述待识别语音信号与预设信号匹配时,开启对话系统。
示例的,电子设备在确定待识别语音信号与预设信号匹配时,说明用户输入的唤醒词为正确的唤醒词,此时,电子设备唤醒,并开启对话系统,进入人机交互对话模式。
本公开实施例提供一种人机交互方法,在检测到环境的声音信号大于或等于预设值时,获取唇部状态信号和语音信号,其中,唇部状态信号包括唇动状态和未唇动状态,根据发生唇动状态的时刻和未发生唇动状态的时刻从语音信号中确定出待识别语音信号,进而对待识别语音信号进行识别,当待识别语音信号与预设语音匹配时,则确定唤醒成功,开始对话系统进行人机交互。这样,在电子设备处于嘈杂环境中时,可以根据唇部状态信号来对嘈杂环境中获取的语音信号进行断句,准确的获取唤醒词,实现了电子设备的准确唤醒,提高了用户体验。
在一个实施例中,如图2所示,在确定所述环境的声音信号小于所述预设值时,所述人机交互方法还包括以下步骤106至步骤108:
在步骤106中,在确定所述环境的声音信号小于所述预设值时,通过所述摄像头获取目标物的脸部信号。
示例的,电子设备在确定环境的声音信号的幅度小于预设值时,说明外界环境比较安静,人比较少,此时无需对用户的唇部信号状态进行监测,可以直接通过摄像头获取目标物的脸部信号,即获取用户的人脸信息。
在步骤107中,根据所述脸部信号确定所述目标物的停留时间。
示例的,电子设备在获取到用户的人脸信息时,对人脸信息进行实时检测,将首次检测到人脸信息的时刻记为第三时刻,将首次检测到人脸信息消失的时刻记为第四时刻,并将第四时刻与第三时刻的差值确定为人脸的停留时间。
在步骤108中,在确定所述目标物的停留时间大于第一预设时间时,开启所述对话系统。
示例的,电子设备将确定的人脸的停留时间与第一预设时间进行比较,在确定人脸的停留时间大于第一预设时间时,则说明用户想要对话,此时,开启对话系统;在确定人脸的停留时间小于或等于第一预设时间时,则说明用户不想对话,此时,不执行任何操作。
本公开实施例在确定外界环境比较安静时,可直接通过检测目标物的脸部信号的停留时间来确定是否开启对话系统,无需对目标物的唇动状态信号进行检测,减轻了电子设备的处理负担,灵活的实现了两种不同开启对话系统的方式。
在一个实施例中,如图3所示,在执行完步骤105或者步骤108之后,所述方法还包括步骤109至步骤112:
在步骤109中,获取所述目标物输入的语音指令信息。
示例的,电子设备在开启对话系统后,等待用户输入语音指令信息,当用户输入语音指令信息时,电子设备获取用户输入的语音指令信息。
在步骤110中,对所述语音指令信息进行语义识别,得到语义信息。
示例的,电子设备在获取到用户输入的语音指令信息时,对语音指令信息进行语义识别,具体语义识别的方法可以为关键词识别方法,即将语音指令信息转化成对应的文字信息,将该文字信息与预先存储的关键词库进行匹配,确定与该文字信息对应的关键词,即为得到的语义信息。
在步骤111中,获取与所述语义信息匹配的语音响应信息。
示例的,电子设备中预先存储有语义信息与语音响应信息的对应关系的数据库,在得到语义信息时,在该数据库中查找是否有与该语义信息匹配的语音响应信息,在查找与该语义信息匹配的语音响应信息时,即为获取到与该语义信息匹配的语音响应信息。
需要说明的是,电子设备还可以将得到的语义信息发送至云服务器,云服务器中预先存储有语义信息与语音响应信息的对应关系的数据库,云服务器在接收到电子设备发送的语义信息时,将语义信息对应的语音响应信息发送至电子设备,使得电子设备获取到与语义信息匹配的语音响应信息。
在步骤112中,播放所述语音响应信息。
示例的,电子设备在获取到语音响应信息时,可通过扬声器或者听筒播放该语音响应信息。
在一个实施例中,如图4所示,所述方法还包括以下步骤113和步骤114:
在步骤113中,对所述对话系统的轮数进行计数。
示例的,电子设备在第一次输出语音指令信息对应的语音响应信息后,相当于完成了用户与电子设备之间交互的第一轮,此时需要对对话系统的轮数进行计数,例如,记为当前交互轮数等于1。
在步骤114中,在确定所述对话系统的轮数小于所述预设轮数时,继续执行所述获取所述目标物输入的语音指令信息的步骤,直至所述对话系统的轮数等于所述预设轮数。
其中,预设轮数为预先存储在电子设备中的对话系统的配置信息;该预设轮数为用户与所述电子设备相互交流的次数;在电子设备开启对话系统时,可先获取对话系统的预设轮数,方便后续根据预设轮数的设定来进行人机交互中用户输入的语音指令信息的获取以及语音响应信息的输出。
示例的,电子设备在每次计数结束后,需要将当前对话系统的轮数与预设轮数进行比较,在确定当前对话系统的轮数小于预设轮数时,则继续执行步骤109至步骤112;在确定当前对话系统的轮数大于或等于预设轮数时,则不执行任何步骤,或者展示用于提醒用户重新输入唤醒词以便进入下一轮对话的提示信息,具体展示方式可以为语音播报或者文字显示等。
在一个实施例中,如图5所示,在执行步骤101之前,还包括步骤115。
在步骤115中,开启所述摄像头。
示例的,电子设备在上电后,可以直接开启摄像头,方便之后通过摄像头获取环境的声音信号、用户的唇部状态信息以及用户的脸部信号等。
本公开实施例提供一种人机交互方法,在检测到环境的声音信号大于或等于预设值时,获取唇部状态信号和语音信号,其中,唇部状态信号包括唇动状态和未唇动状态,根据发生唇动状态的时刻和未发生唇动状态的时刻从语音信号中确定出待识别语音信号,进而对待识别语音信号进行识别,当待识别语音信号与预设信号匹配时,则确定唤醒成功,开始对话系统进行人机交互。这样,在电子设备处于嘈杂环境中时,可以根据唇部状态信号来对嘈杂环境中获取的语音信号进行断句,准确的获取唤醒词,实现了对电子设备的准确唤醒,提高了用户体验;而且,还可以对对话系统的轮数进行配置,可实现用户与电子设备之间的多轮交互,进一步提高了用户体验。
下述为本公开装置实施例,可以用于执行本公开方法实施例。
图6a是根据一示例性实施例示出的一种人机交互装置60的结构示意图,该人机交互装置60可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。如图6a所示,该人机交互装置60包括第一获取模块601、第二获取模块602、第一确定模块603、第一识别模块604和第一开启模块605。
其中,第一获取模块601,用于获取环境的声音信号。
第二获取模块602,用于在确定所述环境的声音信号大于或等于预设值时,通过所述摄像头获取唇部状态信号和语音信号;其中,所述唇部状态信号包括唇动状态和未唇动状态。
第一确定模块603,用于根据所述唇动状态发生的时刻和所述未唇动状态发生的时刻,从所述语音信号中确定待识别语音信号。
第一识别模块604,用于对所述待识别语音信号进行识别。
第一开启模块605,用于在确定所述待识别语音信号与预设信号匹配时,开启对话系统。
在一个实施例中,如图6b所示,所述装置60还包括第三获取模块606、
第二确定模块607和第二开启模块608。
其中,所述第三获取模块606,用于在确定所述环境的声音信号小于所述预设值时,通过所述摄像头获取目标物的脸部信号。
所述第二确定模块607,用于根据所述脸部信号确定所述目标物的停留时间。
所述第二开启模块608,用于在确定所述目标物的停留时间大于第一预设时间时,开启所述对话系统。
在一个实施例中,如图6c所示,所述装置60还包括第四获取模块609、第二识别模块610、第五获取模块611和播放模块612。
其中,所述第四获取模块609,用于获取所述目标物输入的语音指令信息。
所述第二识别模块610,用于对所述语音指令信息进行语义识别,得到语义信息。
所述第五获取模块611,用于获取与所述语义信息匹配的语音响应信息。
所述播放模块612,用于播放所述语音响应信息。
在一个实施例中,如图6d所示,所述装置60还包括计数模块613和执行模块614。
其中,所述计数模块613,用于对所述对话系统的轮数进行计数。
所述执行模块614,用于在确定所述对话系统的轮数小于预设轮数时,继续执行所述获取所述目标物输入的语音指令信息的步骤,直至所述对话系统的轮数等于所述预设轮数。
在一个实施例中,如图6e所示,所述装置60还包括第三开启模块615。
其中,所述第三开启模块615,用于开启所述摄像头。
本公开实施例提供一种人机交互装置,在检测到环境的声音信号大于或等于预设值时,获取唇部状态信号和语音信号,其中,唇部状态信号包括唇动状态和未唇动状态,根据发生唇动状态的时刻和未发生唇动状态的时刻从语音信号中确定出待识别语音信号,进而对待识别语音信号进行识别,当待识别语音信号与预设信号匹配时,则确定唤醒成功,开始对话系统进行人机交互。这样,在电子设备处于嘈杂环境中时,可以根据唇部状态信号来对嘈杂环境中获取的语音信号进行断句,准确的获取唤醒词,实现了对电子设备的准确唤醒,提高了用户体验。
本公开实施例提供一种人机交互装置,该人机交互装置包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取环境的声音信号;
在确定所述环境的声音信号大于或等于预设值时,通过所述摄像头获取唇部状态信号和语音信号;其中,所述唇部状态信号包括唇动状态和未唇动状态;
根据所述唇动状态发生的时刻和所述未唇动状态发生的时刻,从所述语音信号中确定待识别语音信号;
对所述待识别语音信号进行识别;
在确定所述待识别语音信号与预设信号匹配时,开启对话系统。
在一个实施例中,上述处理器还可被配置为:
在确定所述环境的声音信号小于所述预设值时,通过所述摄像头获取目标物的脸部信号;
根据所述脸部信号确定所述目标物的停留时间;
在确定所述目标物的停留时间大于第一预设时间时,开启所述对话系统。
在一个实施例中,上述处理器还可被配置为:
获取所述目标物输入的语音指令信息;
对所述语音指令信息进行语义识别,得到语义信息;
获取与所述语义信息匹配的语音响应信息;
播放所述语音响应信息。
在一个实施例中,上述处理器还可被配置为:
对所述对话系统的轮数进行计数;
在确定所述对话系统的轮数小于预设轮数时,继续执行所述获取所述目标物输入的语音指令信息的步骤,直至所述对话系统的轮数等于所述预设轮数。
在一个实施例中,上述处理器还可被配置为:
开启所述摄像头。
本公开实施例提供一种人机交互装置,在检测到环境的声音信号大于或等于预设值时,获取唇部状态信号和语音信号,其中,唇部状态信号包括唇动状态和未唇动状态,根据发生唇动状态的时刻和未发生唇动状态的时刻从语音信号中确定出待识别语音信号,进而对待识别语音信号进行识别,当待识别语音信号与预设信号匹配时,则确定唤醒成功,开始对话系统进行人机交互。这样,在电子设备处于嘈杂环境中时,可以根据唇部状态信号来对嘈杂环境中获取的语音信号进行断句,准确的获取唤醒词,实现了对电子设备的准确唤醒,提高了用户体验。
图7是根据一示例性实施例示出的一种人机交互装置的框图,该装置适用于电子设备。例如,装置700可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
装置700可以包括以下一个或多个组件:处理组件702,存储器704,电源组件706,多媒体组件708,音频组件710,输入/输出(I/O)的接口712,传感器组件714,以及通信组件716。
处理组件702通常控制装置700的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件702可以包括一个或多个处理器720来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件702可以包括一个或多个模块,便于处理组件702和其他组件之间的交互。例如,处理组件702可以包括多媒体模块,以方便多媒体组件708和处理组件702之间的交互。
存储器704被配置为存储各种类型的数据以支持在装置700的操作。这些数据的示例包括用于在装置700上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器704可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件706为装置700的各种组件提供电力。电源组件706可以包括电源管理系统,一个或多个电源,及其他与为装置700生成、管理和分配电力相关联的组件。
多媒体组件708包括在所述装置700和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件708包括一个前置摄像头和/或后置摄像头。当装置700处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件710被配置为输出和/或输入音频信号。例如,音频组件710包括一个麦克风(MIC),当装置700处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器704或经由通信组件716发送。在一些实施例中,音频组件710还包括一个扬声器,用于输出音频信号。
I/O接口712为处理组件702和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件714包括一个或多个传感器,用于为装置700提供各个方面的状态评估。例如,传感器组件714可以检测到装置700的打开/关闭状态,组件的相对定位,例如所述组件为装置700的显示器和小键盘,传感器组件714还可以检测装置700或装置700一个组件的位置改变,用户与装置700接触的存在或不存在,装置700方位或加速/减速和装置700的温度变化。传感器组件714可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件714还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件714还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件716被配置为便于装置700和其他设备之间有线或无线方式的通信。装置700可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件716经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件716还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置700可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器704,上述指令可由装置700的处理器720执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行上述人机交互方法,所述方法包括:
获取环境的声音信号;
在确定所述环境的声音信号大于或等于预设值时,通过所述摄像头获取唇部状态信号和语音信号;其中,所述唇部状态信号包括唇动状态和未唇动状态;
根据所述唇动状态发生的时刻和所述未唇动状态发生的时刻,从所述语音信号中确定待识别语音信号;
对所述待识别语音信号进行识别;
在确定所述待识别语音信号与预设信号匹配时,开启对话系统。
在一个实施例中,还包括:
在确定所述环境的声音信号小于所述预设值时,通过所述摄像头获取目标物的脸部信号;
根据所述脸部信号确定所述目标物的停留时间;
在确定所述目标物的停留时间大于第一预设时间时,开启所述对话系统。
在一个实施例中,在所述开启对话系统之后,还包括:
获取所述目标物输入的语音指令信息;
对所述语音指令信息进行语义识别,得到语义信息;
获取与所述语义信息匹配的语音响应信息;
播放所述语音响应信息。
在一个实施例中,在所述播放所述语音响应信息之后,还包括:
对所述对话系统的轮数进行计数;
在确定所述对话系统的轮数小于预设轮数时,继续执行所述获取所述目标物输入的语音指令信息的步骤,直至所述对话系统的轮数等于所述预设轮数。
在一个实施例中,在所述获取环境的声音信号之前,还包括:
开启所述摄像头。
本领域技术人员在考虑说明书及实践这里公开的公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (10)

1.一种人机交互方法,其特征在于,应用于具备摄像头的电子设备,所述方法包括:
获取环境的声音信号;
在确定所述环境的声音信号大于或等于预设值时,通过所述摄像头获取唇部状态信号和语音信号;其中,所述唇部状态信号包括唇动状态和未唇动状态;
根据所述唇动状态发生的时刻和所述未唇动状态发生的时刻,从所述语音信号中确定待识别语音信号;
对所述待识别语音信号进行识别;
在确定所述待识别语音信号与预设信号匹配时,开启对话系统。
2.根据权利要求1所述的方法,其特征在于,还包括:
在确定所述环境的声音信号小于所述预设值时,通过所述摄像头获取目标物的脸部信号;
根据所述脸部信号确定所述目标物的停留时间;
在确定所述目标物的停留时间大于第一预设时间时,开启所述对话系统。
3.根据权利要求1或2所述的方法,其特征在于,在所述开启对话系统之后,还包括:
获取所述目标物输入的语音指令信息;
对所述语音指令信息进行语义识别,得到语义信息;
获取与所述语义信息匹配的语音响应信息;
播放所述语音响应信息。
4.根据权利要求3所述的方法,其特征在于,在所述播放所述语音响应信息之后,还包括:
对所述对话系统的轮数进行计数;
在确定所述对话系统的轮数小于预设轮数时,继续执行所述获取所述目标物输入的语音指令信息的步骤,直至所述对话系统的轮数等于所述预设轮数。
5.根据权利要求1所述的方法,其特征在于,在所述获取环境的声音信号之前,还包括:
开启所述摄像头。
6.一种人机交互装置,其特征在于,包括:
第一获取模块,用于获取环境的声音信号;
第二获取模块,用于在确定所述环境的声音信号大于或等于预设值时,通过所述摄像头获取唇部状态信号和语音信号;其中,所述唇部状态信号包括唇动状态和未唇动状态;
第一确定模块,用于根据所述唇动状态发生的时刻和所述未唇动状态发生的时刻,从所述语音信号中确定待识别语音信号;
第一识别模块,用于对所述待识别语音信号进行识别;
第一开启模块,用于在确定所述待识别语音信号与预设信号匹配时,开启对话系统。
7.根据权利要求6所述的装置,其特征在于,还包括第三获取模块、第二确定模块和第二开启模块;
所述第三获取模块,用于在确定所述环境的声音信号小于所述预设值时,通过所述摄像头获取目标物的脸部信号;
所述第二确定模块,用于根据所述脸部信号确定所述目标物的停留时间;
所述第二开启模块,用于在确定所述目标物的停留时间大于第一预设时间时,开启所述对话系统。
8.根据权利要求6或7所述的装置,其特征在于,还包括第四获取模块、第二识别模块、第五获取模块和播放模块;
所述第四获取模块,用于获取所述目标物输入的语音指令信息;
所述第二识别模块,用于对所述语音指令信息进行语义识别,得到语义信息;
所述第五获取模块,用于获取与所述语义信息匹配的语音响应信息;
所述播放模块,用于播放所述语音响应信息。
9.根据权利要求8所述的装置,其特征在于,还包括计数模块和执行模块;
所述计数模块,用于对所述对话系统的轮数进行计数;
所述执行模块,用于在确定所述对话系统的轮数小于预设轮数时,继续执行所述获取所述目标物输入的语音指令信息的步骤,直至所述对话系统的轮数等于所述预设轮数。
10.根据权利要求6所述的装置,其特征在于,还包括第三开启模块;
所述第三开启模块,用于开启所述摄像头。
CN201911064717.1A 2019-10-30 2019-10-30 人机交互方法及装置 Active CN111063354B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911064717.1A CN111063354B (zh) 2019-10-30 2019-10-30 人机交互方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911064717.1A CN111063354B (zh) 2019-10-30 2019-10-30 人机交互方法及装置

Publications (2)

Publication Number Publication Date
CN111063354A true CN111063354A (zh) 2020-04-24
CN111063354B CN111063354B (zh) 2022-03-25

Family

ID=70297636

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911064717.1A Active CN111063354B (zh) 2019-10-30 2019-10-30 人机交互方法及装置

Country Status (1)

Country Link
CN (1) CN111063354B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111651135A (zh) * 2020-04-27 2020-09-11 珠海格力电器股份有限公司 一种声音唤醒方法、装置、存储介质及电器设备
CN111883130A (zh) * 2020-08-03 2020-11-03 上海茂声智能科技有限公司 一种融合式语音识别方法、装置、系统、设备和存储介质
CN113345472A (zh) * 2021-05-08 2021-09-03 北京百度网讯科技有限公司 语音端点检测方法、装置、电子设备及存储介质
CN116189680A (zh) * 2023-05-04 2023-05-30 北京水晶石数字科技股份有限公司 一种展演智能设备的语音唤醒方法
CN117672228A (zh) * 2023-12-06 2024-03-08 山东凌晓通信科技有限公司 基于机器学习的智能语音交互误唤醒系统及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105389097A (zh) * 2014-09-03 2016-03-09 中兴通讯股份有限公司 一种人机交互装置及方法
CN107799125A (zh) * 2017-11-09 2018-03-13 维沃移动通信有限公司 一种语音识别方法、移动终端及计算机可读存储介质
CN108098767A (zh) * 2016-11-25 2018-06-01 北京智能管家科技有限公司 一种机器人唤醒方法及装置
CN113113009A (zh) * 2021-04-08 2021-07-13 思必驰科技股份有限公司 多模态语音唤醒和打断方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105389097A (zh) * 2014-09-03 2016-03-09 中兴通讯股份有限公司 一种人机交互装置及方法
CN108098767A (zh) * 2016-11-25 2018-06-01 北京智能管家科技有限公司 一种机器人唤醒方法及装置
CN107799125A (zh) * 2017-11-09 2018-03-13 维沃移动通信有限公司 一种语音识别方法、移动终端及计算机可读存储介质
CN113113009A (zh) * 2021-04-08 2021-07-13 思必驰科技股份有限公司 多模态语音唤醒和打断方法及装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111651135A (zh) * 2020-04-27 2020-09-11 珠海格力电器股份有限公司 一种声音唤醒方法、装置、存储介质及电器设备
CN111651135B (zh) * 2020-04-27 2021-05-25 珠海格力电器股份有限公司 一种声音唤醒方法、装置、存储介质及电器设备
CN111883130A (zh) * 2020-08-03 2020-11-03 上海茂声智能科技有限公司 一种融合式语音识别方法、装置、系统、设备和存储介质
CN113345472A (zh) * 2021-05-08 2021-09-03 北京百度网讯科技有限公司 语音端点检测方法、装置、电子设备及存储介质
CN116189680A (zh) * 2023-05-04 2023-05-30 北京水晶石数字科技股份有限公司 一种展演智能设备的语音唤醒方法
CN116189680B (zh) * 2023-05-04 2023-09-26 北京水晶石数字科技股份有限公司 一种展演智能设备的语音唤醒方法
CN117672228A (zh) * 2023-12-06 2024-03-08 山东凌晓通信科技有限公司 基于机器学习的智能语音交互误唤醒系统及方法

Also Published As

Publication number Publication date
CN111063354B (zh) 2022-03-25

Similar Documents

Publication Publication Date Title
CN111063354B (zh) 人机交互方法及装置
CN107919123B (zh) 多语音助手控制方法、装置及计算机可读存储介质
US20160381540A1 (en) Method and device for alarm triggering
CN106791921B (zh) 视频直播的处理方法、装置及存储介质
CN107919124B (zh) 设备唤醒方法及装置
CN110730115B (zh) 语音控制方法及装置、终端、存储介质
CN107102772B (zh) 触控方法及装置
CN104065836A (zh) 监控通话的方法和装置
EP3933570A1 (en) Method and apparatus for controlling a voice assistant, and computer-readable storage medium
EP4184506A1 (en) Audio processing
US10230891B2 (en) Method, device and medium of photography prompts
CN108806714B (zh) 调节音量的方法和装置
CN106409317B (zh) 梦话提取方法、装置及用于提取梦话的装置
EP3024211A1 (en) Method and device for announcing voice call
CN106656746B (zh) 信息输出方法及装置
CN111696553A (zh) 一种语音处理方法、装置及可读介质
CN110349578A (zh) 设备唤醒处理方法及装置
CN109862169B (zh) 电子设备控制方法、装置及存储介质
CN106657543B (zh) 语音信息处理方法及装置
CN106331328B (zh) 信息提示的方法及装置
CN108874450B (zh) 唤醒语音助手的方法及装置
CN109325337A (zh) 解锁方法及装置
CN109543008A (zh) 一种即时通信的通知方法、装置、电子设备及存储介质
CN107844691B (zh) 终端屏幕唤醒的方法及装置
US20170201479A1 (en) Group message display method, device and medium

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant