CN111045639B - 语音输入方法、装置、电子设备及存储介质 - Google Patents
语音输入方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN111045639B CN111045639B CN201911268260.6A CN201911268260A CN111045639B CN 111045639 B CN111045639 B CN 111045639B CN 201911268260 A CN201911268260 A CN 201911268260A CN 111045639 B CN111045639 B CN 111045639B
- Authority
- CN
- China
- Prior art keywords
- lip
- voice
- input
- user
- acquiring
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
Abstract
本申请实施例公开了一种语音输入方法、装置、电子设备及存储介质。该方法包括:在接收到语音输入指令时,接收麦克风采集的语音信号;从所述语音信号中获取环境噪声;当所述环境噪声的声音强度大于预设强度阈值时,获取唇部图像;获取所述唇部图像对应的用户输入信息;显示所述用户输入信息对应的内容。本申请实施例通过在语音输入过程实时监测噪声干扰,并在干扰过大时采集用户唇部图像,以通过唇语识别继续获取用户的输入,不仅使得用户在有噪声干扰的情况下仍可继续进行输入,还可及时降低用户语音输入所可能导致的信息泄露的风险,提高用户信息安全性。
Description
技术领域
本申请实施例涉及人机交互技术领域,更具体地,涉及一种语音输入方法、装置、电子设备及存储介质。
背景技术
随着移动终端技术的发展,输入法已经称为移动终端必不可少的功能。目前常见的输入法包括基于语音的输入法、基于内置的虚拟键盘或外接键盘的输入法等。其中,语音输入法极大地方便了人们的交流,提高了交流的便利性和效率。但是,在利用基于语音的输入法进行输入时,可能存在会造成信息泄露,给用户带来不便。
发明内容
鉴于上述问题,本申请实施例提供一种语音输入方法、装置、电子设备及存储介质,可提高语音输入的信息安全性。
第一方面,本申请实施例提供了一种语音输入方法,该语音输入方法可包括:在接收到语音输入指令时,接收麦克风采集的语音信号;从所述语音信号中获取环境噪声;当所述环境噪声的声音强度大于预设强度阈值时,获取唇部图像;获取所述唇部图像对应的用户输入信息;显示所述用户输入信息对应的内容。
可选地,所述语音信号包括人声信号,所述从所述语音信号中获取环境噪声,包括:获取所述语音信号中的人声信号;从所述人声信号中,查找与预设声纹特征不匹配的人声作为环境噪声。
可选地,所述获取所述唇部图像对应的用户输入信息,包括:对所述唇部图像进行唇语识别,获取唇语识别结果;对所述语音信号进行语音识别,获取语音输入结果;在所述唇语识别结果和所述语音输入结果匹配时,将所述语音输入结果作为所述唇部图像对应的用户输入信息。
可选地,所述获取所述唇部图像对应的用户输入信息,包括:对所述唇部图像进行唇语识别,获取唇语识别结果,并将所述唇语识别结果作为所述唇部图像对应的用户输入信息。
可选地,所述当环境噪声的声音强度大于预设强度阈值时,获取唇部图像,包括:当环境噪声的声音强度大于预设强度阈值时,生成唇语输入提示信息,所述唇语输入提示信息用于提示是否获取唇部图像;获取基于所述唇语输入提示信息输入的确认指令,并获取所述唇部图像;所述获取所述唇部图像对应的用户输入信息,包括:根据所述确认指令,获取所述唇部图像对应的用户输入信息。
可选地,所述根据所述确认指令,获取所述唇部图像对应的用户输入信息,包括:当检测到所述确认指令包括第一输入标识时,对所述唇部图像进行唇语识别,获取唇语识别结果,并将所述唇语识别结果作为所述唇部图像对应的用户输入信息。
可选地,所述根据所述确认指令,获取所述唇部图像对应的用户输入信息,包括:当检测到所述确认指令包括第二输入标识时,对所述唇部图像进行唇语识别,获取唇语识别结果;对所述语音信号进行语音识别,获取语音输入结果;在所述唇语识别结果和所述语音输入结果匹配时,获取所述语音输入结果作为所述唇部图像对应的用户输入信息。
可选地,所述获取基于所述唇语输入提示信息输入的确认指令,并获取所述唇部图像,包括:检测在预设时间段内是否获取到所述确认指令;若在预设时间段内获取到所述确认指令,获取所述唇部图像。
可选地,所述方法还包括:根据所述环境噪声的声音强度确定目标显示亮度;将屏幕显示亮度设置为所述目标显示亮度
可选地,所述根据所述环境噪声的声音强度确定目标显示亮度,包括:当所述环境噪声的声音强度大于第一强度阈值时,将目标显示亮度确定为第一显示亮度。
可选地,所述根据所述环境噪声的声音强度确定目标显示亮度,还包括:当所述环境噪声的声音强度不大于第一强度阈值时,根据所述环境噪声的声音强度确定第二显示亮度,所述第二显示亮度高于所述第一显示亮度;将所述第二显示亮度作为目标显示亮度。
可选地,所述语音输入方法应用于终端设备,所述终端设备的屏幕的状态包括亮屏状态和熄屏状态,所述语音输入方法还包括:当所述环境噪声的声音强度大于第二强度阈值时,将所述屏幕的状态设置为所述熄屏状态。
第二方面,本申请实施例提供了一种语音输入装置,该语音输入装置可包括:信号接收模块,用于在接收到语音输入指令时,接收麦克风采集的语音信号;噪声获取模块,用于从所述语音信号中获取环境噪声;图像获取模块,用于当所述环境噪声的声音强度大于预设强度阈值时,获取唇部图像;信息获取模块,用于获取所述唇部图像对应的用户输入信息;信息显示模块,用于显示所述用户输入信息对应的内容。
可选地,所述语音信号包括人声信号,所述噪声获取模块包括:人声获取子模块以及人声分离子模块,其中:人声获取子模块,用于获取所述语音信号中的人声信号;人声分离子模块,用于从所述人声信号中,查找与预设声纹特征不匹配的人声作为环境噪声。
可选地,所述信息获取模块包括:唇语识别子模块、语音识别子模块、唇语辅助子模块、唇语输入子模块以及、唇语确认子模块,其中:唇语识别子模块,用于对所述唇部图像进行唇语识别,获取唇语识别结果;语音识别子模块,用于对所述语音信号进行语音识别,获取语音输入结果;唇语辅助子模块,用于在所述唇语识别结果和所述语音输入结果匹配时,将所述语音输入结果作为所述唇部图像对应的用户输入信息;唇语输入子模块,用于对所述唇部图像进行唇语识别,获取唇语识别结果,并将所述唇语识别结果作为所述唇部图像对应的用户输入信息;唇语确认子模块,用于根据所述确认指令,获取所述唇部图像对应的用户输入信息。
可选地,所述图像获取模块包括:输入提示子模块以及输入确认子模块,其中:输入提示子模块,用于当环境噪声的声音强度大于预设强度阈值时,生成唇语输入提示信息,所述唇语输入提示信息用于提示是否获取唇部图像;输入确认子模块,用于获取基于所述唇语输入提示信息输入的确认指令,并获取所述唇部图像。
可选地,所述唇部确认子模块,包括:第一输入单元以及第二输入单元,其中:第一输入单元,用于当检测到所述确认指令包括第一输入标识时,对所述唇部图像进行唇语识别,获取唇语识别结果,并将所述唇语识别结果作为所述唇部图像对应的用户输入信息。第二输入单元,用于当检测到所述确认指令包括第二输入标识时,对所述唇部图像进行唇语识别,获取唇语识别结果;对所述语音信号进行语音识别,获取语音输入结果;在所述唇语识别结果和所述语音输入结果匹配时,获取所述语音输入结果作为所述唇部图像对应的用户输入信息。
可选地,所述输入确认子模块包括:指令检测单元以及指令获取单元,其中:指令检测单元,用于检测在预设时间段内是否获取到所述确认指令;指令获取单元,用于若在预设时间段内获取到所述确认指令,获取所述唇部图像。
可选地,所述语音输入装置还包括:亮度确定模块、亮度设置模块、熄屏模块,其中:亮度确定模块,用于根据所述环境噪声的声音强度确定目标显示亮度;亮度设置模块,用于将屏幕显示亮度设置为所述目标显示亮度。
可选地,所述亮度设置模块包括第一亮度设置单元、第二亮度确定单元以及第二亮度设置单元,其中:第一亮度设置单元,用于当所述环境噪声的声音强度大于第一强度阈值时,将目标显示亮度确定为第一显示亮度;第二亮度确定单元,用于当所述环境噪声的声音强度不大于第一强度阈值时,根据所述环境噪声的声音强度确定第二显示亮度,所述第二显示亮度高于所述第一显示亮度;第二亮度设置单元,用于将所述第二显示亮度作为目标显示亮度。
可选地,所述语音输入装置还包括:熄屏模块,用于当所述环境噪声的声音强度大于第二强度阈值时,将所述屏幕的状态设置为所述熄屏状态。
第三方面,本申请实施例提供了一种电子设备,该电子设备可包括:存储器;一个或多个处理器,与存储器连接;一个或多个程序,其中,一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序配置用于执行如上述第一方面所述的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质中存储有程序代码,所述程序代码可被处理器调用执行如上述第一方面所述的方法。
本申请实施例提供的语音输入方法、装置、电子设备及存储介质,通过在接收到语音输入指令时,接收麦克风采集的语音信号,然后从语音信号中获取环境噪声,并当环境噪声的声音强度大于预设强度阈值时,获取唇部图像,最后获取唇部图像对应的用户输入信息,并显示用户输入信息对应的内容。由此,本申请实施例通过在语音输入过程实时监测噪声干扰,并在干扰过大时采集用户唇部图像,以通过唇语识别继续获取用户的输入,不仅使得用户在有噪声干扰的情况下仍可继续进行输入,还可及时降低用户语音输入所可能导致的信息泄露的风险,提高用户信息安全性,从而提升用户体验。
本申请的这些方面或其他方面在以下实施例的描述中会更加简明易懂。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,而不是全部的实施例。基于本申请实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例及附图,都属于本发明保护的范围。
图1示出了一种适用于本申请实施例的应用环境示意图;
图2示出了本申请一个实施例提供的语音输入方法的方法流程图;
图3示出了本申请另一个实施例提供的语音输入方法的方法流程图;
图4示出了本申请实施例提供的一种检测用户的唇部状态是否满足预设条件的方法流程图;
图5示出了本申请实施例提供的另一种检测用户的唇部状态是否满足预设条件的方法流程图;
图6示出了本申请实施例提供的一种判断预先识别结果是否准确的方法流程图;
图7示出了本申请实施例提供的另一种判断预先识别结果是否准确的方法流程图;
图8示出了本申请另一个实施例提供的步骤S20831至步骤S20835的方法流程图。
图9示出了本申请一个实施例提供的语音输入装置的模块框图;
图10示出了本申请实施例用于执行根据本申请实施例的语音输入方法的电子设备的模块框图;
图11示出了本申请实施例用于执行根据本申请实施例的语音输入方法的计算机可读存储介质的模块框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。应当理解,此处描述的具体实施例仅用于解释本申请,并不用于限定本申请。
目前的语音输入法极大地提高了交流便利性和效率,但是在一些嘈杂的环境下,用户通过语音输入的信息容易泄露,对信息安全也造成一定的威胁。
基于上述问题,发明人发现目前语音输入虽然便利,但存在输入安全性等问题。为此,发明人研究了目前语音输入的困难点,更是综合考虑实际场景的使用需求,提出了本申请实施例的语音输入方法、装置、电子设备及存储介质。
为便于更好的理解本申请实施例提供的语音输入方法、装置、终端设备及存储介质,下面先对适用于本申请实施例的应用环境进行描述。
请参阅图1,图1示出了一种适用于本申请实施例的应用环境示意图。本申请实施例提供的语音输入方法可以应用于如图1所示的交互系统100。交互系统100包括终端设备101以及服务器102,服务器102与终端设备101通信连接。其中,服务器102可以是传统服务器,也可以是云端服务器,在此不作具体限定。
其中,终端设备101可以包括但不限于智能音箱、智能手机、平板电脑、膝上型便携计算机、台式计算机和可穿戴式电子设备等。终端设备101包括语音输入模块,用于接收语音信号,例如语音输入模块可以是麦克风等。终端设备101还包括图像采集装置,用于采集图像,例如图像采集装置可以是摄像头等。
其中,终端设备101上可以安装有客户端应用程序,用户可以基于客户端应用程序(例如APP、微信小程序等)与服务器102进行通信。具体的,服务器102上安装有对应的服务端应用程序,用户可以基于客户端应用程序在服务器102注册一个用户帐号,并基于该用户帐号与服务器102进行通信,例如用户在客户端应用程序登录用户帐号,并基于该用户帐号通过客户端应用程序进行输入,可以输入文字信息或语音信息等,客户端应用程序接收到用户输入的信息后,可以将该信息发送至服务器102,使得服务器102可以接收该信息并进行处理及存储,服务器102还可以接收该信息并根据该信息返回一个对应的输出信息至终端设备101。
在一些实施方式中,对用户输入的信息进行处理的装置也可以设置于终端设备101上,使得终端设备101无需依赖与服务器102建立通信即可实现与用户的交互,此时交互系统100可以只包括终端设备101。
上述的应用环境仅为方便理解所作的示例,可以理解的是,本申请实施例不仅局限于上述应用环境。
下面将通过具体实施例对本申请实施例提供的语音输入方法、装置、电子设备及存储介质进行详细说明。
请参阅图2,本申请一个实施例提供了一种语音输入方法,可应用于上述终端设备。具体地,本实施例中,该方法可以包括以下步骤:
步骤S110:在接收到语音输入指令时,接收麦克风采集的语音信号。
其中,语音输入指令可基于多种语音输入方式获取,基于语音输入方式的不同,语音输入指令可包括语音式语音输入指令、按键式语音输入指令、触摸式语音输入指令等。具体地,若为语音式语音输入指令,终端设备可通过检测语音唤醒词或其他语音输入,以获取语音输入指令;若为按键式语音输入指令,终端设备可在检测到按键按下信号时,接收到语音输入指令;若为触摸式语音输入指令,终端设备可通过检测指定区域是否采集到触摸信号,以获取语音输入指令,等等。上述语音输入方式仅为示例性描述,不对本实施例构成限定,本实施例还可接收其他形式的语音输入指令。
在一个示例中,终端设备可显示有输入界面,输入界面包括语音输入控件,用户可触压该语音输入控件,终端设备在检测到该语音输入控件对应的按下事件时,可接收与该按下事件对应的语音输入指令。从而在接收到语音输入指令时,接收麦克风采集的语音信号。
步骤S120:从语音信号中获取环境噪声。
其中,环境噪声可以是终端设备能够检测到的周围的声音,具体地,环境噪声可以包括各种环境声音,例如除用户语音信号外的其他环境声音,也可以仅包括除用户语音信号外的其他环境人声,在此不做限定。
在一些实施方式中,终端设备可配置有多个麦克风,并多个麦克风至少可设置于终端设备的不同侧,从而可获取多侧麦克风获取的多个语音信号,并根据多侧麦克风获取的多个语音信号的频率,将频率相同的目标语音信号确定为环境噪声的声音信号。
另外,在一些实施方式中,环境噪声也可以仅包括环境人声,具体地,可基于前述实施方式获取的目标语音信号,从目标语音信号中分离出人声信号,将该人声信号作为环境人声,即本实施方式下的环境噪声。
在另一些实施方式中,还可预先存储声纹特征,从麦克风采集的语音信号中将声纹特征对应的语音信号分离出来,将其他的语音信号作为环境人声,即本实施方式下的环境噪声。
步骤S130:当环境噪声的声音强度大于预设强度阈值时,获取唇部图像。
其中,声音强度,也可以称为声音的响度,可以通过分贝来度量。例如,声音强度可以为35分贝、50分贝或95分贝等等大小的值。
其中,预设强度阈值用于确定终端设备所处的环境是否嘈杂。由于终端设备获取的环境噪声的声音强度较大时,可能是因为环境噪声的声源距离终端设备较近等原因所导致的,而声源较近时,存在用户输入的用户语音信号被其他设备或其他用户接收到的可能,而导致用户在输入语音时的信息泄露。因此在环境噪声的声音强度过大时,可以认为存在信息泄露的风险,此时,可通过设置一个预设强度阈值,并当环境噪声的声音强度大于预设强度阈值时,获取唇部图像。
在一些实施方式中,预设强度阈值可以根据实际需要确定,可以是系统预设的,也可以是用户自定义的,在此不作限定。
在一种可能实现的方式中,终端设备可以从服务器中下载该预设强度阈值的数值。或者,服务器向终端设备推送该预设强度阈值。
在另一种可能实现的方式中,终端还可以通过内置在终端设备中的NPU(NetworkProcessing Unit,神经网络处理器)、APU(AI Processing Unit,人工智能处理器)或MLU(Machine Learning Unit,机器学习处理器)中获取终端设备当前的预设强度阈值。例如,终端设备中的NPI、APU或MLU获取相关的输入值,将相关的输入值输入相应的计算模型中,获得计算后的预设强度阈值。
其中,唇部图像为包括人脸的唇部的图像,终端设备采集语音信号的同时,还可以采集唇部图像。具体地,当环境噪声的声音强度大于预设强度阈值时,获取唇部图像。一些实施方式中,为了更好的识别出唇部口型的变化,唇部图像中也可以包括人脸的其它部位的图像,这是由于有时口型变化和人脸表情变化相关。
步骤S140:获取唇部图像对应的用户输入信息。
其中,用户输入信息包括文本信息,所述文本信息包括文本、图形符号等,在此不做限定。例如,图形符号可以包括但不限于表情图形、标点符号等,在此不作限定。在一个示例中,表情图形可通过唇部图像中用户的口型确定。在另一个示例中,唇部图像可包括唇部以外的人脸图像,可根据该人脸图像与表情库进行匹配,将匹配的表情图形作为目标表情图形。
本实施例中,获取唇部图像,可对唇部图像进行唇语识别,获取唇语识别结果,根据所述唇语识别结果得到唇部图像对应的用户输入信息。由此,在环境噪声过大时,可通过获取唇部图像,对唇部图像进行唇语识别,获取唇部图像对应的用户输入信息,由此使得用户可降低说话音量甚至不发出声音仅用唇语来进行输入,从而可及时降低用户信息泄露的风险,保证用户信息、隐私安全,提升用户体验。
在一些实施方式中,唇语识别结果可以用于辅助语音识别,以在环境噪声过大影响语音识别准确度时,加入唇语识别,提高对用户输入信息的识别准确度。具体的实施方式可见后述实施例,在此不再赘述。由于在环境噪声过大时,可能声源较近,信息泄露的风险较大,因此可通过在环境噪声的声音强度大于预设强度阈值时,获取唇部图像,并通过对唇部图像进行唇语识别得到唇语识别结果,并根据唇语识别结果确定用户输入信息,一方面使得用户可降低说话音量,降低信息泄露风险,提高输入安全性,同时还可保证音量下时仍具有较高的识别准确性,提高系统可用性。
在另一些实施方式中,唇语识别结果也可以直接用于确定用户输入信息,此时终端设备可不作语音识别,降低了终端设备的功耗,也降低了运算资源的消耗,也就是用户可不必出声说话而直接通过唇语进行输入,由此更进一步降低信息泄露的风险,提高输入安全性。进一步地,作为一种方式,终端设备获取唇部图像时,还可不采集语音信号,从而可更进一步降低功耗和运算资源的消耗。具体的实施方式可见后述实施例,在此不再赘述。
在一种实施方式中,对唇部图像进行唇语识别的具体实施方式,可包括:通过从唇部图像中提取唇部特征,并对唇部特征进行唇语识别。
作为一种方式,从唇部图像中提取唇部特征,具体地,可通过轮廓特征提取方法对进唇部图像行唇部特征提取,得到特征提取结果。具体地,可通过轮廓特征提取方法对所述嘴唇区域图像进行唇部特征提取,得到特征提取结果。
例如,可以采用LPCC(Linear Prediction Cepstrum Coefficient,线性预测倒谱系数)、MFCC(Mel Frequency Cepstrum Coefficient,梅尔频率倒谱系数)、HMM(HiddenMarkov Model,隐马尔可夫模型)和DTW(Dynamic TimeWarping,动态时间规整)等算法对语音信号进行特征提取。相应的,可以采用可变模板、ASM(Active Shape Model,主动形状模型)、AAM(Active AppearanceModel,主动表观模型)、PCA(PrincipalComponentAnalysis,主成分分析)、DCT(Discrete Cosine Transform,离散余弦变换)和Snakes等算法对唇部图像进行特征提取,在此不作限定。
进一步地,根据该特征提取结果与与唇语识别模型数据库中的识别信息进行比对,得到该特征提取结果对应的唇语识别结果。该唇语识别模型可包括隐马尔可夫模型、高斯混合模型等模型中的至少一种,在此不作限定。
步骤S150:显示用户输入信息对应的内容。
终端设备获取用户输入信息后,显示用户输入信息对应的内容。在一些实施方式中,用户基于终端设备进行输入时,终端设备显示有输入页面,用户输入信息对应的内容可显示于该输入页面。在一个示例中,输入页面还可显示有输入框,可用于显示用户输入信息对应的内容。
在一些实施方式中,用户输入信息对应的内容可包括由用户输入信息的关键词对应的内容,内容可包括文本形式、图像形式等,在此不作限定。在一个示例中,可预先配置有关键词和显示内容之间的映射关系。例如,根据关键词“机器人”可对应机器人的图像。进一步地,作为一种方式,可将“机器人”对应的文本和图像同时作为用户输入信息对应的内容进行显示。作为另一种方式,也可以将“机器人”对应的机器人的图像作为用户输入信息对应的内容进行显示。在又一种方式中,还可以将“机器人”对应的文本作为用户输入信息对应的内容进行显示。由此,可实现丰富的显示和输入,提高用户体验。
本实施例提供的语音输入方法,通过在接收到语音输入指令时,接收麦克风采集的语音信号,然后从语音信号中获取环境噪声,并当环境噪声的声音强度大于预设强度阈值时,获取唇部图像,最后获取唇部图像对应的用户输入信息,并显示用户输入信息对应的内容。由此,本申请实施例通过在语音输入过程实时监测噪声干扰,并在干扰过大时采集用户唇部图像,以通过唇语识别继续获取用户的输入,不仅使得用户在有噪声干扰的情况下仍可继续进行输入,还可及时降低用户语音输入所可能导致的信息泄露的风险,提高用户信息安全性,从而提升用户体验。
在一些实施例中,可以仅检测环境人声作为环境噪声,并在环境人声的声音强度大于预设强度阈值时,才切换语音输入为唇语输入。由此,不仅可以在用户周围有其他人可能听到用户输入的语音时,切换成唇语输入,以避免继续进行语音输入所可能导致的信息泄露,还可避免频繁地切换输入,降低设备功耗,并减少资源耗费。具体地,请参阅图3,本申请另一个实施例提供了一种语音输入方法,可应用于上述终端设备。具体地,本实施例中,该方法可以包括以下步骤:
步骤S210:在接收到语音输入指令时,接收麦克风采集的语音信号。
于本实施例中,步骤S210的具体描述可参考前述实施例中的步骤S110,在此不再赘述。
步骤S220:获取语音信号中的人声信号。
其中,人声信号,可包括当前输入的用户的人声信号,在一些场景下,人声信号还可包括其他用户的人声信号,为了便于区分,将当前输入的用户的人声信号记为用户语音信号,将其他用户的人声信号基于环境人声信号。
在一种实施方式中,终端设备可配置有至少两个麦克风,记为第一麦克风和第二麦克风,终端设备可通过第一麦克风和第二麦克风一起确定环境噪声。可选地,第一麦克风和第二麦克风可分别安装于终端设备的不同侧,且第一麦克风和第二麦克风之间有隔离,由此,可在不同方向上相对隔离地接收到环境噪声,终端设备能够通过第一麦克风采集第一语音信号,通过第二麦克风采集第二语音信号,第一语音信号和第二语音信号时间同步,终端设备通过对比第一语音信号和第二语音信号,可获得第一语音信号和第二语音信号中频率相同的目标语音信号,并将该目标语音信号确定为环境噪声的声音信号。
在一个可能的采集场景中,终端设备可开启第一麦克风和第二麦克风,通过第一麦克风采集第一语音信号,并通过第二麦克风采集第二语音信号,该第一语音信号和第二语音信号时间上同步,终端设备通过对比第一语音信号和第二语音信号,获得第一语音信号和第二语音信号中频率相同的目标语音信号,并将该目标语音信号确定为环境噪声的语音信号,从而可从麦克风采集的语音信号中分离出环境噪声。
步骤S230:从人声信号中,查找与预设声纹特征不匹配的人声作为环境噪声。
本实施例中,可预先存储有至少一个预设声纹特征,将与预设声纹特征匹配的人声信号作为用户语音信号。从人声信号中,将与该预设声纹特征匹配的声音信号和与该预设声纹特征不匹配的声音信号进行分离,并将与预设声纹特征不匹配的人声作为环境噪声。需要说明的是,对声音信号分离可采用现有技术,在此不再赘述。
从人声信号中,查找与预设声纹特征不匹配的人声作为环境噪声,可通过基于预设声纹特征对人声信号进行分离处理,得到与预设声纹特征不匹配的人声作为环境噪声。
步骤S240:当环境噪声的声音强度大于预设强度阈值时,获取唇部图像。
在一些实施例中,可以根据环境噪声的声音强度调整终端设备的屏幕显示亮度,以在周围有人靠近时,有信息泄露的风险时,将屏幕亮度降低,降低被他人查看到输入内容的可能,提高输入安全性。具体地,可以根据环境噪声的声音强度确定目标显示亮度;将屏幕显示亮度设置为目标显示亮度。
在一些实施方式中,当环境噪声的声音强度大于第一强度阈值时,将目标显示亮度确定为第一显示亮度。
其中,第一显示亮度小于终端设备的屏幕的当前显示亮度,由此,在环境噪声的声音强度超过第一强度阈值时,降低屏幕的显示亮度,以降低被周围人看到的导致信息泄露的风险,提高信息安全性。需要说明的是,在一些示例中,若屏幕的当前显示亮度为0,第一显示亮度也可以为0,即不对。
其中,第一显示亮度可以根据环境光的强度确定,例如,环境光强时的第一显示亮度可高于环境光弱时的第一显示亮度。由于不同的屏幕显示亮度在不同环境光的强度下的能见性不同,在环境光弱时,较低的屏幕显示亮度即可清晰地看清屏幕所显示的内容,而在环境光强时,较低的屏幕显示亮度下用户难以看清屏幕所显示的内容,因此根据环境光的强度确定第一显示亮度,可灵活调整屏幕显示亮度,以提高用户输入安全性。
在一些实施方式中,第一显示亮度也可以是预设不变的,例如第一显示强度可以是程序预设的,也可以是用户自定义的,在此不做限定。在一些示例中,第一显示亮度可以为0,可相当于用户将屏幕显示亮度调整为最低值。
其中,第一强度阈值大于或等于预设强度阈值,从而在人声信号的声音强度过大时,不仅可获取唇部图像以进行唇语识别,降低语音输入所可能导致的信息泄露风险,还可降低屏幕亮度,以降低用户的输入内容被其他用户查看到信息泄露风险,从而进一步提高输入安全性。
在一些实施方式中,当环境噪声的声音强度不大于第一强度阈值时,根据环境噪声的声音强度确定第二显示亮度;将第二显示亮度作为目标显示亮度。其中,第二显示亮度高于第一显示亮度。由此,在环境噪声的强度不大于第一强度阈值时,可实时根据环境噪声强度调整屏幕显示亮度,使得用户可正常查看屏幕的显示内容。
由于有时候用户在语音输入时,可能很难察觉到周围有人靠近,此时可通过根据环境噪声的声音强度,降低屏幕亮度,使得即使有人靠近,也可以降低能见度,降低被他人查看到屏幕显示的输入内容的可能性,提高输入安全性。另外,在环境噪声的声音强度不大于第一强度阈值时,还可以根据环境噪声的声音强度调整屏幕显示亮度,使得调整后的屏幕显示亮度适于用户查看,使得用户可查看自己的输入内容,从而可自动根据环境噪声的声音强度调整屏幕显示亮度,以在有人靠近时降低能见度降低被他人查看信息的风险,又可在无人靠近时提高能见度以使用户自身可正常查看,由此可大大提高用户体验。
在一些实施例中,终端设备的屏幕的状态包括亮屏状态和熄屏状态,当环境噪声的声音强度大于第二强度阈值时,还可将屏幕的状态设置为熄屏状态。其中,第二强度阈值可以大于等于第一强度阈值。由此,在环境噪声的声音强度大于第二强度阈值时,让屏幕熄屏,使得屏幕不显示输入内容,也就使得用户所输入的内容无法被查看,从而进一步提高信息安全性。
步骤S250:获取唇部图像对应的用户输入信息。
步骤S260:显示用户输入信息对应的内容。
需要说明的是,本实施例中未详细描述的部分,可参考前述实施例,在此不再赘述。
另外,在一些实施例中,获取唇部图像后,可以通过唇语识别辅助语音识别,以使得用户在噪声环境下可降低语音输入的音量,避免隐私泄露,并通过唇语识别在用户语音信号较弱时,提高识别和输入的精确度,大大降低噪声干扰。具体地,请参阅图4,本申请另一个实施例提供了一种语音输入方法,可应用于上述终端设备。具体地,本实施例中,该方法可以包括以下步骤:
步骤S310:在接收到语音输入指令时,接收麦克风采集的语音信号。
步骤S320:从语音信号中获取环境噪声。
步骤S330:当环境噪声的声音强度大于预设强度阈值时,获取唇部图像。
步骤S340:对唇部图像进行唇语识别,获取唇语识别结果。
在一些实施方式中,对唇部图像进行唇语识别,可获取唇语特征,将唇语特征与预设唇语特征进行匹配分析,可获得唇语识别结果,其中,预设唇语特征可以是预先训练的唇语识别模型中的预设唇语特征,即可事先建立预先训练好的唇语识别模型,预设唇语特征和文本一一对应,因此将唇语特征与预设唇语特征进行匹配分析生成唇语识别结果,该唇语识别结果中便可以包含有与该唇语特征对应的文本,由于唇语特征和预设唇语特征中均是由口型轮廓形成的,因此,可以按照图像中每一帧的口型轮廓和上一帧的口型轮廓确定一个口型轮廓输出的方式,将唇语特征和预测唇语特征进行划分,之后可以按照顺序依次进行对比分析,进而得到唇语识别结果。
在一种具体的实施方式中,可录制至少一个用户的包含唇部图像的视频,对视频的视频帧进行标注,使得视频帧中的唇部图像与文本对应,由此,生成的设定数量组的训练样本数据,所述训练数据包括包含唇部图像和对应的文本;对唇部图像进行特征提取获得第一唇语特征,以第一唇语特征为输入变量,以对应的文本为输出变量,采用第一唇语特征和对应的文本根据机器学习算法对预设的初始唇语识别模型进行训练生成预先训练的唇语识别模型。在一些示例中,可以基于自适应时刻估计法(Adaptive Moment Estimation,Adam)对初始语音识别模型进行训练,得到预先训练的语音识别模型。在其他一些示例中,还可以采用其他机器学习算法,在此不作限定。
在一些实施方式中,唇语识别模型也可以采用现有的用于唇语识别的模型,在此不再赘述。
步骤S350:对语音信号进行语音识别,获取语音输入结果。
对语音信号进行语音识别,可基于现有的语音识别模型,以语音信号作为输入,获得语音信号对应的语音输入结果。语音输入结果可包括文本。
在一种具体的实施方式中,可获取包括至少一个用户的语音数据,对语音数据进行特征提取,获得语音特征,针对语音特征标注语音特征对应的文本,并将语音特征和文本作为训练样本,以语音特征作为输入,语音特征对应的文本作为输出,对预设的初始语音识别模型进行训练得到预先选练的语音识别模型。在一些示例中,可以基于自适应时刻估计法(Adaptive Moment Estimation,Adam)对初始语音识别模型进行训练,得到预先训练的语音识别模型。在其他一些示例中,还可以采用其他机器学习算法,在此不作限定。
在一些实施方式中,上述唇语识别模型、语音识别模型可以运行于服务器中,由服务器基于第一用户的语音数据通过语音识别模型将其转换为对应的第一文本内容。也可以运行于终端设备本地,使得终端设备可以在离线环境下进行唇语识别、语音识别。
在一些实施方式中,语音识别模型可以采用现有的用于唇语识别的模型,在此不再赘述。
步骤S360:在唇语识别结果和语音输入结果匹配时,将语音输入结果作为唇部图像对应的用户输入信息。
将唇语识别结果和语音输入结果进行匹配,并在唇语识别结果和语音输入结果匹配时,可将语音输入结果作为唇部图像对应的用户输入信息。由此,可通过唇语识别辅助语音识别,提高最终识别准确率,使得用户可在噪声环境下降低语音输入的音量,降低隐私泄露的风险,并通过唇语识别,可在用户语音信号较弱时,仍可具有较高的识别和输入准确度,降低噪声对用户的干扰。
在一种实施方式中,为了提高最终的识别准确率,可通过将唇语识别结果和语音输入结果进行相似度比较,获取唇语识别结果和语音输入结果之间的相似度,若相似度超过相似度阈值,判定唇语识别结果和语音输入结果匹配,此时可认为当前识别的准确率较高,此时可将语音输入结果作为唇部图像对应的用户输入信息。
步骤S370:显示用户输入信息对应的内容。
需要说明的是,本实施例中未详细描述的部分,可参考前述实施例,在此不再赘述。
另外,在一些实施例中,获取唇部图像后,也可以仅通过唇语识别获得用户输入信息,以使得用户在噪声环境下无需继续语音输入,避免隐私泄露。具体地,请参阅图5,本申请另一个实施例提供了一种语音输入方法,可应用于上述终端设备。具体地,本实施例中,该方法可以包括以下步骤:
步骤S410:在接收到语音输入指令时,接收麦克风采集的语音信号。
步骤S420:从语音信号中获取环境噪声。
步骤S430:当环境噪声的声音强度大于预设强度阈值时,获取唇部图像。
步骤S440:对唇部图像进行唇语识别,获取唇语识别结果,并将唇语识别结果作为唇部图像对应的用户输入信息。
对唇部图像进行唇语识别,获取唇语识别结果的具体实施方式可参见前述实施例,在此不再赘述。
步骤S450:显示用户输入信息对应的内容。
需要说明的是,本实施例中未详细描述的部分,可参考前述实施例,在此不再赘述。
另外,在一些实施例中,在环境噪声过大时,可以先提示用户是否进行唇语输入。由此,使得用户可自行选择是否更改输入方式,采用唇语输入,满足用户不同场合的实际需求,提高输入灵活性和系统可用性,进而提高用户体验。具体地,请参阅图6,本申请另一个实施例提供了一种语音输入方法,可应用于上述终端设备。具体地,本实施例中,该方法可以包括以下步骤:
步骤S510:在接收到语音输入指令时,接收麦克风采集的语音信号。
步骤S520:从语音信号中获取环境噪声。
步骤S530:当环境噪声的声音强度大于预设强度阈值时,生成唇语输入提示信息。
其中,唇语输入提示信息用于提示是否获取唇部图像。具体地,唇语输入提示信息包括但不限于文本、语音、灯效、震动等形式的提示信息。例如,当环境噪声的声音强度大于预设强度阈值时,终端设备可通过震动提示用户是否获取唇部图像;再如,终端设备可配置有灯,通过闪烁LED灯可提示用户是否获取唇部图像;还如,终端设备可生成提示页面,提示页面可显示有文本内容,如“是否启用唇语输入模式”等,前述仅为示例性说明,并不对本实施例构成任何限定。
在一种实施方式中,当环境噪声的声音强度大于预设强度阈值时,可生成提示页面,在提示页面显示提示内容,用于提示是否获取唇部图像,以进行唇语识别。作为一种方式,为了避免影响用户查看终端设备显示的其他内容,例如用户输入的内容等,提示页面可配置有显示时长,在提示页面显示超过该显示时长时,可自动关闭。
步骤S540:获取基于唇语输入提示信息输入的确认指令,并获取唇部图像。
步骤S550:根据确认指令,获取唇部图像对应的用户输入信息。
在一种实施方式中,终端设备通过生成提示页面,并在提示页面显示提示内容来提示用户是否获取唇部图像。提示页面除了显示提示内容外,还可显示输入控件,例如输入控件可以分别对应“确认”、“取消”的控件,终端设备在检测到“确认”控件对应的输入信号时,可获取确认指令。
进一步地,在一些示例中,终端设备在检测到“取消”控件对应的输入信号时,可获取取消指令,根据所述取消指令,终端设备可以不获取唇部图像。
步骤S560:显示用户输入信息对应的内容。
需要说明的是,本实施例中未详细描述的部分,可参考前述实施例,在此不再赘述。
另外,在一些实施例中,在环境噪声过大时,可以先提示用户是否进行唇语输入,并在用户超时未作出选择时继续语音输入。由此,在用户无需更换输入模式时,无需用户作任何操作即可保持原输入模式,简化用户操作且提高使用流畅度,进而提高用户体验。具体地,请参阅图7,本申请另一个实施例提供了一种语音输入方法,可应用于上述终端设备。具体地,本实施例中,该方法可以包括以下步骤:
步骤S610:在接收到语音输入指令时,接收麦克风采集的语音信号。
步骤S620:从语音信号中获取环境噪声。
步骤S630:当环境噪声的声音强度大于预设强度阈值时,生成唇语输入提示信息。
步骤S640:检测在预设时间段内是否获取到确认指令。
其中,预设时间段用于控制确认指令的接收时长,在预设时间段内,终端设备可等待获取确认指令,可获取在预设时间段外,终端设备可结束等待获取确认指令。作为一种方式,该预设时间段可根据实际需要具体设定,也可以是程序预设的,还可以是用户自定义设定的,本申请实施例中并不对具体的预设时间段作任何限定。在一些示例中,预设时间段可以是3s、5s等,在此不作限定。
步骤S650:若在预设时间段内获取到确认指令,获取唇部图像。
在一些实施例中,若在预设时间段内未获取到确认指令,可不获取唇部图像,以降低终端设备的功耗、资源消耗等,提高可用性。由此,在用户无需更换输入模式时,无需用户作任何操作即可保持原输入模式,简化用户操作且提高使用流畅度,进而提高用户体验。
步骤S660:根据确认指令,获取唇部图像对应的用户输入信息。
步骤S670:显示用户输入信息对应的内容。
需要说明的是,本实施例中未详细描述的部分,可参考前述实施例,在此不再赘述。
另外,在一些实施例中,在环境噪声过大时,可以先提示用户是否进行唇语输入,使得用户可自行选择是否进行唇语输入,甚至还可提供多种输入模式供用户选择,根据确认指令确定用户选择的输入模式,并基于该输入模式获取用户输入信息。由此,使得用户可根据实际需求选择所需的输入模式,从而兼顾输入的信息安全性、输入准确性等,以提升用户体验。具体地,请参阅图8,本申请另一个实施例提供了一种语音输入方法,可应用于上述终端设备。具体地,本实施例中,该方法可以包括以下步骤:
步骤S710:在接收到语音输入指令时,接收麦克风采集的语音信号。
步骤S720:从语音信号中获取环境噪声。
步骤S730:当环境噪声的声音强度大于预设强度阈值时,生成唇语输入提示信息。
步骤S740:获取基于唇语输入提示信息输入的确认指令,并获取唇部图像。
步骤S750:根据确认指令,获取唇部图像对应的用户输入信息。
其中,确认指令可包括第一输入标识或第二输入标识,在一种实施方式中,若唇语输入提示信息是通过生成唇语输入提示页面生成的,可在唇语输入提示页面上,显示至少两个控件,如第一控件、第二控件,可分别对应第一输入标识和第二输入标识。通过作用于第一控件的操作,终端设备可获取包括第一输入标识的确认指令,通过作用于第二控件的操作,终端设备可获取包括第二输入标识的确认指令。
在一些实施方式中,当检测到确认指令包括第一输入标识时,对唇部图像进行唇语识别,获取唇语识别结果,并将唇语识别结果作为唇部图像对应的用户输入信息。作为一种实施方式,若第一输入标识对应第一控件,第一控件可对应显示“唇语输入”,用户可通过作用于第一控件的操作,使得终端设备获取第一输入标识,以对唇部图像进行唇语识别,实现唇语输入。
在一些实施方式中,当检测到确认指令包括第二输入标识时,对唇部图像进行唇语识别,获取唇语识别结果;对语音信号进行语音识别,获取语音输入结果;在唇语识别结果和语音输入结果匹配时,获取语音输入结果作为唇部图像对应的用户输入信息。作为一种实施方式,若第二输入标识对应第二控件,第二控件可对应显示“唇语辅助输入”,用户可通过作用于第二控件的操作,使得终端设备获取第二输入标识,以对唇部图像进行唇语识别,并继续对语音信号进行语音识别,以实现唇语辅助语音输入。
步骤S760:显示用户输入信息对应的内容。
需要说明的是,本实施例中未详细描述的部分,可参考前述实施例,在此不再赘述。
应该理解的是,虽然图2至图8的流程示意图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2至图8中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
请参阅图9,图9示出了本申请一个实施例提供的一种语音输入装置的模块框图。下面将针对图9所示的模块框图进行阐述,所述语音输入装置900包括:信号接收模块910、噪声获取模块920、图像获取模块930、信息获取模块940以及信息显示模块950,其中:
信号接收模块910,用于在接收到语音输入指令时,接收麦克风采集的语音信号;
噪声获取模块920,用于从所述语音信号中获取环境噪声;
图像获取模块930,用于当所述环境噪声的声音强度大于预设强度阈值时,获取唇部图像;
信息获取模块940,用于获取所述唇部图像对应的用户输入信息;
信息显示模块950,用于显示所述用户输入信息对应的内容。
进一步地,所述语音信号包括人声信号,所述噪声获取模块920包括:人声获取子模块以及人声分离子模块,其中:
人声获取子模块,用于获取所述语音信号中的人声信号;
人声分离子模块,用于从所述人声信号中,查找与预设声纹特征不匹配的人声作为环境噪声。
进一步地,所述信息获取模块940包括:唇语识别子模块、语音识别子模块、唇语辅助子模块、唇语输入子模块以及,其中:
唇语识别子模块,用于对所述唇部图像进行唇语识别,获取唇语识别结果;
语音识别子模块,用于对所述语音信号进行语音识别,获取语音输入结果;
唇语辅助子模块,用于在所述唇语识别结果和所述语音输入结果匹配时,将所述语音输入结果作为所述唇部图像对应的用户输入信息。
唇语输入子模块,用于对所述唇部图像进行唇语识别,获取唇语识别结果,并将所述唇语识别结果作为所述唇部图像对应的用户输入信息。
唇语确认子模块,用于根据所述确认指令,获取所述唇部图像对应的用户输入信息。
进一步地,所述图像获取模块930包括:输入提示子模块以及输入确认子模块,其中:
输入提示子模块,用于当环境噪声的声音强度大于预设强度阈值时,生成唇语输入提示信息,所述唇语输入提示信息用于提示是否获取唇部图像;
输入确认子模块,用于获取基于所述唇语输入提示信息输入的确认指令,并获取所述唇部图像。
进一步地,所述唇部确认子模块,包括:第一输入单元以及第二输入单元,其中:
第一输入单元,用于当检测到所述确认指令包括第一输入标识时,对所述唇部图像进行唇语识别,获取唇语识别结果,并将所述唇语识别结果作为所述唇部图像对应的用户输入信息。
第二输入单元,用于当检测到所述确认指令包括第二输入标识时,对所述唇部图像进行唇语识别,获取唇语识别结果;对所述语音信号进行语音识别,获取语音输入结果;在所述唇语识别结果和所述语音输入结果匹配时,获取所述语音输入结果作为所述唇部图像对应的用户输入信息。
进一步地,所述输入确认子模块包括:指令检测单元以及指令获取单元,其中:
指令检测单元,用于检测在预设时间段内是否获取到所述确认指令;
指令获取单元,用于若在预设时间段内获取到所述确认指令,获取所述唇部图像。
进一步地,所述语音输入装置900还包括:亮度确定模块、亮度设置模块、熄屏模块,其中:
亮度确定模块,用于根据所述环境噪声的声音强度确定目标显示亮度;
亮度设置模块,用于将屏幕显示亮度设置为所述目标显示亮度。
进一步地,所述亮度设置模块包括第一亮度设置单元、第二亮度确定单元以及第二亮度设置单元,其中:
第一亮度设置单元,用于当所述环境噪声的声音强度大于第一强度阈值时,将目标显示亮度确定为第一显示亮度。
第二亮度确定单元,用于当所述环境噪声的声音强度不大于第一强度阈值时,根据所述环境噪声的声音强度确定第二显示亮度,所述第二显示亮度高于所述第一显示亮度;
第二亮度设置单元,用于将所述第二显示亮度作为目标显示亮度。
进一步地,进一步地,所述语音输入装置1000还包括:熄屏模块,其中:
熄屏模块,用于当所述环境噪声的声音强度大于第二强度阈值时,将所述屏幕的状态设置为所述熄屏状态。
本申请实施例提供的语音输入装置用于实现前述方法实施例中相应的语音输入方法,并具有相应的方法实施例的有益效果,在此不再赘述。
所属领域的技术人员可以清楚地了解到,本申请实施例提供的语音输入装置能够实现图2至图8的方法实施例中的各个过程,为描述的方便和简洁,上述描述装置和模块的具体工作过程,可以参阅前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,所显示或讨论的模块相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
请参阅图10,其示出了本申请实施例提供的一种电子设备的结构框图。本申请中的电子设备1000可以包括一个或多个如下部件:处理器1010、存储器1020以及一个或多个应用程序,其中一个或多个应用程序可以被存储在存储器1020中并被配置为由一个或多个处理器1010执行,一个或多个程序配置用于执行如前述方法实施例所描述的方法。本实施例中,电子设备可以是手机、平板、电脑、可穿戴式设备等能够运行应用程序的电子设备,具体实施方式可参见上述方法实施例所描述的方法。
处理器1010可以包括一个或者多个处理核。处理器1010利用各种接口和线路连接整个电子设备1000内的各个部分,通过运行或执行存储在存储器1020内的指令、程序、代码集或指令集,以及调用存储在存储器1020内的数据,执行电子设备1000的各种功能和处理数据。可选地,处理器1010可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable Logic Array,PLA)中的至少一种硬件形式来实现。处理器1010可集成中央处理器(Central Processing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器1010中,单独通过一块通信芯片进行实现。
存储器1020可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。存储器1020可用于存储指令、程序、代码、代码集或指令集。存储器1020可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储电子设备1000在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。
进一步地,电子设备1000还可以包括显示屏,所述显示屏可以为液晶显示屏(Liquid Crystal Display,LCD),可以为有机发光二极管(Organic Light-EmittingDiode,OLED)等。所述显示屏用于显示由用户输入的信息、提供给用户的信息以及各种图形用户接口,这些图形用户接口可以由图形、文本、图标、数字、视频和其任意组合来构成。
本领域技术人员可以理解,图11中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图11中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
请参阅图11,其示出了本申请实施例提供的一种计算机可读存储介质的模块框图。该计算机可读存储介质1100中存储有程序代码1110,所述程序代码1110可被处理器调用执行上述方法实施例中所描述的方法。
计算机可读存储介质1100可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地,计算机可读存储介质1100包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质1100具有执行上述方法中的任何方法步骤的程序代码1110的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码1110可以例如以适当形式进行压缩。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是智能网关,手机,计算机,服务器,空调器或者网络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请各实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护范围之内。
Claims (14)
1.一种语音输入方法,其特征在于,所述方法包括:
在接收到语音输入指令时,接收麦克风采集的语音信号,其中,所述语音信号包括人声信号;
获取所述语音信号中的所述人声信号;
从所述人声信号中,查找与预设声纹特征不匹配的人声作为环境噪声,其中,所述预设声纹特征的数量为多个,所述预设声纹特征匹配的人声信号包括多个用户语音信号;
当所述环境噪声的声音强度大于预设强度阈值时,获取唇部图像;
获取所述唇部图像对应的用户输入信息;
显示所述用户输入信息对应的内容。
2.根据权利要求1所述的方法,其特征在于,所述获取所述唇部图像对应的用户输入信息,包括:
对所述唇部图像进行唇语识别,获取唇语识别结果;
对所述语音信号进行语音识别,获取语音输入结果;
在所述唇语识别结果和所述语音输入结果匹配时,将所述语音输入结果作为所述唇部图像对应的用户输入信息。
3.根据权利要求1所述的方法,其特征在于,所述获取所述唇部图像对应的用户输入信息,包括:
对所述唇部图像进行唇语识别,获取唇语识别结果,并将所述唇语识别结果作为所述唇部图像对应的用户输入信息。
4.根据权利要求1所述的方法,其特征在于,所述当所述环境噪声的声音强度大于预设强度阈值时,获取唇部图像,包括:
当环境噪声的声音强度大于预设强度阈值时,生成唇语输入提示信息,所述唇语输入提示信息用于提示是否获取唇部图像;
获取基于所述唇语输入提示信息输入的确认指令,并获取所述唇部图像;
所述获取所述唇部图像对应的用户输入信息,包括:
根据所述确认指令,获取所述唇部图像对应的用户输入信息。
5.根据权利要求4所述的方法,其特征在于,所述根据所述确认指令,获取所述唇部图像对应的用户输入信息,包括:
当检测到所述确认指令包括第一输入标识时,对所述唇部图像进行唇语识别,获取唇语识别结果,并将所述唇语识别结果作为所述唇部图像对应的用户输入信息。
6.根据权利要求4所述的方法,其特征在于,所述根据所述确认指令,获取所述唇部图像对应的用户输入信息,包括:
当检测到所述确认指令包括第二输入标识时,对所述唇部图像进行唇语识别,获取唇语识别结果;对所述语音信号进行语音识别,获取语音输入结果;在所述唇语识别结果和所述语音输入结果匹配时,获取所述语音输入结果作为所述唇部图像对应的用户输入信息。
7.根据权利要求4所述的方法,其特征在于,所述获取基于所述唇语输入提示信息输入的确认指令,并获取所述唇部图像,包括:
检测在预设时间段内是否获取到所述确认指令;
若在预设时间段内获取到所述确认指令,获取所述唇部图像。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述环境噪声的声音强度确定目标显示亮度;
将屏幕显示亮度设置为所述目标显示亮度。
9.根据权利要求8所述的方法,其特征在于,所述根据所述环境噪声的声音强度确定目标显示亮度,包括:
当所述环境噪声的声音强度大于第一强度阈值时,将目标显示亮度确定为第一显示亮度。
10.根据权利要求9所述的方法,其特征在于,所述根据所述环境噪声的声音强度确定目标显示亮度,还包括:
当所述环境噪声的声音强度不大于第一强度阈值时,根据所述环境噪声的声音强度确定第二显示亮度,所述第二显示亮度高于所述第一显示亮度;
将所述第二显示亮度作为目标显示亮度。
11.根据权利要求1所述的方法,其特征在于,应用于终端设备,所述终端设备的屏幕的状态包括亮屏状态和熄屏状态,所述方法还包括:
当所述环境噪声的声音强度大于第二强度阈值时,将所述屏幕的状态设置为所述熄屏状态。
12.一种语音输入装置,其特征在于,所述装置包括:
信号接收模块,用于在接收到语音输入指令时,接收麦克风采集的语音信号,其中,所述语音信号包括人声信号;
人声获取子模块,用于获取所述语音信号中的人声信号;
人声分离子模块,用于从所述人声信号中,查找与预设声纹特征不匹配的人声作为环境噪声,其中,所述预设声纹特征的数量为多个,所述预设声纹特征匹配的人声信号包括多个用户语音信号;
图像获取模块,用于当所述环境噪声的声音强度大于预设强度阈值时,获取唇部图像;
信息获取模块,用于获取所述唇部图像对应的用户输入信息;
信息显示模块,用于显示所述用户输入信息对应的内容。
13.一种电子设备,其特征在于,包括:
存储器;
一个或多个处理器,与所述存储器耦接;
一个或多个程序,其中,所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行如权利要求1至11中任一项所述的方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有程序代码,所述程序代码被处理器执行时实现如权利要求1至11中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911268260.6A CN111045639B (zh) | 2019-12-11 | 2019-12-11 | 语音输入方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911268260.6A CN111045639B (zh) | 2019-12-11 | 2019-12-11 | 语音输入方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111045639A CN111045639A (zh) | 2020-04-21 |
CN111045639B true CN111045639B (zh) | 2021-06-22 |
Family
ID=70235679
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911268260.6A Active CN111045639B (zh) | 2019-12-11 | 2019-12-11 | 语音输入方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111045639B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111583916B (zh) * | 2020-05-19 | 2023-07-25 | 科大讯飞股份有限公司 | 一种语音识别方法、装置、设备及存储介质 |
CN111625094B (zh) * | 2020-05-25 | 2023-07-14 | 阿波罗智联(北京)科技有限公司 | 智能后视镜的交互方法、装置、电子设备和存储介质 |
CN111738100A (zh) * | 2020-06-01 | 2020-10-02 | 广东小天才科技有限公司 | 一种基于口型的语音识别方法及终端设备 |
CN111899732A (zh) * | 2020-06-17 | 2020-11-06 | 北京百度网讯科技有限公司 | 语音输入方法、装置及电子设备 |
CN112132095B (zh) * | 2020-09-30 | 2024-02-09 | Oppo广东移动通信有限公司 | 危险状态的识别方法、装置、电子设备及存储介质 |
CN112634924B (zh) * | 2020-12-14 | 2024-01-09 | 深圳市沃特沃德信息有限公司 | 基于语音通话的噪声过滤方法、装置和计算机设备 |
CN112633136B (zh) * | 2020-12-18 | 2024-03-22 | 深圳追一科技有限公司 | 视频分析方法、装置、电子设备及存储介质 |
CN112927688B (zh) * | 2021-01-25 | 2022-05-10 | 思必驰科技股份有限公司 | 用于车辆的语音交互方法及系统 |
CN114596871B (zh) * | 2022-03-22 | 2023-03-28 | 镁佳(北京)科技有限公司 | 一种车机音量调整方法、装置及电子设备 |
CN116721661B (zh) * | 2023-08-10 | 2023-10-31 | 深圳中检实验室技术有限公司 | 用于智能安全生物柜的人机交互管理系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106550134A (zh) * | 2016-10-31 | 2017-03-29 | 努比亚技术有限公司 | 隐私信息保护方法及移动终端 |
CN107799125A (zh) * | 2017-11-09 | 2018-03-13 | 维沃移动通信有限公司 | 一种语音识别方法、移动终端及计算机可读存储介质 |
CN108052818A (zh) * | 2017-12-28 | 2018-05-18 | 广东欧珀移动通信有限公司 | 应用启动方法、装置、存储介质及电子设备 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102298443B (zh) * | 2011-06-24 | 2013-09-25 | 华南理工大学 | 结合视频通道的智能家居语音控制系统及其控制方法 |
CN104657650A (zh) * | 2015-01-06 | 2015-05-27 | 三星电子(中国)研发中心 | 用于数据输入或验证身份的方法及装置 |
CN105653957A (zh) * | 2015-08-25 | 2016-06-08 | 宇龙计算机通信科技(深圳)有限公司 | 一种应用于多用户智能移动终端的消息提醒及显示方法 |
CN106557711B (zh) * | 2016-11-04 | 2018-07-24 | 深圳大学 | 移动终端设备的屏幕隐私保护方法及系统 |
CN106960161A (zh) * | 2017-03-23 | 2017-07-18 | 全椒县志宏机电设备设计有限公司 | 一种应用加密的方法及移动终端 |
US20190340567A1 (en) * | 2018-05-04 | 2019-11-07 | Microsoft Technology Licensing, Llc | Computer-implemented method and system for tracking inventory |
CN108804180A (zh) * | 2018-05-25 | 2018-11-13 | Oppo广东移动通信有限公司 | 用户界面的显示方法、装置、终端及存储介质 |
CN110277103A (zh) * | 2019-06-25 | 2019-09-24 | 广东以诺通讯有限公司 | 基于语音识别的降噪方法及终端 |
-
2019
- 2019-12-11 CN CN201911268260.6A patent/CN111045639B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106550134A (zh) * | 2016-10-31 | 2017-03-29 | 努比亚技术有限公司 | 隐私信息保护方法及移动终端 |
CN107799125A (zh) * | 2017-11-09 | 2018-03-13 | 维沃移动通信有限公司 | 一种语音识别方法、移动终端及计算机可读存储介质 |
CN108052818A (zh) * | 2017-12-28 | 2018-05-18 | 广东欧珀移动通信有限公司 | 应用启动方法、装置、存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111045639A (zh) | 2020-04-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111045639B (zh) | 语音输入方法、装置、电子设备及存储介质 | |
WO2021036644A1 (zh) | 一种基于人工智能的语音驱动动画方法和装置 | |
CN110288077B (zh) | 一种基于人工智能的合成说话表情的方法和相关装置 | |
WO2021093449A1 (zh) | 基于人工智能的唤醒词检测方法、装置、设备及介质 | |
KR102293063B1 (ko) | 사용자 정의 가능한 웨이크업 음성 명령 | |
CN110807388B (zh) | 交互方法、装置、终端设备及存储介质 | |
CN110689889B (zh) | 人机交互方法、装置、电子设备及存储介质 | |
CN107894833B (zh) | 基于虚拟人的多模态交互处理方法及系统 | |
CN110517685B (zh) | 语音识别方法、装置、电子设备及存储介质 | |
EP3824462B1 (en) | Electronic apparatus for processing user utterance and controlling method thereof | |
KR20190084789A (ko) | 전자 장치 및 그 제어 방법 | |
CN108962241B (zh) | 位置提示方法、装置、存储介质及电子设备 | |
CN112201246B (zh) | 基于语音的智能控制方法、装置、电子设备及存储介质 | |
CN110599359B (zh) | 社交方法、装置、系统、终端设备及存储介质 | |
CN112040263A (zh) | 视频处理方法、视频播放方法、装置、存储介质和设备 | |
CN110534109B (zh) | 语音识别方法、装置、电子设备及存储介质 | |
CN108806684B (zh) | 位置提示方法、装置、存储介质及电子设备 | |
CN108922525B (zh) | 语音处理方法、装置、存储介质及电子设备 | |
US9870521B1 (en) | Systems and methods for identifying objects | |
US11392213B2 (en) | Selective detection of visual cues for automated assistants | |
CN110737335B (zh) | 机器人的交互方法、装置、电子设备及存储介质 | |
KR20190068021A (ko) | 감정 및 윤리 상태 모니터링 기반 사용자 적응형 대화 장치 및 이를 위한 방법 | |
CN115291724A (zh) | 人机交互的方法、装置、存储介质和电子设备 | |
US20220059080A1 (en) | Realistic artificial intelligence-based voice assistant system using relationship setting | |
CN110992958B (zh) | 内容记录方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |