CN111028828A - 一种基于画屏的语音交互方法、画屏及存储介质 - Google Patents
一种基于画屏的语音交互方法、画屏及存储介质 Download PDFInfo
- Publication number
- CN111028828A CN111028828A CN201911328484.1A CN201911328484A CN111028828A CN 111028828 A CN111028828 A CN 111028828A CN 201911328484 A CN201911328484 A CN 201911328484A CN 111028828 A CN111028828 A CN 111028828A
- Authority
- CN
- China
- Prior art keywords
- voice
- screen
- user
- operation instruction
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Abstract
本说明书提供一种基于画屏的语音交互方法,由所述画屏执行,该述方法包括:接收用户的语音输入;对所述用户的语音输入进行分帧,得到至少一个语音帧;对所述至少一个语音帧进行声学特征提取,得到至少一个特征向量;将所述至少一个特征向量输入经过训练的声学模型,确定所述至少一个特征向量对应的至少一个音素;根据所述至少一个音素,确定与所述用户的语音输入对应的文本;使用所述文本与预先存储的指令库中的指令进行文本匹配,得到所述文本对应的语音操作指令;以及执行所述语音操作指令,并返回所述语音操作指令的执行结果。本说明书还提供了基于上述方法的画屏以及计算机可读存储介质。
Description
技术领域
本说明书涉及智能家居技术领域,尤其涉及一种基于画屏的语音交互方法、一种画屏及计算机可读存储介质。
背景技术
画屏是一种可以将数字化的绘画、影像、文物、非遗等艺术品通过人工智能及新型显示等技术进行展示的数字艺术欣赏与交易平台。一方面,画屏的显示屏幕可以采用无损伽马技术,搭载智能感应调节显示以及智能光感技术,还原艺术品的本真质感。另一方面,通过客户端应用和云端数据库,可以从内容库、用户、收藏者与上传者等多个维度构建画屏生态系统,让用户足不出户即可遍览全球艺术珍品。目前,画屏作为一种智能家居设备得到了越来越多用户的认可,使用也越来越广泛。
发明内容
有鉴于此,本说明书提出一种基于画屏的语音交互方法、画屏以及计算机可读存储介质,可以为画屏提供语音交互功能,从而为画屏用户提供语音操作方式,方便用户的使用。
基于上述目的,本说明书提供了一种基于画屏的语音交互方法,可以包括:接收用户的语音输入;对所述用户的语音输入进行分帧,得到至少一个语音帧;对所述至少一个语音帧进行声学特征提取,得到至少一个特征向量;将所述至少一个特征向量输入经过训练的声学模型,确定所述至少一个特征向量对应的至少一个音素;根据所述至少一个音素,确定与所述用户的语音输入对应的文本;使用所述文本与预先存储的指令库中的指令进行文本匹配,得到所述文本对应的语音操作指令;以及执行所述语音操作指令,并返回所述语音操作指令的执行结果。
其中,上述使用所述文本与预先存储的指令库中的指令进行文本匹配可以包括:将所述文本输入经过训练的文本匹配模型,得到所述文本与预先存储的指令库中各个指令的相似度;以及将所述各个指令中相似度最高的指令作为所述文本对应的语音操作指令。
其中,上述文本匹配模型可以包括:深度结构化语义模型,增强序列推理模型,双线性卷积神经网络以及双向多角度模型中的至少一个。
其中,上述将所述各个指令中相似度最高的指令作为所述文本对应的语音操作指令可以包括:响应于相似度最高的指令包括多个指令,获取所述画屏当前的状态信息;以及根据画屏当前的状态信息从所述多个指令中选择一个语音操作指令作为所述文本对应的语音操作指令。
其中,上述状态信息可以包括:所述画屏当前开启的功能模块;上述从所述多个指令中选择一个语音操作指令可以包括:响应于所述画屏当前开启了管理控制功能,则选择管理控制功能对应的语音操作指令;响应于所述画屏当前开启了多媒体播放功能,则选择多媒体播放功能对应的语音操作指令;响应于所述画屏当前仅开启了画作显示功能,则选择画作显示功能对应的语音操作指令。
其中,在对所述用户的语音输入进行分帧之前,上述方法进一步可以包括:将所述用户的语音输入声音波形的首尾两端的静音部分切除。
其中,上述语音操作指令包括:针对画屏所展示画作的操作指令、针对画屏所播放多媒体的操作指令、针对画屏操作的问题中的至少一个。
其中,上述语音操作指令包括:文件下载指令,其中,所述文件可以包括画作文件或多媒体文件;述执行所述语音操作指令可以包括:向画屏服务器发送文件下载请求;其中,在所述文件下载请求中携带所述用户的语音输入;接收所述云端服务器根据所述用户的语音输入确定的文件链接;以及根据所述文件链接下载相应文件,并显示或播放所下载的文件。
本说明书的实施例还提供了一种画屏,可以包括:
麦克风装置,用于接收用户的语音输入;
分帧模块,用于对所述用户的语音输入进行分帧,得到至少一个语音帧;
声学特征提取模块,用于对所述至少一个语音帧进行声学特征提取,得到至少一个特征向量;
声学模型,用于确定所述至少一个特征向量对应的至少一个音素,并根据所述至少一个音素,确定与所述用户的语音输入对应的文本;
文本匹配模块,用于将所述文本与预先存储的指令库中的指令进行文本匹配,得到所述文本对应的语音操作指令;
指令执行模块,用于执行所述语音操作指令,并返回所述语音操作指令的执行结果。
其中,上述文本匹配模块响应于相似度最高的指令包括多个指令,获取自身当前的状态信息;以及根据所述状态信息从所述多个指令中选择一个语音操作指令作为所述文本对应的语音操作指令。
其中,上述画屏可以进一步包括:位于麦克风装置和分帧模块之间的静音切除模块,用于将用户的语音输入声音波形的首尾两端的静音部分切除。
其中,上述画屏可以进一步包括:通信模块,用于响应于所述语音操作指令为文件下载指令,向画屏服务器发送文件下载请求;其中,在所述文件下载请求中携带所述用户的语音输入;接收所述云端服务器根据所述用户的语音输入确定的文件链接;以及根据所述文件链接下载相应文件,并显示或播放所下载的文件。
本说明书的实施例还提供了一种电子设备,可以包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,上述处理器执行所述程序时实现上述的方法。
本说明书的实施例还提供了一种非暂态计算机可读存储介质,上述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行上述方法。
从上面所述可以看出,本说明书提供的基于画屏的语音交互方法以及画屏具备语音交互功能,从而可以为画屏用户提供语音操作方式,提高画屏的操作效率,方便用户的使用,提升用户的使用体验。
更进一步,本说明书提供的画屏还可以根据自身的状态信息对用户的语音输入进行语义上的解析,并进一步根据解析出的用户真实意思确定与其最为接近的语音操作指令,避免用户针对同一操作反复地进行语音输入,从而缩短语音交互的过程,快速并且准确地实现用户对画屏的语音操作,节省操作时间,提高操作效率。另一方面也进一步方便了用户的使用,提升用户的使用体验。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书实施例所述的具有语音交互功能的画屏10的一个应用场景的示意图;
图2为本说明书实施例所述基于画屏的语音交互方法流程示意图;
图3为本说明书实施例所述的文件下载流程示意图;
图4为本说明书实施例所述画屏的结构示意图;以及
图5为本说明书实施例所述的电子设备的内部结构示意图。
具体实施方式
为使本说明书的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本说明书进一步详细说明。
需要说明的是,除非另外定义,本说明书实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
如前所述,画屏作为一种智能家居设备得到了越来越多用户的认可,使用也越来越广泛。目前,用户大多是通过安装在用户终端上的客户端应用完成对画屏的各种操作的,例如,用户可以通过用户终端上的客户端应用选择需要下载或者需要切换的画作,然后客户端应用再将所选择的画作推送给画屏,由画屏显示用户选择画作等等。可以看出,这种操作不但需要画屏预先与用户终端进行通信连接,并且操作相对繁琐不方便用户的使用。需要说明的是,在本说明书的实施例中,为了描述上的方便,将画屏的屏幕上可以显示的内容称为画作,该画作包括但不限于数字化的绘画、文物、非遗等艺术品的影像,还可以包括一般的影像,如照片或者视频等等。
为此,本说明书的实施例提供了一种具有语音交互功能的画屏。图1显示了本说明书实施例所述的具有语音交互功能的画屏10的一个应用场景100。如图1所示,在该应用场景中,用户20可以通过语音方式对画屏10发出语音操作指令,从而实现对画屏10的操作,例如,切换画屏上显示的画作或者下载新的画作等等。
此外,上述画屏10还可以与网络中的画屏服务器30建立通信连接,从而从画屏的云端服务器下载应用程序、或者数据、文件等等。例如,进行软件更新或者下载新的画作或者多媒体文件等等。可选地,上述画屏服务器是指网络中能对其它设备提供服务的计算机系统。画屏服务器服务的对象通常称为画屏,画屏服务器与画屏之间可以通过有线或者无线的方式通信连接。画屏服务器的实现方式是多种多样的,可以是单台的计算机设备,也可以是多台计算机设备的组合(例如集群服务器,云服务器等)。画屏服务器在一些应用场景中也可以被称为服务端,云端等。
上述画屏10还可以通过短距离的通信方式安装在终端上的画屏客户端应用40建立通信连接,从而用户还可以通过画屏客户端应用对画屏进行操作等等。上述短距离通信方式包括但不限于WiFi、蓝牙、近场通信(NFC)、以及红外等等。
具体地,本说明书的实施例给出了一种基于上述画屏的语音交互方法,该方法可以由上述具备语音交互功能的画屏执行。
图2显示了本说明书实施例所述的基于画屏的语音交互方法。如图2所示,该方法可以包括:
在步骤202,接收用户的语音输入。
在本说明书的实施例中,可以在上述画屏上设置麦克风装置用于采集用户的语音输入。通常,上述由麦克风采集的用户的语音输入可以视为一段声音波形。
在步骤204,对上述用户的语音输入进行分帧,得到至少一个语音帧。
在本说明书的实施例中,可以在画屏上设置一个分帧模块来对上述麦克风装置采集的声音波形进行分帧处理,从而得到至少一个语音帧。具体地,上述分帧处理即是把上述声音波形切分成至少一段,其中的每一段称为一帧。而为了使帧与帧之间平滑过渡,保持其连续性,可以采用交叠分帧的方法。
在本说明书的一些实施例中,上述分帧模块可以通过移动窗函数来实现,例如,可以设置帧长为25ms,帧移为10ms的移动窗函数用于对上述麦克风装置采集的声音波形进行分帧处理,从而得到至少一个帧长为25ms的语音帧,其中,每两个连续的语音帧之间有15ms的交叠。需要说明的是,上述帧长和帧移可以根据具体的应用需求来设置,例如根据采样的频率等等参数确定,本说明书对此不进行限定。
在本说明书的另一些实施例中,在开始语音识别之前,上述画屏上还可以设置一个静音切除模块,用于先把声音波形的首尾两端的静音部分切除,以降低静音部分对后续语音识别步骤的干扰。具体地,上述静音切除模块可以对声音波形进行语音活动检测(Voice Activity Detection,VAD),以确定上述声音波形的首尾两端的语音边界点,然后根据确定的语音边界点从声音波形的首尾两端去除首尾两端的静音部分。上述VAD又可称为语音端点检测或语音边界检测。
在步骤206,对上述至少一个语音帧进行声学特征提取,得到至少一个特征向量。
在本说明书的实施例中,上述画屏上还可以设置一个声学特征提取模块,用于根据人耳的生理特征,将上述至少一个语音帧分别转换成多维向量,分别作为上述一个语音帧的特征向量。上述声学特征提取模块可以采用多种方法实现上述语音帧到多维向量的转换,例如,可以通过梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients,MFCC)特征提取方法实现;可以通过线性预测倒谱系数(Linear Predictive CepstralCoefficient,LPCC)特征提取方法实现;或者可以通过基于滤波器组的Fbank特征提取方法实现等等。
在步骤208,将上述至少一个特征向量输入经过训练的声学模型,确定上述至少一个特征向量对应的至少一个音素。
在本说明书的实施例中,为了使描述上更为清楚,首先说明两个概念:
1)音素:是根据语音的自然属性划分出来的语音单位。例如,对应英语,常用的音素集可以是卡内基梅隆大学的定义的由39个音素构成的音素集;对应汉语,一般可以用全部的声母和韵母作为音素集。
2)状态:是比音素更细致的语音单位,通常一个音素可以包括3个状态。
在本说明书的一些实施例中,上述经过训练的声学模型首先可以确定每个特征向量分别对应各个预设状态的概率,并可以将概率最高的状态作为该特征向量对应的状态;最后,上述经过训练的声学模型还可以将各个特征向量对应的状态进行合并从而确定上述至少一个特征向量对应的至少一个音素。需要说明的是多个特征向量可能对应一个音素。
在步骤210,根据上述至少一个音素,确定与上述用户的语音输入对应的文本。
在本说明书的实施例中,上述声学模型可以将上述至少一个特征向量对应的至少一个音素合成为与上述用户的语音输入对应的拼音或者音标。例如,如果用户语音输入的是汉语,则上述声学模型可以将上述至少一个音素合并成拼音;如果用户语音输入的是英文,则上述声学模型可以将上述至少一个音素合并成音标。接下来,再将合成的音标或者拼音转换成文本,作为与上述用户的语音输入对应的文本。
需要说明的是,上述声学模型可以是预先在画屏服务器处训练好的声学模型,可以预先配置在画屏内部或者由画屏通过自身与画屏服务器的通信连接从画屏服务器下载或者更新得到的。
在步骤212,使用上述文本与预先存储的指令库中的指令进行文本匹配,得到上述文本对应的语音操作指令。
在本说明书的实施例中,可以将上述文本输入经过训练的文本匹配模型,从而得到该文本与预先存储的指令库中各个指令的相似度,并可以将其中相似度最高的指令作为上述文本对应的语音操作指令。
在本说明书的实施例中,上述文本匹配模型可以采用多种方式实现,例如,深度结构化语义模型(Deep Structured Semantic Models,DSSM),增强序列推理模型(EnhancedSequential Inference Model,ESIM),双线性卷积神经网络(Bilinear CNN,BCNN),以及双向多角度的BiMPM模型等等。
在步骤214,执行上述语音操作指令,并返回上述语音操作指令的执行结果。
在本说明书的实施例中,画屏在根据用户的语音输入识别出相应的语音操作指令后,则可以按照内置的程序执行上述语音操作指令,并向用户返回上述语音执行的结果。
在本说明书的实施例中,上述语音操作指令可以根据画屏包含的功能模块包括多个方面的指令。例如,通常可以包括以下几个方面:
1)针对画屏所展示画作的操作指令,可以包括但不限于:放大画作、缩小画作、移动画作、切换画作、显示画屏自身存储的全部或部分画作(例如,显示画廊)、选择希望展示的画作以及从画屏云端下载画作等等。例如,上述语音操作指令可以包括:“将当前展示画作放大至两倍”、“显示所存储的下一幅画作”、“显示画廊”以及“画作下载”等等。此时,画屏会执行上述语音操作指令,并将执行结果通过画屏的显示屏展示给用户,从而完成一次语音交互。
2)为了方便用户的使用,画屏还可以为用户提供智能语音引导功能。此时,画屏内部会存储多个常见的问题与对应问题的解答。在这种情况下,上述语音操作指令为画屏上预先存储的针对画屏操作的一个问题。此时,画屏会确定自身存储的该问题对应的解答,为用户播放该解答,从而实现智能语音引导功能。
3)当画屏上除了包含显示画作的画作显示功能之外还包括可以播放音乐等多媒体文件的多媒体播放功能时,上述语音操作指令还可以是针对画屏所播放多媒体的操作指令,可以包括但不限于:调大音量、调小音量、切换多媒体文件、显示画屏自身存储的全部或部分多媒体文件、选择希望播放的多媒体文件以及从画屏云端下载多媒体文件等等。例如,此时上述语音操作指令可以包括:“将当前音量调高5%”、“播放所存储的下一个多媒体文件”、“显示多媒体文件库”以及“多媒体文件下载”等等。
对于上述罗列的多个方面语音操作指令,多数语音操作指令可以由画屏本身完成,在此不再赘述,但是对于“画作下载”或者“多媒体文件下载”这两类语音操作指令,画屏还需要与画屏的云端服务器进行信息交互才能完成指令的执行,下面就结合具体的示例对这两个语音操作指令的执行过程进行详细说明。
图3显示了本说明书实施例所述的文件下载流程,该文件下载流程可以由画屏执行。如图3所示,在本说明书的实施例中,上述文件下载过程可以包括如下多个步骤。其中,上述文件可以是上述画作对应的数字化文件也可以是多媒体文件等等。
在步骤302,在确定了上述语音操作指令为涉及文件下载的指令后,向画屏服务器发送文件下载请求;其中,在上述文件下载请求中携带上述用户的语音输入。
在步骤304,接收云端服务器根据上述用户的语音输入确定的文件链接。
在本说明书的实施例中,在将上述文件下载请求发送至画屏服务器后,画屏将通过与云端服务器的连接,例如Socket链接,监听云端服务器的消息推送,从中接收云端服务器返回的文件链接。
在步骤306,根据上述文件链接下载相应文件,并显示或播放所下载的文件。
在本说明书的实施例中,画屏服务器在接收到来自画屏的文件下载请求后,从中提取用户的语音输入,根据自身的语音识别模型和语义理解算法,对用户的语音输入进行语音识别和语义理解,确定用户希望下载的文件的关键词等特征,然后根据上述特征从云端的数据库中召回至少一个文件,并从中确定一个文件的链接返回给该画屏。
更进一步,在本说明书的一些实施例中,当从云端的数据库中召回的文件多于一个时,画屏服务器还可以进一步获取该画屏所绑定用户的数据;其中,这些用户的数据可以包括:用户的属性数据(用户的性别、年龄、执业、爱好等)、用户当前的状态数据(画屏当前展示的画作和/或播放的多媒体文件)以及历史行为数据(历史的下载数据、检索数据以及浏览数据)等等可以分析出用户的喜好以及行为特征的数据;并结合上述用户的数据从上述召回的至少一个文件中选择一个与用户的数据最为匹配的文件,并将该文件的链接返回给该画屏。上述的结合用户的数据从召回的至少一个文件中选择一个文件的链接的过程可以通过机器学习模型来实现。
由此可以看出,通过上述基于画屏的语音交互方法,可以为画屏提供语音交互功能,从而为画屏用户提供语音操作方式,提高画屏的操作效率,方便用户的使用,提升用户的使用体验。
进一步,在用户通过语音请求下载新的画作或者多媒体文件时,画屏服务器可以进一步根据用户的各维度数据对用户进行分析作为下载请求的辅助信息,从召回的多个结果中找到与用户需求最为匹配的结果,并反馈给用户,免去了用户通过终端的客户端应用或画屏浏览多个召回结果,并从多个召回结果中选择的一系列操作,提升了文件下载的效率以及准确度,节省通信流量,并进一步方便了用户的使用,提升用户的使用体验。
此外,在本说明书的实施例中,在上述步骤212,在使用上述文本与预先存储的指令库中的指令进行文本匹配时,可能会得到多个与上述文本对应的语音操作指令,也即与上述文本相似度最高的语音操作指令可能有多个。例如,当用户语音输入“下一个”时,可能匹配到“显示所存储的下一幅画作”以及“播放所存储的下一个多媒体文件”等多个语音操作指令。在这种情况下,画屏将进一步获取自身当前的状态信息,并根据自身的状态信息从多个语音操作指令中选择一个语音操作指令。其中,上述状态信息可以包括但不限于:画屏当前开启的功能模块。其中,画屏当前开启的功能模块可以包括:画作显示功能、多媒体播放功能、以及管理控制功能中的一个或多个。通常,如果画屏当前开启了管理控制功能,则可以优先选择管理控制功能对应的语音操作指令;如果画屏当前开启了多媒体播放功能,则可以优先选择多媒体播放功能对应的语音操作指令;而如果画屏当前仅开启了画作显示功能,则可以选择画作显示功能对应的语音操作指令。例如,画屏当前不仅显示了一幅画还正在播放歌曲,此时,当用户语音输入“下一个”时,可以确定当前对应用户的语音输入的语音操作指令为“播放所存储的下一个多媒体文件”。而画屏当前仅显示了一幅画,而没有其他功能开启时,用户语音输入“下一个”时,可以确定当前对应用户的语音输入的语音操作指令为“显示所存储的下一幅画作”。
由此可以看出,通过上述方法,画屏可以根据自身的状态信息对用户的语音输入进行语义上的解析,确定用户真实意思,并进一步确定与用户真实意思最为接近的语音操作指令,避免用户针对同一操作反复地进行语音输入,从而缩短语音交互的过程,快速并且准确地实现用户对画屏的语音操作,节省操作时间,提高操作效率。另一方面也进一步方便了用户的使用,提升用户的使用体验。
对应上述基于画屏的语音交互方法,本说明书的实施例还提供了一种画屏,该画屏具备语音识别能力,如图4所示,该画屏可以包括如下部件:
麦克风装置402,用于接收用户的语音输入。
分帧模块404,用于对上述用户的语音输入进行分帧,得到至少一个语音帧。
声学特征提取模块406,用于对上述至少一个语音帧进行声学特征提取,得到至少一个特征向量。
如前所述,在本说明书的实施例中,上述声学特征提取模块可以采用多种方法实现上述语音帧到多维向量的转换,例如,MFCC特征提取方法实现;可以LPCC特征提取方法实现;或者可以通过基于滤波器组的Fbank特征提取方法实现等等。
声学模型408,用于确定上述至少一个特征向量对应的至少一个音素,并根据上述至少一个音素,确定与上述用户的语音输入对应的文本。
文本匹配模块410,用于将上述文本与预先存储的指令库中的指令进行文本匹配,得到上述文本对应的语音操作指令。
在本说明书的实施例中,上述文本匹配模块可以采用多种方式实现,例如,DSSM模型,ESIM模型,BCNN模型,以及BiMPM模型等等。
指令执行模块412,用于执行上述语音操作指令,并返回上述语音操作指令的执行结果。
在本说明书的一些实施例中,上述画屏上还可以设置一个位于麦克风装置和分帧模块之间的静音切除模块,用于先把声音波形的首尾两端的静音部分切除,以降低静音部分对后续语音识别步骤的干扰。具体地,上述静音切除模块可以对声音波形进行VAD,以确定上述声音波形的首尾两端的语音边界点,然后根据确定的语音边界点从声音波形的首尾两端去除首尾两端的静音部分。
当然,上述画屏还可以包括下述多个模块:
显示模块,用于显示存储的画作。在本说明书的一些实施例中,上述显示模块还可以进一步用于显示播放媒体文件中的图像文件。
语音播放模块,用于播放语音提示消息。在本说明书的一些实施例中,上述语音播放模块还可以进一步用于播放媒体文件中的声音文件。
存储模块,用于存储画作文件。在本说明书的一些实施例中,上述存储模块还可以进一步用于存储多媒体文件等数据。
通信模块,用于与画屏服务器进行通信。具体地,响应于所述语音操作指令为文件下载指令,该通信模块向画屏服务器发送文件下载请求;其中,在所述文件下载请求中携带所述用户的语音输入;接收所述云端服务器根据所述用户的语音输入确定的文件链接;以及根据所述文件链接下载相应文件,并显示或播放所下载的文件。
在本说明书的一些实施例中,上述通信模块420还可以进一步用于与安装有画屏客户端应用的终端进行通信。
由此可以看出,通过上述具备语音交互功能的画屏,画屏用户可以对画屏进行语音方式的操作,从而方便用户的使用,提升用户的使用体验。
进一步,在本说明书的实施例中,在文本匹配模块410在通过文本匹配得到多个与上述文本对应的语音操作指令时,文本匹配模块410将进一步获取自身当前的状态信息,并根据自身的状态信息从多个语音操作指令中选择一个语音操作指令。
由此可以看出,在上述方案中,画屏可以根据自身的状态信息对用户的语音输入进行语义上的解析,确定用户真实意思,并进一步确定与用户真实意思最为接近的语音操作指令,避免了反复地语音输入,从而缩短语音交互的过程,快速并且准确地实现用户对画屏的语音操作,节省操作时间,提高操作效率,进一步也方便了用户的使用,提升用户的使用体验。
图5示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器52、存储器54、和总线56。其中处理器52、存储器54通过总线56实现彼此之间在设备内部的通信连接。
处理器52可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器54可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器54可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器54中,并由处理器52来调用执行。
总线56包括一通路,在设备的各个组件(例如处理器52、存储器54)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器52、存储器54以及总线56,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
上述对本说明书特定实施例进行了描述。其他实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本说明书的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本说明书的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本说明书难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本说明书难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本说明书的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本说明书的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本说明书。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本说明书的具体实施例对本说明书进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
Claims (14)
1.一种基于画屏的语音交互方法,由所述画屏执行,所述方法包括:
接收用户的语音输入;
对所述用户的语音输入进行分帧,得到至少一个语音帧;
对所述至少一个语音帧进行声学特征提取,得到至少一个特征向量;
将所述至少一个特征向量输入经过训练的声学模型,确定所述至少一个特征向量对应的至少一个音素;
根据所述至少一个音素,确定与所述用户的语音输入对应的文本;
使用所述文本与预先存储的指令库中的指令进行文本匹配,得到所述文本对应的语音操作指令;以及
执行所述语音操作指令,并返回所述语音操作指令的执行结果。
2.根据权利要求1所述的方法,其中,所述使用所述文本与预先存储的指令库中的指令进行文本匹配包括:
将所述文本输入经过训练的文本匹配模型,得到所述文本与预先存储的指令库中各个指令的相似度;以及
将所述各个指令中相似度最高的指令作为所述文本对应的语音操作指令。
3.根据权利要求2所述的方法,其中,所述文本匹配模型包括:深度结构化语义模型,增强序列推理模型,双线性卷积神经网络以及双向多角度模型中的至少一个。
4.根据权利要求2所述的方法,其中,所述将所述各个指令中相似度最高的指令作为所述文本对应的语音操作指令包括:
响应于相似度最高的指令包括多个指令,获取所述画屏当前的状态信息;以及根据画屏当前的状态信息从所述多个指令中选择一个语音操作指令作为所述文本对应的语音操作指令。
5.根据权利要求4所述的方法,其中,所述状态信息包括:所述画屏当前开启的功能模块;
所述从所述多个指令中选择一个语音操作指令包括:
响应于所述画屏当前开启了管理控制功能,则选择管理控制功能对应的语音操作指令;
响应于所述画屏当前开启了多媒体播放功能,则选择多媒体播放功能对应的语音操作指令;
响应于所述画屏当前仅开启了画作显示功能,则选择画作显示功能对应的语音操作指令。
6.根据权利要求1所述的方法,其中,在对所述用户的语音输入进行分帧之前,所述方法进一步包括:将所述用户的语音输入声音波形的首尾两端的静音部分切除。
7.根据权利要求1所述的方法,其中,所述语音操作指令包括:针对画屏所展示画作的操作指令、针对画屏所播放多媒体的操作指令、针对画屏操作的问题中的至少一个。
8.根据权利要求1所述的方法,其中,所述语音操作指令包括:文件下载指令,其中,所述文件包括画作文件或多媒体文件;
所述执行所述语音操作指令包括:
向画屏服务器发送文件下载请求;其中,在所述文件下载请求中携带所述用户的语音输入;
接收所述云端服务器根据所述用户的语音输入确定的文件链接;以及
根据所述文件链接下载相应文件,并显示或播放所下载的文件。
9.一种画屏,包括:
麦克风装置,用于接收用户的语音输入;
分帧模块,用于对所述用户的语音输入进行分帧,得到至少一个语音帧;
声学特征提取模块,用于对所述至少一个语音帧进行声学特征提取,得到至少一个特征向量;
声学模型,用于确定所述至少一个特征向量对应的至少一个音素,并根据所述至少一个音素,确定与所述用户的语音输入对应的文本;
文本匹配模块,用于将所述文本与预先存储的指令库中的指令进行文本匹配,得到所述文本对应的语音操作指令;
指令执行模块,用于执行所述语音操作指令,并返回所述语音操作指令的执行结果。
10.根据权利要求9所述的画屏,其中,所述文本匹配模块响应于相似度最高的指令包括多个指令,获取自身当前的状态信息;以及根据所述状态信息从所述多个指令中选择一个语音操作指令作为所述文本对应的语音操作指令。
11.根据权利要求9所述的画屏,其中,所述画屏进一步包括:
位于麦克风装置和分帧模块之间的静音切除模块,用于将用户的语音输入声音波形的首尾两端的静音部分切除。
12.根据权利要求9所述的画屏,其中,所述画屏进一步包括:
通信模块,用于响应于所述语音操作指令为文件下载指令,向画屏服务器发送文件下载请求;其中,在所述文件下载请求中携带所述用户的语音输入;接收所述云端服务器根据所述用户的语音输入确定的文件链接;以及根据所述文件链接下载相应文件,并显示或播放所下载的文件。
13.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求1至8中任意一项所述的方法。
14.一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行权利要求1至8中任一所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911328484.1A CN111028828A (zh) | 2019-12-20 | 2019-12-20 | 一种基于画屏的语音交互方法、画屏及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911328484.1A CN111028828A (zh) | 2019-12-20 | 2019-12-20 | 一种基于画屏的语音交互方法、画屏及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111028828A true CN111028828A (zh) | 2020-04-17 |
Family
ID=70212306
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911328484.1A Pending CN111028828A (zh) | 2019-12-20 | 2019-12-20 | 一种基于画屏的语音交互方法、画屏及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111028828A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111524504A (zh) * | 2020-05-11 | 2020-08-11 | 中国商用飞机有限责任公司北京民用飞机技术研究中心 | 机载语音控制方法和装置 |
CN112349423A (zh) * | 2020-11-04 | 2021-02-09 | 吾征智能技术(北京)有限公司 | 一种基于BiMPM方法的口干信息匹配系统 |
CN113888846A (zh) * | 2021-09-27 | 2022-01-04 | 深圳市研色科技有限公司 | 一种预提醒行车的方法以及装置 |
CN116342739A (zh) * | 2023-02-22 | 2023-06-27 | 深圳前海深蕾半导体有限公司 | 基于人工智能生成多幅绘画图像的方法、电子设备及介质 |
Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102324241A (zh) * | 2011-05-04 | 2012-01-18 | 鸿富锦精密工业(深圳)有限公司 | 具有语音控制功能的电子装置及语音控制方法 |
CN104346127A (zh) * | 2013-08-02 | 2015-02-11 | 腾讯科技(深圳)有限公司 | 语音输入的实现方法、装置及终端 |
CN104700832A (zh) * | 2013-12-09 | 2015-06-10 | 联发科技股份有限公司 | 语音关键字检测系统及方法 |
CN105094807A (zh) * | 2015-06-25 | 2015-11-25 | 三星电子(中国)研发中心 | 一种实现语音控制的方法及装置 |
TW201544974A (zh) * | 2014-05-30 | 2015-12-01 | 蘋果公司 | 用於家庭自動化之智能助手 |
CN106157955A (zh) * | 2015-03-30 | 2016-11-23 | 阿里巴巴集团控股有限公司 | 一种语音控制方法及装置 |
CN107414828A (zh) * | 2017-07-26 | 2017-12-01 | 上海与德通讯技术有限公司 | 一种基于多任务的纯语言处理方法和装置 |
CN108288468A (zh) * | 2017-06-29 | 2018-07-17 | 腾讯科技(深圳)有限公司 | 语音识别方法及装置 |
CN108363557A (zh) * | 2018-02-02 | 2018-08-03 | 刘国华 | 人机交互方法、装置、计算机设备和存储介质 |
CN108366319A (zh) * | 2018-03-30 | 2018-08-03 | 京东方科技集团股份有限公司 | 智能音箱及其语音控制方法 |
CN108877803A (zh) * | 2018-06-08 | 2018-11-23 | 百度在线网络技术(北京)有限公司 | 用于呈现信息的方法和装置 |
CN108984678A (zh) * | 2018-06-29 | 2018-12-11 | 百度在线网络技术(北京)有限公司 | 可穿戴设备、信息处理方法、装置和系统 |
CN109147764A (zh) * | 2018-09-20 | 2019-01-04 | 百度在线网络技术(北京)有限公司 | 语音交互方法、装置、设备及计算机可读介质 |
CN109286706A (zh) * | 2018-10-12 | 2019-01-29 | 京东方科技集团股份有限公司 | 显示设备 |
CN110049270A (zh) * | 2019-03-12 | 2019-07-23 | 平安科技(深圳)有限公司 | 多人会议语音转写方法、装置、系统、设备及存储介质 |
CN110430465A (zh) * | 2019-07-15 | 2019-11-08 | 深圳创维-Rgb电子有限公司 | 一种基于智能语音识别的学习方法、终端及存储介质 |
CN110473537A (zh) * | 2019-08-22 | 2019-11-19 | 百度在线网络技术(北京)有限公司 | 语音技能的控制方法、装置、设备及存储介质 |
-
2019
- 2019-12-20 CN CN201911328484.1A patent/CN111028828A/zh active Pending
Patent Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102324241A (zh) * | 2011-05-04 | 2012-01-18 | 鸿富锦精密工业(深圳)有限公司 | 具有语音控制功能的电子装置及语音控制方法 |
CN104346127A (zh) * | 2013-08-02 | 2015-02-11 | 腾讯科技(深圳)有限公司 | 语音输入的实现方法、装置及终端 |
CN104700832A (zh) * | 2013-12-09 | 2015-06-10 | 联发科技股份有限公司 | 语音关键字检测系统及方法 |
TW201544974A (zh) * | 2014-05-30 | 2015-12-01 | 蘋果公司 | 用於家庭自動化之智能助手 |
CN106157955A (zh) * | 2015-03-30 | 2016-11-23 | 阿里巴巴集团控股有限公司 | 一种语音控制方法及装置 |
CN105094807A (zh) * | 2015-06-25 | 2015-11-25 | 三星电子(中国)研发中心 | 一种实现语音控制的方法及装置 |
CN108288468A (zh) * | 2017-06-29 | 2018-07-17 | 腾讯科技(深圳)有限公司 | 语音识别方法及装置 |
CN107414828A (zh) * | 2017-07-26 | 2017-12-01 | 上海与德通讯技术有限公司 | 一种基于多任务的纯语言处理方法和装置 |
CN108363557A (zh) * | 2018-02-02 | 2018-08-03 | 刘国华 | 人机交互方法、装置、计算机设备和存储介质 |
CN108366319A (zh) * | 2018-03-30 | 2018-08-03 | 京东方科技集团股份有限公司 | 智能音箱及其语音控制方法 |
CN108877803A (zh) * | 2018-06-08 | 2018-11-23 | 百度在线网络技术(北京)有限公司 | 用于呈现信息的方法和装置 |
CN108984678A (zh) * | 2018-06-29 | 2018-12-11 | 百度在线网络技术(北京)有限公司 | 可穿戴设备、信息处理方法、装置和系统 |
CN109147764A (zh) * | 2018-09-20 | 2019-01-04 | 百度在线网络技术(北京)有限公司 | 语音交互方法、装置、设备及计算机可读介质 |
CN109286706A (zh) * | 2018-10-12 | 2019-01-29 | 京东方科技集团股份有限公司 | 显示设备 |
CN110049270A (zh) * | 2019-03-12 | 2019-07-23 | 平安科技(深圳)有限公司 | 多人会议语音转写方法、装置、系统、设备及存储介质 |
CN110430465A (zh) * | 2019-07-15 | 2019-11-08 | 深圳创维-Rgb电子有限公司 | 一种基于智能语音识别的学习方法、终端及存储介质 |
CN110473537A (zh) * | 2019-08-22 | 2019-11-19 | 百度在线网络技术(北京)有限公司 | 语音技能的控制方法、装置、设备及存储介质 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111524504A (zh) * | 2020-05-11 | 2020-08-11 | 中国商用飞机有限责任公司北京民用飞机技术研究中心 | 机载语音控制方法和装置 |
CN112349423A (zh) * | 2020-11-04 | 2021-02-09 | 吾征智能技术(北京)有限公司 | 一种基于BiMPM方法的口干信息匹配系统 |
CN113888846A (zh) * | 2021-09-27 | 2022-01-04 | 深圳市研色科技有限公司 | 一种预提醒行车的方法以及装置 |
CN113888846B (zh) * | 2021-09-27 | 2023-01-24 | 深圳市研色科技有限公司 | 一种预提醒行车的方法以及装置 |
CN116342739A (zh) * | 2023-02-22 | 2023-06-27 | 深圳前海深蕾半导体有限公司 | 基于人工智能生成多幅绘画图像的方法、电子设备及介质 |
CN116342739B (zh) * | 2023-02-22 | 2023-09-26 | 深圳前海深蕾半导体有限公司 | 基于人工智能生成多幅绘画图像的方法、电子设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111028828A (zh) | 一种基于画屏的语音交互方法、画屏及存储介质 | |
TWI511125B (zh) | 語音操控方法、行動終端裝置及語音操控系統 | |
RU2710984C2 (ru) | Совершение задачи без монитора в цифровом персональном помощнике | |
CN112131988B (zh) | 确定虚拟人物唇形的方法、装置、设备和计算机存储介质 | |
CN107463700B (zh) | 用于获取信息的方法、装置及设备 | |
KR102484257B1 (ko) | 전자 장치, 그의 문서 표시 방법 및 비일시적 컴퓨터 판독가능 기록매체 | |
US20160372110A1 (en) | Adapting voice input processing based on voice input characteristics | |
CN113421547B (zh) | 一种语音处理方法及相关设备 | |
CN109145213A (zh) | 基于历史信息的查询推荐方法及装置 | |
CN108595573B (zh) | 页面显示方法、装置、存储介质及电子设备 | |
KR102358012B1 (ko) | 음성 제어 방법, 장치, 전자 기기 및 판독 가능 저장 매체 | |
CN109144285A (zh) | 一种输入方法和装置 | |
KR20220102522A (ko) | 요약 영상 생성 방법 및 그 전자 장치 | |
CN104505103A (zh) | 语音质量评价设备、方法和系统 | |
CN114419205B (zh) | 虚拟数字人的驱动方法及位姿获取模型的训练方法 | |
CN111460231A (zh) | 电子设备以及电子设备的搜索方法、介质 | |
CN110930969A (zh) | 背景音乐的确定方法及相关设备 | |
US20140351232A1 (en) | Accessing enterprise data using a natural language-based search | |
CN113450804A (zh) | 语音可视化方法、装置、投影设备及计算机可读存储介质 | |
KR20190061824A (ko) | 전자장치 및 그 제어 방법 | |
CN109977390A (zh) | 一种生成文本的方法及装置 | |
WO2023093280A1 (zh) | 语音控制方法、装置、电子设备及存储介质 | |
KR20210043894A (ko) | 전자 장치 및 이의 문장 제공 방법 | |
CN115631251A (zh) | 基于文本生成图像的方法、装置、电子设备和介质 | |
CN110472223A (zh) | 一种输入配置方法、装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20210518 Address after: Room 2305, luguyuyuan venture building, 27 Wenxuan Road, high tech Development Zone, Changsha City, Hunan Province, 410005 Applicant after: BOE Yiyun Technology Co.,Ltd. Address before: 100015 No. 10, Jiuxianqiao Road, Beijing, Chaoyang District Applicant before: BOE TECHNOLOGY GROUP Co.,Ltd. |
|
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200417 |