CN107122160A - 用于语音输入控制指令的显示方法、装置和终端 - Google Patents
用于语音输入控制指令的显示方法、装置和终端 Download PDFInfo
- Publication number
- CN107122160A CN107122160A CN201710280974.3A CN201710280974A CN107122160A CN 107122160 A CN107122160 A CN 107122160A CN 201710280974 A CN201710280974 A CN 201710280974A CN 107122160 A CN107122160 A CN 107122160A
- Authority
- CN
- China
- Prior art keywords
- text
- control instruction
- standard
- display
- phonetic entry
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种用于语音输入控制指令的显示方法,涉及语音控制技术领域,由于为标准控制文本配置了用于表示显示字号、显示颜色和显示透明度的三种字段中至少一者不同于非标准控制文本的显示属性编码值,所以基于该显示属性编码值显示的标准控制文本和非标准控制文本对应的显示字号、显示颜色和显示透明度中的至少一者不同。实现了标准控制文本和非标准控制文本的区别显示,也即实现了语音输入控制指令中标准控制文本的突出显示,可以引导用户在语音输入的过程中直接输入标准控制文本,有效避免了用户输入的语音输入控制指令中包括非标准控制文本,提高了终端设备的语音控制响应速度和准确率,进而提高了终端设备的用户体验性。
Description
技术领域
本发明涉及语音控制技术领域,尤其涉及一种用于语音输入控制指令的显示方法、装置和终端。
背景技术
近几年随着科技的飞速发展,语音识别控制技术已逐渐应用在各种终端设备上。用户可通过终端设备上配置的语音识别装置对终端设备进行声控,这为终端设备的控制技术带来了新的变革。目前,语音控制已经成为终端设备的一种主流控制方式。
以智能电视为例,通常,智能电视配置有语音应用程序,比如语音助手等,用户通过语音助手进行语音输入,智能电视对用户的语音输入进行识别得到文本之后,在显示界面上显示该文本,进而智能电视根据该文本生成其对应的控制指令,执行该控制指令以实现智能电视的语音控制。
对于用户输入的语音控制文本,终端设备首先将该语音控制文本与标准语音控制指令库匹配,若该语音控制文本与标准语音控制指令库匹配成功,则终端设备直接执行用户输入的语音控制文本对应的该标准语音控制指令;若该语音控制文本与标准语音控制指令库匹配不成功,则终端设备需要对该语音控制文本进行自然语言处理和语义理解,根据语义理解的结果生成相应的语音控制指令。
由于语义理解过程复杂,计算量大,当用户输入的语音控制文本不是标准语音控制指令时,将会导致终端设备的语音控制响应缓慢,用户体验差。
发明内容
本发明实施例提供一种用于语音输入控制指令的显示方法、装置和终端,旨在引导用户在语音输入的过程中输入标准语音控制指令,提高终端的语音控制响应速度和准确率,进而提高终端的用户体验性。
本发明提供的具体技术方案如下:
第一方面,本发明实施例提供一种用于语音输入控制指令的显示方法,包括:
识别语音输入控制指令中标准控制文本和非标准控制文本,其中,所述标准控制文本为与预置的标准语音控制指令模板相匹配的文本,所述非标准控制文本为除所述标准控制文本之外的文本;
若属于所述标准控制文本时,则配置用于表征显示字号、显示颜色和显示透明度的三种字段中至少一者不同于所述非标准控制文本的显示属性编码值;
基于所述显示属性编码值对应显示所述语音输入控制指令。
第二方面,本发明实施例还提供一种用于语音输入控制指令的显示方法,包括:
识别语音输入控制指令中标准控制文本和非标准控制文本,其中,所述标准控制文本为与预置的标准语音控制指令模板相匹配的文本,所述非标准控制文本为除所述标准控制文本之外的文本;
若所述语音输入控制指令不包括所述标准控制文本,则计算所述语音输入控制指令与预置的各个标准语音控制指令模板之间的相似度;
基于预置的规则,根据所述相似度中的最大值对应的所述标准语音控制指令模板生产输入提示信息,其中,所述输入提示信息包括与所述标准语音控制指令模板匹配的标准控制文本;
显示所述语音输入控制指令和所述输入提示信息。
第三方面,本发明实施例提供一种用于语音输入控制指令的显示装置,所述装置包括:
识别模块,用于识别语音输入控制指令中标准控制文本和非标准控制文本,其中,所述标准控制文本为与预置的标准语音控制指令模板相匹配的文本,所述非标准控制文本为除所述标准控制文本之外的文本;
处理模块,用于若属于所述标准控制文本时,则配置用于表征显示字号、显示颜色和显示透明度的三种字段中至少一者不同于所述非标准控制文本的显示属性编码值;
显示模块,用于基于所述显示属性编码值对应显示所述语音输入控制指令。
第四方面,本发明实施例还提供一种用于语音输入控制指令的显示装置,所述装置包括:
识别模块,用于识别语音输入控制指令中标准控制文本和非标准控制文本,其中,所述标准控制文本为与预置的标准语音控制指令模板相匹配的文本,所述非标准控制文本为除所述标准控制文本之外的文本;
计算模块,用于若所述语音输入控制指令不包括所述标准控制文本,则计算所述语音输入控制指令与预置的各个标准语音控制指令模板之间的相似度;
生成模块,用于基于预置的规则,根据所述相似度中的最大值对应的所述标准语音控制指令模板生产输入提示信息,其中,所述输入提示信息包括与所述标准语音控制指令模板匹配的标准控制文本;
显示模块,用于显示所述语音输入控制指令和所述输入提示信息。
第五方面,本发明实施例提供一种终端,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器用于读取所述存储器上存储的所述计算机程序,并执行上述的用于语音输入控制指令的显示方法。
本发明的有益效果如下:
本发明实施例提供的用于语音输入控制指令的显示方法,由于为语音输入控制指令中的标准控制文本配置了用于表示显示字号、显示颜色和显示透明度的三种字段中至少一者不同于非标准控制文本的显示属性编码值,所以基于该显示属性编码值显示的标准控制文本和非标准控制文本对应的显示字号、显示颜色和显示透明度中的至少一者不同,实现了标准控制文本和非标准控制文本的区别显示,也即实现了语音输入控制指令中标准控制文本的突出显示,可以引导用户在语音输入的过程中直接输入标准控制文本,有助于避免用户输入的语音输入控制指令中包括非标准控制文本,可以提高终端设备的语音控制响应速度和准确率,进而提高了终端设备的用户体验性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的用于显示语音输入控制指令的终端架构示意图;
图2为本发明实施例的用于语音输入控制指令的显示方法的流程示意图;
图3为本发明实施例的一种终端显示显示语音输入控制指令的界面示意图;
图4为本发明实施例的用于语音输入控制指令的显示方法的另一流程示意图;
图5为本发明实施例的用于语音输入控制指令的显示装置的结构示意图;
图6为本发明实施例的识别模块的结构示意图;
图7为本发明实施例的用于语音输入控制指令的显示装置的另一结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在对本发明实施例进行详细地解释说明之前,先对本发明实施例的应用环境予以介绍。本发明实施例提供的用于显示语音输入控制指令的显示方法应用于终端,示例的,该终端可以是具有Android操作系统或IOS操作系统的智能电视、智能手机、平板电脑等,该终端还可以是具有Window操作系统或Ios操作系统的计算机、PDA(Personal DigitalAssistant,个人数字助理)等,本发明实施例对此不做具体限定。
图1是本发明实施例提供的一种用于显示语音输入控制指令的终端架构示意图。示例的,参考图1所示,该终端可以包括一个或多个如下组成部分:用于执行计算机程序指令以完成各种流程和方法的处理器、用于存储信息和存储程序指令的随机接入存储器(RAM)和只读存储器(ROM),用于存储数据和信息的存储器、I/O设备、界面、天线等。
终端100可以包括存储器110、输入单元120、显示单元130、传感器140、音频电路150、WiFi(英文:wireless fidelity,无线保真)模块160、处理器170、电源171、音视频信号接收模块180、OSD模块190等部件。
本领域技术人员可以理解,图1中示出的系统结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图1对终端100的各个构成部件进行具体的介绍:
存储器110可用于存储软件程序以及模块,处理器170通过运行存储在存储器110的软件程序以及模块,从而执行终端100的各种功能应用以及数据处理。
存储器110可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据终端100的使用所创建的数据(比如音频数据、联系人数据、缓存数据等)等。
此外,存储器110可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件等。
输入单元120可用于接收输入的数字或字符信息,以及产生与终端100的用户设置以及功能控制有关的键信号输入。具体地,输入单元120可包括触控按键121以及其他输入设备122。
可选的,触控按键121,可以为设置在终端上的固态按键或者设置在终端触摸屏上的虚拟按键,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控按键121上或在触控按键121附近的操作),并根据预先设定的程式驱动相应的连接装置。
可选的,当触控按键121为设置在终端触摸屏上的虚拟按键时,触控按键121可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器170,并能接收处理器170发来的命令并加以执行。
此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控按键121。除了触控按键121,输入单元120还可以包括其他输入设备122。具体地,其他输入设备122可以包括但不限于外接的物理键盘、遥控器的功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。此外,输入单元120还可以包括语音输入模块,其中,语音输入模块包括用于拾音的麦克风和用于对语音数据进行识别处理的语音识别模块,语音识别模块可以是运行于处理器中的一段程序,也可以是执行语音识别功能的芯片。
显示单元130可用于显示由用户输入的信息或提供给用户的信息以及终端100的各种菜单,此处仅是举例说明,并不代表显示单元130的显示内容局限于此。显示单元130可包括显示面板131和驱动单元132,可选的,可以采用LCD(英文:liquid crystal display,液晶显示器)、OLED(英文:organic light-emitting diode,有机发光二极管)等形式来配置显示面板131。
进一步的,当触控按键121为设置在终端触摸屏上的虚拟按键时,即终端100包括触摸屏,该触摸屏可覆盖显示面板131,当触摸屏检测到在其上或附近的触摸操作后,传送给处理器170以确定触摸事件的类型,随后处理器170根据触摸事件的类型在显示面板131上提供相应的视觉输出。
虽然在图1中,触摸屏与显示面板131是作为两个独立的部件来实现终端100的输入和输出功能,但是在某些实施例中,可以将触摸屏与显示面板131集成而实现终端100的输入和输出功能。
终端100还可包括至少一种传感器140,比如陀螺仪传感器、磁感应传感器、光传感器、运动传感器以及其他传感器等。
具体地,以该终端为智能手机为例,光传感器可以包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板131的亮度,接近传感器可在终端100移动到耳边时,关闭显示面板131和/或背光。
同样以智能手机为例,作为运动传感器的一种,加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别智能设备姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于终端100还可配置的气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
示例的,以智能电视为例,智能终端的红外传感器包括红外线接收电路,用于接收与智能电视相配套的红外遥控器发射的红外编码控制信号,以指示智能电视根据该红外编码控制信号执行相应的控制动作。
音频电路150、扬声器151,传声器152可提供用户与终端100之间的音频接口。音频电路150可将接收到的音频数据转换后的电信号,传输到扬声器151,由扬声器151转换为声音信号输出。
WiFi属于短距离无线传输技术,终端100通过WiFi模块160可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图1示出了WiFi模块160,但是可以理解的是,其并不属于终端100的必须构成,完全可以根据需要在不改变公开的本质的范围内而省略。
处理器170是终端100的控制中心,利用各种接口和线路连接整个智能设备的各个部分,通过运行或执行存储在存储器110内的软件程序和/或模块,以及调用存储在存储器110内的数据,执行终端100的各种功能和处理数据,从而对智能设备进行整体监控。
可选的,处理器170可包括一个或多个处理单元;优选的,处理器170可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器170中。以智能电视为例,处理器170包括中央处理器CPU和图形处理器GPU,对于智能电视的中央处理CPU和图形处理器GPU的结构和功能,在此不做累述。
终端100还包括给各个部件供电的电源171(比如电池或者外接电源引脚),优选的,电源可以通过电源管理系统与处理器170逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
参考图1所示,终端100还包括音视频信号接收模块180,用于接收外部输入的音视频信号,示例的,以智能电视为例,音视频信号接收模块180可以包括TV接口、AV接口、色差接口、VGA接口、DVI接口、HDMI接口、USB接口等等,对于TV接口、AV接口、色差接口、VGA接口、DVI接口、HDMI接口、USB接口等的具体结构和功能,本发明在此不再累述。
参考图1所示,终端100还包括OSD绘制模块190(OSD是On-Screen Display的简称)。其中,以智能电视为例,OSD绘制模块190用于根据用户控制指令生成屏幕菜单式调节方式,示例的,用户按下智能电视遥控器的Menu键后,OSD绘制模块会在智能电视的屏幕弹出用于调节显示器各项信息的矩形菜单,可通过该菜单对显示器各项工作指标包括色彩、模式、几何形状等进行调整,从而达到最佳的使用状态。
尽管未示出,终端100还可以包括蓝牙模块等,在此不再赘述。
本发明实施例提供一种用于语音输入控制指令的显示方法,适用于如图1所示的终端,示例的,该方法可以应用于智能电视、智能手机、平板电脑、笔记本电脑等的语音控制。具体的,该方法可以用于在智能电视、智能手机、平板电脑、笔记本电脑等终端的显示界面上显示用户的语音输入控制指令。
图1示出了本发明实施例提供的一种用于语音输入控制指令的显示方法的流程示意图。参考图1所示,该显示方法的流程包括:
步骤101:当终端被触发进入语音控制模式后,接收用户输入的语音数据。
具体的,用户可以通过触发相应的固态按键或者语音按键来触发终端进入语音控制模式,同时用户也可以通过预设的激活词触发终端进入语音控制模式。
示例的,以智能电视为例,用户可以通过遥控器触发智能电视进入语音控制模式,即用户可以按下与智能电视相配套的遥控器上设置的语音控制按钮,进而遥控器向智能电视发送该按键的键值对应的红外编码值。当智能电视接收到该红外编码值时,通过解析该红外编码值得到该按键事件对应的控制指令。进而智能电视执行该控制指令,进入语音控制模式,智能电视的语音输入模块实时接收用户通过麦克风录入的语音数据。
进一步的,当终端被触发进入语音控制模式后,其语音输入模块实时监测用户输入的语音数据。具体的,语音输入模块具有拾音功能,可以通过麦克风实现。以智能手机为例,通过智能手机上设置的麦克风实现;以智能电视为例,通过与智能电视相配套的遥控器上设置的麦克风实现,当然,此处仅是举例说明,本发明实施例对此不做具体限定。
步骤102:对用户输入的语音数据进行识别,得到该语音数据对应的语音输入控制指令。
具体的,当终端进入语音控制模式后,可以通过语音输入模块中的麦克风接收用户输入的语音数据,并将用户输入的语音数据发送给语音识别模块。语音识别模块对用户输入的语音数据进行识别处理,得到其对应的语音输入控制指令。
示例的,当用户输入“电影快进三分钟”、“快进三分钟”、“暂停”、“播放”、“返回主页”等语音数据时,终端可以通过麦克风接收到用户输入的上述语音数据,进而根据上述语音数据识别得到其对应的语音输入控制指令“电影快进三分钟”、“快进三分钟”、“暂停”、“播放”、“返回主页”。
当然,用户在实际应用中可以输入任意的语音数据,终端可以通过麦克风接收用户输入的任意语音数据,并根据该语音数据识别得到其对应的语音输入控制指令。
需要说明的是,对用户输入的语音数据识别得到其对应的语音输入控制指令的操作可以参考相关技术,本发明实施例对此不再进行一一赘述。
示例的,可以通过下述公式依次实现对用户输入的语音数据识别得到其对应的语音输入控制指令的操作。
W1=argmaxP(W|X) (1)
其中,在上述公式(1)中,W表示数据库中存储的任一文字序列,该文字序列包括词或字,该数据库可以是用于做语音识别的语料库;X表示用户输入的语音数据,W1表示从存储文字序列中获得的可与用户输入的语音数据匹配的文字序列,P(W|X)表示该用户输入的语音数据可以变成文字的概率。
其中,在上述公式(2)中,W2表示该用户输入的语音数据与该文字序列之间的匹配程度,P(X|W)表示该文字序列可以发音的概率,P(W)表示该文字序列为词或字的概率,P(X)表示用户输入的语音数据为音频信息的概率。
需要说明的是,在上述的识别过程中,可以通过语言模型确定P(W),通过声学模型确定P(X|W),从而完成对该用户输入语音数据的语音识别,得到用户输入的语音数据对应的语音输入控制文本。
下述将分别对语言模型和声学模型进行简单介绍。
语言模型
语言模型通常利用链式法则,把文字序列为词或字的概率拆解成其中每个词或字的概率之积,也即是,将W拆解成w1、w2、w3、….wn-1、wn,并通过下述公式(3)确定P(W)。
P(W)=P(w1)P(w2|w1)P(w3|w1,w2)...P(wn|w1,w2,...,wn-1) (3)
其中,在上述公式(3)中,P(W)中的每一项都是在表示已知之前所有文字序列都为词或字的条件下当前文字序列为词或字的概率。
由于在通过上述公式(3)确定P(W)时,如果条件太长,则确定P(W)的效率将会较低,从而影响后续的语音识别。因此,为了提高确定P(W)的效率,通常会通过语言模型中的n-gram语言模型确定P(W)。在通过n-gram语言模型确定P(W)时,第n个词的概率只依赖于位于该词前面的第n-1个词,此时可以通过下述公式(4)确定P(W)。
P(W)=P(w1)P(w2|w1)P(w3|w2)...P(wn|wn-1) (4)
声学模型
由于在确定每个词时还需要确定每个词的发音,而确定每个词的发音则需要通过词典实现。其中,词典是与声学模型和语言模块并列的模型,且该词典可以把单个词转换成音素串。声学模型可以通过词典确定用户输入的语音数据中的文字该依次发哪些音,并通过诸如维特比(Viterbi)算法的动态规则算法找到各个音素的分界点,从而确定每个音素的起止时间,进而确定用户输入的语音数据与音素串的匹配程度,也即是,确定P(X|W)。
通常情况下,可以通过诸如高斯混合模型的分类器估计出每个音素的特征向量的分布,并在语音识别阶段,确定用户输入的语音数据中每一帧的特征向量xt由相应音素si产生的概率P(xt|si),把每一帧的概率相乘,就得到P(X|W)。
其中,分类器可以事先训练得到,具体操作为:通过频率倒谱系数(Mel FrequencyCepstrum Coefficient,MFCC)从训练数据中提取大量的特征向量,以及每个特征向量对应的音素,从而训练从特征到音素的分类器。
需要说明的是,在实际应用中,不仅可以通过上述方式确定P(X|W),还可以包括其他方式,比如,通过神经网络直接给出P(si|xt),用贝叶斯公式可以转换成P(xt|si),再相乘得到P(X|W),当然,此处仅是举例说明,并不代表本发明实施例局限于此。
步骤103:识别语音输入控制指令中标准控制文本和非标准控制文本。
终端根据用户输入的语音数据得到其对应的语音输入控制指令后,终端对该语音输入控制指令做进一步识别,确定该语音输入控制指令中标准控制文本和非标准控制文本。
示例的,用户输入的语音数据对应的语音输入控制指令为“将该电影快进三分钟”,则终端确定出的语音输入控制指令“将该电影快进三分钟”中的标准控制文本为“快进三分钟”和非标准控制文本为“将该电影”。
具体的,终端将语音输入控制指令中与预置的标准语音控制指令模板相匹配的文本确定为标准控制文本;将该语音输入控制指令中除标准控制文本之外的文本确定为非标准控制文本。
示例的,用户输入的语音数据对应的语音输入控制指令为“将该电影快进三分钟”,终端将该语音输入控制指令与终端内预置的标准语音控制指令模板进行匹配计算。通过匹配确定该语音输入控制指令中的“快进三分钟”,可以与预置的标准语音控制指令模板“快进+|(数值)+|分|分钟|秒|小时”相匹配。进而终端将“快进三分钟”确定为标准控制文本,将语音输入控制指令“将该电影快进三分钟”中除“快进三分钟”之外的其他文本“将该电影”,确定为非标准控制文本。
需要说明的是,终端内预置的标准语音控制指令模板可以是事先预置在终端存储器内的,也可以是终端定期从服务器下载并存储在其存储器内的,还可以是服务器定期更新标准语音控制指令模板,并发送给终端以指示终端将其存储在其存储器内,本发明实施例对此不做具体限定。
示例的,服务器可以根据系统的运行,动态的更新其标准语音控制指令模板,并将新的标准语音控制指令模板发送给终端,或者服务器更新其标准语音控制指令模板后指示终端下载,并更新终端的寄存器内存储的标准语音控制指令模板。
终端内预置的标准语音控制指令模板可以是用户常用的控制指令对应的语音输入控制指令,也即终端内预置的标准语音控制指令模板是用户常用的控制指令对应的常见语音输入文本的汇总。
当用户语音输入该控制指令对应的语音输入控制指令时,终端可以根据与该语音输入控制指令相匹配的标准语音控制指令模板对应的控制指令,直接执行该语音输入控制指令对应的用户目标操作。进而可以避免终端对该语音输入控制指令进行自然语言处理和语义理解生成相应的语音控制指令,避免了语义理解过程复杂计算,可以提高终端设备的语音控制响应速度,提高终端的用户体验性。
由于用户常用的控制指令对应的用户输入语音控制指令是多种多样的,因此,为降低预置的标准语音控制指令模板占用的终端存储器的存储空间,并提高标准语音控制指令模板与用户的语音输入控制指令间的匹配精度,降低匹配难度,优选的,在终端的存储器内以正则表达式的方式存储预置的标准语音控制指令模板。
以智能电视为例,在智能电视的存储器内存储的标准语音控制指令模板可以包括:
(1)用于控制音量的标准语音控制指令模板:音量+|大点|加|小点|减|静音+|(数字)、大点声、小点声、静音;
(2)用于控制播放进度的标准语音控制指令模板:快进+|(数值)+|分|分钟|秒|小时、快退+(数值)+|分|分钟|秒|小时;
(3)用于控制应用程序的标准语音控制指令模板:打开+(应用名称)、关闭+(应用名称);
(4)用于搜索音视频的标准语音控制指令模板:|我想看+(影视title)、|我想看+(影视类型)+|片、|我想看+(人名即演员或导演)+演的|导演的|的+((影视名称)|电影|电视剧|(影视类型))+|片|剧、|搜索+(影视title)、|我想看+(影视类型)+|片。
需要说明的是,上述正则表达式中的“|”代表可选的意思,即“|”后跟的选型为可有可无;“()”内部代表的是一类数据,在具体数据库中“()”内部代表的是一个字段,其中的值可枚举。
示例的,以标准语音控制指令模板“快进+|(数值)+|分|分钟|秒|小时”为例,其包括语音控制指令实例可以为“快进”、“快进3分钟”、“快进4分”、“快进5秒”、“快进1小时”等。
当然,上述的标准语音控制模板仅是举例说明,并不代表本发明实施例的终端内预置的标准语音控制模板局限于此。
需要说明的是,将该语音输入控制指令与预置的标准语音控制指令模板相匹配的操作,可以参考相关技术,本发明实施例对此不再进行一一赘述。
示例的,可以采用最大正向模板匹配算法,将预置的标准语音控制指令模板与该语音输入控制指令进行匹配操作,确定该语音输入控制指令中标准控制文本和非标准控制文本。当然也可以采用其他的匹配算法实现,本发明实施例对此不作限定。
在本发明实施例中,以采用最大正向模板匹配算法为例,对确定该语音输入控制指令中标准控制文本和非标准控制文本的过程进行具体描述。示例的,采用采用最大正向模板匹配算法,确定标准控制文本和非标准控制文本的具体过程如下:
根据标准语音控制指令模板,确定wordList.Length的值,该wordList.Length的值即为该标准语音控制指令模板的包括的字符串个数。然后,将wordList.Length的值赋值给nLength,从nStart=0开始,也即是按照该语音输入控制指令从左到右的顺序取该语音输入控制指令的nLength个字符,将该nLength个字符与该标准语音控制指令模板进行匹配。
如果匹配成功,则将该nLength个字符对应的文本确定为标准控制文本,如果匹配不成功,对参数nStart执行加1操作,也即是从该语音输入控制指令的第二个字符串开始,重复执行按照该语音输入控制指令从左到右的顺序取该语音输入控制指令的nLength个字符的步骤及后续的匹配步骤。直到按照该语音输入控制指令从左到右的顺序,当该语音输入控制指令从nStart的位置开始包括的字符串个数小于nLength,更换标准语音控制指令模板重复执行上述的步骤。
例如,当语音输入控制指令为“电影快进三分钟”,首先将标准语音控制指令模板“快进+(数值)+小时”与该语音输入控制指令进行匹配。其中,标准语音控制指令模板“快进+(数值)+小时”包含的字符串个数为5,即wordList.Length为5,因此,设置nLength为5。然后从nStart=0开始,也即是按照该语音输入控制指令从左到右的顺序取该语音输入控制指令的5个字符,即取该语音输入控制指令中的“电影快进三”与标准语音控制指令模板“快进+(数值)+小时”匹配,则匹配不成功。
之后对参数nStart执行加1操作,也即是从该语音输入控制指令的第二个字符串开始,重复执行按照该语音输入控制指令从左到右的顺序取该语音输入控制指令的5个字符的步骤,即将“影快进三分”与标准语音控制指令模板“快进+(数值)+小时”匹配,则仍然匹配失败。
继续执行对参数nStart执行加1操作,然后按照该语音输入控制指令从左到右的顺序取该语音输入控制指令的5个字符,即将“快进三分钟”与标准语音控制指令模板“快进+(数值)+小时”匹配,则仍然匹配不成功。
继续执行对参数nStart执行加1操作,也即是从该语音输入控制指令的第三个字符串开始,重复执行按照该语音输入控制指令从左到右的顺序取该语音输入控制指令的5个字符的步骤。此时,终端判断到该语音输入控制指令从第三个字符串开始包括的字符串为“进三分钟”,其字符串数量小于5,则执行更换标准语音控制模板的步骤,即将标准语音控制指令模板更换为“快进+(数值)+分钟”与该语音输入控制指令进行匹配。
将标准语音控制指令模板“快进+(数值)+分钟”与该语音输入控制指令进行匹配,其中,标准语音控制指令模板“快进+(数值)+分钟”包含的字符串个数为5,即wordList.Length为5,因此,设置nLength为5。然后从nStart=0开始,也即是按照该语音输入控制指令从左到右的顺序取该语音输入控制指令的4个字符,即取该语音输入控制指令中的“电影快进三”与标准语音控制指令模板“快进+(数值)+分钟”匹配,则匹配不成功。
之后对参数nStart执行加1操作,也即是从该语音输入控制指令的第二个字符串开始,重复执行按照该语音输入控制指令从左到右的顺序取该语音输入控制指令的5个字符的步骤,即将“影快进三分”与标准语音控制指令模板“快进+(数值)+分钟”匹配,则仍然匹配失败。
继续执行对参数nStart执行加1操作,然后按照该语音输入控制指令从左到右的顺序取该语音输入控制指令的5个字符,即将“快进三分钟”与标准语音控制指令模板“快进+(数值)+分钟”匹配,则匹配成功。
终端根据上述匹配结果,将语音输入控制指令“电影快进三分钟”中的“快进三分钟”确定为标准控制文本,将语音输入控制指令“电影快进三分钟”中除“快进三分钟”之外的“电影”确定为非标准控制文本。
步骤104:若属于标准控制文本时,则配置用于表征显示字号、显示颜色和显示透明度的三种字段中至少一者不同于非标准控制文本的显示属性编码值。
终端识别出了语音输入控制指令中的标准控制文本和非标准控制文本之后,若语音输入控制指令中的该文本属于标准控制文本,则对该标准控制文本配置用于表征显示字号、显示颜色和显示透明度的三种字段中至少一者不同于非标准控制文本的显示属性编码值。
具体的,终端对该语音输入控制指令中的标准控制文本和非标准控制文本分别配置不同的显示属性编码值,用于突出标注控制文本与标准语音控制指令模板之间的匹配性。其中,显示属性编码值包括用于表示显示字号、显示颜色和显示透明度的三种字段,不同的显示属性编码值中包括的用于表示显示字号、显示颜色和显示透明度的三种字段中至少一者不同。不同的显示属性编码值表示的显示字号、显示颜色和显示透明度中的至少一者不同。
示例的,显示属性编码值可以为10位的显示编码串,从左往右数,显示属性编码值的第1位至第2位字段为10进制字符串,用于表示显示字号。显示属性编码值的第3位至第7位字段为16进制字符串,用于表示显示透明度。显示属性编码值的第8位至第10位字段为16进制字符串,用于表示显示颜色。
当然此处仅是举例说明,对于显示属性编码值中用于表示显示字号、显示颜色和显示透明度的三种字段的具体字段位数和具体字段位置,本发明实施例不做具体限定。
示例的,以语音输入控制指令为“电影快进三分钟”为例,其中,“快进三分钟”属于标准控制文本,“电影”属于非标准控制文本。终端对其中的标准控制文本“快进三分钟”配置的显示属性编码值为18f16de5af1b,对其中的非标准控制文本“电影”配置的显示属性编码值为12f16de5af1b。终端对标准控制文本“快进三分钟”和非标准控制文本“电影”对应的显示字号不相同,也即终端为标准控制文本“快进三分钟”和非标准控制文本“电影”配置的显示属性编码值中用于表示显示字号的第1位至第2位字段不相同,即标准控制文本“快进三分钟”的显示字号大于非标准控制文本“电影”的显示字号。
示例的,仍以语音输入控制指令为“电影快进三分钟”为例,终端对标准控制文本“快进三分钟”配置的显示属性编码值可以为18f16de5af11,对其中的非标准控制文本“电影”配置的显示属性编码值可以为12f16de5afff,即终端为标准控制文本“快进三分钟”和非标准控制文本“电影”配置的显示属性编码值中用于表示显示字号的第1位至第2位字段不相同,即标准控制文本“快进三分钟”的显示字号大于非标准控制文本“电影”的显示字号。终端为标准控制文本“快进三分钟”和非标准控制文本“电影”配置的显示属性编码值中用于表示显示颜色的第8位至第10位字段不相同,也即标准控制文本“快进三分钟”的显示颜色为红色和非标准控制文本“电影”的显示颜色为黑色。
一方面,若语音输入控制指令中的该文本属于标准控制文本,则终端对其配置用于表征显示字号大于非标准控制文本的显示属性编码值。终端通过对标准控制文本配置表征显示字号大于非标准控制文本的显示属性编码值,可以将标准控制文本突出与非标准控制文本显示。并且,相对于非标准控制文本采用较大字号显示的标准控制文本,可以更吸引用户的注意力,给用户留下深刻的印象。久而久之,可以引导用户在语音输入的过程中直接输入标准控制文本,有效避免了用户输入的语音输入控制指令中包括非标准控制文本,提高了终端设备的语音控制响应速度和准确率,进而提高了终端设备的用户体验性。
另一方面,若语音输入控制指令中的该文本属于标准控制文本,终端对其配置用于表示显示颜色为彩色的显示属性编码值;若语音输入控制指令中的该文本属于非标准控制文本,终端对其配置用于表示显示颜色为黑色或灰色的显示属性编码值。通过将标准控制文本采用彩色显示,将非标准控制文本采用黑色或者灰色显示,彩色相对于黑色或者灰色,更容易吸引人的注意力。且彩色显示的标准控制文本,有助于加深用户的记忆力,在用户下次输入该语音输入控制指令时,更容易想到该标准控制文本。
再一方面,若语音输入控制指令中的该文本属于标准控制文本,终端对其配置用于表示显示透明度小于非标准控制文本的显示属性编码值。通常,显示透明度越大,其显示效果越差,即显示透明度大时,该显示内容容易被用户忽落。通过将标准控制文本的显示透明度设置的小于非标准控制文本,可以在终端显示该语音输入控制指令时,导致用户忽落对非标准控制文本的记忆。相反的,可以加深用户对标准控制文本的注意力,增强用户对标准控制文本的记忆。久而久之,可以引导用户在语音输入的过程中仅输入标准控制文本,有效避免了用户下次输入的语音输入控制指令中包括非标准控制文本。
步骤105:基于该显示属性编码值对应显示语音输入控制指令。
具体的,终端根据标准控制文本配置的显示属性编码值的不同字段,分别确定其对应的显示字号、显示颜色和显示透明度。终端根据非标准控制文本配置的显示属性编码值的不同字段,分别确定其对应的显示字号、显示颜色和显示透明度。
进一步的,终端根据标准控制文本和非标准控制文本分别对应的显示字号、显示颜色、显示透明度,对该语音输入控制指令进行显示界面UI合成。进而在终端的显示界面上按照显示界面UI合成结果,显示该语音输入控制指令。
示例的,以语音输入控制指令为“电影快进三分钟”为例,终端对其中的标准控制文本“快进三分钟”配置的显示属性编码值为18f16de5af1b,对其中的非标准控制文本“电影”配置的显示属性编码值为12f16de5af1b。进而,终端根据显示属性编码值“18f16de5af1b”的第1位至第2位字段“18”确定文本“快进三分钟”的显示字号大小,根据第3位至第7位字段“f16de5a”确定文本“快进三分钟”的显示颜色,根据第8位至第10位字段“f1b”确定文本“快进三分钟”的显示颜色。终端根据显示属性编码值“12f16de5af1b”的第1位至第2位字段“12”确定文本“电影”的显示字号,根据第3位至第7位字段“f16de5a”确定文本“电影”的显示颜色,根据第8位至第10位字段“f1b”确定文本“电影”的显示颜色。
示例的,终端的OSD绘制模块根据文本“电影”和文本“快进三分钟”对应的显示字号、显示颜色、显示透明度生成语音输入控制指令“电影快进三分钟”对应的显示效果图片,进而处理器将该显示效果图片与视频信号流进行叠加完成显示界面的UI合成,进而在终端的显示界面上显示语音输入控制指令“电影快进三分钟”,示例的,在终端的显示界面上显示语音输入控制指令“电影快进三分钟”如图3所示。
由于终端为标准控制指文本“快进三分钟”配置的显示属性编码值对应的显示字号比非标准控制文本“电影”大,在终端的显示屏幕上,标准控制文本“快进三分钟”突出于非标准控制文本“电影”显示,突出了标准控制文本“快进三分钟”与标准语音控制指令模板的匹配性,可以引导用户在下次想要通过语音输入控制指令实现播放进度快进时,直接输入标准控制文本“快进三分钟”。
通过将“快进三分钟”突出于“电影”显示,可以引导用户在下次通过语音输入调整播放进度过程时,直接输入标准语音控制指令“快进三分钟”。终端根据用户输入的“快进三分钟”与标准模板匹配之后,直接生成终端可以执行的控制指令,有效避免了由于用户输入的语音控制指令不是标准控制指令,而导致的终端对语音输入控制指令的语义理解,提高了终端设备的语音控制响应速度和用户体验性。
本发明实施例提供的用于语音输入控制指令的显示方法,由于为语音输入控制指令中的标准控制文本配置了用于表示显示字号、显示颜色和显示透明度的三种字段中至少一者不同于非标准控制文本的显示属性编码值,所以基于该显示属性编码值显示的标准控制文本和非标准控制文本对应的显示字号、显示颜色和显示透明度中的至少一者不同。该方法实现了标准控制文本和非标准控制文本的区别显示,也即实现了语音输入控制指令中标准控制文本的突出显示,可以引导用户在语音输入的过程中直接输入标准控制文本,有效避免了用户输入的语音输入控制指令中包括非标准控制文本,提高了终端设备的语音控制响应速度和准确率,进而提高了终端设备的用户体验性。
图4示出了本发明实施例提供的第二种用于语音输入控制指令的显示方法的流程示意图。参考图4所示,该显示方法在步骤103之后还包括:
步骤106:判断语音输入控制指令是否包括标准控制文本。
具体的,在步骤103中,终端会将语音输入控制指令与预置的标准语音控制指令模板进行匹配,以确定语音输入控制指令中标准控制文本和非标准控制文本,具体的匹配过程,可以参考步骤103,本发明在此不再累述。
步骤106可以根据步骤103中的匹配结果,判断语音输入控制指令是否包括标准控制文本,若语音输入控制指令中包括标准控制文本,则执行步骤104;若语音输入控制指令中不包括标准控制文本,则执行步骤107。
步骤107:若语音输入控制指令不包括标准控制文本,则计算该语音输入控制指令与标准语音控制指令模板间的相似度。
若语音输入控制指令不包括标准控制文本,则首先对该语音输入控制指令进行分词处理,获取该语音输入控制指令中的关键词,基于该语音输入控制指令中的关键词计算该语音输入控制指令与预设的各个标准语音控制指令模板之间的相似度。
需要说明的是,对于基于该语音输入控制指令中的关键词计算该语音输入控制指令与预设的各个标准语音控制指令模板之间的相似度的具体算法,本发明实施例不做具体限定,本领域技术人员可参考现有技术。
示例的,可以采用基于拼音与归一表的编辑距离计算该语音输入控制指令与预设的各个标准语音控制指令模板之间的相似度,也可以采用词向量模型计算该语音输入控制指令与预设的各个标准语音控制指令模板之间的相似度,还可以采用余弦相似度或者汉明距离计算该语音输入控制指令与预设的各个标准语音控制指令模板之间的相似度,当然此处仅是举例说明,并不代表本发明局限于此。
下面将以采用基于拼音与归一表的编辑距离计算该语音输入控制指令与预设的各个标准语音控制指令模板之间的相似度进行详细说明。
步骤1,终端将该语音输入控制指令中存在同义词、近义词的词语依次采用其同义词或近义词进行扩展替换,得到该语音输入控制指令对应的所有可能的语句串,示例的,对该语音输入控制指令进行同义词或近义词扩展替换后得到n条语音控制文本。
步骤2,将上述的n条语音控制文本分别转换成其对应的拼音串,然后再利用预先定义的拼音对应表,(如某些地区h与f易混,某些地区l与n易混)将n条拼音串中存在相近发音的字母依次扩展替换成其相近发音,示例的,可以得到m条拼音串(其中m≥n)。
步骤3,将步骤2中得到的m条拼音串与标准语音控制指令模板对应的实体转换所得拼音分别进行编辑距离计算(编辑距离为将一个字符串通过替换、插入、删除等操作转换成另一个字符串所需的最小操作次数),示例的,该标准语音控制指令模板对应的实体个数为M个。示例的,语音输入控制指令与预设的各个标准语音控制指令模板之间的相似度计算公式如下:
s=max[1-D(ai,bj)/max(len(ai),len(bj))] (5)
其中,公式(5)中的s代表语音输入控制指令与该标准语音控制指令模板之间的相似度;ai代表该m条语音控制文本中第i条语音控制文本的字符串对应的拼音串,0<i≤m;bj代表该M个实体中第j个实体的字符串对应的拼音串,0<j≤M;len(ai)为该m条语音控制文本中第i条语音控制文本的字符串对应的拼音串的长度;len(bj)为该M个实体中第j个实体的字符串对应的拼音串的长度;D(ai,bj)为第i条语音控制文本的字符串对应的拼音串与第j个实体的字符串对应的拼音串之间的编辑距离。
需要说明的是,D(ai,bj)还可以为第i条语音控制文本的字符串对应的拼音串与第j个实体的字符串对应的拼音串之间的汉明距离或者五笔相似度等,本发明实施例不做具体限定。
示例的,下面将以语音输入控制指令为“声音太吵,调小点”,标准语音控制指令模板为“音量+|大点|加|小点|减|静音+|(数字)”为例,对上述的基于拼音与归一表的编辑距离计算语音输入控制指令与预设的各个标准语音控制指令模板之间的相似度的过程进行详细说明:
(1)对语音输入控制指令“声音太吵,调小点”进行同义词和近义词扩展替换得到5条语音控制文本如下:①声音太吵,小点;②声音太大,关小点;③音量太大,小点;④音量太大,关小点;⑤音量太吵,关小点。
(2)将上述的5条语音控制文本分别转换成其对应的拼音串如下:①Sheng yintai chao,xiao dian;②Sheng yin tai da,guan xiao dian;③Yin liang tai da,xiaodian;④Yin liang tai da,guan xiao dian;⑤Yin liang tai chao,guan xiao dian。然后,利用预先定义的拼音对应表,将上述5条拼音串中存在相近发音的字母依次扩展替换成其相近发音,得到10条拼音串如下:①Sheng yin tai chao,xiao dian;②Sheng ying taichao,xiao dian;③Sheng yin tai da,guan xiao dian;④Sheng ying tai da,guanxiao dian;⑤Yin liang tai da,xiao dian;⑥Ying liang tai da,xiao dian;⑦Yinliang tai da,guan xiao dian;⑧Ying liang tai da,guan xiao dian;⑨Yin liangtai chao,guan xiao dian;⑩Ying liang tai chao,guan xiao dian。
(3)标准语音控制指令模板“音量+|大点|加|小点|减|静音+|(数字)”包括的实体如下:①音量大点;②音量小点;③音量加;④音量减;⑤音量静音;⑥音量加数字;⑦音量减数字。标准语音控制指令模板“音量+|大点|加|小点|减|静音+|(数字)”包括的实体对应的拼音串如下:①Yin liang da dian;②yin liang xiao dian;③yin liang jia;④yinliang jian;⑤yin liang jing yin;⑥yin liang jia num;⑦yin liang jian num。
(4)根据公式(5)分别计算上述10条拼音串中的任一条拼音串与标准语音控制指令模板“音量+|大点|加|小点|减|静音+|(数字)”包括的实体对应的7条拼音串中的各条之间的相似度,并将上述计算得到的相似度之间的最大值确定为该语音输入控制指令“声音太吵,调小点”与标准语音控制指令模板“音量+|大点|加|小点|减|静音+|(数字)”之间的相似度。通过计算发现字符串“Yin liang tai da,xiao dian”与标准语音控制指令模板“音量+|大点|加|小点|减|静音+|(数字)”包括的实体对应的低2条字符串“yin liangxiao dian”之间的相似度最大,该相似度为0.762,故语音输入控制指令“声音太吵,调小点”与标准语音控制指令模板“音量+|大点|加|小点|减|静音+|(数字)”之间的相似度为0.762,也即语音输入控制指令“声音太吵,调小点”与标准语音控制指令模板“声音+小点”最像似。
步骤108:基于预置的规则,根据所述相似度中的最大值对应的所述标准语音控制指令模板生产输入提示信息,其中,所述输入提示信息包括与所述标准语音控制指令模板匹配的标准控制文本。
终端确定了上述相似度中的最大值,即该最大值对应的标准语音控制指令模板与该语音输入控制指令最相似,也即该标准语音控制指令模板对应的标准控制文本,代表用户要输入的操作指令。终端根据预置的规则,生成该标准语音控制指令模板对应的输入提示信息,该输入提示信息用于引导用户语音输入该标准语音控制指令模板对应的标准控制文本,即输入提示信息包括与该标准语音控制指令模板匹配的标准控制文本。
示例的,以语音输入控制指令为“声音太吵,调小点”为例,终端经过计算该语音输入控制指令与预设的各个标准语音控制指令模板之间的相似度,可以确定该语音输入控制指令与预设的标准语音控制指令模板“音量+小点”之间的相似度最大,然后终端按照预置的规则,根据该标准语音控制指令模板“音量+小点”生成相应的输入提示信息。
示例的,根据标准语音控制指令模板“音量+小点”生成的输入提示信息可以是“如果您想调节音量,可以说音量小点”,当然,此处仅是举例说明,并不代表本发明实施例中根据标准语音控制指令模板“音量+小点”生成得输入提示信息局限于此,该输入提示信息还可以是“您可以说音量小点”。
本发明实施例提供的用于语音输入控制指令的显示方法,通过识别语音输入控制指令中标准控制文本和非标准控制文本,若该语音输入控制指令不包括标准控制文本,则获取该语音输入控制指令与标准语音控制指令模板间的相似度。进一步的基于预置的规则,根据相似度中的最大值对应的标准语音控制指令模板生成输入提示信息,该输入提示信息用于引导用户语音输入该标准语音控制指令模板对应的标准控制文本。进而可以引导用户在下次语音输入的过程中直接输入标准控制文本,即实现了引导用户在语音输入过程中直接输入标准语音控制指令,提高了终端设备的语音控制响应速度和准确率,同时也提高了用户通过语音控制终端设备的操作体验和终端的用户体验性。
步骤109:显示该语音输入控制指令和输入提示信息。
在终端的显示界面上显示该语音输入控制指令和该输入提示信息,进而可以引导用户在下次语音输入的过程中,不再输入该语音输入控制指令,而是仅输入该标准控制文本。
可选的,终端可以对该标准控制文本配置用于表征显示字号、显示颜色和显示透明度的三种字段中至少一者不同于该语音输入控制指令的显示属性编码值;然后,终端基于该显示属性编码值,对应显示语音输入控制指令和输入提示信息,具体的,可以参考上述步骤104,在此不再累述。
当语音输入控制指令不包括标准控制文本时,为输入提示信息中的标准控制文本配置用于表示显示字号、显示颜色和显示透明度的三种字段中至少一者不同于语音输入控制指令的显示属性编码值,实现了输入提示信息中的标准控制文本和语音输入控制指令的区别显示,也即实现了输入提示信息中的标准控制文本的突出显示,可以引导用户在下次语音输入的过程中直接输入标准控制文本,有效避免了用户下次输入的语音输入控制指令中包括非标准控制文本,提高了终端设备的语音控制响应速度和准确率,进而提高了终端设备的用户体验性。
参见图5所示,本发明实施例提供了第一种用于语音输入控制指令的显示装置,该装置包括识别模块201,处理模块202和显示模块203。
识别模块201,用于识别语音输入控制指令中标准控制文本和非标准控制文本,其中,标准控制文本为与预置的标准语音控制指令模板相匹配的文本,非标准控制文本为除标准控制文本之外的文本;
处理模块202,用于若属于标准控制文本时,则配置用于表征显示字号、显示颜色和显示透明度的三种字段中至少一者不同于非标准控制文本的显示属性编码值;
显示模块203,用于基于该显示属性编码值对应显示该语音输入控制指令。
可选地,参见图6所示,识别模块201包括:
第一确定子模块2011,用于将语音输入控制指令中与预置的标准语音控制指令模板相匹配的文本确定为标准控制文本;
第二确定子模块2012,用于将语音输入文本中除标准控制文本之外的文本确定为非标准控制文本。
可选的,处理模块202,具体用于若属于标准控制文本时,则配置用于表征显示字号、显示颜色和显示透明度的三种字段中至少一者不同于非标准控制文本的显示属性编码值,用于突出标准控制文本与标准语音控制指令模板之间的匹配性。
可选的,处理模块202具体用于若属于标准控制文本时,则配置用于表征显示字号大于非标准控制文本的显示属性编码值。
可选的,处理模块202具体用于若属于标准控制文本时,则配置用于表示显示颜色为彩色的显示属性编码值;若属于非标准控制文本,则配置用于表示显示颜色为黑色或灰色的显示属性编码值。
可选的,处理模块202具体用于若属于标准控制文本时,则配置用于表示显示透明度小于非标准控制文本的显示属性编码值。
需要说明的是:上述实施例提供的第一种用于语音输入控制指令的显示装置在显示语音输入控制指令时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的第一种用于语音输入控制指令的显示装置与第一种用于语音输入控制指令的显示方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
参见图7所示,本发明实施例提供了第二种用于语音输入控制指令的显示装置,该装置包括识别模块301,处理模块302、显示模块303、计算模块304、和生成模块305。
识别模块301,用于识别语音输入控制指令中标准控制文本和非标准控制文本,其中,标准控制文本为与预置的标准语音控制指令模板相匹配的文本,非标准控制文本为除标准控制文本之外的文本;
计算模块304,用于若语音输入控制指令不包括标准控制文本,则计算该语音输入控制指令与预置的各个标准语音控制指令模板之间的相似度;
生成模块305,用于基于预置的规则,根据相似度中的最大值对应的标准语音控制指令模板生产输入提示信息,其中,该输入提示信息包括与该标准语音控制指令模板匹配的标准控制文本;
显示模块303,用于显示该语音输入控制指令和该输入提示信息。
可选的,处理模块302用于对标准控制文本配置用于表征显示字号、显示颜色和显示透明度的三种字段中至少一者不同于语音输入控制指令的显示属性编码值;显示模块303用于基于该显示属性编码值,对应显示该语音输入控制指令和该输入提示信息。
需要说明的是:上述实施例提供的第二种用于语音输入控制指令的显示装置在显示语音输入控制指令时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的第二种用于语音输入控制指令的显示装置与第二种用于语音输入控制指令的显示方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
基于相同的发明构思,本发明实施例还提供一种终端,参考图1所示,该终端包括存储器110、处理器170及存储在存储器110上并可在处理器170上运行的计算机程序,处理器170用于读取存储器110上存储的该计算机程序,并执行上述的用于语音输入控制指令的显示方法。另外,上述实施例提供的终端与上述的用于语音输入控制指令的显示方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器,使得通过该计算机或其他可编程数据处理设备的处理器执行的指令可实现流程图中的一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图的一个流程或多个流程和/或方框图的一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种用于语音输入控制指令的显示方法,其特征在于,所述方法包括:
识别语音输入控制指令中标准控制文本和非标准控制文本,其中,所述标准控制文本为与预置的标准语音控制指令模板相匹配的文本,所述非标准控制文本为除所述标准控制文本之外的文本;
若属于所述标准控制文本时,则配置用于表征显示字号、显示颜色和显示透明度的三种字段中至少一者不同于所述非标准控制文本的显示属性编码值;
基于所述显示属性编码值对应显示所述语音输入控制指令。
2.根据权利要求1所述的方法,其特征在于,所述若属于所述标准控制文本时,则配置用于表征显示字号、显示颜色和显示透明度的三种字段中至少一者不同于所述非标准控制文本的显示属性编码值,具体为:
若属于所述标准控制文本时,则配置用于表征显示字号大于所述非标准控制文本的显示属性编码值。
3.根据权利要求1所述的方法,其特征在于,所述若属于所述标准控制文本时,则配置用于表征显示字号、显示颜色和显示透明度的三种字段中至少一者不同于所述非标准控制文本的显示属性编码值,具体为:
若属于所述标准控制文本时,则配置用于表示显示颜色为彩色的显示属性编码值;
若属于所述非标准控制文本,则配置用于表示显示颜色为黑色或灰色的显示属性编码值。
4.根据权利要求1所述的方法,其特征在于,所述若属于所述标准控制文本时,则配置用于表征显示字号、显示颜色和显示透明度的三种字段中至少一者不同于所述非标准控制文本的显示属性编码值,具体为:
若属于所述标准控制文本时,则配置用于表示显示透明度小于所述非标准控制文本的显示属性编码值。
5.一种用于语音输入控制指令的显示方法,其特征在于,所述方法包括:
识别语音输入控制指令中标准控制文本和非标准控制文本,其中,所述标准控制文本为与预置的标准语音控制指令模板相匹配的文本,所述非标准控制文本为除所述标准控制文本之外的文本;
若所述语音输入控制指令不包括所述标准控制文本,则计算所述语音输入控制指令与预置的各个标准语音控制指令模板之间的相似度;
基于预置的规则,根据所述相似度中的最大值对应的所述标准语音控制指令模板生产输入提示信息,其中,所述输入提示信息包括与所述标准语音控制指令模板匹配的标准控制文本;
显示所述语音输入控制指令和所述输入提示信息。
6.根据权利要求5所述的方法,其特征在于,所述显示所述语音输入控制指令和所述输入提示信息,具体包括:
对所述标准控制文本配置用于表征显示字号、显示颜色和显示透明度的三种字段中至少一者不同于所述语音输入控制指令的显示属性编码值;
基于所述显示属性编码值,对应显示所述语音输入控制指令和所述输入提示信息。
7.一种用于语音输入控制指令的显示装置,其特征在于,所述装置包括:
识别模块,用于识别语音输入控制指令中标准控制文本和非标准控制文本,其中,所述标准控制文本为与预置的标准语音控制指令模板相匹配的文本,所述非标准控制文本为除所述标准控制文本之外的文本;
处理模块,用于若属于所述标准控制文本时,则配置用于表征显示字号、显示颜色和显示透明度的三种字段中至少一者不同于所述非标准控制文本的显示属性编码值;
显示模块,用于基于所述显示属性编码值对应显示所述语音输入控制指令。
8.根据权利要求7所述的装置,其特征在于:
所述处理模块具体用于若属于所述标准控制文本时,则配置用于表征显示字号大于所述非标准控制文本的显示属性编码值;或
所述处理模块具体用于若属于所述标准控制文本时,则配置用于表示显示透明度小于所述非标准控制文本的显示属性编码值;或
所述显示模块具体用于若属于所述标准控制文本时,则配置用于表示显示颜色为彩色的显示属性编码值;若属于所述非标准控制文本,则配置用于表示显示颜色为黑色或灰色的显示属性编码值。
9.一种用于语音输入控制指令的显示装置,其特征在于,所述装置包括:
识别模块,用于识别语音输入控制指令中标准控制文本和非标准控制文本,其中,所述标准控制文本为与预置的标准语音控制指令模板相匹配的文本,所述非标准控制文本为除所述标准控制文本之外的文本;
计算模块,用于若所述语音输入控制指令不包括所述标准控制文本,则计算所述语音输入控制指令与预置的各个标准语音控制指令模板之间的相似度;
生成模块,用于基于预置的规则,根据所述相似度中的最大值对应的所述标准语音控制指令模板生产输入提示信息,其中,所述输入提示信息包括与所述标准语音控制指令模板匹配的标准控制文本;
显示模块,用于显示所述语音输入控制指令和所述输入提示信息。
10.一种终端,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器用于读取所述存储器上存储的所述计算机程序,并执行如权利要求1至6中任一项所述的用于语音输入控制指令的显示方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710280974.3A CN107122160A (zh) | 2017-04-26 | 2017-04-26 | 用于语音输入控制指令的显示方法、装置和终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710280974.3A CN107122160A (zh) | 2017-04-26 | 2017-04-26 | 用于语音输入控制指令的显示方法、装置和终端 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107122160A true CN107122160A (zh) | 2017-09-01 |
Family
ID=59724823
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710280974.3A Pending CN107122160A (zh) | 2017-04-26 | 2017-04-26 | 用于语音输入控制指令的显示方法、装置和终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107122160A (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108364646A (zh) * | 2018-02-08 | 2018-08-03 | 上海智臻智能网络科技股份有限公司 | 嵌入式语音操作方法、装置和系统 |
CN108449615A (zh) * | 2018-02-27 | 2018-08-24 | 百度在线网络技术(北京)有限公司 | 用于发送指令的系统、方法及装置 |
WO2018196231A1 (zh) * | 2017-04-26 | 2018-11-01 | 海信集团有限公司 | 智能终端显示用户操控指令的方法和智能终端 |
CN109120774A (zh) * | 2018-06-29 | 2019-01-01 | 深圳市九洲电器有限公司 | 终端应用语音操控方法及系统 |
CN109215645A (zh) * | 2018-08-03 | 2019-01-15 | 北京奔流网络信息技术有限公司 | 一种语音信息交互方法以及智能电器 |
CN109213342A (zh) * | 2018-10-22 | 2019-01-15 | 明基智能科技(上海)有限公司 | 智能触控笔 |
CN109767771A (zh) * | 2019-03-04 | 2019-05-17 | 出门问问信息科技有限公司 | 一种播放进度控制方法、智能穿戴设备及多媒体显示设备 |
CN109979451A (zh) * | 2019-03-20 | 2019-07-05 | 百度在线网络技术(北京)有限公司 | 用于输出信息的方法和装置 |
CN111526402A (zh) * | 2020-05-06 | 2020-08-11 | 海信电子科技(武汉)有限公司 | 多屏显示设备的语音搜索视频资源的方法及显示设备 |
CN112017651A (zh) * | 2019-05-31 | 2020-12-01 | 百度在线网络技术(北京)有限公司 | 电子设备的语音控制方法、装置、计算机设备和存储介质 |
CN112017650A (zh) * | 2019-05-31 | 2020-12-01 | 百度在线网络技术(北京)有限公司 | 电子设备的语音控制方法、装置、计算机设备和存储介质 |
CN113408637A (zh) * | 2021-06-30 | 2021-09-17 | 贵州电网有限责任公司 | 一种基于相似度算法的操作票匹配方法 |
CN116432665A (zh) * | 2023-06-15 | 2023-07-14 | 北京中关村科金技术有限公司 | 对话模型构建方法、文本生成方法、装置、系统及设备 |
CN112017651B (zh) * | 2019-05-31 | 2024-06-04 | 百度在线网络技术(北京)有限公司 | 电子设备的语音控制方法、装置、计算机设备和存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101604521A (zh) * | 2008-06-12 | 2009-12-16 | Lg电子株式会社 | 移动终端和用于识别其语音的方法 |
CN102036033A (zh) * | 2010-12-31 | 2011-04-27 | Tcl集团股份有限公司 | 一种语音遥控电视机的方法及语音遥控器 |
CN104240704A (zh) * | 2014-09-04 | 2014-12-24 | 上海莱凯数码科技有限公司 | 一种语义分析将语音转化为文字的方法 |
CN105027574A (zh) * | 2013-01-07 | 2015-11-04 | 三星电子株式会社 | 在语音识别系统中控制显示装置的显示装置和方法 |
CN105100460A (zh) * | 2015-07-09 | 2015-11-25 | 上海斐讯数据通信技术有限公司 | 一种声音操控智能终端的方法及系统 |
CN106057203A (zh) * | 2016-05-24 | 2016-10-26 | 深圳市敢为软件技术有限公司 | 一种精准语音控制方法及装置 |
-
2017
- 2017-04-26 CN CN201710280974.3A patent/CN107122160A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101604521A (zh) * | 2008-06-12 | 2009-12-16 | Lg电子株式会社 | 移动终端和用于识别其语音的方法 |
CN102036033A (zh) * | 2010-12-31 | 2011-04-27 | Tcl集团股份有限公司 | 一种语音遥控电视机的方法及语音遥控器 |
CN105027574A (zh) * | 2013-01-07 | 2015-11-04 | 三星电子株式会社 | 在语音识别系统中控制显示装置的显示装置和方法 |
CN104240704A (zh) * | 2014-09-04 | 2014-12-24 | 上海莱凯数码科技有限公司 | 一种语义分析将语音转化为文字的方法 |
CN105100460A (zh) * | 2015-07-09 | 2015-11-25 | 上海斐讯数据通信技术有限公司 | 一种声音操控智能终端的方法及系统 |
CN106057203A (zh) * | 2016-05-24 | 2016-10-26 | 深圳市敢为软件技术有限公司 | 一种精准语音控制方法及装置 |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018196231A1 (zh) * | 2017-04-26 | 2018-11-01 | 海信集团有限公司 | 智能终端显示用户操控指令的方法和智能终端 |
CN108364646A (zh) * | 2018-02-08 | 2018-08-03 | 上海智臻智能网络科技股份有限公司 | 嵌入式语音操作方法、装置和系统 |
CN108364646B (zh) * | 2018-02-08 | 2020-12-29 | 上海智臻智能网络科技股份有限公司 | 嵌入式语音操作方法、装置和系统 |
CN108449615A (zh) * | 2018-02-27 | 2018-08-24 | 百度在线网络技术(北京)有限公司 | 用于发送指令的系统、方法及装置 |
CN109120774A (zh) * | 2018-06-29 | 2019-01-01 | 深圳市九洲电器有限公司 | 终端应用语音操控方法及系统 |
CN109215645A (zh) * | 2018-08-03 | 2019-01-15 | 北京奔流网络信息技术有限公司 | 一种语音信息交互方法以及智能电器 |
CN109213342A (zh) * | 2018-10-22 | 2019-01-15 | 明基智能科技(上海)有限公司 | 智能触控笔 |
CN109767771A (zh) * | 2019-03-04 | 2019-05-17 | 出门问问信息科技有限公司 | 一种播放进度控制方法、智能穿戴设备及多媒体显示设备 |
CN109979451A (zh) * | 2019-03-20 | 2019-07-05 | 百度在线网络技术(北京)有限公司 | 用于输出信息的方法和装置 |
US11429882B2 (en) | 2019-03-20 | 2022-08-30 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for outputting information |
CN112017651A (zh) * | 2019-05-31 | 2020-12-01 | 百度在线网络技术(北京)有限公司 | 电子设备的语音控制方法、装置、计算机设备和存储介质 |
CN112017650A (zh) * | 2019-05-31 | 2020-12-01 | 百度在线网络技术(北京)有限公司 | 电子设备的语音控制方法、装置、计算机设备和存储介质 |
CN112017650B (zh) * | 2019-05-31 | 2024-05-24 | 百度在线网络技术(北京)有限公司 | 电子设备的语音控制方法、装置、计算机设备和存储介质 |
CN112017651B (zh) * | 2019-05-31 | 2024-06-04 | 百度在线网络技术(北京)有限公司 | 电子设备的语音控制方法、装置、计算机设备和存储介质 |
CN111526402A (zh) * | 2020-05-06 | 2020-08-11 | 海信电子科技(武汉)有限公司 | 多屏显示设备的语音搜索视频资源的方法及显示设备 |
CN113408637A (zh) * | 2021-06-30 | 2021-09-17 | 贵州电网有限责任公司 | 一种基于相似度算法的操作票匹配方法 |
CN116432665B (zh) * | 2023-06-15 | 2023-10-10 | 北京中关村科金技术有限公司 | 对话模型构建方法、文本生成方法、装置、系统及设备 |
CN116432665A (zh) * | 2023-06-15 | 2023-07-14 | 北京中关村科金技术有限公司 | 对话模型构建方法、文本生成方法、装置、系统及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107122160A (zh) | 用于语音输入控制指令的显示方法、装置和终端 | |
CN106910503A (zh) | 用于智能终端显示用户操控指令的方法、装置和智能终端 | |
CN110288077B (zh) | 一种基于人工智能的合成说话表情的方法和相关装置 | |
CN107943860B (zh) | 模型的训练方法、文本意图的识别方法及装置 | |
CN111261144B (zh) | 一种语音识别的方法、装置、终端以及存储介质 | |
CN107680585B (zh) | 一种中文分词方法、中文分词装置和终端 | |
CN106774970A (zh) | 对输入法的候选项进行排序的方法和装置 | |
CN107155121B (zh) | 语音控制文本的显示方法及装置 | |
CN107704447A (zh) | 一种中文分词方法、中文分词装置和终端 | |
CN107291690A (zh) | 标点添加方法和装置、用于标点添加的装置 | |
CN107301865A (zh) | 一种用于语音输入中确定交互文本的方法和装置 | |
CN107608532A (zh) | 一种联想输入方法、装置及电子设备 | |
KR101819458B1 (ko) | 음성 인식 장치 및 시스템 | |
WO2014190732A1 (en) | Method and apparatus for building a language model | |
CN108008832A (zh) | 一种输入方法和装置、一种用于输入的装置 | |
CN111177180A (zh) | 一种数据查询方法、装置以及电子设备 | |
CN109389974A (zh) | 一种语音操作的方法及装置 | |
CN107291704A (zh) | 处理方法和装置、用于处理的装置 | |
CN108345612A (zh) | 一种问题处理方法和装置、一种用于问题处理的装置 | |
CN102063282B (zh) | 汉语语音输入系统及方法 | |
CN113761888A (zh) | 文本翻译方法、装置、计算机设备及存储介质 | |
WO2023001272A1 (zh) | 候选字显示方法、装置和电子设备 | |
CN110930969B (zh) | 背景音乐的确定方法及相关设备 | |
CN102970618A (zh) | 基于音节识别的视频点播方法 | |
CN114360510A (zh) | 一种语音识别方法和相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170901 |
|
RJ01 | Rejection of invention patent application after publication |