CN110225386A - 一种显示控制方法、显示设备 - Google Patents

一种显示控制方法、显示设备 Download PDF

Info

Publication number
CN110225386A
CN110225386A CN201910383138.7A CN201910383138A CN110225386A CN 110225386 A CN110225386 A CN 110225386A CN 201910383138 A CN201910383138 A CN 201910383138A CN 110225386 A CN110225386 A CN 110225386A
Authority
CN
China
Prior art keywords
speech model
audio data
wake
default speech
default
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910383138.7A
Other languages
English (en)
Other versions
CN110225386B (zh
Inventor
杨香斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao Hisense Electronics Co Ltd
Original Assignee
Qingdao Hisense Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao Hisense Electronics Co Ltd filed Critical Qingdao Hisense Electronics Co Ltd
Priority to CN201910383138.7A priority Critical patent/CN110225386B/zh
Publication of CN110225386A publication Critical patent/CN110225386A/zh
Application granted granted Critical
Publication of CN110225386B publication Critical patent/CN110225386B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/14Digital output to display device ; Cooperation and interconnection of the display device with other functional units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请公开了一种显示控制方法、显示设备,用以提升语音交互过程中,显示界面的唤醒响应速度。本申请实施例提供的一种显示控制方法,包括:接收用户声音并转换成音频数据,将所述音频数据分别与第一预设语音模型和第二预设语音模型进行匹配;当所述音频数据与第一预设语音模型匹配成功,则在内存中预先加载第一应用程序启动所需要的资源;当所述音频数据与第二预设语音模型匹配成功,则调用所述第一应用程序的界面以在显示屏进行显示,其中,第一预设语音模型对应的第一唤醒词长度小于第二预设语音模型对应的第二唤醒词且第一唤醒词和第二唤醒词的前N个字符相同。

Description

一种显示控制方法、显示设备
技术领域
本申请涉及人工智能技术领域,尤其涉及一种显示控制方法、显示设备。
背景技术
随着人工智能产业的迅速发展,语音交互技术作为人工智能应用最广泛的技术,越来越多地应用于智能家居,智能车载和智能助手领域。经过近几年的技术迅速发展,传统的按键式近场语音交互技术已经非常成熟,识别率和响应速度等性能都已达到产品应用水平,在手机电视等设备上得以大量应用,其特定是依然需要借助遥控器或者按键的中间媒介来进行交互,不能做到随时随地的类人交流方式去交互。
远场语音交互技术可以摆脱人和目标交互对象的空间局限,解放双手,让语音交互更自然,正是由于这个特点,远场语音交互产品最近几年发展势头迅猛。从用户体验的角度,尤其是远场语音交互作为一种新的语音交互方式,唤醒率以及唤醒响应时间(或唤醒响应速度)是第一个用户体验关键点,提升唤醒响应速度和唤醒率是评价一个远场语音交互系统的最关键指标。唤醒率和唤醒响应速度主要取决于唤醒词模型的识别算法,以及运行平台的计算能力和资源。现有的算法中提供了一种语音模型,在输入的语音和语音模型匹配后启动语音交互软件,从而实现远场语音交互,现有的语音交互流程架构对于高端产品而言,由于高端产品的计算性能强大,计算资源充分(内存较大),产品设计时无需考虑计算资源带来的性能优化问题,而对于中低端产品,由于计算性能较差,内存较小,因此唤醒响应速度明显慢于低端产品,带来的用户体验较差。
发明内容
本申请实施例提供了一种显示控制方法、显示设备,用以提升语音交互过程中,显示界面的唤醒响应速度。
本申请实施例提供的一种显示控制方法,包括:
接收用户声音并转换成音频数据,将所述音频数据分别与第一预设语音模型和第二预设语音模型进行匹配;
当所述音频数据与第一预设语音模型匹配成功,则在内存中预先加载第一应用程序启动所需要的资源;
当所述音频数据与第二预设语音模型匹配成功,则调用所述第一应用程序的界面以在显示屏进行显示,其中,第一预设语音模型对应的第一唤醒词长度小于第二预设语音模型对应的第二唤醒词且第一唤醒词和第二唤醒词的前N个字符相同。
通过该方法,接收用户声音并转换成音频数据,将所述音频数据分别与第一预设语音模型和第二预设语音模型进行匹配;当所述音频数据与第一预设语音模型匹配成功,则在内存中预先加载第一应用程序启动所需要的资源;当所述音频数据与第二预设语音模型匹配成功,则调用所述第一应用程序的界面以在显示屏进行显示,其中,第一预设语音模型对应的第一唤醒词长度小于第二预设语音模型对应的第二唤醒词且第一唤醒词和第二唤醒词的前N个字符相同,从而提升语音交互过程中,显示界面的唤醒响应速度。
本申请实施例还提供了一种显示控制方法,该方法包括:
接收用户声音并转换成音频数据,将所述音频数据分别与第一预设语音模型和第二预设语音模型进行匹配;
当所述音频数据与第一预设语音模型匹配成功,则在内存中预先加载第一应用程序启动所需要的资源;
当所述音频数据与第二预设语音模型匹配成功,则调用所述第一应用程序的界面以在显示屏进行显示,其中,第一预设语音模型对应的第一唤醒文本数据小于第二预设语音模型对应的第二唤醒文本数据,第二唤醒文本数据包括沿时间轴分布的前段文本数据和后段文本数据,第一唤醒文本数据的全部语音特征和第一唤醒文本数据中的前段文本数据的语音特征相同。
通过该方法,接收用户声音并转换成音频数据,将所述音频数据分别与第一预设语音模型和第二预设语音模型进行匹配;当所述音频数据与第一预设语音模型匹配成功,则在内存中预先加载第一应用程序启动所需要的资源;当所述音频数据与第二预设语音模型匹配成功,则调用所述第一应用程序的界面以在显示屏进行显示,其中,第一预设语音模型对应的第一唤醒文本数据小于第二预设语音模型对应的第二唤醒文本数据,第二唤醒文本数据包括沿时间轴分布的前段文本数据和后段文本数据,第一唤醒文本数据的全部语音特征和第一唤醒文本数据中的前段文本数据的语音特征相同,从而提升语音交互过程中,显示界面的唤醒响应速度。
相应地,在装置侧,本申请实施例提供的一种显示控制装置,用于执行上述方法。
本申请实施例还提供的一种计算设备,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行上述本申请实施例提供的任一种所述的方法。
本申请另一实施例提供了一种计算机存储介质,所述计算机存储介质存储有计算机可执行指令,所述计算机可执行指令用于使所述计算机执行上述任一种方法。
本申请实施例还提供了一种显示设备,所述显示设备用于执行上述任一种方法。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的用户界面唤醒前的状态示意图;
图2为本申请实施例提供的用户界面唤醒后的状态示意图;
图3为现有的唤醒流程示意图;
图4为本申请实施例提供的硬件模块示意图;
图5为本申请实施例提供的一种显示控制方法示意图;
图6为本申请实施例还提供的一种显示控制方法示意图;
图7为本申请实施例提供的改进后的唤醒流程示意图;
图8为本申请实施例提供的唤醒词识别算法;
图9为本申请实施例提供的采用现有唤醒流程计算唤醒时间的示意图;
图10为本申请实施例提供的采用改进后的唤醒流程计算唤醒时间的示意图;
图11为本申请实施例提供的一种显示控制装置示意图;
图12为本申请实施例提供的一种显示控制装置示意图;
图13为本申请实施例还提供的一种显示控制装置示意图;
图14为本申请实施例还提供的一种显示控制装置示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,并不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
下面结合说明书附图对本申请各个实施例进行详细描述。需要说明的是,本申请实施例的展示顺序仅代表实施例的先后顺序,并不代表实施例所提供的技术方案的优劣。
参见图1,为本申请实施例提供的用户界面唤醒前的状态示意图,该用户界面上没有显示内容;参见图2,为本申请实施例提供的用户界面唤醒后的状态示意图,例如电视机,当用户说出唤醒词后,例如“海信小聚”,电视机会执行反馈,包括:动画显示、提示音“Hi,有什么可以帮您?”等。
参见图3,为现有的唤醒流程图,该流程中只有一个声学模型,当整个唤醒词(例如“海信小聚”)相似度大于置信度时,进行显示界面资源准备、内存加载,最终显示界面;否则,唤醒失败(该唤醒流程中并未释放内存中已加载的资源)。
参见图4,为本申请实施例提供的硬件模块示意图,四颗麦克风的声音在录音模块中经过模数转换器(Analog-to-Digital Converter,ADC)、音频流编码器Codec进行拾音,然后在数字信号处理(Digital Signal Processing,DSP)模块中进行信号处理,处理后的音频被送到CPU中的唤醒词识别模块进行识别;加载显示资源、动画渲染在内存中进行,最后CPU执行显示用户界面。
参见图5,本申请实施例提供的一种显示控制方法,包括:
S101、接收用户声音并转换成音频数据,将所述音频数据分别与第一预设语音模型和第二预设语音模型进行匹配;
例如,当检测到用户的声音时,会立即把用户声音转换成音频数据,唤醒词识别模块会即时地识别音频数据,例如,当检测到“海”字时,会立刻识别“海”是否与预设语音模型匹配,当检测到“信”时,会立刻识别“海信”是否与预设语音模型匹配。在一些实施例中还识别,“信”是否和预设语音模型比对。
S102、当所述音频数据与第一预设语音模型匹配成功,则在内存中预先加载第一应用程序启动所需要的资源;
S103、当所述音频数据与第二预设语音模型匹配成功,则调用所述第一应用程序的界面以在显示屏进行显示,其中,第一预设语音模型对应的第一唤醒词长度小于第二预设语音模型对应的第二唤醒词且第一唤醒词和第二唤醒词的前N个字符相同。
例如,显示界面是指在用户说出唤醒词“海信小聚”之后,电视机要执行的反馈,如图2所示;用于展示用户界面的资源包括动画、图片,以及操作系统在执行这些动画所需要的组件;在电视中,内存是有限的,系统会将不用的资源,比如图片,动画效果的数据放在FLASH闪存中,而不会一直都放在内存中(主要是用来做当前任务的数据存放),因此,在执行界面显示时,何时加载显示资源是一个策略问题,需要考虑。
例如,第一唤醒词为“海信”,第二唤醒词为“海信小聚”,“海信”和“海信小聚”的前2个字符“海信”相同,此时N为2;此处不限定N的数值,也可以为其它数值。
可选地,所述接收用户声音并转换成音频数据,具体包括:
将接收到的用户声音经过模数转化器ADC、音频流编码器Codec进行拾音之后,再进行数字信号处理DSP、特征提取,得到音频数据。
所述Codec指音频流的编码,包括采样精度、采样率。
可选地,所述第一预设语音模型包括匹配第一唤醒词的第一唤醒文本数据;
所述第二预设语音模型包括匹配第二唤醒词的第二唤醒文本数据。
例如,第一唤醒词为“海信”,第一预设语音模型为“海信”语音模型,“海信”语音模型包括匹配“海信”的第一唤醒文本数据,第二唤醒词为“海信小聚”,第二预设语音模型为“海信小聚”语音模型,“海信小聚”语音模型包括匹配“海信小聚”的第二唤醒文本数据。
在一些实施例中,第一唤醒文本数据小于第二唤醒文本数据,第二唤醒文本数据包括沿时间轴分布的前段文本数据和后段文本数据,第一唤醒文本数据的全部语音特征和第一唤醒文本数据中的前段文本数据的语音特征相同。例如,第二唤醒词为“海信小聚”,第二唤醒文本数据包括沿时间轴分布的前段文本数据和后段文本数据,前段文本数据对应的语音特征和第一唤醒词“海信”对应的第一唤醒文本数据对应的全部语音特征相同,在一些实施例中,后段文本数据对应的语音特征和“小聚”发音相对应的语音特征相同。
在一些实施例中,第一唤醒词可以是“hello”,第二唤醒词可以是“hellohisense”,或者,第一唤醒词是“hi”,第二唤醒词是“hi VIDAA”。
可选地,将所述音频数据与第一预设语音模型进行匹配,当所述音频数据与第一预设语音模型匹配成功,则在内存中预先加载第一应用程序启动所需要的资源,具体包括:
计算所述音频数据与第一预设语音模型的相似度;
若所述音频数据与第一预设语音模型的相似度大于第一预设置信度,则在内存中预先加载第一应用程序启动所需要的资源。
例如,若音频数据与“海信”声学模型匹配成功,则表示用户发出的声音中包含“海信”唤醒词;第一预设置信度又称为第一预设唤醒率的触发门限值(Trigger Score),该值例如0.8,若音频数据与“海信”声学模型的相似度为0.82,则表示匹配成功。第一应用程序例如为智能电视的语音助手。
可选地,将所述音频数据与第二预设语音模型进行匹配,当所述音频数据与第二预设语音模型匹配成功,则调用所述第一应用程序的界面以在显示屏进行显示,具体包括:
计算所述音频数据与第二预设语音模型的相似度;
若所述音频数据与第二预设语音模型的相似度大于第二预设置信度,则调用所述第一应用程序的界面以在显示屏进行显示。
例如,若音频数据与“海信小聚”声学模型匹配成功,则表示用户发出的声音中包含“海信小聚”唤醒词;第二预设置信度又称为第二预设唤醒率的触发门限值,第二预设置信度例如为0.9,若音频数据与“海信小聚”声学模型的相似度为0.91,则表示匹配成功。
可选地,当所述音频数据与第二预设语音模型匹配成功,则调用所述第一应用程序的界面以在显示屏进行显示,具体包括:
当所述音频数据与第二预设语音模型匹配成功后,响应于第一应用程序启动所需要的资源加载完成,则直接调用所述第一应用程序的界面以在显示屏进行显示,或者,响应于第一应用程序启动所需要的资源加载未完成,则等待内存中预先加载完第一应用程序启动所需要的资源加载完成后,再调用所述第一应用程序的界面以在显示屏进行显示。
例如,当音频数据“海信小聚”与“海信小聚”语音模型匹配成功时,若内存中已加载完第一应用程序(例如语音助手)启动所需要的资源,则直接调用所述第一应用程序的界面以在显示屏进行显示;若内存中第一应用程序启动所需要的资源还未加载完,则等待内存中预先加载完第一应用程序启动所需要的资源,再调用所述第一应用程序的界面以在显示屏进行显示。
可选地,若所述音频数据与第二预设语音模型匹配不成功,则释放内存中预先加载的所述资源。
参见图6,为本申请实施例提供的一种显示控制方法,包括:
S201、接收用户声音并转换成音频数据,将所述音频数据分别与第一预设语音模型和第二预设语音模型进行匹配;
S202、当所述音频数据与第一预设语音模型匹配成功,则在内存中预先加载第一应用程序启动所需要的资源;
S203、当所述音频数据与第二预设语音模型匹配成功,则调用所述第一应用程序的界面以在显示屏进行显示,其中,第一预设语音模型对应的第一唤醒文本数据小于第二预设语音模型对应的第二唤醒文本数据,第二唤醒文本数据包括沿时间轴分布的前段文本数据和后段文本数据,第一唤醒文本数据的全部语音特征和第一唤醒文本数据中的前段文本数据的语音特征相同。
可选地,所述第一唤醒文本数据和第一唤醒词相对应,所述第二唤醒文本数据和第二唤醒词相对应。
参见图7,为本申请实施例提供的改进后的唤醒流程图,用户声音经过ADC、Codec进行拾音,再进行信号处理、特征提取,得到处理后的音频数据(例如处理后的音频数据为“海信”、“海”、“信小”等),将处理后的音频数据输入到中央处理器CPU中的唤醒词识别模块(此时用户界面UI所需要的资源还在只读存储器ROM(FLASH)中未加载,不影响其他进程),该唤醒词识别模块包括第一预设声学模型和第二预设声学模型(第一预设声学模型包括第一预设语音模型,第二预设声学模型包括第二预设语音模型),第一预设声学模型包含识别第一唤醒词的第一唤醒文本数据,第二预设声学模型包含识别第二唤醒词的第二唤醒文本数据(例如第一预设声学模型为“海信”声学模型,第一唤醒词为“海信”,第二预设声学模型为“海信小聚”声学模型,第二唤醒词为“海信小聚”);CPU一直分析输入的音频数据中是否有“第一唤醒词”的音频特征(输入的音频数据,以及从音频数据中提取的特征数据需要占用内存),也就是说,CPU会一直计算输入的音频数据与第一预设声学模型的相似度,直到输入的音频数据与第一预设声学模型的相似度(例如0.82)大于第一预设置信度(例如第一预设置信度为0.8)时,表示用户发出的声音中包含第一唤醒词,这时进行UI资源准备,在内存中加载资源、渲染(UI资源准备指找到相关数据在FLASH的位置,分配内存块,搬移数据,校验数据等工作);若输入的音频数据与第一预设声学模型的相似度(例如0.7)小于等于第一预设置信度(例如0.8),表示用户发出的声音中不包含第一唤醒词,这时不进行UI资源准备,在内存中加载资源、渲染。
同时,CPU还一直分析输入的音频数据中是否有“第二唤醒词”的音频特征,也就是说,CPU会一直计算输入的音频数据与第二预设声学模型的相似度,如果输入的音频数据与第二预设声学模型的相似度(例如0.91)大于第二预设置信度(例如第二预设置信度为0.9),表示用户发出的声音中包含第二唤醒词,是真唤醒,这时在显示界面展示已在内存中加载好的资源对应的显示界面;如果输入的音频数据与第二预设声学模型的相似度(例如0.85)小于等于第二预设置信度(例如0.9),表示用户发出的声音中不包含第二唤醒词,不是真唤醒,这时注销已在内存中加载好的资源。
参见图8,为本申请实施例提供的唤醒词识别算法,该唤醒词识别算法为深度学习,以识别唤醒词“海信小聚”为例,当用户完整说出“海信小聚”时,进入唤醒识别打分,图8中最底层数据是“海信小聚”声学模型数据,InputWindow是指用户说出的音频经过特征提取后,和设备中保存的声学模型特征向量进行解码计算;中间的过程是调参,包括不同特征向量的权重配置,例如,“海信小聚”中的“聚”特征比较强,则这部分的权重就可以配置高,从而让识别性能提升;该识别算法的输出结果为触发门限值。
下面举例依次计算:采用现有唤醒流程进行唤醒所需要的唤醒时间、采用改进后的唤醒流程进行唤醒所需要的唤醒时间。
参见图9,为采用现有唤醒流程计算唤醒时间的示意图,系统检测到用户以正常语速说出“海信小聚”耗时2秒,唤醒词识别模块识别唤醒词“海信小聚”(即计算用户说出的“海信小聚”与“海信小聚”声学模型的相似度),该过程耗时0.3秒,然后以回调或者广播的形式发送消息到负责加载UI内存的线程(发送回调消息耗时0.2秒),接着进行UI资源准备,内存加载(耗时0.8秒),最后渲染及展示用户界面(耗时0.6秒),综上,从用户开始说出“海信小聚”,直到展示用户界面总共耗时3.9秒。
参见图10,为本申请实施例提供的采用改进后的唤醒流程计算唤醒时间的示意图,系统检测到用户以正常语速说出“海信小聚”耗时2秒,其中,检测到说出“海信”耗时1秒,唤醒词识别模块首先识别第一唤醒词“海信”(即计算用户说出的“海信”与“海信”声学模型的相似度),该过程耗时0.3秒,这时进行UI资源准备,内存加载及渲染(耗时0.5秒+0.5秒);与此同时,唤醒词识别模块识别第二唤醒词“海信小聚”(即计算用户说出的“海信小聚”与“海信小聚”声学模型的相似度),发送回调消息耗时0.2秒(消息是操作系统框架里的不同任务线程之间的通信方式,比如唤醒词解码进程,和负责UI显示是两个不同的任务,设计时可以创建两个任务,唤醒词识别任务完成后,需要通知UI显示任务),在用户界面展示已加载好的资源耗时0.2秒,综上,从用户开始说出“海信小聚”,直到展示用户界面总共耗时2.7秒;上述流程中用户说出“海信小聚”、计算用户说出的“海信小聚”与“海信小聚”声学模型的相似度,是与用户说出“海信”、计算用户说出的“海信”与“海信”声学模型的相似度、UI资源准备,内存加载及渲染同步进行的。
通过对比图9和图10中的唤醒时间,可以得到:采用改进后的唤醒流程进行唤醒所需要的唤醒时间,比采用现有唤醒流程进行唤醒所需要的唤醒时间小1.2秒,也就是说,采用改进后的唤醒流程进行唤醒,整体唤醒速度提升1.2s。
本申请实施例通过增加唤醒过程中的阶段判断,提前进行资源配置和内容加载,提升了远场语音交互过程中,唤醒界面响应快带来的用户体验提升的方法。
相应地,在装置侧,参见图11,本申请实施例提供的一种显示控制装置,包括:
第一单元11,用于接收用户声音并转换成音频数据,将所述音频数据分别与第一预设语音模型和第二预设语音模型进行匹配;
第二单元12,用于当所述音频数据与第一预设语音模型匹配成功,则在内存中预先加载第一应用程序启动所需要的资源;
第三单元13,用于当所述音频数据与第二预设语音模型匹配成功,则调用所述第一应用程序的界面以在显示屏进行显示,其中,第一预设语音模型对应的第一唤醒词长度小于第二预设语音模型对应的第二唤醒词且第一唤醒词和第二唤醒词的前N个字符相同。
参见图12,本申请实施例提供的一种显示控制装置,包括:
第四单元21、用于接收用户声音并转换成音频数据,将所述音频数据分别与第一预设语音模型和第二预设语音模型进行匹配;
第五单元22、用于当所述音频数据与第一预设语音模型匹配成功,则在内存中预先加载第一应用程序启动所需要的资源;
第六单元23、用于当所述音频数据与第二预设语音模型匹配成功,则调用所述第一应用程序的界面以在显示屏进行显示,其中,第一预设语音模型对应的第一唤醒文本数据小于第二预设语音模型对应的第二唤醒文本数据,第二唤醒文本数据包括沿时间轴分布的前段文本数据和后段文本数据,第一唤醒文本数据的全部语音特征和第一唤醒文本数据中的前段文本数据的语音特征相同。
参见图13,本申请实施例还提供的一种显示控制装置,包括:
处理器600,用于读取存储器610中的程序,执行下列过程:
接收用户声音并转换成音频数据,将所述音频数据分别与第一预设语音模型和第二预设语音模型进行匹配;
当所述音频数据与第一预设语音模型匹配成功,则在内存中预先加载第一应用程序启动所需要的资源;
当所述音频数据与第二预设语音模型匹配成功,则调用所述第一应用程序的界面以在显示屏进行显示,其中,第一预设语音模型对应的第一唤醒词长度小于第二预设语音模型对应的第二唤醒词且第一唤醒词和第二唤醒词的前N个字符相同。
通过该装置,接收用户声音并转换成音频数据,将所述音频数据分别与第一预设语音模型和第二预设语音模型进行匹配;当所述音频数据与第一预设语音模型匹配成功,则在内存中预先加载第一应用程序启动所需要的资源;当所述音频数据与第二预设语音模型匹配成功,则调用所述第一应用程序的界面以在显示屏进行显示,其中,第一预设语音模型对应的第一唤醒词长度小于第二预设语音模型对应的第二唤醒词且第一唤醒词和第二唤醒词的前N个字符相同,从而提升语音交互过程中,显示界面的唤醒响应速度。
可选地,所述接收用户声音并转换成音频数据,具体包括:
将接收到的用户声音经过模数转化器ADC、音频流编码器Codec进行拾音之后,再进行数字信号处理DSP、特征提取,得到音频数据。
可选地,所述第一预设语音模型包括匹配第一唤醒词的第一唤醒文本数据;
所述第二预设语音模型包括匹配第二唤醒词的第二唤醒文本数据。
可选地,将所述音频数据与第一预设语音模型进行匹配,若匹配成功,当所述音频数据与第一预设语音模型匹配成功,则在内存中预先加载第一应用程序启动所需要的资源,具体包括:
计算所述音频数据与第一预设语音模型的相似度;
若所述音频数据与第一预设语音模型的相似度大于第一预设置信度,则在内存中预先加载第一应用程序启动所需要的资源。
可选地,将所述音频数据与第二预设语音模型进行匹配,当所述音频数据与第二预设语音模型匹配成功,则调用所述第一应用程序的界面以在显示屏进行显示,具体包括:
计算所述音频数据与第二预设语音模型的相似度;
若所述音频数据与第二预设语音模型的相似度大于第二预设置信度,则调用所述第一应用程序的界面以在显示屏进行显示。
可选地,当所述音频数据与第二预设语音模型匹配成功,则调用所述第一应用程序的界面以在显示屏进行显示,具体包括:
当所述音频数据与第二预设语音模型匹配成功,则直接调用所述第一应用程序的界面以在显示屏进行显示,或者,等待内存中预先加载完第一应用程序启动所需要的资源,再调用所述第一应用程序的界面以在显示屏进行显示。
可选地,若所述音频数据与第二预设语音模型匹配不成功,则释放内存中预先加载的所述资源。
参见图14,本申请实施例还提供的一种显示控制装置,包括:
处理器800,用于读取存储器810中的程序,执行下列过程:
接收用户声音并转换成音频数据,将所述音频数据分别与第一预设语音模型和第二预设语音模型进行匹配;
当所述音频数据与第一预设语音模型匹配成功,则在内存中预先加载第一应用程序启动所需要的资源;
当所述音频数据与第二预设语音模型匹配成功,则调用所述第一应用程序的界面以在显示屏进行显示,其中,第一预设语音模型对应的第一唤醒文本数据小于第二预设语音模型对应的第二唤醒文本数据,第二唤醒文本数据包括沿时间轴分布的前段文本数据和后段文本数据,第一唤醒文本数据的全部语音特征和第一唤醒文本数据中的前段文本数据的语音特征相同。
通过该装置,接收用户声音并转换成音频数据,将所述音频数据分别与第一预设语音模型和第二预设语音模型进行匹配;当所述音频数据与第一预设语音模型匹配成功,则在内存中预先加载第一应用程序启动所需要的资源;当所述音频数据与第二预设语音模型匹配成功,则调用所述第一应用程序的界面以在显示屏进行显示,其中,第一预设语音模型对应的第一唤醒文本数据小于第二预设语音模型对应的第二唤醒文本数据,第二唤醒文本数据包括沿时间轴分布的前段文本数据和后段文本数据,第一唤醒文本数据的全部语音特征和第一唤醒文本数据中的前段文本数据的语音特征相同,从而提升语音交互过程中,显示界面的唤醒响应速度。
可选地,所述第一唤醒文本数据和第一唤醒词相对应,所述第二唤醒文本数据和第二唤醒词相对应。
其中,在图13和图14中,总线架构可以包括任意数量的互联的总线和桥,具体由处理器600、800代表的一个或多个处理器和存储器610、810代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口提供接口。
本申请实施例提供了一种显示终端,该显示终端具体可以为桌面计算机、便携式计算机、智能手机、平板电脑、个人数字助理(Personal Digital Assistant,PDA)等。该显示终端可以包括中央处理器(Center Processing Unit,CPU)、存储器、输入/输出设备等,输入设备可以包括键盘、鼠标、触摸屏等,输出设备可以包括显示设备,如液晶显示器(Liquid Crystal Display,LCD)、阴极射线管(Cathode Ray Tube,CRT)等。
针对不同的显示终端,可选地,用户接口620、820可以是能够外接内接需要设备的接口,连接的设备包括但不限于小键盘、显示器、扬声器、麦克风、操纵杆等。
处理器负责管理总线架构和通常的处理,存储器可以存储处理器在执行操作时所使用的数据。
可选地,处理器可以是CPU(中央处埋器)、ASIC(Application SpecificIntegrated Circuit,专用集成电路)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)或CPLD(Complex Programmable Logic Device,复杂可编程逻辑器件)。
存储器可以包括只读存储器(ROM)和随机存取存储器(RAM),并向处理器提供存储器中存储的程序指令和数据。在本申请实施例中,存储器可以用于存储本申请实施例提供的任一所述方法的程序。
处理器通过调用存储器存储的程序指令,处理器用于按照获得的程序指令执行本申请实施例提供的任一所述方法。
本申请实施例提供了一种计算机存储介质,用于储存为上述本申请实施例提供的装置所用的计算机程序指令,其包含用于执行上述本申请实施例提供的任一方法的程序。
所述计算机存储介质可以是计算机能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NAND FLASH)、固态硬盘(SSD))等。
本申请实施例还提供了一种显示设备,所述显示设备用于执行上述任一种方法。
综上所述,本申请实施例提供了一种显示控制方法、显示设备,从而提升语音交互过程中,显示界面的唤醒响应速度。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种显示控制方法,其特征在于,该方法包括:
接收用户声音并转换成音频数据,将所述音频数据分别与第一预设语音模型和第二预设语音模型进行匹配;
当所述音频数据与第一预设语音模型匹配成功,则在内存中预先加载第一应用程序启动所需要的资源;
当所述音频数据与第二预设语音模型匹配成功,则调用所述第一应用程序的界面以在显示屏进行显示,其中,第一预设语音模型对应的第一唤醒词长度小于第二预设语音模型对应的第二唤醒词,第一唤醒词和第二唤醒词的前N个字符相同。
2.根据权利要求1所述的方法,其特征在于,所述接收用户声音并转换成音频数据,具体包括:
将接收到的用户声音经过模数转化器ADC、音频流编码器Codec进行拾音之后,再进行数字信号处理DSP、特征提取,得到音频数据。
3.根据权利要求1所述的方法,其特征在于,所述第一预设语音模型包括匹配第一唤醒词的第一唤醒文本数据;
所述第二预设语音模型包括匹配第二唤醒词的第二唤醒文本数据。
4.根据权利要求1-3任意一项所述的方法,其特征在于,将所述音频数据与第一预设语音模型进行匹配,当所述音频数据与第一预设语音模型匹配成功,则在内存中预先加载第一应用程序启动所需要的资源,具体包括:
计算所述音频数据与第一预设语音模型的相似度;
若所述音频数据与第一预设语音模型的相似度大于第一预设置信度,则在内存中预先加载第一应用程序启动所需要的资源。
5.根据权利要求3所述的方法,其特征在于,将所述音频数据与第二预设语音模型进行匹配,当所述音频数据与第二预设语音模型匹配成功,则调用所述第一应用程序的界面以在显示屏进行显示,具体包括:
计算所述音频数据与第二预设语音模型的相似度;
若所述音频数据与第二预设语音模型的相似度大于第二预设置信度,则调用所述第一应用程序的界面以在显示屏进行显示。
6.根据权利要求5所述的方法,其特征在于,当所述音频数据与第二预设语音模型匹配成功,则调用所述第一应用程序的界面以在显示屏进行显示,具体包括:
当所述音频数据与第二预设语音模型匹配成功后,响应于第一应用程序启动所需要的资源加载完成,则直接调用所述第一应用程序的界面以在显示屏进行显示,或者,响应于第一应用程序启动所需要的资源加载未完成,则等待内存中预先加载完第一应用程序启动所需要的资源加载完成后,再调用所述第一应用程序的界面以在显示屏进行显示。
7.根据权利要求6所述的方法,其特征在于,该方法还包括:
若所述音频数据与第二预设语音模型匹配不成功,则释放内存中预先加载的所述资源。
8.一种显示控制方法,其特征在于,该方法包括:
接收用户声音并转换成音频数据,将所述音频数据分别与第一预设语音模型和第二预设语音模型进行匹配;
当所述音频数据与第一预设语音模型匹配成功,则在内存中预先加载第一应用程序启动所需要的资源;
当所述音频数据与第二预设语音模型匹配成功,则调用所述第一应用程序的界面以在显示屏进行显示,其中,第一预设语音模型对应的第一唤醒文本数据小于第二预设语音模型对应的第二唤醒文本数据,第二唤醒文本数据包括沿时间轴分布的前段文本数据和后段文本数据,第一唤醒文本数据的语音特征和第一唤醒文本数据中的前段文本数据的语音特征相同。
9.根据权利要求8所述的方法,其特征在于所述第一唤醒文本数据和第一唤醒词相对应,所述第二唤醒文本数据和第二唤醒词相对应。
10.一种显示设备,其特征在于,用于执行权利要求1-7或权利要求8-9任一项所述的方法。
CN201910383138.7A 2019-05-09 2019-05-09 一种显示控制方法、显示设备 Active CN110225386B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910383138.7A CN110225386B (zh) 2019-05-09 2019-05-09 一种显示控制方法、显示设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910383138.7A CN110225386B (zh) 2019-05-09 2019-05-09 一种显示控制方法、显示设备

Publications (2)

Publication Number Publication Date
CN110225386A true CN110225386A (zh) 2019-09-10
CN110225386B CN110225386B (zh) 2021-09-14

Family

ID=67820748

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910383138.7A Active CN110225386B (zh) 2019-05-09 2019-05-09 一种显示控制方法、显示设备

Country Status (1)

Country Link
CN (1) CN110225386B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111261195A (zh) * 2020-01-10 2020-06-09 Oppo广东移动通信有限公司 音频测试方法、装置、存储介质及电子设备
CN111897601A (zh) * 2020-08-03 2020-11-06 Oppo广东移动通信有限公司 应用启动方法、装置、终端设备以及存储介质
CN112306560A (zh) * 2020-02-26 2021-02-02 北京字节跳动网络技术有限公司 用于唤醒电子设备的方法和装置
CN112509576A (zh) * 2020-04-13 2021-03-16 安徽中科新辰技术有限公司 一种语音控制大屏展示系统
CN113782021A (zh) * 2021-09-14 2021-12-10 海信电子科技(武汉)有限公司 一种显示设备及提示音的播放方法
CN114007117A (zh) * 2020-07-28 2022-02-01 华为技术有限公司 一种控件显示方法和设备

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101464807A (zh) * 2009-01-08 2009-06-24 杭州华三通信技术有限公司 一种应用程序的加载方法及装置
WO2015200876A1 (en) * 2014-06-26 2015-12-30 Nuance Communications, Inc. Voice-controlled information exchange platform, such as for providing information to supplement advertising
CN106463112A (zh) * 2015-04-10 2017-02-22 华为技术有限公司 语音识别方法、语音唤醒装置、语音识别装置及终端
WO2017071182A1 (zh) * 2015-10-26 2017-05-04 乐视控股(北京)有限公司 一种语音唤醒方法、装置及系统
CN107079283A (zh) * 2014-07-24 2017-08-18 高通股份有限公司 基于多sim的设备自动配置系统和过程
CN107134279A (zh) * 2017-06-30 2017-09-05 百度在线网络技术(北京)有限公司 一种语音唤醒方法、装置、终端和存储介质
CN107396158A (zh) * 2017-08-21 2017-11-24 深圳创维-Rgb电子有限公司 一种声控交互装置、声控交互方法和电视机
CN107450879A (zh) * 2016-05-30 2017-12-08 中兴通讯股份有限公司 终端操作方法及装置
CN108712566A (zh) * 2018-04-27 2018-10-26 维沃移动通信有限公司 一种语音助手唤醒方法及移动终端
CN108845840A (zh) * 2018-06-05 2018-11-20 Oppo广东移动通信有限公司 应用程序声音的管理方法、装置、存储介质及智能终端
CN109326289A (zh) * 2018-11-30 2019-02-12 深圳创维数字技术有限公司 免唤醒语音交互方法、装置、设备及存储介质
CN109493849A (zh) * 2018-12-29 2019-03-19 联想(北京)有限公司 语音唤醒方法、装置及电子设备
CN109509473A (zh) * 2019-01-28 2019-03-22 维沃移动通信有限公司 语音控制方法及终端设备
US10271109B1 (en) * 2015-09-16 2019-04-23 Amazon Technologies, LLC Verbal queries relative to video content

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101464807A (zh) * 2009-01-08 2009-06-24 杭州华三通信技术有限公司 一种应用程序的加载方法及装置
WO2015200876A1 (en) * 2014-06-26 2015-12-30 Nuance Communications, Inc. Voice-controlled information exchange platform, such as for providing information to supplement advertising
CN107079283A (zh) * 2014-07-24 2017-08-18 高通股份有限公司 基于多sim的设备自动配置系统和过程
CN106463112A (zh) * 2015-04-10 2017-02-22 华为技术有限公司 语音识别方法、语音唤醒装置、语音识别装置及终端
US10271109B1 (en) * 2015-09-16 2019-04-23 Amazon Technologies, LLC Verbal queries relative to video content
WO2017071182A1 (zh) * 2015-10-26 2017-05-04 乐视控股(北京)有限公司 一种语音唤醒方法、装置及系统
CN107450879A (zh) * 2016-05-30 2017-12-08 中兴通讯股份有限公司 终端操作方法及装置
CN107134279A (zh) * 2017-06-30 2017-09-05 百度在线网络技术(北京)有限公司 一种语音唤醒方法、装置、终端和存储介质
CN107396158A (zh) * 2017-08-21 2017-11-24 深圳创维-Rgb电子有限公司 一种声控交互装置、声控交互方法和电视机
CN108712566A (zh) * 2018-04-27 2018-10-26 维沃移动通信有限公司 一种语音助手唤醒方法及移动终端
CN108845840A (zh) * 2018-06-05 2018-11-20 Oppo广东移动通信有限公司 应用程序声音的管理方法、装置、存储介质及智能终端
CN109326289A (zh) * 2018-11-30 2019-02-12 深圳创维数字技术有限公司 免唤醒语音交互方法、装置、设备及存储介质
CN109493849A (zh) * 2018-12-29 2019-03-19 联想(北京)有限公司 语音唤醒方法、装置及电子设备
CN109509473A (zh) * 2019-01-28 2019-03-22 维沃移动通信有限公司 语音控制方法及终端设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李嘉,黄程韦,余华: "语音情感的维度特征提取与识别", 《数据采集与处理》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111261195A (zh) * 2020-01-10 2020-06-09 Oppo广东移动通信有限公司 音频测试方法、装置、存储介质及电子设备
CN112306560A (zh) * 2020-02-26 2021-02-02 北京字节跳动网络技术有限公司 用于唤醒电子设备的方法和装置
CN112509576A (zh) * 2020-04-13 2021-03-16 安徽中科新辰技术有限公司 一种语音控制大屏展示系统
CN114007117A (zh) * 2020-07-28 2022-02-01 华为技术有限公司 一种控件显示方法和设备
CN111897601A (zh) * 2020-08-03 2020-11-06 Oppo广东移动通信有限公司 应用启动方法、装置、终端设备以及存储介质
CN111897601B (zh) * 2020-08-03 2023-11-24 Oppo广东移动通信有限公司 应用启动方法、装置、终端设备以及存储介质
CN113782021A (zh) * 2021-09-14 2021-12-10 海信电子科技(武汉)有限公司 一种显示设备及提示音的播放方法
CN113782021B (zh) * 2021-09-14 2023-10-24 Vidaa(荷兰)国际控股有限公司 一种显示设备及提示音的播放方法

Also Published As

Publication number Publication date
CN110225386B (zh) 2021-09-14

Similar Documents

Publication Publication Date Title
CN110225386A (zh) 一种显示控制方法、显示设备
CN108615526B (zh) 语音信号中关键词的检测方法、装置、终端及存储介质
CN109767763B (zh) 自定义唤醒词的确定方法和用于确定自定义唤醒词的装置
WO2021022992A1 (zh) 对话生成模型的训练方法、对话生成方法、装置及介质
CN111081280B (zh) 与文本无关的语音情感识别方法及装置、用于识别情感的算法模型的生成方法
US20180374482A1 (en) Electronic apparatus for processing user utterance and server
CN110570840B (zh) 一种基于人工智能的智能设备唤醒方法和装置
CN108735210A (zh) 一种语音控制方法及终端
CN110263131B (zh) 回复信息生成方法、装置及存储介质
CN109785845B (zh) 语音处理方法、装置及设备
CN110706707B (zh) 用于语音交互的方法、装置、设备和计算机可读存储介质
WO2020057624A1 (zh) 语音识别的方法和装置
CN111816162A (zh) 一种语音变化信息检测方法、模型训练方法以及相关装置
US20200125603A1 (en) Electronic device and system which provides service based on voice recognition
CN108847243B (zh) 声纹特征更新方法、装置、存储介质及电子设备
CN111522592A (zh) 一种基于人工智能的智能终端唤醒方法和装置
CN111435592A (zh) 一种语音识别方法、装置及终端设备
US20120053937A1 (en) Generalizing text content summary from speech content
CN117253478A (zh) 一种语音交互方法和相关装置
CN110580897B (zh) 音频校验方法、装置、存储介质及电子设备
EP4095850A1 (en) Instruction execution method and apparatus, storage medium, and electronic device
CN113012683A (zh) 语音识别方法及装置、设备、计算机可读存储介质
CN108922523B (zh) 位置提示方法、装置、存储介质及电子设备
CN111508481A (zh) 语音唤醒模型的训练方法、装置、电子设备及存储介质
CN109064720B (zh) 位置提示方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 266555 Qingdao economic and Technological Development Zone, Shandong, Hong Kong Road, No. 218

Applicant after: Hisense Video Technology Co., Ltd

Address before: 266555 Qingdao economic and Technological Development Zone, Shandong, Hong Kong Road, No. 218

Applicant before: HISENSE ELECTRIC Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant