CN115294979A

CN115294979A - 用于减少语音响应时间的方法、装置、存储介质和语音设备

Info

Publication number: CN115294979A
Application number: CN202210903851.1A
Authority: CN
Inventors: 陈祖江; 张桂芳; 田雪梅; 耿宝寒; 纪国超
Original assignee: Qingdao Haier Air Conditioner Gen Corp Ltd; Qingdao Haier Air Conditioning Electric Co Ltd; Haier Smart Home Co Ltd
Current assignee: Qingdao Haier Air Conditioner Gen Corp Ltd; Qingdao Haier Air Conditioning Electric Co Ltd; Haier Smart Home Co Ltd
Priority date: 2022-07-28
Filing date: 2022-07-28
Publication date: 2022-11-04
Also published as: WO2024021986A1

Abstract

本申请涉及智能家电技术领域。公开了一种用于减少语音响应时间的方法、装置、存储介质和语音设备。用于减少语音响应时间的方法包括：对用户的语音信息进行识别，得到用户的问题；在本设备的存储空间查找问题的答案语音；将答案语音输出给用户。通过将用户提出过的问题的答案语音，提前存储于存储空间中。进而在遇到该语音问题时，直接在存储空间中查找该问题所对应的答案语音。从而节省了从网络侧搜索答案和重新合成语音的时间。从方案本质上而言，是通过新增了对部分重复性问题和答案语音的缓存机制，从而直接记录了用户可能经常问的一些问题的答案语音，从而减少部分问题的语音响应时间。

Description

用于减少语音响应时间的方法、装置、存储介质和语音设备

技术领域

本申请涉及智能家电技术领域，例如涉及一种用于减少语音响应时间的方法、装置、存储介质和语音设备。

背景技术

目前，语音设备都可以识别用户的语音指令。通过对语音指令的解析，判断出用户想要提出的问题。而语音响应的过程，包括从设备接收到用户的问题语音一直到将答案输出给用户。但目前的语音识别方案中，无论用户提出的问题是什么，在设备内部都会先将语音转化为音频数据，进而去寻找该音频数据所对应的答案。在找到答案后，再将答案进行TTS(Text to Speech，语音合成技术)处理变成语音输出给用户。这个过程大大增加了语音响应的时长。

相关技术中，为降低语音响应时长，提出了一种数据发送方法。该方法包括：获取目标设备采集到的语音查询请求，并确定所述语音查询请求对应的应答文本；获取与所述应答文本对应的多个子音频数据；响应于所述语音查询请求，将所述多个子音频数据按照排序结果依次发送至目标设备，并指示目标设备按照所述排序结果依次播放所述多个子音频数据。

相关技术是通过获取应答文本的多个子音频数据，进而将多个子音频数据按照排序结果依次发送至目标设备的方法，减少了语音响应的时间。但并没有考虑到有些问题的答案是固定的，而有些问题的答案是变化的。因此，可以通过对问题进行分类的方式，去减少部分问题的响应时间。

发明内容

为了对披露的实施例的一些方面有基本的理解，下面给出了简单的概括。所述概括不是泛泛评述，也不是要确定关键/重要组成元素或描绘这些实施例的保护范围，而是作为后面的详细说明的序言。

本公开实施例提供了一种用于减少语音响应时间的方法、装置、存储介质和语音设备，能够减少部分问题的响应时间。

在一些实施例中，用于减少语音响应时间的方法包括：

对用户的语音信息进行识别，得到用户的问题；

在本设备的存储空间查找问题的答案语音；

将答案语音输出给用户。

其中，问题的类型，包括静态问题和动态问题。

可选地，在本设备的存储空间查找问题的答案语音，包括：

在问题为静态问题的情况下，在第一存储区查找问题的答案语音；

在问题为动态问题的情况下，在第二存储区查找问题的答案语音。

其中，静态问题为固定答案的问题，动态问题为不固定答案或答案随时间变化的问题。

第一存储区为本地存储区，用于存放静态问题及对应的答案语音。

第二存储区为缓存区，本质上也属于存储区，但与第一存储区进行区分。用于存放动态问题及对应的答案语音。

可选地，用于减少语音响应时间的方法，还包括：

在第一存储区或第二存储区未查找到问题的答案语音的情况下，通过网络侧得到问题的答案语音。

可选地，通过网络侧得到问题的答案语音，包括：

将问题发送至网络侧；

接收来自网络侧反馈的问题的答案；

将问题的答案进行语音合成处理，得到问题的答案语音。

可选地，在得到问题的答案语音后，还包括：

若问题为静态问题，将问题和答案语音存储于第一存储区；

若问题为动态问题，将问题和答案语音存储于第二存储区。

可选地，用于减少语音响应时间的方法，还包括：

对第二存储区存储的答案语音进行更新。

可选地，对第二存储区存储的答案语音进行更新，包括：

在检测第二存储区有新增问题和答案语音的情况下，获取问题的时间属性；

根据时间属性，按预设关系得到问题的更新周期T；

按更新周期T，对该问题对应的答案语音进行更新。

可选地，还可以采用另一种方式，对第二存储区存储的答案进行更新。该种方式具体包括：

在检测第二存储区有新增问题和答案语音的情况下，确定答案语音的有效期；

在用户提出的问题对应的答案语音可以在第二存储区查找到的情况下，判断当前时刻是否处于该答案语音的有效期内；

若否，则将问题发送至网络侧；

接收来自网络侧反馈的问题的答案并更新到第二存储区中。

可选地，在存储空间的问题和答案语音的存储数量已达上限且需要新增的情况下，删除存储空间中被调用频次最低的问题和对应的答案语音。

在一些实施例中，用于减少语音响应时间的装置包括：处理器和存储有程序指令的存储器，所述处理器被配置为在运行所述程序指令时，执行如上述实施例中任一项的用于减少语音响应时间的方法。

在一些实施例中，语音设备包括：

如上述实施例所述的用于减少语音响应时间的装置。

本公开实施例提供的用于减少语音响应时间的方法、装置、存储介质和语音设备，可以实现以下技术效果：

本申请通过将用户提出过的问题的答案语音，提前存储于存储空间中。进而在遇到该语音问题时，直接在存储空间中查找该问题所对应的答案语音。从而节省了从网络侧搜索答案和重新合成语音的时间。从方案本质上而言，是通过新增了对部分重复性问题和答案语音的缓存机制，从而直接记录了用户可能经常问的一些问题的答案语音，从而减少部分问题的语音响应时间。

以上的总体描述和下文中的描述仅是示例性和解释性的，不用于限制本申请。

附图说明

一个或多个实施例通过与之对应的附图进行示例性说明，这些示例性说明和附图并不构成对实施例的限定，附图中具有相同参考数字标号的元件示为类似的元件，附图不构成比例限制，并且其中：

图1是本公开实施例提供的一种用于减少语音响应时间的方法的示意图；

图2是本公开实施例提供的另一种用于减少语音响应时间的方法的示意图；

图3是本公开实施例提供的一种将网络侧获得的答案语音进行存储的方法的示意图；

图4是本公开实施例提供的一种对第二存储区答案语音进行更新的方法的示意图；

图5是本公开实施例提供的另一种对第二存储区答案语音进行更新的方法的示意图；

图6是本公开实施例提供的一种用于减少语音响应时间的装置的结构示意图。

具体实施方式

为了能够更加详尽地了解本公开实施例的特点与技术内容，下面结合附图对本公开实施例的实现进行详细阐述，所附附图仅供参考说明之用，并非用来限定本公开实施例。在以下的技术描述中，为方便解释起见，通过多个细节以提供对所披露实施例的充分理解。然而，在没有这些细节的情况下，一个或多个实施例仍然可以实施。在其它情况下，为简化附图，熟知的结构和装置可以简化展示。

本公开实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开实施例的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含。

除非另有说明，术语“多个”表示两个或两个以上。

本公开实施例中，字符“/”表示前后对象是一种“或”的关系。例如，A/B表示：A或B。

术语“和/或”是一种描述对象的关联关系，表示可以存在三种关系。例如，A和/或B，表示：A或B，或，A和B这三种关系。

术语“对应”可以指的是一种关联关系或绑定关系，A与B相对应指的是A与B之间是一种关联关系或绑定关系。

目前，语音设备都可以识别用户的语音指令。通过对语音指令的解析，判断出用户想要提出的问题。而语音响应的过程包括从设备接收到用户的问题语音一直到将答案输出给用户。但目前的语音识别方案中，无论用户提出的问题是什么，在设备内部都会先将语音转化为音频数据，进而去寻找该音频数据所对应的答案。在找到答案后，再将答案进行TTS(Text to Speech，语音合成技术)处理变成语音输出给用户。这个过程大大增加了语音响应的时长。相关技术中为解决此问题，采用如将音频分块，边译边传送的方式，而不再等语音全部译完再整体发送，从而减少了语音响应的时间。

而本申请考虑到，在用户提出的语音问题中，有些问题是经常问的且答案固定，而有些问题答案是随时间在变化的。所以引入了对问题及答案语音进行缓存的思路。且根据的问题类型，将存储空间分为两个区域，一个区域用于存储答案固定的问题，并将这部分答案的答案语音直接存储。从而减少了这类答案多次进行语音合成的时间。另一区域用于存储答案不固定的问题，虽然对这类问题的答案语音也一并存储，但这类问题的答案语音并不是一定有效。因此，会后续对该类问题的答案语音进行更新。更新方式既可以定期自动更新，也可以采用问题被用户再次问到后才更新的方式。通过新增了对部分重复性问题和答案语音的缓存机制，从而直接记录了用户可能经常问的一些问题的答案语音，从而减少部分问题的语音响应时间。

在这些语音设备中，都有用于实现控制逻辑的语音装置。如本申请中的用于减少语音响应时间的装置，其中包括处理器和存储器。所述处理器在执行时可实现用于减少语音响应时间的方法。

下面结合图1对本申请实施例提供一种用于减少语音响应时间的方法进行说明。用于减少语音响应时间的方法包括：

S101，处理器对用户的语音信息进行识别，得到用户的问题。

S102，处理器在本设备的存储空间查找问题的答案语音。

S103，处理器将答案语音输出给用户。

在本申请实施例中，通过将用户提出过的问题的答案语音，提前存储于存储空间中。进而在遇到该语音问题时，处理器可以直接在存储空间中查找该问题所对应的答案语音。从而节省了再次从网络侧搜索答案和重新合成语音的时间。从方案本质上而言，是通过新增了对部分重复性问题和答案语音的缓存机制，从而直接记录了用户可能经常问的一些问题的答案语音，进而减少部分问题的语音响应时间。

可选地，问题的类型包括静态问题和动态问题。在本设备的存储空间查找问题的答案语音的步骤，具体包括：在问题为静态问题的情况下，处理器在第一存储区查找问题的答案语音。在问题为动态问题的情况下，处理器在第二存储区查找问题的答案语音。

其中，静态问题为固定答案的问题，动态问题为不固定答案或答案随时间变化的问题。第一存储区为本地存储区，用于存放静态问题及对应的答案语音。第二存储区为缓存区，本质上也属于存储区，但与第一存储区进行区分，用于存放动态问题及对应的答案语音。

在该实施例中，根据的问题类型，将存储空间分为两个区域。其中一个区域用于存储答案固定的问题，例如“沈阳市的市花是什么？”，从而直接将该问题的答案的答案语音存储。进而减少了这类答案多次进行语音合成的时间。另一区域用于存储答案不固定的问题，例如“今天天气怎么样”。我们知道，天气每天都不一致，那么每过一天就需要更新一次对应的答案，需要到网络侧去搜索答案。但如果用户今天问过了该问题，而其他用户在今天又一次问出该问题时，可以直接调用存储在第二存储区对应的答案语音，从而也减少了搜索和进行语音合成的时间。

结合上述方案，如图2所示，提供了另一种用于减少语音响应时间的方法。包括：

S201，处理器对用户的语音信息进行识别，得到用户的问题。

S202，处理器判断问题是否是静态问题。若是，进入S2031；若否，进入S2032。

S2031，处理器在第一存储区查找问题的答案语音。

S2032，处理器在第二存储区查找问题的答案语音。

S204，处理器将答案语音输出给用户。

在本实施例中，对具体从存储空间查找答案语音的过程进行了说明。其中，静态问题为固定答案的问题，动态问题为不固定答案或答案随时间变化的问题。第一存储区为本地存储区，用于存放静态问题及对应的答案语音。第二存储区为缓存区，用于存放动态问题及对应的答案语音。第二存储区本质上也属于存储区，但与第一存储区进行区分。在获取了用户的语音问题后，处理器会判断用户提出的问题是静态问题还是动态问题。如果问题是静态的就在第一存储区去寻找对应的答案语音；如果问题是动态的就在第二存储区去寻找对应的答案语音，从而节省了多次通过网络寻找和合成语音的时间。

可选地，如果在第一存储区和第二存储区都没查找到答案语音的情况下，则通过网络侧得到问题的答案语音。具体步骤包括：处理器将问题发送至网络侧。处理器接收来自网络侧反馈的问题的答案。处理器将问题的答案进行语音合成处理，得到问题的答案语音。并且在得到问题的答案语音后，若问题为静态问题，则处理器将问题和答案语音存储于第一存储区。若问题为动态问题，处理器将问题和答案语音存储于第二存储区。

如图3所示，对第一存储区和第二存储区内没有找到答案语音，进而去网络侧搜索后再存入存储空间的方法进行了说明。该方法包括：

S301，处理器对用户的语音信息进行识别，得到用户的问题。

S302，处理器在本设备的存储空间查找问题的答案语音。

S303，处理器在存储空间未查找到问题的答案语音的情况下，通过网络侧得到问题的答案语音。

S304，处理器在第一存储区或第二存储区未查找到问题的答案语音的情况下，通过网络侧得到问题的答案语音。

S305，处理器判断问题是否是静态问题。若是，进入S3061；若否，进入S3062。

S3061，处理器将问题和答案语音存储于第一存储区。

S3062，处理器将问题和答案语音存储于第二存储区。

在本实施例中，对在存储空间中没有搜索到答案语音的情况进行了说明。事实上也即是用户第一次提出某问题时的情况。在用户第一次提出某问题时，存储空间没有存储相对应的答案语音。所以都是通过网络侧来获取答案。但是在获取答案后，处理器会根据用户提出的问题的类型，判断是否是静态还是动态问题。进而将问题和答案对应存储到相应的存储区。从而在用户第二次提出该问题时，可以尽可能的减少语音响应的时间。

值得说明的是，由于第一存储区一般答案都不会变，所以可以在产品或设备出厂时，提前设置一些常见问题的答案语音。同理，第二存储区也可以设置一些问题的答案语音。如果出厂时并未设置，则直接通过如图3中所述的方式，将问题和答案语音新增到第一存储区或第二存储区。用户在第二次问出同样问题时，可以最大程度的减少了上网搜索和合成语音的时间，从而尽可能的减少了语音响应的时间。

在上述实施例中，由于第二存储区的动态问题的答案，并不是完全不变的。因此，对于第二存储区的答案语音，还需要进行更新。如图4所示，提供了一种对第二存储区存储的答案语音进行更新的方法，包括：

S401，处理器在检测第二存储区有新增问题和答案语音的情况下，获取问题的时间属性。

S402，处理器根据时间属性，按预设关系得到问题的更新周期T。

S403，处理器按更新周期T，对该问题对应的答案语音进行更新。

在本实施例中，在第二存储区有新增的问题和答案语音的情况下，获取了问题的时间属性，且一并记录在存储器中。例如，当新增问题是“天气”如何时，那么时间属性T可以标记为12小时或24小时，每隔12小时或24小时更新一次该答案。当新增问题时“xxx股票行情时”，那么可以对该问题设置对应的更新时间段。在该只股票开盘交易期间的最后时刻，作为更新时间点，其余时间不更新。在获取答案再转化为答案语音替换掉之前的答案。通过该种方式，基本只要是用户问过的问题，在第二次都可以极大程度的减少语音响应的时间。

在该实施例中，当第一存储区或第二存储区中内存存满且有新增的情况下，则优先删除被调用频次最低的问题和对应的答案语音。也即是将用户不常提出的问题删除，从而获得更大的空间。有利于其他问题和答案语音的存储。

通过上述的方式，可以最大程度的减少语音相应的时间，但是对于这些动态类问题的定期更新，会较大的耗费网络资源。如图5所示，提供了另一种对第二存储区存储的答案语音进行更新的方法，包括：

S501，在检测第二存储区有新增问题和答案语音的情况下，确定答案语音的有效期。

S502，在第二存储区存有用户提出问题的答案语音的情况下，判断当前时刻是否处于答案语音的有效期内。

S503，在当前时刻不在答案语音的有效期内的情况下，通过网络侧得到问题的答案语音，并对已存储的答案语音进行更新。

在该实施例中，提出了另一种对第二存储区答案语音进行更新的方法。在第二存储区有新增的问题和答案语音的情况下，确定该答案语音的有效期。还是以天气为例，有效期可以设置为12小时或24小时。当用户再次提出相同问题时，先判断当前时间是否在有效期内。如果已经超出了有效期，则需要去网络侧得到该问题的答案语音，并重新进行更新。通过该种方式，也即是用户再次提出该问题时，再进行更新，网络资源消耗较小。

结合图6所示，本公开实施例提供了一种用于减少语音响应时间的装置，包括处理器(Processor)600和存储器(Memory)601。可选地，该装置还可以包括通信接口(Communication Interface)602和总线603。其中，处理器600、通信接口602、存储器601可以通过总线603完成相互间的通信。通信接口602可以用于信息传输。处理器600可以调用存储器601中的逻辑指令，以执行上述实施例的用于减少语音响应时间的方法。

此外，上述的存储器601中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

存储器601作为一种存储介质，可用于存储软件程序、计算机可执行程序，如本公开实施例中的方法对应的程序指令/模块。处理器600通过运行存储在存储器601中的程序指令/模块，从而执行功能应用以及数据处理，即实现上述实施例中用于减少语音响应时间的方法。

存储器601可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端设备的使用所创建的数据等。此外，存储器601可以包括高速随机存取存储器，还可以包括非易失性存储器。

以上描述和附图充分地示出了本公开的实施例，以使本领域的技术人员能够实践它们。其他实施例可以包括结构的、逻辑的、电气的、过程的以及其他的改变。实施例仅代表可能的变化。除非明确要求，否则单独的部件和功能是可选的，并且操作的顺序可以变化。一些实施例的部分和特征可以被包括在或替换其他实施例的部分和特征。而且，本申请中使用的用词仅用于描述实施例并且不用于限制权利要求。如在实施例以及权利要求的描述中使用的，除非上下文清楚地表明，否则单数形式的“一个”(a)、“一个”(an)和“所述”(the)旨在同样包括复数形式。类似地，如在本申请中所使用的术语“和/或”是指包含一个或一个以上相关联的列出的任何以及所有可能的组合。另外，当用于本申请中时，术语“包括”(comprise)及其变型“包括”(comprises)和/或包括(comprising)等指陈述的特征、整体、步骤、操作、元素，和/或组件的存在，但不排除一个或一个以上其它特征、整体、步骤、操作、元素、组件和/或这些的分组的存在或添加。在没有更多限制的情况下，由语句“包括一个…”限定的要素，并不排除在包括所述要素的过程、方法或者设备中还存在另外的相同要素。本文中，每个实施例重点说明的可以是与其他实施例的不同之处，各个实施例之间相同相似部分可以互相参见。对于实施例公开的方法、产品等而言，如果其与实施例公开的方法部分相对应，那么相关之处可以参见方法部分的描述。

本领域技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，可以取决于技术方案的特定应用和设计约束条件。所述技术人员可以对每个特定的应用来使用不同方法以实现所描述的功能，但是这种实现不应认为超出本公开实施例的范围。所述技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

附图中的流程图和框图显示了根据本公开实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这可以依所涉及的功能而定。在附图中的流程图和框图所对应的描述中，不同的方框所对应的操作或步骤也可以以不同于描述中所披露的顺序发生，有时不同的操作或步骤之间不存在特定的顺序。例如，两个连续的操作或步骤实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这可以依所涉及的功能而定。框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

Claims

1.一种用于减少语音响应时间的方法，其特征在于，包括：

对用户的语音信息进行识别，得到用户的问题；

在本设备的存储空间查找所述问题的答案语音；

将答案语音输出给用户。

2.根据权利要求1所述的方法，其特征在于，所述问题的类型，包括静态问题和动态问题；所述在本设备的存储空间查找所述问题的答案语音，包括：

在所述问题为静态问题的情况下，在第一存储区查找所述问题的答案语音；

在所述问题为动态问题的情况下，在第二存储区查找所述问题的答案语音。

3.根据权利要求2所述的方法，其特征在于，还包括：

在所述第一存储区或所述第二存储区未查找到所述问题的答案语音的情况下，通过网络侧得到所述问题的答案语音。

4.根据权利要求3所述的方法，其特征在于，所述通过网络侧得到所述问题的答案语音，包括：

将所述问题发送至网络侧；

接收来自网络侧反馈的所述问题的答案；

将所述问题的答案进行语音合成处理，得到所述问题的答案语音。

5.根据权利要求4所述的方法，其特征在于，在得到所述问题的答案语音后，还包括：

若所述问题为静态问题，将所述问题和答案语音存储于所述第一存储区；

若所述问题为动态问题，将所述问题和答案语音存储于所述第二存储区。

6.根据权利要求2至5中任一项所述的方法，其特征在于，还包括：

对所述第二存储区存储的答案语音进行更新。

7.根据权利要求6所述的方法，其特征在于，对所述第二存储区存储的答案语音进行更新，包括：

在检测所述第二存储区有新增问题和答案语音的情况下，获取所述问题的时间属性；

根据时间属性，按预设关系得到所述问题的更新周期T；

按更新周期T，对该问题对应的答案语音进行更新。

8.一种用于减少语音响应时间的装置，包括处理器和存储有程序指令的存储器，其特征在于，所述处理器被配置为在运行所述程序指令时，执行如权利要求1至7中任一项所述的用于减少语音响应时间的方法。

9.一种存储介质，存储有程序指令，其特征在于，所述程序指令在运行时，执行如权利要求1至7任一项所述的用于减少语音响应时间的方法。

10.一种语音设备，其特征在于，包括：

如权利要求8所述的用于减少语音响应时间的装置。