CN107103899B

CN107103899B - 输出语音消息的方法和装置

Info

Publication number: CN107103899B
Application number: CN201710271718.8A
Authority: CN
Inventors: 王倩
Original assignee: Beijing Xiaomi Mobile Software Co Ltd
Current assignee: Beijing Xiaomi Mobile Software Co Ltd
Priority date: 2017-04-24
Filing date: 2017-04-24
Publication date: 2020-06-19
Anticipated expiration: 2037-04-24
Also published as: CN107103899A

Abstract

本公开涉及一种输出语音消息的方法和装置。该方法应用于语音助手的远端服务器，语音助手的远端服务器可以从用户历史发送的语音消息中获取用户的语音特征，并根据用户的语音特征以及待输出的消息内容合成语音消息，输出语音消息。增加了语音助手的趣味性和亲切感，提高用户的使用感受。

Description

输出语音消息的方法和装置

技术领域

本公开涉及信息技术领域，尤其涉及输出语音消息的方法和装置。

背景技术

随着语音识别技术的出现并逐渐成熟，语音助手应运而生，越来越多的用户选择在终端上安装语音助手应用程序客户端。

一方面用户可以通过语音助手应用程序客户端发送语音信息向终端下达指令，使终端进行处理，另一方面终端可以通过语音助手应用程序客户端向用户告知相关消息。

然而相关技术中，语音助手应用程序客户端输出的语音消息都是千篇一律的，不同的用户听到的语音消息的语音语调等都是相同的，缺乏趣味性和亲切感，用户的使用感受差。

发明内容

为克服相关技术中存在的问题，本公开提供一种输出语音消息的方法和装置。

根据本公开实施例的第一方面，提供一种输出语音消息的方法，应用于服务器，包括：

根据用户历史发送的语音消息，获取所述用户的语音特征；

根据所述语音特征对待输出的消息内容进行语音合成，得到具有所述语音特征的语音消息；

输出所述语音消息；

其中，所述根据用户历史发送的语音消息，获取所述用户的语音特征，包括：

确定所述用户发送所述历史发送的语音消息时的场景；

获取与所述用户发送所述历史发送的语音消息时的场景对应的语音特征；

所述根据所述语音特征对待输出的消息内容进行语音合成，得到具有所述语音特征的语音消息，包括：

确定所述用户当前所处的场景；

确定与所述用户当前所处的场景对应的语音特征；

对所述待输出的消息内容进行语音合成，得到具有与所述用户当前所处的场景对应的语音特征的语音消息。

可选地，所述根据用户历史发送的语音消息，获取所述用户的语音特征，包括：

将所述历史发送的语音消息保存为所述语音特征；

当所述待输出的消息内容包括与所述历史发送的语音消息相匹配的内容时，利用所述历史发送的语音消息的语音特征进行语音合成。

从所述历史发送的语音消息中获取包括所述用户的习惯用语的语音特征；

当所述待输出的消息内容包括相匹配的习惯用语时，利用包括所述用户的习惯用语的语音特征进行语音合成。

可选地，所述方法还包括：

确定所述用户当前所处的场景；

根据所述用户当前所处的场景，确定所述待输出的消息内容。

根据本公开实施例的第二方面，提供一种输出语音消息的装置，应用于服务器，包括：

获取模块，用于根据用户历史发送的语音消息，获取所述用户的语音特征；

合成模块，用于根据所述语音特征对待输出的消息内容进行语音合成，得到具有所述语音特征的语音消息；

输出模块，用于输出所述语音消息；

其中，所述获取模块包括：

第一确定子模块，用于确定所述用户发送所述历史发送的语音消息时的场景；

第二获取子模块，用于获取与所述用户发送所述历史发送的语音消息时的场景对应的语音特征；

所述合成模块包括：

第二确定子模块，用于确定所述用户当前所处的场景，以及确定与所述用户当前所处的场景对应的语音特征；

第三合成子模块，用于对所述待输出的消息内容进行语音合成，得到具有与所述用户当前所处的场景对应的语音特征的语音消息。

可选地，所述获取模块包括：

保存子模块，用于将所述历史发送的语音消息保存为所述语音特征；

所述合成模块包括：

第一合成子模块，用于当所述待输出的消息内容包括与所述历史发送的语音消息相匹配的内容时，利用所述历史发送的语音消息的语音特征进行语音合成。

可选地，所述获取模块包括：

第一获取子模块，用于从所述历史发送的语音消息中获取包括所述用户的习惯用语的语音特征；

所述合成模块包括：

第二合成子模块，用于当所述待输出的消息内容包括相匹配的习惯用语时，利用包括所述用户的习惯用语的语音特征进行语音合成。

可选地，所述装置还包括：

第一确定模块，用于确定所述用户当前所处的场景；

第二确定模块，用于根据所述用户当前所处的场景，确定所述待输出的消息内容。

根据本公开实施例的第三方面，提供一种输出语音消息的装置，应用于服务器，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为：

根据用户历史发送的语音消息，获取所述用户的语音特征；

输出所述语音消息；

确定所述用户发送所述历史发送的语音消息时的场景；

确定所述用户当前所处的场景；

确定与所述用户当前所处的场景对应的语音特征；

本公开的实施例提供的技术方案可以包括以下有益效果：语音助手的远端服务器从用户历史发送的语音消息中获取用户的语音特征，并根据用户的语音特征合成语音消息，发送给语音助手应用程序客户端。增加了语音助手的趣味性和亲切感，提高用户的使用感受。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种输出语音消息的方法的流程图。

图2是根据一示例性实施例示出的一种输出语音消息的方法的另一流程图。

图3是根据一示例性实施例示出的一种输出语音消息的方法的另一流程图。

图4是根据一示例性实施例示出的一种输出语音消息的方法的另一流程图。

图5是根据一示例性实施例示出的一种输出语音消息的方法的另一流程图。

图6是根据一示例性实施例示出的一种输出语音消息的方法的另一流程图。

图7是根据一示例性实施例示出的一种输出语音消息的装置的框图。

图8是根据一示例性实施例示出的一种输出语音消息的装置的另一框图。

图9是根据一示例性实施例示出的一种输出语音消息的装置的另一框图。

图10是根据一示例性实施例示出的一种输出语音消息的装置的另一框图。

图11是根据一示例性实施例示出的一种输出语音消息的装置中的获取模块的框图。

图12是根据一示例性实施例示出的一种输出语音消息的装置中的合成模块的框图。

图13是根据一示例性实施例示出的一种输出语音消息的装置1300的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

随着手机的发展，手机的功能越来越丰富强大。在语音识别技术出现并逐渐成熟之后，语音助手应用应运而生，而且得到了广泛的推广，目前很多手机上都安装有语音助手应用程序客户端。一方面，用户可以通过终端安装的语音助手应用程序客户端向语音助手的远端服务器发送语音消息的指令，语音助手的远端服务器在对语音消息进行识别之后，将识别出的结果输出给语音助手应用程序客户端，再由语音助手应用程序客户端向终端下达指令，比如，用户可以通过语音助手控制终端开启拍照功能，用户可以通过语音助手控制终端播放歌曲；另一方面，终端可以将消息内容通过安装在终端的语音助手应用程序客户端发送给语音助手的远端服务器，语音助手服务器再将消息内容合成为相关的语音消息发送给语音助手应用程序客户端，通过语音助手应用程序客户端向用户告知相关的语音消息，比如，向用户进行问好，向用户播报当天日期，向用户语音播报当前的天气情况等，给用户提供更多的智能化的服务，给用户带来很多方便。

然而，用户在使用语音助手的时候，不同的用户听到的语音助手的语音消息的语音特征都是相同的，不能根据用户的实际状况进行个性化定制，使得用户的使用语音助手的时候缺乏趣味性和亲切感，用户的使用感受较差。

为解决以上问题，本公开提供了输出语音消息的方法和装置，下面分别进行说明。请参考图1，图1是根据一示例性实施例示出的一种输出语音消息的方法的流程图，如图1所述，该方法包括步骤S11、步骤S12以及步骤S13。在对图1所示的方法做出的说明中，如未特别说明，“服务器”指与语音助手相关联的远端服务器。下面依次对各个步骤进行说明。

在步骤S11中，根据用户历史发送的语音消息，获取所述用户的语音特征。

用户的使用语音助手的时候，会通过语音助手应用程序客户端向服务器发送语音消息，这样，服务器在接收到语音消息之后对用户历史发送的语音消息进行分析及统计，确定出用户的语音特征，将语音特征保存在数据库中。本公开中，语音特征包括用户的语音、语调、语速、音色、音量、习惯用语等特征。比如，服务器根据用户历史发送的语音消息确定出用户的语音特征为：语速为每分钟130字；音量较大；语调轻快；习惯用语包括例如“晓得”、“撒子”、“哦”等四川口音。

在步骤S12中，根据所述语音特征对待输出的消息内容进行语音合成，得到具有所述语音特征的语音消息；

在步骤S13中，输出所述语音消息。

本公开中，在获取到用户的语音特征之后，当需要语音助手应用程序客户端输出语音消息的时候，服务器从数据库中调用出用户的语音特征，并根据待输出的消息内容，进行语音合成，合成语音特征与用户的语音特征相同的语音消息，并将语音消息输出给安装在终端的语音助手应用程序客户端，这样语音助手应用程序客户端就能将具有用户语音特征的语音消息输出给用户，提高用户的使用感受，增加语音助手的亲切感和趣味性。

可选地，请参考图2，图2是根据一示例性实施例示出的一种输出语音消息的方法的另一流程图。如图2所示，该方法包括步骤S201、步骤S202、以及以上所述的步骤S13。

在步骤S201中，将所述历史发送的语音消息保存为所述语音特征；

在步骤S202中，当所述待输出的消息内容包括与所述历史发送的语音消息相匹配的内容时，利用所述历史发送的语音消息的语音特征进行语音合成。

本公开中，由于服务器在获取用户语音特征的时候，需要对全部的历史发送的语音消息进行分析及统计，工作量较大，而且当接收到用户新发送的语音消息的时候，需要重新进行分析、统计，进一步提高了服务器的工作负荷；并且获取到的语音特征与用户历史发送的语音信息的语音特征并不是一一对应的，一些历史发送的语音消息的语音特征可能与统计出的语音特征并不相同。当服务器以分析及统计出的语音特征合成语音消息时，如果服务器输出的语音消息的内容包括这些历史语音消息的内容时，则与这些历史采集的语音消息原本的语音特征不匹配，降低用户的使用感受。

所以，本公开中，服务器可以针对用户历史发送的每条语音消息进行分析，获取与该条历史发送的语音消息相对应的语音特征，并保存在数据库中。当需要语音助手应用程序客户端向用户输出语音消息的时候，服务器获取到待输出的消息内容，以及保存在数据库中的历史发送的语音消息的内容。检测待输出的消息内容是否包括历史发送的语音消息的内容，如果包括，则可以直接从数据库中获取到该条历史发送的语音消息的语音特征，并利用相应的语音特征进行语音合成。

通过本实施例的方法，可以针对每条历史发送的语音消息进行分析，并获取相对应的语音特征，如果历史发送的语音消息的内容包含在待输出的消息内容中，则直接利用历史发送的语音消息的语音特征进行语音合成，更加符合用户的语音特征，提高用户的使用感受，减小服务器的工作负荷。

可选地，请参考图3，图3是根据一示例性实施例示出的一种输出语音消息的方法的另一流程图。如图3所示，该方法包括步骤S301、步骤S302、以及以上所述的步骤S13。

在步骤S301中，从所述历史发送的语音消息中获取包括所述用户的习惯用语的语音特征；

在步骤S302中，当所述待输出的消息内容包括相匹配的习惯用语时，利用包括所述用户的习惯用语的语音特征进行语音合成。

不同的用户说话的言辞习惯不同，在说话的时候的所携带的习惯用语也会不同，比如，有的用户会在习惯在一句话的结尾加个“哦”，再比如有的用户会习惯说“早上”而不习惯说“早晨”。本公开中，可以对用户历史发送的语音消息进行分析及统计，获取到用户的习惯用语，并检测待输出的消息内容是否包括用户的习惯用语，如果包括，则可以利用用户的习惯用语进行语音合成。

示例地，服务器对于接收到的用户发送的历史消息进行分析统计，确定出用户的习惯用语包括“早上好”，“啥”，“咱们”，“呦”。当服务器确定出待输出消息的内容时，服务器会将待输出消息的内容与已存储的习惯用语进行比较，查看待输出的消息内容是否包括相匹配的习惯用语，如果待输出的消息内容是向用户问候早上好，则表明待输出的消息内容包括用户的习惯用语“早上好”和“呦”，则可以根据“早上好”和“呦”的习惯用语合成“早上好呦”的语音消息。

通过本实施例的方法，可以从历史发送的语音消息中获取到用户的习惯用语，并利用用户的习惯用户合成语音消息，使得输出的语音消息更符合用户的用语习惯，提升用户的使用感受。

用户在使用终端的时候会发生场景变化的情况，而用户并未发现这些场景变化，这样可能会对用户带来不便，比如用户所在的地区温度较低，但是用户未能及时获取到温度信息；又比如，用户所在的地区出现恶劣天气，但是用户未能及时获取到天气变化信息，导致用户受到恶劣天气的侵害，诸如此类，给用户带来很多的不便。为解决以上问题，本公开中在向用户发送语音消息的时候，可以先确定用户当前所处的场景，再根据场景确定出待输出的消息内容。

可选地，请参考图4，图4是根据一示例性实施例示出的一种输出语音消息的方法的另一流程图。如图4所示，该方法包括步骤S401、步骤S402、以及以上所述的步骤S11、S12和S13。

在步骤S401中，确定所述用户当前所处的场景；

在步骤S402中，根据所述用户当前所处的场景，确定所述待输出的消息内容。

首先，服务器可以先确定出用户当前所处的场景。本公开中，场景包括用户当前所处的位置、用户当前所处位置的温度、湿度、天气等以及用户当前使用终端时的时间等。比如，服务器可以根据终端设置的定位模块确定出用户当前所处的位置；服务器可以接入网络，从网络上获取用户当前所处位置的温度、湿度、天气等；用户在使用终端时，服务器可以获取用户当前使用终端时的时间。

然后，服务器根据已经确定出的场景，确定出与场景相匹配的待输出的消息内容。比如，服务器检测到用户在凌晨两点在使用终端，则这时可以输出语音消息提醒用户早点休息，不要工作到太晚；又比如，服务器检测到用户所在的城市正在下雪，则可以输出语音消息提醒用户及时添加衣物，并提醒用户在户外行走时注意防滑。

通过本实施例的方法，可以根据用户当前所处的场景向用户输出语音消息，使得语音助手更加人性化，进一步提高了用户的使用感受。

可选地，请参考图5，图5是根据一示例性实施例示出的一种输出语音消息的方法的另一流程图。如图5所示，该方法包括步骤S501、步骤S502。

在步骤S501中，确定所述用户发送所述历史发送的语音消息时的场景；

在步骤S502中，获取与所述用户发送所述历史发送的语音消息时的场景对应的语音特征。

用户在发送语音消息的时候，所处的场景不同，则相对应的语音特征也会不同，比如，在晚上时用户发送的语音消息的语调会比较慵懒，在早上时用户发送的语音消息的语调会比较轻快；又比如，用户在办公室会用普通话发送语音消息，在家时会用四川话发送语音消息。如果服务器发送的语音消息的语音特征与用户所处的场景不匹配，比如，在早上时输出语调较慵懒的语音消息，或者服务器在用户位于办公室时输出四川口音的语音消息，则会令用户感到不适，降低用户的使用感受。

所以本公开的实施例中，可以对语音特征按照场景进行分类，服务器首先确定出用户历史发送的语音消息时的场景，再获取该场景下的语音特征。这样服务器在合成语音消息时，就可以根据用户当前的场景确定出与当前场景对应的语音特征，合成语音消息。

通过本实施例的方法，可以根据用户历史发送语音消息时的场景，对语音特征进行分类，使得服务器在输出语音消息时，更加符合用户的实际使用状况，提高用户使用感受。

可选地，请参考图6，图6是根据一示例性实施例示出的一种输出语音消息的方法的另一流程图。如图6所示，该方法包括步骤S601、步骤S602和步骤S603。

在步骤S601中，确定所述用户当前所处的场景；

在步骤S602中，确定与所述用户当前所处的场景对应的语音特征；

在步骤S603中，对所述待输出的消息内容进行语音合成，得到具有与所述用户当前所处的场景对应的语音特征的语音消息。

本公开中，在合成语音消息时，可以先确定出用户的当前所处的场景，并确定出与当前所处的场景对应的语音特征，利用与用户当前所处的场景相匹配的语音特征合成语音消息。示例地，服务器在向用户输出语音消息时，首先检测用户当前所处的场景，如果检测到用户当前使用手机助手时的时间为早上，则在数据库中，获取与早上相对应的语音特征，若用户在早上的语调较轻快，则服务器可以按照较轻快的语调合成语音消息，并输出。

通过本公开提供的方法，可以使得服务器合成的语音消息更加符合用户的实际使用情况，提高用户使用感受。

本公开还提供一种输出语音消息的装置，该装置用于执行前述输出语音消息的方法，可配置于服务器中。请参考图7，图7是根据一示例性实施例示出的一种输出语音消息的装置的框图。如图7所示，该装置10包括获取模块11、合成模块12和输出模块13。

获取模块11，用于根据用户历史发送的语音消息，获取所述用户的语音特征；

合成模块12，用于根据所述语音特征对待输出的消息内容进行语音合成，得到具有所述语音特征的语音消息；

输出模块13，用于输出所述语音消息。

可选地，请参考图8，图8是根据一示例性实施例示出的一种输出语音消息的装置的另一框图。如图8所示，该装置10包括获取模块11、合成模块12和输出模块13，其中，所述获取模块11包括：

保存子模块111，用于将所述历史发送的语音消息保存为所述语音特征；

所述合成模块12包括：

第一合成子模块121，用于当所述待输出的消息内容包括与所述历史发送的语音消息相匹配的内容时，利用所述历史发送的语音消息的语音特征进行语音合成。

可选地，请参考图9，图9是根据一示例性实施例示出的一种输出语音消息的装置的另一框图。如图9所示，该装置10包括获取模块11、合成模块12和输出模块13，其中，所述获取模块11包括：

第一获取子模块112，用于从所述历史发送的语音消息中获取包括所述用户的习惯用语的语音特征；

所述合成模块12包括：

第二合成子模块122，用于当所述待输出的消息内容包括相匹配的习惯用语时，利用包括所述用户的习惯用语的语音特征进行语音合成。

可选地，请参考图10，图10是根据一示例性实施例示出的一种输出语音消息的装置的另一框图。如图10所示，所述装置10还包括：

第一确定模块14，用于确定所述用户当前所处的场景；

第二确定模块15，用于根据所述用户当前所处的场景，确定所述待输出的消息内容。

可选地，请参考图11，图11是根据一示例性实施例示出的一种输出语音消息的装置中的获取模块的框图。如图11所示，所述获取模块11包括：

第一确定子模块113，用于确定所述用户发送所述历史发送的语音消息时的场景；

第二获取子模块114，用于获取与所述用户发送所述历史发送的语音消息时的场景对应的语音特征。

可选地，请参考图12，图12是根据一示例性实施例示出的一种输出语音消息的装置中的合成模块的框图。如图12所示，所述合成模块12包括：

第二确定子模块123，用于确定所述用户当前所处的场景，以及确定与所述用户当前所处的场景对应的语音特征；

第三合成子模块124，用于对所述待输出的消息内容进行语音合成，得到具有与所述用户当前所处的场景对应的语音特征的语音消息。

图13是根据一示例性实施例示出的一种输出语音消息的装置1300的框图。例如，装置1300可以被提供为一服务器。参照图13，装置1300包括处理组件1322，其进一步包括一个或多个处理器，以及由存储器1332所代表的存储器资源，用于存储可由处理组件1322的执行的指令，例如应用程序。存储器1332中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件1322被配置为执行指令，以执行上述输出语音消息的方法。

装置1300还可以包括一个电源组件1326被配置为执行装置1300的电源管理，一个有线或无线网络接口1350被配置为将装置1300连接到网络，和一个输入输出(I/O)接口1358。装置1300可以操作基于存储在存储器1332的操作系统，例如Windows ServerTM，MacOS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

本领域技术人员在考虑说明书及实践本公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种输出语音消息的方法，其特征在于，应用于服务器，包括：

根据用户历史发送的语音消息，获取所述用户的语音特征；

输出所述语音消息；

确定所述用户发送所述历史发送的语音消息时的场景；

确定所述用户当前所处的场景；

确定与所述用户当前所处的场景对应的语音特征；

2.根据权利要求1所述的方法，其特征在于，所述根据用户历史发送的语音消息，获取所述用户的语音特征，包括：

将所述历史发送的语音消息保存为所述语音特征；

3.根据权利要求1所述的方法，其特征在于，所述根据用户历史发送的语音消息，获取所述用户的语音特征，包括：

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

确定所述用户当前所处的场景；

5.一种输出语音消息的装置，其特征在于，应用于服务器，包括：

输出模块，用于输出所述语音消息；

其中，所述获取模块包括：

所述合成模块包括：

6.根据权利要求5所述的装置，其特征在于，所述获取模块包括：

所述合成模块包括：

7.根据权利要求5所述的装置，其特征在于，所述获取模块包括：

所述合成模块包括：

8.根据权利要求5所述的装置，其特征在于，所述装置还包括：

第一确定模块，用于确定所述用户当前所处的场景；

9.一种输出语音消息的装置，其特征在于，应用于服务器，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

根据用户历史发送的语音消息，获取所述用户的语音特征；

输出所述语音消息；

确定所述用户发送所述历史发送的语音消息时的场景；

确定所述用户当前所处的场景；

确定与所述用户当前所处的场景对应的语音特征；