CN110581918A

CN110581918A - 一种语音设备及其控制方法、服务器和计算机存储介质

Info

Publication number: CN110581918A
Application number: CN201810594377.2A
Authority: CN
Inventors: 肖群虎; 龙永文; 王新元; 谭华; 程凡; 黄源甲
Original assignee: Foshan Shunde Midea Electrical Heating Appliances Manufacturing Co Ltd
Current assignee: Foshan Shunde Midea Electrical Heating Appliances Manufacturing Co Ltd
Priority date: 2018-06-11
Filing date: 2018-06-11
Publication date: 2019-12-17
Anticipated expiration: 2038-06-11
Also published as: CN110581918B

Abstract

本发明实施例公开了一种语音设备及其控制方法、服务器和计算机存储介质。所述方法包括：获得语音设备发送的场景特征参数、使用者的特征参数和语音设备的音量，所述场景特征参数包括以下参数的至少之一：时间、语音设备所处位置、语音设备所处的环境噪音、语音设备与使用者之间的距离；基于所述场景特征参数、所述使用者的特征参数、所述语音设备的音量和音量调整模型确定所述语音设备的第一音量调整值；基于所述第一音量调整值生成音量调整指令，发送所述音量调整指令至所述语音设备。

Description

一种语音设备及其控制方法、服务器和计算机存储介质

技术领域

本发明涉及信息处理技术，具体涉及一种语音设备及其控制方法、服务器和计算机存储介质。

背景技术

语音设备是指具有语音输入与输出能力的设备，并且能够根据语义作出行为反馈。语音设备至少具备非工作状态和工作状态，语音设备在工作状态时可调节语音输出的音量。

现有技术中，音量调节需要用户触发，例如用户触发功能按键或者用户通过语音输入的方式输入指令，无法基于环境因素、场景因素自动调节。

发明内容

为解决现有存在的技术问题，本发明实施例提供一种语音设备及其控制方法、服务器和计算机存储介质。

为达到上述目的，本发明实施例的技术方案是这样实现的：

本发明实施例提供了一种语音设备控制方法，所述方法包括：

获得语音设备发送的场景特征参数、使用者的特征参数和语音设备的音量，所述场景特征参数包括以下参数的至少之一：时间、语音设备所处位置、语音设备所处的环境噪音、语音设备与使用者之间的距离；

基于所述场景特征参数、所述使用者的特征参数、所述语音设备的音量和音量调整模型确定所述语音设备的第一音量调整值；

基于所述第一音量调整值生成音量调整指令，发送所述音量调整指令至所述语音设备。

上述方案中，所述基于所述场景特征参数、所述使用者的特征参数、所述语音设备的音量和音量调整模型确定所述语音设备的音量调整值之前，所述方法还包括：

采集所述语音设备的第一样本特征数据，所述第一样本特征数据包括第一样本场景特征参数、使用者的样本特征参数和语音设备的样本音量，所述样本场景特征参数包括以下样本参数的至少之一：时间、语音设备所处位置、语音设备所处的环境噪音、语音设备与使用者之间的距离；

基于所述样本特征数据按照预设机器学习算法训练获得音量调整模型。

上述方案中，所述方法还包括：获得所述语音设备发送的第二样本特征数据，所述第二样本特征数据包括第二样本场景特征参数和第二音量调整值；

基于所述第二样本特征数据和所述使用者的样本特征参数按照所述预设机器学习算法对所述音量调整模型进行修正。

本发明实施例还提供了一种语音设备控制方法，所述方法包括：

获得场景特征参数、使用者的特征参数和语音设备的音量，所述场景特征参数包括以下参数的至少之一：时间、语音设备所处位置、语音设备所处的环境噪音、语音设备与使用者之间的距离；

发送所述场景特征参数、使用者的特征参数和语音设备的音量至服务器；

获得所述服务器的音量调整指令，基于所述音量调整指令对应的第一音量调整值调节音量。

上述方案中，所述方法还包括：获得第一样本特征数据，发送所述第一样本特征数据至所述服务器；

所述第一样本特征数据包括第一样本场景特征参数、使用者的样本特征参数和语音设备的样本音量，所述样本场景特征参数包括以下样本参数的至少之一：时间、语音设备所处位置、语音设备所处的环境噪音、语音设备与使用者之间的距离。

上述方案中，所述方法还包括：检测到音量调节指令，获得所述音量调节指令对应的第二音量调整值；

获得当前的场景特征参数，将所述第二音量调整值和所述当前的场景特征参数作为第二样本场景特征参数；

将所述第二音量调整值和所述第二样本场景特征参数发送至所述服务器。

上述方案中，所述获得场景特征参数、使用者的特征参数和语音设备的音量，包括：

在语音设备处于工作状态时，获得场景特征参数、使用者的特征参数和语音设备的音量。

上述方案中，所述方法还包括：

当所述语音设备处于工作状态时，检测所述语音设备与使用者之间的第一距离；

当所述第一距离大于预设休眠距离时，生成第一指令，基于所述第一指令控制所述语音设备切换至休眠状态。

上述方案中，所述方法还包括：

当所述语音设备处于休眠状态时，检测所述语音设备与使用者之间的第二距离；

当所述第二距离小于预设唤醒距离时，生成第二指令，基于所述第二指令控制所述语音设备切换至工作状态。

本发明实施例还提供了一种服务器，所述服务器包括：第一获取单元、确定单元和第一发送单元；其中，

所述第一获取单元，用于获得语音设备发送的场景特征参数、使用者的特征参数和语音设备的音量，所述场景特征参数包括以下参数的至少之一：时间、语音设备所处位置、语音设备所处的环境噪音、语音设备与使用者之间的距离；

所述确定单元，用于基于所述第一获取单元获得的所述场景特征参数、所述使用者的特征参数、所述语音设备的音量和音量调整模型确定所述语音设备的第一音量调整值；

所述第一发送单元，用于基于所述确定模块确定的所述第一音量调整值生成音量调整指令，发送所述音量调整指令至所述语音设备。

上述方案中，所述服务器还包括建模单元；

所述第一获取单元，还用于采集所述语音设备的第一样本特征数据，所述第一样本特征数据包括第一样本场景特征参数、使用者的样本特征参数和语音设备的样本音量，所述样本场景特征参数包括以下样本参数的至少之一：时间、语音设备所处位置、语音设备所处的环境噪音、语音设备与使用者之间的距离；

所述建模单元，用于基于所述第一获取单元获得的所述样本特征数据按照预设机器学习算法训练获得音量调整模型。

上述方案中，所述第一获取单元，还用于获得所述语音设备发送的第二样本特征数据，所述第二样本特征数据包括第二样本场景特征参数和第二音量调整值；

所述建模单元，还用于基于所述第一获取单元获得的所述第二样本特征数据和所述使用者的样本特征参数按照所述预设机器学习算法对所述音量调整模型进行修正。

本发明实施例还提供了一种语音设备，所述语音设备包括：第二获取单元、第二发送单元、接收单元和调整单元；其中，

所述第二获取单元，用于获得场景特征参数、使用者的特征参数和语音设备的音量，所述场景特征参数包括以下参数的至少之一：时间、语音设备所处位置、语音设备所处的环境噪音、语音设备与使用者之间的距离；

所述第二发送单元，用于发送所述第二获取单元获得的所述场景特征参数、使用者的特征参数和语音设备的音量至服务器；

所述接收单元，用于获得所述服务器的音量调整指令；

所述调整单元，用于基于所述接收单元获得的所述音量调整指令对应的第一音量调整值调节音量。

上述方案中，所述第二获取单元，还用于获得第一样本特征数据；所述第一样本特征数据包括第一样本场景特征参数、使用者的样本特征参数和语音设备的样本音量，所述样本场景特征参数包括以下样本参数的至少之一：时间、语音设备所处位置、语音设备所处的环境噪音、语音设备与使用者之间的距离；

所述第二发送单元，还用于发送所述第二获取单元获得的所述第一样本特征数据至所述服务器。

上述方案中，所述语音设备还包括第一检测单元，用于检测到音量调节指令，获得所述音量调节指令对应的第二音量调整值；

所述第二获取单元，还用于获得当前的场景特征参数，将所述第二音量调整值和所述当前的场景特征参数作为第二样本场景特征参数；

所述第二发送单元，还用于将所述第二获取单元获得的所述第二音量调整值和所述第二样本场景特征参数发送至所述服务器。

上述方案中，所述第二获取单元，用于在语音设备处于工作状态时，获得场景特征参数、使用者的特征参数和语音设备的音量。

上述方案中，所述语音设备还包括第二检测单元和状态切换单元；其中，

所述第二检测单元，用于当所述语音设备处于工作状态时，检测所述语音设备与使用者之间的第一距离；

所述状态切换单元，用于当所述第二检测单元获得的所述第一距离大于预设休眠距离时，生成第一指令，基于所述第一指令控制所述语音设备切换至休眠状态。

所述第二检测单元，用于当所述语音设备处于休眠状态时，检测所述语音设备与使用者之间的第二距离；

所述状态切换单元，用于当所述第二检测单元获得的所述第二距离小于预设唤醒距离时，生成第二指令，基于所述第二指令控制所述语音设备切换至工作状态。

本发明实施例还提供了一种计算机存储介质，其上存储有计算机指令，该指令被处理器执行时实现本发明实施例所述的应用于服务器的语音设备控制方法的步骤；

或者，该指令被处理器执行时实现本发明实施例所述的应用于语音设备的语音设备控制方法的步骤。

本发明实施例还提供了一种服务器，包括：用于传输数据的通讯组件、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现本发明实施例所述的应用于服务器的语音设备控制方法的步骤。

本发明实施例还提供了一种语音设备，包括：用于传输数据的通讯组件、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现本发明实施例所述的应用于语音设备的语音设备控制方法的步骤。

本发明实施例提供的语音设备及其控制方法、服务器和计算机存储介质，所述方法包括：获得语音设备发送的场景特征参数、使用者的特征参数和语音设备的音量，所述场景特征参数包括以下参数的至少之一：时间、语音设备所处位置、语音设备所处的环境噪音、语音设备与使用者之间的距离；基于所述场景特征参数、所述使用者的特征参数、所述语音设备的音量和音量调整模型确定所述语音设备的第一音量调整值；基于所述第一音量调整值生成音量调整指令，发送所述音量调整指令至所述语音设备。采用本发明实施例的技术方案，服务器基于语音设备发送的场景特征参数、使用者的特征参数和语音设备的音量，基于预先训练获得的音量调整模型自动生成匹配的音量调整值，一方面，无需用户手动调节便可以实现语音设备的音量自动调节，另一方面，实现了基于环境、场景以及使用者自身特征的音量自动调节，使调节后的音量更适用于语音设备当前所处环境、场景以及使用者自身的需求，大大提升了用户的操作体验。

附图说明

图1为本发明实施例一的语音设备控制方法的流程示意图；

图2为本发明实施例的语音控制方法的实现架构示意图；

图3为本发明实施例二的语音设备控制方法的流程示意图；

图4为本发明实施例三的语音设备控制方法的流程示意图；

图5为本发明实施例四的语音设备控制方法的流程示意图；

图6为本发明实施例的服务器的一种组成结构示意图；

图7为本发明实施例的服务器的另一种组成结构示意图；

图8为本发明实施例的服务器的一种硬件结构示意图；

图9为本发明实施例的语音设备的第一种组成结构示意图；

图10为本发明实施例的语音设备的第二种组成结构示意图；

图11为本发明实施例的语音设备的第三种组成结构示意图；

图12为本发明实施例的语音设备的一种硬件结构示意图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步详细的说明。

实施例一

本发明实施例提供了一种语音设备控制方法，应用于服务器中。图1为本发明实施例一的语音设备控制方法的流程示意图；如图1所示，所述方法包括：

步骤101：获得语音设备发送的场景特征参数、使用者的特征参数和语音设备的音量，所述场景特征参数包括以下参数的至少之一：时间、语音设备所处位置、语音设备所处的环境噪音、语音设备与使用者之间的距离。

步骤102：基于所述场景特征参数、所述使用者的特征参数、所述语音设备的音量和音量调整模型确定所述语音设备的第一音量调整值。

步骤103：基于所述第一音量调整值生成音量调整指令，发送所述音量调整指令至所述语音设备。

本实施例中，服务器与语音设备建立通讯连接，基于所述通讯连接获得所述语音设备发送的场景特征数据、使用者的特征参数和语音设备的音量。语音设备为具有语音输入和输出功能的设备，且语音设备支持根据输入的语义做出反馈，该反馈可以是与输入的语义相对应的输出语音。

本实施例中，所述场景特征参数包括以下参数的至少之一：时间、语音设备所处位置、语音设备所处的环境噪音、语音设备与使用者之间的距离。其中，时间表示当前处于白天或是夜晚，或是表示处于工作时间或是休息时间。语音设备所处的位置表征语音设备处于室内环境或是室外环境。可以理解为所述时间和语音设备所处位置均与语音设备所处的环境噪音相关联，例如当时间表示当前处于白天时环境噪音要大于处于夜晚时的环境噪音；又例如，当语音设备所处的位置表示当前处于室外环境时的环境噪音要大于处于室内环境时的环境噪音。其中，语音设备所处的环境噪音表示非语音设备发出的声音、而是语音设备周围环境产生的声音的特征参数，具体的，语音设备所处的环境噪音可通过分贝值表示。

本实施例中，使用者的特征参数具体可以为使用者的用户画像数据，用户画像数据可包括以下特征的至少之一：使用者的人群类别、个人喜好。其中，个人喜欢表示用户喜欢的音量等级或音量强度，例如可通过柔、中、强等三个音量等级表示。使用者的人群类别表示用户手动调节音量记录的音量与用户特征，该用户特征可以包括用户的职业、性格、爱好等特征。

本实施例中，服务器中预先训练获得音量调整模型，该音量调整模型基于服务器采集语音设备在先发送的样本特征数据学习训练获得。作为一种实施方式，所述基于所述场景特征参数、所述使用者的特征参数、所述语音设备的音量和音量调整模型确定所述语音设备的音量调整值之前，所述方法还包括：采集所述语音设备的第一样本特征数据，所述第一样本特征数据包括第一样本场景特征参数、使用者的样本特征参数和语音设备的样本音量，所述样本场景特征参数包括以下样本参数的至少之一：时间、语音设备所处位置、语音设备所处的环境噪音、语音设备与使用者之间的距离；基于所述样本特征数据按照预设机器学习算法训练获得音量调整模型。

其中，所述预设机器学习算法包括但不限于以下算法的至少之一：随机森林算法、逻辑回归算法、支持向量机(SVM，Support Vector Machine)等。通过所述预设机器学习算法训练获得的所述音量调整模型，输入的参数可以是场景特征参数、使用者的特征参数和语音设备的音量，输出的是与输入的参数相匹配的音量值，也可以是与语音设备的音量做差后的音量调整值(即第一音量调整值)。实际应用中，由于语音设备的使用者比较固定，因此使用者的特征参数也相对较稳定。因此在获得语音设备发送的场景特征参数和语音设备的音量时，可获得所述使用者的特征参数，也可未获得使用者的特征参数；当获得所述使用者的特征参数时，基于获得的使用者的特征参数、场景特征参数和语音设备的音量输入音量调整模型，确定述语音设备的第一音量调整值；并且将获得的使用者的特征参数替换存储的使用者的特征参数，以更新服务器中存储的与语音设备对应的使用者的特征参数；当未获得所述使用者的特征参数时，基于存储的使用者的特征参数、场景特征参数和语音设备的音量输入音量调整模型，确定述语音设备的第一音量调整值。

作为一种实施方式，所述方法还包括：获得所述语音设备发送的第二样本特征数据，所述第二样本特征数据包括第二样本场景特征参数和第二音量调整值；基于所述第二样本特征数据和所述使用者的样本特征参数按照所述预设机器学习算法对所述音量调整模型进行修正。

这里，当用户手动调节语音设备的音量时，将获得的音量调整值(记为第二音量调整值)、以及获得的第二样本特征数据进一步结合第一样本特征数据按照所述预设机器学习算法进行机器学习训练，获得修正后的音量调整模型。基于此，在本次用户手动调节语音设备的音量时，可获得音量调整值以及当前的样本特征数据，从而及时修正音量调整模型，以便于获得的第一音量调整值更符合用户的习惯、喜好等。

图2为本发明实施例的语音控制方法的实现架构示意图；本实施例的语音控制具体可参照图2所示，服务器采集对应于一语音设备的样本特征数据作为源数据，该样本特征数据为本实施例中的第一样本数据，针对第一样本数据采用预设机器学习算法进行训练获得音量调整模型。在获得设备实时发送的数据(即图2中的设备数据)时，服务器将设备数据输入音量调整模型，输出对应于该设备数据的音量调整结果，该音量调整结果可以是匹配的音量值，也可以是匹配的音量调整值。其中，设备数据可作为第二样本数据填充至样本数据中以进行机器学习训练获得修正的音量调整模型。其中，设备数据可以是语音设备启动后未经用户调整获得的数据，也可以是语音设备启动后经用户手动进行音量调整后的数据。其中，音量调整结果也可反馈至样本数据中。

采用本发明实施例的技术方案，服务器基于语音设备发送的场景特征参数、使用者的特征参数和语音设备的音量，基于预先训练获得的音量调整模型自动生成匹配的音量调整值，一方面，无需用户手动调节便可以实现语音设备的音量自动调节，另一方面，实现了基于环境、场景以及使用者自身特征的音量自动调节，使调节后的音量更适用于语音设备当前所处环境、场景以及使用者自身的需求，大大提升了用户的操作体验。

实施例二

本发明实施例还提供了一种语音设备控制方法。图3为本发明实施例二的语音设备控制方法的流程示意图；如图3所示，所述方法包括：

步骤201：获得场景特征参数、使用者的特征参数和语音设备的音量，所述场景特征参数包括以下参数的至少之一：时间、语音设备所处位置、语音设备所处的环境噪音、语音设备与使用者之间的距离。

步骤202：发送所述场景特征参数、使用者的特征参数和语音设备的音量至服务器。

步骤203：获得所述服务器的音量调整指令，基于所述音量调整指令对应的第一音量调整值调节音量。

本实施例中，语音设备与服务器建立通讯连接，基于所述通讯连接向所述服务器发送场景特征数据、使用者的特征参数和语音设备的音量。语音设备为具有语音输入和输出功能的设备，且语音设备支持根据输入的语义做出反馈，该反馈可以是与输入的语义相对应的输出语音。

本实施例中，所述场景特征参数包括以下参数的至少之一：时间、语音设备所处位置、语音设备所处的环境噪音、语音设备与使用者之间的距离。其中，时间表示当前处于白天或是夜晚，或是表示处于工作时间或是休息时间。语音设备所处的位置表征语音设备处于室内环境或是室外环境。可以理解为所述时间和语音设备所处位置均与语音设备所处的环境噪音相关联，例如当时间表示当前处于白天时环境噪音要大于处于夜晚时的环境噪音；又例如，当语音设备所处的位置表示当前处于室外环境时的环境噪音要大于处于室内环境时的环境噪音。其中，语音设备所处的环境噪音表示非语音设备发出的声音、而是语音设备周围环境产生的声音的特征参数，具体的，语音设备所处的环境噪音可通过分贝值表示。实际应用中，对于无法判定的场景特征参数中的至少部分特征数据可由用户手动输入设置。

本实施例中，使用者的特征参数具体可以为使用者的用户画像数据，用户画像数据可包括以下特征的至少之一：使用者的人群类别、个人喜好。其中，个人喜欢表示用户喜欢的音量等级或音量强度，例如可通过柔、中、强等三个音量等级表示。使用者的人群类别表示用户手动调节音量记录的音量与用户特征，该用户特征可以包括用户的职业、性格、爱好等特征。实际应用中，使用者的特征数据中的至少部分特征数据可由用户手动输入设置。

本实施例中，语音设备中设置有测量与使用者之间的距离的测距传感器，测距传感器例如是红外传感器，用于测量与使用者之间的距离。

作为一种实施方式，所述获得场景特征参数、使用者的特征参数和语音设备的音量，包括：在语音设备处于工作状态时，获得场景特征参数、使用者的特征参数和语音设备的音量。可以理解，语音设备在处于工作状态时，按照预先配置的固定频率获得并发送场景特征参数、使用者的特征参数和语音设备的音量。

本实施例中，语音设备将获得的场景特征参数、使用者的特征参数和语音设备的音量至服务器，以使服务器将获得的场景特征参数、使用者的特征参数和语音设备的音量输入预先训练获得的音量调整模型，获得匹配的音量调整值。基于此，语音设备获得服务器发送的音量调整指令，所述音量调整指令中包括对应的第一音量调整值，语音设备基于该第一音量调整值调节音量。

作为一种实施方式，所述方法还包括：获得第一样本特征数据，发送所述第一样本特征数据至所述服务器；所述第一样本特征数据包括第一样本场景特征参数、使用者的样本特征参数和语音设备的样本音量，所述样本场景特征参数包括以下样本参数的至少之一：时间、语音设备所处位置、语音设备所处的环境噪音、语音设备与使用者之间的距离。

作为一种实施方式，所述方法还包括：检测到音量调节指令，获得所述音量调节指令对应的第二音量调整值；获得当前的场景特征参数，将所述第二音量调整值和所述当前的场景特征参数作为第二样本场景特征参数；将所述第二音量调整值和所述第二样本场景特征参数发送至所述服务器。

这里，第一样本数据和第二样本数据可以与步骤201中获得的场景特征参数、使用者的特征参数和语音设备的音量的类型相同，第一样本数据为语音设备在先向服务器发送的数据，用于服务器基于该在先获得的数据进行机器学习训练，生成音量调整模型；而第二样本数据为语音设备实时获得并发送的用于对样本数据进行补充的数据。其中，第二样本数据可以是语音设备启动后未经用户调整获得的数据，也可以是语音设备启动后经用户手动进行音量调整后的数据。

实施例三

基于实施例二，本发明实施例还提供了一种语音设备控制方法。图4为本发明实施例三的语音设备控制方法的流程示意图；如图4所示，在实施例二的基础上，本实施例的语音设备方法包括：

步骤301：当所述语音设备处于工作状态时，检测所述语音设备与使用者之间的第一距离。

步骤302：当所述第一距离大于预设休眠距离时，生成第一指令，基于所述第一指令控制所述语音设备切换至休眠状态。

步骤303：当所述语音设备处于休眠状态时，检测所述语音设备与使用者之间的第二距离。

步骤304：当所述第二距离小于预设唤醒距离时，生成第二指令，基于所述第二指令控制所述语音设备切换至工作状态。

本实施例中，语音设备中设置有测量与使用者之间的距离的测距传感器，测距传感器例如是红外传感器，用于测量与使用者之间的距离。语音设备中预先配置预设休眠距离和预设唤醒距离；所述预设唤醒距离大于预设休眠距离。若语音设备当前处于工作状态，当检测到语音设备与使用者之间的距离大于预设休眠距离时，表明使用者与语音设备之间的距离较远，使用者可能未在使用语音设备或者语音设备即使处于工作状态也不会对用户带来任何影响，也即语音设备可以中止工作切换至休眠状态从而降低功耗，基于此，可基于生成的第一指令控制切换至休眠状态。若语音设备当前处于休眠状态，当检测到语音设备与使用者之间的距离小于预设唤醒距离时，表明使用者与语音设备之间的距离较近，使用者很可能需要使用语音设备，基于此，可基于生成的第二指令控制切换至工作状态。

本实施例中，步骤301至步骤302和步骤303至步骤304之间的先后顺序可不具体限定，可以先执行步骤303至步骤304再执行步骤301至步骤302。

采用本发明实施例的技术方案，服务器基于语音设备发送的场景特征参数、使用者的特征参数和语音设备的音量，基于预先训练获得的音量调整模型自动生成匹配的音量调整值，一方面，无需用户手动调节便可以实现语音设备的音量自动调节。另一方面，实现了基于环境、场景以及使用者自身特征的音量自动调节，使调节后的音量更适用于语音设备当前所处环境、场景以及使用者自身的需求，大大提升了用户的操作体验。又一方面，语音设备可基于与使用者之间的距离智能控制语音设备自身的工作状态是处于工作状态或是休眠状态，无需用户手动操作，大大提升了用户的操作体验。

实施例四

本发明实施例还提供了一种语音设备控制方法。图5为本发明实施例四的语音设备控制方法的流程示意图；如图5所示，所述方法包括：

步骤401：语音设备获得第一样本特征数据，发送所述第一样本特征数据至所述服务器，所述第一样本特征数据包括第一样本场景特征参数、使用者的样本特征参数和语音设备的样本音量，所述样本场景特征参数包括以下样本参数的至少之一：时间、语音设备所处位置、语音设备所处的环境噪音、语音设备与使用者之间的距离。

步骤402：服务器基于所述第一样本特征数据按照预设机器学习算法训练获得音量调整模型。

步骤403：所述语音设备获得场景特征参数、使用者的特征参数和语音设备的音量，发送所述场景特征参数、使用者的特征参数和语音设备的音量至服务器；所述场景特征参数包括以下参数的至少之一：时间、语音设备所处位置、语音设备所处的环境噪音、语音设备与使用者之间的距离。

步骤404：所述服务器基于所述场景特征参数、所述使用者的特征参数、所述语音设备的所述音量和音量调整模型确定所述语音设备的第一音量调整值。

步骤405：所述服务器基于所述第一音量调整值生成音量调整指令，发送所述音量调整指令至所述语音设备。

步骤406：所述语音设备基于所述音量调整指令对应的第一音量调整值调节音量。

步骤407：所述语音设备检测到音量调节指令，获得所述音量调节指令对应的第二音量调整值，以及获得当前的场景特征参数，将所述第二音量调整值和所述当前的场景特征参数作为第二样本场景特征参数。

步骤408：所述语音设备将所述第二音量调整值和所述第二样本场景特征参数发送至所述服务器。

步骤409：所述服务器基于所述第二样本特征数据和所述使用者的样本特征参数按照所述预设机器学习算法对所述音量调整模型进行修正。

实施例五

本发明实施例还提供了一种服务器。图6为本发明实施例的服务器的一种组成结构示意图；如图6所示，所述服务器包括：第一获取单元51、确定单元52和第一发送单元53；其中，

所述第一获取单元51，用于获得语音设备发送的场景特征参数、使用者的特征参数和语音设备的音量，所述场景特征参数包括以下参数的至少之一：时间、语音设备所处位置、语音设备所处的环境噪音、语音设备与使用者之间的距离；

所述确定单元52，用于基于所述第一获取单元51获得的所述场景特征参数、所述使用者的特征参数、所述语音设备的音量和音量调整模型确定所述语音设备的第一音量调整值；

所述第一发送单元53，用于基于所述确定模块确定的所述第一音量调整值生成音量调整指令，发送所述音量调整指令至所述语音设备。

作为一种实施方式，图7为本发明实施例的服务器的另一种组成结构示意图；如图7所示，所述服务器还包括建模单元54；

所述第一获取单元51，还用于采集所述语音设备的第一样本特征数据，所述第一样本特征数据包括第一样本场景特征参数、使用者的样本特征参数和语音设备的样本音量，所述样本场景特征参数包括以下样本参数的至少之一：时间、语音设备所处位置、语音设备所处的环境噪音、语音设备与使用者之间的距离；

所述建模单元54，用于基于所述第一获取单元51获得的所述样本特征数据按照预设机器学习算法训练获得音量调整模型。

本实施例中，所述第一获取单元51，还用于获得所述语音设备发送的第二样本特征数据，所述第二样本特征数据包括第二样本场景特征参数和第二音量调整值；

所述建模单元54，还用于基于所述第一获取单元51获得的所述第二样本特征数据和所述使用者的样本特征参数按照所述预设机器学习算法对所述音量调整模型进行修正。

本发明实施例中，所述服务器中的确定单元52和建模单元54，在实际应用中均可由所述服务器中的中央处理器(CPU，Central Processing Unit)、数字信号处理器(DSP，Digital Signal Processor)、微控制单元(MCU，Microcontroller Unit)或可编程门阵列(FPGA，Field－Programmable Gate Array)实现；所述服务器中的第一获取单元51和第一发送单元53，在实际应用中可通过通信模组(包含：基础通信套件、操作系统、通信模块、标准化接口和协议等)及收发天线实现。

需要说明的是：上述实施例提供的服务器在进行语音设备控制时，仅以上述各程序模块的划分进行举例说明，实际应用中，可以根据需要而将上述处理分配由不同的程序模块完成，即将服务器的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分处理。另外，上述实施例提供的服务器与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

实施例六

本发明实施例还提供了一种服务器。图8为本发明实施例的服务器的一种硬件结构示意图；如图8所示，服务器包括：用于数据传输的通信组件63、至少一个处理器61和用于存储能够在处理器61上运行的计算机程序的存储器62。终端中的各个组件通过总线系统64耦合在一起。可理解，总线系统64用于实现这些组件之间的连接通信。总线系统64除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图8中将各种总线都标为总线系统64。

可以理解，存储器62可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM，Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM，Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM，ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM，Compact Disc Read-Only Memory)；磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM，Random AccessMemory)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM，Static Random Access Memory)、同步静态随机存取存储器(SSRAM，Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM，Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM，SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM，Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM，Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM，SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM，Direct Rambus Random Access Memory)。本发明实施例描述的存储器62旨在包括但不限于这些和任意其它适合类型的存储器。

上述本发明实施例揭示的方法可以应用于处理器61中，或者由处理器61实现。处理器61可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器61中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器61可以是通用处理器、DSP，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器61可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤，可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中，该存储介质位于存储器62，处理器61读取存储器62中的信息，结合其硬件完成前述方法的步骤。

在示例性实施例中，服务器可以被一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，ProgrammableLogic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、FPGA、通用处理器、控制器、MCU、微处理器(Microprocessor)、或其他电子元件实现，用于执行前述方法。

本实施例中，所述处理器61执行所述程序时实现：获得语音设备发送的场景特征参数、使用者的特征参数和语音设备的音量，所述场景特征参数包括以下参数的至少之一：时间、语音设备所处位置、语音设备所处的环境噪音、语音设备与使用者之间的距离；基于所述场景特征参数、所述使用者的特征参数、所述语音设备的音量和音量调整模型确定所述语音设备的第一音量调整值；基于所述第一音量调整值生成音量调整指令，发送所述音量调整指令至所述语音设备。

作为一种实施方式，所述处理器61执行所述程序时实现：基于所述场景特征参数、所述使用者的特征参数、所述语音设备的音量和音量调整模型确定所述语音设备的音量调整值之前，采集所述语音设备的第一样本特征数据，所述第一样本特征数据包括第一样本场景特征参数、使用者的样本特征参数和语音设备的样本音量，所述样本场景特征参数包括以下样本参数的至少之一：时间、语音设备所处位置、语音设备所处的环境噪音、语音设备与使用者之间的距离；基于所述样本特征数据按照预设机器学习算法训练获得音量调整模型。

作为一种实施方式，所述处理器61执行所述程序时实现：获得所述语音设备发送的第二样本特征数据，所述第二样本特征数据包括第二样本场景特征参数和第二音量调整值；基于所述第二样本特征数据和所述使用者的样本特征参数按照所述预设机器学习算法对所述音量调整模型进行修正。

实施例七

本发明实施例还提供了一种语音设备。图9为本发明实施例的语音设备的第一种组成结构示意图；如图9所示，所述语音设备包括：第二获取单元71、第二发送单元72、接收单元73和调整单元74；其中，

所述第二获取单元71，用于获得场景特征参数、使用者的特征参数和语音设备的音量，所述场景特征参数包括以下参数的至少之一：时间、语音设备所处位置、语音设备所处的环境噪音、语音设备与使用者之间的距离；

所述第二发送单元72，用于发送所述第二获取单元71获得的所述场景特征参数、使用者的特征参数和语音设备的音量至服务器；

所述接收单元73，用于获得所述服务器的音量调整指令；

所述调整单元74，用于基于所述接收单元73获得的所述音量调整指令对应的第一音量调整值调节音量。

作为一种实施方式，所述第二获取单元71，还用于获得第一样本特征数据；所述第一样本特征数据包括第一样本场景特征参数、使用者的样本特征参数和语音设备的样本音量，所述样本场景特征参数包括以下样本参数的至少之一：时间、语音设备所处位置、语音设备所处的环境噪音、语音设备与使用者之间的距离；

所述第二发送单元72，还用于发送所述第二获取单元71获得的所述第一样本特征数据至所述服务器。

作为一种实施方式，图10为本发明实施例的语音设备的第二种组成结构示意图；如图10所示，所述语音设备还包括第一检测单元75，用于检测到音量调节指令，获得所述音量调节指令对应的第二音量调整值；

所述第二获取单元71，还用于获得当前的场景特征参数，将所述第二音量调整值和所述当前的场景特征参数作为第二样本场景特征参数；

所述第二发送单元72，还用于将所述第二获取单元71获得的所述第二音量调整值和所述第二样本场景特征参数发送至所述服务器。

本实施例中，所述第二获取单元71，用于在语音设备处于工作状态时，获得场景特征参数、使用者的特征参数和语音设备的音量。

作为一种实施方式，图11为本发明实施例的语音设备的第三种组成结构示意图；如图11所示，所述语音设备还包括第二检测单元76和状态切换单元77；其中，

所述第二检测单元76，用于当所述语音设备处于工作状态时，检测所述语音设备与使用者之间的第一距离；

所述状态切换单元77，用于当所述第二检测单元76获得的所述第一距离大于预设休眠距离时，生成第一指令，基于所述第一指令控制所述语音设备切换至休眠状态。

或者，所述第二检测单元76，用于当所述语音设备处于休眠状态时，检测所述语音设备与使用者之间的第二距离；

所述状态切换单元77，用于当所述第二检测单元76获得的所述第二距离小于预设唤醒距离时，生成第二指令，基于所述第二指令控制所述语音设备切换至工作状态。

本发明实施例中，所述语音设备中的第二获取单元71、调整单元74、第一检测单元75、第二检测单元76和状态切换单元77，在实际应用中均可由所述语音设备中的CPU、DSP、MCU或FPGA实现；所述语音设备中的第二发送单元72和接收单元73，在实际应用中可通过通信模组(包含：基础通信套件、操作系统、通信模块、标准化接口和协议等)及收发天线实现。

需要说明的是：上述实施例提供的语音设备在进行语音设备控制时，仅以上述各程序模块的划分进行举例说明，实际应用中，可以根据需要而将上述处理分配由不同的程序模块完成，即将语音设备的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分处理。另外，上述实施例提供的语音设备与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

实施例八

本发明实施例还提供了一种语音设备。图12为本发明实施例的语音设备的一种硬件结构示意图，如图12所示，语音设备包括：用于数据传输的通信组件83、至少一个处理器81和用于存储能够在处理器81上运行的计算机程序的存储器82。语音设备中的各个组件通过总线系统84耦合在一起。可理解，总线系统84用于实现这些组件之间的连接通信。总线系统84除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图12中将各种总线都标为总线系统84。

可以理解，语音设备中的存储器、处理器等组件的描述可参照实施例六中所述，这里不再赘述。

本实施例中，所述处理器81执行所述程序时实现：获得场景特征参数、使用者的特征参数和语音设备的音量，所述场景特征参数包括以下参数的至少之一：时间、语音设备所处位置、语音设备所处的环境噪音、语音设备与使用者之间的距离；发送所述场景特征参数、使用者的特征参数和语音设备的音量至服务器；获得所述服务器的音量调整指令，基于所述音量调整指令对应的第一音量调整值调节音量。

作为一种实施方式，所述处理器81执行所述程序时实现：获得第一样本特征数据，发送所述第一样本特征数据至所述服务器；所述第一样本特征数据包括第一样本场景特征参数、使用者的样本特征参数和语音设备的样本音量，所述样本场景特征参数包括以下样本参数的至少之一：时间、语音设备所处位置、语音设备所处的环境噪音、语音设备与使用者之间的距离。

作为一种实施方式，所述处理器81执行所述程序时实现：检测到音量调节指令，获得所述音量调节指令对应的第二音量调整值；获得当前的场景特征参数，将所述第二音量调整值和所述当前的场景特征参数作为第二样本场景特征参数；将所述第二音量调整值和所述第二样本场景特征参数发送至所述服务器。

作为一种实施方式，所述处理器81执行所述程序时实现：在语音设备处于工作状态时，获得场景特征参数、使用者的特征参数和语音设备的音量。

作为一种实施方式，所述处理器81执行所述程序时实现：当所述语音设备处于工作状态时，检测所述语音设备与使用者之间的第一距离；当所述第一距离大于预设休眠距离时，生成第一指令，基于所述第一指令控制所述语音设备切换至休眠状态。

作为一种实施方式，所述处理器81执行所述程序时实现：当所述语音设备处于休眠状态时，检测所述语音设备与使用者之间的第二距离；当所述第二距离小于预设唤醒距离时，生成第二指令，基于所述第二指令控制所述语音设备切换至工作状态。

实施例九

本发明实施例还提供了一种计算机存储介质，例如包括图8所示的位于服务器中的存储有计算机程序的存储器62，上述计算机程序可由设备的处理器61执行，以完成前述方法所述步骤。计算机存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、Flash Memory、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

本实施例中，本发明实施例提供的计算机存储介质，其上存储有计算机程序，该计算机程序被处理器运行时，执行：获得语音设备发送的场景特征参数、使用者的特征参数和语音设备的音量，所述场景特征参数包括以下参数的至少之一：时间、语音设备所处位置、语音设备所处的环境噪音、语音设备与使用者之间的距离；基于所述场景特征参数、所述使用者的特征参数、所述语音设备的音量和音量调整模型确定所述语音设备的第一音量调整值；基于所述第一音量调整值生成音量调整指令，发送所述音量调整指令至所述语音设备。

作为一种实施方式，该计算机程序被处理器运行时，执行：基于所述场景特征参数、所述使用者的特征参数、所述语音设备的音量和音量调整模型确定所述语音设备的音量调整值之前，采集所述语音设备的第一样本特征数据，所述第一样本特征数据包括第一样本场景特征参数、使用者的样本特征参数和语音设备的样本音量，所述样本场景特征参数包括以下样本参数的至少之一：时间、语音设备所处位置、语音设备所处的环境噪音、语音设备与使用者之间的距离；基于所述样本特征数据按照预设机器学习算法训练获得音量调整模型。

作为一种实施方式，该计算机程序被处理器运行时，执行：获得所述语音设备发送的第二样本特征数据，所述第二样本特征数据包括第二样本场景特征参数和第二音量调整值；基于所述第二样本特征数据和所述使用者的样本特征参数按照所述预设机器学习算法对所述音量调整模型进行修正。

实施例十

本发明实施例还提供了一种计算机存储介质，例如包括图12所示的位于语音设备中的存储有计算机程序的存储器82，上述计算机程序可由设备的处理器81执行，以完成前述方法所述步骤。计算机存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、Flash Memory、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

本实施例中，本发明实施例提供的计算机存储介质，其上存储有计算机程序，该计算机程序被处理器运行时，执行：获得场景特征参数、使用者的特征参数和语音设备的音量，所述场景特征参数包括以下参数的至少之一：时间、语音设备所处位置、语音设备所处的环境噪音、语音设备与使用者之间的距离；发送所述场景特征参数、使用者的特征参数和语音设备的音量至服务器；获得所述服务器的音量调整指令，基于所述音量调整指令对应的第一音量调整值调节音量。

作为一种实施方式，该计算机程序被处理器运行时，执行：获得第一样本特征数据，发送所述第一样本特征数据至所述服务器；所述第一样本特征数据包括第一样本场景特征参数、使用者的样本特征参数和语音设备的样本音量，所述样本场景特征参数包括以下样本参数的至少之一：时间、语音设备所处位置、语音设备所处的环境噪音、语音设备与使用者之间的距离。

作为一种实施方式，该计算机程序被处理器运行时，执行：检测到音量调节指令，获得所述音量调节指令对应的第二音量调整值；获得当前的场景特征参数，将所述第二音量调整值和所述当前的场景特征参数作为第二样本场景特征参数；将所述第二音量调整值和所述第二样本场景特征参数发送至所述服务器。

作为一种实施方式，该计算机程序被处理器运行时，执行：在语音设备处于工作状态时，获得场景特征参数、使用者的特征参数和语音设备的音量。

作为一种实施方式，该计算机程序被处理器运行时，执行：当所述语音设备处于工作状态时，检测所述语音设备与使用者之间的第一距离；当所述第一距离大于预设休眠距离时，生成第一指令，基于所述第一指令控制所述语音设备切换至休眠状态。

作为一种实施方式，该计算机程序被处理器运行时，执行：当所述语音设备处于休眠状态时，检测所述语音设备与使用者之间的第二距离；当所述第二距离小于预设唤醒距离时，生成第二指令，基于所述第二指令控制所述语音设备切换至工作状态。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种语音设备控制方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述场景特征参数、所述使用者的特征参数、所述语音设备的音量和音量调整模型确定所述语音设备的音量调整值之前，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：获得所述语音设备发送的第二样本特征数据，所述第二样本特征数据包括第二样本场景特征参数和第二音量调整值；

4.一种语音设备控制方法，其特征在于，所述方法包括：

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：获得第一样本特征数据，发送所述第一样本特征数据至所述服务器；

6.根据权利要求4所述的方法，其特征在于，所述方法还包括：检测到音量调节指令，获得所述音量调节指令对应的第二音量调整值；

7.根据权利要求4所述的方法，其特征在于，所述获得场景特征参数、使用者的特征参数和语音设备的音量，包括：

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

9.根据权利要求8所述的方法，其特征在于，所述方法还包括：

10.一种服务器，其特征在于，所述服务器包括：第一获取单元、确定单元和第一发送单元；其中，

11.根据权利要求10所述的服务器，其特征在于，所述服务器还包括建模单元；

12.根据权利要求11所述的服务器，其特征在于，所述第一获取单元，还用于获得所述语音设备发送的第二样本特征数据，所述第二样本特征数据包括第二样本场景特征参数和第二音量调整值；

13.一种语音设备，其特征在于，所述语音设备包括：第二获取单元、第二发送单元、接收单元和调整单元；其中，

所述接收单元，用于获得所述服务器的音量调整指令；

14.根据权利要求13所述的语音设备，其特征在于，所述第二获取单元，还用于获得第一样本特征数据；所述第一样本特征数据包括第一样本场景特征参数、使用者的样本特征参数和语音设备的样本音量，所述样本场景特征参数包括以下样本参数的至少之一：时间、语音设备所处位置、语音设备所处的环境噪音、语音设备与使用者之间的距离；

15.根据权利要求13所述的语音设备，其特征在于，所述语音设备还包括第一检测单元，用于检测到音量调节指令，获得所述音量调节指令对应的第二音量调整值；

16.根据权利要求13所述的语音设备，其特征在于，所述第二获取单元，用于在语音设备处于工作状态时，获得场景特征参数、使用者的特征参数和语音设备的音量。

17.根据权利要求16所述的语音设备，其特征在于，所述语音设备还包括第二检测单元和状态切换单元；其中，

18.根据权利要求17所述的语音设备，其特征在于，所述语音设备还包括第二检测单元和状态切换单元；其中，

19.一种计算机存储介质，其上存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求1至3任一项所述的语音设备控制方法的步骤；

或者，该指令被处理器执行时实现权利要求4至9任一项所述的语音设备控制方法的步骤。

20.一种服务器，包括：用于传输数据的通讯组件、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至3任一项所述的语音设备控制方法的步骤。

21.一种语音设备，包括：用于传输数据的通讯组件、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求4至9任一项所述的语音设备控制方法的步骤。