CN110148399A

CN110148399A - 一种智能设备的控制方法、装置、设备及介质

Info

Publication number: CN110148399A
Application number: CN201910371046.7A
Authority: CN
Inventors: 朱晚贺; 杨鹏
Original assignee: Beijing Orion Star Technology Co Ltd
Current assignee: Beijing Orion Star Technology Co Ltd
Priority date: 2019-05-06
Filing date: 2019-05-06
Publication date: 2019-08-20

Abstract

本发明公开了一种智能设备的控制方法、装置、设备及介质，用以提高确定交互语言语种的效率，提高智能设备的智能化程度。所述智能设备的控制方法，包括：获取智能设备采集到的语音数据；利用预先训练的唤醒词识别模型对所述语音数据进行识别，确定出所述语音数据包含预设的唤醒词以及所述语音数据对应的目标语种；唤醒所述智能设备，并将所述目标语种确定为所述智能设备的交互语言对应的语种。

Description

一种智能设备的控制方法、装置、设备及介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种智能设备的控制方法、装置、设备及介质。

背景技术

智能设备在人们的生活中的使用频率越来越高，为了方便不同语种的用户使用，智能设备通常集成有多个语种的语言，如此，在智能设备被不同语种的用户使用时，智能设备基于用户选择的语种的语言与用户进行交互。

现有技术中，智能设备切换交互语言的语种时，是根据用户对交互语言语种的手动选择进行切换。在进行交互语言语种选择时，需要用户对智能设备的显示屏幕进行相关的操作进入语种选择界面，进行语种选择。

上述方式，在智能设备被不同语种的用户使用的公共场合，用户在与智能设备进行交互之前，均需要进行交互语言语种的手动选择，智能化程度较低，且需要花费用户与智能设备的交互时间，确定交互语言语种的效率低。

发明内容

本发明实施例提供一种智能设备的控制方法、装置、设备及介质，用以提高确定交互语言语种的效率，提高智能设备的智能化程度。

第一方面，本发明实施例提供了一种智能设备的控制方法，包括：

获取智能设备采集到的语音数据；

利用预先训练的唤醒词识别模型对语音数据进行识别，确定出语音数据包含预设的唤醒词以及语音数据对应的目标语种；

唤醒智能设备，并将目标语种确定为智能设备的交互语言对应的语种。

本发明实施例提供的智能设备的控制方法，可以利用预先训练的唤醒词识别模型对智能设备采集到的语音数据进行识别，根据识别结果，确定出语音数据包含预设的唤醒词以及语音数据对应的目标语种，并唤醒智能设备，将目标语种确定为智能设备的交互语言对应的语种。与现有技术中用户手动选择交互语言语种的方式相比，通过预先训练的唤醒词识别模型对语音数据进行识别，根据识别结果确定目标语种，无需用户对智能设备进行操作，即可确定智能设备的交互语言对应的语种，减小了确定交互语言语种花费的时间，提高了确定交互语言语种的效率，提高了智能设备的智能化程度。

在一种可能的实施方式中，本发明实施例提供的上述方法中，唤醒词识别模型采用以下步骤训练生成：

获取多个包含唤醒词的语音训练数据，语音训练数据包括不同语种的语音数据；

基于语音训练数据、以及语音训练数据对应的训练标签，采用深度神经网络训练生成唤醒词识别模型，训练标签表征语音训练数据对应的语种信息。

本发明实施例中，通过获取多个包含唤醒词的语音训练数据，语音训练数据包括不同语种的语音数据，并基于语音训练数据、以及语音训练数据对应的训练标签，采用深度神经网络训练生成唤醒词识别模型，训练标签表征语音训练数据对应的语种信息，消除了不同语音训练数据中唤醒词之间的音色差异，进而在基于唤醒词识别模型对用户语音数据进行识别时，能够保证语音数据识别的准确性。

在一种可能的实施方式中，本发明实施例提供的上述方法中，将目标语种确定为智能设备的交互语言对应的语种之后，该方法包括：

若目标语种与智能设备当前交互语言的语种不一致，将智能设备的屏幕所显示的界面展示文字的语种切换为目标语种。

本发明实施例中，若目标语种与智能设备当前交互语言的语种不一致，将智能设备的屏幕所显示的界面展示文字的语种切换为目标语种，在智能设备的当前交互语言的语种与目标语种相同时，智能设备当前的屏幕所显示的界面展示文字的语种不进行切换，节约了智能设备消耗的资源。

在一种可能的实施方式中，本发明实施例提供的上述方法中，将目标语种确定为智能设备的交互语言对应的语种之后，该方法还包括：

若目标语种与智能设备当前交互语言的语种不一致，将智能设备对应的语音识别模型、自然语言处理NLP模型以及从文本到语言TTS模型，分别切换为目标语种对应的语音识别模型、NLP模型以及TTS模型。

本发明实施例中，将智能设备交互过程中使用的模型的语言对应的语种均切换为目标语种，从而保证了智能设备在与用户进行交互时，无需进行语言的转换，提高智能设备的响应速度。

在一种可能的实施方式中，本发明实施例提供的上述方法中，唤醒智能设备，并将目标语种确定为智能设备的交互语言对应的语种，包括：

在唤醒智能设备后，若目标语种与智能设备当前交互语言的语种不一致，控制智能设备输出目标语种对应的语种切换提示信息；

在接收到确认信息时，将目标语种确定为智能设备的交互语言对应的语种。

本发明实施例中，通过向用户发送控制智能设备输出目标语种对应的语种切换提示信息，进行语种切换的二次确定，在接收到确认信息时，将目标语种确定为智能设备的交互语言对应的语种，保证语种切换的准确性。

第二方面，本发明实施例提供了一种智能设备的控制方法，包括：

获取智能设备采集到的语音数据；

将语音数据与预先存储的语音数据样本进行匹配，语音数据样本为包含预设唤醒词的语音数据，且语音数据样本包括不同语种的语音数据；

若确定语音数据与任一语音数据样本匹配成功，确定语音数据包含唤醒词，并将语音数据样本对应的语种确定为语音数据对应的目标语种；

本发明实施例中，将获取到智能设备采集的语音数据与预先存储的包含预设唤醒词的语音数据样本进行匹配，在确定与语音数据样本匹配成功时，将语音数据样本对应的语种确定为语音数据对应的语种，与现有技术中用户手动选择交互语言语种的方式相比，无需进行智能终端进行操作，只需确定获取的语音数据中是否包含唤醒词便可确定语音数据对应的语种，减小了确定交互语言语种花费的时间，提高了确定交互语言语种的效率，提高了智能设备的智能化程度。

在一种可能的实施方式中，本发明实施例提供的上述方法中，目标语种确定为智能设备的交互语言对应的语种之后，该方法还包括：

第三方面，本发明实施例提供了一种智能设备的控制装置，包括：

获取单元，用于获取智能设备采集到的语音数据；

确定单元，用于利用预先训练的唤醒词识别模型对语音数据进行识别，确定出语音数据包含预设的唤醒词以及语音数据对应的目标语种；

处理单元，用于唤醒智能设备，并将目标语种确定为智能设备的交互语言对应的语种。

在一种可能的实施方式中，本发明实施例提供的上述装置中，唤醒词识别模型采用以下步骤训练生成：

在一种可能的实施方式中，本发明实施例提供的上述装置中，处理单元，还用于：

在一种可能的实施方式中，本发明实施例提供的上述装置中，处理单元具体用于：

第四方面，本发明实施例还提供了一种智能设备的控制装置，包括：

获取单元，用于获取智能设备采集到的语音数据；

匹配单元，用于将语音数据与预先存储的语音数据样本进行匹配，语音数据样本为包含预设唤醒词的语音数据，且语音数据样本包括不同语种的语音数据；

确定单元，用于确定单元若确定语音数据与任一语音数据样本匹配成功，确定语音数据包含唤醒词，并将语音数据样本对应的语种确定为语音数据对应的目标语种；

第五方面，本发明实施例还提供了一种智能设备的控制设备，包括：至少一个处理器、至少一个存储器以及存储在存储器中的计算机程序指令，当计算机程序指令被处理器执行时实现本发明实施例第一方面提供的智能设备的控制方法。

第六方面，本发明实施例还提供了一种智能设备的控制设备，包括：至少一个处理器、至少一个存储器以及存储在存储器中的计算机程序指令，当计算机程序指令被处理器执行时实现本发明实施例第二方面提供的智能设备的控制方法。

第七方面，本发明实施例还提供了一种计算机存储介质，其上存储有计算机程序指令，当计算机程序指令被处理器执行时实现本发明实施例第一方面提供的智能设备的控制方法。

第八方面，本发明实施例还提供了一种计算机存储介质，其上存储有计算机程序指令，当计算机程序指令被处理器执行时实现本发明实施例第二方面提供的智能设备的控制方法。

第九方面，本发明实施例还提供了一种计算机程序产品，其包括程序代码，当程序产品在计算机设备上运行时，程序代码用于使计算机设备执行本发明实施例第一方面提供的智能设备的控制方法。

第十方面，本发明实施例还提供了一种计算机程序产品，其包括程序代码，当程序产品在计算机设备上运行时，程序代码用于使计算机设备执行本发明实施例第二方面提供的智能设备的控制方法。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例提供的一种智能设备的控制方法的示意流程图；

图2为本发明实施例提供的一种智能设备的控制方法的具体流程的示意流程图；

图3为本发明实施例二提供的一种智能设备的控制方法的示意流程图；

图4为本发明实施例二提供的一种智能设备的控制方法的具体流程的示意流程图；

图5为本发明实施例提供的一种智能设备的控制装置的结构示意图；

图6为本发明实施例提供的另一智能设备的控制装置的结构示意图；

图7为本发明实施例提供的一种智能设备的控制设备的结构示意图；

图8为本发明实施例提供的另一种智能设备的控制设备的结构示意图。

具体实施方式

以下结合附图对本申请的实施例进行说明，应当理解，此处所描述的实施例仅用于说明和解释本申请，并不用于限定本申请。

下面结合说明说附图，对本发明实施例提供的智能设备的控制方法、装置、设备及介质的具体实施方式进行说明。

需要说明的是，本发明实施例提供的智能设备的控制方法可以由智能设备的控制器执行，也可以由与智能设备通信的外部设备(例如，服务器等)执行。

在本发明实施例提供的智能设备的控制方案中，根据确定语音数据中包含唤醒词时所使用的方法不同，本发明可以分为两个实施例。

实施例一

本发明实施例提供了一种智能设备的控制方法，如图1所示，可以包括如下步骤：

步骤101、获取智能设备采集到的语音数据。

具体获取智能设备采集到的语音数据时，若本发明实施例提供的智能设备的控制方案由智能设备的控制器或控制中心执行，则可以直接获取智能设备中的麦克风或者麦克风阵列采集到的语音数据；若本发明实施例提供的智能设备的控制方案由与智能设备通信的外部设备执行，则外部设备可以在智能设备中的麦克风或者麦克风阵列采集语音数据后，从智能设备中获取语音数据。

需要说明的是，智能设备可以是机器人，也可以是智能终端，本发明实施例对此不做限定。

在一个示例中，获取智能设备的麦克风或者麦克风阵列采集的语音数据时，可以通过麦克风采集智能设备周围一定范围内的语音数据，也可以通过麦克风阵列采集智能设备周围某一方向一定范围内的语音数据。

步骤102、利用预先训练的唤醒词识别模型对语音数据进行识别，确定出语音数据包含预设的唤醒词以及语音数据对应的目标语种。

在一种可能的实施方式中，将语音数据输入到预先训练的唤醒词识别模型中进行识别，基于唤醒词识别模型的输出，确定该语音数据中是否包含唤醒词，若包含唤醒词，基于唤醒词识别模型的输出，还可以确定该语音数据对应的目标语种。

需要说明的是，本发明实施例将语音数据输入到预先训练的唤醒词识别模型中进行识别，唤醒词识别模型在确定语音数据中包含预设的唤醒词时，可以输出语音数据包含的唤醒词和语音数据对应的目标语种，也可以直接输出用于唤醒智能设备的唤醒指令和语音数据对应的目标语种，本发明实施例对此不做限定。

在一种可能的实施方式中，可以采用以下步骤训练生成唤醒词识别模型：获取多个包含唤醒词的语音训练数据，语音训练数据包括不同语种的语音数据，基于语音训练数据、以及语音训练数据对应的训练标签，采用深度神经网络训练生成唤醒词识别模型，训练标签表征语音训练数据对应的语种信息。

需要说明的是，由于唤醒词识别模型不但需要识别语音数据中是否包含唤醒词，还要识别语音数据的语种，因此，采集用于训练唤醒词识别模型的语音训练数据，针对智能设备使用的每个唤醒词，均需要采集不同语种的、包含该唤醒词的语音数据作为语音训练数据。其中，智能设备的唤醒词可以由用户进行配置，智能设备也可以提供多个唤醒词供用户选择使用。

在一种可能的实施方式中，训练标签可以是基于语音训练数据中包含的唤醒词预先为语音训练数据标注的。

需要说明的是，训练标签中的语种信息用于表征语音训练数据中包含的唤醒词对应的语种信息，例如：包含唤醒词“Hello”的语音训练数据的训练标签中的语种信息为英语，包含唤醒词“你好”的语音训练数据的训练标签中的语种信息为汉语，也可以采用其它方式表征语种信息，本发明实施例对此不做限定。

步骤103、唤醒智能设备，并将目标语种确定为智能设备的交互语言对应的语种。

具体实施时，若采集到的语音数据中包含唤醒词，则唤醒智能设备。由于通过唤醒词识别模型还识别出了采集到的语音数据的语种信息，将所识别出的目标语种确定为智能设备的交互语言对应的语种。若所识别出的目标语种与智能设备当前交互语言的语种一致，则无需切换，仍采用当前交互语言的语种进行交互；若所识别出的目标语种与智能设备当前交互语言的语种不一致，则智能设备当前交互语言的语种切换为所识别出的目标语种。

进一步的，将目标语种确定为智能设备的交互语言对应的语种之后，若目标语种与智能设备当前交互语言的语种不一致，将智能设备的屏幕所显示的界面展示文字的语种切换为目标语种。

具体的，将智能设备的屏幕所显示的界面展示文字的语种切换为目标语种时，可以通过翻译模型，直接将智能设备的屏幕所显示的界面展示文字翻译为目标语种对应的文字，并将该文字展示在智能设备的屏幕所显示的界面上。还可以预先存储不同语种的显示界面，在将智能设备的屏幕所显示的界面展示文字的语种切换为目标语种时，可以从预先存储的不同语种的显示界面中，选取目标语种对应的展示界面，并在智能设备的屏幕中进行展示。

在一种可能的实施方式，将目标语种确定为智能设备的交互语言对应的语种之后，若目标语种与智能设备当前交互语言的语种不一致，将智能设备对应的语音识别模型、自然语言处理(Natural Language Processing，NLP)模型以及从文本到语言(Text Tospeech，TTS)模型，分别切换为目标语种对应的语音识别模型、NLP模型以及TTS模型。

具体的，不同语种对应不同的语音识别模型、NLP模型以及TTS模型，例如，英语对应的语音识别模型、NLP模型以及TTS模型，是基于英语语音训练数据得到的，能够对英语语音数据进行语音识别和语义识别，以及在需要进行语音合成时，通过TTS模型得到英语音频数据。若智能设备当前交互语言为中文，目标语种也是中文，则无需切换语音识别模型、NLP模型以及TTS模型；若智能设备当前交互语言为中文，目标语种也是日文，则将中文对应的语音识别模型、NLP模型以及TTS模型切换为日文对应的语音识别模型、NLP模型以及TTS模型，后续将使用日文对应的语音识别模型和NLP模型对日文语音数据进行语音识别和语义识别，以及通过日本对应的TTS模型合成日文音频数据。

具体实施时，若语音识别模型、NLP模型以及TTS模型在智能设备本地执行，则智能设备的控制器直接将智能设备本地的语音识别模型、NLP模型以及TTS模型对应的语种切换为目标语种对应的模型。

具体实施时，若语音识别模型、NLP模型以及TTS模型存储至与智能设备通信的外部设备中，如服务器，则智能设备的控制器控制智能设备将确定出的目标语种发送至与智能设备通信的外部设备，由外部设备执行将语音识别模型、NLP模型以及TTS模型切换为目标语种对应的模型。

在一种可能的实施方式中，为了保证语种切换的准确率，在唤醒智能设备后，若目标语种与智能设备当前交互语言的语种不一致，控制智能设备输出目标语种对应的语种切换提示信息，并在接收到确认信息时，将目标语种确定为智能设备的交互语言对应的语种。

在一种可能的实施方式中，若目标语种与智能设备当前交互语言的语种不一致，控制智能设备以语音播放的形式输出目标语种对应的语种切换提示信息，并在接收到用户以语音形式回复的确认信息时，将目标语种确定为智能设备的交互语言对应的语种。

例如，若识别出的目标语种是日语，而智能设备当前交互语言的语种是中文，则可以提示用户是否切换为日语，当用户确定切换后，再进行语种切换。

具体实施时，可以通过语音方式提示用户是否切换语种，也可以通过提示框以文字形式提示用户是否切换语种。例如，提示用户是否切换为日语可以设置为以日语语音或通用语种(即英语)语音的形式向用户播放“是否确定将当前交互语言对应的语种切换为日语”。又如，可以通过在智能设备的显示屏幕上弹出提示框，以日文或通用语言(即英文)提示用户是否切换语种。

下面结合图2，对本发明实施例提供的智能设备的控制方案进行详细说明。

如图2所示，本发明实施例提供的智能设备的控制方法，其具体步骤可以包括：

步骤201、获取智能设备采集的语音数据，继续执行步骤202。

步骤202、将语音数据输入到预先训练的唤醒词识别模型中进行识别，继续执行步骤203。

步骤203、根据识别结果确定语音数据是否包含唤醒词和对应语音数据的目标语种，若是，执行步骤204，否则执行步骤211。

步骤204、唤醒智能设备，继续执行步骤205。

步骤205、判断目标语种与智能设备当前交互语言的语种是否一致，若是，执行步骤210，否则，执行步骤206。

步骤206、控制智能设备输出目标语种对应的语种切换提示信息，继续执行步骤207。

步骤207、检测是否接收到确认信息，若是，执行步骤208，否则执行210。

步骤208、将智能设备的屏幕所显示的界面展示文字的语种切换为目标语种，继续执行步骤209。

步骤209、将智能设备对应的语音识别模型、NLP模型以及TTS模型，分别切换为目标语种对应的语音识别模型、NLP模型以及TTS模型。

步骤210、智能设备的交互语言对应的语种不进行切换。

步骤211、智能设备不唤醒。

实施例二

本发明实施例还提供了一种智能设备的控制方法，如图3所示，可以包括如下步骤：

步骤301、获取智能设备采集到的语音数据。

步骤302、将语音数据与预先存储的语音数据样本进行匹配，语音数据样本为包含预设唤醒词的语音数据，且语音数据样本包括不同语种的语音数据。

需要说明的是，由于语音数据样本不但需要识别语音数据中是否包含唤醒词，还要识别语音数据的语种，因此，采集语音数据样本，针对智能设备使用的每个唤醒词，均需要采集不同语种的、包含该唤醒词的语音数据作为语音数据样本。其中，智能设备的唤醒词可以由用户进行配置，智能设备也可以提供多个唤醒词供用户选择使用。

具体实施时，利用预设算法，计算语音数据与任一语音数据样本的相似度。

其中，预设算法可以是高斯混合模型的语音识别算法，当然也可以是其它可以实现上述功能的算法，本发明实施例对此不做限定。

步骤303、若确定语音数据与任一语音数据样本匹配成功，确定语音数据包含唤醒词，并将语音数据样本对应的语种确定为语音数据对应的目标语种。

具体实施时，在将语音数据与预先存储的语音数据样本进行匹配时，在确定语音数据与任一语音数据样本的相似度大于或等于预设阈值时，确定语音数据与该语音数据样本匹配成功。具体计算语音数据与任一语音数据样本的相似度时，可以基于语音数据的发音、声色特征等进行计算。

在一种可能的实施方式中，若语音数据与多个语音数据样本的相似度大于或等于预设阈值时，确定语音数据与相似度数值最大的语音数据样本匹配成功。

需要说明的是，预设阈值可以根据实际情况进行设置，例如：为保证匹配结果的准确性，可以将预设阈值设置为90％，为提高匹配的成功率，还可以将预设阈值设置的稍微低一点，例如，预设阈值还可以设置为85％，当然也可以设置为其它数值，本发明实施例对此不做限定。

在一种可能的实施方式中，将语音数据样本对应的语种确定为语音数据对应的目标语种时，基于语音数据样本与语种的对应关系，确定与语音数据匹配成功的语音数据样本对应的语种，并将该语种确定为语音数据对应的目标语种。

在一种可能的实施方式中，将语音数据样本对应的语种确定为语音数据对应的目标语种时，利用语音数据样本中用于表征语音数据样本对应的语种信息的标签，将语音数据样本对应的语种确定为语音数据对应的目标语种。

步骤304、唤醒智能设备，并将目标语种确定为智能设备的交互语言对应的语种。

具体实施时，若采集到的语音数据中包含唤醒词，则唤醒智能设备。由于通过语音数据样本与语种的对应关系还确定出了采集到的语音数据的语种信息，将所识别出的目标语种确定为智能设备的交互语言对应的语种。若所识别出的目标语种与智能设备当前交互语言的语种一致，则无需切换，仍采用当前交互语言的语种进行交互；若所识别出的目标语种与智能设备当前交互语言的语种不一致，则智能设备当前交互语言的语种切换为所识别出的目标语种。

在一种可能的实施方式，将目标语种确定为智能设备的交互语言对应的语种之后，若目标语种与智能设备当前交互语言的语种不一致，将智能设备对应的语音识别模型、NLP模型以及TTS模型，分别切换为目标语种对应的语音识别模型、NLP模型以及TTS模型。具体实施可参见实施例一中的相关描述，此处不再赘述。

在一种可能的实施方式中，为了保证语种切换的准确率，在唤醒智能设备后，若目标语种与智能设备当前交互语言的语种不一致，控制智能设备输出目标语种对应的语种切换提示信息，并在接收到确认信息时，将目标语种确定为智能设备的交互语言对应的语种。具体实施可参见实施例一中的相关描述，此处不再赘述。

下面结合图4，对本发明实施例二提供的智能设备的控制方案进行详细说明。

如图4所示，本发明实施例提供的智能设备的控制方法，其具体步骤可以包括：

步骤401、获取智能设备采集的语音数据，继续执行步骤402。

步骤402、将语音数据与预先存储的语音数据样本进行匹配，继续执行步骤403。

需要说明的是，语音数据样本为包含预设唤醒词的语音数据，且语音数据样本包括不同语种的语音数据。

步骤403、检测语音数据与任一语音数据样本的匹配度是否大于预设匹配度阈值，若是，执行步骤404，否则步骤412。

步骤404、确定语音数据包含唤醒词，该唤醒词为与语音数据匹配成功的语音数据样本中包含的唤醒词，继续执行步骤405。

步骤405、将语音数据样本对应的语种确定为语音数据对应的目标语种，继续执行步骤406。

在一种可能的实施方式中，将语音数据样本对应的语种确定为语音数据对应的目标语种时，基于语音数据样本与语种的对应关系，将语音数据匹配成功的语音数据样本对应语种，确定为语音数据对应的目标语种。

步骤406、唤醒智能设备，继续执行步骤407。

步骤407、判断目标语种与智能设备当前交互语言的语种是否一致，若是，执行步骤412，否则，执行步骤408。

步骤408、控制智能设备输出目标语种对应的语种切换提示信息，继续执行步骤409。

步骤409、检测是否接收到确认信息，若是，执行步骤410，否则执行412。

步骤410、将智能设备的屏幕所显示的界面展示文字的语种切换为目标语种，继续执行步骤411。

步骤411、将智能设备对应的语音识别模型、NLP模型以及从文本到语言TTS模型，分别切换为目标语种对应的语音识别模型、NLP模型以及TTS模型。

步骤412、智能设备的交互语言对应的语种不进行切换。

基于相同的发明构思，本发明实施例还提供一种智能设备的控制装置。

如图5所示，本发明实施例提供的一种智能设备的控制装置，包括：

获取单元501，用于获取智能设备采集到的语音数据；

确定单元502，用于利用预先训练的唤醒词识别模型对语音数据进行识别，确定出语音数据包含预设的唤醒词以及语音数据对应的目标语种；

处理单元503，用于唤醒智能设备，并将目标语种确定为智能设备的交互语言对应的语种。

在一种可能的实施方式中，唤醒词识别模型采用以下步骤训练生成：

在一种可能的实施方式中，处理单元503，还用于：

若目标语种与智能设备当前交互语言的语种不一致，将智能设备对应的语音识别模型、NLP模型以及从文本到语言TTS模型，分别切换为目标语种对应的语音识别模型、NLP模型以及TTS模型。

在一种可能的实施方式中，处理单元503具体用于：

本发明实施例还提供另一智能设备的控制装置。

如图6所示，本发明实施例提供的另一智能设备的控制装置，包括：

获取单元601，用于获取智能设备采集到的语音数据；

匹配单元602，用于将语音数据与预先存储的语音数据样本进行匹配，语音数据样本为包含预设唤醒词的语音数据，且语音数据样本包括不同语种的语音数据；

确定单元603，用于确定单元若确定语音数据与任一语音数据样本匹配成功，确定语音数据包含唤醒词，并将语音数据样本对应的语种确定为语音数据对应的目标语种；

处理单元604，用于唤醒智能设备，并将目标语种确定为智能设备的交互语言对应的语种。

在一种可能的实施方式中，处理单元604，还用于：

在一种可能的实施方式中，处理单元604具体用于：

另外，结合图1、图2和图5描述的本发明实施例的智能设备的控制方法和装置可以由智能设备的控制设备来实现。图7示出了本发明实施例提供的一种智能设备的控制设备的硬件结构示意图。

智能设备的控制设备可以包括处理器701以及存储有计算机程序指令的存储器702。

具体地，上述处理器701可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，ASIC)，或者可以被配置成实施本发明实施例的一个或多个集成电路。

存储器702可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器702可包括硬盘驱动器(Hard Disk Drive，HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus，USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器702可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器702可在数据处理装置的内部或外部。在特定实施例中，存储器702是非易失性固态存储器。在特定实施例中，存储器702包括只读存储器(ROM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。

处理器701通过读取并执行存储器702中存储的计算机程序指令，以实现上述实施例中的任意一种智能设备的控制方法。

在一个示例中，智能设备的控制设备还可包括通信接口703和总线710.其中，如图7所示，处理器701、存储器702、通信接口703通过总线710连接并完成相互间的通信。

通信接口703，主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。

总线710包括硬件、软件或两者，将智能设备的控制确定设备的部件彼此耦接在一起。举例来说而非限制，总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线710可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线，但本发明考虑任何合适的总线或互连。

智能设备的控制设备可以基于获取的智能设备采集的语音数据，执行本发明实施例中的智能设备的控制方法，从而实现结合图1、图2和图5描述的智能设备的控制方法和装置。

另外，结合上述实施例中的智能设备的控制方法，本发明实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种智能设备的控制方法。

另外，结合图3、图4和图6描述的本发明实施例的智能设备的控制方法和装置可以由智能设备的控制设备来实现。图8示出了本发明实施例提供的另一种智能设备的控制设备的硬件结构示意图。

智能设备的控制设备可以包括处理器801以及存储有计算机程序指令的存储器802。

具体地，上述处理器801可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，ASIC)，或者可以被配置成实施本发明实施例的一个或多个集成电路。

存储器802可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器802可包括硬盘驱动器(Hard Disk Drive，HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus，USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器802可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器802可在数据处理装置的内部或外部。在特定实施例中，存储器802是非易失性固态存储器。在特定实施例中，存储器802包括只读存储器(ROM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。

处理器801通过读取并执行存储器802中存储的计算机程序指令，以实现上述实施例中的任意一种智能设备的控制方法。

在一个示例中，智能设备的控制设备还可包括通信接口803和总线810.其中，如图8所示，处理器801、存储器802、通信接口803通过总线810连接并完成相互间的通信。

通信接口803，主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。

总线810包括硬件、软件或两者，将智能设备的控制确定设备的部件彼此耦接在一起。举例来说而非限制，总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线810可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线，但本发明考虑任何合适的总线或互连。

智能设备的控制设备可以基于获取的智能设备采集的语音数据，执行本发明实施例中的智能设备的控制方法，从而实现结合图3、图4和图6描述的智能设备的控制方法和装置。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种智能设备的控制方法，其特征在于，包括：

获取智能设备采集到的语音数据；

利用预先训练的唤醒词识别模型对所述语音数据进行识别，确定出所述语音数据包含预设的唤醒词以及所述语音数据对应的目标语种；

唤醒所述智能设备，并将所述目标语种确定为所述智能设备的交互语言对应的语种。

2.根据权利要求1所述的方法，其特征在于，所述唤醒词识别模型采用以下步骤训练生成：

获取多个包含唤醒词的语音训练数据，所述语音训练数据包括不同语种的语音数据；

基于所述语音训练数据、以及所述语音训练数据对应的训练标签，采用深度神经网络训练生成所述唤醒词识别模型，所述训练标签表征所述语音训练数据对应的语种信息。

3.根据权利要求1所述的方法，其特征在于，将所述目标语种确定为所述智能设备的交互语言对应的语种之后，还包括：

若所述目标语种与所述智能设备当前交互语言的语种不一致，将所述智能设备的屏幕所显示的界面展示文字的语种切换为所述目标语种。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述将所述目标语种确定为所述智能设备的交互语言对应的语种之后，还包括：

若所述目标语种与所述智能设备当前交互语言的语种不一致，将所述智能设备对应的语音识别模型、自然语言处理NLP模型以及从文本到语言TTS模型，分别切换为所述目标语种对应的语音识别模型、NLP模型以及TTS模型。

5.一种智能设备的控制方法，其特征在于，包括：

获取智能设备采集到的语音数据；

将所述语音数据与预先存储的语音数据样本进行匹配，所述语音数据样本为包含预设唤醒词的语音数据，且所述语音数据样本包括不同语种的语音数据；

若确定所述语音数据与任一语音数据样本匹配成功，确定所述语音数据包含所述唤醒词，并将所述语音数据样本对应的语种确定为所述语音数据对应的目标语种；

6.根据权利要求5所述的方法，其特征在于，将所述目标语种确定为所述智能设备的交互语言对应的语种之后，还包括：

7.一种智能设备的控制装置，其特征在于，包括：

获取单元，用于获取智能设备采集到的语音数据；

确定单元，用于利用预先训练的唤醒词识别模型对所述语音数据进行识别，确定出所述语音数据包含预设的唤醒词以及所述语音数据对应的目标语种；

处理单元，用于唤醒所述智能设备，并将所述目标语种确定为所述智能设备的交互语言对应的语种。

8.一种智能设备的控制装置，其特征在于，包括：

获取单元，用于获取智能设备采集到的语音数据；

匹配单元，用于将所述语音数据与预先存储的语音数据样本进行匹配，所述语音数据样本为包含预设唤醒词的语音数据，且所述语音数据样本包括不同语种的语音数据；

确定单元，用于确定单元若确定所述语音数据与任一语音数据样本匹配成功，确定所述语音数据包含所述唤醒词，并将所述语音数据样本对应的语种确定为所述语音数据对应的目标语种；

9.一种智能设备的控制设备，其特征在于，包括：至少一个处理器、至少一个存储器以及存储在所述存储器中的计算机程序指令，当所述计算机程序指令被所述处理器执行时实现如权利要求1-4中任一项所述的智能设备的控制方法或者如权利要求5-6中任一项所述的智能设备的控制方法。

10.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，当所述计算机程序指令被处理器执行时实现如权利要求1-4中任一项所述的智能设备的控制方法或者如权利要求5-6中任一项所述的智能设备的控制方法。