CN113593543A

CN113593543A - 智能音箱语音服务系统、方法、装置及设备

Info

Publication number: CN113593543A
Application number: CN202010375012.8A
Authority: CN
Inventors: 严林; 朱晓如; 刘家强; 李静
Original assignee: Alibaba Group Holding Ltd
Current assignee: Zhejiang Future Elf Artificial Intelligence Technology Co ltd
Priority date: 2020-04-30
Filing date: 2020-04-30
Publication date: 2021-11-02

Abstract

本申请公开了智能音箱语音服务相关系统、方法、装置及设备。所述智能音箱语音服务系统，通过客户端发送针对目标语音服务的文本语料提交请求；服务端滤除该请求携带的文本语料包括的影响其它语音服务启动的文本，作为第一启动词；根据滤除第一启动词后的文本语料，更新语言模型；以及，通过包括更新后语言模型的语音识别模型，确定与智能音箱采集的用户语音数据对应的文本序列，向智能音箱回送该文本序列；智能音箱采集用户语音数据；以及，若该文本序列包括语音服务启动词，则启动与所述语音服务启动词对应的语音服务。采用这种处理方式，可以有效兼顾较高的用户语音识别准确度、及语音服务的正常启动两个方面。

Description

智能音箱语音服务系统、方法、装置及设备

技术领域

本申请涉及智能音箱技术领域，具体涉及智能音箱语音服务系统、方法和装置，智能音箱，以及电子设备。

背景技术

智能音箱，是一个音箱升级的产物，是家庭消费者用语音进行上网的一个工具，比如点播歌曲、上网购物，或是了解天气预报，它也可以对智能家居设备进行控制，比如打开窗帘、设置冰箱温度、提前让热水器升温等。

智能音箱可提供多种语音服务(又称为音箱技能)，如“早上好”、“健康检测”、“查天气”、“购物”等等。不同的语音服务要识别不同领域的用户语音内容，不同领域的语音内容通常具有不同的语言特征。智能音箱的核心技术之一是语音识别技术,它主要是通过人与机器的对话,让机器可以根据人将语音信号转变为相应的文本或者可以操作的指令。要使智能音箱能识别多种语音服务的用户语音内容，可基于多种语音服务的文本语料训练语言模型。目前，智能音箱服务端向语音服务开发者提供语音子训练平台，开发者可向该平台提交其开发的语音服务特有的文本语料，如音箱提供的语音服务“购物”涉及的文本语料包括商品名、商品功能等特定语料，服务端基于该语音服务特有的文本语料，更新已经构建的语言模型，使得语言模型不仅能够识别已有上线语音服务的语音内容，还能识别新开发的语音服务的语音内容。

然而，在实现本发明过程中，发明人发现该技术方案至少存在如下问题：由于音箱语音语义自训练平台，允许用户(第三方语音服务开发者)可以自主输入语料来帮助提高其语音服务的语音识别率，如果用户输入的语料与音箱提供的语音服务的启动词冲突，就会导致无法正常启动音箱语音服务。例如，如果一个语音服务的开发者用户恶意输入“枣上好”这个语料，就会导致音箱语音识别模型有可能把“zao shang hao”解析成“枣上好”，从而进入不了“早上好”这个语音服务。综上所述，如何识别用户输入的影响其它语音服务启动的恶意关键词，基于恶意关键词过滤后的文本语料更新语言模型，以确保正常启动音箱语音服务，成为本领域技术人员迫切需要解决的技术问题。

发明内容

本申请提供智能音箱语音服务系统，以解决现有技术存在的由与音箱服务启动词具有相似发音的恶意文本语料导致的无法启动音箱服务的问题。本申请另外提供智能音箱语音服务方法和装置，智能音箱，以及电子设备。

本申请提供一种智能音箱语音服务系统，包括：

客户端，用于发送针对目标语音服务的文本语料提交请求；

服务端，用于滤除所述请求携带的文本语料包括的影响其它语音服务启动的文本，作为第一启动词；根据滤除第一启动词后的文本语料，更新语言模型；以及，通过包括更新后语言模型的语音识别模型，确定与智能音箱采集的用户语音数据对应的文本序列，向智能音箱回送所述文本序列；

智能音箱，用于采集用户语音数据；以及，若所述文本序列包括语音服务启动词，则启动与所述语音服务启动词对应的语音服务。

本申请还提供一种智能音箱语音服务方法，包括：

滤除客户端发送的针对目标语音服务的文本语料提交请求中携带的文本语料包括的影响其它语音服务启动的文本，作为第一启动词；

根据滤除第一启动词后的文本语料，更新语言模型；

通过包括更新后语言模型的语音识别模型，确定与智能音箱采集的用户语音数据对应的第一文本序列，向智能音箱回送所述第一文本序列，以使得若智能音箱判定所述第一文本序列包括语音服务启动词，则启动与所述语音服务启动词对应的语音服务。

可选的，所述第一启动词采用如下步骤确定：

通过语音合成模型，生成与所述文本语料对应的语音数据，作为语料语音数据；

通过包括更新前语言模型的语音识别模型，确定与所述语料语音数据对应的第二文本序列；

若所述第二文本序列包括所述语音服务启动词，则将所述文本语料中与所述语音服务启动词对应的文本作为所述第一启动词。

可选的，所述语音合成模型包括智能音箱语音合成模型；

所述语音识别模型包括智能音箱语音识别模型。

可选的，所述第一启动词采用如下步骤确定：

将所述文本语料转换为发音单元序列，作为语料发音单元序列；

若所述语料发音单元序列包括与所述语音服务启动词的发音单元序列相同或者相似的发音单元序列，则将所述文本语料中与所述相同或者相似的发音单元序列对应的文本作为所述第一启动词。

可选的，所述第一启动词采用如下步骤确定：

确定第一启动词库；

通过文本匹配模型，确定所述文本语料包括的所述第一启动词库中的第一启动词。

可选的，所述目标语音服务和所述其它语音服务属于相同领域；

所述方法还包括：

根据所述第一启动词和所述其它语音服务的启动词，形成所述领域的关键词词库。

可选的，还包括：

至少根据所述词库，确定与所述领域相关的信息。

可选的，所述领域包括：音乐领域，自然领域。

可选的，还包括：

确定所述第一启动词及其对应的语音服务启动词间的语义差异度；

若所述差异度小于差异度阈值，则向客户端回送文本语料包括第一启动词的信息，以便于修改所述文本语料，使其不包括第一启动词。

本申请还提供一种智能音箱语音服务方法，包括：

发送针对目标语音服务的文本语料提交请求，以使得服务端滤除所述请求携带的文本语料包括的影响其它语音服务启动的文本，作为第一启动词；根据滤除第一启动词后的文本语料，更新语言模型；以及，通过包括更新后语言模型的语音识别模型，确定与智能音箱采集的用户语音数据对应的文本序列，向智能音箱回送所述文本序列。

本申请还提供一种智能音箱语音服务方法，包括：

采集用户语音数据，发送所述用户语音数据，以使得服务端通过包括更新后语言模型的语音识别模型，确定与智能音箱采集的用户语音数据对应的文本序列，向智能音箱回送所述文本序列；其中，所述更新后语言模型采用如下方式确定：滤除客户端发送的针对目标语音服务的文本语料提交请求中携带的文本语料包括的影响其它语音服务启动的文本，作为第一启动词；根据滤除第一启动词后的文本语料，更新语言模型；

若所述文本序列包括语音服务启动词，则启动与所述语音服务启动词对应的语音服务。

本申请还提供一种智能音箱语音服务装置，包括：

恶意词滤除单元，用于滤除客户端发送的针对目标语音服务的文本语料提交请求中携带的文本语料包括的影响其它语音服务启动的文本，作为第一启动词；

语言模型更新单元，用于根据滤除第一启动词后的文本语料，更新语言模型；

语音处理单元，用于通过包括更新后语言模型的语音识别模型，确定与智能音箱采集的用户语音数据对应的第一文本序列，向智能音箱回送所述第一文本序列，以使得若智能音箱判定所述第一文本序列包括语音服务启动词，则启动与所述语音服务启动词对应的语音服务。

本申请还提供一种电子设备，包括：

处理器；以及

存储器，用于存储实现智能音箱语音服务方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：滤除客户端发送的针对目标语音服务的文本语料提交请求中携带的文本语料包括的影响其它语音服务启动的文本，作为第一启动词；根据滤除第一启动词后的文本语料，更新语言模型；通过包括更新后语言模型的语音识别模型，确定与智能音箱采集的用户语音数据对应的第一文本序列，向智能音箱回送所述第一文本序列，以使得若智能音箱判定所述第一文本序列包括语音服务启动词，则启动与所述语音服务启动词对应的语音服务。

本申请还提供一种智能音箱语音服务装置，包括：

语料提交单元，用于发送针对目标语音服务的文本语料提交请求，以使得服务端滤除所述请求携带的文本语料包括的影响其它语音服务启动的文本，作为第一启动词；根据滤除第一启动词后的文本语料，更新语言模型；以及，通过包括更新后语言模型的语音识别模型，确定与智能音箱采集的用户语音数据对应的文本序列，向智能音箱回送所述文本序列。

本申请还提供一种电子设备，包括：

处理器；以及

存储器，用于存储实现智能音箱语音服务方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：发送针对目标语音服务的文本语料提交请求，以使得服务端滤除所述请求携带的文本语料包括的影响其它语音服务启动的文本，作为第一启动词；根据滤除第一启动词后的文本语料，更新语言模型；以及，通过包括更新后语言模型的语音识别模型，确定与智能音箱采集的用户语音数据对应的文本序列，向智能音箱回送所述文本序列。

本申请还提供一种智能音箱语音服务装置，包括：

语音数据采集单元，用于采集用户语音数据，发送所述用户语音数据，以使得服务端通过包括更新后语言模型的语音识别模型，确定与智能音箱采集的用户语音数据对应的文本序列，向智能音箱回送所述文本序列；其中，所述更新后语言模型采用如下方式确定：滤除客户端发送的针对目标语音服务的文本语料提交请求中携带的文本语料包括的影响其它语音服务启动的文本，作为第一启动词；根据滤除第一启动词后的文本语料，更新语言模型；

服务启动单元，用于若所述文本序列包括语音服务启动词，则启动与所述语音服务启动词对应的语音服务。

本申请还提供一种智能音箱，包括：

处理器；以及

存储器，用于存储实现语音服务方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：采集用户语音数据，发送所述用户语音数据，以使得服务端通过包括更新后语言模型的语音识别模型，确定与智能音箱采集的用户语音数据对应的文本序列，向智能音箱回送所述文本序列；其中，所述更新后语言模型采用如下方式确定：滤除客户端发送的针对目标语音服务的文本语料提交请求中携带的文本语料包括的影响其它语音服务启动的文本，作为第一启动词；根据滤除第一启动词后的文本语料，更新语言模型；若所述文本序列包括语音服务启动词，则启动与所述语音服务启动词对应的语音服务。

本申请还提供一种智能音箱语言模型更新方法，包括：

根据滤除第一启动词后的文本语料，更新语言模型。

本申请还提供一种智能音箱语言模型更新装置，包括：

语言模型更新单元，用于根据滤除第一启动词后的文本语料，更新语言模型。

本申请还提供一种电子设备，包括：

处理器；以及

存储器，用于存储实现智能音箱语言模型更新方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：滤除客户端发送的针对目标语音服务的文本语料提交请求中携带的文本语料包括的影响其它语音服务启动的文本，作为第一启动词；根据滤除第一启动词后的文本语料，更新语言模型。

本申请还提供一种智能音箱语音服务方法，包括：

确定客户端发送的针对目标语音服务的文本语料提交请求中携带的文本语料包括的影响其它语音服务启动的文本，作为第一启动词；

若所述差异度大于差异度阈值，则根据所述文本语料，更新语言模型；

通过包括更新后语言模型的语音识别模型，确定与智能音箱采集的用户语音数据对应的文本序列，向智能音箱回送所述文本序列，以使得若智能音箱判定所述文本序列包括语音服务启动词，则启动与所述语音服务启动词对应的语音服务。

本申请还提供一种信息投放系统，包括：

客户端，用于发送针对第一目标语音服务的文本语料提交请求；

服务端，用于通过语音合成模型，生成与所述文本语料对应的语音数据，作为语料语音数据；通过语音识别模型，确定与所述语料语音数据对应的文本序列；若所述文本序列包括语音服务启动词，则将所述文本语料中与所述语音服务启动词对应的文本作为第一启动词，将所述第一启动词与所述语音服务启动词作为关联词；以及，至少根据所述关联词，确定第二目标语音服务的多个关联投放信息；向智能音箱发送所述投放信息；

智能音箱，用于显示所述投放信息。

本申请还提供一种信息投放方法，包括：

针对客户端发送的针对第一目标语音服务的文本语料提交请求，通过语音合成模型，生成与所述文本语料对应的语音数据，作为语料语音数据；

通过语音识别模型，确定与所述语料语音数据对应的文本序列；

若所述文本序列包括语音服务启动词，则将所述文本语料中与所述语音服务启动词对应的文本作为第一启动词，将所述第一启动词与所述语音服务启动词作为关联词；

至少根据所述关联词，确定第二目标语音服务的多个关联投放信息，向智能音箱发送所述投放信息。

本申请还提供一种信息投放系统包括：

第一客户端，用于发送针对目标语音服务的文本语料提交请求；

第一服务端，用于通过语音合成模型，生成与所述文本语料对应的语音数据，作为语料语音数据；通过语音识别模型，确定与所述语料语音数据对应的文本序列；若所述文本序列包括语音服务启动词，则将所述文本语料中与所述语音服务启动词对应的文本作为第一启动词，将所述第一启动词与所述语音服务启动词作为相似词；向第二服务端发送所述关联词；

第二服务端，用于至少根据所述关联词，确定目标应用的关联投放信息；向第二客户端发送所述投放信息；

第二客户端，用于显示所述投放信息。

可选的，所述目标应用包括业务对象搜索推荐应用。

本申请还提供一种信息投放方法，包括：

向第二服务端发送所述关联词。

本申请还提供一种信息投放方法，包括：

接收第一服务端发送的关联词；所述关联词采用如下方式确定：针对第一客户端发送的针对第一目标语音服务的文本语料提交请求，通过语音合成模型，生成与所述文本语料对应的语音数据，作为语料语音数据；通过语音识别模型，确定与所述语料语音数据对应的文本序列；若所述文本序列包括语音服务启动词，则将所述文本语料中与所述语音服务启动词对应的文本作为第一启动词，将所述第一启动词与所述语音服务启动词作为关联词；

至少根据所述关联词，确定目标应用的关联投放信息；

向第二客户端发送所述投放信息。

本申请还提供一种智能音箱语音服务方法，包括：

确定客户端发送的针对目标语音服务的文本语料提交请求中携带的文本语料包括的影响其它语音服务启动的文本，作为第一启动词；所述目标语音服务和所述其它语音服务属于相同领域；

可选的，还包括：

至少根据所述词库，确定与所述领域相关的信息。

可选的，所述领域包括：音乐领域，自然领域。

本申请还提供一种智能音箱语音服务方法，包括：

确定所述第一启动词与其影响启动的语音服务的第二启动词间的语义差异度；

若所述差异度小于差异度阈值，则向客户端回送文本语料包括第一启动词的信息，以便于修改所述文本语料，使其不包括第一启动词，以便于根据不包括第一启动词的文本语料，更新语言模型；通过包括更新后语言模型的语音识别模型，确定与智能音箱采集的用户语音数据对应的第一文本序列，向智能音箱回送所述第一文本序列，以使得若智能音箱判定所述第一文本序列包括语音服务启动词，则启动与所述语音服务启动词对应的语音服务。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各种方法。

本申请还提供一种包括指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各种方法。

与现有技术相比，本申请具有以下优点：

本申请实施例提供的智能音箱语音服务系统，通过客户端发送针对目标语音服务的文本语料提交请求；服务端滤除所述请求携带的文本语料包括的影响其它语音服务启动的文本，作为第一启动词；根据滤除第一启动词后的文本语料，更新语言模型；以及，通过包括更新后语言模型的语音识别模型，确定与智能音箱采集的用户语音数据对应的文本序列，向智能音箱回送所述文本序列；智能音箱采集用户语音数据；以及，若所述文本序列包括语音服务启动词，则启动与所述语音服务启动词对应的语音服务；这种处理方式，使得滤除目标语音服务的文本语料中包括的与其它语音服务的启动词冲突的恶意关键词，基于恶意关键词过滤后的目标语音服务语料更新语言模型，这样既可以提升语音识别模型对目标语音服务的用户语音内容的识别准确度，又可以避免影响其它语音服务的正常启动；因此，可以有效兼顾较高的用户语音识别准确度、及语音服务的正常启动两个方面。

本申请实施例提供的智能音箱语音服务方法，通过确定客户端发送的针对目标语音服务的文本语料提交请求中携带的文本语料包括的影响其它语音服务启动的文本，作为第一启动词；确定所述第一启动词及其对应的语音服务启动词间的语义差异度；若所述差异度大于差异度阈值，则根据所述文本语料，更新语言模型；通过包括更新后语言模型的语音识别模型，确定与智能音箱采集的用户语音数据对应的文本序列，向智能音箱回送所述文本序列，以使得若智能音箱判定所述文本序列包括语音服务启动词，则启动与所述语音服务启动词对应的语音服务；这种处理方式，使得根据包括与其它语义服务的启动词在语义上差别较大的第一启动词的文本语料，更新语言模型，无需滤除该类第一启动词，可以结合上下文语境，确定用户语音中究竟是其它语音服务的启动词，还是目标语音服务的语料；因此，可以确保在不影响其它服务正常启动的前提下，有效提升目标语音服务的语音识别准确度。

本申请实施例提供的信息投放系统，通过客户端发送针对第一目标语音服务的文本语料提交请求；服务端通过语音合成模型，生成与所述文本语料对应的语音数据，作为语料语音数据；通过语音识别模型，确定与所述语料语音数据对应的文本序列；若所述文本序列包括语音服务启动词，则将所述文本语料中与所述语音服务启动词对应的文本作为第一启动词，将所述第一启动词与所述语音服务启动词作为关联词；以及，至少根据所述关联词，确定第二目标语音服务的多个关联投放信息；向智能音箱发送所述投放信息；智能音箱显示所述投放信息；这种处理方式，使得可向智能音箱投放更为全面丰富的信息；因此，可以有效提升用户体验。

附图说明

图1本申请提供的一种智能音箱语音服务系统的实施例的结构示意图；

图2本申请提供的一种智能音箱语音服务系统的实施例的应用场景示意图；

图3本申请提供的一种智能音箱语音服务系统的实施例的设备交互示意图；

图4本申请提供的一种智能音箱语音服务系统的实施例的处理流程示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本申请中，提供了智能音箱语音服务系统、方法和装置，语音翻译模型质量评估系统和方法，以及电子设备。在下面的实施例中逐一对各种方案进行详细说明。

第一实施例

请参考图1，其为本申请的智能音箱语音服务系统的实施例的结构图。该系统包括：服务端1，客户端2。

所述服务端1，可以是部署在云端服务器上的服务端，也可以是专用于实现智能音箱语音服务的服务器，可部署在数据中心。服务器，可以是集群服务器，也可以是单台服务器。

所述客户端2，包括但不限于移动通讯设备，即：通常所说的手机或者智能手机，还包括个人电脑、PAD、iPad等终端设备。

智能音箱3，可以是家庭消费者用语音进行上网的一个工具，比如点播歌曲、上网购物，或是了解天气预报，它也可以对智能家居设备进行控制，比如打开窗帘、设置冰箱温度、提前让热水器升温等。

请参考图2，其为本申请的智能音箱语音服务系统的场景示意图。服务端、智能音箱和客户端间可通过网络连接，如客户端和智能音箱可通过WIFI等方式联网，等等。音箱语音服务的开发者用户可将其所开发的语音服务的文本语料输入至客户端，通过客户端向服务端发送针对其所开发的语音服务的文本语料提交请求，服务端基于该文本语料更新音箱服务的语言模型，并基于音箱服务的语音模型和更新后的语言模型，对智能音箱采集的用户语音数据进行识别，如果识别到用户语音中包括语音服务的启动词，则智能音箱可启动该语音服务，通过该语音服务为音箱用户提供服务。

请参考图3，其为本申请的智能音箱语音服务系统的实施例的设备交互示意图。在本实施例中，客户端发送针对目标语音服务的文本语料提交请求；服务端滤除所述请求携带的文本语料包括的影响其它语音服务启动的文本，作为第一启动词；根据滤除第一启动词后的文本语料，更新语言模型；以及，通过包括更新后语言模型的语音识别模型，确定与智能音箱采集的用户语音数据对应的文本序列，向智能音箱回送所述文本序列；智能音箱采集用户语音数据；以及，若所述文本序列包括语音服务启动词，则启动与所述语音服务启动词对应的语音服务。

所述语音服务，又称为音箱技能，包括通过智能音箱向用户提供的语音服务。所述语音服务，包括但不限于：早上好，查天气，健康检测，购物，等等。

所述请求，可包括目标语音服务的服务标识和该服务涉及的文本语料。表1示出了本实施例中的语音服务信息。

语音服务标识	语音服务名称	语音服务启动词
			1	早上好	早上好
2	健康检测	健康检测
			3	查天气	查天气
4	购物	购物
				…

表1、语音服务信息表

所述服务端通过语音识别模型，确定与智能音箱采集的用户语音数据对应的第一文本序列，向智能音箱回送所述第一文本序列，以使得若智能音箱判定所述第一文本序列包括语音服务启动词，则启动与所述语音服务启动词对应的语音服务。

语音识别，就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术，主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。本申请实施例提供的系统，将实现语音识别技术的模块称为语音识别模型。语音识别机器学习训练包括语言模型与语音模型，也就是说，语音识别模型包括语言模型与语音模型。语音模型又称为声学模型，声学模型是语音识别系统中最为重要的部分之一，声学模型训练就是通过机器学习的方式进行声学模型训练。语音识别中语言模型的目的就是根据声学模型输出的结果，给出概率最大的文字序列，语言模型训练就是通过机器学习的方式进行语言模型训练。

智能音箱涉及的语音识别机器学习训练包括语言模型与语音模型，通常通过专门训练语音模型或者专门训练语言模型，都能达到提高语音识别准确率的目的。本申请实施例提供的所述系统，通过训练语言模型来提高语音模型的训练效果，这也是目前大多数语音识别机器学习训练常用的方式。

语言模型(Language Model,LM)，是针对某种语言建立的概率模型，如N-Gram语言模型等，其目的是建立一个能够描述给定词序列在语言中的出现的概率的分布。语言模型主要应用在大词汇连续语音识别中，以汉语语言模型为例，其利用上下文中相邻词间的搭配信息，可以实现到汉字的自动转换。

语言模型技术广泛应用于语音识别、OCR、机器翻译、输入法等产品上。语言模型建模过程中，包括词典、语料、模型选择等，对产品的性能有至关重要的影响。构建语言模型的流程如下所述。首先，可利用爬虫从互联网抓取大量网页文本语料，然后将网页文本处理成所需格式，最后根据文本语料集训练生成LM。

智能音箱可提供多种语音服务，不同的语音服务要识别不同领域的用户语音内容，不同领域的语音内容通常具有不同的语言特征。要使智能音箱能识别多种语音服务的用户语音内容，可基于多种语音服务的文本语料训练语言模型，这样可以提升语音识别准确率。在本实施例中，所述服务端向语音服务开发者提供语音子训练平台，开发者可向该平台提交其开发的语音服务特有的文本语料，服务端基于该语音服务特有的文本语料，更新已经构建的语言模型，使其不仅能够识别已有语音服务的语音内容，还能识别新开发的语音服务的语音内容。

所述基于已经构建的语言模型，包括基于已有语音服务的文本语料构建的语言模型，如根据“早上好”、“查天气”等等语音服务的文本语料构建的语言模型。

在本实施例中，开发者用户在为其新开发的语音服务准备文本语料时，加入了恶意关键词，借此导致无法正常启动其竞争者的语音服务。所述恶意关键词，包括文本语料包括的影响其它语音服务启动的文本。例如，如果一个语音服务的开发者用户恶意输入“枣上好”这个语料，就会导致音箱语音识别模型有可能把“zao shang hao”解析成“枣上好”，从而进入不了“早上好”这个语音服务。

所述服务端接收到所述请求后，要滤除所述第一启动词(如果是恶意输入的，也可以称为恶意启动词、恶意关键词等)。在滤除所述第一启动词后，可根据滤除第一启动词后的文本语料，更新语言模型。由于根据新增文本语料更新语言模型属于较为成熟的现有技术，因此此处不再赘述。

所述服务端更新语言模型后，可通过包括更新后语言模型的语音识别模型，确定与智能音箱采集的用户语音数据对应的第一文本序列，向智能音箱回送所述第一文本序列，以使得若智能音箱判定所述第一文本序列包括语音服务启动词，则启动与所述语音服务启动词对应的语音服务。

具体实施时，所述服务端接收到所述请求后，可通过以下方式滤除所述第一启动词。

方式一、基于语音合成检测第一启动词的方法。

如图4所示，在本实施例中，所述第一启动词可采用如下步骤确定：1)通过语音合成模型，生成与所述文本语料对应的语音数据，作为语料语音数据；2)通过包括更新前语言模型的语音识别模型，确定与所述语料语音数据对应的第二文本序列；3)若所述第二文本序列包括所述语音服务启动词，则将所述文本语料中与所述语音服务启动词对应的文本作为所述第一启动词。

方式一采用文本语料合成音频的方式，模拟了与语音服务启动词相似的发音，再经过语音识别引擎得到语音识别的结果，从而帮助判断与语音服务启动词具有相似发音的文本如果参加语言模型的训练是否会影响已经上线的语音服务的启动词(又称为线上关键词)。

语音合成是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的音频输出的技术。本实施例通过语音合成模型，生成与开发者用户输入的文本语料对应的语音数据。

在本实施例中，通过关键词检测技术，判断所述第二文本序列是否包括所述语音服务启动词。关键词检测，是指在一定文本语料集中发现需要被约束的词语。例如，开发者用户输入的文本语料包括“招商好”、“招商号”、“找上好”或“枣上好”等文本,这些文本的发音与音箱技能“早上好”相似，如果允许这些文本参与语言模型训练，则可能将音箱采集的用户语音“zhao shang好”识别为“招商好”、“招商号”或“找上好”，则无法进入音箱技能“早上好”的流程。

具体实施时，可根据表1判断所述第二文本序列是否包括所述语音服务启动词，即：如果所述第二文本序列包括表1中出现的启动词，且文本语料中与所述启动词对应的文本不同于该启动词，则可将所述文本语料中与所述语音服务启动词对应的文本作为所述第一启动词。

具体实施时，采用方式一确定所述第一启动词的过程可包括如下步骤：

S1、用户在平台输入将要进行语言模型训练的文本语料。

S2、将用户输入的语料通过语音合成技术生成音频文件。

S3、将生成的音频文件通过语音识别引擎，从而得到语音识别后的文本。这个语音引擎可以是智能音箱(如天猫精灵)线上正在使用的语音识别引擎，这样语音识别后的文本可以确保是真正的智能音箱线上引擎所识别出来的文字。

S4、将步骤S3语音识别后的文本进行关键词检测。具体实施时，可以在表1的非法关键词库中做检索，判断识别的文本是否命中非法关键词检测。这里的非法关键词检索技术，可以基于编辑距离、KV检测、规则匹配等等方式；这种处理方式，使得可检测到更多的恶意关键词，如语音服务“今日好货”的第一启动词包括“日的好货”、“今日好货呢”、“今日好货吗”等，语音服务“早上好”的第一启动词包括“枣上好啊”、“找商好吧”、“早商好”等。

S5、如果步骤S4命中非法关键词，则意味着用户输入的文本语料含有非法关键词，如果投入语言模型训练，最终可能会影响音箱线上语音服务现有的关键词(语音服务启动词)识别，需要被过滤出来。

S6、如果步骤S4没有命中非法关键词，则意味着用户输入的文本语料不会影响线上关键词识别，可以加入训练。

综上所述，方式一的数据流转方式为：待训练文本->音频文件->待判断的文本，对待判断文本进行关键词检测。

在一个示例中，所述语音合成模型包括智能音箱语音合成模型；所述语音识别模型包括智能音箱语音识别模型(智能音箱线上语音识别引擎)。由于同时采用线上的语音合成方法与语音识别引擎，在操作上更加简单，省去了语音识别中特征转换，信号处理，模式识别等复杂流程。

方式二、所述第一启动词采用如下步骤确定：将所述文本语料转换为发音单元序列，作为语料发音单元序列；若所述语料发音单元序列包括与所述语音服务启动词的发音单元序列相同或者相似的发音单元序列，则将所述文本语料中与所述相同或者相似的发音单元序列对应的文本作为所述第一启动词。

方式二的核心思想是将文字转换为拼音，通过拼音匹配方式确定第一启动词。然而，语音识别涉及到信号识别、语音特征提取、模式匹配、概率论、机器学习等等复杂过程，这种根据拼音进行匹配的处理方式，所能确定的第一启动词的全面性极为有限。

方式三、所述第一启动词采用如下步骤确定：确定第一启动词库；通过文本匹配模型，确定所述文本语料包括的所述第一启动词库中的第一启动词。

方式二的核心思想是通过纯粹的文本识别确定第一启动词。然而，这种处理方式无法解决这种同音不同字的问题。例如，用户可能输入”招商好“、"招商号",而文本的关键词匹配通常基于编辑距离、键值对匹配、或者规则匹配，并没有办法解决这种相似发音的文本检测的问题，因为是否是相似发音，必须通过语音识别引擎识别之后才可以准确判断。

在一个示例中，所述目标语音服务和所述其它语音服务属于相同领域，如同属于音乐领域，或者同属于自然领域，等等；所述服务端还可用于根据所述第一启动词和所述其它语音服务的启动词，形成所述领域的关键词词库；至少根据所述词库，确定与所述领域相关的信息。采用这种处理方式，使得将涉及同一领域的多个音箱服务的相互关联的词集中在一起，参考这些信提供该领域的信息；因此，可以有效提升领域信息的丰富度和准确度，从而提升用户体验。

在一个示例中，服务端还用于确定所述第一启动词及其对应的语音服务启动词间的语义差异度；若所述差异度小于差异度阈值，则向客户端回送文本语料包括第一启动词的信息，以便于修改所述文本语料，使其不包括第一启动词。所述语义差异度，可采用较为成熟的现有技术确定，此处不再赘述。采用这种处理方式，使得可由语料提供方修改有问题的语料，而不是直接过滤第一启动词，这样可以确保语料内容的完整性；因此，可以提升语言模型的准确度。

从上述实施例可见，本申请实施例提供的智能音箱语音服务系统，通过客户端发送针对目标语音服务的文本语料提交请求；服务端滤除所述请求携带的文本语料包括的影响其它语音服务启动的文本，作为第一启动词；根据滤除第一启动词后的文本语料，更新语言模型；以及，通过包括更新后语言模型的语音识别模型，确定与智能音箱采集的用户语音数据对应的文本序列，向智能音箱回送所述文本序列；智能音箱采集用户语音数据；以及，若所述文本序列包括语音服务启动词，则启动与所述语音服务启动词对应的语音服务；这种处理方式，使得滤除目标语音服务的文本语料中包括的与其它语音服务的启动词冲突的恶意关键词，基于恶意关键词过滤后的目标语音服务语料更新语言模型，这样既可以提升语音识别模型对目标语音服务的用户语音内容的识别准确度，又可以避免影响其它语音服务的正常启动；因此，可以有效兼顾较高的用户语音识别准确度、及语音服务的正常启动两个方面。

第二实施例

与上述的智能音箱语音服务系统相对应，本申请还提供一种智能音箱语音服务方法，该方法的执行主体包括但不限于客户端，也可以是其它终端设备。本实施例与第一实施例内容相同的部分不再赘述，请参见实施例一中的相应部分。

在本实施例中，所述方法包括如下步骤：发送针对目标语音服务的文本语料提交请求，以使得服务端滤除所述请求携带的文本语料包括的影响其它语音服务启动的文本，作为第一启动词；根据滤除第一启动词后的文本语料，更新语言模型；以及，通过包括更新后语言模型的语音识别模型，确定与智能音箱采集的用户语音数据对应的文本序列，向智能音箱回送所述文本序列。

在一个示例中，所述方法还可包括如下步骤：接收服务端发送的文本语料包括第一启动词的信息；更新文本语料，使其不包括第一启动词；向服务端发送更新的文本语料，所述语义差异度，可采用较为成熟的现有技术确定，此处不再赘述。采用这种处理方式，使得可由语料提供方修改有问题的语料，而不是直接过滤第一启动词，这样可以确保语料内容的完整性；因此，可以提升语言模型的准确度。

第三实施例

在上述的实施例中，提供了一种智能音箱语音服务方法，与之相对应的，本申请还提供一种智能音箱语音服务装置。该装置是与上述方法的实施例相对应。

本实施例与第一实施例内容相同的部分不再赘述，请参见实施例一中的相应部分。本申请提供的一种智能音箱语音服务装置包括：

第四实施例

本申请还提供一种电子设备。由于设备实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。

本实施例的一种电子设备，该电子设备包括：处理器和存储器；存储器，用于存储实现智能音箱语音服务方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：发送针对目标语音服务的文本语料提交请求，以使得服务端滤除所述请求携带的文本语料包括的影响其它语音服务启动的文本，作为第一启动词；根据滤除第一启动词后的文本语料，更新语言模型；以及，通过包括更新后语言模型的语音识别模型，确定与智能音箱采集的用户语音数据对应的文本序列，向智能音箱回送所述文本序列。

第五实施例

与上述的智能音箱语音服务系统相对应，本申请还提供一种智能音箱语音服务方法，该方法的执行主体包括但不限于服务端，也可以是能够实现所述方法的任意设备。本实施例与第一实施例内容相同的部分不再赘述，请参见实施例一中的相应部分。

在本实施例中，所述方法包括如下步骤：

步骤1：滤除客户端发送的针对目标语音服务的文本语料提交请求中携带的文本语料包括的影响其它语音服务启动的文本，作为第一启动词；

步骤2：根据滤除第一启动词后的文本语料，更新语言模型；

步骤3：通过包括更新后语言模型的语音识别模型，确定与智能音箱采集的用户语音数据对应的第一文本序列，向智能音箱回送所述第一文本序列，以使得若智能音箱判定所述第一文本序列包括语音服务启动词，则启动与所述语音服务启动词对应的语音服务。

在一个示例中，所述第一启动词可采用如下步骤确定：通过语音合成模型，生成与所述文本语料对应的语音数据，作为语料语音数据；通过包括更新前语言模型的语音识别模型，确定与所述语料语音数据对应的第二文本序列；若所述第二文本序列包括所述语音服务启动词，则将所述文本语料中与所述语音服务启动词对应的文本作为所述第一启动词。

在一个示例中，所述语音合成模型包括智能音箱语音合成模型；所述语音识别模型包括智能音箱语音识别模型。

在一个示例中，所述第一启动词可采用如下步骤确定：将所述文本语料转换为发音单元序列，作为语料发音单元序列；若所述语料发音单元序列包括与所述语音服务启动词的发音单元序列相同或者相似的发音单元序列，则将所述文本语料中与所述相同或者相似的发音单元序列对应的文本作为所述第一启动词。

在一个示例中，所述第一启动词可采用如下步骤确定：确定第一启动词库；通过文本匹配模型，确定所述文本语料包括的所述第一启动词库中的第一启动词。

在一个示例中，所述目标语音服务和所述其它语音服务属于相同领域；所述方法还可包括如下步骤：根据所述第一启动词和所述其它语音服务的启动词，形成所述领域的关键词词库。所述领域，包括但不限于：音乐领域，自然领域。

在一个示例中，所述方法还可包括如下步骤：至少根据所述词库，确定与所述领域相关的信息。

在一个示例中，所述方法还可包括如下步骤：确定所述第一启动词及其对应的语音服务启动词间的语义差异度；若所述差异度小于差异度阈值，则向客户端回送文本语料包括第一启动词的信息，以便于修改所述文本语料，使其不包括第一启动词。

第六实施例

第七实施例

本申请还提供一种电子设备实施例。由于设备实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。

本实施例的一种电子设备，该电子设备包括：处理器和存储器；存储器，用于存储实现智能音箱语音服务方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：滤除客户端发送的针对目标语音服务的文本语料提交请求中携带的文本语料包括的影响其它语音服务启动的文本，作为第一启动词；根据滤除第一启动词后的文本语料，更新语言模型；通过包括更新后语言模型的语音识别模型，确定与智能音箱采集的用户语音数据对应的第一文本序列，向智能音箱回送所述第一文本序列，以使得若智能音箱判定所述第一文本序列包括语音服务启动词，则启动与所述语音服务启动词对应的语音服务。

第八实施例

与上述的智能音箱语音服务系统相对应，本申请还提供一种智能音箱语音服务方法，该方法的执行主体包括但不限于智能音箱。本实施例与第一实施例内容相同的部分不再赘述，请参见实施例一中的相应部分。

在本实施例中，所述方法包括如下步骤：

步骤1：采集用户语音数据，发送所述用户语音数据，以使得服务端通过包括更新后语言模型的语音识别模型，确定与智能音箱采集的用户语音数据对应的文本序列，向智能音箱回送所述文本序列；其中，所述更新后语言模型采用如下方式确定：滤除客户端发送的针对目标语音服务的文本语料提交请求中携带的文本语料包括的影响其它语音服务启动的文本，作为第一启动词；根据滤除第一启动词后的文本语料，更新语言模型；

步骤2：若所述文本序列包括语音服务启动词，则启动与所述语音服务启动词对应的语音服务。

第九实施例

第十实施例

本申请还提供一种智能音箱实施例。由于设备实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。

本实施例的一种智能音箱，该智能音箱包括：处理器和存储器；存储器，用于存储实现智能音箱语音服务方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：采集用户语音数据，发送所述用户语音数据，以使得服务端通过包括更新后语言模型的语音识别模型，确定与智能音箱采集的用户语音数据对应的文本序列，向智能音箱回送所述文本序列；其中，所述更新后语言模型采用如下方式确定：滤除客户端发送的针对目标语音服务的文本语料提交请求中携带的文本语料包括的影响其它语音服务启动的文本，作为第一启动词；根据滤除第一启动词后的文本语料，更新语言模型；若所述文本序列包括语音服务启动词，则启动与所述语音服务启动词对应的语音服务。

第十一实施例

与上述的智能音箱语音服务系统相对应，本申请还提供一种智能音箱语言模型更新方法，该方法的执行主体包括但不限于服务端，也可以是能够实现所述方法的任意设备。本实施例与第一实施例内容相同的部分不再赘述，请参见实施例一中的相应部分。

在本实施例中，所述方法包括如下步骤：

步骤2：根据滤除第一启动词后的文本语料，更新语言模型。

第十二实施例

在上述的实施例中，提供了一种智能音箱语言模型更新方法，与之相对应的，本申请还提供一种智能音箱语言模型更新装置。该装置是与上述方法的实施例相对应。

本实施例与第一实施例内容相同的部分不再赘述，请参见实施例一中的相应部分。本申请提供的一种智能音箱语言模型更新装置包括：

第十三实施例

本实施例的一种电子设备，该电子设备包括：处理器和存储器；存储器，用于存储实现智能音箱语言模型更新方法的程序，该设备通电并通过所述处理器运行该方法的程序后，执行下述步骤：滤除客户端发送的针对目标语音服务的文本语料提交请求中携带的文本语料包括的影响其它语音服务启动的文本，作为第一启动词；根据滤除第一启动词后的文本语料，更新语言模型。

第十四实施例

在本实施例中，所述方法包括如下步骤：

步骤1：确定客户端发送的针对目标语音服务的文本语料提交请求中携带的文本语料包括的影响其它语音服务启动的文本，作为第一启动词；

步骤2：确定所述第一启动词及其对应的语音服务启动词间的语义差异度；

步骤3：若所述差异度大于差异度阈值，则根据所述文本语料，更新语言模型；所述语义差异度，可采用较为成熟的现有技术确定，此处不再赘述。所述差异度阈值，可根据应用需求确定。

步骤4：通过包括更新后语言模型的语音识别模型，确定与智能音箱采集的用户语音数据对应的文本序列，向智能音箱回送所述文本序列，以使得若智能音箱判定所述文本序列包括语音服务启动词，则启动与所述语音服务启动词对应的语音服务。

采用这种处理方式，使得根据包括与其它语义服务的启动词在语义上差别较大的第一启动词的文本语料，更新语言模型，无需滤除该类第一启动词，可以结合上下文语境，确定用户语音中究竟是其它语音服务的启动词，还是目标语音服务的语料；因此，可以确保在不影响其它服务正常启动的前提下，有效提升目标语音服务的语音识别准确度。

第十五实施例

与上述的智能音箱语音服务系统相对应，本申请还提供一种信息投放系统。本实施例与第一实施例内容相同的部分不再赘述，请参见实施例一中的相应部分。

本申请提供一种信息投放系统，包括：客户端，服务端，智能音箱。

所述客户端，用于发送针对第一目标语音服务的文本语料提交请求；服务端，用于通过语音合成模型，生成与所述文本语料对应的语音数据，作为语料语音数据；通过语音识别模型，确定与所述语料语音数据对应的文本序列；若所述文本序列包括语音服务启动词，则将所述文本语料中与所述语音服务启动词对应的文本作为第一启动词，将所述第一启动词与所述语音服务启动词作为关联词；以及，至少根据所述关联词，确定第二目标语音服务的多个关联投放信息；向智能音箱发送所述投放信息；智能音箱，用于显示所述投放信息。

在一个示例中，服务端具体用于根据所述关联词和搜索词，确定第二目标语音服务提供的多个业务对象，所述多个业务对象包括：与第一启动词相关的业务对象、和与所述语音服务启动词相关的业务对象；向智能音箱发送所述多个业务对象。其中，所述多个关联投放信息为所述多个业务对象。采用这种处理方式，可以有效提升搜索结果的召全率。

例如，第二目标语音服务为“视频点播服务”，如果第一目标语音服务的文本语料包括“河马”，音箱上装载第三语音服务“盒马”服务，其启动词为“盒马”，则由于包括“河马”的语料会影响到“盒马”服务的正常启动，因此将这两个词视为一对关联词。在这种情况下，如果用户使用音箱提供的“视频点播服务”，且用户语音输入发音为“hema”的搜索词，则该服务不仅可显示有关“河马”的视频，还可显示有关“盒马超市”的视频，用户可通过带屏音箱选取感兴趣的视频观看。

再例如，第二目标语音服务为“购物服务”，如果第一目标语音服务的文本语料包括“一大早”，音箱上装载第三语音服务“大枣”服务，其启动词为“大枣”，则由于包括“大早”的语料会影响到“大枣”服务的正常启动，因此将这两个词视为一对关联词。在这种情况下，如果用户使用音箱提供的“购物服务”，且用户通过音箱屏幕输入为“大早”搜索词，则该服务可显示有关“大枣”商品对象。

在另一个示例中，服务端具体用于根据所述关联词和用户偏好信息，确定第二目标语音服务提供的多个业务对象，所述多个业务对象包括：与第一启动词相关的业务对象、和与所述语音服务启动词相关的业务对象；向智能音箱发送所述多个业务对象。其中，所述多个关联投放信息为所述多个业务对象。采用这种处理方式，可以有效提升搜索结果的召全率。

例如，用户喜欢品牌A的小家电，第二目标语音服务为“购物服务”，如果第一目标语音服务的文本语料包括“品牌A”的相近发音词，音箱上装载第三语音服务“品牌A”服务，其启动词为“品牌A”，则由于包括相近发音词的语料会影响到“品牌A”服务的正常启动，因此将这两个词视为一对关联词。在这种情况下，如果用户使用音箱提供的“购物服务”，则该服务不仅可显示有关“品牌A”的商品对象，还可显示有关“相近发音词”的商品对象，用户可通过带屏音箱选取感兴趣的商品对象下单购买。

从上述实施例可见，本申请实施例提供的信息投放系统，通过客户端发送针对第一目标语音服务的文本语料提交请求；服务端通过语音合成模型，生成与所述文本语料对应的语音数据，作为语料语音数据；通过语音识别模型，确定与所述语料语音数据对应的文本序列；若所述文本序列包括语音服务启动词，则将所述文本语料中与所述语音服务启动词对应的文本作为第一启动词，将所述第一启动词与所述语音服务启动词作为关联词；以及，至少根据所述关联词，确定第二目标语音服务的多个关联投放信息；向智能音箱发送所述投放信息；智能音箱显示所述投放信息；这种处理方式，使得可向智能音箱投放更为全面丰富的信息；因此，可以有效提升用户体验。

第十六实施例

与上述的信息投放系统相对应，本申请还提供一种信息投放方法，该方法的执行主体包括但不限于服务端，也可以是能够实现所述方法的任意设备。本实施例与第一实施例内容相同的部分不再赘述，请参见实施例一中的相应部分。

在本实施例中，所述方法包括如下步骤：

步骤1：针对客户端发送的针对第一目标语音服务的文本语料提交请求，通过语音合成模型，生成与所述文本语料对应的语音数据，作为语料语音数据；

步骤2：通过语音识别模型，确定与所述语料语音数据对应的文本序列；

步骤3：若所述文本序列包括语音服务启动词，则将所述文本语料中与所述语音服务启动词对应的文本作为第一启动词，将所述第一启动词与所述语音服务启动词作为关联词；

步骤4：至少根据所述关联词，确定第二目标语音服务的多个关联投放信息，向智能音箱发送所述投放信息。

第十七实施例

与上述的信息投放系统相对应，本申请还提供一种信息投放系统。本实施例与第十五实施例内容相同的部分不再赘述，请参见实施例十五中的相应部分。

本申请提供一种信息投放系统，包括：第一客户端，第二客户端，第一服务端，第二服务端。

所述第一客户端，用于发送针对目标语音服务的文本语料提交请求；第一服务端，用于通过语音合成模型，生成与所述文本语料对应的语音数据，作为语料语音数据；通过语音识别模型，确定与所述语料语音数据对应的文本序列；若所述文本序列包括语音服务启动词，则将所述文本语料中与所述语音服务启动词对应的文本作为第一启动词，将所述第一启动词与所述语音服务启动词作为相似词；向第二服务端发送所述关联词；第二服务端，用于至少根据所述关联词，确定目标应用的关联投放信息；向第二客户端发送所述投放信息；第二客户端，用于显示所述投放信息。其中，所述目标应用包括但不限于：业务对象搜索推荐应用。

本实施例提供的系统与实施例十五提供的系统的不同之处包括：实施例十五提供的系统是语音服务均可部署在音箱服务端，向智能音箱推送投放的信息；而本实施例提供的系统，语音服务可部署在音箱服务端，而目标应用可部署在其它服务端，音箱服务端将关联词信息发送至目标应用的服务端，由目标应用的服务端向第二客户端推送投放的信息。所述第二客户端，可以是个人电脑、移动通讯设备等。

从上述实施例可见，本申请实施例提供的信息投放系统，通过第一客户端，用于发送针对目标语音服务的文本语料提交请求；第一服务端用于通过语音合成模型，生成与所述文本语料对应的语音数据，作为语料语音数据；通过语音识别模型，确定与所述语料语音数据对应的文本序列；若所述文本序列包括语音服务启动词，则将所述文本语料中与所述语音服务启动词对应的文本作为第一启动词，将所述第一启动词与所述语音服务启动词作为相似词；向第二服务端发送所述关联词；第二服务端用于至少根据所述关联词，确定目标应用的关联投放信息；向第二客户端发送所述投放信息；第二客户端用于显示所述投放信息。其中，所述目标应用包括但不限于：业务对象搜索推荐应用；这种处理方式，使得可向客户端投放更为全面丰富的信息；因此，可以有效提升用户体验。

第十八实施例

在本实施例中，所述方法包括如下步骤：

步骤4：向第二服务端发送所述关联词。

第十九实施例

在本实施例中，所述方法包括如下步骤：

步骤1：接收第一服务端发送的关联词；所述关联词采用如下方式确定：针对第一客户端发送的针对第一目标语音服务的文本语料提交请求，通过语音合成模型，生成与所述文本语料对应的语音数据，作为语料语音数据；通过语音识别模型，确定与所述语料语音数据对应的文本序列；若所述文本序列包括语音服务启动词，则将所述文本语料中与所述语音服务启动词对应的文本作为第一启动词，将所述第一启动词与所述语音服务启动词作为关联词；

步骤2：至少根据所述关联词，确定目标应用的关联投放信息；

步骤3：向第二客户端发送所述投放信息。

第二十实施例

在本实施例中，所述方法包括如下步骤：

所述目标语音服务和所述其它语音服务属于相同领域；

步骤2：根据所述第一启动词和所述其它语音服务的启动词，形成所述领域的关键词词库。

所述领域包括：音乐领域，自然领域。

在一个示例中，所述方法还可包括如下步骤：

步骤3：至少根据所述词库，确定与所述领域相关的信息。

在一个示例中，所述方法还可包括如下步骤：

步骤4：根据滤除第一启动词后的文本语料，更新语言模型；

步骤6：通过包括更新后语言模型的语音识别模型，确定与智能音箱采集的用户语音数据对应的第一文本序列，向智能音箱回送所述第一文本序列，以使得若智能音箱判定所述第一文本序列包括语音服务启动词，则启动与所述语音服务启动词对应的语音服务。

第二十一实施例

在本实施例中，所述方法包括如下步骤：

步骤2：确定所述第一启动词与其影响启动的语音服务的第二启动词间的语义差异度；

步骤3：若所述差异度小于差异度阈值，则向客户端回送文本语料包括第一启动词的信息，以便于修改所述文本语料，使其不包括第一启动词，以便于根据不包括第一启动词的文本语料，更新语言模型；通过包括更新后语言模型的语音识别模型，确定与智能音箱采集的用户语音数据对应的第一文本序列，向智能音箱回送所述第一文本序列，以使得若智能音箱判定所述第一文本序列包括语音服务启动词，则启动与所述语音服务启动词对应的语音服务。

本申请虽然以较佳实施例公开如上，但其并不是用来限定本申请，任何本领域技术人员在不脱离本申请的精神和范围内，都可以做出可能的变动和修改，因此本申请的保护范围应当以本申请权利要求所界定的范围为准。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

2、本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims

1.一种智能音箱语音服务系统，其特征在于，包括：

客户端，用于发送针对目标语音服务的文本语料提交请求；

2.一种智能音箱语音服务方法，其特征在于，包括：

根据滤除第一启动词后的文本语料，更新语言模型；

3.根据权利要求2所述的方法，其特征在于，所述第一启动词采用如下步骤确定：

4.根据权利要求3所述的方法，其特征在于，

所述语音合成模型包括智能音箱语音合成模型；

所述语音识别模型包括智能音箱语音识别模型。

5.根据权利要求2所述的方法，其特征在于，所述第一启动词采用如下步骤确定：

6.根据权利要求2所述的方法，其特征在于，所述第一启动词采用如下步骤确定：

确定第一启动词库；

7.一种智能音箱语音服务方法，其特征在于，包括：

8.根据权利要求7所述的方法，其特征在于，还包括：

至少根据所述词库，确定与所述领域相关的信息。

9.根据权利要求7所述的方法，其特征在于，

所述领域包括：音乐领域，自然领域。

10.一种智能音箱语音服务方法，其特征在于，包括：

11.一种智能音箱语音服务方法，其特征在于，包括：

12.一种智能音箱语音服务方法，其特征在于，包括：

13.一种智能音箱语音服务装置，其特征在于，包括：

14.一种电子设备，其特征在于，包括：

处理器；以及

15.一种智能音箱语音服务装置，其特征在于，包括：

16.一种电子设备，其特征在于，包括：

处理器；以及

17.一种智能音箱语音服务装置，其特征在于，包括：

18.一种智能音箱，其特征在于，包括：

处理器；以及

19.一种智能音箱语言模型更新方法，其特征在于，包括：

根据滤除第一启动词后的文本语料，更新语言模型。

20.一种智能音箱语言模型更新装置，其特征在于，包括：

21.一种电子设备，其特征在于，包括：

处理器；以及

22.一种智能音箱语音服务方法，其特征在于，包括：

23.一种信息投放系统，其特征在于，包括：

智能音箱，用于显示所述投放信息。

24.一种信息投放方法，其特征在于，包括：

25.一种信息投放系统，其特征在于，包括：

第二客户端，用于显示所述投放信息。

26.根据权利要求25所述的系统，其特征在于，所述目标应用包括业务对象搜索推荐应用。

27.一种信息投放方法，其特征在于，包括：

向第二服务端发送所述关联词。

28.一种信息投放方法，其特征在于，包括：

至少根据所述关联词，确定目标应用的关联投放信息；

向第二客户端发送所述投放信息。