CN112329475B

CN112329475B - 语句处理方法及装置

Info

Publication number: CN112329475B
Application number: CN202011212583.6A
Authority: CN
Inventors: 王聪; 王利杰; 沈承恩
Original assignee: Hisense Visual Technology Co Ltd
Current assignee: Hisense Visual Technology Co Ltd
Priority date: 2020-11-03
Filing date: 2020-11-03
Publication date: 2022-05-20
Anticipated expiration: 2040-11-03
Also published as: CN112329475A

Abstract

本申请提供一种语句处理方法及装置，通过在电子设备中设置的数据量较大、计算量较大的深度学习模型对语句进行识别的同时，还通过数据量较小、计算量较小的小样本学习模型对语句进行识别，并在小样本模型的识别结果的概率值大于预设阈值时使用小样本模型的语义类别作为识别结果、在小样本模型的识别结果的概率值小于或等于预设阈值时仍需采用深度学习模型的语义类别作为识别结果，从而提高了对识别新增语义类别的模型进行训练时的速度和效率，进而提高了用户体验。

Description

语句处理方法及装置

技术领域

本申请涉及机器学习技术领域，尤其涉及一种语句处理方法及装置。

背景技术

目前，随着电子技术的发展，语音识别技术逐渐进入人们生活中的工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。作为与人们生活最为接近的生活场景，常见的电视机、空调、洗衣机等电子设备一般都能够具备语音识别功能，以实现用户与电子设备之间进行语音内容的交互。

现有技术中，电子设备在接收到用户说出的语句后，一个重要的处理是需要确定语句所对应的语义，并将语义按照不同的任务进行分类，从而在后续使用与语义的分类对应的应用程序对指令进行处理。在实际应用中，电子设备可以通过存储在服务器中的机器学习模型实现对语句类别的识别，借助服务器的计算能力和存储能力，能够通过较大的机器学习模型覆盖日常生活中用户说出的常见语句。

但是，在现有技术中，由于在上述每次重新计算机器学习模型的过程时都需要将所有语句都进行计算，并且在实际应用中，当语句数量较多以及需要多次更新模型时，都需要多次较大规模的计算，不仅耗费时间还影响对语句的处理效率，进而影响用户体验。

发明内容

本申请实施例提供一种语句处理方法及装置，通过设置的数据量较大、计算量较大的第一模型和数据量较小、计算量较小的第二模型分别对语句进行识别，并根据两个机器学习模型输出的分类概率值确定最终的识别结果。采用这样的模型设置方式，使得后续若存在新增的语句类别，可以直接加入到第二模型中，从而不需要在每次有新增类别时都对第一模型进行计算处理，提高了对语句识别的速度和准确率、以及对模型进行更新的速度和效率，进而提高了用户体验。

本申请第一方面提供一种语句处理方法，可用于显示设备或者服务器等电子设备执行，该方法包括：获取待识别语句；通过第一模型对所述待识别语句进行处理，识别所述待识别语句对应的第一语义类别；通过第二模型对所述待识别语句进行处理，识别所述待识别语句对应的第二语义类别，以及所述第二语义类别的概率值；其中，所述第一语义类别与所述第二语义类别不同，训练所述第一模型使用的数据量大于训练所述第二模型使用的数据量；当所述第二语义类别的概率值大于预设阈值，确定所述待识别语句的对应于所述第二语义类别；当所述第二语义类别的概率值小于或等于所述预设阈值，确定所述待识别语句对应于所述第一语义类别。

在本申请第一方面一实施例中，所述方法还包括：获取至少一个语义类别，以及每个语义类别对应的多个训练语句；通过所述至少一个语义类别以及每个语义类别对应的多个训练语句，对所述第二模型进行训练，使得所述第二模型能够用于识别语句对应的语义类别。

在本申请第一方面一实施例中，所述第二模型包括：编码层，用于通过长短期记忆网络模型和注意力机制提取每个所述训练语句的特征向量；关系层，用于通过余弦相似度衡量和线性整流函数映射方法，计算每个向量特征之间的相似概率值；损失函数层，用于通过均方差损失函数将所述相似概率值归一化映射到0-1之间的自然数上。

在本申请第一方面一实施例中，所述通过所述至少一个语义类别以及每个语义类别对应的多个训练语句，对所述第二模型进行训练，包括：在所述第二模型对应的语义类别集合中加入所述至少一个语义类别，以及每个所述语义类别对应的训练数据；使用更新后的第二模型对应的语义类别集合，对所述第二模型进行训练。

在本申请第一方面一实施例中，所述在所述第二模型对应的语义类别集合中加入所述至少一个语义类别，以及每个所述语义类别对应的训练数据之前，还包括：根据所述语义类别对应的多个训练语句的第一特征向量集合、所述第一语义类别中所有语义类别对应的第二特征向量集合、所述深度学习模型所能够识别的第二语义类别中所有语义类别对应的第三特征集合之间的关系，判断所述第二模型对应的语义类别集合中是否能够加入所述至少一个语义类别，以及每个所述语义类别对应的训练数据。

在本申请第一方面一实施例中，所述根据所述语义类别对应的多个训练语句的第一特征向量集合、所述第一语义类别中所有语义类别对应的第二特征向量集合、所述深度学习模型所能够识别的第二语义类别中所有语义类别对应的第三特征集合之间的关系，判断所述语义类别中是否能够加入所述至少一个语义类别，以及每个所述语义类别对应的训练数据，包括：对于所述至少一个语义类别中的目标语义类别，将所述目标语义类别对应的多个训练语句生成的bert向量作为第一特征向量集合，将所述第一语义类别中所有语义类别对应的多个训练语句生成的bert向量作为第二特征向量集合，将所述第二语义类别中所有语义类别对应的多个训练语句生成的bert向量作为第三特征向量集合；通过ch指数计算所述第一特征向量集合与所述第三特征向量集合之间的第一混淆度，并通过ch指数计算所述第一特征向量集合与所述第二特征向量集合之间的第二混淆度；根据所述第一混淆度和所述第二混淆度，判断所述目标语义类别，以及所述目标语义类别对应的训练数据，能否加入所述第一语义类别集合。

在本申请第一方面一实施例中，根据所述第一混淆度和所述第二混淆度，判断所述目标语义类别，以及所述目标语义类别对应的训练数据，能否加入所述第一语义类别集合，包括：当所述第一语义类别中存在与所述目标语义类别之间第一混淆度小于1的语义类别，且所述目标语义类别与所述第一语义类别中的语义类别均不同时，判断所述目标语义类别以及所述目标语义类别对应的训练数据不能加入所述第一语义类别集合；当所述第一语义类别中存在与所述目标语义类别之间第一混淆度小于1的语义类别，且所述第一语义类别集合中包括所述目标语义类别时，或者当所述第一语义类别中不存在与所述目标语义类别之间第一混淆度小于1的语义类别时，判断所述第一语义类别中是否存在与所述目标语义类别之间第一混淆度在1-20范围内的语义类别；若所述第一语义类别中不存在与所述目标语义类别之间第一混淆度在1-20范围内的语义类别，则确定所述目标语义类别以及所述目标语义类别对应的训练数据能加入所述第一语义类别集合；若所述第一语义类别中存在与所述目标语义类别之间第一混淆度在1-20范围内的语义类别，且所述目标语义类别与所述第一语义类别中的语义类别均不同时，将所述语义类别发送至辅助判断模块，在接收到辅助判断模块发送的重要性分数后，根据所述重要性分数判断所述语义类别以及所述目标语义类别对应的训练数据是否能够加入所述第一语义类别集合。

在本申请第一方面一实施例中，根据所述第一混淆度和所述第二混淆度，判断所述目标语义类别，以及所述目标语义类别对应的训练数据，能否加入所述第一语义类别集合，包括：当所述第一语义类别中存在与所述目标语义类别之间第二混淆度小于1的语义类别，且所述目标语义类别与所述第一语义类别中的语义类别均不同时，判断所述目标语义类别以及所述目标语义类别对应的训练数据不能加入所述第一语义类别集合；当所述第一语义类别中存在与所述目标语义类别之间第二混淆度小于1的语义类别，且所述第一语义类别集合中包括所述目标语义类别时，或者当所述第一语义类别中不存在与所述目标语义类别之间第二混淆度小于1的语义类别时，判断所述第一语义类别中是否存在与所述目标语义类别之间第二混淆度在1-10范围内的语义类别；若所述第一语义类别中不存在与所述目标语义类别之间第二混淆度在1-10范围内的语义类别，则确定所述目标语义类别以及所述目标语义类别对应的训练数据能加入所述第一语义类别集合；若所述第一语义类别中存在与所述目标语义类别之间第二混淆度在1-10范围内的语义类别，且所述目标语义类别与所述第一语义类别中的语义类别均不同时，将所述语义类别发送至辅助判断模块，在接收到辅助判断模块发送的重要性分数后，根据所述重要性分数判断所述语义类别以及所述目标语义类别对应的训练数据是否能够加入所述第一语义类别集合。

在本申请第一方面一实施例中，所述根据所述重要性分数判断所述语义类别以及所述目标语义类别对应的训练数据是否能够加入所述第一语义类别集合，包括：根据公式

计算参数S，其中，CH为混淆度，α为重要性分数，当所判断的两个语义类别相同时，β＝1，当所判断的两个语义类别之间不同时，β＝-1；当S＞0时，确定所述目标语义类别以及所述目标语义类别对应的训练数据能加入所述第一语义类别集合；当S≤0时，确定所述目标语义类别以及所述目标语义类别对应的训练数据不能加入所述第一语义类别集合。

在本申请第一方面一实施例中，所述第一模型为深度学习模型；所述第二模型为小样本学习模型。

本申请第二方面提供一种语句处理装置，可用于执行如本申请第一方面中提供的语句处理方法，该装置可以是显示设备或者是服务器等电子设备，具体地，该装置包括：获取部，用于获取待识别语句；第一识别部，用于通过第一模型对所述待识别语句进行处理，识别所述待识别语句对应的第一语义类别；第二识别部，用于通过第二模型对所述待识别语句进行处理，识别所述待识别语句对应的第二语义类别，以及所述第二语义类别的概率值；其中，所述第一语义类别与所述第二语义类别不同，训练所述第一模型使用的数据量大于训练所述第二模型使用的数据量；确定部，用于当所述第二语义类别的概率值大于预设阈值，确定所述待识别语句的对应于所述第二语义类别；所述确定部还用于，当所述第二语义类别的概率值小于或等于所述预设阈值，确定所述待识别语句对应于所述第一语义类别。

在本申请第二方面一实施例中，所述语句处理装置还包括：训练部；所述获取部还用于，获取至少一个语义类别，以及每个语义类别对应的多个训练语句；所述训练部用于，通过所述至少一个语义类别以及每个语义类别对应的多个训练语句，对所述第二模型进行训练，使得所述第二模型能够用于识别语句对应的语义类别。

在本申请第二方面一实施例中，所述第二模型包括：编码层，用于通过长短期记忆网络模型和注意力机制提取每个所述训练语句的特征向量；关系层，用于通过余弦相似度衡量和线性整流函数映射方法，计算每个向量特征之间的相似概率值；损失函数层，用于通过均方差损失函数将所述相似概率值归一化映射到0-1之间的自然数上。

在本申请第二方面一实施例中，所述训练部具体用于，在所述第二模型对应的语义类别集合中加入所述至少一个语义类别，以及每个所述语义类别对应的训练数据；使用更新后的第二模型对应的语义类别集合，对所述第二模型进行训练。

在本申请第二方面一实施例中，所述训练部具体用于，根据所述语义类别对应的多个训练语句的第一特征向量集合、所述第一语义类别中所有语义类别对应的第二特征向量集合、所述深度学习模型所能够识别的第二语义类别中所有语义类别对应的第三特征集合之间的关系，判断所述第二模型对应的语义类别集合中是否能够加入所述至少一个语义类别，以及每个所述语义类别对应的训练数据。

在本申请第二方面一实施例中，所述训练部具体用于，对于所述至少一个语义类别中的目标语义类别，将所述目标语义类别对应的多个训练语句生成的bert向量作为第一特征向量集合，将所述第一语义类别中所有语义类别对应的多个训练语句生成的bert向量作为第二特征向量集合，将所述第二语义类别中所有语义类别对应的多个训练语句生成的bert向量作为第三特征向量集合；通过ch指数计算所述第一特征向量集合与所述第三特征向量集合之间的第一混淆度，并通过ch指数计算所述第一特征向量集合与所述第二特征向量集合之间的第二混淆度；根据所述第一混淆度和所述第二混淆度，判断所述目标语义类别，以及所述目标语义类别对应的训练数据，能否加入所述第一语义类别集合。

在本申请第二方面一实施例中，所述训练部具体用于，当所述第一语义类别中存在与所述目标语义类别之间第一混淆度小于1的语义类别，且所述目标语义类别与所述第一语义类别中的语义类别均不同时，判断所述目标语义类别以及所述目标语义类别对应的训练数据不能加入所述第一语义类别集合；当所述第一语义类别中存在与所述目标语义类别之间第一混淆度小于1的语义类别，且所述第一语义类别集合中包括所述目标语义类别时，或者当所述第一语义类别中不存在与所述目标语义类别之间第一混淆度小于1的语义类别时，判断所述第一语义类别中是否存在与所述目标语义类别之间第一混淆度在1-20范围内的语义类别；若所述第一语义类别中不存在与所述目标语义类别之间第一混淆度在1-20范围内的语义类别，则确定所述目标语义类别以及所述目标语义类别对应的训练数据能加入所述第一语义类别集合；若所述第一语义类别中存在与所述目标语义类别之间第一混淆度在1-20范围内的语义类别，且所述目标语义类别与所述第一语义类别中的语义类别均不同时，将所述语义类别发送至辅助判断模块，在接收到辅助判断模块发送的重要性分数后，根据所述重要性分数判断所述语义类别以及所述目标语义类别对应的训练数据是否能够加入所述第一语义类别集合。

在本申请第二方面一实施例中，所述训练部具体用于，当所述第一语义类别中存在与所述目标语义类别之间第二混淆度小于1的语义类别，且所述目标语义类别与所述第一语义类别中的语义类别均不同时，判断所述目标语义类别以及所述目标语义类别对应的训练数据不能加入所述第一语义类别集合；当所述第一语义类别中存在与所述目标语义类别之间第二混淆度小于1的语义类别，且所述第一语义类别集合中包括所述目标语义类别时，或者当所述第一语义类别中不存在与所述目标语义类别之间第二混淆度小于1的语义类别时，判断所述第一语义类别中是否存在与所述目标语义类别之间第二混淆度在1-10范围内的语义类别；若所述第一语义类别中不存在与所述目标语义类别之间第二混淆度在1-10范围内的语义类别，则确定所述目标语义类别以及所述目标语义类别对应的训练数据能加入所述第一语义类别集合；若所述第一语义类别中存在与所述目标语义类别之间第二混淆度在1-10范围内的语义类别，且所述目标语义类别与所述第一语义类别中的语义类别均不同时，将所述语义类别发送至辅助判断模块，在接收到辅助判断模块发送的重要性分数后，根据所述重要性分数判断所述语义类别以及所述目标语义类别对应的训练数据是否能够加入所述第一语义类别集合。

在本申请第二方面一实施例中，所述训练部具体用于，根据公式

在本申请第二方面一实施例中，所述第一模型为深度学习模型；所述第二模型为小样本学习模型。

本申请第二方面所提供的语句处理装置可以具体是一种显示设备，该显示装置，包括：

显示屏，被配置为显示用户界面；

检测器，被配置为接收来自用户的待识别语句；

控制器，被配置为执行上述第一方面中任一实施例中的方法。

本申请第三方面提供一种语句处理方法，可应用于当执行本申请第一方面的方法的执行主体是服务器时，作为服务器对侧的显示设备，将待识别语句发送至服务器，具体地，该语句处理方法包括：获取待识别语句；将所述待识别语句发送至语句处理装置，以使所述语句处理装置通过第一模型对所述待识别语句进行处理，识别所述待识别语句对应的第一语义类别；并通过第二模型对所述待识别语句进行处理，识别所述待识别语句对应的第二语义类别，以及所述第二语义类别的概率值；其中，所述第一语义类别与所述第二语义类别不同，训练所述第一模型使用的数据量大于训练所述第二模型使用的数据量；以及当所述第二语义类别的概率值大于预设阈值，确定所述待识别语句的对应于所述第二语义类别；当所述第二语义类别的概率值小于或等于所述预设阈值，确定所述待识别语句对应于所述第一语义类别；接收所述语句处理装置发送的所述待识别语句的语义类别。

有关语句处理装置(服务器)对待识别语句进行的处理可参照如本申请第一方面所述，在此处不再赘述。

本申请第四方面提供一种显示设备，可应用执行如本申请第三方面提供的语句处理方法，例如，所述显示设备可以是电视机。

在一些实施例中，所述显示设备包括：检测器、通信器和控制器，所述控制器被配置用于：将通过所述检测器接收到的待识别语句发送至语句处理装置，以使所述语句处理装置通过第一模型对所述待识别语句进行处理，识别所述待识别语句对应的第一语义类别；并通过第二模型对所述待识别语句进行处理，识别所述待识别语句对应的第二语义类别，以及所述第二语义类别的概率值；其中，所述第一语义类别与所述第二语义类别不同，训练所述第一模型使用的数据量大于训练所述第二模型使用的数据量；以及当所述第二语义类别的概率值大于预设阈值，确定所述待识别语句的对应于所述第二语义类别；当所述第二语义类别的概率值小于或等于所述预设阈值，确定所述待识别语句对应于所述第一语义类别；通过所述通信器接收所述语句处理装置发送的待识别语句的语义类别。

综上，本申请实施例提供的语句处理方法及装置，记执行主体为电子设备(所述电子设备可以是显示设备或者是服务器)，则通过在电子设备中设置的数据量较大、计算量较大的深度学习模型对语句进行识别的同时，还通过数据量较小、计算量较小的小样本学习模型对语句进行识别，并在小样本模型的识别结果的概率值大于预设阈值时使用小样本模型的语义类别作为识别结果、在小样本模型的识别结果的概率值小于或等于预设阈值时仍需采用深度学习模型的语义类别作为识别结果。因此，电子设备在没有对已有的数量较大的深度学习模型进行任何调整的情况下，通过新增加的较少的训练语句，就能够训练处可用于对新增的语义类别进行识别的小样本模型，后续可以直接通过小样本模型对新增的语义类别进行识别，从而不需要在每次有新增类别时都需要对深度学习模型进行重新训练与计算，进而提高了对语句的语义类别进行识别，特别是对识别新增语义类别的模型进行训练时的速度和效率，使得更新的小样本模型能够更快地应用到语义类别的识别中，实现了快速的更新与迭代，进而提高了用户体验。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1中示例性示出了根据实施例中显示设备与控制装置之间操作场景的示意图；

图2中示例性示出了根据示例性实施例中显示设备的硬件配置框图；

图3示例性示出了根据示例性实施例中控制设备的配置框图；

图4为本申请提供的显示设备的软件系统示意图；

图5为本申请提供的显示设备能够提供的应用程序的示意图；

图6为显示设备在语音交互场景的一种应用示意图；

图7为显示设备应用在语音交互场景的流程示意图；

图8为显示设备在语音交互场景的另一种应用示意图；

图9为显示设备应用在语音交互场景的另一流程示意图；

图10为识别模型的供应商下发识别模型的示意图；

图11为服务器得到识别模型的一种流程示意图；

图12为服务器对识别模型进行更新的一种流程示意图；

图13为本申请一种所应用的场景示意图；

图14为本申请另一种所应用场景的示意图；

图15为一种语句处理方法的示意图；

图16为本申请提供的语句处理方法一实施例的流程示意图；

图17为本申请提供的语句处理方法一实施例的流程示意图；

图18为本申请提供的语句处理方法另一实施例的流程示意图；

图19为本申请提供的语句处理装置一实施例的结构示意图；

图20为本申请提供的语句处理方法在具体实现时显示设备所显示的界面示意图一；

图21为本申请提供的语句处理方法在具体实现时显示设备所显示的界面示意图二；

图22为本申请提供的语句处理方法在具体实现时显示设备所显示的界面示意图三。

具体实施方式

为使本申请的目的、实施方式和优点更加清楚，下面将结合本申请示例性实施例中的附图，对本申请示例性实施方式进行清楚、完整地描述，显然，所描述的示例性实施例仅是本申请一部分实施例，而不是全部的实施例。

基于本申请描述的示例性实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请所附权利要求保护的范围。此外，虽然本申请中公开内容按照示范性一个或几个实例来介绍，但应理解，可以就这些公开内容的各个方面也可以单独构成一个完整实施方式。

需要说明的是，本申请中对于术语的简要说明，仅是为了方便理解接下来描述的实施方式，而不是意图限定本申请的实施方式。除非另有说明，这些术语应当按照其普通和通常的含义理解。

本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体，而不必然意味着限定特定的顺序或先后次序，除非另外注明(Unless otherwise indicated)。应该理解这样使用的用语在适当情况下可以互换，例如能够根据本申请实施例图示或描述中给出那些以外的顺序实施。

此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖但不排他的包含，例如，包含了一系列组件的产品或设备不必限于清楚地列出的那些组件，而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。

本申请中使用的术语“模块”，是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合，能够执行与该元件相关的功能。

本申请中使用的术语“遥控器”，是指电子设备(如本申请中公开的显示设备)的一个组件，通常可在较短的距离范围内无线控制电子设备。一般使用红外线和/或射频(RF)信号和/或蓝牙与电子设备连接，也可以包括WiFi、无线USB、蓝牙、动作传感器等功能模块。例如：手持式触摸遥控器，是以触摸屏中用户界面取代一般遥控装置中的大部分物理内置硬键。

本申请中使用的术语“手势”，是指用户通过一种手型的变化或手部运动等动作，用于表达预期想法、动作、目的/或结果的用户行为。

图1中示例性示出了根据实施例中显示设备与控制装置之间操作场景的示意图。如图1中示出，用户可通过移动终端1002和控制装置1001操作显示设备200。

在一些实施例中，控制装置1001可以是遥控器，遥控器和显示设备的通信包括红外协议通信或蓝牙协议通信，及其他短距离通信方式等，通过无线或其他有线方式来控制显示设备200。用户可以通过遥控器上按键，语音输入、控制面板输入等输入用户指令，来控制显示设备200。如：用户可以通过遥控器上音量加减键、频道控制键、上/下/左/右的移动按键、语音输入按键、菜单键、开关机按键等输入相应控制指令，来实现控制显示设备200的功能。

在一些实施例中，也可以使用移动终端、平板电脑、计算机、笔记本电脑、和其他智能设备以控制显示设备200。例如，使用在智能设备上运行的应用程序控制显示设备200。该应用程序通过配置可以在与智能设备关联的屏幕上，在直观的用户界面(UI)中为用户提供各种控制。

在一些实施例中，移动终端1002可与显示设备200安装软件应用，通过网络通信协议实现连接通信，实现一对一控制操作的和数据通信的目的。如：可以实现用移动终端1002与显示设备200建立控制指令协议，将遥控控制键盘同步到移动终端1002上，通过控制移动终端1002上用户界面，实现控制显示设备200的功能。也可以将移动终端1002上显示音视频内容传输到显示设备200上，实现同步显示功能。

如图1中还示出，显示设备200还与服务器400通过多种通信方式进行数据通信。可允许显示设备200通过局域网(LAN)、无线局域网(WLAN)和其他网络进行通信连接。服务器400可以向显示设备200提供各种内容和互动。示例的，显示设备200通过发送和接收信息，以及电子节目指南(EPG)互动，接收软件程序更新，或访问远程储存的数字媒体库。服务器400可以是一个集群，也可以是多个集群，可以包括一类或多类服务器。通过服务器400提供视频点播和广告服务等其他网络服务内容。

显示设备200，可以液晶显示器、OLED显示器、投影显示设备。具体显示设备类型，尺寸大小和分辨率等不作限定，本领技术人员可以理解的是，显示设备200可以根据需要做性能和配置上一些改变。

显示设备200除了提供广播接收电视功能之外，还可以附加提供计算机支持功能的智能网络电视功能，包括但不限于，网络电视、智能电视、互联网协议电视(IPTV)等。

图2中示例性示出了根据示例性实施例中显示设备200的硬件配置框图。

在一些实施例中，显示设备200中包括控制器250、调谐解调器210、通信器220、检测器230、输入/输出接口255、显示器275，音频输出接口285、存储器260、供电电源290、用户接口265、外部装置接口240中的至少一种。

在一些实施例中，显示器275，用于接收源自第一处理器输出的图像信号，进行显示视频内容和图像以及菜单操控界面的组件。

在一些实施例中，显示器275，包括用于呈现画面的显示屏组件，以及驱动图像显示的驱动组件。

在一些实施例中，显示视频内容，可以来自广播电视内容，也可以是说，可通过有线或无线通信协议接收的各种广播信号。或者，可显示来自网络通信协议接收来自网络服务器端发送的各种图像内容。

在一些实施例中，显示器275用于呈现显示设备200中产生且用于控制显示设备200的用户操控UI界面。

在一些实施例中，根据显示器275类型不同，还包括用于驱动显示的驱动组件。

在一些实施例中，显示器275为一种投影显示器，还可以包括一种投影装置和投影屏幕。

在一些实施例中，通信器220是用于根据各种通信协议类型与外部设备或外部服务器进行通信的组件。例如：通信器可以包括Wifi芯片，蓝牙通信协议芯片，有线以太网通信协议芯片等其他网络通信协议芯片或近场通信协议芯片，以及红外接收器中的至少一种。

在一些实施例中，显示设备200可以通过通信器220与外部控制设备1001或内容提供设备之间建立控制信号和数据信号发送和接收。

在一些实施例中，用户接口265，可用于接收控制装置1001(如：红外遥控器等)红外控制信号。

在一些实施例中，检测器230是显示设备200用于采集外部环境或与外部交互的信号。

在一些实施例中，检测器230包括光接收器，用于采集环境光线强度的传感器，可以通过采集环境光可以自适应性显示参数变化等。

在一些实施例中，检测器230中的图像采集器232，如相机、摄像头等，可以用于采集外部环境场景，以及用于采集用户的属性或与用户交互手势，可以自适应变化显示参数，也可以识别用户手势，以实现与用户之间互动的功能。

在一些实施例中，检测器230还可以包括温度传感器等，如通过感测环境温度。

在一些实施例中，显示设备200可自适应调整图像的显示色温。如当温度偏高的环境时，可调整显示设备200显示图像色温偏冷色调，或当温度偏低的环境时，可以调整显示设备200显示图像偏暖色调。

在一些实施例中，检测器230还可以包括声音采集器231等，如麦克风，可以用于采集语音数据，当用户通过语音方式说出指令时，麦克风能够采集到包括用户说出的指令的语音数据。示例性的，声音采集器231可以采集包括用户控制显示设备200的控制指令的语音信号，或采集环境声音，用于识别环境场景类型，使得显示设备200可以自适应适应环境噪声。

在一些实施例中，如图2所示，输入/输出接口255被配置为，可进行控制器250与外部其他设备或其他控制器250之间的数据传输。如接收外部设备的视频信号数据和音频信号数据、或命令指令数据等。

在一些实施例中，外部装置接口240可以包括，但不限于如下：可以高清多媒体接口HDMI接口、模拟或数据高清分量输入接口、复合视频输入接口、USB输入接口、RGB端口等任一个或多个接口。也可以是上述多个接口形成复合性的输入/输出接口。

在一些实施例中，如图2所示，调谐解调器210被配置为，通过有线或无线接收方式接收广播电视信号，可以进行放大、混频和谐振等调制解调处理，从多多个无线或有线广播电视信号中解调出音视频信号，该音视频信号可以包括用户所选择电视频道频率中所携带的电视音视频信号，以及EPG数据信号。

在一些实施例中，调谐解调器210解调的频点受到控制器250的控制，控制器250可根据用户选择发出控制信号，以使的调制解调器响应用户选择的电视信号频率以及调制解调该频率所携带的电视信号。

在一些实施例中，广播电视信号可根据电视信号广播制式不同区分为地面广播信号、有线广播信号、卫星广播信号或互联网广播信号等。或者根据调制类型不同可以区分为数字调制信号，模拟调制信号等。或者根据信号种类不同区分为数字信号、模拟信号等。

在一些实施例中，控制器250和调谐解调器210可以位于不同的分体设备中，即调谐解调器210也可在控制器250所在的主体设备的外置设备中，如外置机顶盒等。这样，机顶盒将接收到的广播电视信号调制解调后的电视音视频信号输出给主体设备，主体设备经过第一输入/输出接口接收音视频信号。

在一些实施例中，控制器250，通过存储在存储器上中各种软件控制程序，来控制显示设备的工作和响应用户的操作。控制器250可以控制显示设备200的整体操作。例如：响应于接收到用于选择在显示器275上显示UI对象的用户命令，控制器250便可以执行与由用户命令选择的对象有关的操作。

在一些实施例中，所述对象可以是可选对象中的任何一个，例如超链接或图标。与所选择的对象有关操作，例如：显示连接到超链接页面、文档、图像等操作，或者执行与所述图标相对应程序的操作。用于选择UI对象用户命令，可以是通过连接到显示设备200的各种输入装置(例如，鼠标、键盘、触摸板等)输入命令或者与由用户说出语音相对应的语音命令。

如图2所示，控制器250包括随机存取存储器251(Random Access Memory，RAM)、只读存储器252(Read-Only Memory,ROM)、视频处理器270、音频处理器280、其他处理器253(例如：图形处理器(Graphics Processing Unit，GPU)、中央处理器254(CentralProcessing Unit，CPU)、通信接口(Communication Interface)，以及通信总线256(Bus)中的至少一种。其中，通信总线连接各个部件。

在一些实施例中，RAM 251用于存储操作系统或其他正在运行中的程序的临时数据在一些实施例中，ROM 252用于存储各种系统启动的指令。

在一些实施例中，ROM 252用于存储一个基本输入输出系统，称为基本输入输出系统(Basic Input Output System，BIOS)。用于完成对系统的加电自检、系统中各功能模块的初始化、系统的基本输入/输出的驱动程序及引导操作系统。

在一些实施例中，在收到开机信号时，显示设备200电源开始启动，CPU运行ROM252中系统启动指令，将存储在存储器的操作系统的临时数据拷贝至RAM 251中，以便于启动或运行操作系统。当操作系统启动完成后，CPU再将存储器中各种应用程序的临时数据拷贝至RAM 251中,然后，以便于启动或运行各种应用程序。

在一些实施例中，CPU处理器254，用于执行存储在存储器中操作系统和应用程序指令。以及根据接收外部输入的各种交互指令，来执行各种应用程序、数据和内容，以便最终显示和播放各种音视频内容。

在一些示例性实施例中，CPU处理器254，可以包括多个处理器。多个处理器可包括一个主处理器以及一个或多个子处理器。主处理器，用于在预加电模式中执行显示设备200一些操作，和/或在正常模式下显示画面的操作。一个或多个子处理器，用于在待机模式等状态下一种操作。

在一些实施例中，图形处理器253，用于产生各种图形对象，如：图标、操作菜单、以及用户输入指令显示图形等。包括运算器，通过接收用户输入各种交互指令进行运算，根据显示属性显示各种对象。以及包括渲染器，对基于运算器得到的各种对象，进行渲染，上述渲染后的对象用于显示在显示器上。

在一些实施例中，视频处理器270被配置为将接收外部视频信号，根据输入信号的标准编解码协议，进行解压缩、解码、缩放、降噪、帧率转换、分辨率转换、图像合成等等视频处理，可得到直接可显示设备200上显示或播放的信号。

在一些实施例中，视频处理器270，包括解复用模块、视频解码模块、图像合成模块、帧率转换模块、显示格式化模块等。

其中，解复用模块，用于对输入音视频数据流进行解复用处理，如输入MPEG-2,则解复用模块进行解复用成视频信号和音频信号等。

视频解码模块，则用于对解复用后的视频信号进行处理，包括解码和缩放处理等。

图像合成模块，如图像合成器，其用于将图形生成器根据用户输入或自身生成的GUI信号，与缩放处理后视频图像进行叠加混合处理，以生成可供显示的图像信号。

帧率转换模块，用于对转换输入视频帧率，如将60Hz帧率转换为120Hz帧率或240Hz帧率，通常的格式采用如插帧方式实现。

显示格式化模块，则用于将接收帧率转换后视频输出信号，改变信号以符合显示格式的信号，如输出RGB数据信号。

在一些实施例中，图形处理器253可以和视频处理器可以集成设置，也可以分开设置，集成设置的时候可以执行输出给显示器的图形信号的处理，分离设置的时候可以分别执行不同的功能，例如GPU+FRC(Frame Rate Conversion))架构。

在一些实施例中，音频处理器280，用于接收外部的音频信号，根据输入信号的标准编解码协议，进行解压缩和解码，以及降噪、数模转换、和放大处理等处理，得到可以在扬声器中播放的声音信号。

在一些实施例中，视频处理器270可以包括一颗或多颗芯片组成。音频处理器，也可以包括一颗或多颗芯片组成。

在一些实施例中，视频处理器270和音频处理器280，可以单独的芯片，也可以于控制器一起集成在一颗或多颗芯片中。

在一些实施例中，音频输出，在控制器250的控制下接收音频处理器280输出的声音信号，如：扬声器286，以及除了显示设备200自身携带的扬声器之外，可以输出至外接设备的发生装置的外接音响输出端子，如：外接音响接口或耳机接口等，还可以包括通信接口中的近距离通信模块，例如：用于进行蓝牙扬声器声音输出的蓝牙模块。

供电电源290，在控制器250控制下，将外部电源输入的电力为显示设备200提供电源供电支持。供电电源290可以包括安装显示设备200内部的内置电源电路，也可以是安装在显示设备200外部电源，在显示设备200中提供外接电源的电源接口。

用户接口265，用于接收用户的输入信号，然后，将接收用户输入信号发送给控制器250。用户输入信号可以是通过红外接收器接收的遥控器信号，可以通过网络通信模块接收各种用户控制信号。

在一些实施例中，用户通过控制装置1001或移动终端1002输入用户命令，用户输入接口则根据用户的输入，显示设备200则通过控制器250响应用户的输入。

在一些实施例中，用户可在显示器275上显示的图形用户界面(GUI)输入用户命令，则用户输入接口通过图形用户界面(GUI)接收用户输入命令。或者，用户可通过输入特定的声音或手势进行输入用户命令，则用户输入接口通过传感器识别出声音或手势，来接收用户输入命令。

在一些实施例中，“用户界面”，是应用程序或操作系统与用户之间进行交互和信息交换的介质接口，它实现信息的内部形式与用户可以接受形式之间的转换。用户界面常用的表现形式是图形用户界面(Graphic User Interface，GUI)，是指采用图形方式显示的与计算机操作相关的用户界面。它可以是在电子设备的显示屏中显示的一个图标、窗口、控件等界面元素，其中控件可以包括图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、Widget等可视的界面元素。

存储器260，包括存储用于驱动显示设备200的各种软件模块。如：第一存储器中存储的各种软件模块，包括：基础模块、检测模块、通信模块、显示控制模块、浏览器模块、和各种服务模块等中的至少一种。

基础模块用于显示设备200中各个硬件之间信号通信、并向上层模块发送处理和控制信号的底层软件模块。检测模块用于从各种传感器或用户输入接口中收集各种信息，并进行数模转换以及分析管理的管理模块。

例如，语音识别模块中包括语音解析模块和语音指令数据库模块。显示控制模块用于控制显示器进行显示图像内容的模块，可以用于播放多媒体图像内容和UI界面等信息。通信模块，用于与外部设备之间进行控制和数据通信的模块。浏览器模块，用于执行浏览服务器之间数据通信的模块。服务模块，用于提供各种服务以及各类应用程序在内的模块。同时，存储器260还用存储接收外部数据和用户数据、各种用户界面中各个项目的图像以及焦点对象的视觉效果图等。

图3示例性示出了根据示例性实施例中控制设备1001的配置框图。如图3所示，控制设备1001包括控制器110、通信接口130、用户输入/输出接口、存储器、供电电源。

控制设备1001被配置为控制显示设备200，以及可接收用户的输入操作指令，且将操作指令转换为显示设备200可识别和响应的指令，起用用户与显示设备200之间交互中介作用。如：用户通过操作控制设备1001上频道加减键，显示设备200响应频道加减的操作。

在一些实施例中，控制设备1001可是一种智能设备。如：控制设备1001可根据用户需求安装控制显示设备200的各种应用。

在一些实施例中，如图1所示，移动终端1002或其他智能电子设备，可在安装操控显示设备200的应用之后，可以起到控制设备1001类似功能。如：用户可以通过安装应用，在移动终端1002或其他智能电子设备上可提供的图形用户界面的各种功能键或虚拟按钮，以实现控制设备1001实体按键的功能。

控制器110包括处理器112和RAM 113和ROM 114、通信接口130以及通信总线。控制器用于控制控制设备1001的运行和操作，以及内部各部件之间通信协作以及外部和内部的数据处理功能。

通信接口130在控制器110的控制下，实现与显示设备200之间控制信号和数据信号的通信。如：将接收到的用户输入信号发送至显示设备200上。通信接口130可包括WiFi芯片131、蓝牙模块132、NFC模块133等其他近场通信模块中至少之一种。

用户输入/输出接口140，其中，输入接口包括麦克风141、触摸板142、传感器143、按键144等其他输入接口中至少一者。如：用户可以通过语音、触摸、手势、按压等动作实现用户指令输入功能，输入接口通过将接收的模拟信号转换为数字信号，以及数字信号转换为相应指令信号，发送至显示设备200。

输出接口包括将接收的用户指令发送至显示设备200的接口。在一些实施例中，可以红外接口，也可以是射频接口。如：红外信号接口时，需要将用户输入指令按照红外控制协议转化为红外控制信号，经红外发送模块进行发送至显示设备200。再如：射频信号接口时，需将用户输入指令转化为数字信号，然后按照射频控制信号调制协议进行调制后，由射频发送端子发送至显示设备200。

在一些实施例中，控制设备1001包括通信接口130和输入输出接口140中至少一者。控制设备1001中配置通信接口130，如：WiFi、蓝牙、NFC等模块，可将用户输入指令通过WiFi协议、或蓝牙协议、或NFC协议编码，发送至显示设备200.

存储器190，用于在控制器的控制下存储驱动和控制控制设备1001的各种运行程序、数据和应用。存储器190，可以存储用户输入的各类控制信号指令。

供电电源180，用于在控制器的控制下为控制设备1001各元件提供运行电力支持。可以电池及相关控制电路。

在一些实施例中，系统可以包括内核(Kernel)、命令解析器(shell)、文件系统和应用程序。内核、shell和文件系统一起组成了基本的操作系统结构，它们让用户可以管理文件、运行程序并使用系统。上电后，内核启动，激活内核空间，抽象硬件、初始化硬件参数等，运行并维护虚拟内存、调度器、信号及进程间通信(IPC)。内核启动后，再加载Shell和用户应用程序。应用程序在启动后被编译成机器码，形成一个进程。

图4为本申请提供的显示设备的软件系统示意图，参见图4，在一些实施例中，将系统分为四层，从上至下分别为应用程序(Applications)层(简称“应用层”)，应用程序框架(Application Framework)层(简称“框架层”)，安卓运行时(Android runtime)和系统库层(简称“系统运行库层”)，以及内核层。

在一些实施例中，应用程序层中运行有至少一个应用程序，这些应用程序可以是操作系统自带的窗口(Window)程序、系统设置程序、时钟程序、相机应用等；也可以是第三方开发者所开发的应用程序，比如嗨见程序、K歌程序、魔镜程序等。在具体实施时，应用程序层中的应用程序包不限于以上举例，实际还可以包括其它应用程序包，本申请实施例对此不做限制。

框架层为应用程序层的应用程序提供应用编程接口(application programminginterface，API)和编程框架。应用程序框架层包括一些预先定义的函数。应用程序框架层相当于一个处理中心，这个中心决定让应用层中的应用程序做出动作。应用程序通过API接口，可在执行中访问系统中的资源和取得系统的服务

如图4所示，本申请实施例中应用程序框架层包括管理器(Managers)，内容提供者(Content Provider)等，其中管理器包括以下模块中的至少一个：活动管理器(ActivityManager)用与和系统中正在运行的所有活动进行交互；位置管理器(Location Manager)用于给系统服务或应用提供了系统位置服务的访问；文件包管理器(Package Manager)用于检索当前安装在设备上的应用程序包相关的各种信息；通知管理器(NotificationManager)用于控制通知消息的显示和清除；窗口管理器(Window Manager)用于管理用户界面上的括图标、窗口、工具栏、壁纸和桌面部件。

在一些实施例中，活动管理器用于：管理各个应用程序的生命周期以及通常的导航回退功能，比如控制应用程序的退出(包括将显示窗口中当前显示的用户界面切换到系统桌面)、打开、后退(包括将显示窗口中当前显示的用户界面切换到当前显示的用户界面的上一级用户界面)等。

在一些实施例中，窗口管理器用于管理所有的窗口程序，比如获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕，控制显示窗口变化(例如将显示窗口缩小显示、抖动显示、扭曲变形显示等)等。

在一些实施例中，系统运行库层为上层即框架层提供支撑，当框架层被使用时，安卓操作系统会运行系统运行库层中包含的C/C++库以实现框架层要实现的功能。

在一些实施例中，内核层是硬件和软件之间的层。如图4所示，内核层至少包含以下驱动中的至少一种：音频驱动、显示驱动、蓝牙驱动、摄像头驱动、WIFI驱动、USB驱动、HDMI驱动、传感器驱动(如指纹传感器，温度传感器，触摸传感器、压力传感器等)等。

在一些实施例中，内核层还包括用于进行电源管理的电源驱动模块。

在一些实施例中，图4中的软件架构对应的软件程序和/或模块存储在图2或图3所示的第一存储器或第二存储器中。

在一些实施例中，以魔镜应用(拍照应用)为例，当遥控接收装置接收到遥控器输入操作，相应的硬件中断被发给内核层。内核层将输入操作加工成原始输入事件(包括输入操作的值，输入操作的时间戳等信息)。原始输入事件被存储在内核层。应用程序框架层从内核层获取原始输入事件，根据焦点当前的位置识别该输入事件所对应的控件以及以该输入操作是确认操作，该确认操作所对应的控件为魔镜应用图标的控件，魔镜应用调用应用框架层的接口，启动魔镜应用，进而通过调用内核层启动摄像头驱动，实现通过摄像头捕获静态图像或视频。

在一些实施例中，对于具备触控功能的显示设备，以分屏操作为例，显示设备接收用户作用于显示屏上的输入操作(如分屏操作)，内核层可以根据输入操作产生相应的输入事件，并向应用程序框架层上报该事件。由应用程序框架层的活动管理器设置与该输入操作对应的窗口模式(如多窗口模式)以及窗口位置和大小等。应用程序框架层的窗口管理根据活动管理器的设置绘制窗口，然后将绘制的窗口数据发送给内核层的显示驱动，由显示驱动在显示屏的不同显示区域显示与之对应的应用界面。

在一些实施例中，图5为本申请提供的显示设备能够提供的应用程序的示意图，如图5中所示，应用程序层包含至少一个应用程序可以在显示器中显示对应的图标控件，如：直播电视应用程序图标控件、视频点播应用程序图标控件、媒体中心应用程序图标控件、应用程序中心图标控件、游戏应用图标控件等。

在一些实施例中，直播电视应用程序，可以通过不同的信号源提供直播电视。例如，直播电视应用程可以使用来自有线电视、无线广播、卫星服务或其他类型的直播电视服务的输入提供电视信号。以及，直播电视应用程序可在显示设备200上显示直播电视信号的视频。

在一些实施例中，视频点播应用程序，可以提供来自不同存储源的视频。不同于直播电视应用程序，视频点播提供来自某些存储源的视频显示。例如，视频点播可以来自云存储的服务器端、来自包含已存视频节目的本地硬盘储存器。

在一些实施例中，媒体中心应用程序，可以提供各种多媒体内容播放的应用程序。例如，媒体中心，可以为不同于直播电视或视频点播，用户可通过媒体中心应用程序访问各种图像或音频所提供服务。

在一些实施例中，应用程序中心，可以提供储存各种应用程序。应用程序可以是一种游戏、应用程序，或某些和计算机系统或其他设备相关但可以在智能电视中运行的其他应用程序。应用程序中心可从不同来源获得这些应用程序，将它们储存在本地储存器中，然后在显示设备200上可运行。

更为具体地，在一些实施例中，本申请前述的任一显示设备200，均可具有语音交互的功能，来提高显示设备200的智能化程度，并提高显示设备200的用户体验。

在一些实施例中，图6为显示设备在语音交互场景的一种应用示意图，其中，用户1可以通过声音说出希望显示设备200执行的指令，则对于显示设备200可以实时采集语音数据，并对语音数据中包括的用户1的指令进行识别，并在识别出用户1的指令后，直接执行该指令，在整个过程中，用户1没有实际对显示设备200或者其他设备进行操作，只是简单地说出了指令。

在一些实施例中，当如图2所示的显示设备200应用在如图6所示的场景中，显示设备200可以通过其声音采集器231实时采集语音数据，随后，声音采集器231将采集得到的语音数据发送给控制器250，最终由控制器250对语音数据中包括的指令进行识别。

在一些实施例中，图7为显示设备应用在语音交互场景的流程示意图，可以由如图6所示场景中的设备执行，具体地，在S11中，显示设备200内的声音采集器231实时采集显示设备200所在周围环境中的语音数据，并将所采集到的语音数据发送给控制器250进行识别。

在一些实施例中，在如图7所示的S12中，控制器250在接收到语音数据后，对语音数据中包括的指令进行识别。例如，语音数据中包括用户1所出的“增大亮度”的指令，则控制器250并在识别到语音数据中包括的指令后，可以由该控制器250执行所识别出的指令，控制显示器275增加亮度。可以理解的是，这种情况下控制器250对每个接收到的语音数据进行识别，可能出现识别语音数据中没有指令情况。

而在另一些实施例中，基于指令识别的模型较大、运算效率较低，还可以规定用户1在说出指令前加入关键词，例如“ABCD”，则用户需要说出“ABCD，增大亮度”的指令，使得在如图7所示的S12中，控制器250在接收到语音数据后，首先对每个语音数据中是否有“ABCD”的关键词进行识别，在识别到有关键词之后，再使用指令识别模型对语音数据中的“增大亮度”对应的具体指令进行识别。

在一些实施例中，控制器250在接收到语音数据后，还可以对语音数据进行去噪，包括去除回声和环境噪声，处理为干净的语音数据，并将处理后的语音数据进行识别。

在一些实施例中，图8为显示设备在语音交互场景的另一种应用示意图，其中，显示设备200可以通过互联网与服务器400连接，则当显示设备200采集到语音数据后，可以将语音数据通过互联网发送给服务器400，由服务器400对语音数据中包括的指令进行识别，并将识别后的指令发送回显示设备200，使得显示设备200可以直接执行所接收到的指令。这种场景与如图6所示的场景相比，减少了对显示设备200运算能力的要求，能够在服务器400上设置更大的识别模型，来进一步提高对语音数据中指令识别的准确率。

在一些实施例中，当如图2所示的显示设备200应用在如图6所示的场景中，显示设备200可以通过其声音采集器231实时采集语音数据，随后，声音采集器231将采集得到的语音数据发送给控制器250，控制器250通过通信器220将语音数据发送给服务器400，由服务器400对语音数据中包括的指令进行识别后，显示设备200再通过通信器220接收服务器400发送的指令，并最终由控制器250执行所接收到的指令。

在一些实施例中，图9为显示设备应用在语音交互场景的另一流程示意图，可以由如图8所示的场景中的设备执行，其中，在S21中，显示显示设备200内的声音采集器231实时采集显示设备200所在周围环境中的语音数据，并将所采集到的语音数据发送给控制器250，控制器250在S22中将语音数据进一步通过通信器220发送给服务器400，由服务器在S23中识别语音数据中包括的指令，随后，服务器400将识别得到的指令在S24中发送回显示设备200，对应地，显示设备200通过通信器220接收指令后发送给控制器250，最终控制器250可以直接执行所接收到的指令。

在一些实施例中，如图7所示的S23中，服务器400在接收到语音数据后，对语音数据中包括的指令进行识别。例如，语音数据中包括用户1所出的“增大亮度”的指令。而由于指令识别的模型较大，且服务器400对每个接收到的语音数据进行识别，可能出现识别语音数据中没有指令情况，因此为了降低服务器400进行无效的识别、以及减少显示设备200和服务器400之间的通信交互数据量，在具体实现时，还可以规定用户1在说出指令前加入关键词，例如“ABCD”，则用户需要说出“ABCD，增大亮度”的指令，随后，由显示设备200的控制器250在S22中，首先通过模型较小、运算量较低的关键词识别模型，对语音数据中是否存在关键词“ABCD”进行识别，若当前控制器250正在处理的语音数据中没有识别出关键词，则控制器250不会将该语音数据发送给服务器400；若当前控制器250正在处理的语音数据中识别出关键词，则控制器250再将该语音数据全部，或者语音数据中关键词之后的部分发送给服务器400，由服务器400对所接收到的语音数据进行识别。由于此时控制器250所接收到的语音数据中包括关键词，发送给服务器400所识别的语音数据中也更有可能包括用户的指令，因此能够减少服务器400的无效识别计算，也能够减少显示设备200和服务器400之间的无效通信。

在一些实施例中，为了让显示设备200能够具有如图6所示的一种具体场景中，对语音数据中指令的识别功能，或者，让显示设备200能够具有如图6或图8所示的一种具体场景中，对语音数据中关键词的识别功能，作为显示设备200的语音交互功能的供应商，还需要制作可用于识别指令或者识别关键词的机器学习模型，例如textcnn、transform等深度学习模型。并将这些模型存储在显示设备200中，由显示设备200在进行识别时使用。

在一些实施例中，图10为识别模型的供应商下发识别模型的示意图，其中，供应商所设置的服务器400得到识别模型(可以是指令识别模型，也可以是关键词识别模型)后，可以将识别模型发送给各个显示设备200。其中，如图10所示的过程可以是显示设备200在生产时进行，由服务器400将服务器发送给每个显示设备200；或者，还可以在显示设备200开始使用后，服务器400通过互联网将识别模型发送给显示设备200。

在一些实施例中，服务器400可以具体通过采集语音数据，并基于机器学习模型进行学习的方式，得到识别模型。例如，图11为服务器400得到识别模型的一种流程示意图，其中，在S31中，各显示设备(以显示设备1-显示设备N，共N个为例)采集语音数据1-N，并在S32中将采集到的语音数据1-N发送给服务器400。随后，在S33中，供应商的工作人员可以通过人工标注的方式，将每个语音数据以及语音数据中包括的指令或者关键词进行标注后，将语音数据本身，以及语音数据对应的标注信息作为数据送入机器学习模型中，由服务器进行学习，学习得到的识别模型在后续使用时，当输入一个待识别的语音数据后，识别模型将该语音数据与已经学习的语音数据进行比对，并输出每个标注信息的概率，最终最大概率对应的标注信息可以作为待识别的语音数据的识别结果。在S34中，服务器400可以将计算得到的识别模型发送各显示设备。

在一些实施例中，服务器400也可以不使用如图11所示实施例中由显示设备1-N实际采集的语音数据计算识别模型，而是可以直接由工作人员输入不同的语音数据，以及每个语音数据的标注信息，并在计算得到识别模型后发送给各显示设备。

在一些实施例中，如图11所示的采集语音数据并发送给服务器的显示设备1-N，与服务器计算得到识别模型后，发送给显示设备1-N中可以是两个独立的过程，也就是说，S32中服务器接收到N个显示设备采集的语音数据，S34中服务器可以向另外N个显示设备发送所训练得到的识别模型。这两个过程中N个显示设备可以相同或不同，或者也可以部分相同。

在一些实施例中，由于在得到识别模型时，所使用的样本数量有限，使得显示设备200所设置的识别模型不可能做到完全百分百准确的识别，因此供应商还可以通过服务器400随时收集各显示设备200在实际使用过程中所采集的语音数据，并根据所采集的语音数据对已经识别得到的识别模型进行更新，来进一步提高识别模型的识别准确性。

例如，图12为服务器对识别模型进行更新的一种流程示意图，可以理解的是，在执行如图12所示的实施例之前，每个显示设备中按照如图10所示的方式，设置了识别模型。则在如图12所示S31中，各显示设备(以显示设备1-显示设备N，共N个为例)采集语音数据1-N，并在S32中将采集到的语音数据1-N发送给服务器400。随后，在S33中，供应商的工作人员可以通过人工标注的方式，将每个语音数据以及语音数据中包括的指令或者关键词进行标注后，将语音数据本身，以及语音数据对应的标注信息作为数据送入机器学习模型中，由服务器根据接收到的新的语音数据，对已经计算得到的识别模型进行更新，并在S34中，服务器400可以将更新后的识别模型重新发送各显示设备200，使得每个显示设备200可以使用更新后的识别模型进行更新。其中，对于这N个显示设备中的任一个显示设备而言，由于新的学习模型采用了这个显示设备200所采集的语音数据，因此可以有效地提高后续对这个显示设备200对所采集的语音数据进行识别的准确性。

在一些实施例中，如图12所示的每个显示设备，可以在接收到语音数据后就发送给服务器，或者，在固定的时间段结束后将在这个时间段内采集到的语音数据发送给服务器，又或者，当采集到的一定数量的语音数据后统一发送给服务器，又或者，可以根据显示设备的用户的指示、或者根据服务器的工作人员的指示将已经接收到的语音发送给服务器。

在一些实施例中，如图12所示的N个显示设备可以在同一个约定的时刻同时将语音数据发送给服务器，由服务器根据接收到的N个语音数据对识别模型进行更新；或者，N个显示设备还可以分别将语音数据发送给服务器，服务器在接收到语音数据的数量大于N个之后，即可开始根据接收到的语音数据对识别模型进行更新。

在一些实施例中，图13为本申请一种所应用的场景示意图，其中，如图13所示的场景中，用户1可以通过语音交互的方式，控制设备执行任务，所述设备可以是电视机、空调、洗衣机、音箱、电脑等家用电器，例如在图13中以设备为电视机2作为示例。此时，当用户向电视机2说出“我想看电影A”的语句，则电视机2内的语音处理装置采集到的用户说出的语句后，通过语义识别的方式，识别出该语句的具体的含义，例如确定该语句是用户希望观看电影A，则电视机2随后可以根据语义识别结果，开始执行播放电影A的任务。

在上述过程中，电视机2为了更为有效地执行用户通过语句希望电子设备执行的指令，电子设备在采集到用户说出的语句之后，一个重要的处理是确定语句所对应的语义，并将语义按照不同的任务进行分类，从而在后续使用与语义的分类对应的应用程序对指令进行处理。示例性地，语句的分类包括电影类、体育类等，当语句中包括用户所说出的“我想看电影A”，则电子设备接收到该语句后，可以将该语句进一步归为“电影类”，从而后续可以通过与“电影类”对应的影视播放应用程序播放电影A；当语句中包括用户所说出的“我想看B球队和C球队”，则电子设备接收到该语句后，可以将该语句归为“体育类”，从而后续可以通过与“体育类”对应的体育直播应用程序播放B球队和C球队的比赛。

在一些实施例中，图14为本申请另一种所应用场景的示意图，其中，当用户1向电视机2说出语句，电视机2采集到包括用户1的语句的语音数据后，将语音数据发送到服务器3，由服务器3凭借比电视机2更加强大的计算和存储能力，通过服务器3中的机器学习模型31，将语音数据中的语句作为机器学习模型31的输入，输入到机器学习模型31中，并接收机器学习模型31的输出，以机器学习模型31的输出作为对指令进行分类的结果。

其中，服务器3中的机器学习模型31可以由工作人员通过计算设备4操作服务器3计算得到，并将所计算得到的机器学习模型31在服务器3上进行部署，以供后续识别时使用。在具体的实现中，服务提供商的工作人员可以通过人工方式采集、或者通过不同的电视机2自动采集包括不同用户说出的语句，随后，由工作人员对不同的语句所对应的类别(或称为意图)进行标注，并将所有语句送入机器学习模型进行训练。

例如，采集到100条标注为“体育类”的语句，以及100条标注为“电影类”的语句送入机器学习模型后，机器学习模型31可以根据标注，结合全部200条语句的特征，计算每条语句的特征向量并进行存储。在随后如图14所示使用过程中，图15为一种语句处理方法的示意图，其中，当服务器3通过S10接收到电视机2采集的一条待识别的语句时，可以在S20中由机器学习模型31计算语句的特征向量，并将待识别语句的特征向量与存储的200条语句的特征向量进行比较，得到与每个语句的相似程度，例如输出待识别语句与100条标注为“体育类”的语句的相似程度的概率值为0.2，与100条标注为“电影类”的语句的相似程度的概率值为0.8，最终机器学习模型31可以在S30中根据与两个类别的语句的相似程度中与“电影类”的语句的相似概率值更大，确定待识别的语句的语义类别为“电影类”。

在实际应用中，存储在服务器3中的机器学习模型31将使用更多的语句进行训练，并能够实现更多类别的识别，使得该机器学习模型31的数据量以及计算量都非常大，能够覆盖日常生活中用户说出的常见语句。然而，服务器3中所存储的机器学习模型31所存在的一个问题是无法适应业务的变更，例如，在某次重大卫生事件中，若爆发了大规模的疫情，很多用户1都会向电视机2说出查询疫情动态的语句，来希望从电视机2处获取疫情动态。此时，对于服务器的提供商而言，就需要工作人员采集一些用户说出的“疫情类”语句，并将这些语句进行标注后，重新通设备4输入到服务器3中，并控制服务器3将新采集的“疫情类”语句和之前采集的其他“电影类”、“体育类”等语句一起送入机器学习模型31中，重新进行特征提取，计算每条语句的特征向量并进行存储。由于机器学习模型31通常采用深度学习模型实现，深度学习模型要求在上述每次重新计算机器学习模型31的过程时都需要将所有语句都重新从头开始进行计算，并且在实际应用中，当语句数量较多时需要较大规模的计算，耗费时间严重影响效率，当业务频繁变更时，都需要多次不断进行重新计算并再次部署的过程，同样影响效率，造成对语句识别的滞后性，严重影响用户体验。

因此，本申请实施例提供一种语句处理方法及装置，通过设置的数据量较大、计算量较大的第一模型和数据量较小、计算量较小的第二模型分别对语句进行识别，并根据两个机器学习模型输出的分类概率值确定最终的识别结果。采用这样的模型设置方式，使得后续若存在新增的语句类别，可以直接加入到第二模型中，从而不需要在每次有新增类别时都对第一模型进行计算处理，提高了对语句识别的速度和准确率、以及对模型进行更新的速度和效率，进而提高了用户体验。

下面以具体地实施例对本申请的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图16为本申请提供的语句处理方法一实施例的流程示意图，如图16所示的语句处理方法的执行主体可以是任意具有相关数据处理功能的电子设备，例如电子设备可以是如图13所示的场景中，当电视机2采集到用户1的语句后，由电视机作为执行主体来执行对语句的进一步处理，或者，还可以是如图14所示的场景中，当电视机2采集到用户1的语句后发送到服务器3，并由服务器3作为执行主体来执行对语句的进一步处理。本申请各实施例中以电子设备作为执行主体进行示例性的描述，而非对执行主体进行的限定。具体地，本实施例提供的语句处理方法包括：

S101：电子设备获取待识别语句。

在一些实施例中，本实施例中作为执行主体的电子设备在对语句进行处理，确定语句对应的语义分类时，首先获取待识别的语句，其中，所述待识别的语句指当前电子设备所处理的语句，示例性地，当本实施例应用于如图13或者图14所示的场景中时，待识别语句可以是“我想看电影A”，或者“我想查询C疫情的进展”等。

S102：通过第一模型对待识别语句进行处理，识别待识别语句对应的第一语义类别。

S103：通过第二模型对待识别语句进行处理，识别待识别语句对应的第二语义类别。

其中，本实施例中提供的电子设备内提供至少两个机器学习模型，记为第一模型和第二模型，并且第一模型和第二模型均可用于对语句按照语义进行分类，得到语句对应的语义类别。同时，第一模型和第二模型对语句所进行划分的一一类别不同，例如，第一模型用于对语句是“体育类”、“音乐类”或者“游戏类”等语义类别进行划分，第二模型用于对语句是“疫情类”或者“天气查询类”等语义类别进行划分。

则在S101之后，作为执行主体的电子设备将S101中所获取的待识别语句，用第一模型和第二模型分别进行识别语句的语义类别，并且对S102和S103的先后执行顺序不作限定，或者S102和S103也可以同时执行。

在一些实施例中，第一模型与第二模型相比，训练时使用的数据量更大、存储时占用的存储空间更多、运行时的计算更为复杂，例如，第一模型可以是深度学习模型，第二模型可以是小样本学习模型。

在一些实施例中，小样本学习模型是一种基于元学习的机器学习模型，可用于对样本较少的数据进行特征向量的提取和相似度的分类，在本实施例一种具体的实现中，小样本学习模型包括：编码层(或称为表征层)、关系层(或称为关系衡量层)以及损失函数层。

其中，编码层用于提取每个语句的特征向量，本实施例中提供的编码层可以由长短期记忆网络(Long Short-Term Memory，简称：LSTM)和注意力(attention)机制共同实现，或者，还可由动态路由等方式实现，本实施例不做限定。关系层用于将编码层提取的特征向量与已经学习训练的特征向量进行对比，并计算用于表示本次提取的特征向量与已经学习的特征向量之间相似度的概率值，本实施例中可以通过余弦相似度(cos)衡量和线性整流函数(Rectified Linear Unit，简称：relu)实现，或者，还可以通过其他带参数的衡量模型(双线性衡量、线性衡量、tensor衡量)以及不带参数的衡量模型(欧式距离)等方式实现，本实施例不做限定。损失函数层，用于将关系层计算得到的概率值归一化映射到0-1之间的自然数上，本实施例中可以通过均方差函数进行，或者，还可以通过交叉熵方式进行，本实施例不做限定。

则在S103中，电子设备将待识别的语句送入小样本学习模型后，由小样本学习模型输出对语句的语义分类结果，以及每个语义分类对应的概率值，例如，小样本学习模型输出语句对应于“疫情类”的语义类别的概率值为0.8，以及对应于“天气查询类”的概率值为0.2。按照通常的处理方式，小样本学习模型输出的概率值较高的语义类别“疫情类”(即为第二语义类别)即为最终的识别结果。但是在本实施例中，由于。在S102中深度学习模型也输出了不同语义类别对应的概率值(将深度学习模型输出的概率值较高的语义类别为第一语义类别)，因此，还需要将深度学习模型和小样本学习模型得到的语义类别识别结果进行“融合”，则为了进行下一步，将小样本学习模型输出的概率较高的语义类别记为第二语义类别，其概率值可以为0.8。

S104、电子设备对小样本学习模型输出的第二语义类别的概率值进行判断，从而确定最终的语义分类结果。

其中，当概率值大于预设阈值时，说明小样本学习模型得到的第二语义类别较为准确，可以作为语句识别的最终结果，而当概率值小于或等于预设阈值时，说明小样本学习模型得到的第二语义类别不太准确，还需将深度学习模型所得到的第一语义类别作为语句识别的最终结果。在具体的实现中，预设阈值可以根据不同的应用场景灵活设置，例如可以设置为0.7，则在上述示例中，若根据小样本学习模型对语句进行识别得到的语义类别“疫情类”的概率值为0.8，则确定该概率值大于预设阈值，可以将“疫情类”作为语句的语义类别，后续进一步由电子设备中“疫情类”的应用程序处理该语句，后续过程不做限定。

综上，本申请实施例提供的语句处理方法，与如图15所示的技术中仅通过一个深度学习模型对语句进行识别相比，在通过在电子设备中设置的数据量较大、计算量较大的深度学习模型对语句进行识别的同时，还通过数据量较小、计算量较小的小样本学习模型对语句进行识别，并在小样本模型的识别结果的概率值大于预设阈值时使用小样本模型的语义类别作为识别结果、在小样本模型的识别结果的概率值小于或等于预设阈值时仍需采用深度学习模型的语义类别作为识别结果。

因此，本实施例中采用的小样本模型的识别方式，使得后续若存在新增的语句类别，可以直接加入到第二模型中，从而不需要在每次有新增类别时都对第一模型进行计算处理，提高了对语句识别的速度和准确率、以及对模型进行更新的速度和效率，进而提高了用户体验。下面结合图17，对本实施例中，电子设备对小样本模型进行训练以及更新的流程进行说明，可以理解的是，如图17所示的步骤可以在如图16所示的S101之前执行，用于训练得到小样本学习模型，或者，还可以独立于如图16所示的过程，用于对已经训练得到的小样本学习模型进行更新。

在一些实施例中，图17为本申请提供的语句处理方法一实施例的流程示意图，如图17所示，本实施例提供的语句处理方法包括：

S201：获取至少一个语义类别，以及每个语义类别对应的多个训练语句。

在一些实施例中，本实施例可应用于如当电子设备已经训练好运算量较大的深度学习模型之后，若还需要在深度学习模型可以识别的语义类别之外，增加新的语义类别，则可以获取所新增的至少一个语义类别，以及每个语义类别对应的多个训练语句。可以理解的是，由于本实施例是用于训练小样本学习模型，每个语义类别的训练语句的数量可以少于训练深度学习模型时所需的数量。

在一些实施例中，当深度学习模型用于对语句是“体育类”、“音乐类”或者“游戏类”等语义类别进行划分时，此时若需要新增“疫情类”的语义分类，则可以由工作人员采集或者电视机实际采集不同用户所说出的语句，并对这些语句进行标注为“疫情类”后发送给本实施例执行主体的电子设备。则对应于电子设备接收到这些“疫情类”的语句。

S202：通过至少一个语义类别以及每个语义类别对应的多个训练语句，对小样本学习模型进行训练，使得小样本学习模型能够用于识别上述至少一个语义类别对应的语句。

随后，在S202中，电子设备根据S201中接收到的训练语句，采用小样本学习模型对这些训练语句进行处理，从而训练得到小样本学习模型。在具体的实现中，小样本学习模型同样可以由包括：LSTM模型和attention机制的编码层，用于计算每个训练语句的特征向量；cos衡量和rule函数实现的关系层，对编码层得到的特征向量计算相似概率值；以及通过均方差函数实现的损失函数，将关系层计算得到的概率值归一化映射到0-1之间的自然数上。

最终，经过训练后的小样本学习模型可以用于对“疫情类”的语句进行语义类别的识别，此时对于电子设备来说，既可以通过深度学习模型实现“体育类”、“音乐类”或者“游戏类”等语义类别进行识别，还可以通过小样本学习模型对“疫情类”的语句进行识别。示例性地，当输入一个待识别的语句为“疫情类”则小样本模型输出的“疫情类”对应的概率值最大，例如0.8，而深度学习模型输出的“体育类”、“音乐类”或者“游戏类”对应的概率值较小，例如为0.1、0.2和0.15等。

因此，在如图17所示的整个过程中，电子设备在没有对已有的数量较大的深度学习模型进行任何调整的情况下，通过新增加的较少的训练语句，就能够训练处可用于对新增的语义类别进行识别的小样本模型，后续可以直接通过小样本模型对新增的语义类别进行识别，从而不需要在如图15所示的技术中，每次有新增类别时都需要对深度学习模型进行重新训练与计算，进而提高了对语句的语义类别进行识别，特别是对识别新增语义类别的模型进行训练时的速度和效率，使得更新的小样本模型能够更快地应用到语义类别的识别中，实现了快速的更新与迭代，进而提高了用户体验。

在一些实施例中，在上述如图17所示的示例中，S102中对小样本模型进行训练可以划分为至少以下两种情况，第一种是新训练一个小样本模型，使得该小样本模型仅能用于识别S101中新增的语义类别，这种情况可以不做其他处理。而第二种情况是已有小样本模型的情况下，在已有的小样本模型中新增S101中的语义类别，在这种情况下，还需要对所添加的语义类别以及训练数据进行验证，判断是否可以在不影响小样本模型识别已有的语义类别的情况下，加入新的语义类别以及新的训练数据，从而保证所添加的语义类别的效果。下面结合图18，对上述在小样本模型中添加语义类别以及训练数据的过程进行说明。

图18为本申请提供的语句处理方法另一实施例的流程示意图，如图18示出了作为执行主体的电子设备在训练小样本模型时，判断是否能够将新增的至少一个语义类别，以及语义类别对应的训练数据加入小样本模型中，使得小样本模型可以使用新加入的语义类别以及训练数据进行后续的识别。

其中，以待添加的至少一个语义类别中的任一类别为例进行说明，记为目标语义类别。则如图18所示，作为执行主体的电子设备将首先分别计算目标语义类别所对应的多个训练数据的bert向量，并记为第一特征向量集合；计算小样本学习模型的第一语义类别集合中，每个语义类别对应的训练数据的bert向量，并记为第二特征向量集合；计算深度学习模型的第二语义类别集合中，每个语义类别对应的训练数据的bert向量，并记为第三特征向量集合。所述bert向量是一种可用于对语句进行表征的模型，可以译为双向编码器表征(Bidirectional Encoder Representations from Transformers)，旨在基于所有层的左、右语境来预训练深度双向表征。

随后，通过ch指数计算第一特征向量集合与第三特征向量集合之间的混淆度，记为第一混淆度，并通过ch指数计算第一特征向量集合与第二特征向量集合之间的混淆度，记为第二混淆度。其中，所述ch指数可译为calinski_harabaz_score，ch指数越小，混淆度越高，越容易错分，具体的计算如下：用S表示两个待计算的语义类别之间的可分性衡量矩阵，S∈R^K*K其中N表示类别数目，S中的元素如下

其中，b_ij表示类间距离，此值越大，表示类间可分性越好：b_ij＝(c_i-c_j)(c_i-c_j)^T。ci和cj表示类内均值向量；w_i表示类内距离，此值越小，表示类内聚合效果越好：

随后，作为执行主体的电子设备分别根据第一混淆度和第二混淆度，对目标语义类别以及对应的训练数据是否可以加入第一语义类别集合进行判断，对第一混淆度和第二混淆度所进行的判断可以同时执行或者单独执行，不做限定。

例如，首先可以对第一混淆度进行判断，当第一语义类别中存在与目标语义类别之间第一混淆度小于1的语义类别，且目标语义类别与第一语义类别中的语义类别均不同时，判断目标语义类别以及目标语义类别对应的训练数据不能加入第一语义类别集合；

当第一语义类别中存在与目标语义类别之间第一混淆度小于1的语义类别，且第一语义类别集合中包括目标语义类别时，或者当第一语义类别中不存在与目标语义类别之间第一混淆度小于1的语义类别时，判断第一语义类别中是否存在与目标语义类别之间第一混淆度在1-20范围内的语义类别；

若不存在，则判断目标语义类别以及目标语义类别对应的训练数据能加入第一语义类别集合；若存在，且目标语义类别与第一语义类别中的语义类别均不同时，将语义类别发送至辅助判断模块，在接收到辅助判断模块发送的重要性分数后，根据重要性分数判断语义类别以及目标语义类别对应的训练数据是否能够加入第一语义类别集合。

当完成对第一混淆度进行的判断之后，可以继续对第二混淆度进行判断，当第一语义类别中存在与目标语义类别之间第二混淆度小于1的语义类别，且目标语义类别与第一语义类别中的语义类别均不同时，判断目标语义类别以及目标语义类别对应的训练数据不能加入第一语义类别集合；

当第一语义类别中存在与目标语义类别之间第二混淆度小于1的语义类别，且第一语义类别集合中包括目标语义类别时，或者当第一语义类别中不存在与目标语义类别之间第二混淆度小于1的语义类别时，判断第一语义类别中是否存在与目标语义类别之间第二混淆度在1-10范围内的语义类别；

进一步地，在上述对第一混淆度和第二混淆度所进行的判断中，都存在将语义类别发送给辅助判断模块，并由辅助判断模块进行判断目标语义类别以及所述目标语义类别对应的训练数据不能加入所述第一语义类别集合的过程，其中，辅助判断模块在具体实现时又可被称为人工判断模块，供应商的工作人员可以通过辅助判断模块对目标语义类别的重要性进行打分，分数值可选为1-5之间，则辅助判断模块可以获取工作人员输入的重要性分数记为α后，进一步根据当所判断的两个语义类别相同时，β＝1，当所判断的两个语义类别之间不同时，β＝-1，随后，通过公式

计算参数S，其中，CH为混淆度。

最终，当S＞0时，则确定所述目标语义类别以及所述目标语义类别对应的训练数据能加入所述第一语义类别集合；当S≤0时，则确定所述目标语义类别以及所述目标语义类别对应的训练数据不能加入所述第一语义类别集合。

在一些实施例中，为了便于对上述过程进行说明，下面以具体的工程实现步骤，对如图18所示的过程进行进一步的示例性说明，其中，作为执行主体的电子设备在执行如图18所示的判断流程时，包括预处理阶段和在线评测阶段，其中在预处理阶段包括：Step1：收集深度学习模型使用的领域-意图对应数据，制定意图到领域的映射关系；Step2：使用bert将每条数据进行句子向量表示。

在线测评阶段中，主要是评测需要添加的数据簇与深度学习模型数据的混淆程度，衡量需要添加的数据簇与小样本学习模型已经使用的数据混淆程度，当2个混淆程度都不高时，才能添加数据簇；具体包括如下步骤：Step1：配置要添加的数据意图、需要映射到的领域、具体的query(最少50条)；Step2：将需要添加的样本生成bert向量；Step3.1：计算需要添加的意图的向量集合与深度学习所有意图的向量集合的ch指数，记为add-deep-score；Step3.2：计算需要添加的意图的向量集合与已经存在的小样本的ch指数，记为add-few-score；Step4：先判断需要添加的数据与深度学习数据之间的混淆度，使用add-deep-score：Step4.1：若存在ch得分小于1的领域，并且需要添加的数据簇的映射领域与此领域不一致，则不能添加；若没有ch得分小于1的领域，或者存在ch得分小于1的领域，但映射领域一致，则进行Step4.2；Step4.2：若不存在得分1-20之间的领域，则可以添加；若存在得分1-20之间的领域，但是映射的领域一样，则可以添加；否则输出数据人为参考，输出ch得分在1-20，并且映射领域不一样的数据，计算根据输出的领域数量进行判断；Step5：判断需要添加的数据与已经存在的数据之间的混淆度；(此项可作为附属参考，因为小样本本身的分类精度很高，所以用此种方法算出来的说服性不强)，当小样本集合为空时，不需要做判断；下面ch的判断使用add-few-score；Step5.1：若存在ch得分小于1的领域，并且需要添加的数据簇的映射领域与此领域不一致，则不能添加；若没有ch得分小于1的领域，或者存在ch得分小于1的领域，但映射领域一致，则进行Step5.2；Step5.2：若不存在得分1-10之间的领域，则可以添加；若存在得分1-10之间的领域，但是映射的领域一样，则可以添加；否则输出数据人为参考。

其中，所述人工判断模块即为辅助判断模块，所进行的处理包括如下步骤：Step1：若需要添加的小样本的领域与深度学习的领域一致，则β＝1，否则β＝-1；Step2：人工对挑选出来的领域进行重要性打分，打分区间为1-5，记为α；Step3：利用

计算最后得分，若得分>0,则可添加，若得分<0，则不可添加。

在另一些实施例中，如图16-图18所示的示例中，示出了电视机等显示设备为电子设备，并将电子设备本身作为执行主体，在采集到待识别语句后，执行本申请中语句处理方法的过程，以直接对待识别语句进行处理。而在其他可能的实现方式中，如图16-图18所示的对待识别语句进行处理的过程，也可以由服务器来执行，例如，当本申请提供的语音数据处理方法应用在如图8或者图14所示的场景中，并由服务器作为执行主体来执行时，电视机等显示设备在采集到用户说出的待识别语句后，将待识别语句发送给服务器，由服务器作为如图16-如图18所示实施例中的电子设备，对待识别语句进行处理，并按照相同的方式得到待识别语句的语义类别后，再将待识别语音数据的语义类别发送给显示设备。

则作为显示设备，以如图2所示的结构作为示例，可以通过例如检测器230接收到待识别语句后，由控制器250通过通信器220发送到服务器，并在服务器根据待识别语句得到其语义类别后，显示设备再通过通信器220接收服务器发送的语义类别，再由控制器250接收到的待识别语句的待识别语句进行后续处理。

在前述实施例中，对本申请实施例提供的语音数据处理方法进行了介绍，而为了实现上述本申请实施例提供的语音数据处理方法中的各功能，作为执行主体的电子设备可以包括硬件结构和/或软件模块，以硬件结构、软件模块、或硬件结构加软件模块的形式来实现上述各功能。上述各功能中的某个功能以硬件结构、软件模块、还是硬件结构加软件模块的方式来执行，取决于技术方案的特定应用和设计约束条件。

例如，图19为本申请提供的语句处理装置一实施例的结构示意图，如图19所示的装置1900可用于作为本申请图16-18中的电子设备，并执行由该电子设备所执行的方法。所述电子设备可以是显示装置或者是显示设备。具体地，如图19所示的语句处理装置包括：获取部1901，第一识别部1902，第二识别部1903和确定部1904。其中，获取部1901用于获取待识别语句；第一识别部1902用于通过第一模型对待识别语句进行处理，识别待识别语句对应的第一语义类别；第二识别部1903用于通过第二模型对待识别语句进行处理，识别待识别语句对应的第二语义类别，以及第二语义类别的概率值；其中，第一语义类别与第二语义类别不同，训练第一模型使用的数据量大于训练第二模型使用的数据量；确定部1904用于当第二语义类别的概率值大于预设阈值，确定待识别语句的对应于第二语义类别；确定部还用于，当第二语义类别的概率值小于或等于预设阈值，确定待识别语句对应于第一语义类别。

在一些实施例中，如图19所示的语句处理装置1900还包括：训练部1905；其中，获取部1901还用于，获取至少一个语义类别，以及每个语义类别对应的多个训练语句；训练部1905则用于，通过至少一个语义类别以及每个语义类别对应的多个训练语句，对第二模型进行训练，使得第二模型能够用于识别语句对应的语义类别。

在一些实施例中，第二模型包括：编码层，用于通过长短期记忆网络模型和注意力机制提取每个训练语句的特征向量；关系层，用于通过余弦相似度衡量和线性整流函数映射方法，计算每个向量特征之间的相似概率值；损失函数层，用于通过均方差损失函数将相似概率值归一化映射到0-1之间的自然数上。

在一些实施例中，训练部1905具体用于，在第二模型对应的语义类别集合中加入至少一个语义类别，以及每个语义类别对应的训练数据；使用更新后的第二模型对应的语义类别集合，对第二模型进行训练。

在一些实施例中，训练部1905具体用于，根据语义类别对应的多个训练语句的第一特征向量集合、第一语义类别中所有语义类别对应的第二特征向量集合、深度学习模型所能够识别的第二语义类别中所有语义类别对应的第三特征集合之间的关系，判断第二模型对应的语义类别集合中是否能够加入至少一个语义类别，以及每个语义类别对应的训练数据。

在一些实施例中，训练部1905具体用于，对于至少一个语义类别中的目标语义类别，将目标语义类别对应的多个训练语句生成的bert向量作为第一特征向量集合，将第一语义类别中所有语义类别对应的多个训练语句生成的bert向量作为第二特征向量集合，将第二语义类别中所有语义类别对应的多个训练语句生成的bert向量作为第三特征向量集合；通过ch指数计算第一特征向量集合与第三特征向量集合之间的第一混淆度，并通过ch指数计算第一特征向量集合与第二特征向量集合之间的第二混淆度；根据第一混淆度和第二混淆度，判断目标语义类别，以及目标语义类别对应的训练数据，能否加入第一语义类别集合。

在一些实施例中，训练部1905具体用于，当第一语义类别中存在与目标语义类别之间第一混淆度小于1的语义类别，且目标语义类别与第一语义类别中的语义类别均不同时，判断目标语义类别以及目标语义类别对应的训练数据不能加入第一语义类别集合；当第一语义类别中存在与目标语义类别之间第一混淆度小于1的语义类别，且第一语义类别集合中包括目标语义类别时，或者当第一语义类别中不存在与目标语义类别之间第一混淆度小于1的语义类别时，判断第一语义类别中是否存在与目标语义类别之间第一混淆度在1-20范围内的语义类别；若第一语义类别中不存在与目标语义类别之间第一混淆度在1-20范围内的语义类别，则确定目标语义类别以及目标语义类别对应的训练数据能加入第一语义类别集合；若第一语义类别中存在与目标语义类别之间第一混淆度在1-20范围内的语义类别，且目标语义类别与第一语义类别中的语义类别均不同时，将语义类别发送至辅助判断模块，在接收到辅助判断模块发送的重要性分数后，根据重要性分数判断语义类别以及目标语义类别对应的训练数据是否能够加入第一语义类别集合。

在一些实施例中，训练部1905具体用于，当第一语义类别中存在与目标语义类别之间第二混淆度小于1的语义类别，且目标语义类别与第一语义类别中的语义类别均不同时，判断目标语义类别以及目标语义类别对应的训练数据不能加入第一语义类别集合；当第一语义类别中存在与目标语义类别之间第二混淆度小于1的语义类别，且第一语义类别集合中包括目标语义类别时，或者当第一语义类别中不存在与目标语义类别之间第二混淆度小于1的语义类别时，判断第一语义类别中是否存在与目标语义类别之间第二混淆度在1-10范围内的语义类别；若第一语义类别中不存在与目标语义类别之间第二混淆度在1-10范围内的语义类别，则确定目标语义类别以及目标语义类别对应的训练数据能加入第一语义类别集合；若第一语义类别中存在与目标语义类别之间第二混淆度在1-10范围内的语义类别，且目标语义类别与第一语义类别中的语义类别均不同时，将语义类别发送至辅助判断模块，在接收到辅助判断模块发送的重要性分数后，根据重要性分数判断语义类别以及目标语义类别对应的训练数据是否能够加入第一语义类别集合。

在一些实施例中，训练部1905具体用于，根据公式

计算参数S，其中，CH为混淆度，α为重要性分数，当所判断的两个语义类别相同时，β＝1，当所判断的两个语义类别之间不同时，β＝-1；当S＞0时，确定目标语义类别以及目标语义类别对应的训练数据能加入第一语义类别集合；当S≤0时，确定目标语义类别以及目标语义类别对应的训练数据不能加入第一语义类别集合。

在一些实施例中，第一模型为深度学习模型；第二模型为小样本学习模型。有关语句处理模块1900的具体实现以及工作原理可以参照本申请前述实施例中对语句处理方法进行的描述，不再赘述。

需要说明的是，应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。例如，处理模块可以为单独设立的处理元件，也可以集成在上述装置的某一个芯片中实现，此外，也可以以程序代码的形式存储于上述装置的存储器中，由上述装置的某一个处理元件调用并执行以上确定部的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起，也可以独立实现。这里所述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(application specific integrated circuit，ASIC)，或，一个或多个微处理器(digital signal processor，DSP)，或，一个或者多个现场可编程门阵列(field programmable gate array，FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(centralprocessing unit，CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，SOC)的形式实现。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘solid state disk(SSD))等。

本申请实施例还提供一种可读存储介质，所述存储介质中存储有指令，当其在计算机上运行时，使得计算机执行如本申请前述任一实施例中由电子设备所执行的方法。

本申请实施例还提供一种运行指令的芯片，所述芯片用于执行如本申请前述任一实施例中由电子设备所执行的方法。

本申请实施例还提供一种程序产品，所述程序产品包括计算机程序，所述计算机程序存储在存储介质中，至少一个处理器可以从所述存储介质读取所述计算机程序，所述至少一个处理器执行所述计算机程序时可实现如本申请前述任一实施例中由电子设备所执行的方法。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

在另一些实施例中，本申请提供的语句处理方法，最终需应用在用户与显示设备的交互过程中，下面结合附图，对用户与显示设备交互的过程进行说明。

例如，图20为本申请提供的语句处理方法在具体实现时显示设备所显示的界面示意图一，在如图20中，以显示设备为电视机2作为示例，示出了用户1可以通过语音向电视机2发出指令的方式。对于电视机2，在接收到用户1的语句之后，需要对语句的语义类别进行识别，并确定对该语义类别进行处理的应用程序。假设如图20的电视机2中安装有电影类、电视类、综艺类和体育类的应用程序，用户1除了通过遥控器等可视化控制方式开启这些类型的应用程序并发出指令，还可以说出例如“我想看A电影”的语句，则电视机2接收到用户的语句后，可以由电视机2识别语句的语义类别为电影类，或者还可以由电视机2将语句发送给服务器，由服务器识别语句的类别为电影类。随后，电视机2通过其电影类的应用程序进一步处理用户的语句，实现通过电影类的应用程序播放电影A。

在上述过程中，电视机2或者服务器可以通过深度学习模型对语句进行处理，将待识别语句作为深度学习模型的输入，并根据深度学习模型的输出确定语句的语义类别。而深度学习模型需要使用较多的数据量进行训练，并且其计算速度较慢。在另一些场景中，图21为本申请提供的语句处理方法在具体实现时显示设备所显示的界面示意图二，如图21所示的电视机2根据实际使用情况新增了疫情查询类的应用程序，此时用户可以通过说出“我想查询疫情动态”等语句，让电视机2中的疫情查询类应用程序处理这个语句并显示疫情动态。则电视机2或者服务器就需要在应用程序的类别存在更新时，对语句识别模型进行更新，例如采用本实施例中，加入小样本模型专用于识别疫情查询类应用程序的方法。

最终，在如图21所示的电视机2采集到用户的待识别语句后，可以通过小样本模型对语句的语义类别为疫情识别类进行识别，在图22中通过疫情控制类应用程序处理该语句，从而显示最新的疫情动态。图22为本申请提供的语句处理方法在具体实现时显示设备所显示的界面示意图三，如图22示出了疫情查询类应用程序所显示的疫情总人数以及新增疫情人数等信息。

综上，在如图21所示的场景中，在电视机2内新增疫情查询类的应用程序后，为了对语句的语义类别为疫情查询类进行识别，电视机2或者服务器中可以对小样本模型进行更新，使其专用于对疫情识别类的语义类别进行识别，而在这个新增的过程中，在保证通过计算量较小的小样模型能够对新增语义类别进行识别的基础上，还没有对计算量较大的深度学习模型进行改变或者重新训练，从而在每次有新增类别时都需要对深度学习模型进行重新训练与计算，进而提高了对语句的语义类别进行识别，特别时对识别新增语义类别的模型进行训练时的速度和效率，使得更新的小样本模型能够更快地应用到语义类别的识别中，实现了快速的更新与迭代，进而提高了用户体验。并且还通过小样本模型还能够以较快的速度完成语义类别的识别，进一步提高了识别的效率。

Claims

1.一种语句处理方法，其特征在于，包括：

获取待识别语句；

通过第一模型对所述待识别语句进行处理，识别所述待识别语句对应的第一语义类别；

通过第二模型对所述待识别语句进行处理，识别所述待识别语句对应的第二语义类别，以及所述第二语义类别的概率值；其中，所述第一语义类别与所述第二语义类别不同，训练所述第一模型使用的数据量大于训练所述第二模型使用的数据量；

当所述第二语义类别的概率值大于预设阈值，确定所述待识别语句对应于所述第二语义类别；

当所述第二语义类别的概率值小于或等于所述预设阈值，确定所述待识别语句对应于所述第一语义类别。

2.根据权利要求1所述的方法，其特征在于，还包括：

获取至少一个语义类别，以及每个语义类别对应的多个训练语句；

通过所述至少一个语义类别以及每个语义类别对应的多个训练语句，对所述第二模型进行训练，使得所述第二模型能够用于识别语句对应的语义类别。

3.根据权利要求2所述的方法，其特征在于，所述第二模型包括：

编码层，用于通过长短期记忆网络模型和注意力机制提取每个所述训练语句的特征向量；

关系层，用于通过余弦相似度衡量和线性整流函数映射方法，计算每个向量特征之间的相似概率值；

损失函数层，用于通过均方差损失函数将所述相似概率值归一化映射到0-1之间的自然数上。

4.根据权利要求2或3所述的方法，其特征在于，所述通过所述至少一个语义类别以及每个语义类别对应的多个训练语句，对所述第二模型进行训练，包括：

在所述第二模型对应的语义类别集合中加入所述至少一个语义类别，以及每个所述语义类别对应的训练数据；

使用更新后的第二模型对应的语义类别集合，对所述第二模型进行训练。

5.根据权利要求4所述的方法，其特征在于，所述在所述第二模型对应的语义类别集合中加入所述至少一个语义类别，以及每个所述语义类别对应的训练数据之前，还包括：

根据所述语义类别对应的多个训练语句的第一特征向量集合、所述第一语义类别中所有语义类别对应的第二特征向量集合、所述第一模型所能够识别的第二语义类别中所有语义类别对应的第三特征集合之间的关系，判断所述第二模型对应的语义类别集合中是否能够加入所述至少一个语义类别，以及每个所述语义类别对应的训练数据。

6.根据权利要求5所述的方法，其特征在于，所述根据所述语义类别对应的多个训练语句的第一特征向量集合、所述第一语义类别中所有语义类别对应的第二特征向量集合、所述深度学习模型所能够识别的第二语义类别中所有语义类别对应的第三特征集合之间的关系，判断所述语义类别中是否能够加入所述至少一个语义类别，以及每个所述语义类别对应的训练数据，包括：

对于所述至少一个语义类别中的目标语义类别，将所述目标语义类别对应的多个训练语句生成的bert向量作为第一特征向量集合，将所述第一语义类别中所有语义类别对应的多个训练语句生成的bert向量作为第二特征向量集合，将所述第二语义类别中所有语义类别对应的多个训练语句生成的bert向量作为第三特征向量集合；

通过ch指数计算所述第一特征向量集合与所述第三特征向量集合之间的第一混淆度，并通过ch指数计算所述第一特征向量集合与所述第二特征向量集合之间的第二混淆度；

根据所述第一混淆度和所述第二混淆度，判断所述目标语义类别，以及所述目标语义类别对应的训练数据，能否加入所述第一语义类别集合。

7.一种语句处理装置，其特征在于，包括：

获取部，用于获取待识别语句；

第一识别部，用于通过第一模型对所述待识别语句进行处理，识别所述待识别语句对应的第一语义类别；

第二识别部，用于通过第二模型对所述待识别语句进行处理，识别所述待识别语句对应的第二语义类别，以及所述第二语义类别的概率值；其中，所述第一语义类别与所述第二语义类别不同，训练所述第一模型使用的数据量大于训练所述第二模型使用的数据量；

确定部，用于当所述第二语义类别的概率值大于预设阈值，确定所述待识别语句对应于所述第二语义类别；

所述确定部还用于，当所述第二语义类别的概率值小于或等于所述预设阈值，确定所述待识别语句对应于所述第一语义类别。

8.一种显示设备，其特征在于，包括：

显示屏，被配置为显示用户界面；

检测器，被配置为接收来自用户的待处理语句；

控制器，被配置为执行上述权利要求1-6任一所述一种语句处理方法。

9.一种语句处理方法，其特征在于，包括：

接收来自用户的待识别语句；

将所述待识别语句发送至语句处理装置，以使所述语句处理装置通过第一模型对所述待识别语句进行处理，识别所述待识别语句对应的第一语义类别；并通过第二模型对所述待识别语句进行处理，识别所述待识别语句对应的第二语义类别，以及所述第二语义类别的概率值；其中，所述第一语义类别与所述第二语义类别不同，训练所述第一模型使用的数据量大于训练所述第二模型使用的数据量；以及当所述第二语义类别的概率值大于预设阈值，确定所述待识别语句的对应于所述第二语义类别；当所述第二语义类别的概率值小于或等于所述预设阈值，确定所述待识别语句对应于所述第一语义类别；

接收所述语句处理装置发送的所述待识别语句的语义类别。

10.一种显示设备，其特征在于，包括：

显示屏，被配置为显示用户界面；

检测器，被配置为接收来自用户的识别语句；

控制器和通信器，所述控制器被配置为通过所述通信器将通过所述检测器接收到的待识别语句发送至语句处理装置，以使所述语句处理装置通过第一模型对所述待识别语句进行处理，识别所述待识别语句对应的第一语义类别；并通过第二模型对所述待识别语句进行处理，识别所述待识别语句对应的第二语义类别，以及所述第二语义类别的概率值；其中，所述第一语义类别与所述第二语义类别不同，训练所述第一模型使用的数据量大于训练所述第二模型使用的数据量；以及当所述第二语义类别的概率值大于预设阈值，确定所述待识别语句的对应于所述第二语义类别；当所述第二语义类别的概率值小于或等于所述预设阈值，确定所述待识别语句对应于所述第一语义类别；

所述控制器还被配置为通过所述通信器接收所述语句处理装置发送的所述待识别语句的语义类别。