CN112100357A

CN112100357A - 引导语的生成方法及装置、电子设备、计算机存储介质

Info

Publication number: CN112100357A
Application number: CN202011017775.1A
Authority: CN
Inventors: 陈云
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-09-24
Filing date: 2020-09-24
Publication date: 2020-12-18

Abstract

本申请公开了一种引导语的生成方法及装置、电子设备、计算机存储介质，所述引导语的生成方法包括：获取用户的语音数据；将所述语音数据转换为文本数据；从所述文本数据中提取出至少一个目标关键词；分别获取各个所述目标关键词的属性信息、以及每个所述目标关键词的关联关键词的属性信息；所述关联关键词为至少一个与所述目标关键词为互相关的关键词；根据各个所述目标关键词、各个所述关联关键词、各个所述目标关键词的属性信息以及各个所述关联关键词的属性信息，组建引导语。从而根据用户的语音，生成多样的相关性的引导语，不再限于相似性的引导语，也不再限于同一场景下与用户语音相似的引导语，从而更加符合用户与终端设备深入对话的需求。

Description

引导语的生成方法及装置、电子设备、计算机存储介质

技术领域

本申请涉及人机交互技术领域，特别涉及一种引导语的生成方法及装置、电子设备、计算机存储介质。

背景技术

在人工智能领域中，用户在与智能终端对话的技术越来越成熟。为了提高用户体验，用户在与智能终端进行对话时，在智能终端的屏幕上会显示，根据用户输入的语音生成的一条或多条引导语，从而给用户提供了后续对话的一个提示和引导。

现今生成引导语的方式，主要是根据用户输入的语音，确定当前对话的场景，然后将确定出的场景下模板化的引导语中与用户输入语音相似的引导语反馈给用户，例如，用户输入的是“我想听张三的相声”，则在确定出语音对话为相声的场景下，将相似的“我想听李四的相声”的引导语提供给用户。

但是，现有的方式由于模板化的引导语相对单一，并且提供给用户是一个场景下的相似性的引导语，所以若用户使用引导语，那么用户与终端设备将一直在同一话题场景下对话，这显然不符合用户与终端设备深入对话的需求，因此现有方式生成的引导语并不能很好地满足用户需求，使得引导语的用户反馈率偏低。

发明内容

基于上述现有技术的不足，本申请提供了一种引导语的生成方法及装置、电子设备、计算机存储介质，以解决现有生成引导语的方式所生成的引导语无法很好地满足用户的需求的问题。

为了实现上述目的，本申请提供了以下技术方案：

本申请第一方面提供了一种引导语的生成方法，包括：

获取用户的语音数据；

将所述语音数据转换为文本数据；

从所述文本数据中提取出至少一个目标关键词；

分别获取每个所述目标关键词的属性信息、以及与每个所述目标关键词的关联关键词的属性信息；其中，所述关联关键词为至少一个与所述目标关键词为互相关的关键词；

根据各个所述目标关键词、各个所述关联关键词、各个所述目标关键词的属性信息以及各个所述关联关键词的属性信息，组建引导语。

可选地，在上述的引导语的生成方法中，所述从所述文本数据中提取出目标关键词，包括：

利用预先训练好的模型对所述文本数据进行分词，得到多个文本词汇，并从多个所述文本词汇中提取出至少一个实体词；

将提取出的各个所述实体词作为所述目标关键词。

可选地，在上述的引导语的生成方法中，所述从多个所述文本词汇中提取至少一个实体词，包括：

分别标记各个所述文本词汇的词性，并从各个所述文本词汇中提取出词性为指定词性的所述文本词汇；其中，词性为所述指定词性的所述文本词汇为所述实体词。

可选地，在上述的引导语的生成方法中，所述模型的训练方法，包括：

获取多个样本文本数据以及每个所述样本文本数据中的属于所述指定词性的文本词汇；

分别将各个所述样本文本数据输入所述模型中，通过所述模型将输入的所述样本文本数据划分为多个文本词汇后，分别标记各个所述文本词汇的词性，并从各个所述文本词汇中提取出词性属于指定词性的所述文本词汇；

通过对比提取出的所述文本词汇与相应的各个所述样本文本数据中属于所述指定词性的文本词汇，计算所述模型的输出结果的正确率；

若所述模型的输出结果的正确率小于预设阈值，则调整所述模型的参数，并返回执行所述分别将各个所述样本文本数据输入所述模型中，通过所述模型将输入的所述样本文本数据划分为多个文本词汇后，分别标记各个所述文本词汇的词性，并从各个所述文本词汇中提取出词性属于指定词性的所述文本词汇；

若所述模型的输出结果的正确率不小于预设阈值，则结束对所述模型的训练。

可选地，在上述的引导语的生成方法中，所述分别获取每个所述目标关键词的属性信息、以及与每个所述目标关键词的关联关键词的属性信息，包括：

分别针对每个所述目标关键词，从图形数据库中检索出属性名称为所述目标关键词的目标图点；

获取所述目标图点的多个属性信息、连接所述目标图点的每个图点的多个属性信息、以及所述目标图点与各个所述图点的图边关系信息；其中，所述目标图点的属性名称与连接所述目标图点的各个所述图点的属性名称为互相关。

可选地，在上述的引导语的生成方法中，所述根据各个所述目标关键词、各个所述关联关键词、各个所述目标关键词的属性信息以及各个所述关联关键词的属性信息，建成多条引导语，包括：

将多个词汇中的每一个词汇以及任意个词汇的组合，分别填入各自相匹配的引导语模板中，得到引导语；

其中：所述多个词汇包括：各个所述目标关键词、各个所述关联关键词以及所述目标关键词的属性信息以及各个所述关联关键词的属性信息；与所述词汇或者所述任意个词汇的组合相匹配的引导语模板，其包括的空缺词汇的类型与所述词汇或者所述任意个词汇的组合的类型相同。

所述分别获取每个所述目标关键词的属性信息、以及每个所述目标关键词的关联关键词的属性信息之后，还包括：

对根据所述目标关键词、所述关联关键词、所述目标关键词的属性信息以及所述关联关键词的属性信息进行分类整理，得到参数池；其中，所述参数词包括多组词汇，且每组词汇包括两个词汇。

本申请第二方面提供了一种引导语的生成装置，包括：

第一获取单元，用于获取用户的语音数据；

转换单元，用于将所述语音数据转换为文本数据；

提取单元，用于从所述文本数据中提取出至少一个目标关键词；

第二获取单元，用于分别获取每个所述目标关键词的属性信息、以及与每个所述目标关键词的关联关键词的属性信息；

生成单元，用于根据各个所述目标关键词、各个所述关联关键词、各个所述目标关键词的属性信息以及各个所述关联关键词的属性信息，组建引导语。

可选地，在上述的引导语的生成装置中，所述提取单元，包括：

提取子单元，用于利用预先训练好的模型对所述文本数据进行分词，得到多个文本词汇，并从多个所述文本词汇中提取出至少一个实体词；

确定单元，用于将提取出的各个所述实体词作为所述目标关键词。

可选地，在上述的引导语的生成装置中，所述提取子单元执行所述从多个所述文本词汇中提取出至少一个实体词时，用于：

可选地，在上述的引导语的生成装置中，还包括训练单元，其中：所述训练单元，包括：

第三获取单元，用于获取多个样本文本数据以及每个所述样本文本数据中的属于所述指定词性的文本词汇；

输入单元，用于分别将各个所述样本文本数据输入所述模型中，通过所述模型将输入的所述样本文本数据划分为多个文本词汇后，分别标记各个所述文本词汇的词性，并从各个所述文本词汇中提取出词性属于指定词性的所述文本词汇；

计算单元，用于通过对比提取出的所述文本词汇与相应的各个所述样本文本数据中属于所述指定词性的文本词汇，计算所述模型的输出结果的正确率；

调整单元，用于在所述模型的输出结果的正确率小于预设阈值时，调整所述模型的参数，并返回所述输入单元；

结束单元，用于在所述模型的输出结果的正确率不小于预设阈值时，结束对所述模型的训练。

可选地，在上述的引导语的生成装置中，所述第二获取单元，包括：

检索单元，用于分别针对每个所述目标关键词，从图形数据库中检索出属性名称为所述目标关键词的目标图点；

第二获取子单元，用于获取所述目标图点的多个属性信息、连接所述目标图点的每个图点的多个属性信息、以及所述目标图点与各个所述图点的图边关系信息；其中，所述目标图点的属性名称与连接所述目标图点的各个所述图点的属性名称为互相关。

可选地，在上述的引导语的生成装置中，所述生成单元，包括：

生成子单元，用于将将多个词汇中的每一个词汇以及任意个词汇的组合，分别填入各自相匹配的引导语模板中，得到引导语；

其中：所述多个词汇包括：各个所述目标关键词、各个所述关联关键词以及各个所述目标关键词的属性信息以及各个所述关联关键词的属性信息；与所述词汇或者所述任意个词汇的组合相匹配的引导语模板，其包括的空缺词汇的类型与所述词汇或者所述任意个词汇的组合的类型相同。

可选地，在上述的引导语的生成装置中，还包括：

整理单元，用于对根据所述目标关键词、所述关联关键词、所述目标关键词的属性信息以及所述关联关键词的属性信息进行分类整理，得到参数池；其中，所述参数词包括多组词汇，且每组词汇包括两个词汇。

本申请第三方面提供了一种计算机存储介质，其特征在于，用于存储计算机程序，所述计算机程序被执行时，用于实现如上述任意一项所述的引导语的生成方法。

本申请第四方面提供了一种电子设备，包括：

存储器和处理器；

其中，所述存储器用于存储程序；

所述处理器用于执行所述程序，所述程序被执行时，具体用于实现如上述任意一项所述的引导语的生成方法。

本申请提供的引导语的生成方法，通过获取用户的语音数据，然后将语音数据转换为文本数据，并从文本数据中提取至少一个目标关键词，然后获取分别获取各个目标关键词的属性信息、以及与目标关键词为互相关的多个关联关键词的属性信息，最后利用各个目标关键词、各个关联关键词、各个目标关键词的属性信息以及各个关联关键词的属性信息，组建引导语。从而通过确定出的多个词汇，可以更加灵活地组建成多样的引导语，并且获取的是互相关的关键词的属性信息，所以引导语不再限于是同一场景下与用户输入语音相似的引导语，而可以是不同场景下，但又与用户输入语音相关的引导语，从而更加符合用户与终端设备深入对话的需求，有效提高了引导语的用户反馈率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的一种云服务系统的组成示意图；

图2为本申请另一实施例提供的一种引导语的生成方法的流程示意图；

图3为本申请另一实施例提供的另一中引导语的生成方法的流程示意图；

图4为本申请另一实施例提供的一种模型的训练方法的流程示意图；

图5为本申请另一实施例提供的一种知识图片的示例的示意图；

图6为本申请另一实施例提供的一种引导语的生成装置的结构示意图；

图7为本申请另一实施例提供的一种提取单元的结构示意图；

图8为本申请另一实施例提供的一种训练单元的结构示意图；

图9为本申请另一实施例提供的一种第二获取单元的结构示意图；

图10为本申请另一实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

云技术(Cloudtechnology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。

而云技术中最主要的技术之一就是云计算(cloud computing)，云计算指IT基础设施的交付和使用模式，指通过网络以按需、易扩展的方式获得所需资源；广义云计算指服务的交付和使用模式，指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是IT和软件、互联网相关，也可是其他服务。云计算是网格计算(Grid Computing)、分布式计算(DistributedComputing)、并行计算(Parallel Computing)、效用计算(UtilityComputing)、网络存储(Network Storage Technologies)、虚拟化(Virtualization)、负载均衡(Load Balance)等传统计算机和网络技术发展融合的产物。随着互联网、实时数据流、连接设备多样化的发展，以及搜索服务、社会网络、移动商务和开放协作等需求的推动，云计算迅速发展起来。不同于以往的并行分布式计算，云计算的产生从理念上将推动整个互联网模式、企业管理模式发生革命性的变革。

本申请提供了一种引导语的生成方法，可以基于云技术来实现人工智能云服务，从而解决现有生成引导语的方式所生成的引导语无法很好地满足用户的需求的问题。

所谓人工智能云服务，一般也被称作是AIaaS(AI as a Service，中文为“AI即服务”)。这是目前主流的一种人工智能平台的服务方式，具体来说AIaaS平台会把几类常见的AI服务进行拆分，并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城：所有的开发者都可以通过API接口的方式来接入使用平台提供的一种或者是多种人工智能服务，部分资深的开发者还可以使用平台提供的AI框架和AI基础设施来部署和运维专属的云人工智能服务。

可选地，如图1所示，本申请实施例提供了一种实现本申请提供的引导语的生成方法的云服务系统，具体包括：云网关、语义处理服务器以及引导语处理服务器。

具体的，同样参见图1，云网关接收智能终端上传的HTTP请求。其中，HTTP请求由智能终端采集用户的语音数据，然后智能终端将采集到的语音数据组建，并上传至云网关。云网关通过解析HTTP请求获得用户的语音数据，并将语音数据分发给语义处理服务器处理。由语义处理服务器将用户的语音数据转换为文本数据，并从文本数据中提取出目标关键词，进而将提取出的目标关键词转发给引导语处理服务器，由引导语处理服务器查询目标关键词的属性信息、以及与目标关键词为互相关的多个关联关键词的属性信息，并将各个目标关键词、各个关联关键词、各个目标关键词的属性信息以及各个关联关键词的属性信息，组建成引导语。相应的，引导语处理服务器将得到的引导语反馈给语义处理服务器，然后语义处理服务器将引导语反馈给云网关，最终由云网关通过HTTP回复，将引导语送到智能终端，从而将引导语显示给用户。

可选地，同样参见图1，云服务器系统还可以进一步包括：图数据库。引导语处理服务器查询目标关键词的属性信息、以及与目标关键词为互相关的多个关键词的属性信息，具体为：引导语处理服务器向图数据库发起目标关键词的数据查询语句(cypher语句)，然后在图数据库中检索属性名称为目标关键词的目标图点，然后获取目标图点的多个属性信息、连接目标图点的每个图点的多个属性信息、以及目标图点与各个图点的图边关系信息，并返回给引导语处理服务器。由引导语处理服务器将目标关键词、各个关键词以及目标关键词的属性信息以及各个关键词的属性信息填入相匹配的引导语模板中，得到多条引导语。

基于上述提供的云服务器系统，本申请实施例提供了一种引导语的生成方法，如图2所示，具体包括以下步骤：

S201、获取用户的语音数据。

具体的，云网关接收智能终端上传的HTTP请求包，并对解析得到智能终端采集到的用户的语音数据。可选地，云网关在接收到请求包后，还可以先对请求包进行包头解析，得到储存在智能终端上的数据(cookie)和加密签名信息。然后对cookie和加密签名信息进行鉴权分发。具体的，若签名信息分解后符合网关数据要求，则将语音数据分发给语义处理服务器。

S202、将语音数据转换为文本数据。

由于后续需要基于文本形式进行处理，所以需要将语音数据转换为文本数据。具体的，语义处理服务器可以是利用预先训练好的语音识别模型，对语音数据进行识别，从而输出与语音数据相对应的文本数据。

S203、从文本数据中提取出至少一个目标关键词。

关键词可以理解为构成文本数据的主干的关键词汇，即体现用户与智能终端的交互的内容的主要词汇。介词、形容词、语气助词等词性的词汇，通常只是为了和主干词汇构成完整的语句，与语音交互的内容没有太大的关系，通常名词和动词才是一句话中的主体，所以关键词主要为名词，当然也可以包括其他词性的词汇。例如，文本数据为“我想听张三的歌”，这其中的“我、想听、的”这三个词汇与用户与智能终端交互的内容没有太大关系，主要的文本词汇为“张三”和“歌”，从而提取到的目标关键词为“张三”和“歌”。

需要说明的是，提取出的目标关键词可以是一个，也可以是多个。当关键词为多个时，则是分别针对每个目标关键词，生成每个目标关键词相对应的引导语。

S204、分别获取每个目标关键词的属性信息、以及每个目标关键词的关联关键词的属性信息。

其中，关联关键词为至少一个与目标关键词为互相关的关键词，即针对每个目标关键词，获取与该目标关键词互相关的一个或多个关键词的属性信息。

需要说明的是，预先存储有多个词汇的属性信息，而在本申请实施例中存储有其属性信息的词汇即为关键词。

其中，两个互相关的关键词指的是两个具有相互的关联关系的词汇，并不限于是相同类型的词汇或者同一场景下的词汇。例如张三是李四的师傅，则相应的李四为张三的徒弟，所以关键词“张三”和关键词“李四”为互相关的关键词。又如，“张三”与张三主演的影片的名称“A”为互相关的关键词，同样影片的名称“A”与其他参与的演员的名字的关键词也是互相关的。还需说明的是，本申请实施例中互相关的两个关键词主要指的是存在直接关联关系的两个词汇，但不限于是直接关系，也可以是存在间接关联关系的两个词汇，如张三与其他参与影片A的演员。当一个关键词被确定为目标关键词，则与其互相关的关键词，则为该目标关键词的关联关键词。

可见，在本申请实施例中互相关的关键词主要为：关键词对应的真实实体具有相关关系的同等级的词汇，而不限于是词汇本身具有的相关关系的词汇，如上位词和下位词，或者完全同类型的词汇。因此，这使得生成的引导语更利用用户和智能终端深入聊天。例如，用户的语音数据为“我想看张三主演的电影”，不再如现有技术一样仅是能生成“我想看张三的影片A”，而可以生成“我想听李四的相声”等。不再如现有技术一样仅生成相似性的引导语，而是做到了相关性引导语的生成。

具体的，引导语处理服务器可以分别针对每个目标关键词，查询与目标关键词为互相关的所有关键词的属性信息，即查询目标关键词的所有关联关键词的属性信息，也可以是仅获取与目标关键词的部分关联关键词的属性信息。还需说明的是，在获取与目标关键词的关联关键词的属性信息的同时，也相当于获取到了与目标关键词的关联关键词本身。

S205、根据各个目标关键词、各个关联关键词、各个目标关键词的属性信息以及各个关联关键词的属性信息，组建引导语。

需要说明的是，每个关键词具有多个属性信息，而每个属性信息的实质也是一个词汇。所以，将各个目标关键词、各个关键词、目标关键词的属性信息以及各个关键词的属性信息，组建成引导语，实质就是将获取到的多个词汇组成完整的语句。

可选地，在组建引导语时，可以是所获取的所有的词汇都可以任意组合，组建引导语，也可以是一个目标关键词，仅能与该目标关键词的各个关联关键词、该目标关键词的属性信息以及该目标关键词的关联关键词的属性信息，组建引导语。当然，也可以采用其他的组合方式，组建引导语，这都应属于本申请的保护范畴。

还需要说明的是，为了使得生成的引导语是完整的、通顺的语句，所以将目标关键词、各个关键词、目标关键词的属性信息以及各个关键词的属性信息，组建成引导语时，除了目标关键词、各个关键词、目标关键词的属性信息以及各个关键词的属性信息外，还需要额外用到部分介词、动词等词汇。

本申请实施例提供的一种引导语的生成方法，通过获取用户的语音数据，然后将语音数据转换为文本数据，并从文本数据中提取出至少一个目标关键词，然后获取各个目标关键词的属性信息、以及与目标关键词为互相关的多个关联关键词的属性信息，最后利用各个目标关键词、各个关联关键词、目标关键词的属性信息以及各个关联关键词的属性信息，组建引导语。从而通过确定出的多个词汇，可以更加灵活地组建成多样的引导语，并且获取的是互相关的关键词的属性信息，所以引导语不再限于是同一场景下与用户输入语音相似的引导语，而可以是不同场景下，但又与用户输入语音相关的引导语，从而更加符合用户与终端设备深入对话的需求。

还需要说明的是，本申请实施例提供的引导语的生成方法，并不仅限于通过上述实施例提供的云服务系统来实现，也可以通过其他设备或系统实现。

本申请另一实施例提供的另一种引导语的生成方法，如图3所示，具体包括以下步骤：

S301、获取用户的语音数据。

需要说明的是，步骤S301的具体实施方式可相应地参考上述方法实施例中的步骤S201，此处不再赘述。

S302、将语音数据转换为文本数据。

需要说明的是，步骤S302的具体实施方式可相应地参考上述方法实施例中的步骤S202，此处不再赘述。

S303、利用预先训练好的模型对文本数据进行分词，得到多个文本词汇，并从多个文本词汇中提取出至少一个实体词。

具体的，本申请实施例将文本数据输入预先训练好的模型中，通过模型先对文本数据进行分词，从而将文本数据划分为多个文本词汇。例如，文本数据为“我想听张三的歌”，则分词后为“我、想听、张三、的、歌”五个文本词汇。然后，模型再进一步从多个文本词汇中提取出至少一个主干词汇，作为目标关键词。一个实体词。

可选地，也可以是通过额外的分词工先对文本数据进行分词，如分词模型Word2vec，然后再由训练好的模型实现从多个文本词汇中提取出至少一个实体词。

可选地，预先训练好的模型从多个文本词汇中提取出至少一个实体词的方式，具体可以为：分别标记各个文本词汇的词性，并从各个文本词汇中提取出词性为指定词性的文本词汇。

其中，词性为指定词性的文本词汇为实体词。指定词性可以是上述实施例所提到的名词以及动词等。

本申请另一实施例提供的一种上述模型的训练方法，如图4所示，具体包括以下步骤：

S401、获取多个样本文本数据以及每个样本文本数据中的属于指定词性的文本词汇。

具体的，可以获取多种对话场景下的多个对话语音，并将对话语音转换为文本数据，作为样本文本数据。然后，由人工确定出每个样本文本数据中属于指定词性的文本词汇。

S402、分别将各个样本文本数据输入所述模型中，通过模型将输入的样本文本数据划分为多个文本词汇后，分别标记各个文本词汇的词性，并从各个文本词汇中提取出词性属于指定词性的文本词汇。

S403、通过对比提取出的文本词汇与相应的各个样本文本数据中属于指定词性的文本词汇，计算模型的输出结果的正确率。

具体的，可以是在分别输入多个样本文本数据，得到多个相应的输出结果后，进行一次步骤S403。由于，初始的模型还没训练好，所以输出的结果中，会存在实际上不属于指定词性的文本词汇，或者输出结果中缺少属于指定文本词汇的词性，所以通过对比提取出的文本词汇与相应的各个样本文本数据中属于指定词性的文本词汇，可以计算出模型的输出结果的正确率。

S404、判断模型的输出结果的正确率是否小于预设阈值。

通过对比模型的输出结果的正确率与预设阈值，确定模型是否已优化至满足要求。若判断出模型的输出结果的正确率小于预设阈值，则执行步骤S405。若判断出模型的输出结果的正确率不小于预设阈值，则执行步骤S406。

S405、调整模型的参数。

需要说明的是，在调整模型的参数后，需要进一步训练模型，因此此时返回步骤S402。

S406、结束对模型的训练。

S304、将提取出的各个实体词作为目标关键词。

S305、分别针对每个目标关键词，从图形数据库中检索出属性名称为目标关键词的目标图点。

需要说明的是，本申请实施例中通过知识图谱的方式，存储各个关键词及其属性信息，并建立有各个关键词之间的关联关系。其中，一个图点为知识图谱中的一个实体对象，而一个实体即为一个关键词。

在本申请实施例中，每个关键词对应有知识图谱中的一个图点的属性名称为对应的关键词，并且每个图点下存储有对应的关键词的多个属性信息。并且，知识图谱中将各个互相关的关键词对应的图点用线段连接。其中，连接两个图点的线段即为图边，每条图边设置有连接的两个图点对应的关键词间的图边关系信息。

具体的，图数据库在收到引导语处理服务器发送的关于各个目标关键词的查询语句后，分部针对每个目标关键词，在图数据库中检索出属性名为目标关键词的图点，并将该图点作为目标图点。然后，再进一步分别针对每个目标图点执行步骤S306。

S306、获取目标图点的多个属性信息、连接目标图点的每个图点的多个属性信息、以及目标图点与各个图点的图边关系信息。

其中，由于图点的属性名称即为图点对应的关键词，所以目标图点的属性名称与连接目标图点的各个图点的属性名称为互相关。

可选地，在检测到属性名称为目标关键词的目标图点后，获取目标图点的属性信息。然后，可以将目标图点作为一级图点，则与目标图点相连接的各个图点则可以作为二级图点，然后获取二级图点的属性信息以及一级图点和二级图点的图边关系信息，从而得目标关键词的各个关联关键词的属性信息，以及各个关联关键词与目标关键词的关联关系信息。

例如，如图5所示，对于目标关键词“张三”，在图数据库中确定出属性名称为“张三”的目标图点，从而可以获取目标图点的属性信息，如张三的国籍：中国、身高等。并且，进一步的可以确定与目标图点连接的三个图点。其中，第一个与目标图点的图边关系信息为“老婆”、属性名称为“朱红”的图点，即张三的老婆对应的图点，该图点的属性信息同样包括国籍、出生日期、职业等；第二个图点为张三主演的影片A对应的图点，所以该图点的属性名称为影片的名称“A”，其与目标图点的图边关系信息为“主演”，该图点的属性信息则可以是包括类别：电影、上映时间、导演等信息；第三个为张三演唱的歌曲B对应的图点，所以该图点的属性名称为该歌曲的名称“B”，其与目标图点的关系信息为“演唱”，属性信息则可以包括类别：歌曲以及发行时间等信息。然后，获取这三个图点的属性信息以及与目标图点的图边关系信息。需要说明的是，由于目标图点与连接的各个图点是互相关的，所以两者的图标关系的也是互相关，图5为以图点“张三”为目标图点，所以仅是示出了目标图点与其他图点的单边关系，若以其他图点为目标图点，例如以图点“朱红”为目标图点时，则得到的“朱红”与“张三”的图标关系则能示出另一边的单边关系，即两者的关系为“老公”。

可选地，在得到图数据库反馈的数据后，即获取到每个目标关键词的属性信息、以及每个目标关键词的关联关键词的属性信息之后，还可以进一步对根据目标关键词、关联关键词、目标关键词的属性信息以及关联关键词的属性信息进行分类整理，得到参数池。其中，参数池包括多组词汇，且每组词汇包括两个词汇。例如，基于上述例子上图数据库获取的信息，整理后得到的参数池为：“朱红”：“国籍”，“张三”：“A”，“张三”：“老婆”，“张三”：“B”，“A”：“电影”，“导演”：“A”等。需要说明的是，此处提及参数词的词汇即为获取到的数据。

需说明的是，本申请实施例中，仅获取与目标图点直接连接的图点的信息，即获取一级图点和二级图点的信息，仅是其中一种可选地的方式。也可以进一步获取更高级别的图点的信息。

S307、将多个词汇中的每一个词汇以及任意个词汇的组合，分别填入各自相匹配的引导语模板中，得到引导语，多个词汇包括：各个目标关键词、各个关联关键词、各个目标关键词的属性信息以及各个关联关键词的属性信息。

其中，与单个词汇或者任意个词汇的组合相匹配的引导语模板，其包括的空缺词汇的类型与单个词汇或者任意个词汇的组合的类型相同。

可选地，由于本申请实施例中还获取了目标图点与各个图点的图边关系信息，因此不仅可以将各个目标关键词、各个关联关键词以及目标关键词的属性信息以及各个关联关键词的属性信息填入相匹配的引导语模板中，也可以将图边关系信息填入引导语模板中，从而得到引导语，即多个词汇中还可以包括图标关系信息。

具体的，在本申请实施例中，预先设置有多个引导语模板，每个引导语模板中至少包括一个空缺词汇，将该空缺词汇补上即可得到一句完整的语句，即引导语模板为一句至少缺失一个词汇的语句。因此，当引导语模板只有一个空缺词汇时，与该引导语模板相匹配的为单个词汇，即当获取的词汇中的某个词汇的词汇类型与该引导语模板包括的空缺词汇相同，则该词汇与该引导语模板相匹配。而当引导语存在多个空缺词汇时，与引导语模板匹配的为多个词汇的组合，同理若多个词汇的组合中的每个词汇都与引导语模板中的一个空缺词汇的词汇类型相同，则该词汇组合与该引导语模板相匹配。并且，在将词汇填入引导语模板中时，具体是将词汇填入引导语模板中与其词汇类型相同的空缺词汇的空去位置上，即确定一个词汇是否可以填入引导语模板中的空缺词汇的空缺位置上，取决于该词汇与空缺词汇的词汇类型是否相同。例如，空缺词汇的词汇类型为“姓名”，那么获取到的词汇中，只有属于姓名的词汇才能填入该空缺词汇的位置上。

例如，基于步骤S306中的例子中，所获得的数据，去匹配如下的引导语模板：{1_name}的{relaionship}是谁b)、播放{1_name}的{2_name}、我想看{1_name}的{2_type}、播放{2_name}、{2_name}的{2_director}是谁、{1_name}的{relaionship}是哪个国家的，得到的引导语可以有：张三的老婆是谁、播放张三的A、播放张三的歌曲、我想看张三的电影、播放B、A的导演是谁、张三的老婆是哪个国籍的等多条引导语句。

需要说明的是，引导语为一句完整的语句，所以若一个引导语模板存在多个空缺词汇，所获取的词汇中仅能填补部分的空缺，则该引导语模板并不能形成完整的语句，因此不能作为引导语。

可选地，具体可以是依次针对每个获取到的词汇，查找到包括有的空缺词汇的词汇类型与其相同的引导语模板，并将其填入引导语模板中的相应的空缺词汇的空缺位置处。若该引导语模板还存在其他空缺词汇，则进一步从获取到的词汇中，查找词汇类型与空缺词汇相同的词汇，并相应地填入引导语模板中。若在获取到的词汇中存在多个与空缺词汇的词汇类型相同的词汇，则将各个词汇分别相应地填入该引导语模板中，得到多条引导语。需要说明的是，若填入匹配的词汇后，该引导语模板不在存在空缺词汇，形成了一句完整语句，则将该完整语句作为其中一条引导语。若遍历完所有词汇后，该引导语模板依旧存在空缺词汇，则该引导语模板不能作为引导语。还需要说明的是，由于这种方式可能生成相同的引导语，所以再生成多条引导语后，可对多条引导语进行去重，得到最终反馈给用户的引导语。当然，这只是其中一种可选地的方式，也可以采用其他的方式，将获取到的词汇填入到引导语模板中，生成多条引导语，这都属于本申请的保护范畴。例如，也就是分别针对每个引导语模板，从获取到的词汇中，查找出与引导语模板中的空缺词汇的词汇类型相同的词汇，即查找出与引导语模板匹配的单个词汇或者任意个词汇的组合，然后将其填入到引导语模板中的相同的空缺位置处，从而得到多条引导语。

本申请提供的一种引导语的生成方法，通过获取用户的语音数据，然后将语音数据转换为文本数据，并将文本数据进行分词后，从得到的多个文本词汇中提取到目标关键词，然后从知识图谱中获取目标关键词对应的目标图点的属性新、连接目标图点的每个图点的多个属性信息、以及目标图点与各个图点的图边关系信息，最后利用得到的各个词汇组建成引导语。从而通过确定出的多个词汇，可以更加灵活地组建成多样的引导语，并且获取的是互相关的关键词的属性信息，所以引导语不再限于是同一场景下与用户输入语音相似的引导语，而可以是不同场景下，但又与用户输入语音相关的引导语，从而更加符合用户与终端设备深入对话的需求。

本申请另一实施例提供了一种引导语的生成装置，如图6所示，具体包括一下单元：

第一获取单元601，用于获取用户的语音数据。

转换单元602，用于将语音数据转换为文本数据。

提取单元603，用于从文本数据中提取出至少一个目标关键词。

第二获取单元604，用于获取每个目标关键词的属性信息、以及每个目标关键词的关联关键词的属性信息。

其中，关联关键词为至少一个与目标关键词为互相关的关键词。

生成单元605，用于根据各个目标关键词、各个关联关键词、各个目标关键词的属性信息以及各个关联关键词的属性信息，组建引导语。

可选地，在本申请另一实施例提供的引导语的生成装置中，提取单元如图7所示，包括以下单元：

提取子单元701，用于利用预先训练好的模型对文本数据进行分词，得到多个文本词汇，并从多个文本词汇中提取出至少一个实体词。

确定单元702，用于将提取出的各个实体词作为目标关键词。

可选地，在本申请另一实施提供的引导语的生成装置中的提取子单元执行：从多个所述文本词汇中提取出至少一个实体词的步骤时，用于：分别标记各个文本词汇的词性，并从各个文本词汇中提取出词性为指定词性的文本词汇。

其中，词性为指定词性的所述文本词汇为实体词。

可选地，在本申请另一实施提供的引导语的生成装置中，还可以进一步包括用于训练模型的训练单元。其中，如图8所示，训练单元，具体包括以下单元：

第三获取单元801，用于获取多个样本文本数据以及每个样本文本数据中的属于指定词性的文本词汇。

输入单元802，用于分别将各个样本文本数据输入模型中，通过模型将输入的样本文本数据划分为多个文本词汇后，分别标记各个文本词汇的词性，并从各个文本词汇中提取出词性属于指定词性的文本词汇。

计算单元803，用于通过对比提取出的文本词汇与相应的各个所述样本文本数据中属于指定词性的文本词汇，计算所述模型的输出结果的正确率。

调整单元804，用于在模型的输出结果的正确率小于预设阈值时，调整模型的参数，并返回输入单元802。

结束单元805，用于在模型的输出结果的正确率不小于预设阈值时，结束对模型的训练。

可选地，在本申请另一实施提供的引导语的生成装置中，第二获取单元如图9所示，包括以下单元：

检索单元901，用于分别针对每个目标关键词，从图形数据库中检索出属性名称为目标关键词的目标图点。

第二获取子单元902，用于获取目标图点的多个属性信息、连接目标图点的每个图点的多个属性信息、以及目标图点与各个图点的图边关系信息。

其中，目标图点的属性名称与连接目标图点的各个图点的属性名称为互相关。

可选地，在本申请另一实施例提供的引导语的生成装置中，生成单元包括：

生成子单元，用于将多个词汇中的每一个词汇以及任意个词汇的组合，分别填入各自相匹配的引导语模板中，得到引导语；

其中：多个词汇包括：各个目标关键词、各个关联关键词、各个目标关键词的属性信息以及各个关联关键词的属性信息。并且，与单个词汇或者任意个词汇的组合相匹配的引导语模板，其包括的空缺词汇的类型与单个词汇或者任意个词汇的组合的类型相同。

可选地，在本申请另一实施例提供的引导语的生成装置中，还包括：

整理单元，用于对根据目标关键词、关联关键词、目标关键词的属性信息以及关联关键词的属性信息进行分类整理，得到参数池。

其中，参数词包括多组词汇，且每组词汇包括两个词汇。

需要说明的是，本申请上述实施例提供的各个单元的具体工作过程可相应地参考上述方法实施例中的相应步骤的具体实施过程，此处不再赘述。

本申请提供的引导语的生成装置，通过第一获取单元获取用户的语音数据，然后转换单元将语音数据转换为文本数据，并由提取单元从文本数据中提取出至少一个目标关键词，然后第二获取单元获取每个目标关键词的属性信息、以及与每个目标关键词为互相关的关联关键词的属性信息，最后生成单元利用各个目标关键词、各个关联关键词、各个目标关键词的属性信息以及各个关联关键词的属性信息，组建成引导语。从而通过确定出的多个词汇，可以更加灵活地组建成多样的引导语，并且获取的是互相关的关键词的属性信息，所以引导语不再限于是同一场景下与用户输入语音相似的引导语，而可以是不同场景下，但又与用户输入语音相关的引导语，从而更加符合用户与终端设备深入对话的需求。

本申请第三方面提供了一种计算机存储介质，其特征在于，用于存储计算机程序，计算机程序被执行时，用于实现如上述任意一个实施提供的引导语的生成方法。

计算机存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitorymedia)，如调制的数据信号和载波。

本申请第四方面提供了一种电子设备，如图10所示，包括：

存储器1001和处理器1002。

其中，存储器1001用于存储程序。处理器1002用于执行存储器1001存储的程序，且该程序被执行时，具体用于实现如上述任意一个实施例提供的引导语的生成方法。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种引导语的生成方法，其特征在于，包括：

获取用户的语音数据；

将所述语音数据转换为文本数据；

从所述文本数据中提取出至少一个目标关键词；

分别获取每个所述目标关键词的属性信息、以及每个所述目标关键词的关联关键词的属性信息；其中，所述关联关键词为至少一个与所述目标关键词为互相关的关键词；

2.根据权利要求1所述的方法，其特征在于，所述从所述文本数据中提取出至少一个目标关键词，包括：

将提取出的各个所述实体词作为所述目标关键词。

3.根据权利要求2所述的方法，其特征在于，所述从多个所述文本词汇中提取至少一个实体词，包括：

4.根据权利要求3所述的方法，其特征在于，所述模型的训练方法，包括：

5.根据权利要求1所述的方法，其特征在于，所述分别获取每个所述目标关键词的属性信息、以及每个所述目标关键词的关联关键词的属性信息，包括：

6.根据权利要求1所述的方法，其特征在于，所述根据各个所述目标关键词、各个所述关联关键词、各个所述目标关键词的属性信息以及各个所述关联关键词的属性信息，组建引导语，包括：

7.根据权利要求1所述的方法，其特征在于，所述分别获取每个所述目标关键词的属性信息、以及每个所述目标关键词的关联关键词的属性信息之后，还包括：

对根据所述目标关键词、所述关联关键词、所述目标关键词的属性信息以及所述关联关键词的属性信息进行分类整理，得到参数池；其中，所述参数池包括多组词汇，且每组词汇包括两个词汇。

8.一种引导语的生成装置，其特征在于，包括：

第一获取单元，用于获取用户的语音数据；

转换单元，用于将所述语音数据转换为文本数据；

第二获取单元，用于分别获取每个所述目标关键词的属性信息、以及每个所述目标关键词的关联关键词的属性信息；其中，所述关联关键词为至少一个与所述目标关键词为互相关的关键词；

9.一种计算机存储介质，其特征在于，用于存储计算机程序，所述计算机程序被执行时，用于实现如权利要求1至7任意一项所述的引导语的生成方法。

10.一种电子设备，其特征在于，包括：

存储器和处理器；

其中，所述存储器用于存储程序；

所述处理器用于执行所述程序，所述程序被执行时，具体用于实现如权利要求1至7任意一项所述的引导语的生成方法。