CN114003706A

CN114003706A - 关键词组合生成模型训练方法及装置

Info

Publication number: CN114003706A
Application number: CN202111273718.4A
Authority: CN
Inventors: 吴思远; 李长亮; 李小龙
Original assignee: Beijing Kingsoft Digital Entertainment Co Ltd
Current assignee: Beijing Kingsoft Digital Entertainment Co Ltd
Priority date: 2021-07-13
Filing date: 2021-10-29
Publication date: 2022-02-01

Abstract

本申请提供关键词组合生成模型训练方法及装置，其中所述关键词组合生成模型训练方法包括：获取样本问题和所述样本问题对应的样本答案；提取所述样本问题的至少一个初始关键词组合，确定每个初始关键词组合对应的关联文档集合；根据所述样本答案和每个关联文档集合确定种子关键词组合；根据所述种子关键词组合确定所述样本问题的样本关键词组合；根据所述样本问题和所述样本关键词组合训练关键词组合生成模型，直至达到训练停止条件。不仅可以提高对样本问题标注关键词组合的速度，还可以提高样本关键词组合的准确性，有效避免某些垂直领域搭建的数据库中关键词组合与人的先验知识不匹配的问题。

Description

关键词组合生成模型训练方法及装置

技术领域

本申请涉及计算机技术的人工智能领域，特别涉及关键词组合生成模型训练方法及装置、关键词组合生成方法及装置、计算设备和计算机可读存储介质。

背景技术

随着计算机技术领域人工智能的发展，自然语言处理领域也得到了快速发展，根据文本进行信息检索是自然语言处理领域的一个重要分支。人工智能(artificialintelligence；AI)是指已工程化(即设计并制造)的系统感知环境的能力，以及获取、处理、应用和表示知识的能力。人工智能领域关键技术的发展状况，包括机器学习、知识图谱、自然语言处理、计算机视觉、人机交互、生物特征识别、虚拟现实/增强现实等关键技术。自然语言处理(NLP，Natural Language Processing)是计算机科学领域的一个重要研究方向，它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理的具体表现形式包括机器翻译、文本摘要、文本分类、文本校对、信息抽取、语音合成、语音识别等。随着自然语言处理技术的发展，各个应用程序的用户对应用程序能够准确识别和理解用户发出的问题的需求也越来越高。

对于问句处理任务，现有技术在垂直领域内的冷启动阶段进行检索时，由于没有用户数据，通常通过有监督的人工标注来标注不同问句中的关键词组合，进而训练机器学习的模型。但基于人工标注依赖于人的先验知识，在没有标注答案监督的情况下进行标注，会导致待处理问句中的关键词组合标注不准确，进而导致在某些垂直领域搭建的数据库中关键词组合与人的先验知识不匹配。因此，亟需一种有效的方案以解决上述问题。

发明内容

有鉴于此，本申请实施例提供了关键词组合生成模型训练方法及装置、关键词组合生成方法及装置、计算设备和计算机可读存储介质，以解决现有技术中存在的关键词组合标注不准确、效率低等技术缺陷。

根据本申请实施例的第一方面，提供了一种关键词组合生成模型训练方法，包括：

获取样本问题和所述样本问题对应的样本答案；

提取所述样本问题的至少一个初始关键词组合，确定每个初始关键词组合对应的关联文档集合；

根据所述样本答案和每个关联文档集合确定种子关键词组合；

根据所述种子关键词组合确定所述样本问题的样本关键词组合；

根据所述样本问题和所述样本关键词组合训练关键词组合生成模型，直至达到训练停止条件。

根据本申请实施例的第二方面，提供了一种关键词组合生成方法，包括：

获取待处理问题；

将所述待处理问题输入至预先训练好的关键词组合生成模型，其中，所述关键词组合生成模型是通过上述的关键词组合生成模型训练方法训练得到的；

所述关键词组合生成模型响应于所述待处理问题作为输入而生成关键词组合。

根据本申请实施例的第三方面，提供了一种关键词组合生成模型训练装置，包括：

第一获取模块，被配置为获取样本问题和所述样本问题对应的样本答案；

提取模块，被配置为提取所述样本问题的至少一个初始关键词组合，确定每个初始关键词组合对应的关联文档集合；

种子关键词组合确定模块，被配置为根据所述样本答案和每个关联文档集合确定种子关键词组合；

样本关键词组合确定模块，被配置为根据所述种子关键词组合确定所述样本问题的样本关键词组合；

训练模块，被配置为根据所述样本问题和所述样本关键词组合训练关键词组合生成模型，直至达到训练停止条件。

根据本申请实施例的第四方面，提供了一种关键词组合生成装置，包括：

第二获取模块，被配置为获取待处理问题；

输入模块，被配置为将所述待处理问题输入至预先训练好的关键词组合生成模型，其中，所述关键词组合生成模型是通过上述的关键词组合生成模型训练方法训练得到的；

生成模块，被配置为所述关键词组合生成模型响应于所述待处理问题作为输入而生成关键词组合。

根据本申请实施例的第五方面，提供了一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述计算机指令时实现所述关键词组合生成模型训练方法或所述关键词组合生成方法的步骤。

根据本申请实施例的第六方面，提供了一种计算机可读存储介质，其存储有计算机指令，该计算机指令被处理器执行时实现所述关键词组合生成模型训练方法或所述关键词组合生成方法的步骤。

根据本申请实施例的第七方面，提供了一种芯片，其存储有计算机指令，该计算机指令被芯片执行时实现所述关键词组合生成模型训练方法或所述关键词组合生成方法的步骤。

本申请实施例提供的关键词组合生成模型训练方法，通过获取样本问题以及与样本问题对应的样本答案，对样本问题进行初始关键词组合的提取，并确定每个初始关键词组合的关联文档集合，进一步地，根据样本答案和关联文档集合确定出种子关键词组合，进而确定出样本关键词组合，在此基础上根据样本问题以及样本问题对应的样本关键词组合对关键词组合生成模型进行训练，直至达到训练停止条件。如此，不仅可以提高对样本问题标注关键词组合的速度，还可以提高样本关键词组合的准确性，有效避免某些垂直领域搭建的数据库中关键词组合与人的先验知识不匹配的问题。进一步地，通过分词与过滤停用词的方式在所述样本问题中提取初始关键词组合，节省了计算资源，提高了后续根据关键词组合进行检索的检索效率；根据样本答案在管理文档集合中匹配并确定样本关联文档集合，保证了样本答案与样本关联文档集合的匹配程度，解决了现有技术中利用人工标注关键词导致的在某些垂直领域内检索答案不准确的问题。

附图说明

图1是本申请一实施例提供的计算设备的结构框图；

图2是本申请一实施例提供的关键词组合生成模型训练方法的流程图；

图3是本申请一实施例提供的关键词组合生成方法的示意图；

图4是本申请一实施例提供的应用于一个具体应用场景中的流程图；

图5是本申请一实施例提供的关键词组合生成模型训练装置的结构示意图；

图6是本申请一实施例提供的关键词组合生成装置的结构示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“响应于确定”。

首先，对本发明一个或多个实施例涉及的名词术语进行解释。

机器学习(Machine Learning)是一门涉及统计学、系统辨识、逼近理论、神经网络、优化理论、计算机科学、脑科学等诸多领域的交叉学科，研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能，是人工智能技术的核心。基于数据的机器学习是现代智能技术中的重要方法之一，研究从观测数据(样本)出发寻找规律，利用这些规律对未来数据或无法观测的数据进行预测。根据学习模式、学习方法以及算法的不同，机器学习存在不同的分类方法。根据学习模式将机器学习分类为监督学习、无监督学习和强化学习等。

冷启动：指产品没有用户数据的起步阶段。

垂直领域：指专业领域，如军事、政务、汽车等领域。

有监督：也被称为监督学习，是一个机器学习中的方法，可以由训练资料中学到或建立一个模式(函数)，并依此模式推测新的实例。监督学习是利用已标记的有限训练数据集，通过某种学习策略/方法建立一个模型，实现对新数据/实例的标记(分类)/映射，最典型的监督学习算法包括回归和分类。监督学习要求训练样本的分类标签已知，分类标签精确度越高，样本越具有代表性，学习模型的准确度越高。监督学习在自然语言处理、信息检索、文本挖掘、手写体辨识、垃圾邮件侦测等领域获得了广泛应用。

无监督学习是利用无标记的有限数据描述隐藏在未标记数据中的结构/规律，最典型的非监督学习算法包括单类密度估计、单类数据降维、聚类等。无监督学习不需要训练样本和人工标注数据，便于压缩数据存储、减少计算量、提升算法速度，还可以避免正、负样本偏移引起的分类错误问题。主要用于经济预测、异常检测、数据挖掘、图像处理、模式识别等领域，例如组织大型计算机集群、社交网络分析、市场分割、天文数据分析等。

TF-IDF：词频-逆文档频率，一种用于信息检索与数据挖掘的常用加权技术，TF代表词频，IDF代表逆文档频率指数。

BM25算法：是一种用来评价搜索词和文档之间相关性的算法，主要是计算问题中所有的词和文档的相关度。

搜索引擎(search engine)是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息，在对信息进行组织和处理后，并将处理后的信息显示给用户，是为用户提供检索服务的系统；也即用户在搜索引擎中输入关键词进行检索，搜索引擎从索引数据库中找到匹配该关键词的文档。

搜索领域的关键词组合计算一般分为两个阶段，冷启动阶段和用户阶段。对于冷启动阶段，只能通过标注不同问句中的关键词，来训练机器学习的模型。标注关键词组合的方式主要有两种，一种是有监督的人工标注，即人工对不同问句中的分词中选取对检索较为重要的词，忽略掉问句中不重要的词如语气词、疑问词等，完全依赖人的先验知识；第二种是通过搜索数据库的语料统计数据来自监督标注关键词组合，如：idf、ngram-idf等等。

在本申请中，提供了关键词组合生成模型训练方法及装置、关键词组合生成方法及装置、计算设备和计算机可读存储介质，在下面的实施例中逐一进行详细说明。

图1示出了根据本申请一实施例提供的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接，数据库150用于保存数据。

计算设备100还包括接入设备140，接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本申请的一个实施例中，计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图1所示的计算设备结构框图仅仅是出于示例的目的，而不是对本申请范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备100可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。

其中，处理器120可以执行下述关键词组合生成模型训练方法或关键词组合生成方法中的步骤。图2示出了根据本申请一实施例提供的关键词组合生成模型训练方法的流程图，包括步骤202至步骤210。

步骤202：获取样本问题和所述样本问题对应的样本答案。

在产品处于没有用户数据的研发阶段，没有用户的点击行为和用户数据，为了避免人的先验知识和检索数据库中的TF-IDF(词频-逆文档频率)带来的差异，本申请提供了一种关键词组合生成模型训练方法，通过本申请提供的关键词组合生成模型训练方法得到训练完成的关键词组合生成模型，有效避免某些垂直领域搭建的数据库中关键词组合与人的先验知识不匹配的问题。

本申请实施例提供的关键词组合生成模型训练方法，根据提出的样本问题和反馈的文档构成训练样本，根据提出的样本问题和反馈的文档计算所述样本问题的样本关键词组合。在关键词组合生成模型的训练过程中，所述样本问题即为样本数据，样本答案即为可以回答所述样本问题的正确答案。

本申请中，样本问题和样本答案可以属于任意一种领域，例如样本问题为“细胞分裂的类型有哪些”，样本答案为“丝分裂和无丝分裂”，此时样本问题和样本答案属于生物学领域，也即此时训练的关键词组合生成模型是针对生物学领域的关键词组合生成模型，可以采用生物学领域的样本问题和样本答案对关键词组合生成模型进行训练；又如样本问题为“重力加速度的影响因素是什么”，样本答案为“纬度”，此时样本问题和样本答案属于物理学领域，也即此时训练的关键词组合生成模型是针对物理学领域的关键词组合生成模型，可以采用物理学领域的样本问题和样本答案对关键词组合生成模型进行训练。也即，在训练关键词组合生成模型时，需要确定关键词组合生成模型所属的领域，然后采用该领域范围内的样本问题和样本答案对关键词组合生成模型进行训练。此外，对于百科类的关键词组合生成模型，也即可以适用于不同领域的关键词组合生成模型，需要从各个领域获取样本问题和样本答案，从多个领域、多维度地对关键词组合生成模型进行训练。

需要说明的是，在实际应用中，若为关键词组合生成模型提供一个待回答的问题，所述待回答的问题即可作为样本问题，同时获取与所述样本问题对应的正确答案，与所述样本问题对应的正确答案即为样本答案。所述样本答案通常会在多个文章中或某一篇文章中的多个段落中出现，或者说，对同一个样本问题而言，在实际的检索过程中会存在多个能够回答所述样本问题的文章或段落。

在本申请提供的一个具体实施例中，获取的样本问题为“1994年是鸡年还是狗年”，与所述样本问题对应的样本答案为“1994年是狗年”。

在冷启动阶段获取样本问题和与所述样本问题对应的样本答案，保证了能够根据所述样本答案准确地获取符合样本问题的文章，进而保证了所述关键词组合生成模型在训练的过程中能够准确地得到所述样本问题中的关键词组合。

步骤204：提取所述样本问题的至少一个初始关键词组合，确定每个初始关键词组合对应的关联文档集合。

在获取到样本问题和所述样本问题对应的样本答案的基础上，进一步地，对所述样本问题进行初始关键词组合提取，并确定每个初始关键词组合所对应的关联文档集合。

具体的，所述初始关键词组合是指样本问题中的关键词进行组合后得到的词组，所述初始关键词组合中可以包含一个关键词，也可以包含多个关键词，即所述初始关键词组合中至少包含一个关键词；所述关联文档集合是指通过对初始关键词组合进行搜索得到的召回文档组成的集合，其中，召回文档是指根据初始关键词组合进行搜索得到的全部文档，即将初始关键组合输入搜索引擎进行检索，搜索引擎从索引数据库中找到匹配该初始关键词组合的全部文档；每一个初始关键词组合对应一个关联文档集合，也即初始关键词组合与关联文档集合一一对应。

实际应用中，由于所述样本问题中包括一个或多个关键词，因而提取所述样本问题的至少一个关键词；根据所述至少一个关键词确定至少一个初始关键词组合。即将所述样本问题中的关键词进行提取后，得到所述样本问题中的至少一个关键词，再将所述至少一个关键词进行组合得到所述样本问题的至少一个初始关键词组；在此基础上，分别根据每个初始关键词组合在已有的数据库中进行搜索，进而获得每个初始关键词组合所对应的关联文档集合，其中已有的数据库是指搜索引擎对应的索引数据库。

例如，样本问题为“中国国土面积有多大？”中包括关键词“中国”、“国土面积”、“有多大”。在提取到关键词后，将得到的关键词进行组合即可得到至少一个初始关键词组合，将关键词单独、两两组合、三三组合后可以得到7个初始关键词组合：“中国”、“国土面积”、“有多大”、“中国、国土面积”、“中国、有多大”、“国土面积、有多大”和“中国、国土面积、有多大”。进一步地，分别根据这个7个初始关键词组合进行搜索，将根据“中国”搜索召回的文档作为“中国”这一初始关键词组合的关联文档集合，将“国土面积”搜索召回的文档作为“国土面积”这一初始关键词组合的关联文档集合，以此类推。

通过获取样本问题中的关键词进而生成初始关键词组合，从而根据初始关键词组合搜索并确定关联文档集合，极大地保证了可以准确地获取包含初始关键词组合的关联文档，进一步提高了后续获取样本问题对应的样本关键词的准确度。

为了提高关键词的提取速度，以及提高获取关键词的准确度，在提取所述样本问题的至少一个关键词时，可以采用分词处理，即对所述样本问题进行分词处理，得到所述样本问题的至少一个关键词。

具体的，所述分词处理将样本问题中的字符串匹配的分词过程，可以是正向最大匹配法，也可以是反向最大匹配法，还可以是最短路径分词法或双向最大匹配法四种方法。其中，正向最大匹配法是指对于输入的样本问题从左至右(从第一个字单元至最后一个字单元)、以贪心的方式切分出当前位置上长度最大的词；反向最大匹配法是指对于输入的样本问题从右至左(从最后一个字单元至第一个字单元)、以贪心的方式切分出当前位置上长度最大的词；最短路径分词法是指将样本问题中的字元视为节点，先找出样本问题中存在的所有词语，一个词语的两端，即词尾字元和词之前一个字之间视为具有连接，找出从样本问题头到尾字元中间的最短路径，实现分词；双向最大匹配法是指将正向最大匹配法得到的分词结果和反向最大匹配法的到的结果进行比较，从而决定确定分词结果的方法。

可选地，在对所述样本问题进行分词处理时，为了提高分词处理速度，进行提高训练效率，可以采用正向最大匹配法对样本问题进行分词处理，也即对所述样本问题进行分词处理，得到所述样本问题的至少一个关键词，具体实现过程可以如下：

获取预设分词库并确定所述预设分词库中最长分词所包含字单元的数量N，N为正整数；

将所述样本问题的第(i+1)至第(N+i)个字单元确定为匹配分词，根据所述匹配分词在所述预设分词库中进行分词匹配，i＝0；

若匹配成功，则所述匹配分词确定为关键词；

若匹配失败，将删除所述匹配分词的最后一个字单元，返回执行所述根据所述匹配分词在所述预设分词库中进行分词匹配的步骤；

在确定出关键词或所述匹配分词中不存在字单元的情况下，i自增1，返回执行所述将所述样本问题的第(i+1)至第(N+i)个字单元确定为匹配分词的步骤，以此类推，直至所述样本问题分词完成。

具体的，预设分词库是指预先设置的包含有多个词语的集合。

例如，样本问题为“天上有什么”，预设分词库为{天，天上，有，什么}，则最长分词为“天上”或“什么”，即N为2。选取样本问题的第1至第2个字单元“天上”，将“天上”与预设分词库进行匹配，匹配成功，则将“天上”作为关键词；此时确定出关键词，选取样本问题的第2至第3个字单元“上有”，将“上有”与预设分词库进行匹配，匹配失败，删除“上有”中的“有”，得到“上”，将“上”与预设分词库进行匹配，匹配失败，删除“上”中的“上”，此时匹配分词中不存在字单元，则选取样本问题的第3至第4个字单元“有什”；将“有什”与预设分词库进行匹配，匹配失败，删除“有什”中的“什”，得到“有”，将“有”与预设分词库进行匹配，匹配成功，则将“有”作为关键词；此时确定出关键词，选取样本问题的第4至第5个字单元“什么”，将“什么”与预设分词库进行匹配，匹配成功，则将“什么”作为关键词，此时样本问题分词完成，得到了三个关键词“天上”、“有”和“什么”。

可选地，在对所述样本问题进行分词处理时，为了提高分词处理速度，进行提高训练效率，还可以采用反向最大匹配法对样本问题进行分词处理，也即对所述样本问题进行分词处理，得到所述样本问题的至少一个关键词，具体实现过程可以如下：

获取预设分词库并确定所述预设分词库中最长分词所包含字单元的数量M，M为正整数；

将所述样本问题的倒数第(M+j)至倒数第(j+1)个字单元确定为匹配分词，根据所述匹配分词在所述预设分词库中进行分词匹配，j＝0；

若匹配成功，则所述匹配分词确定为关键词；

若匹配失败，将删除所述匹配分词的第一个字单元，返回执行所述根据所述匹配分词在所述预设分词库中进行分词匹配的步骤；

在确定出关键词或所述匹配分词中不存在字单元的情况下，j自增1，返回执行所述将所述样本问题的倒数第(M+j)至倒数第(j+1)个字单元确定为匹配分词的步骤，直至所述样本问题分词完成。

例如，样本问题为“生命是什么”，预设分词库为{生命，生，命，有，什么}，则最长分词为“生命”或“什么”，即N为2。选取样本问题的倒数第2至倒数第1个字单元“什么”，将“什么”与预设分词库进行匹配，匹配成功，则将“什么”作为关键词；此时确定出关键词，选取样本问题的倒数第3至倒数第2个字单元“是什”，将“是什”与预设分词库进行匹配，匹配失败，删除“是什”中的“是”，得到“什”，将“什”与预设分词库进行匹配，匹配失败，删除“什”中的“什”，此时匹配分词中不存在字单元，则选取样本问题的倒数第4至倒数3个字单元“命是”；将“命是”与预设分词库进行匹配，匹配失败，删除“命是”中的“命”，得到“是”，将“是”与预设分词库进行匹配，匹配成功，则将“是”作为关键词；此时确定出关键词，选取样本问题的倒数第5至到倒数第4个字单元“生命”，将“生命”与预设分词库进行匹配，匹配成功，则将“生命”作为关键词，此时样本问题分词完成，得到了三个关键词“什么”、“是”和“生命”。

可选地，在对所述样本问题进行分词处理时，为了提高分词处理速度，同时提高分词的准确度，可以采用双向最大匹配法对样本问题进行分词处理，也即对所述样本问题进行分词处理，得到所述样本问题的至少一个关键词，具体实现过程可以如下：

根据正向最大匹配法对所述样本问题进行分词处理，得到所述样本问题的至少一个正向关键词；

根据反向最大匹配法对所述样本问题进行分词处理，得到所述样本问题的至少一个反向关键词；

比较所述至少一个正向关键词的数量与所述至少一个反向关键词的数量；

在所述至少一个正向关键词的数量小于所述至少一个反向关键词的数量的情况下，将所述至少一个正向关键词确定为至少一个关键词；

在所述至少一个反向关键词的数量小于所述至少一个反向关键词的数量的情况下，将所述至少一个反向关键词确定为至少一个关键词；

在所述至少一个正向关键词的数量等于所述至少一个反向关键词的数量的情况下，将所述至少一个正向关键词或所述至少一个反向关键词确定为至少一个关键词。

具体的，正向关键词是指通过正向最大匹配法得到的关键词；反向关键词是指通过反向最大匹配法得到的关键词。

例如，分别通过正向最大匹配法和反向最大匹配法对样本问题“开心快乐每一天”进行分词处理：若得到的正向关键词有“开心快乐”、“每一天”，得到的反向关键词有“开心”、“快乐”、“每一天”，则将正向关键词“开心快乐”、“每一天”确定为最终的关键词；若得到的正向关键词有“开心”、“快乐”、“每一天”，得到的反向关键词有“开心”、“快乐”、“每一天”，则将正向关键词“开心”、“快乐”、“每一天”或反向关键词“开心”、“快乐”、“每一天”确定为最终的关键词。

此外，为了进一步提高分词的准确率，所述比较所述至少一个正向关键词的数量与所述至少一个反向关键词的数量之后，还包括：

在所述至少一个正向关键词的数量等于所述至少一个反向关键词的数量的情况下，确定所述至少一个正向关键词中由单个字单元组成的正向关键词的第一数量，以及或所述至少一个反向关键词中由单个字单元组成的反向关键词的第二数量；

若所述第一数量小于所述第二数量，将所述至少一个正向关键词确定为至少一个关键词；

若所述第一数量大于等于所述第二数量，将所述至少一个反向关键词确定为至少一个关键词。

例如，通过正向最大匹配法对样本问题“研究生命的起源”进行分词处理，得到的正向关键词有“研究生”、“命”、“的”、“起源”，可见第一数量为2；通过反向最大匹配法对样本问题“研究生命的起源”进行分词处理，得到的反向关键词有“研究”、“生命”、“的”、“起源”，可见第二数量为1。由于2大于1，则将反向关键词“研究”、“生命”、“的”、“起源”确定为最终的关键词。

实际应用中，在获取到样本问题后，对样本问题进行分词处理，进而获得关键词，例如，将样本问题“常见的圆柱体有哪些？”进行分词处理，将得到三个关键词：“常见的”、“圆柱体”和“有哪些”。

由于对样本问题进行分词处理后得到的关键词中，有很多无实际意义的关键词，这些无实际意义的关键词不仅需要占据存储空间，而且对关键词进行处理还会占用一部分数据处理耗能。因此，可以在根据关键词生成初始关键词组合之前，将这些无实际意义的关键词进行删除、过滤，具体实现过程可以如下：

对所述样本问题进行分词处理，得到初始关键词集合；

过滤所述初始关键词集合中的停用词，得到所述样本问题的至少一个关键词。

具体的，所述停用词是指在信息检索中，为了节省存储空间和提高搜索效率，在处理自然语言文本之前或之后会自动过滤掉某些字或词，这些字或词即被称为停用词。这些停用词一般通过人工输入以及非自动化生成的，生成后的停用词会形成一个停用词表。

实际应用中，通过对样本问题进行分词处理，将得到的所有的关键词视作一个整体，即初始关键词集合，再将初始关键词集合中无实际意义的关键词，即停用词进行删除、过滤，初始关键词集合中剩余的关键词，即样本问题所对应的关键词。

例如，对样本问题“2021年全国参加高考的人数有多少？”进行分词处理后，得到初始关键词集合{“2021年”，“全国”，“参加”，“高考”，“的”，“人数”，“有多少”}，其中，停用词包括“的”和“有多少”，对该初始关键词集合中的进行停用词进行过滤，则初始关键词集合中剩余的关键词为所述样本的关键词，即“2021年全国参加高考的人数有多少？”的关键词包括“2021年”、“全国”、“参加”、“高考”和“人数”。

通过对所述初始关键词集合进行去停用词处理，去除了初始关键词组合中的冗余数据，节省了计算资源，进一步提高了由样本问题中提取到的关键词的准确性，也保证了确定样本关键词组合的准确性，提高了后续根据关键词组合进行检索的检索效率。

根据初始关键词组合进行搜索时，可能会搜索到成百上千的关联文档，如果对这些关联文档全部进行处理，会极大地增加数据处理量，降低处理速度；此外，一般情况下，对于一个初始关键词组合进行检索得到的关联文档，关联文档的排名或者排序越靠后，该关联文档与初始关键词组合的相关度越低。因此，可以对检索到的关联文档进行筛选，从而得到关键文档集合，具体实现过程可以如下：

搜索所述每个初始关键词组合对应的初始关联文档；

对所述每个初始关键词组合对应的初始关联文档进行筛选，生成每个初始关键词组合对应的关联文档集合。

具体的，所述初始关联文档是指根据某个初始关键词组合进行搜索所获得的文档；所述关联文档集合是所有的初始关联文档进行筛选后剩余的初始关联文档促成的集合。

实际应用中，对初始关键词组合进行搜索时，可能会搜索到成百上千的初始关联文档，如果对这些初始关联文档全部进行处理，会极大地增加数据处理量，降低处理速度。为了节省计算资源，提高数据处理速度，在获得了初始关联文档之后，需要对获得的初始关联文档进行筛选，可以设置一个筛选条件，例如选取排名前40的初始关联文档，即选择初始关联文档中的排序前40的初始关联文档组合成为关联文档集合。

例如，初始关键词组合为“英语、作文”，根据“英语、作文”进行搜索，获得1000个初始关联文档，此时筛选条件为选取排名前50的初始关联文档，则将1000个初始关联文档中排名前50的初始关联文档作为“英语、作文”的关联文档集合。

需要说明的是，在根据初始关键词组合搜索的初始关联文档时，初始关联文档的展示顺序即初始关联文档的排序。例如，根据“花卉、养殖”进行检索，排在对上面的初始关联文档的排序为第一。

通过获取样本问题中的初始关键词组合，并根据所述初始关键词组合进行搜索，进而获得关联文档集合，进一步保证了可以准确地获取样本关键词组合，有效避免某些垂直领域搭建的数据库中关键词组合与人的先验知识不匹配的问题。

步骤206：根据所述样本答案和每个关联文档集合确定种子关键词组合。

在提取了样本问题的初始关键词组合，并确定每个初始关键词组合对应的关联文档集合之后，需要将样本答案和每个文档集合进行匹配，从而确定初始关键词组合中的种子关键词组合。

具体的，所述种子关键词组合是指初始关键词组合中可以成为样本关键词组合的备选的关键词组合。

实际应用中，为了保证最终确定的样本关键词组合与样本问题的关联性，需要根据样本答案与各个初始关键词组合的关联文档集合进行匹配，将能够匹配成功的关联文档集合对应的初始关键词组合作为备选的样本关键词组合，也即确定至少一个种子关键词组合。其中，所述种子关键词组合的关联文档集合中包含有与所述样本答案相匹配的关联文档。

例如，有三个初始关键词组合：KC1，KC2和KC3。其中，KC1对应的关联文档集合为C1；KC2对应的关联文档集合为C2；KC3对应的关联文档集合包为C3。其中关联文档集合C2和关联文档集合C3均与样本答案相匹配，则将关联文档集合C2对应的初始关键词组合KC2、以及关联文档集合C3对应的初始关键词组合KC3确定为种子关键词组合。

通过样本答案和关联文档集合确定种子关键词组合，进一步缩小了关键词组合的范围，为后续可以更加准确地确定样本答案对应的样本关键词组合做好了准备，保证提高了确定样本关键词组合的准确性。

在根据所述样本答案和每个关联文档集合确定种子关键词组合时，可以通过样本答案与关联文档集合进行匹配，先确定样本关联文档集合，再确定种子关键词组合，如此可以提高种子关键词组合的准确性和提高确定种子关键词的效率，具体实现过程可以如下：

根据所述样本答案和每个关联文档集合确定样本关联文档集合；

将所述样本关联文档集合对应的初始关键词组合确定为种子关键词组合。

具体的，所述样本关联文档集合是指关联文档集合中与所述样本答案相匹配的样本关联文档集合。

实际应用中，需要将样本答案分别和每个关联文档集合进行匹配，将与样本答案匹配成功的至少一个关联文档集合标注为样本关联文档集合，即确定至少一个样本关联文档集合，在此基础上，将样本关联文档集合对应的初始关键词组合确定为种子关键词组合。

例如，有三个初始关键词组合：A、B和C。其中，初始关键词组合A对应的关联文档集合为a；初始关键词组合B对应的关联文档集合为b；初始关键词组合C对应的关联文档集合为c。将关联文档集合a、b、c分别与样本答案进行匹配，其中关联文档集合a与样本答案匹配成功，将关联文档集合a确定为样本关联文档集合，将关联文档集合a对应的初始关键词组合A确定为种子关键词组合。

在根据所述样本答案和每个关联文档集合确定样本关联文档集合时，可以将样本答案与每个关联文档集合中的每个关联文档进行匹配，从而确定样本关联文档集合，具体实现过程如下：

将所述样本答案与每个关联文档集合中的关联文档进行匹配；

确定与所述样本答案匹配的关联文档为样本关联文档，将所述样本关联文档对应的关联文档集合确定为样本关联文档集合。

具体的，所述匹配可以是精准匹配，也可以是模糊匹配，还可以是其他匹配，本申请对此不做限定；所述关联文档为组成关联文档集合的文档；所述样本关联文档是指与样本答案匹配程度较高的关联文档。

实际应用中，可以将样本答案与各个关联文档集合中的每个关联文档进行匹配，当样本答案与关联文档的匹配程度高于一定值时，将该关联文档确定为样本关联文档，例如设置匹配阈值为75，当样本答案与某个关联文档的匹配程度为80时，将该关联文档确定样本关联文档。确定了样本关联文档之后，将样本关联文档对应的关联文档集合确定为样本关联文档集合。

例如，有三个关联文档集合：T1，T2和T3，匹配阈值为80。其中，关联文档集合T1包括五个关联文档：t1、t2、t3、t4和t5；T2关联文档集合包括五个关联文档：t6、t7、t8、t9和t10；T3关联文档集合包括五个关联文档：t11、t12、t13、t14和t15。其中关联文档t8和关联文档t12与样本答案的匹配程度均大于80，则将关联文档t8和关联文档t12确定为样本关联文档，将关联文档t8对应的关联文档集合T2、以及关联文档t12对应的关联文档集合T3确定为样本关联文档集合。

通过样本答案和关联文档集合确定样本关联文档集合，进而确定种子关键词组合，保证了在确定样本问题对应的样本关键词组合的准确性。

步骤208：根据所述种子关键词组合确定所述样本问题的样本关键词组合。

在根据样本答案和每个关联文档集合确定了种子关键词组合之后，进一步地确定至少一个种子关键词组合中的样本关键词组合。

具体的，所述样本关键词组合是指最终确定的样本问题的关键词组合，每个样本问题对应一个样本关键词组合。

实际应用中，按照一定条件从至少一个种子关键词组合中选出一个种子关键词组合作为样本关键词组合，可以根据种子关键词组合所述包含的关键词数量选取样本关键词组合，还可以根据种子关键词组合对应的关联文档集合与样本答案的匹配程度选取样本关键词组合，确定样本关键词组合的方式有多种，本申请对此不做限定。

为了提高确定样本关键词组合的速度，可以将所述种子关键词组合中包含关键词最多的种子关键词组合确定为样本关键词组合。例如有三个种子关键词组合，第一个种子关键词组合中包含3个关键词、第二个种子关键词组合中包含5个关键词、第三个种子关键词组合中包含2个关键词，则将第二个种子关键词组合确定为样本关键词组合。

需要说明的是，当多个种子关键词组合所包含的关键词数量一样且最高，可以比较这些种子关键词组合对应的关联文档集合包含关联文档的数量，选择包含关联文档数量最多的关联文档集合对应的种子关键词组合为样本关键词组合。若此时仍有多个种子关键词组合的关联文档集合包含关联文档的数量一样且最高，可以这几个种子关键词组合中随机选择一个作为样本关键词组合。

为了提高确定样本关键词组合的可信度，在根据所述种子关键词组合确定所述样本问题的样本关键词组合时，还可以通过以下过程来实现：

获取每个种子关键词组合对应的关联文档集合中与所述样本答案相匹配的样本关联文档；

获取每个种子关键词组合对应的关联文档集合中所述样本关联文档的排名；

根据所述样本关联文档的排名确定所述种子关键词组合中所述样本问题的样本关键词组合。

实际应用中，先分别获取每个种子关键词组合对应的关联文档集合中与样本答案相匹配的样本关联文档，进一步确定样本关联文档在对应的关联文档集合的排名，也即序号，例如样本关联文档m是对应的关联文档集合M中的第三个关联文档，则该样本关联文档m的排名为第3。在确定了每个样本关联文档的排名后，根据每个样本关联文档的排名从至少一个种子关键词组合中选出一个作为所述样本问题的样本关键词组合。

优选地，为了提高确定样本关键词组合的效率，根据所述样本关联文档的排名确定所述种子关键词组合中所述样本问题的样本关键词组合时，将所述排名在预设排名范围内的所述样本关联文档对应的种子关键词组合确定为所述样本问题的样本关键词组合；和/或将所述排名最高的所述样本关联文档对应的种子关键词组合确定为所述样本问题的样本关键词组合。

具体的，在确定了每个样本关联文档的排名后，预先设置一个排名范围，将排名在排名范围内的样本关联文档对应的种子关键词组合确定为所述样本问题的样本关键词组合；当排名在排名范围内的样本关联文档有多个时，比较每个样本关联文档的排名，将其中排名最高的样本关联文档对应的种子关键词组合确定为所述样本问题的样本关键词组合。或者，可以直接比较每个样本关联文档的排名，将其中排名最高的样本关联文档对应的种子关键词组合确定为所述样本问题的样本关键词组合。

例如，有五个种子关键词组合：第一种子关键词组合对应的关联文档集合中样本关联文档的排名为第5；第二种子关键词组合对应的关联文档集合中样本关联文档的排名为第3；第三种子关键词组合对应的关联文档集合中样本关联文档的排名为第6；第四种子关键词组合对应的关联文档集合中样本关联文档的排名为第10；第五种子关键词组合对应的关联文档集合中样本关联文档的排名为第2。当排名范围为前4时，符合条件的有第二种子关键词组合和第五种子关键词组合，由于第2高于第3，将第五种子关键词组合确定为样本关键词组合。或者，直接比较每个样本关联文档的排名，由于在排名中2＞3＞5＞6＞10，将第五种子关键词组合确定为样本关键词组合。

需要说明的是，当多个种子关键词组合对应的关联文档的排名一样且最高，可以比较这些种子关键词组合对应的关联文档集合包含关联文档的数量，选择包含关联文档数量最多的关联文档集合对应的种子关键词组合为样本关键词组合。若此时仍有多个种子关键词组合的关联文档集合包含关联文档的数量一样且最高，选择包含关键词最少的种子关键词组合为样本关键词组合。如仍有多个种子关键词组合包含关键词的数量一样且最少，可以这几个种子关键词组合中随机选择一个作为样本关键词组合。

参见表1，首先，样本关联文档的排名最高且为第2的有种子关键词组合1、种子关键词组合2、种子关键词组合4和种子关键词组合5；此时，比较种子关键词组合1、种子关键词组合2、种子关键词组合4和种子关键词组合5对应的关联文档集合中的关联文档的数量，此时种子关键词组合1、种子关键词组合4和种子关键词组合5符合条件；进一步根据关键词的数量进行筛选，种子关键词组合1和种子关键词组合5所包含的关键词数量最少且一样多，此时，可以从种子关键词组合1和种子关键词组合5随机选择一个种子关键词组合作为样本关键词组合，也即可以选择种子关键词组合1作为样本关键词组合，也可以选择种子关键词组合5作为样本关键词组合。

表1种子关键词组合的参数

通过对至少一个种子关键词组合进行分析，进而从所述至少一个种子关键词中确定出所述样本问题的样本关键词组合，确保了所述关键词组合生成模型可以准确地得到样本问题对应的样本关键词组合，提升了所述关键词组合生成模型的准确性。

步骤210：根据所述样本问题和所述样本关键词组合训练关键词组合生成模型，直至达到训练停止条件。

在获取到样本问题对应的样本关键词组合的情况下，进一步地，将样本问题作为样本数据，将样本问题对应的样本关键词组合作为样本标签对所述关键词组合生成模型进行训练，直至达到训练停止条件，停止对关键词组合生成模型的训练。其中，所述训练停止条件，可以为损失值小于预设的目标值，即当损失值小于目标值时，停止训练所述关键词组合生成模型；还可以为损失值停止下降，即当损失值停止下降时，停止训练所述关键词组合生成模型；也可以为迭代次数达到目标迭代次数，即当关键词组合生成模型的迭代次数达到目标迭代次数时，停止训练所述关键词组合生成模型。

例如，样本问题为“我国的少数民族有哪些”，对应的样本关键词组合为“我国、少数民族”，将“我国的少数民族有哪些”作为样本数据，将“我国、少数民族”作为样本标签对关键词组合生成模型进行训练，当关键词组合生成模型的迭代次数达到目标迭代次数时，停止训练所述关键词组合生成模型。

在本实施例一个可选的实施方案中，所述根据所述样本问题和所述样本关键词组合训练关键词组合生成模型的具体实现过程如下：

将所述样本问题输入关键词组合生成模型；

所述关键词组合生成模型响应于所述样本问题作为输入而生成预测关键词组合；

根据所述预测关键词组合与所述样本关键词组合计算损失值；

根据所述损失值调整所述关键词组合生成模型的参数。

具体的，所述预测关键词组合为关键词组合生成模型根据样本问题生成的关键词组合。计算损失值的损失函数有很多，如交叉熵损失函数、L1范数损失函数、最大损失函数、均方误差损失函数、对数损失函数等，在本申请中，不对计算损失值的损失函数的选择做限定。

在实际应用中，获取样本问题和所述样本问题对应的样本关键词组合后，将所述样本问题输入至所述关键词组合生成模型。所述关键词组合生成模型在接收到所述样本问题后，对所述样本问题进行分析，生成与所述样本问题对应的预测关键词组合。在此基础上，通过损失函数计算预测关键词组合与样本关键词组合的损失值，进一步地，根据所述损失值调整关键词组合生成模型的参数，继续训练。

沿用上例，将样本问题“我国的少数民族有哪些”输入至关键词组合生成模型后，关键词组合生成模型生成预测关键词组合“我国、的、少数民族”，通过损失函数计算预测关键词组合“我国、的、少数民族”与样本关键词组合“我国、少数民族”的损失值，并基于损失值调整所述关键词组合生成模型中的模型参数。

优选地，在计算预测关键词组合与样本关键词组合之间的损失值时，可以采用L1范数损失函数，也即所述根据所述预测关键词组合与所述样本关键词组合计算损失值，包括：

对所述样本关键词组合进行特征提取，得到第一特征向量；

对所述预测关键词组合进行特征提取，得到第二特征向量；

确定所述第二特征向量与所述第一特征向量之差的绝对值；

根据所述绝对值和预设样本关键词组合的权重，计算所述损失值。

具体的，预设样本关键词组合的权重是指在L1范数损失函数中，预先设置的针对样本关键词组合设置的权重。

实际应用中，可以将样本关键词组合和预测关键词组合进行转换，得到第一特征向量和第二特征向量，然后将第一特征向量和第二特征向量输入至如式1所示的公式中，先确定第一特征向量与第二特征向量之差的绝对值，然后将绝对值与预设样本关键词组合的权重相乘，得到损失值。

L(X,Y)＝W(θ)|Y-X| (式1)

式1中，X表示第一特征向量，Y表示第二特征向量，W(θ)表示预设样本关键词组合的权重，L(X,Y)表示损失值。

通过L1范数损失函数对预测关键词组合对应的第二特征向量和样本关键词组合对应的第一特征向量求差并取绝对值，对偏离预设样本关键词组合的输出，也即预测关键词组合不敏感，因此在对关键词组合生成模型进行训练的过程中存在损失值时有利于保持关键词组合生成模型的稳定性。此外，通过L1范数损失函数计算损失值，简单快捷，有利于提高计算损失值的速度，进一步提高关键词组合生成模型的训练速度。

可选地，在计算预测关键词组合与样本关键词组合之间的损失值时，还可以采用均方误差损失函数，也即所述根据所述预测关键词组合与所述样本关键词组合计算损失值，包括：

对所述样本关键词组合进行特征提取，得到第一特征向量；

对所述预测关键词组合进行特征提取，得到第二特征向量；

确定所述第二特征向量与所述第一特征向量的距离的平方，得到距离平方值；

计算所述距离平方值的数学期望，得到所述损失值。

具体的，距离平方值是指将第一特征向量与第二特征向量的距离求二次方得到的值；数学期望，也即均值，是指多个距离平方值的均值。

实际应用中，可以将样本关键词组合和预测关键词组合进行转换，得到第一特征向量和第二特征向量，然后将第一特征向量和第二特征向量输入至如式2所示的公式中，先确定第一特征向量与第二特征向量的距离，然后求解距离的二次方，得到距离平方值，然后将求取距离平方值的均值或数学期望，得到损失值。

式1中，X表示第一特征向量，Y表示第二特征向量，E(Y-X)²表示距离平方值的均值或数学期望，MSE(X,Y)表示损失值；n表示第二特征向量或第一特征向量或样本关键词组合的数量；x_i表示第i个第一特征向量；y_i表示第i个第二特征向量。

通过均方误差损失函数，对预测关键词组合对应的第二特征向量和样本关键词组合对应的第一特征向量的距离求二次方，得到距离平方值，进而确定距离平方值的数学期望，从而得到损失值，随着不断地训练，使损失值快速收敛到最小值，有利于提高训练关键词组合生成模型的效率。

图3示出了本申请一实施例提供的关键词组合生成方法，该关键词组合生成方法包括步骤302至步骤306。

步骤302：获取待处理问题。

具体的，所述待处理问题为需要确定关键词组合的问题，也即用户提出的问题，可以是用户手动输入的问题，可以是用户通过语音功能输入的问题，本申请对此不做限定。

在实际应用中，在所述关键词组合生成模型训练完成后，即可接收用户提出的问题，并将所述用户提出的问题作为待处理问题。例如，用户提出问题“2021年3月份上映的电影有哪些？”，则将用户提出的问题“2021年3月份上映的电影有哪些？”作为待处理问题。

本申请中，通过获取待处理问题，确保所述关键词组合生成模型可以接收有效的输入内容，避免了因输入内容无效导致的错误，提升了用户体验。

步骤304：将所述待处理问题输入至预先训练好的关键词组合生成模型，其中，所述关键词组合生成模型是通过上述关键词组合生成模型训练方法训练得到的。

在获取到待处理问题的基础上，进一步地，可以将该待处理问题输入到预先训练好的关键词组合生成模型，以便于基于该待处理问题生成关键词组合。

沿用上例，将用户提出的问题“2021年3月份上映的电影有哪些？”输入至预先训练好的关键词组合生成模型中，也即将待处理问题输入至预先训练好的关键词组合生成模型中。

需要说明的是，所述关键词组合生成模型是预先训练好的，也即通过上述关键词组合生成模型训练方法训练得到的模型。

步骤306：所述关键词组合生成模型响应于所述待处理问题作为输入而生成关键词组合。

在将待处理问题输入到预先训练好的关键词组合生成模型后，进一步地，该关键词组合生成模型将生成与该待处理问题对应的关键词组合。

实际应用中，所述关键词组合生成模型获取到输入的待处理问题后，最终生成与该待处理问题对应的关键词组合。沿用上例，将待处理问题“2021年3月份上映的电影有哪些？”输入至训练好的关键词组合生成模型后，关键词组合生成模型将生成“2021年3月份上映的电影有哪些？”对应的关键词组合：{“2021年3月份”，“上映”，“电影”}。

本申请提供的关键词组合生成方法，通过将待处理的问题输入至预先训练好的关键词组合生成模型，进而确定得到待处理问题的关键词组合，保证了可以快速、准确的获取待处理问题的关键词组合，确保了可以避免通过人工标注待回处理问题中关键词组合导致的所述关键词组合不准确的问题，有效避免某些垂直领域搭建的数据库中关键词组合与人的先验知识不匹配的问题。

如图4所示，图4示出了本申请一实施例提供的应用于一个具体应用场景中的流程图，其中包括步骤402至步骤420。

步骤402：获取样本问题和所述样本问题对应的样本答案。

在冷启动阶段，为了训练关键词组合生成模型，需要设置样本问题和对应的样本答案，在本实施例中以“2015年全国净新增人口有多少？”为样本问题、以“2015年全国净新增人口有710万”为样本答案进行具体说明。在实际应用中，为了训练所述关键词组合生成模型，需要获取多个样本问题和对应的样本答案，在本实施例中以其中一个样本问题和对应的样本答案进行举例说明。

步骤404：对样本问题进行分词处理以及过滤停用词处理，得到样本问题对应的至少一个关键词。

将样本问题“2015年全国净新增人口有多少？”进行分词处理后得到“2015年”、“全国”、“净新增人口”和“有多少”四个关键词，然后过滤这四个关键词中的停用词，得到最终的三个关键词“2015年”、“全国”和“净新增人口”。

步骤406：根据所述至少一个关键词确定至少一个初始关键词组合。

将得到三个关键词“2015年”、“全国”和“净新增人口”进行组合，将得到6个初始关键词组合，分别为初始关键词组合P1“2015年”、初始关键词组合P2“全国”、初始关键词组合P3“净新增人口”、初始关键词组合P4“2015年全国”、初始关键词组合P5“2015年净新增人口”和初始关键词组合P6“2015年全国净新增人口”。

步骤408：确定每个初始关键词组合对应的关联文档集合。

根据初始关键词组合P1“2015年”进行搜索，确定初始关键词组合P1对应的关联文档集合Q1；根据初始关键词组合P2“全国”确定初始关键词组合P2对应的关联文档集合Q2；根据初始关键词组合P3“净新增人口”确定初始关键词组合P3对应的关联文档集合Q3；根据初始关键词组合P4“2015年、全国”确定初始关键词组合P4对应的关联文档集合Q4；根据初始关键词组合P5“2015年、净新增人口”确定初始关键词组合P5对应的关联文档集合Q5；根据初始关键词组合P6“2015年、全国、净新增人口”确定初始关键词组合P6对应的关联文档集合Q6。

步骤410：根据所述样本答案和每个关联文档集合确定种子关键词组合。

将样本答案“2015年全国净新增人口有710万”分别与关联文档集合Q1-Q6进行匹配，确定与样本答案匹配的关联文档集合有Q4、Q5和Q6，将关联文档集合Q4、Q5和Q6对应的初始关键词组合P4、P5和P6确定为种子关键词组合。

步骤412：根据所述种子关键词组合确定所述样本问题的样本关键词组合。

进一步地，种子关键词组合P4、P5和P6包含关键词的数量分为2个、2个和3个，将种子关键词组合P6“2015年、全国、净新增人口”确定为样本问题的样本关键词。

或者，种子关键词组合P4、P5和P6对应的关联文档集合中样本关联文档的排名分别为第2、第4、第1，将种子关键词组合P6“2015年、全国、净新增人口”确定为样本问题的样本关键词。

步骤414：将所述样本问题和所述样本关键词作为训练样本输入至关键词组合生成模型并对所述关键词组合生成模型进行训练，直至达到训练停止条件，得到训练完成的关键词组合生成模型。

根据多个样本问题和样本问题对应的样本关键词组合对关键词组合生成模型进行训练，直至关键词组合生成模型的损失值小于预设阈值，至此，得到训练完成的关键词组合生成模型。

步骤416：获取待处理问题。

用户输入问题“吸烟对身体有哪些危害？”进行查询，此时获取的待处理问题即为“吸烟对身体有哪些危害？”。

步骤418：将所述待处理问题输入至训练完成的关键词组合生成模型。

将获取待处理问题“吸烟对身体有哪些危害？”输入至训练完成的关键词组合生成模型。

步骤420：关键词组合生成模型输出关键词组合。

关键词组合生成模型响应于所述待处理问题“吸烟对身体有哪些危害？”作为输入，生成的关键词组合为“吸烟、身体、危害”。

与上述关键词组合生成模型训练方法实施例相对应，本申请还提供了关键词组合生成模型训练装置实施例，图5示出了本申请一个实施例提供的关键词组合生成模型训练装置的结构示意图。如图5所示，该装置500包括：

第一获取模块502，被配置为获取样本问题和所述样本问题对应的样本答案；

提取模块504，被配置为提取所述样本问题的至少一个初始关键词组合，确定每个初始关键词组合对应的关联文档集合；

种子关键词组合确定模块506，被配置为根据所述样本答案和每个关联文档集合确定种子关键词组合；

样本关键词组合确定模块508，被配置为根据所述种子关键词组合确定所述样本问题的样本关键词组合；

训练模块510，被配置为根据所述样本问题和所述样本关键词组合训练关键词组合生成模型，直至达到训练停止条件。

在本实施例的一个或多个实施方式中，所述提取模块504，还被配置为：

搜索所述每个初始关键词组合对应的初始关联文档；

在本实施例的一个或多个实施方式中，所述种子关键词组合确定模块506，还被配置为：

在本实施例的一个或多个实施方式中，所述样本关键词组合确定模块508，还被配置为：

将所述排名在预设排名范围内的所述样本关联文档对应的种子关键词组合确定为所述样本问题的样本关键词组合；和/或

将所述排名最高的所述样本关联文档对应的种子关键词组合确定为所述样本问题的样本关键词组合。

将所述种子关键词组合中包含关键词最多的种子关键词组合确定为样本关键词组合。

对所述样本问题进行分词处理，得到所述样本问题的至少一个关键词；

根据所述至少一个关键词确定至少一个初始关键词组合。

对所述样本问题进行分词处理，得到初始关键词集合；

在本实施例的一个或多个实施方式中，所述训练模块510，还被配置为：

将所述样本问题输入关键词组合生成模型；

根据所述损失值调整所述关键词组合生成模型的参数。

本申请实施例提供的关键词组合生成模型训练装置，通过获取样本问题以及与样本问题对应的样本答案，对样本问题进行初始关键词组合的提取，并确定每个初始关键词组合的关联文档集合，进一步地，根据样本答案和关联文档集合确定出种子关键词组合，进而确定出样本关键词组合，在此基础上根据样本问题以及样本问题对应的样本关键词组合对关键词组合生成模型进行训练，直至达到训练停止条件。如此，不仅可以提高对样本问题标注关键词组合的速度，还可以提高样本关键词组合的准确性，有效避免某些垂直领域搭建的数据库中关键词组合与人的先验知识不匹配的问题。进一步地，通过分词与过滤停用词的方式在所述样本问题中提取初始关键词组合，节省了计算资源，提高了后续根据关键词组合进行检索的检索效率；根据样本答案在管理文档集合中匹配并确定样本关联文档集合，保证了样本答案与样本关联文档集合的匹配程度，解决了现有技术中利用人工标注关键词导致的在某些垂直领域内检索答案不准确的问题。

上述为本实施例的一种关键词组合生成模型训练装置的示意性方案。需要说明的是，该关键词组合生成模型训练装置的技术方案与上述的关键词组合生成模型训练方法的技术方案属于同一构思，关键词组合生成模型训练装置的技术方案未详细描述的细节内容，均可以参见上述关键词组合生成模型训练方法的技术方案的描述。

与上述关键词组合生成方法实施例相对应，本申请还提供了关键词组合生成装置实施例，图6示出了本申请一个实施例提供的关键词组合生成装置的结构示意图。如图6所示，该装置600包括：

第二获取模块602，被配置为获取待处理问题；

输入模块604，被配置为将所述待处理问题输入至预先训练好的关键词组合生成模型，其中，所述关键词组合生成模型是通过上述的关键词组合生成模型训练方法训练得到的；

生成模块606，被配置为所述关键词组合生成模型响应于所述待处理问题作为输入而生成关键词组合。

本申请提供的关键词组合生成装置，通过将待处理的问题输入至预先训练好的关键词组合生成模型，进而确定得到待处理问题的关键词组合，保证了可以快速、准确的获取待处理问题的关键词组合，确保了可以避免通过人工标注待回处理问题中关键词组合导致的所述关键词组合不准确的问题，有效避免某些垂直领域搭建的数据库中关键词组合与人的先验知识不匹配的问题。

上述为本实施例的一种关键词组合生成装置的示意性方案。需要说明的是，该关键词组合生成装置的技术方案与上述的关键词组合生成方法的技术方案属于同一构思，关键词组合生成装置的技术方案未详细描述的细节内容，均可以参见上述关键词组合生成方法的技术方案的描述。

需要说明的是，装置权利要求中的各组成部分应当理解为实现该程序流程各步骤或该方法各步骤所必须建立的功能模块，各个功能模块并非实际的功能分割或者分离限定。由这样一组功能模块限定的装置权利要求应当理解为主要通过说明书记载的计算机程序实现该解决方案的功能模块构架，而不应当理解为主要通过硬件方式实现该解决方案的实体装置。

本申请一实施例中还提供一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述计算机指令时实现所述的关键词组合生成模型训练方法或所述的关键词组合生成方法的步骤。

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的关键词组合生成模型训练方法或关键词组合生成方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述关键词组合生成模型训练方法或关键词组合生成方法的技术方案的描述。

本申请一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该计算机指令被处理器执行时实现如前所述关键词组合生成模型训练方法或关键词组合生成方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的关键词组合生成模型训练方法或关键词组合生成方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述关键词组合生成模型训练方法或关键词组合生成方法的技术方案的描述。

本申请实施例公开了一种芯片，其存储有计算机指令，该计算机指令被处理器执行时实现如前所述关键词组合生成模型训练方法或所述关键词组合生成方法的步骤。

上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本申请的内容，可作很多的修改和变化。本申请选取并具体描述这些实施例，是为了更好地解释本申请的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种关键词组合生成模型训练方法，其特征在于，包括：

获取样本问题和所述样本问题对应的样本答案；

2.如权利要求1所述的方法，其特征在于，所述确定每个初始关键词组合对应的关联文档集合，包括：

搜索所述每个初始关键词组合对应的初始关联文档；

3.如权利要求1所述的方法，其特征在于，所述根据所述样本答案和每个关联文档集合确定种子关键词组合，包括：

4.如权利要求3所述的方法，其特征在于，所述根据所述样本答案和每个关联文档集合确定样本关联文档集合，包括：

5.如权利要求1所述的方法，其特征在于，所述根据所述种子关键词组合确定所述样本问题的样本关键词组合，包括：

6.如权利要求5所述的方法，其特征在于，所述根据所述样本关联文档的排名确定所述种子关键词组合中所述样本问题的样本关键词组合，包括：

7.如权利要求1所述的方法，其特征在于，所述根据所述种子关键词组合确定所述样本问题的样本关键词组合，包括：

8.如权利要求1所述的方法，其特征在于，所述提取所述样本问题的至少一个初始关键词组合，包括：

根据所述至少一个关键词确定至少一个初始关键词组合。

9.如权利要求8所述的方法，其特征在于，所述对所述样本问题进行分词处理，得到所述样本问题的至少一个关键词，包括：

对所述样本问题进行分词处理，得到初始关键词集合；

10.如权利要求1所述的方法，其特征在于，所述根据所述样本问题和所述样本关键词组合训练关键词组合生成模型，包括：

将所述样本问题输入关键词组合生成模型；

根据所述损失值调整所述关键词组合生成模型的参数。

11.一种关键词组合生成方法，其特征在于，包括：

获取待处理问题；

将所述待处理问题输入至预先训练好的关键词组合生成模型，其中，所述关键词组合生成模型是通过上述权利要求1-10任意一项所述的关键词组合生成模型训练方法训练得到的；

12.一种关键词组合生成模型训练装置，其特征在于，包括：

13.一种关键词组合生成装置，其特征在于，包括：

第二获取模块，被配置为获取待处理问题；

输入模块，被配置为将所述待处理问题输入至预先训练好的关键词组合生成模型，其中，所述关键词组合生成模型是通过上述权利要求1-10任意一项所述的关键词组合生成模型训练方法训练得到的；

14.一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，其特征在于，所述处理器执行所述计算机指令时实现权利要求1-10或者11任意一项所述方法的步骤。

15.一种计算机可读存储介质，其存储有计算机指令，其特征在于，该计算机指令被处理器执行时实现权利要求1-10或者11任意一项所述方法的步骤。