CN113609248A

CN113609248A - 词权重生成模型训练方法及装置、词权重生成方法及装置

Info

Publication number: CN113609248A
Application number: CN202110962135.6A
Authority: CN
Inventors: 王丙琛; 李长亮
Original assignee: Beijing Kingsoft Digital Entertainment Co Ltd
Current assignee: Beijing Kingsoft Digital Entertainment Co Ltd
Priority date: 2021-08-20
Filing date: 2021-08-20
Publication date: 2021-11-05

Abstract

本申请提供词权重生成模型训练方法及装置、词权重生成方法及装置，其中所述词权重生成模型训练方法包括：分别获取目标问题、所述目标问题对应的目标答案；提取所述目标问题的关键词，组成关键词组合，根据至少一个所述关键词组合确定初始文档集合；根据所述目标答案和所述初始文档集合确定目标文档集合和目标关键词组合；根据所述目标关键词组合获得每个目标关键词的目标权重值；根据所述目标问题、每个目标关键词和目标权重值训练词权重生成模型，直至达到训练停止条件，通过本申请提供的方法，解决了无监督方法中无法利用语义和文本信息的缺点。

Description

词权重生成模型训练方法及装置、词权重生成方法及装置

技术领域

本申请涉及计算机技术中的人工智能领域，特别涉及词权重生成模型训练方法及装置、词权重生成方法及装置、计算设备和计算机可读存储介质。

背景技术

人工智能(artificial intelligenc)是一门交叉学科，通常视为计算机科学的分支，研究表现出与人类智能(如推理和学习)相关的各种功能的模型和系统。随着人工智能技术的发展，自然语言处理领域也得到了快速发展，自然语言处理(Natural LanguageProcessing)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。根据文本进行信息检索是自然语言处理领域的一个重要分支。

在根据文本进行信息检索的过程中，文本信息中的词权重值是信息检索研究的一个基本问题，目的是对文本中的词赋予不同的权重值，便于在后续的处理过程中更有侧重点，现有的常用词权重计算方法主要分为有监督训练模型和无监督计算的方法，其中，有监督训练方法需要通过大量的人工标注的数据训练一个回归模型进行词权重预测，但是人工标注成本较高且人工标注难度较大，而无监督计算方法通常是通过如TF-IDF、TextRank等算法进行计算，无监督计算的方法虽然不需要人工标注，但是无法有效利用文本中的语义信息，导致相同的词在不同的文本中具有相同的权重，生成的词权重值效果较差。

发明内容

有鉴于此，本申请实施例提供了词权重生成模型训练方法及装置、词权重生成方法及装置、计算设备和计算机可读存储介质，以解决现有技术中存在的技术缺陷。

根据本申请实施例的第一方面，提供了一种词权重生成模型训练方法，包括：

分别获取目标问题、所述目标问题对应的目标答案；

提取所述目标问题的关键词，组成关键词组合，根据至少一个所述关键词组合确定初始文档集合；

根据所述目标答案和所述初始文档集合确定目标文档集合和目标关键词组合；

根据所述目标关键词组合获得每个目标关键词的目标权重值；

根据所述目标问题、每个目标关键词和目标权重值训练词权重生成模型，直至达到训练停止条件。

根据本申请实施例的第二方面，提供了一种词权重生成方法，包括：

获取待处理问题，并提取所述待处理问题的目标关键词；

将所述待处理问题和所述目标关键词输入至预先训练好的词权重生成模型，其中，所述词权重生成模型是通过权利要求1-10任意一项所述的词权重生成模型训练方法或者其他训练方法训练获得的；

响应于作为输入的所述待处理问题和所述目标关键词，所述词权重模型生成每个目标关键词对应的预测权重值。

根据本申请实施例的第三方面，提供了一种词权重生成模型训练装置，包括：

获取模块，被配置为分别获取目标问题、所述目标问题对应的目标答案；

提取模块，被配置为提取所述目标问题的关键词，组成关键词组合，根据至少一个所述关键词组合确定初始文档集合；

确定模块，被配置为根据所述目标答案和所述初始文档集合确定目标文档集合和目标关键词组合；

权重值获得模块，被配置为根据所述目标关键词组合获得每个目标关键词的目标权重值；

训练模块，被配置为根据所述目标问题、每个目标关键词和目标权重值训练词权重生成模型，直至达到训练停止条件。

根据本申请实施例的第四方面，提供了一种词权重生成装置，包括：

获取模块，被配置为获取待处理问题，并提取所述待处理问题的目标关键词；

输入模块，被配置为将所述待处理问题和所述目标关键词输入至预先训练好的词权重生成模型，其中，所述词权重生成模型是通过权利要求1-10任意一项所述的词权重生成模型训练方法或者其他训练方法训练获得的；

生成模块，被配置为响应于作为输入的所述待处理问题和所述目标关键词，所述词权重模型生成每个目标关键词对应的预测权重值。

根据本申请实施例的第五方面，提供了一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现所述词权重生成模型训练方法或所述词权重生成方法的步骤。

根据本申请实施例的第六方面，提供了一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现所述词权重生成模型训练方法或所述词权重生成方法的步骤。

根据本申请实施例的第七方面，提供了一种芯片，其存储有计算机指令，该指令被芯片执行时实现所述词权重生成模型训练方法或所述词权重生成方法的步骤。

本申请实施例提供的词权重生成模型训练方法中，包括分别获取目标问题、所述目标问题对应的目标答案；提取所述目标问题的关键词，组成关键词组合，根据至少一个所述关键词组合确定初始文档集合；根据所述目标答案和所述初始文档集合确定目标文档集合和目标关键词组合；根据所述目标关键词组合获得每个目标关键词的目标权重值；根据所述目标问题、每个目标关键词和目标权重值训练词权重生成模型，直至达到训练停止条件。本申请实施例提供的词权重生成模型训练方法，可以计算目标关键词在不同的文档中不同的权重值，提高了生成关键词的权重值的准确度。

其次，通过日志记录信息获取目标问题和目标答案，解决了人工标注数据费时费力的问题，通过线上点击数据，实现了无需人工的自动化训练样本构建目标。

最后，在词权重生成模型中，根据关键词的语义和特征信息，可以综合利用更多文本语义和文本信息的特征，更好的生成目标关键词和关键词权重。

附图说明

图1是本申请实施例提供的计算设备的结构框图；

图2是本申请实施例提供的词权重生成模型训练方法的流程图；

图3是本申请实施例提供的每个关键词组合搜索后获得召回文档的示意图；

图4是本申请实施例提供的词权重生成方法的流程图；

图5是本申请实施例提供的词权重生成模型训练装置的结构示意图；

图6是本申请实施例提供的词权重生成装置的结构示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“响应于确定”。

首先，对本发明一个或多个实施例涉及的名词术语进行解释。

TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆文档频率)：是一种用于信息检索(information retrieval)与数据挖掘的常用加权技术。

TF(Term Frequency，词频)：一个词语在一篇文档中出现的频率。

IDF(Inverse Document Frequency，逆文档频率)：一个词语普遍重要性的度量。

词权重(Term Weight)：代表一个词语在一句话中的重要程度。

反馈文档：搜索引擎反馈给用户用于用户查看的文档即为反馈文档，搜索引擎反馈给用户的反馈文档可以是一件或者多件。

目标反馈文档：用户在反馈文档中选择查看的文档，通常用户从多件反馈文档中选择一篇文档作为目标反馈文档。一篇或者多篇目标反馈文档组成目标反馈文档集合。

关键词组合：关键词组合包括一个或多个关键词，其中的关键词组合是经过不同组合后获得的。

初始文档：针对关键词组合，搜索引擎召回每份文档即为初始文档。

初始文档集合：未经过任何筛选的一个或多个召回文档组成的集合。

目标文档：某份初始文档如果包括了目标问题对应的目标答案，那么该初始文档即为目标文档。

目标关键词集合：可以召回目标文档的关键词集合。例如通过关键词集合A可以召回文档F，当文档F为目标文档的情况下，则关键词集合A为目标关键词集合。

待输入文本：搜索问题与目标关键词进行拼接后的文本，待输入文本是需要输入到词权重模型中的文本。

在本申请中，提供了词权重生成模型训练方法及装置、词权重生成方法及装置、计算设备和计算机可读存储介质，在下面的实施例中逐一进行详细说明。

图1示出了根据本申请一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接，数据库150用于保存数据。

计算设备100还包括接入设备140，接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本申请的一个实施例中，计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图1所示的计算设备结构框图仅仅是出于示例的目的，而不是对本申请范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备100可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。

其中，处理器120可以执行图2所示词权重生成模型训练方法中的步骤。图2示出了根据本申请一实施例的词权重生成模型训练方法的流程图，包括步骤202至步骤210。

步骤202：分别获取目标问题、所述目标问题对应的目标答案。

本申请提供的词权重生成模型训练方法，采用自动化构建训练样本的方法，通过获取用户线上搜索的问题，根据该搜索问题获得与其相对应的多篇反馈文档并反馈给用户，用户在多篇反馈文档中选择对自己有用的目标反馈文档进行浏览，根据该搜索问题和该目标反馈文档构建训练数据。其中，目标问题是通过如下方法获得的，用户在手机或电脑上输入希望搜索的问题，通过网络传输的方式，服务器获取到该问题作为目标问题；目标答案为该目标问题对应的正确答案，通常目标答案会在多个文档或段落中出现，或者说，对于同一个问题，可能会有多个文档或段落都能给出不同或者相同的答案，该目标答案由服务器通过计算获得。

可选地，获取目标问题和目标答案的方法，包括：

读取日志记录信息；

获取所述日志记录信息中记录的搜索问题和所述搜索问题的目标反馈文档；

根据所述搜索问题和所述搜索问题的目标反馈文档确定所述搜索问题对应的目标答案。

其中，日志记录信息保存在搜索引擎对应的服务器端，记录了用户在线上进行的各种处理，如登录、输入、点击、搜索等等一系列操作，用户在线上进行搜索时，在服务器的日志记录信息中会记录用户输入的搜索问题作为目标问题，根据该目标问题进行搜索获得多篇反馈文档，并将目标答案展示给用户并突出显示，同时将与目标答案对应的多篇反馈文档分别展示给用户。用户会在展示的多篇反馈文档进行挑选，通过点击相应的文档链接进行查看。另外，日志记录信息也会记录用户点击了哪些文档链接。搜索引擎反馈给用户用于用户查看的文档称为反馈文档，用户点击文档链接进行查看的该反馈文档称为目标反馈文档。

服务器读取日志记录信息，可以在日志记录信息中读取目标问题和目标问题对应的一个或多个目标反馈文档的链接，根据目标反馈文档的链接即可获得所述搜索问题对应的一篇或者多篇目标反馈文档集合。

在获取搜索问题和搜索问题的目标反馈文档后，可以通过预先训练好的问答模型在目标反馈文档中查找该搜索问题对应的一个目标答案，也可以根据文本分析或者关键词匹配等方式在目标反馈文档中查找该搜索问题对应的一个目标答案。

在本申请提供的一具体实施方式中，通过日志记录信息获取用户在网络上的搜索问题为“2019年全国参加基本医保的有多少人”，同时获取目标反馈文档有文档1(文档1中记录了2019年全国基础建设的情况介绍)、文档2(文档2是关于基本医保的介绍)和文档3(文档3中记录了历年全国基本医保情况介绍)，通过对文档1、文档2和文档3的语义分析，可以确定搜索问题对应的答案为“1345412万人”，则目标问题为“2019年全国参加基本医保的有多少人”，所述目标问题对应的目标答案为“1345412万人”。

步骤204：提取所述目标问题的关键词，组成关键词组合，根据至少一个所述关键词组合确定初始文档集合。

在实际应用中，所述目标问题通常是一个句子，而一个句子中通常包括至少一个关键词，例如“2019年”“全国”“参加”“基本医保”“多少人”，该例的目标问题一共有5个关键词，这5个关键词组成一个关键词组合，即在实际搜索时，也是根据句子中的关键词在大量的文档中进行关键词匹配，将与关键词匹配的文档进行召回。关键词组合中包括至少一个关键词，在本具体实施例中，关键词组合可以是多个关键词组合，根据一个或者多个关键词组合确定一个初始文档集合，该初始文档集合中可以包括一个或多个初始文档。

可选地，提取所述目标问题的关键词，组成关键词组合，包括：

提取所述目标问题的至少一个关键词；

根据所述至少一个关键词生成关键词组合。

相应的，根据所述至少一个关键词组合确定初始文档集合，包括：

搜索并获取每个关键词组合对应的初始文档；

将每个上述初始文档组合成为初始文档集合。

在实际应用中，首先提取目标问题的至少一个关键词，再根据至少一个关键词可以组成关键词组合，提取关键词的方法有很多，如基于TF-IDF算法进行关键词提取、基于TextRank算法进行关键词提取等等。

以TF-IDF算法为例，TF-IDF是一种用于信息检索与数据挖掘的常用加权技术，TF是指词频(Term Frequency)，IDF为逆文档频率(Inverse Document Frequency)，TF-IDF为两者相乘。TF-IDF的主要思想是：如果某个词或短语在一篇文章中出现的频率TF值高，并且在其他文章中很少出现，则认为此词或短语具有很好的类别区分能力。词频(termfrequency，TF)指的是某一个给定的词语在该文件中出现的频率。这个数字是对词数(termcount)的归一化，以防止它偏向长的文件；逆向文件频率(inverse document frequency，IDF)是一个词语普遍重要性的度量。某一特定词语的IDF，可以由总文件数目除以包含该词语之文件的数目，再将得到的商取以10为底的对数得到。某个词对文章的重要性越高，其TF-IDF值越大。

计算目标问题中每个词的TF-IDF值，并根据TF-IDF值从大到小的顺序对目标问题中的每个词进行排序，根据预设的选词数量，将排名靠前的词确定为关键词，例如，预设的选词数量为2，则选取目标问题中，TF-IDF值最高的前两个词作为目标问题的关键词。

在提取至少一个关键词后，还可以根据不同的关键词组成关键词组合，比如关键词为A，则可以生成“A”这一个关键词组合；比如关键词为A和B，可以组合为“A”、“B”和“A、B”共三个关键词组合；比如关键词为A、B和C，则可以组合为“A”、“B”、“C”、“A、B”、“A、C”、“B、C”、“A、B、C”共七个关键词组合……依次类推。

再根据每个关键词组合进行关键词匹配搜索对应的文档，获取每个关键词组合对应的一个或多个召回文档为初始文档，所有的关键词组合对应的初始文档组合到一起即为初始文档集合。初始文档集合是未经过任何筛选的一个或者多个召回文档的组合。

需要注意的是，在实际应用中，由于搜索引擎会对每个关键词组合返回大量的初始文档，当关键词组合过多时，会导致初始文档结合中的文档非常庞大，进而导致服务的负载较重，服务器需消耗更多时间来计算和筛选出目标答案，因此为了减轻服务器的负担，可以将每个关键词组合对应的初始文档根据与关键词组合的关联程度进行排序，再根据预设的文档选取策略，确定选取排名靠前的文档作为精选初始文档，例如，选取每个关键词组合对应的关联度较高的5篇文档，或者选取每个关键词组合对应的关联度较高的前10篇文档等等。

例如，关键词为A、B，对应的关键词组合为“A”、“B”和“A、B”，分别根据每个关键词组合进行搜索，获得搜索结果参见图3和下述表1所示。图3示出了本申请一实施例提供的根据每个关键词组合搜索后获得召回文档的示意图。

表1

如表1和图3所示，根据关键词组合“A”进行搜索，召回文档11、文档12、文档13、文档17、文档18、文档19……，根据关键词组合“B”进行搜索，召回文档14、文档15、文档16、文档17、文档18、文档19……，根据关键词组合“A、B”进行搜索，召回文档17、文档18、文档19、文档111、文档117、文档120……。

如果不经过预设的文档选取策略，则初始文档集合为{文档11，文档12，文档13，文档14，文档15，文档16，文档17，文档18，文档19……文档111，文档117，文档120}，即找到的所有初始文档。但是在此情况下，初始文档集合中的初始文档的数量过于庞大，不够方便后续的处理。因此另外一个具体实施例是，文档选取策略确定为选取每个关键词组合对应的前6篇召回文档为初始文档，即关键词组合“A”对应的6篇初始文档有“文档11、文档12、文档13、文档17、文档18、文档19”，关键词组合“B”对应的初始文档6篇有“文档14、文档15、文档16、文档17、文档18、文档19”，关键词组合“A、B”对应的初始文档6篇有“文档17、文档18、文档19、文档111、文档117、文档120”，即在此情况下初始文档集合为12篇{文档11、文档12、文档13、文档14、文档15、文档16、文档17、文档18、文档19、文档111、文档117、文档120}。

在本申请提供的一具体实施方式中，沿用上例，根据TF-IDF算法，提取所述目标问题的关键词提取出“参加”、“医保”2个关键词，而不是5个关键词，根据上述2个关键词共计生成三个关键词组合，分别为关键词组合1“参加”、关键词组合2“医保”和关键词组合3“参加、医保”，根据关键词组合1进行搜索，获得关键词组合1对应的前三篇初始文档为文档1、文档2和文档3，均包含“参加”；根据关键词组合2进行搜索，获得关键词组合2对应的前三篇初始文档为文档3、文档4和文档5，均包含“医保”；根据关键词组合3进行搜索，获得关键词组合3对应的前三篇初始文档为文档5、文档6和文档7，均包含“参加、医保”。则初始文档集合为{文档1、文档2、文档3、文档4、文档5、文档6、文档7}。

步骤206：根据所述目标答案和所述初始文档集合确定目标文档集合和目标关键词组合。

获取初始文档集合中的初始文档或者精选初始文档，初始文档或者精选初始文档的内容中有些包括目标问题对应的该目标答案，有些不包括目标问题对应的该目标答案，此时，需要根据目标答案在初始文档集合中确定包括目标答案的文档有哪些，然后将包括目标答案的文档组成一个目标文档集合，因此，目标文档集合即为初始文档集合中与目标答案相符的文档的集合，目标文档对应的关键词组合即为目标关键词集合。也就是说，目标文档是一批既包括了目标问题中较多的关键词，又包括了目标答案的目标文档。本申请将这批目标文档所对应的关键词组合，作为目标关键词集合。

具体的，根据所述目标答案和所述初始文档集合确定目标文档集合和目标关键词组合，包括：

根据所述目标答案在所述初始文档集合中确定目标文档集合；

根据所述目标文档集合确定目标关键词组合。

具体的，根据所述目标答案在所述初始文档集合中确定目标文档集合的步骤，包括：

将所述目标答案与所述初始文档集合中的初始文档进行匹配；

确定与所述目标答案匹配的初始文档为目标文档，并将至少一个或多个目标文档组合生成目标文档集合。

在实际应用中，根据所述目标答案和所述初始文档集合匹配目标文档集合方法有很多，比如可以通过将目标答案转换为答案向量，将初始文档转换为文档向量，再计算答案向量与文档向量的相似度，选择该相似度超过预设阈值的初始文档作为目标文档；又比如还可以根据预先训练好的问答匹配模型，在初始文档集合的每个初始文档中确定是否包括目标问题对应的目标答案，将包含该目标答案的初始文档作为目标文档，进而确定目标文档集合。

在本申请提供的一具体实施方式中，沿用上例，根据目标答案“1345412万人”在初始文档集合{文档1、文档2、文档3、文档4、文档5、文档6、文档7}中的每篇初始文档进行匹配，确定文档4、文档5、文档7与目标答案匹配，则目标文档集合为{文档4、文档5、文档7}。文档1、文档2、文档3、文档6虽然包括关键词A或B，但是不包括目标答案1345412万人，因此无法作为目标文档，因此文档1、文档2、文档3、文档6最终被淘汰。

具体的，根据所述目标文档集合确定目标关键词组合的步骤，包括：

将每篇目标文档对应的关键词组合确定为目标关键词组合。

在确定出目标文档集合后，目标文档集合中包括至少一个目标文档，确定每个目标文档对应的关键词组合为目标关键词组合。

在本申请提供的一具体实施方式中，经过目标答案与初始文档集合中的初始文档进行匹配后，确定目标文档为文档14、文档17和文档111，参见下述表2，表2为每个目标文档对应的关键词组合。

表2

	关键词组合
		文档14	“B”
文档17	“A”、“B”和“A、B”
		文档111	“A、B”

参见上述表2，文档14对应的关键词组合为关键词组合“B”，则确定文档14对应的目标关键词组合为“B”；文档17对应的关键词组合为关键词组合“A”、关键词组合“B”和关键词组合“A、B”，则确定文档17对应的目标关键词组合为“A”、“B”和“A、B”；文档111对应的目标关键词组合为关键词组合“A、B”，则确定文档111对应的目标关键词组合为“A、B”，综上，确定关键词组合“A”、关键词组合“B”和关键词组合“A、B”三个目标关键词组合。

在本申请提供的另一具体实施方式中，沿用上例，目标文档集合为{文档4、文档5、文档7}，其中，文档4对应的目标关键词组合为关键词组合2“医保”，文档5对应的目标关键词组合为关键词组合2“医保”，文档7对应的目标关键词组合为关键词组合3“参加、医保”，则确定关键词组合2“医保”和关键词组合3“参加、医保”为两个目标关键词组合。

步骤208：根据所述目标关键词组合获得每个目标关键词的目标权重值。

其中，目标权重值即为在当前目标问题中，目标关键词对应的权重值，在不同的语句或文本中，相同的关键词也会有不同的权重。在本申请中，可以根据目标文档集合和目标关键词确定每个关键词的目标权重值。

具体地，根据所述目标文档集合和所述目标关键词集合确定每个目标关键词的目标权重值的步骤，包括：

根据每个目标关键词在所述目标关键词集合中出现的次数确定每个目标关键词的第一权重值；

将每个目标关键词在所述目标文档集合中的逆文档频率作为每个目标关键词的第二权重值；

根据每个目标关键词的第一权重值和第二权重值获得每个目标关键词的目标权重值。

第一权重值为目标关键词在目标关键词集合中出现的次数，比如目标关键词组合为“参加”和“参加、医保”，其中，关键词“参加”在两个目标关键词集合中均出现，一共出现了2次，然后对次数再进行归一化，则关键词“参加”的第一权重值为1；同样的，关键词“医保”在一个目标关键词集合中出现，对次数进行归一化后，则关键词B的第一权重值为0.5。

第二权重值为每个目标关键词在目标文档集合中的逆文档频率(IDF)，IDF是一个词语普遍重要性的度量，某一特定词语的IDF，可以由总文件数目除以包含该词语之文件的数目，再将得到的商取以10为底的对数得到，具体参见下述公式1：

IDF＝Log(语料库文档总数/(包含该词的文档数+1)) 公式1

其中，(包含该词的文档数+1)是为了在包含该词的文档数为0时，避免除数为0的情况导致计算出错的问题，在本申请中，语料库文档总数即目标文档集合中目标文档的数量。

在获得每个目标关键词的第一权重值和第二权重值之后，即可通过预设的算法获得每个目标关键词的目标权重值。在实际应用中，由于IDF值反映的是一个词在一篇文章中的重要程度，为了凸显第一权重值中的某些重要关键词的权重和普通关键词的权重之间的差异，优选的，在本申请提供的方法中，将第一权重值与第二权重值相乘，获得每个关键词的目标权重值。比如关键词“A”的第一权重值为A1，第二权重值为A2，则关键词“A”的目标权重值为A1*A2。

在本申请提供的一具体实施方式中，沿用上例，目标关键词为“参加”、“医保”，目标关键词组合为“医保”和“参加、医保”，其中，目标关键词“医保”在每个目标关键词组合中都出现，则设置“医保”的第一权重值为1，同时，通过计算“医保”在{文档4、文档5、文档7}中的IDF值为3.63303，则“医保”的第二权重值为3.63303，将“医保”的第一权重值和第二权重值相乘，确定“医保”的目标权重值为1×3.63303＝3.63303。

目标关键词“参加”出现在2个目标关键词组合中的一个目标关键词组合中，则“参加”的第一权重值为0.5，同时通过计算“参加”在{文档4、文档5、文档7}中的IDF值为1.74471，则“参加”的第二权重值为1.74471，将“参加”的第一权重值和第二权重值相乘，确定“参加”的目标权重值为0.5×1.74471＝0.87235。

步骤210：根据所述目标问题、每个目标关键词和目标权重值训练词权重生成模型，直至达到训练停止条件。

将目标问题、目标问题对应的每个目标关键词和每个目标关键词对应的目标权重值作为训练词权重生成模型的训练数据，其中，目标问题、目标问题对应的每个目标关键词为样本数据，每个目标关键词对应的目标权重值为样本标签，根据样本数据和样本标签对词权重生成模型进行有监督训练，直至达到模型的训练停止条件。

词权重生成模型用于根据目标问题和目标问题的每个目标关键词生成每个目标关键词对应的权重值。优选的，在本申请提供的具体实施例中，词权重生成模型优选使用Bert模型，所述词权重生成模型包括嵌入层、12个顺次连接的编码层和全连接层，将目标问题输入至嵌入层生成目标问题向量，再将目标问题向量依次输入至12个编码层生成目标问题编码向量，再经过全连接层输出所述目标问题的预测关键词和预测权重值，再根据预测关键词和预测权重值与目标关键词和目标权重值计算损失值用于实现训练词权重生成模型。

具体地。根据所述目标问题、每个目标关键词和目标权重值训练词权重生成模型，包括：

将所述目标问题和每个目标关键词输入至词权重模型；

响应于作为输入的所述目标问题和每个目标关键词，所述词权重模型生成每个目标关键词对应的预测权重值；

根据每个目标关键词对应的预测权重值和目标权重值，计算得到损失值；

根据所述损失值调整所述词权重模型的参数。

在实际应用中，将目标问题和每个目标关键词输入至待训练的词权重模型中进行预测处理，词权重模型根据目标问题和每个目标关键词生成每个目标关键词对应的预测权重值，根据每个目标关键词的预测权重值和目标权重值计算损失值，并根据损失值调整词权重模型的参数对词权重模型进行训练。

具体的，依然以搜索问题为“2019年全国参加基本医保的有多少人”为例，该问题对应的两个目标关键词为“参加”、“医保”，将该搜索问题和目标关键词进行拼接生成待输入文本“2019年全国参加基本医保的有多少人@参加@医保”，将待输入文本输入至词权重模型，词权重模型输出两个目标关键词对应的预测权重值0.34532和2.85412，其中输出的预测权重值的顺序与输入文本中目标关键词的顺序相关，即预测权重值0.34532为目标关键词“参加”的预测权重值，预测权重值2.85412为目标关键词“医保”的预测权重值。

在本申请中，计算损失值Loss的方式具体为采用MSE均方误差损失函数，参见下述公式2：

其中，MSE表示损失值Loss，y_i为第i个目标关键词的目标权重值，

为第i个目标关键词的预测权重值。在实际应用中，目标关键词输入至词权重模型时标记有位置信息，生成的预测权重值也有位置信息，根据目标关键词的位置信息和预测权重值的位置信息即可计算损失值，例如在输入词权重模型时目标关键词的顺序为“参加、医保”，对应的目标权重值为“0.87235、3.63303”，预测权重值为“0.34532、2.85412”，根据位置信息，则可以确定目标关键词“参加”对应的目标权重值为“0.87235”，预测权重值为“0.34532”；目标关键词“医保”对应的目标权重值为“3.63303”，预测权重值为“2.85412”。进而可以根据上述公式2计算损失值。

可选地，响应于作为输入的所述目标问题，所述词权重模型生成每个目标关键词对应的预测权重值，包括：

获取每个目标关键词对应的属性信息；

将每个目标关键词和每个目标关键词对应的属性信息进行拼接生成每个目标关键词对应的关键词特征信息；

根据每个目标关键词对应的目标关键词特征信息预测每个目标关键词的预测权重值。

在本申请提供的方法中，要结合每个目标关键词的属性信息进行分析，具体的，属性信息可以包括语义特征、目标关键词的长度、词性、释义中的部分关键词、出处、字符编码号等等，目标关键词的属性信息更能代表关键词的特性以及关键词在语句中的意义，属性信息的选取比较灵活，可以根据实际需要选取对应的属性信息。

将每个目标关键词和目标关键词对应的属性信息通过预设的连接符进行拼接，例如，预设连接符为#，则将目标关键词和该目标关键词对应的属性信息进行拼接，获得目标关键词的关键词特征信息“目标关键词#属性信息”。所述目标关键词的关键词特征信息用于代表目标关键词的特性和该目标关键词在目标问题中的意义。再根据每个目标关键词特征信息计算每个目标关键词的预测权重值。在构建目标关键词的关键词特征信息时结合了目标关键词的属性信息，可以更好的表征出每个词语独特的语义和文本信息，使得每个关键词在不同的文本中可以预测不同的权重，更贴近现实生活，提高关键词权重的准确度。

在本申请提供的一具体实施方式中，沿用上例，将目标问题“2019年全国参加基本医保的有多少人”和目标关键词“参加、医保”通过拼接符进行拼接后，生成待输入文本“2019年全国参加基本医保的有多少人@参加@医保”。并将待输入文本输入至词权重模型后，在词权重模型中获取每个目标关键词对应的关键词长度、关键词词性，如目标关键词“参加”对应的关键词长度为2，词性为动词；目标关键词“医保”对应的关键词长度为2，词性为名词。

将每个目标关键词和每个目标关键词的关键词长度、关键词词性进行拼接，生成每个目标关键词对应的关键词特征信息，其中，目标关键词“参加”对应的关键词特征信息为“参加#2#动词”；目标关键词“医保”对应的关键词特征信息为“医保#2#名词”，将每个目标关键词的关键词特征信息经过神经网络模型进行预测，获得每个目标关键词对应的预测权重值，其中，目标关键词“参加”对应的预测权重值为0.58421，目标关键词“医保”对应的预测权重值为2.56245。

所述词权重模型响应于所述目标问题和目标关键词生成的预测权重值为{0.58421，2.56245}，目标关键词的目标权重值为{0.87235，3.63303}，通过上述的MSE均方误差损失函数计算损失值Loss，并根据Loss值反向传播调整词权重模型中的学习率参数、Batch_size参数等，并继续训练词权重模型，直至损失值小于预设阈值和/或训练轮次达到预设的轮次。

在本申请提供的一具体实施方式中，以通过损失值小于预设阈值来停止训练所述词权重模型为例，预设阈值为0.3，则当计算得到的Loss值小于0.3时，则认定词权重模型训练完成。

在本申请提供的另一具体实施方式中，以预设的训练轮次来停止训练所述词权重为例，预设的训练轮次为10轮，当样本数据的训练轮次到达10轮后，则认定词权重模型已经训练完成。

在本申请提供的又一具体实施方式中，设置损失值预设阈值和预设训练轮次两个训练停止条件，同时监控损失值和训练轮次，当损失值或训练轮次中任意一项满足训练停止条件时，则认定词权重模型已经训练完成。

本申请实施例提出了一种将实际检索召回结果和词语IDF结合的term weight模型训练样本自动构建的方法，同时对term weight模型训练的特征进行改进。

本申请实施例提供的词权重生成模型训练方法，包括分别获取目标问题、所述目标问题对应的目标答案；提取所述目标问题的关键词，组成关键词组合，根据至少一个所述关键词组合确定初始文档集合；根据所述目标答案和所述初始文档集合确定目标文档集合和目标关键词组合；根据所述目标关键词组合获得每个目标关键词的目标权重值；根据所述目标问题、每个目标关键词和目标权重值训练词权重生成模型，直至达到训练停止条件。该词权重生成模型训练方法，利用线上用户的搜索和点击数据，通过用户搜索的问题和系统返回的相关文档来自动化的构建训练样本，即将用户问题的关键词进行排列组合，根据关键词组合能否命中答案来计算词权重，然后将这个值再乘以该词语的IDF值作为该词语最终的term weight。其中，对于term weight模型训练过程，考虑将query中词语之间的语义特征、term长度、term词性等作为term的特征，然后将这些特征送入神经网络模型进行训练，可以计算目标关键词在不同的文档中不同的权重值，提高了生成关键词的权重值的准确度，解决了无监督方法无法综合利用更多的语义和文本信息的缺点。

其次，通过从日志记录信息自动获取目标问题和目标答案，解决了人工标注数据费时费力的问题，避免了有监督方法中需要人工标注数据的缺点。通过线上点击数据，实现了无需人工的自动化训练样本构建目标。

最后，在词权重生成模型中，根据目标关键词的语义、属性信息拼接得到目标关键词的关键词特征信息，可以综合利用更多文本语义和文本信息的特征，更好的生成目标关键词和关键词权重。

图4示出了本申请一实施例的词权重生成方法的流程图，该词权重生成方法包括步骤402至步骤406。

步骤402：获取待处理问题，并提取所述待处理问题的目标关键词。

在本申请提供的一具体实施方式中，以获取待处理问题为“2020年第一季度的GDP总值是多少”为例进行解释说明，用户提出问题“2020年第一季度的GDP总值是多少”，服务器获取用户提出的待处理问题为“2020年第一季度的GDP总值是多少”，并提取待处理问题的目标关键词“2020年第一季度”、“GDP总值”。

步骤404：将所述待处理问题和所述目标关键词输入至预先训练好的词权重生成模型，其中，所述词权重生成模型是通过如上所述的词权重生成模型训练方法或者其他训练方法训练获得的。

在本申请提供的一具体实施例中，沿用上例，将待处理问题为“2020年第一季度的GDP总值是多少”和目标关键词“2020年第一季度、GDP总值”拼接生成待输入问题“2020年第一季度的GDP总值是多少@2020年第一季度@GDP总值”，并将待输入问题输入至词权重生成模型。

步骤406：响应于作为输入的所述待处理问题和所述目标关键词，所述词权重模型生成每个目标关键词对应的预测权重值。

在本申请提供的一具体实施例中，沿用上例，所述词权重生成模型响应于待处理问题为“2020年第一季度的GDP总值是多少@2020年第一季度@GDP总值”作为输入，生成每个目标关键词对应的预测权重值为{2.23986，3.25149}，其中，2020年第一季度对应的预测权重值为2.23986，GDP总值对应的预测权重值为3.25149。

在获得该待处理问题中每个目标关键词的预测权重值后，根据每个目标关键词的预测权重值可以执行后续的业务处理，例如文本问答、召回文档等等，后续的业务处理的具体内容在本申请中不做限定，以实际应用为准。

本申请实施例提供的词权重生成方法，包括获取待处理问题，并提取所述待处理问题的目标关键词；将所述待处理问题和所述目标关键词输入至预先训练好的词权重生成模型，其中，所述词权重生成模型是通过上述的词权重生成模型训练方法或者其他训练方法训练获得的；响应于作为输入的所述待处理问题和所述目标关键词，所述词权重模型生成每个目标关键词对应的预测权重值。通过本申请提供给的词权重生成方法，将待处理问题和该待处理问题的目标关键词输入至词权重生成模型，获得每个目标关键词的预测权重值，提高了生成关键词权重的准确度和灵活度，便于后续的处理过程中下游任务的准确高效。

与上述词权重生成模型训练方法实施例相对应，本申请还提供了词权重生成模型训练装置实施例，图5示出了本申请一个实施例的词权重生成模型训练装置的结构示意图。如图5所示，该装置包括：

获取模块502，被配置为分别获取目标问题、所述目标问题对应的目标答案；

提取模块504，被配置为提取所述目标问题的关键词，组成关键词组合，根据至少一个所述关键词组合确定初始文档集合；

确定模块506，被配置为根据所述目标答案和所述初始文档集合确定目标文档集合和目标关键词组合；

权重值获得模块508，被配置为根据所述目标关键词组合获得每个目标关键词的目标权重值；

训练模块510，被配置为根据所述目标问题、每个目标关键词和目标权重值训练词权重生成模型，直至达到训练停止条件。

可选的，所述提取模块504，进一步被配置为：

提取所述目标问题的至少一个关键词；

根据所述至少一个关键词生成关键词组合。

可选的，所述提取模块504，进一步被配置为：

搜索并获取每个关键词组合对应的初始文档；

将每个上述初始文档组合成为初始文档集合。

可选的，所述确定模块506，进一步被配置为：

根据所述目标文档集合确定目标关键词组合。

可选的，所述确定模块506，进一步被配置为：

将每篇目标文档对应的关键词组合确定为目标关键词组合。

可选的，所述权重值获得模块508，进一步被配置为：

可选的，所述训练模块510，进一步被配置为：

将所述目标问题和每个目标关键词输入至词权重模型；

根据所述损失值调整所述词权重模型的参数。

可选的，所述训练模块510，进一步被配置为：

获取每个目标关键词对应的属性信息；

可选的，所述获取模块502，进一步被配置为：

读取日志记录信息；

本申请实施例提供的词权重生成模型训练装置，包括分别获取目标问题、所述目标问题对应的目标答案；提取所述目标问题的关键词，组成关键词组合，根据至少一个所述关键词组合确定初始文档集合；根据所述目标答案和所述初始文档集合确定目标文档集合和目标关键词组合；根据所述目标关键词组合获得每个目标关键词的目标权重值；根据所述目标问题、每个目标关键词和目标权重值训练词权重生成模型，直至达到训练停止条件。该词权重生成模型训练装置，利用线上用户的搜索和点击数据，通过用户搜索的问题和系统返回的相关文档来自动化的构建训练样本，即将用户问题的关键词进行排列组合，根据关键词组合能否命中答案来计算词权重，然后将这个值再乘以该词语的IDF值作为该词语最终的term weight。其中，对于term weight模型训练过程，考虑将query中词语之间的语义特征、term长度、term词性等作为term的特征，然后将这些特征送入神经网络模型进行训练，可以计算目标关键词在不同的文档中不同的权重值，提高了生成关键词的权重值的准确度，解决了无监督方法无法综合利用更多的语义和文本信息的缺点。

上述为本实施例的一种词权重生成模型训练装置的示意性方案。需要说明的是，该词权重生成模型训练装置的技术方案与上述的词权重生成模型训练方法的技术方案属于同一构思，词权重生成模型训练装置的技术方案未详细描述的细节内容，均可以参见上述词权重生成模型训练方法的技术方案的描述。

与上述词权重生成方法实施例相对应，本申请还提供了词权重生成装置实施例，图6示出了本申请一个实施例的词权重生成装置的结构示意图。如图6所示，该装置包括：

获取模块602，被配置为获取待处理问题，并提取所述待处理问题的目标关键词；

输入模块604，被配置为将所述待处理问题和所述目标关键词输入至预先训练好的词权重生成模型，其中，所述词权重生成模型是通过上述的词权重生成模型训练方法或者其他训练方法训练获得的；

生成模块606，被配置为响应于作为输入的所述待处理问题和所述目标关键词，所述词权重模型生成每个目标关键词对应的预测权重值。

本申请实施例提供的词权重生成装置，包括获取待处理问题，并提取所述待处理问题的目标关键词；将所述待处理问题和所述目标关键词输入至预先训练好的词权重生成模型，其中，所述词权重生成模型是通过上述的词权重生成模型训练方法或者其他训练方法训练获得的；响应于作为输入的所述待处理问题和所述目标关键词，所述词权重模型生成每个目标关键词对应的预测权重值。通过本申请提供给的词权重生成装置，将待处理问题和该待处理问题的目标关键词输入至词权重生成模型，获得每个目标关键词的预测权重值，提高了生成关键词权重的准确度和灵活度，便于后续的处理过程中下游任务的准确高效。

上述为本实施例的一种词权重生成装置的示意性方案。需要说明的是，该词权重生成装置的技术方案与上述的词权重生成方法的技术方案属于同一构思，词权重生成装置的技术方案未详细描述的细节内容，均可以参见上述词权重生成方法的技术方案的描述。

需要说明的是，装置权利要求中的各组成部分应当理解为实现该程序流程各步骤或该方法各步骤所必须建立的功能模块，各个功能模块并非实际的功能分割或者分离限定。由这样一组功能模块限定的装置权利要求应当理解为主要通过说明书记载的计算机程序实现该解决方案的功能模块构架，而不应当理解为主要通过硬件方式实现该解决方案的实体装置。

本申请一实施例中还提供一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现所述的词权重生成模型训练方法或词权重生成方法的步骤。

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的词权重生成模型训练方法或词权重生成方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述的词权重生成模型训练方法或词权重生成方法的技术方案的描述。

本申请一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现如前所述的词权重生成模型训练方法或词权重生成方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的词权重生成模型训练方法或词权重生成方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述的词权重生成模型训练方法或词权重生成方法的技术方案的描述。

本申请实施例公开了一种芯片，其存储有计算机指令，该指令被处理器执行时实现如前所述词权重生成模型训练方法或词权重生成方法的步骤。

上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本申请的内容，可作很多的修改和变化。本申请选取并具体描述这些实施例，是为了更好地解释本申请的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种词权重生成模型训练方法，其特征在于，包括：

分别获取目标问题、所述目标问题对应的目标答案；

2.如权利要求1所述的词权重生成模型训练方法，其特征在于，提取所述目标问题的关键词，组成关键词组合，包括：

提取所述目标问题的至少一个关键词；

根据所述至少一个关键词生成关键词组合。

3.如权利要求1所述的词权重生成模型训练方法，其特征在于，根据至少一个所述关键词组合确定初始文档集合，包括：

搜索并获取每个关键词组合对应的初始文档；

将每个上述初始文档组合成为初始文档集合。

4.如权利要求3所述的词权重生成模型训练方法，其特征在于，根据所述目标答案和所述初始文档集合确定目标文档集合和目标关键词组合，包括：

根据所述目标文档集合确定目标关键词组合。

5.如权利要求4所述的词权重生成模型训练方法，其特征在于，根据所述目标答案在所述初始文档集合中确定目标文档集合，包括：

6.如权利要求5所述的词权重生成模型训练方法，其特征在于，根据所述目标文档集合确定目标关键词组合，包括：

将每篇目标文档对应的关键词组合确定为目标关键词组合。

7.如权利要求1所述的词权重生成模型训练方法，其特征在于，根据所述目标关键词组合获得每个目标关键词的目标权重值，包括：

8.如权利要求1所述的词权重生成模型训练方法，其特征在于，根据所述目标问题、每个目标关键词和目标权重值训练词权重生成模型，包括：

将所述目标问题和每个目标关键词输入至词权重模型；

根据所述损失值调整所述词权重模型的参数。

9.如权利要求8所述的词权重生成模型训练方法，其特征在于，响应于作为输入的所述目标问题和每个目标关键词，所述词权重模型生成每个目标关键词对应的预测权重值，包括：

获取每个目标关键词对应的属性信息；

10.如权利要求1所述的词权重生成模型训练方法，其特征在于，分别获取目标问题、所述目标问题对应的目标答案，包括：

读取日志记录信息；

11.一种词权重生成方法，其特征在于，包括：

获取待处理问题，并提取所述待处理问题的目标关键词；

12.一种词权重生成模型训练装置，其特征在于，包括：

13.一种词权重生成装置，其特征在于，包括：

14.一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，其特征在于，所述处理器执行所述指令时实现权利要求1-10或者11任意一项所述方法的步骤。

15.一种计算机可读存储介质，其存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求1-10或者11任意一项所述方法的步骤。