CN111881334A

CN111881334A - 一种基于半监督学习的关键词到企业的检索方法

Info

Publication number: CN111881334A
Application number: CN202010683463.8A
Authority: CN
Inventors: 陈家银; 邱耶; 龚小龙; 陈曦; 麻志毅; 彭军民
Original assignee: Advanced Institute of Information Technology AIIT of Peking University; Hangzhou Weiming Information Technology Co Ltd; Zhejiang Great Shengda Packing Co Ltd
Current assignee: Advanced Institute of Information Technology AIIT of Peking University; Hangzhou Weiming Information Technology Co Ltd; Zhejiang Great Shengda Packing Co Ltd
Priority date: 2020-07-15
Filing date: 2020-07-15
Publication date: 2020-11-03

Abstract

本发明涉及一种检索方法，尤其涉及一种基于半监督学习的关键词到企业的检索方法，属于应用于信息检索领域。自训练方法首先使用初始标注数据训练模型，然后使用模型对部分无标注数据进行识别并将其加入到标注数据集中，作为新的训练数据；通过多轮次的自动数据标注和迭代训练学习，得到最终的模型。半监督学习方法可以大大降低人工标注成本，提高检索匹配效率。

Description

一种基于半监督学习的关键词到企业的检索方法

技术领域

本发明涉及一种检索方法，尤其涉及一种基于半监督学习的关键词到企业的检索方法，属于应用于信息检索领域。

背景技术

通过关键词检索企业是指利用企业品牌、产品或工厂的关键词检索出该部分信息背后对应的具体企业，有利于市场人员进行精准营销。例如市场人员希望找到医疗器械行业品牌“迈德斯特”背后企业。由于不同的企业在企业名称、企业商标、经营范围等文本内容上存在相同的关键词信息，导致关键词信息在不同数据源检索会返回大量具有歧义内容的企业。例如对于品牌关键词“迈德斯特”，商标注册信息检索结果，返回的企业列表为{“衡水慧东商贸有限公司”,“衡水科谷电子科技有限公司”，“河北瑞朗德医疗器械科技集团有限公司”，…},共有62条检索结果；企业工商信息检索结果所示，返回的企业列表为{“河北迈德斯特医药有限公司”,“衡水恒泽康医疗器械有限公司”, “河北瑞朗德医疗器械科技集团有限公司”，…},共有17条检索结果。通过该例子可以看出，利用单搜索源难以确定关键词对应的具体企业。针对此问题，本发明主要基于商标搜索接口和企业搜索接口两个数据源得到候选企业列表，应用深度学习技术，提出一种使用少量标注数据的半监督学习方法构建企业信息检索模型，实现面向关键词的企业智能检索引擎。

基本思路：首先分别对输入和候选检索项进行向量编码表示，然后计算输入与候选项之间的语义相似度，取相似度最高的一项作为匹配结果。词向量编码是指将词映射为一个密集、低维的实值向量，基于词向量可以更好地捕获词语之间的语义关系，提升文本处理任务的性能。近年来，BERT算法超越了之前的语言表示学习算法，可以学习到更准确的文本表示。相比word2vec等方法，BERT更好地考虑了上下文信息，缓解了一词多义的问题。ALBERT模型是基于BERT算法的最新改进成果之一，减少了内存使用的同时提升了训练速度。卷积神经网络(CNN)是常用的编码器，通过卷积操作和池化操作来学习输入的表示。卷积操作可以增强局部信息的利用，池化操作可以学习更高层的表示。

传统有监督方法需要提供大量的人工标注训练数据，人力成本太高。针对此问题，本发明使用基于半监督学习的检索方法。半监督学习指同时利用少量标注数据和大量无标注数据来训练模型的一类算法，其中自训练方法是常用的半监督算法之一。自训练方法首先使用初始标注数据训练模型，然后使用模型对部分无标注数据进行识别并将其加入到标注数据集中，作为新的训练数据；通过多轮次的自动数据标注和迭代训练学习，得到最终的模型。半监督学习只需要借助少量的标注数据来完成模型的迭代训练，可以有效缓解标注数据不足的问题，大大降低人工成本。

发明内容

本发明主要是解决现有技术中存在的不足，解决一种在市场拓展过程中，市场人员往往最先获知的不是企业客户全称，而是企业品牌、产品或工厂的关键词，然而仅知道这些关键词信息，人工很难快速通过互联网等平台检索出该信息背后对应的具体企业。原因是很多企业在工商信息注册时所填写的企业名称、企业商标、经营范围等文本内容上存在大量的相同关键词信息，导致关键词信息检索无法准确捕捉用户语义需求，召回结果中出现大量的具有歧义内容的企业。针对上述问题，提出一种基于半监督学习的关键词到企业的检索方法，该方法核心是通过多源数据挖掘不同渠道下关键词对应的企业信息，通过半监督学习方法对检索返回的候选企业按相关性进行排序，推荐目标企业。

本发明的上述技术问题主要是通过下述技术方案得以解决的：

一种基于半监督学习的关键词到企业的检索方法，按以下步骤进行：

(一)、前期分析：

该方法应用神经网络模型计算关键词与检索返回的候选企业之间的语义相似度，对候选企业进行排序，推荐目标企业；具体来说，该方法使用预训练的ALBERT模型对关键词以及检索返回的候选企业信息分别进行向量编码，并构建匹配模型KC-CNN计算关键词信息与候选企业信息的语义相似度；通过对相似度的排序得到对应的目标企业；使用自训练方法与部分专家知识结合的半监督方式对模型进行迭代训练；下面将从预训练语言模型、半监督匹配两个方面进行阐述；

(二)、预训练语言模型：

使用大量无标注文本对语言模型进行预训练，可以学习到文本中潜在的语义信息，更精确地编码文本；

在不同文本处理任务中，字词的使用方法和使用频率不同，同时存在一些专有名词；例如“瓦楞纸箱”，这是一个在通用语料中较少出现的名词，但在纸包装领域内是一个常用词；针对不同应用任务，在现有语言模型基础上考虑加入领域数据进行训练，可以使得模型更加匹配业务场景；基于此，使用企业简介和经营范围作为训练语料，因为企业的简介和经营范围描述了该企业的主营产品和提供的服务；使用ALBERT作为语言模型；作为最新的语言模型之一， ALBERT在BERT基础上减少了内存使用的同时提升了训练速度，取得了更好的词编码效果；模型预训练的主要步骤为：

(1)文本语料收集：通过企业信息查询系统收集企业的简介和经营范围，整理为文本语料；

(2)文本预处理：对简介和经营范围进行清洗，删除噪声文本，以及与企业描述无关的词句，例如“依法须经批准的项目，经相关部门批准后方可开展经营活动”相关补充说明性文字；

(3)模型训练：ALBERT模型将无标注文本作为输入，通过预训练任务进行模型学习；ALBERT相对于BERT，主要在三方面做了改进：1)词嵌入参数因式分解，ALBERT通过降低词嵌入的维度来减少参数量；2)隐藏层间参数共享， ALBERT中全连接层和注意力层的参数均共享；3)提出新的训练任务，ALBERT 提出了“句子间顺序预测”作为新的预测任务，即给定两个句子，预测它们的前后顺序；该任务能够学到更多的句子间语义关系和上下文信息；

通过使用企业信息语料进行预训练，ALBERT模型完成了领域自适应，更加适配品牌与企业匹配的应用场景；

(三)、基于半监督学习的检索方法：

通过关键词检索企业时，需要从多个候选项中选择最佳的匹配结果；为了找到关键词对应的企业，本发明使用文本匹配模型计算关键词与候选企业的语义相似度，最后将相似度最高的企业作为匹配结果；现实应用中，基于深度学习的匹配模型的表现往往优于其他语义匹配方法，因为深度匹配模型可以更有效地利用文本特征和提取匹配项与待匹配项之间的交互信息，学习更丰富的表示；但是深度学习需要大量标注数据，在实际应用中难以得到满足；同时，单一数据源难以确定关键词对应的具体企业，导致匹配不准确；基于少量标注数据构建关键词到具体企业的检索模型，并对两个检索数据源分别进行建模，具体方法为：(1)构建关键词-候选企业匹配模型KC-CNN，并使用初始标注数据对模型进行训练；(2)使用KC-CNN模型对待检索的关键词进行企业关联，其中对商标搜索接口使用B_KC-CNN，对企业搜索接口使用C_KC-CNN，将二者一致的匹配结果作为新的训练数据，缓解标注数据不足的问题；(3)利用专家知识对部分模型输出结果进行人工校正，保证训练数据的准确性；

3.1关键词-候选项匹配模型：

利用少量关键词与候选项的匹配标注数据，使用基于ALBERT和CNN构建的KC-CNN模型对关键词的对应企业进行识别；训练数据由企业关键词和两个检索渠道返回的候选企业组成：给定待检索项q＝{q₁，q₂}，其中q₁表示关键词主特征，q₂表示关键词副特征，关键词副特征可以用于解决关键词的歧义问题；企业搜索接口得到的候选企业集合为

其中

表示单个企业样本；每个样本中，

分别表示企业名称、企业简介和经营范围3个特征；类似地，通过商标搜索接口得到的候选企业集合为：

其中

分别表示每个样本的企业名称、商标名称和商标类别3个特征；对于有标注数据，P₁和P₂中标签为1的样本为正样本，即该关键词所对应的企业；对于未标注数据，集合中样本标签均设置为0；由于不同渠道得到的候选项的输入特征不同，使用同一算法框架分别构建B_KC-CNN和C_KC-CNN来处理不同的特征输入；考虑一对(关键词,候选企业)输入(q，a)，KC-CNN模型首先使用 ALBERT模型对输入进行编码，得到输入的上下文表示(m_q，m_a)；之后使用卷积神经网络计算关键词和企业的向量表示(r_q，r_a)，并计算两个向量之间的余弦相似度；最后，通过优化关键词-候选企业对之间的成对排序损失，训练得到 KC-CNN模型；

(1)输入文本处理：

KC-CNN接收(关键词,候选企业)对作为输入；对于待检索关键词，将关键词主特征和关键词副特征作为输入文本；对于商标搜索途径的候选企业，将商标名称、商标类别以及企业简称作为输入文本，其中企业简称通过删除企业名称中的地名前缀和公司类型后缀得到；对于企业搜索途径的候选企业，将企业简称，以及企业简介和经营范围的前20个字作为输入文本；

(2)特征编码：

KC-CNN使用预训练ALBERT语言模型作为编码器，对输入文本中的每一个 Token产生一个上下文表示，拼接后得到输入文本的特征编码矩阵；使用 m_q＝[e₁，e₂，...，e_M]∈R^M×d表示待检索关键词的编码矩阵， m_a＝[e₁，e₂，...，e_N]∈R^N×d表示候选企业的编码矩阵；其中M和N分别为输入中的Token个数，本发明中M设置为10、N设置为50；d为预训练词向量维度，ALBERT将其设置为128维；

(3)卷积和池化：

选取不同窗口大小的卷积核，对特征矩阵进行卷积操作：

c_i＝g(v^Te_i：(i+h-1))，

其中g代表卷积运算；v∈R^h×d,其中h一般取2和3，表示不同的窗口大小，用于抽取不同层次的N-gram信息；使用多个卷积核对特征进行卷积，每个卷积核输出一个卷积序列，即

一般核数量取n＝50；之后对每一个卷积序列采用最大池化进行特征选取，输出该序列中的最大值；并使用非线性函数tanh对所有卷积序列池化的结果进行规范化，得到输入特征的向量表示：

其中r每一维的取值范围为[-1，1]；

(4)计算匹配相似度：

得到输入的向量表示(r_q，r_a)后，KC-CNN计算向量之间的余弦相似度作为其匹配相似度：

(5)损失函数：

KC-CNN通过优化成对排序损失函数对模型进行训练；每一轮得到两对(关键词,候选企业)的匹配相似度，计算二者之间的排序损失；具体来说，对两对输入(q，a⁺)和(q，a^-)，其中a⁺表示待检索关键词的对应企业，a^-表示候选企业中任意一个不正确匹配的企业，使用铰链损失定义成对损失函数：

L＝max{0，t-s(q，a⁺)+s(q，a^-)}

其中t为一个自定义常数，表示正确匹配和错误匹配之间的间隔，本方法中取值为0.5；通过优化成对排序损失函数，KC-CNN倾向于对关键词与关联企业的匹配打分高，对非关联企业的匹配结果打分低；

3.2自训练迭代学习：

由于现实应用中数据标注的人力成本过高，无法使用足量标注数据对模型进行学习；针对此问题，使用基于半监督的自训练方法训练模型；通过标注少量数据，首先按3.1节的内容构建初始KC-CNN模型；接着利用大量无标注数据，使用自训练方法对模型进行迭代学习后，得到最终模型。具体步骤为：

(1)从未标注数据中随机选取Q个待检索关键词以及其对应的无标签候选企业列表；在本发明中Q取50；

(2)对于每个待检索关键词，使用B_KC-CNN模型在商标搜索接口的候选企业列表中进行匹配检索，使用C_KC-CNN模型在企业搜索接口的候选企业列表中进行匹配检索，分别得到检索结果；

(3)若二者检索结果一致，将该企业标注为正例，其他候选企业标注为负例，加入到标注数据集中；若二者匹配结果不一致，利用专家知识进行人工校正，选择正确的结果作为正例放入到标注数据集；

(4)使用扩增的标注数据集作为训练集，更新KC-CNN模型；

重复步骤(1)～(4)，直到未标注数据集合为空；自训练方法可以缓解标注数据不足的问题，大大降低人工成本；但是由于初始模型性能不足，单纯的自训练方法会导致将错误标注的数据加入到训练集中，对模型训练产生错误指导；通过对比两个检索结果并进行人工校正，可以保证标注数据的准确性，提高匹配模型的性能。

关键点和欲保护点是：

1、利用企业品牌、产品或工厂的关键词，通过基于半监督的关键词到企业的检索方法识别该信息对应的具体企业；

2、预训练商业领域的ALBERT语言模型，并结合深度神经网络CNN构建匹配检索模型；

3、基于少量标注数据，使用基于半监督学习的自训练方法训练模型。

优点：

1、通过挖掘多数据源下的企业信息，结合关键词副特征信息，优化了关键词信息检索的歧义性问题，得到更精确的检索结果；

2、针对特定任务对最前沿的语言表示学习模型进行预训练，可以使得模型更加匹配业务场景，完成领域自适应。

因此，本发明的一种基于半监督学习的关键词到企业的检索方法，半监督学习方法可以大大降低人工标注成本，提高检索匹配效率。

附图说明

图1是本发明中ALBERT模型训练的流程示意图；

图2是本发明中通过关键词检索企业的流程示意图；

图3是本发明中KC-CNN模型的结构图示意图。

具体实施方式

下面通过实施例，结合附图，对本发明的技术方案作进一步具体的说明。

实施例1：如图所示，一种基于半监督学习的关键词到企业的检索方法，按以下步骤进行：

(一)、前期分析：

(二)、预训练语言模型：

(4)文本语料收集：通过企业信息查询系统收集企业的简介和经营范围，整理为文本语料；

(5)文本预处理：对简介和经营范围进行清洗，删除噪声文本，以及与企业描述无关的词句，例如“依法须经批准的项目，经相关部门批准后方可开展经营活动”相关补充说明性文字；

(6)模型训练：ALBERT模型将无标注文本作为输入，通过预训练任务进行模型学习；ALBERT相对于BERT，主要在三方面做了改进：1)词嵌入参数因式分解，ALBERT通过降低词嵌入的维度来减少参数量；2)隐藏层间参数共享， ALBERT中全连接层和注意力层的参数均共享；3)提出新的训练任务，ALBERT 提出了“句子间顺序预测”作为新的预测任务，即给定两个句子，预测它们的前后顺序；该任务能够学到更多的句子间语义关系和上下文信息；

(三)、基于半监督学习的检索方法：

3.1关键词-候选项匹配模型：

其中

表示单个企业样本；每个样本中，

其中

(1)输入文本处理：

(2)特征编码：

(3)卷积和池化：

选取不同窗口大小的卷积核，对特征矩阵进行卷积操作：

c_i＝g(v^Te_i：(i+h-1))，

其中r每一维的取值范围为[-1，1]；

(4)计算匹配相似度：

(5)损失函数：

L＝max{0，t-s(q，a⁺)+s(q，a^-)}

3.2自训练迭代学习：

(4)使用扩增的标注数据集作为训练集，更新KC-CNN模型；

Claims

1.一种基于半监督学习的关键词到企业的检索方法，其特征在于按以下步骤进行：

(一)、前期分析：

(二)、预训练语言模型：

在不同文本处理任务中，字词的使用方法和使用频率不同，同时存在一些专有名词；例如“瓦楞纸箱”，这是一个在通用语料中较少出现的名词，但在纸包装领域内是一个常用词；针对不同应用任务，在现有语言模型基础上考虑加入领域数据进行训练，可以使得模型更加匹配业务场景；基于此，使用企业简介和经营范围作为训练语料，因为企业的简介和经营范围描述了该企业的主营产品和提供的服务；使用ALBERT作为语言模型；作为最新的语言模型之一，ALBERT在BERT基础上减少了内存使用的同时提升了训练速度，取得了更好的词编码效果；模型预训练的主要步骤为：

(3)模型训练：ALBERT模型将无标注文本作为输入，通过预训练任务进行模型学习；ALBERT相对于BERT，主要在三方面做了改进：1)词嵌入参数因式分解，ALBERT通过降低词嵌入的维度来减少参数量；2)隐藏层间参数共享，ALBERT中全连接层和注意力层的参数均共享；3)提出新的训练任务，ALBERT提出了“句子间顺序预测”作为新的预测任务，即给定两个句子，预测它们的前后顺序；该任务能够学到更多的句子间语义关系和上下文信息；

(三)、基于半监督学习的检索方法：

3.1关键词-候选项匹配模型：

其中

表示单个企业样本；每个样本中，

其中

分别表示每个样本的企业名称、商标名称和商标类别3个特征；对于有标注数据，P₁和P₂中标签为1的样本为正样本，即该关键词所对应的企业；对于未标注数据，集合中样本标签均设置为0；由于不同渠道得到的候选项的输入特征不同，使用同一算法框架分别构建B_KC-CNN和C_KC-CNN来处理不同的特征输入；考虑一对(关键词，候选企业)输入(q，a)，KC-CNN模型首先使用ALBERT模型对输入进行编码，得到输入的上下文表示(m_q，m_a)；之后使用卷积神经网络计算关键词和企业的向量表示(r_q，r_a)，并计算两个向量之间的余弦相似度；最后，通过优化关键词-候选企业对之间的成对排序损失，训练得到KC-CNN模型；

(1)输入文本处理：

KC-CNN接收(关键词，候选企业)对作为输入；对于待检索关键词，将关键词主特征和关键词副特征作为输入文本；对于商标搜索途径的候选企业，将商标名称、商标类别以及企业简称作为输入文本，其中企业简称通过删除企业名称中的地名前缀和公司类型后缀得到；对于企业搜索途径的候选企业，将企业简称，以及企业简介和经营范围的前20个字作为输入文本；

(2)特征编码：

KC-CNN使用预训练ALBERT语言模型作为编码器，对输入文本中的每一个Token产生一个上下文表示，拼接后得到输入文本的特征编码矩阵；使用m_q＝[e₁，e₂，...，e_M]∈R^M×d表示待检索关键词的编码矩阵，m_a＝[e₁，e₂，...，e_N]∈R^N×d表示候选企业的编码矩阵；其中M和N分别为输入中的Token个数，本发明中M设置为10、N设置为50；d为预训练词向量维度，ALBERT将其设置为128维；

(3)卷积和池化：

选取不同窗口大小的卷积核，对特征矩阵进行卷积操作：

c_i＝g(v^Te_i：(i+h-1))，

其中g代表卷积运算；v∈R^h×d，其中h一般取2和3，表示不同的窗口大小，用于抽取不同层次的N-gram信息；使用多个卷积核对特征进行卷积，每个卷积核输出一个卷积序列，即

其中r每一维的取值范围为[-1，1]；

(4)计算匹配相似度：

(5)损失函数：

KC-CNN通过优化成对排序损失函数对模型进行训练；每一轮得到两对(关键词，候选企业)的匹配相似度，计算二者之间的排序损失；具体来说，对两对输入(q，a⁺)和(q，a^-)，其中a⁺表示待检索关键词的对应企业，a^-表示候选企业中任意一个不正确匹配的企业，使用铰链损失定义成对损失函数：

L＝max{O，t-s(q，a⁺)+s(q，a^-)}

3.2自训练迭代学习：

(4)使用扩增的标注数据集作为训练集，更新KC-CNN模型；