CN111881334A - 一种基于半监督学习的关键词到企业的检索方法 - Google Patents
一种基于半监督学习的关键词到企业的检索方法 Download PDFInfo
- Publication number
- CN111881334A CN111881334A CN202010683463.8A CN202010683463A CN111881334A CN 111881334 A CN111881334 A CN 111881334A CN 202010683463 A CN202010683463 A CN 202010683463A CN 111881334 A CN111881334 A CN 111881334A
- Authority
- CN
- China
- Prior art keywords
- enterprise
- model
- training
- matching
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 238000012549 training Methods 0.000 claims abstract description 95
- 238000002372 labelling Methods 0.000 claims abstract description 22
- 238000013527 convolutional neural network Methods 0.000 claims description 70
- 239000013598 vector Substances 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 15
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000011176 pooling Methods 0.000 claims description 11
- 238000012163 sequencing technique Methods 0.000 claims description 9
- 238000013135 deep learning Methods 0.000 claims description 7
- 239000010410 layer Substances 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 230000000694 effects Effects 0.000 claims description 6
- 230000014509 gene expression Effects 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 3
- 238000013459 approach Methods 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 claims description 3
- 238000012937 correction Methods 0.000 claims description 3
- 230000002452 interceptive effect Effects 0.000 claims description 3
- 239000011229 interlayer Substances 0.000 claims description 3
- 238000003062 neural network model Methods 0.000 claims description 3
- 238000004806 packaging method and process Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000003044 adaptive effect Effects 0.000 claims 1
- 238000005516 engineering process Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9538—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种检索方法,尤其涉及一种基于半监督学习的关键词到企业的检索方法,属于应用于信息检索领域。自训练方法首先使用初始标注数据训练模型,然后使用模型对部分无标注数据进行识别并将其加入到标注数据集中,作为新的训练数据;通过多轮次的自动数据标注和迭代训练学习,得到最终的模型。半监督学习方法可以大大降低人工标注成本,提高检索匹配效率。
Description
技术领域
本发明涉及一种检索方法,尤其涉及一种基于半监督学习的关键词到企业 的检索方法,属于应用于信息检索领域。
背景技术
通过关键词检索企业是指利用企业品牌、产品或工厂的关键词检索出该部 分信息背后对应的具体企业,有利于市场人员进行精准营销。例如市场人员希 望找到医疗器械行业品牌“迈德斯特”背后企业。由于不同的企业在企业名称、 企业商标、经营范围等文本内容上存在相同的关键词信息,导致关键词信息在 不同数据源检索会返回大量具有歧义内容的企业。例如对于品牌关键词“迈德 斯特”,商标注册信息检索结果,返回的企业列表为{“衡水慧东商贸有限公 司”,“衡水科谷电子科技有限公司”,“河北瑞朗德医疗器械科技集团有限 公司”,…},共有62条检索结果;企业工商信息检索结果所示,返回的企业 列表为{“河北迈德斯特医药有限公司”,“衡水恒泽康医疗器械有限公司”, “河北瑞朗德医疗器械科技集团有限公司”,…},共有17条检索结果。通过 该例子可以看出,利用单搜索源难以确定关键词对应的具体企业。针对此问题, 本发明主要基于商标搜索接口和企业搜索接口两个数据源得到候选企业列表, 应用深度学习技术,提出一种使用少量标注数据的半监督学习方法构建企业信 息检索模型,实现面向关键词的企业智能检索引擎。
基本思路:首先分别对输入和候选检索项进行向量编码表示,然后计算输 入与候选项之间的语义相似度,取相似度最高的一项作为匹配结果。词向量编 码是指将词映射为一个密集、低维的实值向量,基于词向量可以更好地捕获词 语之间的语义关系,提升文本处理任务的性能。近年来,BERT算法超越了之 前的语言表示学习算法,可以学习到更准确的文本表示。相比word2vec等方 法,BERT更好地考虑了上下文信息,缓解了一词多义的问题。ALBERT模型是 基于BERT算法的最新改进成果之一,减少了内存使用的同时提升了训练速度。 卷积神经网络(CNN)是常用的编码器,通过卷积操作和池化操作来学习输入的 表示。卷积操作可以增强局部信息的利用,池化操作可以学习更高层的表示。
传统有监督方法需要提供大量的人工标注训练数据,人力成本太高。针对 此问题,本发明使用基于半监督学习的检索方法。半监督学习指同时利用少量 标注数据和大量无标注数据来训练模型的一类算法,其中自训练方法是常用的 半监督算法之一。自训练方法首先使用初始标注数据训练模型,然后使用模型 对部分无标注数据进行识别并将其加入到标注数据集中,作为新的训练数据; 通过多轮次的自动数据标注和迭代训练学习,得到最终的模型。半监督学习只 需要借助少量的标注数据来完成模型的迭代训练,可以有效缓解标注数据不足 的问题,大大降低人工成本。
发明内容
本发明主要是解决现有技术中存在的不足,解决一种在市场拓展过程中, 市场人员往往最先获知的不是企业客户全称,而是企业品牌、产品或工厂的关 键词,然而仅知道这些关键词信息,人工很难快速通过互联网等平台检索出该 信息背后对应的具体企业。原因是很多企业在工商信息注册时所填写的企业名 称、企业商标、经营范围等文本内容上存在大量的相同关键词信息,导致关键 词信息检索无法准确捕捉用户语义需求,召回结果中出现大量的具有歧义内容 的企业。针对上述问题,提出一种基于半监督学习的关键词到企业的检索方法, 该方法核心是通过多源数据挖掘不同渠道下关键词对应的企业信息,通过半监 督学习方法对检索返回的候选企业按相关性进行排序,推荐目标企业。
本发明的上述技术问题主要是通过下述技术方案得以解决的:
一种基于半监督学习的关键词到企业的检索方法,按以下步骤进行:
(一)、前期分析:
该方法应用神经网络模型计算关键词与检索返回的候选企业之间的语义 相似度,对候选企业进行排序,推荐目标企业;具体来说,该方法使用预训练 的ALBERT模型对关键词以及检索返回的候选企业信息分别进行向量编码,并 构建匹配模型KC-CNN计算关键词信息与候选企业信息的语义相似度;通过对 相似度的排序得到对应的目标企业;使用自训练方法与部分专家知识结合的半 监督方式对模型进行迭代训练;下面将从预训练语言模型、半监督匹配两个方 面进行阐述;
(二)、预训练语言模型:
使用大量无标注文本对语言模型进行预训练,可以学习到文本中潜在的语 义信息,更精确地编码文本;
在不同文本处理任务中,字词的使用方法和使用频率不同,同时存在一些 专有名词;例如“瓦楞纸箱”,这是一个在通用语料中较少出现的名词,但在 纸包装领域内是一个常用词;针对不同应用任务,在现有语言模型基础上考虑 加入领域数据进行训练,可以使得模型更加匹配业务场景;基于此,使用企业 简介和经营范围作为训练语料,因为企业的简介和经营范围描述了该企业的主 营产品和提供的服务;使用ALBERT作为语言模型;作为最新的语言模型之一, ALBERT在BERT基础上减少了内存使用的同时提升了训练速度,取得了更好的 词编码效果;模型预训练的主要步骤为:
(1)文本语料收集:通过企业信息查询系统收集企业的简介和经营范围, 整理为文本语料;
(2)文本预处理:对简介和经营范围进行清洗,删除噪声文本,以及与企 业描述无关的词句,例如“依法须经批准的项目,经相关部门批准后方可开展 经营活动”相关补充说明性文字;
(3)模型训练:ALBERT模型将无标注文本作为输入,通过预训练任务进 行模型学习;ALBERT相对于BERT,主要在三方面做了改进:1)词嵌入参数因 式分解,ALBERT通过降低词嵌入的维度来减少参数量;2)隐藏层间参数共享, ALBERT中全连接层和注意力层的参数均共享;3)提出新的训练任务,ALBERT 提出了“句子间顺序预测”作为新的预测任务,即给定两个句子,预测它们的 前后顺序;该任务能够学到更多的句子间语义关系和上下文信息;
通过使用企业信息语料进行预训练,ALBERT模型完成了领域自适应,更 加适配品牌与企业匹配的应用场景;
(三)、基于半监督学习的检索方法:
通过关键词检索企业时,需要从多个候选项中选择最佳的匹配结果;为了 找到关键词对应的企业,本发明使用文本匹配模型计算关键词与候选企业的语 义相似度,最后将相似度最高的企业作为匹配结果;现实应用中,基于深度学 习的匹配模型的表现往往优于其他语义匹配方法,因为深度匹配模型可以更有 效地利用文本特征和提取匹配项与待匹配项之间的交互信息,学习更丰富的表 示;但是深度学习需要大量标注数据,在实际应用中难以得到满足;同时,单 一数据源难以确定关键词对应的具体企业,导致匹配不准确;基于少量标注数 据构建关键词到具体企业的检索模型,并对两个检索数据源分别进行建模,具 体方法为:(1)构建关键词-候选企业匹配模型KC-CNN,并使用初始标注数 据对模型进行训练;(2)使用KC-CNN模型对待检索的关键词进行企业关联, 其中对商标搜索接口使用B_KC-CNN,对企业搜索接口使用C_KC-CNN,将二者 一致的匹配结果作为新的训练数据,缓解标注数据不足的问题;(3)利用专 家知识对部分模型输出结果进行人工校正,保证训练数据的准确性;
3.1关键词-候选项匹配模型:
利用少量关键词与候选项的匹配标注数据,使用基于ALBERT和CNN构建 的KC-CNN模型对关键词的对应企业进行识别;训练数据由企业关键词和两个 检索渠道返回的候选企业组成:给定待检索项q={q1,q2},其中q1表示关键词 主特征,q2表示关键词副特征,关键词副特征可以用于解决关键词的歧义问题; 企业搜索接口得到的候选企业集合为其中 表示单个企业样本;每个样本中,分别表示企业 名称、企业简介和经营范围3个特征;类似地,通过商标搜索接口得到的候选 企业集合为:其中 分别表示每个样本的企业名称、商标名称和商标类别3个特征;对 于有标注数据,P1和P2中标签为1的样本为正样本,即该关键词所对应的企业; 对于未标注数据,集合中样本标签均设置为0;由于不同渠道得到的候选项的 输入特征不同,使用同一算法框架分别构建B_KC-CNN和C_KC-CNN来处理不同 的特征输入;考虑一对(关键词,候选企业)输入(q,a),KC-CNN模型首先使用 ALBERT模型对输入进行编码,得到输入的上下文表示(mq,ma);之后使用卷积 神经网络计算关键词和企业的向量表示(rq,ra),并计算两个向量之间的余弦相 似度;最后,通过优化关键词-候选企业对之间的成对排序损失,训练得到 KC-CNN模型;
(1)输入文本处理:
KC-CNN接收(关键词,候选企业)对作为输入;对于待检索关键词,将关键 词主特征和关键词副特征作为输入文本;对于商标搜索途径的候选企业,将商 标名称、商标类别以及企业简称作为输入文本,其中企业简称通过删除企业名 称中的地名前缀和公司类型后缀得到;对于企业搜索途径的候选企业,将企业 简称,以及企业简介和经营范围的前20个字作为输入文本;
(2)特征编码:
KC-CNN使用预训练ALBERT语言模型作为编码器,对输入文本中的每一个 Token产生一个上下文表示,拼接后得到输入文本的特征编码矩阵;使用 mq=[e1,e2,...,eM]∈RM×d表示待检索关键词的编码矩阵, ma=[e1,e2,...,eN]∈RN×d表示候选企业的编码矩阵;其中M和N分别为输入 中的Token个数,本发明中M设置为10、N设置为50;d为预训练词向量维度,ALBERT将其设置为128维;
(3)卷积和池化:
选取不同窗口大小的卷积核,对特征矩阵进行卷积操作:
ci=g(vTei:(i+h-1)),
其中g代表卷积运算;v∈Rh×d,其中h一般取2和3,表示不同的窗口大 小,用于抽取不同层次的N-gram信息;使用多个卷积核对特征进行卷积,每 个卷积核输出一个卷积序列,即一般核数量取n=50;之 后对每一个卷积序列采用最大池化进行特征选取,输出该序列中的最大值;并 使用非线性函数tanh对所有卷积序列池化的结果进行规范化,得到输入特征 的向量表示:
其中r每一维的取值范围为[-1,1];
(4)计算匹配相似度:
得到输入的向量表示(rq,ra)后,KC-CNN计算向量之间的余弦相似度作为其 匹配相似度:
(5)损失函数:
KC-CNN通过优化成对排序损失函数对模型进行训练;每一轮得到两对(关 键词,候选企业)的匹配相似度,计算二者之间的排序损失;具体来说,对两对 输入(q,a+)和(q,a-),其中a+表示待检索关键词的对应企业,a-表示候选企业 中任意一个不正确匹配的企业,使用铰链损失定义成对损失函数:
L=max{0,t-s(q,a+)+s(q,a-)}
其中t为一个自定义常数,表示正确匹配和错误匹配之间的间隔,本方法中取 值为0.5;通过优化成对排序损失函数,KC-CNN倾向于对关键词与关联企业的 匹配打分高,对非关联企业的匹配结果打分低;
3.2自训练迭代学习:
由于现实应用中数据标注的人力成本过高,无法使用足量标注数据对模型 进行学习;针对此问题,使用基于半监督的自训练方法训练模型;通过标注少 量数据,首先按3.1节的内容构建初始KC-CNN模型;接着利用大量无标注数 据,使用自训练方法对模型进行迭代学习后,得到最终模型。具体步骤为:
(1)从未标注数据中随机选取Q个待检索关键词以及其对应的无标签候 选企业列表;在本发明中Q取50;
(2)对于每个待检索关键词,使用B_KC-CNN模型在商标搜索接口的候选 企业列表中进行匹配检索,使用C_KC-CNN模型在企业搜索接口的候选企业列 表中进行匹配检索,分别得到检索结果;
(3)若二者检索结果一致,将该企业标注为正例,其他候选企业标注为 负例,加入到标注数据集中;若二者匹配结果不一致,利用专家知识进行人工 校正,选择正确的结果作为正例放入到标注数据集;
(4)使用扩增的标注数据集作为训练集,更新KC-CNN模型;
重复步骤(1)~(4),直到未标注数据集合为空;自训练方法可以缓解 标注数据不足的问题,大大降低人工成本;但是由于初始模型性能不足,单纯 的自训练方法会导致将错误标注的数据加入到训练集中,对模型训练产生错误 指导;通过对比两个检索结果并进行人工校正,可以保证标注数据的准确性, 提高匹配模型的性能。
关键点和欲保护点是:
1、利用企业品牌、产品或工厂的关键词,通过基于半监督的关键词到企业 的检索方法识别该信息对应的具体企业;
2、预训练商业领域的ALBERT语言模型,并结合深度神经网络CNN构建匹 配检索模型;
3、基于少量标注数据,使用基于半监督学习的自训练方法训练模型。
优点:
1、通过挖掘多数据源下的企业信息,结合关键词副特征信息,优化了关键 词信息检索的歧义性问题,得到更精确的检索结果;
2、针对特定任务对最前沿的语言表示学习模型进行预训练,可以使得模型 更加匹配业务场景,完成领域自适应。
因此,本发明的一种基于半监督学习的关键词到企业的检索方法,半监督 学习方法可以大大降低人工标注成本,提高检索匹配效率。
附图说明
图1是本发明中ALBERT模型训练的流程示意图;
图2是本发明中通过关键词检索企业的流程示意图;
图3是本发明中KC-CNN模型的结构图示意图。
具体实施方式
下面通过实施例,结合附图,对本发明的技术方案作进一步具体的说明。
实施例1:如图所示,一种基于半监督学习的关键词到企业的检索方法, 按以下步骤进行:
(一)、前期分析:
该方法应用神经网络模型计算关键词与检索返回的候选企业之间的语义 相似度,对候选企业进行排序,推荐目标企业;具体来说,该方法使用预训练 的ALBERT模型对关键词以及检索返回的候选企业信息分别进行向量编码,并 构建匹配模型KC-CNN计算关键词信息与候选企业信息的语义相似度;通过对 相似度的排序得到对应的目标企业;使用自训练方法与部分专家知识结合的半 监督方式对模型进行迭代训练;下面将从预训练语言模型、半监督匹配两个方 面进行阐述;
(二)、预训练语言模型:
使用大量无标注文本对语言模型进行预训练,可以学习到文本中潜在的语 义信息,更精确地编码文本;
在不同文本处理任务中,字词的使用方法和使用频率不同,同时存在一些 专有名词;例如“瓦楞纸箱”,这是一个在通用语料中较少出现的名词,但在 纸包装领域内是一个常用词;针对不同应用任务,在现有语言模型基础上考虑 加入领域数据进行训练,可以使得模型更加匹配业务场景;基于此,使用企业 简介和经营范围作为训练语料,因为企业的简介和经营范围描述了该企业的主 营产品和提供的服务;使用ALBERT作为语言模型;作为最新的语言模型之一, ALBERT在BERT基础上减少了内存使用的同时提升了训练速度,取得了更好的 词编码效果;模型预训练的主要步骤为:
(4)文本语料收集:通过企业信息查询系统收集企业的简介和经营范围, 整理为文本语料;
(5)文本预处理:对简介和经营范围进行清洗,删除噪声文本,以及与企 业描述无关的词句,例如“依法须经批准的项目,经相关部门批准后方可开展 经营活动”相关补充说明性文字;
(6)模型训练:ALBERT模型将无标注文本作为输入,通过预训练任务进 行模型学习;ALBERT相对于BERT,主要在三方面做了改进:1)词嵌入参数因 式分解,ALBERT通过降低词嵌入的维度来减少参数量;2)隐藏层间参数共享, ALBERT中全连接层和注意力层的参数均共享;3)提出新的训练任务,ALBERT 提出了“句子间顺序预测”作为新的预测任务,即给定两个句子,预测它们的 前后顺序;该任务能够学到更多的句子间语义关系和上下文信息;
通过使用企业信息语料进行预训练,ALBERT模型完成了领域自适应,更 加适配品牌与企业匹配的应用场景;
(三)、基于半监督学习的检索方法:
通过关键词检索企业时,需要从多个候选项中选择最佳的匹配结果;为了 找到关键词对应的企业,本发明使用文本匹配模型计算关键词与候选企业的语 义相似度,最后将相似度最高的企业作为匹配结果;现实应用中,基于深度学 习的匹配模型的表现往往优于其他语义匹配方法,因为深度匹配模型可以更有 效地利用文本特征和提取匹配项与待匹配项之间的交互信息,学习更丰富的表 示;但是深度学习需要大量标注数据,在实际应用中难以得到满足;同时,单 一数据源难以确定关键词对应的具体企业,导致匹配不准确;基于少量标注数 据构建关键词到具体企业的检索模型,并对两个检索数据源分别进行建模,具 体方法为:(1)构建关键词-候选企业匹配模型KC-CNN,并使用初始标注数 据对模型进行训练;(2)使用KC-CNN模型对待检索的关键词进行企业关联, 其中对商标搜索接口使用B_KC-CNN,对企业搜索接口使用C_KC-CNN,将二者 一致的匹配结果作为新的训练数据,缓解标注数据不足的问题;(3)利用专 家知识对部分模型输出结果进行人工校正,保证训练数据的准确性;
3.1关键词-候选项匹配模型:
利用少量关键词与候选项的匹配标注数据,使用基于ALBERT和CNN构建 的KC-CNN模型对关键词的对应企业进行识别;训练数据由企业关键词和两个 检索渠道返回的候选企业组成:给定待检索项q={q1,q2},其中q1表示关键词 主特征,q2表示关键词副特征,关键词副特征可以用于解决关键词的歧义问题; 企业搜索接口得到的候选企业集合为其中 表示单个企业样本;每个样本中,分别表示企业 名称、企业简介和经营范围3个特征;类似地,通过商标搜索接口得到的候选 企业集合为:其中 分别表示每个样本的企业名称、商标名称和商标类别3个特征;对 于有标注数据,P1和P2中标签为1的样本为正样本,即该关键词所对应的企业; 对于未标注数据,集合中样本标签均设置为0;由于不同渠道得到的候选项的 输入特征不同,使用同一算法框架分别构建B_KC-CNN和C_KC-CNN来处理不同 的特征输入;考虑一对(关键词,候选企业)输入(q,a),KC-CNN模型首先使用 ALBERT模型对输入进行编码,得到输入的上下文表示(mq,ma);之后使用卷积 神经网络计算关键词和企业的向量表示(rq,ra),并计算两个向量之间的余弦相 似度;最后,通过优化关键词-候选企业对之间的成对排序损失,训练得到 KC-CNN模型;
(1)输入文本处理:
KC-CNN接收(关键词,候选企业)对作为输入;对于待检索关键词,将关键 词主特征和关键词副特征作为输入文本;对于商标搜索途径的候选企业,将商 标名称、商标类别以及企业简称作为输入文本,其中企业简称通过删除企业名 称中的地名前缀和公司类型后缀得到;对于企业搜索途径的候选企业,将企业 简称,以及企业简介和经营范围的前20个字作为输入文本;
(2)特征编码:
KC-CNN使用预训练ALBERT语言模型作为编码器,对输入文本中的每一个 Token产生一个上下文表示,拼接后得到输入文本的特征编码矩阵;使用 mq=[e1,e2,...,eM]∈RM×d表示待检索关键词的编码矩阵, ma=[e1,e2,...,eN]∈RN×d表示候选企业的编码矩阵;其中M和N分别为输入 中的Token个数,本发明中M设置为10、N设置为50;d为预训练词向量维度,ALBERT将其设置为128维;
(3)卷积和池化:
选取不同窗口大小的卷积核,对特征矩阵进行卷积操作:
ci=g(vTei:(i+h-1)),
其中g代表卷积运算;v∈Rh×d,其中h一般取2和3,表示不同的窗口大 小,用于抽取不同层次的N-gram信息;使用多个卷积核对特征进行卷积,每 个卷积核输出一个卷积序列,即一般核数量取n=50;之 后对每一个卷积序列采用最大池化进行特征选取,输出该序列中的最大值;并 使用非线性函数tanh对所有卷积序列池化的结果进行规范化,得到输入特征 的向量表示:
其中r每一维的取值范围为[-1,1];
(4)计算匹配相似度:
得到输入的向量表示(rq,ra)后,KC-CNN计算向量之间的余弦相似度作为其 匹配相似度:
(5)损失函数:
KC-CNN通过优化成对排序损失函数对模型进行训练;每一轮得到两对(关 键词,候选企业)的匹配相似度,计算二者之间的排序损失;具体来说,对两对 输入(q,a+)和(q,a-),其中a+表示待检索关键词的对应企业,a-表示候选企业 中任意一个不正确匹配的企业,使用铰链损失定义成对损失函数:
L=max{0,t-s(q,a+)+s(q,a-)}
其中t为一个自定义常数,表示正确匹配和错误匹配之间的间隔,本方法中取 值为0.5;通过优化成对排序损失函数,KC-CNN倾向于对关键词与关联企业的 匹配打分高,对非关联企业的匹配结果打分低;
3.2自训练迭代学习:
由于现实应用中数据标注的人力成本过高,无法使用足量标注数据对模型 进行学习;针对此问题,使用基于半监督的自训练方法训练模型;通过标注少 量数据,首先按3.1节的内容构建初始KC-CNN模型;接着利用大量无标注数 据,使用自训练方法对模型进行迭代学习后,得到最终模型。具体步骤为:
(1)从未标注数据中随机选取Q个待检索关键词以及其对应的无标签候 选企业列表;在本发明中Q取50;
(2)对于每个待检索关键词,使用B_KC-CNN模型在商标搜索接口的候选 企业列表中进行匹配检索,使用C_KC-CNN模型在企业搜索接口的候选企业列 表中进行匹配检索,分别得到检索结果;
(3)若二者检索结果一致,将该企业标注为正例,其他候选企业标注为 负例,加入到标注数据集中;若二者匹配结果不一致,利用专家知识进行人工 校正,选择正确的结果作为正例放入到标注数据集;
(4)使用扩增的标注数据集作为训练集,更新KC-CNN模型;
重复步骤(1)~(4),直到未标注数据集合为空;自训练方法可以缓解 标注数据不足的问题,大大降低人工成本;但是由于初始模型性能不足,单纯 的自训练方法会导致将错误标注的数据加入到训练集中,对模型训练产生错误 指导;通过对比两个检索结果并进行人工校正,可以保证标注数据的准确性, 提高匹配模型的性能。
Claims (1)
1.一种基于半监督学习的关键词到企业的检索方法,其特征在于按以下步骤进行:
(一)、前期分析:
该方法应用神经网络模型计算关键词与检索返回的候选企业之间的语义相似度,对候选企业进行排序,推荐目标企业;具体来说,该方法使用预训练的ALBERT模型对关键词以及检索返回的候选企业信息分别进行向量编码,并构建匹配模型KC-CNN计算关键词信息与候选企业信息的语义相似度;通过对相似度的排序得到对应的目标企业;使用自训练方法与部分专家知识结合的半监督方式对模型进行迭代训练;下面将从预训练语言模型、半监督匹配两个方面进行阐述;
(二)、预训练语言模型:
使用大量无标注文本对语言模型进行预训练,可以学习到文本中潜在的语义信息,更精确地编码文本;
在不同文本处理任务中,字词的使用方法和使用频率不同,同时存在一些专有名词;例如“瓦楞纸箱”,这是一个在通用语料中较少出现的名词,但在纸包装领域内是一个常用词;针对不同应用任务,在现有语言模型基础上考虑加入领域数据进行训练,可以使得模型更加匹配业务场景;基于此,使用企业简介和经营范围作为训练语料,因为企业的简介和经营范围描述了该企业的主营产品和提供的服务;使用ALBERT作为语言模型;作为最新的语言模型之一,ALBERT在BERT基础上减少了内存使用的同时提升了训练速度,取得了更好的词编码效果;模型预训练的主要步骤为:
(1)文本语料收集:通过企业信息查询系统收集企业的简介和经营范围,整理为文本语料;
(2)文本预处理:对简介和经营范围进行清洗,删除噪声文本,以及与企业描述无关的词句,例如“依法须经批准的项目,经相关部门批准后方可开展经营活动”相关补充说明性文字;
(3)模型训练:ALBERT模型将无标注文本作为输入,通过预训练任务进行模型学习;ALBERT相对于BERT,主要在三方面做了改进:1)词嵌入参数因式分解,ALBERT通过降低词嵌入的维度来减少参数量;2)隐藏层间参数共享,ALBERT中全连接层和注意力层的参数均共享;3)提出新的训练任务,ALBERT提出了“句子间顺序预测”作为新的预测任务,即给定两个句子,预测它们的前后顺序;该任务能够学到更多的句子间语义关系和上下文信息;
通过使用企业信息语料进行预训练,ALBERT模型完成了领域自适应,更加适配品牌与企业匹配的应用场景;
(三)、基于半监督学习的检索方法:
通过关键词检索企业时,需要从多个候选项中选择最佳的匹配结果;为了找到关键词对应的企业,本发明使用文本匹配模型计算关键词与候选企业的语义相似度,最后将相似度最高的企业作为匹配结果;现实应用中,基于深度学习的匹配模型的表现往往优于其他语义匹配方法,因为深度匹配模型可以更有效地利用文本特征和提取匹配项与待匹配项之间的交互信息,学习更丰富的表示;但是深度学习需要大量标注数据,在实际应用中难以得到满足;同时,单一数据源难以确定关键词对应的具体企业,导致匹配不准确;基于少量标注数据构建关键词到具体企业的检索模型,并对两个检索数据源分别进行建模,具体方法为:(1)构建关键词-候选企业匹配模型KC-CNN,并使用初始标注数据对模型进行训练;(2)使用KC-CNN模型对待检索的关键词进行企业关联,其中对商标搜索接口使用B_KC-CNN,对企业搜索接口使用C_KC-CNN,将二者一致的匹配结果作为新的训练数据,缓解标注数据不足的问题;(3)利用专家知识对部分模型输出结果进行人工校正,保证训练数据的准确性;
3.1关键词-候选项匹配模型:
利用少量关键词与候选项的匹配标注数据,使用基于ALBERT和CNN构建的KC-CNN模型对关键词的对应企业进行识别;训练数据由企业关键词和两个检索渠道返回的候选企业组成:给定待检索项q={q1,q2},其中q1表示关键词主特征,q2表示关键词副特征,关键词副特征可以用于解决关键词的歧义问题;企业搜索接口得到的候选企业集合为其中表示单个企业样本;每个样本中,分别表示企业名称、企业简介和经营范围3个特征;类似地,通过商标搜索接口得到的候选企业集合为:其中分别表示每个样本的企业名称、商标名称和商标类别3个特征;对于有标注数据,P1和P2中标签为1的样本为正样本,即该关键词所对应的企业;对于未标注数据,集合中样本标签均设置为0;由于不同渠道得到的候选项的输入特征不同,使用同一算法框架分别构建B_KC-CNN和C_KC-CNN来处理不同的特征输入;考虑一对(关键词,候选企业)输入(q,a),KC-CNN模型首先使用ALBERT模型对输入进行编码,得到输入的上下文表示(mq,ma);之后使用卷积神经网络计算关键词和企业的向量表示(rq,ra),并计算两个向量之间的余弦相似度;最后,通过优化关键词-候选企业对之间的成对排序损失,训练得到KC-CNN模型;
(1)输入文本处理:
KC-CNN接收(关键词,候选企业)对作为输入;对于待检索关键词,将关键词主特征和关键词副特征作为输入文本;对于商标搜索途径的候选企业,将商标名称、商标类别以及企业简称作为输入文本,其中企业简称通过删除企业名称中的地名前缀和公司类型后缀得到;对于企业搜索途径的候选企业,将企业简称,以及企业简介和经营范围的前20个字作为输入文本;
(2)特征编码:
KC-CNN使用预训练ALBERT语言模型作为编码器,对输入文本中的每一个Token产生一个上下文表示,拼接后得到输入文本的特征编码矩阵;使用mq=[e1,e2,...,eM]∈RM×d表示待检索关键词的编码矩阵,ma=[e1,e2,...,eN]∈RN×d表示候选企业的编码矩阵;其中M和N分别为输入中的Token个数,本发明中M设置为10、N设置为50;d为预训练词向量维度,ALBERT将其设置为128维;
(3)卷积和池化:
选取不同窗口大小的卷积核,对特征矩阵进行卷积操作:
ci=g(vTei:(i+h-1)),
其中g代表卷积运算;v∈Rh×d,其中h一般取2和3,表示不同的窗口大小,用于抽取不同层次的N-gram信息;使用多个卷积核对特征进行卷积,每个卷积核输出一个卷积序列,即一般核数量取n=50;之后对每一个卷积序列采用最大池化进行特征选取,输出该序列中的最大值;并使用非线性函数tanh对所有卷积序列池化的结果进行规范化,得到输入特征的向量表示:
其中r每一维的取值范围为[-1,1];
(4)计算匹配相似度:
得到输入的向量表示(rq,ra)后,KC-CNN计算向量之间的余弦相似度作为其匹配相似度:
(5)损失函数:
KC-CNN通过优化成对排序损失函数对模型进行训练;每一轮得到两对(关键词,候选企业)的匹配相似度,计算二者之间的排序损失;具体来说,对两对输入(q,a+)和(q,a-),其中a+表示待检索关键词的对应企业,a-表示候选企业中任意一个不正确匹配的企业,使用铰链损失定义成对损失函数:
L=max{O,t-s(q,a+)+s(q,a-)}
其中t为一个自定义常数,表示正确匹配和错误匹配之间的间隔,本方法中取值为0.5;通过优化成对排序损失函数,KC-CNN倾向于对关键词与关联企业的匹配打分高,对非关联企业的匹配结果打分低;
3.2自训练迭代学习:
由于现实应用中数据标注的人力成本过高,无法使用足量标注数据对模型进行学习;针对此问题,使用基于半监督的自训练方法训练模型;通过标注少量数据,首先按3.1节的内容构建初始KC-CNN模型;接着利用大量无标注数据,使用自训练方法对模型进行迭代学习后,得到最终模型。具体步骤为:
(1)从未标注数据中随机选取Q个待检索关键词以及其对应的无标签候选企业列表;在本发明中Q取50;
(2)对于每个待检索关键词,使用B_KC-CNN模型在商标搜索接口的候选企业列表中进行匹配检索,使用C_KC-CNN模型在企业搜索接口的候选企业列表中进行匹配检索,分别得到检索结果;
(3)若二者检索结果一致,将该企业标注为正例,其他候选企业标注为负例,加入到标注数据集中;若二者匹配结果不一致,利用专家知识进行人工校正,选择正确的结果作为正例放入到标注数据集;
(4)使用扩增的标注数据集作为训练集,更新KC-CNN模型;
重复步骤(1)~(4),直到未标注数据集合为空;自训练方法可以缓解标注数据不足的问题,大大降低人工成本;但是由于初始模型性能不足,单纯的自训练方法会导致将错误标注的数据加入到训练集中,对模型训练产生错误指导;通过对比两个检索结果并进行人工校正,可以保证标注数据的准确性,提高匹配模型的性能。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010683463.8A CN111881334A (zh) | 2020-07-15 | 2020-07-15 | 一种基于半监督学习的关键词到企业的检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010683463.8A CN111881334A (zh) | 2020-07-15 | 2020-07-15 | 一种基于半监督学习的关键词到企业的检索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111881334A true CN111881334A (zh) | 2020-11-03 |
Family
ID=73154615
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010683463.8A Withdrawn CN111881334A (zh) | 2020-07-15 | 2020-07-15 | 一种基于半监督学习的关键词到企业的检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111881334A (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112464656A (zh) * | 2020-11-30 | 2021-03-09 | 科大讯飞股份有限公司 | 关键词抽取方法、装置、电子设备和存储介质 |
CN112597208A (zh) * | 2020-12-29 | 2021-04-02 | 深圳价值在线信息科技股份有限公司 | 企业名称检索方法、企业名称检索装置及终端设备 |
CN112597124A (zh) * | 2020-11-30 | 2021-04-02 | 新华三大数据技术有限公司 | 一种数据字段映射方法、装置及存储介质 |
CN112650951A (zh) * | 2020-12-21 | 2021-04-13 | 撼地数智(重庆)科技有限公司 | 一种企业相似度匹配方法、系统和计算装置 |
CN112765313A (zh) * | 2020-12-31 | 2021-05-07 | 太原理工大学 | 一种基于原文和评论信息分析算法的虚假信息检测方法 |
CN113055018A (zh) * | 2021-03-18 | 2021-06-29 | 深圳前海黑顿科技有限公司 | 一种基于启发式线性变换的语义编码无损压缩系统及方法 |
CN113326354A (zh) * | 2021-06-29 | 2021-08-31 | 招商局金融科技有限公司 | 文本语义识别方法、装置、设备及存储介质 |
CN113343672A (zh) * | 2021-06-21 | 2021-09-03 | 哈尔滨工业大学 | 一种基于语料合并的无监督双语词典构建方法 |
CN113392323A (zh) * | 2021-06-15 | 2021-09-14 | 电子科技大学 | 基于多源数据联合学习的商务角色预测方法 |
CN113436698A (zh) * | 2021-08-27 | 2021-09-24 | 之江实验室 | 融合自监督和主动学习的医学术语自动标准化系统及方法 |
CN114067173A (zh) * | 2021-11-07 | 2022-02-18 | 西北工业大学 | 基于多清晰度集成自训练的小样本低质量图像目标检测方法 |
US20220318504A1 (en) * | 2021-03-30 | 2022-10-06 | Microsoft Technology Licensing, Llc | Interpreting text-based similarity |
CN115392241A (zh) * | 2022-08-14 | 2022-11-25 | 南京视察者智能科技有限公司 | 一种基于预训练模型的政务案例关键词自动标注方法 |
-
2020
- 2020-07-15 CN CN202010683463.8A patent/CN111881334A/zh not_active Withdrawn
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112464656A (zh) * | 2020-11-30 | 2021-03-09 | 科大讯飞股份有限公司 | 关键词抽取方法、装置、电子设备和存储介质 |
CN112597124A (zh) * | 2020-11-30 | 2021-04-02 | 新华三大数据技术有限公司 | 一种数据字段映射方法、装置及存储介质 |
CN112464656B (zh) * | 2020-11-30 | 2024-02-13 | 中国科学技术大学 | 关键词抽取方法、装置、电子设备和存储介质 |
CN112650951A (zh) * | 2020-12-21 | 2021-04-13 | 撼地数智(重庆)科技有限公司 | 一种企业相似度匹配方法、系统和计算装置 |
CN112597208A (zh) * | 2020-12-29 | 2021-04-02 | 深圳价值在线信息科技股份有限公司 | 企业名称检索方法、企业名称检索装置及终端设备 |
CN112765313B (zh) * | 2020-12-31 | 2022-06-28 | 太原理工大学 | 一种基于原文和评论信息分析算法的虚假信息检测方法 |
CN112765313A (zh) * | 2020-12-31 | 2021-05-07 | 太原理工大学 | 一种基于原文和评论信息分析算法的虚假信息检测方法 |
CN113055018A (zh) * | 2021-03-18 | 2021-06-29 | 深圳前海黑顿科技有限公司 | 一种基于启发式线性变换的语义编码无损压缩系统及方法 |
CN113055018B (zh) * | 2021-03-18 | 2023-05-12 | 深圳前海黑顿科技有限公司 | 一种基于启发式线性变换的语义编码无损压缩系统及方法 |
US20220318504A1 (en) * | 2021-03-30 | 2022-10-06 | Microsoft Technology Licensing, Llc | Interpreting text-based similarity |
US11868723B2 (en) * | 2021-03-30 | 2024-01-09 | Microsoft Technology Licensing, Llc. | Interpreting text-based similarity |
CN113392323A (zh) * | 2021-06-15 | 2021-09-14 | 电子科技大学 | 基于多源数据联合学习的商务角色预测方法 |
CN113392323B (zh) * | 2021-06-15 | 2022-04-19 | 电子科技大学 | 基于多源数据联合学习的商务角色预测方法 |
CN113343672A (zh) * | 2021-06-21 | 2021-09-03 | 哈尔滨工业大学 | 一种基于语料合并的无监督双语词典构建方法 |
CN113326354A (zh) * | 2021-06-29 | 2021-08-31 | 招商局金融科技有限公司 | 文本语义识别方法、装置、设备及存储介质 |
CN113436698A (zh) * | 2021-08-27 | 2021-09-24 | 之江实验室 | 融合自监督和主动学习的医学术语自动标准化系统及方法 |
CN114067173A (zh) * | 2021-11-07 | 2022-02-18 | 西北工业大学 | 基于多清晰度集成自训练的小样本低质量图像目标检测方法 |
CN115392241A (zh) * | 2022-08-14 | 2022-11-25 | 南京视察者智能科技有限公司 | 一种基于预训练模型的政务案例关键词自动标注方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111881334A (zh) | 一种基于半监督学习的关键词到企业的检索方法 | |
CN106202010B (zh) | 基于深度神经网络构建法律文本语法树的方法和装置 | |
CN109376222B (zh) | 问答匹配度计算方法、问答自动匹配方法及装置 | |
CN112214593B (zh) | 问答处理方法、装置、电子设备及存储介质 | |
CN108415953B (zh) | 一种基于自然语言处理技术的不良资产经营知识管理方法 | |
CN104615767B (zh) | 搜索排序模型的训练方法、搜索处理方法及装置 | |
CN106709040B (zh) | 一种应用搜索方法和服务器 | |
CN112100351A (zh) | 一种通过问题生成数据集构建智能问答系统的方法及设备 | |
CN112800776B (zh) | 双向gru关系抽取数据处理方法、系统、终端、介质 | |
CN112417097B (zh) | 一种用于舆情解析的多模态数据特征提取与关联方法 | |
US9009134B2 (en) | Named entity recognition in query | |
CN110162749A (zh) | 信息提取方法、装置、计算机设备及计算机可读存储介质 | |
CN111324752B (zh) | 基于图神经网络结构建模的图像与文本检索方法 | |
CN110765277B (zh) | 一种基于知识图谱的移动端的在线设备故障诊断方法 | |
CN113282711B (zh) | 一种车联网文本匹配方法、装置、电子设备及存储介质 | |
CN114417851B (zh) | 一种基于关键词加权信息的情感分析方法 | |
CN113761890A (zh) | 一种基于bert上下文感知的多层级语义信息检索方法 | |
CN115438674A (zh) | 实体数据处理、实体链接方法、装置和计算机设备 | |
CN113961666A (zh) | 关键词识别方法、装置、设备、介质及计算机程序产品 | |
CN112015907A (zh) | 一种学科知识图谱快速构建方法、装置及存储介质 | |
CN114281982B (zh) | 一种多模态融合技术的图书宣传摘要生成方法和系统 | |
CN115438195A (zh) | 一种金融标准化领域知识图谱的构建方法及装置 | |
CN110083676B (zh) | 一种基于短文本的领域动态跟踪方法 | |
Li et al. | LSTM-based deep learning models for answer ranking | |
CN113516094B (zh) | 一种用于为文档匹配评议专家的系统以及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20201103 |
|
WW01 | Invention patent application withdrawn after publication |