发明内容
本发明提供了一种标签映射方法、系统、计算机可读存储介质,本发明所提供的标签映射方法能够自动从候选标签中提取与目标文本相对应的目标标签,与现有基于映射规则所实现的方案相比,无需人工基于候选标签进行规则配置、逻辑校验等工作,在提高映射效率和召回率的同时能够有效减少人力成本。
为了解决上述技术问题,本发明通过下述技术方案得以解决:
一种标签映射方法,包括以下步骤:
获取目标文本;
对所述目标文本进行概念词抽取,获得相应的概念词(所述概念词的数量为至少一个);
计算概念词与预设的各候选标签的字面相似度及语义相似度,并根据字面相似度和语义相似度生成所述概念词与所述候选标签的相似得分;
基于所述相似得分提取相应的候选标签,获得与所述目标文本相对应的目标标签。
作为一种可实施方式:
提取各概念词所对应的关联标签,该关联标签为相似得分大于预设的词相似度阈值的候选标签;
统计各类关联标签所对应的相似总分,该相似总分为相同的关联标签所对应的相似得分的和,即,统计同一关联标签与各概念词的相似得分的累加值,获得相应的相似总分。
提取相似总分大于预设的文本相似度阈值的关联标签,获得与所述目标文本相对应的目标标签。
作为一种可实施方式:
提取目标文本中各字符所对应的字型嵌入特征向量和语义嵌入特征向量;
将字型嵌入特征向量和语义嵌入特征向量进行拼接和降维,获取结合字符特征向量;
将结合字符特征向量输入条件随机场层,通过调整训练参数获取输出的字符标签;
根据字符标签从目标文本中抽取概念词。
作为一种可实施方式:
所述字型嵌入特征向量为五笔字型嵌入特征向量。
作为一种可实施方式,计算字面相似度的步骤为:
计算概念词与候选标签的Levenshtein相似度和Jaccard系数,并根据Levenshtein相似度和Jaccard系数计算获得所述概念词与所述候选标签的字面相似度。
作为一种可实施方式,计算语义相似度的具体步骤为:
提取与概念词相对应的文本词向量,并提取与候选标签相对应的标签词向量;
计算文本词向量与标签词向量的余弦相似度、欧式距离相似度和Pearson系数,并根据余弦相似度、欧式距离相似度和Pearson系数计算获得所述概念词与所述候选标签的语义相似度。
作为一种可实施方式:
目标文本为属于行业类别的财经快讯文本;
目标标签为所述财经快讯文本相对应的概念板块标签。
本发明还提出一种标签映射系统,包括:
获取模块,用于获取目标文本;
抽取模块,用于对所述目标文本进行概念词抽取,获得相应的概念词;
相似度计算模块,用于计算概念词与预设的各候选标签的字面相似度及语义相似度,并根据字面相似度和语义相似度生成所述概念词与所述候选标签的相似得分;
映射模块,用于基于所述相似得分提取相应的候选标签,获得与所述目标文本相对应的目标标签。
作为一种可实施方式,所述映射模块包括:
第一提取单元,用于提取各概念词所对应的关联标签,该关联标签为相似得分大于预设的词相似度阈值的候选标签;
归并单元,用于统计各类关联标签所对应的相似总分,该相似总分为相同的关联标签所对应的相似得分的和;
第二提取单元,用于提取相似总分大于预设的文本相似度阈值的关联标签,获得与所述目标文本相对应的目标标签。
本发明还提出一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现上述任意一项所述方法的步骤。
本发明由于采用了以上技术方案,具有显著的技术效果:
本发明基于概念词和候选标签的相似程度进行标签映射,无需预先配置映射规则以及映射所需的近义词表,当候选标签发生更新时,无需对映射规则及近似词表进行更新,大大减少映射过程中人员的工作量。
本发明结合字面相似度和语义相似度两个维度,对概念词和候选标签的相似程度进行评分,不仅能够召回字面相似的标签,还能召回语义关联较强的标签,有效提高召回率,使所提取的目标标签更为准确、完整。
本发明对抽取概念词方法的设计,使所抽取的概念词为能够体现目标文本映射倾向的词汇,基于该概念词能够将目标文本更加准确的映射到相应的标签。
具体实施方式
下面结合实施例对本发明做进一步的详细说明,以下实施例是对本发明的解释而本发明并不局限于以下实施例。
实施例1、一种标签映射方法,如图1所示,包括以下步骤:
S100、获取目标文本;
S200、对所述目标文本进行概念词抽取,获得相应的概念词;
S300、计算概念词与预设的各候选标签的字面相似度及语义相似度,并根据字面相似度和语义相似度生成所述概念词与所述候选标签的相似得分;
S400、基于所述相似得分提取相应的候选标签,获得与所述目标文本相对应的目标标签。
本实施例基于概念词和候选标签的相似程度进行标签映射,无需预先配置映射规则以及映射所需的近义词表,当候选标签发生更新时,无需对映射规则及近似词表进行更新,大大减少映射过程中人员的工作量。
字面相似度用于标识词语的浅层次特征,它的优点在于可以以很高的准确度且很迅速的匹配到一些字符上有重叠的词;缺点是不能找到语义上相关、字符却没有太多重叠的词、如“新基建”与“5G”两个词字面相似度为0。语义相似度则可以弥补上述字面相似度的缺陷,体现词语间语义间的关联程度。
本实施例中结合字面相似度和语义相似度两个维度,对概念词和候选标签的相似程度进行评分,不仅能够召回字面相似的标签,还能召回语义关联较强的标签,有效提高召回率,使所提取的目标标签更为准确、完整。
步骤S100中所述的目标文本为属于行业类别的财经快讯文本,本领域技术人员可根据实际使用场景,自行定义目标文本,并自行设定目标文本的获取方式,例如手动选取,或者对所收集的文本进行预处理,从所收集的文本中抽取需要进行标签映射的文本作为目标文本,本实施例中例如可采用公开号为CN112070138A所公开的新闻分类方法,为财经快讯文本进行分类,并提取类别属于行业的财经快讯文本作为目标文本。
由于仅属于行业类别的财经快讯文本会涉及概念板块,故仅此类财经快讯文本需要进行标签映射,故本实施例中预先对财经快讯文本进行分类,基于分类结果确定需要进行映射的目标文本。
进一步地,步骤S200中对所述目标文本进行概念词抽取,获得相应的概念词的具体步骤为:
S210、提取目标文本中各字符所对应的字型嵌入特征向量和语义嵌入特征向量;
所述字型嵌入特征向量为五笔字型嵌入特征向量,即,每个字符的五笔特征。
语义嵌入特征向量为每个中文字符基于上下文的字符向量。
S211、提取目标文本的字符信息;
对于目标文本的字符信息可以如下表示:Si={w1,w2,...,wn},Si为目标文本的字符信息,n代表目标文本的字符数。
S212、向预先训练获得的字型特征提取模型输入步骤S211所得的字符信息Si,由所述字型特征提取模型输出目标文本中每个字符所对应的五笔字型嵌入特征向量,本实施例中字型特征提取模型采用卷积神经网络(CNN);
定义字符信息Si中单个汉字字符为wj,则每一汉字的五笔输入为wubi(wj)={bj1,bj2,...,bjk},其中bjk为单个汉字字符的五笔输入的一个字型结构,k代表五笔字型结构,j代表字符。
字型特征提取模型提取相应的五笔输入特征向量。将获取的五笔输入特征向量转化为指数形式,并设置五笔向量维度为d,获得各字符所对应的五笔向量矩阵Bi∈Rk×d,其结构为:
其中wubi(cjk)代表字符的五笔输入特征向量,e为自然指数。
采用卷积核建立不同的滑动窗口[a1,a2,a3],利用所述滑动窗口在五笔向量矩阵上滑动,提取不同窗口尺寸下的特征图,特征图表示为;
其中m1,m2,m3代表不同尺寸滑动窗口下的特征图,本实施例采用用窗口尺寸为[2,3,4]的卷积核在五笔向量矩阵上滑动,以获得相应的特征图。
将所得特征图进行平均池化和最大池化操作获得窗口输出,所述窗口输出为:
[O1,O2,O3]=αMaxPool[m1,m2,m3]+βMeanPool[m1,m2,m3]
其中,MaxPool为最大池化操作,MeanPool为平均池化操作,[O_1,O_2,O_3]为不同滑动窗口下的输出特征,α为最大池化可训练参数,β为平均池化操作可训练参数。
注,向量拼接是向量横向或纵向上的扩展,举例来说:定义一维向量m1=[1,2],m2=[3,4],将上述一维向量拼接获取拼接后的向量m3=[1,2,3,4]。对于二维及以上的向量拼接的方法同上。
S213、向预先训练获得的语义特征提取模型输入目标文本,由所述语义特征提取模型输出目标文本中每个字符所对应的语义嵌入特征向量
本实施例中语义特征提取模型采用RoBerta-wwm模型;
S220、将字型嵌入特征向量和语义嵌入特征向量进行拼接和降维,获取结合字符特征向量
其中,WO为降维可训练参数,其为矩阵结构,WO与拼接的语义嵌入特征向量和字型嵌入特征向量相乘可获得更小输出维度的结合字符特征向量;
S230、将结合字符特征向量输入条件随机场层,通过调整训练参数获取输出的字符标签;
所述条件随机场对所输入的字符特征向量进行约束解码,得到每一个字符的标签概率分布P(y|s):
其中y为预测标签,s为字符信息,y′为所有可能的标签序列,w′
j为对应的所有汉字字符,W
CRF为条件随机场的的参数,b
CRF为条件随机场的偏置项。
S240、根据字符标签从目标文本中抽取概念词。
预测标签用于指示对应字符在概念词中的位置,或指示对应字符非概念词,如B为概念词的起始字符,I为概念词的中间字符,E为概念词的结束字符,O为非概念词字符,通过提取B和E之间的词获得对应财经快讯的概念词,所述概念词可以为多个。
本实施例中字符特征提取模型、语义特征提取模型、拼接降维层(用于实现上述步骤S220)和条件随机场构成一个概念词抽取模型,该模型的训练步骤为:
获取训练数据,所述训练数据为标注实体信息的训练文本;
收集若干条财经快讯文本,将单条财经快讯文本作为概念词提取的基本单位;
将采集的财经快讯文本进行清洗,清洗方法包括:删除财经快讯文本爬虫网页中的一些特殊字符,不可见字符;去除快讯文本的首尾空白字符、换行符等;去除快讯文本中的URL链接;利用规则去除财经快讯文本中的一些电头电尾,如:(财联社XX日讯);剔除文本字数少于10的财经快讯;
对经过上述步骤处理后,文本字数仍然大于512的财经快讯文本进行截取,获得训练文本,每一条训练文本均符合字数和格式要求。
对每一条训练文本根据财经类新闻的命名规则进行实体标注,即标注B、I、E、O以指示作为实体的字符,以及在实体中的位置,获得训练数据;
标注的实体内容包括:需要表示出文本中的人名、地名、组织机构名和日期等实体。金融快讯的关键词需要反映的是对市场的波动、对行业、金融概念的影响等。需要标出的实体包括期货、金融板块、行业、产业链名词、金融事件名词等相关关键词。
利用训练数据训练概念词抽取模型,所述概念词抽取模型的输入是单个文本的字符信息,输出是每个字符在概念词中的位置(包括O,不在概念词中);
本实施例中采用一阶维特比算法对CRF层进行解码,并用带有L2正则项的log似然损失函数来训练整个模型。其中log似然损失函数为:
其中N为训练文本的,Θ为模型整体参数,λ为训练参数,P(yi|si)为字符的标签概率分布;
注,由于模型的训练方法为本领域常规技术手段,在已知模型架构、输入数据、输出数据和损失函数的前提下,本领域技术人员可轻易训练获得相对应的概念词抽取模型,故不对详细的训练步骤进行阐述。
在实际使用过程中,可通过收集相应时间区间内的财经快讯文本对上述模型进行再训练,从而使所抽取的概念词符合当前映射需要。
现今所公开的关键词抽取算法,往往只能获取文本中相对重要的词语,即,将词频较高的词作为关键词,召回率较低,且关键词可能无法体现目标文本类别;而本实施例中所抽取的概念词实际为能够体现目标文本与目标标签关联性的词汇,其在目标文本中可能仅出现一次,但具有目标文本的类别倾向,如本实施例中概念词即为具有明显概念板块倾向的词汇;
本实施例对概念词抽取方法的设计,能够通过字型和语义两个方面,提取出目标文本中概念词,且由于概念词本身具有所属概念板块的倾向,故能够进一步提高标签映射的准召率。
步骤S300中概念词的数量为至少一个,计算每个概念词与各候选标签的相似得分,以获得每个概念词与各候选标签的关联情况。
由于相似得分的计算步骤相同,故本实施例中仅对单个概念词与单个候选标签的相似得分计算步骤进行详细介绍,可通过以下步骤获得所述相似得分:
S310、计算字面相似度:
计算概念词与候选标签的Levenshtein相似度(编辑距离相似度)和Jaccard系数(杰卡德系数),并根据Levenshtein相似度和Jaccard系数计算获得所述概念词与所述候选标签的字面相似度。
Levenshtein相似度记为sL,其用于表示两个词字符的重合程度,计算公式如下:
其中,Lword1表示概念词的字符长度,Lword2表示候选标签的字符长度,DL表示所述概念词与候选标签的Levenshtein距离(编辑距离);
Jaccard相似系数记为sJ,用于通过两个字符串的交集与并集之间的比值度量相似程度,计算公式为:
其中,sword1表示概念词所对应的字符串,sword2表示候选标签所对应的字符串,J(sword1,sword2)即为概念词与候选标签的Jaccard相似系数sJ,sJ的值越大,表示相关概念词与概念板块词的字面相似度越高。
字面相似度记为Sliteral,本实施例中将Levenshtein sL和Jaccard相似系数sJ叠加获得字面相似度,公式如下:
Sliteral(Vkeyword,Vconcept)=sL+sJ;
其中,Vkeyword表示概念词,Vconcept表示候选标签。
本领域技术人员可根据实际需要设定Levenshtein sL和Jaccard相似系数sJ所对应权重进行叠加,本实施例中Levenshtein sL和Jaccard相似系数sJ所对应权重均为1。
S320、计算语义相似度:
不同于字面相似度,语义相似度更倾向于词汇在文本中含义的相近和在词语在文本中的可替代性。
S321、提取与概念词相对应的文本词向量,并提取与候选标签相对应的标签词向量;
语义相似度的计算需要将文本转换成向量的形式。本实施例采用预先训练获得的词向量模型进行词向量转换,即,将概念词和候选标签数据指所述词向量模型,由所述词向量模型输出相应的词向量表示;
词向量模型例如可采用Word2Vec模型,训练数据可采用预先收集的大量金融文本。
在使用过程中可通过收集金融文本对Word2Vec模型进行更新,即使候选标签变更频繁,亦能准确将目标文本映射至相应标签。
S322、计算文本词向量与标签词向量的余弦相似度、欧式距离相似度和Pearson系数(Pearson Correlation Coefficient,皮尔逊相关系数),并根据余弦相似度、欧式距离相似度和Pearson系数计算获得所述概念词与所述候选标签的语义相似度。
余弦相似度记为sC,其为两个向量间的夹角余弦值cos(θ),用于标识高维空间中两个词的语义相似性,其所对应的计算公式为:
其中,Vword1表示文本词向量,Vword2表示标签词向量。
欧式距离相似度记为sE,其越小表示在高维语义空间中两个词的语义越接近,计算公式为:
其中,DE表示两个词向量的欧氏距离,欧式距离表示在高维向量空间中,两个词向量的直线距离。
Pearson系数记作sP,在计算余弦值之前将两个文本词向量减去词向量每个维度的平均值,达到中心化的目的,计算公式为:
其中,Vword1表示文本词向量,Vword2表示标签词向量,N表示词向量的维度。
语义相似度记为Ssematic,本实施例中将余弦相似度、欧式距离相似度和Pearson系数叠加获得语义相似度,公式如下:
Ssematic(Vkeyword,Vconcept)=sC+SE+sP;
其中,Vkeyword表示概念词,Vcomcept表示候选标签。
S330、计算相似得分Ssimi,计算公式为:
Ssimi(Vkeyword,Vconcept)=αSliteral+βSsemantic;
其中,α,β为权重参数,且α+β=1,本领域技术人员可根据实际需要设置α,β的值。
综上,本实施例的相似得分混合字面与语义维度上的多种相似度,其能够准确表征概念词与候选标签的相似程度,且本领域技术人员可根据实际需要自行设置权重参数,灵活性强。
进一步地,参照图2,步骤S400中基于所述相似得分提取相应的候选标签,获得与所述目标文本相对应的目标标签的具体步骤为:
S410、提取各概念词所对应的关联标签,该关联标签为相似得分大于预设的词相似度阈值的候选标签;
针对单个概念词,仅保留相应的相似得分超过预设的词相似度阈值的候选标签,将所保留的候选标签作为该概念词的关联标签,获得相应的关联标签集seti,i∈[1,p],如图2所示,关联标签集中每个标签的相似得分均超过预设的词相似度阈值;
即:
其中,p表示概念词的数量,q表示候选标签的数量,
表示第i个概念词,
表示第j个候选标签,γ
1表示词相似度阈值;
本领域技术人员可根据实际需要自行设定词相似度阈值。
S420、统计各类关联标签所对应的相似总分,该相似总分为相同的关联标签所对应的相似得分的和;
即,将每个概念词所对应的关联标签集进行合并,并将相同关联标签所对应的相似得分进行累加,从而获得目标文本所对应关联标签全集[set1∪set2∪...∪seti],i∈[1,p],以及每个关联标签所对应的相似总分的集合Stotal=[Sconcept1,Sconcept2,...],Sconcept1表示第一类关联标签所对应的相似总分,参照图2,图2中concept表示关联标签,相似总分为同类关联标签的相似得分的和。
例如概念词包括第一概念词和第二概念词,候选标签包括A、B、C、D;
第一概念词与标签A(相似得分为a1)、标签B(相似得分为b1)、标签C(相似得分为c1)的相似得分超过词相似度阈值;
第二概念词与标签A(相似得分为a2)、标签C(相似得分为c2)的相似得分超过词相似度阈值;
此时目标文本所对应关联标签的集合为[A、B、C];
标签A对应的相似总分为a1+a2;
标签B对应的相似总分为b1;
标签C对应的相似总分为c1+c2。S430、提取相似总分大于预设的文本相似度阈值的关联标签,获得与所述目标文本相对应的目标标签。
即,将上述集合Stotal中相似总分大于预设的文本相似度阈值γ2的关联标签作为目标标签输出,完成将目标文本与目标标签相映射,参照图2,concept_1所对应的相似总分大于大于预设的文本相似度阈值,故将concept_1做为目标标签输出。
本实施例中目标文本为财经快讯,候选标签为概念板块标签,通过上述方法将财经快讯映射到相对应的概念板块的具体流程如图3所示,包括以下步骤:
①、文本清洗:
按照预设的规则对输入的财经快讯进行清洗,包括但不限于:
删除财经快讯中的一些特殊字符,不可见字符;去除财经快讯的首尾空白字符、换行符等;去除财经快讯中的URL链接;利用规则去除财经快讯中的电头电尾,如:(财联社XX日讯)、【格隆汇X月X日|】;剔除文本字数少于10的财经快讯。
②、快讯文本分类:
对财经快讯进行分类,类别为宏观、公司、市场和行业概念中的任意一种或几种。
③、相关概念词抽取:
提取属于行业概念的财经快讯,并按照上述步骤S200抽取所述财经快讯中的概念词;
④、相似度计算:
提取预设的候选标签集;
按照上述步骤S300和S400对概念词与概念板块标签词集中各概念板块标签进行相似度计算,基于计算结果输出相对应的概念板块标签。
基于本方案对财经快讯的概念板块标签进行映射具有较高的准确率和召回率。
实施例2、一种标签映射系统,如图4所示,包括:
获取模块100,用于获取目标文本;
抽取模块200,用于对所述目标文本进行概念词抽取,获得相应的概念词;
相似度计算模块300,用于计算概念词与预设的各候选标签的字面相似度及语义相似度,并根据字面相似度和语义相似度生成所述概念词与所述候选标签的相似得分;
映射模块400,用于基于所述相似得分提取相应的候选标签,获得与所述目标文本相对应的目标标签。
进一步地,相似度计算模块300包括第一计算单元、第二计算单元和第三计算单元:
所述第一计算单元,用于计算概念词与候选标签的字面相似度;
所述第二计算单元,用于计算概念词与候选标签的语义相似度;
所述第三计算单元,用于根据概念词与候选标签的字面相似度即语义相似度,生成相应的相似得分;
进一步地,映射模块400包括第一提取单元、归并单元和第二提取单元;
所述第一提取单元,用于提取各概念词所对应的关联标签,该关联标签为相似得分大于预设的词相似度阈值的候选标签;
所述归并单元,用于统计各类关联标签所对应的相似总分,该相似总分为相同的关联标签所对应的相似得分的和;
所述第二提取单元,用于提取相似总分大于预设的文本相似度阈值的关联标签,获得与所述目标文本相对应的目标标签。
本实施例为与实施例1相对应的装置实施例,其与实施例1基本相似,所以描述的比较简单,相关之处参见实施例1的部分说明即可。
实施例3、一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现实施例1所述方法的步骤。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明的方法、终端设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
需要说明的是:
说明书中提到的“一个实施例”或“实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,说明书通篇各个地方出现的短语“一个实施例”或“实施例”并不一定均指同一个实施例。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
此外,需要说明的是,本说明书中所描述的具体实施例,其零、部件的形状、所取名称等可以不同。凡依本发明专利构思所述的构造、特征及原理所做的等效或简单变化,均包括于本发明专利的保护范围内。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,只要不偏离本发明的结构或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。