CN111368024A - 文本语义相似度的分析方法、装置及计算机设备 - Google Patents
文本语义相似度的分析方法、装置及计算机设备 Download PDFInfo
- Publication number
- CN111368024A CN111368024A CN202010092595.3A CN202010092595A CN111368024A CN 111368024 A CN111368024 A CN 111368024A CN 202010092595 A CN202010092595 A CN 202010092595A CN 111368024 A CN111368024 A CN 111368024A
- Authority
- CN
- China
- Prior art keywords
- similarity
- semantic similarity
- data set
- text
- recognition model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 29
- 238000012549 training Methods 0.000 claims abstract description 66
- 238000000034 method Methods 0.000 claims abstract description 44
- 238000004364 calculation method Methods 0.000 claims abstract description 31
- 238000013526 transfer learning Methods 0.000 claims abstract description 12
- 239000013598 vector Substances 0.000 claims description 34
- 230000006870 function Effects 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 8
- 238000000691 measurement method Methods 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 7
- 238000012216 screening Methods 0.000 claims description 6
- 230000002457 bidirectional effect Effects 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 230000008014 freezing Effects 0.000 claims description 3
- 238000007710 freezing Methods 0.000 claims description 3
- 238000011524 similarity measure Methods 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 9
- 238000002372 labelling Methods 0.000 abstract description 7
- 238000004891 communication Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 238000011176 pooling Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000002238 attenuated effect Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 102100026933 Myelin-associated neurite-outgrowth inhibitor Human genes 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种文本语义相似度的分析方法、装置及计算机设备,涉及计算机技术领域,可以解决在对目标领域的短文本进行相似度分析时,存在短文本相似度数据的获取以及标注困难,且短文本相似度算法效果容易受数据标注质量的影响,导致计算结果不稳定的问题。其中方法包括:获取通用数据集以及目标领域数据集;将所述通用数据集作为训练样本训练语义相似度识别模型;利用所述目标领域数据集作为迁移学习样本调整所述语义相似度识别模型;将待进行语义相似度识别的目标短文本输入至调整完成的所述语义相似度识别模型中,获取得到语义相似度;基于所述语义相似度确定语义相似度识别结果。本申请适用于对目标领域的文本语义相似度的分析。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及到一种文本语义相似度的分析方法、装置及计算机设备。
背景技术
语义相似度计算也可以称作文本匹配。文本匹配是很多自然语言处理应用中常见的问题,短文本相似度是指文本长度在一定范围的相似度计算,相比长文本,短文本包含的信息更少,在相似度计算上具有更大的挑战性。
目前的短文本相似度计算方法主要采用深度学习的方法,基于深度的短文本相似度计算首先需要人工标注大量的数据,进而利用标注数据进行相似度计算。
然而现有的基于特定领域的短文本相似度计算,如果该领域的公开数据较少,存在短文本相似度数据的获取以及标注困难的问题,且短文本相似度算法效果容易受数据标注质量的影响,导致计算结果不稳定。
发明内容
有鉴于此,本申请提供了一种文本语义相似度的分析方法、装置及计算机设备,主要解决在对目标领域的短文本进行相似度分析时,存在短文本相似度数据的获取以及标注困难,且短文本相似度算法效果容易受数据标注质量的影响,导致分析结果不稳定的问题。
根据本申请的一个方面,提供了一种文本语义相似度的分析方法,该方法包括:
获取通用数据集以及目标领域数据集;
将所述通用数据集作为训练样本训练语义相似度识别模型;
利用所述目标领域数据集作为迁移学习样本调整所述语义相似度识别模型;
将待进行语义相似度识别的目标短文本输入至调整完成的所述语义相似度识别模型中,获取得到语义相似度;
基于所述语义相似度确定语义相似度识别结果。
根据本申请的另一个方面,提供了一种文本语义相似度的分析装置,该装置包括:
获取模块,用于获取通用数据集以及目标领域数据集;
训练模块,用于将所述通用数据集作为训练样本训练语义相似度识别模型;
调整模块,用于利用所述目标领域数据集作为迁移学习样本调整所述语义相似度识别模型;
输入模块,用于将待进行语义相似度识别的目标短文本输入至调整完成的所述语义相似度识别模型中,获取得到语义相似度;
确定模块,用于基于所述语义相似度确定语义相似度识别结果。
根据本申请的另一个方面,提供了一种非易失性可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述文本语义相似度的分析方法。
根据本申请的再一个方面,提供了一种计算机设备,包括非易失性可读存储介质、处理器及存储在非易失性可读存储介质上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述文本语义相似度的分析方法。
借由上述技术方案,本申请提供的一种文本语义相似度的分析方法、装置及计算机设备,与目前对目标领域的短文本相似度分析方式相比,本申请使用迁移学习的思想,通过大量的已有的公开数据集,学习一个通用领域的短文本相似度分析方法。然后只需要标注适量的目标领域内的数据,利用这标注数据进行精细化学习,实现目标领域的短文本相似度分析。相比直接使用通用数据或金融数据,或者通用数据与金融数据的混合,这种方式既能学习到通用数据的短文本相似度的语义信息,又能有针对性地将这种先验知识应用到目标领域的短文本相似度分析中,实现提升领域内的分析效果,从而也解决了目标领域获取大量训练数据的难题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本地申请的不当限定。在附图中:
图1示出了本申请实施例提供的一种文本语义相似度的分析方法的流程示意图;
图2示出了本申请实施例提供的另一种文本语义相似度的分析方法的流程示意图;
图3示出了本申请实施例提供的一种文本语义相似度的分析装置的结构示意图;
图4示出了本申请实施例提供的另一种文本语义相似度的分析装置的结构示意图。
具体实施方式
下文将参考附图并结合实施例来详细说明本申请。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合。
针对目前在对目标领域的短文本进行相似度计算时,存在短文本相似度数据的获取以及标注困难,且短文本相似度算法效果容易受数据标注质量的影响,导致分析结果不稳定的问题,本申请实施例提供了一种文本语义相似度的分析方法,如图1所示,该方法包括:
101、获取通用数据集以及目标领域数据集。
其中,通用数据集可为:由ATEC2018蚂蚁金服短文本语义相似度竞赛,CCKS2018微众银行智能客服问句匹配大赛,哈工大整理的数据集LCQMC等方式获取到的40万短文本相似度数据集;目标领域数据集可为目标领域内的历史数据记录、搜索引擎等积累数据等。
102、将通用数据集作为训练样本训练语义相似度识别模型。
在具体的应用场景中,计算相似度需要标注出两句话的相似与否,且数据量不能太小,要求有一定的普适性,这对标注人员来说是一项艰巨的工作。也因为如此,短文本相似度计算一直是一项值得研究的课题。在本申请中,可选用数据量较大的通用数据集作为训练样本初步训练语义相似度识别模型。
103、利用目标领域数据集作为迁移学习样本调整语义相似度识别模型。
在具体的应用场景中,可开发算法来最大限度地利用有标注的领域的知识,来辅助目标领域的知识获取和学习。其核心是找到源领域和目标领域之间的相似性,并加以合理利用。这种相似性非常普遍,例如,用来辨识汽车的模型,可以被用来提升识别卡丁车的能力,迁移学习可以存储和利用其他不同但相关的问题的先验知识。
104、将待进行语义相似度识别的目标短文本输入至调整完成的语义相似度识别模型中,获取得到语义相似度。
在具体的应用场景中,在完成对相似度识别模型的调整后,可将相似度识别模型应用到目标领域的短文本相似度检测中,根据输入的短文本对,输出对应的相似度。
105、基于语义相似度确定语义相似度识别结果。
相应的,可通过设定相似度阈值的方式来确定语义相似度对应的相似度识别结果。
通过本实施例中文本语义相似度的分析方法,可使用迁移学习的思想,通过大量的已有的公开数据集,学习一个通用领域的短文本相似度分析方法。然后只需要标注适量的目标领域内的数据,利用这标注数据进行精细化学习,实现目标领域的短文本相似度分析。相比直接使用通用数据或金融数据,或者通用数据与金融数据的混合,这种方式既能学习到通用数据的短文本相似度的语义信息,又能有针对性地将这种先验知识应用到目标领域的短文本相似度分析中,实现提升领域内的分析效果,从而也解决了目标领域获取大量训练数据的难题。
进一步的,作为上述实施例具体实施方式的细化和扩展,为了完整说明本实施例中的具体实施过程,提供了另一种文本语义相似度的分析方法,如图2所示,该方法包括:
201、获取通用数据集以及目标领域数据集。
对于本实施例,在具体的应用场景中,由于基于深度的短文本相似度需要大量的人工标注数据,但基于目标领域的数据却很少,导致短文本相似度在目标领域内的分析效果不够理想,故在前期训练过程中可利用通用数据集来替代,之后再利用获取到的目标领域数据集进一步修正训练,故在本申请中,需要预先获取大量的通用数据集,并尽可能地收集到能够满足修正标准的预定数量个目标领域数据集。
202、从通用数据集中任意筛选出两个短文本构成待测文本对。
对于本实施例,在具体的应用场景中,为了保证训练的准确性,可从通用数据集中随机抽取短文本构成待测文本对,用于多次、全面的训练语义相似度识别模型。
203、对待测文本对进行预处理并输入至语义相似度识别模型中的Embedding层,获取得到第一序列和第二序列,第一序列对应待测文本对中其中一个短文本的映射结果,第二序列对应待测文本对中另一个短文本的映射结果。
例如,输入A、B两个句子,经过预处理及Embedding层映射即可得到第一序列a=(a1…ala)和第二序列b=(b1…blb),其中,ai,bj∈Rl为Embedding层输出的l维向量。
204、将第一序列和第二系列输入至双向长短时记忆网络BiLSTM中,以便获取得到对应的第一向量以及第二向量。
例如,将实施例步骤203中获取得到的第一序列和第二序列输入至双向长短时记忆网络BiLSTM中,BiLSTM可以学习一句话中的词和它的上下文关系,得到新的Embedding向量。即:
205、计算第一向量及第二向量之间的差异性,并获取得到第一向量对应加权后的第三序列和第二向量对应加权后的第四序列。
之后基于上述attention weight分别计算a和b的权重加权后的值,即:
206、根据第一序列、第二序列、第三序列和第四序列计算得到特征向量。
在具体的应用场景中,为了充分获取两个句子之间的差异信息及句子交互信息,分别对第三序列和第四序列进行对位相减与对位相乘,并将前述得到的第一序列和第二序列进行拼接操作,得到 之后将得到的值再一次送到BiLSTM中,这里的BiLSTM主要是为了捕获局部推理信息ma和mb及其上下文信息。将va和vb依次输入池化层,池化层包括最大池化层以及平均池化层,之后将池化后的结果再一次拼接起来,得到特征向量
207、基于特征向量输出第一相似度识别结果。
相应的,在获取到特征向量后,可通过softmax输出层,输出类别为2类,输出值为范围为0到1之间的数,即相似度值。进一步根据相似度值确定出第一相似度识别结果,其中,相似度值越接近1表示输入的两句话越相似,否则,则越不相似。
208、确定第一相似度识别结果相对于第一目标识别结果的第一准确度损失。
在具体的应用场景中,可预先根据待测文本对中的标记获取得到第一目标识别结果,在获取得到第一相似度识别结果后,可将第一相似度识别结果与第一目标识别结果进行匹配,根据两者之间的相似度进一步确定出第一准确度损失。
209、基于第一准确度损失确定第一损失函数,利用第一损失函数对语义相似度识别模型进行优化。
对于本实施例,训练过程损失函数是softmaxwithloss,学习率learning rate可初始为1e-3,设置随着训练动态衰减学习率,训练收敛后,保存相似度识别模型。
210、根据目标领域数据集的数据量以及文本相似度的大小调整语义相似度识别模型。
对于本实施例,在具体的应用场景中,实施例步骤210具体可以包括:若确定目标领域数据集的数据量小于或等于第一预设阈值、文本相似度大于第二预设阈值,则修改语义相似度识别模型中softmax层的输出类别;若确定目标领域数据集的数据量小于或等于第一预设阈值、文本相似度小于或等于第二预设阈值,则冻结语义相似度识别模型中的初始层,再次训练余下的各层;若确定目标领域数据集的数据量大于第一预设阈值、文本相似度小于或等于第二预设阈值,则利用目标领域数据集重新训练语义相似度识别模型;若确定目标领域数据集的数据量大于第一预设阈值、文本相似度大于第二预设阈值,则保留语义相似度识别模型的体系结构和初始权重,并利用初始权重来重新训练语义相似度识别模型。
在具体的应用场景中,本申请可适用于数据量少,但数据相似度很高的情况,且softmax输出层是相同的。微调阶段,可以直接使用预训练的模型权重,使用较小的学习率来继续训练网路(例如1e-4),得到最终的相似度检测模型。
211、利用目标领域数据集中的历史数据记录构建正例训练样本。
对于本实施例,在具体的应用场景中,正例训练样本可以通过用户点击等行为来指导标注,例如,对于相同的搜索点击行为,可以将不同的查询命令query作为相似问题。
212、基于杰卡德相似性度量方法筛选负例训练样本。
对于本实施例,在具体的应用场景中,实施例步骤212具体可以包括:从目标领域数据集中随机筛选出两个短文本句子构建样本句子对,基于杰卡德相似性度量方法对样本句子对进行相似度计算,获取得到相似度计算结果;若相似度计算结果大于第三预设阈值,则将对应的样本句子对确定为负例训练样本。
在具体的应用场景中,在构造负例训练样本时,为了筛选出大量完全不相关的两句话作为负例训练样本,故需要预先对随机筛选出的两两组合句子进行相似度计算。对不满足相似度阈值的数据进行过滤。同时也保留一部分相似度阈值低的句子对,以保证数据的多样性。这里的相似度只需要保证字面意思是否相近。
例如,句子1:你是哪个公司的,找我干嘛?、句子2:你是哪个公司的,我不是你说的那个人。去除句子1和句子2中的标点符号即可分别转为集合A={你,是,哪,个,公,司,的,找,我,干,嘛},B={你,是,哪,个,公,司,的,我,不,是,你,说,的,这,个,人},获取得到并集A∪B:{你,是,哪,个,公,司,的,找,我,干,嘛,不,说,那,个,人},获取得到交集A∩B:{你,是,哪,个,公,司,的,我},进一步可计算出杰卡德系数为:交集个数/并集个数=8/16=0.5,也即句子1和句子2的杰卡德相似度为0.5。之后可将对应杰卡德相似度大于或等于预设阈值的两个句子的相似度确定为1,反之确定为0,进一步保留相似度为1的两个句子作为负例训练样本。
213、将正例训练样本及负例训练样本输入至调整后的语义相似度识别模型中,获取得到第二相似度识别结果。
在具体的应用场景中,可将正例训练样本及负例训练样本输入至调整后的语义相似度识别模型中,进一步对语义相似度识别模型进行训练修正,获取得到对应的第二相似度识别结果。
214、确定第二相似度识别结果相对于第二目标识别结果的第二准确度损失。
在具体的应用场景中,可预先根据正例训练样本及负例训练样本中的标记获取得到第二目标识别结果,在获取得到第二相似度识别结果后,可将第二相似度识别结果与第二目标识别结果进行匹配,根据两者之间的相似度进一步确定出第二准确度损失。
215、基于第二准确度损失确定第二损失函数,利用第二损失函数调整后的语义相似度识别模型进行优化,使语义相似度识别模型的识别精度符合预设标准。
对于本实施例,训练过程损失函数是softmaxwithloss,学习率learning rate可初始为1e-4,设置随着训练动态衰减学习率,训练收敛并且当识别精度大于或等于预设标准中设定的识别精度后,保存语义相似度识别模型。
216、将待进行语义相似度识别的目标短文本输入至调整完成的语义相似度识别模型中,获取得到语义相似度。
在具体的应用场景中,在对语义相似度识别模型完成调整后,即可将待进行语义相似度识别的两个目标短文本输入语义相似度识别模型中,获取得到两个目标短文本间的相似度。
217、基于语义相似度确定语义相似度识别结果。
对于本实施例,在具体的应用场景中,实施例步骤217具体可以包括:将相似度值与第四预设阈值以及第五预设阈值进行对比;若确定相似度值小于第四预设阈值,则确定语义相似度识别结果为不相似;若确定相似度值大于或等于第四预设阈值且小于第五预设阈值,则确定语义相似度识别结果为中度相似;若确定相似度值大于或等于第五预设阈值,则确定语义相似度识别结果为高度相似;输出相似度识别结果。
对于本实施例,需要说明的是,根据相似度值确定语义相似度识别结果的方式不仅限于上述一种情况,还可包含多中实施方式,例如还可仅设定一个预设阈值,当相似度值大于该预设阈值时,判定语义相似度识别结果为相似,反之判定为不相似。
通过上述文本语义相似度的分析方法,可最大限度地利用有标注的领域的数据来训练语义相似度识别模型,进而将语义相似度识别模型基于迁移学习的思想应用于目标领域,只需要标注适量的目标领域内数据,利用目标领域数据对语义相似度识别模型调整,训练获取到适用于目标领域的相似度检测模型,进而实现对目标领域短文本相似度的识别判定。相比直接使用通用数据或目标领域数据,或者通用数据与目标领域数据的混合,这种方式既能学习到通用数据的短文本相似度的语义信息,又能有针对性地将这种先验知识应用到目标领域的短文本相似度计算中,实现提升领域内的计算效果,从而也解决了目标领域获取大量训练数据的难题,提高语义相似度计算的精度以及工作效率。
进一步的,作为图1和图2所示方法的具体体现,本申请实施例提供了一种文本语义相似度的分析装置,如图3所示,该装置包括:获取模块31、训练模块32、调整模块33、输入模块34、确定模块35。
获取模块31,可用于获取通用数据集以及目标领域数据集;
训练模块32,可用于将通用数据集作为训练样本训练语义相似度识别模型;
调整模块33,可用于利用目标领域数据集作为迁移学习样本调整语义相似度识别模型;
输入模块34,可用于将待进行语义相似度识别的目标短文本输入至调整完成的语义相似度识别模型中,获取得到语义相似度;
确定模块35,可用于基于语义相似度确定语义相似度识别结果。
在具体的应用场景中,为了利用通用数据集训练得到训练语义相似度识别模型,训练模块32,具体可用于从所述通用数据集中任意筛选出两个短文本构成待测文本对;对所述待测文本对进行预处理并输入至语义相似度识别模型中的Embedding层,获取得到第一序列和第二序列,所述第一序列对应所述待测文本对中其中一个短文本的映射结果,所述第二序列对应所述待测文本对中另一个短文本的映射结果;将所述第一序列和所述第二系列输入至双向长短时记忆网络BiLSTM中,以便获取得到对应的第一向量以及第二向量;计算所述第一向量及所述第二向量之间的差异性,并获取得到所述第一向量对应加权后的第三序列和所述第二向量对应加权后的第四序列;根据所述第一序列、所述第二序列、所述第三序列和所述第四序列计算得到特征向量;基于所述特征向量输出第一相似度识别结果;确定所述第一相似度识别结果相对于第一目标识别结果的第一准确度损失;基于所述第一准确度损失确定第一损失函数,利用所述第一损失函数对所述语义相似度识别模型进行优化
相应的,为了调整得到适用于目标领域的语义相似度识别模型,调整模块33,具体可用于根据所述目标领域数据集的数据量以及文本相似度的大小调整所述语义相似度识别模型;利用所述目标领域数据集中的历史数据记录构建正例训练样本;基于杰卡德相似性度量方法筛选负例训练样本;将所述正例训练样本及所述负例训练样本输入至调整后的语义相似度识别模型中,获取得到第二相似度识别结果;确定所述第二相似度识别结果相对于第二目标识别结果的第二准确度损失;基于所述第二准确度损失确定第二损失函数,利用所述第二损失函数所述调整后的语义相似度识别模型进行优化,使所述语义相似度识别模型的识别精度符合预设标准。
在具体的应用场景中,为了根据目标领域数据集的数据量以及文本相似度的大小调整相似度识别模型,调整模块33,具体可用于若确定所述目标领域数据集的数据量小于或等于第一预设阈值、文本相似度大于第二预设阈值,则修改所述语义相似度识别模型中softmax层的输出类别;若确定所述目标领域数据集的数据量小于或等于所述第一预设阈值、所述文本相似度小于或等于所述第二预设阈值,则冻结所述语义相似度识别模型中的初始层,再次训练余下的各层;若确定所述目标领域数据集的数据量大于所述第一预设阈值、所述文本相似度小于或等于所述第二预设阈值,则利用所述目标领域数据集重新训练所述语义相似度识别模型;若确定所述目标领域数据集的数据量大于所述第一预设阈值、所述文本相似度大于所述第二预设阈值,则保留所述语义相似度识别模型的体系结构和初始权重,并利用所述初始权重来重新训练所述语义相似度识别模型。
相应的,为了基于杰卡德相似性度量方法筛选出负例训练样本,调整模块33,具体可用于从目标领域数据集中随机筛选出两个短文本句子构建样本句子对,基于杰卡德相似性度量方法对样本句子对进行相似度计算,获取得到相似度计算结果;若相似度计算结果大于第三预设阈值,则将对应的样本句子对确定为负例训练样本。
在具体的应用场景中,为了基于所述语义相似度确定语义相似度识别结果,确定模块35,具体可用于将所述相似度值与第四预设阈值以及第五预设阈值进行对比;若确定所述相似度值小于所述第四预设阈值,则确定所述语义相似度识别结果为不相似;若确定所述相似度值大于或等于所述第四预设阈值且小于所述第五预设阈值,则确定所述语义相似度识别结果为中度相似;若确定所述相似度值大于或等于所述第五预设阈值,则确定所述语义相似度识别结果为高度相似;
在具体的应用场景中,为了将语义相似度识别结果显示到显示页面,如图4所示,本装置还包括:输出模块36。
输出模块36,用于输出相似度识别结果。
需要说明的是,本实施例提供的一种文本语义相似度的分析装置所涉及各功能单元的其它相应描述,可以参考图1至图2中的对应描述,在此不再赘述。
基于上述如图1和图2所示方法,相应的,本申请实施例还提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述如图1和图2所示的文本语义相似度的分析方法。
基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景的方法。
基于上述如图1、图2所示的方法,以及图3、图4所示的虚拟装置实施例,为了实现上述目的,本申请实施例还提供了一种计算机设备,具体可以为个人计算机、服务器、网络设备等,该实体设备包括存储介质和处理器;存储介质,用于存储计算机程序;处理器,用于执行计算机程序以实现上述如图1和图2所示的文本语义相似度的分析方法。
可选地,该计算机设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency,RF)电路,传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等,可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、WI-FI接口)等。
本领域技术人员可以理解,本实施例提供的计算机设备结构并不构成对该实体设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。
非易失性可读存储介质中还可以包括操作系统、网络通信模块。操作系统是文本语义相似度的分析实体设备硬件和软件资源的程序,支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现非易失性可读存储介质内部各组件之间的通信,以及与该实体设备中其它硬件和软件之间通信。
通过以上的实施方式的描述,本领域的技术人员可最大限度地利用有标注的领域的数据来训练语义相似度识别模型,进而将语义相似度识别模型基于迁移学习的思想应用于目标领域,只需要标注适量的目标领域内数据,利用目标领域数据对语义相似度识别模型调整,训练获取到适用于目标领域的相似度检测模型,进而实现对目标领域短文本相似度的识别判定。相比直接使用通用数据或目标领域数据,或者通用数据与目标领域数据的混合,这种方式既能学习到通用数据的短文本相似度的语义信息,又能有针对性地将这种先验知识应用到目标领域的短文本相似度计算中,实现提升领域内的计算效果,从而也解决了目标领域获取大量训练数据的难题,提高语义相似度计算的精度以及工作效率。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请序号仅仅为了描述,不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。
Claims (10)
1.一种文本语义相似度的分析方法,其特征在于,包括:
获取通用数据集以及目标领域数据集;
将所述通用数据集作为训练样本训练语义相似度识别模型;
利用所述目标领域数据集作为迁移学习样本调整所述语义相似度识别模型;
将待进行语义相似度识别的目标短文本输入至调整完成的所述语义相似度识别模型中,获取得到语义相似度;
基于所述语义相似度确定语义相似度识别结果。
2.根据权利要求1所述的方法,其特征在于,所述将所述通用数据集作为训练样本训练语义相似度识别模型,具体包括:
从所述通用数据集中任意筛选出两个短文本构成待测文本对;
对所述待测文本对进行预处理并输入至语义相似度识别模型中的Embedding层,获取得到第一序列和第二序列,所述第一序列对应所述待测文本对中其中一个短文本的映射结果,所述第二序列对应所述待测文本对中另一个短文本的映射结果;
将所述第一序列和所述第二系列输入至双向长短时记忆网络BiLSTM中,以便获取得到对应的第一向量以及第二向量;
计算所述第一向量及所述第二向量之间的差异性,并获取得到所述第一向量对应加权后的第三序列和所述第二向量对应加权后的第四序列;
根据所述第一序列、所述第二序列、所述第三序列和所述第四序列计算得到特征向量;
基于所述特征向量输出第一相似度识别结果;
确定所述第一相似度识别结果相对于第一目标识别结果的第一准确度损失;
基于所述第一准确度损失确定第一损失函数,利用所述第一损失函数对所述语义相似度识别模型进行优化。
3.根据权利要求2所述的方法,其特征在于,所述利用所述目标领域数据集作为迁移学习样本调整所述语义相似度识别模型,具体包括:
根据所述目标领域数据集的数据量以及文本相似度的大小调整所述语义相似度识别模型;
利用所述目标领域数据集中的历史数据记录构建正例训练样本;
基于杰卡德相似性度量方法筛选负例训练样本;
将所述正例训练样本及所述负例训练样本输入至调整后的语义相似度识别模型中,获取得到第二相似度识别结果;
确定所述第二相似度识别结果相对于第二目标识别结果的第二准确度损失;
基于所述第二准确度损失确定第二损失函数,利用所述第二损失函数所述调整后的语义相似度识别模型进行优化,使所述语义相似度识别模型的识别精度符合预设标准。
4.根据权利要求3所述的方法,其特征在于,所述根据所述目标领域数据集的数据量以及文本相似度的大小调整所述语义相似度识别模型,具体包括:
若确定所述目标领域数据集的数据量小于或等于第一预设阈值、文本相似度大于第二预设阈值,则修改所述语义相似度识别模型中softmax层的输出类别;
若确定所述目标领域数据集的数据量小于或等于所述第一预设阈值、所述文本相似度小于或等于所述第二预设阈值,则冻结所述语义相似度识别模型中的初始层,再次训练余下的各层;
若确定所述目标领域数据集的数据量大于所述第一预设阈值、所述文本相似度小于或等于所述第二预设阈值,则利用所述目标领域数据集重新训练所述语义相似度识别模型;
若确定所述目标领域数据集的数据量大于所述第一预设阈值、所述文本相似度大于所述第二预设阈值,则保留所述语义相似度识别模型的体系结构和初始权重,并利用所述初始权重来重新训练所述语义相似度识别模型。
5.根据权利要求3所述的方法,其特征在于,所述基于杰卡德相似性度量方法筛选负例训练样本,具体包括:
从所述目标领域数据集中随机筛选出两个短文本句子构建样本句子对,基于杰卡德相似性度量方法对所述样本句子对进行相似度计算,获取得到相似度计算结果;
若所述相似度计算结果大于第三预设阈值,则将对应的所述样本句子对确定为负例训练样本。
7.根据权利要求6所述的方法,其特征在于,所述基于所述语义相似度确定语义相似度识别结果,具体包括:
将所述相似度值与第四预设阈值以及第五预设阈值进行对比;
若确定所述相似度值小于所述第四预设阈值,则确定所述语义相似度识别结果为不相似;
若确定所述相似度值大于或等于所述第四预设阈值且小于所述第五预设阈值,则确定所述语义相似度识别结果为中度相似;
若确定所述相似度值大于或等于所述第五预设阈值,则确定所述语义相似度识别结果为高度相似;
在所述基于所述语义相似度确定语义相似度识别结果之后,具体还包括:
输出所述相似度识别结果。
8.一种文本语义相似度的分析装置,其特征在于,包括:
获取模块,用于获取通用数据集以及目标领域数据集;
训练模块,用于将所述通用数据集作为训练样本训练语义相似度识别模型;
调整模块,用于利用所述目标领域数据集作为迁移学习样本调整所述语义相似度识别模型;
输入模块,用于将待进行语义相似度识别的目标短文本输入至调整完成的所述语义相似度识别模型中,获取得到语义相似度;
确定模块,用于基于所述语义相似度确定语义相似度识别结果。
9.一种非易失性可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至7中任一项所述的文本语义相似度的分析方法。
10.一种计算机设备,包括非易失性可读存储介质、处理器及存储在非易失性可读存储介质上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至7中任一项所述的文本语义相似度的分析方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010092595.3A CN111368024A (zh) | 2020-02-14 | 2020-02-14 | 文本语义相似度的分析方法、装置及计算机设备 |
PCT/CN2020/087554 WO2021159613A1 (zh) | 2020-02-14 | 2020-04-28 | 文本语义相似度的分析方法、装置及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010092595.3A CN111368024A (zh) | 2020-02-14 | 2020-02-14 | 文本语义相似度的分析方法、装置及计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111368024A true CN111368024A (zh) | 2020-07-03 |
Family
ID=71206129
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010092595.3A Pending CN111368024A (zh) | 2020-02-14 | 2020-02-14 | 文本语义相似度的分析方法、装置及计算机设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111368024A (zh) |
WO (1) | WO2021159613A1 (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112069833A (zh) * | 2020-09-01 | 2020-12-11 | 北京声智科技有限公司 | 日志分析方法、日志分析装置及电子设备 |
CN112241626A (zh) * | 2020-10-14 | 2021-01-19 | 网易(杭州)网络有限公司 | 一种语义匹配、语义相似度模型训练方法及装置 |
CN112347786A (zh) * | 2020-10-27 | 2021-02-09 | 阳光保险集团股份有限公司 | 人工智能评分训练方法和装置 |
CN112579919A (zh) * | 2020-12-09 | 2021-03-30 | 小红书科技有限公司 | 数据处理方法、装置及电子设备 |
CN112863490A (zh) * | 2021-01-07 | 2021-05-28 | 广州欢城文化传媒有限公司 | 一种语料获取方法及装置 |
CN113051933A (zh) * | 2021-05-17 | 2021-06-29 | 北京有竹居网络技术有限公司 | 模型训练方法、文本语义相似度确定方法、装置和设备 |
CN113705244A (zh) * | 2021-08-31 | 2021-11-26 | 平安科技(深圳)有限公司 | 对抗文本样本生成方法、装置与存储介质 |
CN113807074A (zh) * | 2021-03-12 | 2021-12-17 | 京东科技控股股份有限公司 | 基于预训练语言模型的相似语句生成方法和装置 |
CN114358210A (zh) * | 2022-01-14 | 2022-04-15 | 平安科技(深圳)有限公司 | 文本相似度计算方法、装置、计算机设备及存储介质 |
CN117113977A (zh) * | 2023-10-09 | 2023-11-24 | 北京信诺软通信息技术有限公司 | 一种识别试卷中包含ai生成文字的方法、介质及系统 |
CN117932606A (zh) * | 2024-03-08 | 2024-04-26 | 暨南大学 | 一种基于迁移学习的智能交通车辆安全检测方法及系统 |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113779994B (zh) * | 2021-08-25 | 2024-01-23 | 上海浦东发展银行股份有限公司 | 一种要素抽取方法、装置、计算机设备和存储介质 |
CN113946334A (zh) * | 2021-10-22 | 2022-01-18 | 南京大学 | 一种界面跳转路径图的合并方法和装置 |
CN114202013B (zh) * | 2021-11-22 | 2024-04-12 | 西北工业大学 | 一种基于自适应半监督的语义相似度计算方法 |
CN114186548B (zh) * | 2021-12-15 | 2023-08-15 | 平安科技(深圳)有限公司 | 基于人工智能的句子向量生成方法、装置、设备及介质 |
CN114387431A (zh) * | 2022-01-12 | 2022-04-22 | 杭州电子科技大学 | 基于语义分析的多行文字纸质表格ocr方法 |
CN114595306B (zh) * | 2022-01-26 | 2024-04-12 | 西北大学 | 基于距离感知自注意力机制和多角度建模的文本相似度计算系统及方法 |
CN114445818B (zh) * | 2022-01-29 | 2023-08-01 | 北京百度网讯科技有限公司 | 物品识别方法、装置、电子设备及计算机可读存储介质 |
CN114648648B (zh) * | 2022-02-21 | 2024-09-27 | 清华大学 | 一种深度内省度量学习方法、装置及存储介质 |
CN114896392A (zh) * | 2022-04-14 | 2022-08-12 | 北京宝兰德软件股份有限公司 | 工单数据的聚类方法、装置、电子设备及存储介质 |
CN116798417B (zh) * | 2023-07-31 | 2023-11-10 | 成都赛力斯科技有限公司 | 语音意图识别方法、装置、电子设备及存储介质 |
CN116932702A (zh) * | 2023-09-19 | 2023-10-24 | 湖南正宇软件技术开发有限公司 | 提案并案的方法、系统、设备及存储介质 |
CN117112735B (zh) * | 2023-10-19 | 2024-02-13 | 中汽信息科技(天津)有限公司 | 一种专利数据库的构建方法和电子设备 |
CN117574874A (zh) * | 2023-10-25 | 2024-02-20 | 哈尔滨工业大学 | 一种基于自学习策略的专利成果转化推荐方法及装置 |
CN118297758B (zh) * | 2024-02-26 | 2024-10-01 | 中国科学技术信息研究所 | 专利突破性计算方法、装置、电子设备及可读存储介质 |
CN118520929A (zh) * | 2024-07-25 | 2024-08-20 | 国家计算机网络与信息安全管理中心 | 文本相似度确定模型的训练方法及文本相似度计算方法 |
CN118568505A (zh) * | 2024-07-31 | 2024-08-30 | 深圳市鸿普森科技股份有限公司 | 基于机器学习的工程数据模式处理方法和系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106844346A (zh) * | 2017-02-09 | 2017-06-13 | 北京红马传媒文化发展有限公司 | 基于深度学习模型Word2Vec的短文本语义相似性判别方法和系统 |
CN107329949A (zh) * | 2017-05-24 | 2017-11-07 | 北京捷通华声科技股份有限公司 | 一种语义匹配方法和系统 |
GB201808056D0 (en) * | 2018-05-17 | 2018-07-04 | Babylon Partners Ltd | Device and method for natural language processing |
CN109657232A (zh) * | 2018-11-16 | 2019-04-19 | 北京九狐时代智能科技有限公司 | 一种意图识别方法 |
CN109766540A (zh) * | 2018-12-10 | 2019-05-17 | 平安科技(深圳)有限公司 | 通用文本信息提取方法、装置、计算机设备和存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108363716B (zh) * | 2017-12-28 | 2020-04-24 | 广州索答信息科技有限公司 | 领域信息分类模型生成方法、分类方法、设备及存储介质 |
CN110688452B (zh) * | 2019-08-23 | 2022-09-13 | 重庆兆光科技股份有限公司 | 一种文本语义相似度评估方法、系统、介质和设备 |
-
2020
- 2020-02-14 CN CN202010092595.3A patent/CN111368024A/zh active Pending
- 2020-04-28 WO PCT/CN2020/087554 patent/WO2021159613A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106844346A (zh) * | 2017-02-09 | 2017-06-13 | 北京红马传媒文化发展有限公司 | 基于深度学习模型Word2Vec的短文本语义相似性判别方法和系统 |
CN107329949A (zh) * | 2017-05-24 | 2017-11-07 | 北京捷通华声科技股份有限公司 | 一种语义匹配方法和系统 |
GB201808056D0 (en) * | 2018-05-17 | 2018-07-04 | Babylon Partners Ltd | Device and method for natural language processing |
CN109657232A (zh) * | 2018-11-16 | 2019-04-19 | 北京九狐时代智能科技有限公司 | 一种意图识别方法 |
CN109766540A (zh) * | 2018-12-10 | 2019-05-17 | 平安科技(深圳)有限公司 | 通用文本信息提取方法、装置、计算机设备和存储介质 |
Non-Patent Citations (1)
Title |
---|
苏佳林;王元卓;靳小龙;程学旗;: "自适应属性选择的实体对齐方法", 山东大学学报(工学版), no. 01, 24 December 2019 (2019-12-24) * |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112069833A (zh) * | 2020-09-01 | 2020-12-11 | 北京声智科技有限公司 | 日志分析方法、日志分析装置及电子设备 |
CN112069833B (zh) * | 2020-09-01 | 2024-04-30 | 北京声智科技有限公司 | 日志分析方法、日志分析装置及电子设备 |
CN112241626A (zh) * | 2020-10-14 | 2021-01-19 | 网易(杭州)网络有限公司 | 一种语义匹配、语义相似度模型训练方法及装置 |
CN112241626B (zh) * | 2020-10-14 | 2023-07-07 | 网易(杭州)网络有限公司 | 一种语义匹配、语义相似度模型训练方法及装置 |
CN112347786A (zh) * | 2020-10-27 | 2021-02-09 | 阳光保险集团股份有限公司 | 人工智能评分训练方法和装置 |
CN112579919B (zh) * | 2020-12-09 | 2023-04-21 | 小红书科技有限公司 | 数据处理方法、装置及电子设备 |
CN112579919A (zh) * | 2020-12-09 | 2021-03-30 | 小红书科技有限公司 | 数据处理方法、装置及电子设备 |
CN112863490B (zh) * | 2021-01-07 | 2024-04-30 | 广州欢城文化传媒有限公司 | 一种语料获取方法及装置 |
CN112863490A (zh) * | 2021-01-07 | 2021-05-28 | 广州欢城文化传媒有限公司 | 一种语料获取方法及装置 |
CN113807074A (zh) * | 2021-03-12 | 2021-12-17 | 京东科技控股股份有限公司 | 基于预训练语言模型的相似语句生成方法和装置 |
CN113051933A (zh) * | 2021-05-17 | 2021-06-29 | 北京有竹居网络技术有限公司 | 模型训练方法、文本语义相似度确定方法、装置和设备 |
CN113705244A (zh) * | 2021-08-31 | 2021-11-26 | 平安科技(深圳)有限公司 | 对抗文本样本生成方法、装置与存储介质 |
CN113705244B (zh) * | 2021-08-31 | 2023-08-22 | 平安科技(深圳)有限公司 | 对抗文本样本生成方法、装置与存储介质 |
CN114358210A (zh) * | 2022-01-14 | 2022-04-15 | 平安科技(深圳)有限公司 | 文本相似度计算方法、装置、计算机设备及存储介质 |
CN117113977B (zh) * | 2023-10-09 | 2024-04-16 | 北京信诺软通信息技术有限公司 | 一种识别试卷中包含ai生成文字的方法、介质及系统 |
CN117113977A (zh) * | 2023-10-09 | 2023-11-24 | 北京信诺软通信息技术有限公司 | 一种识别试卷中包含ai生成文字的方法、介质及系统 |
CN117932606A (zh) * | 2024-03-08 | 2024-04-26 | 暨南大学 | 一种基于迁移学习的智能交通车辆安全检测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
WO2021159613A1 (zh) | 2021-08-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111368024A (zh) | 文本语义相似度的分析方法、装置及计算机设备 | |
CN110377911B (zh) | 对话框架下的意图识别方法和装置 | |
CN111259625B (zh) | 意图识别方法、装置、设备及计算机可读存储介质 | |
KR102056822B1 (ko) | 학습 서비스 제공 방법 및 그 장치 | |
CN112270196B (zh) | 实体关系的识别方法、装置及电子设备 | |
US11113323B2 (en) | Answer selection using a compare-aggregate model with language model and condensed similarity information from latent clustering | |
US11409964B2 (en) | Method, apparatus, device and storage medium for evaluating quality of answer | |
CN107391760A (zh) | 用户兴趣识别方法、装置及计算机可读存储介质 | |
CN113111968B (zh) | 图像识别模型训练方法、装置、电子设备和可读存储介质 | |
CN110457677B (zh) | 实体关系识别方法及装置、存储介质、计算机设备 | |
CN112468659A (zh) | 应用于电话客服的质量评价方法、装置、设备及存储介质 | |
CN110992988B (zh) | 一种基于领域对抗的语音情感识别方法及装置 | |
CN111428448A (zh) | 文本生成方法、装置、计算机设备及可读存储介质 | |
CN111401105B (zh) | 一种视频表情识别方法、装置及设备 | |
CN113569018A (zh) | 问答对挖掘方法及装置 | |
CN114596497A (zh) | 目标检测模型的训练方法、目标检测方法、装置及设备 | |
CN114239805A (zh) | 跨模态检索神经网络及训练方法、装置、电子设备、介质 | |
CN113947140A (zh) | 人脸特征提取模型的训练方法和人脸特征提取方法 | |
CN106710588B (zh) | 语音数据句类识别方法和装置及系统 | |
CN109408175B (zh) | 通用高性能深度学习计算引擎中的实时交互方法及系统 | |
CN113392920B (zh) | 生成作弊预测模型的方法、装置、设备、介质及程序产品 | |
CN112052686B (zh) | 一种用户交互式教育的语音学习资源推送方法 | |
CN111539207B (zh) | 文本识别方法、文本识别装置、存储介质和电子设备 | |
CN113837910B (zh) | 试题推荐方法、装置、电子设备和存储介质 | |
CN113836377B (zh) | 信息关联方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |