CN110390110B - 用于语义匹配的预训练生成句子向量的方法和装置 - Google Patents

用于语义匹配的预训练生成句子向量的方法和装置 Download PDF

Info

Publication number
CN110390110B
CN110390110B CN201910693988.7A CN201910693988A CN110390110B CN 110390110 B CN110390110 B CN 110390110B CN 201910693988 A CN201910693988 A CN 201910693988A CN 110390110 B CN110390110 B CN 110390110B
Authority
CN
China
Prior art keywords
training
sentence
question
embedded model
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910693988.7A
Other languages
English (en)
Other versions
CN110390110A (zh
Inventor
胡翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Advanced New Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Advanced New Technologies Co Ltd filed Critical Advanced New Technologies Co Ltd
Priority to CN201910693988.7A priority Critical patent/CN110390110B/zh
Publication of CN110390110A publication Critical patent/CN110390110A/zh
Application granted granted Critical
Publication of CN110390110B publication Critical patent/CN110390110B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Machine Translation (AREA)

Abstract

本说明书实施例提供一种用于语义匹配的预训练生成句子向量的方法和装置。方法包括:在第一训练语句中屏蔽预设比例的字,通过预测第一训练语句中被屏蔽的各字,对嵌入模型进行第一类预训练;获取根据历史点击数据确定的由第一问句和第二问句构成的训练句子对,以及训练句子对对应的用于指示语义是否相似的标签;将训练句子对输入经过第一类预训练后的嵌入模型,通过嵌入模型输出训练句子对对应的句子向量;将句子向量输入第一分类器,通过第一分类器预测训练句子对中包括的第一问句和第二问句是否相似;根据第一分类器的预测结果和标签,对嵌入模型进行第二类预训练,能够在对嵌入模型的预训练过程中适应语言搭配的各种变化。

Description

用于语义匹配的预训练生成句子向量的方法和装置
技术领域
本说明书一个或多个实施例涉及计算机领域,尤其涉及用于语义匹配的预训练生成句子向量的方法和装置。
背景技术
语言模型是根据语言客观事实而进行的语言抽象数学建模,是一种对应关系。比如说,语言模型可以用于生成分词与词向量之间的对应关系,或者用于生成句子与句子向量之间的对应关系,可以把真实世界抽象存在的文字转换成可以进行数学公式操作的向量,后续根据这些向量可以完成判断各分词之间或各句子之间语义是否相似等任务,这类将语言转换为向量的模型可以称为嵌入模型。由于嵌入模型将语言转化为向量,是为后续任务做准备,因此对嵌入模型的训练常称为对嵌入模型的预训练。
随着社会的不断发展,不断会出现新词,并且用户表达方式多样,不同业务有各不相同的专业术语以及动词搭配,现有技术中对嵌入模型的预训练常常无法适应这种变化,以至于后续的语义匹配任务执行效果不佳。
因此,希望能有改进的方案,能够在用于语义匹配的预训练生成句子向量过程中适应语言搭配的各种变化。
发明内容
本说明书一个或多个实施例描述了一种用于语义匹配的预训练生成句子向量的方法和装置,能够适应语言搭配的各种变化。
第一方面,提供了一种用于语义匹配的预训练生成句子向量的方法,方法包括:
在第一训练语句中屏蔽预设比例的字,通过预测所述第一训练语句中被屏蔽的各字,对嵌入模型进行第一类预训练;
获取根据历史点击数据确定的由第一问句和第二问句构成的训练句子对,以及所述训练句子对对应的用于指示语义是否相似的标签;
将所述训练句子对输入经过所述第一类预训练后的所述嵌入模型,通过所述嵌入模型输出所述训练句子对对应的句子向量;
将所述句子向量输入第一分类器,通过所述第一分类器预测所述训练句子对中包括的第一问句和第二问句是否相似;
根据所述第一分类器的预测结果和所述标签,对所述嵌入模型进行第二类预训练。
在一种可能的实施方式中,所述对所述嵌入模型进行第一类预训练,包括:
在所述第一训练语句中屏蔽所述预设比例的字,将屏蔽的各字分别用其他字或符号替代,得到第二训练语句;
将所述第二训练语句输入所述嵌入模型,通过所述嵌入模型输出所述第二训练语句中被屏蔽的各字对应的字向量;
将所述第二训练语句中被屏蔽的各字对应的字向量输入第二分类器,通过所述第二分类器预测所述第一训练语句中被屏蔽的各字;
根据所述第二分类器的预测结果是否正确,对所述嵌入模型进行所述第一类预训练。
在一种可能的实施方式中,所述预设比例包括:10%。
进一步地,所述将屏蔽的各字分别用其他字或符号替代,包括:
将屏蔽的各字分别用从字典中随机选择的其他字或预设符号替代。
进一步地,所述嵌入模型包括转换器transformer模型,所述transformer模型并行处理所述第二训练语句中的所有字或符号,同时在处理过程中利用了自注意力机制。
在一种可能的实施方式中,作为正样本的所述训练句子对通过如下方式获取:
获取针对用户问句展示标问标题后的历史点击数据,所述历史点击数据用于指示用户是否点击了标问标题;
根据所述历史点击数据,将点击了同一个标问标题对应的多个用户问句加入同一用户问句集合;
获取用户问句数大于预设数值的用户问句集合;
从获取的用户问句集合中随机选择两个用户问句,作为所述第一问句和第二问句,并将其标签确定为语义相似标签,由这两个用户问句构成作为正样本的所述训练句子对。
在一种可能的实施方式中,所述第一问问为用户问句,所述第二问句为标问标题。
在一种可能的实施方式中,所述将所述训练句子对输入所述嵌入模型,通过所述嵌入模型输出所述训练句子对对应的句子向量,包括:
在所述训练句子对中增加第一占位符和第二占位符,所述第一占位符作为所述第一问句和所述第二问句之间的分割符,所述第二占位符添加在所述训练句子对前作为输出向量的占位符,将增加了占位符的所述训练句子对输入所述嵌入模型;
将所述嵌入模型输出的所述第二占位符对应的输出向量作为所述训练句子对对应的句子向量。
进一步地,所述嵌入模型包括转换器transformer模型,所述transformer模型并行处理增加了占位符的所述训练句子对中的所有字或符号,同时在处理过程中利用了自注意力机制。
第二方面,提供了一种用于语义匹配的预训练生成句子向量的装置,装置包括:
第一训练单元,用于在第一训练语句中屏蔽预设比例的字,通过预测所述第一训练语句中被屏蔽的各字,对嵌入模型进行第一类预训练;
获取单元,用于获取根据历史点击数据确定的由第一问句和第二问句构成的训练句子对,以及所述训练句子对对应的用于指示语义是否相似的标签;
向量生成单元,用于将所述获取单元获取的训练句子对输入所述第一训练单元得到的经过所述第一类预训练后的所述嵌入模型,通过所述嵌入模型输出所述训练句子对对应的句子向量;
预测单元,用于将所述向量生成单元得到的句子向量输入第一分类器,通过所述第一分类器预测所述训练句子对中包括的第一问句和第二问句是否相似;
第二训练单元,用于根据所述预测单元得到的所述第一分类器的预测结果和所述获取单元获取的标签,对所述嵌入模型进行第二类预训练。
第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面的方法。
第四方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面的方法。
通过本说明书实施例提供的方法和装置,首先在第一训练语句中屏蔽预设比例的字,通过预测所述第一训练语句中被屏蔽的各字,对嵌入模型进行第一类预训练;然后获取根据历史点击数据确定的由第一问句和第二问句构成的训练句子对,以及所述训练句子对对应的用于指示语义是否相似的标签;接着将所述训练句子对输入经过所述第一类预训练后的所述嵌入模型,通过所述嵌入模型输出所述训练句子对对应的句子向量;再将所述句子向量输入第一分类器,通过所述第一分类器预测所述训练句子对中包括的第一问句和第二问句是否相似;最后根据所述第一分类器的预测结果和所述标签,对所述嵌入模型进行第二类预训练。由上可见,本说明书实施例,在第一类训练中,不需要切词,直接基于字即可训练嵌入模型,在第二类训练中,由于历史点击数据的数据量巨大,包含各种表达,可以充分训练嵌入模型对新词及其搭配的拟合,通过上述两类预训练从而能够在用于语义匹配的预训练生成句子向量的过程中适应语言搭配的各种变化。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本说明书披露的一个实施例的实施场景示意图;
图2示出根据一个实施例的用于语义匹配的预训练生成句子向量的方法流程图;
图3示出根据一个实施例的正样本的生成方法流程图;
图4示出根据一个实施例的用于语义匹配的预训练生成句子向量的方法示意图;
图5示出根据一个实施例的用于语义匹配的预训练生成句子向量的装置的示意性框图。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。
图1为本说明书披露的一个实施例的实施场景示意图。该实施场景涉及用于语义匹配的预训练生成句子向量。如图1所示,先利用预训练后的嵌入模型将句子转化为句子向量,再根据句子向量执行句子匹配任务。上述句子匹配任务具体可以为机器人客服在回答用户问句时,对用户问句和知识点标题的匹配。通常地,可以针对用户问句匹配出多个知识点标题,将这多个知识点标题展示给用户,用户会从多个知识点标题中选择出符合其述求的知识点标题,进行点击浏览。
本说明书实施例,在对嵌入模型的预训练过程中,结合了两项任务对嵌入模型进行预训练。第一项任务,为预测训练语句中被屏蔽的字,根据预测结果是否正确对嵌入模型进行训练;第二项任务,为预测训练句子对包括的两个句子是否相似,根据预测结果与该训练句子对对应的标签对嵌入模型进行训练。其中,在第一项任务中,不需要基于切词,有利于学习到新词;在第二项任务中,训练句子对及标签根据历史点击数据获取,有利于使预训练后的嵌入模型适应后续的句子匹配任务。
图2示出根据一个实施例的用于语义匹配的预训练生成句子向量的方法流程图,该方法可以基于图1所示的应用场景。如图2所示,该实施例中用于语义匹配的预训练生成句子向量的方法包括以下步骤:步骤21,在第一训练语句中屏蔽预设比例的字,通过预测所述第一训练语句中被屏蔽的各字,对嵌入模型进行第一类预训练;步骤22,获取根据历史点击数据确定的由第一问句和第二问句构成的训练句子对,以及所述训练句子对对应的用于指示语义是否相似的标签;步骤23,将所述训练句子对输入经过所述第一类预训练后的所述嵌入模型,通过所述嵌入模型输出所述训练句子对对应的句子向量;步骤24,将所述句子向量输入第一分类器,通过所述第一分类器预测所述训练句子对中包括的第一问句和第二问句是否相似;步骤25,根据所述第一分类器的预测结果和所述标签,对所述嵌入模型进行第二类预训练。下面描述以上各个步骤的具体执行方式。
首先在步骤21,在第一训练语句中屏蔽预设比例的字,通过预测所述第一训练语句中被屏蔽的各字,对嵌入模型进行第一类预训练。可以理解的是,上述预设比例可以根据经验设定,例如设定为10%或15%等,随机屏蔽(mask)第一训练语句中预设比例的字,然后将被屏蔽的字对应位置输出的最终隐层向量送入分类器(例如softmax),来预测被屏蔽的字。
在一个示例中,在所述第一训练语句中屏蔽所述预设比例的字,将屏蔽的各字分别用其他字或符号替代,得到第二训练语句;将所述第二训练语句输入所述嵌入模型,通过所述嵌入模型输出所述第二训练语句中被屏蔽的各字对应的字向量;将所述第二训练语句中被屏蔽的各字对应的字向量输入第二分类器,通过所述第二分类器预测所述第一训练语句中被屏蔽的各字;根据所述第二分类器的预测结果是否正确,对所述嵌入模型进行所述第一类预训练。
进一步地,将屏蔽的各字分别用从字典中随机选择的其他字或预设符号替代。
例如,第一训练语句为“支付宝被盗了,保险能赔吗”,随机屏蔽第一训练语句中预设比例的字,将屏蔽的各字分别用[MASK]标记替代,得到第二训练语句为“支付[MASK]被盗了,保险能[MASK]吗”。
进一步地,所述嵌入模型包括转换器transformer模型,所述transformer模型并行处理所述第二训练语句中的所有字或符号,同时在处理过程中利用了自注意力机制。
然后在步骤22,获取根据历史点击数据确定的由第一问句和第二问句构成的训练句子对,以及所述训练句子对对应的用于指示语义是否相似的标签。可以理解的是,训练句子对用作对嵌入模型进行训练的训练样本,包括正样本和负样本,正样本的标签为语义相似,负样本的标签为语义不相似。
通常地,机器人客服在回答用户问句时,会针对用户问句输出多个标问标题,用户会从这多个标问标题中选择一个标问标题进行点击浏览。历史点击数据用于指示用户是否点击了某个标问标题,可以根据历史点击数据,将用户问句和用户点击了的标问标题作为一组正样本,将用户问句和用户未点击的标问标题作为一组负样本。
此外,由于整体数据分布情况为,用户点击了的标问标题数远低于用户未点击的标问标题数,也就是说,正样本的数目远低于负样本的数目,因此本说明书实施例进行了合理的正样本扩展。
在一个示例中,作为正样本的所述训练句子对通过如下方式获取:
获取针对用户问句展示标问标题后的历史点击数据,所述历史点击数据用于指示用户是否点击了标问标题;
根据所述历史点击数据,将点击了同一个标问标题对应的多个用户问句加入同一用户问句集合;
获取用户问句数大于预设数值的用户问句集合;
从获取的用户问句集合中随机选择两个用户问句,作为所述第一问句和第二问句,并将其标签确定为语义相似标签,由这两个用户问句构成作为正样本的所述训练句子对。
图3示出根据一个实施例的正样本的生成方法流程图。参照图3,根据历史点击数据,将用户点击了同一个标问标题Ki的多个用户问句加入同一个集合Si。假设有N个标问,筛选排除|Si|<=2的集合,得到符合要求的集合L=[S1,S2,…,Sn],用以随机生成正样本,通过该方法可以大幅扩充正样本规模。
接着在步骤23,将所述训练句子对输入经过所述第一类预训练后的所述嵌入模型,通过所述嵌入模型输出所述训练句子对对应的句子向量。可以理解的是,上述句子向量体现了所述训练句子对包括的两个句子之间是否相似的信息。
在一个示例中,在所述训练句子对中增加第一占位符和第二占位符,所述第一占位符作为所述第一问句和所述第二问句之间的分割符,所述第二占位符添加在所述训练句子对前作为输出向量的占位符,将增加了占位符的所述训练句子对输入所述嵌入模型;将所述嵌入模型输出的所述第二占位符对应的输出向量作为所述训练句子对对应的句子向量。
进一步地,所述嵌入模型包括转换器transformer模型,所述transformer模型并行处理增加了占位符的所述训练句子对中的所有字或符号,同时在处理过程中利用了自注意力机制。
再在步骤24,将所述句子向量输入第一分类器,通过所述第一分类器预测所述训练句子对中包括的第一问句和第二问句是否相似。可以理解的是,所述第一分类器用户根据所述句子向量进行二分类,分类的结果包括相似或不相似。
最后在步骤25,根据所述第一分类器的预测结果和所述标签,对所述嵌入模型进行第二类预训练。可以理解的是,预测结果可能与标签一致,也可能不一致,根据二者的比较,可以对所述嵌入模型进行第二类预训练。
通过本说明书实施例提供的方法,首先在第一训练语句中屏蔽预设比例的字,通过预测所述第一训练语句中被屏蔽的各字,对嵌入模型进行第一类预训练;然后获取根据历史点击数据确定的由第一问句和第二问句构成的训练句子对,以及所述训练句子对对应的用于指示语义是否相似的标签;接着将所述训练句子对输入经过所述第一类预训练后的所述嵌入模型,通过所述嵌入模型输出所述训练句子对对应的句子向量;再将所述句子向量输入第一分类器,通过所述第一分类器预测所述训练句子对中包括的第一问句和第二问句是否相似;最后根据所述第一分类器的预测结果和所述标签,对所述嵌入模型进行第二类预训练。由上可见,本说明书实施例,在第一类训练中,不需要切词,直接基于字即可训练嵌入模型,在第二类训练中,由于历史点击数据的数据量巨大,包含各种表达,可以充分训练嵌入模型对新词及其搭配的拟合,通过上述两类预训练从而能够在对嵌入模型的预训练过程中适应语言搭配的各种变化。
图4示出根据一个实施例的用于语义匹配的预训练生成句子向量的方法示意图。参照图4,本说明书实施例主要通过BERT结合点击数据来进行嵌入模型的训练。其中,BERT是一种基于多层transformer的文本预训练方法。本说明书实施例,主要有两个任务:屏蔽字预测任务和语句相似性预测任务。屏蔽字预测任务,在原句中屏蔽10%的字,用[MASK]或字典中随机其他字替代,最后在模型对应的输出位预测该位置原本的缺失字是什么。这部分与BERT的语言模型训练方式类似。语句相似性预测任务,构造输入句子对,句子对可以由用户问句(query)和标问标题(ktitke)构成,还可以包括场景信息(scene),其中在句子对中使用占位符[SEP]及[CLS],[SEP]作为分割符,[CLS]位作为输出向量的占位符,整个网络最后的输出向量V取自[CLS]。对输出向量V通过逻辑回归进行二分类,对于候选结果,如果用户点击了句子对中的标问标题,则分到1类别,如果用户没点击句子对中的标问标题,分到0类别。
本说明书实施例,使用BERT的预训练方法,不需要切词,直接基于字即可训练嵌入模型,而点击数据量巨大,包含各种表达,可以充分训练模型对新词及其搭配的拟合。并且,由于基于点击数据的预训练模型不仅仅训练了嵌入模型,整个模型结构及匹配也得到了充分训练,因此在进行后继的匹配任务时整个网络可以直接复用。
根据另一方面的实施例,还提供一种用于语义匹配的预训练生成句子向量的装置,该装置用于执行本说明书实施例提供的用于语义匹配的预训练生成句子向量的方法。图5示出根据一个实施例的用于语义匹配的预训练生成句子向量的装置的示意性框图。如图5所示,该装置500包括:
第一训练单元51,用于在第一训练语句中屏蔽预设比例的字,通过预测所述第一训练语句中被屏蔽的各字,对嵌入模型进行第一类预训练;
获取单元52,用于获取根据历史点击数据确定的由第一问句和第二问句构成的训练句子对,以及所述训练句子对对应的用于指示语义是否相似的标签;
向量生成单元53,用于将所述获取单元52获取的训练句子对输入所述第一训练单元51得到的经过所述第一类预训练后的所述嵌入模型,通过所述嵌入模型输出所述训练句子对对应的句子向量;
预测单元54,用于将所述向量生成单元53得到的句子向量输入第一分类器,通过所述第一分类器预测所述训练句子对中包括的第一问句和第二问句是否相似;
第二训练单元55,用于根据所述预测单元54得到的所述第一分类器的预测结果和所述获取单元52获取的标签,对所述嵌入模型进行第二类预训练。
可选地,作为一个实施例,所述第一训练单元51,包括:
屏蔽子单元,用于在所述第一训练语句中屏蔽所述预设比例的字,将屏蔽的各字分别用其他字或符号替代,得到第二训练语句;
向量生成子单元,用于将所述屏蔽子单元得到的第二训练语句输入所述嵌入模型,通过所述嵌入模型输出所述第二训练语句中被屏蔽的各字对应的字向量;
预测子单元,用于将所述向量生成子单元得到的所述第二训练语句中被屏蔽的各字对应的字向量输入第二分类器,通过所述第二分类器预测所述第一训练语句中被屏蔽的各字;
训练子单元,用于根据所述预测子单元得到的所述第二分类器的预测结果是否正确,对所述嵌入模型进行所述第一类预训练。
可选地,作为一个实施例,所述预设比例包括:10%。
进一步地,所述屏蔽子单元,具体用于将屏蔽的各字分别用从字典中随机选择的其他字或预设符号替代。
进一步地,所述嵌入模型包括转换器transformer模型;所述向量生成子单元,具体通过所述transformer模型并行处理所述第二训练语句中的所有字或符号,同时在处理过程中利用了自注意力机制。
可选地,作为一个实施例,作为正样本的所述训练句子对通过如下方式获取:
获取针对用户问句展示标问标题后的历史点击数据,所述历史点击数据用于指示用户是否点击了标问标题;
根据所述历史点击数据,将点击了同一个标问标题对应的多个用户问句加入同一用户问句集合;
获取用户问句数大于预设数值的用户问句集合;
从获取的用户问句集合中随机选择两个用户问句,作为所述第一问句和第二问句,并将其标签确定为语义相似标签,由这两个用户问句构成作为正样本的所述训练句子对。
可选地,作为一个实施例,所述第一问问为用户问句,所述第二问句为标问标题。
可选地,作为一个实施例,所述向量生成单元,具体用于:
在所述训练句子对中增加第一占位符和第二占位符,所述第一占位符作为所述第一问句和所述第二问句之间的分割符,所述第二占位符添加在所述训练句子对前作为输出向量的占位符,将增加了占位符的所述训练句子对输入所述嵌入模型;
将所述嵌入模型输出的所述第二占位符对应的输出向量作为所述训练句子对对应的句子向量。
进一步地,所述嵌入模型包括转换器transformer模型;所述向量生成单元53,具体用于通过所述transformer模型并行处理增加了占位符的所述训练句子对中的所有字或符号,同时在处理过程中利用了自注意力机制。
通过本说明书实施例提供的装置,首先第一训练单元51在第一训练语句中屏蔽预设比例的字,通过预测所述第一训练语句中被屏蔽的各字,对嵌入模型进行第一类预训练;然后获取单元52获取根据历史点击数据确定的由第一问句和第二问句构成的训练句子对,以及所述训练句子对对应的用于指示语义是否相似的标签;接着向量生成单元53将所述训练句子对输入经过所述第一类预训练后的所述嵌入模型,通过所述嵌入模型输出所述训练句子对对应的句子向量;再由预测单元54将所述句子向量输入第一分类器,通过所述第一分类器预测所述训练句子对中包括的第一问句和第二问句是否相似;最后第二训练单元55根据所述第一分类器的预测结果和所述标签,对所述嵌入模型进行第二类预训练。由上可见,本说明书实施例,在第一类训练中,不需要切词,直接基于字即可训练嵌入模型,在第二类训练中,由于历史点击数据的数据量巨大,包含各种表达,可以充分训练嵌入模型对新词及其搭配的拟合,通过上述两类预训练从而能够在对嵌入模型的预训练过程中适应语言搭配的各种变化。
根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行结合图2所描述的方法。
根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现结合图2所描述的方法。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (18)

1.一种用于语义匹配的预训练生成句子向量的方法,所述方法包括:
在第一训练语句中屏蔽预设比例的字,通过预测所述第一训练语句中被屏蔽的各字,对嵌入模型进行第一类预训练;第一类预训练不进行切词;
获取根据历史点击数据确定的由第一问句和第二问句构成的训练句子对,以及所述训练句子对对应的用于指示语义是否相似的标签;
将所述训练句子对输入经过所述第一类预训练后的所述嵌入模型,通过所述嵌入模型输出所述训练句子对对应的句子向量;
将所述句子向量输入第一分类器,通过所述第一分类器预测所述训练句子对中包括的第一问句和第二问句是否相似;
根据所述第一分类器的预测结果和所述标签,对所述嵌入模型进行第二类预训练;
其中,作为正样本的所述训练句子对通过如下方式获取:
获取针对用户问句展示标问标题后的历史点击数据,所述历史点击数据用于指示用户是否点击了标问标题;
根据所述历史点击数据,将点击了同一个标问标题对应的多个用户问句加入同一用户问句集合;
获取用户问句数大于预设数值的用户问句集合;
从获取的用户问句集合中随机选择两个用户问句,作为所述第一问句和第二问句,并将其标签确定为语义相似标签,由这两个用户问句构成作为正样本的所述训练句子对。
2.如权利要求1所述的方法,其中,所述对所述嵌入模型进行第一类预训练,包括:
在所述第一训练语句中屏蔽所述预设比例的字,将屏蔽的各字分别用其他字或符号替代,得到第二训练语句;
将所述第二训练语句输入所述嵌入模型,通过所述嵌入模型输出所述第二训练语句中被屏蔽的各字对应的字向量;
将所述第二训练语句中被屏蔽的各字对应的字向量输入第二分类器,通过所述第二分类器预测所述第一训练语句中被屏蔽的各字;
根据所述第二分类器的预测结果是否正确,对所述嵌入模型进行所述第一类预训练。
3.如权利要求1所述的方法,其中,所述预设比例包括:10%。
4.如权利要求2所述的方法,其中,所述将屏蔽的各字分别用其他字或符号替代,包括:
将屏蔽的各字分别用从字典中随机选择的其他字或预设符号替代。
5.如权利要求2所述的方法,其中,所述嵌入模型包括转换器transformer模型,所述transformer模型并行处理所述第二训练语句中的所有字或符号,同时在处理过程中利用了自注意力机制。
6.如权利要求1所述的方法,其中,所述第一问句为用户问句,所述第二问句为标问标题。
7.如权利要求1所述的方法,其中,所述将所述训练句子对输入所述嵌入模型,通过所述嵌入模型输出所述训练句子对对应的句子向量,包括:
在所述训练句子对中增加第一占位符和第二占位符,所述第一占位符作为所述第一问句和所述第二问句之间的分割符,所述第二占位符添加在所述训练句子对前作为输出向量的占位符,将增加了占位符的所述训练句子对输入所述嵌入模型;
将所述嵌入模型输出的所述第二占位符对应的输出向量作为所述训练句子对对应的句子向量。
8.如权利要求7所述的方法,其中,所述嵌入模型包括转换器transformer模型,所述transformer模型并行处理增加了占位符的所述训练句子对中的所有字或符号,同时在处理过程中利用了自注意力机制。
9.一种用于语义匹配的预训练生成句子向量的装置,所述装置包括:
第一训练单元,用于在第一训练语句中屏蔽预设比例的字,通过预测所述第一训练语句中被屏蔽的各字,对嵌入模型进行第一类预训练;第一类预训练不进行切词;
获取单元,用于获取根据历史点击数据确定的由第一问句和第二问句构成的训练句子对,以及所述训练句子对对应的用于指示语义是否相似的标签;
向量生成单元,用于将所述获取单元获取的训练句子对输入所述第一训练单元得到的经过所述第一类预训练后的所述嵌入模型,通过所述嵌入模型输出所述训练句子对对应的句子向量;
预测单元,用于将所述向量生成单元得到的句子向量输入第一分类器,通过所述第一分类器预测所述训练句子对中包括的第一问句和第二问句是否相似;
第二训练单元,用于根据所述预测单元得到的所述第一分类器的预测结果和所述获取单元获取的标签,对所述嵌入模型进行第二类预训练;
其中,作为正样本的所述训练句子对通过如下方式获取:
获取针对用户问句展示标问标题后的历史点击数据,所述历史点击数据用于指示用户是否点击了标问标题;
根据所述历史点击数据,将点击了同一个标问标题对应的多个用户问句加入同一用户问句集合;
获取用户问句数大于预设数值的用户问句集合;
从获取的用户问句集合中随机选择两个用户问句,作为所述第一问句和第二问句,并将其标签确定为语义相似标签,由这两个用户问句构成作为正样本的所述训练句子对。
10.如权利要求9所述的装置,其中,所述第一训练单元,包括:
屏蔽子单元,用于在所述第一训练语句中屏蔽所述预设比例的字,将屏蔽的各字分别用其他字或符号替代,得到第二训练语句;
向量生成子单元,用于将所述屏蔽子单元得到的第二训练语句输入所述嵌入模型,通过所述嵌入模型输出所述第二训练语句中被屏蔽的各字对应的字向量;
预测子单元,用于将所述向量生成子单元得到的所述第二训练语句中被屏蔽的各字对应的字向量输入第二分类器,通过所述第二分类器预测所述第一训练语句中被屏蔽的各字;
训练子单元,用于根据所述预测子单元得到的所述第二分类器的预测结果是否正确,对所述嵌入模型进行所述第一类预训练。
11.如权利要求9所述的装置,其中,所述预设比例包括:10%。
12.如权利要求10所述的装置,其中,所述屏蔽子单元,具体用于将屏蔽的各字分别用从字典中随机选择的其他字或预设符号替代。
13.如权利要求10所述的装置,其中,所述嵌入模型包括转换器transformer模型;所述向量生成子单元,具体通过所述transformer模型并行处理所述第二训练语句中的所有字或符号,同时在处理过程中利用了自注意力机制。
14.如权利要求9所述的装置,其中,所述第一问句为用户问句,所述第二问句为标问标题。
15.如权利要求9所述的装置,其中,所述向量生成单元,具体用于:
在所述训练句子对中增加第一占位符和第二占位符,所述第一占位符作为所述第一问句和所述第二问句之间的分割符,所述第二占位符添加在所述训练句子对前作为输出向量的占位符,将增加了占位符的所述训练句子对输入所述嵌入模型;
将所述嵌入模型输出的所述第二占位符对应的输出向量作为所述训练句子对对应的句子向量。
16.如权利要求15所述的装置,其中,所述嵌入模型包括转换器transformer模型;所述向量生成单元,具体用于通过所述transformer模型并行处理增加了占位符的所述训练句子对中的所有字或符号,同时在处理过程中利用了自注意力机制。
17.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-8中任一项的所述的方法。
18.一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-8中任一项的所述的方法。
CN201910693988.7A 2019-07-30 2019-07-30 用于语义匹配的预训练生成句子向量的方法和装置 Active CN110390110B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910693988.7A CN110390110B (zh) 2019-07-30 2019-07-30 用于语义匹配的预训练生成句子向量的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910693988.7A CN110390110B (zh) 2019-07-30 2019-07-30 用于语义匹配的预训练生成句子向量的方法和装置

Publications (2)

Publication Number Publication Date
CN110390110A CN110390110A (zh) 2019-10-29
CN110390110B true CN110390110B (zh) 2023-06-27

Family

ID=68287951

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910693988.7A Active CN110390110B (zh) 2019-07-30 2019-07-30 用于语义匹配的预训练生成句子向量的方法和装置

Country Status (1)

Country Link
CN (1) CN110390110B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111125350B (zh) * 2019-12-17 2023-05-12 传神联合(北京)信息技术有限公司 基于双语平行语料生成lda主题模型的方法及装置
CN111444311A (zh) * 2020-02-26 2020-07-24 平安科技(深圳)有限公司 语义理解模型训练方法、装置、计算机设备和存储介质
CN113569017B (zh) * 2021-01-28 2024-05-10 腾讯科技(深圳)有限公司 一种模型处理方法、装置、电子设备及存储介质
CN114386437B (zh) * 2022-01-13 2022-09-27 延边大学 基于跨语言预训练模型的中朝翻译质量估计方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304439A (zh) * 2017-10-30 2018-07-20 腾讯科技(深圳)有限公司 一种语义模型优化方法、装置及智能设备、存储介质
CN109460549A (zh) * 2018-10-12 2019-03-12 北京奔影网络科技有限公司 语义向量的处理方法及装置
CN109871451A (zh) * 2019-01-25 2019-06-11 中译语通科技股份有限公司 一种融入动态词向量的关系抽取方法和系统
CN109918501A (zh) * 2019-01-18 2019-06-21 平安科技(深圳)有限公司 新闻文章分类的方法、装置、设备及存储介质
CN110032644A (zh) * 2019-04-03 2019-07-19 人立方智能科技有限公司 语言模型预训练方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7831908B2 (en) * 2005-05-20 2010-11-09 Alexander Vincent Danilo Method and apparatus for layout of text and image documents

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304439A (zh) * 2017-10-30 2018-07-20 腾讯科技(深圳)有限公司 一种语义模型优化方法、装置及智能设备、存储介质
CN109460549A (zh) * 2018-10-12 2019-03-12 北京奔影网络科技有限公司 语义向量的处理方法及装置
CN109918501A (zh) * 2019-01-18 2019-06-21 平安科技(深圳)有限公司 新闻文章分类的方法、装置、设备及存储介质
CN109871451A (zh) * 2019-01-25 2019-06-11 中译语通科技股份有限公司 一种融入动态词向量的关系抽取方法和系统
CN110032644A (zh) * 2019-04-03 2019-07-19 人立方智能科技有限公司 语言模型预训练方法

Also Published As

Publication number Publication date
CN110390110A (zh) 2019-10-29

Similar Documents

Publication Publication Date Title
CN110390110B (zh) 用于语义匹配的预训练生成句子向量的方法和装置
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
US11868733B2 (en) Creating a knowledge graph based on text-based knowledge corpora
CN104471568A (zh) 对自然语言问题的基于学习的处理
CN112905795A (zh) 文本意图分类的方法、装置和可读介质
Drovo et al. Named entity recognition in Bengali text using merged hidden Markov model and rule base approach
CN113035311A (zh) 一种基于多模态注意力机制的医学图像报告自动生成方法
Banerjee et al. Bengali question classification: Towards developing qa system
CN114416942A (zh) 一种基于深度学习的自动化问答方法
US11321580B1 (en) Item type discovery and classification using machine learning
CN112328800A (zh) 自动生成编程规范问题答案的系统及方法
CN113326374B (zh) 基于特征增强的短文本情感分类方法及系统
CN114238573A (zh) 基于文本对抗样例的信息推送方法及装置
CN115391527A (zh) 基于提示学习的意图识别方法、问答方法及装置
CN110909768B (zh) 一种标注数据获取方法及装置
CN113486174B (zh) 模型训练、阅读理解方法、装置、电子设备及存储介质
CN117332789A (zh) 一种面向对话场景的语义分析方法及系统
CN111723301B (zh) 基于层次化主题偏好语义矩阵的关注关系识别及标注方法
CN114491209A (zh) 基于互联网信息抓取的企业业务标签挖掘的方法和系统
Ye et al. A natural language-based flight searching system
Wambsganss et al. Using Deep Learning for Extracting User-Generated Knowledge from Web Communities.
Wang et al. A novel feature-based text classification improving the accuracy of twitter sentiment analysis
US11907500B2 (en) Automated processing and dynamic filtering of content for display
Pajas et al. Multilingual named entity recognition solution for optimizing parcel delivery in online commerce: Identifying person and organization names
CN110008307B (zh) 一种基于规则和统计学习的变形实体识别方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20201012

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

Effective date of registration: 20201012

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant before: Advanced innovation technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant