CN111695334A - 一种文本相关性识别模型的训练方法及装置 - Google Patents

一种文本相关性识别模型的训练方法及装置 Download PDF

Info

Publication number
CN111695334A
CN111695334A CN201910186354.2A CN201910186354A CN111695334A CN 111695334 A CN111695334 A CN 111695334A CN 201910186354 A CN201910186354 A CN 201910186354A CN 111695334 A CN111695334 A CN 111695334A
Authority
CN
China
Prior art keywords
training
text
data
corpus
recognition model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910186354.2A
Other languages
English (en)
Inventor
卢禹锟
田伟伟
董健
颜水成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201910186354.2A priority Critical patent/CN111695334A/zh
Publication of CN111695334A publication Critical patent/CN111695334A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种文本相关性识别模型的训练方法及装置,所述方法包括:构建文本相关性识别模型;获取预先构建的语料库,基于所述语料库中多种类型的语料数据创建所述文本相关性识别模型训练的训练数据集;基于所述训练数据集中的语料数据对所述文本相关性识别模型进行预训练;所述预训练包括:利用所述文本相关性识别模型预测所述训练数据集中任一文本数据中的指定位置的词和/或预测任意两个文本数据的上下文关系。基于本发明提供的方案可通过不同训练方式的结合增强文本相关性识别模型的识别效率以及相关性识别的准确性。另外,增加实体名字补全训练,缩短预训练周期,节省训练成本。

Description

一种文本相关性识别模型的训练方法及装置
技术领域
本发明涉及网络模型技术领域,特别是涉及一种文本相关性识别模型的训练方法及装置。
背景技术
文本相关性在广告、聊天机器人等业务中十分常见,而正确的理解用户一条,并在闭集当中查询检索,特别是对于长尾输入,语义理解一直是挑战。传统文本相关性或者相似性的网络模型由于在进行训练时,整个训练过程速度很慢、且资源消耗很大,进而使得模型训练的效率低。另外,采用上述方式训练处的网络模型对于相似性的理解高度依赖海量的平行句对数据,不仅获取成本高,而且标定困难,难以直接确认两组数据的相似或不相似。
发明内容
本发明提供了一种文本相关性识别模型的训练方法及装置以克服上述问题或者至少部分地解决上述问题。
根据本发明的一个方面,提供了一种文本相关性识别模型的训练方法,包括:
构建文本相关性识别模型;
获取预先构建的语料库,基于所述语料库中多种类型的语料数据创建所述文本相关性识别模型训练的训练数据集;
基于所述训练数据集中的语料数据对所述文本相关性识别模型进行预训练;所述预训练包括:利用所述文本相关性识别模型预测所述训练数据集中任一文本数据中的指定位置的词和/或预测任意两个文本数据的上下文关系。
可选地,所述利用所述文本相关性识别模型预测所述训练数据集中任一文本数据中的指定位置的词和/或预测任意两个文本数据的上下文关系,包括:
在所述训练数据集中选取多个文本数据,分别在各文本数据中选取一个或多个词,将选取出的词用未知词替换;在所述文本相关性识别模型的训练过程中对所述各文本数据中的未知词进行预测;和/或
在所述训练数据集中选取多个文本数据,在所述文本相关性识别模型的训练过程中对所述多个文本数据中任意两个文本数据的上下文关系进行预测。
可选地,所述分别在各文本数据中选取一个或多个词,将选取出的词用未知词替换,包括:
分别在各文本数据中随机选取一个或多个词,将选取出的词用未知词替换;和/或
分别在各文本数据中选取一个或多个实体词,将所述实体词用未知词替换。
可选地,所述获取预先构建的语料库,基于所述语料库中多种类型的语料数据创建所述文本相关性识别模型训练的训练数据集,包括:
获取预先构建的语料库,基于所述文本相关性识别模型的应用场景在所述语料库中按照预设规则选取多种类型的语料数据;
根据选取出的语料数据创建所述文本相关性识别模型训练的训练数据集。
可选地,所述获取预先构建的语料库,基于所述文本相关性识别模型的应用场景在所述语料库中按照预设规则选取多种类型的语料数据,包括:
获取预先构建的语料库,基于所述文本相关性识别模型的应用场景在所述选取与所述应用场景相关的第一语料数据以及与所述应用场景无关的第二语料数据。
可选地,所述基于所述训练数据集中的语料数据对所述文本相关性识别模型进行预训练,还包括:
利用所述文本相关性识别模型对所述训练数据集中的短文本数据进行训练。
可选地,所述利用所述文本相关性识别模型对所述训练数据集中的短文本数据进行训练,包括:
对于所述训练数据集中的任一短文本数据,对所述短文本数据进行分词后获得所述短文本数据包括的多个关键词;
计算所述多个关键词之间的匹配程度。
可选地,所述获取预先构建的语料库,基于所述语料库中多种类型的语料数据创建所述文本相关性识别模型训练的训练数据集之前,还包括:
收集多个网络用户的搜索日记以及多种类型的语料,基于所述搜索日记和 /或所述语料构建语料库;
其中,所述多种类型的语料包括:实体语料、电商语料、金融生活语料和 /或其他模型训练语料库。
根据本发明的另一个方面,还提供了一种文本相关性识别模型的训练装置,包括:
构建模块,配置为构建文本相关性识别模型;
获取模块,配置为获取预先构建的语料库,基于所述语料库中多种类型的语料数据创建所述文本相关性识别模型训练的训练数据集;
训练模块,配置为基于所述训练数据集中的语料数据对所述文本相关性识别模型进行预训练;所述预训练包括:利用所述文本相关性识别模型预测所述训练数据集中任一文本数据中的指定位置的词和/或预测任意两个文本数据的上下文关系。
可选地,所述训练模块包括:
第一训练单元,配置为在所述训练数据集中选取多个文本数据,分别在各文本数据中选取一个或多个词,将选取出的词用未知词替换;在所述文本相关性识别模型的训练过程中对所述各文本数据中的未知词进行预测;
第二训练单元,配置为在所述训练数据集中选取多个文本数据,在所述文本相关性识别模型的训练过程中对所述多个文本数据中任意两个文本数据的上下文关系进行预测。
可选地,所述第一训练单元还配置为:
分别在各文本数据中随机选取一个或多个词,将选取出的词用未知词替换;和/或
分别在各文本数据中选取一个或多个实体词,将所述实体词用未知词替换
可选地,所述获取模块还配置为:
获取预先构建的语料库,基于所述文本相关性识别模型的应用场景在所述语料库中按照预设规则选取多种类型的语料数据;
根据选取出的语料数据创建所述文本相关性识别模型训练的训练数据集。
可选地,所述获取模块还配置为:
获取预先构建的语料库,基于所述文本相关性识别模型的应用场景在所述选取与所述应用场景相关的第一语料数据以及与所述应用场景无关的第二语料数据。
可选地,所述训练模块还包括:
第三训练单元,配置为利用所述文本相关性识别模型对所述训练数据集中的短文本数据进行训练。
可选地,所述第三训练单元还配置为:
对于所述训练数据集中的任一短文本数据,对所述短文本数据进行分词后获得所述短文本数据包括的多个关键词;
计算所述多个关键词之间的匹配程度。
可选地,所述装置还包括:
收集模块,配置为收集多个网络用户的搜索日记以及多种类型的语料,基于所述搜索日记和/或所述语料构建语料库;
其中,所述多种类型的语料包括:实体语料、电商语料、金融生活语料和 /或其他模型训练语料库。
根据本发明的另一个方面,还提供了一种计算机存储介质,所述计算机存储介质存储有计算机程序代码,当所述计算机程序代码在计算设备上运行时,导致所述计算设备执行上述任一项所述的文本相关性识别模型的训练方法。
根据本发明的另一个方面,还提供了一种计算设备,包括:
处理器;
存储有计算机程序代码的存储器;
当所述计算机程序代码被所述处理器运行时,导致所述计算设备执行上述任一项所述的文本相关性识别模型的训练方法。
本发明提供了一种文本相关性识别模型的训练方法及装置,在构建好文本相关性识别模型之后,基于预先构建的语料库创建文本相关性识别模型的训练数据集,进而对文本相关性识别模型进行预训练。在本发明所提供的方法中,训练数据集中的训练数据包括可以包括多种类型的语料数据,使得训练数据集中的数据更加全面,通过对文本数据中指定位置从词的预测以及两个文本数据的上下文关系的预测完成文本相关性识别模型的训练,可以进一步增强文本相关性识别模型的识别效率以及相关性识别的准确性。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
根据下文结合附图对本发明具体实施例的详细描述,本领域技术人员将会更加明了本发明的上述以及其他目的、优点和特征。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1是根据本发明实施例的文本相关性识别模型的训练方法流程示意图;
图2是根据本发明实施例的文本相关性识别模型的训练装置结构示意图;
图3是根据本发明优选实施例的文本相关性识别模型的训练装置结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1是根据本发明实施例的文本相关性识别模型的训练方法流程示意图,参见图1可知,本发明实施例提供的文本相关性识别模型的训练方法可以包括:
步骤S102,构建文本相关性识别模型;
步骤S104,获取预先构建的语料库,基于语料库中的多种类型语料数据创建文本相关性识别模型训练的训练数据集;
步骤S106,基于训练数据集中多种类型的语料数据对文本相关性识别模型进行预训练;预训练包括:利用文本相关性识别模型预测训练数据集中任一文本数据中的指定位置的词和/或预测任意两个文本数据的上下文关系。
本发明实施例提供了一种文本相关性识别模型的训练方法,在构建好文本相关性识别模型之后,基于预先构建的语料库创建文本相关性识别模型的训练数据集,进而对文本相关性识别模型进行预训练。在本发明实施例中,训练数据集中的训练数据包括可以包括多种类型的语料数据,使得训练数据集中的数据更加全面,通过对文本数据中指定位置从词的预测以及两个文本数据的上下文关系的预测完成文本相关性识别模型的训练,可以进一步增强文本相关性识别模型的识别效率以及相关性识别的准确性。
本发明实施例中的文本相关性模型作为一种神经网络模型,以对文本之间的相关性进行识别。在构建文本相关性识别模型时,可以基于CNN卷积神经网络或是基于transformer网络结构实现。可选地,本发明实施例提供的文本相关性识别模型可基于BERT模型实现。
上述步骤S104中提及,训练数据集可基于预先构建的语料库创建而成。因此,在上述步骤S104之前,还可以包括:收集多个网络用户的搜索日记以及多种类型的语料,基于上述搜索日记和/或语料构建语料库;其中,多种类型的语料包括:实体语料、电商语料、金融生活语料和/或其他模型训练语料库。基于网络用户的搜索日记可以获取大量的平行语料句对,即大量的具有相似语义的句对,在收集用户的搜索日记之后,对搜索日记进行清洗整理,进而获得高质量的平行语料句对。除此之外,语料库中还可以包括如金融、电商、实体等多种不同类型的语料,以供不同的训练场景使用。另外还可以包括其他模型的训练语料,与BERT模型的初始训练语料等。本发明实施例中的语料可以包括词级别、短语级别的短文本数据,以及长文本数据等。构建好语料库之后,就可以为文本相关性识别模型提供训练基础,进而进行语料的筛选以得到模型的训练数据集。
可选地,本发明实施例在创建训练数据集时,可以包括:获取预先构建的语料库,基于文本相关性识别模型的应用场景在语料库中按照预设规则选取多种类型的语料数据;根据选取出的语料数据创建文本相关性识别模型训练的训练数据集。实际应用中,对于文本相似性识别模型可能是针对不同属性的企业关心的内容而训练,因此,本发明实施例可以针对文本相似性识别模型的应用场景构建文本相关性模型的训练数据集。
进一步地,根据预设规则选取语料数据时,可以获取预先构建的语料库,基于文本相关性识别模型的应用场景在选取与上述应用场景相关的第一语料数据以及与应用场景无关的第二语料数据。举例来讲,对于金融属性的企业来讲,可以加入金融、电商等实体类型语料以及相关专有名词语料作为第一语料数据,而其他无关或是相关性较小的语料数据作为第二语料数据,第一语料数据和第二语料数据所占的比例可根据不同需求进行调节,本发明不做限定。
参见上述步骤S106,可以基于训练数据集中的语料对文本相关性模型进行预训练。本发明实施例中的预训练可以包括以下两个部分:
方式一,利用文本相关性识别模型预测训练数据集中任一文本数据中的指定位置的词。其进一步可以包括:在训练数据集中选取多个文本数据,分别在各文本数据中选取一个或多个词,将选取出的词用未知词替换;在文本相关性识别模型的训练过程中对各文本数据中的未知词进行预测。
也就是说,对于训练数据集中的任意一个文本数据来讲,可以将该文本数据中的一个或多个词屏蔽掉,将被屏蔽的词作为未知词,由文本相关性识别模型对该文本数据中未知词进行预测。假设文本数据是由词“ABCDE”连续组成,在预训练之前,可以将D、E两个词作为未知词,将D、E用X代替,则文本数据则替换成“ABCXX”,此时,可以由文本相关性识别模型对文本数据“ABCXX”中的“X”进行预测。其中,D、E可以是两个字,或是两个分别具有独立含义的词。例如文本数据“地安门在北京”,可以将“安”“门”均作为未知词进行预测,也可以将“北京”作为未知词进行预测。
在对任意文本数据中的词用未知词替换时,可以随机选取一个或多个词,将选取出的词用未知词替换;或是选取一个或多个实体词,将实体词用未知词替换。其中,对实体词进行替换时,可以是实体词的整体用未知词替换,还可以是为实体词中的部分字进行替换,本发明不做限定。本发明实施例中的实体词可以是人名、地名、建筑物名称、公司名称、各专业领域的相关名词等等。
方式二,利用文本相关性识别模型预测任意两个文本数据的上下文关系。其进一步可以包括:在训练数据集中选取多个文本数据,在文本相关性识别模型的训练过程中对多个文本数据中任意两个文本数据的上下文关系进行预测。
对于两个文本数据的上下文关系进行预测时,可以在训练集中获取任一两组文本数据,当选择句子1和句子2作为预训练样本时,句子2有50%的可能是句子1的下一个句子,也有50%的可能是来自语料库的随机句子。在训练之前,还可以将多组完整的句子进行拆分,以供进行预测训练。实际应用中,需要重复多次在训练数据集中随机选取两组文本数据进行预测。
除上述介绍的之外,本发明实施例还提供了另一种训练方法,即基于训练数据集中的语料数据对文本相关性识别模型进行预训练,还可以包括:
方式三,利用文本相关性识别模型对训练数据集中的短文本数据进行训练。进一步地,对于训练数据集中的任一短文本数据,对短文本数据进行分词后获得该短文本数据包括的多个关键词;计算上述多个关键词之间的匹配程度。在计算多个关键词之间的匹配程度时,可以依据各关键词在所述文本数据中的顺序,计算任意一个关键词与在该关键词之后的所有关键词的匹配程度。
比如说,针对任一短文本数据数据经过分词之后得到词语ABCDE,传统方案对其进行训练时,会计算A和BCDE的匹配程度,B和ACDE的匹配程度,如此类推,随着句子的加长会导致计算量颇大。基于本发明实施例提供的方法对上述短文本数据进行训练时,A分别和BCDE的匹配程度计算完成之后会进行缓存,在此之后,当计算B和其他词计算匹配程度时,会直接计算与 CDE的匹配程度,而无需在计算与A的匹配程度;当计算C和其他词计算匹配程度时,仅计算与DE的匹配程度即可,采用本发明实施例提供的方案可以有效节省训练时间,在减轻计算量的同时增加训练效率。本发明实施例提供的方法优先用于针对短文本数据的训练。
基于上述提供的方式对文本相关性识别模型进行训练时,可以基于不同的需求选取各个训练方式的时间以及比例,进而调节神经网络权重参数,神经网络结构形式,增加或减少神经网络的层数,以及数据来源占比等均可进行相应地调节。例如本发明实施例可以额外增加实体名字补全训练,弱化上下句关联训练,缩短预训练周期,节省成本。
在得到经过训练后的文本相关性识别模型之后,本发明另一实施例中,还可以将训练好的文本相关性识别模型用于训练矢量召回任务、文本过滤模型,以及对文本的相似性打分和相似性检索等。另外,本发明实施例所提供的文本相关性识别模型还可以应用于基于用户输入的文本信息推荐广告等下游任务,本发明不做限定。
基于同一发明构思,本发明实施例还提供了一种文本相关性识别模型的训练装置,如图2所示,该装置包括:
构建模块210,配置为构建文本相关性识别模型;
获取模块220,配置为获取预先构建的语料库,基于语料库中多种类型的语料数据创建文本相关性识别模型训练的训练数据集;
训练模块230,配置为基于训练数据集中的语料数据对文本相关性识别模型进行预训练;预训练包括:利用文本相关性识别模型预测训练数据集中任一文本数据中的指定位置的词和/或预测任意两个文本数据的上下文关系。
在本发明一可选实施例中,如图3所示,训练模块230可以包括:
第一训练单元231,配置为在训练数据集中选取多个文本数据,分别在各文本数据中选取一个或多个词,将选取出的词用未知词替换;在文本相关性识别模型的训练过程中对各文本数据中的未知词进行预测;
第二训练单元232,配置为在训练数据集中选取多个文本数据,在文本相关性识别模型的训练过程中对上述多个文本数据中任意两个文本数据的上下文关系进行预测。
在本发明一可选实施例中,第一训练单元231还可以配置为:
分别在各文本数据中随机选取一个或多个词,将选取出的词用未知词替换;和/或
分别在各文本数据中选取一个或多个实体词,将上述实体词用未知词替换
在本发明一可选实施例中,获取模块220还可以配置为:
获取预先构建的语料库,基于文本相关性识别模型的应用场景在语料库中按照预设规则选取多种类型的语料数据;
根据选取出的语料数据创建文本相关性识别模型训练的训练数据集。
在本发明一可选实施例中,获取模块220还可以配置为:
获取预先构建的语料库,基于文本相关性识别模型的应用场景在选取与上述应用场景相关的第一语料数据以及与应用场景无关的第二语料数据。
在本发明一可选实施例中,如图3所示,训练模块230还可以包括:
第三训练单元233,配置为利用文本相关性识别模型对训练数据集中的短文本数据进行训练。
在本发明一可选实施例中,第三训练单元233还可以配置为:
对于训练数据集中的任一短文本数据,对短文本数据进行分词后获得该短文本数据包括的多个关键词;
计算上述多个关键词之间的匹配程度。
在本发明一可选实施例中,如图3所示,上述装置还可以包括:
收集模块240,配置为收集多个网络用户的搜索日记以及多种类型的语料,基于搜索日记和/或语料构建语料库;
其中,上述多种类型的语料包括:实体语料、电商语料、金融生活语料和 /或其他模型训练语料库。
基于同一发明构思,本发明实施例还提供了一种计算机存储介质,计算机存储介质存储有计算机程序代码,当计算机程序代码在计算设备上运行时,导致计算设备执行上述任一实施例所述的文本相关性识别模型的训练方法。
基于同一发明构思,本发明实施例还提供了一种计算设备,包括:
处理器;
存储有计算机程序代码的存储器;
当计算机程序代码被处理器运行时,导致计算设备执行上述任一实施例所述的文本相关性识别模型的训练方法。
本发明实施例提供了一种更加高效的文本相关性识别模型训练方法及装置,在本发明实施例提供的方案中,训练数据集中的训练数据包括可以包括多种类型的语料数据,使得训练数据集中的数据更加全面,通过对文本数据中指定位置从词的预测以及两个文本数据的上下文关系的预测完成文本相关性识别模型的训练,可以进一步增强文本相关性识别模型的识别效率以及相关性识别的准确性。另外,本发明实施例提供的训练方法更加注重词级别,和短语级别等短文本的相关性。同时,还增加实体名字补全训练,缩短预训练周期,节省训练成本,进而通过额外的海量语料库,训练更加复杂的表征网络,从而提升下游任务的完成效率。
所属领域的技术人员可以清楚地了解到,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,为简洁起见,在此不另赘述。
另外,在本发明各个实施例中的各功能单元可以物理上相互独立,也可以两个或两个以上功能单元集成在一起,还可以全部功能单元都集成在一个处理单元中。上述集成的功能单元既可以采用硬件的形式实现,也可以采用软件或者固件的形式实现。
本领域普通技术人员可以理解:所述集成的功能单元如果以软件的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,其包括若干指令,用以使得一台计算设备(例如个人计算机,服务器,或者网络设备等)在运行所述指令时执行本发明各实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM)、随机存取存储器(RAM),磁碟或者光盘等各种可以存储程序代码的介质。
或者,实现前述方法实施例的全部或部分步骤可以通过程序指令相关的硬件(诸如个人计算机,服务器,或者网络设备等的计算设备)来完成,所述程序指令可以存储于一计算机可读取存储介质中,当所述程序指令被计算设备的处理器执行时,所述计算设备执行本发明各实施例所述方法的全部或部分步骤。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:在本发明的精神和原则之内,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案脱离本发明的保护范围。
根据本发明实施例的一个方面,提供了A1.一种文本相关性识别模型的训练方法,包括:
构建文本相关性识别模型;
获取预先构建的语料库,基于所述语料库中多种类型的语料数据创建所述文本相关性识别模型训练的训练数据集;
基于所述训练数据集中的语料数据对所述文本相关性识别模型进行预训练;所述预训练包括:利用所述文本相关性识别模型预测所述训练数据集中任一文本数据中的指定位置的词和/或预测任意两个文本数据的上下文关系。
A2.根据A1所述的方法,其中,所述利用所述文本相关性识别模型预测所述训练数据集中任一文本数据中的指定位置的词和/或预测任意两个文本数据的上下文关系,包括:
在所述训练数据集中选取多个文本数据,分别在各文本数据中选取一个或多个词,将选取出的词用未知词替换;在所述文本相关性识别模型的训练过程中对所述各文本数据中的未知词进行预测;和/或
在所述训练数据集中选取多个文本数据,在所述文本相关性识别模型的训练过程中对所述多个文本数据中任意两个文本数据的上下文关系进行预测。
A3.根据A2所述的方法,其中,所述分别在各文本数据中选取一个或多个词,将选取出的词用未知词替换,包括:
分别在各文本数据中随机选取一个或多个词,将选取出的词用未知词替换;和/或
分别在各文本数据中选取一个或多个实体词,将所述实体词用未知词替换。
A4.根据A1所述的方法,其中,所述获取预先构建的语料库,基于所述语料库中多种类型的语料数据创建所述文本相关性识别模型训练的训练数据集,包括:
获取预先构建的语料库,基于所述文本相关性识别模型的应用场景在所述语料库中按照预设规则选取多种类型的语料数据;
根据选取出的语料数据创建所述文本相关性识别模型训练的训练数据集。
A5.根据A4所述的方法,其中,所述获取预先构建的语料库,基于所述文本相关性识别模型的应用场景在所述语料库中按照预设规则选取多种类型的语料数据,包括:
获取预先构建的语料库,基于所述文本相关性识别模型的应用场景在所述选取与所述应用场景相关的第一语料数据以及与所述应用场景无关的第二语料数据。
A6.根据A1所述的方法,其中,所述基于所述训练数据集中的语料数据对所述文本相关性识别模型进行预训练,还包括:
利用所述文本相关性识别模型对所述训练数据集中的短文本数据进行训练。
A7.根据A6所述的方法,其中,所述利用所述文本相关性识别模型对所述训练数据集中的短文本数据进行训练,包括:
对于所述训练数据集中的任一短文本数据,对所述短文本数据进行分词后获得所述短文本数据包括的多个关键词;
计算所述多个关键词之间的匹配程度。
A8.根据A1-A7任一项所述的方法,其中,所述获取预先构建的语料库,基于所述语料库中多种类型的语料数据创建所述文本相关性识别模型训练的训练数据集之前,还包括:
收集多个网络用户的搜索日记以及多种类型的语料,基于所述搜索日记和 /或所述语料构建语料库;
其中,所述多种类型的语料包括:实体语料、电商语料、金融生活语料和 /或其他模型训练语料库。
根据本发明实施例的另一个方面,还提供了B9.一种文本相关性识别模型的训练装置,包括:
构建模块,配置为构建文本相关性识别模型;
获取模块,配置为获取预先构建的语料库,基于所述语料库中多种类型的语料数据创建所述文本相关性识别模型训练的训练数据集;
训练模块,配置为基于所述训练数据集中的语料数据对所述文本相关性识别模型进行预训练;所述预训练包括:利用所述文本相关性识别模型预测所述训练数据集中任一文本数据中的指定位置的词和/或预测任意两个文本数据的上下文关系。
B10.根据B9所述的装置,其中,所述训练模块包括:
第一训练单元,配置为在所述训练数据集中选取多个文本数据,分别在各文本数据中选取一个或多个词,将选取出的词用未知词替换;在所述文本相关性识别模型的训练过程中对所述各文本数据中的未知词进行预测;
第二训练单元,配置为在所述训练数据集中选取多个文本数据,在所述文本相关性识别模型的训练过程中对所述多个文本数据中任意两个文本数据的上下文关系进行预测。
B11.根据B10所述的装置,其中,所述第一训练单元还配置为:
分别在各文本数据中随机选取一个或多个词,将选取出的词用未知词替换;和/或
分别在各文本数据中选取一个或多个实体词,将所述实体词用未知词替换
B12.根据B9所述的装置,其中,所述获取模块还配置为:
获取预先构建的语料库,基于所述文本相关性识别模型的应用场景在所述语料库中按照预设规则选取多种类型的语料数据;
根据选取出的语料数据创建所述文本相关性识别模型训练的训练数据集。
B13.根据B12所述的装置,其中,所述获取模块还配置为:
获取预先构建的语料库,基于所述文本相关性识别模型的应用场景在所述选取与所述应用场景相关的第一语料数据以及与所述应用场景无关的第二语料数据。
B14.根据B9所述的装置,其中,所述训练模块还包括:
第三训练单元,配置为利用所述文本相关性识别模型对所述训练数据集中的短文本数据进行训练。
B15.根据B14所述的装置,其中,所述第三训练单元还配置为:
对于所述训练数据集中的任一短文本数据,对所述短文本数据进行分词后获得所述短文本数据包括的多个关键词;
计算所述多个关键词之间的匹配程度。
B16.根据B9-B15任一项所述的装置,其中,还包括:
收集模块,配置为收集多个网络用户的搜索日记以及多种类型的语料,基于所述搜索日记和/或所述语料构建语料库;
其中,所述多种类型的语料包括:实体语料、电商语料、金融生活语料和 /或其他模型训练语料库。
根据本发明实施例的另一个方面,还提供了C17.一种计算机存储介质,所述计算机存储介质存储有计算机程序代码,当所述计算机程序代码在计算设备上运行时,导致所述计算设备执行A1-A8任一项所述的文本相关性识别模型的训练方法。
根据本发明实施例的另一个方面,还提供了D18.一种计算设备,包括:
处理器;
存储有计算机程序代码的存储器;
当所述计算机程序代码被所述处理器运行时,导致所述计算设备执行 A1-A8任一项所述的文本相关性识别模型的训练方法。

Claims (10)

1.一种文本相关性识别模型的训练方法,包括:
构建文本相关性识别模型;
获取预先构建的语料库,基于所述语料库中多种类型的语料数据创建所述文本相关性识别模型训练的训练数据集;
基于所述训练数据集中的语料数据对所述文本相关性识别模型进行预训练;所述预训练包括:利用所述文本相关性识别模型预测所述训练数据集中任一文本数据中的指定位置的词和/或预测任意两个文本数据的上下文关系。
2.根据权利要求1所述的方法,其中,所述利用所述文本相关性识别模型预测所述训练数据集中任一文本数据中的指定位置的词和/或预测任意两个文本数据的上下文关系,包括:
在所述训练数据集中选取多个文本数据,分别在各文本数据中选取一个或多个词,将选取出的词用未知词替换;在所述文本相关性识别模型的训练过程中对所述各文本数据中的未知词进行预测;和/或
在所述训练数据集中选取多个文本数据,在所述文本相关性识别模型的训练过程中对所述多个文本数据中任意两个文本数据的上下文关系进行预测。
3.根据权利要求2所述的方法,其中,所述分别在各文本数据中选取一个或多个词,将选取出的词用未知词替换,包括:
分别在各文本数据中随机选取一个或多个词,将选取出的词用未知词替换;和/或
分别在各文本数据中选取一个或多个实体词,将所述实体词用未知词替换。
4.根据权利要求1所述的方法,其中,所述获取预先构建的语料库,基于所述语料库中多种类型的语料数据创建所述文本相关性识别模型训练的训练数据集,包括:
获取预先构建的语料库,基于所述文本相关性识别模型的应用场景在所述语料库中按照预设规则选取多种类型的语料数据;
根据选取出的语料数据创建所述文本相关性识别模型训练的训练数据集。
5.根据权利要求4所述的方法,其中,所述获取预先构建的语料库,基于所述文本相关性识别模型的应用场景在所述语料库中按照预设规则选取多种类型的语料数据,包括:
获取预先构建的语料库,基于所述文本相关性识别模型的应用场景在所述选取与所述应用场景相关的第一语料数据以及与所述应用场景无关的第二语料数据。
6.根据权利要求1所述的方法,其中,所述基于所述训练数据集中的语料数据对所述文本相关性识别模型进行预训练,还包括:
利用所述文本相关性识别模型对所述训练数据集中的短文本数据进行训练。
7.根据权利要求6所述的方法,其中,所述利用所述文本相关性识别模型对所述训练数据集中的短文本数据进行训练,包括:
对于所述训练数据集中的任一短文本数据,对所述短文本数据进行分词后获得所述短文本数据包括的多个关键词;
计算所述多个关键词之间的匹配程度。
8.一种文本相关性识别模型的训练装置,包括:
构建模块,配置为构建文本相关性识别模型;
获取模块,配置为获取预先构建的语料库,基于所述语料库中多种类型的语料数据创建所述文本相关性识别模型训练的训练数据集;
训练模块,配置为基于所述训练数据集中的语料数据对所述文本相关性识别模型进行预训练;所述预训练包括:利用所述文本相关性识别模型预测所述训练数据集中任一文本数据中的指定位置的词和/或预测任意两个文本数据的上下文关系。
9.一种计算机存储介质,所述计算机存储介质存储有计算机程序代码,当所述计算机程序代码在计算设备上运行时,导致所述计算设备执行权利要求1-7任一项所述的文本相关性识别模型的训练方法。
10.一种计算设备,包括:
处理器;
存储有计算机程序代码的存储器;
当所述计算机程序代码被所述处理器运行时,导致所述计算设备执行权利要求1-7任一项所述的文本相关性识别模型的训练方法。
CN201910186354.2A 2019-03-12 2019-03-12 一种文本相关性识别模型的训练方法及装置 Pending CN111695334A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910186354.2A CN111695334A (zh) 2019-03-12 2019-03-12 一种文本相关性识别模型的训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910186354.2A CN111695334A (zh) 2019-03-12 2019-03-12 一种文本相关性识别模型的训练方法及装置

Publications (1)

Publication Number Publication Date
CN111695334A true CN111695334A (zh) 2020-09-22

Family

ID=72474946

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910186354.2A Pending CN111695334A (zh) 2019-03-12 2019-03-12 一种文本相关性识别模型的训练方法及装置

Country Status (1)

Country Link
CN (1) CN111695334A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112905795A (zh) * 2021-03-11 2021-06-04 证通股份有限公司 文本意图分类的方法、装置和可读介质

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
D0MAIN: "图解BERT(NLP中的迁移学习)", pages 2 - 3, Retrieved from the Internet <URL:https://www.cnblogs.com/d0main/p/10165671.html#%E4%B9%9Dbert%E4%BB%8E%E8%A7%A3%E7%A0%81%E5%99%A8%E5%88%B0%E7%BC%96%E7%A0%81%E5%99%A8> *
NATURALI 奇点机智: "NLP必读:十分钟读懂谷歌BERT模型", Retrieved from the Internet <URL:https://zhuanlan.zhihu.com/p/51413773> *
哈工大SCIR博士生 徐俊: "两种阅读理解模型框架的概要介绍", pages 1, Retrieved from the Internet <URL:https://www.jiqizhixin.com/articles/2016-12-20-2> *
圆圆圈圈园园: "Bert(一)", Retrieved from the Internet <URL:https://zhuanlan.zhihu.com/p/51134946> *
新智元: "解读谷歌最强NLP模型BERT:模型、数据和训练", pages 4, Retrieved from the Internet <URL:https://cloud.tencent.com/developer/article/1361465> *
机器之心PRO: "预训练BERT,官方代码发布前他们是这样用TensorFlow解决的", Retrieved from the Internet <URL:https://baijiahao.baidu.com/s?id=1615725414571179036&wfr=spider&for=pc> *
阿里云云栖号: "最强NLP模型BERT可视化学习", pages 2 - 3, Retrieved from the Internet <URL:https://zhuanlan.zhihu.com/p/55083548> *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112905795A (zh) * 2021-03-11 2021-06-04 证通股份有限公司 文本意图分类的方法、装置和可读介质

Similar Documents

Publication Publication Date Title
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
US20190139058A1 (en) Analyzing sentiment in product reviews
US9613024B1 (en) System and methods for creating datasets representing words and objects
KR101498001B1 (ko) 디스플레이를 위한 고품질 리뷰 선택
US8214366B2 (en) Systems and methods for generating a language database that can be used for natural language communication with a computer
US9594851B1 (en) Determining query suggestions
CN104471568A (zh) 对自然语言问题的基于学习的处理
CN104933081A (zh) 一种搜索建议提供方法及装置
WO2008022581A1 (fr) Procédé et dispositif d&#39;obtention de mots nouveaux et système et procédé de saisie
US20100185623A1 (en) Topical ranking in information retrieval
CN108241613A (zh) 一种提取关键词的方法及设备
CN101833560A (zh) 基于互联网的厂商口碑自动排序系统
CN103049470A (zh) 基于情感相关度的观点检索方法
JP2014120053A (ja) 質問応答装置、方法、及びプログラム
CN102637179B (zh) 词项加权函数确定及基于该函数进行搜索的方法及装置
Sasmita et al. Unsupervised aspect-based sentiment analysis on Indonesian restaurant reviews
Weller et al. The rJokes dataset: a large scale humor collection
Tumitan et al. Tracking Sentiment Evolution on User-Generated Content: A Case Study on the Brazilian Political Scene.
CN113282704A (zh) 一种对评论有用性进行判断和筛选的方法与装置
Sajeev et al. Effective web personalization system based on time and semantic relatedness
CN114722176A (zh) 一种智能答疑的方法、装置、介质及电子设备
Phan et al. Applying skip-gram word estimation and SVM-based classification for opinion mining Vietnamese food places text reviews
CN107291686B (zh) 情感标识的辨识方法和情感标识的辨识系统
CN111695334A (zh) 一种文本相关性识别模型的训练方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination