CN109902271B - 基于迁移学习的文本数据标注方法、装置、终端及介质 - Google Patents

基于迁移学习的文本数据标注方法、装置、终端及介质 Download PDF

Info

Publication number
CN109902271B
CN109902271B CN201910063685.7A CN201910063685A CN109902271B CN 109902271 B CN109902271 B CN 109902271B CN 201910063685 A CN201910063685 A CN 201910063685A CN 109902271 B CN109902271 B CN 109902271B
Authority
CN
China
Prior art keywords
text data
word embedding
preset
marked
embedding model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910063685.7A
Other languages
English (en)
Other versions
CN109902271A (zh
Inventor
王健宗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910063685.7A priority Critical patent/CN109902271B/zh
Publication of CN109902271A publication Critical patent/CN109902271A/zh
Application granted granted Critical
Publication of CN109902271B publication Critical patent/CN109902271B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供一种基于迁移学习的文本数据标注方法,包括:获取大量与保险业相关的其他行业的文本数据作为源数据;对所述文本数据进行预处理分别得到训练集和测试集;将所述训练集输入至词嵌入模型中进行训练;将所述测试集输入至训练好的词嵌入模型中进行测试得到测试结果;根据所述测试结果对所述词嵌入模型进行微调;将训练好的词嵌入模型迁移至待标注的保险业的文本数据中进行标注。本发明还提供一种基于迁移学习的文本数据标注装置、终端以及计算机可读存储介质。本发明采用迁移学习的思想,能够解决解决在文本数据标注过程中需要大量人力和时间成本的技术问题,且获得较佳的标注效果。

Description

基于迁移学习的文本数据标注方法、装置、终端及介质
技术领域
本发明涉及机器学习技术领域,尤其涉及一种基于迁移学习的文本数据标注方法、装置、终端以及计算机可读存储介质。
背景技术
在保险业务中,经常需要对大量客户的话术进行意图标注以生成能用于机器学习模型训练的有监督文本数据。在文本数据的生产和标注中,每天都需要投入大量的人力物力以及时间成本,而且人为对文本数据的标注受很多因素制约(如熟练度、专注度、工作时间等),这些制约都导致人工标注大量文本数据时精确度不够高,需要后期做大量反复的质检工作,在短时间内难以生成足够用于机器学习模型训练的文本数据。这种行为极大地降低了工作效率和产品精度。
传统机器学习的方法在针对不完全文本数据时大多数都假设已标注与未标注文本数据的分布是相同的。与之相反的是,迁移学习允许源空间、任务空间,并且在测试集和训练集中的分布是不同的。和传统的方法相比,迁移学习的另一个好处是可以做多任务目标的学习,传统的模型面对不同类型的任务,需要训练多个不同的模型。而迁移学习,可以先去实现简单的任务,将简单的任务中得到的知识应用到更难的问题上,从而解决标注文本数据少,学习目标复杂的任务,这与保险业务模型的标注任务的需求不谋而合。
因而,有必要提供一种基于迁移学习的保险文本数据标注方法,用以解决人工标注保险文本数据耗费大量时间且烦躁的技术问题。
发明内容
本发明提供一种基于迁移学习的文本数据标注方法、装置、终端以及计算机可读存储介质,其主要目的在于提供一种对文本数据进行自动标注的方案,节省人力和时间成本。
为实现上述目的,本发明提供一种基于迁移学习的文本数据标注方法,应用于终端,所述方法包括:
获取大量与保险业相关的其他行业的文本数据作为源数据;
对所述文本数据进行预处理分别得到训练集和测试集;
将所述训练集输入至词嵌入模型中进行训练;
将所述测试集输入至训练好的词嵌入模型中进行测试得到测试结果;
根据所述测试结果对所述词嵌入模型进行微调;
将训练好的词嵌入模型迁移至待标注的保险业的文本数据中进行标注。
可选地,所述对所述文本数据进行预处理分别得到训练集和测试集包括:
获取所述文本数据的标签属性,所述标签属性包括:已标注标签,未标注标签;
当确定所述文本数据的标签属性为所述已标注标签,根据预设第一处理规则对所述已标注标签的文本数据进行第一处理,得到所述训练集。
当确定所述文本数据的标签属性为所述未标注标签,根据预设第二处理规则对所述未标注标签的文本数据进行第二处理,得到所述测试集。
可选地,所述根据预设第一处理规则对所述已标注标签的文本数据进行第一处理包括:
剔除所述已标注标签的文本数据中与保险业关联度小于预设第一关联度阈值的文本数据;
同时,保留所述已标注标签的文本数据中与所述保险业关联度大于预设第二关联度阈值的文本数据。
可选地,所述根据预设第二处理规则对所述未标注标签的文本数据进行第二处理包括:
识别所述未标注标签的文本数据中的预设关键字符;
将所识别出的预设关键字符从所述未标注标签的文本数据中进行删除;
将删除所述预设关键字符之后的文本数据进行拆分为词语;
创建字典对每个词语进行映射。
可选地,所述创建字典对每个词语进行映射包括:
计算每个词语出现的次数,把词语出现的次数和词语列表组合成字典;
利用词嵌入映射的方法,将词语出现的次数和词语表示为高维向量。
可选地,所述根据所述测试结果对所述词嵌入模型进行微调包括:
将在所述训练集上训练得到的词嵌入模型的权重作为所述测试集的初始化权重,重新训练词嵌入模型。
可选地,在所述将训练好的词嵌入模型迁移至待标注的保险业的文本数据中进行标注之前,所述方法还包括:
识别所述待标注的保险业的文本数据中的预设关键字符;
将所识别出的预设关键字符从所述待标注的保险业的文本数据中进行删除;
将删除所述预设关键字符之后的文本数据进行拆分为词语;
将所述词语输入至训练好的词嵌入模型中进行标注。
此外,为实现上述目的,本发明还提供一种基于迁移学习的文本数据标注装置,运行于终端,所述装置包括:
获取模块,用于获取大量与保险业相关的其他行业的文本数据作为源数据;
处理模块,用于对所述文本数据进行预处理分别得到训练集和测试集;
训练模块,用于将所述训练集输入至词嵌入模型中进行训练;
测试模块,用于将所述测试集输入至训练好的词嵌入模型中进行测试得到测试结果;
调整模块,用于根据所述测试结果对所述词嵌入模型进行微调;
标注模块,用于将训练好的词嵌入模型迁移至待标注的保险业的文本数据中进行标注。
此外,为实现上述目的,本发明还提供一种终端,所述终端包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现所述的基于迁移学习的文本数据标注方法。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读上存储有计算机程序,所述计算机程序被处理器执行时实现所述的基于迁移学习的文本数据标注方法。
本发明所述的一种基于迁移学习的文本数据标注方法、装置、终端及计算机可读存储介质,采用迁移学习的思想,通过与保险业类似场景中已标注完成的完备数据进行词嵌入模型训练,由于已标注完成的完备数据与保险业场景类似,因而得到的词嵌入模型迁移至保险业中能够精准预估保险业文本数据的标签,从而解决在保险业文本数据标注过程中需要大量人力和时间成本的问题,且能够获得较佳的标注效果。
附图说明
图1是传统的机器学习与迁移学习的对比示意图。
图2是本发明第一实施方式提供的基于迁移学习的文本数据标注方法的流程图。
图3是本发明第一实施方式提供的基于迁移学习的文本数据标注装置的结构图。
图4是本发明一实施方式的终端的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
为便于更加清楚的了解本发明的内容,在介绍本发明所述的基于迁移学习的文本数据标注方法之前,先简单的介绍传统的机器学习的学习过程与迁移学习的学习过程。
如图1所示,为传统的机器学习与迁移学习的对比示意图。其中,图1左边的为传统的机器学习的示意图,图1右边的为迁移学习的示意图。
图1中的椭圆形、圆形及长方形分别代表第一任务、第二任务和第三任务。
传统的机器学习对于不同的任务要进行重新学习和训练,即针对每一个任务都要进行一次学习训练的过程。因而,当任务较多且不同时,采用传统的机器学习需要针对不同的任务训练不同的模型。
迁移学习的学习过程:根据以前任务中所学到的知识和技能的能力识别新任务。即,迁移学习的目的是从一个或多个源任务中提取知识,并将知识应用于目标任务中,对目标任务进行学习。因而迁移学习不需要针对不同的任务训练不同的模型。
迁移学习与传统的机器学习相比,迁移学习最关心的是目标任务,而不是同时学习所有的源任务和目标任务,在迁移学习中,源任务和目标任务的作用不再对称。
在迁移学习中,一个域D由一个特征空间X和特征空间上的边际概率分布P(X)组成,写做D={X,P(X)}。一个任务T由一个标签空间y以及一个条件分布概率P(Y|X)构成,这个条件概率分布通常是从由特征-标签对xi∈X,yi∈Y组成的训练文本数据中学习得到。给定一个源域Ds和一个学习任务Ts,一个目标域Dt和一个学习任务Tt,迁移学习的目的是使用在Ds和Ts上学到的知识,帮助提高在目标域Dt上预测函数P(Y|X)的学习,其中Ds≠Dt或者Ts≠Tt。
对于以文本作为输入或者输出的自然语言处理进行迁移学习的问题,通常使用单词嵌入(如Google的Word2vec模型以及斯坦佛的GloVe word vector模型),即将单词映射到高维连续矢量空间,因为在这个矢量空间中相似含义的不同单词具有相似的向量表示。例如,通过学习“银行”对应“保险公司”,可以得出“理财产品”对应“保险产品”。词嵌入能达到这个效果,其中一个原因就是词嵌入会考察大量无标签的文本的训练集。通过考察大量无标签的文本的训练集,可以发现“银行”与“保险公司”相近,“理财产品”与“保险产品”相近。因此学习这种嵌入表达,把它们都聚集在一块,通过读取大量互联网文本发现了“理财产品”与“保险产品”都是投资,因而可以将词嵌入应用到具体的实体识别任务中。
实施例一
请参阅图2所示,其中图2是本发明第一实施方式的基于迁移学习的文本数据标注方法的流程图。
所述基于迁移学习的文本数据标注方法可以应用于终端,所述终端可以是例如智能手机、笔记本电脑、台式/平板电脑、智能手表等智能设备。
如图2所示,所述基于迁移学习的文本数据标注方法可以包括如下步骤:
S21:获取大量与保险业相关的其他行业的文本数据作为源数据。
本实施例中,由于主要是对保险业中的文本数据进行标注,而保险业属于金融业中的一种,因而为了精确的对保险业中的文本数据进行标注,可以从与保险业相关度较大的其他金融业中获取大量的文本数据,例如从银行业、信托业、证券业、租赁业和典当业中获取大量的且已经标注好的文本数据,这样词向量间的相似度更大。通过由已标注好的与保险业相关的其他行业的旧文本数据进行联想,如“购买”对应“车险”,到“购买”对应“寿险”,从而实现对保险业中未标注的新文本数据进行迁移学习来完成保险业中的文本数据的标注。已标注好的旧文本数据可以是通过各个网站或者应用程序(Application,APP)收集而来。
在其他实施例中,可以使用网络爬虫技术从各个网站或者应用程序中进行爬取大量的已经标注好的的与保险业相关的其他行业的旧文本数据。
S22:对所述文本数据进行预处理分别得到训练集和测试集。
获取文本数据之后,对文本数据进行预处理,从而得到训练集和测试集。
优选的,所述对所述文本数据进行预处理分别得到训练集和测试集包括:
获取所述文本数据的标签属性,所述标签属性包括:已标注标签,未标注标签;
当确定所述文本数据的标签属性为所述已标注标签,根据预设第一处理规则对所述已标注标签的文本数据进行第一处理,得到训练集。
当确定所述文本数据的标签属性为所述未标注标签,根据预设第二处理规则对所述未标注标签的文本数据进行第二处理,得到测试集。
本实施例中,可以预先设置第一处理规则和第二处理规则对收集的文本数据进行预处理。而在收集的文本数据中,部分文本数据已标注有标签,部分文本数据未标注标签,即收集的文本数据分为已标注标签的文本数据和未打好标签的文本数据。对于已标注标签的文本数据,采用第一处理规则进行处理得到训练集,对于未打好标签的文本数据,采用第二处理规则进行处理得到测试集。对于收集的文本数据,根据文本数据的属性不同,采用不同的处理规则进行处理,处理后的文本数据更加符合模型训练所需要使用的文本数据,训练的模型精确度更高,鲁棒性更强。
优选的,所述根据预设第一处理规则对所述已标注标签的文本数据进行第一处理包括:
剔除所述已标注标签的文本数据中与保险业关联度小于预设第一关联度阈值的文本数据;
同时保留所述已标注标签的文本数据中与所述保险业关联度大于预设第二关联度阈值的文本数据。
可以预先设置第一关联度阈值和第二关联度阈值,其中,所述第一关联度阈值(例如,30%)小于第二关联度阈值(例如,70%)。
可以根据标签计算所述已标注标签的文本数据与保险业的关联度。
当所述已标注标签的文本数据中,有与保险业关联度小于预设第一关联度阈值的文本数据时,将该部分文本数据进行剔除;当所述已标注标签的文本数据中,有与保险业关联度大于预设第二关联度阈值的文本数据时,将该部分文本数据进行保留。剔除掉关联度较小的文本数据,保留关联度较大的文本数据,即删除其中与保险业相去甚远的文本数据,可以避免关联度较小的文本数据对模型训练的影响,保留下来的文本数据都是最接近保险业场景所使用到的数据,从而使得后续对未标注标签的保险业文本数据进行标注更为精确。
优选的,所述预设第二处理规则可以包括:
识别所述未标注标签的文本数据中的预设关键字符;
将所识别出的预设关键字符从所述未标注标签的文本数据中进行删除;
将删除所述预设关键字符之后的文本数据进行拆分为词语;
创建字典对每个词语进行映射。
本实施例中,实际的未标注标签的文本数据中会包含大量的标点符号、英文字母、数字或者一些特殊字符。可以预先设置关键字符,所述关键字符可以是,例如,标点符号,英文字母,数字或者一些特殊字符等。通过匹配出预设关键字符并删除匹配出的预设关键字符,使得未标注标签的文本数据保持干净。
优选的,所述创建字典对每个词语进行映射包括:
计算每个词语出现的次数,把词语出现的次数和词语列表组合成字典;
利用词嵌入映射的方法,将词语出现的次数和词语表示为高维向量。
通过词嵌入映射后,使得词语中表示相近的词语的高维向量相似度很高,即使得相近的词语具有相似的语义。
具体地,可以基于Skip-gram模型的词嵌入映射方法,通过学习词语的向量表示,来达到精准预测临近词语的目的。最有效地学习目标(即最大化的目标函数)为:隐藏在句子中某个词语后,通过给定的句中临近的其他词语,可以得到最适合的被隐藏的词的向量。在自然语态下,能够填进隐藏的词语所在空缺的词语之间是具有相似语义的,则在进行词嵌入映射时,使得它们的向量的相似度很高。
本实施例中,可以选取Word2vec的Skip-gram算法学习词嵌入,学习词嵌入实际上是学习一个嵌入矩阵。word2vec方法是Google公司Tomas Mikolo等人于2013年提出的词嵌入技术。该方法是基于具有一个隐含层的神经元网络模型来训练词嵌入过程,模型的输入为词表向量,当输入一个训练样本时,对于样本中的每一个词,把这个词在词表中出现位置的取值置为1,否则置为0,同时,模型的输出也是词表向量。用浅层神经网络模型训练并迭代优化所有输入样本,当收敛之后,将从输入层到隐含层的那些权重,作为每一个词表中词的表示向量。
示例性的,假设词典的大小是10000,在“保险”这个词出现的位置放置一个“1”,其他的位置放置“0”,抽取上下文和目标词配对,来构建监督学习,而要解决的这个监督学习,实际上是一个映射问题。隐藏层的大小对应于向量空间大小。在上面的例子中,每个单词都有一个长度为300的语义特征空间向量。网络的输出是一个单一的向量。
S23:将所述训练集输入至词嵌入模型中进行训练。
本实施例中,所述训练集已标注有标签,即为有监督的训练集,将所述训练集输入至预先设置好的词嵌入模型中进行训练。
S24:将所述测试集输入至训练好的词嵌入模型中进行测试得到测试结果。
本实施例中,所述测试集未标注标签,通过将未标注标签的测试集输入至已经训练好的词嵌入模型中进行标注。保持源域中文本数据不变,对测试集中的文本数据进行标注标签并循环,根据词向量的相关性从中选出最优结果,从而实现对无标签文本数据的标注。
S25:根据所述测试结果对所述词嵌入模型进行微调。
优选的,所述根据所述测试结果对所述词嵌入模型进行微调包括:将在所述训练集上训练得到的词嵌入模型的权重作为所述测试集的初始化权重,重新训练词嵌入模型。
重新训练的方式为:固定网络前面几层的权值,微调网络后面几层的权值。这样做主要是为了避免文本数据过小造成过拟合现象,网络前几层一般包含更多的一般特征,对于许多任务而言非常重要,但是后面几层的特征学习注重高层特征,不同的文本数据集间差异较大。
S26:将训练好的词嵌入模型迁移至待标注的保险业的文本数据中进行标注。
在所述将训练好的词嵌入模型迁移至待标注的保险业的文本数据中进行标注之前,所述方法还包括:
识别所述待标注的保险业的文本数据中的预设关键字符;
将所识别出的预设关键字符从所述待标注的保险业的文本数据中进行删除;
将删除所述预设关键字符之后的文本数据进行拆分为词语;
将所述词语输入至训练好的词嵌入模型中进行标注。
本实施例中,所述预设关键字符包括以下一种或者多种的组合:
标点符号,英文字母,数字或者预设的特殊字符。
通过匹配出预设关键字符并删除匹配出的关键字符,使得待标注的保险业的文本数据更容易进行标注。
综上所述,本发明实施例提供的基于迁移学习的文本数据标注方法,通过与保险业类似场景中已标注完成的完备数据进行词嵌入模型训练,由于已标注完成的完备数据与保险业场景类似,因而得到的词嵌入模型迁移至保险业中能够精准预估保险业文本数据的标签,从而解决在保险业文本数据标注过程中需要大量人力和时间成本的问题。
上述图2详细介绍了本发明的基于迁移学习的文本数据标注方法,下面结合第3~4图,分别对实现所述基于迁移学习的文本数据标注方法的软件系统的功能模块以及硬件装置架构进行介绍。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
实施例二
参阅图3所示,为本发明一实施例揭露的基于迁移学习的文本数据标注装置的功能模块示意图。
在一些实施例中,所述基于迁移学习的文本数据标注装置50运行于终端中。所述基于迁移学习的文本数据标注装置50可以包括多个由程序代码段所组成的功能模块。所述基于迁移学习的文本数据标注装置50中的各个程序段的程序代码可以存储于终端的存储器中,并由所述至少一个处理器所执行,以执行(详见图2描述)基于迁移学习的文本数据标注。
本实施例中,所述基于迁移学习的文本数据标注装置50根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:获取模块501、处理模块502、训练模块503、测试模块504、调整模块505及标注模块506。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。在本实施例中,关于各模块的功能将在后续的实施例中详述。
获取模块501,用于获取大量与保险业相关的其他行业的文本数据作为源数据。
本实施例中,由于主要是对保险业中的文本数据进行标注,而保险业属于金融业中的一种,因而为了精确的对保险业中的文本数据进行标注,可以从与保险业相关度较大的其他金融业中获取大量的文本数据,例如从银行业、信托业、证券业、租赁业和典当业中获取大量的且已经标注好的文本数据,这样词向量间的相似度更大。通过由已标注好的与保险业相关的其他行业的旧文本数据进行联想,如“购买”对应“车险”,到“购买”对应“寿险”,从而实现对保险业中未标注的新文本数据进行迁移学习来完成保险业中的文本数据的标注。已标注好的旧文本数据可以是通过各个网站或者应用程序(Application,APP)收集而来。
在其他实施例中,可以使用网络爬虫技术从各个网站或者应用程序中进行爬取大量的已经标注好的的与保险业相关的其他行业的旧文本数据。
处理模块502,用于对所述文本数据进行预处理分别得到训练集和测试集。
获取文本数据之后,对文本数据进行预处理,从而得到训练集和测试集。
优选的,所述处理模块502对所述文本数据进行预处理分别得到训练集和测试集包括:
获取所述文本数据的标签属性,所述标签属性包括:已标注标签,未标注标签;
当确定所述文本数据的标签属性为所述已标注标签,根据预设第一处理规则对所述已标注标签的文本数据进行第一处理,得到训练集。
当确定所述文本数据的标签属性为所述未标注标签,根据预设第二处理规则对所述未标注标签的文本数据进行第二处理,得到测试集。
本实施例中,可以预先设置第一处理规则和第二处理规则对收集的文本数据进行预处理。而在收集的文本数据中,部分文本数据已标注有标签,部分文本数据未标注标签,即收集的文本数据分为已标注标签的文本数据和未打好标签的文本数据。对于已标注标签的文本数据,采用第一处理规则进行处理得到训练集,对于未打好标签的文本数据,采用第二处理规则进行处理得到测试集。对于收集的文本数据,根据文本数据的属性不同,采用不同的处理规则进行处理,处理后的文本数据更加符合模型训练所需要使用的文本数据,训练的模型精确度更高,鲁棒性更强。
优选的,所述根据预设第一处理规则对所述已标注标签的文本数据进行第一处理包括:
剔除所述已标注标签的文本数据中与保险业关联度小于预设第一关联度阈值的文本数据;
同时保留所述已标注标签的文本数据中与所述保险业关联度大于预设第二关联度阈值的文本数据。
可以预先设置第一关联度阈值和第二关联度阈值,其中,所述第一关联度阈值(例如,30%)小于第二关联度阈值(例如,70%)。
可以根据标签计算所述已标注标签的文本数据与保险业的关联度。
当所述已标注标签的文本数据中,有与保险业关联度小于预设第一关联度阈值的文本数据时,将该部分文本数据进行剔除;当所述已标注标签的文本数据中,有与保险业关联度大于预设第二关联度阈值的文本数据时,将该部分文本数据进行保留。剔除掉关联度较小的文本数据,保留关联度较大的文本数据,即删除其中与保险业相去甚远的文本数据,可以避免关联度较小的文本数据对模型训练的影响,保留下来的文本数据都是最接近保险业场景所使用到的数据,从而使得后续对未标注标签的保险业文本数据进行标注更为精确。
优选的,所述预设第二处理规则可以包括:
识别所述未标注标签的文本数据中的预设关键字符;
将所识别出的预设关键字符从所述未标注标签的文本数据中进行删除;
将删除所述预设关键字符之后的文本数据进行拆分为词语;
创建字典对每个词语进行映射。
本实施例中,实际的未标注标签的文本数据中会包含大量的标点符号、英文字母、数字或者一些特殊字符。可以预先设置关键字符,所述关键字符可以是,例如,标点符号,英文字母,数字或者一些特殊字符等。通过匹配出预设关键字符并删除匹配出的预设关键字符,使得未标注标签的文本数据保持干净。
优选的,所述创建字典对每个词语进行映射包括:
计算每个词语出现的次数,把词语出现的次数和词语列表组合成字典;
利用词嵌入映射的方法,将词语出现的次数和词语表示为高维向量。
通过词嵌入映射后,使得词语中表示相近的词语的高维向量相似度很高,即使得相近的词语具有相似的语义。
具体地,可以基于Skip-gram模型的词嵌入映射方法,通过学习词语的向量表示,来达到精准预测临近词语的目的。最有效地学习目标(即最大化的目标函数)为:隐藏在句子中某个词语后,通过给定的句中临近的其他词语,可以得到最适合的被隐藏的词的向量。在自然语态下,能够填进隐藏的词语所在空缺的词语之间是具有相似语义的,则在进行词嵌入映射时,使得它们的向量的相似度很高。
本实施例中,可以选取Word2vec的Skip-gram算法学习词嵌入,学习词嵌入实际上是学习一个嵌入矩阵。word2vec方法是Google公司Tomas Mikolo等人于2013年提出的词嵌入技术。该方法是基于具有一个隐含层的神经元网络模型来训练词嵌入过程,模型的输入为词表向量,当输入一个训练样本时,对于样本中的每一个词,把这个词在词表中出现位置的取值置为1,否则置为0,同时,模型的输出也是词表向量。用浅层神经网络模型训练并迭代优化所有输入样本,当收敛之后,将从输入层到隐含层的那些权重,作为每一个词表中词的表示向量。
示例性的,假设词典的大小是10000,在“保险”这个词出现的位置放置一个“1”,其他的位置放置“0”,抽取上下文和目标词配对,来构建监督学习,而要解决的这个监督学习,实际上是一个映射问题。隐藏层的大小对应于向量空间大小。在上面的例子中,每个单词都有一个长度为300的语义特征空间向量。网络的输出是一个单一的向量。
训练模块503,用于将所述训练集输入至词嵌入模型中进行训练。
本实施例中,所述训练集已标注有标签,即为有监督的训练集,将所述训练集输入至预先设置好的词嵌入模型中进行训练。
测试模块504,用于将所述测试集输入至训练好的词嵌入模型中进行测试得到测试结果。
本实施例中,所述测试集未标注标签,通过将未标注标签的测试集输入至已经训练好的词嵌入模型中进行标注。保持源域中文本数据不变,对测试集中的文本数据进行标注标签并循环,根据词向量的相关性从中选出最优结果,从而实现对无标签文本数据的标注。
调整模块505,用于根据所述测试结果对所述词嵌入模型进行微调。
优选的,所述调整模块505根据所述测试结果对所述词嵌入模型进行微调包括:将在所述训练集上训练得到的词嵌入模型的权重作为所述测试集的初始化权重,重新训练词嵌入模型。
重新训练的方式为:固定网络前面几层的权值,微调网络后面几层的权值。这样做主要是为了避免文本数据过小造成过拟合现象,网络前几层一般包含更多的一般特征,对于许多任务而言非常重要,但是后面几层的特征学习注重高层特征,不同的文本数据集间差异较大。
标注模块506,用于将训练好的词嵌入模型迁移至待标注的保险业的文本数据中进行标注。
在所述将训练好的词嵌入模型迁移至待标注的保险业的文本数据中进行标注之前,所述装置还包括:
识别所述待标注的保险业的文本数据中的预设关键字符;
将所识别出的预设关键字符从所述待标注的保险业的文本数据中进行删除;
将删除所述预设关键字符之后的文本数据进行拆分为词语;
将所述词语输入至训练好的词嵌入模型中进行标注。
本实施例中,所述预设关键字符包括以下一种或者多种的组合:标点符号,英文字母,数字或者预设的特殊字符。
通过匹配出预设关键字符并删除匹配出的关键字符,使得待标注的保险业的文本数据更容易进行标注。
综上所述,本发明实施例提供的基于迁移学习的文本数据标注装置,通过与保险业类似场景中已标注完成的完备数据进行词嵌入模型训练,由于已标注完成的完备数据与保险业场景类似,因而得到的词嵌入模型迁移至保险业中能够精准预估保险业文本数据的标签,从而解决在保险业文本数据标注过程中需要大量人力和时间成本的问题。
实施例三
参阅图4所示,为本发明第三实施例提供的终端的结构示意图,所述终端1包括存储器10、处理器30及存储在存储器10上并可在处理器30上运行的计算机程序,所述处理器30执行所述程序时实现上述任一实施方式中所述的基于迁移学习的文本数据标注方法的步骤。
所述的终端1可以是手机、平板电脑、个人数字助理等具有应用显示功能的终端。
本实施方式中,终端1还可以包括显示屏20及处理器30。存储器10、显示屏20可以分别与处理器30电连接。
所述的存储器10可以是不同类型存储设备,用于存储各类数据。例如,可以是终端1的存储器、内存,还可以是可外接于该终端1的存储卡,如闪存、SM卡(Smart Media Card,智能媒体卡)、SD卡(Secure Digital Card,安全数字卡)等。此外,存储器10可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。存储器10用于存储各类数据,例如,所述终端1中安装的各类应用程序(Applications)、应用上述基于迁移学习的文本数据标注方法而设置、获取的数据等信息。
显示屏20安装于终端1,用于显示信息。
处理器30用于执行所述基于迁移学习的文本数据标注方法以及所述终端1内安装的各类软件,例如操作系统及应用显示软件等。处理器30包含但不限于处理器(CentralProcessing Unit,CPU)、微控制单元(Micro Controller Unit,MCU)等用于解释计算机以及处理计算机软件中的数据的装置。
所述的基于迁移学习的文本数据标注装置50可以包括一个或多个的模块,所述一个或多个模块被存储在终端1的存储器10中并被配置成由一个或多个处理器(本实施方式为一个处理器30)执行,以完成本发明实施例。
可以理解的是,对应上述基于迁移学习的文本数据标注方法中的各实施方式,终端1可以包括图4中所示的各功能模块中的一部分或全部,各模块的功能将在以下具体介绍。需要说明的是,以上基于迁移学习的文本数据标注方法的各实施方式中相同的名词相关名词及其具体的解释说明也可以适用于以下对各模块的功能介绍。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器30执行时实现上述任一实施方式中的基于迁移学习的文本数据标注方法。
所述基于迁移学习的文本数据标注装置50/终端1/计算机设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施方式方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读存储介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。
所称处理器30可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器30是所述基于迁移学习的文本数据标注装置50/终端1的控制中心,利用各种接口和线路连接整个基于迁移学习的文本数据标注装置50/终端1的各个部分。
所述存储器10用于存储所述计算机程序和/或模块,所述处理器30通过运行或执行存储在所述存储器10内的计算机程序和/或模块,以及调用存储在存储器10内的数据,实现所述基于迁移学习的文本数据标注装置50/终端1的各种功能。所述存储器10可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器10可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
在本发明所提供的几个具体实施方式中,应该理解到,所揭露的终端和方法,可以通过其它的方式实现。例如,以上所描述的系统实施方式仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
对于本领域技术人员而言,显然本发明实施例不限于上述示范性实施例的细节,而且在不背离本发明实施例的精神或基本特征的情况下,能够以其他的具体形式实现本发明实施例。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明实施例的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明实施例内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。权利要求中陈述的多个单元、模块或装置也可以由同一个单元、模块或装置通过软件或者硬件来实现。
以上实施方式仅用以说明本发明实施例的技术方案而非限制,尽管参照以上较佳实施方式对本发明实施例进行了详细说明,本领域的普通技术人员应当理解,可以对本发明实施例的技术方案进行修改或等同替换都不应脱离本发明实施例的技术方案的精神和范围。

Claims (6)

1.一种基于迁移学习的文本数据标注方法,应用于终端,其特征在于,所述方法包括:
获取大量与保险业相关的其他行业的文本数据作为源数据,所述文本数据包括已标注标签的文本数据和未标注标签的文本数据;
根据预设第一处理规则对所述已标注标签的文本数据进行第一处理,得到训练集,所述第一处理包括:剔除所述已标注标签的文本数据中与保险业关联度小于预设第一关联度阈值的文本数据,同时,保留所述已标注标签的文本数据中与所述保险业关联度大于预设第二关联度阈值的文本数据;
根据预设第二处理规则对所述未标注标签的文本数据进行第二处理,得到测试集,所述第二处理包括:识别所述未标注标签的文本数据中的预设关键字符,从所述未标注标签的文本数据中删除识别出的预设关键字符,拆分删除预设关键字符后的未标注标签的文本数据,得到词语,计算每个词语出现的次数,把词语出现的次数和词语列表组合成字典,利用词嵌入映射的方法,将词语出现的次数和词语表示为高维向量,所述预设关键字符包括标点符号、英文字母、数字和预设的特殊字符;
将所述训练集输入至词嵌入模型中进行训练;
将所述测试集输入至训练好的词嵌入模型中进行测试得到测试结果;
根据所述测试结果对所述词嵌入模型进行微调;
将训练好的词嵌入模型迁移至待标注的保险业的文本数据中进行标注。
2.根据权利要求1所述的方法,其特征在于,所述根据所述测试结果对所述词嵌入模型进行微调包括:
将在所述训练集上训练得到的词嵌入模型的权重作为所述测试集的初始化权重,重新训练词嵌入模型。
3.根据权利要求1至2中任意一项所述的方法,其特征在于,在所述将训练好的词嵌入模型迁移至待标注的保险业的文本数据中进行标注之前,所述方法还包括:
识别所述待标注的保险业的文本数据中的预设关键字符;
将所识别出的预设关键字符从所述待标注的保险业的文本数据中进行删除;
将删除所述预设关键字符之后的文本数据拆分为词语;
将所述词语输入至训练好的词嵌入模型中进行标注。
4.一种基于迁移学习的文本数据标注装置,运行于终端,其特征在于,所述装置包括:
获取模块,用于获取大量与保险业相关的其他行业的文本数据作为源数据,所述文本数据包括已标注标签的文本数据和未标注标签的文本数据;
处理模块,用于根据预设第一处理规则对所述已标注标签的文本数据进行第一处理,得到训练集,所述第一处理包括:剔除所述已标注标签的文本数据中与保险业关联度小于预设第一关联度阈值的文本数据,同时,保留所述已标注标签的文本数据中与所述保险业关联度大于预设第二关联度阈值的文本数据;根据预设第二处理规则对所述未标注标签的文本数据进行第二处理,得到测试集,所述第二处理包括:识别所述未标注标签的文本数据中的预设关键字符,从所述未标注标签的文本数据中删除识别出的预设关键字符,拆分删除预设关键字符后的未标注标签的文本数据,得到词语,计算每个词语出现的次数,把词语出现的次数和词语列表组合成字典,利用词嵌入映射的方法,将词语出现的次数和词语表示为高维向量,所述预设关键字符包括标点符号、英文字母、数字和预设的特殊字符;
训练模块,用于将所述训练集输入至词嵌入模型中进行训练;
测试模块,用于将所述测试集输入至训练好的词嵌入模型中进行测试得到测试结果;
调整模块,用于根据所述测试结果对所述词嵌入模型进行微调;
标注模块,用于将训练好的词嵌入模型迁移至待标注的保险业的文本数据中进行标注。
5.一种终端装置,其特征在于,所述终端装置包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1至3中任意一项所述的基于迁移学习的文本数据标注方法。
6.一种计算机可读存储介质,所述计算机可读上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至3中任意一项所述的基于迁移学习的文本数据标注方法。
CN201910063685.7A 2019-01-23 2019-01-23 基于迁移学习的文本数据标注方法、装置、终端及介质 Active CN109902271B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910063685.7A CN109902271B (zh) 2019-01-23 2019-01-23 基于迁移学习的文本数据标注方法、装置、终端及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910063685.7A CN109902271B (zh) 2019-01-23 2019-01-23 基于迁移学习的文本数据标注方法、装置、终端及介质

Publications (2)

Publication Number Publication Date
CN109902271A CN109902271A (zh) 2019-06-18
CN109902271B true CN109902271B (zh) 2024-05-10

Family

ID=66944061

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910063685.7A Active CN109902271B (zh) 2019-01-23 2019-01-23 基于迁移学习的文本数据标注方法、装置、终端及介质

Country Status (1)

Country Link
CN (1) CN109902271B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110532345A (zh) 2019-07-15 2019-12-03 北京小米智能科技有限公司 一种未标注数据的处理方法、装置及存储介质
CN110619423B (zh) * 2019-08-06 2023-04-07 平安科技(深圳)有限公司 多任务预测方法、装置、电子设备及存储介质
CN111079406B (zh) * 2019-12-13 2022-01-11 华中科技大学 自然语言处理模型训练方法、任务执行方法、设备及系统
CN111209813B (zh) * 2019-12-27 2021-01-22 南京航空航天大学 基于迁移学习的遥感图像语义分割方法
CN111291802B (zh) * 2020-01-21 2023-12-12 华为技术有限公司 数据标注方法及装置
CN111859855A (zh) * 2020-06-11 2020-10-30 第四范式(北京)技术有限公司 一种标注任务处理方法、装置、设备及存储介质
CN111582277A (zh) * 2020-06-15 2020-08-25 深圳天海宸光科技有限公司 一种基于迁移学习的车牌识别系统及方法
CN112287184B (zh) * 2020-10-30 2022-12-20 创新奇智(青岛)科技有限公司 基于神经网络的迁移标注方法、装置、设备及存储介质
CN112329883A (zh) * 2020-11-25 2021-02-05 Oppo广东移动通信有限公司 模型训练系统、方法、设备及存储介质
CN113239191A (zh) * 2021-04-27 2021-08-10 北京妙医佳健康科技集团有限公司 一种基于小样本数据的人工辅助文本标注方法及装置
CN113239205B (zh) * 2021-06-10 2023-09-01 阳光保险集团股份有限公司 数据标注方法、装置、电子设备及计算机可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108664473A (zh) * 2018-05-11 2018-10-16 平安科技(深圳)有限公司 文本关键信息的识别方法、电子装置及可读存储介质
CN108985334A (zh) * 2018-06-15 2018-12-11 广州深域信息科技有限公司 基于自监督过程改进主动学习的通用物体检测系统及方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108664473A (zh) * 2018-05-11 2018-10-16 平安科技(深圳)有限公司 文本关键信息的识别方法、电子装置及可读存储介质
CN108985334A (zh) * 2018-06-15 2018-12-11 广州深域信息科技有限公司 基于自监督过程改进主动学习的通用物体检测系统及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张倩 等.基于知识表达的迁移学习方法及其应用.徐州:中国矿业大学出版社,2015,第41页. *
语义驱动的数据查询与智能可视化研究;杨梦琴;万方;第8页 *

Also Published As

Publication number Publication date
CN109902271A (zh) 2019-06-18

Similar Documents

Publication Publication Date Title
CN109902271B (zh) 基于迁移学习的文本数据标注方法、装置、终端及介质
RU2691214C1 (ru) Распознавание текста с использованием искусственного интеллекта
US11860684B2 (en) Few-shot named-entity recognition
CN110909820A (zh) 基于自监督学习的图像分类方法及系统
CN112818093B (zh) 基于语义匹配的证据文档检索方法、系统及存储介质
CN111191445B (zh) 广告文本分类方法及装置
Calvo-Zaragoza et al. Staff-line detection and removal using a convolutional neural network
Nguyen et al. Comic MTL: optimized multi-task learning for comic book image analysis
CN114580424B (zh) 一种用于法律文书的命名实体识别的标注方法和装置
CN113360699A (zh) 模型训练方法和装置、图像问答方法和装置
CN113051914A (zh) 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
CN111462752A (zh) 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法
Nguyen et al. Multi-task model for comic book image analysis
CN113711232A (zh) 用于着墨应用的对象检测和分割
CN114240672A (zh) 绿色资产的占比的识别方法及相关产品
CN116701637A (zh) 一种基于clip的零样本文本分类方法、系统及介质
US20200294410A1 (en) Methods, systems, apparatuses and devices for facilitating grading of handwritten sheets
US20240152749A1 (en) Continual learning neural network system training for classification type tasks
Nouhaila et al. Arabic sentiment analysis based on 1-D convolutional neural network
CN111563140A (zh) 一种意图识别方法及装置
Aung et al. Feature based myanmar fingerspelling image classification using SIFT, SURF and BRIEF
CN115204142A (zh) 开放关系抽取方法、设备及存储介质
CN115130437A (zh) 一种文档智能填写方法、装置及存储介质
CN115374259A (zh) 一种问答数据挖掘方法、装置及电子设备
CN114398482A (zh) 一种词典构造方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant