CN113191153A - 一种领域迁移学习的实体识别方法、系统和设备 - Google Patents

一种领域迁移学习的实体识别方法、系统和设备 Download PDF

Info

Publication number
CN113191153A
CN113191153A CN202110740275.9A CN202110740275A CN113191153A CN 113191153 A CN113191153 A CN 113191153A CN 202110740275 A CN202110740275 A CN 202110740275A CN 113191153 A CN113191153 A CN 113191153A
Authority
CN
China
Prior art keywords
feature space
target
corpus
sample
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110740275.9A
Other languages
English (en)
Other versions
CN113191153B (zh
Inventor
韩瑞峰
杨红飞
金霞
程东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huoshi Creation Technology Co ltd
Original Assignee
Hangzhou Firestone Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Firestone Technology Co ltd filed Critical Hangzhou Firestone Technology Co ltd
Priority to CN202110740275.9A priority Critical patent/CN113191153B/zh
Publication of CN113191153A publication Critical patent/CN113191153A/zh
Application granted granted Critical
Publication of CN113191153B publication Critical patent/CN113191153B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及一种领域迁移学习的实体识别方法、系统和设备,其中,该方法包括:用训练好的序列标注模型提取源语料和目标语料中实体的文本特征,建立训练样本,对训练样本的文本特征分别进行主成分分析,得到源域特征空间和目标域特征空间,进而计算得到测地线流核函数,通过测地线流核函数将语料进行映射,得到新的特征空间,根据新的特征空间对分类模型进行训练,用训练好的分类模型对无标注的目标语料进行实体识别。通过本申请,解决了实体识别中对标注样本依赖性强和开发效率低的问题,实现了在特征空间上重新映射的领域适应方法,将在映射后的特征空间上训练的分类模型直接应用在无标注的目标语料上,达到了迁移学习的技术效果。

Description

一种领域迁移学习的实体识别方法、系统和设备
技术领域
本申请涉及实体识别领域,特别是涉及一种领域迁移学习的实体识别方法、系统和设备。
背景技术
在文本信息抽取的应用场景中,由于场景多样、细化,样本标注成为文本信息抽取过程中重要的一环,工业应用上面临着缺少标注样本,样本标注成本高的现状,目前的文本信息抽取方法中,基于模型训练的方法需要大量的标注样本,虽然有一些深度模型呈现准确度越来越高,需要的标注样本量越来越少的趋势,但仍然需要一定量的标注样本才能训练得到可用的模型,在获取到标注样本前,无法开展工作,这样的过程还是相当于将开发成本转嫁到样本标注上,整体开发效率仍然低下。
目前针对相关技术中对标注样本依赖性强和开发效率低的问题,尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种领域迁移学习的实体识别方法、系统和设备,以至少解决相关技术中对标注样本依赖性强和开发效率低的问题。
第一方面,本申请实施例提供了一种领域迁移学习的实体识别方法,所述方法包括:
根据源语料对序列标注模型进行训练,通过训练好的所述序列标注模型提取所述源语料和目标语料中实体的文本特征,建立训练样本,其中,所述训练样本包含源域样本和目标域样本;
对所述源域样本和所述目标域样本的文本特征分别进行主成分分析,得到源域特征空间和目标域特征空间;
对所述源域特征空间进行处理得到新源域特征空间,将所述新源域特征空间与所述目标域特征空间进行点积,对所述点积的结果进行奇异值分解;
根据所述奇异值分解的结果,构建测地线流,根据所述测地线流,计算得到测地线流核函数;
通过所述测地线流核函数对所述源域样本进行映射,得到训练特征空间,根据所述训练特征空间对分类模型进行训练;
通过所述测地线流核函数对所述目标域样本进行映射,得到识别特征空间,通过训练好的所述分类模型对所述识别特征空间进行预测,得到所述目标语料的实体识别结果。
在其中一些实施例中,根据所述奇异值分解的结果,构建测地线流,根据所述测地线流,计算得到测地线流核函数包括:
根据所述奇异值分解的结果U1、U2、V、Γ和Σ,构建得到的测地线流为φ(t)=PsU1Γ(t)-RsU2Σ(t),其中,U1和U2为标准正交矩阵,Γ和Σ为d*d的对角矩阵,Ps为所述新源域特征空间,Rs为根据所述源域特征空间取得的零空间特征,tϵ[0, 1];
根据所述测地线流φ(t)进行积分,即
Figure 89974DEST_PATH_IMAGE001
进而得到测地线流核函数为
Figure 553316DEST_PATH_IMAGE002
其中,Λ1、Λ2和Λ3为对角矩阵,Λ1、Λ2和Λ3对角元素分别为
Figure 225606DEST_PATH_IMAGE003
在其中一些实施例中,对所述点积的结果进行奇异值分解包括:
对点积结果的前d维矩阵和后n-d维矩阵进行广义奇异值分解,得到U1、U2、V、Γ和Σ,其中,U1和U2为标准正交矩阵,Γ和Σ为d*d的对角矩阵,Γ和Σ的对角元素分别为cos(θi)和sin(θi)。
在其中一些实施例中,对所述源域特征空间进行处理得到新源域特征空间包括:
根据所述源域特征空间取得零空间特征Rs,将所述源域特征空间与所述零空间特征Rs连接,得到新源域特征空间Ps。
在其中一些实施例中,对所述源域样本和所述目标域样本的文本特征分别进行主成分分析,得到源域特征空间和目标域特征空间包括:
对所述源域样本中N个样本的n维文本特征进行主成分分析,取所述主成分分析的结果中方差最大的d个维度作为源域特征空间;
对所述目标域样本中N个样本的n维文本特征进行主成分分析,取所述主成分分析的结果中方差最大的d个维度作为目标域特征空间。
在其中一些实施例中,通过训练好的所述序列标注模型提取所述源语料和目标语料中实体的文本特征,建立训练样本包括:
通过训练好的所述序列标注模型提取所述源语料中实体的文本特征,按照实体标签类型对所述源语料的实体进行整理,根据所述文本特征和整理过的实体建立源域样本;
通过训练好的所述序列标注模型提取所述目标语料中实体的文本特征,通过autophrase方法挖掘目标语料中的名词短语,根据所述文本特征和所述名词短语建立目标域样本。
在其中一些实施例中,通过训练好的所述序列标注模型提取所述源语料和目标语料中实体的文本特征包括:
通过训练好的所述序列标注模型提取所述源语料和目标语料中实体的实体类型特征和前后文类型特征;
计算实体的实体类型特征,对句子中实体每个字的特征向量作平均,作为所述实体的实体类型特征;
计算实体的前后文类型特征,将lstm网络的前向连接输出从句子开始到所述实体结束位置的向量,和所述lstm网络的反向连接输出从句子结尾处到所述实体开始位置的向量进行连接,作为所述实体的前后文类型特征。
在其中一些实施例中,在通过训练好的所述分类模型对所述识别特征空间进行预测,得到所述目标语料的实体识别结果之前,所述方法还包括:
在所述目标域样本中标注出样本T,通过所述测地线流核函数对所述样本T进行映射,得到测试特征空间,通过训练好的所述分类模型对所述测试特征空间进行预测,检测所述分类模型的准确率。
第二方面,本申请实施例提供了一种领域迁移学习的实体识别系统,所述系统包括样本构建模块、核函数构建模块、模型训练模块和实体识别模块;
所述样本构建模块根据源语料对序列标注模型进行训练,通过训练好的所述序列标注模型提取所述源语料和目标语料中实体的文本特征,建立训练样本,其中,所述训练样本包含源域样本和目标域样本;
所述核函数构建模块对所述源域样本和所述目标域样本的文本特征分别进行主成分分析,得到源域特征空间和目标域特征空间;
所述核函数构建模块对所述源域特征空间进行处理得到新源域特征空间,将所述新源域特征空间与所述目标域特征空间进行点积,对所述点积的结果进行奇异值分解;
所述核函数构建模块根据所述奇异值分解的结果,构建测地线流,根据所述测地线流,计算得到测地线流核函数;
所述模型训练模块通过所述测地线流核函数对所述源域样本进行映射,得到训练特征空间,根据所述训练特征空间对分类模型进行训练;
所述实体识别模块通过所述测地线流核函数对所述目标域样本进行映射,得到识别特征空间,通过训练好的所述分类模型对所述识别特征空间进行预测,得到所述目标语料的实体识别结果。
第三方面,本申请实施例提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面中任一项所述的领域迁移学习的实体识别方法。
相比于相关技术,本申请实施例提供的一种领域迁移学习的实体识别方法、系统和设备,通过训练好的序列标注模型提取源语料和目标语料中实体的文本特征,建立训练样本,其中,训练样本包含源域样本和目标域样本,对源域样本和目标域样本的文本特征分别进行主成分分析,得到源域特征空间和目标域特征空间,对源域特征空间进行处理得到新源域特征空间,将新源域特征空间与目标域特征空间进行点积,对点积的结果进行奇异值分解,根据奇异值分解的结果,构建测地线流,根据测地线流,计算得到测地线流核函数,通过测地线流核函数对源域样本进行映射,得到训练特征空间,根据训练特征空间对分类模型进行训练,通过测地线流核函数对目标域样本进行映射,得到识别特征空间,通过训练好的分类模型对识别特征空间进行预测,得到目标语料的实体识别结果。解决了实体识别中对标注样本依赖性强和开发效率低的问题,实现了在特征空间上重新映射的领域适应方法,将在映射后的特征空间上训练的分类模型直接应用在无标注的目标语料上,达到了迁移学习的技术效果。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的领域迁移学习实体识别方法的步骤流程图;
图2是根据本申请实施例的领域迁移学习实体识别系统的结构框图;
图3是根据本申请具体实施例的领域迁移学习实体识别方法的步骤流程图;
图4是根据本申请实施例的电子设备的内部结构示意图。
附图说明:21、样本构建模块;22、核函数构建模块;23、模型训练模块;24、实体识别模块。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。
本申请实施例提供了一种领域迁移学习的实体识别方法,图1是根据本申请实施例的领域迁移学习实体识别方法的步骤流程图,如图1所示,该方法包括以下步骤:
步骤S102,根据源语料对序列标注模型进行训练,通过训练好的序列标注模型提取源语料和目标语料中实体的文本特征,建立训练样本,其中,训练样本包含源域样本和目标域样本;
步骤S104,对源域样本和目标域样本的文本特征分别进行主成分分析,得到源域特征空间和目标域特征空间;
步骤S106,对源域特征空间进行处理得到新源域特征空间,将新源域特征空间与目标域特征空间进行点积,对点积的结果进行奇异值分解;
步骤S108,根据奇异值分解的结果,构建测地线流,根据测地线流,计算得到测地线流核函数;
步骤S110,通过测地线流核函数对源域样本进行映射,得到训练特征空间,根据训练特征空间对分类模型进行训练;
步骤S112,通过测地线流核函数对目标域样本进行映射,得到识别特征空间,通过训练好的分类模型对识别特征空间进行预测,得到目标语料的实体识别结果。
需要说明的是,源语料是目标语料相近领域的带标注语料,而目标语料则只是无标注的语料。目标语料具有与源语料相同的实体标签类型,比如两个领域都具有“疾病、症状、药物”这3种类型的实体;以及步骤S102中的序列标注模型可以用bert+crf结构的神经网络模型,步骤S110和步骤S112中的分类模型可以是KNN。
通过本申请实施例中的步骤S102至步骤S112,从两个领域的语料计算出测地线流核函数,用核函数将语料映射到新的特征空间,在源语料的新特征空间上训练得到的分类模型,通过分类模型对无标注的目标语料进行实体识别,解决了实体识别中对标注样本依赖性强和开发效率低的问题,实现了在特征空间上重新映射的领域适应方法,将在映射后的特征空间上训练的分类模型直接应用在无标注的目标语料上,达到了迁移学习的技术效果。
在其中一些实施例中,步骤S108,根据奇异值分解的结果,构建测地线流,根据测地线流,计算得到测地线流核函数包括:
根据奇异值分解的结果U1、U2、V、Γ和Σ,构建得到的测地线流为φ(t)=PsU1Γ(t)-RsU2Σ(t),其中,U1和U2为标准正交矩阵,Γ和Σ为d*d的对角矩阵,Ps为新源域特征空间,Rs为根据源域特征空间取得的零空间特征,tϵ[0, 1];
根据测地线流φ(t)进行积分,即
Figure 458004DEST_PATH_IMAGE001
进而得到测地线流核函数为
Figure 698493DEST_PATH_IMAGE002
其中,Λ1、Λ2和Λ3为对角矩阵,Λ1、Λ2和Λ3对角元素分别为
Figure 508186DEST_PATH_IMAGE003
在其中一些实施例中,步骤S106,对点积的结果进行奇异值分解包括:
对点积结果的前d维矩阵和后n-d维矩阵进行广义奇异值分解,得到U1、U2、V、Γ和Σ,其中,U1和U2为标准正交矩阵,Γ和Σ为d*d的对角矩阵,Γ和Σ的对角元素分别为cos(θi)和sin(θi)。
在其中一些实施例中,步骤S106,对源域特征空间进行处理得到新源域特征空间包括:
根据源域特征空间取得零空间特征Rs,将源域特征空间与零空间特征Rs连接,得到新源域特征空间Ps。
在其中一些实施例中,步骤S104,对源域样本和目标域样本的文本特征分别进行主成分分析,得到源域特征空间和目标域特征空间包括:
对源域样本中N个样本的n维文本特征进行主成分分析,取主成分分析的结果中方差最大的d个维度作为源域特征空间;
对目标域样本中N个样本的n维文本特征进行主成分分析,取主成分分析的结果中方差最大的d个维度作为目标域特征空间。
在其中一些实施例中,步骤S102,通过训练好的序列标注模型提取源语料和目标语料中实体的文本特征,建立训练样本包括:
通过训练好的序列标注模型提取源语料中实体的文本特征,按照实体标签类型对源语料的实体进行整理,根据文本特征和整理过的实体建立源域样本;
通过训练好的序列标注模型提取目标语料中实体的文本特征,通过autophrase方法挖掘目标语料中的名词短语,根据文本特征和名词短语建立目标域样本。
在其中一些实施例中,步骤S102,通过训练好的序列标注模型提取源语料和目标语料中实体的文本特征包括:
通过训练好的序列标注模型提取源语料和目标语料中实体的实体类型特征和前后文类型特征;
计算实体的实体类型特征,对句子中实体每个字的特征向量作平均,作为所述实体的实体类型特征;
计算实体的前后文类型特征,将lstm网络的前向连接输出从句子开始到所述实体结束位置的向量,和lstm网络的反向连接输出从句子结尾处到实体开始位置的向量进行连接,作为实体的前后文类型特征。
需要说明的是,这两类的特征需要对目标语料挖掘高频名词短语。
在其中一些实施例中,在步骤S112,通过训练好的分类模型对识别特征空间进行预测,得到目标语料的实体识别结果之前,方法还包括:
在目标域样本中标注出样本T,通过测地线流核函数对样本T进行映射,得到测试特征空间,通过训练好的分类模型对测试特征空间进行预测,检测分类模型的准确率。
需要说明的是,在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例提供了一种领域迁移学习的实体识别系统,图2是根据本申请实施例的领域迁移学习实体识别系统的结构框图,该系统包括样本构建模块21、核函数构建模块22、模型训练模块23和实体识别模块24;
样本构建模块21根据源语料对序列标注模型进行训练,通过训练好的序列标注模型提取源语料和目标语料中实体的文本特征,建立训练样本,其中,训练样本包含源域样本和目标域样本;
核函数构建模块22对源域样本和目标域样本的文本特征分别进行主成分分析,得到源域特征空间和目标域特征空间;
核函数构建模块22对源域特征空间进行处理得到新源域特征空间,将新源域特征空间与目标域特征空间进行点积,对点积的结果进行奇异值分解;
核函数构建模块22根据奇异值分解的结果,构建测地线流,根据测地线流,计算得到测地线流核函数;
模型训练模块23通过测地线流核函数对源域样本进行映射,得到训练特征空间,根据训练特征空间对分类模型进行训练;
实体识别模块24通过测地线流核函数对目标域样本进行映射,得到识别特征空间,通过训练好的分类模型对识别特征空间进行预测,得到目标语料的实体识别结果。
通过本申请实施例,样本构建模块21利用训练好的序列标注模型提取源语料和目标语料中实体的文本特征,建立训练样本,其中,训练样本包含源域样本和目标域样本,核函数构建模块22对源域样本和目标域样本的文本特征分别进行主成分分析,得到源域特征空间和目标域特征空间,核函数构建模块22对源域特征空间进行处理得到新源域特征空间,将新源域特征空间与目标域特征空间进行点积,对点积的结果进行奇异值分解,根据奇异值分解的结果,构建测地线流,根据测地线流,计算得到测地线流核函数,模型训练模块23通过测地线流核函数对源域样本进行映射,得到训练特征空间,根据训练特征空间对分类模型进行训练,实体识别模块24通过测地线流核函数对目标域样本进行映射,得到识别特征空间,通过训练好的分类模型对识别特征空间进行预测,得到目标语料的实体识别结果。解决了实体识别中对标注样本依赖性强和开发效率低的问题,实现了在特征空间上重新映射的领域适应方法,将在映射后的特征空间上训练的分类模型直接应用在无标注的目标语料上,达到了迁移学习的技术效果。
需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
本申请具体实施例提供了一种领域迁移学习的实体识别方法,图3是根据本申请具体实施例的领域迁移学习实体识别方法的步骤流程图,如图3所示,该方法包括以下步骤:
步骤S302,样本准备。
在源语料上训练序列标注模型,用来识别文本中的实体。模型可以用bert+crf结构的神经网络模型;
用训练好的序列标注模型对源语料和目标语料提取文本特征,建立训练样本,将序列标注样本整理为分类样本,将源语料按照实体标签类型整理,用autophrase方法对目标语料挖掘高频名词短语,短语包含了领域的各种类型的实体和其他名词,将挖掘的结果整理为分类样本,且分类样本不带标签;
对文本中的实体计算特征的方式有几种:按字、按实体、按前后文,从模型特征提取层中获取相应的特征。后两种需要对目标语料挖掘短语。
需要说明的是,autophrase方法参考自AutoPhrase: Automated Phrase Miningfrom Massive Text Corpora。
步骤S304,计算核函数。
建立测地线流(geodesic flow),
对源语料和目标语料的N个样本的n维特征计算PCA(主成分分析),取前d个最大方差的维度作为新特征空间。对源域样本的新特征空间Ps取零空间特征Rs,将Ps和Rs连接为新的Ps。并得到目标域样本的新特征空间Pt。取Ps和Pt的点积得到QPt,对QPt的前d维和后n-d维矩阵计算广义奇异值分解(Generalized SVD),得到U1、U2、V、Gam(Γ)、Sig(Σ),其中U1和U2为标准正交矩阵,Gam和Sig为dxd的对角矩阵,且对角元素为cos(θi),sin(θi),其中,θ0<=θ1<=…<=θd<=π/2;得到φ(t)=PsV1Γ(t)-RsV2Σ(t),tϵ[0, 1]即为测地线流,其中φ(0)=Ps,φ(1)=Pt,其意义为t取值从0到1时逐渐从源域特征变化到目标域特征,t为(0, 1)区间时表示介于源和目标域的中间域的特征,对于特征x,φ(t)x为特征x到φ(t)子空间的映射。
建立测地线流核(geodesic flow kernel),
用核方法,在全部t值的子空间上训练分类器。目的是建立对倾向源域或目标域的特征上的变化鲁棒的分类器。对两个n维特征向量xi和xj,计算其到φ(t)上的映射,t从0取到1,并将全部的映射连接成特征向量zi和zj,zi和zj是无穷维的。测地线流核函数G通过计算zi和zj的内积得到后取平方根:
Figure 859533DEST_PATH_IMAGE004
Figure 946438DEST_PATH_IMAGE005
核函数G可通过下述矩阵计算得到:
Figure 485391DEST_PATH_IMAGE006
其中Λ1,Λ2,Λ3为对角矩阵,其对角元素分别为:
Figure 392167DEST_PATH_IMAGE007
可选地,替代上述核方法,随机选取的一系列t值对应的子空间上训练分类器。
步骤S306,训练分类模型。
用核函数对源领域样本X进行映射dot(G, X),映射后在新的特征空间上训练分类模型,如KNN。在目标域标注样本T上测试准确率,测试分类模型是否可用。
步骤S308,进行实体识别。
用核函数对目标领域样本Y进行映射dot(G, Y),用训练好的模型对其预测得到结果。
通过本申请实施例中的步骤S302至步骤S308,从两个领域的语料的特征得到映射核函数,用核函数将语料映射到新的特征空间,在源领域语料新特征空间上训练得到的分类模型,能够在目标领域语料上具有较高的预测准确率,解决了实体识别中对标注样本依赖性强和开发效率低的问题,实现了在特征空间上重新映射的领域适应方法,将在映射后的特征空间上训练的分类模型直接应用在无标注的目标语料上,达到了迁移学习的技术效果。
本实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
需要说明的是,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
另外,结合上述实施例中的领域迁移学习的实体识别方法,本申请实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序;该计算机程序被处理器执行时实现上述实施例中的任意一种领域迁移学习的实体识别方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种领域迁移学习的实体识别方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
在一个实施例中,图4是根据本申请实施例的电子设备的内部结构示意图,如图4所示,提供了一种电子设备,该电子设备可以是服务器,其内部结构图可以如图4所示。该电子设备包括通过内部总线连接的处理器、网络接口、内存储器和非易失性存储器,其中,该非易失性存储器存储有操作系统、计算机程序和数据库。处理器用于提供计算和控制能力,网络接口用于与外部的终端通过网络连接通信,内存储器用于为操作系统和计算机程序的运行提供环境,计算机程序被处理器执行时以实现一种领域迁移学习的实体识别方法,数据库用于存储数据。
本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
本领域的技术人员应该明白,以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种领域迁移学习的实体识别方法,其特征在于,所述方法包括:
根据源语料对序列标注模型进行训练,通过训练好的所述序列标注模型提取所述源语料和目标语料中实体的文本特征,建立训练样本,其中,所述训练样本包含源域样本和目标域样本;
对所述源域样本和所述目标域样本的文本特征分别进行主成分分析,得到源域特征空间和目标域特征空间;
对所述源域特征空间进行处理得到新源域特征空间,将所述新源域特征空间与所述目标域特征空间进行点积,对所述点积的结果进行奇异值分解;
根据所述奇异值分解的结果,构建测地线流,根据所述测地线流,计算得到测地线流核函数;
通过所述测地线流核函数对所述源域样本进行映射,得到训练特征空间,根据所述训练特征空间对分类模型进行训练;
通过所述测地线流核函数对所述目标域样本进行映射,得到识别特征空间,通过训练好的所述分类模型对所述识别特征空间进行预测,得到所述目标语料的实体识别结果。
2.根据权利要求1所述的方法,其特征在于,根据所述奇异值分解的结果,构建测地线流,根据所述测地线流,计算得到测地线流核函数包括:
根据所述奇异值分解的结果U1、U2、V、Γ和Σ,构建得到的测地线流为φ(t)=PsU1Γ(t)-RsU2Σ(t),其中,U1和U2为标准正交矩阵,Γ和Σ为d*d的对角矩阵,Ps为所述新源域特征空间,Rs为根据所述源域特征空间取得的零空间特征,tϵ[0, 1];
根据所述测地线流φ(t)进行积分,即
Figure DEST_PATH_IMAGE002
进而得到测地线流核函数为
Figure DEST_PATH_IMAGE004
其中,Λ1、Λ2和Λ3为对角矩阵,Λ1、Λ2和Λ3对角元素分别为
Figure DEST_PATH_IMAGE006
3.根据权利要求1所述的方法,其特征在于,对所述点积的结果进行奇异值分解包括:
对点积结果的前d维矩阵和后n-d维矩阵进行广义奇异值分解,得到U1、U2、V、Γ和Σ,其中,U1和U2为标准正交矩阵,Γ和Σ为d*d的对角矩阵,Γ和Σ的对角元素分别为cos(θi)和sin(θi)。
4.根据权利要求1所述的方法,其特征在于,对所述源域特征空间进行处理得到新源域特征空间包括:
根据所述源域特征空间取得零空间特征Rs,将所述源域特征空间与所述零空间特征Rs连接,得到新源域特征空间Ps。
5.根据权利要求1所述的方法,其特征在于,对所述源域样本和所述目标域样本的文本特征分别进行主成分分析,得到源域特征空间和目标域特征空间包括:
对所述源域样本中N个样本的n维文本特征进行主成分分析,取所述主成分分析的结果中方差最大的d个维度作为源域特征空间;
对所述目标域样本中N个样本的n维文本特征进行主成分分析,取所述主成分分析的结果中方差最大的d个维度作为目标域特征空间。
6.根据权利要求1所述的方法,其特征在于,通过训练好的所述序列标注模型提取所述源语料和目标语料中实体的文本特征,建立训练样本包括:
通过训练好的所述序列标注模型提取所述源语料中实体的文本特征,按照实体标签类型对所述源语料的实体进行整理,根据所述文本特征和整理过的实体建立源域样本;
通过训练好的所述序列标注模型提取所述目标语料中实体的文本特征,通过autophrase方法挖掘目标语料中的名词短语,根据所述文本特征和所述名词短语建立目标域样本。
7.根据权利要求1所述的方法,其特征在于,通过训练好的所述序列标注模型提取所述源语料和目标语料中实体的文本特征包括:
通过训练好的所述序列标注模型提取所述源语料和目标语料中实体的实体类型特征和前后文类型特征;
计算实体的实体类型特征,对句子中实体每个字的特征向量作平均,作为所述实体的实体类型特征;
计算实体的前后文类型特征,将lstm网络的前向连接输出从句子开始到所述实体结束位置的向量,和所述lstm网络的反向连接输出从句子结尾处到所述实体开始位置的向量进行连接,作为所述实体的前后文类型特征。
8.根据权利要求1所述的方法,其特征在于,在通过训练好的所述分类模型对所述识别特征空间进行预测,得到所述目标语料的实体识别结果之前,所述方法还包括:
在所述目标域样本中标注出样本T,通过所述测地线流核函数对所述样本T进行映射,得到测试特征空间,通过训练好的所述分类模型对所述测试特征空间进行预测,检测所述分类模型的准确率。
9.一种领域迁移学习的实体识别系统,其特征在于,所述系统包括样本构建模块、核函数构建模块、模型训练模块和实体识别模块;
所述样本构建模块根据源语料对序列标注模型进行训练,通过训练好的所述序列标注模型提取所述源语料和目标语料中实体的文本特征,建立训练样本,其中,所述训练样本包含源域样本和目标域样本;
所述核函数构建模块对所述源域样本和所述目标域样本的文本特征分别进行主成分分析,得到源域特征空间和目标域特征空间;
所述核函数构建模块对所述源域特征空间进行处理得到新源域特征空间,将所述新源域特征空间与所述目标域特征空间进行点积,对所述点积的结果进行奇异值分解;
所述核函数构建模块根据所述奇异值分解的结果,构建测地线流,根据所述测地线流,计算得到测地线流核函数;
所述模型训练模块通过所述测地线流核函数对所述源域样本进行映射,得到训练特征空间,根据所述训练特征空间对分类模型进行训练;
所述实体识别模块通过所述测地线流核函数对所述目标域样本进行映射,得到识别特征空间,通过训练好的所述分类模型对所述识别特征空间进行预测,得到所述目标语料的实体识别结果。
10.一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至8中任一项所述的领域迁移学习的实体识别方法。
CN202110740275.9A 2021-07-01 2021-07-01 一种领域迁移学习的实体识别方法、系统和设备 Active CN113191153B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110740275.9A CN113191153B (zh) 2021-07-01 2021-07-01 一种领域迁移学习的实体识别方法、系统和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110740275.9A CN113191153B (zh) 2021-07-01 2021-07-01 一种领域迁移学习的实体识别方法、系统和设备

Publications (2)

Publication Number Publication Date
CN113191153A true CN113191153A (zh) 2021-07-30
CN113191153B CN113191153B (zh) 2021-10-26

Family

ID=76976876

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110740275.9A Active CN113191153B (zh) 2021-07-01 2021-07-01 一种领域迁移学习的实体识别方法、系统和设备

Country Status (1)

Country Link
CN (1) CN113191153B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113722471A (zh) * 2021-08-30 2021-11-30 上海明略人工智能(集团)有限公司 一种文本摘要生成方法、系统、电子设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108960270A (zh) * 2018-04-08 2018-12-07 中国科学院计算技术研究所 一种基于流形迁移学习的数据标定方法及系统
CN109710512A (zh) * 2018-12-06 2019-05-03 南京邮电大学 基于测地线流核的神经网络软件缺陷预测方法
CN111738004A (zh) * 2020-06-16 2020-10-02 中国科学院计算技术研究所 一种命名实体识别模型的训练方法及命名实体识别的方法
CN112906393A (zh) * 2021-03-05 2021-06-04 杭州费尔斯通科技有限公司 一种基于元学习的少样本实体识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108960270A (zh) * 2018-04-08 2018-12-07 中国科学院计算技术研究所 一种基于流形迁移学习的数据标定方法及系统
CN109710512A (zh) * 2018-12-06 2019-05-03 南京邮电大学 基于测地线流核的神经网络软件缺陷预测方法
CN111738004A (zh) * 2020-06-16 2020-10-02 中国科学院计算技术研究所 一种命名实体识别模型的训练方法及命名实体识别的方法
CN112906393A (zh) * 2021-03-05 2021-06-04 杭州费尔斯通科技有限公司 一种基于元学习的少样本实体识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ZHEMING ZHANG等: "Unsupervised Feature Transfer for Batch Process Based on Geodesic Flow Kernel", 《2020 CHINESE CONTROL AND DECISION CONFERENCE (CCDC)》 *
李猛 等: "命名实体识别的迁移学习研究综述", 《计算机科学与探索》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113722471A (zh) * 2021-08-30 2021-11-30 上海明略人工智能(集团)有限公司 一种文本摘要生成方法、系统、电子设备及介质

Also Published As

Publication number Publication date
CN113191153B (zh) 2021-10-26

Similar Documents

Publication Publication Date Title
US20210295162A1 (en) Neural network model training method and apparatus, computer device, and storage medium
CN110580482B (zh) 图像分类模型训练、图像分类、个性化推荐方法及装置
CN108427707B (zh) 人机问答方法、装置、计算机设备和存储介质
CN111191457B (zh) 自然语言语义识别方法、装置、计算机设备和存储介质
US20210390370A1 (en) Data processing method and apparatus, storage medium and electronic device
CN110705233A (zh) 基于文字识别技术的笔记生成方法、装置和计算机设备
CN112819023A (zh) 样本集的获取方法、装置、计算机设备和存储介质
CN111831826B (zh) 跨领域的文本分类模型的训练方法、分类方法以及装置
CN113204660B (zh) 多媒体数据处理方法、标签识别方法、装置及电子设备
CN110750984B (zh) 命令行字符串处理方法、终端、装置及可读存储介质
CN111191028A (zh) 样本标注方法、装置、计算机设备和存储介质
CN113177411A (zh) 命名实体识别模型的训练方法和命名实体识别的方法
CN113191153B (zh) 一种领域迁移学习的实体识别方法、系统和设备
CN110414622B (zh) 基于半监督学习的分类器训练方法及装置
CN113591469A (zh) 一种基于词语解释的文本增强的方法和系统
CN113536784A (zh) 文本处理方法、装置、计算机设备和存储介质
CN111552812A (zh) 确定实体之间关系类别的方法、装置和计算机设备
US20230177251A1 (en) Method, device, and system for analyzing unstructured document
CN114091458A (zh) 基于模型融合的实体识别方法和系统
CN111767710B (zh) 印尼语的情感分类方法、装置、设备及介质
Webb Applying softmax classifiers to open set
Du et al. Classifier Adaptation Based on Modified Label Propagation for Unsupervised Domain Adaptation
Münch et al. Encoding of indefinite proximity data: A structure preserving perspective
CN110929724A (zh) 字符识别方法、装置、计算机设备和存储介质
CN114462397B (zh) 一种语种识别模型训练方法、语种识别方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 310000 7th floor, building B, No. 482, Qianmo Road, Xixing street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: Huoshi Creation Technology Co.,Ltd.

Address before: 310000 7th floor, building B, No. 482, Qianmo Road, Xixing street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee before: HANGZHOU FIRESTONE TECHNOLOGY Co.,Ltd.