CN106202030B - 一种基于异构标注数据的快速序列标注方法及装置 - Google Patents

一种基于异构标注数据的快速序列标注方法及装置 Download PDF

Info

Publication number
CN106202030B
CN106202030B CN201610463435.9A CN201610463435A CN106202030B CN 106202030 B CN106202030 B CN 106202030B CN 201610463435 A CN201610463435 A CN 201610463435A CN 106202030 B CN106202030 B CN 106202030B
Authority
CN
China
Prior art keywords
mark
labeling
marking
databases
coupling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610463435.9A
Other languages
English (en)
Other versions
CN106202030A (zh
Inventor
李正华
巢佳媛
张民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN201610463435.9A priority Critical patent/CN106202030B/zh
Publication of CN106202030A publication Critical patent/CN106202030A/zh
Application granted granted Critical
Publication of CN106202030B publication Critical patent/CN106202030B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于异构标注数据的快速序列标注方法及装置。该方法包括以下步骤:获取两个归属于不同标注数据库的初始标记集;根据预设的在线剪枝策略,建立两个初始标记集之间的耦合标记集;针对包含耦合标记集的训练数据,训练基于条件随机场的标注模型;利用标注模型对待标注的样本数据进行标注。应用本发明实施例所提供的技术方案,达到了将不同标注数据库结合起来应用的目的,扩大了训练数据规模,提升了标注模型的性能。

Description

一种基于异构标注数据的快速序列标注方法及装置
技术领域
本发明涉及自然语言处理技术领域,特别是涉及一种基于异构标注数据的快速序列标注方法及装置。
背景技术
随着计算机技术的快速发展,利用大规模训练数据建立统计模型,进而进行各种应用的研究越来越多,训练数据的规模直接影响着统计模型的性能。
对于序列标注,不同标注数据库具有不同的标记集。比如,宾州中文树库CTB包含了约5万个标注句子,包含词边界、词性和句法结构,这些可以应用于中文分词和词性标注研究领域。人民日报语料库PD是一个大规模标注了分词和词性的标注数据库,包含约30万个标注句子。这两个标注数据库均具有不同的标记集。
将不同标注数据库结合起来应用,可以扩大训练数据规模,提高统计模型的性能。但是,不同标注数据库构建的目的可能不同,比如,宾州中文树库CTB是为句法分析而设计的,人民日报语料库PD是用于支持信息提供系统的,使得不同标注数据库所具有的标记集不同,且不同标记集之间不能用启发式规则实现转换,这使得不同标注数据库很难结合起来应用。
发明内容
为解决上述技术问题,本发明提供一种基于异构标注数据的快速序列标注方法及装置。
一种基于异构标注数据的快速序列标注方法,包括:
获取两个归属于不同标注数据库的初始标记集;
根据预设的在线剪枝策略,建立两个初始标记集之间的耦合标记集;
针对包含所述耦合标记集的训练数据,训练基于条件随机场的标注模型;
利用所述标注模型对待标注的样本数据进行标注。
在本发明的一种具体实施方式中,所述根据预设的在线剪枝策略,建立两个初始标记集之间的耦合标记集,包括:
针对训练数据中的每个目标词,分别计算该目标词在两个标注数据库的初始标记集中的每个可能标记的边缘概率;
根据边缘概率的大小,分别确定该目标词对应于两个标注数据库的候选标记集;
根据确定的候选标记集,确定该目标词对应的耦合标记集,所述耦合标记集中的每个元素包含两个候选标记,分别对应于不同标注数据库。
在本发明的一种具体实施方式中,所述针对包含所述耦合标记集的训练数据,训练基于条件随机场的标注模型,包括:
提取包含所述耦合标记集的训练数据的特征;
根据提取的每个特征组成的特征向量,确定基于条件随机场的标注模型的目标函数;
对所述目标函数进行处理,获得提取的每个特征对应的权重。
在本发明的一种具体实施方式中,所述对所述目标函数进行处理,获得提取的每个特征对应的权重,包括:
根据所述目标函数,建立所述训练数据的似然函数;
对所述似然函数进行求导计算,获得提取的每个特征对应的权重。
在本发明的一种具体实施方式中,在所述对所述似然函数进行求导计算,获得提取的每个特征对应的权重之后,所述方法还包括:
利用随机梯度下降算法,对每个权重进行优化处理。
一种基于异构标注数据的快速序列标注装置,包括:
初始标记集获取模块,用于获取两个归属于不同标注数据库的初始标记集;
耦合标记集建立模块,用于根据预设的在线剪枝策略,建立两个初始标记集之间的耦合标记集;
标注模型训练模块,用于针对包含所述耦合标记集的训练数据,训练基于条件随机场的标注模型;
序列标注模块,用于利用所述标注模型对待标注的样本数据进行标注。
在本发明的一种具体实施方式中,所述耦合标记集建立模块,具体用于:
针对训练数据中的每个目标词,分别计算该目标词在两个标注数据库的初始标记集中的每个可能标记的边缘概率;
根据边缘概率的大小,分别确定该目标词对应于两个标注数据库的候选标记集;
根据确定的候选标记集,确定该目标词对应的耦合标记集,所述耦合标记集中的每个元素包含两个候选标记,分别对应于不同标注数据库。
在本发明的一种具体实施方式中,所述标注模型训练模块,包括:
特征提取子模块,用于提取包含所述耦合标记集的训练数据的特征;
目标函数确定子模块,用于根据提取的每个特征组成的特征向量,确定基于条件随机场的标注模型的目标函数;
权重获得子模块,用于对所述目标函数进行处理,获得提取的每个特征对应的权重。
在本发明的一种具体实施方式中,所述权重获得子模块,具体用于:
根据所述目标函数,建立所述训练数据的似然函数;
对所述似然函数进行求导计算,获得提取的每个特征对应的权重向量。
在本发明的一种具体实施方式中,所述标注模型训练模块还包括:
优化子模块,用于在所述权重获得子模块对所述似然函数进行求导计算,获得提取的每个特征对应的权重之后,利用随机梯度下降算法,对每个权重进行优化处理。
应用本发明实施例所提供的方法,通过建立归属于不同标注数据库的初始标记集之间的耦合标记集,针对包含该耦合标记集的训练数据,训练基于条件随机场的标注模型,利用该标注模型对待标注的样本数据进行标注。达到了将不同标注数据库结合起来应用的目的,扩大了训练数据规模,提升了标注模型的性能。
附图说明
为了更清楚的说明本发明实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中一种基于异构标注数据的快速序列标注方法的实施流程图;
图2为本发明实施例中在线剪枝策略实现过程示意图;
图3为本发明实施例中一种基于异构标注数据的快速序列标注装置的结构示意图。
具体实施方式
本发明的核心是提供一种基于异构标注数据的快速序列标注方法,该方法主要应用于要将不同标注数据库结合起来进行应用或研究的场景中。将归属于不同标注数据库的初始标记集,建立耦合标记集,针对包含耦合标记集的训练数据,训练基于条件随机场的标注模型,利用该标注模型对待标注的样本数据进行标注。这样,可以将不同标注数据库结合起来,扩大训练数据规模,提升标注模型的性能。
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1所示,为本发明实施例所提供的一种基于异构标注数据的快速序列标注方法的实施流程图,该方法可以包括以下步骤:
S110:获取两个归属于不同标注数据库的初始标记集。
在本发明实施例中,不同标注数据库可以是异构标注数据库。比如,宾州中文树库CTB和人民日报语料库PD。每个标注数据库都分别具有一个初始标记集。
在实际应用中,不同标注数据库构建目的可能不同,比如,宾州中文树库CTB是为句法分析而设计的,人民日报语料库PD是用于支持信息提取系统的。要将不同的标注数据库结合起来进行应用或研究,需先获取每个标注数据库各自的初始标记集。
S120:根据预设的在线剪枝策略,建立两个初始标记集之间的耦合标记集。
可以理解的是,不同标注数据库所具有的初始标记集是不同的,相互之间可能并不能使用启发式规则实现转化。在本发明实施例中,可以根据预设的在线剪枝策略,建立两个初始标记集之间的耦合标记集。
在本发明的一种具体实施方式中,步骤S120可以包括以下步骤:
步骤一:针对训练数据中的每个目标词,分别计算该目标词在两个标注数据库的初始标记集中的每个可能标记的边缘概率。
训练数据中的目标词,可以是任意一个标注数据库中的词。
具体的,可以利用标注数据库a的初始标记集中标记的独立特征向量
Figure GDA0002418951330000051
和对应的权重θa,将前向后向算法应用于标注数据库a的标记集合Ta
针对训练数据如句子序列x中的第i个目标词,可以计算该目标词在标注数据库a的初始标记集中的每个可能标记ta(ta∈Ta)的边缘概率p(i,ta|x;θ)。
同理,可以利用标注数据库b的初始标记集中标记的独立特征向量
Figure GDA0002418951330000052
和对应的权重θb,将前向后向算法应用于标注数据库b的标记集合Tb
针对句子序列x中的第i个目标词,可以计算该目标词在标注数据库b的初始标记集中的每个可能标记tb(tb∈Tb)的边缘概率p(i,tb|x;θ)。
步骤二:根据边缘概率的大小,分别确定该目标词对应于两个标注数据库的候选标记集。
在上述步骤一计算得到目标词在两个标注数据库的初始标记集中的每个可能标记的边缘概率。
针对每个标注数据库,可以确定目标词对应于该标注数据库的候选标记集。在实际应用中,可以对目标词的可能标记进行剪枝处理,将该标注数据库中目标词的可能标记的边缘概率由高到低排序,选出前k个边缘概率对应的可能标记,作为该目标词的候选标记。句子序列x中的第i个目标词对应于标注数据库a的候选标记集可以记作Ti a,对应于标注数据库b的候选标记集可以记作Ti b
其中,k可以根据实际情况进行设定,如设为3,本发明实施例对此不做限制。
步骤三:根据确定的候选标记集,确定该目标词对应的耦合标记集。
其中,耦合标记集中的每个元素包含两个候选标记,分别对应于不同标注数据库。
在本发明实施例中,可以定义笛卡尔乘积
Figure GDA0002418951330000061
作为该目标词对应的耦合标记集。具体的,可以逐一从其中一个候选标记集中选择一个候选标记与另一个候选标记集中的每个候选标记组合,构成该目标词对应的耦合标记集。
针对训练数据中每个句子序列x中的每个目标词均可以执行上述步骤一至步骤三的操作,从而获得每个目标词对应的耦合标记集,建立两个初始标记集之间的耦合标记集。
为方便理解,以图2为例对本发明实施例中的在线剪枝策略的具体实现过程进行说明。
句子“我国大力发展教育”中的目标词“发展”在标注数据库a的初始标记集中的可能标记及每个可能标记对应的边缘概率分别为:
VV—0.51、NN—0.42、VA—0.03、AD—0.02、……;
该目标词“发展”在标注数据库b的初始标记集中的可能标记及每个可能标记对应的边缘概率分别为:
vn—0.42、v—0.37、n—0.17、nz—0.02、……;
根据边缘概率的大小,确定该目标词“发展”对应于标注数据库a的候选标记集为{VV,NN,VA},对应于标注数据库b的候选标记集为{vn,v,n},根据确定的这两个候选标记集,可以确定该目标词对应的耦合标记集(Bundled tags)为:
{[VV,vn],[NN,vn],[VA,vn],[VV,v],[NN,v],[VA,v],[VV,n],[NN,n],[VA,n]}。
同理,可以针对目标词“我国”、“大力”、“教育”等进行相应耦合标记集的确定。
S130:针对包含耦合标记集的训练数据,训练基于条件随机场的标注模型。
条件随机场(Conditional Random Field,CRF)模型结合了最大熵模型和隐马尔可夫模型的特点,是一种无向图模型,在分词、词性标注和命名实体识别等序列标注任务中能够取得较好效果。
在步骤S120建立两个初始标记集之间的耦合标记集之后,可以针对包含耦合标记集的训练数据,训练基于CRF的标注模型。
在本发明的一种具体实施方式中,步骤S130可以包括以下步骤:
第一个步骤:提取包含耦合标记集的训练数据的特征。
针对包含耦合标记集的训练数据,提取该训练数据的特征。提取到的每个特征可以组成特征向量,该特征向量包括联合特征向量和独立特征向量。
需要说明的是,提取特征的过程为现有技术,本发明实施例对此不再赘述。
第二个步骤:根据提取的每个特征组成的特征向量,确定基于条件随机场的标注模型的目标函数。
在本发明实施例中,基于CRF的标注模型的目标函数如公式(1)所示:
Figure GDA0002418951330000081
在公式(1)中,特征对应的分值
Figure GDA0002418951330000082
如公式(2)所示:
Figure GDA0002418951330000083
在公式(2)中,x表示包含耦合标记集的训练数据中的一个句子序列,i表示句子序列x中的第i个位置,t表示该句子序列的序列标记,a和b分别表示不同的标注数据库,f()表示特征向量,其中,
Figure GDA0002418951330000084
表示联合特征向量,
Figure GDA0002418951330000085
Figure GDA0002418951330000086
分别表示独立特征向量,θ表示权重。
第三个步骤:对目标函数进行处理,获得提取的每个特征对应的权重。
对目标函数进行处理,获得提取的每个特征对应的权重,即可实现基于CRF的标注模型的训练。
具体的,可以通过以下步骤对目标函数进行处理,获得提取的每个特征对应的权重:
步骤一:根据目标函数,建立训练数据的似然函数。
在本发明实施例中,建立的训练数据的似然函数如公式(3)所示:
Figure GDA0002418951330000087
其中,
Figure GDA0002418951330000088
V表示句子序列x的耦合标记集,Vi表示句子序列x中的第i个词xi的耦合标记集,D表示训练数据的任意一个数据集,每个数据集包含多个句子和对应的标记序列。
步骤二:对似然函数进行求导计算,获得提取的每个特征对应的权重。
在本发明实施例中,求导方程如公式(4)所示:
Figure GDA0002418951330000091
其中,f(xi,t)是将词xi标记为t的联合特征向量,
Figure GDA0002418951330000092
是标注模型在受限空间Vi上的特征期望;Et[]是标注模型在非受限空间上的特征期望。
在本发明实施例中,可以将句子序列x中的第i个目标词对应的耦合标记集作为该目标词在计算特征期望Et|x;θ[f(x,t)]时用到的所有可能的标记集合。
在实际应用中,可以由人工确定句子序列x中的第i个目标词在其中一个标注数据库中的标准答案。比如,将句子序列x在标注数据库a中的标准答案记为
Figure GDA0002418951330000093
第i个目标词在标注数据库a中的标准答案记为
Figure GDA0002418951330000094
相应的,可以将句子序列x在标注数据库b中的标准答案记为
Figure GDA0002418951330000095
第i个目标词在标注数据库b中的标准答案记为
Figure GDA0002418951330000096
定义笛卡尔乘积
Figure GDA0002418951330000097
Figure GDA0002418951330000098
作为第i个目标词的标准答案的模糊标记,可以用其计算约束特征期望Et|x,V;θ[f(x,t)]。
比如,图2中已知目标词“发展”在标注数据库b中的正确标记为“v”,则可以将“发展”的耦合标记集包含“v”的耦合标记作为该词的标准答案的模糊标记,即[VV,v]、[NN,v]、[VA,v]。
在本发明的一种具体实施方式中,在步骤二对似然函数进行求导计算,获得提取的每个特征对应的权重之后,该方法还可以包括以下步骤:
利用随机梯度下降算法,对权重向量进行优化处理。
具体算法可以参考以下过程:
步骤一:将两个数据集D(1)和D(2)作为输入,参数分别为I、N'、M'和s;将θ作为输出。
步骤二:初始化,令θ0=0、n=0。
步骤三:从i=1到I,I为迭代次数,循环以下(1)—(4)操作:
(1)从数据集D(1)中选出部分数据N',从数据集D(2)中选出部分数据M',将这两份数据N'和M'合并成Di,进行随机化处理;
(2)遍历Di,每次用小批量的
Figure GDA0002418951330000101
(3)
Figure GDA0002418951330000102
(4)令n=n+1。
其中,
Figure GDA0002418951330000103
是训练数据第n次更新用的子集,s是批处理大小,ηn是更新步骤。该算法的基本思想是每次迭代前从每个训练样本实例进行一定比例的随机化。
对权重进行随机化处理,可以提高标注模型的性能。
S140:利用标注模型对待标注的样本数据进行标注。
在步骤S130获得了基于条件随机场的标注模型,从而可以利用该标注模型对待标注的样本数据进行标注。具体的标注方法为现有技术,本发明实施例对此不再赘述。
至此,通过一次建模过程完成不同标注数据库之间标记的识别和构建过程,同时学习和推导不同标注数据库中的语言现象,提高了标注模型的鲁棒性和准确率。
应用本发明实施例所提供的方法,通过建立归属于不同标注数据库的初始标记集之间的耦合标记集,针对包含该耦合标记集的训练数据,训练基于条件随机场的标注模型,利用该标注模型对待标注的样本数据进行标注。达到了将不同标注数据库结合起来应用的目的,扩大了训练数据规模,提升了标注模型的性能。
需要说明的是,本发明实施例是从对两个初始标记集建立耦合标记集的角度进行的说明,可以理解的是,多个初始标记集可以两两按照本发明实施例所提供的技术方案进行耦合,建立多个初始标记集之间的耦合标记集,从而可以针对包含该耦合标记集的训练数据训练基于CRF的标注模型,对待标注的样本数据进行标注。
相应于上面的方法实施例,本发明实施例还提供了一种基于异构标注数据的快速序列标注装置。下面对本发明实施例提供的一种基于异构标注数据的快速序列标注装置进行介绍,下文描述的一种基于异构标注数据的快速序列标注装置与上文描述的一种基于异构标注数据的快速序列标注方法可相互对应参照。
参见图3所示,为本发明实施例提供的一种基于异构标注数据的快速序列标注装置的结构示意图,该装置可以包括:
初始标记集获取模块310,用于获取两个归属于不同标注数据库的初始标记集;
耦合标记集建立模块320,用于根据预设的在线剪枝策略,建立两个初始标记集之间的耦合标记集;
标注模型训练模块330,用于针对包含所述耦合标记集的训练数据,训练基于条件随机场的标注模型;
序列标注模块340,用于利用所述标注模型对待标注的样本数据进行标注。
应用本发明实施例所提供的装置,通过建立归属于不同标注数据库的初始标记集之间的耦合标记集,针对包含该耦合标记集的训练数据,训练基于条件随机场的标注模型,利用该标注模型对待标注的样本数据进行标注。达到了将不同标注数据库结合起来应用的目的,扩大了训练数据规模,提升了标注模型的性能。
在本发明的一种具体实施方式中,所述耦合标记集建立模块320,具体用于:
针对训练数据中的每个目标词,分别计算该目标词在两个标注数据库的初始标记集中的每个可能标记的边缘概率;
根据边缘概率的大小,分别确定该目标词对应于两个标注数据库的候选标记集;
根据确定的候选标记集,确定该目标词对应的耦合标记集,所述耦合标记集中的每个元素包含两个候选标记,分别对应于不同标注数据库。
在本发明的一种具体实施方式中,所述标注模型训练模块330,包括:
特征提取子模块,用于提取包含所述耦合标记集的训练数据的特征;
目标函数确定子模块,用于根据提取的每个特征组成的特征向量,确定基于条件随机场的标注模型的目标函数;
权重获得子模块,用于对所述目标函数进行处理,获得提取的每个特征对应的权重。
在本发明的一种具体实施方式中,所述权重获得子模块,具体用于:
根据所述目标函数,建立所述训练数据的似然函数;
对所述似然函数进行求导计算,获得提取的每个特征对应的权重向量。
在本发明的一种具体实施方式中,所述标注模型训练模块330还包括:
优化子模块,用于在所述权重获得子模块对所述似然函数进行求导计算,获得提取的每个特征对应的权重之后,利用随机梯度下降算法,对每个权重进行优化处理。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本发明所提供的一种基于异构标注数据的快速序列标注方法及装置进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (8)

1.一种基于异构标注数据的快速序列标注方法,其特征在于,包括:
获取两个归属于不同标注数据库的初始标记集;
根据预设的在线剪枝策略,建立两个初始标记集之间的耦合标记集;
针对包含所述耦合标记集的训练数据,训练基于条件随机场的标注模型;
利用所述标注模型对待标注的样本数据进行标注;
其中,所述根据预设的在线剪枝策略,建立两个初始标记集之间的耦合标记集,包括:
针对训练数据中的每个目标词,分别计算该目标词在两个标注数据库的初始标记集中的每个可能标记的边缘概率;
根据边缘概率的大小,分别确定该目标词对应于两个标注数据库的候选标记集;
逐一从其中一个候选标记集中选择一个候选标记与另一个候选标记集中的每个候选标记组合,构成该目标词对应的耦合标记集,所述耦合标记集中的每个元素包含两个候选标记,分别对应于不同标注数据库。
2.根据权利要求1所述的方法,其特征在于,所述针对包含所述耦合标记集的训练数据,训练基于条件随机场的标注模型,包括:
提取包含所述耦合标记集的训练数据的特征;
根据提取的每个特征组成的特征向量,确定基于条件随机场的标注模型的目标函数;
对所述目标函数进行处理,获得提取的每个特征对应的权重。
3.根据权利要求2所述的方法,其特征在于,所述对所述目标函数进行处理,获得提取的每个特征对应的权重,包括:
根据所述目标函数,建立所述训练数据的似然函数;
对所述似然函数进行求导计算,获得提取的每个特征对应的权重。
4.根据权利要求3所述的方法,其特征在于,在所述对所述似然函数进行求导计算,获得提取的每个特征对应的权重之后,所述方法还包括:
利用随机梯度下降算法,对每个权重进行优化处理。
5.一种基于异构标注数据的快速序列标注装置,其特征在于,包括:
初始标记集获取模块,用于获取两个归属于不同标注数据库的初始标记集;
耦合标记集建立模块,用于根据预设的在线剪枝策略,建立两个初始标记集之间的耦合标记集;
标注模型训练模块,用于针对包含所述耦合标记集的训练数据,训练基于条件随机场的标注模型;
序列标注模块,用于利用所述标注模型对待标注的样本数据进行标注;
其中,所述耦合标记集建立模块,具体用于:
针对训练数据中的每个目标词,分别计算该目标词在两个标注数据库的初始标记集中的每个可能标记的边缘概率;
根据边缘概率的大小,分别确定该目标词对应于两个标注数据库的候选标记集;
逐一从其中一个候选标记集中选择一个候选标记与另一个候选标记集中的每个候选标记组合,构成该目标词对应的耦合标记集,所述耦合标记集中的每个元素包含两个候选标记,分别对应于不同标注数据库。
6.根据权利要求5所述的装置,其特征在于,所述标注模型训练模块,包括:
特征提取子模块,用于提取包含所述耦合标记集的训练数据的特征;
目标函数确定子模块,用于根据提取的每个特征组成的特征向量,确定基于条件随机场的标注模型的目标函数;
权重获得子模块,用于对所述目标函数进行处理,获得提取的每个特征对应的权重。
7.根据权利要求6所述的装置,其特征在于,所述权重获得子模块,具体用于:
根据所述目标函数,建立所述训练数据的似然函数;
对所述似然函数进行求导计算,获得提取的每个特征对应的权重向量。
8.根据权利要求7所述的装置,其特征在于,所述标注模型训练模块还包括:
优化子模块,用于在所述权重获得子模块对所述似然函数进行求导计算,获得提取的每个特征对应的权重之后,利用随机梯度下降算法,对每个权重进行优化处理。
CN201610463435.9A 2016-06-23 2016-06-23 一种基于异构标注数据的快速序列标注方法及装置 Active CN106202030B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610463435.9A CN106202030B (zh) 2016-06-23 2016-06-23 一种基于异构标注数据的快速序列标注方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610463435.9A CN106202030B (zh) 2016-06-23 2016-06-23 一种基于异构标注数据的快速序列标注方法及装置

Publications (2)

Publication Number Publication Date
CN106202030A CN106202030A (zh) 2016-12-07
CN106202030B true CN106202030B (zh) 2020-05-22

Family

ID=57461841

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610463435.9A Active CN106202030B (zh) 2016-06-23 2016-06-23 一种基于异构标注数据的快速序列标注方法及装置

Country Status (1)

Country Link
CN (1) CN106202030B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108228557B (zh) * 2016-12-14 2021-12-07 北京国双科技有限公司 一种序列标注的方法及装置
CN107729312B (zh) * 2017-09-05 2021-04-20 苏州大学 基于序列标注建模的多粒度分词方法及系统
CN107818079A (zh) * 2017-09-05 2018-03-20 苏州大学 多粒度分词标注数据自动获取方法及系统
CN109947891B (zh) * 2017-11-07 2021-09-07 北京国双科技有限公司 文书解析方法及装置
CN108536662B (zh) * 2018-04-16 2022-04-12 苏州大学 一种数据标注方法及装置
CN108829683B (zh) * 2018-06-29 2022-06-10 北京百度网讯科技有限公司 混合标注学习神经网络模型及其训练方法、装置
CN111125380B (zh) * 2019-12-30 2023-04-21 华南理工大学 一种基于RoBERTa和启发式算法的实体链接方法
CN111666734B (zh) * 2020-04-24 2021-08-10 北京大学 序列标注方法及装置
CN112182157B (zh) * 2020-09-29 2023-09-22 中国平安人寿保险股份有限公司 在线序列标注模型的训练方法、在线标注方法及相关设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004114148A1 (en) * 2003-06-20 2004-12-29 International Business Machines Corporation Heterogeneous indexing for annotation systems
CN104965820A (zh) * 2015-07-17 2015-10-07 苏州大学张家港工业技术研究院 一种基于异构数据库的耦合词性标注方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104965821B (zh) * 2015-07-17 2018-01-05 苏州大学 一种数据标注方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004114148A1 (en) * 2003-06-20 2004-12-29 International Business Machines Corporation Heterogeneous indexing for annotation systems
CN104965820A (zh) * 2015-07-17 2015-10-07 苏州大学张家港工业技术研究院 一种基于异构数据库的耦合词性标注方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
自然语言处理中序列标注模型的研究;计峰;《中国博士学位论文全文数据库 信息科学辑(月刊)》;20090930;第2013年卷(第3期);第8、21页 *
面向词性标注的多资源转化研究;高恩婷 等;《北京大学学报(自然科学版)》;20150331;第51卷(第2期);第328-334页 *

Also Published As

Publication number Publication date
CN106202030A (zh) 2016-12-07

Similar Documents

Publication Publication Date Title
CN106202030B (zh) 一种基于异构标注数据的快速序列标注方法及装置
CN110795543B (zh) 基于深度学习的非结构化数据抽取方法、装置及存储介质
CN110502621B (zh) 问答方法、问答装置、计算机设备及存储介质
CN111046133B (zh) 基于图谱化知识库的问答方法、设备、存储介质及装置
Clark et al. Simple and effective multi-paragraph reading comprehension
CN108920445B (zh) 一种基于Bi-LSTM-CRF模型的命名实体识别方法和装置
CN113283551B (zh) 多模态预训练模型的训练方法、训练装置及电子设备
CN107943784B (zh) 基于生成对抗网络的关系抽取方法
CN112256828B (zh) 医学实体关系抽取方法、装置、计算机设备及可读存储介质
CN110737758A (zh) 用于生成模型的方法和装置
CN117033608A (zh) 一种基于大语言模型的知识图谱生成式问答方法及系统
CN112149421A (zh) 一种基于bert嵌入的软件编程领域实体识别方法
CN109977213B (zh) 一种面向智能问答系统的最优答案选择方法
CN113033438B (zh) 一种面向模态非完全对齐的数据特征学习方法
CN110472062B (zh) 识别命名实体的方法及装置
CN110096572B (zh) 一种样本生成方法、装置及计算机可读介质
CN113128203A (zh) 基于注意力机制的关系抽取方法、系统、设备及存储介质
CN112800184B (zh) 基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法
CN111444720A (zh) 一种英文文本的命名实体识别方法
CN111160034A (zh) 一种实体词的标注方法、装置、存储介质及设备
Qi et al. CogCoM: Train Large Vision-Language Models Diving into Details through Chain of Manipulations
CN107783958B (zh) 一种目标语句识别方法及装置
CN107533672A (zh) 模式识别装置、模式识别方法以及程序
CN111401069A (zh) 会话文本的意图识别方法、意图识别装置及终端
CN115983269A (zh) 一种智慧社区数据命名实体识别方法、终端及计算机介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant