CN113378513A - 一种面向领域关系抽取的标注语料生成方法 - Google Patents
一种面向领域关系抽取的标注语料生成方法 Download PDFInfo
- Publication number
- CN113378513A CN113378513A CN202110652974.8A CN202110652974A CN113378513A CN 113378513 A CN113378513 A CN 113378513A CN 202110652974 A CN202110652974 A CN 202110652974A CN 113378513 A CN113378513 A CN 113378513A
- Authority
- CN
- China
- Prior art keywords
- entity
- relationship
- corpus
- sentence
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/169—Annotation, e.g. comment data or footnotes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明属于自然语言处理技术领域,涉及领域关系抽取,具体提供一种面向领域关系抽取的标注语料生成方法,用以克服领域关系抽取所面临的语料缺乏和人工代价昂贵的问题。本发明利用回译法生成同义句,将其与原句一起作为序列生成模型的训练语料,克服了领域语料不足的问题;同时,通过依存关系分析和语态判断,将训练语料中实体替换为特定的主动和被动两种掩蔽符号,使得序列生成模型直接生成关系抽取任务所需的带标注的语料;并且,通过对实体进行掩蔽,序列生成模型专注于学习实体间的关系,有效提高关系抽取的准确性。综上,本发明能够在初始语料不够充足的情况下,生成关系抽取任务所需的带标注的语料,极大地降低了人工标注成本。
Description
技术领域
本发明属于自然语言处理技术领域,具体涉及一种面向领域关系抽取的标注语料生成方法。
背景技术
知识图谱(Knowledge Graph)以结构化的形式描述客观世界中概念、实体及其之间的关系,将互联网的信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和理解互联网海量信息的能力。不同的领域往往需要构建本领域的知识图谱,领域构建知识图谱的首要任务是领域知识抽取;领域知识抽取是指从不同来源、不同数据中进行特定领域知识的提取,形成知识存入到知识图谱的过程。领域知识抽取可分为实体抽取、关系抽取和属性抽取三类;目前,大多数领域关系抽取采用有监督学习方法,该类方法需要大量的带标注的语料数据以训练好的模型,这使得该类方法面临两方面困难问题:(1)领域语料缺乏、其数量难以满足训练需求,(2)人工标注的代价昂贵。
针对领域语料数量不足的问题,通常的做法是采用文本增强方法来对语料进行扩充;文本增强是在已有的文本数据的基础上,通过特殊处理,构造更多的文本数据。目前文本增强方法主要有人工标注、词替换、回译、神经网络等方法;其中,回译法是近年来使用较多的一种方法,它通过将源语言翻译成另一种语言,再将得到另一种语言的句子翻译回源语言的方式,构造出源语言的增强数据;回译法虽然能生成不同句型的语料,但在文本中包含领域专业词汇(如领域实体名称)的情况下,该方法容易导致生成句子的语义发生变化。相比之下,近年出现的神经网络方法表现出更优的性能,如Seq2Seq序列生成方法,但该类方法本身就需要大量的训练语料,在语料不够充足的情况下,难以训练出理想的神经网络模型以生成高质量的文本。另外,针对人工标注的代价昂贵的问题,通常采用半监督或无监督的关系抽取方法,但这些方法的效果较有监督方法有明显的不足。
综上所述,当前技术还没有同时有效解决领域关系抽取所面临的语料缺乏和人工代价昂贵两个问题。
发明内容
本发明的目的在于针对上述现有技术的诸多问题,提供一种面向领域关系抽取的标注语料生成方法,该方法在初始语料不够充足的情况下,生成关系抽取任务所需的带标注的语料,极大地降低了人工标注成本。
为实现上述目的,本发明采用的技术方案为:
一种面向领域关系抽取的标注语料生成方法,包括模型训练和语料生成两个阶段;其特征在于,
A.模型训练,包括以下步骤:
A1.标记实体名;
A1-1.创建一个初始为空的领域实体名集合U;
A1-2.收集领域内的实体名称,并其将添加到领域实体名集合U中;
A1-3.采用中文分词工具对输入的训练句子p进行分词处理,得到分词结果wi,i=1,2,...,Nw、Nw为分词得到的词的总个数;
A1-4.从前往后依次考察p中的每一个词wi,判断wi是否存在于领域实体名集合U中,若存在,则标记wi为实体名并对标记的实体名计数,共标记了Nn个实体名;
A2.生成同义句;
A2-1.预设Nn个替换符号、记为mj,j=1,2,...,Nn;
A2-2.复制一个与p相同的句子、记为p';
A2-3.将p'中的每一个实体名nj(j=1,2,...,Nn)替换为替换符号mj,并记录下nj与mj的替换关系;
A2-4.使用标准回译法对p'进行回译,得到p'的同义句、记为q';
A2-5.搜寻q'中的每一个替换符号,并将其按照步骤A2-3记录的替换关系替换回该符号所对应的实体名;
A3.生成掩蔽句子对;
A3-1.对p进行依存句法分析,得到其中每一个实体名的依存关系和相应主动被动语态;
A3-2.对p中的每一个实体名nj(j=1,2,...,Nn)作判断,若当前nj的依存关系属于主谓关系、动宾关系、间宾关系、前置宾语、介宾关系、并列关系和定中关系等七种关系中的一种,则作:
A3-2-1.复制一个与p相同的句子、记为p”,并复制一个与q'相同的句子、记为q”;
A3-2-2.判断nj在当前依存关系下的主动被动语态,若nj为主动语态,则将p”和q”中的nj均替换预设的主动掩蔽符号Za,否则将p”和q”中的nj均替换预设的被动掩蔽符号Zp;
A3-2-3.将替换后的p”和q”组成掩蔽句子对,并将其作为序列生成模型的训练语料加入到训练语料库L中;
A4.训练模型;
使用训练语料库L,对通用的序列生成预训练模型进行微调(fine-tuning),得到最终的序列生成模型;
B.语料生成,包括以下步骤:
输入数据为关系抽取模型所用的已标注的训练语料,每条语料为一个四元组,其形式为(e1,e2,r,s),其中,e1表示第一个实体的实体名,e2表示第二个实体的实体名,r表示第一个实体和第二个实体间的关系,s表示体现关系r的训练句子;
B1.掩蔽实体;
B1-1.在输入四元组的句子s中标记实体名e1和e2;
B1-2.对句子s进行依存句法分析,得到e1和e2的依存关系和相应主动被动语态;
B1-3.若e1为主动语态,则将s中的e1和e2分别替换为Za和Zp,否则将s中的e1和e2分别替换为Zp和Za,替换完毕记录e1、e2与Za、Zp的替换关系;
B2.序列生成:
B2-1将s输入到步骤A4得到的序列生成模型中,从模型预测出的序列中,选择预测概率最大的前k个序列作为候选序列;
B2-2.从候选序列中筛选出同时包含Za和Zp的序列作为输出序列;
B3.恢复掩蔽实体:对每一个输出序列s',将其中的符号Za和Zp按照步骤B1-3记录的替换关系替换回相应符号所对应的实体名;
B4.生成四元组:对每一个恢复掩蔽实体后的输出序列s',生成并输出四元组(e1,e2,r,s')。
进一步的,所述步骤A2-1中,替换符号由重复的大写英文字母组成。
进一步的,所述步骤A3-2-2中,预设的主动掩蔽符号Za为<>,被动掩蔽符号Zp为[];
进一步的,所述步骤B2中,k的取值范围为:1≤k≤3。
本发明的有益效果在于:
本发明提供了一种面向领域关系抽取的标注语料生成方法,该方法利用回译法生成同义句,并将生成的同义句与原句一起作为序列生成模型的训练语料,克服了领域语料不足的问题;同时,通过依存关系分析和语态判断,将训练语料中实体替换为特定的主动和被动两种掩蔽符号,使得序列生成模型直接生成关系抽取任务所需的带标注的语料,另外,通过对实体进行掩蔽,序列生成模型不再关注实体本身的内容,而专注于学习实体间的关系,从而提高了关系抽取的准确性。
附图说明
图1为本发明的标注语料生成方法的流程示意图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
本实施例提供了一种面向领域关系抽取的标注语料生成方法,其流程如图1所示,包括模型训练和语料生成两个阶段;本实施例针对银行领域,说明应用于该领域关系抽取任务的标注语料生成方法;具体步骤如下:
第一、所述模型训练包括以下步骤:
在本实施例中,以输入训练句子“花旗银行是隶属于花旗集团的零售银行”为例进行说明;
A1.标记实体名
A1-1.创建一个初始为空的领域实体名集合U;
A1-2.收集领域内的实体名称,并其将添加到领域实体名集合U中;
在本实施例中,共收集银行领域的实体名称9100个,其中包含企业名称(如“花旗银行”、“瑞士信贷银行”)和产品名(如“滴水贷”、“微粒贷”);
A1-3.采用中文分词工具对输入的训练句子p进行分词处理,将其分割成不同的词wi,i=1,2,...,Nw、Nw为分词得到的词的总个数;
在本实施例中,对输入句子“花旗银行是隶属于花旗集团的零售银行”进行分词处理得到“花旗银行”、“是”、“隶属于”、“花旗集团”、“的”、“零售”和“银行”7个词,即分词得到的词的总个数Nw=7;
A1-4.从前往后依次考察p中的每一个词wi,判断wi是否存在于领域实体名集合U中,若存在,则标记wi为实体名并对标记的实体名计数,设处理完p中的所有词后,共标记了Nn个实体名;
在本实施例中,p中的“花旗银行”和“花旗集团”存在于领域实体名集合U中,故将p中的“花旗银行”和“花旗集团”标记为实体名,处理完毕共标记了Nn=2个实体名;
A2.生成同义句;
A2-1.预设Nn个替换符号、记为mj,j=1,2,...,Nn;所述替换符号由重复的大写英文字母组成;
本发明预设的替换符号通用于各语言的符号,在后续的回译法过程中该符号不会被改变,将保留在回译后得到的同义句中;在本实施例中,预设两个替换符号:“AAA”和“BBB”,即m1=“AAA”,m2=“BBB”;
A2-2.复制一个与p相同的句子、记为p';
在本实施例中,p'=p=“花旗银行是隶属于花旗集团的零售银行”;
A2-3.将p'中的每一个实体名nj(j=1,2,...,Nn)替换为替换符号mj,并记录下nj与mj的替换关系,即nj被替换为mj;
在本实施例中,将p'中的实体名n1=“花旗银行”替换为m1=“AAA”,实体名n2=“花旗集团”替换为m2=“BBB”,记录的替换关系为“花旗银行”被替换为“AAA”,“花旗集团”被替换为“BBB”,替换处理后的p'为“AAA是隶属于BBB的零售银行”;
A2-4.使用标准回译法,对p'进行回译,其过程是先将p'翻译成外文,再将这条外文翻译回中文,回译法输出得到p'的同义句、记为q';
在本实施例中,使用标准回译法回译生成的p'的同义句q'为“AAA是BBB下属的一家零售银行”;
A2-5.搜寻q'中的每一个替换符号,并将其按照步骤A2-3记录的替换关系替换回该符号所对应的实体名;
在本实施例中,将q'中的替换符号“AAA”和“BBB”分别替换回“花旗银行”和“花旗集团”,恢复替换后的q'为“花旗银行是花旗集团下属的一家零售银行”;
A3.生成掩蔽句子对;
A3-1.对p进行依存句法分析,得到其中每一个实体名的依存关系和相应主动被动语态;
在本实施例中,对句子“花旗银行是隶属于花旗集团的零售银行”进行依存句法分析,得到“花旗银行”的依存关系是主谓关系,相应的语态为主动语态,“花旗集团”的依存关系是动宾关系,相应的语态为被动语态;
A3-2.对p中的每一个实体名nj(j=1,2,...,Nn)作判断,若当前nj的依存关系属于主谓关系、动宾关系、间宾关系、前置宾语、介宾关系、并列关系和定中关系等七种关系中的一种,则作:
A3-2-1.复制一个与p相同的句子、记为p”,并复制一个与q'相同的句子、记为q”;
在本实施例中,得到p”=p=“花旗银行是隶属于花旗集团的零售银行”,q”=q'=“花旗银行是花旗集团下属的一家零售银行”;
A3-2-2.判断nj在当前依存关系下的主动被动语态,若nj为主动语态,则将p”和q”中的nj均替换预设的主动掩蔽符号Za,否则将p”和q”中的nj均替换预设的被动掩蔽符号Zp;
在本实施例中,预设的主动掩蔽符号Za为<>,被动掩蔽符号Zp为[];
A3-2-3.将替换后的p”和q”组成掩蔽句子对,并将其作为序列生成模型的训练语料加入到训练语料库L中;
在本实施例中,对n1=“花旗银行”,因其依存关系是主谓关系,相应的语态为主动语态,则将p”和q”中的“花旗银行”均替换为<>,即p”变为“<>是隶属于花旗集团的零售银行”,q”变为“<>是花旗集团下属的一家零售银行”,组成的掩蔽句子对为(“<>是隶属于花旗集团的零售银行”,“<>是花旗集团下属的一家零售银行”),并将该句子对加入到训练语料库L中;
对n2=“花旗集团”,因其依存关系是动宾关系,相应的语态为被动语态,则将p”和q”中的“花旗银行”均替换为[],即p”变为“花旗银行是隶属于[]的零售银行”,q”变为“花旗银行是[]下属的一家零售银行”,组成的掩蔽句子对为(“花旗银行是隶属于[]的零售银行”,“花旗银行是[]下属的一家零售银行”),并将该句子对加入到训练语料库L中;
A4.训练模型;
使用训练语料库L,对通用的序列生成预训练模型进行微调(fine-tuning),得到最终的序列生成模型;
第二、所述语料生成包括以下步骤:
输入数据为关系抽取模型所用的已标注的训练语料,每条语料为一个四元组,其形式为(e1,e2,r,s),其中,e1表示第一个实体的实体名,e2表示第二个实体的实体名,r表示第一个实体和第二个实体间的关系,s表示体现关系r的训练句子;
在本实施例中,以输入四元组(“瑞士信贷银行”,“瑞士信贷集团”,“隶属”,“瑞士信贷银行是隶属于瑞士信贷集团的投行部”)为例进行说明;
B1.掩蔽实体;
B1-1.在输入四元组的句子s中标记实体名e1和e2;
在本实施例中,在s=“瑞士信贷银行是隶属于瑞士信贷集团的投行部”中标记实体名e1=“瑞士信贷银行”和e2=“瑞士信贷集团”;
B1-2.对句子s进行依存句法分析,得到e1和e2的依存关系和相应主动被动语态;
在本实施例中,对句子“瑞士信贷银行是隶属于瑞士信贷集团的投行部”进行依存句法分析,得到e1=“瑞士信贷银行”的依存关系是主谓关系,相应的语态为主动语态,e2=“瑞士信贷集团”的依存关系是定中关系,相应的语态为被动语态;
B1-3.若e1为主动语态,则将s中的e1和e2分别替换为Za和Zp,否则将s中的e1和e2分别替换为Zp和Za,替换完毕记录e1、e2与Za、Zp的替换关系;
因e1=“瑞士信贷银行”的依存关系是主谓关系,相应的语态为主动语态,则将s=“瑞士信贷银行是隶属于瑞士信贷集团的投行部”中的e1=“瑞士信贷银行”和e2=“瑞士信贷集团”分别替换为<>和[],替换后的s为“<>是隶属于[]的投行部”;
B2.序列生成:
B2-1将s输入到步骤A4得到的序列生成模型中,从模型预测出的序列中,选择预测概率最大的前k个序列作为候选序列;
在本实施例中,k的取值范围为1≤k≤3,这里k的取值为2,得到两个候选序列,分别为“<>是[]下属的投资银行部门”和“<>是[]旗下的一个投资银行部门”;
B2-2.从候选序列中筛选出同时包含Za和Zp的序列作为输出序列;
在本实施例中,得到的输出序列分别为“<>是[]下属的投资银行部门”和“<>是[]旗下的一个投资银行部门”;
B3.恢复掩蔽实体:对每一个输出序列s',将其中的符号Za和Zp按照步骤B1-3记录的替换关系替换回相应符号所对应的实体名;
在本实施例中,替换后的输出序列分别为“瑞士信贷银行是瑞士信贷集团下属的投资银行部门”和“瑞士信贷银行是瑞士信贷集团旗下的一个投资银行部门”;
B4.生成四元组:对每一个恢复掩蔽实体后的输出序列s',生成并输出四元组(e1,e2,r,s')。
在本实施例中,对输入四元组(“瑞士信贷银行”,“瑞士信贷集团”,“隶属”,“瑞士信贷银行是隶属于瑞士信贷集团的投行部”),经步骤B1至步骤B4处理后,生成并输出了2个新的四元组:(“瑞士信贷银行”,“瑞士信贷集团”,“隶属”,“瑞士信贷银行是瑞士信贷集团下属的投资银行部门”)和(“瑞士信贷银行”,“瑞士信贷集团”,“隶属”,“瑞士信贷银行是瑞士信贷集团旗下的一个投资银行部门”),新生成的四元组的训练句子与输入四元组不同,可直接用于相关关系抽取任务,从而验证了本发明方法可直接生成领域关系抽取任务所需的带标注的语料。
以上所述,仅为本发明的具体实施方式,本说明书中所公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换;所公开的所有特征、或所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以任何方式组合。
Claims (4)
1.一种面向领域关系抽取的标注语料生成方法,包括模型训练和语料生成两个阶段;其特征在于,
A.模型训练,包括以下步骤:
A1.标记实体名;
A1-1.创建一个初始为空的领域实体名集合U;
A1-2.收集领域内的实体名称,并其将添加到领域实体名集合U中;
A1-3.采用中文分词工具对输入的训练句子p进行分词处理,得到分词结果wi,i=1,2,...,Nw、Nw为分词得到的词的总个数;
A1-4.从前往后依次考察p中的每一个词wi,判断wi是否存在于领域实体名集合U中,若存在,则标记wi为实体名并对标记的实体名计数,共标记了Nn个实体名;
A2.生成同义句;
A2-1.预设Nn个替换符号、记为mj,j=1,2,...,Nn;
A2-2.复制一个与p相同的句子、记为p';
A2-3.将p'中的每一个实体名nj(j=1,2,...,Nn)替换为替换符号mj,并记录下nj与mj的替换关系;
A2-4.使用标准回译法对p'进行回译,得到p'的同义句、记为q';
A2-5.搜寻q'中的每一个替换符号,并将其按照步骤A2-3记录的替换关系替换回该符号所对应的实体名;
A3.生成掩蔽句子对;
A3-1.对p进行依存句法分析,得到其中每一个实体名的依存关系和相应主动被动语态;
A3-2.对p中的每一个实体名nj(j=1,2,...,Nn)作判断,若当前nj的依存关系属于主谓关系、动宾关系、间宾关系、前置宾语、介宾关系、并列关系和定中关系等七种关系中的一种,则作:
A3-2-1.复制一个与p相同的句子、记为p”,并复制一个与q'相同的句子、记为q”;
A3-2-2.判断nj在当前依存关系下的主动被动语态,若nj为主动语态,则将p”和q”中的nj均替换预设的主动掩蔽符号Za,否则将p”和q”中的nj均替换预设的被动掩蔽符号Zp;
A3-2-3.将替换后的p”和q”组成掩蔽句子对,并将其作为序列生成模型的训练语料加入到训练语料库L中;
A4.训练模型;
使用训练语料库L,对通用的序列生成预训练模型进行微调(fine-tuning),得到最终的序列生成模型;
B.语料生成,包括以下步骤:
输入数据为关系抽取模型所用的已标注的训练语料,每条语料为一个四元组,其形式为(e1,e2,r,s),其中,e1表示第一个实体的实体名,e2表示第二个实体的实体名,r表示第一个实体和第二个实体间的关系,s表示训练句子;
B1.掩蔽实体;
B1-1.在输入四元组的句子s中标记实体名e1和e2;
B1-2.对句子s进行依存句法分析,得到e1和e2的依存关系和相应主动被动语态;
B1-3.若e1为主动语态,则将s中的e1和e2分别替换为Za和Zp,否则将s中的e1和e2分别替换为Zp和Za,替换完毕记录e1、e2与Za、Zp的替换关系;
B2.序列生成:
B2-1将s输入到步骤A4得到的序列生成模型中,从模型预测出的序列中,选择预测概率最大的前k个序列作为候选序列;
B2-2.从候选序列中筛选出同时包含Za和Zp的序列作为输出序列;
B3.恢复掩蔽实体:对每一个输出序列s',将其中的符号Za和Zp按照步骤B1-3记录的替换关系替换回相应符号所对应的实体名;
B4.生成四元组:对每一个恢复掩蔽实体后的输出序列s',生成并输出四元组(e1,e2,r,s')。
2.按权利要求1一种面向领域关系抽取的标注语料生成方法,其特征在于,所述步骤A2-1中,替换符号由重复的大写英文字母组成。
3.按权利要求1一种面向领域关系抽取的标注语料生成方法,其特征在于,所述步骤A3-2-2中,预设的主动掩蔽符号Za为<>,被动掩蔽符号Zp为[]。
4.按权利要求1一种面向领域关系抽取的标注语料生成方法,其特征在于,所述步骤B2中,k的取值范围为:1≤k≤3。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110652974.8A CN113378513B (zh) | 2021-06-11 | 2021-06-11 | 一种面向领域关系抽取的标注语料生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110652974.8A CN113378513B (zh) | 2021-06-11 | 2021-06-11 | 一种面向领域关系抽取的标注语料生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113378513A true CN113378513A (zh) | 2021-09-10 |
CN113378513B CN113378513B (zh) | 2022-12-23 |
Family
ID=77573861
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110652974.8A Active CN113378513B (zh) | 2021-06-11 | 2021-06-11 | 一种面向领域关系抽取的标注语料生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113378513B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113901827A (zh) * | 2021-12-10 | 2022-01-07 | 北京邮电大学 | 实体识别和关系抽取方法、装置、电子设备及存储介质 |
CN115169370A (zh) * | 2022-09-02 | 2022-10-11 | 星宙数智科技(珠海)有限公司 | 语料数据增强方法、装置、计算机设备及介质 |
Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004114163A2 (en) * | 2003-02-19 | 2004-12-29 | Insightful Corporation | Method and system for enhanced data searching |
CN1573741A (zh) * | 2003-06-20 | 2005-02-02 | 微软公司 | 自适应性机器翻译 |
US20100070448A1 (en) * | 2002-06-24 | 2010-03-18 | Nosa Omoigui | System and method for knowledge retrieval, management, delivery and presentation |
CN105975622A (zh) * | 2016-05-28 | 2016-09-28 | 蔡宏铭 | 多角色智能聊天的方法及系统 |
CN108920465A (zh) * | 2018-07-13 | 2018-11-30 | 福州大学 | 一种基于句法语义的农业领域关系抽取方法 |
CN110119510A (zh) * | 2019-05-17 | 2019-08-13 | 浪潮软件集团有限公司 | 一种基于传递依存关系和结构助词的关系抽取方法及装置 |
US20190370385A1 (en) * | 2018-06-04 | 2019-12-05 | International Business Machines Corporation | Generation of domain specific type system |
CN110569366A (zh) * | 2019-09-09 | 2019-12-13 | 腾讯科技(深圳)有限公司 | 文本的实体关系抽取方法、装置及存储介质 |
US20200159993A1 (en) * | 2018-06-20 | 2020-05-21 | Vade Secure Inc. | Methods, devices and systems for data augmentation to improve fraud detection |
CN111581387A (zh) * | 2020-05-09 | 2020-08-25 | 电子科技大学 | 一种基于损失优化的实体关系联合抽取方法 |
CN111639171A (zh) * | 2020-06-08 | 2020-09-08 | 吉林大学 | 一种知识图谱问答方法及装置 |
CN111695356A (zh) * | 2020-05-28 | 2020-09-22 | 平安科技(深圳)有限公司 | 同义语料生成方法、装置、计算机系统及可读存储介质 |
CN111832283A (zh) * | 2020-06-19 | 2020-10-27 | 上海明略人工智能(集团)有限公司 | 一种文本的生成方法、存储介质和电子装置 |
CN112329455A (zh) * | 2020-11-06 | 2021-02-05 | 渤海大学 | 一种基于语料库的近义词辨析方法 |
CN112380864A (zh) * | 2020-11-03 | 2021-02-19 | 广西大学 | 一种基于回译的文本三元组标注样本增强方法 |
CN112446213A (zh) * | 2020-11-26 | 2021-03-05 | 电子科技大学 | 一种文本语料扩充方法 |
CN112580373A (zh) * | 2020-12-26 | 2021-03-30 | 内蒙古工业大学 | 一种高质量蒙汉无监督神经机器翻译方法 |
-
2021
- 2021-06-11 CN CN202110652974.8A patent/CN113378513B/zh active Active
Patent Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100070448A1 (en) * | 2002-06-24 | 2010-03-18 | Nosa Omoigui | System and method for knowledge retrieval, management, delivery and presentation |
WO2004114163A2 (en) * | 2003-02-19 | 2004-12-29 | Insightful Corporation | Method and system for enhanced data searching |
CN1573741A (zh) * | 2003-06-20 | 2005-02-02 | 微软公司 | 自适应性机器翻译 |
CN105975622A (zh) * | 2016-05-28 | 2016-09-28 | 蔡宏铭 | 多角色智能聊天的方法及系统 |
US20190370385A1 (en) * | 2018-06-04 | 2019-12-05 | International Business Machines Corporation | Generation of domain specific type system |
US20200159993A1 (en) * | 2018-06-20 | 2020-05-21 | Vade Secure Inc. | Methods, devices and systems for data augmentation to improve fraud detection |
CN108920465A (zh) * | 2018-07-13 | 2018-11-30 | 福州大学 | 一种基于句法语义的农业领域关系抽取方法 |
CN110119510A (zh) * | 2019-05-17 | 2019-08-13 | 浪潮软件集团有限公司 | 一种基于传递依存关系和结构助词的关系抽取方法及装置 |
CN110569366A (zh) * | 2019-09-09 | 2019-12-13 | 腾讯科技(深圳)有限公司 | 文本的实体关系抽取方法、装置及存储介质 |
CN111581387A (zh) * | 2020-05-09 | 2020-08-25 | 电子科技大学 | 一种基于损失优化的实体关系联合抽取方法 |
CN111695356A (zh) * | 2020-05-28 | 2020-09-22 | 平安科技(深圳)有限公司 | 同义语料生成方法、装置、计算机系统及可读存储介质 |
CN111639171A (zh) * | 2020-06-08 | 2020-09-08 | 吉林大学 | 一种知识图谱问答方法及装置 |
CN111832283A (zh) * | 2020-06-19 | 2020-10-27 | 上海明略人工智能(集团)有限公司 | 一种文本的生成方法、存储介质和电子装置 |
CN112380864A (zh) * | 2020-11-03 | 2021-02-19 | 广西大学 | 一种基于回译的文本三元组标注样本增强方法 |
CN112329455A (zh) * | 2020-11-06 | 2021-02-05 | 渤海大学 | 一种基于语料库的近义词辨析方法 |
CN112446213A (zh) * | 2020-11-26 | 2021-03-05 | 电子科技大学 | 一种文本语料扩充方法 |
CN112580373A (zh) * | 2020-12-26 | 2021-03-30 | 内蒙古工业大学 | 一种高质量蒙汉无监督神经机器翻译方法 |
Non-Patent Citations (6)
Title |
---|
SIMON MILLE等: "Back-Translation as Strategy to Tackle the Lack of Corpus in Natural Language Generation from Semantic Representations", 《ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》 * |
应德浩等: "基于BBWC模型的中文叙事性文本命名实体识别研究", 《数字印刷》 * |
王博等: "面向新闻领域的中文实体关系抽取", 《电讯技术》 * |
王红斌等: "基于最大熵的泰语句子级实体从属关系抽取", 《南京大学学报(自然科学)》 * |
甘涛等: "改进的多窗谱MFCC在说话人确认中的应用", 《计算机系统应用》 * |
陆锋等: "基于自动回标的地理实体关系语料库构建方法", 《地球信息科学》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113901827A (zh) * | 2021-12-10 | 2022-01-07 | 北京邮电大学 | 实体识别和关系抽取方法、装置、电子设备及存储介质 |
CN115169370A (zh) * | 2022-09-02 | 2022-10-11 | 星宙数智科技(珠海)有限公司 | 语料数据增强方法、装置、计算机设备及介质 |
CN115169370B (zh) * | 2022-09-02 | 2022-12-13 | 星宙数智科技(珠海)有限公司 | 语料数据增强方法、装置、计算机设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113378513B (zh) | 2022-12-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107463553B (zh) | 针对初等数学题目的文本语义抽取、表示与建模方法和系统 | |
CN113378513B (zh) | 一种面向领域关系抽取的标注语料生成方法 | |
Falk et al. | Classifying French verbs using French and English lexical resources | |
Gantar et al. | Discovering automated lexicography: The case of the Slovene lexical database | |
CN111428469A (zh) | 面向句式结构图解分析的交互式标注方法和系统 | |
Augenstein et al. | Extracting relations between non-standard entities using distant supervision and imitation learning | |
Tang et al. | Research on automatic labeling of imbalanced texts of customer complaints based on text enhancement and layer-by-layer semantic matching | |
Ranathunga et al. | Si-ta: Machine translation of sinhala and tamil official documents | |
CN117251524A (zh) | 一种基于多策略融合的短文本分类方法 | |
Jibril et al. | Anec: An amharic named entity corpus and transformer based recognizer | |
Belay et al. | The effect of normalization for bi-directional amharic-english neural machine translation | |
Haque et al. | B-ner: A novel bangla named entity recognition dataset with largest entities and its baseline evaluation | |
Vasiu et al. | Enhancing tokenization by embedding romanian language specific morphology | |
Shivahare et al. | Survey paper: study of sentiment analysis and machine translation using natural language processing and its applications | |
Sawalha et al. | Construction and annotation of the Jordan comprehensive contemporary Arabic corpus (JCCA) | |
Passban et al. | Tailoring neural architectures for translating from morphologically rich languages | |
Jiang et al. | Mcscset: A specialist-annotated dataset for medical-domain Chinese spelling correction | |
Краснобаєва-Чорна | Correlation Of Qualification Features Of Translation With The Translator’s Tasks In The Modern Scientific Paradigm | |
Seresangtakul et al. | Thai-Isarn dialect parallel corpus construction for machine translation | |
Ehsan et al. | Statistical Parser for Urdu | |
Hailu et al. | Semantic role labeling for Amharic text using multiple embeddings and deep neural network | |
Lim et al. | Low cost construction of a multilingual lexicon from bilingual lists | |
CN113705223A (zh) | 以读者为中心的个性化英文文本简化方法 | |
CN112632985A (zh) | 语料的处理方法、装置、存储介质及处理器 | |
Saroj et al. | Rule based Event Extraction System from Newswires and Social Media Text in Indian Languages (EventXtract-IL) for English and Hindi Data. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |