CN113378513B - 一种面向领域关系抽取的标注语料生成方法 - Google Patents

一种面向领域关系抽取的标注语料生成方法 Download PDF

Info

Publication number
CN113378513B
CN113378513B CN202110652974.8A CN202110652974A CN113378513B CN 113378513 B CN113378513 B CN 113378513B CN 202110652974 A CN202110652974 A CN 202110652974A CN 113378513 B CN113378513 B CN 113378513B
Authority
CN
China
Prior art keywords
relationship
entity
sentence
corpus
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110652974.8A
Other languages
English (en)
Other versions
CN113378513A (zh
Inventor
甘涛
张恒
何艳敏
王志阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202110652974.8A priority Critical patent/CN113378513B/zh
Publication of CN113378513A publication Critical patent/CN113378513A/zh
Application granted granted Critical
Publication of CN113378513B publication Critical patent/CN113378513B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本发明属于自然语言处理技术领域,涉及领域关系抽取,具体提供一种面向领域关系抽取的标注语料生成方法,用以克服领域关系抽取所面临的语料缺乏和人工代价昂贵的问题。本发明利用回译法生成同义句,将其与原句一起作为序列生成模型的训练语料,克服了领域语料不足的问题;同时,通过依存关系分析和语态判断,将训练语料中实体替换为特定的主动和被动两种掩蔽符号,使得序列生成模型直接生成关系抽取任务所需的带标注的语料;并且,通过对实体进行掩蔽,序列生成模型专注于学习实体间的关系,有效提高关系抽取的准确性。综上,本发明能够在初始语料不够充足的情况下,生成关系抽取任务所需的带标注的语料,极大地降低了人工标注成本。

Description

一种面向领域关系抽取的标注语料生成方法
技术领域
本发明属于自然语言处理技术领域,具体涉及一种面向领域关系抽取的标注语料生成方法。
背景技术
知识图谱(Knowledge Graph)以结构化的形式描述客观世界中概念、实体及其之间的关系,将互联网的信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和理解互联网海量信息的能力。不同的领域往往需要构建本领域的知识图谱,领域构建知识图谱的首要任务是领域知识抽取;领域知识抽取是指从不同来源、不同数据中进行特定领域知识的提取,形成知识存入到知识图谱的过程。领域知识抽取可分为实体抽取、关系抽取和属性抽取三类;目前,大多数领域关系抽取采用有监督学习方法,该类方法需要大量的带标注的语料数据以训练好的模型,这使得该类方法面临两方面困难问题:(1)领域语料缺乏、其数量难以满足训练需求,(2)人工标注的代价昂贵。
针对领域语料数量不足的问题,通常的做法是采用文本增强方法来对语料进行扩充;文本增强是在已有的文本数据的基础上,通过特殊处理,构造更多的文本数据。目前文本增强方法主要有人工标注、词替换、回译、神经网络等方法;其中,回译法是近年来使用较多的一种方法,它通过将源语言翻译成另一种语言,再将得到另一种语言的句子翻译回源语言的方式,构造出源语言的增强数据;回译法虽然能生成不同句型的语料,但在文本中包含领域专业词汇(如领域实体名称)的情况下,该方法容易导致生成句子的语义发生变化。相比之下,近年出现的神经网络方法表现出更优的性能,如Seq2Seq序列生成方法,但该类方法本身就需要大量的训练语料,在语料不够充足的情况下,难以训练出理想的神经网络模型以生成高质量的文本。另外,针对人工标注的代价昂贵的问题,通常采用半监督或无监督的关系抽取方法,但这些方法的效果较有监督方法有明显的不足。
综上所述,当前技术还没有同时有效解决领域关系抽取所面临的语料缺乏和人工代价昂贵两个问题。
发明内容
本发明的目的在于针对上述现有技术的诸多问题,提供一种面向领域关系抽取的标注语料生成方法,该方法在初始语料不够充足的情况下,生成关系抽取任务所需的带标注的语料,极大地降低了人工标注成本。
为实现上述目的,本发明采用的技术方案为:
一种面向领域关系抽取的标注语料生成方法,包括模型训练和语料生成两个阶段;其特征在于,
A.模型训练,包括以下步骤:
A1.标记实体名;
A1-1.创建一个初始为空的领域实体名集合U;
A1-2.收集领域内的实体名称,并其将添加到领域实体名集合U中;
A1-3.采用中文分词工具对输入的训练句子p进行分词处理,得到分词结果wi,i=1,2,...,Nw、Nw为分词得到的词的总个数;
A1-4.从前往后依次考察p中的每一个词wi,判断wi是否存在于领域实体名集合U中,若存在,则标记wi为实体名并对标记的实体名计数,共标记了Nn个实体名;
A2.生成同义句;
A2-1.预设Nn个替换符号、记为mj,j=1,2,...,Nn
A2-2.复制一个与p相同的句子、记为p';
A2-3.将p'中的每一个实体名nj(j=1,2,...,Nn)替换为替换符号mj,并记录下nj与mj的替换关系;
A2-4.使用标准回译法对p'进行回译,得到p'的同义句、记为q';
A2-5.搜寻q'中的每一个替换符号,并将其按照步骤A2-3记录的替换关系替换回该符号所对应的实体名;
A3.生成掩蔽句子对;
A3-1.对p进行依存句法分析,得到其中每一个实体名的依存关系和相应主动被动语态;
A3-2.对p中的每一个实体名nj(j=1,2,...,Nn)作判断,若当前nj的依存关系属于主谓关系、动宾关系、间宾关系、前置宾语、介宾关系、并列关系和定中关系等七种关系中的一种,则作:
A3-2-1.复制一个与p相同的句子、记为p”,并复制一个与q'相同的句子、记为q”;
A3-2-2.判断nj在当前依存关系下的主动被动语态,若nj为主动语态,则将p”和q”中的nj均替换预设的主动掩蔽符号Za,否则将p”和q”中的nj均替换预设的被动掩蔽符号Zp
A3-2-3.将替换后的p”和q”组成掩蔽句子对,并将其作为序列生成模型的训练语料加入到训练语料库L中;
A4.训练模型;
使用训练语料库L,对通用的序列生成预训练模型进行微调(fine-tuning),得到最终的序列生成模型;
B.语料生成,包括以下步骤:
输入数据为关系抽取模型所用的已标注的训练语料,每条语料为一个四元组,其形式为(e1,e2,r,s),其中,e1表示第一个实体的实体名,e2表示第二个实体的实体名,r表示第一个实体和第二个实体间的关系,s表示体现关系r的训练句子;
B1.掩蔽实体;
B1-1.在输入四元组的句子s中标记实体名e1和e2;
B1-2.对句子s进行依存句法分析,得到e1和e2的依存关系和相应主动被动语态;
B1-3.若e1为主动语态,则将s中的e1和e2分别替换为Za和Zp,否则将s中的e1和e2分别替换为Zp和Za,替换完毕记录e1、e2与Za、Zp的替换关系;
B2.序列生成:
B2-1将s输入到步骤A4得到的序列生成模型中,从模型预测出的序列中,选择预测概率最大的前k个序列作为候选序列;
B2-2.从候选序列中筛选出同时包含Za和Zp的序列作为输出序列;
B3.恢复掩蔽实体:对每一个输出序列s',将其中的符号Za和Zp按照步骤B1-3记录的替换关系替换回相应符号所对应的实体名;
B4.生成四元组:对每一个恢复掩蔽实体后的输出序列s',生成并输出四元组(e1,e2,r,s')。
进一步的,所述步骤A2-1中,替换符号由重复的大写英文字母组成。
进一步的,所述步骤A3-2-2中,预设的主动掩蔽符号Za为<>,被动掩蔽符号Zp为[];
进一步的,所述步骤B2中,k的取值范围为:1≤k≤3。
本发明的有益效果在于:
本发明提供了一种面向领域关系抽取的标注语料生成方法,该方法利用回译法生成同义句,并将生成的同义句与原句一起作为序列生成模型的训练语料,克服了领域语料不足的问题;同时,通过依存关系分析和语态判断,将训练语料中实体替换为特定的主动和被动两种掩蔽符号,使得序列生成模型直接生成关系抽取任务所需的带标注的语料,另外,通过对实体进行掩蔽,序列生成模型不再关注实体本身的内容,而专注于学习实体间的关系,从而提高了关系抽取的准确性。
附图说明
图1为本发明的标注语料生成方法的流程示意图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
本实施例提供了一种面向领域关系抽取的标注语料生成方法,其流程如图1所示,包括模型训练和语料生成两个阶段;本实施例针对银行领域,说明应用于该领域关系抽取任务的标注语料生成方法;具体步骤如下:
第一、所述模型训练包括以下步骤:
在本实施例中,以输入训练句子“花旗银行是隶属于花旗集团的零售银行”为例进行说明;
A1.标记实体名
A1-1.创建一个初始为空的领域实体名集合U;
A1-2.收集领域内的实体名称,并其将添加到领域实体名集合U中;
在本实施例中,共收集银行领域的实体名称9100个,其中包含企业名称(如“花旗银行”、“瑞士信贷银行”)和产品名(如“滴水贷”、“微粒贷”);
A1-3.采用中文分词工具对输入的训练句子p进行分词处理,将其分割成不同的词wi,i=1,2,...,Nw、Nw为分词得到的词的总个数;
在本实施例中,对输入句子“花旗银行是隶属于花旗集团的零售银行”进行分词处理得到“花旗银行”、“是”、“隶属于”、“花旗集团”、“的”、“零售”和“银行”7个词,即分词得到的词的总个数Nw=7;
A1-4.从前往后依次考察p中的每一个词wi,判断wi是否存在于领域实体名集合U中,若存在,则标记wi为实体名并对标记的实体名计数,设处理完p中的所有词后,共标记了Nn个实体名;
在本实施例中,p中的“花旗银行”和“花旗集团”存在于领域实体名集合U中,故将p中的“花旗银行”和“花旗集团”标记为实体名,处理完毕共标记了Nn=2个实体名;
A2.生成同义句;
A2-1.预设Nn个替换符号、记为mj,j=1,2,...,Nn;所述替换符号由重复的大写英文字母组成;
本发明预设的替换符号通用于各语言的符号,在后续的回译法过程中该符号不会被改变,将保留在回译后得到的同义句中;在本实施例中,预设两个替换符号:“AAA”和“BBB”,即m1=“AAA”,m2=“BBB”;
A2-2.复制一个与p相同的句子、记为p';
在本实施例中,p'=p=“花旗银行是隶属于花旗集团的零售银行”;
A2-3.将p'中的每一个实体名nj(j=1,2,...,Nn)替换为替换符号mj,并记录下nj与mj的替换关系,即nj被替换为mj
在本实施例中,将p'中的实体名n1=“花旗银行”替换为m1=“AAA”,实体名n2=“花旗集团”替换为m2=“BBB”,记录的替换关系为“花旗银行”被替换为“AAA”,“花旗集团”被替换为“BBB”,替换处理后的p'为“AAA是隶属于BBB的零售银行”;
A2-4.使用标准回译法,对p'进行回译,其过程是先将p'翻译成外文,再将这条外文翻译回中文,回译法输出得到p'的同义句、记为q';
在本实施例中,使用标准回译法回译生成的p'的同义句q'为“AAA是BBB下属的一家零售银行”;
A2-5.搜寻q'中的每一个替换符号,并将其按照步骤A2-3记录的替换关系替换回该符号所对应的实体名;
在本实施例中,将q'中的替换符号“AAA”和“BBB”分别替换回“花旗银行”和“花旗集团”,恢复替换后的q'为“花旗银行是花旗集团下属的一家零售银行”;
A3.生成掩蔽句子对;
A3-1.对p进行依存句法分析,得到其中每一个实体名的依存关系和相应主动被动语态;
在本实施例中,对句子“花旗银行是隶属于花旗集团的零售银行”进行依存句法分析,得到“花旗银行”的依存关系是主谓关系,相应的语态为主动语态,“花旗集团”的依存关系是动宾关系,相应的语态为被动语态;
A3-2.对p中的每一个实体名nj(j=1,2,...,Nn)作判断,若当前nj的依存关系属于主谓关系、动宾关系、间宾关系、前置宾语、介宾关系、并列关系和定中关系等七种关系中的一种,则作:
A3-2-1.复制一个与p相同的句子、记为p”,并复制一个与q'相同的句子、记为q”;
在本实施例中,得到p”=p=“花旗银行是隶属于花旗集团的零售银行”,q”=q'=“花旗银行是花旗集团下属的一家零售银行”;
A3-2-2.判断nj在当前依存关系下的主动被动语态,若nj为主动语态,则将p”和q”中的nj均替换预设的主动掩蔽符号Za,否则将p”和q”中的nj均替换预设的被动掩蔽符号Zp
在本实施例中,预设的主动掩蔽符号Za为<>,被动掩蔽符号Zp为[];
A3-2-3.将替换后的p”和q”组成掩蔽句子对,并将其作为序列生成模型的训练语料加入到训练语料库L中;
在本实施例中,对n1=“花旗银行”,因其依存关系是主谓关系,相应的语态为主动语态,则将p”和q”中的“花旗银行”均替换为<>,即p”变为“<>是隶属于花旗集团的零售银行”,q”变为“<>是花旗集团下属的一家零售银行”,组成的掩蔽句子对为(“<>是隶属于花旗集团的零售银行”,“<>是花旗集团下属的一家零售银行”),并将该句子对加入到训练语料库L中;
对n2=“花旗集团”,因其依存关系是动宾关系,相应的语态为被动语态,则将p”和q”中的“花旗银行”均替换为[],即p”变为“花旗银行是隶属于[]的零售银行”,q”变为“花旗银行是[]下属的一家零售银行”,组成的掩蔽句子对为(“花旗银行是隶属于[]的零售银行”,“花旗银行是[]下属的一家零售银行”),并将该句子对加入到训练语料库L中;
A4.训练模型;
使用训练语料库L,对通用的序列生成预训练模型进行微调(fine-tuning),得到最终的序列生成模型;
第二、所述语料生成包括以下步骤:
输入数据为关系抽取模型所用的已标注的训练语料,每条语料为一个四元组,其形式为(e1,e2,r,s),其中,e1表示第一个实体的实体名,e2表示第二个实体的实体名,r表示第一个实体和第二个实体间的关系,s表示体现关系r的训练句子;
在本实施例中,以输入四元组(“瑞士信贷银行”,“瑞士信贷集团”,“隶属”,“瑞士信贷银行是隶属于瑞士信贷集团的投行部”)为例进行说明;
B1.掩蔽实体;
B1-1.在输入四元组的句子s中标记实体名e1和e2;
在本实施例中,在s=“瑞士信贷银行是隶属于瑞士信贷集团的投行部”中标记实体名e1=“瑞士信贷银行”和e2=“瑞士信贷集团”;
B1-2.对句子s进行依存句法分析,得到e1和e2的依存关系和相应主动被动语态;
在本实施例中,对句子“瑞士信贷银行是隶属于瑞士信贷集团的投行部”进行依存句法分析,得到e1=“瑞士信贷银行”的依存关系是主谓关系,相应的语态为主动语态,e2=“瑞士信贷集团”的依存关系是定中关系,相应的语态为被动语态;
B1-3.若e1为主动语态,则将s中的e1和e2分别替换为Za和Zp,否则将s中的e1和e2分别替换为Zp和Za,替换完毕记录e1、e2与Za、Zp的替换关系;
因e1=“瑞士信贷银行”的依存关系是主谓关系,相应的语态为主动语态,则将s=“瑞士信贷银行是隶属于瑞士信贷集团的投行部”中的e1=“瑞士信贷银行”和e2=“瑞士信贷集团”分别替换为<>和[],替换后的s为“<>是隶属于[]的投行部”;
B2.序列生成:
B2-1将s输入到步骤A4得到的序列生成模型中,从模型预测出的序列中,选择预测概率最大的前k个序列作为候选序列;
在本实施例中,k的取值范围为1≤k≤3,这里k的取值为2,得到两个候选序列,分别为“<>是[]下属的投资银行部门”和“<>是[]旗下的一个投资银行部门”;
B2-2.从候选序列中筛选出同时包含Za和Zp的序列作为输出序列;
在本实施例中,得到的输出序列分别为“<>是[]下属的投资银行部门”和“<>是[]旗下的一个投资银行部门”;
B3.恢复掩蔽实体:对每一个输出序列s',将其中的符号Za和Zp按照步骤B1-3记录的替换关系替换回相应符号所对应的实体名;
在本实施例中,替换后的输出序列分别为“瑞士信贷银行是瑞士信贷集团下属的投资银行部门”和“瑞士信贷银行是瑞士信贷集团旗下的一个投资银行部门”;
B4.生成四元组:对每一个恢复掩蔽实体后的输出序列s',生成并输出四元组(e1,e2,r,s')。
在本实施例中,对输入四元组(“瑞士信贷银行”,“瑞士信贷集团”,“隶属”,“瑞士信贷银行是隶属于瑞士信贷集团的投行部”),经步骤B1至步骤B4处理后,生成并输出了2个新的四元组:(“瑞士信贷银行”,“瑞士信贷集团”,“隶属”,“瑞士信贷银行是瑞士信贷集团下属的投资银行部门”)和(“瑞士信贷银行”,“瑞士信贷集团”,“隶属”,“瑞士信贷银行是瑞士信贷集团旗下的一个投资银行部门”),新生成的四元组的训练句子与输入四元组不同,可直接用于相关关系抽取任务,从而验证了本发明方法可直接生成领域关系抽取任务所需的带标注的语料。
以上所述,仅为本发明的具体实施方式,本说明书中所公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换;所公开的所有特征、或所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以任何方式组合。

Claims (4)

1.一种面向领域关系抽取的标注语料生成方法,包括模型训练和语料生成两个阶段;其特征在于,
A.模型训练,包括以下步骤:
A1.标记实体名;
A1-1.创建一个初始为空的领域实体名集合U;
A1-2.收集领域内的实体名称,并其将添加到领域实体名集合U中;
A1-3.采用中文分词工具对输入的训练句子p进行分词处理,得到分词结果wi,i=1,2,...,Nw、Nw为分词得到的词的总个数;
A1-4.从前往后依次考察p中的每一个词wi,判断wi是否存在于领域实体名集合U中,若存在,则标记wi为实体名并对标记的实体名计数,共标记了Nn个实体名;
A2.生成同义句;
A2-1.预设Nn个替换符号、记为mj,j=1,2,...,Nn
A2-2.复制一个与p相同的句子、记为p';
A2-3.将p'中的每一个实体名nj(j=1,2,...,Nn)替换为替换符号mj,并记录下nj与mj的替换关系;
A2-4.使用标准回译法对p'进行回译,得到p'的同义句、记为q';
A2-5.搜寻q'中的每一个替换符号,并将其按照步骤A2-3记录的替换关系替换回该符号所对应的实体名;
A3.生成掩蔽句子对;
A3-1.对p进行依存句法分析,得到其中每一个实体名的依存关系和相应主动被动语态;
A3-2.对p中的每一个实体名nj(j=1,2,...,Nn)作判断,若当前nj的依存关系属于主谓关系、动宾关系、间宾关系、前置宾语、介宾关系、并列关系和定中关系中的一种,则作:
A3-2-1.复制一个与p相同的句子、记为p”,并复制一个与q'相同的句子、记为q”;
A3-2-2.判断nj在当前依存关系下的主动被动语态,若nj为主动语态,则将p”和q”中的nj均替换预设的主动掩蔽符号Za,否则将p”和q”中的nj均替换预设的被动掩蔽符号Zp
A3-2-3.将替换后的p”和q”组成掩蔽句子对,并将其作为序列生成模型的训练语料加入到训练语料库L中;
A4.训练模型;
使用训练语料库L,对通用的序列生成预训练模型进行微调,得到最终的序列生成模型;
B.语料生成,包括以下步骤:
输入数据为关系抽取模型所用的已标注的训练语料,每条语料为一个四元组,其形式为(e1,e2,r,s),其中,e1表示第一个实体的实体名,e2表示第二个实体的实体名,r表示第一个实体和第二个实体间的关系,s表示训练句子;
B1.掩蔽实体;
B1-1.在输入四元组的句子s中标记实体名e1和e2;
B1-2.对句子s进行依存句法分析,得到e1和e2的依存关系和相应主动被动语态;
B1-3.若e1为主动语态,则将s中的e1和e2分别替换为Za和Zp,否则将s中的e1和e2分别替换为Zp和Za,替换完毕记录e1、e2与Za、Zp的替换关系;
B2.序列生成:
B2-1将s输入到步骤A4得到的序列生成模型中,从模型预测出的序列中,选择预测概率最大的前k个序列作为候选序列;
B2-2.从候选序列中筛选出同时包含Za和Zp的序列作为输出序列;
B3.恢复掩蔽实体:对每一个输出序列s',将其中的符号Za和Zp按照步骤B1-3记录的替换关系替换回相应符号所对应的实体名;
B4.生成四元组:对每一个恢复掩蔽实体后的输出序列s',生成并输出四元组(e1,e2,r,s')。
2.按权利要求1所述的一种面向领域关系抽取的标注语料生成方法,其特征在于,所述步骤A2-1中,替换符号由重复的大写英文字母组成。
3.按权利要求1所述的一种面向领域关系抽取的标注语料生成方法,其特征在于,所述步骤A3-2-2中,预设的主动掩蔽符号Za为<>,被动掩蔽符号Zp为[]。
4.按权利要求1所述的一种面向领域关系抽取的标注语料生成方法,其特征在于,所述步骤B2中,k的取值范围为:1≤k≤3。
CN202110652974.8A 2021-06-11 2021-06-11 一种面向领域关系抽取的标注语料生成方法 Active CN113378513B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110652974.8A CN113378513B (zh) 2021-06-11 2021-06-11 一种面向领域关系抽取的标注语料生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110652974.8A CN113378513B (zh) 2021-06-11 2021-06-11 一种面向领域关系抽取的标注语料生成方法

Publications (2)

Publication Number Publication Date
CN113378513A CN113378513A (zh) 2021-09-10
CN113378513B true CN113378513B (zh) 2022-12-23

Family

ID=77573861

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110652974.8A Active CN113378513B (zh) 2021-06-11 2021-06-11 一种面向领域关系抽取的标注语料生成方法

Country Status (1)

Country Link
CN (1) CN113378513B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113901827B (zh) * 2021-12-10 2022-03-18 北京邮电大学 实体识别和关系抽取方法、装置、电子设备及存储介质
CN115169370B (zh) * 2022-09-02 2022-12-13 星宙数智科技(珠海)有限公司 语料数据增强方法、装置、计算机设备及介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004114163A2 (en) * 2003-02-19 2004-12-29 Insightful Corporation Method and system for enhanced data searching
CN105975622A (zh) * 2016-05-28 2016-09-28 蔡宏铭 多角色智能聊天的方法及系统
CN108920465A (zh) * 2018-07-13 2018-11-30 福州大学 一种基于句法语义的农业领域关系抽取方法
CN110569366A (zh) * 2019-09-09 2019-12-13 腾讯科技(深圳)有限公司 文本的实体关系抽取方法、装置及存储介质
CN111581387A (zh) * 2020-05-09 2020-08-25 电子科技大学 一种基于损失优化的实体关系联合抽取方法
CN111639171A (zh) * 2020-06-08 2020-09-08 吉林大学 一种知识图谱问答方法及装置
CN111695356A (zh) * 2020-05-28 2020-09-22 平安科技(深圳)有限公司 同义语料生成方法、装置、计算机系统及可读存储介质
CN111832283A (zh) * 2020-06-19 2020-10-27 上海明略人工智能(集团)有限公司 一种文本的生成方法、存储介质和电子装置
CN112329455A (zh) * 2020-11-06 2021-02-05 渤海大学 一种基于语料库的近义词辨析方法
CN112380864A (zh) * 2020-11-03 2021-02-19 广西大学 一种基于回译的文本三元组标注样本增强方法
CN112446213A (zh) * 2020-11-26 2021-03-05 电子科技大学 一种文本语料扩充方法
CN112580373A (zh) * 2020-12-26 2021-03-30 内蒙古工业大学 一种高质量蒙汉无监督神经机器翻译方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6946715B2 (en) * 2003-02-19 2005-09-20 Micron Technology, Inc. CMOS image sensor and method of fabrication
AU2004202391A1 (en) * 2003-06-20 2005-01-13 Microsoft Corporation Adaptive machine translation
US11100140B2 (en) * 2018-06-04 2021-08-24 International Business Machines Corporation Generation of domain specific type system
US10664656B2 (en) * 2018-06-20 2020-05-26 Vade Secure Inc. Methods, devices and systems for data augmentation to improve fraud detection
CN110119510B (zh) * 2019-05-17 2023-02-14 浪潮软件集团有限公司 一种基于传递依存关系和结构助词的关系抽取方法及装置

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004114163A2 (en) * 2003-02-19 2004-12-29 Insightful Corporation Method and system for enhanced data searching
CN105975622A (zh) * 2016-05-28 2016-09-28 蔡宏铭 多角色智能聊天的方法及系统
CN108920465A (zh) * 2018-07-13 2018-11-30 福州大学 一种基于句法语义的农业领域关系抽取方法
CN110569366A (zh) * 2019-09-09 2019-12-13 腾讯科技(深圳)有限公司 文本的实体关系抽取方法、装置及存储介质
CN111581387A (zh) * 2020-05-09 2020-08-25 电子科技大学 一种基于损失优化的实体关系联合抽取方法
CN111695356A (zh) * 2020-05-28 2020-09-22 平安科技(深圳)有限公司 同义语料生成方法、装置、计算机系统及可读存储介质
CN111639171A (zh) * 2020-06-08 2020-09-08 吉林大学 一种知识图谱问答方法及装置
CN111832283A (zh) * 2020-06-19 2020-10-27 上海明略人工智能(集团)有限公司 一种文本的生成方法、存储介质和电子装置
CN112380864A (zh) * 2020-11-03 2021-02-19 广西大学 一种基于回译的文本三元组标注样本增强方法
CN112329455A (zh) * 2020-11-06 2021-02-05 渤海大学 一种基于语料库的近义词辨析方法
CN112446213A (zh) * 2020-11-26 2021-03-05 电子科技大学 一种文本语料扩充方法
CN112580373A (zh) * 2020-12-26 2021-03-30 内蒙古工业大学 一种高质量蒙汉无监督神经机器翻译方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
Back-Translation as Strategy to Tackle the Lack of Corpus in Natural Language Generation from Semantic Representations;Simon Mille等;《Association for Computational Linguistics》;20191103;第94页-103页 *
基于BBWC模型的中文叙事性文本命名实体识别研究;应德浩等;《数字印刷》;20210610(第3期);第92页-110页 *
基于最大熵的泰语句子级实体从属关系抽取;王红斌等;《南京大学学报(自然科学)》;20170730(第04期);第738页-746页 *
基于自动回标的地理实体关系语料库构建方法;陆锋等;《地球信息科学》;20180711;第20卷(第7期);第871页-879页 *
改进的多窗谱MFCC在说话人确认中的应用;甘涛等;《计算机系统应用》;20141115;第23卷(第11期);第192页-195页 *
面向新闻领域的中文实体关系抽取;王博等;《电讯技术》;20210126;第61卷(第1期);第50页-57页 *

Also Published As

Publication number Publication date
CN113378513A (zh) 2021-09-10

Similar Documents

Publication Publication Date Title
CN107463553B (zh) 针对初等数学题目的文本语义抽取、表示与建模方法和系统
CN113378513B (zh) 一种面向领域关系抽取的标注语料生成方法
Zhang et al. Renew: A semi-supervised framework for generating domain-specific lexicons and sentiment analysis
Chen et al. A morphological analyzer for st. lawrence island/central siberian yupik
Gantar et al. Discovering automated lexicography: The case of the Slovene lexical database
Rehbein Fine-grained pos tagging of german tweets
Brierley et al. Open-Source Boundary-Annotated Corpus for Arabic Speech and Language Processing.
CN112733547A (zh) 一种利用语义依存分析的中文问句语义理解方法
Jibril et al. Anec: An amharic named entity corpus and transformer based recognizer
Belay et al. The effect of normalization for bi-directional amharic-english neural machine translation
CN103914447B (zh) 信息处理设备和信息处理方法
Passban et al. Tailoring neural architectures for translating from morphologically rich languages
Boisen et al. Annotating Resources for Information Extraction.
JP2016218848A (ja) 言語表現書き換え装置、方法、及びプログラム
Athukorala et al. Swa Bhasha: Message-Based Singlish to Sinhala Transliteration
Ahmed et al. Discovering lexical similarity using articulatory feature-based phonetic edit distance
Seresangtakul et al. Thai-Isarn dialect parallel corpus construction for machine translation
Bosch et al. Towards Zulu corpus clean-up, lexicon development and corpus annotation by means of computational morphological analysis
Kumar et al. Comparative analysis of automatic sign language generation systems
KR100487716B1 (ko) 단어레벨의 통계적 방법을 이용한 번역문 생성 방법 및 그장치
Sabtan Morphological Analysis of the Glorious Qur'an: A Comparative Survey of Three Corpora
Batsuren et al. Evaluating Subword Tokenization: Alien Subword Composition and OOV Generalization Challenge
Reddy et al. Text Summarization of Telugu Scripts
Nizami et al. Hindustani or hindi vs. urdu: A computational approach for the exploration of similarities under phonetic aspects
Goyal et al. Automatic standardization of spelling variations of Hindi text

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant