CN113342943B - 一种分类模型的训练方法和装置 - Google Patents

一种分类模型的训练方法和装置 Download PDF

Info

Publication number
CN113342943B
CN113342943B CN202110894397.3A CN202110894397A CN113342943B CN 113342943 B CN113342943 B CN 113342943B CN 202110894397 A CN202110894397 A CN 202110894397A CN 113342943 B CN113342943 B CN 113342943B
Authority
CN
China
Prior art keywords
event
text
feature vector
target
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110894397.3A
Other languages
English (en)
Other versions
CN113342943A (zh
Inventor
唐广法
李嘉琛
付骁弈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhizhi Heshu Technology Co ltd
Original Assignee
Beijing Mininglamp Software System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Mininglamp Software System Co ltd filed Critical Beijing Mininglamp Software System Co ltd
Priority to CN202110894397.3A priority Critical patent/CN113342943B/zh
Publication of CN113342943A publication Critical patent/CN113342943A/zh
Application granted granted Critical
Publication of CN113342943B publication Critical patent/CN113342943B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本申请涉及自然语言处理技术领域,具体提供一种分类模型的训练方法及装置,获取第一事件文本关联的额外文本;获取第一事件文本对应的原始特征向量,并利用额外文本中至少一个目标事件的第一特征向量替换该至少一个目标事件在原始特征向量中的第二特征向量,得到第一事件文本对应的增强特征向量,其中第一事件文本包括的至少一个目标事件的释义,以及包含第一事件文本包括的至少一个目标事件的第二事件文本均可以作为第一事件文本的额外文本;根据第一事件文本对应的原始特征向量、增强特征向量以及事件标注标签,生成训练样本,从而扩充分类模型的训练数据,实现扩充训练样本的目的,进而更好的训练分类模型,提升分类模型的训练效率和质量。

Description

一种分类模型的训练方法和装置
技术领域
本申请涉及自然语言处理技术领域,具体而言,涉及一种分类模型的训练方法及装置。
背景技术
随着信息抽取技术的发展,其从巨大的网络信息源中获取所需信息的能力有着越来越重大的意义,可广泛应用于情报收集,科技文献检索,医疗保健服务,商业信息抽取等领域。而事件关系分类是信息抽取的重要任务。
现有技术通过人工标注事件,标注事件关系分类的方式获得原始训练数据,然后进行深度学习的模型训练。深度学习的模型训练往往需要上千条数据才能保证质量。标注的数据越多,标注越准确,模型准确率就越高,交付质量越好。如果没有标注足够多的训练数据,模型准确率就较低,交付质量较差。
所以,一般通过增加人力投入的方式标注尽可能多的数据;同时通过多人对同一文本标注反复检查核对方式提高标注质量,通过训练样本训练的模型才满足上述条件。但是,人工标注样本的时间周期长使得标注效率低,从而导致分类模型训练效率低。
发明内容
有鉴于此,本申请的目的在于提供一种分类模型的训练方法及装置,能够通过数据增强的方式获取更过的训练数据,提高分类模型的训练质量。
本申请实施例提供一种分类模型的训练方法,包括以下步骤:
对目标领域下的第一事件文本进行标注,得到所述第一事件文本对应的事件标注标签;所述事件标注标签用于表征所述第一事件文本中多个目标事件的第一事件关系;
获取所述第一事件文本关联的额外文本,所述额外文本中包括所述第一事件文本中的至少一个目标事件;
获取所述第一事件文本对应的原始特征向量,并利用所述额外文本中至少一个目标事件的第一特征向量替换该至少一个目标事件在所述原始特征向量中的第二特征向量,得到所述第一事件文本对应的增强特征向量;
根据所述第一事件文本对应的原始特征向量、增强特征向量以及事件标注标签,生成训练样本;
利用所述训练样本训练分类模型,所述分类模型用于基于待分类事件对应的特定事件文本输出所述待分类事件中各个事件的第二事件关系。
在一些实施例中,所述额外文本为以下至少之一:
所述第一事件文本包括的至少一个目标事件的释义;
包含所述第一事件文本包括的至少一个目标事件的第二事件文本;所述第二事件文本针对所述至少一个目标事件的描述方式或者描述内容与所述第一事件文本不同。
在一些实施例中,通过以下方式获取所述第一事件对应的额外文本:
获取所述目标领域下包括所述第一事件文本中多个目标事件的目标数据库;
从所述目标数据库中选取所述第一事件文本包括的至少一个目标事件的释义或者包含所述至少一个目标事件的第二事件文本;
将所述至少一个事件的释义或者所述第二事件文本确定为所述第一事件文本关联的额外文本。
在一些实施例中,所述获取所述第一事件文本对应的原始特征向量,包括:
将所述第一事件文本输入到预训练语言模型BERT模块中,并通过所述BERT模块对所述第一事件文本进行编码,得到所述第一事件文本的原始特征向量;其中,所述原始特征向量中包括所述第一事件文本中每一个分词对应的第二特征向量;
所述利用所述额外文本中至少一个目标事件的第一特征向量替换该至少一个事件在所述原始特征向量中的第二特征向量,得到所述第一事件文本对应的增强特征向量,包括:
将所述额外文本输入到所述BERT模块中,并通过所述BERT模块对所述额外文本进行编码,得到所述额外文本中至少一个目标事件的第一特征向量;
利用所述额外文本中至少一个目标事件的第一特征向量替换该至少一个目标事件在所述原始特征向量中的第二特征向量,得到所述第一事件文本对应的增强特征向量。
在一些实施例中,所述利用所述额外文本中至少一个目标事件的第一特征向量替换该至少一个事件在所述原始特征向量中的第二特征向量,得到所述第一事件文本对应的增强特征向量,包括:
获取所述额外文本中每个目标事件的第一特征向量,并利用该目标事件的第一特征向量替换该目标事件在所述第一事件文本的原始特征向量中的第二特征向量,得到所述第一事件文本对应的第一增强特征向量;
获取所述额外文本中每组目标事件的第一特征向量,并利用该组目标事件的第一特征向量替换该组目标事件在所述第一事件文本的原始特征向量中的第二特征向量,得到所述第一事件文本对应的第二增强特征向量;其中,每组目标事件中至少包括两个目标事件;
将所述第一增强特征向量和所述第二增强特征向量,确定为所述第一事件文本对应的增强特征向量。
在一些实施例中,所述分类模型包括BERT模块和神经网络分类模块;所述利用所述训练样本训练分类模型,包括:
将所述训练样本输入到所述神经网络分类模块中,根据所述神经网络分类模块输出的分类标签和所述训练样本对应的事件标注标签,调整所述BERT模块和所述神经网络分类模块的模型参数,直至所述分类模型满足训练截止条件,得到训练好的分类模型。
在一些实施例中,所述事件关系包括共指事件关系、因果事件关系、顺承事件关系、反转事件关系、条件事件关系中的一种或多种。
在一些实施例中,还提供一种分类模型的训练装置,包括:
标注模块,用于对目标领域下的第一事件文本进行标注,得到所述第一事件文本对应的事件标注标签;所述事件标注标签用于表征所述第一事件文本中多个目标事件的第一事件关系;
获取模块,用于获取所述第一事件文本关联的额外文本,所述额外文本中包括所述第一事件文本中的至少一个目标事件;
替换模块,用于获取所述第一事件文本对应的原始特征向量,并利用所述额外文本中至少一个目标事件的第一特征向量替换该至少一个目标事件在所述原始特征向量中的第二特征向量,得到所述第一事件文本对应的增强特征向量;
生成模块,用于根据所述第一事件文本对应的原始特征向量、增强特征向量以及事件标注标签,生成训练样本;
训练模块,用于利用所述训练样本训练分类模型,所述分类模型用于基于待分类事件对应的特定事件文本输出所述待分类事件中各个事件的第二事件关系。
在一些实施例中,还提供一种电子设备,包括处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述任一项所述的训练方法的步骤
在一些实施例中,还提供一种存储介质,其特征在于,存储有处理器可运行的程序指令,所述程序指令用于执行上述任一项所述的训练方法的步骤。
本申请提供的一种分类模型的训练方法,获取第一事件文本关联的额外文本;获取所述第一事件文本对应的原始特征向量,并利用所述额外文本中至少一个目标事件的第一特征向量替换该至少一个目标事件在所述原始特征向量中的第二特征向量,得到所述第一事件文本对应的增强特征向量,其中第一事件文本包括的至少一个目标事件的释义,以及包含第一事件文本包括的至少一个目标事件的第二事件文本均可以作为第一事件文本的额外文本;根据所述第一事件文本对应的原始特征向量、增强特征向量以及事件标注标签,生成训练样本,从而扩充分类模型的训练数据,实现扩充训练样本的目的,进而更好的训练分类模型,提升分类模型的训练效率和质量。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例提供的训练方法的流程图;
图2示出了本申请实施例提供的训练方法的示意图;
图3示出了本申请实施例提供的生成训练样本的流程图;
图4示出了本申请实施例提供的训练装置的结构框图;
图5示出了本申请实施例提供的电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。 应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。 此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请实施例中将会用到术语“包括”,用于指出其后所声明的特征的存在,但并不排除增加其它的特征。
在生活和生产中,面对各种各样的问题,人们需要做出各种各样的决策。决策之前需要做调查研究,在调查研究的数据中进行信息抽取,以获取关于问题的情报。其中,所述信息抽取是指从给定文本数据中抽取指定类型的实体、关系、事件等事实信息,并形成结构化数据输出的文本处理技术。
信息抽取技术在情报分析和检测,摘要提取,文本分类等有广泛的应用,而事件关系分类是信息抽取的重要任务。在基于深度神经网络的NLP方法中,通过人工标注事件,标注事件关系分类的方式获得原始训练数据,然后进行深度学习的模型训练。但是人工标注事件关系分类的方式时间周期长,使得标注效率低,导致分类模型训练效率低。为解决上述问题,结合说明书附图1和说明书附图2,本申请提出一种分类模型的训练方法,包括以下步骤:
S1、对目标领域下的第一事件文本进行标注,得到所述第一事件文本对应的事件标注标签;所述事件标注标签用于表征所述第一事件文本中多个目标事件的第一事件关系;
S2、获取所述第一事件文本关联的额外文本,所述额外文本中包括所述第一事件文本中的至少一个目标事件;
S3、获取所述第一事件文本对应的原始特征向量,并利用所述额外文本中至少一个目标事件的第一特征向量替换该至少一个目标事件在所述原始特征向量中的第二特征向量,得到所述第一事件文本对应的增强特征向量;
S4、根据所述第一事件文本对应的原始特征向量、增强特征向量以及事件标注标签,生成训练样本;
S5、利用所述训练样本训练分类模型,所述分类模型用于基于待分类事件对应的特定事件文本输出所述待分类事件中各个事件的第二事件关系。
所述步骤S1中,目标领域可以为医疗保健领域、自然科学领域高、信息技术等。其中,在信息领域,事件可以定义为特定时间,特定地点发生的事情。事件关系可以分为共指事件关系、因果事件关系、顺承事件关系、反转事件关系、条件事件关系等。其中,因果事件关系用以表示某一事件导致某一事件发生,如地震导致房屋倒塌;顺承事件关系用以表示某事件紧接着另一事件发生,如去旅游要买火车票;反转事件关系用以表示某事件与另一事件形成对立,如虽然起步晚但是发展快;条件事件关系用以表示某事件条件下另一事件发生,如限制放宽,立即增产。
在一实施例中,目标领域为自然科学领域,如关于对地震和海啸研究的第一事件文本,对该第一事件文本进行标注。如下表所示,其中第一事件文本“这次地震引起了135米高的海啸”,包括目标事件1“地震”和目标事件2“海啸”,目标事件1“地震”和目标事件2“海啸”之间的事件关系为因果事件关系,用事件标注标签“1”进行表示。
事件文本 事件1 事件2 事件标注标签
这次地震引起了135米高的海啸。 地震 海啸 1
从而通过对第一事件文本的标注,可以确定选取的第一事件文本中的目标事件以及目标事件之间的事件关系,为分类模型提供训练数据。
所述步骤S2中,第一事件文本关联的额外文本为以下至少之一:
所述第一事件文本包括的至少一个目标事件的释义;
包含所述第一事件文本包括的至少一个目标事件的第二事件文本;所述第二事件文本针对所述至少一个目标事件的描述方式或者描述内容与所述第一事件文本不同。
在获取上述第一事件文本关联的额外文本时,包括以下步骤:
获取所述目标领域下包括所述第一事件文本中多个目标事件的目标数据库;
从所述目标数据库中选取所述第一事件文本包括的至少一个目标事件的释义或者包含所述至少一个目标事件的第二事件文本;
将所述至少一个事件的释义或者所述第二事件文本确定为所述第一事件文本关联的额外文本。
其中,所述数据库可以是目标领域下的专业数据库,该专业数据库,可以是文本的形式,也可以是包括表格或者图片的其他形式,而对于表格或者图片的其他形式的数据库需要有先前的文字识别步骤,其中文字的自动提取和识别应为本领域技术人员所熟知的技术手段,在此不做具体阐述。
具体的,对于从数据库中获取第一事件文本包括的至少一个目标事件的释义,来作为额外文本的方式,在一实施例中,第一事件文本“这次地震引起了135米高的海啸”,属于自然科学领域,通过查找自然科学的专业数据库,可以获取目标事件1“地震”对应词语的释义,以及目标事件2“海啸”对应词语的释义:
地震是从能量在突然释放引起的地球的表面的摇动地球的岩石圈创建地震波;
海啸是水体中大量水流引起的一系列波浪,通常在海洋或大湖中发生。
则对于“地震”的释义和“海啸”的释义都属于第一事件文本对应的额外文本。具体的,对于“地震”的释义对应目标事件1“地震”的额外文本,“海啸”的释义对应目标事件2“海啸”的额外文本。
对于从数据库中获取包含所述至少一个目标事件的第二事件文本,来作为额外文本的方式,在一实施例中,从数据库中获取到了与第一事件文本“这次地震引起了135米高的海啸”相关联的第二事件文本,其中第二事件文本针对至少一个目标事件的描述方式或者描述内容与第一事件文本不同。具体的,可以从第一事件文本的上下文中获取与第一事件文本相关联的第二事件文本。如获取的第二事件文本为:
“大多数海底地震发生在太平洋边缘地带”;
“海啸通常由风暴潮、火山喷发、水下坍塌滑坡和海底地震等引发”。
则句子“大多数海底地震发生在太平洋边缘地带”中包括了词语“地震”,该句子即可作为对应目标事件1“地震”的额外文本;句子“海啸通常由风暴潮、火山喷发、水下坍塌滑坡和海底地震等引发”中包括词语“海啸”,该句子即可作为对应目标事件2“海啸”的额外文本。
在上述两种获取额外文本的方式中,由于第一事件文本可以包括两个以上的目标事件,而每个目标事件又可以对应一个以上数量的额外文本,所以第一事件文本可以对应获取多个额外文本,从而扩充了训练数据。并且上述两种搜集额外文本的方式十分快捷,与第一事件文本中的目标事件关联度也较高。
所述步骤S3,如说明书附图3所示,具体包括以下步骤:
S301、将所述第一事件文本输入到预训练语言模型BERT模块中,并通过所述BERT模块对所述第一事件文本进行编码,得到所述第一事件文本的原始特征向量;其中,所述原始特征向量中包括所述第一事件文本中每一个分词对应的第二特征向量;
S302、将所述额外文本输入到所述BERT模块中,并通过所述BERT模块对所述额外文本进行编码,得到所述额外文本中至少一个目标事件的第一特征向量;
S303、利用所述额外文本中至少一个目标事件的第一特征向量替换该至少一个目标事件在所述原始特征向量中的第二特征向量,得到所述第一事件文本对应的增强特征向量。
其中预训练语言模型BERT通过查询字向量表将事件文本或者额外文本中的字转换为一维向量,输出各字对应的融合全文语义信息后的向量表示。如,预训练语言模型BERT对于输入的一段长为N的文本,形成一个N*F的向量化表示,也就是每一个字对应一个1*F的特征向量,通过预训练语言模型BERT对文本进行编码,得到文本中每个字的特征向量,应为本领域技术人员所熟知的技术手段,在此不做具体解释。
具体的,利用所述额外文本中至少一个目标事件的第一特征向量替换该至少一个事件在所述原始特征向量中的第二特征向量,得到所述第一事件文本对应的增强特征向量,包括:
获取所述额外文本中每个目标事件的第一特征向量,并利用该目标事件的第一特征向量替换该目标事件在所述第一事件文本的原始特征向量中的第二特征向量,得到所述第一事件文本对应的第一增强特征向量;
获取所述额外文本中每组目标事件的第一特征向量,并利用该组目标事件的第一特征向量替换该组目标事件在所述第一事件文本的原始特征向量中的第二特征向量,得到所述第一事件文本对应的第二增强特征向量;其中,每组目标事件中至少包括两个目标事件;
将所述第一增强特征向量和所述第二增强特征向量,确定为所述第一事件文本对应的增强特征向量。
即在对原始特征向量中目标事件对应的第二特征向量进行替换时,可以一次只随机选出一个目标事件对应的第二特征向量进行替换,也可以一次随机选出多个目标事件对应的第二特征向量进行替换;并且每个目标事件对应的额外文本数量可以不止一个,即每个目标事件的第一特征向量可以不止一个,所以能够得出较多数量的增强特征向量,进一步提升训练数据的数量。
其中,通过以下公式计算所述增强特征向量的数量:
Figure DEST_PATH_IMAGE002
其中,第一事件文本包括N个目标事件,目标事件1、目标事件2、目标事件3…目标 事件N;目标事件1对应有
Figure DEST_PATH_IMAGE004
个额外文本,目标事件2对应有
Figure DEST_PATH_IMAGE006
个额外文本…目标事件N对应 有
Figure DEST_PATH_IMAGE008
个额外文本。
在一实施例中,
第一事件文本为句子A:“这次地震引起了135米高的海啸”,
该第一事件文本包括了目标事件1“地震”和目标事件2“海啸”;通过数据库的查找获取该事件文本的两个额外文本,分别为:
句子B:“地震是从能量在突然释放引起的地球的表面的摇动地球的岩石圈创建地震波”;
句子C:“海啸是水体中大量水流引起的一系列波浪,通常在海洋或大湖中发生”。
现在我们具有三种替换方式已形成新的增强特征向量,分别为:
将句子B中“地震”对应的特征向量,替换到句子A的原始特征向量中“地震”对应的特征向量,从而形成第一种新的增强特征向量;
将句子C中“海啸”对应的特征向量,替换到句子A的原始特征向量中“海啸”对应的特征向量,从而形成第二种新的增强特征向量;
将句子B中“地震”对应的特征向量和句子C中“海啸”对应的特征向量,分别替换替换到句子A的原始特征向量中“地震”对应的特征向量和“海啸”对应的特征向量,从而形成第三种新的增强特征向量。
其中在上述三种替换方式形成的增强特征向量保留有句子A起初标注的事件标注标签,即目标事件1“地震”和目标事件2“海啸”之间为因果事件关系。则如所述步骤S4,根据所述第一事件文本对应的原始特征向量、增强特征向量以及事件标注标签,生成训练样本。
所述步骤S5中,所述分类模型包括BERT模块和神经网络分类模块;将所述训练样本输入到所述神经网络分类模块中,根据所述神经网络分类模块输出的分类标签和所述训练样本对应的事件标注标签,调整所述BERT模块和所述神经网络分类模块的模型参数,直至所述分类模型满足训练截止条件,得到训练好的分类模型。
在一实施例中,满足分类模型训练截止条件,可以是分类模型输出的分类标签的准确度达到设定的阈值。具体的,先统计分类模型输出的分类标签正确的数量,其中,分类模型输出的分类标签与训练样本标注的事件标注标签保持一致即为正确;然后将分类模型输出的分类标签正确的数量与训练样本的数量相比,以得到分类模型输出的分类标签的准确度。准确度越高,说明分类模型的训练结果越好。
本申请提出的一种分类模型的训练方法,通过数据库搜索第一事件文本中各个目标事件的释义,或者包括目标事件的第二事件文本,作为该第一事件文本的额外文本;利用额外文本中至少一个目标事件的第一特征向量替换该至少一个目标事件在原始特征向量中的第二特征向量,得到第一事件文本对应的增强特征向量,从而快速实现扩充训练样本的目的,一方面降低人为对第一事件文本标注的成本,另一方面提升分类模型训练的效率和质量。
如说明书附图4所示,本申请实施例还提供一种分类模型的训练装置,包括:
标注模块401,对目标领域下的第一事件文本进行标注,得到所述第一事件文本对应的事件标注标签;所述事件标注标签用于表征所述第一事件文本中多个目标事件的第一事件关系;
获取模块402,获取所述第一事件文本关联的额外文本,所述额外文本中包括所述第一事件文本中的至少一个目标事件;
替换模块403,获取所述第一事件文本对应的原始特征向量,并利用所述额外文本中至少一个目标事件的第一特征向量替换该至少一个目标事件在所述原始特征向量中的第二特征向量,得到所述第一事件文本对应的增强特征向量;
生成模块404,根据所述第一事件文本对应的原始特征向量、增强特征向量以及事件标注标签,生成训练样本;
训练模块405,利用所述训练样本训练分类模型,所述分类模型用于基于待分类事件对应的特定事件文本输出所述待分类事件中各个事件的第二事件关系。
在一些实施例中,所述替换模块403还包括:
选取单元,用于选取事件文本中的至少一个事件作为被替换事件;以及用于选取与所述被替换事件相应的额外文本作为替换文本;其中,若所述被替换事件对应额外文本数量大于1,从多个额外文本中选取一个。
如图5所示,本申请实施例还提供一种电子设备,包括:处理器501、存储器502和总线503,所述存储器502存储有所述处理器501可执行的机器可读指令,当电子设备运行时,所述处理器501与所述存储器502之间通过总线503通信,所述机器可读指令被所述处理器501执行时执行所述的训练方法的步骤。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行所述的训练方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考方法实施例中的对应过程,本申请中不再赘述。在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,平台服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (9)

1.一种分类模型的训练方法,其特征在于,包括以下步骤:
对目标领域下的第一事件文本进行标注,得到所述第一事件文本对应的事件标注标签;所述事件标注标签用于表征所述第一事件文本中多个目标事件的第一事件关系;
获取所述第一事件文本关联的额外文本,所述额外文本中包括所述第一事件文本中的至少一个目标事件;
将所述第一事件文本输入到预训练语言模型BERT模块中,并通过所述BERT模块对所述第一事件文本进行编码,得到所述第一事件文本的原始特征向量;其中,所述原始特征向量中包括所述第一事件文本中每一个分词对应的第二特征向量;
将所述额外文本输入到所述BERT模块中,并通过所述BERT模块对所述额外文本进行编码,得到所述额外文本中至少一个目标事件的第一特征向量;利用所述额外文本中至少一个目标事件的第一特征向量替换该至少一个目标事件在所述原始特征向量中的第二特征向量,得到所述第一事件文本对应的增强特征向量;
根据所述第一事件文本对应的原始特征向量、增强特征向量以及事件标注标签,生成训练样本;
利用所述训练样本训练分类模型,所述分类模型用于基于待分类事件对应的特定事件文本输出所述待分类事件中各个事件的第二事件关系。
2.根据权利要求1所述的一种分类模型的训练方法,其特征在于,所述额外文本为以下至少之一:
所述第一事件文本包括的至少一个目标事件的释义;
包含所述第一事件文本包括的至少一个目标事件的第二事件文本;所述第二事件文本针对所述至少一个目标事件的描述方式或者描述内容与所述第一事件文本不同。
3.根据权利要求2所述的一种分类模型的训练方法,其特征在于,通过以下方式获取所述第一事件对应的额外文本:
获取所述目标领域下包括所述第一事件文本中多个目标事件的目标数据库;
从所述目标数据库中选取所述第一事件文本包括的至少一个目标事件的释义或者包含所述至少一个目标事件的第二事件文本;
将所述至少一个事件的释义或者所述第二事件文本确定为所述第一事件文本关联的额外文本。
4.根据权利要求1所述的一种分类模型的训练方法,其特征在于,所述利用所述额外文本中至少一个目标事件的第一特征向量替换该至少一个事件在所述原始特征向量中的第二特征向量,得到所述第一事件文本对应的增强特征向量,包括:
获取所述额外文本中每个目标事件的第一特征向量,并利用该目标事件的第一特征向量替换该目标事件在所述第一事件文本的原始特征向量中的第二特征向量,得到所述第一事件文本对应的第一增强特征向量;
获取所述额外文本中每组目标事件的第一特征向量,并利用该组目标事件的第一特征向量替换该组目标事件在所述第一事件文本的原始特征向量中的第二特征向量,得到所述第一事件文本对应的第二增强特征向量;其中,每组目标事件中至少包括两个目标事件;
将所述第一增强特征向量和所述第二增强特征向量,确定为所述第一事件文本对应的增强特征向量。
5.根据权利要求4所述的一种分类模型的训练方法,其特征在于,所述分类模型包括BERT模块和神经网络分类模块;所述利用所述训练样本训练分类模型,包括:
将所述训练样本输入到所述神经网络分类模块中,根据所述神经网络分类模块输出的分类标签和所述训练样本对应的事件标注标签,调整所述BERT模块和所述神经网络分类模块的模型参数,直至所述分类模型满足训练截止条件,得到训练好的分类模型。
6.根据权利要求3所述的一种分类模型的训练方法,其特征在于,所述事件关系包括共指事件关系、因果事件关系、顺承事件关系、反转事件关系、条件事件关系中的一种或多种。
7.一种分类模型的训练装置,其特征在于,包括:
标注模块,用于对目标领域下的第一事件文本进行标注,得到所述第一事件文本对应的事件标注标签;所述事件标注标签用于表征所述第一事件文本中多个目标事件的第一事件关系;
获取模块,用于获取所述第一事件文本关联的额外文本,所述额外文本中包括所述第一事件文本中的至少一个目标事件;
替换模块,用于获取所述第一事件文本对应的原始特征向量,并利用所述额外文本中至少一个目标事件的第一特征向量替换该至少一个目标事件在所述原始特征向量中的第二特征向量,得到所述第一事件文本对应的增强特征向量;
其中,将所述第一事件文本输入到预训练语言模型BERT模块中,并通过所述BERT模块对所述第一事件文本进行编码,得到所述第一事件文本的原始特征向量;其中,所述原始特征向量中包括所述第一事件文本中每一个分词对应的第二特征向量;
将所述额外文本输入到所述BERT模块中,并通过所述BERT模块对所述额外文本进行编码,得到所述额外文本中至少一个目标事件的第一特征向量;利用所述额外文本中至少一个目标事件的第一特征向量替换该至少一个目标事件在所述原始特征向量中的第二特征向量,得到所述第一事件文本对应的增强特征向量;
生成模块,用于根据所述第一事件文本对应的原始特征向量、增强特征向量以及事件标注标签,生成训练样本;
训练模块,用于利用所述训练样本训练分类模型,所述分类模型用于基于待分类事件对应的特定事件文本输出所述待分类事件中各个事件的第二事件关系。
8.一种电子设备,其特征在于,包括处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行权利要求1至6任一项所述的训练方法的步骤。
9.一种存储介质,其特征在于,存储有处理器可运行的程序指令,所述程序指令用于执行权利要求1至6任一项所述的训练方法的步骤。
CN202110894397.3A 2021-08-05 2021-08-05 一种分类模型的训练方法和装置 Active CN113342943B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110894397.3A CN113342943B (zh) 2021-08-05 2021-08-05 一种分类模型的训练方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110894397.3A CN113342943B (zh) 2021-08-05 2021-08-05 一种分类模型的训练方法和装置

Publications (2)

Publication Number Publication Date
CN113342943A CN113342943A (zh) 2021-09-03
CN113342943B true CN113342943B (zh) 2021-12-07

Family

ID=77480774

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110894397.3A Active CN113342943B (zh) 2021-08-05 2021-08-05 一种分类模型的训练方法和装置

Country Status (1)

Country Link
CN (1) CN113342943B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113806536B (zh) * 2021-09-14 2024-04-16 广州华多网络科技有限公司 文本分类方法及其装置、设备、介质、产品

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103154991A (zh) * 2010-07-23 2013-06-12 汤森路透环球资源公司 信用风险采集
CN112711660A (zh) * 2020-12-29 2021-04-27 易方达基金管理有限公司 文本分类样本的构建方法和文本分类模型的训练方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7139626B2 (ja) * 2018-03-02 2022-09-21 日本電信電話株式会社 フレーズ生成関係性推定モデル学習装置、フレーズ生成装置、方法、及びプログラム
US11113324B2 (en) * 2018-07-26 2021-09-07 JANZZ Ltd Classifier system and method
CN110377759B (zh) * 2019-07-22 2022-02-11 中国工商银行股份有限公司 事件关系图谱构建方法及装置
CN111414736B (zh) * 2020-03-23 2022-05-20 腾讯科技(深圳)有限公司 故事生成模型训练方法、装置、设备及存储介质
CN112667782A (zh) * 2021-01-04 2021-04-16 上海明略人工智能(集团)有限公司 一种文本分类方法、装置、设备及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103154991A (zh) * 2010-07-23 2013-06-12 汤森路透环球资源公司 信用风险采集
CN112711660A (zh) * 2020-12-29 2021-04-27 易方达基金管理有限公司 文本分类样本的构建方法和文本分类模型的训练方法

Also Published As

Publication number Publication date
CN113342943A (zh) 2021-09-03

Similar Documents

Publication Publication Date Title
CN111966917B (zh) 一种基于预训练语言模型的事件检测与摘要方法
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN113283551B (zh) 多模态预训练模型的训练方法、训练装置及电子设备
Sobhana et al. Conditional random field based named entity recognition in geological text
CN106547875B (zh) 一种基于情感分析和标签的微博在线突发事件检测方法
Watrianthos Sentiment analysis of traveloka app using naïve bayes classifier method
CN109033166B (zh) 一种人物属性抽取训练数据集构建方法
WO2019227581A1 (zh) 兴趣点识别方法、装置、终端设备及存储介质
CN111274239A (zh) 试卷结构化处理方法、装置和设备
CN110298039B (zh) 事件地的识别方法、系统、设备及计算机可读存储介质
CN114153978A (zh) 模型训练方法、信息抽取方法、装置、设备及存储介质
CN108763192B (zh) 用于文本处理的实体关系抽取方法及装置
Khaleq et al. Twitter analytics for disaster relevance and disaster phase discovery
CN113342943B (zh) 一种分类模型的训练方法和装置
CA3092830A1 (en) System and methods for generating an enhanced output of relevant content to facilitate content analysis
CN117077679B (zh) 命名实体识别方法和装置
Fernandes et al. Automated disaster news collection classification and geoparsing
CN114842982B (zh) 一种面向医疗信息系统的知识表达方法、装置及系统
CN114638222B (zh) 自然灾害数据的分类方法及其模型训练方法、装置
CN116383331A (zh) 构建中文事件库及基于该元事件库对元事件分析预测的方法及系统
Regalado et al. Adaptive information extraction of disaster information from Twitter
CN113868417A (zh) 一种敏感评论识别方法、装置、终端设备和存储介质
CN109597879B (zh) 一种基于“引文关系”数据的业务行为关系抽取方法及装置
CN114067343A (zh) 一种数据集的构建方法、模型训练方法和对应装置
CN112818122A (zh) 一种面向对话文本的事件抽取方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220615

Address after: 15, second floor, east side of clean coal workshop, No. 68, Shijingshan Road, Shijingshan District, Beijing 100043 (cluster registration)

Patentee after: Beijing Zhizhi Heshu Technology Co.,Ltd.

Address before: A1002, 10th floor, building 1, yard 1, Zhongguancun East Road, Haidian District, Beijing

Patentee before: MININGLAMP SOFTWARE SYSTEMS Co.,Ltd.