CN107704869B - 一种语料数据抽样方法及模型训练方法 - Google Patents

一种语料数据抽样方法及模型训练方法 Download PDF

Info

Publication number
CN107704869B
CN107704869B CN201710778236.1A CN201710778236A CN107704869B CN 107704869 B CN107704869 B CN 107704869B CN 201710778236 A CN201710778236 A CN 201710778236A CN 107704869 B CN107704869 B CN 107704869B
Authority
CN
China
Prior art keywords
data
corpus
corpus data
classification
accuracy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710778236.1A
Other languages
English (en)
Other versions
CN107704869A (zh
Inventor
朱敬华
肖龙源
蔡振华
李稀敏
刘晓葳
谭玉坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Kuaishangtong Technology Co Ltd
Original Assignee
Xiamen Kuaishangtong Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Kuaishangtong Technology Co Ltd filed Critical Xiamen Kuaishangtong Technology Co Ltd
Priority to CN201710778236.1A priority Critical patent/CN107704869B/zh
Publication of CN107704869A publication Critical patent/CN107704869A/zh
Application granted granted Critical
Publication of CN107704869B publication Critical patent/CN107704869B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及计算机技术领域,提供了一种语料数据抽样方法,其特征在于,所述方法包含步骤:确定语料数据分类规则;基于所述分类规则,建立规则模型;基于所述规则模型对原始语料库中的语料数据进行分类;计算所述分类结果的准确率;根据所述准确率、目标抽样数据量确定实际抽样数量;根据所述实际抽样数量,从分类后的所述语料数据中抽取语料数据。通过语料数据抽样方法,可预先对原始语料库中的语料数据进行分类处理,并通过准确率的计算,来修正分类结果,从而使得实际的抽样数据量更贴近模型训练需求,在一定程度降低了由于语料数据类型偏差而引起的模型训练效果不佳的概率。此外,还提供一种模型训练方法。

Description

一种语料数据抽样方法及模型训练方法
技术领域
本发明关于计算机技术领域,尤其涉及一种语料数据抽样方法及模型训练方法。
背景技术
在人工智能相关的许多技术中,语料库与模型训练都必不可少,又密不可分。
语料库是经科学取样和加工的大规模电子文本库,它存放的材料是在语言的实际使用中真实出现过的语言材料,并经过提取和加工过的。设计好的模型需通过大量的语料库的学习、训练,才能实现模型的功能。模型对语料库的学习与训练决定了模型的准确性、公正性等效果,那么从语料库中获取的语料数据的客观性和完整性对模型训练的结果有着很重要的影响。
然而,由于语料库中数据的采集是从现实应用场景中提取出来的,考虑到存储容量有限等问题,每个语料库可能只针对有限的实际应用场景去采集语料数据,当然,也有根据模型训练需求,针对特定的场景去采集语料数据,总而言之,语料库中的语料数据是来自于真是的应用场景,例如客服系统、金融体系、法律体系等,如此一来,语料库中的语料数据可能会出现语义类型的偏向。
以从智能客服系统的语料数据来看,一般来说,智能客服系统的对话场景中不愉快的对话出现的频率较少,所以正向情感的数据至少占到95%以上,负向情感的数据则相对较少,那么基于该智能客服系统的采集构建的语料库中,正向情感的语料数据远大于负向情感的语料数据。
然而,在情感模型训练过程中,需要同时学习大量的正向情感数据样本和大量的负向情感数据样本,才能保证训练出来的模型在实际应用时其结果是准确的。如果直接进行从语料库中进行样本抽取,那么很可能抽取的数据中,正向情感的数据远远大于负向情感的数据,如此一来,由于对负向情感的数据训练不足,最终训练出来的模型结果就是对正向情感的数据判断较准确,而对负向情感的数据判断准确性较低,从而影响模型训练的效果。
发明内容
基于上述技术问题,本发明提供一种语料数据抽样方法,用于对原始语料库中的数据进行预先分类和处理,并根据处理结果进行最终样本数据的抽取,从而保证最终获取的样本数据类型符合模型训练的要求,所述语料数据抽样方法具体包含步骤:
确定语料数据分类规则;
基于所述分类规则,建立规则模型;
基于所述规则模型对原始语料库中的语料数据进行分类;
计算所述分类结果的准确率;
根据所述准确率、目标抽样数据量确定实际抽样数量;
根据所述实际抽样数量,从分类后的所述语料数据中抽取语料数据。
在一实施方式中,所述分类规则包括根据所述语料数据中包含的主题词或标注进行分类。
在一实施方式中,所述基于所述规则模型对原始语料库中的语料数据进行分类包含对所述原始语料库中的部分或全部的语料数据进行分类。
在一实施方式中,所述计算所述分类结果的准确率包含抽取部分所述分类结果,并对其进行检验和计算。
在一实施方式中,所述计算所述分类结果的准确率包含对所述分类结果中的各分类语料数据的分类准确率进行计算。
在一实施方式中,所述分类规则包含正向情感分类规则和负向情感分类规则。
在一实施方式中,所述确定实际抽样数量的方法包含根据下列方程式计算得出:
Figure GDA0002419786570000021
其中A、B为权值,C为常量,X1为正向情感语料数据的实际抽样数据量,X2为负向情感语料数据的实际抽样数据量,Z1和Z2分别为正向情感语料数据分类结果的准确率和负向情感语料数据分类结果的准确率,S1为正向情感语料数据的目标抽样数据量,T为目标抽样数据总量。
此外,本发明还提供一种模型训练方法,包含步骤:
确定所述模型训练所需的样本的数据类型及数量;
根据上述的语料数据抽样方法,获取所述样本;
基于所述样本进行模型训练。
在一实施方式中,所述样本的数据类型至少由两种组成。
在一实施方式中,所述确定语料数据分类规则包含根据所述样本的数据类型确定所述语料数据分类规则。
由此可见,本发明提供的语料数据抽样方法先基于规则模型对原始语料库中的数据进行分类,在对分类结果进行验证,最后根据验证得到的分类准确率和抽样数据量进行语料数据的抽取,通过这些处理,可在一定程度上提升语料数据抽样的准确度,更进一步的,根据模型训练的实际需求制定语料数据的分类规则,使得语料数据抽样的结果更符合实际模型训练的需求,从而提升模型训练结果的有效性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1绘示本发明一较佳实施例所提供的语料数据抽样方法流程图;
图2绘示本发明一较佳实施例所提供的模型训练方法流程图。
具体实施方式
为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
请参照图1,图1绘示本发明一较佳实施例所提供的语料数据抽样方法流程图。如图1所示,语料数据抽样方法具体包含以下步骤:
S101,确定语料数据分类规则。
由于原始语料库中的语料数据都是经过加工处理的,语料数据分类规则包括根据所述语料数据中包含的主题词或标注进行分类,具体的分类需求,可以是基于实际的需求来进行处理,例如,根据模型训练中对数据类型的需求,或者基于模型训练的数据类型需求根据原始语料库的采集场景所规划出的语料分类需求,本发明并不作限制。
本实施例中以情感类型为例来进行说明,其中,情感类型可具体包含正向情感和负向情感,那么分类规则就是基于正向情感和负向情感进行设定,例如,在语料数据中包含“高兴”、“愉快”等主题词,或者语料标注中包含“积极”、“热情”等描述的,则可被归类为正向情感。
S102,基于所述分类规则,建立规则模型。规则模型的设定中包含了分类规则及其他设置。
S103,基于所述规则模型对原始语料库中的语料数据进行分类。其中规则模型对原始语料库中的语料数据进行分类包含对原始语料库中的部分或全部的语料数据进行分类,具体可根据实际应用需求来确定。
S104,计算所述分类结果的准确率。
具体的,以情感类型为例,经过上述步骤S101至S103的处理之后,完成了对原始语料库中的语料数据的初步分类,正向情感数据和负向情感数据。接下来,分别对正向情感数据和负向情感数据的分类准确率进行计算,可以通过抽样校验的方式对部分数据进行验证,判断其是否被归属在正确的分类中,并根据验证结果分别进行准确率的计算,即,正向情感数据分类的准确率,以及负向情感数据分类的准确率。
S105,根据所述准确率、目标抽样数据量确定实际抽样数量。
其中,目标抽样数据量为模型训练时需求的样本数量,包含了样本总量,以及各分类数据的数量;实际抽样数据量为结合语料数据的实际情况,最终针对每种分类所抽取的语料数据量。本发明的实施例中,可基于该些数据,计算得出实际抽样数量。
在上述情感类型数据的示例中,可根据下列方程式计算得出实际抽样数据量:
Figure GDA0002419786570000031
其中A、B为权值,是可设置的常量,用于根据实际情况对结果进行修正,C为常量,具体可为正常的误差范围。
X1为正向情感语料数据的实际抽样数据量,X2为负向情感语料数据的实际抽样数据量,Z1和Z2分别为正向情感语料数据分类结果的准确率和负向情感语料数据分类结果的准确率,S1为正向情感语料数据的目标抽样数据量,T为目标抽样数据总量。
S106,根据所述实际抽样数量,从分类后的所述语料数据中抽取语料数据。
以下将通过一个具体的示例来对上述方法进行说明。
例如,若用于情感模型训练的目标抽样数据量为10000,其中,需要6000条正向情感数据和4000条负向情感数据,但原始语料库中的数据情感是未知的,且正向情感数据较多,所以随机抽样的数据显然不符合要求,故需要先对原始语料库进行处理。
首选利用规则模型对原始语料库中的数据进行分类,具体的,分类成正向情感数据和负向情感数据。
然后,分别从两类数据中各取一部分数据进行人工标记,验证其准确性,并计算出各自的准确率。其中,假设正向情感数据的准确性为90%(正向情感数据中的正向情感数据准确率),负向情感的准确性为60%(负向情感数据中的负向情感数据准确率)。
假设上述方程式中A、B取1,C取0,那么代入后计算可得到正向情感数据的实际抽样数据量X1=4000,负向情感数据的实际抽样数据量X2=6000.
那么实际抽样数量为从分类后的正向情感数据里抽取4000条,负向情感数据中抽取6000条。
值得注意的是,本实施例中以情感类型为例,是为了能更加清晰的对本发明的技术方案进行说明,本发明的分类方式并不限于此。
综上所述,通过本发明提供的语料数据抽样方法,可预先对原始语料库中的语料数据进行分类处理,并通过准确率的计算,来修正分类结果,从而使得实际的抽样数据量更贴近模型训练需求,在一定程度降低了由于语料数据类型偏差而引起的模型训练效果不佳的概率。
基于同样的发明构思,本发明还提供一种模型训练方法。
请参照图2,图2绘示本发明一较佳实施例所提供的模型训练方法流程图。如图2所示,模型训练方法包含步骤:
S201,确定所述模型训练所需的样本的数据类型及数量。其中,样本的数据类型即分类需求,至少由两种组成;样本的数量即目标抽样数据量包含了样本总量,以及各分类数据的数量。
S202,根据语料数据抽样方法,获取所述样本。其中语料数据抽样方法的具体内容可参见图1所示实施例中的描述。
在语料数据抽样方法中,确定语料数据分类规则包含根据样本的数据类型确定语料数据分类规则。
S203,基于所述样本进行模型训练。
在本发明提供的模型训练方法中,并不对训练模型作任何限制。通过语料数据抽样方法,可预先对原始语料库中的语料数据进行分类处理,并通过准确率的计算,来修正分类结果,从而使得实际的抽样数据量更贴近模型训练需求,在一定程度降低了由于语料数据类型偏差而引起的模型训练效果不佳的概率。
应当指出的是,以上所述仅是本发明的具体实施方式,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (7)

1.一种语料数据抽样方法,其特征在于,所述方法包含步骤:
确定语料数据分类规则;
基于所述分类规则,建立规则模型;
基于所述规则模型对原始语料库中的语料数据进行分类;
计算所述分类结果的准确率;
根据所述准确率、目标抽样数据量确定实际抽样数量;所述确定实际抽样数量的方法包含根据下列方程式计算得出:
Figure FDA0002468691460000011
其中A、B为权值,C为常量,X1为正向情感语料数据的实际抽样数据量,X2为负向情感语料数据的实际抽样数据量,Z1和Z2分别为正向情感语料数据分类结果的准确率和负向情感语料数据分类结果的准确率,S1为正向情感语料数据的目标抽样数据量,T为目标抽样数据总量;
根据所述实际抽样数量,从分类后的所述语料数据中抽取语料数据。
2.如权利要求1所述的语料数据抽样方法,其特征在于,所述分类规则包括根据所述语料数据中包含的主题词或标注进行分类。
3.如权利要求1所述的语料数据抽样方法,其特征在于,所述计算所述分类结果的准确率包含抽取部分所述分类结果,并对其进行检验和计算。
4.如权利要求1所述的语料数据抽样方法,其特征在于,所述计算所述分类结果的准确率包含对所述分类结果中的各分类语料数据的分类准确率进行计算。
5.一种语料模型训练方法,其特征在于,所述方法包含步骤:
确定所述模型训练所需的样本的数据类型及数量;
根据权利要求1至4中任一项所述的语料数据抽样方法,获取所述样本;
基于所述样本进行模型训练。
6.如权利要求5所述的语料模型训练方法,其特征在于,所述样本的数据类型至少由两种组成。
7.如权利要求5所述的语料模型训练方法,其特征在于,所述确定语料数据分类规则包含根据所述样本的数据类型确定所述语料数据分类规则。
CN201710778236.1A 2017-09-01 2017-09-01 一种语料数据抽样方法及模型训练方法 Active CN107704869B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710778236.1A CN107704869B (zh) 2017-09-01 2017-09-01 一种语料数据抽样方法及模型训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710778236.1A CN107704869B (zh) 2017-09-01 2017-09-01 一种语料数据抽样方法及模型训练方法

Publications (2)

Publication Number Publication Date
CN107704869A CN107704869A (zh) 2018-02-16
CN107704869B true CN107704869B (zh) 2020-09-18

Family

ID=61171404

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710778236.1A Active CN107704869B (zh) 2017-09-01 2017-09-01 一种语料数据抽样方法及模型训练方法

Country Status (1)

Country Link
CN (1) CN107704869B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109190034B (zh) * 2018-08-23 2019-12-13 北京百度网讯科技有限公司 用于获取信息的方法及装置
CN110008336B (zh) * 2019-01-14 2023-04-07 创新先进技术有限公司 一种基于深度学习的舆情预警方法及系统
CN110096519A (zh) * 2019-04-09 2019-08-06 北京中科智营科技发展有限公司 一种大数据分类规则的优化方法和装置
CN113268596A (zh) * 2021-05-24 2021-08-17 康键信息技术(深圳)有限公司 科室分类模型的验证方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105243394A (zh) * 2015-11-03 2016-01-13 中国矿业大学 一种类不平衡对分类模型性能影响程度的评价方法
CN105956179A (zh) * 2016-05-30 2016-09-21 上海智臻智能网络科技股份有限公司 数据过滤方法及装置
CN106021461A (zh) * 2016-05-17 2016-10-12 深圳市中润四方信息技术有限公司 一种文本分类的方法及文本分类系统
CN106782516A (zh) * 2016-11-17 2017-05-31 北京云知声信息技术有限公司 语料分类方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105243394A (zh) * 2015-11-03 2016-01-13 中国矿业大学 一种类不平衡对分类模型性能影响程度的评价方法
CN106021461A (zh) * 2016-05-17 2016-10-12 深圳市中润四方信息技术有限公司 一种文本分类的方法及文本分类系统
CN105956179A (zh) * 2016-05-30 2016-09-21 上海智臻智能网络科技股份有限公司 数据过滤方法及装置
CN106782516A (zh) * 2016-11-17 2017-05-31 北京云知声信息技术有限公司 语料分类方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Cluster-based under-sampling approaches for imbalanced data distrbutions;Show-Jane Yen等;《Expert Systems with Applications》;20090430;第36卷(第3期);第5718-5727页 *
一种基于不平衡数据的聚类抽样方法;朱亚奇等;《南京大学学报(自然科学)》;20150331;第51卷(第2期);第421-429页 *
细粒度情感分析研究;施寒潇;《中国博士学位论文全文数据库-信息科技辑》;20130915(第09期);第I138-36页:摘要,正文第63页 *

Also Published As

Publication number Publication date
CN107704869A (zh) 2018-02-16

Similar Documents

Publication Publication Date Title
CN109522556B (zh) 一种意图识别方法及装置
CN108073568B (zh) 关键词提取方法和装置
WO2018032937A1 (zh) 一种文本信息分类方法及其装置
CN107704869B (zh) 一种语料数据抽样方法及模型训练方法
CN109872162B (zh) 一种处理用户投诉信息的风控分类识别方法及系统
CN111309912A (zh) 文本分类方法、装置、计算机设备及存储介质
CN103336766A (zh) 短文本垃圾识别以及建模方法和装置
CN108027814B (zh) 停用词识别方法与装置
CN110210028A (zh) 针对语音转译文本的领域特征词提取方法、装置、设备及介质
CN111125354A (zh) 文本分类方法及装置
CN110083832B (zh) 文章转载关系的识别方法、装置、设备及可读存储介质
CN104216876A (zh) 信息文本过滤方法及系统
CN110263854A (zh) 直播标签确定方法、装置及存储介质
CN108052509A (zh) 一种文本相似度计算方法、装置及服务器
CN109800309A (zh) 课堂话语类型分类方法及装置
CN105389303B (zh) 一种异源语料自动融合方法
CN110738046A (zh) 观点抽取方法及装置
CN115359799A (zh) 语音识别方法、训练方法、装置、电子设备及存储介质
CN112700763A (zh) 语音标注质量评价方法、装置、设备及存储介质
CN111736804A (zh) 一种基于用户评论识别App关键功能的方法及装置
CN110532449A (zh) 一种业务文档的处理方法、装置、设备和存储介质
CN110750626A (zh) 一种基于场景的任务驱动的多轮对话方法及系统
CN105786929B (zh) 一种信息监测方法及装置
CN108073567A (zh) 一种特征词提取处理方法、系统及服务器
CN116070642A (zh) 一种基于表情嵌入的文本情感分析方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant