CN114003724A - 一种样本筛选方法、装置及电子设备 - Google Patents

一种样本筛选方法、装置及电子设备 Download PDF

Info

Publication number
CN114003724A
CN114003724A CN202111637761.4A CN202111637761A CN114003724A CN 114003724 A CN114003724 A CN 114003724A CN 202111637761 A CN202111637761 A CN 202111637761A CN 114003724 A CN114003724 A CN 114003724A
Authority
CN
China
Prior art keywords
sample
positive
subclass
subclasses
screening
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111637761.4A
Other languages
English (en)
Other versions
CN114003724B (zh
Inventor
杨馥临
张献涛
林小俊
支涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yunji Technology Co Ltd
Original Assignee
Beijing Yunji Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yunji Technology Co Ltd filed Critical Beijing Yunji Technology Co Ltd
Priority to CN202111637761.4A priority Critical patent/CN114003724B/zh
Publication of CN114003724A publication Critical patent/CN114003724A/zh
Application granted granted Critical
Publication of CN114003724B publication Critical patent/CN114003724B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种样本筛选方法、装置及电子设备,其中该方法包括:对文本语料进行聚类得到k个大类;根据两两小类之间的相似度对每一个大类中任意一个小类进行样本筛选得到相应小类的正样本和负样本;按照预设的正负样本比例对正样本和负样本进行训练得到初始样本二分类模型及相应的F1值;根据F1值确定小类的最优正负样本比例。本发明通过利用小类之间的相似度对小类进行样本筛选得到相应小类的正负样本,并对相应小类的正负样本进行训练得到F1值,最后基于F1值确定小类的最优正负样本比例,可以大大提高后续文本意图类别的二分类模型的识别精度。

Description

一种样本筛选方法、装置及电子设备
技术领域
本发明涉及样本筛选技术领域,具体而言,涉及一种样本筛选方法、装置、电子设备及计算机可读存储介质。
背景技术
随着自然语言技术的不断发展,智能音箱,智能机器人,语音助手,自动客服等越来越多的智能问答系统在生活中发挥越来越重要作用。在智能问答场景中,分为任务型对话,问答型对话,闲聊型对话,涵盖这些业务场景的意图有很多种类型,所以需要训练超多类别的意图分类模型,完成对客户回复内容的意图识别。现有对意图分类模型识别精度的提升仅仅是扩大训练样本的数据量,但是单方面扩大数据量会导致数据分布不均衡,不能大幅度提升意图分类模型的识别精度。因此如何快速筛选出一个可以训练出较高性能的意图分类模型的数据集,是当前需要解决的问题。
发明内容
为解决上述问题,本发明实施例的目的在于提供一种样本筛选方法、装置、电子设备及计算机可读存储介质。
一种样本筛选方法,包括:
步骤1:获取文本语料;
步骤2:对所述文本语料进行聚类得到k个大类;所述k个大类中的每个大类包括一个或多个小类;所述小类为相应文本语料所属的文本意图类别;
步骤3:根据两两小类之间的相似度对每一个大类中任意一个小类进行样本筛选得到相应小类的正样本和负样本;
步骤4:按照预设的正负样本比例对所述正样本和所述负样本进行训练得到初始样本二分类模型及相应的F1值;
步骤5:根据所述F1值确定所述小类的最优正负样本比例;
步骤6:返回所述步骤3直到确定每个大类中相应小类的最优正负样本比例;
步骤7:根据每个大类中相应小类的最优正负样本比例筛选出所有文本意图类别的正负样本集,对所述正负样本集进行训练得到相应文本意图类别的二分类模型。
优选的,所述步骤3:根据所述相似度对每一个大类中任意一个小类进行样本筛选得到相应小类的正样本和负样本,包括:
步骤3.1:对所述小类进行预处理得到正样本;
步骤3.2:判断所述小类是否与其他小类在同一个大类中;
步骤3.3:若所述小类与所述其他小类在同一个大类中,则利用相似度权重公式确定所述其他小类的样本抽取权重;
步骤3.4:若所述小类与所述其他小类不在同一个大类中,则将所述其他小类的样本抽取权重设定为预设值;
步骤3.5:根据所述样本抽取权重抽取相应其他小类中的文本语料,并将所述其他小类中的文本语料作为负样本。
优选的,所述相似度权重公式为:
Figure 100002_DEST_PATH_IMAGE002
;其中,b表示其他小类b的样本抽取权重,
Figure 100002_DEST_PATH_IMAGE004
表示其他小类b与小类a之间的相似度,所述小类a为每一个大类中任意一小类。
优选的,所述步骤5:根据所述F1值确定所述小类的最优正负样本比例,包括:
步骤5.1:将预设的正负样本比例作为x轴数据,将所述F1值作为y轴数据构建平面直角坐标系;
步骤5.2:对所述平面直角坐标系上的点进行拟合得到样本筛选曲线;
步骤5.3:根据所述样本筛选曲线上的斜率确定最优正负样本比例。
优选的,步骤5.3:根据所述样本筛选曲线上的斜率确定最优正负样本比例,包括:
获取所述样本筛选曲线上的斜率值小于预设斜率的点,根据所述点的横坐标确定最优正负样本比例。
本发明还提供了一种样本筛选装置,包括:
文本语料获取模块,用于获取文本语料;
聚类模块,用于对所述文本语料进行聚类得到k个大类;所述k个大类中的每个大类包括一个或多个小类;所述小类为相应文本语料所属的文本意图类别;
样本预筛选模块,用于根据两两小类之间的相似度对每一个大类中任意一个小类进行样本筛选得到相应小类的正样本和负样本;
样本预训练模块,用于按照预设的正负样本比例对所述正样本和所述负样本进行训练得到初始样本二分类模型及相应的F1值;
最优正负样本比例确定模块,用于根据所述F1值确定所述小类的最优正负样本比例;
返回模块,用于返回所述样本预筛选模块直到确定每个大类中相应小类的最优正负样本比例;
最优正负样本集筛选模块,用于根据每个大类中相应小类的最优正负样本比例筛选出所有文本意图类别的正负样本集,对所述正负样本集进行训练得到相应文本意图类别的二分类模型。
优选的,所述样本预训练模块,包括:
正样本筛选单元,用于对所述小类进行预处理得到正样本;
类别判断单元,用于判断所述小类是否与其他小类在同一个大类中;
第一判断结果生成单元,用于若所述小类与所述其他小类在同一个大类中,则利用相似度权重公式确定所述其他小类的样本抽取权重;
第二判断结果生成单元,用于若所述小类与所述其他小类不在同一个大类中,则将所述其他小类的样本抽取权重设定为预设值;
负样本筛选单元,用于根据所述样本抽取权重抽取相应其他小类中的文本语料,并将所述其他小类中的文本语料作为负样本。
优选的,所述最优正负样本比例确定模块,包括:
坐标系构建单元,用于将预设的正负样本比例作为x轴数据,将所述F1值作为y轴数据构建平面直角坐标系;
曲线拟合单元,用于对所述平面直角坐标系上的点进行拟合得到样本筛选曲线;
最优正负样本比例确定单元,用于根据所述样本筛选曲线上的斜率确定最优正负样本比例。
本发明还提供了一种电子设备,包括总线、收发器、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述收发器、所述存储器和所述处理器通过所述总线相连,所述计算机程序被所述处理器执行时实现上述任一项所述的一种样本筛选方法中的步骤。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的一种样本筛选方法中的步骤。
本发明提供的一种样本筛选方法、装置、电子设备及计算机可读存储介质的有益效果在于:与现有技术相比,本发明通过利用小类之间的相似度对小类进行样本筛选得到相应小类的正负样本,并对相应小类的正负样本进行训练得到F1值,最后基于F1值确定小类的最优正负样本比例,可以大大提高后续文本意图类别的二分类模型的识别精度。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明实施例所提供的一种样本筛选方法流程图;
图2示出了本发明实施例所提供的第一最优正负样本比例确定示意图;
图3示出了本发明实施例所提供的第二最优正负样本比例确定示意图;
图4示出了本发明实施例所提供的一种用于执行一种样本筛选方法的电子设备的结构示意图。
具体实施方式
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
本发明实施例的目的在于提供一种样本筛选方法、装置、电子设备及计算机可读存储介质,以解决现有意图分类模型识别精度低的问题。
请参阅图1,一种样本筛选方法,包括以下步骤:
S1:获取文本语料;
在实际应用中,本发明需要获取多分类文本语料,并对其进行标注得到标注好的多分类文本语料。标注好的多分类文本语料可以采用人工标注,也可以采用规则模版标注并用人工辅助标注的方法得到。本发明还可以根据实际需求,将开源的文本语料数据作为补充加到总的文本语料中,以平衡一些数据量特别少的样本。将所有的标注好的多分类文本语料进行汇总后作为基础数据源,记作
Figure DEST_PATH_IMAGE006
,每条数据可以表示为{id,content,label},其中id表示句子序号,content表示句子文本内容,label表示文本意图类别。
在得到基础数据源之后本发明还需要将多分类任务拆分为多个二分类任务,即对每个类别的数据进行逐一处理,新增一个二分类的label2,记为{id,content,label,label2},若label=该类别,则label2=Y,若label!=该类别,则label2=N。例如:训练送物意图的二分类模型,中的两条数据为:{1,’给我送一瓶瓶装水’,送物}、{1,’我需要维修一下电视’,维修},经过上述处理过程数据会变成:{1,’给我送一瓶瓶装水’,送物,Y}、{1,’我需要维修一下电视’,维修,N}。
S2:对文本语料进行聚类得到k个大类;k个大类中的每个大类包括一个或多个小类;小类为相应文本语料所属的文本意图类别;
进一步的,本发明需要对标注好的文本语料做聚类处理,将数据特征相近的类别聚在一起,聚类方法可以使用k-means等聚类方法,聚出k类。
S3:根据两两小类之间的相似度对每一个大类中任意一个小类进行样本筛选得到相应小类的正样本和负样本;
进一步的,S3具体包括:
S3.1:对小类进行预处理得到正样本;
S3.2:判断小类是否与其他小类在同一个大类中;
S3.3:若小类与其他小类在同一个大类中,则利用相似度权重公式确定其他小类的样本抽取权重;
S3.4:若小类与其他小类不在同一个大类中,则将其他小类的样本抽取权重设定为预设值;
S3.5:根据样本抽取权重抽取相应其他小类中的文本语料,并将其他小类中的文本语料作为负样本。
下面结合具体的实施例对本发明的样本筛选步骤做进一步的说明:
本实施例使用k-means聚类方法,聚出k个大类,记作
Figure DEST_PATH_IMAGE008
,从每一大类中,随机选出一小类
Figure DEST_PATH_IMAGE010
,做优先处理。
针对小类
Figure 37533DEST_PATH_IMAGE010
,且小类a中包含的数据量为s,其正样本筛选方法为:判断s条数据是否满足训练要求,若数据量太小,可做数据增强扩充数据量,若数据量太大,可以对其进行下采样减少数据量。处理后的小类a正样本为m条,记作
Figure DEST_PATH_IMAGE012
小类a的负样本筛选方法为:
1.计算K类下的两两小类之间的相似度sim。总类别中,除去小类a的每一个类别,做如下处理:
① 若类别b与小类a在同一大类中,即
Figure DEST_PATH_IMAGE014
,且a与b的相似度为
Figure 16990DEST_PATH_IMAGE004
,则利用相似度权重公式计算b类别的权重,
Figure DEST_PATH_IMAGE016
,由上述公式可知,由50%起,每增加10%,则b的权重增加1。例如a与b的相似度为75%,则权重占3。
② 若类别b与小类a不在同一大类中,即
Figure DEST_PATH_IMAGE018
,则b的样本抽取权重=1(也可以为其它预设值,本发明对此不作限定)。
2.重复上述过程得到除小类a之外的所有其他小类的样本抽取权重,按照该比例从除a外的总样本中抽取,得到负样本,记作
Figure DEST_PATH_IMAGE020
S4:按照预设的正负样本比例对正样本和负样本进行训练得到初始样本二分类模型及相应的F1值;
在本实施例中,可按由1:1到1:n的比例分别对正负样本进行筛选,例如小类a的数据为m条,则负样本从中随机筛选n*m条。进一步的,在对筛选好的正负样本进行训练时,需要将Label2作为类别标签,进行训练得到n个模型,基于n个模型可得到n个Y的F1(F1Score)结果。
对于超多类的意图识别(大于20类),随着正负样本比例的增大,识别模型的F1值变化较小,而Y的F1值变化较明显,因此本发明使用Y的F1值的变化情况,来衡量识别模型的性能。
S5:根据F1值确定小类的最优正负样本比例;
在本发明中,S5具体包括:
S5.1:将预设的正负样本比例作为x轴数据,将F1值作为y轴数据构建平面直角坐标系;
S5.2:对平面直角坐标系上的点进行拟合得到样本筛选曲线;
需要说明的是,本发明可以用matlab,excel等工具来拟合得到样本筛选曲线。
S5.3:根据样本筛选曲线上的斜率确定最优正负样本比例。具体的,获取样本筛选曲线上的斜率值小于预设斜率的点,根据点的横坐标确定最优正负样本比例。
在本实施例中,可将预设斜率设定为0.01。即本发明需要找到曲线上切线斜率<0.01对应点的横坐标来确定最优正负样本比例,并用该比例进行正负样本筛选,可使Y的F1值最优。例如图2、图3所示,当正负样本比例数<=模型类别数时,Y的F1值成对数增长,即随着正负样本比例的增大,Y的F1值先增大,而后稳定在一定范围内,当切线斜率<0.01时,正负样本比例为1:5,此时,模型训练效果最优。
S6:返回S3直到确定每个大类中相应小类的最优正负样本比例;
S7:根据每个大类中相应小类的最优正负样本比例筛选出所有文本意图类别的正负样本集,对正负样本集进行训练得到相应文本意图类别的二分类模型。
由于在k个大类中,每一大类都有一小类被优先处理过,并且得到了相应小类的最优正负样本比例。因此可将该小类的最优正负样本比例应用于其他小类中,即同属于一个大类Q下的其他小类的最优正负样本比例均在同一范围内上下浮动,比例浮动不超过2,例如:K类下的其他小类的正负样本比例在
Figure DEST_PATH_IMAGE022
时,模型效果最优。因此本发明通过少量的训练,就可以快速找到模型最优的正负样本比例。
本发明通过利用小类之间的相似度对小类进行样本筛选得到相应小类的正负样本,并对相应小类的正负样本进行训练得到F1值,最后基于F1值确定小类的最优正负样本比例,可以大大提高后续文本意图类别的二分类模型的识别精度。
本发明还提供了一种样本筛选装置,包括:
文本语料获取模块,用于获取文本语料;
聚类模块,用于对文本语料进行聚类得到k个大类;k个大类中的每个大类包括一个或多个小类;小类为相应文本语料所属的文本意图类别;
样本预筛选模块,用于根据两两小类之间的相似度对每一个大类中任意一个小类进行样本筛选得到相应小类的正样本和负样本;
样本预训练模块,用于按照预设的正负样本比例对正样本和负样本进行训练得到初始样本二分类模型及相应的F1值;
最优正负样本比例确定模块,用于根据F1值确定小类的最优正负样本比例;
返回模块,用于返回样本预筛选模块直到确定每个大类中相应小类的最优正负样本比例;
最优正负样本集筛选模块,用于根据每个大类中相应小类的最优正负样本比例筛选出所有文本意图类别的正负样本集,对正负样本集进行训练得到相应文本意图类别的二分类模型。
优选的,样本预训练模块,包括:
正样本筛选单元,用于对小类进行预处理得到正样本;
类别判断单元,用于判断小类是否与其他小类在同一个大类中;
第一判断结果生成单元,用于若小类与其他小类在同一个大类中,则利用相似度权重公式确定其他小类的样本抽取权重;
第二判断结果生成单元,用于若小类与其他小类不在同一个大类中,则将其他小类的样本抽取权重设定为预设值;
负样本筛选单元,用于根据样本抽取权重抽取相应其他小类中的文本语料,并将其他小类中的文本语料作为负样本。
优选的,最优正负样本比例确定模块,包括:
坐标系构建单元,用于将预设的正负样本比例作为x轴数据,将F1值作为y轴数据构建平面直角坐标系;
曲线拟合单元,用于对平面直角坐标系上的点进行拟合得到样本筛选曲线;
最优正负样本比例确定单元,用于根据样本筛选曲线上的斜率确定最优正负样本比例。
本发明提供的一种样本筛选方法与装置的有益效果在于:与现有技术相比,本发明通过利用小类之间的相似度对小类进行样本筛选得到相应小类的正负样本,并对相应小类的正负样本进行训练得到F1值,最后基于F1值确定小类的最优正负样本比例,可以大大提高后续文本意图类别的二分类模型的识别精度。
此外,本发明实施例还提供了一种电子设备,包括总线、收发器、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该收发器、该存储器和处理器分别通过总线相连,计算机程序被处理器执行时实现上述一种样本筛选方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
具体的,参见图4所示,本发明实施例还提供了一种电子设备,该电子设备包括总线1110、处理器1120、收发器1130、总线接口1140、存储器1150和用户接口1160。
在本发明实施例中,该电子设备还包括:存储在存储器1150上并可在处理器1120上运行的计算机程序,计算机程序被处理器1120执行时实现上述一种样本筛选方法实施例的各个过程。
收发器1130,用于在处理器1120的控制下接收和发送数据。
本发明实施例中,总线架构(用总线1110来代表),总线1110可以包括任意数量互联的总线和桥,总线1110将包括由处理器1120代表的一个或多个处理器与存储器1150代表的存储器的各种电路连接在一起。
总线1110表示若干类型的总线结构中的任何一种总线结构中的一个或多个,包括存储器总线以及存储器控制器、外围总线、加速图形端口(Accelerate Graphical Port,AGP)、处理器或使用各种总线体系结构中的任意总线结构的局域总线。作为示例而非限制,这样的体系结构包括:工业标准体系结构(Industry Standard Architecture,ISA)总线、微通道体系结构(Micro Channel Architecture,MCA)总线、扩展ISA(Enhanced ISA,EISA)总线、视频电子标准协会(Video Electronics Standards Association,VESA)、外围部件互连(Peripheral Component Interconnect,PCI)总线。
处理器1120可以是一种集成电路芯片,具有信号处理能力。在实现过程中,上述方法实施例的各步骤可以通过处理器中硬件的集成逻辑电路或软件形式的指令完成。上述的处理器包括:通用处理器、中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(FieldProgrammable Gate Array,FPGA)、复杂可编程逻辑器件(Complex ProgrammableLogicDevice,CPLD)、可编程逻辑阵列(Programmable Logic Array,PLA)、微控制单元(Microcontroller Unit,MCU)或其他可编程逻辑器件、分立门、晶体管逻辑器件、分立硬件组件。可以实现或执行本发明实施例中公开的各方法、步骤及逻辑框图。例如,处理器可以是单核处理器或多核处理器,处理器可以集成于单颗芯片或位于多颗不同的芯片。
处理器1120可以是微处理器或任何常规的处理器。结合本发明实施例所公开的方法步骤可以直接由硬件译码处理器执行完成,或者由译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存取存储器(Random Access Memory,RAM)、闪存(FlashMemory)、只读存储器(Read-Only Memory,ROM)、可编程只读存储器(ProgrammableROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、寄存器等本领域公知的可读存储介质中。所述可读存储介质位于存储器中,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
总线1110还可以将,例如外围设备、稳压器或功率管理电路等各种其他电路连接在一起,总线接口1140在总线1110和收发器1130之间提供接口,这些都是本领域所公知的。因此,本发明实施例不再对其进行进一步描述。
收发器1130可以是一个元件,也可以是多个元件,例如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。例如:收发器1130从其他设备接收外部数据,收发器1130用于将处理器1120处理后的数据发送给其他设备。取决于计算机系统的性质,还可以提供用户接口1160,例如:触摸屏、物理键盘、显示器、鼠标、扬声器、麦克风、轨迹球、操纵杆、触控笔。
应理解,在本发明实施例中,存储器1150可进一步包括相对于处理器1120远程设置的存储器,这些远程设置的存储器可以通过网络连接至服务器。上述网络的一个或多个部分可以是自组织网络(ad hoc network)、内联网(intranet)、外联网(extranet)、虚拟专用网(VPN)、局域网(LAN)、无线局域网(WLAN)、广域网(WAN)、无线广域网(WWAN)、城域网(MAN)、互联网(Internet)、公共交换电话网(PSTN)、普通老式电话业务网(POTS)、蜂窝电话网、无线网络、无线保真(Wi-Fi)网络以及两个或更多个上述网络的组合。例如,蜂窝电话网和无线网络可以是全球移动通信(GSM)系统、码分多址(CDMA)系统、全球微波互联接入(WiMAX)系统、通用分组无线业务(GPRS)系统、宽带码分多址(WCDMA)系统、长期演进(LTE)系统、LTE频分双工(FDD)系统、LTE时分双工(TDD)系统、先进长期演进(LTE-A)系统、通用移动通信(UMTS)系统、增强移动宽带(Enhance Mobile Broadband,eMBB)系统、海量机器类通信(massive Machine Type of Communication,mMTC)系统、超可靠低时延通信(UltraReliable Low Latency Communications,uRLLC)系统等。
应理解,本发明实施例中的存储器1150可以是易失性存储器或非易失性存储器,或可包括易失性存储器和非易失性存储器两者。其中,非易失性存储器包括:只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存(Flash Memory)。
易失性存储器包括:随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如:静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double DataRateSDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM,DRRAM)。本发明实施例描述的电子设备的存储器1150包括但不限于上述和任意其他适合类型的存储器。
在本发明实施例中,存储器1150存储了操作系统1151和应用程序1152的如下元素:可执行模块、数据结构,或者其子集,或者其扩展集。
具体而言,操作系统1151包含各种系统程序,例如:框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序1152包含各种应用程序,例如:媒体播放器(Media Player)、浏览器(Browser),用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序1152中。应用程序1152包括:小程序、对象、组件、逻辑、数据结构以及其他执行特定任务或实现特定抽象数据类型的计算机系统可执行指令。
此外,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述一种样本筛选方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
计算机可读存储介质包括:永久性和非永久性、可移动和非可移动媒体,是可以保留和存储供指令执行设备所使用指令的有形设备。计算机可读存储介质包括:电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备以及上述任意合适的组合。计算机可读存储介质包括:相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、非易失性随机存取存储器(NVRAM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带存储、磁带磁盘存储或其他磁性存储设备、记忆棒、机械编码装置(例如在其上记录有指令的凹槽中的穿孔卡或凸起结构)或任何其他非传输介质、可用于存储可以被计算设备访问的信息。按照本发明实施例中的界定,计算机可读存储介质不包括暂时信号本身,例如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如穿过光纤电缆的光脉冲)或通过导线传输的电信号。
在本申请所提供的几个实施例中,应该理解到,所披露的装置、电子设备和方法,可以通过其他的方式实现。例如,以上描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的、机械的或其他的形式连接。
所述作为分离部件说明的单元可以是或也可以不是物理上分开的,作为单元显示的部件可以是或也可以不是物理单元,既可以位于一个位置,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或全部单元来解决本发明实施例方案要解决的问题。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术作出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(包括:个人计算机、服务器、数据中心或其他网络设备)执行本发明各个实施例所述方法的全部或部分步骤。而上述存储介质包括如前述所列举的各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换的技术方案,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种样本筛选方法,其特征在于,包括:
步骤1:获取文本语料;
步骤2:对所述文本语料进行聚类得到k个大类;所述k个大类中的每个大类包括一个或多个小类;所述小类为相应文本语料所属的文本意图类别;
步骤3:根据两两小类之间的相似度对每一个大类中任意一个小类进行样本筛选得到相应小类的正样本和负样本;
步骤4:按照预设的正负样本比例对所述正样本和所述负样本进行训练得到初始样本二分类模型及相应的F1值;
步骤5:根据所述F1值确定所述小类的最优正负样本比例;
步骤6:返回所述步骤3直到确定每个大类中相应小类的最优正负样本比例;
步骤7:根据每个大类中相应小类的最优正负样本比例筛选出所有文本意图类别的正负样本集,对所述正负样本集进行训练得到相应文本意图类别的二分类模型。
2.根据权利要求1所述的一种样本筛选方法,其特征在于,所述步骤3:根据所述相似度对每一个大类中任意一个小类进行样本筛选得到相应小类的正样本和负样本,包括:
步骤3.1:对所述小类进行预处理得到正样本;
步骤3.2:判断所述小类是否与其他小类在同一个大类中;
步骤3.3:若所述小类与所述其他小类在同一个大类中,则利用相似度权重公式确定所述其他小类的样本抽取权重;
步骤3.4:若所述小类与所述其他小类不在同一个大类中,则将所述其他小类的样本抽取权重设定为预设值;
步骤3.5:根据所述样本抽取权重抽取相应其他小类中的文本语料,并将所述其他小类中的文本语料作为负样本。
3.根据权利要求2所述的一种样本筛选方法,其特征在于,所述相似度权重公式为:
Figure DEST_PATH_IMAGE002
;其中,b表示其他小类b的样本抽取权重,
Figure DEST_PATH_IMAGE004
表示其他小类b与小类a之间的相似度,所述小类a为每一个大类中任意一小类。
4.根据权利要求1所述的一种样本筛选方法,其特征在于,所述步骤5:根据所述F1值确定所述小类的最优正负样本比例,包括:
步骤5.1:将预设的正负样本比例作为x轴数据,将所述F1值作为y轴数据构建平面直角坐标系;
步骤5.2:对所述平面直角坐标系上的点进行拟合得到样本筛选曲线;
步骤5.3:根据所述样本筛选曲线上的斜率确定最优正负样本比例。
5.根据权利要求4所述的一种样本筛选方法,其特征在于,所述步骤5.3:根据所述样本筛选曲线上的斜率确定最优正负样本比例,包括:
获取所述样本筛选曲线上的斜率值小于预设斜率的点,根据所述点的横坐标确定最优正负样本比例。
6.一种样本筛选装置,其特征在于,包括:
文本语料获取模块,用于获取文本语料;
聚类模块,用于对所述文本语料进行聚类得到k个大类;所述k个大类中的每个大类包括一个或多个小类;所述小类为相应文本语料所属的文本意图类别;
样本预筛选模块,用于根据两两小类之间的相似度对每一个大类中任意一个小类进行样本筛选得到相应小类的正样本和负样本;
样本预训练模块,用于按照预设的正负样本比例对所述正样本和所述负样本进行训练得到初始样本二分类模型及相应的F1值;
最优正负样本比例确定模块,用于根据所述F1值确定所述小类的最优正负样本比例;
返回模块,用于返回所述样本预筛选模块直到确定每个大类中相应小类的最优正负样本比例;
最优正负样本集筛选模块,用于根据每个大类中相应小类的最优正负样本比例筛选出所有文本意图类别的正负样本集,对所述正负样本集进行训练得到相应文本意图类别的二分类模型。
7.根据权利要求6所述的一种样本筛选装置,其特征在于,所述样本预训练模块,包括:
正样本筛选单元,用于对所述小类进行预处理得到正样本;
类别判断单元,用于判断所述小类是否与其他小类在同一个大类中;
第一判断结果生成单元,用于若所述小类与所述其他小类在同一个大类中,则利用相似度权重公式确定所述其他小类的样本抽取权重;
第二判断结果生成单元,用于若所述小类与所述其他小类不在同一个大类中,则将所述其他小类的样本抽取权重设定为预设值;
负样本筛选单元,用于根据所述样本抽取权重抽取相应其他小类中的文本语料,并将所述其他小类中的文本语料作为负样本。
8.根据权利要求6所述的一种样本筛选装置,其特征在于,所述最优正负样本比例确定模块,包括:
坐标系构建单元,用于将预设的正负样本比例作为x轴数据,将所述F1值作为y轴数据构建平面直角坐标系;
曲线拟合单元,用于对所述平面直角坐标系上的点进行拟合得到样本筛选曲线;
最优正负样本比例确定单元,用于根据所述样本筛选曲线上的斜率确定最优正负样本比例。
9.一种电子设备,包括总线、收发器、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述收发器、所述存储器和所述处理器通过所述总线相连,其特征在于,所述计算机程序被所述处理器执行时实现如权利要求1至5中任一项所述的一种样本筛选方法中的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的一种样本筛选方法中的步骤。
CN202111637761.4A 2021-12-30 2021-12-30 一种样本筛选方法、装置及电子设备 Active CN114003724B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111637761.4A CN114003724B (zh) 2021-12-30 2021-12-30 一种样本筛选方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111637761.4A CN114003724B (zh) 2021-12-30 2021-12-30 一种样本筛选方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN114003724A true CN114003724A (zh) 2022-02-01
CN114003724B CN114003724B (zh) 2022-03-25

Family

ID=79932218

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111637761.4A Active CN114003724B (zh) 2021-12-30 2021-12-30 一种样本筛选方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN114003724B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116361671A (zh) * 2023-06-01 2023-06-30 浪潮通用软件有限公司 一种基于后校正的高熵knn聚类方法、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110457481A (zh) * 2019-08-20 2019-11-15 腾讯科技(深圳)有限公司 一种分类模型训练的方法、装置、设备以及存储介质
CN110738527A (zh) * 2019-10-17 2020-01-31 中国建设银行股份有限公司 一种特征重要性排序方法、装置、设备和存储介质
US20200081908A1 (en) * 2018-09-10 2020-03-12 Baidu Online Network Technology (Beijing) Co., Ltd. Internet text mining-based method and apparatus for judging validity of point of interest
CN111198938A (zh) * 2019-12-26 2020-05-26 深圳市优必选科技股份有限公司 一种样本数据处理方法、样本数据处理装置及电子设备
CN112148877A (zh) * 2020-09-23 2020-12-29 网易(杭州)网络有限公司 语料文本的处理方法、装置及电子设备
CN113537510A (zh) * 2021-07-13 2021-10-22 中国工商银行股份有限公司 基于不均衡数据集的机器学习模型数据处理方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200081908A1 (en) * 2018-09-10 2020-03-12 Baidu Online Network Technology (Beijing) Co., Ltd. Internet text mining-based method and apparatus for judging validity of point of interest
CN110457481A (zh) * 2019-08-20 2019-11-15 腾讯科技(深圳)有限公司 一种分类模型训练的方法、装置、设备以及存储介质
CN110738527A (zh) * 2019-10-17 2020-01-31 中国建设银行股份有限公司 一种特征重要性排序方法、装置、设备和存储介质
CN111198938A (zh) * 2019-12-26 2020-05-26 深圳市优必选科技股份有限公司 一种样本数据处理方法、样本数据处理装置及电子设备
CN112148877A (zh) * 2020-09-23 2020-12-29 网易(杭州)网络有限公司 语料文本的处理方法、装置及电子设备
CN113537510A (zh) * 2021-07-13 2021-10-22 中国工商银行股份有限公司 基于不均衡数据集的机器学习模型数据处理方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
傅红普等: "AdaBoost分类器的一种快速训练方法", 《云南大学学报(自然科学版)》 *
申端明 等: "梯度渐进回归树算法在电子商务品牌推荐中的应用", 《计算机系统应用》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116361671A (zh) * 2023-06-01 2023-06-30 浪潮通用软件有限公司 一种基于后校正的高熵knn聚类方法、设备及介质
CN116361671B (zh) * 2023-06-01 2023-08-22 浪潮通用软件有限公司 一种基于后校正的高熵knn聚类方法、设备及介质

Also Published As

Publication number Publication date
CN114003724B (zh) 2022-03-25

Similar Documents

Publication Publication Date Title
US10332507B2 (en) Method and device for waking up via speech based on artificial intelligence
US10984793B2 (en) Voice interaction method and device
CN109284502B (zh) 一种文本相似度计算方法、装置、电子设备及存储介质
US20170193987A1 (en) Speech recognition method and device
CN112784112B (zh) 报文校验方法及装置
CN114003724B (zh) 一种样本筛选方法、装置及电子设备
CN113342968A (zh) 文本摘要提取方法及装置
US20230102804A1 (en) Method of rectifying text image, training method, electronic device, and medium
US10997966B2 (en) Voice recognition method, device and computer storage medium
CN115473841A (zh) 网络路径的确定方法、装置及存储介质
CN111737978A (zh) 一种购物评价情感分析的方法、装置及电子设备
CN111091001B (zh) 一种词语的词向量的生成方法、装置及设备
CN110716767A (zh) 模型组件调用、生成方法、装置和存储介质
CN112330408A (zh) 一种产品推荐方法、装置及电子设备
CN112862095A (zh) 基于特征分析的自蒸馏学习方法、设备以及可读存储介质
CN111523322A (zh) 需求文档质量评价模型训练方法及需求文档质量评价方法
CN110852066B (zh) 一种基于对抗训练机制的多语言实体关系抽取方法及系统
CN111179129A (zh) 课件质量的评价方法、装置、服务器及存储介质
CN113688938B (zh) 确定对象情感的方法、训练情感分类模型的方法及装置
CN111104951A (zh) 一种主动学习方法、装置及终端设备
CN114048349A (zh) 一种推荐视频封面的方法、装置及电子设备
CN113342981A (zh) 一种基于机器学习的需求文档分类方法及装置
CN111324732B (zh) 模型训练方法、文本处理方法、装置及电子设备
CN113255334A (zh) 一种计算字向量方法、系统、电子设备及存储介质
CN112863486A (zh) 一种基于音素的口语评测方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: Room 702, 7th floor, NO.67, Beisihuan West Road, Haidian District, Beijing 100080

Applicant after: Beijing Yunji Technology Co.,Ltd.

Address before: Room 702, 7th floor, NO.67, Beisihuan West Road, Haidian District, Beijing 100080

Applicant before: BEIJING YUNJI TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant