CN112364130B - 样本采样方法、设备和可读存储介质 - Google Patents

样本采样方法、设备和可读存储介质 Download PDF

Info

Publication number
CN112364130B
CN112364130B CN202011248591.6A CN202011248591A CN112364130B CN 112364130 B CN112364130 B CN 112364130B CN 202011248591 A CN202011248591 A CN 202011248591A CN 112364130 B CN112364130 B CN 112364130B
Authority
CN
China
Prior art keywords
text
target
character
negative
positive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011248591.6A
Other languages
English (en)
Other versions
CN112364130A (zh
Inventor
张超
殷磊
吴海山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN202011248591.6A priority Critical patent/CN112364130B/zh
Publication of CN112364130A publication Critical patent/CN112364130A/zh
Application granted granted Critical
Publication of CN112364130B publication Critical patent/CN112364130B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种样本采样方法、设备和可读存储介质,所述样本采样方法包括:获取待采样数据集和目标类别的正例文本片段,并采集所述正例文本片段中字符与字符之间的上下文距离信息,进而基于所述上下文距离信息,在所述待采样数据集中提取所述正例文本片段对应的文本片段,获得负例文本片段集,进而对所述负例文本片段集进行采样,获得所述目标类别对应的负例采样结果。本申请解决了负例样本采样效率低的技术问题。

Description

样本采样方法、设备和可读存储介质
技术领域
本申请涉及金融科技(Fintech)的人工智能领域,尤其涉及一种样本采样方法、设备和可读存储介质。
背景技术
随着金融科技,尤其是互联网科技金融的不断发展,越来越多的技术(如分布式、区块链Blockchain、人工智能等)应用在金融领域,但金融业也对技术提出了更高的要求,如对金融业对应待办事项的分发也有更高的要求。
随着计算机软件和人工智能的不断发展,机器学习的应用领域也越来越广泛,而进行机器学习模型的训练之前,通常需要进行样本采样,而由于标签标注人员通常只会收集和标注每个样本类别的正例,而不会标注每个样类别的负例,进而难以进行针对于负例的样本采样,目前,通常通过分类模型对收集的原始样本集中的每个样本进行分类,识别原始样本集中的负例样本集,进而对负例样本集进行采样即可实现针对于负例的样本采样,但是,由于分类模型为神经网络模型,所以在进行分类时,通常需要同时处理多个样本,以获取样本的类别特征信息,进而基于样本类别特征信息,进行多个样本的分类,其计算过程计算量大且计算复杂高,进而导致针对于负例的样本采样效率较低。
发明内容
本申请的主要目的在于提供一种样本采样方法、设备和可读存储介质,旨在解决现有技术中负例样本采样效率低的技术问题。
为实现上述目的,本申请提供一种样本采样方法,所述样本采样方法应用于样本采样设备,所述样本采样方法包括:
获取待采样数据集和目标类别的正例文本片段,并采集所述正例文本片段中字符与字符之间的上下文距离信息;
基于所述上下文距离信息,在所述待采样数据集中提取所述正例文本片段对应的文本片段,获得负例文本片段集;
对所述负例文本片段集进行采样,获得所述目标类别对应的负例采样结果。
本申请还提供一种样本采样装置,所述样本采样装置为虚拟装置,且所述样本采样装置应用于样本采样设备,所述样本采样装置包括:
采集模块,用于获取待采样数据集和目标类别的正例文本片段,并采集所述正例文本片段中字符与字符之间的上下文距离信息;
提取模块,用于基于所述上下文距离信息,在所述待采样数据集中提取所述正例文本片段对应的文本片段,获得负例文本片段集;
采样模块,用于对所述负例文本片段集进行采样,获得所述目标类别对应的负例采样结果。
本申请还提供一种样本采样设备,所述样本采样设备为实体设备,所述样本采样设备包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的所述样本采样方法的程序,所述样本采样方法的程序被处理器执行时可实现如上述的样本采样方法的步骤。
本申请还提供一种可读存储介质,所述可读存储介质上存储有实现样本采样方法的程序,所述样本采样方法的程序被处理器执行时实现如上述的样本采样方法的步骤。
本申请提供了一种样本采样方法、设备和可读存储介质,相比于现有技术采用的通常通过分类模型对收集的原始样本集中的每个样本进行分类,识别原始样本集中的负例样本集,进而对负例样本集进行采样即可实现针对于负例的样本采样的技术手段,本申请首先获取待采样数据集和目标类别的正例文本片段,并采集所述正例文本片段中字符与字符之间的上下文距离信息,其中,所述上下文距离信息为所述正例文本片段本身具备的个体特征信息,其获取过程无需通过复杂的神经网络对多个样本进行采集,进而基于所述上下文距离信息,在所述待采样数据集中提取所述正例文本片段对应的各负例文本片段,即可获得负例文本片段集,即可实现基于简单的个体特征信息,在待采样数据集中提取负例文本片段集的目的,进而对所述负例文本片段集进行采样,即可获得所述目标类别对应的负例采样结果,进而克服了现有技术中通过分类模型对收集的原始样本集中的每个样本进行分类,识别原始样本集中的负例样本集,进而对负例样本集进行采样即可实现针对于负例的样本采样时,由于分类模型为神经网络模型,所以在进行分类时,通常需要同时处理多个样本,以获取样本的类别特征信息,进而基于样本类别特征信息,进行多个样本的分类,其计算过程计算量大且计算复杂高的技术缺陷,所以,提高了针对于负例的样本采样效率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请样本采样方法第一实施例的流程示意图;
图2为本申请样本采样方法实施例中所述上下文距离矩阵的示意图;
图3为本申请样本采样方法第二实施例的流程示意图;
图4为本申请实施例方案涉及的硬件运行环境的设备结构示意图。
本申请目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
本申请实施例提供一种样本采样方法,在本申请样本采样方法的第一实施例中,参照图1,所述样本采样方法包括:
步骤S10,获取待采样数据集和目标类别的正例文本片段,并采集所述正例文本片段中字符与字符之间的上下文距离信息;
在本实施例中,需要说明的是,所述待采样数据集为待采样的文本数据,例如网页文本等,所述目标类别为所述正例文本片段的所属类别,所述正例文本片段为所述目标类别在所述待采样数据集中带有样本标签的样本,且所述正例文本片段为所述目标类别对应的正例样本,所述样本采样方法的目的为对所述目标类别的负例样本进行采样,其中,所述负例样本为与所述正例样本的相似程度超过预设第一相似程度阀值的样本,且所述负例样本包括难例样本,其中,所述难例样本为与所述正例样本的相似程度超过预设第二相似程度阀值的样本,且所述预设第二相似程度阀值大于所述预设第一相似程度阀值,例如,进行图像分类时,对于猫类别,猫图像为正例样本,猴子图像为负例样本,狗图像为难例样本,所述上下文距离信息包括上下文距离矩阵,其中,所述上下文距离矩阵为由所述正例文本片段中字符与字符的位置距离范围构成的矩阵,用于判定待采样数据集中的字符与字符是否存在符合所述位置距离范围的共现关系,其中,两个字符若在同一预设长度的文本片段中共同出现,则两个字符之间具备共现关系,例如,假设所述正例文本片段为“感谢您的申请和配合”,则如图2所示为所述上下文距离矩阵,其中,矩阵中的每一比特位上的值均为所述位置距离范围,例如“感”和“配”之间的位置距离范围为[1,7],“配”和“感”之间的位置距离范围为[-7,-1],其中,所述位置距离范围中数值的正负表示距离的方向。
获取待采样数据集和目标类别的正例文本片段,并采集所述正例文本片段中字符与字符之间的上下文距离信息,具体地,获取待采样数据集和目标类别的正例文本片段,并计算所述正例文本片段中各正例文本字符两两之间的字符位置相对距离,进而基于所述字符位置相对距离,生成各正例文本字符两两之间的位置距离范围,进而基于所述位置距离范围,构建所述上下文距离矩阵,并将所述上下文距离矩阵作为所述上下文距离信息。
进一步地,在步骤S10中,所述上下文距离信息包括距离上下文矩阵,
所述采集所述正例文本片段中字符与字符之间的上下文距离信息的步骤包括:
步骤S11,获取所述正例文本片段中各正例文本字符的正例文本字符位置;
在本实施例中,所述正例文本字符位置所述正例文本字符在所述正例文本片段中的排列位置,例如,假设所述正例文本片段为ab,则字符a的正例文本字符位置为1,字符b的正例文本字符位置为2。
获取所述正例文本片段中各正例文本字符的正例文本字符位置,具体地,获取各正例文本字符在所述正例文本片段中的排列位置,获得各所述正例文本字符对应的正例文本字符位置。
步骤S12,计算各所述正例文本字符位置两两之间的字符相对位置距离,获得位置距离信息;
在本实施例中,需要说明的是,所述字符相对位置距离包括最大相对位置距离和最小相对位置距离。
计算各所述正例文本字符位置两两之间的字符相对位置距离,获得位置距离信息,具体地,基于预设距离计算公式,计算各所述正例文本字符位置两两之间的最大相对位置距离和各所述正例文本字符位置两两之间的最小相对位置距离,进而将各所述最小相对位置距离和各所述最大相对位置距离共同作为所述位置距离信息,其中,所述预设距离计算公式如下所示:
min distance=min(sgn(j-1)*1,j-1)
max distance=max(sgn(j-1)*1,j-1)
其中,min distance为所述最小相对位置距离,max distance为所述最大相对位置距离,对于函数sgx(x),如果x大于0,则sgn返回1,如果x等于0,则返回0,如果x小于0,则返回-1,j为两个正例文本字符中的目标字符的正例文本字符位置,其中,所述目标字符为两个需要计算字符相对位置距离的正例文本字符中的后一个字符,例如,需要计算“感”与“配”之间的字符相对位置距离,则“配”所述目标字符。
另外地,需要说明的是,所述上下文距离矩阵为所述正例文本片段为其自身的个体特征信息,其获取过程简单,无需通过复杂的计算分析过程进行获取,且无需对上下文距离矩阵进行额外的处理,可直接用于判定待采样数据集中的字符与字符是否存在符合位置距离范围的共现关系。
步骤S13,基于所述位置距离信息,生成所述距离上下文矩阵。
在本实施例中,基于所述位置距离信息,生成所述距离上下文矩阵,具体地,将各所述最小相对位置距分别作为对应的正例文本字符位置的距离范围下限,以及将各所述最大相对位置距离分别作为对应的正例文本字字符位置对应的距离范围上限,进而基于各所述正例文本字字符位置两两之间对应的距离范围上限以及距离范围下限,生成各所述正例文本字字符位置两两之间对应的位置距离范围,进而基于各所述位置距离范围,构建所述距离上下文矩阵,其中,所述距离上下文矩阵的构建方法如下:
matrix[i][j]=[min distance,max distance]
其中,i和j均为所述正例文本字字符位置,min distance为所述最小相对位置距离,max distance为所述最大相对位置距离,matrix[i][j]为所述距离上下文矩阵。
步骤S20,基于所述上下文距离信息,在所述待采样数据集中提取所述正例文本片段对应的文本片段,获得负例文本片段集;
在本实施例中,需要说明的是,所述负例文本片段集至少包括一负例文本片段。
基于所述上下文距离信息,在所述待采样数据集中提取所述正例文本片段对应的文本片段,获得负例文本片段集,具体地,基于预设采集窗口长度,在所述待采样数据集中提取窗口文本片段,进而在所述正例文本片段中查询所述窗口文本片段中存在的各目标正例文本字符,其中,各所述目标正例文本字符之间在所述窗口文本片段中具备共现关系,进而在各所述目标正例文本字符选取第一位置字符,并计算所述第一位置字符与除所述第一位置之外的各目标正例文本字符之间的目标字符相对位置距离,进而对于每一所述目标字符相对位置距离均执行以下步骤:
获取所述目标字符相对位置距离对应的两个目标正例文本字符在所述距离上下文矩阵中对应的目标位置距离范围,并判断所述目标字符相对位置距离是否处于所述目标位置距离范围之中,若是,则所述第一位置字符与所述目标字符相对位置距离对应的目标正例文本字符之间具备符合目标位置距离范围的共现关系,若否,则所述第一位置字符与所述目标字符相对位置距离对应的目标正例文本字符之间不具备符合目标位置距离范围的共现关系,进而获得与所述第一位置字符之间具备符合目标位置距离范围的共现关系的各目标正例文本字符,进而在各所述目标正例文本字符组合中字符的字符位置中选取最大的字符位置,并将所述第一位置字符的字符位置作为下限,将所述最大字符位置作为上限,构建所述第一位置字符对应的字符位置序列,其中,所述字符序列为由连续的字符位置构成的排列序列,进一步地,返回所述在各所述目标正例文本字符选取第一位置字符的步骤,直至各所述目标正例文本字符均被选取作为过一次所述第一位置字符,获得各所述目标正例文本字符对应的字符位置序列,采集各所述字符位置序列对应的字符序列,其中,所述字符序列为由连续的字符的构成的排列序列,进而基于各所述字符序列的有效文本长度,在各所述字符序列中选取预设数量的负例文本片段,其中,所述有效文本程度为所述字符序列与所述正例文本片段的相同字符的数量,进一步地,返回所述基于预设采集窗口长度,在所述待采样数据集中提取窗口文本片段的步骤,直至获取的负例文本片段的数量达到预设文本片段数量阀值或者在所述待采样数据集中无法提取到窗口文本片段,则将各所述负例文本片段作为所述负例文本片段集,其中,由于所述负例文本片段中具备部分与所述正例文本片段相同的字符,且相同的字符之间的相对距离符合所述正例文本片段中对应的字符之间的位置距离范围,进而所述负例文本片段与所述正例文本片段不同且具备较高的相似程度,且所述有效文本长度越长,则所述负例文本片段与所述正例文本片段的相似程度越高,进而所述负例文本片段可作为所述目标类别的负例样本。
步骤S30,对所述负例文本片段集进行采样,获得所述目标类别对应的负例采样结果。
在本实施例中,对所述负例文本片段集进行采样,获得所述目标类别对应的负例采样结果,具体地,所述负例文本片段集中进行随机采样,以采集所述正例文本片段对应的各负例样本,并将各所述负例样本作为所述负例采样结果。
进一步地,在步骤S30中,所述对所述负例文本片段集进行采样,获得所述目标类别对应的负例采样结果的步骤包括:
步骤S31,获取所述负例文本片段集中各负例文本片段对应的文本有效长度评分;
在本实施例中,获取所述负例文本片段集中各负例文本片段对应的文本有效长度评分,具体地,获取各所述负例文本片段的有效文本长度和所述正例文本片段的标准文本长度,其中,所述标准文本长度为所述正例文本片段中正例文本字符的数量,进而分别计算各所述有效文本长度与所述标准文本长度的有效长度比值,进而各所述有效长度比值,生成各所述文本有效长度评分,例如,假设所述有效文本长度为3,所述标准文本长度为10,则所述有效长度比值为0.3,所述文本有效长度评分为30分。
步骤S32,基于各所述文本有效长度评分,生成所述负例文本片段集对应的样本区间密度;
在本实施例中,需要说明的是,所述样本区间密度为具备不同范围的有效文本长度的负例文本片段在所述负例文本片段集中的密度。
基于各所述文本有效长度评分,生成所述负例文本片段集对应的样本区间密度,具体地,将各所述文本有效长度评分划分至对应的有效长度评分区间,并获取各所述有效长度评分区间中的评分数量,进而基于各所述评分数据与各所述文本有效长度评分总数量的比值,获得各所述有效长度评分区间对应的样本区间密度。
步骤S33,依据所述样本区间密度,在所述负例文本片段集中进行负例采样,获得所述负例采样结果。
在本实施例中,依据所述样本区间密度,在所述负例文本片段集中进行负例采样,获得所述负例采样结果,具体地,依据所述样本区间密度,为各所述有效长度评分区间设置对应的负例采样比例,并基于各所述负例采样比例,在所述负例文本片段集中进行负例采样,获得所述负例采样结果。
本申请实施例提供了一种样本采样方法、设备和可读存储介质,相比于现有技术采用的通常通过分类模型对收集的原始样本集中的每个样本进行分类,识别原始样本集中的负例样本集,进而对负例样本集进行采样即可实现针对于负例的样本采样的技术手段,本申请实施例首先获取待采样数据集和目标类别的正例文本片段,并采集所述正例文本片段中字符与字符之间的上下文距离信息,其中,所述上下文距离信息为所述正例文本片段本身具备的个体特征信息,其获取过程无需通过复杂的神经网络对多个样本进行采集,进而基于所述上下文距离信息,在所述待采样数据集中提取所述正例文本片段对应的各负例文本片段,即可获得负例文本片段集,即可实现基于简单的个体特征信息,在待采样数据集中提取负例文本片段集的目的,进而对所述负例文本片段集进行采样,即可获得所述目标类别对应的负例采样结果,进而克服了现有技术中通过分类模型对收集的原始样本集中的每个样本进行分类,识别原始样本集中的负例样本集,进而对负例样本集进行采样即可实现针对于负例的样本采样时,由于分类模型为神经网络模型,所以在进行分类时,通常需要同时处理多个样本,以获取样本的类别特征信息,进而基于样本类别特征信息,进行多个样本的分类,其计算过程计算量大且计算复杂高的技术缺陷,所以,提高了针对于负例的样本采样效率。
进一步地,参照图3,基于本申请中第一实施例,在本申请的另一实施例中,进一步地,在步骤S20中,所述距离上下文信息包括距离范围信息,所述负例文本片段集至少包括一负例文本片段,
所述基于所述上下文距离信息,在所述待采样数据集中提取所述正例文本片段对应的文本片段,获得负例文本片段集的步骤包括:
步骤S21,基于预设采集窗口长度,在所述待采样数据集中采集窗口文本片段;
在本实施例中,需要说明的是,所述预设采集窗口长度等于所述窗口文本片段中字符的数量。
步骤S22,在所述正例文本片段中查询所述窗口文本片段中存在的目标正例文本字符;
在本实施例中,在所述正例文本片段中查询所述窗口文本片段中存在的目标正例文本字符,具体地,在所述正例文本片段中查询所述窗口文本片段中存在的字符,并提取一所述窗口文本片段中存在的字符作为所述目标正例文本字符。
步骤S23,在所述窗口文本片段中查询与所述目标正例文本字符具备符合所述距离范围信息的共现关系的字符,获得所述目标正例文本字符对应的候选文本片段;
在本实施例中,在所述窗口文本片段中查询与所述目标正例文本字符具备符合所述距离范围信息的共现关系的字符,获得所述目标正例文本字符对应的候选文本片段,具体地,在所述窗口文本片段中查询与所述目标正例文本字符具备共现关系的各共现字符,并对于每一所述共现字符均执行以下步骤:
在所述距离上下文矩阵中查询所述目标正例文本字符和所述共现字符共同对应的目标位置距离范围,并判断所述目标正例文本字符和所述共现字符之间的相对位置距离是否处于所述目标位置距离范围之中,若是,则将所述共现字符作为目标共现字符,若否,则不将所述共现字符作为目标共现字符,进而获得各目标共现字符,进而基于各所述目标共现字符的字符位置,生成所述目标正例文本字符对应的字符序列,并将所述字符作为所述候选文本片段。
进一步地,在一种可实施的方式中,所述基于各所述目标共现字符的字符位置,生成所述目标正例文本字符对应的字符序列的步骤包括:
在各所述目标共现字符中确定具备最小字符位置的第一目标共现字符和具备最大字符位置的第二目标共现字符,并将所述窗口文本片段中由所述第一目标共现字符至所述第二目标共现字符的字符片段作为所述字符序列,例如,假设所述窗口文本片段为abcde,且字符b、字符c和字符e均为所述目标共现字符,字符b的字符位置为2,字符c的字符位置为3,字符e的字符位置为5,进而字符b为所述第一目标共现字符,字符e为所述第二目标共现字符,进而所述字符序列为bcde。
进一步地,在步骤S23中,所述窗口文本片段至少包括一窗口文本片段字符,
所述在所述窗口文本片段中查询与所述目标正例文本字符具备符合所述距离范围信息的共现关系的字符,获得所述目标正例文本字符对应的候选文本片段的步骤包括:
步骤S231,在所述窗口文本片段字符中查询与所述目标正例文本字符具备所述共现关系的各共现字符;
在本实施例中,在所述窗口文本片段字符中查询与所述目标正例文本字符具备所述共现关系的各窗口文本片段字符,并将与所述目标正例文本字符具备所述共现关系的窗口文本片段字符作为共现字符。
步骤S232,分别计算所述目标正例文本字符与各所述共现字符之间的共现字符位置距离,并在所述距离范围信息中查询各所述共现字符对应的目标距离范围;
在本实施例中,需要说明的是,所述窗口文本片段中存在所述目标正例文本字符与各所述共现字符,所述距离范围信息包括距离上下文矩阵。
分别计算所述目标正例文本字符与各所述共现字符之间的共现字符位置距离,并在所述距离范围信息中查询各所述共现字符对应的目标距离范围,具体地,获取所述目标正例文本字符在所述窗口文本片段的第一字符位置,并分别获取各所述共现字符在所述窗口文本片段中的第二字符位置,进而计算所述第一字符位置与各所述第二字符位置之间的相对距离,获得各所述共现字符对应的共现字符位置距离,并在所述距离上下文矩阵中查询所述目标正例文本字符和每一所述共现字符共同对应的目标距离范围,例如,在所述距离上下文矩阵确定所述目标正例文本字符对应的目标行和所述共现字符对应的目标列,进而将所述目标行和所述目标列交点处的比特位上的值作为目标距离范围,其中,需要说明的是,所述距离上下文矩阵中每一比特位上均存在一目标距离范围。
步骤S233,基于各所述共现字符位置距离和各所述目标距离范围,确定所述候选文本片段。
在本实施例中,基于各所述共现字符位置距离和各所述目标距离范围,确定所述候选文本片段,具体地,对于所述目标正例文本字符和每一所述共现字符共同对应的共现字符位置距离和目标距离范围,均执行以下步骤:
判断所述共现字符位置距离是否处于所述目标距离范围中,若是,则将所述共现字符位置距离对应的共现字符作为目标共现字符,若否,则不将所述共现字符位置距离对应的共现字符作为所述目标共现字符,进而获得各目标共现字符,进而生成各所述目标共现字符对应的字符序列,并将所述字符序列作为所述候选文本片段。
进一步地,在步骤S233中,所述基于各所述共现字符位置距离和所述目标距离范围,确定所述候选文本片段的步骤包括:
步骤A10,基于各所述目标距离范围,在各所述共现字符位置距离确定各目标位置距离;
在本实施例中,将各所述共现字符位置距离中处于各自对应的目标距离范围中的共现字符位置距离作为目标位置距离。
步骤A20,基于各所述目标位置距离对应的共现字符的目标共现字符位置,生成所述目标正例文本字符对应的目标字符位置序列;
在本实施例中,基于各所述目标位置距离对应的共现字符的目标共现字符位置,生成所述目标正例文本字符对应的目标字符位置序列,具体地,获取各所述目标位置距离对应的共现字符的目标共现字符位置,并在各所述目标共现字符位置中确定在窗口文本片段中排列最前的第一目标共现字符位置,和排列最后的第二目标共现字符位置,进而将所述第一目标共现字符位置作为字符位置序列的上限,将所述第二目标共现字符位置作为字符位置序列的下限,生成所述目标字符位置序列,例如,假设所述第一目标共现字符位置为2,所述第二目标共现字符位置为5,则所述目标字符位置序列为2至5。
步骤A30,基于所述目标字符位置序列,在所述窗口文本片段中采集所述候选文本片段。
在本实施例中,基于所述目标字符位置序列,在所述窗口文本片段中采集所述候选文本片段,具体地,在所述窗口文本片段中采集所述目标字符位置序列中各字符位置上的候选文本片段字符,并保持各所述候选文本片段字符在所述窗口文本片段中的排列顺序不变构成文本片段,获得所述候选文本片段。
步骤S24,返回在所述正例文本片段中查询所述窗口文本片段中存在的目标正例文本字符的步骤,直至满足预设查询完毕条件,在各所述候选文本片段中选取所述负例文本片段。
在本实施例中,具体地,返回在所述正例文本片段中查询所述窗口文本片段中存在的目标正例文本字符的步骤,直至所述窗口文本片段中存在的目标正例文本字符均被查找完,获得各所述候选文本片段,进而将各所述候选文本片段中有效文本长度最长的候选文本片段作为所述负例文本片段。
进一步地,在步骤S24中,所述在各所述候选文本片段中选取所述负例文本片段的步骤包括:
步骤S241,分别获取各所述候选文本片段对应的目标字符数量;
在本实施例中,分别获取各所述候选文本片段对应的目标字符数量,具体地,分别获取各所述候选文本片段对应的目标正例文本字符以及各所述共现字符共同对应的字符数量,获得各所述候选文本片段对应的目标字符数量,例如,假设所述候选文本片段对应1个目标正例文本字符以及6个所述共现字符,则所述目标字符数量为7。
步骤S242,基于各所述目标字符数量和所述正例文本片段的标准字符数量,计算各所述候选文本片段对应的文本片段评分;
在本实施例中,基于各所述目标字符数量和所述正例文本片段的标准字符数量,计算各所述候选文本片段对应的文本片段评分,具体地,将所述正例文本片段中字符的数量作为标准字符数量,并计算分别计算各所述目标字符数量与所述标准字符数量的字符数量比值,进而基于各所述字符数量比值,生成各所述候选文本片段对应的文本片段评分,例如,假设所述字符数量比值为0.3,则所述文本片段评分为30分。
步骤S243,基于各所述文本片段评分,在各所述候选文本片段中选取所述负例文本片段。
在本实施例中,基于各所述文本片段评分,在各所述候选文本片段中选取所述负例文本片段,具体地,将各所述文本片段评分由大到小进行排列,获得文本片段评分列表,并基于所述文本片段评分列表,在各所述候选文本片段中选取所述负例文本片段,例如,在所述文本片段评分列表选取排名前3的文本片段评分对应的候选文本片段作为负例文本片段。
进一步地,在所述返回在所述正例文本片段中查询所述窗口文本片段中存在的目标正例文本字符的步骤,直至满足预设查询完毕条件,在各所述候选文本片段中选取所述负例文本片段的步骤之后,所述样本采样方法还包括:
步骤S25,返回基于预设采集窗口长度,在所述待采样数据集中采集窗口文本片段的步骤,直至满足预设采集完毕条件,获得所述负例文本片段集。
在本实施例中,需要说明的是,所述预设采集完毕条件包括获取的负例文本片段的数量达到预设文本片段数量阀值和在所述待采样数据集中无法提取到窗口文本片段等,所述负例文本片段集至少包括一负例文本片段。
本申请实施例提供了一种基于所述上下文距离信息,在所述待采样数据集中提取所述正例文本片段对应的文本片段,获得负例文本片段集的方法,首先基于预设采集窗口长度,在所述待采样数据集中采集窗口文本片段,进而在所述正例文本片段中查询所述窗口文本片段中存在的目标正例文本字符,进而在所述窗口文本片段中查询与所述目标正例文本字符具备符合所述距离范围信息的共现关系的字符,获得所述目标正例文本字符对应的候选文本片段,进而返回在所述正例文本片段中查询所述窗口文本片段中存在的目标正例文本字符的步骤,直至满足预设查询完毕条件,在各所述候选文本片段中选取所述负例文本片段,进而返回基于预设采集窗口长度,在所述待采样数据集中采集窗口文本片段的步骤,直至满足预设采集完毕条件,获得所述负例文本片段集,也即,通过简单地查询和简单地数学计算,即可完成负例文本片段集的获取,相比于现有技术,无需通过复杂的神经网络的计算分析,获取所述负例文本片段集,进而对所述负例文本片段集进行采样,即可获得所述目标类别对应的负例采样结果,为克服现有技术中通过分类模型对收集的原始样本集中的每个样本进行分类,识别原始样本集中的负例样本集,进而对负例样本集进行采样即可实现针对于负例的样本采样时,由于分类模型为神经网络模型,所以在进行分类时,通常需要同时处理多个样本,以获取样本的类别特征信息,进而基于样本类别特征信息,进行多个样本的分类,其计算过程计算量大且计算复杂高的技术缺陷奠定了基础。
参照图4,图4是本申请实施例方案涉及的硬件运行环境的设备结构示意图。
如图4所示,该样本采样设备可以包括:处理器1001,例如CPU,存储器1005,通信总线1002。其中,通信总线1002用于实现处理器1001和存储器1005之间的连接通信。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设备。
可选地,该样本采样设备还可以包括矩形用户接口、网络接口、摄像头、RF(RadioFrequency,射频)电路,传感器、音频电路、WiFi模块等等。矩形用户接口可以包括显示屏(Display)、输入子模块比如键盘(Keyboard),可选矩形用户接口还可以包括标准的有线接口、无线接口。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。
本领域技术人员可以理解,图4中示出的样本采样设备结构并不构成对样本采样设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图4所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块以及样本采样程序。操作系统是管理和控制样本采样设备硬件和软件资源的程序,支持样本采样程序以及其它软件和/或程序的运行。网络通信模块用于实现存储器1005内部各组件之间的通信,以及与样本采样系统中其它硬件和软件之间通信。
在图4所示的样本采样设备中,处理器1001用于执行存储器1005中存储的样本采样程序,实现上述任一项所述的样本采样方法的步骤。
本申请样本采样设备具体实施方式与上述样本采样方法各实施例基本相同,在此不再赘述。
本申请实施例还提供一种样本采样装置,所述样本采样装置应用于样本采样设备,所述样本采样装置包括:
采集模块,用于获取待采样数据集和目标类别的正例文本片段,并采集所述正例文本片段中字符与字符之间的上下文距离信息;
提取模块,用于基于所述上下文距离信息,在所述待采样数据集中提取所述正例文本片段对应的文本片段,获得负例文本片段集;
采样模块,用于对所述负例文本片段集进行采样,获得所述目标类别对应的负例采样结果。
可选地,所述提取模块还用于:
基于预设采集窗口长度,在所述待采样数据集中采集窗口文本片段;
在所述正例文本片段中查询所述窗口文本片段中存在的目标正例文本字符;
在所述窗口文本片段中查询与所述目标正例文本字符具备符合所述距离范围信息的共现关系的字符,获得所述目标正例文本字符对应的候选文本片段;
返回在所述正例文本片段中查询所述窗口文本片段中存在的目标正例文本字符的步骤,直至满足预设查询完毕条件,在各所述候选文本片段中选取所述负例文本片段。
可选地,所述提取模块还用于:
在所述窗口文本片段字符中查询与所述目标正例文本字符具备所述共现关系的各共现字符;
分别计算所述目标正例文本字符与各所述共现字符之间的共现字符位置距离,并在所述距离范围信息中查询各所述共现字符对应的目标距离范围;
基于各所述共现字符位置距离和各所述目标距离范围,确定所述候选文本片段。
可选地,所述提取模块还用于:
基于各所述目标距离范围,在各所述共现字符位置距离确定各目标位置距离;
基于各所述目标位置距离对应的共现字符的目标共现字符位置,生成所述目标正例文本字符对应的目标字符位置序列;
基于所述目标字符位置序列,在所述窗口文本片段中采集所述候选文本片段。
可选地,所述提取模块还用于:
分别获取各所述候选文本片段对应的目标字符数量;
基于各所述目标字符数量和所述正例文本片段的标准字符数量,计算各所述候选文本片段对应的文本片段评分;
基于各所述文本片段评分,在各所述候选文本片段中选取所述负例文本片段。
可选地,所述提取模块还用于:
返回基于预设采集窗口长度,在所述待采样数据集中采集窗口文本片段的步骤,直至满足预设采集完毕条件,获得所述负例文本片段集。
可选地,所述采集模块还用于:
获取所述正例文本片段中各正例文本字符的正例文本字符位置;
计算各所述正例文本字符位置两两之间的字符相对位置距离,获得位置距离信息;
基于所述位置距离信息,生成所述距离上下文矩阵。
可选地,所述采样模块还用于:
获取所述负例文本片段集中各负例文本片段对应的文本有效长度评分;
基于各所述文本有效长度评分,生成所述负例文本片段集对应的样本区间密度;
依据所述样本区间密度,在所述负例文本片段集中进行负例采样,获得所述负例采样结果。
本申请样本采样装置的具体实施方式与上述样本采样方法各实施例基本相同,在此不再赘述。
本申请实施例提供了一种可读存储介质,且所述可读存储介质存储有一个或者一个以上程序,所述一个或者一个以上程序还可被一个或者一个以上的处理器执行以用于实现上述任一项所述的样本采样方法的步骤。
本申请可读存储介质具体实施方式与上述样本采样方法各实施例基本相同,在此不再赘述。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利处理范围内。

Claims (9)

1.一种样本采样方法,其特征在于,所述样本采样方法包括:
获取待采样数据集和目标类别的正例文本片段,并采集所述正例文本片段中字符与字符之间的上下文距离信息;
基于所述上下文距离信息,在所述待采样数据集中提取所述正例文本片段对应的文本片段,获得负例文本片段集;
对所述负例文本片段集进行采样,获得所述目标类别对应的负例采样结果;
所述上下文距离信息包括距离范围信息,所述负例文本片段集至少包括一负例文本片段,所述基于所述上下文距离信息,在所述待采样数据集中提取所述正例文本片段对应的文本片段,获得负例文本片段集的步骤包括:
基于预设采集窗口长度,在所述待采样数据集中采集窗口文本片段;
在所述正例文本片段中查询所述窗口文本片段中存在的目标正例文本字符;
在所述窗口文本片段中查询与所述目标正例文本字符具备符合所述距离范围信息的共现关系的字符,获得所述目标正例文本字符对应的候选文本片段;
返回在所述正例文本片段中查询所述窗口文本片段中存在的目标正例文本字符的步骤,直至满足预设查询完毕条件,在各所述候选文本片段中选取所述负例文本片段。
2.如权利要求1所述样本采样方法,其特征在于,所述窗口文本片段至少包括一窗口文本片段字符,
所述在所述窗口文本片段中查询与所述目标正例文本字符具备符合所述距离范围信息的共现关系的字符,获得所述目标正例文本字符对应的候选文本片段的步骤包括:
在所述窗口文本片段字符中查询与所述目标正例文本字符具备所述共现关系的各共现字符;
分别计算所述目标正例文本字符与各所述共现字符之间的共现字符位置距离,并在所述距离范围信息中查询各所述共现字符对应的目标距离范围;
基于各所述共现字符位置距离和各所述目标距离范围,确定所述候选文本片段。
3.如权利要求2所述样本采样方法,其特征在于,所述基于各所述共现字符位置距离和所述目标距离范围,确定所述候选文本片段的步骤包括:
基于各所述目标距离范围,在各所述共现字符位置距离确定各目标位置距离;
基于各所述目标位置距离对应的共现字符的目标共现字符位置,生成所述目标正例文本字符对应的目标字符位置序列;
基于所述目标字符位置序列,在所述窗口文本片段中采集所述候选文本片段。
4.如权利要求1所述样本采样方法,其特征在于,所述在各所述候选文本片段中选取所述负例文本片段的步骤包括:
分别获取各所述候选文本片段对应的目标字符数量;
基于各所述目标字符数量和所述正例文本片段的标准字符数量,计算各所述候选文本片段对应的文本片段评分;
基于各所述文本片段评分,在各所述候选文本片段中选取所述负例文本片段。
5.如权利要求1所述样本采样方法,其特征在于,在所述返回在所述正例文本片段中查询所述窗口文本片段中存在的目标正例文本字符的步骤,直至满足预设查询完毕条件,在各所述候选文本片段中选取所述负例文本片段的步骤之后,所述样本采样方法还包括:
返回基于预设采集窗口长度,在所述待采样数据集中采集窗口文本片段的步骤,直至满足预设采集完毕条件,获得所述负例文本片段集。
6.如权利要求1所述样本采样方法,其特征在于,所述上下文距离信息包括距离上下文矩阵,
所述采集所述正例文本片段中字符与字符之间的上下文距离信息的步骤包括:
获取所述正例文本片段中各正例文本字符的正例文本字符位置;
计算各所述正例文本字符位置两两之间的字符相对位置距离,获得位置距离信息;
基于所述位置距离信息,生成所述距离上下文矩阵。
7.如权利要求1所述样本采样方法,其特征在于,所述对所述负例文本片段集进行采样,获得所述目标类别对应的负例采样结果的步骤包括:
获取所述负例文本片段集中各负例文本片段对应的文本有效长度评分;
基于各所述文本有效长度评分,生成所述负例文本片段集对应的样本区间密度;
依据所述样本区间密度,在所述负例文本片段集中进行负例采样,获得所述负例采样结果。
8.一种样本采样设备,其特征在于,所述样本采样设备包括:存储器、处理器以及存储在存储器上的用于实现所述样本采样方法的程序,
所述存储器用于存储实现样本采样方法的程序;
所述处理器用于执行实现所述样本采样方法的程序,以实现如权利要求1至7中任一项所述样本采样方法的步骤。
9.一种可读存储介质,其特征在于,所述可读存储介质上存储有实现样本采样方法的程序,所述实现样本采样方法的程序被处理器执行以实现如权利要求1至7中任一项所述样本采样方法的步骤。
CN202011248591.6A 2020-11-10 2020-11-10 样本采样方法、设备和可读存储介质 Active CN112364130B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011248591.6A CN112364130B (zh) 2020-11-10 2020-11-10 样本采样方法、设备和可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011248591.6A CN112364130B (zh) 2020-11-10 2020-11-10 样本采样方法、设备和可读存储介质

Publications (2)

Publication Number Publication Date
CN112364130A CN112364130A (zh) 2021-02-12
CN112364130B true CN112364130B (zh) 2024-04-09

Family

ID=74509274

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011248591.6A Active CN112364130B (zh) 2020-11-10 2020-11-10 样本采样方法、设备和可读存储介质

Country Status (1)

Country Link
CN (1) CN112364130B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113407685A (zh) * 2021-05-14 2021-09-17 北京金山数字娱乐科技有限公司 一种样本筛选方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009163303A (ja) * 2007-12-28 2009-07-23 Mitsubishi Electric Corp 検索フィルタリング装置及び検索フィルタリングプログラム
CN107992596A (zh) * 2017-12-12 2018-05-04 百度在线网络技术(北京)有限公司 一种文本聚类方法、装置、服务器和存储介质
CN108875810A (zh) * 2018-06-01 2018-11-23 阿里巴巴集团控股有限公司 针对训练语料从词频表中进行负例采样的方法及装置
CN110599028A (zh) * 2019-09-09 2019-12-20 深圳前海微众银行股份有限公司 文本定位方法、装置、设备及存储介质
CN111401066A (zh) * 2020-03-12 2020-07-10 腾讯科技(深圳)有限公司 基于人工智能的词分类模型训练方法、词处理方法及装置
KR20200088088A (ko) * 2019-01-14 2020-07-22 주식회사 인사이터 단어 속성 분류 장치 및 방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009163303A (ja) * 2007-12-28 2009-07-23 Mitsubishi Electric Corp 検索フィルタリング装置及び検索フィルタリングプログラム
CN107992596A (zh) * 2017-12-12 2018-05-04 百度在线网络技术(北京)有限公司 一种文本聚类方法、装置、服务器和存储介质
CN108875810A (zh) * 2018-06-01 2018-11-23 阿里巴巴集团控股有限公司 针对训练语料从词频表中进行负例采样的方法及装置
KR20200088088A (ko) * 2019-01-14 2020-07-22 주식회사 인사이터 단어 속성 분류 장치 및 방법
CN110599028A (zh) * 2019-09-09 2019-12-20 深圳前海微众银行股份有限公司 文本定位方法、装置、设备及存储介质
CN111401066A (zh) * 2020-03-12 2020-07-10 腾讯科技(深圳)有限公司 基于人工智能的词分类模型训练方法、词处理方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Oguni, M. etc..Character 3-gram Mover's Distance: An Effective Method for Detecting Near-duplicate Japanese-language Recipes.《arxiv》.2020,第5页. *
结合特征优化与负样本采样的事件检测方法研究;周文瑄;《中国优秀硕士学位论文全文数据库(信息科技辑)》;第I138-531页 *

Also Published As

Publication number Publication date
CN112364130A (zh) 2021-02-12

Similar Documents

Publication Publication Date Title
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
WO2019214245A1 (zh) 一种信息推送方法、装置、终端设备及存储介质
JP6894534B2 (ja) 情報処理方法及び端末、コンピュータ記憶媒体
CN110795919B (zh) 一种pdf文档中的表格抽取方法、装置、设备及介质
CN110163647B (zh) 一种数据处理方法及装置
CN112163424A (zh) 数据的标注方法、装置、设备和介质
CN103186675A (zh) 一种基于网络热词识别的网页自动分类方法
CN102508859A (zh) 一种基于网页特征的广告分类方法及装置
CN107239564B (zh) 一种基于监督主题模型的文本标签推荐方法
CN111046952A (zh) 标签挖掘模型的建立方法、装置、存储介质及终端
CN107357765B (zh) Word文档碎片化方法及装置
CN111522901A (zh) 文本中地址信息的处理方法及装置
CN108416034A (zh) 基于金融异构大数据的信息采集系统及其控制方法
CN114021577A (zh) 内容标签的生成方法、装置、电子设备及存储介质
CN112818200A (zh) 基于静态网站的数据爬取及事件分析方法及系统
CN110310012B (zh) 数据分析方法、装置、设备及计算机可读存储介质
CN113282754A (zh) 针对新闻事件的舆情检测方法、装置、设备和存储介质
CN102609539A (zh) 一种搜索方法和系统
CN112364130B (zh) 样本采样方法、设备和可读存储介质
CN110969501A (zh) 网络购物车页面的显示方法、系统、设备和存储介质
CN110442674B (zh) 标签传播的聚类方法、终端设备、存储介质及装置
CN116777692A (zh) 基于数据分析的在线学习方法、装置、设备及存储介质
CN108830302B (zh) 一种图像分类方法、训练方法、分类预测方法及相关装置
CN112287102A (zh) 数据挖掘方法和装置
JP7121819B2 (ja) 画像処理方法及び装置、電子機器、コンピュータ可読記憶媒体並びにコンピュータプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant