CN108460396B - 负采样方法和装置 - Google Patents

负采样方法和装置 Download PDF

Info

Publication number
CN108460396B
CN108460396B CN201710854316.0A CN201710854316A CN108460396B CN 108460396 B CN108460396 B CN 108460396B CN 201710854316 A CN201710854316 A CN 201710854316A CN 108460396 B CN108460396 B CN 108460396B
Authority
CN
China
Prior art keywords
sample
similarity
samples
physical
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710854316.0A
Other languages
English (en)
Other versions
CN108460396A (zh
Inventor
王兴光
林芬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201710854316.0A priority Critical patent/CN108460396B/zh
Publication of CN108460396A publication Critical patent/CN108460396A/zh
Application granted granted Critical
Publication of CN108460396B publication Critical patent/CN108460396B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种负采样方法和装置,其中,方法包括:确定模型训练所采用的正样本,获取正样本与待选样本之间的物理相似程度和内容相似程度,根据物理相似程度和内容相似程度,从待选样本中选取用于模型训练的负样本。通过相似程度算法,获得符合要求的模型训练的负样本,解决了现有技术中采用纯随机的方式获取负样本,负样本选择的质量较差,使得负采样的错采样率比例较高,致使模型训练的速度较慢,训练效果较差的问题。

Description

负采样方法和装置
技术领域
本发明涉及大数据分析技术领域,尤其涉及一种负采样方法和装置。
背景技术
随着信息技术的不断发展,时下已经步入了大数据时代。为了有效的利用和管理这些 信息,基于内容的信息检索和数据分析称为备受关注的领域。现实世界中有很多问题是同 时包含多个主题的,即多标签问题,而多标签问题中,同一个样例根据不同的主题可以标 定不同的分类,多标签分类应用于文本分类、图像识别等领域,而多标签文本分类是最主 要的应用,例如,对一篇新闻报道,如果从不同的角度分析就可以将其划分到不同的类别 中,也就是说一篇新闻报道即可以看做是政治类的,也可以划分到经济类或体育类。
多标签分类任务中,通过样本数据对模型训练,训练后的模型可以从海量数据中筛选 出需要的信息。模型的训练以及最终能够达到的效果不仅仅依赖于模型本身,还依赖于提 供给模型训练使用的数据,这些数据中,有正样本和负样本,在已知的许多机器学习任务 中,负样本的重要程度甚至不低于正样本,比如词嵌入模型Word2Vec。
相关技术中,在多标签学习和文档相似性学习任务中,文档的负采样的质量会对模型 的学习产生很大的影响。而负采样过程中,通常采用纯随机的方式组成负样本,导致文档 负采样过程出现错采样问题,从而致使模型训练速度较慢,训练结果性能较差的问题。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明提出一种负采样方法,以实现通过将获取的正样本与待选样本之间计算 物理相似程度和内容相似程度,根据物理相似程度和内容相似程度确定用户模型训练的负 样本,大大降低了负采样过程中错采样的比率,一定程度上提升了模型的训练速度,以及 模型最终能达到的效果。
本发明提出一种负采样装置。
本发明提出一种计算机设备。
本发明提出一种计算机可读存储介质。
为达上述目的,本发明第一方面实施例提出了一种负采样方法,包括:
确定模型训练所采用的正样本;
获取所述正样本与待选样本之间的物理相似程度和内容相似程度;
根据所述物理相似程度和内容相似程度,从所述待选样本中选取用于所述模型训练的 负样本。
可选地,作为第一方面的第一种可能的实现方式,获取所述正样本与待选样本之间的 物理相似程度和内容相似程度,包括:
根据所述正样本,查询第一相似度矩阵,得到所述正样本与各个待选样本之间物理相 似程度;其中,所述第一相似度矩阵中的元素,用于指示所在行对应的样本与所在列对应 的样本之间的物理相似程度;
根据所述正样本,查询第二相似度矩阵,得到所述正样本与各个待选样本之间内容相 似程度;其中,所述第二相似度矩阵中的元素,用于指示所在行对应的样本与所在列对应 的样本之间的内容相似程度。
可选地,作为第一方面的第二种可能的实现方式,所述待选样本为多个,所述正样本 是从所述待选样本中确定出的,所述获取所述正样本与待选样本之间的物理相似程度和内 容相似程度之前,还包括:
生成多个样本对;其中,每个样本对包括所述多个待选样本中的两个,所述多个样本 对中的待选样本不同;
计算每个样本对中的两个待选样本之间的物理相似程度和内容相似程度;
根据每个样本对中的两个待选样本之间的物理相似程度生成所述第一相似度矩阵;
根据每个样本对中的两个待选样本之间的内容相似程度生成所述第二相似度矩阵。
可选地,作为第一方面的第三种可能的实现方式,所述根据每个样本对中的两个待选 样本之间的物理相似程度生成所述第一相似度矩阵,包括:
确定第一相似度矩阵中各行对应的待选样本,以及各列对应的待选样本;
针对每一个样本对,将所述样本对中两个待选样本之间的物理相似程度作为所述第一 相似度矩阵中两个对称元素取值;所述对称元素所在行和列分别对应所述两个待选样本中 的一个样本。
可选地,作为第一方面第四种可能的实现方式,根据每个样本对中的两个待选样本之 间的内容相似程度生成所述第二相似度矩阵,包括:
确定第二相似度矩阵中各行对应的待选样本,以及各列对应的待选样本;
针对每一个样本对,将所述样本对中两个待选样本之间的内容相似程度作为所述第二 相似度矩阵中两个对称元素取值;所述对称元素所在行和列分别对应所述两个待选样本中 的一个样本。
可选地,作为第一方面的第五种可能的实现方式,根据所述物理相似程度和内容相似 程度,从所述待选样本中选取用于所述模型训练的负样本,包括:
从所述待选样本中,选取所述物理相似程度低于物理阈值和内容相似程度低于内容阈 值的待选样本作为所述负样本。
本实施例的负采样方法中,确定模型训练所采用的正样本,获取正样本与待选样本之 间的物理相似程度和内容相似程度,根据物理相似程度和内容相似程度,从待选样本中选 取用于模型训练的负样本。通过相似程度算法,获得符合要求的模型训练的负样本,解决 了现有技术中采用纯随机的方式获取负样本,负样本选择的质量较差,使得负采样的错采 样率比例较高,致使模型训练的速度较慢,训练效果较差的问题。
为达上述目的,本发明第二方面实施例提出了一种负采样装置,包括:
确定模块,用于确定模型训练所采用的正样本;
获取模块,用于获取所述正样本与待选样本之间的物理相似程度和内容相似程度;
选取模块,用于根据所述物理相似程度和内容相似程度,从所述待选样本中选取用于 所述模型训练的负样本。
可选地,作为第二方面的第一种可能的实现方式,所述获取模块,还可以包括:
第一查询单元,用于根据所述正样本,查询第一相似度矩阵,得到所述正样本与各个 待选样本之间物理相似程度;其中,所述第一相似度矩阵中的元素,用于指示所在行对应 的样本与所在列对应的样本之间的物理相似程度;
第二查询单元,用于根据所述正样本,查询第二相似度矩阵,得到所述正样本与各个 待选样本之间内容相似程度;其中,所述第二相似度矩阵中的元素,用于指示所在行对应 的样本与所在列对应的样本之间的内容相似程度。
可选地,作为第二方面的第二种可能的实现方式,该装置中获取模块之前还包括:
第一生成模块,用于生成多个样本对;其中,每个样本对包括所述多个待选样本中的 两个,所述多个样本对中的待选样本不同;
计算模块,用于计算每个样本对中的两个待选样本之间的物理相似程度和内容相似程 度;
第二生成模块,用于根据每个样本对中的两个待选样本之间的物理相似程度生成所述 第一相似度矩阵;
第三生成模块,用于根据每个样本对中的两个待选样本之间的内容相似程度生成所述 第二相似度矩阵。
可选地,作为第二方面的第三种可能的实现方式,第二生成模块,具体用于:
确定第一相似度矩阵中各行对应的待选样本,以及各列对应的待选样本,针对每一个 样本对,将所述样本对中两个待选样本之间的物理相似程度作为所述第一相似度矩阵中两 个对称元素取值;所述对称元素所在行和列分别对应所述两个待选样本中的一个样本。
可选地,作为第二方面的第四种可能的实现方式,第三生成模块,具体用于:
确定第二相似度矩阵中各行对应的待选样本,以及各列对应的待选样本,针对每一个 样本对,将所述样本对中两个待选样本之间的内容相似程度作为所述第二相似度矩阵中两 个对称元素取值;所述对称元素所在行和列分别对应所述两个待选样本中的一个样本。
可选地,作为第二方面的第五种可能的实现方式,选取模块,具体用于:
从所述待选样本中,选取所述物理相似程度低于物理阈值和内容相似程度低于内容阈 值的待选样本作为所述负样本。
本实施例的负采样装置中,确定模块用于确定模型训练所采用的正样本,获取模块用 于获取正样本与待选样本之间的物理相似程度和内容相似程度,选取模块用于根据物理相 似程度和内容相似程度,从待选样本中选取用于模型训练的负样本。通过相似程度算法, 获得符合要求的模型训练的负样本,解决了现有技术中采用纯随机的方式获取负样本,负 样本选择的质量较差,使得负采样的错采样率比例较高,致使模型训练的速度较慢,训练 效果较差的问题。
为达上述目的,本发明第三方面实施例提出了一种计算机设备,包括存储器、处理器 及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现 第一方面实施例所述的负采样方法。
为达上述目的,本发明第四方面实施例提出了一种计算机可读存储介质,其上存储有 计算机程序,所述程序被处理器执行时,实现第一方面实施例所述的负采样方法。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明 显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显 和容易理解,其中:
图1为本发明实施例一所提供的一种负采样方法的流程示意图;
图2为本发明实施例二所提供的一种负采样方法的流程示意图
图3为本发明实施例三所提供的一种负采样方法的流程示意图;
图4为本发明实施例四所提供的一种负采样方法的流程示意图;
图5为本发明实施例五所提出的一种负采样方法的流程示意图;
图6为本发明实施例所提供的一种负采样装置的结构示意图;以及
图7为本发明实施例所提供的另一种负采样装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同 或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描 述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的负采样方法和装置。
多标签分类任务中,模型的训练是一个重要的环节,模型训练的结果不仅依赖于模型 的本身,还依赖于提供给模型训练使用的数据,这些数据中包含符合人们要求的正样本, 正样本用于告诉模型什么是满足需求的,例如,符合期望的文字,图片,文档或者音符等, 也包含不符合人们要求的负样本,负样本用于告诉模型什么是不满足需求的,例如,不符 合期望的文字,图片,文档或者音符等。在已知的机器学习任务中,负样本的重要程度不低于正样本,对模型的训练效果产生很大的影响,因而,通过负采样得到高质量的负样本,对模型的训练尤为重要。
相关技术中,负采样的实现方式为:
负采样过程主要是通过随机选取的方式从待选样本中选取负样本。
但是,这种选取方式会造成负样本选择不准确,负采样的错采样比率高的问题,例如, 将文档作为负采样的对象时,一般会存在以下几个问题,1)文档不同于词,文档相似时, 词可能完全不一样,而词基本一样时,文档描述的内容可能是完全不一样的;2)文档是词 的集合,对样本集合的负采样的复杂度要远高于单个样本。
为解决上述问题,本发明实施例提出了一种负采样的方法,通过计算正样本和待选样 本之间的物理相似度和内容相似度,基于该物理相似度和内容相似度确定负样本,改进了 负采样的算法,降低了负采样的错采样比率,提升了模型的训练速度和最终的训练效果。
图1为本发明实施例一所提供的一种负采样方法的流程示意图。
如图1,所示,该方法包括如下步骤:
步骤S101,确定模型训练所采用的正样本。
其中,该模型为二分类模型或者多分类模型(即多标签模型)。
具体地,训练所用的正样本是指可指导模型筛选出满足用户需求的样本,作为一种可 能的实现方式,在已知的样本训练集中,待选样本为多个,通过人为标定的方式,从多个 待选样本中确定正样本,其中,正样本的数量可以为1个或者为多个,例如,当选取的正样本为句子时,正样本可以为:“请打开电视机”、“我想看电视”以及“有什么好看的么”。
作为一种可能的实现方式,该模型可用于智能音箱或其他智能家居上,智能音箱可接 入智能家居的网络。该智能音箱可以获取用户输入的语句、图片和音视频,进而该智能音 响基于该模型,根据输入的语句、图片和音视频实现对用户需求的识别,从而实现搜索、 控制等多种场景。在模型对用户需求进行识别之前,需要采用正负样本对模型进行训练, 以便模型能够学习得到输入信息与用户需求之间的对应关系。
步骤S102,获取正样本与待选样本之间的物理相似程度和内容相似程度。
具体地,根据正样本,查询第一相似度矩阵,得到正样本与各个待选样本之间物理相 似程度,其中,第一相似度矩阵中的元素,用于指示所在行对应的样本与所在列对应的样 本之间的物理相似程度。根据正样本,查询第二相似度矩阵,得到正样本与各个待选样本 之间内容相似程度,其中,第二相似度矩阵中的元素,用于指示所在行对应的样本与所在 列对应的样本之间的内容相似程度。
其中,物理相似程度即直观表达方式的相似程度,而内容相似程度用于表达内涵之间 的相似程度,本实施例中,待选样本具体可以为文章、句子、图片和音视频,当待选样本 类型不同时,待选样本之间的物理相似程度和内容相似程度代表的具体含义也不同。
具体地,针对物理相似程度,当待选样本为文章或者句子时,物理相似程度具体为词 相似程度;当待选样本为图片时,物理相似程度具体为像素相似程度;当待选样本为音频 或者视频时,物理相似程度具体为音符相似程度。
针对内容相似程度,当待选样本为文章或者句子时,内容相似程度具体为语义相似程 度;当待选样本为图片时,内容相似程度具体为描绘对象相似程度;当待选样本为音频或 者视频时,内容相似程度具体为旋律相似程度。
步骤S103,根据物理相似程度和内容相似程度,从待选样本中选取用于模型训练的负 样本。
从待选样本中,选取物理相似程度低于物理阈值和内容相似程度低于内容阈值的待选 样本作为负样本。具体地,针对每一个待选样本,判断正样本与待选样本之间物理的相似 程度是否低于物理阈值相似度,若正样本与待选样本之间物理的相似程度低于物理阈值相 似度,进而,判断正样本与待选样本之间内容的相似程度是否低于内容阈值相似度,若正 样本与待选样本之间内容相似程度低于内容阈值相似度,选取待选样本作为负样本。
需要说明的是,本实施例中,选用相似度更低的待选样本作为负例,对于其他方法, 如相似度在某个范围的,其实现原理类似,本实施例中不再赘述。
本实施例的负采样方法中,确定模型训练所采用的正样本,获取正样本与待选样本之 间的物理相似程度和内容相似程度,根据物理相似程度和内容相似程度,从待选样本中选 取用于模型训练的负样本。通过相似程度算法,获得符合要求的模型训练的负样本,解决 了现有技术中采用纯随机的方式获取负样本,负样本选择的质量较差,使得负采样的错采 样率比例较高,致使模型训练的速度较慢,训练效果较差的问题。
在上述实施例的基础上,本发明提出了另一种可能的负采样方法,更加清楚的解释了 通过生成相似度矩阵之后,根据正样本,查询得到正样本和待选样本之间的物理相似度和 内容相似度,从而确定模型训练的负样本的过程,图2为本发明实施例二所提供的一种负 采样方法的流程示意图,如图2所示,该方法包括如下步骤:
步骤S201,生成多个样本对,计算每个样本对中的两个待选样本之间的物理相似程度 和内容相似程度。
具体地,模型训练之前,会获取训练样本,训练样本中包含多个样本,根据训练样本 生成多个样本对,每个样本对中包含多个待选样本中的两个,多个样本对中的待选样本不 同。分别计算每个样本对中的两个待选样本之间的物理相似程度和内容相似程度。
为了便于区分,将2个待选样本之间的物理相似程度表示为M1(i,j),内容相似程度表 示为M2(i,j),其中,i和j分别代表样本对中的样本i和样本j,本实施例中,以训练样本中 包含3个样本为例进行举例说明,分别标记为1、2、3,任意2个样本生成样本对,可生成3个样本对,即样本对1和2,样本对1和3,以及样本对2和3,通过计算可得到物理 相似程度分别为M1(1,2)、M1(1,3)、M1(2,3);通过计算可得到内容相似程度分别为:M2(1,2)、 M2(1,3)、M2(2,3)。
步骤S202,根据每个样本对中的两个待选样本之间的物理相似程度生成第一相似度矩 阵。
具体地,确定第一相似度矩阵中各行对应的待选样本,以及各列对应的待选样本,针 对每一个样本对,将样本对中两个待选样本之间的物理相似程度作为第一相似度矩阵中两 个对称元素取值,对称元素所在行和列分别对应两个待选样本中的一个样本。
以步骤S201中的3个待选样本为例,若构建一个物理相似程度的矩阵,即第一相似度 矩阵可以表示为如下的矩阵A:
Figure RE-GDA0001507342880000071
其中,相同样本之间的物理相似度为1,即M1(1,1)=1,M1(2,2)=1和M1(3,3)=1,另外, M1(1,2)和M1(2,1)相同,M1(3,1)和M1(1,3)相同,M1(3,2)和M1(2,3)相同。
作为一种可能的实现方式,即可将上述矩阵A表示为A1,其中,将物理相似度相同的 项仅保留一个,另一个数值置为0,物理相似度为1的也置为0。第一相似度矩阵A1的矩阵表示方式,会减少查找时的运算量,提高运算速度。
Figure RE-GDA0001507342880000081
步骤S203,根据每个样本对中的两个待选样本之间的内容相似程度生成第二相似度矩 阵。
具体地,确定第二相似度矩阵中各行对应的待选样本,以及各列对应的待选样本,针 对每一个样本对,将样本对中两个待选样本之间的内容相似程度作为第二相似度矩阵中两 个对称元素取值,对称元素所在行和列分别对应两个待选样本中的一个样本。
同理,可得到内容的相似度矩阵,即第二相似度矩阵,作为一种可能的实现方式,可 表示为A2:
Figure BDA0001413935830000082
步骤S204,确定模型训练所采用的正样本。
具体地,从待选样本中选择出模型训练所需要的正样本,以步骤S201中的3个待选样 本为例,从中选择样本编号为1的样本为正样本。
步骤S205,根据正样本,查询第一相似度矩阵,得到正样本与各个待选样本之间物理 相似程度。
具体地,正样本为编号为1的样本,查询第一相似度矩阵A1,可得到正样本1与待选样本2和3之间的物理相似程度,分别为M1(1,2)和M1(1,3)。
步骤S206,根据正样本,查询第二相似度矩阵,得到正样本与各个待选样本之间内容 相似程度。
具体地,正样本为编号为1的样本,查询第二相似度矩阵A2,可得到正样本1与待选样本2和3之间的内容相似程度,分别为M2(1,2)和M2(1,3)。
步骤S207,根据物理相似程度和内容相似程度,从待选样本中选取用于模型训练的负 样本。
具体地,首先将正样本1与待选样本之间的物理相似度和物理阈值相似度进行比较, 若小于物理阈值相似度,则进一步,将正样本1与待选样本之间的内容相似度和内容阈值 相似度进行比较,若内容相似度也小于内容阈值相似度,则该样本可以选取作为模型训练 的负样本,否则,不能选取作为模型训练的负样本。
本实施例的负采样方法中,确定模型训练所采用的正样本,获取正样本与待选样本之 间的物理相似程度和内容相似程度,根据物理相似程度和内容相似程度,从待选样本中选 取用于模型训练的负样本。通过相似程度算法,获得符合要求的模型训练的负样本,解决 了现有技术中采用纯随机的方式获取负样本,负样本选择的质量较差,使得负采样的错采 样率比例较高,致使模型训练的速度较慢,训练效果较差的问题。
在多标签模型训练时,在对模型训练之前,先确定训练用的样本,从待选样本选取负 样本之前,需要首先计算正样本与待选样本之间的相似程度,包括物理的相似程度和内容 的相似程度,通过相似程度筛选用于模型训练的负样本。
因此,在上一实施例基础上,本实施例提供了另一种负采样的方法,进一步清楚的解 释了,在进行负采样之前,如何计算得到正样本与待选样本之间的物理相似程度和内容相 似程度,本实施例中,以待选样本为语句进行解释说明,当待选样本为文章、图片或者音视频时,原理一样,也同样适用。
图3为本发明实施例三所提供的一种负采样方法的流程示意图,如图3所示,该方法 包括如下步骤:
步骤S301,确定模型训练所采用的正样本。
具体地,模型训练之前,先确定训练所需要的正样本数据,以及可能为负样本的待选 样本数据。
步骤S302,计算正样本与待选样本之间物理相似程度和内容相似程度。
首先,样本之间物理相似程度可以在一定程度上表述2个样本之间的相似度。样本为 句子时,句子之间的物理相似程度即为词相似程度。根据正样本,计算该正样本与待选样 本之间词相似程度。
作为一种可能的实现方式,采用杰卡德相似度算法(Jaccard Similarity)计算正样本i 和待选样本j之间的词相似程度。
为了便于说明,以文本为简单的句子为例进行说明,举例,正样本1:中国是大熊猫的故乡;待选样本1:大熊猫生活在中国,中国是它的故乡;待选样本2:小猫在墙上,墙 上画着故乡的风景。作为一种可能的实现方式,将样本通过NLPIR中文分词系统进行分词 处理,转换成词语的集合,得到结果如下:
正样本1:中国/是/大熊猫/的/故乡
待选样本1:大熊猫/生活/在/中国,中国/是/它/的/故乡;
待选样本2:小猫/在/墙上/,墙上/画着/故乡/的/风景。
列出正样本1与待选样本1之间的所有的词:中国,大熊猫,故乡,生活,是,它, 的,在。
具体地,可以采用公式(1),即Jaccard相似度计算公式,计算样本之间的词相似程度,其中,公式(1)如下表示:
Jaccard(A,B)=|A∩B|/|A∪B| (1)
其中,A,B代表2个文本的集合,将本实施例中的正样本1与待选样本1的集合代入公式1,可计算得到正样本1与待选样本1之间的词相似程度M1(正样本1,待选样本 1)=0.625。
同理,可得到正样本1与待选样本2之间的词相似程度M1(正样本1,待选样本2)=0.2。
其中,NLPIR中文分词系统采用层次隐马尔科夫模型,支持中英文分词和词性标注等 操作,并能够利用信息熵计算每个候选词的上下文条件熵,实现文本中出现的人名、地名 等关键词提取。NLPIR中文分词系统包括有动态链接库以及多个API接口,每个API接口代表一种函数操作,动态链接库内包括有多个函数,通过调用API接口以及动态链接库内的函数即能够实现相应分词的操作。
作为另一种可能的实现方式,还可以采用余弦相似性,计算样本之间的词相似程度, 余弦相似度算法是基于向量模型,利用向量空间中两个向量夹角的余弦值作为衡量两篇文 章的相似程度,余弦值在0~1之间,余弦值越大说明两篇文档越相似,具体为:对待对比 的句子进行分词处理,分词后统计所有的词,然后计算每个词出现的频率,得到词频向量, 通过计算两个句子中词的词频向量的相似程度,得到两个句子的词相似程度。举例,两个 句子A和B,将两个句子转化为两个N维向量
Figure BDA0001413935830000101
Figure BDA0001413935830000102
Figure BDA0001413935830000103
的余弦相似度为:
Figure BDA0001413935830000104
其中,余弦值越大,说明夹角越小,两个向量越重合,即两个向量的相似度越高。
需要说明的是,计算两个样本之间的物理相似程度的方法还有很多种可能的实现方式, 本实施例中不一一罗列,也不做具体限定。
作为另一种可能的实现方式,对比正样本和待选样本之间的相似程度,还可以对比正 样本和待选样本之间内容相似程度,当待选样本为句子时,内容的相似程度具体为语义相 似程度,因为当正样本和待选样本中相似词具有不同语义时,通过对比样本词相似程度很 容易将待选样本误判为负例,则进一步对比样本之间的语义相似程度能更准确的判断样本 之间的相似程度。
作为一种可能的实现方式,采用文档主题生成模型(Latent DirectletAllocation,LTD), 其中,LDA将正样本和待选样本转化为基于主题的向量,向量的维度即主题的数量,向量 的维度值即该主题的权重,然后通过向量相似度算法,进行相似度计算,得到正样本和待 选样本之间的语义相似度,具体为:将正样本和待选样本进行分词处理,得到一个个单独 的词,并对分词结果进行过滤,去除停用词,停用词主要包括没有实际意思的词,如语气 助词、介词等。由于LDA模型是词袋模型,即分词后得到的次的顺序和语义无关,故分词 时作为一种可能的实现方式,可以只保留名词。将正样本的词和待选样本的词,分别输入 到LDA主题模型中,得到正样本主题向量和待选样本主题向量,其中,向量中的每一个维 度代表一个预设主题,每一个维度值代表预设主题的权重值。正样本主题向量中所有维度 对应的向量值和为1,待选样本主题向量中所有维度对应的向量值和也为1。根据向量相似 度算法,计算正样本主题向量和待选样本主题向量之间的相似程度,从而得到正样本和待 选样本之间语义相似程度。
需要说明的是,LDA主题模型,是通过大量训练样本生成的模型,通过LDA主题模型将正样本和待选样本转换成能反应样本语义的用预设主题组成的向量,预设主题是提前设置好的,包括常用的几乎所有的主体类型,例如,预设主题可以为:体育,赛事,时间, 数量,身体状态等等。
为了便于说明,以待选样本为简单的句子为例进行说明,举例,正样本2:昨天晚上看足球比赛,喝了很多酒,头疼。待选样本3:昨天晚上看球赛,喝了不少,有点拉肚子。 对正样本2和待选样本3进行分词处理,转换成词语的集合,结果如下:
正样本2:昨天晚上,足球,比赛,喝了,很多,酒,头疼;
待选样本3:昨天晚上,球赛,喝了,不少,拉肚子。
进而,将正样本2和待选样本3对应的词语的集合输入LDA模型中,得到在训练结果中,“球赛”和“足球”、“比赛”在同一个主题中,“很多”和“不少”在一个主题中,“拉 肚子”和“头疼”在一个主题中,进而得到,正样本2基于主题的向量为[w1,w2,···w5], 其中,w1至w5分别代表不同主题对应的权重值;待选样本3基于主题的向量为 [w1’,w2’,···w5’],其中,w1’至w5’分别代表不同主题对应的权重值。利用余弦相似度算 法,计算得到正样本2与待选样本3之间的语义相似程度为M2(正样本2,待选样本3)=0.8。
需要说明的,计算两个句子之间的语义相似程度的方法有很多种可能的实现方式,如, Word2Vec,LDA或奇异值分解,槽位相似度,实体相似度等,都可以计算得到两个句子之 间的语义相似程度,本实施例中不一一罗列,也不做具体限定。
本实施例中,列举了正样本和待选样本之间物理相似程度和内容相似程度的计算方法, 而对于待选样本中任意2个样本之间的相似程度的计算方法实现原理一样,通过计算待选 样本中任意2个样本中的相似程度,即可生成图2实施例中对应物理相似程度的第一相似 度矩阵,和对应内容相似程度的第二相似度矩阵,此处不再赘述。
步骤S303,根据物理相似程度和内容相似程度,从待选样本中选取相似度低于阈值相 似度的样本作为模型训练的负样本。
本实施例中,举例,物理阈值相似度设定为0.35,语义阈值相似度设定为0.3,通过计 算得到的正样本和待选样本的词相似程度和语义相似程度,分别和物理阈值相似度和语义 阈值相似度比对,从而确定模型训练的负样本。
举例1,以步骤S302中的正样本2和待选样本3为例,通过步骤S302中的物理相似程度可以计算得到M1(正样本2,待选样本3)=0.32,0.32小于物理的阈值相似度0.35,进一步,计算正样本2与待选样本3之间的语义相似程度,得到语义相似程度为M2(正样本2, 待选样本3)=0.8,因0.8大于语义阈值相似度0.3,所以,待选样本3不能作为正样本2的 负样本。
需要理解的是,上述步骤中,以待选样本为一个简单的句子为例进行相似度计算确定 负样本,而当待选样本为文章、图片或者音视频时,实现原理一样,此处不再赘述。
需要说明的是,物理阈值相似度和语义阈值相似度,本领域技术人员可以根据需要设 定,本实施例中不做限定。
本实施例的负采样方法中,确定模型训练所采用的正样本,获取正样本与待选样本之 间的物理相似程度和内容相似程度,根据物理相似程度和内容相似程度,从待选样本中选 取用于模型训练的负样本。通过将待选样本和正样本之间进行物理相似度和内容相似度比 对,进一步排除了部分不符合需求的待选样本,筛选出更符合要求的模型训练的负样本, 解决了现有技术中采用纯随机的方式获取负样本,负样本选择的质量较差,使得负采样的 错采样率比例较高,致使模型要达到相同的精度时迭代轮次更多,训练的速度较慢,训练 效果较差的问题。
以待选样本为句子为例,实际应用中,正样本和待选样本的物理相似度低,但是包含 的词语义的相似度高,这样情况下,只对比正样本和待选样本之间的物理相似程度,则会 将待选样本误判为负样本,需要进一步判断正样本与待选样本之间的语义相似度,进一步 排除部分不符合要求的负样本,降低了错采样的比率。为此,本发明实施例还提出了一种 负采样的方法,进一步清楚解释了通过对比正样本和待选样本之间词相似程度和语义相似 程度来确定负样本的方法,图4为本发明实施例四所提供的一种负采样方法的流程示意图, 如图4所示,该方法包括:
步骤S401,确定模型训练所采用的正样本和待选样本。
本实施例中,以待选样本为一个句子为例,进行举例说明。具体地,正样本和待选样 本如下:
正样本2:昨天晚上看足球比赛,喝了很多酒,头疼;
待选样本3:昨天晚上看球赛,喝了不少,有点拉肚子;
待选样本4:昨天下午看电影,电影很精彩。
步骤S402,计算正样本与待选样本之间词相似程度。
当待选样本为句子时,物理相似程度具体为词相似程度。具体地,计算全部正样本与 全部待选样本之间的词相似程度。作为一种可能的实现方式,Jaccard Similarity算法分别计 算正样本2与待选样本3、待选样本4之间的词相似程度,得到M1(正样本2,待选样本3)=0.32,M1(正样本2,待选样本4)=0.15。
步骤S403,计算正样本与待选样本之间语义相似程度。
待选样本为句子时,内容相似程度具体为语义相似程度。作为一种可能的实现方式, 采用LDA模型,分别计算正样本2与待选样本3、待选样本4之间的语义相似程度分别为M2(正样本2,待选样本3)=0.8,M2(正样本2,待选样本4)=0.15。
步骤S404,针对每一个待选样本,逐个判断正样本与当前待选样本之间的词相似程度 是否低于物理阈值相似度,若是,执行步骤S405,若否,则针对下一个待选样本重新执行 步骤S404。
具体地,从全部正样本中,选取一个正样本,进而针对每一个待选样本,判断该待选 样本与该正样本之间词相似程度是否低于物理阈值相似度,如果低于,则执行步骤S405, 进一步判断该待选样本与正样本之间的语义相似程度是否低于语义阈值相似度;如果高于, 则重新去选择一个待选样本,判断该待选样本与该正样本之间的词相似程度是否低于物理 阈值相似度。
需要说明是的,当正样本数量多于一个时,循环执行步骤404至406,直至针对全部的正样本确定出对应的负样本。
本实施例中,将物理阈值相似度设定为0.35,针对待选样本3,正样本2与待选样本3 之间的词相似程度M1(正样本2,待选样本3)=0.8=0.32,0.32小于0.35,即正样本2与待选样本3之间的词相似程度小于物理阈值相似度,进而判断待选样本3与正样本2的语义 相似程度。
本实施例中针对待选样本4,获取得到正样本2与待选样本4之间的词相似程度M1(正 样本2,待选样本4)=0.15,0.15小于0.3,即正样本2与待选样本4之间的词相似程度小于 物理阈值相似度,进而执行步骤S405,判断待选样本4与正样本之间的语义相似程度。
步骤S405,判断该正样本与当前待选样本之间的语义相似程度是否低于语义阈值相似 度,若是,则执行步骤S406,若否,则执行步骤S404。
具体地,判断正样本与待选样本之间语义相似程度是否小于语义阈值相似度,若是, 该待选样本可以确定为该正样本的负样本,若否,则返回执行步骤S404,直到所有的待选 样本都遍历完毕。
如,M2(正样本2,待选样本3)=0.8,0.8大于语义阈值相似度0.3,所以待选样本3不 能作为正样本2的负样本,返回选择其他的待选样本,继续比对。
M2(正样本2,待选样本4)=0.15,0.15小于语义阈值相似度0.3,所以,该待选样本4 可以作为正样本2的负样本。
步骤S406,选取该待选样本为负样本。
本实施例的负采样方法中,确定模型训练所采用的正样本,获取正样本与待选样本之 间的物理相似程度和内容相似程度,根据物理相似程度和内容相似程度,从待选样本中选 取用于模型训练的负样本。通过将待选样本和正样本之间进行物理相似度和内容相似度比 对,进一步排除了部分不符合需求的待选样本,筛选出更符合要求的模型训练的负样本, 解决了现有技术中采用纯随机的方式获取负样本,负样本选择的质量较差,使得负采样的 错采样率比例较高,致使模型要达到相同的精度时迭代轮次更多,训练的速度较慢,训练 效果较差的问题。
确定了正样本和对应的负样本后,即可利用该样本对模型进行训练,为此,在上述实 施例基础上,本发明还提出了一种负采样方法的可能的实现方式,图5为本发明实施例五 所提出的一种负采样方法的流程示意图,在上述实施例中确定模型训练的负样本后,还可 以包括如下步骤:
步骤S501,将确定的正样本和负样本作为训练样本对。
具体地,通过确定的正样本,以及与该正样本匹配的负样本作为训练样本对。
步骤S502,利用多个训练样本对,对模型进行训练。
具体地,利用多个训练样本对对模型进行训练,其中,模型包括多分类模型和/或二分 类模型。
本实施例的负采样方法中,确定模型训练所采用的正样本,获取正样本与待选样本之 间的物理相似程度和内容相似程度,根据物理相似程度和内容相似程度,从待选样本中选 取用于模型训练的负样本。通过将待选样本和正样本之间进行物理相似度和内容相似度比 对,进一步排除了部分不符合需求的待选样本,筛选出更符合要求的模型训练的负样本, 解决了现有技术中采用纯随机的方式获取负样本,负样本选择的质量较差,使得负采样的 错采样率比例较高,致使模型要达到相同的精度时迭代轮次更多,训练的速度较慢,训练 效果较差的问题。
为了实现上述实施例,本发明还提出一种负采样装置。
图6为本发明实施例所提供的一种负采样装置的结构示意图。
如图6所示,该装置包括:确定模块61、获取模块62和选取模块63。
确定模块61,用于确定模型训练所采用的正样本。
获取模块62,获取正样本与待选样本之间的物理相似程度和内容相似程度。
选取模块63,根据物理相似程度和内容相似程度,从待选样本中选取用于模型训练的 负样本。
需要说明的是,前述对方法实施例的解释说明也适用于该实施例的装置,此处不再赘 述。
本实施例的负采样装置中,确定模块用于确定模型训练所采用的正样本,获取模块用 于获取正样本与待选样本之间的物理相似程度和内容相似程度,选取模块用于根据物理相 似程度和内容相似程度,从待选样本中选取用于模型训练的负样本。通过相似程度算法, 获得符合要求的模型训练的负样本,解决了现有技术中采用纯随机的方式获取负样本,负 样本选择的质量较差,使得负采样的错采样率比例较高,致使模型训练的速度较慢,训练 效果较差的问题。
基于上述实施例,本发明实施例还提供了一种负采样装置的可能的实现方式,图7为 本发明实施例所提供的另一种负采样装置的结构示意图,在上一实施例的基础上,该装置 还包括:第一生成模块64、计算模块65、第二生成模块66和第三生成模块67。
第一生成模块64,用于生成多个样本对,其中,每个样本对包括多个待选样本中的两 个,多个样本对中的待选样本不同。
计算模块65,用于计算每个样本对中的两个待选样本之间的物理相似程度和内容相似 程度。
第二生成模块66,用于根据每个样本对中的两个待选样本之间的物理相似程度生成第 一相似度矩阵。
第三生成模块67,用于根据每个样本对中的两个待选样本之间的内容相似程度生成第 二相似度矩阵。
作为一种可能的实现方式,第二生成模块66,具体用于:
确定第一相似度矩阵中各行对应的待选样本,以及各列对应的待选样本,针对每一个 样本对,将样本对中两个待选样本之间的物理相似程度作为第一相似度矩阵中两个对称元 素取值,对称元素所在行和列分别对应两个待选样本中的一个样本。
作为一种可能的实现方式,第三生成模块67,具体用于:
确定第二相似度矩阵中各行对应的待选样本,以及各列对应的待选样本,针对每一个 样本对,将样本对中两个待选样本之间的内容相似程度作为第二相似度矩阵中两个对称元 素取值,对称元素所在行和列分别对应两个待选样本中的一个样本。
作为一种可能的实现方式,获取模块62,还可以包括:第一查询单元621、和第二查询单元622。
第一查询单元621,用于根据正样本,查询第一相似度矩阵,得到正样本与各个待选 样本之间物理相似程度,其中,第一相似度矩阵中的元素,用于指示所在行对应的样本与 所在列对应的样本之间的物理相似程度。
第二查询单元622,用于根据正样本,查询第二相似度矩阵,得到正样本与各个待选 样本之间内容相似程度,其中,第二相似度矩阵中的元素,用于指示所在行对应的样本与 所在列对应的样本之间的内容相似程度。
作为一种可能的实现方式,选取模块63,具体用于:
从待选样本中,选取物理相似程度低于物理阈值和内容相似程度低于内容阈值的待选 样本作为负样本。
需要说明的是,上述对方法实施例的解释说明也适用于本实施例的装置,实现原理一 样,此处不再赘述。
本实施例的负采样装置中,确定模块用于确定模型训练所采用的正样本,获取模块用 于获取正样本与待选样本之间的物理相似程度和内容相似程度,选取模块用于根据物理相 似程度和内容相似程度,从待选样本中选取用于模型训练的负样本。通过相似程度算法, 获得符合要求的模型训练的负样本,解决了现有技术中采用纯随机的方式获取负样本,负 样本选择的质量较差,使得负采样的错采样率比例较高,致使模型训练的速度较慢,训练 效果较差的问题。
为了实现上述实施例,本发明还提出一种计算机设备,包括存储器、处理器及存储在 存储器上并可在处理器上运行的计算机程序,处理器执行该计算机程序时,实现如前述方 法实施例所述的负采样方法。
为了实现上述实施例,本发明还提出一种计算机可读存储介质,其上存储有计算机程 序,当该程序被处理器被执行时,实现前述方法实施例所述的负采样方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者 特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述 不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以 在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领 域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进 行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示 或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两 个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个 或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分, 并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序, 包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的 实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实 现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令 执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行 系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设 备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布 线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只 读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及 便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述 程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行 编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储 在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实 施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或 固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技 术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离 散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可 编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可 以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中, 该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各 个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既 可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以 软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读 取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了 本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制, 本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种基于多标签模型的数据处理方法,其特征在于,所述方法包括以下步骤:
确定对多标签模型进行训练所采用的正样本;
获取所述正样本与待选样本之间的物理相似程度和内容相似程度;
其中,所述待选样本的类型包括以下至少之一:文本、图片、音视频,当所述待选样本的类型为文本时,所述物理相似程度为词相似程度,所述内容相似程度为语义相似度;当所述待选样本的类型为图片时,所述物理相似度为像素相似程度,所述内容相似程度为描绘对象相似程度;当所述待选样本的类型为音视频时,所述物理相似度为音符相似程度,所述内容相似程度为旋律相似程度;
根据所述物理相似程度和内容相似程度,从所述待选样本中选取用于所述多标签模型训练的负样本;
通过训练好的所述多标签模型对待识别数据进行场景识别,得到所述待识别数据对应的场景类别,以执行针对所述场景类别的相应操作。
2.根据权利要求1所述的方法,其特征在于,所述获取所述正样本与待选样本之间的物理相似程度和内容相似程度,包括:
根据所述正样本,查询第一相似度矩阵,得到所述正样本与各个待选样本之间物理相似程度;其中,所述第一相似度矩阵中的元素,用于指示所在行对应的样本与所在列对应的样本之间的物理相似程度;
根据所述正样本,查询第二相似度矩阵,得到所述正样本与各个待选样本之间内容相似程度;其中,所述第二相似度矩阵中的元素,用于指示所在行对应的样本与所在列对应的样本之间的内容相似程度。
3.根据权利要求2所述的方法,其特征在于,所述待选样本为多个,所述正样本是从所述待选样本中确定出的,所述获取所述正样本与待选样本之间的物理相似程度和内容相似程度之前,还包括:
生成多个样本对;其中,每个样本对包括所述多个待选样本中的两个,所述多个样本对中的待选样本不同;
计算每个样本对中的两个待选样本之间的物理相似程度和内容相似程度;
根据每个样本对中的两个待选样本之间的物理相似程度生成所述第一相似度矩阵;
根据每个样本对中的两个待选样本之间的内容相似程度生成所述第二相似度矩阵。
4.根据权利要求3所述的方法,其特征在于,所述根据每个样本对中的两个待选样本之间的物理相似程度生成所述第一相似度矩阵,包括:
确定第一相似度矩阵中各行对应的待选样本,以及各列对应的待选样本;
针对每一个样本对,将所述样本对中两个待选样本之间的物理相似程度作为所述第一相似度矩阵中两个对称元素取值;所述对称元素所在行和列分别对应所述两个待选样本中的一个样本。
5.根据权利要求3所述的方法,其特征在于,所述根据每个样本对中的两个待选样本之间的内容相似程度生成所述第二相似度矩阵,包括:
确定第二相似度矩阵中各行对应的待选样本,以及各列对应的待选样本;
针对每一个样本对,将所述样本对中两个待选样本之间的内容相似程度作为所述第二相似度矩阵中两个对称元素取值;所述对称元素所在行和列分别对应所述两个待选样本中的一个样本。
6.根据权利要求1所述的方法,其特征在于,所述根据所述物理相似程度和内容相似程度,从所述待选样本中选取用于所述多标签模型训练的负样本,包括:
从所述待选样本中,选取所述物理相似程度低于物理阈值和内容相似程度低于内容阈值的待选样本作为所述负样本。
7.一种基于多标签模型的数据处理装置,其特征在于,所述装置包括:
确定模块,用于确定对多标签模型进行训练所采用的正样本;
获取模块,用于获取所述正样本与待选样本之间的物理相似程度和内容相似程度;
选取模块,用于根据所述物理相似程度和内容相似程度,从所述待选样本中选取用于所述多标签模型训练的负样本;
其中,所述待选样本的类型包括以下至少之一:文本、图片、音视频,当所述待选样本的类型为文本时,所述物理相似程度为词相似程度,所述内容相似程度为语义相似度;当所述待选样本的类型为图片时,所述物理相似度为像素相似程度,所述内容相似程度为描绘对象相似程度;当所述待选样本的类型为音视频时,所述物理相似度为音符相似程度,所述内容相似程度为旋律相似程度;
识别模块,用于通过训练好的所述多标签模型对待识别数据进行场景识别,得到所述待识别数据对应的场景类别,以执行针对所述场景类别的相应操作。
8.根据权利要求7所述的装置,其特征在于,所述获取模块,具体用于:
根据所述正样本,查询第一相似度矩阵,得到所述正样本与各个待选样本之间物理相似程度;其中,所述第一相似度矩阵中的元素,用于指示所在行对应的样本与所在列对应的样本之间的物理相似程度;
根据所述正样本,查询第二相似度矩阵,得到所述正样本与各个待选样本之间内容相似程度;其中,所述第二相似度矩阵中的元素,用于指示所在行对应的样本与所在列对应的样本之间的内容相似程度。
9.一种计算机设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如权利要求1-6中任一所述的基于多标签模型的数据处理方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-6中任一所述的基于多标签模型的数据处理方法。
CN201710854316.0A 2017-09-20 2017-09-20 负采样方法和装置 Active CN108460396B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710854316.0A CN108460396B (zh) 2017-09-20 2017-09-20 负采样方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710854316.0A CN108460396B (zh) 2017-09-20 2017-09-20 负采样方法和装置

Publications (2)

Publication Number Publication Date
CN108460396A CN108460396A (zh) 2018-08-28
CN108460396B true CN108460396B (zh) 2021-10-15

Family

ID=63221082

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710854316.0A Active CN108460396B (zh) 2017-09-20 2017-09-20 负采样方法和装置

Country Status (1)

Country Link
CN (1) CN108460396B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111199728A (zh) * 2018-10-31 2020-05-26 阿里巴巴集团控股有限公司 训练数据获取方法及装置和智能音箱、智能电视
CN109740632B (zh) * 2018-12-07 2023-11-10 阿波罗智能技术(北京)有限公司 基于多传感器多被测对象的相似度模型训练方法和装置
CN109815336B (zh) * 2019-01-28 2021-07-09 无码科技(杭州)有限公司 一种文本聚合方法及系统
CN111797868A (zh) * 2019-04-09 2020-10-20 Oppo广东移动通信有限公司 场景识别模型建模方法、装置、存储介质及电子设备
CN111796663B (zh) * 2019-04-09 2022-08-16 Oppo广东移动通信有限公司 场景识别模型更新方法、装置、存储介质及电子设备
CN110196910B (zh) * 2019-05-30 2022-02-15 珠海天燕科技有限公司 一种语料分类的方法及装置
CN110543636B (zh) * 2019-09-06 2023-05-23 出门问问创新科技有限公司 一种对话系统的训练数据选择方法
CN112749565A (zh) * 2019-10-31 2021-05-04 华为终端有限公司 基于人工智能的语义识别方法、装置和语义识别设备
CN110889747B (zh) * 2019-12-02 2023-05-09 腾讯科技(深圳)有限公司 商品推荐方法、装置、系统、计算机设备及存储介质
CN111460091B (zh) * 2020-03-09 2023-10-27 杭州麦歌算法科技有限公司 医学短文本数据负样例采样方法及医学诊断标准术语映射模型训练方法
US11816159B2 (en) 2020-06-01 2023-11-14 Yandex Europe Ag Method of and system for generating a training set for a machine learning algorithm (MLA)
CN111382807B (zh) * 2020-06-01 2020-09-01 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机设备和存储介质
CN114020974B (zh) * 2022-01-04 2022-06-21 阿里巴巴达摩院(杭州)科技有限公司 样本数据确定及对话意图识别方法、存储介质及程序产品
CN115630678A (zh) * 2022-12-01 2023-01-20 中国科学技术大学 一种基于gpu存储的自适应负样本采样池的模型训练方法
CN117272937B (zh) * 2023-11-03 2024-02-23 腾讯科技(深圳)有限公司 文本编码模型训练方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101539990A (zh) * 2008-03-20 2009-09-23 中国科学院自动化研究所 一种虹膜图像鲁棒特征选择和快速比对的方法
CN105447730A (zh) * 2015-12-25 2016-03-30 腾讯科技(深圳)有限公司 目标用户定向方法及装置
CN106250378A (zh) * 2015-06-08 2016-12-21 腾讯科技(深圳)有限公司 公共标识分类方法及装置
CN106599938A (zh) * 2016-12-30 2017-04-26 南京睿观信息科技有限公司 一种基于深度网络模型敏感旗帜内容的层次分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103839041B (zh) * 2012-11-27 2017-07-18 腾讯科技(深圳)有限公司 客户端特征的识别方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101539990A (zh) * 2008-03-20 2009-09-23 中国科学院自动化研究所 一种虹膜图像鲁棒特征选择和快速比对的方法
CN106250378A (zh) * 2015-06-08 2016-12-21 腾讯科技(深圳)有限公司 公共标识分类方法及装置
CN105447730A (zh) * 2015-12-25 2016-03-30 腾讯科技(深圳)有限公司 目标用户定向方法及装置
CN106599938A (zh) * 2016-12-30 2017-04-26 南京睿观信息科技有限公司 一种基于深度网络模型敏感旗帜内容的层次分类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于SVM的多示例多标签主动学习;李杰龙等;《计算机工程与设计》;20160116(第01期);全文 *
基于正样本和未标记样本的遥感图像分类方法;裔阳等;《计算机工程与应用》;20170228(第04期);全文 *
多标签分类问题综述;冯雪东;《信息系统工程》;20160320(第03期);全文 *

Also Published As

Publication number Publication date
CN108460396A (zh) 2018-08-28

Similar Documents

Publication Publication Date Title
CN108460396B (zh) 负采样方法和装置
CN109376309B (zh) 基于语义标签的文档推荐方法和装置
US11197036B2 (en) Multimedia stream analysis and retrieval
AU2011326430B2 (en) Learning tags for video annotation using latent subtags
CN111767461B (zh) 数据处理方法及装置
US10733980B2 (en) Thematic segmentation of long content using deep learning and contextual cues
CN113010703B (zh) 一种信息推荐方法、装置、电子设备和存储介质
CN109558513B (zh) 一种内容推荐方法、装置、终端及存储介质
KR101811468B1 (ko) 톱-k 처리를 이용한 의미 보강
US10909972B2 (en) Spoken language understanding using dynamic vocabulary
CN112836487B (zh) 一种自动评论方法、装置、计算机设备及存储介质
CN112733654B (zh) 一种视频拆条的方法和装置
WO2019219083A1 (zh) 视频检索方法及视频检索映射关系生成方法、装置
Pereira et al. SAPTE: A multimedia information system to support the discourse analysis and information retrieval of television programs
CN115273840A (zh) 语音交互设备和语音交互方法
CN109800326B (zh) 一种视频处理方法、装置、设备和存储介质
Ibrahim et al. Large-scale text-based video classification using contextual features
CN112804580B (zh) 一种视频打点的方法和装置
Stein et al. From raw data to semantically enriched hyperlinking: Recent advances in the LinkedTV analysis workflow
Kamde et al. Entropy supported video indexing for content based video retrieval
CN116523024B (zh) 召回模型的训练方法、装置、设备及存储介质
US20240126990A1 (en) Deep learning for multimedia classification
CN117271806A (zh) 内容推荐方法、装置、设备、存储介质及产品
CN118035487A (zh) 视频索引生成和检索方法、装置、电子设备及存储介质
CN116483946A (zh) 数据处理方法、装置、设备及计算机程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant