CN110046634A - 聚类结果的解释方法和装置 - Google Patents

聚类结果的解释方法和装置 Download PDF

Info

Publication number
CN110046634A
CN110046634A CN201811471749.9A CN201811471749A CN110046634A CN 110046634 A CN110046634 A CN 110046634A CN 201811471749 A CN201811471749 A CN 201811471749A CN 110046634 A CN110046634 A CN 110046634A
Authority
CN
China
Prior art keywords
feature
embedded object
model
embedded
explanation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811471749.9A
Other languages
English (en)
Other versions
CN110046634B (zh
Inventor
王力
向彪
周俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201811471749.9A priority Critical patent/CN110046634B/zh
Publication of CN110046634A publication Critical patent/CN110046634A/zh
Priority to TW108133385A priority patent/TWI726420B/zh
Priority to PCT/CN2019/112090 priority patent/WO2020114108A1/zh
Application granted granted Critical
Publication of CN110046634B publication Critical patent/CN110046634B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

说明书披露一种聚类结果的解释方法和装置。该方法包括:采用嵌入算法对嵌入对象进行嵌入处理,得到每个嵌入对象的嵌入结果;采用聚类模型对所述嵌入结果进行聚类,得到每个嵌入对象的类别标签;采用所述嵌入对象的特征和类别标签对解释模型进行训练;针对每个类别,从所述类别中提取若干嵌入对象;基于提取的每个嵌入对象的特征和已训练的解释模型确定所述嵌入对象属于所述类别的解释特征;汇总同一类别下提取的每个嵌入对象的解释特征,得到所述聚类模型在该类别下的解释特征。

Description

聚类结果的解释方法和装置
技术领域
本说明书涉及机器学习技术领域,尤其涉及一种聚类结果的解释方法和装置。
背景技术
嵌入(Embedding)在数学上表示一种映射,可将一个空间映射到另一个空间,并保留基本属性。利用嵌入算法可将一些复杂的难以表达的特征转换成易计算的形式,例如:向量、矩阵等,便于机器学习模型进行处理。然而,嵌入算法并不具有解释性,这就导致对嵌入结果进行聚类的聚类模型不具有解释性,无法满足业务场景的需求。
发明内容
有鉴于此,本说明书提供一种聚类结果的解释方法和装置。
具体地,本说明书是通过如下技术方案实现的:
一种聚类结果的解释方法,包括:
采用嵌入算法对嵌入对象进行嵌入处理,得到每个嵌入对象的嵌入结果;
采用聚类模型对所述嵌入结果进行聚类,得到每个嵌入对象的类别标签;
采用所述嵌入对象的特征和类别标签对解释模型进行训练;
针对每个类别,从所述类别中提取若干嵌入对象;
基于提取的每个嵌入对象的特征和已训练的解释模型确定所述嵌入对象属于所述类别的解释特征;
汇总同一类别下提取的每个嵌入对象的解释特征,得到所述聚类模型在该类别下的解释特征。
一种风险团伙识别模型的识别结果解释方法,包括:
采用嵌入算法对用户节点进行嵌入处理,得到每个用户节点的嵌入结果;
采用风险团伙识别模型对所述嵌入结果进行识别,得到每个用户节点所属的风险团伙标签;
采用所述用户节点的特征和所述风险团伙标签对解释模型进行训练;
针对每个风险团伙,从所述风险团伙中提取若干用户节点;
基于提取的每个用户节点的特征和已训练的解释模型确定所述用户节点属于所述风险团伙的解释特征;
汇总同一风险团伙中提取的每个用户节点的解释特征,得到所述风险团伙识别模型对应应该风险团伙的解释特征。
一种文本聚类模型的聚类结果解释方法,包括:
采用嵌入算法对待聚类文本进行嵌入处理,得到每个文本的嵌入结果;
采用文本聚类模型对所述嵌入结果进行聚类,得到每个文本的类别标签;
采用所述文本的特征和所述类别标签对解释模型进行训练;
针对每个类别,从所述类别中提取若干文本;
基于提取的每个文本的特征和已训练的解释模型确定所述文本属于所述类别的解释特征;
汇总同一类别中提取的每个文本的解释特征,得到所述文本聚类模型在该类别下的解释特征。
一种聚类结果的解释装置,包括:
嵌入处理单元,采用嵌入算法对嵌入对象进行嵌入处理,得到每个嵌入对象的嵌入结果;
对象聚类单元,采用聚类模型对所述嵌入结果进行聚类,得到每个嵌入对象的类别标签;
模型训练单元,采用所述嵌入对象的特征和类别标签对解释模型进行训练;
对象提取单元,针对每个类别,从所述类别中提取若干嵌入对象;
特征确定单元,基于提取的每个嵌入对象的特征和已训练的解释模型确定所述嵌入对象属于所述类别的解释特征;
特征汇总单元,汇总同一类别下提取的每个嵌入对象的解释特征,得到所述聚类模型在该类别下的解释特征。
一种聚类结果的解释装置,包括:
处理器;
用于存储机器可执行指令的存储器;
其中,通过读取并执行所述存储器存储的与聚类结果的解释逻辑对应的机器可执行指令,所述处理器被促使:
采用嵌入算法对嵌入对象进行嵌入处理,得到每个嵌入对象的嵌入结果;
采用聚类模型对所述嵌入结果进行聚类,得到每个嵌入对象的类别标签;
采用所述嵌入对象的特征和类别标签对解释模型进行训练;
针对每个类别,从所述类别中提取若干嵌入对象;
基于提取的每个嵌入对象的特征和已训练的解释模型确定所述嵌入对象属于所述类别的解释特征;
汇总同一类别下提取的每个嵌入对象的解释特征,得到所述聚类模型在该类别下的解释特征。
由以上描述可以看出,本说明书可采用嵌入对象的特征和类别标签对具有解释性的解释模型进行训练,并可基于已训练的解释模型确定每个类别下各嵌入对象类别划分的解释特征,然后可汇总同一分类中嵌入对象的解释特征,得到聚类模型在该类别下的解释特征,实现对聚类结果的解释,从而为开发者修复聚类模型的偏差提供依据,有助于提升模型的泛化能力和性能,并且有助于规避法律风险和道德风险。
附图说明
图1是本说明书一示例性实施例示出的一种聚类结果的解释方法的流程示意图。
图2是本说明书一示例性实施例示出的另一种聚类结果的解释方法的流程示意图。
图3是本说明书一示例性实施例示出的一种决策树示意图。
图4是本说明书一示例性实施例示出的一种用于聚类结果的解释装置的一结构示意图。
图5是本说明书一示例性实施例示出的一种聚类结果的解释装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。
在本说明书使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
本说明书提供一种聚类结果的解释方案,一方面可采用聚类模型对嵌入对象的嵌入结果进行聚类,得到每个嵌入对象的类别标签;另一方面可采用嵌入对象的特征和类别标签对具有解释性的解释模型进行训练,并可基于已训练的解释模型确定在每个类别中提取的嵌入对象属于所述类别的解释特征,然后再汇总同一类别中提取的每个嵌入对象的解释特征,得到上述聚类模型在该类别下的解释特征,从而实现聚类模型的解释。
图1和图2是本说明书一示例性实施例示出的聚类结果的解释方法的流程示意图。
请参考图1和图2,所述聚类结果的解释方法可包括以下步骤:
步骤102,采用嵌入算法对嵌入对象进行嵌入处理,得到每个嵌入对象的嵌入结果。
步骤104,采用聚类模型对所述嵌入结果进行聚类,得到每个嵌入对象的类别标签。
在一个例子中,所述嵌入对象可以是图结构中的图节点。
例如,所述嵌入对象可以是用户网络图中的用户节点。所述用户网络图可基于用户的支付数据、好友关系数据等建立。
采用嵌入算法对用户网络图中的用户节点进行嵌入处理后,可得到每个用户节点对应的向量。
将各个用户节点对应的向量作为入参输入聚类模型,可得到每个用户节点的类别标签。
在另一个例子中,所述嵌入对象可以是待聚类的文本,例如:新闻、资讯等。
采用嵌入算法对每个文本所包括的词汇进行嵌入处理,可得到每个文本中各个词汇对应的向量,即可得到每个文本对应的向量集。
将每个文本对应的向量集作为入参输入聚类模型,可得到每个文本的类别标签。
例如,文本1对应科技类别标签1,文本2对应体育类别标签2等,可表示文本1属于科技类文本,文本2属于体育类文本等。
在本实施例中,为便于描述,可将嵌入对象经嵌入算法处理后得到的向量、矩阵等统称为嵌入结果。采用嵌入结果作为入参进行机器学习计算,可有效提高机器处理效率。
在其他例子中,嵌入结果的计算和聚类模型的聚类可同时进行,例如,可将嵌入算法和聚类模型结合,将嵌入对象作为入参输入结合后的模型,由结合后的模型进行嵌入结果的计算以及嵌入对象的聚类,本说明书对此不作特殊限制。
步骤106,采用所述嵌入对象的特征和类别标签对解释模型进行训练。
在本实施例中,可采用具有解释性的多分类模型作为所述解释模型,例如线性模型、决策树等,本说明书对此不作特殊限制。
所述嵌入对象的特征可包括嵌入对象的原始特征和拓扑特征。
其中,所述原始特征通常是嵌入对象自身已有的特征。
例如,用户节点的原始特征可包括用户的年龄、性别、职业、收入等。
再例如,文本的原始特征可包括词汇的词性、词频等。
所述拓扑特征可用于表示嵌入对象的拓扑结构。
以嵌入对象是图节点为例,所述拓扑特征可包括:一阶邻居数据、二阶邻居数量、一阶邻居的平均邻居数量、一阶邻居在指定原始特征维度下的统计值等。
仍以风险团伙识别为例,所述一阶邻居在指定原始特征维度下的统计值可以是一阶邻居的平均年龄、一阶邻居的年龄最大值、一阶邻居的平均年收入、一阶邻居的年收入最小值等。
以嵌入对象是文本所包括的词汇为例,所述拓扑特征可包括:最常出现在该词汇前面的词汇、经常和该词汇搭配出现的词汇个数等。
在本实施例中,采用拓扑特征对原始特征进行补充,一方面可解决部分嵌入对象没有原始特征的问题,另一方面还可将嵌入对象的拓扑结构补充到特征中,从而提高解释模型训练结果的准确性。
步骤108,针对每个类别,从所述类别中提取若干嵌入对象。
在本实施例中,针对前述聚类模型输出的每个类别,可从该类别中提取若干嵌入对象。其中,提取的嵌入对象数量可预先设置,例如5000、3000等;提取的嵌入对象数量还可是对应类别下嵌入对象总数量的百分比,例如百分之50、百分之30等,本说明书对此不作特殊限制。
步骤110,基于提取的每个嵌入对象的特征和已训练的解释模型确定所述嵌入对象属于所述类别的解释特征。
在本实施例中,针对提取的每个嵌入对象,可基于已训练的解释模型计算所述嵌入对象的每个特征对嵌入对象类别划分结果的贡献值,然后可将贡献值满足预定条件的特征作为该嵌入对象属于所述类别的解释特征。
例如,可将所述嵌入对象的各个特征按照贡献值从大到小的顺序进行排序,可将排列在前5位、前8位的特征作为该嵌入对象属于所述类别的解释特征,本说明书对此不作特殊限制。
步骤112,汇总同一类别下提取的每个嵌入对象的解释特征,得到所述聚类模型在该类别下的解释特征。
在一个例子中,针对同一类别,在进行汇总时,可计算各个解释特征出现的总次数,然后选取总次数最多的若干个解释特征作为所述聚类模型在该类别下的解释特征。
嵌入对象 解释特征
嵌入对象1 特征1-5
嵌入对象2 特征2-6
嵌入对象3 特征7-11
嵌入对象4 特征1-4,特征15
嵌入对象5 特征1-3,特征13-14
表1
请参考表1的示例,假设某个类别中有5个嵌入对象,分别为嵌入对象1至嵌入对象5,嵌入对象1属于其类别划分结果的解释特征是特征1-特征5,嵌入对象2属于其类别划分结果的解释特征是特征2-特征6,则可汇总所述类别中各个特征出现的次数,得到表2所示的统计结果。
解释特征 出现次数
特征1、特征4 3
特征2、特征3 4
特征5 2
特征6-特征11、特征13-特征15 1
表2
请参考表2的示例,通过计算可得特征1和特征4均出现3次,特征2和特征3均出现4次等。
在本例中,假设选取出现次数最多的5个解释特征,则可选取出特征1-特征5,并将特征1-特征5作为所述聚类模型在该类别下的解释特征。
在另一个例子中,针对同一类别,在进行汇总时,可计算该类别下各个解释特征的贡献值之和,然后选取贡献值之和最多的若干个解释特征作为所述聚类模型在该类别下的解释特征。
请继续参考表1和表2的示例,特征1的贡献值之和等于特征1在嵌入对象1中的贡献值加上特征1在嵌入对象4中的贡献值再加上特征1在嵌入对象5中的贡献值。类似的,可计算表2所示的各个特征的贡献值之和,然后可选取贡献值之和排列在前5位的解释特征作为聚类模型在该类别下的解释特征。
在本实施例中,通过汇总各类别下提取的每个嵌入对象的解释特征,可得到所述聚类模型在该类别下的解释特征,实现聚类模型的结果解释。
由以上描述可以看出,本说明书可采用嵌入对象的特征和类别标签对具有解释性的解释模型进行训练,并可基于已训练的解释模型确定每个类别下各嵌入对象类别划分的解释特征,然后可汇总同一分类中嵌入对象的解释特征,得到聚类模型在该类别下的解释特征,实现对聚类结果的解释,从而为开发者修复聚类模型的偏差提供依据,有助于提升模型的泛化能力和性能,并且有助于规避法律风险和道德风险。
下面分别以解释模型是线性模型和决策树为例,对特征贡献值的计算方法进行详细描述。
一、线性模型
在本实施例中,当解释模型是线性模型时,在采用嵌入对象的特征和类别标签对该线性模型进行训练后,可得到每个类别下各个嵌入对象特征的权重。
表3
请参考表3的示例,假设在类别1中,特征1的权重是W1,特征2的权重是W2,依次类推。在计算某嵌入对象各特征对类别划分结果的贡献值时,可先获取在该嵌入对象所属的类别下各特征的权重,然后计算嵌入对象特征值与对应权重的乘积,并将该乘积作为所述贡献值。
例如,特征1对嵌入对象1的类别划分结果的贡献值等于嵌入对象1的特征1的特征值乘以W1;特征2对嵌入对象1的类别划分结果的贡献值等于嵌入对象1的特征2的特征值乘以W2等,本说明书在此不再一一赘述。
二、决策树
在本实施例中,当解释模型是决策树时,在嵌入对象的特征和类别标签对该决策树进行训练后,可得到决策树中各特征的分裂点。
请参考图3所示的决策树,图3所示的决策树中的各个树节点都可代表唯一的一个特征,例如树节点1代表用户年龄、树节点2代表用户年收入等。该决策树中各特征的分裂点通常指对应特征的特征阈值,例如,年龄树节点的分裂点是50,当用户年龄小于等于50时,可确定选择分叉路径12,当用户年龄大于50时,可确定选择分叉路径13等。
在本实施例中,在确定嵌入对象特征的贡献值时,可先将嵌入对象输入已训练的决策树,然后可在决策树对该嵌入对象进行类别划分的过程中,确定该嵌入对象在所述决策树中经过的路径,并获取该路径上的各个特征及所述特征的分裂点。
仍以图3为例,假设某嵌入对象在图3所示的决策树中经过的路径是树节点1->树节点2->树节点4,则可获取树节点1、树节点2和树节点4这3个树节点所代表的特征以及所述特征的分裂点。
针对获取到的每个特征及其分裂点,计算该嵌入对象对应的特征值和所述分裂点之间的距离,并可将该距离作为所述特征对该嵌入对象类别划分结果的贡献值。
仍以树节点1代表用户年龄,其分裂点是50为例,假设某嵌入对象的用户年龄是20岁,则特征用户年龄的贡献值是50与20的差值,即30。当然,在实际应用中,在计算得到上述距离后,还可对距离进行归一化处理,并可将归一化结果作为对应的贡献值,本说明书对此不作特殊限制。
本说明书还提供一种对风险团伙识别模型的识别结果进行解释的方法。
一方面,可采用嵌入算法对用户网络图中的用户节点进行嵌入处理,得到每个用户节点的嵌入结果,然后采用风险团伙识别模型对所述嵌入结果进行识别,得到每个用户节点所属的风险团伙标签。
另一方面,可采用用户节点的特征和所述的风险团伙标签对具有解释性的解释模型进行训练。在训练完毕后,针对每个风险团伙,可从该风险团伙中提取若干用户节点,并基于提取的每个用户节点的特征和已训练的解释模型确定所述用户节点属于所述风险团伙的解释特征,然后可汇总同一风险团伙中提取的每个用户节点的解释特征,得到所述风险团伙识别模型对应该风险团伙的解释特征。
在本实施例中,可得到风险团伙识别模型对应识别出的各个风险团伙的解释特征。
例如,风险团伙1的解释特征可包括:无固定职业、年收入低于8万、常住地广西、年龄18-25周岁等。可表示风险团伙识别模型通过这些用户特征识别出风险团伙1。
再例如,风险团伙2的解释特征可包括:无固定职业、年收入低于10万、常住地云南、年龄20-28周岁、使用Wi-Fi网络的SSID是12345等。可表示风险团伙识别模型通过这些用户特征识别出风险团伙2。
本说明书还提供一种文本聚类模型的聚类结果解释方法。
一方面,可采用嵌入算法对待聚类的文本中各词汇进行嵌入处理,得到每个文本的嵌入结果,然后采用文本聚类模型对所述嵌入结果进行聚类,得到每个文本所属的类别标签。
另一方面,可采用所述文本的特征和所述类别标签对具有解释性的解释模型进行训练。在训练完毕后,针对每个类别,可从该类别中提取若干文本,并基于提取的每个文本的特征和已训练的解释模型确定所提取文本属于所述类别的解释特征,然后可汇总同一类别中提取的每个文本的解释特征,得到所述文本聚类模型在该类别下的解释特征。
在本实施例中,可得到所述文本聚类模型聚类出的各个文本类别的解释特征。
例如,科技类文本的解释特征可包括:计算机、人工智能、技术、创新、技术的词频大于0.01等。可表示文本聚类模型通过这些特征确定出属于科技类别的文本。
再例如,体育类文本的解释特征可包括:足球、篮球、运动、游泳、记录等。可表示文本聚类模型通过这些特征确定出属于体育类别的文本。
与前述聚类结果的解释方法的实施例相对应,本说明书还提供了聚类结果的解释装置的实施例。
本说明书聚类结果的解释装置的实施例可以应用在服务器上。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在服务器的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图4所示,为本说明书聚类结果的解释装置所在服务器的一种硬件结构图,除了图4所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的服务器通常根据该服务器的实际功能,还可以包括其他硬件,对此不再赘述。
图5是本说明书一示例性实施例示出的一种聚类结果的解释装置的框图。
请参考图5,所述聚类结果的解释装置400可以应用在前述图4所示的服务器中,包括有:嵌入处理单元401、对象聚类单元402、模型训练单元403、对象提取单元404、特征确定单元405以及特征汇总单元406。
其中,嵌入处理单元401,采用嵌入算法对嵌入对象进行嵌入处理,得到每个嵌入对象的嵌入结果;
对象聚类单元402,采用聚类模型对所述嵌入结果进行聚类,得到每个嵌入对象的类别标签;
模型训练单元403,采用所述嵌入对象的特征和类别标签对解释模型进行训练;
对象提取单元404,针对每个类别,从所述类别中提取若干嵌入对象;
特征确定单元405,基于提取的每个嵌入对象的特征和已训练的解释模型确定所述嵌入对象属于所述类别的解释特征;
特征汇总单元406,汇总同一类别下提取的每个嵌入对象的解释特征,得到所述聚类模型在该类别下的解释特征。
可选的,所述特征确定单元405:
针对每个嵌入对象,基于已训练的解释模型计算所述嵌入对象的每个特征对类别划分结果的贡献值;
提取贡献值满足预定条件的特征作为所述嵌入对象属于所述类别的解释特征。
可选的,当所述解释模型是线性模型时,所述特征确定单元405:
获取已训练的线性模型中的各特征在所述嵌入对象所属类别下的权重;
计算所述嵌入对象的特征值与对应权重的乘积,作为所述特征对嵌入对象类别划分结果的贡献值。
可选的,当所述解释模型是决策树时,所述特征确定单元405:
在采用已训练的决策树对所述嵌入对象进行类别划分的过程中,获取所述嵌入对象经过的路径上各特征的分裂点;
计算所述特征的分裂点与对应的嵌入对象特征值之间的距离,作为所述特征对嵌入对象类别划分结果的贡献值。
可选的,所述特征确定单元405:
按照贡献值从大到小的顺序对特征进行排序;
提取排列在前N位的特征作为所述嵌入对象属于所述类别的解释特征,N为大于等于1的自然数。
可选的,所述特征包括:原始特征和拓扑特征。
可选的,所述拓扑特征包括以下一种或多种:
一阶邻居数量、二阶邻居数量、一阶邻居的平均邻居数量、一阶邻居在指定原始特征维度下的统计值。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
与前述聚类结果的解释方法的实施例相对应,本说明书还提供一种聚类结果的解释装置,该装置包括:处理器以及用于存储机器可执行指令的存储器。其中,处理器和存储器通常借由内部总线相互连接。在其他可能的实现方式中,所述设备还可能包括外部接口,以能够与其他设备或者部件进行通信。
在本实施例中,通过读取并执行所述存储器存储的与聚类结果的解释逻辑对应的机器可执行指令,所述处理器被促使:
采用嵌入算法对嵌入对象进行嵌入处理,得到每个嵌入对象的嵌入结果;
采用聚类模型对所述嵌入结果进行聚类,得到每个嵌入对象的类别标签;
采用所述嵌入对象的特征和类别标签对解释模型进行训练;
针对每个类别,从所述类别中提取若干嵌入对象;
基于提取的每个嵌入对象的特征和已训练的解释模型确定所述嵌入对象属于所述类别的解释特征;
汇总同一类别下提取的每个嵌入对象的解释特征,得到所述聚类模型在该类别下的解释特征。
可选的,在基于提取的每个嵌入对象的特征和已训练的解释模型确定所述嵌入对象属于所述类别的解释特征时,所述处理器被促使:
针对每个嵌入对象,基于已训练的解释模型计算所述嵌入对象的每个特征对类别划分结果的贡献值;
提取贡献值满足预定条件的特征作为所述嵌入对象的解释特征。
可选的,当所述解释模型是线性模型时,在基于已训练的解释模型计算所述嵌入对象的每个特征对类别划分结果的贡献值时,所述处理器被促使:
获取已训练的线性模型中的各特征在所述嵌入对象所属类别下的权重;
计算所述嵌入对象的特征值与对应权重的乘积,作为所述特征对嵌入对象类别划分结果的贡献值。
可选的,当所述解释模型是决策树时,在基于已训练的解释模型计算所述嵌入对象的每个特征对类别划分结果的贡献值时,所述处理器被促使:
在采用已训练的决策树对所述嵌入对象进行类别划分的过程中,获取所述嵌入对象经过的路径上各特征的分裂点;
计算所述特征的分裂点与对应的嵌入对象特征值之间的距离,作为所述特征对嵌入对象类别划分结果的贡献值。
可选的,在提取贡献值满足预定条件的特征作为所述嵌入对象属于所述类别的解释特征时,所述处理器被促使:
按照贡献值从大到小的顺序对特征进行排序;
提取排列在前N位的特征作为所述嵌入对象属于所述类别的解释特征,N为大于等于1的自然数。
可选的,所述特征包括:原始特征和拓扑特征。
可选的,所述拓扑特征包括以下一种或多种:
一阶邻居数量、二阶邻居数量、一阶邻居的平均邻居数量、一阶邻居在指定原始特征维度下的统计值。
与前述聚类结果的解释方法的实施例相对应,本说明书还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现以下步骤:
采用嵌入算法对嵌入对象进行嵌入处理,得到每个嵌入对象的嵌入结果;
采用聚类模型对所述嵌入结果进行聚类,得到每个嵌入对象的类别标签;
采用所述嵌入对象的特征和类别标签对解释模型进行训练;
针对每个类别,从所述类别中提取若干嵌入对象;
基于提取的每个嵌入对象的特征和已训练的解释模型确定所述嵌入对象属于所述类别的解释特征;
汇总同一类别下提取的每个嵌入对象的解释特征,得到所述聚类模型在该类别下的解释特征。
可选的,所述基于提取的每个嵌入对象的特征和已训练的解释模型确定所述嵌入对象属于所述类别的解释特征,包括:
针对每个嵌入对象,基于已训练的解释模型计算所述嵌入对象的每个特征对类别划分结果的贡献值;
提取贡献值满足预定条件的特征作为所述嵌入对象属于所述类别的解释特征。
可选的,当所述解释模型是线性模型时,所述基于已训练的解释模型计算所述嵌入对象的每个特征对类别划分结果的贡献值,包括:
获取已训练的线性模型中的各特征在所述嵌入对象所属类别下的权重;
计算所述嵌入对象的特征值与对应权重的乘积,作为所述特征对嵌入对象类别划分结果的贡献值。
可选的,当所述解释模型是决策树时,所述基于已训练的解释模型计算所述嵌入对象的每个特征对类别划分结果的贡献值,包括:
在采用已训练的决策树对所述嵌入对象进行类别划分的过程中,获取所述嵌入对象经过的路径上各特征的分裂点;
计算所述特征的分裂点与对应的嵌入对象特征值之间的距离,作为所述特征对嵌入对象类别划分结果的贡献值。
可选的,所述提取贡献值满足预定条件的特征作为所述嵌入对象属于所述类别的解释特征,包括:
按照贡献值从大到小的顺序对特征进行排序;
提取排列在前N位的特征作为所述嵌入对象属于所述类别的解释特征,N为大于等于1的自然数。
可选的,所述特征包括:原始特征和拓扑特征。
可选的,所述拓扑特征包括以下一种或多种:
一阶邻居数量、二阶邻居数量、一阶邻居的平均邻居数量、一阶邻居在指定原始特征维度下的统计值。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
以上所述仅为本说明书的较佳实施例而已,并不用以限制本说明书,凡在本说明书的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书保护的范围之内。

Claims (17)

1.一种聚类结果的解释方法,包括:
采用嵌入算法对嵌入对象进行嵌入处理,得到每个嵌入对象的嵌入结果;
采用聚类模型对所述嵌入结果进行聚类,得到每个嵌入对象的类别标签;
采用所述嵌入对象的特征和类别标签对解释模型进行训练;
针对每个类别,从所述类别中提取若干嵌入对象;
基于提取的每个嵌入对象的特征和已训练的解释模型确定所述嵌入对象属于所述类别的解释特征;
汇总同一类别下提取的每个嵌入对象的解释特征,得到所述聚类模型在该类别下的解释特征。
2.根据权利要求1所述的方法,所述基于提取的每个嵌入对象的特征和已训练的解释模型确定所述嵌入对象属于所述类别的解释特征,包括:
针对每个嵌入对象,基于已训练的解释模型计算所述嵌入对象的每个特征对类别划分结果的贡献值;
提取贡献值满足预定条件的特征作为所述嵌入对象属于所述类别的解释特征。
3.根据权利要求2所述的方法,当所述解释模型是线性模型时,所述基于已训练的解释模型计算所述嵌入对象的每个特征对类别划分结果的贡献值,包括:
获取已训练的线性模型中的各特征在所述嵌入对象所属类别下的权重;
计算所述嵌入对象的特征值与对应权重的乘积,作为所述特征对嵌入对象类别划分结果的贡献值。
4.根据权利要求2所述的方法,当所述解释模型是决策树时,所述基于已训练的解释模型计算所述嵌入对象的每个特征对类别划分结果的贡献值,包括:
在采用已训练的决策树对所述嵌入对象进行类别划分的过程中,获取所述嵌入对象经过的路径上各特征的分裂点;
计算所述特征的分裂点与对应的嵌入对象特征值之间的距离,作为所述特征对嵌入对象类别划分结果的贡献值。
5.根据权利要求2所述的方法,所述提取贡献值满足预定条件的特征作为所述嵌入对象属于所述类别的解释特征,包括:
按照贡献值从大到小的顺序对特征进行排序;
提取排列在前N位的特征作为所述嵌入对象属于所述类别的解释特征,N为大于等于1的自然数。
6.根据权利要求1所述的方法,
所述特征包括:原始特征和拓扑特征。
7.根据权利要求6所述的方法,所述拓扑特征包括以下一种或多种:
一阶邻居数量、二阶邻居数量、一阶邻居的平均邻居数量、一阶邻居在指定原始特征维度下的统计值。
8.一种风险团伙识别模型的识别结果解释方法,包括:
采用嵌入算法对用户节点进行嵌入处理,得到每个用户节点的嵌入结果;
采用风险团伙识别模型对所述嵌入结果进行识别,得到每个用户节点所属的风险团伙标签;
采用所述用户节点的特征和所述风险团伙标签对解释模型进行训练;
针对每个风险团伙,从所述风险团伙中提取若干用户节点;
基于提取的每个用户节点的特征和已训练的解释模型确定所述用户节点属于所述风险团伙的解释特征;
汇总同一风险团伙中提取的每个用户节点的解释特征,得到所述风险团伙识别模型对应应该风险团伙的解释特征。
9.一种文本聚类模型的聚类结果解释方法,包括:
采用嵌入算法对待聚类文本进行嵌入处理,得到每个文本的嵌入结果;
采用文本聚类模型对所述嵌入结果进行聚类,得到每个文本的类别标签;
采用所述文本的特征和所述类别标签对解释模型进行训练;
针对每个类别,从所述类别中提取若干文本;
基于提取的每个文本的特征和已训练的解释模型确定所述文本属于所述类别的解释特征;
汇总同一类别中提取的每个文本的解释特征,得到所述文本聚类模型在该类别下的解释特征。
10.一种聚类结果的解释装置,包括:
嵌入处理单元,采用嵌入算法对嵌入对象进行嵌入处理,得到每个嵌入对象的嵌入结果;
对象聚类单元,采用聚类模型对所述嵌入结果进行聚类,得到每个嵌入对象的类别标签;
模型训练单元,采用所述嵌入对象的特征和类别标签对解释模型进行训练;
对象提取单元,针对每个类别,从所述类别中提取若干嵌入对象;
特征确定单元,基于提取的每个嵌入对象的特征和已训练的解释模型确定所述嵌入对象属于所述类别的解释特征;
特征汇总单元,汇总同一类别下提取的每个嵌入对象的解释特征,得到所述聚类模型在该类别下的解释特征。
11.根据权利要求10所述的装置,所述特征确定单元:
针对每个嵌入对象,基于已训练的解释模型计算所述嵌入对象的每个特征对类别划分结果的贡献值;
提取贡献值满足预定条件的特征作为所述嵌入对象属于所述类别的解释特征。
12.根据权利要求11所述的装置,当所述解释模型是线性模型时,所述特征确定单元:
获取已训练的线性模型中的各特征在所述嵌入对象所属类别下的权重;
计算所述嵌入对象的特征值与对应权重的乘积,作为所述特征对嵌入对象类别划分结果的贡献值。
13.根据权利要求11所述的装置,当所述解释模型是决策树时,所述特征确定单元:
在采用已训练的决策树对所述嵌入对象进行类别划分的过程中,获取所述嵌入对象经过的路径上各特征的分裂点;
计算所述特征的分裂点与对应的嵌入对象特征值之间的距离,作为所述特征对嵌入对象类别划分结果的贡献值。
14.根据权利要求11所述的装置,所述特征确定单元:
按照贡献值从大到小的顺序对特征进行排序;
提取排列在前N位的特征作为所述嵌入对象属于所述类别的解释特征,N为大于等于1的自然数。
15.根据权利要求10所述的装置,
所述特征包括:原始特征和拓扑特征。
16.根据权利要求15所述的装置,所述拓扑特征包括以下一种或多种:
一阶邻居数量、二阶邻居数量、一阶邻居的平均邻居数量、一阶邻居在指定原始特征维度下的统计值。
17.一种聚类结果的解释装置,包括:
处理器;
用于存储机器可执行指令的存储器;
其中,通过读取并执行所述存储器存储的与聚类结果的解释逻辑对应的机器可执行指令,所述处理器被促使:
采用嵌入算法对嵌入对象进行嵌入处理,得到每个嵌入对象的嵌入结果;
采用聚类模型对所述嵌入结果进行聚类,得到每个嵌入对象的类别标签;
采用所述嵌入对象的特征和类别标签对解释模型进行训练;
针对每个类别,从所述类别中提取若干嵌入对象;
基于提取的每个嵌入对象的特征和已训练的解释模型确定所述嵌入对象属于所述类别的解释特征;
汇总同一类别下提取的每个嵌入对象的解释特征,得到所述聚类模型在该类别下的解释特征。
CN201811471749.9A 2018-12-04 2018-12-04 聚类结果的解释方法和装置 Active CN110046634B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201811471749.9A CN110046634B (zh) 2018-12-04 2018-12-04 聚类结果的解释方法和装置
TW108133385A TWI726420B (zh) 2018-12-04 2019-09-17 叢集結果的解釋方法和裝置
PCT/CN2019/112090 WO2020114108A1 (zh) 2018-12-04 2019-10-21 聚类结果的解释方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811471749.9A CN110046634B (zh) 2018-12-04 2018-12-04 聚类结果的解释方法和装置

Publications (2)

Publication Number Publication Date
CN110046634A true CN110046634A (zh) 2019-07-23
CN110046634B CN110046634B (zh) 2021-04-27

Family

ID=67273278

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811471749.9A Active CN110046634B (zh) 2018-12-04 2018-12-04 聚类结果的解释方法和装置

Country Status (3)

Country Link
CN (1) CN110046634B (zh)
TW (1) TWI726420B (zh)
WO (1) WO2020114108A1 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110766040A (zh) * 2019-09-03 2020-02-07 阿里巴巴集团控股有限公司 用于对交易风险数据进行风险聚类的方法及装置
CN111126442A (zh) * 2019-11-26 2020-05-08 北京京邦达贸易有限公司 一种物品关键属性生成方法、物品分类方法和装置
WO2020114108A1 (zh) * 2018-12-04 2020-06-11 阿里巴巴集团控股有限公司 聚类结果的解释方法和装置
CN111401570A (zh) * 2020-04-10 2020-07-10 支付宝(杭州)信息技术有限公司 针对隐私树模型的解释方法和装置
CN111784181A (zh) * 2020-07-13 2020-10-16 南京大学 一种罪犯改造质量评估系统评估结果解释方法
CN112116028A (zh) * 2020-09-29 2020-12-22 联想(北京)有限公司 模型决策解释实现方法、装置及计算机设备
CN113284027A (zh) * 2021-06-10 2021-08-20 支付宝(杭州)信息技术有限公司 团伙识别模型的训练方法、异常团伙识别方法及装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112395500B (zh) * 2020-11-17 2023-09-05 平安科技(深圳)有限公司 内容数据推荐方法、装置、计算机设备及存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1416385A2 (en) * 2002-07-22 2004-05-06 Fujitsu Limited Parallel efficiency calculation method and apparatus
CN102081627A (zh) * 2009-11-27 2011-06-01 北京金山软件有限公司 一种确定词语在文本中的贡献度的方法及系统
WO2012000185A1 (en) * 2010-06-30 2012-01-05 Hewlett-Packard Development Company,L.P. Method and system of determining similarity between elements of electronic document
CN104346459A (zh) * 2014-11-10 2015-02-11 南京信息工程大学 一种基于术语频率和卡方统计的文本分类特征选择方法
CN104346336A (zh) * 2013-07-23 2015-02-11 广州华久信息科技有限公司 一种基于机器文本对骂的情感发泄方法及系统
US9507858B1 (en) * 2007-02-28 2016-11-29 Google Inc. Selectively merging clusters of conceptually related words in a generative model for text
CN107203787A (zh) * 2017-06-14 2017-09-26 江西师范大学 一种无监督正则化矩阵分解特征选择方法
CN108090048A (zh) * 2018-01-12 2018-05-29 安徽大学 一种基于多元数据分析的高校评价系统
CN108153899A (zh) * 2018-01-12 2018-06-12 安徽大学 一种智能化文本分类方法
CN108280755A (zh) * 2018-02-28 2018-07-13 阿里巴巴集团控股有限公司 可疑洗钱团伙的识别方法和识别装置
CN108319682A (zh) * 2018-01-31 2018-07-24 天闻数媒科技(北京)有限公司 分类器修正和分类语料库构建的方法、装置、设备及介质

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103164713B (zh) * 2011-12-12 2016-04-06 阿里巴巴集团控股有限公司 图像分类方法和装置
CN104239338A (zh) * 2013-06-19 2014-12-24 阿里巴巴集团控股有限公司 信息推荐方法及装置
CN105022754B (zh) * 2014-04-29 2020-05-12 腾讯科技(深圳)有限公司 基于社交网络的对象分类方法及装置
EP3161733A1 (en) * 2014-06-30 2017-05-03 Amazon Technologies, Inc. Interactive interfaces for machine learning model evaluations
US9697236B2 (en) * 2014-12-05 2017-07-04 Microsoft Technology Licensing, Llc Image annotation using aggregated page information from active and inactive indices
US9788796B2 (en) * 2015-10-16 2017-10-17 General Electric Company System and method of adaptive interpretation of ECG waveforms
TW201812646A (zh) * 2016-07-18 2018-04-01 美商南坦奧美克公司 分散式機器學習系統、分散式機器學習方法、以及產生代用資料之方法
CN106682095B (zh) * 2016-12-01 2019-11-08 浙江大学 基于图的主题描述词预测及排序方法
CN108268554A (zh) * 2017-01-03 2018-07-10 中国移动通信有限公司研究院 一种生成垃圾短信过滤策略的方法和装置
US11621969B2 (en) * 2017-04-26 2023-04-04 Elasticsearch B.V. Clustering and outlier detection in anomaly and causation detection for computing environments
CN108875816A (zh) * 2018-06-05 2018-11-23 南京邮电大学 融合置信度准则和多样性准则的主动学习样本选择策略
CN110046634B (zh) * 2018-12-04 2021-04-27 创新先进技术有限公司 聚类结果的解释方法和装置

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1416385A2 (en) * 2002-07-22 2004-05-06 Fujitsu Limited Parallel efficiency calculation method and apparatus
US9507858B1 (en) * 2007-02-28 2016-11-29 Google Inc. Selectively merging clusters of conceptually related words in a generative model for text
CN102081627A (zh) * 2009-11-27 2011-06-01 北京金山软件有限公司 一种确定词语在文本中的贡献度的方法及系统
WO2012000185A1 (en) * 2010-06-30 2012-01-05 Hewlett-Packard Development Company,L.P. Method and system of determining similarity between elements of electronic document
CN104346336A (zh) * 2013-07-23 2015-02-11 广州华久信息科技有限公司 一种基于机器文本对骂的情感发泄方法及系统
CN104346459A (zh) * 2014-11-10 2015-02-11 南京信息工程大学 一种基于术语频率和卡方统计的文本分类特征选择方法
CN107203787A (zh) * 2017-06-14 2017-09-26 江西师范大学 一种无监督正则化矩阵分解特征选择方法
CN108090048A (zh) * 2018-01-12 2018-05-29 安徽大学 一种基于多元数据分析的高校评价系统
CN108153899A (zh) * 2018-01-12 2018-06-12 安徽大学 一种智能化文本分类方法
CN108319682A (zh) * 2018-01-31 2018-07-24 天闻数媒科技(北京)有限公司 分类器修正和分类语料库构建的方法、装置、设备及介质
CN108280755A (zh) * 2018-02-28 2018-07-13 阿里巴巴集团控股有限公司 可疑洗钱团伙的识别方法和识别装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
BAOJIA LI 等: "Adjust and explain the clustering results of categorical data", 《2010 INTERNATIONAL CONFERENCE ON ARTIFICIAL INTELLIGENCE AND COMPUTATIONAL INTELLIGENCE》 *
李宝家 等: "基于因子分析的数值型数据聚类结果解释方法", 《情报杂志》 *
邵洪雨: "短文本聚类及聚类结果描述方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020114108A1 (zh) * 2018-12-04 2020-06-11 阿里巴巴集团控股有限公司 聚类结果的解释方法和装置
CN110766040A (zh) * 2019-09-03 2020-02-07 阿里巴巴集团控股有限公司 用于对交易风险数据进行风险聚类的方法及装置
CN110766040B (zh) * 2019-09-03 2024-02-06 创新先进技术有限公司 用于对交易风险数据进行风险聚类的方法及装置
CN111126442A (zh) * 2019-11-26 2020-05-08 北京京邦达贸易有限公司 一种物品关键属性生成方法、物品分类方法和装置
CN111401570A (zh) * 2020-04-10 2020-07-10 支付宝(杭州)信息技术有限公司 针对隐私树模型的解释方法和装置
CN111784181A (zh) * 2020-07-13 2020-10-16 南京大学 一种罪犯改造质量评估系统评估结果解释方法
CN111784181B (zh) * 2020-07-13 2023-09-19 南京大学 一种罪犯改造质量评估系统评估结果解释方法
CN112116028A (zh) * 2020-09-29 2020-12-22 联想(北京)有限公司 模型决策解释实现方法、装置及计算机设备
CN112116028B (zh) * 2020-09-29 2024-04-26 联想(北京)有限公司 模型决策解释实现方法、装置及计算机设备
CN113284027A (zh) * 2021-06-10 2021-08-20 支付宝(杭州)信息技术有限公司 团伙识别模型的训练方法、异常团伙识别方法及装置

Also Published As

Publication number Publication date
TWI726420B (zh) 2021-05-01
TW202022716A (zh) 2020-06-16
WO2020114108A1 (zh) 2020-06-11
CN110046634B (zh) 2021-04-27

Similar Documents

Publication Publication Date Title
CN110046634A (zh) 聚类结果的解释方法和装置
CN104090967B (zh) 应用程序推荐方法及推荐装置
CN110362677B (zh) 文本数据类别的识别方法及装置、存储介质、计算机设备
CN105022754B (zh) 基于社交网络的对象分类方法及装置
CN109582791B (zh) 文本的风险识别方法及装置
CN105095902B (zh) 图片特征提取方法及装置
CN105468742A (zh) 恶意订单识别方法及装置
CN110298028A (zh) 一种文本段落的关键句提取方法和装置
US20170116521A1 (en) Tag processing method and device
CN109684476B (zh) 一种文本分类方法、文本分类装置及终端设备
CN108764915B (zh) 模型训练方法、数据类型识别方法和计算机设备
US20210073669A1 (en) Generating training data for machine-learning models
CN112199536A (zh) 一种基于跨模态的快速多标签图像分类方法和系统
CN109800292A (zh) 问答匹配度的确定方法、装置及设备
CN109446333A (zh) 一种实现中文文本分类的方法及相关设备
CN110717040A (zh) 词典扩充方法及装置、电子设备、存储介质
CN110096591A (zh) 基于词袋模型的长文本分类方法、装置、计算机设备及存储介质
CN110288079A (zh) 特征数据获取方法、装置和设备
CN109902167B (zh) 嵌入结果的解释方法和装置
CN109359198A (zh) 一种文本分类方法及装置
CN110188798B (zh) 一种对象分类方法及模型训练方法和装置
CN105095826B (zh) 一种文字识别方法及装置
CN108470065A (zh) 一种异常评论文本的确定方法及装置
CN111611228A (zh) 一种基于分布式数据库的负载均衡调整方法及装置
CN104573696B (zh) 用于处理人脸特征数据的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200925

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20200925

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

GR01 Patent grant
GR01 Patent grant