CN104572854A - 一种基于决策树的译员分类方法 - Google Patents

一种基于决策树的译员分类方法 Download PDF

Info

Publication number
CN104572854A
CN104572854A CN201410784892.9A CN201410784892A CN104572854A CN 104572854 A CN104572854 A CN 104572854A CN 201410784892 A CN201410784892 A CN 201410784892A CN 104572854 A CN104572854 A CN 104572854A
Authority
CN
China
Prior art keywords
feature
interpreter
information
decision tree
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410784892.9A
Other languages
English (en)
Inventor
江潮
张芃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Transn Information Technology Co., Ltd.
Original Assignee
Language Network (wuhan) Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Language Network (wuhan) Information Technology Co Ltd filed Critical Language Network (wuhan) Information Technology Co Ltd
Priority to CN201410784892.9A priority Critical patent/CN104572854A/zh
Publication of CN104572854A publication Critical patent/CN104572854A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于决策树的译员分类方法,包括:获取待分类对象的基本信息和/或历史信息,提取所述基本信息和/或历史信息中的至少一个特征,并将每个所述特征分别作为一个决策影响因素;以所述决策影响因素在不同类别的决策树中,按照相应的所述决策树的生成顺序进行判定;根据判定结果,确定所述待分类对象归属的类别。通过从基本信息和历史信息中提取客观的数据及信息,利用决策树的对上述数据及信息进行判定,可靠性得到了大大的提升,并且避免了对译员进行人工测试,节省了人力物力成本,使翻译效率可以得到显著的提升。

Description

一种基于决策树的译员分类方法
技术领域
本发明属于数据分类技术领域,尤其是一种基于决策树的译员分类方法。
背景技术
目前,翻译服务业正向着大规模产业化的方向发展。翻译服务业实现产业化的一个重要前提是实现翻译服务信息化,即利用计算机、辅助翻译软件、互联网、数字技术等信息时代的高科技手段实现翻译工作的信息化。在云翻译平台上,确定译员的专业类别属性,可以将稿件和译员进行更好的匹配。
以往对于译员的专业类别属性的确定,只是分析译员所翻译的过往文档的类别属性,得到分类结果粗糙不准确,而通过人工测试的方法来确定,则需要花费大量的人力物力成本,从而导致翻译效率低的问题。
发明内容
本发明的目的之一是提供一种基于决策树的译员分类方法,以解决现有技术中对于翻译平台上的分类的翻译效率低的问题。
在一些说明性实施例中,所述基于决策树的译员分类方法,包括:获取待分类对象的基本信息和/或历史信息,提取所述基本信息和/或历史信息中的至少一个特征,并将每个所述特征分别作为一个决策影响因素;以所述决策影响因素在不同类别的决策树中,按照相应的所述决策树的生成顺序进行判定;根据判定结果,确定所述待分类对象归属的类别。
与现有技术相比,本发明的说明性实施例包括以下优点:
通过从基本信息和历史信息中提取客观的数据及信息,,利用决策树的对上述数据及信息进行判定,可靠性得到了大大的提升,并且避免了对译员进行人工测试,节省了人力物力成本,使翻译效率可以得到显著的提升。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是按照本发明的说明性实施例的流程图;
图2是按照本发明的说明性实施例的流程图;
图3是按照本发明的正态分布的曲线示意图。
具体实施方式
在以下详细描述中,提出大量特定细节,以便于提供对本发明的透彻理解。但是,本领域的技术人员会理解,即使没有这些特定细节也可实施本发明。在其它情况下,没有详细描述众所周知的方法、过程、组件和电路,以免影响对本发明的理解。
为了便于更快的理解本方案,对本下述采用的术语进行简单说明:
信息熵,设X是一个取有限个值的离散随机变量,其概率分布为P(X=xi)=pi,i=1,2,...,n,则随机变量X的信息熵定义为:
H ( p ) = - Σ i = 1 n p i log p i
熵越大表明随机变量不确定性越大,从定义可知0≤H(p)≤logn,且令0log0=0。
条件熵,设随机变量(X,Y),其联合概率分布为P(X=xi,Y=yi)=pij,i=1,2,...,n;j=1,2,...,m,在随机变量X给定的条件下随机变量Y的条件熵H(Y|X)定义为:
H ( Y | X ) = Σ i = 1 n p i H ( Y | X = x i )
其中,pi=P(X=xi),令0log0=0,条件熵表示在已知随机变量X的条件下随机变量Y的不确定性。
信息增益,特征A对训练数据集D的信息增益g(D,A),定义为集合D的信息熵H(D)和条件熵H(D|A)之差,即
g(D,A)=H(D)-H(D|A)
一般的,信息熵H(Y)与条件熵H(Y|X)称为互信息,决策树学习中的信息增益等价于训练数据集中类与特征的互信息。
信息增益比,特征A对训练数据集D的信息增益比gr(D,A),定义为其信息增益g(D,A)与训练数据集D的信息熵H(D)之比,即
g r ( D , A ) = g ( D , A ) H ( D )
下面参照上述论述对本方案进行说说明:
如图1所示,公开了一种基于决策树的译员分类方法,包括:
S11、获取待分类对象的基本信息和/或历史信息,提取所述基本信息和/或历史信息中的至少一个特征,并将每个所述特征分别作为一个决策影响因素;
S12、以所述决策影响因素在不同类别的决策树中,按照相应的所述决策树的生成顺序进行判定;;
S13、根据判定结果,确定所述待分类对象归属的类别。
通过从基本信息和历史信息中提取客观的数据及信息,,利用决策树的对上述数据及信息进行判定,可靠性得到了大大的提升,并且避免了对译员进行人工测试,节省了人力物力成本,使翻译效率可以得到显著的提升。
在一些说明性实施例中,还包括:在所述获取待分类对象的基本信息和/或历史信息之前,还包括:从记录有若干对象属性的数据库中确定具有影响分类类别的所述至少一个特征。
其中,数据库存储了以往大量的译员资料及译员属性,译员数据中具有译员的各种属性,例如年龄、工作经验、历史翻译稿件等等,这些属性中的具有一些与判定译员类别的无关的属性,也有一些与判定译员类别相关的属性;哪些属性是和判定译员类别相关,这也是本发明的一个重点。
经过分析,确定所述至少一个特征包括:译员的专业和目标行业是否相关的判定、译员的工作经历和目标行业是否相关的判定、译员是否翻译过目标行业文章的判定、译员翻译目标行业文章的数量级、译员翻译目标行业文章的优良率、翻译目标行业术语数量、术语翻译准确率、译员存储的术语与目标行业术语库的符合程度、译员存储的语料与目标行业语料库的符合程度中的一个或任意组合。
其中,上述特征可以是以译员若干属性通过构建概率矩阵获得,从该矩阵中获取概率大于阈值的特征。
在一些说明性实施例中,在所述获取待分类对象的基本信息和/或历史信息之前,还包括:
从数据库中随机抽取一定数量的对象,构建训练数据集;其中,所述训练数据集中的每个对象具有确定的所述至少一个特征;并且,上述每个特征具有至少两个取值范围或判定结果。
另外,待分类对象(待分类译员)及随机选取的对象(数据库中的译员信息)的每个特征分别具有对应的一个实际值或判定结果
根据所述训练数据集中的每个对象的各个特征的信息增益或信息增益比,确定每个类别对应的决策树的生成顺序,并根据该顺序构建该类别对应的决策树。
其中,构建决策树可以采用ID3算法利用信息增益进行构建,本领域技术人员应该理解的是构建决策树的方法可以为多种,不仅仅可以利用某一种算法进行构建,还可以采用C4.5算法利用信息增益比进行构建。
以下对利用C4.5算法构建决策树的过程,进行具体说明:
S21、确定训练数据集D中的对象数量,以及划分的类别的数量k;
S22、按照每个特征的选取范围的个数n,构建对应该特征的n子集,并根据训练数据集中的对象的实际值或判定结果,将训练数据集中的对象划分至相应的子集Di i∈{1,2,...,n}中。
S23、确定归属于类别Cj,j={1,2,...,k}的子集Dij,i∈{1,2,...,n},j∈{1,2,...,k},以及不同类别下的训练数据集中的信息熵和该类别Cj下的每个特征的条件熵;
S24、根据所述信息熵和条件熵,确定该类别Cj下的每个特征的信息增益,再根据确定的信息增益确定每个特征的信息特征比;
S25、按照信息增益比的大小,确定该类别Cj对应的决策树的生成顺序,即将每个特征按照信息增益比的大小,逐层作为决策树的判定。
待分类对象必须从决策树的根节点按决策树的生成顺序进行判定,若全部判定都符合,则该待分类译员具有该类别Cj的类别属性。
其中,在一些说明性实施例中,所述计算出不同类别下的训练数据集的信息熵,以及该类别下的每个特征的条件熵,具体包括:
按照如下公式计算出类别Cj下的训练数据集的信息熵H(D):
H ( D ) = - Σ j = 1 k | C j | | D | log 2 | C j | | D | ;
其中,0<j<k,|D|为训练数据集中的对象的数量,|Cj|为类别Cj中的对象数量;
按照如下公式计算出类别Cj下的每个特征A的条件熵H(D|A);
H ( D | A ) = - &Sigma; i = 1 n | D i | | D | H ( D i ) = - &Sigma; i = 1 n | D i | | D | - &Sigma; i = 1 n | D ij | | D i | log 2 | D ij | | D i | ;
其中,0<i<n,|Di|为子集Di的对象数量,|Dij|为子集Di中归属于类别Cj的子集的对象数量。
在一些说明性实施例中,所述根据所述信息熵和条件熵确定在该类别该特征的信息增益比,具体包括:
g(D,A)=H(D)-H(D|A);
g r ( D , A ) = g ( D , A ) H ( D ) ;
按照如下公式计算出信息增益g(D,A),以及所述信息增益比gr(D,A)。
基于上述方法,提供一种对译员进行分类的方法,包括:
一、特征选择和数据处理
判断译员是否可以分类到某目标行业或学科领域,成为该类别的译员,其包含的判别特征项如下:
特征A1
名称:译员的专业和目标行业是否相关;
取值:是、否。
特征A2
名称:译员的工作经历和目标行业是否相关;
取值:是、否。
特征A3
名称:译员是否翻译过目标行业文章;
取值:是、否。
特征A4
名称:译员翻译目标行业文章的数量级;
取值:L1、L2、L3、L4、L5、L6、L7。
计算方法:
将译员翻译某目标行业的文章数作为随机变量Χ1,通过大量数据统计,该随机变量Χ服从正态分布。
计算该随机变量的均值μ,计算该随机变量的标准差σ。
L1:若译员翻译该行业的文章数落在区间[1,μ-2.58σ]
L2:若译员翻译该行业的文章数落在区间(μ-2.58σ,μ-1.96σ]
L3:若译员翻译该行业的文章数落在区间(μ-1.96σ,μ-σ]
L4:若译员翻译该行业的文章数落在区间(μ-σ,μ+σ)
L5:若译员翻译该行业的文章数落在区间[μ+σ,μ+1.96σ)
L6:若译员翻译该行业的文章数落在区间[μ+1.96σ,μ+2.58σ)
L7:若译员翻译该行业的文章数落在区间[μ+2.58σ,+∞)
特征A5
名称:译员翻译目标行业文章的优良率;
取值:G1、G2、G3、G4、G5、G6、G7。
计算方法:
将译员翻译目标行业文章的优良率作为随机变量Χ2,通过大量数据统计,该随机变量Χ2服从正态分布。
计算该随机变量的均值μ,计算该随机变量的标准差σ。
G1:若译员翻译目标行业文章的优良率落在区间[0,μ-2.58σ]
G2:若译员翻译目标行业文章的优良率落在区间(μ-2.58σ,μ-1.96σ]
G3:若译员翻译目标行业文章的优良率落在区间(μ-1.96σ,μ-σ]
G4:若译员翻译目标行业文章的优良率落在区间(μ-σ,μ+σ)
G5:若译员翻译目标行业文章的优良率落在区间[μ+σ,μ+1.96σ)
G6:若译员翻译目标行业文章的优良率落在区间[μ+1.96σ,μ+2.58σ)
G7:若译员翻译目标行业文章的优良率落在区间[μ+2.58σ,+∞)
特征A6
名称:翻译目标行业术语数量;
取值:T1、T2、T3、T4、T5、T6、T7。
计算方法:
将译员翻译目标行业术语数作为随机变量Χ3,通过大量数据统计,该随机变量Χ3服从正态分布。
计算该随机变量的均值μ,计算该随机变量的标准差σ。
T1:若译员翻译目标行业术语数量落在区间[0,μ-2.58σ]
T2:若译员翻译目标行业术语数量落在区间(μ-2.58σ,μ-1.96σ]
T3:若译员翻译目标行业术语数量落在区间(μ-1.96σ,μ-σ]
T4:若译员翻译目标行业术语数量落在区间(μ-σ,μ+σ)
T5:若译员翻译目标行业术语数量落在区间[μ+σ,μ+1.96σ)
T6:若译员翻译目标行业术语数量落在区间[μ+1.96σ,μ+2.58σ)
T7:若译员翻译目标行业术语数量落在区间[μ+2.58σ,+∞)
特征A7
名称:术语翻译准确率;
取值:P1、P2、P3、P4、P5、P6、P7。
计算方法:
将译员术语翻译准确率作为随机变量Χ4,通过大量数据统计,该随机变量Χ4服从正态分布。
计算该随机变量的均值μ,计算该随机变量的标准差σ。
P1:若译员术语翻译准确率落在区间[0,μ-2.58σ]
P2:若译员术语翻译准确率落在区间(μ-2.58σ,μ-1.96σ]
P3:若译员术语翻译准确率落在区间(μ-1.96σ,μ-σ]
P4:若译员术语翻译准确率落在区间(μ-σ,μ+σ)
P5:若译员术语翻译准确率落在区间[μ+σ,μ+1.96σ)
P6:若译员术语翻译准确率落在区间[μ+1.96σ,μ+2.58σ)
P7:若译员术语翻译准确率落在区间[μ+2.58σ,+∞)
特征A8
名称:术语存储度,该译员存储的术语与目标行业术语库的符合程度;
取值:TS1、TS2、TS3、TS4、TS5、TS6、TS7。
计算方法:
将译员术语存储度作为随机变量Χ5,通过大量数据统计,该随机变量Χ5服从正态分布。
计算该随机变量的均值μ,计算该随机变量的标准差σ。
TS 1:若译员术语存储度落在区间[0,μ-2.58σ]
TS 2:若译员术语存储度落在区间(μ-2.58σ,μ-1.96σ]
TS 3:若译员术语存储度落在区间(μ-1.96σ,μ-σ]
TS 4:若译员术语存储度落在区间(μ-σ,μ+σ)
TS 5:若译员术语存储度落在区间[μ+σ,μ+1.96σ)
TS 6:若译员术语存储度落在区间[μ+1.96σ,μ+2.58σ)
TS 7:若译员术语存储度落在区间[μ+2.58σ,+∞)
特征A9
名称:语料存储度,该译员存储的语料与目标行业语料库的符合程度;
取值:CS1、CS2、CS3、CS4、CS5、CS6、CS7、
计算方法:
将译员语料存储度作为随机变量Χ6,通过大量数据统计,该随机变量Χ6服从正态分布。
计算该随机变量的均值μ,计算该随机变量的标准差σ。
CS 1:若译员语料存储度落在区间[0,μ-2.58σ]
CS 2:若译员语料存储度落在区间(μ-2.58σ,μ-1.96σ]
CS 3:若译员语料存储度落在区间(μ-1.96σ,μ-σ]
CS 4:若译员语料存储度落在区间(μ-σ,μ+σ)
CS 5:若译员语料存储度落在区间[μ+σ,μ+1.96σ)
CS 6:若译员语料存储度落在区间[μ+1.96σ,μ+2.58σ)
CS 7:若译员语料存储度落在区间[μ+2.58σ,+∞)
上述每个特征的均值μ和标准差σ是将不同的特征作为随机变量计算获得的,并且其取值范围符合正态分布曲线,如图2所示。
二、构建决策树
信息增益和信息增益比计算方法
根据信息增益的特征选择方法是:对训练数据集D,计算其每个特征的信息增益,并比较它们的大小,选择信息增益比最大的特征。
设训练数据集为D,|D|表示其样本个数。设有k个类Cj,j∈{1,2,...,k},|Cj|为属于类Cj的样本个数,且
设特征A有n个不同的取值{a1,a2,...,an},根据A的取值将D划分为n个子集D1,D2,...,Dn,|Di|,i∈{1,2,...,n}为子集Di的样本个数,记子集Di中属于类Cj的样本集合为Dij,即Dij=Di∩Cj,|Dij|为Dij的样本个数。信息增益算法如下:
数据集D的信息熵H(D)
H ( D ) = - &Sigma; j = 1 k | C j | | D | log 2 | C j | | D |
特征A对数据集D的条件熵H(D|A)
H ( D | A ) = - &Sigma; i = 1 n | D i | | D | H ( D i ) = - &Sigma; i = 1 n | D i | | D | &Sigma; j = 1 k | D ij | | D i | log 2 | D ij | | D i |
信息增益g(D,A)
g(D,A)=H(D)-H(D|A)
信息增益比
g r ( D , A ) = g ( D , A ) H ( D )
采用c4.5算法生成决策树
输入:训练集D:训练样本的译员数
分类:{C1=是,C2=否}
特征集A={A1,A2,A3,A4,A5,A6,A7,A8,A9}
阀值th
输出:决策树T
算法流程:
若D中所有的译员都属于同一类Ci,将决策树T置为单结点树,以Ci作为该结点的类别,返回决策树T;
如果将决策树T置为单结点树,并将D中译员数最大的类Ci作为该结点的类别,返回决策树T;
否则按1所述计算A1~A9各个特征对D的信息增益比,,选择信息增益比最大的特征Aj
如果Aj的信息增益比小于阀值th,将T置为单结点数,并将D中译员数最大的类Ci最为该结点的分类,返回决策树T;
否则,对特征Aj的每个可能的取值,将D划分为多个非空子集Dk,将Dk中译员数最大的类作为标记,构建子结点,由结点及其子结点构成决策树T,返回决策树T;
对结点k,以Dk为训练集,以A-{Aj}为特征集,递归调用步骤1)~5),得到子树Ti,返回Ti
三、对待分类译员的分类处理
对于待分类译员,将其特征的取值,按照各个分类决策树的生成顺序进行分类判断,得到的结果即为该译员的所属的类别。
例如:通过在A、B、C三个行业的分类决策树上进行判断,译员甲属于行业A和C,不属于行业B。本领域技术人员应该可以理解的是,上述示例是列举的实施例,根据实际情况,行业可以划分的更多更细。
以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.一种基于决策树的译员分类方法,其特征在于,包括:
获取待分类对象的基本信息和/或历史信息,提取所述基本信息和/或历史信息中的至少一个特征,并将每个所述特征分别作为一个决策影响因素;
以所述决策影响因素在不同类别的决策树中,按照相应的所述决策树的生成顺序进行判定;
根据判定结果,确定所述待分类对象归属的类别。
2.根据权利要求1所述的分类方法,其特征在于,在所述获取待分类对象的基本信息和/或历史信息之前,还包括:
从记录有若干对象属性的数据库中确定具有影响分类类别的所述至少一个特征。
3.根据权利要求2所述的分类方法,其特征在于,所述至少一个特征包括:译员的专业和目标行业是否相关的判定、译员的工作经历和目标行业是否相关的判定、译员是否翻译过目标行业文章的判定、译员翻译目标行业文章的数量级、译员翻译目标行业文章的优良率、翻译目标行业术语数量、术语翻译准确率、译员存储的术语与目标行业术语库的符合程度、译员存储的语料与目标行业语料库的符合程度中的一个或任意组合。
4.根据权利要求2所述的分类方法,其特征在于,在所述获取待分类对象的基本信息和/或历史信息之前,还包括:
从数据库中随机抽取一定数量的对象,构建训练数据集;其中,所述训练数据集中的每个对象具有确定的所述至少一个特征;
根据所述训练数据集中的每个对象的各个特征的信息增益或信息增益比,确定每个类别对应的决策树的生成顺序,并根据该顺序构建该类别对应的决策树。
5.根据权利要求4所述的分类方法,其特征在于,根据每个分类决策树的特征的信息增益或信息增益比,利用ID3算法或C4.5算法构建所述决策树。
6.根据权利要求4所述的分类方法,其特征在于,每个所述特征分别对应有至少两个取值范围/两种判定结果;每个对象的每个所述特征对应有一个实际值或实际结果;
所述确定每个类别对应的决策树的生成顺序,具体包括:
确定所述训练数据集中的对象的数量,以及划分的类别的数量;
按照每个所述特征的选取范围的个数n,构建对应该特征的n个子集,并根据每个所述训练数据集中的对象对应该特征的实际值或实际结果,将所述对象划分到相应的所述子集中;
计算出不同类别下的训练数据集的信息熵,以及该类别下的每个特征的条件熵,并根据所述信息熵和条件熵确定在该类别该特征的信息增益和信息增益比;
根据不同类别下的每个特征的信息增益和信息增益比的大小关系,确定该类别对应的决策树的从根节点到叶子节点的所述生成顺序。
7.根据权利要求4所述的分类方法,其特征在于,通过正态分布曲线确定每个所述特征的至少两个取值范围。
8.根据权利要求4所述的分类方法,其特征在于,所述根据判定结果,确定所述待分类对象归属的类别,具体包括:
根据待分类对象的每个特征的实际值或实际结果,在不同类别的决策树上进行判定;
根据决策树的生成顺序逐层判定,直到所述待分类对象的满足该决策树的叶子结点,即得到该待分类对象的一个分类属性。
CN201410784892.9A 2014-12-17 2014-12-17 一种基于决策树的译员分类方法 Pending CN104572854A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410784892.9A CN104572854A (zh) 2014-12-17 2014-12-17 一种基于决策树的译员分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410784892.9A CN104572854A (zh) 2014-12-17 2014-12-17 一种基于决策树的译员分类方法

Publications (1)

Publication Number Publication Date
CN104572854A true CN104572854A (zh) 2015-04-29

Family

ID=53088916

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410784892.9A Pending CN104572854A (zh) 2014-12-17 2014-12-17 一种基于决策树的译员分类方法

Country Status (1)

Country Link
CN (1) CN104572854A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108573198A (zh) * 2017-03-14 2018-09-25 优信互联(北京)信息技术有限公司 一种根据车架号识别车型信息的方法及装置
CN111401958A (zh) * 2020-03-17 2020-07-10 重庆锐云科技有限公司 一种对房地产客户自动推荐置业顾问的方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101034409A (zh) * 2007-03-29 2007-09-12 浙江大学 基于数据驱动和决策树分析的人体运动的检索方法
CN101093559A (zh) * 2007-06-12 2007-12-26 北京科技大学 一种基于知识发现的专家系统构造方法
CN101226551A (zh) * 2008-01-30 2008-07-23 北京航空航天大学 一种海量数据的快速建模方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101034409A (zh) * 2007-03-29 2007-09-12 浙江大学 基于数据驱动和决策树分析的人体运动的检索方法
CN101093559A (zh) * 2007-06-12 2007-12-26 北京科技大学 一种基于知识发现的专家系统构造方法
CN101226551A (zh) * 2008-01-30 2008-07-23 北京航空航天大学 一种海量数据的快速建模方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李会 等: ""决策树中ID3算法与C4.5算法分析与比较"", 《水电能源科学》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108573198A (zh) * 2017-03-14 2018-09-25 优信互联(北京)信息技术有限公司 一种根据车架号识别车型信息的方法及装置
CN111401958A (zh) * 2020-03-17 2020-07-10 重庆锐云科技有限公司 一种对房地产客户自动推荐置业顾问的方法及系统

Similar Documents

Publication Publication Date Title
CN107122375B (zh) 基于图像特征的图像主体的识别方法
CN107122352A (zh) 一种基于k‑means、word2vec的抽取关键词的方法
CN106021433B (zh) 一种商品评论数据的口碑分析方法和装置
WO2016101628A1 (zh) 一种数据建模中的数据处理方法及装置
CN105373606A (zh) 一种改进c4.5决策树算法下的不平衡数据抽样方法
CN103473786B (zh) 基于多目标模糊聚类的灰度图像分割方法
CN104978328A (zh) 一种获取层级分类器以及文本分类的方法及装置
CN106156372B (zh) 一种互联网网站的分类方法及装置
CN103473262A (zh) 一种基于关联规则的Web评论观点自动分类系统及分类方法
CN103164713A (zh) 图像分类方法和装置
CN104820724B (zh) 文本类教育资源知识点预测模型获得方法及模型应用方法
CN111126865B (zh) 一种基于科技大数据的技术成熟度判断方法和系统
CN111159404B (zh) 文本的分类方法及装置
CN109345007A (zh) 一种基于XGBoost特征选择的有利储层发育区预测方法
CN108734159A (zh) 一种图像中敏感信息的检测方法及系统
CN108737290A (zh) 基于负载映射与随机森林的非加密流量识别方法
CN110334773A (zh) 基于机器学习的模型入模特征的筛选方法
CN109685823A (zh) 一种基于深度森林的目标跟踪方法
CN104572854A (zh) 一种基于决策树的译员分类方法
CN111105041B (zh) 一种用于智慧数据碰撞的机器学习方法及装置
CN110147449A (zh) 文本分类方法和装置
CN108932270B (zh) 基于贝叶斯和反馈算法的枇杷属种质资源检索对照方法
CN103294828B (zh) 数据挖掘模型维度的验证方法和验证装置
CN110728119B (zh) 一种海报生成方法及装置
CN105183806A (zh) 一种不同平台间识别同一用户的方法与系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: WUHAN TRANSN INFORMATION TECHNOLOGY CO., LTD.

Free format text: FORMER OWNER: YULIANWANG (WUHAN) INFORMATION TECHNOLOGY CO., LTD.

Effective date: 20150805

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20150805

Address after: 430073 East Lake Hubei Development Zone, Optics Valley Software Park, a phase of the west, South Lake Road South, Optics Valley Software Park, No. 2, No. 5, layer 205, six

Applicant after: Wuhan Transn Information Technology Co., Ltd.

Address before: 430073 East Lake Hubei Development Zone, Optics Valley Software Park, a phase of the west, South Lake Road South, Optics Valley Software Park, No. 2, No. 6, layer 206, six

Applicant before: Language network (Wuhan) Information Technology Co., Ltd.

CB02 Change of applicant information
CB02 Change of applicant information

Address after: 430070 East Lake Hubei Development Zone, Optics Valley Software Park, a phase of the west, South Lake Road South, Optics Valley Software Park, No. 2, No. 5, layer 205, six

Applicant after: Language network (Wuhan) Information Technology Co., Ltd.

Address before: 430073 East Lake Hubei Development Zone, Optics Valley Software Park, a phase of the west, South Lake Road South, Optics Valley Software Park, No. 2, No. 5, layer 205, six

Applicant before: Wuhan Transn Information Technology Co., Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20150429