CN111222520A - 一种分类模型训练方法、分类方法及系统 - Google Patents

一种分类模型训练方法、分类方法及系统 Download PDF

Info

Publication number
CN111222520A
CN111222520A CN201811405788.9A CN201811405788A CN111222520A CN 111222520 A CN111222520 A CN 111222520A CN 201811405788 A CN201811405788 A CN 201811405788A CN 111222520 A CN111222520 A CN 111222520A
Authority
CN
China
Prior art keywords
project
information
participants
participant
software development
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811405788.9A
Other languages
English (en)
Inventor
朱天潼
李峰
操新星
朱群
姜梦琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Hangzhou Information Technology Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Hangzhou Information Technology Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201811405788.9A priority Critical patent/CN111222520A/zh
Publication of CN111222520A publication Critical patent/CN111222520A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Stored Programmes (AREA)

Abstract

本申请公开了一种分类模型训练方法、分类方法及系统,包括:获取项目的参与人员的项目执行信息,参与人员根据项目执行信息被划分为多种类型;根据项目执行信息,获取影响参与人员所属类型的影响因素信息,其中,影响一个参与人员所属类型的影响因素信息包括一个参与人员对项目的贡献信息、一个参与人员产生的与项目相关的社交信息以及一个参与人员参与项目的时间信息;使用影响因素信息,对分类模型进行训练;其中,分类模型用于根据项目参与人员的项目执行信息输出指示信息,指示信息用于指示项目参与人员所属的类型。根据本申请实施例训练得到的分类模型可对目标项目中的参与人员进行分类。

Description

一种分类模型训练方法、分类方法及系统
技术领域
本申请涉及通信技术领域,尤其涉及一种分类模型训练方法、分类方法及系统。
背景技术
开放源代码社区又称为开源社区,由拥有共同兴趣爱好的研发人员组成,根据相应的开源软件许可证协议公布软件源代码的网络平台,同时也为研发人员提供一个自由学习交流的空间。当前,在关于研发人员地位的应用研究中,大多数采用开源社区的公开数据,这是由于开源社区的公开数据便于获取,且其数据结构经过了科学化的处理,可使研究人员能够最大程度上模拟企业内的真实场景。
研发人员的地位主要分为核心研发人员和普通研发人员,通过对研发人员地位的分类预测,可使企业管理者在评估众多研发人员时,能够更加全面的评估一名研发人员的发展潜力和培养价值。现有技术中,主要通过研发人员分类指标(代码量、代码提交次数和邮件收发数)来衡量研发人员的地位;或者使用问卷、访谈、经验汇总等定量分析方法来进行研发人员的地位分类。上述研发人员地位分类方法中,存在计算过于简单容错率较高;或者具有较强的主观性,难以作为统一的逻辑体系从客观的角度评判研发人员的地位。
发明内容
本申请实施例提供一种分类模型训练方法、分类方法及系统,用以根据训练得到的分类模型对目标项目中的参与人员进行分类。
第一方面,提供一种分类模型训练方法,包括:获取项目的参与人员的项目执行信息,所述参与人员根据所述项目执行信息被划分为多种类型;根据所述项目执行信息,获取影响所述参与人员所属类型的影响因素信息,其中,影响一个参与人员所属类型的影响因素信息包括所述一个参与人员对所述项目的贡献信息、所述一个参与人员产生的与所述项目相关的社交信息以及所述一个参与人员参与所述项目的时间信息;使用所述影响因素信息,对分类模型进行训练;其中,所述分类模型用于根据项目参与人员的项目执行信息输出指示信息,所述指示信息用于指示所述项目参与人员所属的类型。
可选地,所述项目为开源软件开发项目;所述多种类型包括:技术型核心参与人员、社交型核心参与人员以及普通参与人员;其中,所述技术型核心参与人员的数量或所述社交型核心参与人员的数量占所述开源软件开发项目参与人员总数的设定比例。
可选地,所述一个参与人员对所述开源软件开发项目的贡献信息,包括以下部分或全部信息:所述一个参与人员提交的软件编程代码行数;所述一个参与人员提交软件编程代码的次数;所述一个参与人员提交的软件编程文件数。
可选地,所述一个参与人员产生的与所述开源软件开发项目相关的社交信息,包括以下部分或全部信息:所述一个参与人员接收的与所述开源软件开发项目相关的邮件数;所述一个参与人员发送的与所述开源软件开发项目相关的邮件数;所述一个参与人员所接收的邮件中,来源于不同发件人的人员数;所述一个参与人员所发送的邮件中,发向不同收件人的人员数。
可选地,所述一个参与人员参与所述开源软件开发项目的时间信息,包括以下部分或全部信息:所述一个参与人员加入所述开源软件开发项目的起始时间;所述一个参与人员离开所述开源软件开发项目的截止时间;所述一个参与人员参与所述开源软件开发项目的时间长度。
第二方面,提供一种分类方法,应用于使用如第一方面中任一项所述的分类模型进行项目参与人员类型分类的过程,包括:获取项目的参与人员的项目执行信息;根据所述项目执行信息,获取影响所述参与人员所属类型的影响因素信息,其中,影响所述参与人员所属类型的影响因素信息包括所述参与人员对所述项目的贡献信息、所述参与人员产生的与所述项目相关的社交信息以及所述参与人员参与所述项目的时间信息;使用所述分类模型,对所述项目的参与人员进行分类。
可选地,所述项目为开源软件开发项目;对所述项目的参与人员进行分类后得到的类型包括以下中的一种:技术型核心参与人员、社交型核心参与人员以及普通参与人员。
可选地,所述参与人员对所述开源软件开发项目的贡献信息,包括以下部分或全部信息:所述参与人员提交的软件编程代码行数;所述参与人员提交软件编程代码的次数;所述参与人员提交的软件编程文件数。
可选地,所述参与人员产生的与所述开源软件开发项目相关的社交信息,包括以下部分或全部信息:所述参与人员接收的与所述开源软件开发项目相关的邮件数;所述参与人员发送的与所述开源软件开发项目相关的邮件数;所述参与人员接收的与所述开源软件开发项目相关的邮件的发件人信息;所述参与人员发送的与所述开源软件开发项目相关的邮件的收件人信息。
可选地,所述参与人员参与所述开源软件开发项目的时间信息,包括以下部分或全部信息:所述参与人员加入所述开源软件开发项目的起始时间;所述参与人员所接收的邮件中,来源于不同发件人的人员数;所述参与人员所发送的邮件中,发向不同收件人的人员数。
可选地,所述使用所述分类模型,对所述项目的参与人员进行分类,包括:根据所述分类模型的输出信息,确定所述项目的参与人员的类型。
第三方面,提供一种分类模型训练系统,包括:第一获取单元:用于获取项目的参与人员的项目执行信息,所述参与人员根据所述项目执行信息被划分为多种类型;第二获取单元:用于根据所述项目执行信息,获取影响所述参与人员所属类型的影响因素信息,其中,影响一个参与人员所属类型的影响因素信息包括所述一个参与人员对所述项目的贡献信息、所述一个参与人员产生的与所述项目相关的社交信息以及所述一个参与人员参与所述项目的时间信息;训练单元:用于使用所述影响因素信息,对分类模型进行训练;其中,所述分类模型用于根据项目参与人员的项目执行信息输出指示信息,所述指示信息用于指示所述项目参与人员所属的类型。
可选地,所述项目为开源软件开发项目;所述多种类型包括:技术型核心参与人员、社交型核心参与人员以及普通参与人员;其中,所述技术型核心参与人员的数量或所述社交型核心参与人员的数量占所述开源软件开发项目参与人员总数的设定比例。
第四方面,提供一种分类系统,包括:第一获取单元:用于获取项目的参与人员的项目执行信息;第二获取单元:用于根据所述项目执行信息,获取影响所述参与人员所属类型的影响因素信息,其中,影响所述参与人员所属类型的影响因素信息包括所述参与人员对所述项目的贡献信息、所述参与人员产生的与所述项目相关的社交信息以及所述参与人员参与所述项目的时间信息;分类单元:用于使用所述分类模型,对所述项目的参与人员进行分类。
可选地,所述项目为开源软件开发项目;对所述项目的参与人员进行分类后得到的类型包括以下中的一种:技术型核心参与人员、社交型核心参与人员以及普通参与人员。
可选地,所述分类单元,具体用于:根据所述分类模型的输出信息,确定所述项目的参与人员的类型。
第五方面,提供一种通信装置,包括:处理器、存储器;所述存储器,用于存储计算机指令;所述处理器,用于运行所述计算机指令以实现如第一方面中任一项所述的方法。
第六方面,提供一种通信装置,包括:处理器、存储器;所述存储器,用于存储计算机指令;所述处理器,用于运行所述计算机指令以实现如第二方面中任一项所述的方法。
第七方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使所述计算机执行如上述第一方面中任一项所述的方法。
第八方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使所述计算机执行如上述第二方面中任一项所述的方法。
本申请的上述实施例中,获取目标项目中每个参与人员的项目执行信息,根据项目执行信息获取关于参与人员类型的多个影响因素信息,并使用该影响因素信息对分类模型进行训练,可得到能够反映目标项目参与人员类型影响因素特征的分类模型,利用该分类模型进行参与人员的类型分类,可确定该目标项目中参与人员的类型。
附图说明
图1为本申请实施例提供的一种分类模型训练方法的流程图;
图2为本申请实施例提供的一种分类方法的流程图;
图3为本申请实施例提供的一种分类模型训练系统的结构示意图;
图4为本申请实施提供的一种分类系统的结构示意图;
图5为本申请实施例提供的通信装置的结构示意图;
图6为本申请实施例提供的通信装置的结构示意图。
具体实施方式
以下,对本申请实施例中的部分用语进行解释说明,以便于本领域技术人员理解。
(1)“第一”“第二”用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
(2)“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
下面结合附图对本申请实施例进行详细描述。
参见图1,为本申请实施例提供的一种分类模型训练方法的流程图。
如图所示,该流程包括:
S101:获取项目的参与人员的项目执行信息,参与人员根据所述项目执行信息被划分为多种类型。
在实际运用中,可通过目标项目官网提供的应用程序编码接口(ApplicationProgramming Interface,API)获取该目标项目中每个参与人员的项目执行信息;其中,项目执行信息包括项目贡献行为信息和社交行为信息。
可选地,上述项目为开源软件开发项目;该多种类型包括:技术型核心参与人员、社交型核心参与人员以及普通参与人员;其中,技术型核心参与人员的数量或社交型核心参与人员的数量占开源软件开发项目参与人员总数的设定比例。比如开源软件开发项目中一共有N名参与人员,各参与人员的代码提交次数分布向量为c=(c1,c2,...,cN),开源软件开发项目的代码提交总次数为sum(c);对代码提交次数分布向量中的元素进行降序排列,得到分布向量c'=(c'1,c'2,...,c'N);根据分布向量c'=(c'1,c'2,...,c'N)中元素的排列顺序,从第1元素开始取占总提交次数sum(c)前80%的元素组成新的向量c”=(c”1,c”2,...,c”N),其中1<N'<N;向量c”=(c”1,c”2,...,c”N)对应的参与人员即为该开源软件开发项目中的技术型核心参与人员。同样地,可对该开源软件开发项目中每个参与人员收发邮件的数目进行排列,按照上述方法可得到该开源软件开发项目中的社交型核心参与人员。
在获取到每个参与人员的项目执行信息之后,在本地对项目执行信息进行结构化处理,即以逗号分隔或者字符分隔(Conmma-Separated Values,CSV)表格格式的方法进行处理。
如表1所示,为本申请实施例中经结构化处理后的项目贡献行为信息。如表所示,每一行表示某位参与人员在该项目中的一次贡献行为信息;每一列分别表示项目贡献行为信息的分量信息,包括参与人员的身份标识(Userid),参与人员提交代码的时刻(Time),参与人员提交的代码所属文件模块的标识(Doc),参与人员提交的代码所属项目的标识(Projec),参与人员提交的代码的总行数(Code),对应的时间戳(Unix)。
表1参与人员的项目贡献行为信息
身份标识 时间 文件模块 项目标识 代码行数 时间戳
753605 2011/12/20 10:11:09 6 1 52 1324310400
753605 2011/12/20 10:11:09 13 1 273 1324310400
753605 2011/12/20 10:11:09 43 1 4 1324310400
753605 2011/12/20 10:11:09 44 1 75 1324310400
753605 2011/12/19 15:15:43 1 1 2 1324224000
753605 2011/12/19 15:15:43 39 1 99 1324224000
753605 2011/12/19 15:15:53 1 1 2 1324334000
753605 2011/12/19 15:15:53 5 1 6 1324334000
753605 2011/12/16 11:17:10 1 1 2 1323964800
753605 2011/12/16 11:17:10 45 1 208 1323964800
如表2所示,为本申请实施例中经结构化处理后的社交行为信息。如表所示,每一行表示某时刻项目中的一次社交行为信息;每一列分别表示社交行为信息的分量信息,包括邮件发送者的身份标识(ID1),邮件接收者的身份标识(ID2),邮件的发送时间(Time),邮件所属项目的标识(Project),对应的时间戳(Unix)。
表2参与人员的社交行为信息
Figure BDA0001877313540000071
Figure BDA0001877313540000081
S102:根据项目执行信息,获取影响参与人员所属类型的影响因素信息。
其中,影响一个参与人员所属类型的影响因素信息包括一个参与人员对项目的贡献信息、一个参与人员产生的与项目相关的社交信息以及一个参与人员参与项目的时间信息。
以项目为开源软件开发项目为例,如表3所示为影响一个参与人员所属类型的影响因素信息表。参见表1,一个参与人员对开源软件开发项目的贡献信息,包括以下部分或全部信息:代码行数,一个参与人员提交的软件编程代码行数;提交次数,一个参与人员提交软件编程代码的次数;研发文件数,一个参与人员提交的软件编程文件数。一个参与人员产生的与开源软件开发项目相关的社交信息,包括以下部分或全部信息:接收邮件数,一个参与人员接收的与开源软件开发项目相关的邮件数;发送邮件数,一个参与人员发送的与开源软件开发项目相关的邮件数;收发邮件数,一个参与人员收发的与开源软件开发项目相关的邮件数;节点入度,一个参与人员所接收的邮件中,来源于不同发件人的人员数;节点出度,一个参与人员所发送的邮件中,发向不同收件人的人员数。一个参与人员参与开源软件开发项目的时间信息,包括以下部分或全部信息:一个参与人员加入开源软件开发项目的起始时间;一个参与人员离开开源软件开发项目的截止时间;研发年限,一个参与人员参与开源软件开发项目的时间长度;项目年限,一个参与人员加入开源软件开发项目时,开源软件开发项目存在的时间。
表3:影响一个参与人员所属类型的影响因素信息表
Figure BDA0001877313540000082
Figure BDA0001877313540000091
具体地,在获取与参与时间相关的信息时,可取参与人员第一次发送邮件和第一次提交代码的时间戳,两者间较小值为参与人员加入该开源软件开发项目的时间;取参与人员最后一次发送邮件和最后一次提交代码的时间戳,两者间的较大值为参与人员的离开该开源软件开发项目的时间;取该开源软件开发项目内第一次出现邮件和第一次出现代码提交的时间戳,两者间的较小值为开源软件开发项目成立年限;对于参与人员,取参与人员加入开源软件开发项目的时间与参与人员离开开源软件开发项目的时间的时间差为该参与人员的研发年限,即参与人员参与开源软件开发项目的时间长度;对于开源软件开发项目,取参与人员加入开源软件开发项目的时间与该开源软件开发项目的成立时间的时间差为该开源软件开发项目的项目年限。
S103:使用所述影响因素信息,对分类模型进行训练。
其中,分类模型用于根据项目参与人员的项目执行信息输出指示信息,该指示信息用于指示所述项目参与人员所属的类型。
在S103中,将从S102中获取得到的参与人员类型影响因素以向量的形式输入到分类模型中,将技术型核心参与人员和/或社交型核心参与人员作为该分类模型的因变量,调整分类模型的参数,进行多次训练后,得到用于对参与人员类型分类的分类模型。
具体实施时,可按照公式(1)对影响因素的分布向量进行归一化处理,减少模型训练过程中出现的噪声抖动,公式如下:
Figure BDA0001877313540000101
其中,x表示影响因素分布向量中的元素,比如提交次数,代码行数等;Max表示该影响因素分布向量中的最大值;Min表示该影响因素分布向量中的最小值。
本申请的上述实施例中,获取目标项目中每个参与人员的项目执行信息,根据项目执行信息获取关于参与人员类型的多个影响因素信息,并使用该影响因素信息对分类模型进行训练,可得到能够反映目标项目参与人员类型影响因素特征的分类模型,利用该分类模型进行参与人员的类型分类,可确定该目标项目中参与人员的类型。
下面以目标项目为开源软件开发项目,分类模型为C-支持向量机为例,对图1中的流程进行详细的描述。假设开源软件开发项目中有M名参与人员,有N种参与人员类型影响因素,对参与人员类型影响因素进行分布向量归一化后,其表达式为:
factor=(f1,f2,fi,...,fN)(i∈[1,N]) (2)
其中,fi表示各参与人员在人员类型影响因素i中的分布,其表达式为:
fi=(p1,p2,...,pj,pM)(i∈[1,N],j∈[1,M]) (3)
式(3)中,pj代表参与人员j在人员类型影响因素i中所占的贡献比重。
参与人员类型的分布向量的表达式为:
role=(r1,r2,...,rM) (4)
其中,参与人员类型的分布向量中的元素为0或1,即ri=1或ri=0,i∈[1,M],分布向量中的值可由S101中的方法获取。比如1表示该参与人员为此开源软件开发项目中的技术型核心参与人员或社交型核心参与人员,0表示该参与人员为此开源软件开发项目中的普通参与人员。
在获得到影响因素分布向量和参与人员类型的分布向量后,将式(2)中的元素作为C-支持向量机的自变量,将式(4)中的元素作为C-支持向量机的因变量,输入到如下公式中:
Figure BDA0001877313540000111
其中,xi表示训练数据样本i,yi表示训练数据的样本标签,ai表示训练数据样本i的拉格朗日乘子,b表示分类超平面与坐标系原点之间的距离,f(x,y)表示支持向量机分类超平面的表达式。具体到开源软件开发项目的参与人员分类中,xi表示影响因素分布向量,yi表示参与人员类型的分布向量,比如若想获得关于技术型核心参与人员的分类模型,则yi表示参与人员是否为技术型核心参与人员的指示值;若想获得关于社交型核心参与人员的分类模型,则yi表示参与人员是否为社交型核心参与人员的指示值。f(x,y)表示参与人员的分类超平面表达式,即用于区分参与人员为技术型核心参与人员还是普通参与人员,或者用于区分参与人员为社交型核心参与人员还是普通参与人员。
可选地,在S103中可以利用分类准确度、受试者工作特征曲线下的面积(AreaUnder Curve,AUC)以及均值标准误差等分类模型准确性衡量工具作为评判基准,用以保证分类模型在参与人员类型分类中的准确率。再具体实施时,可调整分类模型的参数,训练得到多个分类模型,并利用上述分类模型准确率衡量工具以及测试集得到每个分类模型的分类准确率,选择准确率最高的分类模型为技术型核心参与人员或社交型核心参与人员的理想化分类模型。
需要说明的是,上述分类模型准确率衡量工具、分类模型的参数调整以及分类模型的类型为现有技术,本申请对此不作限定。
基于相同的技术构思,本申请实施例还提供一种分类方法,该方法基于前述实施例中训练得到的分类模型进行参与人员类型的分类。
如图2所示,为本申请实施例提供的一种分类方法的流程图。
如图所示,该流程包括:
S201:获取项目的参与人员的项目执行信息。
可选地,该目标项目为开源软件开发项目;所述多种参与人员类型包括技术型核心参与人员、社交型核心参与人员以及普通参与人员。
S202:根据所述项目执行信息,获取影响所述参与人员所属类型的影响因素信息。
其中,影响所述参与人员所属类型的影响因素信息包括所述参与人员对所述项目的贡献信息、所述参与人员产生的与所述项目相关的社交信息以及所述参与人员参与所述项目的时间信息。
可选地,参与人员对开源软件开发项目的贡献信息,包括以下部分或全部信息:参与人员提交的软件编程代码行数;参与人员提交软件编程代码的次数;参与人员提交的软件编程文件数。
可选地,参与人员产生的与开源软件开发项目相关的社交信息,包括以下部分或全部信息:参与人员接收的与开源软件开发项目相关的邮件数;参与人员发送的与开源软件开发项目相关的邮件数;参与人员接收的与开源软件开发项目相关的邮件的发件人信息;参与人员发送的与开源软件开发项目相关的邮件的收件人信息。
可选地,参与人员参与开源软件开发项目的时间信息,包括以下部分或全部信息:参与人员加入开源软件开发项目的起始时间;参与人员所接收的邮件中,来源于不同发件人的人员数;参与人员所发送的邮件中,发向不同收件人的人员数。
S203:使用所述分类模型,对所述项目的参与人员进行分类。
在S203中,根据分类模型的输出信息,确定项目的参与人员的类型是否是技术型核心参与人员和/或社交型核心参与人员。
以上述实施例训练得到的技术型核心参与人员分类模型中或社交型核心参与人员分类模型为例,获取开源软件开发项目的待分类参与人员的项目执行信息,从项目执行信息中获取如表1所示的影响因素,并将该待分类参与人员的影响因素输入到技术型核心参与人员分类模型中或社交型核心参与人员分类模型中,得到用于描述该待分类参与人员是否是技术型核心参与人员或社交型核心参与人员的指示信息。比如1表示该待分类参与人员为该开源软件开发项目中的技术型核心参与人员或社交型核心参与人员,0表示该待分类参与人员为该开源软件开发项目中的普通参与人员。
基于相同的技术构思,本申请实施例还提供一种分类模型训练系统的,该系统可实现前述实施例中图1所执行的流程。
如图3所示,为本申请实施例提供的一种分类模型训练系统的结构示意图。该系统包括:第一获取单元301,第二获取单元302,训练单元303。
第一获取单元301:用于获取项目的参与人员的项目执行信息,所述参与人员根据所述项目执行信息被划分为多种类型;
第二获取单元302:用于根据所述项目执行信息,获取影响所述参与人员所属类型的影响因素信息,其中,影响一个参与人员所属类型的影响因素信息包括所述一个参与人员对所述项目的贡献信息、所述一个参与人员产生的与所述项目相关的社交信息以及所述一个参与人员参与所述项目的时间信息;
训练单元303:用于使用所述影响因素信息,对分类模型进行训练;其中,所述分类模型用于根据项目参与人员的项目执行信息输出指示信息,所述指示信息用于指示所述项目参与人员所属的类型。
可选地,所述项目为开源软件开发项目;所述多种类型包括:技术型核心参与人员、社交型核心参与人员以及普通参与人员;其中,所述技术型核心参与人员的数量或所述社交型核心参与人员的数量占所述开源软件开发项目参与人员总数的设定比例。
基于相同的技术构思,本申请实施例还提供一种分类系统,该系统可实现前述实施例中图2所执行的流程。
如图4所示,为本申请实施例提供的一种分类系统的结构示意图。该系统包括:第一获取单元401,第二获取单元402,分类单元403。
第一获取单元401:用于获取项目的参与人员的项目执行信息;
第二获取单元402:用于根据所述项目执行信息,获取影响所述参与人员所属类型的影响因素信息,其中,影响所述参与人员所属类型的影响因素信息包括所述参与人员对所述项目的贡献信息、所述参与人员产生的与所述项目相关的社交信息以及所述参与人员参与所述项目的时间信息;
分类单元403:用于使用所述分类模型,对所述项目的参与人员进行分类。
可选地,所述项目为开源软件开发项目;对所述项目的参与人员进行分类后得到的类型包括以下中的一种:技术型核心参与人员、社交型核心参与人员以及普通参与人员。
可选地,所述分类单元403,具体用于根据所述分类模型的输出信息,确定所述项目的参与人员的类型。
基于相同的技术构思,本申请实施例还提供一种通信装置,该通信装置可实现前述实施例中图3所执行的流程。
图5示出了本申请实施例提供的通信装置500的结构示意图,即示出了分类模型训练系统300的另一结构示意图。参阅图5所示,该通信装置500包括处理器501、存储器502。其中,处理器501也可以为控制器。所述处理器501被配置为支持终端执行前述流程涉及的功能。存储器502用于与处理器501耦合,其保存终端必要的程序指令和数据。其中,处理器501、和存储器502相连,该存储器502用于存储指令,该处理器501用于执行该存储器502存储的指令,以完成上述方法中客户端设备执行相应功能的步骤。
本申请实施例中,分类训练系统300和通信装置500所涉及的与本公开实施例提供的技术方案相关的概念,解释和详细说明及其它步骤请参见前述方法或其它实施例中关于这些内容的描述,此处不做赘述。
需要说明的是,本公开实施例上述涉及的处理器可以是中央处理器(centralprocessing unit,CPU),通用处理器,数字信号处理器(digital signal processor,DSP),专用集成电路(application-specific integrated circuit,ASIC),现场可编程门阵列(field programmable gate array,FPGA)或者其它可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等等。其中,所述存储器可以集成在所述处理器中,也可以与所述处理器分开设置。
基于相同的技术构思,本申请实施例还提供了一种通信装置,该通信装置可实现前述实施例中图4所执行的流程。
图6示出了本申请实施例提供的通信装置600的结构示意图,即示出了分类系统400的另一结构示意图。参阅图6所示,该通信装置600包括处理器601、存储器602,可选地,还可包括通信接口603。其中,处理器601也可以为控制器。所述处理器601被配置为支持终端执行前述流程涉及的功能。存储器602用于与处理器601耦合,其保存终端必要的程序指令和数据。其中,处理器601、和存储器602相连,该存储器602用于存储指令,该处理器601用于执行该存储器602存储的指令,以完成上述方法中客户端设备执行相应功能的步骤。
本申请实施例中,分类系统400和通信装置600所涉及的与本公开实施例提供的技术方案相关的概念,解释和详细说明及其它步骤请参见前述方法或其它实施例中关于这些内容的描述,此处不做赘述。
需要说明的是,本公开实施例上述涉及的处理器可以是中央处理器(centralprocessing unit,CPU),通用处理器,数字信号处理器(digital signal processor,DSP),专用集成电路(application-specific integrated circuit,ASIC),现场可编程门阵列(field programmable gate array,FPGA)或者其它可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等等。其中,所述存储器可以集成在所述处理器中,也可以与所述处理器分开设置。
基于相同的技术构思,本申请实施例还提供了一种计算机可读存储介质。计算机可读存储介质存储有计算机可执行指令,计算机可执行指令用于使计算机执行图1中所执行的流程。
基于相同的技术构思,本申请实施例还提供了一种计算机可读存储介质。计算机可读存储介质存储有计算机可执行指令,计算机可执行指令用于使计算机执行图2中所执行的流程。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (20)

1.一种分类模型训练方法,其特征在于,包括:
获取项目的参与人员的项目执行信息,所述参与人员根据所述项目执行信息被划分为多种类型;
根据所述项目执行信息,获取影响所述参与人员所属类型的影响因素信息,其中,影响一个参与人员所属类型的影响因素信息包括所述一个参与人员对所述项目的贡献信息、所述一个参与人员产生的与所述项目相关的社交信息以及所述一个参与人员参与所述项目的时间信息;
使用所述影响因素信息,对分类模型进行训练;其中,所述分类模型用于根据项目参与人员的项目执行信息输出指示信息,所述指示信息用于指示所述项目参与人员所属的类型。
2.如权利要求1所述的方法,其特征在于,所述项目为开源软件开发项目;
所述多种类型包括:技术型核心参与人员、社交型核心参与人员以及普通参与人员;其中,所述技术型核心参与人员的数量或所述社交型核心参与人员的数量占所述开源软件开发项目参与人员总数的设定比例。
3.如权利要求2所述的方法,其特征在于,所述一个参与人员对所述开源软件开发项目的贡献信息,包括以下部分或全部信息:
所述一个参与人员提交的软件编程代码行数;
所述一个参与人员提交软件编程代码的次数;
所述一个参与人员提交的软件编程文件数。
4.如权利要求2所述的方法,其特征在于,所述一个参与人员产生的与所述开源软件开发项目相关的社交信息,包括以下部分或全部信息:
所述一个参与人员接收的与所述开源软件开发项目相关的邮件数;
所述一个参与人员发送的与所述开源软件开发项目相关的邮件数;
所述一个参与人员所接收的邮件中,来源于不同发件人的人员数;
所述一个参与人员所发送的邮件中,发向不同收件人的人员数。
5.如权利要求2所述的方法,其特征在于,所述一个参与人员参与所述开源软件开发项目的时间信息,包括以下部分或全部信息:
所述一个参与人员加入所述开源软件开发项目的起始时间;
所述一个参与人员离开所述开源软件开发项目的截止时间;
所述一个参与人员参与所述开源软件开发项目的时间长度。
6.一种分类方法,应用于使用如权利要求1至5中任一项所述的分类模型进行项目参与人员类型分类的过程,其特征在于,包括:
获取项目的参与人员的项目执行信息;
根据所述项目执行信息,获取影响所述参与人员所属类型的影响因素信息,其中,影响所述参与人员所属类型的影响因素信息包括所述参与人员对所述项目的贡献信息、所述参与人员产生的与所述项目相关的社交信息以及所述参与人员参与所述项目的时间信息;
使用所述分类模型,对所述项目的参与人员进行分类。
7.如权利要求6所述的方法,其特征在于,所述项目为开源软件开发项目;
对所述项目的参与人员进行分类后得到的类型包括以下中的一种:技术型核心参与人员、社交型核心参与人员以及普通参与人员。
8.如权利要求7所述的方法,其特征在于,所述参与人员对所述开源软件开发项目的贡献信息,包括以下部分或全部信息:
所述参与人员提交的软件编程代码行数;
所述参与人员提交软件编程代码的次数;
所述参与人员提交的软件编程文件数。
9.如权利要求7所述的方法,其特征在于,所述参与人员产生的与所述开源软件开发项目相关的社交信息,包括以下部分或全部信息:
所述参与人员接收的与所述开源软件开发项目相关的邮件数;
所述参与人员发送的与所述开源软件开发项目相关的邮件数;
所述参与人员接收的与所述开源软件开发项目相关的邮件的发件人信息;
所述参与人员发送的与所述开源软件开发项目相关的邮件的收件人信息。
10.如权利要求7所述的方法,其特征在于,所述参与人员参与所述开源软件开发项目的时间信息,包括以下部分或全部信息:
所述参与人员加入所述开源软件开发项目的起始时间;
所述参与人员所接收的邮件中,来源于不同发件人的人员数;
所述参与人员所发送的邮件中,发向不同收件人的人员数。
11.如权利要求6所述的方法,其特征在于,所述使用所述分类模型,对所述项目的参与人员进行分类,包括:
根据所述分类模型的输出信息,确定所述项目的参与人员的类型。
12.一种分类模型训练系统,其特征在于,包括:
第一获取单元:用于获取项目的参与人员的项目执行信息,所述参与人员根据所述项目执行信息被划分为多种类型;
第二获取单元:用于根据所述项目执行信息,获取影响所述参与人员所属类型的影响因素信息,其中,影响一个参与人员所属类型的影响因素信息包括所述一个参与人员对所述项目的贡献信息、所述一个参与人员产生的与所述项目相关的社交信息以及所述一个参与人员参与所述项目的时间信息;
训练单元:用于使用所述影响因素信息,对分类模型进行训练;其中,所述分类模型用于根据项目参与人员的项目执行信息输出指示信息,所述指示信息用于指示所述项目参与人员所属的类型。
13.如权利要求12所述的系统,其特征在于,所述项目为开源软件开发项目;
所述多种类型包括:技术型核心参与人员、社交型核心参与人员以及普通参与人员;其中,所述技术型核心参与人员的数量或所述社交型核心参与人员的数量占所述开源软件开发项目参与人员总数的设定比例。
14.一种分类系统,其特征在于,包括:
第一获取单元:用于获取项目的参与人员的项目执行信息;
第二获取单元:用于根据所述项目执行信息,获取影响所述参与人员所属类型的影响因素信息,其中,影响所述参与人员所属类型的影响因素信息包括所述参与人员对所述项目的贡献信息、所述参与人员产生的与所述项目相关的社交信息以及所述参与人员参与所述项目的时间信息;
分类单元:用于使用所述分类模型,对所述项目的参与人员进行分类。
15.如权利要求14所述的系统,其特征在于,所述项目为开源软件开发项目;
对所述项目的参与人员进行分类后得到的类型包括以下中的一种:技术型核心参与人员、社交型核心参与人员以及普通参与人员。
16.如权利要求14所述的系统,其特征在于,所述分类单元,具体用于:
根据所述分类模型的输出信息,确定所述项目的参与人员的类型。
17.一种通信装置,其特征在于,包括:处理器、存储器;
所述存储器,用于存储计算机指令;
所述处理器,用于运行所述计算机指令以实现如权利要求1至5中任一项所述的方法。
18.一种通信装置,其特征在于,包括:处理器、存储器;
所述存储器,用于存储计算机指令;
所述处理器,用于运行所述计算机指令以实现如权利要求6至11中任一项所述的方法。
19.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机指令,所述计算机指令被处理器执行时实现权利要求1至5中任一项所述的方法。
20.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机指令,所述计算机指令被处理器执行时实现权利要求6至11中任一项所述的方法。
CN201811405788.9A 2018-11-23 2018-11-23 一种分类模型训练方法、分类方法及系统 Pending CN111222520A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811405788.9A CN111222520A (zh) 2018-11-23 2018-11-23 一种分类模型训练方法、分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811405788.9A CN111222520A (zh) 2018-11-23 2018-11-23 一种分类模型训练方法、分类方法及系统

Publications (1)

Publication Number Publication Date
CN111222520A true CN111222520A (zh) 2020-06-02

Family

ID=70830187

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811405788.9A Pending CN111222520A (zh) 2018-11-23 2018-11-23 一种分类模型训练方法、分类方法及系统

Country Status (1)

Country Link
CN (1) CN111222520A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140279599A1 (en) * 2013-03-15 2014-09-18 League Sports Services Llc Managing compliance for participation in organization acitivies
US20140317203A1 (en) * 2013-04-22 2014-10-23 Black & Veatch Holding Company Role-based systems and computer programs for managing complex projects
CN104809393A (zh) * 2015-05-11 2015-07-29 重庆大学 一种基于流行度分类特征的托攻击检测算法
CN107679818A (zh) * 2017-05-10 2018-02-09 平安科技(深圳)有限公司 软件项目管理方法、终端及计算机可读存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140279599A1 (en) * 2013-03-15 2014-09-18 League Sports Services Llc Managing compliance for participation in organization acitivies
US20140317203A1 (en) * 2013-04-22 2014-10-23 Black & Veatch Holding Company Role-based systems and computer programs for managing complex projects
CN104809393A (zh) * 2015-05-11 2015-07-29 重庆大学 一种基于流行度分类特征的托攻击检测算法
CN107679818A (zh) * 2017-05-10 2018-02-09 平安科技(深圳)有限公司 软件项目管理方法、终端及计算机可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘希宋;李文庆;喻登科;: "基于市场营销离群数据挖掘的客户分类模型" *
吴哲夫1, 朱天潼1, 宣 琦1, 余 跃2: "基于贡献分配的开源软件核心开发者评估" *

Similar Documents

Publication Publication Date Title
WO2018166105A1 (zh) 贷款额度测算方法、装置、服务器和存储介质
CN111383101B (zh) 贷后风险监控方法、装置、设备及计算机可读存储介质
WO2019205325A1 (zh) 确定用户风险等级的方法、终端设备及计算机可读存储介质
US20150089399A1 (en) System and methods for real-time formation of groups and decentralized decision making
CN109976997B (zh) 测试方法和装置
US20160307141A1 (en) Method, System, and Computer Program Product for Generating Mixes of Tasks and Processing Responses from Remote Computing Devices
US20160125552A1 (en) Methods, systems and computer program products for collaborative tax return preparation
CN104866969A (zh) 个人信用数据处理方法和装置
CN111275503B (zh) 一种获取流失用户召回成功率的数据处理方法及装置
CN109685536B (zh) 用于输出信息的方法和装置
US20170124649A1 (en) Techniques for real-time order prioritization and matching
CN110163683B (zh) 价值用户关键指标确定方法、广告投放方法及装置
CN107633257B (zh) 数据质量评估方法及装置、计算机可读存储介质、终端
US20190087786A1 (en) System and method for automated lead retrieval and attendance tracking
CN109118316A (zh) 线上店铺真实性的识别方法和装置
CN114820146A (zh) 一种线上招标方法、系统、计算机设备及存储介质
CN107256231B (zh) 一种团队成员识别设备、方法及系统
CN110720099A (zh) 基于种子监督学习提供推荐的系统和方法
CN114202018A (zh) 一种模块化的联合学习方法及系统
CN117132317A (zh) 数据处理方法、装置、设备、介质及产品
CN111222520A (zh) 一种分类模型训练方法、分类方法及系统
CN113436379B (zh) 智慧投票表决方法、装置、设备及存储介质
WO2019196502A1 (zh) 营销活动质量评估方法、服务器及计算机可读存储介质
CN115545088B (zh) 模型构建方法、分类方法、装置和电子设备
WO2021129368A1 (zh) 一种客户类型的确定方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200602