CN108074071A - 一种项目数据处理方法及装置 - Google Patents
一种项目数据处理方法及装置 Download PDFInfo
- Publication number
- CN108074071A CN108074071A CN201611018955.5A CN201611018955A CN108074071A CN 108074071 A CN108074071 A CN 108074071A CN 201611018955 A CN201611018955 A CN 201611018955A CN 108074071 A CN108074071 A CN 108074071A
- Authority
- CN
- China
- Prior art keywords
- project
- confidence level
- pending
- promoter
- contents
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims abstract description 60
- 238000003672 processing method Methods 0.000 title claims abstract description 12
- 238000012549 training Methods 0.000 claims abstract description 37
- 238000011156 evaluation Methods 0.000 claims description 52
- 238000000034 method Methods 0.000 claims description 39
- 230000000977 initiatory effect Effects 0.000 claims description 15
- 238000004422 calculation algorithm Methods 0.000 claims description 14
- 238000012795 verification Methods 0.000 claims description 12
- 238000010801 machine learning Methods 0.000 claims description 11
- 238000013481 data capture Methods 0.000 claims description 3
- 235000013399 edible fruits Nutrition 0.000 claims description 3
- 238000004891 communication Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000012550 audit Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 3
- 230000003542 behavioural effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 241001269238 Data Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/103—Workflow collaboration or project management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Entrepreneurship & Innovation (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Evolutionary Computation (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Marketing (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Tourism & Hospitality (AREA)
- Medical Informatics (AREA)
- Economics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种项目数据处理方法及装置,本申请预先训练得到项目可信度计算模型,进而根据该模型以及获取的待处理项目的发起人的属性信息、历史项目参与信息,以及项目内容信息,确定待处理项目的可信度,待处理项目的可信度表明了待处理项目为真实项目的可信程度,反映了待处理项目的质量高低。本申请根据待处理项目的可信度,对其进行相应的数据处理,更加有利于高质量项目的优先处理。
Description
技术领域
本申请涉及数据处理技术领域,更具体地说,涉及一种项目数据处理方法及装置。
背景技术
随着互联网的发展,网络平台上出现了越来越多的可由多人参与的项目,如众筹等。体现在公益领域中,众筹可以是公益项目,由项目发起人在公益平台上发布求助信息,捐助方通过公益平台可以对感兴趣的公益项目进行捐助。
公益平台由于其传播力度大,发布和获取捐助信息更加快捷、方便,因此备受群众关注。公益平台需要对项目发起人所发起的项目进行数据处理,如审核、上线、推广等。公益平台每天接收的项目数量众多,现有技术中公益平台在对众多的项目进行数据处理时,一般是按照项目发起时间的先后顺序依次处理。但是,不同项目质量高低不同,按照发起时间顺序处理并不利于高质量项目的优先处理,且某些情况下,如果一个虚假项目发起时间靠前,则现有技术会优先处理并重点推广该虚假项目,这显然是不合理的。
发明内容
有鉴于此,本申请提供了一种项目数据处理方法及装置,用于解决现有以项目发起时间决定项目数据处理顺序的方式所存在的不合理的问题。
为了实现上述目的,现提出的方案如下:
一种项目数据处理方法,包括:
获取待处理项目的发起人的属性信息及历史项目参与信息;获取所述待处理项目的项目内容信息;
根据所述发起人的属性信息、历史项目参与信息、所述项目内容信息,以及预先训练的项目可信度计算模型,确定所述待处理项目的可信度,所述可信度表示待处理项目为真实项目的可信程度;
至少根据所述待处理项目的可信度,对所述待处理项目进行数据处理。
一种项目数据处理装置,包括:
数据获取单元,用于获取待处理项目的发起人的属性信息及历史项目参与信息;获取所述待处理项目的项目内容信息;
模型计算单元,用于根据所述发起人的属性信息、历史项目参与信息、所述项目内容信息,以及预先训练的项目可信度计算模型,确定所述待处理项目的可信度,所述可信度表示待处理项目为真实项目的可信程度;
数据处理单元,用于至少根据所述待处理项目的可信度,对所述待处理项目进行数据处理。
本申请实施例提供的项目数据处理方法,获取待处理项目的发起人的属性信息及历史项目参与信息;获取所述待处理项目的项目内容信息;根据所述发起人的属性信息、历史项目参与信息、所述项目内容信息,以及预先训练的项目可信度计算模型,确定所述待处理项目的可信度,所述可信度表示待处理项目为真实项目的可信程度;至少根据所述待处理项目的可信度,对所述待处理项目进行数据处理。由此可见,本申请预先训练得到项目可信度计算模型,进而根据该模型以及获取的待处理项目的发起人的属性信息、历史项目参与信息,以及项目内容信息,确定待处理项目的可信度,待处理项目的可信度表明了待处理项目为真实项目的可信程度,反映了待处理项目的质量高低。本申请根据待处理项目的可信度,对其进行相应的数据处理,更加有利于高质量项目的优先处理。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例公开的一种项目数据处理方法流程图;
图2为本申请实施例公开的一种确定待处理项目的可信度的方法流程图;
图3为本申请实施例公开的又一种项目数据处理方法流程图;
图4为本申请实施例公开的一种确定待处理项目与已上线各项目的相似度的方法流程图;
图5为本申请实施例公开的一种确定待处理项目的评价结果的方法流程图;
图6为本申请实施例公开的一种项目数据处理装置结构示意图;
图7为本申请实施例公开的一种服务器硬件结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例公开了一种项目数据处理方案,能够根据项目可信度来进行相应的数据处理,如对可信度高的项目,优先审查,提前上线,重点推广等;对可信度低的项目,最后审查,且加强审查力度,上线后推广顺序靠后,避免虚假项目损坏公众利益等。
本申请中的项目可以是众筹项目,如公益项目等,当然也可以是由其它形式的多人参与的项目。
本申请项目数据处理方案的主体可以是项目推广平台等,如公益推广平台。该项目推广平台可以是一台或多台服务器组成的服务器集群。项目推广平台接收项目发起人发起的项目,并根据本申请方案确定项目的可信度,基于此来对项目进行数据处理。
接下来,本申请从项目推广平台的角度对本申请的项目数据处理方法进行介绍,参见图1所示,该方法包括:
步骤S100、获取待处理项目的发起人的属性信息及历史项目参与信息;
具体地,针对项目不同处理阶段,待处理项目的含义不同。以项目的整个处理流程包括:审核、上线、推广为例,在审核之前,待处理项目可以是还未进行审核的项目;在项目上线之后,待处理项目可以是等待排序显示的项目,或者是,等待设定推广策略的项目等。
待处理项目由发起人发起,本步骤中获取发起人的属性信息,属性信息可以包括发起人年龄、性别、职业、学历等。进一步,本步骤中还可以进一步获取发起人的历史项目参与信息,如历史发起和/或参与的项目个数、项目内容、项目评价等。以项目为公益项目为例,历史项目参与信息可以包括,发起人历史发起和/或参与的公益项目个数、项目内容等。
步骤S110、获取所述待处理项目的项目内容信息;
具体地,发明人发起待处理项目时,需要提供项目信息,本步骤中可以根据项目信息获取项目内容信息,如项目描述文本、项目属性信息等,其中项目属性信息包括但不限于:项目名称、项目类型、项目募集金额、项目周期等。
步骤S120、根据所述发起人的属性信息、历史项目参与信息、所述项目内容信息,以及预先训练的项目可信度计算模型,确定所述待处理项目的可信度;
其中,所述可信度表示待处理项目为真实项目的可信程度。当然,待处理项目为真实项目的可信程度,等于1-待处理项目为虚假项目的可信程度。
本申请预先利用训练样本训练得到项目可信度计算模型,该模型用于在输入待处理项目发起人的属性信息、历史项目参与信息以及项目内容信息时,输出待处理项目的可信度。其中,项目可信度计算模型可以使用机器学习算法预先训练得到,详细训练过程参见下文相关介绍。
步骤S130、至少根据所述待处理项目的可信度,对所述待处理项目进行数据处理。
具体地,上文已经介绍根据项目不同处理阶段,需要进行的数据处理内容不同。本步骤中,至少根据待处理项目的可信度,对待处理项目进行数据处理。以审核阶段为例,针对可信度高的待处理项目,本申请可以优先对其进行审核,对于可信度低的待处理项目,本申请可以最后对其进行审核,并提高审核要求,以避免虚假项目上线后,对公众造成损害。
本申请实施例提供的项目数据处理方法,获取待处理项目的发起人的属性信息及历史项目参与信息;获取所述待处理项目的项目内容信息;根据所述发起人的属性信息、历史项目参与信息、所述项目内容信息,以及预先训练的项目可信度计算模型,确定所述待处理项目的可信度,所述可信度表示待处理项目为真实项目的可信程度;至少根据所述待处理项目的可信度,对所述待处理项目进行数据处理。由此可见,本申请预先训练得到项目可信度计算模型,进而根据该模型以及获取的待处理项目的发起人的属性信息、历史项目参与信息,以及项目内容信息,确定待处理项目的可信度,待处理项目的可信度表明了待处理项目为真实项目的可信程度,反映了待处理项目的质量高低。本申请根据待处理项目的可信度,对其进行相应的数据处理,更加有利于高质量项目的优先处理。
在本申请的另一个实施例中,对上述步骤S120,根据所述发起人的属性信息、历史项目参与信息、所述项目内容信息,以及预先训练的项目可信度计算模型,确定所述待处理项目的可信度的过程进行介绍。
在介绍上述过程时,首先对项目可信度计算模型进行介绍。
本实施例中,项目可信度计算模型可以包括:发起人可信度计算子模型、项目内容可信度计算子模型和项目可信度计算子模型。
其中:
发起人可信度计算子模型用于计算待处理项目的发起人的可信度,所述发起人的可信度表示该发起人发起真实项目的概率。
项目内容可信度计算子模型用于计算待处理项目的项目内容的可信度,所述项目内容的可信度表示该项目内容可信的概率。
项目可信度计算子模型用于根据待处理项目的发起人的可信度,以及项目内容的可信度,计算待处理项目整体的可信度。
基于此,参照图2所示,上述步骤S120的实施过程可以包括:
S200、根据所述发起人的属性信息、历史项目参与信息和所述发起人可信度计算子模型,确定所述发起人的可信度,所述发起人的可信度表示该发起人发起真实项目的概率;
S210、根据所述项目内容信息及所述项目内容可信度计算子模型,确定所述项目内容的可信度,所述项目内容的可信度表示该项目内容可信的概率;
S220、根据所述发起人的可信度、所述项目内容的可信度及所述项目可信度计算子模型,确定所述待处理项目的可信度。
对于上述三个计算子模型的训练过程,本申请实施例分别进行介绍。
第一:
发起人可信度计算子模型的训练过程:
在训练发起人可信度计算子模型时,首先获取正负样本数据,所述正负样本数据包括:样本标签标记为发起虚假项目的用户的属性信息及历史项目参与信息,以及样本标签标记为发起真实项目的用户的属性信息及历史项目参与信息。
其中,本申请可以通过项目推广平台收集发起虚假项目的用户的属性信息及历史项目参与信息,以及收集发起真实项目的用户的属性信息及历史项目参与信息,作为正负样本数据。
进一步,根据所述正负样本数据,利用机器学习算法训练发起人可信度计算子模型,得到训练后的发起人可信度计算子模型。
本实施例中使用的及其学习算法可以是随机森林等方法,在训练模型时可以将正样本和负样本分别按照一定比例划分为训练集和测试集,在训练集上调整模型参数,得到最优的模型,然后在测试集上计算误差。
第二:
项目内容可信度计算子模型的训练过程:
在训练项目内容可信度计算子模型时,首先获取正负样本数据,所述正负样本数据包括:样本标签标记为虚假的项目内容信息,以及样本标签标记为真实的项目内容信息。
其中,本申请可以通过项目推广平台收集虚假项目的项目内容信息,以及收集真实项目的项目内容信息,作为正负样本数据。
进一步,根据所述正负样本数据,利用机器学习算法训练项目内容可信度计算子模型,得到训练后的项目内容可信度计算子模型。
在训练项目内容可信度计算子模型时,可以按照上述发起人可信度计算子模型训练时所使用的机器学习算法,当然也可以选择其它机器学习算法。
第三:
项目可信度计算子模型的训练过程:
首先,获取正负样本数据,所述正负样本数据包括:样本标签标记为虚假项目的发起人的可信度和项目内容的可信度,以及样本标签标记为真实项目的发起人的可信度和项目内容的可信度。
其中,本申请可以通过项目推广平台收集发起虚假项目的用户的可信度,以及收集发起真实项目的用户的可信度,作为正负样本数据。
进一步,根据所述正负样本数据,利用机器学习算法训练项目可信度计算子模型,得到训练后的项目可信度计算子模型。
在训练项目可信度计算子模型时,可以按照上述发起人可信度计算子模型训练时所使用的机器学习算法,当然也可以选择其它方法,如,为发起人的可信度设置第一权值,为项目内容的可信度设置第二权值,计算发起人的可信度乘以第一权值,以及项目内容的可信度乘以第二权值,并将结果相加,作为待处理项目的可信度。其中,第一权值和第二权值可以由用户设定。
在本申请的又一个实施例中,公开了项目数据处理方法的另一种实施方式,参见图3所示,该方法可以包括:
步骤S300、获取待处理项目的发起人的属性信息及历史项目参与信息;
步骤S310、获取所述待处理项目的项目内容信息;
步骤S320、根据所述发起人的属性信息、历史项目参与信息、所述项目内容信息,以及预先训练的项目可信度计算模型,确定所述待处理项目的可信度;
其中,所述可信度表示待处理项目为真实项目的可信程度。
步骤S330、确定所述待处理项目与已上线的各项目的相似度,并根据所述相似度确定所述待处理项目的创新性;
其中,项目的相似度与创新性成反比关系,项目的相似度越高,表示待处理项目的创新性越低。
对于项目推广平台中已上线的项目,其可以包括当前仍处于在线状态的项目,以及曾经上线过并已经下线的项目。
如果待处理项目与已上线的项目相似度非常高,则代表该待处理项目创新性比较低,反之,代表该待处理项目创新性较高。
步骤S340、确定所述待处理项目的发起人,历史发起的真实项目和虚假项目的个数;
具体地,待处理项目的发起人,历史发起的真实项目和虚假项目的个数可以通过项目推广平台来确定。
步骤S350、根据所述待处理项目的可信度、所述待处理项目的创新性,以及所述历史发起的真实项目和虚假项目的个数,确定所述待处理项目的评价结果;
其中,所述评价结果表示待评价公益项目的质量高低。评价结果与所述待处理项目的可信度、所述待处理项目的创新性、所述历史发起的真实项目个数分别成正比,与所述历史发起的虚假项目的个数成反比。
步骤S360、根据所述待处理项目的评价结果,对所述待处理项目进行数据处理。
具体地,待处理项目的评价结果综合考虑了待处理项目的可信度、创新性和发起人的历史评价,基于此确定待处理项目的评价结果,并根据所述待处理项目的评价结果,对所述待处理项目进行相应的数据处理。具体可以包括:
若所述待处理项目还未上线,则根据所述待处理项目及其它未上线的各项目的评价结果,确定各个未上线的项目的审核顺序,其中,评价结果表明质量高的项目的审核顺序先于质量低的项目;
若所述待处理项目已上线,则根据所述待处理项目及其它已上线的各项目的评价结果,确定各个已上线的项目的推广顺序,其中,评价结果表明质量高的项目的推广顺序先于质量低的项目。
当然,上述仅仅示例了两种数据处理阶段的处理逻辑,针对其它数据处理阶段,还可以设置对应的处理逻辑,宗旨是保证高质量的项目优先于低质量的项目进行处理。
本申请的又一个实施例中,对上述步骤S330,确定所述待处理项目与已上线的各项目的相似度的过程进行介绍,参见图4所示,该过程可以包括:
步骤S400、对所述待处理项目及已上线的各项目的项目描述文本进行文本分析,得到待处理项目及已上线各项目的主题向量;
具体地,项目的项目内容可以包括项目描述文本。本步骤中,对待处理项目和已上线的各项目的项目描述文本进行文本分析,得到每个项目的主题向量(t1,t2,t3,……,tn)。
步骤S410、根据待处理项目的主题向量与已上线的每一项目的主题向量,计算待处理项目与已上线的每一项目的相似性;
具体地,在得到各项目的主题向量之后,通过主题向量可以计算待处理项目与已上线的每一项目的相似性。
步骤S420、根据待处理项目与已上线的每一项目的相似性,确定所述待处理项目与已上线各项目的相似度。
具体地,在得到待处理项目与已上线的每一项目的相似性之后,可以按照设定策略确定待处理项目与已上线各项目的相似度,如对待处理项目与已上线的每一项目的相似性求取中位数,或求取平均值等,将计算结果作为待处理项目与已上线各项目的相似度。
在得到待处理项目与已上线各项目的相似度R之后,可以将相似度R求倒数1/R,作为待处理项目的创新性。
进一步地,对上述步骤S350,根据所述待处理项目的可信度、所述待处理项目的创新性,以及所述历史发起的真实项目和虚假项目的个数,确定所述待处理项目的评价结果的过程进行介绍。本实施例中,所述待处理项目的可信度可以表示为可信度评分,所述待处理项目的创新性可以表示为创新性评分,基于此,参见图5所示,该过程可以包括:
步骤S500、根据第一权值对所述待处理项目的可信度评分进行加权,得到第一加权得分;
其中,待处理项目的可信度表示待处理项目为真实项目的可信程度。
步骤S510、根据第二权值对所述待处理项目的创新性评分进行加权,得到第二加权得分;
步骤S520、根据第三权值对所述历史发起的真实项目的个数进行加权,得到第三加权得分;
步骤S530、根据第四权值对所述历史发起的虚假项目的个数进行加权,得到第四加权得分;
步骤S540、根据所述第一加权得分、所述第二加权得分、所述第三加权得分和所述第四加权得分,计算得到所述待处理项目的评价得分,所述评价得分与所述第一加权得分、所述第二加权得分、所述第三加权得分均成正比关系,与所述第四加权得分成反比关系。
其中,第一权值、第二权值、第三权值、和第四权值可以由用户设定。
作为一种可选的实施方式,评价得分的计算公式可以参照如下公式:
其中,S表示评价得分,P表示待处理项目的可信度评分,表示待处理项目的创新性评分,R表示待处理项目与其它已上线各项目的相似度,G表示待处理项目的发起人历史发起真实项目的个数,B表示待处理项目的发起人历史发起虚假项目的个数,C1-C4为设定的权值。
由上式可以看出,评价得分与待处理项目的可信度评分、待处理项目的创新性评分、处理项目的发起人历史发起真实项目的个数成正比,与待处理项目的发起人历史发起虚假项目的个数成反比,且待处理项目的发起人历史发起虚假项目的个数对评价得分影响非常大。
接下来,本申请以公益项目的数据处理过程为例,对本申请方案进行介绍。
本申请预先利用获取的正负样本数据分别训练发起人可信度计算子模型、项目内容可信度计算子模型和项目可信度计算子模型。
公益平台在对一待处理公益项目进行处理前,获取其发起人的属性信息及历史公益行为信息;获取待处理公益项目的项目内容信息。
公益平台将发起人的属性信息及历史公益行为信息,输入至训练好的发起人可信度计算子模型,得到模型输出的发起人的可信度评分p1。
公益平台将待处理公益项目的项目内容信息,输入至训练好的项目内容可信度计算子模型,得到模型输出的项目内容的可信度评分p2。
公益平台将上述得到的发起人的可信度评分p1和项目内容的可信度评分p2输入至训练好的项目可信度计算子模型,得到模型输出的待处理项目的可信度评分P。
进一步,公益平台确定待处理公益项目与平台上已上线的各公益项目的相似度R,基于相似度R确定待处理项目的创新性1/R。
公益平台确定待处理公益项目的发起人,历史发起的真实公益项目个数G和虚假公益项目个数B。
最后,公益平台按照上述公式(1)计算得到待处理公益项目的评价得分S。
按照上述流程对各个待处理公益项目计算其评价得分,得到各待处理公益项目的评价得分。
对于已上线公益项目宣传、展示:利用公益项目的评价得分对已上线的公益项目进行排序,优化推广策略。如对于评价得分高的公益项目给与快速审批和推广上的倾斜;对评价得分低的公益项目,做到严格审核。
新项目审核:利用公益项目的评价得分对已上线的公益项目进行排序,优化审核顺序,如对项目评价得分低的公益项目,限定可见范围,减少可能的风险。
综上可知:
本申请的项目评价指标综合了发起人行为、属性、项目描述文本等多维度数据,丰富了项目可信度评价的考量。得到项目可信度评分后,综合项目可信度评分,创新性评分,发起人历史发起项目的好坏,提出项目评价的一种量化指标。
本申请方案能够提高上线项目的可信度,减少虚假欺诈项目的数量,保护公益用户的权益,净化公益环境。
本申请方案能够减少审核的人工成本、等待周期和审核难度,提高审核效率。
本申请能够快速筛选出高质量的公益项目,进行项目推广、宣传等策略,扩大高质量项目的影响力,优化项目推广的资源分配。
下面对本申请实施例提供的项目数据处理装置进行描述,下文描述的项目数据处理装置与上文描述的项目数据处理方法可相互对应参照。
参见图6,图6为本申请实施例公开的一种项目数据处理装置结构示意图。
如图6所示,该装置包括:
数据获取单元11,用于获取待处理项目的发起人的属性信息及历史项目参与信息;获取所述待处理项目的项目内容信息;
模型计算单元12,用于根据所述发起人的属性信息、历史项目参与信息、所述项目内容信息,以及预先训练的项目可信度计算模型,确定所述待处理项目的可信度,所述可信度表示待处理项目为真实项目的可信程度;
数据处理单元13,用于至少根据所述待处理项目的可信度,对所述待处理项目进行数据处理。
本申请预先训练得到项目可信度计算模型,进而根据该模型以及获取的待处理项目的发起人的属性信息、历史项目参与信息,以及项目内容信息,确定待处理项目的可信度,待处理项目的可信度表明了待处理项目为真实项目的可信程度,反映了待处理项目的质量高低。本申请根据待处理项目的可信度,对其进行相应的数据处理,更加有利于高质量项目的优先处理。
可选的,所述项目可信度计算模型可以包括发起人可信度计算子模型、项目内容可信度计算子模型和项目可信度计算子模型。基于此,
所述模型计算单元可以包括:
第一模型计算子单元,用于根据所述发起人的属性信息、历史项目参与信息和所述发起人可信度计算子模型,确定所述发起人的可信度,所述发起人的可信度表示该发起人发起真实项目的概率;
第二模型计算子单元,用于根据所述项目内容信息及所述项目内容可信度计算子模型,确定所述项目内容的可信度,所述项目内容的可信度表示该项目内容可信的概率;
第三模型计算子单元,用于根据所述发起人的可信度、所述项目内容的可信度及所述项目可信度计算子模型,确定所述待处理项目的可信度。
可选的,本申请的装置还可以包括:发起人可信度计算子模型训练单元,用于训练得到发起人可信度计算子模型;所述发起人可信度计算子模型训练单元可以包括:
第一发起人可信度计算子模型训练单元,用于获取正负样本数据,所述正负样本数据包括:样本标签标记为发起虚假项目的用户的属性信息及历史项目参与信息,以及样本标签标记为发起真实项目的用户的属性信息及历史项目参与信息;
第二发起人可信度计算子模型训练单元,用于根据所述正负样本数据,利用机器学习算法训练发起人可信度计算子模型,得到训练后的发起人可信度计算子模型。
可选的,本申请的装置还可以包括:项目内容可信度计算子模型训练单元,用于训练得到项目内容可信度计算子模型;所述项目内容可信度计算子模型训练单元可以包括:
第一项目内容可信度计算子模型训练单元,用于获取正负样本数据,所述正负样本数据包括:样本标签标记为虚假的项目内容信息,以及样本标签标记为真实的项目内容信息;
第二项目内容可信度计算子模型训练单元,用于根据所述正负样本数据,利用机器学习算法训练项目内容可信度计算子模型,得到训练后的项目内容可信度计算子模型。
可选的,本申请的装置还可以包括:项目可信度计算子模型训练单元,用于训练得到项目可信度计算子模型;所述项目可信度计算子模型训练单元可以包括:
第一项目可信度计算子模型训练单元,用于获取正负样本数据,所述正负样本数据包括:样本标签标记为虚假项目的发起人的可信度和项目内容的可信度,以及样本标签标记为真实项目的发起人的可信度和项目内容的可信度;
第二项目可信度计算子模型训练单元,用于根据所述正负样本数据,利用机器学习算法训练项目可信度计算子模型,得到训练后的项目可信度计算子模型。
可选的,本申请的装置还可以包括:
创新性计算单元,用于确定所述待处理项目与已上线的各项目的相似度,并根据所述相似度确定所述待处理项目的创新性,其中,项目的相似度与创新性成反比关系;
项目个数确定单元,用于确定所述待处理项目的发起人,历史发起的真实项目和虚假项目的个数。基于此,所述数据处理单元可以包括:
评价结果确定单元,用于根据所述待处理项目的可信度、所述待处理项目的创新性,以及所述历史发起的真实项目和虚假项目的个数,确定所述待处理项目的评价结果;
评价结果应用单元,用于根据所述待处理项目的评价结果,对所述待处理项目进行数据处理。
可选的,所述待处理项目的项目内容可以包括项目描述文本。基于此,所述创新性计算单元可以包括:
第一创新性计算子单元,用于对所述待处理项目及已上线的各项目的项目描述文本进行文本分析,得到待处理项目及已上线各项目的主题向量;
第二创新性计算子单元,用于根据待处理项目的主题向量与已上线的每一项目的主题向量,计算待处理项目与已上线的每一项目的相似性;
第三创新性计算子单元,用于根据待处理项目与已上线的每一项目的相似性,确定所述待处理项目与已上线各项目的相似度。
可选的,所述待处理项目的可信度可以为可信度评分,所述待处理项目的创新性可以为创新性评分。基于此,所述评价结果确定单元可以包括:
第一评价结果确定子单元,用于根据第一权值对所述待处理项目的可信度评分进行加权,得到第一加权得分;
第二评价结果确定子单元,用于根据第二权值对所述待处理项目的创新性评分进行加权,得到第二加权得分;
第三评价结果确定子单元,用于根据第三权值对所述历史发起的真实项目的个数进行加权,得到第三加权得分;
第四评价结果确定子单元,用于根据第四权值对所述历史发起的虚假项目的个数进行加权,得到第四加权得分;
第五评价结果确定子单元,用于根据所述第一加权得分、所述第二加权得分、所述第三加权得分和所述第四加权得分,计算得到所述待处理项目的评价得分,所述评价得分与所述第一加权得分、所述第二加权得分、所述第三加权得分均成正比关系,与所述第四加权得分成反比关系。
可选的,上述评价结果应用单元可以包括:
第一评价结果应用子单元,用于若所述待处理项目还未上线,则根据所述待处理项目及其它未上线的各项目的评价结果,确定各个未上线的项目的审核顺序,其中,评价结果表明质量高的项目的审核顺序先于质量低的项目;
第二评价结果应用子单元,用于若所述待处理项目已上线,则根据所述待处理项目及其它已上线的各项目的评价结果,确定各个已上线的项目的推广顺序,其中,评价结果表明质量高的项目的推广顺序先于质量低的项目。
可选的,上述待处理项目可以包括公益项目。
接下来的实施例中,对实现本申请的项目数据处理装置的服务器的硬件结构进行介绍,参见图7,图7为本申请实施例提供的一种服务器硬件结构示意图。
如图7所示,服务器可以包括:
处理器1,通信接口2,存储器3,通信总线4,和显示屏5;
其中处理器1、通信接口2、存储器3和显示屏5通过通信总线4完成相互间的通信;
可选的,通信接口2可以为通信模块的接口,如GSM模块的接口;
处理器1,用于执行程序;
存储器3,用于存放程序;
程序可以包括程序代码,所述程序代码包括处理器的操作指令。
处理器1可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本申请实施例的一个或多个集成电路。
存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
其中,程序具体用于:
获取待处理项目的发起人的属性信息及历史项目参与信息;获取所述待处理项目的项目内容信息;
根据所述发起人的属性信息、历史项目参与信息、所述项目内容信息,以及预先训练的项目可信度计算模型,确定所述待处理项目的可信度,所述可信度表示待处理项目为真实项目的可信程度;
至少根据所述待处理项目的可信度,对所述待处理项目进行数据处理。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (12)
1.一种项目数据处理方法,其特征在于,包括:
获取待处理项目的发起人的属性信息及历史项目参与信息;获取所述待处理项目的项目内容信息;
根据所述发起人的属性信息、历史项目参与信息、所述项目内容信息,以及预先训练的项目可信度计算模型,确定所述待处理项目的可信度,所述可信度表示待处理项目为真实项目的可信程度;
至少根据所述待处理项目的可信度,对所述待处理项目进行数据处理。
2.根据权利要求1所述的方法,其特征在于,所述项目可信度计算模型包括发起人可信度计算子模型、项目内容可信度计算子模型和项目可信度计算子模型;
所述根据所述发起人的属性信息、历史项目参与信息、所述项目内容信息,以及预先训练的项目可信度计算子模型,确定所述待处理项目的可信度,包括:
根据所述发起人的属性信息、历史项目参与信息和所述发起人可信度计算子模型,确定所述发起人的可信度,所述发起人的可信度表示该发起人发起真实项目的概率;
根据所述项目内容信息及所述项目内容可信度计算子模型,确定所述项目内容的可信度,所述项目内容的可信度表示该项目内容可信的概率;
根据所述发起人的可信度、所述项目内容的可信度及所述项目可信度计算子模型,确定所述待处理项目的可信度。
3.根据权利要求2所述的方法,其特征在于,所述发起人可信度计算子模型的训练过程,包括:
获取正负样本数据,所述正负样本数据包括:样本标签标记为发起虚假项目的用户的属性信息及历史项目参与信息,以及样本标签标记为发起真实项目的用户的属性信息及历史项目参与信息;
根据所述正负样本数据,利用机器学习算法训练发起人可信度计算子模型,得到训练后的发起人可信度计算子模型。
4.根据权利要求2所述的方法,其特征在于,所述项目内容可信度计算子模型的训练过程,包括:
获取正负样本数据,所述正负样本数据包括:样本标签标记为虚假的项目内容信息,以及样本标签标记为真实的项目内容信息;
根据所述正负样本数据,利用机器学习算法训练项目内容可信度计算子模型,得到训练后的项目内容可信度计算子模型。
5.根据权利要求2所述的方法,其特征在于,所述项目可信度计算子模型的训练过程,包括:
获取正负样本数据,所述正负样本数据包括:样本标签标记为虚假项目的发起人的可信度和项目内容的可信度,以及样本标签标记为真实项目的发起人的可信度和项目内容的可信度;
根据所述正负样本数据,利用机器学习算法训练项目可信度计算子模型,得到训练后的项目可信度计算子模型。
6.根据权利要求1所述的方法,其特征在于,该方法还包括:
确定所述待处理项目与已上线的各项目的相似度,并根据所述相似度确定所述待处理项目的创新性,其中,项目的相似度与创新性成反比关系;
确定所述待处理项目的发起人,历史发起的真实项目和虚假项目的个数;
所述至少根据所述待处理项目的可信度,对所述待处理项目进行数据处理,包括:
根据所述待处理项目的可信度、所述待处理项目的创新性,以及所述历史发起的真实项目和虚假项目的个数,确定所述待处理项目的评价结果;
根据所述待处理项目的评价结果,对所述待处理项目进行数据处理。
7.根据权利要求6所述的方法,其特征在于,所述待处理项目的项目内容包括项目描述文本;所述确定所述待处理项目与已上线的各项目的相似度,包括:
对所述待处理项目及已上线的各项目的项目描述文本进行文本分析,得到待处理项目及已上线各项目的主题向量;
根据待处理项目的主题向量与已上线的每一项目的主题向量,计算待处理项目与已上线的每一项目的相似性;
根据待处理项目与已上线的每一项目的相似性,确定所述待处理项目与已上线各项目的相似度。
8.根据权利要求6所述的方法,其特征在于,所述待处理项目的可信度为可信度评分,所述待处理项目的创新性为创新性评分;
所述根据所述待处理项目的可信度、所述待处理项目的创新性,以及所述历史发起的真实项目和虚假项目的个数,确定所述待处理项目的评价结果,包括:
根据第一权值对所述待处理项目的可信度评分进行加权,得到第一加权得分;
根据第二权值对所述待处理项目的创新性评分进行加权,得到第二加权得分;
根据第三权值对所述历史发起的真实项目的个数进行加权,得到第三加权得分;
根据第四权值对所述历史发起的虚假项目的个数进行加权,得到第四加权得分;
根据所述第一加权得分、所述第二加权得分、所述第三加权得分和所述第四加权得分,计算得到所述待处理项目的评价得分,所述评价得分与所述第一加权得分、所述第二加权得分、所述第三加权得分均成正比关系,与所述第四加权得分成反比关系。
9.根据权利要求6所述的方法,其特征在于,所述根据所述待处理项目的评价结果,对所述待处理项目进行数据处理,包括:
若所述待处理项目还未上线,则根据所述待处理项目及其它未上线的各项目的评价结果,确定各个未上线的项目的审核顺序,其中,评价结果表明质量高的项目的审核顺序先于质量低的项目;
若所述待处理项目已上线,则根据所述待处理项目及其它已上线的各项目的评价结果,确定各个已上线的项目的推广顺序,其中,评价结果表明质量高的项目的推广顺序先于质量低的项目。
10.根据权利要求1-9任一项所述的方法,其特征在于,所述待处理项目包括公益项目。
11.一种项目数据处理装置,其特征在于,包括:
数据获取单元,用于获取待处理项目的发起人的属性信息及历史项目参与信息;获取所述待处理项目的项目内容信息;
模型计算单元,用于根据所述发起人的属性信息、历史项目参与信息、所述项目内容信息,以及预先训练的项目可信度计算模型,确定所述待处理项目的可信度,所述可信度表示待处理项目为真实项目的可信程度;
数据处理单元,用于至少根据所述待处理项目的可信度,对所述待处理项目进行数据处理。
12.根据权利要求11所述的装置,其特征在于,所述项目可信度计算模型包括发起人可信度计算子模型、项目内容可信度计算子模型和项目可信度计算子模型;
所述模型计算单元包括:
第一模型计算子单元,用于根据所述发起人的属性信息、历史项目参与信息和所述发起人可信度计算子模型,确定所述发起人的可信度,所述发起人的可信度表示该发起人发起真实项目的概率;
第二模型计算子单元,用于根据所述项目内容信息及所述项目内容可信度计算子模型,确定所述项目内容的可信度,所述项目内容的可信度表示该项目内容可信的概率;
第三模型计算子单元,用于根据所述发起人的可信度、所述项目内容的可信度及所述项目可信度计算子模型,确定所述待处理项目的可信度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611018955.5A CN108074071B (zh) | 2016-11-18 | 2016-11-18 | 一种项目数据处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611018955.5A CN108074071B (zh) | 2016-11-18 | 2016-11-18 | 一种项目数据处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108074071A true CN108074071A (zh) | 2018-05-25 |
CN108074071B CN108074071B (zh) | 2021-06-18 |
Family
ID=62160351
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611018955.5A Active CN108074071B (zh) | 2016-11-18 | 2016-11-18 | 一种项目数据处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108074071B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110490725A (zh) * | 2019-07-10 | 2019-11-22 | 阿里巴巴集团控股有限公司 | 业务处理方法以及装置 |
CN111651981A (zh) * | 2019-02-19 | 2020-09-11 | 阿里巴巴集团控股有限公司 | 数据的审核方法、装置及设备 |
CN113064978A (zh) * | 2021-03-08 | 2021-07-02 | 国网河北省电力有限公司 | 基于特征词匹配的项目工期合理性判断方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101512512A (zh) * | 2006-08-31 | 2009-08-19 | 微软公司 | 利用软件名声的软件授权 |
US20130290207A1 (en) * | 2012-04-30 | 2013-10-31 | Gild, Inc. | Method, apparatus and computer program product to generate psychological, emotional, and personality information for electronic job recruiting |
CN103559262A (zh) * | 2013-11-04 | 2014-02-05 | 北京邮电大学 | 基于社区的作者及其学术论文推荐系统和推荐方法 |
CN103679291A (zh) * | 2013-12-17 | 2014-03-26 | 江苏大学 | 一种专利价值评估方法 |
CN104616198A (zh) * | 2015-02-12 | 2015-05-13 | 哈尔滨工业大学 | 一种基于文本分析的p2p网络借贷风险预测系统 |
CN105447036A (zh) * | 2014-08-29 | 2016-03-30 | 华为技术有限公司 | 一种基于观点挖掘的社交媒体信息可信度评估方法及装置 |
-
2016
- 2016-11-18 CN CN201611018955.5A patent/CN108074071B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101512512A (zh) * | 2006-08-31 | 2009-08-19 | 微软公司 | 利用软件名声的软件授权 |
US20130290207A1 (en) * | 2012-04-30 | 2013-10-31 | Gild, Inc. | Method, apparatus and computer program product to generate psychological, emotional, and personality information for electronic job recruiting |
CN103559262A (zh) * | 2013-11-04 | 2014-02-05 | 北京邮电大学 | 基于社区的作者及其学术论文推荐系统和推荐方法 |
CN103679291A (zh) * | 2013-12-17 | 2014-03-26 | 江苏大学 | 一种专利价值评估方法 |
CN105447036A (zh) * | 2014-08-29 | 2016-03-30 | 华为技术有限公司 | 一种基于观点挖掘的社交媒体信息可信度评估方法及装置 |
CN104616198A (zh) * | 2015-02-12 | 2015-05-13 | 哈尔滨工业大学 | 一种基于文本分析的p2p网络借贷风险预测系统 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111651981A (zh) * | 2019-02-19 | 2020-09-11 | 阿里巴巴集团控股有限公司 | 数据的审核方法、装置及设备 |
CN111651981B (zh) * | 2019-02-19 | 2023-04-21 | 阿里巴巴集团控股有限公司 | 数据的审核方法、装置及设备 |
CN110490725A (zh) * | 2019-07-10 | 2019-11-22 | 阿里巴巴集团控股有限公司 | 业务处理方法以及装置 |
CN113064978A (zh) * | 2021-03-08 | 2021-07-02 | 国网河北省电力有限公司 | 基于特征词匹配的项目工期合理性判断方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN108074071B (zh) | 2021-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109582875B (zh) | 一种在线医疗教育资源的个性化推荐方法及系统 | |
CN106250438B (zh) | 基于随机游走模型的零引用文章推荐方法及系统 | |
US9195747B2 (en) | Data isolating research tool | |
CN107193962A (zh) | 一种互联网推广信息的智能配图方法及装置 | |
CN106469392A (zh) | 选择及推荐展示对象的方法及装置 | |
CN108875769A (zh) | 数据标注方法、装置和系统及存储介质 | |
US20210311954A1 (en) | System and Method for Athlete Assessment and Team Selection | |
CN109993233A (zh) | 基于机器学习来预测数据审核目标的方法及系统 | |
US20110202385A1 (en) | Method and its apparatus for supporting project and program for carrying out the method | |
CN108230009A (zh) | 一种用户偏好的预测方法及装置,电子设备 | |
US11734589B2 (en) | Virtual assistant negotiation system and method thereof | |
CN108074071A (zh) | 一种项目数据处理方法及装置 | |
CN109376873A (zh) | 运维方法、装置、电子设备及计算机可读存储介质 | |
US11514815B1 (en) | System, method, and device for generating flight training scheme oriented to individual difference | |
CN103810170B (zh) | 交流平台文本分类方法及装置 | |
CN108960884A (zh) | 信息处理方法、模型构建方法及装置、介质和计算设备 | |
CN114519508A (zh) | 基于时序深度学习和法律文书信息的信用风险评估方法 | |
CN105931055A (zh) | 一种面向众包平台的服务商特征建模方法 | |
CN114663167A (zh) | 基于拍品信息的估价方法、装置、电子设备及存储介质 | |
CN107194552A (zh) | 一种智能招标平台 | |
CN103778169B (zh) | 信息排序方法 | |
CN106779929A (zh) | 一种产品推荐方法、装置和计算设备 | |
US7716209B1 (en) | Automated advertisement publisher identification and selection | |
Chiu et al. | What is in a concept? Mapping the history of sport management research in Taiwan and Korea using Leximancer text mining analysis. | |
CN113065986B (zh) | 一种基于智能交互的教育资源生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TG01 | Patent term adjustment |