CN106354709A - 用户属性信息的分析装置、服务器及方法 - Google Patents
用户属性信息的分析装置、服务器及方法 Download PDFInfo
- Publication number
- CN106354709A CN106354709A CN201510416972.3A CN201510416972A CN106354709A CN 106354709 A CN106354709 A CN 106354709A CN 201510416972 A CN201510416972 A CN 201510416972A CN 106354709 A CN106354709 A CN 106354709A
- Authority
- CN
- China
- Prior art keywords
- user
- attribute
- classification
- unit
- confidence level
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供一种用户属性信息的分析装置、服务器及方法,该装置包括:处理单元,用于利用分类器对根据待处理用户的公开信息而获得的特征进行处理,获得待处理用户的属性类别以及与属性类别相应的置信度;确定单元,用于当与属性类别相应的置信度满足第一预设条件时,将属性类别确定为待处理用户的属性类别;当与属性类别相应的置信度不满足第一预设条件时,根据待处理用户的公开信息中的属性与时间的关系和/或属性的类别特征数,确定待处理用户的属性类别。通过根据属性类别的置信度进行不同的处理,并且当属性类别的置信度不满足预设条件时,根据属性与时间的关系和/或属性的类别特征数确定用户的属性类别,能够对用户的属性信息进行准确而全面的分析。
Description
技术领域
本发明涉及信息技术领域,尤其涉及一种用户属性信息的分析装置、服务器及方法。
背景技术
随着信息技术和网络技术的不断发展,网络上的信息量越来越大,对于信息的应用也越来越广泛。例如,一些企业或者政府部门需要对特定用户的属性信息进行统计和分析,以用于数据统计以及辅助决策。
应该注意,上面对技术背景的介绍只是为了方便对本发明的技术方案进行清楚、完整的说明,并方便本领域技术人员的理解而阐述的。不能仅仅因为这些方案在本发明的背景技术部分进行了阐述而认为上述技术方案为本领域技术人员所公知。
发明内容
但是,在某些情况下,用户的属性信息难以获得,或者用户在注册过程中缺省了某些属性信息,使得属性信息的统计分析不全面或者不准确。
本发明实施例提供一种用户属性信息的分析装置、服务器及方法,通过根据属性类别的置信度进行不同的处理,并且当属性类别的置信度不满足预设条件时,根据属性与时间的关系和/或属性的类别特征数确定用户的属性类别,能够对用户的属性信息进行准确而全面的分析。
根据本发明实施例的第一方面,提供一种用户属性信息的分析装置,包括:处理单元,所述处理单元用于利用分类器对根据待处理用户的公开信息而获得的特征进行处理,获得所述待处理用户的属性类别以及与所述属性类别相应的置信度;确定单元,所述确定单元用于当与所述属性类别相应的置信度满足第一预设条件时,将所述属性类别确定为所述待处理用户的属性类别;当与所述属性类别相应的置信度不满足第一预设条件时,根据所述待处理用户的公开信息中的属性与时间的关系和/或属性的类别特征数,确定所述待处理用户的属性类别。
根据本发明实施例的第二方面,提供一种服务器,所述服务器包括根据本发明实施例的第一方面所述的用户属性信息的分析装置。
根据本发明实施例的第三方面,提供一种用户属性信息的分析方法,包括:利用分类器对根据待处理用户的公开信息而获得的特征进行处理,获得所述待处理用户的属性类别以及与所述属性类别相应的置信度;当与所述属性类别相应的置信度满足第一预设条件时,将所述属性类别确定为所述待处理用户的属性类别;当与所述属性类别相应的置信度不满足第一预设条件时,根据所述待处理用户的公开信息中的属性与时间的关系和/或属性的类别特征数,确定所述待处理用户的属性类别。
本发明的有益效果在于:通过根据属性类别的置信度进行不同的处理,并且当属性类别的置信度不满足预设条件时,根据属性与时间的关系和/或属性的类别特征数确定用户的属性类别,能够对用户的属性信息进行准确而全面的分析。
参照后文的说明和附图,详细公开了本发明的特定实施方式,指明了本发明的原理可以被采用的方式。应该理解,本发明的实施方式在范围上并不因而受到限制。在所附权利要求的精神和条款的范围内,本发明的实施方式包括许多改变、修改和等同。
针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。
应该强调,术语“包括/包含”在本文使用时指特征、整件、步骤或组件的存在,但并不排除一个或更多个其它特征、整件、步骤或组件的存在或附加。
附图说明
所包括的附图用来提供对本发明实施例的进一步的理解,其构成了说明书的一部分,用于例示本发明的实施方式,并与文字描述一起来阐释本发明的原理。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1是本发明实施例1的用户属性信息的分析装置的结构示意图;
图2是本发明实施例1的确定单元的结构示意图;
图3是本发明实施例1的属性的类别特征数与时间的关系示意图;
图4是本发明实施例1的利用用户属性信息的分析装置进行属性信息分析的方法流程图;
图5是本发明实施例1的获取单元的结构示意图;
图6是本发明实施例1的获取训练语料的方法流程图;
图7是本发明实施例1的第一选择单元的结构示意图;
图8是本发明实施例2的服务器的结构示意图;
图9是本发明实施例2的服务器的系统构成的一示意框图;
图10是本发明实施例3的用户属性信息的分析方法的流程图。
具体实施方式
参照附图,通过下面的说明书,本发明的前述以及其它特征将变得明显。在说明书和附图中,具体公开了本发明的特定实施方式,其表明了其中可以采用本发明的原则的部分实施方式,应了解的是,本发明不限于所描述的实施方式,相反,本发明包括落入所附权利要求的范围内的全部修改、变型以及等同物。
实施例1
图1是本发明实施例1的用户属性信息的分析装置的结构示意图。如图1所示,该装置100包括:处理单元101和确定单元102,其中,
处理单元101用于利用分类器对根据待处理用户的公开信息而获得的特征进行处理,获得待处理用户的属性类别以及与该属性类别相应的置信度;
确定单元102用于当与该属性类别相应的置信度满足第一预设条件时,将该属性类别确定为待处理用户的属性类别;当与该属性类别相应的置信度不满足第一预设条件时,根据待处理用户的公开信息中的属性与时间的关系和/或属性的类别特征数,确定待处理用户的属性类别。
由上述实施例可知,通过根据属性类别的置信度进行不同的处理,并且当属性类别的置信度不满足预设条件时,根据属性与时间的关系和/或属性的类别特征数确定用户的属性类别,能够对用户的属性信息进行准确而全面的分析。
在本实施例中,待处理用户的公开信息可以是在网络上公开的信息,例如,该用户在微博上发表的内容。
在本实施例中,根据待处理用户的公开信息获得特征可使用现有方法,例如,利用分词工具对待处理用户的公开信息中的句子进行分词处理,并选取词语作为特征。
在本实施例中,可使用现有方法选取作为特征的词语,例如,分别对正反例用户的特征进行打分,获取其相应的权重,并设定权重值较高的前K个作为特征词。其中,可以利用词频-逆文档频率(Term Frequency-Inverse Document Frequency,TF-IDF)或对数似然比(Log-Likelihood Ratio,LLR)算法获得特征的权值,K为正整数,其数值可以根据实际需要而设定。
在本实施例中,分类器可以使用现有的分类器类型,例如,可使用支持向量(Support Vector Machine,SVM)分类器、最大熵分类器或者贝叶斯分类器等。
在本实施例中,处理单元101利用分类器对根据待处理用户的公开信息而获得的特征进行处理,获得待处理用户的属性类别以及与该属性类别相应的置信度,例如,可以利用分类器对该特征进行标注,获得属性类别及相应的置信度。
在本实施例中,用户的属性类别表示用户的该属性是什么,例如,对于属性“性别”,该用户的属性类别为“男”,对于属性“学历”,该用户的属性类别为“硕士”。
在本实施例中,按照属性是否变化,可以将用户的属性分为静态属性和动态属性。其中,静态属性是随着时间相对稳定不变的,例如:生日,性别,出生地,父母等;动态属性是随着时间有一定变化的,例如:年龄,兴趣,学历,工作经历,婚姻状况等。
在本实施例中,按照属性值的不同,可以将用户的属性分为二值属性和多值属性。例如,是否为学生,是否在职,是否结婚等属性,由于其属性值为“是”和“否”,所以属于二值属性。
在本实施例中,在获得属性类别及相应的置信度之后,确定单元102用于当该置信度满足第一预设条件时,将该属性类别确定为待处理用户的属性类别;当该置信度不满足第一预设条件时,根据待处理用户的公开信息中的属性与时间的关系和/或属性的类别特征数,确定待处理用户的属性类别。
在本实施例中,该装置还可包括一判断单元,用于判断该置信度是否满足第一预设条件,该判断单元可设置在确定单元之中,也可独立于确定单元而设置。
在本实施例中,该第一预设条件可根据实际需要而设定,例如,该第一预设条件是置信度大于预定阈值,该预定阈值可根据实际需要而设定,例如,该预定阈值为0.8。
以下对确定单元102的结构以及确定待处理用户的属性类别的方法进行示例性的说明。
图2是本发明实施例1的确定单元的结构示意图。如图2所示,确定单元102包括:
第一确定单元201,其用于当与该属性类别相应的置信度满足第一预设条件时,将该属性类别确定为待处理用户的属性类别;
第二确定单元202,其用于当与该属性类别相应的置信度不满足第一预设条件时,选择待处理用户的公开信息中的两个属性的类别特征数的差值满足第二预设条件的时间范围来获取特征,从而确定待处理用户的属性类别;和/或
第三确定单元203,其用于当与该属性类别相应的置信度不满足第一预设条件时,并且当待处理用户的公开信息中的属性的类别特征数满足第三预设条件时,对该公开信息的句法和/或关键词进行分析,从而确定待处理用户的属性类别。
这样,通过两个属性的类别特征数的差值满足第二预设条件的时间范围来获取特征,能够选取属性稳定的时间段进行分析,从而进一步提高属性信息分析的准确性和可靠性。
而在特征量较少的情况下,通过对公开信息的句法和/或关键词进行分析,能够进一步提高属性信息分析的准确性。
在本实施例中,确定单元102可以包括第二确定单元202和第三确定单元203中的任一个,也可以同时包括第二确定单元202和第三确定单元203。
在本实施例中,第二确定单元202用于当与该属性类别相应的置信度不满足第一预设条件时,选择待处理用户的公开信息中的两个属性的类别特征数的差值满足第二预设条件的时间范围来获取特征,从而确定待处理用户的属性类别。其中,第二预设条件例如是该差值大于预定阈值,该预定阈值可根据实际需要而设定。
图3是本发明实施例1的属性的类别特征数与时间的关系示意图。如图3所示,属性一和属性二的类别特征数都随着时间而变化,选取属性一和属性二的类别特征数的差值大于D的时间段t获取特征并利用分类器对该特征进行重新标注。
在本实施例中,第三确定单元203用于当与该属性类别相应的置信度不满足第一预设条件时,并且当待处理用户的公开信息中的属性的类别特征数满足第三预设条件时,对该公开信息的句法和/或关键词进行分析,从而确定待处理用户的属性类别。其中,第三预设条件例如是属性的类别特征数小于预定阈值,该预定阈值可根据实际需要而设定。
在本实施例中,第三确定单元203可对该公开信息的句法进行分析,例如,对该公开信息的句子结构和/或时态进行分析,其中,可根据句子的结构信息,利用语义词典,分析出特征与句子时态的关系,从而确定待处理用户的属性类别。
在本实施例中,当与该属性类别相应的置信度不满足第一预设条件时,并且当待处理用户的公开信息中的属性的类别特征数也不满足第三预设条件时,可通过人工来判断待处理用户的属性类别。其中,在某些情况下,由于信息模糊或缺失,人工也无法判断,则可引入other标签,将这些属性归为其他类别。
图4是本发明实施例1的利用用户属性信息的分析装置进行属性信息分析的方法流程图。如图4所示,该方法包括:
步骤401:利用分类器对根据待处理用户的公开信息而获得的特征进行处理,获得待处理用户的属性类别以及与该属性类别相应的置信度;
步骤402:判断与该属性类别相应的置信度是否满足第一预设条件;当判断结果为“是”时,进入步骤403,当判断结果为“否”时,进入步骤404和步骤405,;
步骤403:将该属性类别确定为待处理用户的属性类别;
步骤404:选择所述待处理用户的公开信息中的两个属性的类别特征数的差值满足第二预设条件的时间范围来获取特征,从而确定所述待处理用户的属性类别;
步骤405:判断属性的类别特征数是否满足第三预设条件;当判断结果为“是”时,进入步骤406,当判断结果为“否”时,进入步骤407;
步骤406:对该公开信息的句法和/或关键词进行分析,从而确定待处理用户的属性类别;
步骤407:人工判断待处理用户的属性类别。
在本实施例中,该方法可以包括步骤404和步骤405中的任一个,也可以同时包括步骤404和405。
在本实施例中,该装置还可以包括:获取单元103和训练单元104,其中,
获取单元103用于根据采集的用户的个人信息,获取训练语料;
训练单元104用于根据所述训练语料中的用户的公开信息对所述分类器进行训练。
这样,通过采集的用户的个人信息获取训练语料并对分类器进行训练,能够自动获取训练语料,快速的对分类器进行训练,并且,能够有效利用采集用户的个人信息来分析待处理用户的属性信息。
在本实施例中,获取单元103和训练单元104为可选部件,在图1中用虚线框表示。
以下对本实施例的获取单元的结构以及获取训练语料的方法进行示例性的说明。
图5是本发明实施例1的获取单元的结构示意图。如图5所示,获取单元103包括:
分类单元501,其用于根据采集的用户的个人信息,将采集的用户分为两类用户,其中,该两类用户的个人信息对应于预定属性具有不同的特征;
第一选择单元502,其用于从两类用户的一类用户中,根据该用户的个人信息的关联度选择用户,并将选择的用户作为训练语料中的用户;和/或
第二选择单元503,其用于从两类用户的一类用户中,根据预定的过滤规则选择用户,并将选择的用户作为训练语料中的用户。
在本实施例中,获取单元103可以包括第一选择单元202和第二选择单元203中的任一个,也可以同时包括第一选择单元502和第二选择单元503。
图6是本发明实施例1的获取训练语料的方法流程图。如图6所示,该方法包括:
步骤601:根据采集的用户的个人信息,将采集的用户分为两类用户,其中,该两类用户的个人信息对应于预定属性具有不同的特征;
步骤602:从两类用户的一类用户中,根据该用户的个人信息的关联度选择用户,并将选择的用户作为训练语料中的用户;和/或
步骤603:从两类用户的一类用户中,根据预定的过滤规则选择用户,并将选择的用户作为训练语料中的用户。
在本实施例中,该方法可以包括步骤602和步骤603中的任一个,也可以同时包括步骤602和步骤603。
在本实施例中,采集的用户可以是在网络上采集的特定用户,其个人信息例如是在网络上的注册信息。
在本实施例中,分类单元501用于根据采集的用户的个人信息,将采集的用户分为两类用户,其中,该两类用户的个人信息对应于预定属性具有不同的特征。例如,对于预定的二值属性“性别”,可根据采集的用户的注册信息,将采集的用户分为“男”、“女”两类用户;对于多值属性“是否在职”,可将采集的用户的注册信息中已标注有“工作状态”或“工作单位”的用户作为一类用户,将采集的用户的注册信息中已标注“学生”或“待业”的用户作为另一类用户。
在本实施例中,第一选择单元502用于从两类用户的一类用户中,根据该用户的个人信息的关联度选择用户,并将选择的用户作为训练语料中的用户。以下对本实施例的第一选择单元的结构以及选择用户的方法进行示例性的说明。
图7是本发明实施例1的第一选择单元的结构示意图。如图7所示,第一选择单元502包括:
第三选择单元701,其用于根据属性的可区分性选择用户;和/或
第四选择单元702,其用于根据用户的个人信息的完备性选择用户。
在本实施例中,第一选择单元502可以包括第三选择单元701和第四选择单元702总的任一个,也可以同时包括第三选择单元701和第四选择单元702。
在本实施例中,第三选择单元701根据属性的可区分性选择用户,例如,通过计算用户的个人信息中各个属性的不同取值对于判别预定属性的取值的影响,来确定与该预定属性具有强关联的属性,从而选择具有与该预定属性具有强关联的属性的用户。其中,该预定属性为分类单元501中使用的预定属性。
例如,第三选择单元701可根据以下的公式(1)来计算用户的个人信息中各个属性的不同取值对于判别预定属性的取值的影响:
其中,P(Ck|attr(i,j))表示第i个属性的取值对于判别预定属性的取值的影响,k=1或2,C1和C2表示分类单元201获得的两类用户,attr(i,j)表示对应于第i个属性的第j个取值,n表示对应于第i个属性的所有取值数量,i,j,n为正整数。
在本实施例中,如果对应于第i个属性的不同取值,P(Ck|attr(i,j))的值较为平均,则表明第i个属性对于预定属性的分类影响较小,如果对应于第i个属性的不同取值,P(Ck|attr(i,j))的值变化较大,则表明第i个属性对于预定属性的分类影响较大,即第i个属性和预定属性具有强关联。
在本实施例中,第三选择单元701可以使用P(Ck|attr(i,j))的方差来确定与预定属性具有强关联的属性,从而选择具有与该预定属性具有强关联的属性的用户。
例如,可以将方差小于预定阈值的属性作为与预定属性具有强关联的属性,也可以将方差降序排列的前N个属性作为与预定属性具有强关联的属性,该预定阈值可根据实际需要而设定,N为正整数,其数值可根据实际需要而设定。
在本实施例中,第四选择单元702根据用户的个人信息的完备性选择用户,例如,通过计算用户的个人信息中各个属性的加权平均数,来确定所述用户的个人信息的完备性,从而选择用户。
例如,第四选择单元702可根据以下的公式(2)计算用户的个人信息中各个属性的完备性:
F_completeness(useri)=Σβjattr(j)/M (2)
其中,F_completeness(useri)表示第i个用户的个人信息的完备性,attr(j)表示关于第j个属性的二值函数,当该用户的个人信息中包括第j个属性,则attr(j)为1,否则为0,M表示该用户的个人信息中的属性总数,βj表示第j个属性的权重。
在本实施例中,第四选择单元702可以选择F_completeness(useri)的值超过预定阈值的用户,该预定阈值的取值在0~1之间,可根据实际需要而设定。
以下对第二选择单元503选择用户的方法进行示例性的说明。
在本实施例中,第二选择单元503从两类用户的一类用户中,根据预定的过滤规则选择用户,并将选择的用户作为训练语料中的用户。例如,根据个人信息中的某些属性信息进行推测,从而判断需要分析的属性的正确性。
例如,为了对属性“大学在读”进行分析,可以根据个人信息中的“生日”推出该用户目前的年龄,并统计该年龄上大学的概率,将概率小的用户过滤掉。
以上是对本实施例的获取单元103的结构以及获取训练语料的方法进行示例性的说明,在获取单元103获得训练语料之后,训练单元104可根据该训练语料中的用户的公开信息对分类器进行训练。
例如,训练单元104获取训练语料中的用户的公开信息,提取相关的内容,并利用分词工具对该内容中的句子进行分词处理,并选取词语作为特征,利用已标注的正反例标签,对分类器进行训练。
由上述实施例可知,通过根据属性类别的置信度进行不同的处理,并且当属性类别的置信度不满足预设条件时,根据属性与时间的关系和/或属性的类别特征数确定用户的属性类别,能够对用户的属性信息进行准确而全面的分析。
实施例2
本发明实施例提供一种服务器,图8是本发明实施例2的服务器的结构示意图。如图8所示,服务器800包括用户属性信息的分析装置801,其中,装置801的结构与功能与实施例1中的记载相同,此处不再赘述。
图9是本发明实施例2的服务器的系统构成的一示意框图。如图9所示,服务器900可以包括中央处理器901和存储器902;存储器902耦合到中央处理器901。该图是示例性的;还可以使用其他类型的结构,来补充或代替该结构,以实现电信功能或其他功能。
如图9所示,该服务器900还可以包括:通信模块903、输入单元904、显示器905、电源906。
在一个实施方式中,用户属性信息的分析装置的功能可以被集成到中央处理器901中。其中,中央处理器901可以被配置为:利用分类器对根据待处理用户的公开信息而获得的特征进行处理,获得所述待处理用户的属性类别以及与所述属性类别相应的置信度;当与所述属性类别相应的置信度满足第一预设条件时,将所述属性类别确定为所述待处理用户的属性类别;当与所述属性类别相应的置信度不满足第一预设条件时,根据所述待处理用户的公开信息中的属性与时间的关系和/或属性的类别特征数,确定所述待处理用户的属性类别。
中央处理器901还可以被配置为:根据采集的用户的个人信息,获取训练语料;根据所述训练语料中的用户的公开信息对所述分类器进行训练。
其中,所述获取训练语料包括:根据采集的用户的个人信息,将所述采集的用户分为两类用户,其中,所述两类用户的个人信息对应于预定属性具有不同的特征;从所述两类用户的一类用户中,根据所述用户的个人信息的关联度选择用户,并将选择的用户作为所述训练语料中的用户;和/或从所述两类用户的一类用户中,根据预定的过滤规则选择用户,并将选择的用户作为所述训练语料中的用户。
其中,所述根据所述用户的个人信息的关联度选择用户,包括:根据属性的可区分性选择用户;和/或根据所述用户的个人信息的完备性选择用户。
其中,所述根据属性的可区分性选择用户,包括:通过计算用户的个人信息中各个属性的不同取值对于判别所述预定属性的取值的影响,来确定与所述预定属性具有强关联的属性,从而选择用户。
其中,所述根据所述用户的个人信息的完备性选择用户,包括:通过计算用户的个人信息中各个属性的加权平均数,来确定所述用户的个人信息的完备性,从而选择用户。
其中,所述当与所述属性类别相应的置信度满足第一预设条件时,将所述属性类别确定为所述待处理用户的属性类别;当与所述属性类别相应的置信度不满足第一预设条件时,根据所述待处理用户的公开信息中的属性与时间的关系和/或属性的类别特征数,确定所述待处理用户的属性类别,包括:当所述置信度满足第一预设条件时,将所述属性类别确定为所述待处理用户的属性类别;当所述置信度不满足第一预设条件时,选择所述待处理用户的公开信息中的两个属性的类别特征数的差值满足第二预设条件的时间范围来获取特征,从而确定所述待处理用户的属性类别;和/或当所述置信度不满足第一预设条件时,并且当所述待处理用户的公开信息中的属性的类别特征数满足第三预设条件时,对所述公开信息的句法和/或关键词进行分析,从而确定所述待处理用户的属性类别。
其中,所述对所述公开信息的句法进行分析,包括:对所述公开信息的句子结构和/或时态进行分析,从而确定所述待处理用户的属性类别。
在另一个实施方式中,用户属性信息的分析装置可以与中央处理器901分开配置,例如可以将用户属性信息的分析装置设置为与中央处理器901连接的芯片,通过中央处理器的控制来实现用户属性信息的分析装置的功能。
在本实施例中服务器900也并不是必须要包括图9中所示的所有部件
如图9所示,中央处理器901有时也称为控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,中央处理器901接收输入并控制服务器900的各个部件的操作。
存储器902,例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。并且中央处理器901可执行该存储器902存储的程序,以实现信息存储或处理等。其他部件的功能与现有类似,此处不再赘述。服务器900的各部件可以通过专用硬件、固件、软件或其结合来实现,而不偏离本发明的范围。
由上述实施例可知,通过根据属性类别的置信度进行不同的处理,并且当属性类别的置信度不满足预设条件时,根据属性与时间的关系和/或属性的类别特征数确定用户的属性类别,能够对用户的属性信息进行准确而全面的分析。
实施例3
图10是本发明实施例3的用户属性信息的分析方法的流程图,对应于实施例1的用户属性信息的分析装置。如图10所示,该方法包括:
步骤1001:根据采集的用户的个人信息,获取训练语料;
步骤1002:根据该训练语料中的用户的公开信息对分类器进行训练;
步骤1003:利用该分类器对根据待处理用户的公开信息而获得的特征进行处理,获得待处理用户的属性类别以及与该属性类别相应的置信度;
步骤1004:当与该属性类别相应的置信度满足第一预设条件时,将该属性类别确定为待处理用户的属性类别;当与该属性类别相应的置信度不满足第一预设条件时,根据待处理用户的公开信息中的属性与时间的关系和/或属性的类别特征数,确定待处理用户的属性类别。
在本实施例中,步骤1001和步骤1002为可选步骤,在图10中用虚线框表示。
在本实施例中,获取训练语料的方法、对分类器进行训练的方法、获得待处理用户的属性类别以及与该属性类别相应的置信度的方法以及确定待处理用户的属性类别的方法与实施例1的记载相同,此处不再赘述。
由上述实施例可知,通过对同一实体进行判定以及链接外部资源进行扩展属性,并且以迭代的方式进行上述判定和链接,能够有效的进行多数据源的信息整合,提高信息的准确性和全面性。
由上述实施例可知,通过根据属性类别的置信度进行不同的处理,并且当属性类别的置信度不满足预设条件时,根据属性与时间的关系和/或属性的类别特征数确定用户的属性类别,能够对用户的属性信息进行准确而全面的分析。
本发明实施例还提供一种计算机可读程序,其中当在用户属性信息的分析装置或服务器中执行所述程序时,所述程序使得计算机在所述用户属性信息的分析装置或服务器中执行实施例3所述的用户属性信息的分析方法。
本发明实施例还提供一种存储有计算机可读程序的存储介质,其中所述计算机可读程序使得计算机在用户属性信息的分析装置或服务器中执行实施例3所述的用户属性信息的分析方法。
本发明以上的装置和方法可以由硬件实现,也可以由硬件结合软件实现。本发明涉及这样的计算机可读程序,当该程序被逻辑部件所执行时,能够使该逻辑部件实现上文所述的装置或构成部件,或使该逻辑部件实现上文所述的各种方法或步骤。本发明还涉及用于存储以上程序的存储介质,如硬盘、磁盘、光盘、DVD、flash存储器等。
以上结合具体的实施方式对本发明进行了描述,但本领域技术人员应该清楚,这些描述都是示例性的,并不是对本发明保护范围的限制。本领域技术人员可以根据本发明的精神和原理对本发明做出各种变型和修改,这些变型和修改也在本发明的范围内。
关于包括以上实施例的实施方式,还公开下述的附记:
附记1、一种用户属性信息的分析装置,包括:
处理单元,所述处理单元用于利用分类器对根据待处理用户的公开信息而获得的特征进行处理,获得所述待处理用户的属性类别以及与所述属性类别相应的置信度;
确定单元,所述确定单元用于当与所述属性类别相应的置信度满足第一预设条件时,将所述属性类别确定为所述待处理用户的属性类别;当与所述属性类别相应的置信度不满足第一预设条件时,根据所述待处理用户的公开信息中的属性与时间的关系和/或属性的类别特征数,确定所述待处理用户的属性类别。
附记2、根据附记1所述的装置,其中,所述装置还包括:
获取单元,所述获取单元用于根据采集的用户的个人信息,获取训练语料;
训练单元,所述训练单元用于根据所述训练语料中的用户的公开信息对所述分类器进行训练。
附记3、根据附记2所述的装置,其中,所述获取单元包括:
分类单元,所述分类单元用于根据采集的用户的个人信息,将所述采集的用户分为两类用户,其中,所述两类用户的个人信息对应于预定属性具有不同的特征;
第一选择单元,所述第一选择单元用于从所述两类用户的一类用户中,根据所述用户的个人信息的关联度选择用户,并将选择的用户作为所述训练语料中的用户;和/或
第二选择单元,所述第二选择单元用于从所述两类用户的一类用户中,根据预定的过滤规则选择用户,并将选择的用户作为所述训练语料中的用户。
附记4、根据附记3所述的装置,其中,所述第一选择单元包括:
第三选择单元,所述第三选择单元用于根据属性的可区分性选择用户;和/或
第四选择单元,所述第四选择单元用于根据所述用户的个人信息的完备性选择用户。
附记5、根据附记4所述的装置,其中,所述第三选择单元用于通过计算用户的个人信息中各个属性的不同取值对于判别所述预定属性的取值的影响,来确定与所述预定属性具有强关联的属性,从而选择用户。
附记6、根据附记4所述的装置,其中,所述第四选择单元用于通过计算用户的个人信息中各个属性的加权平均数,来确定所述用户的个人信息的完备性,从而选择用户。
附记7、根据附记1所述的装置,其中,所述确定单元包括:
第一确定单元,所述第一确定单元用于当所述置信度满足第一预设条件时,将所述属性类别确定为所述待处理用户的属性类别;
第二确定单元,所述第二确定单元用于当所述置信度不满足第一预设条件时,选择所述待处理用户的公开信息中的两个属性的类别特征数的差值满足第二预设条件的时间范围来获取特征,从而确定所述待处理用户的属性类别;和/或
第三确定单元,所述第三确定单元用于当所述置信度不满足第一预设条件时,并且当所述待处理用户的公开信息中的属性的类别特征数满足第三预设条件时,对所述公开信息的句法和/或关键词进行分析,从而确定所述待处理用户的属性类别。
附记8、根据附记7所述的装置,其中,第三确定单元用于当所述置信度不满足第一预设条件时,并且当所述待处理用户的公开信息中的属性的类别特征数满足第三预设条件时,对所述公开信息的句子结构和/或时态进行分析,从而确定所述待处理用户的属性类别。
附记9、一种服务器,所述服务器包括根据附记1-8的任一项所述的用户属性信息的分析装置。
附记10、一种用户属性信息的分析方法,包括:
利用分类器对根据待处理用户的公开信息而获得的特征进行处理,获得所述待处理用户的属性类别以及与所述属性类别相应的置信度;
当与所述属性类别相应的置信度满足第一预设条件时,将所述属性类别确定为所述待处理用户的属性类别;当与所述属性类别相应的置信度不满足第一预设条件时,根据所述待处理用户的公开信息中的属性与时间的关系和/或属性的类别特征数,确定所述待处理用户的属性类别。
附记11、根据附记10所述的方法,其中,所述方法还包括:
根据采集的用户的个人信息,获取训练语料;
根据所述训练语料中的用户的公开信息对所述分类器进行训练。
附记12、根据附记11所述的方法,其中,所述获取训练语料包括:
根据采集的用户的个人信息,将所述采集的用户分为两类用户,其中,所述两类用户的个人信息对应于预定属性具有不同的特征;
从所述两类用户的一类用户中,根据所述用户的个人信息的关联度选择用户,并将选择的用户作为所述训练语料中的用户;和/或
从所述两类用户的一类用户中,根据预定的过滤规则选择用户,并将选择的用户作为所述训练语料中的用户。
附记13、根据附记12所述的装置,其中,所述根据所述用户的个人信息的关联度选择用户,包括:
根据属性的可区分性选择用户;和/或
根据所述用户的个人信息的完备性选择用户。
附记14、根据附记13所述的方法,其中,所述根据属性的可区分性选择用户,包括:
通过计算用户的个人信息中各个属性的不同取值对于判别所述预定属性的取值的影响,来确定与所述预定属性具有强关联的属性,从而选择用户。
附记15、根据附记13所述的方法,其中,所述根据所述用户的个人信息的完备性选择用户,包括:
通过计算用户的个人信息中各个属性的加权平均数,来确定所述用户的个人信息的完备性,从而选择用户。
附记16、根据附记10所述的方法,其中,所述当与所述属性类别相应的置信度满足第一预设条件时,将所述属性类别确定为所述待处理用户的属性类别;当与所述属性类别相应的置信度不满足第一预设条件时,根据所述待处理用户的公开信息中的属性与时间的关系和/或属性的类别特征数,确定所述待处理用户的属性类别,包括:
当所述置信度满足第一预设条件时,将所述属性类别确定为所述待处理用户的属性类别;
当所述置信度不满足第一预设条件时,选择所述待处理用户的公开信息中的两个属性的类别特征数的差值满足第二预设条件的时间范围来获取特征,从而确定所述待处理用户的属性类别;和/或
当所述置信度不满足第一预设条件时,并且当所述待处理用户的公开信息中的属性的类别特征数满足第三预设条件时,对所述公开信息的句法和/或关键词进行分析,从而确定所述待处理用户的属性类别。
附记17、根据附记16所述的方法,其中,所述对所述公开信息的句法进行分析,包括:
对所述公开信息的句子结构和/或时态进行分析,从而确定所述待处理用户的属性类别。
Claims (10)
1.一种用户属性信息的分析装置,包括:
处理单元,所述处理单元用于利用分类器对根据待处理用户的公开信息而获得的特征进行处理,获得所述待处理用户的属性类别以及与所述属性类别相应的置信度;
确定单元,所述确定单元用于当与所述属性类别相应的置信度满足第一预设条件时,将所述属性类别确定为所述待处理用户的属性类别;当与所述属性类别相应的置信度不满足第一预设条件时,根据所述待处理用户的公开信息中的属性与时间的关系和/或属性的类别特征数,确定所述待处理用户的属性类别。
2.根据权利要求1所述的装置,其中,所述装置还包括:
获取单元,所述获取单元用于根据采集的用户的个人信息,获取训练语料;
训练单元,所述训练单元用于根据所述训练语料中的用户的公开信息对所述分类器进行训练。
3.根据权利要求2所述的装置,其中,所述获取单元包括:
分类单元,所述分类单元用于根据采集的用户的个人信息,将所述采集的用户分为两类用户,其中,所述两类用户的个人信息对应于预定属性具有不同的特征;
第一选择单元,所述第一选择单元用于从所述两类用户的一类用户中,根据所述用户的个人信息的关联度选择用户,并将选择的用户作为所述训练语料中的用户;和/或
第二选择单元,所述第二选择单元用于从所述两类用户的一类用户中,根据预定的过滤规则选择用户,并将选择的用户作为所述训练语料中的用户。
4.根据权利要求3所述的装置,其中,所述第一选择单元包括:
第三选择单元,所述第三选择单元用于根据属性的可区分性选择用户;和/或
第四选择单元,所述第四选择单元用于根据所述用户的个人信息的完备性选择用户。
5.根据权利要求4所述的装置,其中,所述第三选择单元用于通过计算用户的个人信息中各个属性的不同取值对于判别所述预定属性的取值的影响,来确定与所述预定属性具有强关联的属性,从而选择用户。
6.根据权利要求4所述的装置,其中,所述第四选择单元用于通过计算用户的个人信息中各个属性的加权平均数,来确定所述用户的个人信息的完备性,从而选择用户。
7.根据权利要求1所述的装置,其中,所述确定单元包括:
第一确定单元,所述第一确定单元用于当所述置信度满足第一预设条件时,将所述属性类别确定为所述待处理用户的属性类别;
第二确定单元,所述第二确定单元用于当所述置信度不满足第一预设条件时,选择所述待处理用户的公开信息中的两个属性的类别特征数的差值满足第二预设条件的时间范围来获取特征,从而确定所述待处理用户的属性类别;和/或
第三确定单元,所述第三确定单元用于当所述置信度不满足第一预设条件时,并且当所述待处理用户的公开信息中的属性的类别特征数满足第三预设条件时,对所述公开信息的句法和/或关键词进行分析,从而确定所述待处理用户的属性类别。
8.根据权利要求7所述的装置,其中,第三确定单元用于当所述置信度不满足第一预设条件时,并且当所述待处理用户的公开信息中的属性的类别特征数满足第三预设条件时,对所述公开信息的句子结构和/或时态进行分析,从而确定所述待处理用户的属性类别。
9.一种服务器,所述服务器包括根据权利要求1-8的任一项所述的用户属性信息的分析装置。
10.一种用户属性信息的分析方法,包括:
利用分类器对根据待处理用户的公开信息而获得的特征进行处理,获得所述待处理用户的属性类别以及与所述属性类别相应的置信度;
当与所述属性类别相应的置信度满足第一预设条件时,将所述属性类别确定为所述待处理用户的属性类别;当与所述属性类别相应的置信度不满足第一预设条件时,根据所述待处理用户的公开信息中的属性与时间的关系和/或属性的类别特征数,确定所述待处理用户的属性类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510416972.3A CN106354709A (zh) | 2015-07-15 | 2015-07-15 | 用户属性信息的分析装置、服务器及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510416972.3A CN106354709A (zh) | 2015-07-15 | 2015-07-15 | 用户属性信息的分析装置、服务器及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106354709A true CN106354709A (zh) | 2017-01-25 |
Family
ID=57842449
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510416972.3A Pending CN106354709A (zh) | 2015-07-15 | 2015-07-15 | 用户属性信息的分析装置、服务器及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106354709A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107491509A (zh) * | 2017-08-02 | 2017-12-19 | 腾讯科技(深圳)有限公司 | 一种用户属性信息挖掘方法、装置和介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120143801A1 (en) * | 2009-08-11 | 2012-06-07 | Nec Corporation | Information classification device, information classification method, and computer readable recording medium |
CN103440242A (zh) * | 2013-06-26 | 2013-12-11 | 北京亿赞普网络技术有限公司 | 一种基于用户搜索行为的个性化推荐方法和系统 |
CN104239351A (zh) * | 2013-06-20 | 2014-12-24 | 阿里巴巴集团控股有限公司 | 一种用户行为的机器学习模型的训练方法及装置 |
CN104598624A (zh) * | 2015-02-04 | 2015-05-06 | 苏州大学 | 一种微博用户的用户类别确定方法及装置 |
CN104679743A (zh) * | 2013-11-26 | 2015-06-03 | 阿里巴巴集团控股有限公司 | 一种确定用户的偏好模式的方法及装置 |
-
2015
- 2015-07-15 CN CN201510416972.3A patent/CN106354709A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120143801A1 (en) * | 2009-08-11 | 2012-06-07 | Nec Corporation | Information classification device, information classification method, and computer readable recording medium |
CN104239351A (zh) * | 2013-06-20 | 2014-12-24 | 阿里巴巴集团控股有限公司 | 一种用户行为的机器学习模型的训练方法及装置 |
CN103440242A (zh) * | 2013-06-26 | 2013-12-11 | 北京亿赞普网络技术有限公司 | 一种基于用户搜索行为的个性化推荐方法和系统 |
CN104679743A (zh) * | 2013-11-26 | 2015-06-03 | 阿里巴巴集团控股有限公司 | 一种确定用户的偏好模式的方法及装置 |
CN104598624A (zh) * | 2015-02-04 | 2015-05-06 | 苏州大学 | 一种微博用户的用户类别确定方法及装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107491509A (zh) * | 2017-08-02 | 2017-12-19 | 腾讯科技(深圳)有限公司 | 一种用户属性信息挖掘方法、装置和介质 |
CN107491509B (zh) * | 2017-08-02 | 2018-08-21 | 腾讯科技(深圳)有限公司 | 一种用户属性信息挖掘方法、装置和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108846520B (zh) | 贷款逾期预测方法、装置以及计算机可读存储介质 | |
US7444279B2 (en) | Question answering system and question answering processing method | |
CN108573047A (zh) | 一种中文文本分类模型的训练方法及装置 | |
CN106326441A (zh) | 信息推荐方法及装置 | |
CN109241525B (zh) | 关键词的提取方法、装置和系统 | |
CN110795568A (zh) | 基于用户信息知识图谱的风险评估方法、装置和电子设备 | |
CN111159404B (zh) | 文本的分类方法及装置 | |
CN109241857A (zh) | 一种单据信息的识别方法及系统 | |
CN106294466A (zh) | 分类模型构建方法、分类模型构建设备和分类方法 | |
CN113590764B (zh) | 训练样本构建方法、装置、电子设备和存储介质 | |
CN111259192A (zh) | 音频推荐方法和装置 | |
CN108256537A (zh) | 一种用户性别预测方法和系统 | |
CN107958270B (zh) | 类别识别方法、装置、电子设备及计算机可读存储介质 | |
EP3608799A1 (en) | Search method and apparatus, and non-temporary computer-readable storage medium | |
CN110334356A (zh) | 文章质量的确定方法、文章筛选方法、以及相应的装置 | |
CN109271520A (zh) | 数据提取方法、数据提取装置、存储介质和电子设备 | |
CN105843818A (zh) | 训练设备和训练方法、判断设备、以及推荐设备 | |
CN110349007A (zh) | 基于变量区分度指标进行用户分群提额的方法、装置和电子设备 | |
US20200160095A1 (en) | Automation rating for machine learning classification | |
CN110347806A (zh) | 原创文本甄别方法、装置、设备与计算机可读存储介质 | |
KR102410715B1 (ko) | 머신 러닝 기반의 텍스트 데이터의 감성 분석 장치 및 방법 | |
CN107908649B (zh) | 一种文本分类的控制方法 | |
CN106354709A (zh) | 用户属性信息的分析装置、服务器及方法 | |
CN111177564A (zh) | 一种产品推荐方法及装置 | |
CN110377741A (zh) | 文本分类方法、智能终端及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170125 |
|
WD01 | Invention patent application deemed withdrawn after publication |