CN105741077A - 职业信息提供方法及系统 - Google Patents

职业信息提供方法及系统 Download PDF

Info

Publication number
CN105741077A
CN105741077A CN201610051858.XA CN201610051858A CN105741077A CN 105741077 A CN105741077 A CN 105741077A CN 201610051858 A CN201610051858 A CN 201610051858A CN 105741077 A CN105741077 A CN 105741077A
Authority
CN
China
Prior art keywords
industry
occupation
information
association
active user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610051858.XA
Other languages
English (en)
Inventor
欧阳纯萍
刘永彬
万亚平
刘志明
刘冬冬
吴佺
刘妍杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanhua University
University of South China
Original Assignee
University of South China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of South China filed Critical University of South China
Priority to CN201610051858.XA priority Critical patent/CN105741077A/zh
Publication of CN105741077A publication Critical patent/CN105741077A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/105Human resources
    • G06Q10/1053Employment or hiring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services

Landscapes

  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Primary Health Care (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种职业信息提供方法及系统,该方法包括:获取当前用户所修的专业信息,选取第一预设数量的与专业信息关联度最大的行业作为一级行业;获取当前用户的兴趣爱好信息,选取第二预设数量的与兴趣爱好信息关联度最大的行业作为二级行业;根据当前用户的大学所在城市或户籍所在地,从热度行业库中选取第三预设数量的热度值最高的行业作为三级行业;根据为各级行业设置的推荐分值,计算所选取出的每一行业的总推荐分值;根据每一行业的总推荐分值,选取第四预设数量的总推荐分值最高的行业作为推荐行业。可见本发明考虑求职者在求职时通常考虑的专业、兴趣爱好及就业城市的占比,提高招聘者与求职者之间的信息对称程度,提高职业的推荐效果。

Description

职业信息提供方法及系统
技术领域
本发明涉及一种职业信息提供方法及系统。
背景技术
一到毕业季,面对着众多纷杂的招聘信息,毕业生们又陷入了迷茫而纠结的求职历程。目前,国内的知名招聘网站,如智联招聘、中华英才网、51job等,在收取求职者的简历之后,通过求职者所填写的专业、个人信息和求职意向等信息进行一些职业的推荐。
但是这种职业推荐方式是一种局限于基于模版内容的匹配推荐方法,其最大的局限性在于没有宏观考虑求职者在求职时所关注的各类因素(例如地域、专业、兴趣爱好等)的占比,所以造成招聘者和求职者之间的信息不对称,最终导致企业抱怨招不到合适的员工,而毕业生又感叹找不到心仪的职业,职业的推荐效果差。
发明内容
本发明所要解决的技术问题是:如何提高职业推荐的效果。
为解决上述技术问题,本发明提出了一种职业信息提供方法及系统。
第一方面,该方法包括:
获取当前用户所修的专业信息,并确定所述专业信息与各行业的关联度,选取第一预设数量的关联度最大的行业作为一级行业;
获取当前用户的兴趣爱好信息,并确定所述兴趣爱好信息与各行业的关联度,选取第二预设数量的关联度最大的行业作为二级行业;
根据当前用户的大学所在城市和户籍所在地,从预先建立的热度行业库中选取第三预设数量的热度值最高的行业作为三级行业;
根据为所述一级行业、所述二级行业和所述三级行业预先设置的推荐分值,计算所选取出的每一行业的总推荐分值;
根据所述每一行业的总推荐分值,选取出第四预设数量的总推荐分值最高的行业作为推荐行业,为用户提供所述推荐行业中的职业信息。
可选的,所述为用户提供所述推荐行业中的职业信息,包括:
获取当前用户在社交网络平台上发布的历史状态信息;
计算所述历史状态信息与所述推荐行业中的各个职业的关联度,选取第五预设数量的关联度最大的职业作为推荐职业推荐至当前用户。
可选的,所述计算所述历史状态信息与所述推荐行业中的各个职业的关联度,选取第五预设数量的关联度最大的职业作为推荐职业,包括:
对所述历史状态信息进行分词,并计算分词后得到的每一个词的词频,建立所述历史状态信息的词向量;
计算所述词向量与预先建立的各个职业的职业特征数据库中特征词向量之间的距离;
选取所述第五预设数量的距离最小的职业作为所述推荐职业。
可选的,所述为用户提供所述推荐行业中的职业信息,还包括:
根据职业-兴趣测试方法确定当前用户的职业类型;
从所述推荐职业中选取出属于所述职业类型的职业作为重点推荐职业推荐至当前用户。
可选的,该方法还包括:
确定当前用户在社交网络平台中的关联用户的推荐职业;
根据当前用户和各个关联用户在所述历史状态信息中的互动状态信息、及当前用户的推荐职业和关联用户的推荐职业之间的重合度,计算当前用户与各个关联用户之间的职业亲密度;
制作以当前用户为中心用于表征当前用户与各个关联用户之间职业亲密度的职业链网,并将所述职业链网推荐至当前用户。
可选的,所述确定所述专业信息与各行业的关联度,或者所述确定所述兴趣爱好信息与各行业的关联度,包括:
计算对应信息与预先建立的行业特征数据库中各行业的特征词之间的语义相似度,其中:
所述语义相似度用于表征所述对应信息与各行业的关联度,所述对应信息为所述专业信息或所述兴趣爱好信息。
可选的,每一行业的行业特征数据库或每一职业的职业特征数据库的建立方法包括:
建立语料库,所述语料库中包含对应行业或对应职业的若干描述语料;
利用词频-逆文档频率算法从所述语料库中提取第六预设数量的描述关键词;
计算每一描述关键词与对应行业或对应职业之间的卡方值;
将第七预设数量的卡方值最大的描述关键词作为对应行业或对应职业的特征词,形成对应行业的行业特征数据库或对应职业的职业特征数据库,其中:
所述对应职业的职业特征数据库中每一特征词的词频与逆文档频率的乘积作为对应特征词的权重值,各特征词的权重值形成对应职业的特征词向量。
可选的,所述利用词频-逆文档频率算法从所述语料库中提取第六预设数量的描述关键词,包括:
将所述语料库中的各描述语料进行切分;
计算切分后得到的每一个词的词频和逆文档频率;
计算每一个词的词频与对应的逆文档频率的乘积,并将所述乘积作为对应词的权重;
从切分后得到的各个词中选取所述第六预设数量的权重值最大的词作为所述描述关键词。
可选的,所述根据当前用户的大学所在城市和户籍所在地,从预先建立的热度行业库中选取第三预设数量的热度值最高的行业作为三级行业,包括:
判断所述当前用户的大学所在城市是否为一线城市;
若是,从所述大学所在城市对应的热度行业库中选取所述第三预设数量的热度值最高的行业作为三级行业;
否则,从所述户籍所在地周边的一线城市和/或二线城市所对应的热度行业库中选取所述第三数量的热度值最高的行业作为三级行业。
第二方面,该系统包括:
第一选取模块,用于获取当前用户所修的专业信息,并确定所述专业信息与各行业的关联度,选取第一预设数量的关联度最大的行业作为一级行业;
第二选取模块,用于获取当前用户的兴趣爱好信息,并确定所述兴趣爱好信息与各行业的关联度,选取第二预设数量的关联度最大的行业作为二级行业;
第三选取模块,用于根据当前用户的大学所在城市或户籍所在地,从预先建立的热度行业库中选取第三预设数量的热度值最高的行业作为三级行业;
计算模块,用于根据为所述一级行业、所述二级行业和所述三级行业预先设置的推荐分值,计算所选取出的每一行业的总推荐分值;
第四选取模块,用于根据所述每一行业的总推荐分值,选取出第四预设数量的总推荐分值最高的行业作为推荐行业,为用户提供所述推荐行业中的职业信息。
本发明提供的职业信息提供方法及系统中,考虑到当前用户所修的专业、兴趣爱好及就业区域等信息,并且考虑到当前用户在求职时对专业、兴趣爱好及就业区域的看重程度,为求职者推荐较适合的行业,进而根据推荐的行业为用户提供职业。可见,本发明提供的职业信息提供方法考虑求职者在求职时通常考虑的因素的占比,提高招聘者与求职者之间的信息对称程度,提高职业的推荐效果。
附图说明
通过参考附图会更加清楚的理解本发明的特征信息和优点,附图是示意性的而不应理解为对本发明进行任何限制,在附图中:
图1示出了根据本发明职业信息提供方法的流程示意图;
图2示出了根据本发明职业信息提供方法确定的一种职业链网的结构示意图;
图3示出了根据本发明职业信息提供系统的结构框图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
本发明提供一种职业信息提供方法,如图1所示,该方法包括:
步骤S1、获取当前用户所修的专业信息,并确定所述专业信息与各行业的关联度,选取第一预设数量的关联度最大的行业作为一级行业;
步骤S2、获取当前用户的兴趣爱好信息,并确定所述兴趣爱好信息与各行业的关联度,选取第二预设数量的关联度最大的行业作为二级行业;
步骤S3、根据当前用户的大学所在城市或户籍所在地,从预先建立的热度行业库中选取第三预设数量的热度值最高的行业作为三级行业;
步骤S4、根据为所述一级行业、所述二级行业和所述三级行业预先设置的推荐分值,计算所选取出的每一行业的总推荐分值;
步骤S5、根据所述每一行业的总推荐分值,选取出第四预设数量的总推荐分值最高的行业作为推荐行业,为用户提供所述推荐行业中的职业信息。
本发明提供的职业信息提供方法,考虑到当前用户所修的专业、兴趣爱好及就业区域等信息,并且考虑到当前用户在求职时对专业、兴趣爱好及就业区域的看重程度,为求职者推荐较适合的行业,进而根据推荐的行业为用户提供职业信息。可见,本发明提供的职业信息提供方法考虑求职者在求职时通常考虑的因素的占比,提高招聘者与求职者之间的信息对称程度,提高职业的推荐效果。
不难理解的是,当前用户的专业信息、兴趣爱好信息、大学所在城市和户籍所在地等信息可以根据用户在注册社交网络平台时所填写的信息或填写的简历中获取。例如用户在注册人人网时以上信息均是需要填写的,因此上述信息可以通过人人网中获取。
不难理解的是,各级行业的推荐分值可以通过统计的方法获取大量毕业生在就业时对专业、兴趣爱好、就业城市的注重程度,然后根据关注程度设置推荐分值。例如通过调查问卷的方式统计毕业生对专业、兴趣爱好及就业城市的关注度分别为60%、30%及10%,则对一级行业、二级行业及三级行业的推荐分值可以分别设置为6、3、1。
不难理解的是,选取出的一级行业、二级行业及三级行业中一般存在重复的行业,例如一级行业中有计算机行业、半导体行业及通信行业,二级行业中有通信行业、计算机行业和室内设计行业,而三级行业中有通信行业和运输行业。那计算机行业的总推荐分值为一级行业的推荐分值+二级行业的推荐分值,半导体行业的总推荐分值为一级行业的推荐分值,通信行业的总推荐分值为一级行业的推荐分值+二级行业的推荐分值+三级行业的推荐分值,室内设计行业的总推荐分值为二级行业的推荐分值,运输行业的总推荐分值为三级行业的推荐分值。
在具体实施时,根据上述步骤S5中得到为用户推荐的行业之后,可以考虑不同的因素为用户提供所推荐行业中不同的职业信息,这里不做限定。例如考虑职业热度的情况下通过将所推荐行业中的热度值最高的几个职业推荐给用户,当然还可以根据其他的因素为用户推荐职业。例如,在考虑用户在社交网络平台中发表的状态信息为用户提供所推荐行业中的职业时,步骤S5中为用户提供所述推荐行业中的职业信息的具体过程可以包括:
S6、获取当前用户在社交网络平台上发布的历史状态信息;
S7、计算所述历史状态信息与所述推荐行业中的各个职业的关联度,选取第五预设数量的关联度最大的职业作为推荐职业推荐至当前用户。
这样做的好处是:通过用户在社交网络平台上的历史状态信息可以知道用户在生活中对哪方面更感兴趣,而这些信息用户在注册社交网络平台时可能不会填写或填写有偏差,因此通过这种方式为用户提供感兴趣的职业,更加真实、可靠。
进一步地,上述步骤S7的具体过程可以包括:
S71、对所述历史状态信息进行分词,并计算分词后得到的每一个词的词频,建立所述历史状态信息的词向量;
S72、计算所述词向量与预先建立的各个职业的职业特征数据库中特征词向量之间的距离;
S73、选取所述第五预设数量的距离最小的职业作为所述推荐职业。
不难理解的是,利用词频表征词的重要程度,职业特征数据库中特征词向量表征各个特征词在表征相应职业时的重要程度。因此,通过词向量中各个词的词频与职业特征数据库中特征词向量之间的距离表征用户对各职业的感兴趣程度,将第五预设数量的距离最小的职业推荐给用户,提高职业推荐的效果。
在具体实施时,选取出第五预设数量的职业之后,还可以采用以下方法进一步缩小推荐职业的范围:
根据职业-兴趣测试方法确定当前用户的职业类型;
从所述推荐职业中选取出属于所述职业类型的职业作为重点推荐职业推荐至当前用户。
不难理解的是,职业-兴趣测试方法可以采用目前现有的各种职业-兴趣测试方法,例如霍兰德职业兴趣测试方法。具体可以通过提供霍兰德职业兴趣测试问卷的方式,根据用户对各个职业类型的测试得分确定用户适合的职业类型。其中,霍兰德职业兴趣测试方法基于霍兰德职业性格理论,是由美国心理学家霍兰德提出的,将职业类型分为六类:艺术型、企业型、调研型、社会型、常规型、实际型六类,其理论的核心为“同属一类型的人与同一类型的职业相互结合,才能达到最适应的状态”。因此,通过这种方式,从选取的第五预设数量的职业后,进一步选择符合用户职业类型的职业推荐给用户,使用户获知自己更加适合的职业。
在具体实施时,步骤S1中确定所述专业信息与各行业的关联度的具体过程可以包括:
计算所述专业信息与预先建立的行业特征数据库中各行业的特征词之间的语义相似度,其中:所述语义相似度用于表征所述专业信息与各行业的关联度。
同样的,在具体实施时,步骤S1中确定所述兴趣爱好信息与各行业的关联度的具体过程可以包括:
计算兴趣爱好信息与预先建立的行业特征数据库中各行业的特征词之间的语义相似度,其中:所述语义相似度用于表征兴趣爱好信息与各行业的关联度。
根据上述方法确定专业信息或兴趣爱好信息与各行业的关联度的过程中,可先对专业信息或兴趣爱好信息进行分词处理,然后利用语义相似度计算公式计算对应的语义相似度。其中,语义相似度计算公式可以为:
s i m = Σ i = 0 n DS i + 0.2 × ( N m a x - N m i n ) N max
其中,sim为语义相似度,DSi为对相应信息分词后的第i个关键词与某一行业的行业特征词之间的距离的最大值,Nmin为分词后关键词的个数与某一行业的行业特征词的个数之间的较小值,Nmax为分词后关键词的个数与某一行业的行业特征词的个数之间的较大值。
不难理解的是,每一行业包含多个职业,行业和职业之间是有从属关系的。但是上述提到的行业特征数据库和职业特征数据库为两个不同的数据库,其中行业特征数据库中包含表征对应行业的特征词,职业特征数据库中包含表征对应职业的特征词,两个数据库之间是相互独立的关系。
在具体实施时,每一行业的行业特征数据库或每一职业的职业特征数据库的建立方法包括:
建立语料库,所述语料库中包含对应行业或对应职业的若干描述语料;
利用词频-逆文档频率算法从所述语料库中提取第六预设数量的描述关键词;
计算每一描述关键词与对应行业或对应职业之间的卡方值;
将第七预设数量的卡方值最大的描述关键词作为对应行业或对应职业的特征词,形成对应行业的行业特征数据库或对应职业的职业特征数据库,其中:
所述对应职业的职业特征数据库中每一特征词的词频与逆文档频率的乘积作为对应特征词的权重值,各特征词的权重值形成对应职业的特征词向量。
可见,行业特征数据库和职业特征数据库的建立方法是相似的,通过卡方检验算法确定对应行业或对应职业的特征词,进而得到行业特征数据库或职业特征数据库。
在具体实施时,以职业特征数据库为例说明每一描述关键词与对应职业之间的卡方值的具体计算过程:
在职业特征词的选择阶段,主要关心一个词t(随机变量)与某职业c(另一个随机变量)之间是否相互独立。如果独立,则说明词t对职业c没有表征作用。
通常将词t与职业c不相关作为原假设,因此选择的过程也就可理解为计算每一个词与职业c的卡方值,并对结果进行从大到小排序(卡方值越大,则原假设越不成立,即t与职业c越相关)。
下面以词t为编译器、职业c为软件工程师为例通过下表1说明:
表1编译器与软件工程师之间的关系表
上表1中的A、B、C、D、N均为包含相应词的文章数量。例如A为既包含软件工程师又包含编译器的文章数量。
其中,包含“编译器”的文章的概率是:
A + B N
其中,属于“软件工程师”类的文章数为A+C,在这些个文档中包含“编译器”这个词的文章应该有:
E 11 = ( A + C ) ( A + B ) N
但实际属于“软件工程师”又包含“编译器”的文章数是A,因此根据卡方计算公式进行卡方差值计算:
D 11 = ( A - E 11 ) 2 E 11
根据同样的方法计算卡方差值D12、D21、D22。
则:X2(编译器,软件工程师)=D11+D12+D21+D22。
将D11,D12,D21,D22的值分别代入并化简,可以得到词t与职业c的卡方值,因此其更一般的形式可以写成:
χ 2 ( t , C ) = N ( A D - B C ) 2 ( A + C ) ( A + B ) ( B + D ) ( C + D )
因此根据上述方法可以计算出每个词与职业c的卡方值,并正排序,最终选取卡方值最大的若干个特征词。
进一步的,在上述数据库建立过程中利用词频-逆文档频率算法从所述语料库中提取第六预设数量的描述关键词的具体过程可包括:
将所述语料库中的各描述语料进行切分;
计算切分后得到的每一个词的词频和逆文档频率;
计算每一个词的词频与对应的逆文档频率的乘积,并将所述乘积作为对应词的权重;
从切分后得到的各个词中选取所述第六预设数量的权重值最大的词作为所述描述关键词。
不难理解的是,词频为某个词在文中出现的次数,考虑到文章的大小不一样,可采用下式对词频进行归一化处理:
T F = k n
其中:TF为归一化后的词频,k为某个词在文章中出现的次数,n表示文章总词数。
在具体实施时,可以采用下式计算逆文档频率:
I D F = l o g ( w s + 1 )
其中:IDF为逆文档频率,w为语料库的文档总数,s为语料库中包含该次的文档数。
在具体实施时,步骤S3的具体过程可以包括:
判断所述当前用户的大学所在城市是否为一线城市;
若是,从所述大学所在城市对应的热度行业库中选取所述第三预设数量的热度值最高的行业作为三级行业;
否则,从所述户籍所在地周边的一线城市和/或二线城市所对应的热度行业库中选取所述第三数量的热度值最高的行业作为三级行业。
一般情况下,毕业生的就读大学位于一线城市,则毕业生在就业时一般会选择该城市。若毕业生就读于非一线城市,在就业时很可能会选择与户籍所在地较近的一、二线城市。该规律是根据对大量毕业生在就业时对就业城市的选择进行统计得到的,因此将其应用至为用户推荐职业的过程中更具现实性、实用性。
不难理解的是,不同的城市有不同的热门行业,因此每一个城市都有自己的热门行业库,每一个行业的热度值可以根据统计的方法获得。
在具体实施时,本发明提供的职业信息提供方法还可以包括:
确定当前用户在社交网络平台中的关联用户的推荐职业;
根据当前用户和各个关联用户在所述历史状态信息中的互动状态信息、及当前用户的推荐职业和关联用户的推荐职业之间的重合度,计算当前用户与各个关联用户之间的职业亲密度;
制作以当前用户为中心用于表征当前用户与各个关联用户之间职业亲密度的职业链网,并将所述职业链网推荐至当前用户。
这样,通过建立一个职业链网的方式使用户获知周围的好友可能从事的行业,为用户提供一定的参考和对比,增加了用户求职的自信心,可以促进高校毕业生就业。
不难理解的是,关联用户的推荐职业可以按照确定当前用户推荐职业的方法进行确定。
不难理解的是,当前用户的关联用户可以是用户在社交网络平台(人人网、朋友圈)中的好友。
不难理解的是,历史状态信息中的互动状态信息是指关联用户对当前用户的状态信息的评论信息、当前用户对关联用户的状态信息的评论信息。职业亲密度可表征当前用户和关联用户可能从事职业的关联度。职业链网可以具体采用多种形式,例如伞状形式,如图2所示,当前用户与关联用户之间的线段的长短代表职业亲密度的大小,职业亲密度越高,连线线段越短。
另外,还可以进一步的计算关联用户的职业分布率,使当前用户获知周围好友可能从事职业的占比。
其中,根据当前用户和各关联用户的互动状态信息及推荐职业之间的重合度进行职业亲密度的计算时可以通过分值累加的方式实现:
一方面,若当前用户与关联用户的推荐职业中有一个职业重合,则将两者之间的职业亲密度加1,若有两个职业重合则加2,依次类推,有几个职业重合加几分,得到职业重合度的得分。
另一方面,通过当前用户和各关联用户的互动状态信息判断出当前用户与关联用户之间的情绪倾向程度,例如在获取的当前用户与某一关联用户的100条互动状态信息中,两者有50条以上的互动状态信息观点一致,则认为当前用户与该关联用户具有较高的情绪倾向程度,此时在两者之间职业重合度得分的基础上加1分,从而得到两者的职业亲密度。
应当理解的是,上述过程中的1分、2分、100条、50条等具体数值仅为示例说明,在实际应用中根据情况可以自行设置。
不难理解的是,互动状态信息有的有情绪倾向,有的没有情绪倾向。其中有无情绪倾向可以通过朴素贝叶斯算法确定,然后再迭代使用朴素贝叶斯算法,从有情绪的信息中识别出“支持”和“反对”的情绪,从而得知当前用户与关联用户之间的情绪倾向的重合度。
其中,朴素贝叶斯算法基于贝叶斯定理,其定理本质与条件概率相关,其确定有无情绪倾向和正负观点倾向的过程除了特征词选取有稍许差别以外,计算过程相同。其中,有无情绪倾向的判断过程可以包括:
由于用户状态内容本身多为短句,其中的词汇较少,因此采用以单词为划分粒度的多项分布模型,并且把表情符号也作为单词进行统计,每个单词变量都表示该单词在文件中出现的次数。在多项式模型中,假设某文档D=(T1,T2,…,Tn),Tn指该文档中出现过的单词(可重复),则类条件概率为:
P ( T n | C ) = sumT k + 1 s u m + F
其中,sumTk表示类C下单词Tk在文档中出现过的次数之和,sum表示类C下的单词总数,F表示训练集合中不重复特征词总数,所谓的类为有情绪倾向类或无情绪倾向类。
先验概率:
P ( C ) = s u m M
其中,sum表示类C下单词的总数,M表示整个训练样本的单词总数。则有情绪倾向类、无情绪倾向的先验概率分别为:
P ( 1 ) = D D 3000
P(0)=1-P(0)
其中,D表示有情绪倾向的所有单词数,D3000表示3000条状态分词后的单词数,1表示有情绪,0表示无情绪。
在分析有无情绪倾向时认为单词与单词之间都是相互独立的,因此可以用独立条件下的概率公式。
P(1|D)=P(T1|1)×P(T2|1)×……×.P(Tk|1)×P(1)
P(0|D)=P(T1|0)×P(T2|0)×……×P(Tk|0)×P(0)
如果P(1|D)>P(0|D),则判定该状态信息有情绪倾向,否则判定该状态信息无情绪倾向。
应当理解的是,正负观点倾向的判断过程与上述有无情绪倾向的判断过程类似,在实际应用时将其中所使用的特征词做相应的替换即可实现“支持”和“反对”的判别。
基于相同的发明构思,本发明还提供一种职业信息提供系统,如图3所示,该系统100包括:
第一选取模块101,用于获取当前用户所修的专业信息,并确定所述专业信息与各行业的关联度,选取第一预设数量的关联度最大的行业作为一级行业;
第二选取模块102,用于获取当前用户的兴趣爱好信息,并确定所述兴趣爱好信息与各行业的关联度,选取第二预设数量的关联度最大的行业作为二级行业;
第三选取模块103,用于根据当前用户的大学所在城市或户籍所在地,从预先建立的热度行业库中选取第三预设数量的热度值最高的行业作为三级行业;
计算模块104,用于根据为所述一级行业、所述二级行业和所述三级行业预先设置的推荐分值,计算所选取出的每一行业的总推荐分值;
第四选取模块105,用于根据所述每一行业的总推荐分值,选取出第四预设数量的总推荐分值最高的行业作为推荐行业,为用户提供所述推荐行业中的职业信息。
在本发明中,术语“第一”、“第二”、“第三”、“第四”、“第五”、“第六”、“第七”仅用于描述目的,而不能理解为指示或暗示相对重要性。术语“多个”指两个或两个以上,除非另有明确的限定。
虽然结合附图描述了本发明的实施方式,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (10)

1.一种职业信息提供方法,其特征在于,包括:
获取当前用户所修的专业信息,并确定所述专业信息与各行业的关联度,选取第一预设数量的关联度最大的行业作为一级行业;
获取当前用户的兴趣爱好信息,并确定所述兴趣爱好信息与各行业的关联度,选取第二预设数量的关联度最大的行业作为二级行业;
根据当前用户的大学所在城市和户籍所在地,从预先建立的热度行业库中选取第三预设数量的热度值最高的行业作为三级行业;
根据为所述一级行业、所述二级行业和所述三级行业预先设置的推荐分值,计算所选取出的每一行业的总推荐分值;
根据所述每一行业的总推荐分值,选取出第四预设数量的总推荐分值最高的行业作为推荐行业,为用户提供所述推荐行业中的职业信息。
2.根据权利要求1所述的方法,其特征在于,所述为用户提供所述推荐行业中的职业信息,包括:
获取当前用户在社交网络平台上发布的历史状态信息;
计算所述历史状态信息与所述推荐行业中的各个职业的关联度,选取第五预设数量的关联度最大的职业作为推荐职业推荐至当前用户。
3.根据权利要求2所述的方法,其特征在于,所述计算所述历史状态信息与所述推荐行业中的各个职业的关联度,选取第五预设数量的关联度最大的职业作为推荐职业,包括:
对所述历史状态信息进行分词,并计算分词后得到的每一个词的词频,建立所述历史状态信息的词向量;
计算所述词向量与预先建立的各个职业的职业特征数据库中特征词向量之间的距离;
选取所述第五预设数量的距离最小的职业作为所述推荐职业。
4.根据权利要求2所述的方法,其特征在于,所述为用户提供所述推荐行业中的职业信息,还包括:
根据职业-兴趣测试方法确定当前用户的职业类型;
从所述推荐职业中选取出属于所述职业类型的职业作为重点推荐职业推荐至当前用户。
5.根据权利要求2所述的方法,其特征在于,还包括:
确定当前用户在社交网络平台中的关联用户的推荐职业;
根据当前用户和各个关联用户在所述历史状态信息中的互动状态信息、及当前用户的推荐职业和关联用户的推荐职业之间的重合度,计算当前用户与各个关联用户之间的职业亲密度;
制作以当前用户为中心用于表征当前用户与各个关联用户之间职业亲密度的职业链网,并将所述职业链网推荐至当前用户。
6.根据权利要求1所述的方法,其特征在于,所述确定所述专业信息与各行业的关联度,或者所述确定所述兴趣爱好信息与各行业的关联度,包括:
计算对应信息与预先建立的行业特征数据库中各行业的特征词之间的语义相似度,其中:
所述语义相似度用于表征所述对应信息与各行业的关联度,所述对应信息为所述专业信息或所述兴趣爱好信息。
7.根据权利要求3或6所述的方法,其特征在于,每一行业的行业特征数据库或每一职业的职业特征数据库的建立方法包括:
建立语料库,所述语料库中包含对应行业或对应职业的若干描述语料;
利用词频-逆文档频率算法从所述语料库中提取第六预设数量的描述关键词;
计算每一描述关键词与对应行业或对应职业之间的卡方值;
将第七预设数量的卡方值最大的描述关键词作为对应行业或对应职业的特征词,形成对应行业的行业特征数据库或对应职业的职业特征数据库,其中:
所述对应职业的职业特征数据库中每一特征词的词频与逆文档频率的乘积作为对应特征词的权重值,各特征词的权重值形成对应职业的特征词向量。
8.根据权利要求7所述的方法,其特征在于,所述利用词频-逆文档频率算法从所述语料库中提取第六预设数量的描述关键词,包括:
将所述语料库中的各描述语料进行切分;
计算切分后得到的每一个词的词频和逆文档频率;
计算每一个词的词频与对应的逆文档频率的乘积,并将所述乘积作为对应词的权重;
从切分后得到的各个词中选取所述第六预设数量的权重值最大的词作为所述描述关键词。
9.根据权利要求1所述的方法,其特征在于,所述根据当前用户的大学所在城市和户籍所在地,从预先建立的热度行业库中选取第三预设数量的热度值最高的行业作为三级行业,包括:
判断所述当前用户的大学所在城市是否为一线城市;
若是,从所述大学所在城市对应的热度行业库中选取所述第三预设数量的热度值最高的行业作为三级行业;
否则,从所述户籍所在地周边的一线城市和/或二线城市所对应的热度行业库中选取所述第三数量的热度值最高的行业作为三级行业。
10.一种职业信息提供系统,其特征在于,包括:
第一选取模块,用于获取当前用户所修的专业信息,并确定所述专业信息与各行业的关联度,选取第一预设数量的关联度最大的行业作为一级行业;
第二选取模块,用于获取当前用户的兴趣爱好信息,并确定所述兴趣爱好信息与各行业的关联度,选取第二预设数量的关联度最大的行业作为二级行业;
第三选取模块,用于根据当前用户的大学所在城市和户籍所在地,从预先建立的热度行业库中选取第三预设数量的热度值最高的行业作为三级行业;
计算模块,用于根据为所述一级行业、所述二级行业和所述三级行业预先设置的推荐分值,计算所选取出的每一行业的总推荐分值;
第四选取模块,用于根据所述每一行业的总推荐分值,选取出第四预设数量的总推荐分值最高的行业作为推荐行业,
为用户提供所述推荐行业中的职业信息。
CN201610051858.XA 2016-01-26 2016-01-26 职业信息提供方法及系统 Pending CN105741077A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610051858.XA CN105741077A (zh) 2016-01-26 2016-01-26 职业信息提供方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610051858.XA CN105741077A (zh) 2016-01-26 2016-01-26 职业信息提供方法及系统

Publications (1)

Publication Number Publication Date
CN105741077A true CN105741077A (zh) 2016-07-06

Family

ID=56247332

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610051858.XA Pending CN105741077A (zh) 2016-01-26 2016-01-26 职业信息提供方法及系统

Country Status (1)

Country Link
CN (1) CN105741077A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108171437A (zh) * 2018-01-15 2018-06-15 吉林工程技术师范学院 一种心理学职业能力测评系统
CN108304539A (zh) * 2018-01-30 2018-07-20 平安科技(深圳)有限公司 人才数据库建立方法、装置及存储介质
CN108647294A (zh) * 2018-05-07 2018-10-12 韦玮 信息推荐系统
CN109272338A (zh) * 2017-07-18 2019-01-25 上海汽车集团股份有限公司 一种交通信息推送方法、系统和服务器
CN109492676A (zh) * 2018-10-23 2019-03-19 东华大学 基于粒子群算法优化支持向量机的研究生就业预测方法
CN109598654A (zh) * 2018-10-29 2019-04-09 四川文轩教育科技有限公司 一种基于大数据的学生职业规划方法
CN110716992A (zh) * 2018-06-27 2020-01-21 百度在线网络技术(北京)有限公司 兴趣点名称推荐方法和装置
CN111191111A (zh) * 2019-06-14 2020-05-22 腾讯科技(深圳)有限公司 内容推荐方法、装置及存储介质
CN112651862A (zh) * 2020-12-24 2021-04-13 成都存时科技有限公司 学生学业发展方向规划方法、装置、设备及可读存储介质
CN116523484A (zh) * 2023-06-29 2023-08-01 众科云(北京)科技有限公司 一种用工平台数据优化采集方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103617157A (zh) * 2013-12-10 2014-03-05 东北师范大学 基于语义的文本相似度计算方法
CN104794202A (zh) * 2015-04-23 2015-07-22 浙江大学 一种面向创意设计的文物知识库系统构建的方法
CN104933239A (zh) * 2015-06-09 2015-09-23 江苏大学 一种基于混合模型的个性化职位信息推荐系统及实现方法
CN105159962A (zh) * 2015-08-21 2015-12-16 北京全聘致远科技有限公司 职位推荐方法与装置、简历推荐方法与装置、招聘平台

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103617157A (zh) * 2013-12-10 2014-03-05 东北师范大学 基于语义的文本相似度计算方法
CN104794202A (zh) * 2015-04-23 2015-07-22 浙江大学 一种面向创意设计的文物知识库系统构建的方法
CN104933239A (zh) * 2015-06-09 2015-09-23 江苏大学 一种基于混合模型的个性化职位信息推荐系统及实现方法
CN105159962A (zh) * 2015-08-21 2015-12-16 北京全聘致远科技有限公司 职位推荐方法与装置、简历推荐方法与装置、招聘平台

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
唐国利等: "《一种专利自动推荐方法的算法设计》", 《决策与信息》 *
梁艳: "《基于案例推理的职位推荐》", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
郑思婷: "《基于多维特征空间的职位推荐系统研究》", 《万方学位论文全文数据库》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109272338A (zh) * 2017-07-18 2019-01-25 上海汽车集团股份有限公司 一种交通信息推送方法、系统和服务器
CN108171437B (zh) * 2018-01-15 2021-08-31 吉林工程技术师范学院 一种心理学职业能力测评系统
CN108171437A (zh) * 2018-01-15 2018-06-15 吉林工程技术师范学院 一种心理学职业能力测评系统
CN108304539A (zh) * 2018-01-30 2018-07-20 平安科技(深圳)有限公司 人才数据库建立方法、装置及存储介质
CN108647294A (zh) * 2018-05-07 2018-10-12 韦玮 信息推荐系统
CN110716992A (zh) * 2018-06-27 2020-01-21 百度在线网络技术(北京)有限公司 兴趣点名称推荐方法和装置
CN109492676A (zh) * 2018-10-23 2019-03-19 东华大学 基于粒子群算法优化支持向量机的研究生就业预测方法
CN109598654A (zh) * 2018-10-29 2019-04-09 四川文轩教育科技有限公司 一种基于大数据的学生职业规划方法
CN111191111A (zh) * 2019-06-14 2020-05-22 腾讯科技(深圳)有限公司 内容推荐方法、装置及存储介质
CN111191111B (zh) * 2019-06-14 2024-05-03 腾讯科技(深圳)有限公司 内容推荐方法、装置及存储介质
CN112651862A (zh) * 2020-12-24 2021-04-13 成都存时科技有限公司 学生学业发展方向规划方法、装置、设备及可读存储介质
CN116523484A (zh) * 2023-06-29 2023-08-01 众科云(北京)科技有限公司 一种用工平台数据优化采集方法及系统
CN116523484B (zh) * 2023-06-29 2023-12-08 众科云(北京)科技有限公司 一种用工平台数据优化采集方法及系统

Similar Documents

Publication Publication Date Title
CN105741077A (zh) 职业信息提供方法及系统
Al-Ghuribi et al. Multi-criteria review-based recommender system–the state of the art
Dhelim et al. Personality-aware product recommendation system based on user interests mining and metapath discovery
Qi et al. Mining customer requirements from online reviews: A product improvement perspective
Zhang Incorporating phrase-level sentiment analysis on textual reviews for personalized recommendation
Towne et al. Measuring similarity similarly: LDA and human perception
Li et al. A Bayesian Best‐Worst Method‐Based Multicriteria Competence Analysis of Crowdsourcing Delivery Personnel
Arabmaldar et al. A new robust DEA model and super-efficiency measure
US10264082B2 (en) Method of producing browsing attributes of users, and non-transitory computer-readable storage medium
Sharma et al. Ranking hotels using aspect ratings based sentiment classification and interval-valued neutrosophic TOPSIS
Huang et al. A multi-source integration framework for user occupation inference in social media systems
Mortier et al. Challenges & opportunities in human-data interaction
CN104517216A (zh) 增强推荐系统和方法
Benabderrahmane et al. Smart4job: A big data framework for intelligent job offers broadcasting using time series forecasting and semantic classification
CN105843799A (zh) 一种基于多源异构信息图模型的学术论文标签推荐方法
Liang et al. RETRACTED ARTICLE: Research on consumers online shopping decision-making and recommendation of commodity based on social media network
CN114065058B (zh) 城市推荐方法、装置、电子设备及计算机可读存储介质
Saikia et al. Digital consumer engagement in a social network: A literature review applying TCCM framework
Cai et al. An extension of social network group decision-making based on trustrank and personas
Zhao et al. Research on the positioning method of online community users from the perspective of precision marketing
Park et al. Spec guidance for engineering design based on data mining and neural networks
Alghieth et al. A map-based job recommender model
Guo et al. A Novel Contextual Information Recommendation Model and Its Application in e‐Commerce Customer Satisfaction Management
Shuxian et al. Design and implementation of movie recommendation system based on naive bayes
Huang et al. A unified framework of targeted marketing using customer preferences

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160706