CN114691869A - 一种用户标签生成方法和系统 - Google Patents
一种用户标签生成方法和系统 Download PDFInfo
- Publication number
- CN114691869A CN114691869A CN202210277838.XA CN202210277838A CN114691869A CN 114691869 A CN114691869 A CN 114691869A CN 202210277838 A CN202210277838 A CN 202210277838A CN 114691869 A CN114691869 A CN 114691869A
- Authority
- CN
- China
- Prior art keywords
- information
- attention
- user
- content
- tag
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/105—Human resources
- G06Q10/1053—Employment or hiring
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- Human Resources & Organizations (AREA)
- Artificial Intelligence (AREA)
- Entrepreneurship & Innovation (AREA)
- Mathematical Physics (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明涉及一种用户标签生成方法和系统,其中,所述方法包括:获取求职用户与招聘用户在招聘平台的在线聊天信息;分别基于求职用户和招聘用户对所述在线聊天信息分类,分别获得求职用户的聊天信息群和招聘用户的聊天信息群;基于目标用户的类别对其聊天信息群进行本文分析,从所述聊天信息群中确定出目标用户的关注信息,其中,所述目标用户为求职用户和/或招聘用户;以及基于所述关注信息生成目标用户的补充标签。本发明从新的信息源中得到用户关注的、原简历或招聘信息中没有体现的深层次信息,使得在进行职位/人才推荐时使用的信息更加全面、更能体现出用户的真实意图,从而能够有效地提高推荐的成功率。
Description
技术领域
本发明涉及互联网数据处理技术领域,特别地涉及一种用户标签生成方法和系统。
背景技术
随着互联网、移动应用等技术的发展,大部分的求职者和招聘者都会选择从一些网络招聘平台上寻找合适的职位。通常,求职者和招聘者会在诸如招聘网站、招聘APP等上注册,求职者在其上填写简历,其中记载个人信息及职位意向等,而招聘者则填写招聘信息,其中记载公司信息,招聘的具体职位及职位要求等信息。由于招聘平台上汇集了大量的信息,如果单纯依赖求职者及招聘者手工搜索,在海量信息中找到适合自已的职位或个人将是一件既耗时又非常困难的事情。因而,为了增加招聘平台上的求职或招聘的成功率,帮助求职者及招聘者提高效率,一些招聘平台通过推出了职位推荐服务,即根据算法,为求职者推荐职位信息。
为了对求职者和招聘者进行匹配,职位推荐算法的基础是为求职者和招聘者设置的各种标签。所述的标签例如包括年龄、求职意向、工作地点、工作年限等等。部分标签是对求职者/招聘者本身的描述,部分标签是求职者/招聘者对其需求的描述。所述这些标签通常是通过求职者/招聘者在招聘平台上留下的授权信息得到的,如求职者在招聘平台上填写的简历,招聘者填写的招聘信息。用户(求职者和招聘者)标签是否全面、准确地体现出用户意愿是提高推荐成功率的基础和关键之一。然而,在合法、尊重用户隐私的前提下,目前的用户标签只能从前述用户在简历、招聘信息中得到,信息源单一,得到的有效信息有限。如何在隐私限制的情况下,从扩大信息源中获得更为丰富的标签是本领域需要解决的一个技术问题。
发明内容
针对现有技术中存在的技术问题,本发明提出了一种用户标签生成方法和系统,从新型信息源中获取有利于了解用户意图的深层次信息,并由此生成用户补充标签,从而扩大用户标签量。
为了解决上述技术问题,根据本发明的一个方面,本发明提供了一种用户标签生成方法,其包括以下步骤:获取求职用户与招聘用户在招聘平台的在线聊天信息;分别基于求职用户和招聘用户对所述在线聊天信息分类,分别获得求职用户的聊天信息群和招聘用户的聊天信息群;基于目标用户的类别对其聊天信息群进行本文分析,从所述聊天信息群中确定出目标用户的关注信息,其中,所述目标用户为求职用户和/或招聘用户;以及基于所述关注信息生成目标用户的补充标签。
根据本发明的另一个方面,本发明提供了一种用户标签生成系统,其包括聊天信息读取模块、分类模块、分析模块和标签生成模块,所述聊天信息读取模块用以获取求职用户与招聘用户在招聘平台的在线聊天信息;所述分类模块与所述聊天信息读取模块相连接,经配置以分别基于求职用户和招聘用户对所述在线聊天信息分类,分别获得求职用户的聊天信息群和招聘用户的聊天信息群;所述分析模块与所述分类模块相连接,经配置以基于目标用户的类别对其聊天信息群进行本文分析,从所述聊天信息群中确定出目标用户的关注信息,其中,所述目标用户为求职用户和/或招聘用户;所述标签生成模块与所述分析模块相连接,经配置以基于所述关注信息生成目标用户的补充标签。
本发明利用招聘平台提供的聊天功能获得求职者与招聘者的聊天信息,以此为信息源,从中得到用户关注的、原简历或招聘信息中没有体现的深层次信息,使得在进行职位/人才推荐时使用的信息更加全面、更能体现出用户的真实意图,从而能够有效地提高推荐的成功率。
附图说明
下面,将结合附图对本发明的优选实施方式进行进一步详细的说明,其中:
图1是根据本发明的一个实施例的用户标签生成方法流程图;
图2是根据本发明的一个实施例的文本分析流程图;
图3是根据本发明的一个实施例的聊天信息的文本处理流程图;
图4是根据本发明另一个实施例的文本分析流程图;
图5是根据本发明的一个实施例的用户标签生成系统原理框图;
图6是根据本发明的一个实施例的分析模块原理框图;
图7是根据本发明的一个实施例的标签生成模原理框图;
图8是根据本发明另一个实施例的用户标签生成系统原理框图;以及
图9是根据本发明又一个实施例的用户标签生成系统原理框图;
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在以下的详细描述中,可以参看作为本申请一部分用来说明本申请的特定实施例的各个说明书附图。在附图中,相似的附图标记在不同图式中描述大体上类似的组件。本申请的各个特定实施例在以下进行了足够详细的描述,使得具备本领域相关知识和技术的普通技术人员能够实施本申请的技术方案。应当理解,还可以利用其它实施例或者对本申请的实施例进行结构、逻辑或者电性的改变。
随着即时通信应用的普及和发展,通信应用在某些程度上极大地改进了沟通效率,使得人们可以随时随地地对某些事件进行沟通。本发明中涉及的招聘平台,如招聘网站或招聘APP,利用即时通信技术提供有聊天功能,使同时在线的求职者与招聘者可以实时沟通,不但增加了求职用户和作为招聘者的职位HR在招聘平台的活跃度、提高了职位的查看和投递量,也为求职者与招聘者提供了二者对公开信息(如简历、招聘信息)之外的关注点进行交流的机会,并且,求职者与招聘者在招聘平台上留下的聊天信息成为了可以提取有价值信息的信息源。
图1是根据本发明一个实施例的用户标签生成方法流程图。所述方法包括以下步骤:
步骤S1,获取求职用户与招聘用户在招聘平台的在线聊天信息。在一个实施例中,求职用户与招聘用户在进行在线聊天时,每条聊天记录实时存储在数据库中的一个聊天记录文件中,所述聊天记录文件的文件名中标注有求职用户与招聘用户的ID。因而从数据库通过文件名可以获得到聊天记录文件,并从中可以读取到求职用户与招聘用户在招聘平台的在线聊天信息。
步骤S2,分别基于求职用户和招聘用户对所述在线聊天信息分类,分别获得求职用户的聊天信息群和招聘用户的聊天信息群。在一个实施例中,按照用户ID,从聊天记录文件中读取出对应的聊天信息,从而可将聊天记录文件中的信息分类为对应不同用户ID的内容,同时,根据所述用户ID的类别,即其为求职用户还是招聘用户,进而将聊天信息分类成两大类。当用户进行了多次聊天时,经过上述的分类操作分别得对应每个用户的聊天信息群。
步骤S3,基于目标用户的类别对其聊天信息群进行本文分析,从所述聊天信息群中确定出目标用户的关注信息,其中,所述目标用户为求职用户和/或招聘用户。当一个求职用户与一个招聘用户的在线聊天结束时,或者,在一个设定的时间周期到达时触发本步骤进行的文本分析流程。图2是根据本发明一个实施例的文本分析流程图。具体包括以下步骤:
步骤S31,基于目标用户类别获取对应的标签内容词典。本发明的数据库中存储有标签内容词典,所述标签内容词典分为求职者标签内容词典,其中记录有多个用于表达求职者关注信息的多个关注词,如公司氛围、加班、团建活动等等。招聘者标签内容词典记录有多个用于表达招聘者关注信息的多个关注词,如加班、出差等等,所述的词典内容可随时增加或修改。由于对求职者和招聘者的补充标签生成过程相同,为清楚、简便地说明,以下以求职用户为例。
步骤S32,从求职者标签内容词典中读取一个关注词。
步骤S33,将所述求职者聊天信息群的文本内容与所述关注词进行匹配。
步骤S34,判断是否在聊天文本内容中匹配到所述关注词,如果匹配到,则在步骤S35将匹配到的关注词确定为所述求职者用户的关注信息,然后执行步骤S35。如果没有匹配到,则返回步骤S32,读取另一个关注词进行匹配。
步骤S35,判断求职者标签内容词典中是否还有未匹配的关注词,如果有,则返回步骤S32,读取另一个关注词进行匹配,如果没有,说明当前的标签内容词典中的关注词都已经匹配完,则结束流程。
通过上述流程可以确定出所述求职用户的聊天信息群中是否有有价值的信息。
步骤S4,基于所述关注信息生成目标用户的补充标签。用户标签为对用户在某个方面的描述,本发明的目的是从聊天信息中提取出的用户关注信息,因而生成的标签是对原有从简历、招聘信息中提取出的信息而生成的标签的补充,因而在本发明中称为补充标签。在本发明中,所述补充标签包括标签名称和对应的标签内容,在一个实施例,将一个标签记为{标签名称:标签内容}。在本步骤中,根据所述关注信息分别生成补充标签名称和相应的标签内容。在一个实施例中,将词语“关注”或其同义词、同义词组作为补充标签名称,将匹配到的关注词作为对应的标签内容,即所述补充标签记为{关注:关注词}。例如,当匹配到的关注词为加班时,得到的补充标签记为{关注:加班}或{关注内容:加班}。
另外,由于人们对其一则信息关注的程度可以通过其在聊天中的重复次数来体现,因而,在匹配到关注词后,在一个实施例中,还包括统计匹配到的关注词在所述聊天信息群的文本内容中出现的次数的步骤,通过所述重复次数可以确定用户对关注信息的关注程度。因而在本实施例中,采用关注等级来体现用户对信息的关注程度,关注等级可以由关注词在所述聊天信息群的文本内容中出现的次数表示,也可以是设定的几个不同级别,如1-5级,每个级别对应关注词在文本内容中出现的次数范围。例如,对于1级,关注词出现次范围为1-3次,对于2级,关注词出现次数范围为4-6次,依次类推。当关注词出现次数大于20次时,为5级。经过本步骤,得到的关注信息除了关注词,还包括关注等级。在生成补充标签时,将关注等级记为一种标签内容。因而,此时的补充标签可以采用两种结构,一种是以“关注”及其同义词或同义词组作为大类标签名称,将关注词作为小类标签名称,将关注等级作为标签内容为加班,其结构为例如{关注内容|加班:2}或{关注加班:2}。在另一种结构中,将关注词和关注等级分别作为标签内容,其结构例如为{关注内容:加班;2}或{关注:加班;2}。
通过上述方法得到的用户标签作为从简历、招聘信息中得到的标签的补充,能够从更深层次体现出用户需求,在向双方进行推荐时可以有效提高匹配度,提高推荐的成功率。
为了提高聊天信息群中的文本与标签内容词典的匹配效率,在另一个实施例中,在对聊天信息分类后,还包括对聊天信息的文本处理过程,如图3所示:
步骤S51,从当前聊天信息中的读取一条聊天记录。
步骤S52,识别所述聊天记录的格式。
步骤S53,将非文本内容转化为文本内容。例如,当聊天记录为一段音视频时,通过语音识别,将音视频文件中的语音内容转化为文本内容。当聊天记录为一幅图像时,通过图像识别确定是否有文字内容,如果有,则从图像中提取出文字内容,如果没有,则忽略所述图像。
步骤S54,判断是否还有未识别的聊天记录,如果有,则返回步骤S51,如果没有,此时已得到了与原聊天记录顺序相同的聊天文本,则执行步骤S55。
步骤S55,对当前的聊天文本进行分词。
步骤S56,对分词后的文本进行停用词去除、同义词归并处理。
步骤S57,将当前处理完的文本与所述用户之前的聊天文本合并,从而得到所述用户的聊天信息群文本。
前述实施例中的标签内容词典记录的是用于表达求职者关注的、在简历或招聘信息中不会出现的信息的关注词,在本发明称为一类标签内容词典。在另一个实施例中,在另一种标签内容词典中记录可以在简历或招聘信息中提取到的同一类别的类别信息的关键词及与其应用的匹配内容,例如,类别关键词例如为“待遇”,对应的匹配内容例如分别为数字1-1,000,000等或xk/xw,x千/x万。其中的x为数字。类别关键词例如为“岗位|职位”,对应的匹配内容为招聘平台中设置的所有职位名称,如“销售”、“人事”等。这类词典在本发明中称为二类标签内容词典。虽然这类信息可以从简历或招聘信息中得到,但是随着时间的流逝、用户了解的信息量的增多,用户的意愿或需求很可能已发生变化,并不完全与简历/招聘信息相符。通过从当前聊天信息中捕捉到的这些信息来更新或补充原用户标签,使用户标签能够随着用户的需求、意愿的变化而更新,从而能够提高推荐的成功率。
因而,在本实施例中,在步骤S3中基于目标用户的类别对其聊天信息群进行本文分析时,具体如图4所示,包括以下步骤:
步骤S31a,从二类标签内容词典中获取一个类别关键词。
步骤S32a,将所述求职者聊天信息群的文本内容与所述类别关键词进行匹配。
步骤S33a,判断是否在聊天文本内容中匹配到所述类别关键词,如果匹配到,则执行步骤S34a,如果没有匹配到,则返回步骤S31a,读取另一个类别关键词进行匹配。
步骤S34a,获取与所述类别关键词对应的一个内容关键词。
步骤S35a,将所述求职者聊天信息群的文本内容与所述内容关键词进行匹配。
步骤S36a,判断是否在聊天文本内容中匹配到所述内容关键词,如果匹配到,则执行步骤S37a,如果没有匹配到,则返回步骤S34a,读取另一个内容关键词进行匹配。
步骤S37a,将所述类别关键词及对应的内容关键词作为第二关注信息。
步骤S38a,判断二类标签内容词典中是否还有类别关键词未匹配,如果有,则返回步骤S31a,如果二类标签内容词典中的类别关键词已经全部匹配完,则结束分析流程。
在另一个实施例中,为了提高匹配效率,在匹配之前,根据所述用户ID查询所述用户原有标签中的类别,在匹配时,先匹配与原有标签类别相同的类别关键词,如果没有匹配到相同类别的类别关键词,再与其他类别的关键词进行匹配。通过先缩小匹配范围来达到提交匹配效率的目的。
经过上述匹配得到第二关注信息后,在下一步骤中,根据第二关注信息生成第二类用户补充标签。其中,所述的用户补充标签结构为{类别:内容},例如{待遇:5k-10k}、{职位:前端工程师}等等。
当得到新的第二类用户补充标签后,将所述第二类用户补充标签与原有用户标签进行比较,当原有用户标签中与当前的第二类用户补充标签相同时,忽略所述第二类用户补充标签,如果所述第二类用户补充标签的类别与原有用户标签的类别相同时,以所述第二类用户补充标签更新对应的用户标签,即由新得到的第二类用户补充标签替换对应的原有用户标签。
另一方面,本发明还提供了一种用户标签生成系统,如图5所示,其为根据本发明一个实施例提供的用户标签生成系统原理框图。所述系统包括聊天信息读取模块1、分类模块2、分析模块3和标签生成模块4,其中,所述聊天信息读取模块1用于获取求职用户与招聘用户在招聘平台的在线聊天信息。当求职者与招聘者在招聘平台进行在线聊天时,所述在线聊天系统将聊天记录实时存储在数据库中特定的聊天记录文件中,并发送触发信息给本系统。本系统接收到该触发信息后,从触发信息中解析得到聊天记录文件名,根据所述聊天记录文件名在数据库中读取所述聊天记录文件内容,从而得到在线聊天信息。
所述分类模块2与所述聊天信息读取模块1相连接,分别基于求职用户和招聘用户对所述在线聊天信息分类,分别获得求职用户的聊天信息群和招聘用户的聊天信息群。例如,按照用户ID从聊天记录文件中读取出对应的聊天信息,当用户进行了多次聊天时,可合并多次聊天信息而得到每个用户的聊天信息群。根据所述用户为求职用户还是招聘用户,所述聊天信息分类成两大类。
所述分析模块3与所述分类模块2相连接,经配置以基于目标用户的类别对其聊天信息群进行本文分析,从所述聊天信息群中确定出目标用户的关注信息,其中,所述目标用户为求职用户和/或招聘用户。如图6所示,为根据本发明一个实施例的分析模块原理框图,在本实施例中,所述分析模块3包括词典选择单元31和匹配单元32,所述词典选择单元31基于目标用户类别获取对应的标签内容词典。在本发明中,所述的标签内容词典可以为一类标签内容词典,即所述标签内容词典包括用于表达对应类别用户关注信息的多个关注词。分为求职者词典和招聘者词典,根据目标用户类别选择相同类别的词典。在另一个实施例中,所述标签内容词典也可以是二类标签内容词典,记录可以在由简历或招聘信息中提取到的同一类别的类别信息的关键词及与其应用的匹配内容的内容关键词。所述匹配单元32与所述词典选择单元31相连接,将目标用户聊天信息群的文本内容与标签内容词典中的关注词进行匹配。其匹配过程如图2或图4所示,在此不再赘述。所述匹配单元32经过匹配后得到关注信息,并发送给标签生成模块4。在另一个实施例中,所述分析模块3还包括关注等级单元33,其与所述匹配单元32相连接,在所述匹配单元32采用一类标签内容词典进行匹配时,在匹配到了关注词时,统计匹配到的关注词在所述聊天信息群的文本内容中出现的次数,并基于所述次数确定用户对关注信息的关注等级,并将所述关注等级作为关注信息中的一个内容。
所述标签生成模块4与所述分析模块3相连接,经配置以基于所述关注信息生成目标用户的补充标签。在一个实施例中,如图7所示,所述标签生成模块4包括标签名称确定单元41和标签内容确定单元42,所述标签名称确定单元41根据关注信息的具体内容和标签生成规则,可以生成多种标签名称。例如,将与词语“关注”或其同义词、同义词组作为补充标签名称;或者将与词语“关注”或其同义词、同义词组作为补充标签的大类标签名称,将匹配到的关注词作为补充标签的小类标签名称。对应地,所述标签内容确定单元42与所述标签名称确定单元41,根据所述标签名称确定单元41采用的标签生成规则,生成对应的标签内容。例如,在与词语“关注”或其同义词、同义词组作为补充标签名称时,将匹配到的关注词作为对应的标签内容;在关注信息中包括有关注等级时,将匹配到的关注词作为对应的第一标签内容,将关注等级作为第二标签内容;在具有“关注”的大类标签名称和关注词作为小类标签名称时,将关注等级作为标签内容。
另外,在经过图4所示的过程得到第二关注信息时,标签名称确定单元41将第二关注信息中的类别关键词作为标签名称,所述标签内容确定单元42将第二关注信息中的内容关键词作为标签内容。
另外,所述系统还进一步包括预处理模块5,当经过分类模块4对聊天信息的分类后,将得到的分好类的聊天信息发送给预处理模块5,如图8所示,对聊天信息进行预处理以得到方便分析的文本内容。其中,所述预处理模块5包括以下单元中的一种或多种:文本转换单元51和文本预处理单元52。所述文本转换单元51将所述聊天信息群中的非文本内容转化为文本内容。例如将音视频信息中的语音转换为文字,从图像文件中识别出其中的文字等。所述文本预处理单元52对所述聊天信息群的文本进行分词、停用词去除、同义词归并处理以得到用于分析的聊天信息群文本内容。
图9是根据本发明一个实施例的标签生成系统原理图。在本实施例中,还包括标签合并模块6,所述标签合并模块6在接收标签生成模块4生成的用户补充标签时,根据目标用户ID得到原有用户标签。当标签生成模块4生成的是第一类用户补充标签时,所述标签合并模块6将其直接存储到标签库7中,当然,标签生成模块4在生成第一类用户补充标签时,可以直接将其存储到标签库7中。当标签生成模块4生成的是第二类用户补充标签,所述标签合并模块6将第二类用户补充标签与原有用户标签进行比较,当原有用户标签中与当前的第二类用户补充标签相同时,忽略所述第二类用户补充标签,如果所述第二类用户补充标签的类别与原有用户标签的类别相同时,以所述第二类用户补充标签更新对应的用户标签,即由新得到的第二类用户补充标签替换对应的原有用户标签,并存储到标签库7中。
本发明利用招聘平台提供的聊天功能获得求职者与招聘者的聊天信息,以此为信息源,不但能够从中得到用户关注的、原简历或招聘信息中没有的信息,而且能够及时发现用户变更的意图,从而使得职位/求职者的推荐时使用的信息更加全面、更贴近用户的真实意图,从而有效地提高了推荐的成功率。
上述实施例仅供说明本发明之用,而并非是对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明范围的情况下,还可以做出各种变化和变型,因此,所有等同的技术方案也应属于本发明公开的范畴。
Claims (12)
1.一种用户标签生成方法,包括:
获取求职用户与招聘用户在招聘平台的在线聊天信息;
分别基于求职用户和招聘用户对所述在线聊天信息分类,分别获得求职用户的聊天信息群和招聘用户的聊天信息群;
基于目标用户的类别对其聊天信息群进行本文分析,从所述聊天信息群中确定出目标用户的关注信息,其中,所述目标用户为求职用户和/或招聘用户;以及
基于所述关注信息生成目标用户的补充标签。
2.根据权利要求1所述的方法,其中从所述聊天信息群中确定出目标用户的关注信息的步骤包括:
基于目标用户类别获取对应的标签内容词典,所述标签内容词典包括用于表达对应类别用户关注信息的多个关注词;
将目标用户聊天信息群的文本内容与标签内容词典中的关注词进行匹配;以及
将匹配到的关注词确定为目标用户的关注信息。
3.根据权利要求2所述的方法,其中进一步包括:
统计匹配到的关注词在所述聊天信息群的文本内容中出现的次数;以及
基于所述次数确定用户对关注信息的关注等级,其中,所述关注信息包括关注词及其关注等级。
4.根据权利要求2或3所述的方法,其中,所述目标用户补充标签包括补充标签名称和对应的标签内容,其中,根据所述关注信息分别生成补充标签名称和相应的标签内容。
5.根据权利要求4所述的方法,其中根据所述关注信息分别生成补充标签名称和相应的标签内容的步骤进一步包括:
将词语“关注”或其同义词、同义词组作为补充标签名称;以及
将匹配到的关注词作为对应的标签内容,或者将匹配到的关注词作为对应的第一标签内容,将关注等级作为第二标签内容。
6.根据权利要求4所述的方法,其中根据所述关注信息分别生成补充标签名称和相应的标签内容的步骤进一步包括:
将词语“关注”或其同义词、同义词组作为补充标签的大类标签名称;
将匹配到的关注词作为补充标签的小类标签名称;以及
将关注等级作为标签内容。
7.根据权利要求1所述的方法,其中在对所述聊天信息群进行本文分析之前进一步包括以下步骤:
将所述聊天信息群中的非文本内容转化为文本内容;
对所述聊天信息群的文本分词;以及
对分词后的文本进行停用词去除、同义词归并处理以得到用于分析的文本内容。
8.一种用户标签生成系统,其中包括:
聊天信息读取模块,经配置以获取求职用户与招聘用户在招聘平台的在线聊天信息;
分类模块,其与所述聊天信息读取模块相连接,经配置以分别基于求职用户和招聘用户对所述在线聊天信息分类,分别获得求职用户的聊天信息群和招聘用户的聊天信息群;
分析模块,其与所述分类模块相连接,经配置以基于目标用户的类别对其聊天信息群进行本文分析,从所述聊天信息群中确定出目标用户的关注信息,其中,所述目标用户为求职用户和/或招聘用户;以及
标签生成模块,其与所述分析模块相连接,经配置以基于所述关注信息生成目标用户的补充标签。
9.根据权利要求8所述的系统,其中所述分析模块包括:
词典选择单元,经配置以基于目标用户类别获取对应的标签内容词典,所述标签内容词典包括用于表达对应类别用户关注信息的多个关注词;和
匹配单元,其与所述词典选择单元相连接,经配置将目标用户聊天信息群的文本内容与标签内容词典中的关注词进行匹配。
10.根据权利要求9所述的系统,其中,所述分析模块还包括关注等级单元,其与所述匹配单元相连接,经配置以统计匹配到的关注词在所述聊天信息群的文本内容中出现的次数,并基于所述次数确定用户对关注信息的关注等级。
11.根据要利要求10所述的系统,其中,所述标签生成模块包括:
标签名称确定单元,经配置以将词语“关注”或其同义词、同义词组作为补充标签名称;或者将词语“关注”或其同义词、同义词组作为补充标签的大类标签名称,将匹配到的关注词作为补充标签的小类标签名称;以及
标签内容确定单元,经配置将匹配到的关注词作为对应的标签内容;或者将匹配到的关注词作为对应的第一标签内容,将关注等级作为第二标签内容;或者将关注等级作为标签内容。
12.根据权利要求8所述的系统,其中进一步包括预处理模块,经配置以包括以下单元中的一种或多种:
文本转换单元,经配置以将所述聊天信息群中的非文本内容转化为文本内容;
文本预处理单元,经配置以对所述聊天信息群的文本进行分词、停用词去除、同义词归并处理以得到用于分析的聊天信息群文本内容。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210277838.XA CN114691869A (zh) | 2022-03-16 | 2022-03-16 | 一种用户标签生成方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210277838.XA CN114691869A (zh) | 2022-03-16 | 2022-03-16 | 一种用户标签生成方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114691869A true CN114691869A (zh) | 2022-07-01 |
Family
ID=82139642
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210277838.XA Pending CN114691869A (zh) | 2022-03-16 | 2022-03-16 | 一种用户标签生成方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114691869A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115170094A (zh) * | 2022-09-07 | 2022-10-11 | 泰盈科技集团股份有限公司 | 大数据人工智能招聘系统及方法 |
CN116821523A (zh) * | 2023-08-30 | 2023-09-29 | 山西合力思创科技股份有限公司 | 一种人员匹配逻辑校验方法、装置、电子设备及存储介质 |
-
2022
- 2022-03-16 CN CN202210277838.XA patent/CN114691869A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115170094A (zh) * | 2022-09-07 | 2022-10-11 | 泰盈科技集团股份有限公司 | 大数据人工智能招聘系统及方法 |
CN115170094B (zh) * | 2022-09-07 | 2022-11-29 | 泰盈科技集团股份有限公司 | 大数据人工智能招聘系统及方法 |
CN116821523A (zh) * | 2023-08-30 | 2023-09-29 | 山西合力思创科技股份有限公司 | 一种人员匹配逻辑校验方法、装置、电子设备及存储介质 |
CN116821523B (zh) * | 2023-08-30 | 2023-11-24 | 山西合力思创科技股份有限公司 | 一种人员匹配逻辑校验方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109947909B (zh) | 智能客服应答方法、设备、存储介质及装置 | |
CN108885623B (zh) | 基于知识图谱的语意分析系统及方法 | |
CN111400607B (zh) | 搜索内容输出方法、装置、计算机设备及可读存储介质 | |
CN110929125B (zh) | 搜索召回方法、装置、设备及其存储介质 | |
CN114691869A (zh) | 一种用户标签生成方法和系统 | |
CN104376010B (zh) | 用户推荐方法和装置 | |
Cortez et al. | Ondux: on-demand unsupervised learning for information extraction | |
CN114238573B (zh) | 基于文本对抗样例的信息推送方法及装置 | |
Gaglani et al. | Unsupervised whatsapp fake news detection using semantic search | |
CN116628173B (zh) | 一种基于关键字提取的智能客服信息生成系统及生成方法 | |
CN111782793A (zh) | 智能客服处理方法和系统及设备 | |
CN113821605A (zh) | 一种事件抽取方法 | |
CN111368138A (zh) | 视频类别标签的排序方法、装置、电子设备及存储介质 | |
CN111814486A (zh) | 一种基于语义分析的企业客户标签生成方法、系统及装置 | |
CN115577172A (zh) | 物品推荐方法、装置、设备及介质 | |
CN111368066B (zh) | 获取对话摘要的方法、装置和计算机可读存储介质 | |
CN110413770B (zh) | 将群消息归类到群话题的方法及装置 | |
CN116303951A (zh) | 对话处理方法、装置、电子设备和存储介质 | |
KR20130073709A (ko) | 영상 및 음성 정보를 이용한 명함 인식 방법 및 장치 | |
CN110941713A (zh) | 基于主题模型的自优化金融资讯版块分类方法 | |
CN115718807A (zh) | 人员关系分析方法、装置、设备及存储介质 | |
CN113177164B (zh) | 基于大数据的多平台协同新媒体内容监控管理系统 | |
CN112883183B (zh) | 构建多分类模型的方法、智能客服方法和相关装置及系统 | |
CN109918583B (zh) | 一种任务信息处理方法及装置 | |
CN113704549A (zh) | 视频标签的确定方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |