CN107967256A - 词语权重预测模型生成方法、职位推荐方法及计算设备 - Google Patents
词语权重预测模型生成方法、职位推荐方法及计算设备 Download PDFInfo
- Publication number
- CN107967256A CN107967256A CN201711122651.8A CN201711122651A CN107967256A CN 107967256 A CN107967256 A CN 107967256A CN 201711122651 A CN201711122651 A CN 201711122651A CN 107967256 A CN107967256 A CN 107967256A
- Authority
- CN
- China
- Prior art keywords
- word
- title
- position title
- sequence
- term
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Abstract
本发明公开了一种用于对职位标题中的词语进行权重预测的词语权重预测模型生成方法、职位推荐方法及计算设备,词语权重预测模型生成方法包括:获取预先收集的职位标题训练集,职位标题训练集包括多个职位标题,每个职位标题关联有对应的分词序列,分词序列包括对职位标题分词处理后获取的一个或多个词语;对每一个职位标题,获取其关联的分词序列中各词语的词特征;计算各职位标题所关联的分词序列中各词语的标记权重;构建逻辑回归模型;以各职位标题所关联的分词序列中各词语的词特征为输入,以相应的标记权重为输出,对逻辑回归模型进行训练以生成词语权重预测模型,词语权重预测模型的输出指示输入的职位标题中各词语的预测权重。
Description
技术领域
本发明涉及互联网技术领域,特别涉及一种用于对职位标题中的词语进行权重预测的词语权重预测模型生成方法、职位推荐方法及计算设备。
背景技术
随着互联网技术的快速发展,越来越多的人开始享受互联网为工作和生活带来的各种便利。以传统的招聘行业为例,现在人们可以通过招聘网站来搜索自己感兴趣的公司、职位等加以了解,进而选择是否投递简历或与用人单位联系。
当用户在招聘网站的搜索页面键入搜索词后,搜索导航能帮助用户在海量的工作岗位中快速找到需要的职位信息,并按照一定的顺序将各职位信息推荐给用户。目前,主流的职位推荐方法多是通过计算搜索词与职位信息之间的相关度,按照相关度从高到低的顺序将对应的职位信息反馈给用户,而用户一般都是优先浏览排在前面的职位信息,对后面的职位信息容易忽视,这就要求相关度计算的准确性高且耗时短,然而现有的职位推荐方法在这方面存在较大缺失。
发明内容
为此,本发明提供一种用于对职位标题中的词语进行权重预测的词语权重预测模型生成方案,并提出了基于该词语权重预测模型的职位推荐方案,以力图解决或者至少缓解上面存在的问题。
根据本发明的一个方面,提供一种用于对职位标题中的词语进行权重预测的词语权重预测模型生成方法,适于在计算设备中执行,该方法包括如下步骤:首先,获取预先收集的职位标题训练集,职位标题训练集包括多个职位标题,每个职位标题关联有对应的分词序列,分词序列包括对职位标题分词处理后获取的一个或多个词语;对每一个职位标题,获取其关联的分词序列中各词语的词特征;计算各职位标题所关联的分词序列中各词语的标记权重;构建用于预测词语权重的逻辑回归模型;以各职位标题所关联的分词序列中各词语的词特征为输入,以相应的标记权重为输出,对逻辑回归模型进行训练以生成词语权重预测模型,词语权重预测模型的输出指示输入的职位标题中各词语的预测权重。
可选地,在根据本发明的用于对职位标题中的词语进行权重预测的词语权重预测模型生成方法中,词特征包括词元特征、序次特征、概率特征和关联特征。
可选地,在根据本发明的用于对职位标题中的词语进行权重预测的词语权重预测模型生成方法中,词元特征包括当前词语的词向量、是否为英文、是否为纯数字、是否为公司名称、是否为地名和词语全局权重。
可选地,在根据本发明的用于对职位标题中的词语进行权重预测的词语权重预测模型生成方法中,序次特征包括当前词语在其所属分词序列中的序次,以及该分词序列包含的词语数量。
可选地,在根据本发明的用于对职位标题中的词语进行权重预测的词语权重预测模型生成方法中,概率特征包括当前词语接收相邻的上一个词语转移的概率,以及从当前词语转移到相邻的下一个词语的概率。
可选地,在根据本发明的用于对职位标题中的词语进行权重预测的词语权重预测模型生成方法中,关联特征包括与当前词语相邻的上一个词语及下一个词语的词元特征。
可选地,在根据本发明的用于对职位标题中的词语进行权重预测的词语权重预测模型生成方法中,计算各职位标题所关联的分词序列中各词语的标记权重的步骤包括:对各职位标题所关联的分词序列中的每一个词语,获取在预设的第一时间段内、该词语被搜索后点击其所对应的职位标题的用户数量;对每一个职位标题所关联的分词序列,统计该分词序列中所有词语的用户数量之和作为用户总量,分别计算该分词序列的各词语的用户数量与用户总量之商,作为各词语的标记权重。
根据本发明的又一个方面,提供一种职位推荐方法,适于在计算设备中执行,计算设备包括数据存储装置,数据存储装置中存储有用于对职位标题中的词语进行权重预测的词语权重预测模型生成方法中、训练好的词语权重预测模型,以及职位标题数据集,职位标题数据集包括多个第一职位标题,该方法包括如下步骤:首先,获取当前用户输入的第一待处理搜索词;对第一待处理搜索词及各第一职位标题进行文本预处理,以获取对应的第二待处理搜索词及各第二职位标题;对第二待处理搜索词和各第二职位标题进行分词处理,以生成相应的第一搜索词序列及各第一标题词序列,第一搜索词序列包括对第一待处理搜索词分词处理后获取的一个或多个词语,第一标题词序列包括对第二职位标题分词处理后获取的一个或多个词语;基于训练好的词语权重预测模型,分别计算第一搜索词序列和各第一标题词序列中各词语的预测权重;根据各词语的预测权重,计算第一待处理搜索词与各第一职位标题的相似度,按照相似度从高到低的顺序将各第一职位标题推荐给用户。
可选地,在根据本发明的职位推荐方法中,对第一待处理搜索词及各第一职位标题进行文本预处理,以获取对应的第二待处理搜索词及各第二职位标题的步骤包括:对第一待处理搜索词及各第一职位标题进行文本清洗;对文本清洗后的第一待处理搜索词及各第一职位标题进行同义扩展,以获取对应的第二待处理搜索词及各第二职位标题。
可选地,在根据本发明的职位推荐方法中,数据存储装置中还存储有同义扩展词库,同义扩展词库包括多个同义词对,每个同义词对包括待处理词及与其对应的同义词,对文本清洗后的第一待处理搜索词及各第一职位标题进行同义扩展,以获取对应的第二待处理搜索词及各第二职位标题的步骤包括:从同义扩展词库中查找与文本清洗后的第一待处理搜索词相同的待处理词,将查找到的待处理词对应的同义词作为第二待处理搜索词;对每一个文本清洗后的第一职位标题,从同义扩展词库中查找与其相同的待处理词,将查找到的待处理词对应的同义词作为该第一职位标题对应的第二职位标题。
可选地,在根据本发明的职位推荐方法中,对第二待处理搜索词和各第二职位标题进行分词处理,以生成相应的搜索词序列及各标题词序列的步骤包括:对第二待处理搜索词进行粗粒度分词,以获取相应的第二搜索词序列,第二搜索词序列包括对该第二待处理搜索词进行粗粒度分词后获取的一个或多个词语;对第二搜索词序列中的一个或多个词语进行命名实体识别,以获取具有职位特性的词语;对该具有职位特性的词语进行细粒度分词,结合第二搜索词序列生成与第二待处理搜索词对应的第一搜索词序列。
可选地,在根据本发明的职位推荐方法中,对第二待处理搜索词和各第二职位标题进行分词处理,以生成相应的搜索词序列及各标题词序列的步骤包括:对每一个第二职位标题,进行粗粒度分词以获取该第二职位标题相应的第二标题词序列,第二标题词序列包括对该第二职位标题进行粗粒度分词后获取的一个或多个词语;对该第二标题序列中的一个或多个词语进行命名实体识别,以获取具有职位特性的词语;对该具有职位特性的词语进行细粒度分词,结合该第二标题词序列生成与该第二职位标题对应的第一标题词序列。
可选地,在根据本发明的职位推荐方法中,基于训练好的词语权重预测模型,分别计算第一搜索词序列和各第一标题词序列中各词语的预测权重的步骤包括:获取第一搜索词序列和各第一标题词序列中各词语的词特征;将第一搜索词序列中各词语的词特征输入到训练好的词语权重预测模型中,以获取该第一搜索词序列中各词语的预测权重;对每一个第一标题词序列,将该第一标题词序列中各词语的词特征输入到训练好的词语权重预测模型中,以获取该第一标题词序列中各词语的预测权重。
可选地,在根据本发明的职位推荐方法中,在根据各词语的预测权重,计算第一待处理搜索词与各第一职位标题的相似度的步骤之前,还包括:获取第一搜索词序列中预测权重最大的词语作为第一待处理搜索词的核心词;对每一个第一标题词序列,若该第一标题词序列中预测权重最大的词语与核心词相同或等同,则保留该第一标题词序列对应的第一职位标题,否则删除该第一标题词序列对应的第一职位标题。
可选地,在根据本发明的职位推荐方法中,还包括:对每一个第二职位标题,判断第二待处理搜索词与该第二职位标题之间的结构关系;若该结构关系满足预设的相似度计算规则,则根据该相似度计算规则确定第二待处理搜索词与该第二职位标题的相似度,将该相似度作为第一待处理搜索词与该第二职位标题所对应第一职位标题的相似度。
可选地,在根据本发明的职位推荐方法中,还包括预先生成同义扩展词库,预先生成同义扩展词库的步骤包括:获取搜索时间在预设的第二时间段内的各搜索词,以及各搜索词被搜索后点击的一个或多个职位标题;对每一个获取到的搜索词,将该搜索词作为待处理词,并分别与其对应的一个或多个职位标题进行关联,以形成一个或多个同义词候选集;对每一个同义词候选集,计算该同义词候选集中的待处理词和职位标题相应的统计特征,以作为统计分析结果;若该统计分析结果指示该同义词候选集满足预设的统计规则,则将该同义词候选集中的职位标题记为与待处理词对应的同义词,将该同义词候选集作为同义词对进行存储。
根据本发明的又一个方面,提供一种计算设备,包括一个或多个处理器、存储器以及一个或多个程序,其中一个或多个程序存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序包括用于执行根据本发明的用于对职位标题中的词语进行权重预测的词语权重预测模型生成方法和/或根据本发明的职位推荐方法的指令。
根据本发明的又一个方面,还提供一种存储一个或多个程序的计算机可读存储介质,一个或多个程序包括指令,指令当由计算设备执行时,使得计算设备执行根据本发明的用于对职位标题中的词语进行权重预测的词语权重预测模型生成方法和/或根据本发明的职位推荐方法。
根据本发明的用于对职位标题中的词语进行权重预测的词语权重预测模型生成的技术方案,首先,对职位标题训练集中的每一个职位标题,获取其关联的分词序列中各词语的词特征及标记权重,构建逻辑回归模型,并以各职位标题所关联的分词序列中各词语的词特征为输入,以相应的标记权重为输出,对该逻辑回归模型进行训练以生成词语权重预测模型。在上述技术方案中,用于训练模型所输入的词特征包括词元特征、序次特征、概率特征和关联特征,涵盖了一个词语自身的特性以及其在所属的分词序列中与其他词语的关联属性,而作为输入数据的标记权重,是以词语被搜索后点击其所对应的职位标题的用户数量为基础计算得出的,基于上述输入-输出的对应关系能够更好、更全面地训练模型,以便提供精准度更高的词语权重预测结果。
进而,根据本发明的职位推荐的技术方案,对用户输入的第一待处理搜索词及各第一职位标题进行文本预处理,以获取对应的第二待处理搜索词及各第二职位标题,再分别进行分词处理,以生成相应的第一搜索词序列及各第一标题词序列,基于训练好的词语权重预测模型,分别计算第一搜索词序列和各第一标题词序列中各词语的预测权重,根据各词语的预测权重,计算第一待处理搜索词与各第一职位标题的相似度,按照相似度从高到低的顺序将各第一职位标题推荐给用户。在上述技术方案中,文本预处理包括文本清洗和同义扩展,在剔除冗余信息的同时又扩展相近词义的内容,并通过先粗粒度分词后细粒度分词的双重分词手段提高了所切分出词语的准确度,便于后续预测权重和相似度计算的处理。此外,在计算相似度时,若第二待处理搜索词与第二职位标题之间的结构关系满足预设的相似度计算规则,则直接按照该规则确定第一待处理搜索词与该第二职位标题所对应第一职位标题的相似度,无需重新计算,进一步节约了时间成本。相反,若不满足,则将第一搜索词序列和各第一标题词序列中各词语的词特征输入到训练好的词语权重预测模型中,以计算出相应的预测权重,再利用各词语的预测权重来计算第一待处理搜索词与各第一职位标题的相似度,从而提升相似度计算的准确率。
附图说明
为了实现上述以及相关目的,本文结合下面的描述和附图来描述某些说明性方面,这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述,本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开,相同的附图标记通常指代相同的部件或元素。
图1示出了根据本发明的一个实施例的计算设备100的示意图;
图2示出了根据本发明的一个实施例的用于对职位标题中的词语进行权重预测的词语权重预测模型生成方法200的流程图;
图3示出了根据本发明的一个实施例的职位推荐方法300的流程图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1是示例计算设备100的框图。在基本的配置102中,计算设备100 典型地包括系统存储器106和一个或者多个处理器104。存储器总线108可以用于在处理器104和系统存储器106之间的通信。
取决于期望的配置,处理器104可以是任何类型的处理,包括但不限于:微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器104可以包括诸如一级高速缓存110和二级高速缓存112之类的一个或者多个级别的高速缓存、处理器核心114和寄存器116。示例的处理器核心114可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器118可以与处理器104一起使用,或者在一些实现中,存储器控制器118可以是处理器104的一个内部部分。
取决于期望的配置,系统存储器106可以是任意类型的存储器,包括但不限于:易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。系统存储器106可以包括操作系统120、一个或者多个程序122以及程序数据124。在一些实施方式中,程序122可以布置为在操作系统上由一个或多个处理器104利用程序数据124执行指令。
计算设备100还可以包括有助于从各种接口设备(例如,输出设备142、外设接口144和通信设备146)到基本配置102经由总线/接口控制器130的通信的接口总线140。示例的输出设备142包括图形处理单元148和音频处理单元150。它们可以被配置为有助于经由一个或者多个A/V端口152与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口144可以包括串行接口控制器154和并行接口控制器156,它们可以被配置为有助于经由一个或者多个I/O端口158和诸如输入设备(例如,键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备146可以包括网络控制器160,其可以被布置为便于经由一个或者多个通信端口164与一个或者多个其他计算设备162 通过网络通信链路的通信。
网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块,并且可以包括任何信息递送介质。“调制数据信号”可以这样的信号,它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例,通信介质可以包括诸如有线网络或者专线网络之类的有线介质,以及诸如声音、射频(RF)、微波、红外(IR) 或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。
计算设备100可以实现为服务器,例如文件服务器、数据库服务器、应用程序服务器和WEB服务器等,也可以实现为小尺寸便携(或者移动)电子设备的一部分,这些电子设备可以是诸如蜂窝电话、个人数字助理(PDA)、个人媒体播放器设备、无线网络浏览设备、个人头戴设备、应用专用设备、或者可以包括上面任何功能的混合设备。计算设备100还可以实现为包括桌面计算机和笔记本计算机配置的个人计算机。
在一些实施例中,计算设备100实现为网络服务器,并被配置为执行根据本发明的用于对职位标题中的词语进行权重预测的词语权重预测模型生成方法和/或职位推荐方法。其中,计算设备100的一个或多个程序122包括用于执行根据本发明的用于对职位标题中的词语进行权重预测的词语权重预测模型生成方法200和/或职位推荐方法300的指令。
图2示出了根据本发明一个实施例的用于对职位标题中的词语进行权重预测的词语权重预测模型生成方法200的流程图。用于对职位标题中的词语进行权重预测的词语权重预测模型生成方法200适于在计算设备(例如图1 所示的计算设备100)中执行。
如图2所示,方法200始于步骤S210。在步骤S210中,获取预先收集的职位标题训练集,职位标题训练集包括多个职位标题,每个职位标题关联有对应的分词序列,分词序列包括对职位标题分词处理后获取的一个或多个词语。根据本发明的一个实施例,职位标题训练集中收集有61684个职位标题,每个职位标题关联有对应的分词序列,比如职位标题A1关联有对应的分词序列B1,其中职位标题A1为java开发工程师,则分词序列B1为[java,开发,工程师],其中java、开发和工程师为对职位标题A1分词处理后获取的3个词语。关于对职位标题训练集中的各职位标题进行分词处理的具体方法,可参照现有的分词技术,这些对于了解本发明方案的技术人员来说是可以容易想到的,并且也在本发明的保护范围之内,此处不予以赘述。
随后,进入步骤S220,对每一个职位标题,获取其关联的分词序列中各词语的词特征。根据本发明的一个实施例,词特征包括词元特征、序次特征、概率特征和关联特征,以下将以与职位标题A1关联的分词序列B1为例进行词特征的相关说明。
在该实施方式中,词元特征包括当前词语的词向量、是否为英文、是否为纯数字、是否为公司名称、是否为地名和词语全局权重。具体的,词向量为一个词语在词语集合中的索引标识,比如职位标题训练集中61684个职位标题经过分词处理后,得到的词语共计12000个,将这12000个词语形成词语集合并对各词语进行索引标记,按序标记的词语的索引依次为0、1、2、…、 11999,则分词序列B1中的词语java、开发和工程师的索引分别为0、1和2,再将各词语的索引以独热码(One-Hot Code)表示以作为对应的索引标识,最后可得词语java、开发和工程师的词向量分别为[1,0,0,0,…,0]、[0,1, 0,0,…,0]和[0,0,1,0,…,0],每个词向量的长度均为12000。词语全局权重则是根据词语搜索频次与词语出现最高频次计算得出的,词语搜索频次为一个词语被用户搜索的次数,只要该词语包含于用户输入的搜索词中即可认为该词语被用户搜索过,而词语出现最高频次为一个词语在搜索出后被点击过的职位标题中出现的次数,基于此,词语全局权重的计算公式如下:
由此可得,词语java、开发和工程师的词语全局权重依次为0.9、0.2和 0.3。需要说明的是,计算词语全局权重时,统计词语搜索频次和词语出现最高频次的时间跨度优选为以当前时间往前推算30天的期间,其中涉及到的职位标题为搜索出来后用户执行了点击操作的标题。由上可得分词序列B1所包括的java、开发和工程师这三个词语的词元特征依次为{[1,0,0,0,…,0], 1,0,0,0,0.9}、{[0,1,0,0,…,0],0,0,0,0,0.2}和{[0,0,1,0,…,0],0,0,0,0,0.3}。
序次特征包括当前词语在其所属分词序列中的序次,以及该分词序列包含的词语数量。对分词序列B1所包括的java、开发和工程师这三个词语来说,词语java在分词序列B1中的序次为1,词语开发在分词序列B1中的序次为 2,词语工程师在分词序列B1中的序次为3,而分词序列B1所包含的词语数量为3,则词语java、开发和工程师的序次特征依次为{1,3}、{2,3}和{3, 3}。
概率特征包括当前词语接收相邻的上一个词语转移的概率,以及从当前词语转移到相邻的下一个词语的概率。以分词序列B1为例,在统计时,词语 java到开发的发射转移频次加1,词语开发到工程师的发射转移频次加1,同理,词语开发接收java的转移频次加1,词语工程师接收开发的转移频次加1,根据这一方式对各职位标题关联的分词序列进行概率特征的统计,可得:
词语java发射转移汇总:java→[开发:100,高级:30,…]
词语java发射转移概率:java→[开发:0.71,高级:0.21,…]
词语开发接收转移汇总:[java:100,php:70,架构:10,…]→开发
词语开发接收转移概率:[java:0.50,php:0.35,架构:0.05,…]→开发
词语开发发射转移汇总:开发→[工程师:90,主管:30,…]
词语开发发射转移概率:开发→[工程师:0.60,主管:0.20,…]
词语工程师接收转移汇总:[开发:90,测试:10,…]→工程师
词语工程师接收转移概率:[开发:0.75,测试:0.08,…]→工程师
考虑到在分词序列B1中,词语java没有相邻的上一个词语,而词语工程师没有相邻的下一个词语,将相应的转移概率记为0,得出分词序列B1中词语java、开发和工程师的概率特征依次为{0,0.71}、{0.50,0.60}和{0.75,0}。
关联特征包括与当前词语相邻的上一个词语及下一个词语的词元特征,但分词序列B1包括的词语java没有相邻的上一个词语,词语工程师没有相邻的下一个词语,直接将词语java的关联特征中与其相邻的上一个词语的词元特征全置为0,将词语工程师的关联特征中与其相邻的下一个词语的词元特征全置为0。则分词序列B1中词语java、开发和工程师的关联特征依次为{全为 0的词元特征、词语开发的词元特征}、{词语java的词元特征、词语工程师的词元特征}和{词语开发的词元特征、全为0的词元特征}。
接下来,在步骤S230中,计算各职位标题所关联的分词序列中各词语的标记权重。根据本发明的一个实施例,可以通过如下方式来计算分词序列中词语的标记权重。首先,对各职位标题所关联的分词序列中的每一个词语,获取在预设的第一时间段内、该词语被搜索后点击其所对应的职位标题的用户数量,然后对每一个职位标题所关联的分词序列,统计该分词序列中所有词语的用户数量之和作为用户总量,分别计算该分词序列的各词语的用户数量与用户总量之商,作为各词语的标记权重。其中,第一时间段预设为以当前时间往前推算30天的期间。
在该实施方式中,对职位标题A1所关联的分词序列B1中的词语java、开发和工程师,获取30天内各词语被搜索后点击职位标题A1的用户数量。假设对于职位标题A1,有3个用户搜索“java”后点击了A1,2个用户搜索“开发”后点击了A1,1个用户搜索“工程师”后点击了A1,2个用户搜索“java开发”后点击了A1,1个用户搜索“java开发工程师”后点击了A1,还有4个用户搜索其他词语后点击了A1,则认定3+2+1=6个用户因为对“java”感兴趣而点击了A1,2+2+1=5个用户因为对“开发”感兴趣而点击了A1,1+1=2 个用户因为对“java”感兴趣而点击了A1,则30天内词语java、开发和工程师被搜索后点击职位标题A1的用户数量分别为6、5和2。此时,统计分词序列B1中所有词语的用户数量之和作为用户总量,可得用户总量为6+5+2=13,再分别计算词语java、开发和工程师的用户数量与用户总量之商,作为相应的标记权重,得到词语java、开发和工程师的标记权重依次为6/13=0.46、5/ 13=0.39和2/13=0.15。
在步骤S240中,构建用于预测词语权重的逻辑回归模型。根据本发明的一个实施例,逻辑回归模型的构建可参考现有的LR(Logistic Regression,逻辑回归)模型来实现,此处不予以赘述。在构建好逻辑回归模型后,执行步骤S250,以各职位标题所关联的分词序列中各词语的词特征为输入,以相应的标记权重为输出,对逻辑回归模型进行训练以生成词语权重预测模型,词语权重预测模型的输出指示输入的职位标题中各词语的预测权重。根据本发明的一个实施例,将职位标题A1所关联的分词序列B1中词语java、开发和工程师的词特征作为输入,以相应的标记权重0.46、0.39和0.15为输出,对步骤S240中构建好的逻辑回归模型进行训练。由于通过独热码的形式表示词语本身,因此词语的词向量是非常高维且稀疏的,为了降低内存负担和计算复杂度,通常采用在线学习或者Mini-Batch的方式训练逻辑回归模型,并在训练时加入正则项。在利用职位标题训练集中各职位标题所关联的分词序列中、各词语的词特征及标记权重完成模型训练后,将训练好的逻辑回归模型作为词语权重预测模型并进行存储。
图3示出了根据本发明一个实施例的职位推荐方法300的流程图。职位推荐方法300适于在计算设备(例如图1所示的计算设备100)中执行,计算设备100包括数据存储装置(图中未示出),数据存储装置中存储有用于对职位标题中的词语进行权重预测的词语权重预测模型生成方法中、训练好的词语权重预测模型,以及职位标题数据集,职位标题数据集包括多个第一职位标题。根据本发明的一个实施例,职位标题数据集为当前在线提供的所有职位信息对应的标题集合,为便于描述,假定职位标题数据集中包括5个第一职位标题,分别是java开发工程师、java初级-北京、javascript、UI设计和 UI工程师(高薪),依次记为R1、R2、R3、R4和R5。
如图3所示,方法300始于步骤S310,首先获取当前用户输入的第一待处理搜索词。根据本发明的一个实施例,当前用户输入的第一待处理搜索词为java高级(急招),将其记为S1。
随后,进入步骤S320,对第一待处理搜索词及各第一职位标题进行文本预处理,以获取对应的第二待处理搜索词及各第二职位标题。根据本发明的一个实施例,可通过如下方式进行文本预处理。首先,对第一待处理搜索词及各第一职位标题进行文本清洗。在该实施方式中,文本清洗主要涵盖以下内容:
大写转小写:“Java”→“java”
全角字符转半角字符:“!”→“!”
各种括号内容删除:“java[急招]”→“java”
去除非数字、英文字母、英文标点、汉字的统一码(Unicode):如“★”
敏感词检测:“找小姐”等
HTML转义:“&;”→“&”
拼音转化:“pingmiansheji”→“平面设计”
纠错:“androd”→“android”
完成文本清洗处理后的第一待搜索词S1为java高级,第一职位标题R1~ R5依次为java开发工程师、java初级北京、javascript、ui设计和ui工程师。进而,对文本清洗后的第一待处理搜索词及各第一职位标题进行同义扩展,以获取对应的第二待处理搜索词及各第二职位标题。在该实施方式中,数据存储装置中还存储有同义扩展词库,同义扩展词库包括多个同义词对,每个同义词对包括待处理词及与其对应的同义词,在同义扩展时,先从同义扩展词库中查找与文本清洗后的第一待处理搜索词相同的待处理词,将查找到的待处理词对应的同义词作为第二待处理搜索词,再对每一个文本清洗后的第一职位标题,从同义扩展词库中查找与其相同的待处理词,将查找到的待处理词对应的同义词作为该第一职位标题对应的第二职位标题。
以文本清洗后的第一待处理搜索词S1为例,从同义扩展词库中查找与其相同的待处理词,此时查找到内容为java高级的待处理词,该待处理词所形成的同义词对为[java高级,java高级开发工程师],其中java高级开发工程师即为该待处理词对应的同义词,将该同义词作为第二待处理搜索词,得到第二待处理搜索词为java高级开发工程师,将其记为S2。基于此,可得文本清洗后的第一职位标题R1~R5所对应的第二职位标题依次为java初级开发工程师北京、js开发工程师、ui设计师,ui工程师,分别记为T1、T2、T3、T4 和T5。值得注意的是,同义扩展词库是预先生成的,在后续部分将进行详细说明,此处暂且不表。
在步骤S330中,对第二待处理搜索词和各第二职位标题进行分词处理,以生成相应的第一搜索词序列及各第一标题词序列,第一搜索词序列包括对第一待处理搜索词分词处理后获取的一个或多个词语,第一标题词序列包括对第二职位标题分词处理后获取的一个或多个词语。根据本发明的一个实施例,可通过如下方式生成与第二待处理搜索词相应的第一搜索词序列。首先,对第二待处理搜索词进行粗粒度分词,以获取相应的第二搜索词序列,第二搜索词序列包括对该第二待处理搜索词进行粗粒度分词后获取的一个或多个词语,然后对第二搜索词序列中的一个或多个词语进行命名实体识别,以获取具有职位特性的词语,最后对该具有职位特性的词语进行细粒度分词,结合第二搜索词序列生成与第二待处理搜索词对应的第一搜索词序列。
在该实施方式中,粗粒度分词主要用于命名实体识别,通过词元标识来对第二待处理搜索词进行切词,其中命名实体包括公司、行业、职位、职级、专业、学校和/或层次,而词元标识一般包括中文数量词、中文量词、中文数词、日韩文字、中文单字、中文词元、英文数字混合、英文、数字和/或未知字符。细粒度分词则是尽可能地划分出最小单元规模的词语,比如将命名实体为职位的词语进行再次切分处理。具体的,对第二待搜索处理词S2进行粗粒度分词后得到的第二搜索词序列为[java高级开发工程师],将其记为P1,第二搜索词序列P1包括对第二待处理搜索词S2进行粗粒度分词后获得的一个词语,即java高级开发工程师。对第二搜索词序列P1所包括的词语进行命名实体识别,可知词语java高级开发工程师对应于内容为职位的命名实体,具有职位特性,则对该具有职位特性的词语进行细粒度分词,以获取相应的职业信息词序列。此时,得到词语java高级开发工程师对应的职业信息词序列为[java,高级,开发,工程师],再结合第二搜索词序列P1生成与第二待处理搜索词S1对应的第一搜索词序列,将其记为Q1,则得到第一搜索词序列Q1 为[java,高级,开发,工程师]。
根据本发明的一个实施例,可通过如下方式生成与各第二职位标题相应的各第一标题词序列。首先,对每一个第二职位标题,进行粗粒度分词以获取该第二职位标题相应的第二标题词序列,第二标题词序列包括对该第二职位标题进行粗粒度分词后获取的一个或多个词语,再对该第二标题序列中的一个或多个词语进行命名实体识别,以获取具有职位特性的词语,进而对该具有职位特性的词语进行细粒度分词,结合该第二标题词序列生成与该第二职位标题对应的第一标题词序列。其中关于粗粒度分词和细粒度分词的处理均可参见如上生成第一搜索词序列的过程,此处不再赘述。在该实施方式中,最终生成的与第二职位标题T1~T5相应的第一标题词序列依次为[java,开发,工程师]、[java,初级、开发,工程师、北京]、[js,开发,工程师]、[ui,设计师]和[ui,工程师],分别记为U1、U2、U3、U4和U5。
接下来,在步骤S340中,基于训练好的词语权重预测模型,分别计算第一搜索词序列和各第一标题词序列中各词语的预测权重。根据本发明的一个实施例,可通过如下方式来进行词语的预测权重的计算。首先,获取第一搜索词序列和各第一标题词序列中各词语的词特征,然后将第一搜索词序列中各词语的词特征输入到训练好的词语权重预测模型中,以获取该第一搜索词序列中各词语的预测权重,对每一个第一标题词序列,将该第一标题词序列中各词语的词特征输入到训练好的词语权重预测模型中,以获取该第一标题词序列中各词语的预测权重。在该实施方式中,先获取第一搜索词序列Q1和第一标题词序列U1~U5中各词语的词特征,以序列为输入单位,分别将第一搜索词序列Q1及第一标题词序列U1~U5中各词语的词特征输入到训练好的词语权重预测模型中进行计算,以获取各词语相应的预测权重。表1示出了根据本发明的一个实施例的第一搜索词序列Q1、以及第一标题词序列U1~U5 中各词语的预测权重,具体如下所示:
表1
考虑到职位标题数据集中会存在与第一待处理搜索词关联性较低甚至无关的第一职位标题,在计算第一待处理搜索词与各第一职位标题的相似度之前,还需要对部分第一职位标题进行剔除处理。根据本发明的又一个实施例,获取第一搜索词序列中预测权重最大的词语作为第一待处理搜索词的核心词,对每一个第一标题词序列,若该第一标题词序列中预测权重最大的词语与核心词相同或等同,则保留该第一标题词序列对应的第一职位标题,否则删除该第一标题词序列对应的第一职位标题。在该实施方式中,第一搜索词序列 Q1中预测权重最大的词语为java,将词语java作为第一待处理搜索词S1的核心词。对于第一标题词序列U1~U5,其中第一标题词序列U1和U2中预测权重最大的词语均为java,与该核心词相同,第一标题词序列U3中预测权重最大的词语为js,与该核心词等同,则保留第一标题词序列U1、U2和U3分别对应的第一职位标题R1、R2和R3。由于第一标题词序列U4和U5中预测权重最大的词语均为ui,与该核心词不一致,因此删除第一标题词序列U4和 U5分别对应的第一职位标题R4和R5。
最后,执行步骤S350,根据各词语的预测权重,计算第一待处理搜索词与各第一职位标题的相似度,按照相似度从高到低的顺序将各第一职位标题推荐给用户。根据本发明的一个实施例,相似度计算公式如下:
其中,“第一待处理搜索词∩第一职位标题”表示第一待处理搜索词对应的第一搜索词序列中各词语、与第一职位标题对应的第一标题词序列中各词语的预测权重交集和,“第一待处理搜索词∪第一职位标题”表示第一待处理搜索词对应的第一搜索词序列中各词语、与第一职位标题对应的第一标题词序列中各词语的预测权重并集和,“|·|”表示绝对值。
在该实施方式中,基于表1和相似度计算公式,可得计算得出第一待处理搜索词S1与第一职位标题R1的相似度为|0.71+0.13+0.09+1|/|2|=0.965,第一待处理搜索词S1与第一职位标题R2的相似度为|0.71+0.13+0.09+0.62+0.11 +0.10|/|2|=0.88,第一待处理搜索词S1与第一职位标题R3的相似度为|0.71+ 0.13+0.09+1|/|2|=0.965。由于第一待处理搜索词S1与第一职位标题R1的相似度及与第一职位标题R3的相似度大小相同,进一步考虑第一职位标题R1中的词语java与上述核心词相同,而第一职位标题R3中的词语js与上述核心词只是等同,则优先向用户推荐第一职位标题R1,进而最终推荐给用户的第一职位标题按序为第一职位标题R1、第一职位标题R3和第一职位标题R2。
此外,为了降低计算和时间成本,在获取到第二待处理搜索词和各第二职位标题后,可参考两者的结构关系和预设的相似度计算规则来进行相似度计算的优化处理。根据本发明的又一个实施例,对每一个第二职位标题,判断第二待处理搜索词与该第二职位标题之间的结构关系,若该结构关系满足预设的相似度计算规则,则根据该相似度计算规则确定第二待处理搜索词与该第二职位标题的相似度,将该相似度作为第一待处理搜索词与该第二职位标题所对应第一职位标题的相似度。在该实施方式中,相似度计算规则的示例如下:
1)若第二职位标题为第二待处理搜索词的同义词,则相应的第一待处理搜索词和第一职位标题的相似度为1.00,如第二待处理搜索词为android工程师,第二职位标题为android工程师;
2)若第二职位标题为第二待处理搜索词的同义扩展词,则相应的第一待处理搜索词和第一职位标题的相似度为0.99,如第二待处理搜索词为android,第二职位标题为android开发工程师;
3)若第二职位标题为第二待处理搜索词的深度描述,则相应的第一待处理搜索词和第一职位标题的相似度为0.96,如第二待处理搜索词为ui,第二职位标题为资深ui设计;
4)若第二职位标题为第二待处理搜索词的行业分类,则相应的第一待处理搜索词和第一职位标题的相似度为0.92,如第二待处理搜索词为产品经理,第二职位标题为支付产品经理;
5)若第二职位标题为第二待处理搜索词的子类别,则相应的第一待处理搜索词和第一职位标题的相似度为0.90,如第二待处理搜索词为java,第二职位标题为java架构师。
需要说明的是,相似度计算规则并不限于以上内容,还可以考虑结构关系为单向多意词、双向多意词等情况,以定制更细致和规范的规则,这些对于了解本发明方案的技术人员来说是可以容易想到的,并且也在本发明的保护范围之内,此处不予以赘述。当然,对于结构关系不满足预设的相似度计算规则的第二待处理搜索词与第二职位标题,则是按照上述相似度计算公式,通过相关词语的预测权重来计算对应的第一待处理搜索词与第一职位标题的相似度。
在前面提到了同义扩展词库需要预先生成,则根据本发明的一个实施例,可通过如下方式来获取同义扩展词库。首先,获取搜索时间在预设的第二时间段内的各搜索词,以及各搜索词被搜索后点击的一个或多个职位标题,再对每一个获取到的搜索词,将该搜索词作为待处理词,并分别与其对应的一个或多个职位标题进行关联,以形成一个或多个同义词候选集,对每一个同义词候选集,计算该同义词候选集中的待处理词和职位标题相应的统计特征,以作为统计分析结果,若该统计分析结果指示该同义词候选集满足预设的统计规则,则将该同义词候选集中的职位标题记为与待处理词对应的同义词,将该同义词候选集作为同义词对进行存储。
其中,统计特征包括共现次数、出现频数、置信度、文本最小相似度、文本最大相似度、文本距离相似度和/或F-Score。具体的,共现次数为待处理词和职位标题共同出现的次数,出现频数包括待处理词出现的次数和职位标题出现的次数,置信度包括待处理词的置信度和职位标题的置信度,待处理词的置信度为共现次数与待处理词出现的次数之商,职位标题的置信度为共现次数与职位标题出现的次数之商,文本最小相似度为待处理词和职位标题的最长公共子串的长度与这两者长度中较长的一个长度之商,文本最大相似度为待处理词和职位标题的最长公共子串的长度与这两者长度中较短的一个长度之商,文本相似距离为待处理词和职位标题的最长公共子序列的长度与这两者长度中较长的一个长度之商,F-Score为待处理词的置信度与职位标题的置信度之乘积。
在该实施方式中,第二时间段预设为以当前时间往前推算30天的期间,统计规则预设为共现次数大于4、待处理词的置信度和职位标题的置信度均大于0.01,以及文本距离相似度小于0.8。所形成的同义词候选集共计2000个,基于以上处理后获取到800个同义词候选集作为同义词对,并存储于计算设备100的数据存储装置中。
现有的职位推荐方法多是通过计算搜索词与职位信息之间的相关度,按照相关度从高到低的顺序将对应的职位信息反馈给用户,但存在相关度计算准确度低和时间代价大的问题。根据本发明实施例的用于对职位标题中的词语进行权重预测的词语权重预测模型生成的技术方案,首先,对职位标题训练集中的每一个职位标题,获取其关联的分词序列中各词语的词特征及标记权重,构建逻辑回归模型,并以各职位标题所关联的分词序列中各词语的词特征为输入,以相应的标记权重为输出,对该逻辑回归模型进行训练以生成词语权重预测模型。在上述技术方案中,用于训练模型所输入的词特征包括词元特征、序次特征、概率特征和关联特征,涵盖了一个词语自身的特性以及其在所属的分词序列中与其他词语的关联属性,而作为输入数据的标记权重,是以词语被搜索后点击其所对应的职位标题的用户数量为基础计算得出的,基于上述输入-输出的对应关系能够更好、更全面地训练模型,以便提供精准度更高的词语权重预测结果。
进而,根据本发明实施例的职位推荐的技术方案,对用户输入的第一待处理搜索词及各第一职位标题进行文本预处理,以获取对应的第二待处理搜索词及各第二职位标题,再分别进行分词处理,以生成相应的第一搜索词序列及各第一标题词序列,基于训练好的词语权重预测模型,分别计算第一搜索词序列和各第一标题词序列中各词语的预测权重,根据各词语的预测权重,计算第一待处理搜索词与各第一职位标题的相似度,按照相似度从高到低的顺序将各第一职位标题推荐给用户。在上述技术方案中,文本预处理包括文本清洗和同义扩展,在剔除冗余信息的同时又扩展相近词义的内容,并通过先粗粒度分词后细粒度分词的双重分词手段提高了所切分出词语的准确度,便于后续预测权重和相似度计算的处理。此外,在计算相似度时,若第二待处理搜索词与第二职位标题之间的结构关系满足预设的相似度计算规则,则直接按照该规则确定第一待处理搜索词与该第二职位标题所对应第一职位标题的相似度,无需重新计算,进一步节约了时间成本。相反,若不满足,则将第一搜索词序列和各第一标题词序列中各词语的词特征输入到训练好的词语权重预测模型中,以计算出相应的预测权重,再利用各词语的预测权重来计算第一待处理搜索词与各第一职位标题的相似度,从而提升相似度计算的准确率。
B9.如B8所述的方法,所述对所述第一待处理搜索词及各第一职位标题进行文本预处理,以获取对应的第二待处理搜索词及各第二职位标题的步骤包括:
对所述第一待处理搜索词及各第一职位标题进行文本清洗;
对文本清洗后的第一待处理搜索词及各第一职位标题进行同义扩展,以获取对应的第二待处理搜索词及各第二职位标题。
B10.如B9所述的方法,所述数据存储装置中还存储有同义扩展词库,所述同义扩展词库包括多个同义词对,每个同义词对包括待处理词及与其对应的同义词,所述对文本清洗后的第一待处理搜索词及各第一职位标题进行同义扩展,以获取对应的第二待处理搜索词及各第二职位标题的步骤包括:
从所述同义扩展词库中查找与文本清洗后的第一待处理搜索词相同的待处理词,将查找到的待处理词对应的同义词作为第二待处理搜索词;
对每一个文本清洗后的第一职位标题,从所述同义扩展词库中查找与其相同的待处理词,将查找到的待处理词对应的同义词作为该第一职位标题对应的第二职位标题。
B11.如B8-10中任一项所述的方法,所述对所述第二待处理搜索词和各第二职位标题进行分词处理,以生成相应的搜索词序列及各标题词序列的步骤包括:
对所述第二待处理搜索词进行粗粒度分词,以获取相应的第二搜索词序列,所述第二搜索词序列包括对该第二待处理搜索词进行粗粒度分词后获取的一个或多个词语;
对所述第二搜索词序列中的一个或多个词语进行命名实体识别,以获取具有职位特性的词语;
对该具有职位特性的词语进行细粒度分词,结合所述第二搜索词序列生成与所述第二待处理搜索词对应的第一搜索词序列。
B12.如B8-11中任一项所述的方法,所述对所述第二待处理搜索词和各第二职位标题进行分词处理,以生成相应的搜索词序列及各标题词序列的步骤包括:
对每一个第二职位标题,进行粗粒度分词以获取该第二职位标题相应的第二标题词序列,所述第二标题词序列包括对该第二职位标题进行粗粒度分词后获取的一个或多个词语;
对该第二标题序列中的一个或多个词语进行命名实体识别,以获取具有职位特性的词语;
对该具有职位特性的词语进行细粒度分词,结合该第二标题词序列生成与该第二职位标题对应的第一标题词序列。
B13.如B8-12中任一项所述的方法,所述基于所述训练好的词语权重预测模型,分别计算所述第一搜索词序列和各第一标题词序列中各词语的预测权重的步骤包括:
获取所述第一搜索词序列和各第一标题词序列中各词语的词特征;
将所述第一搜索词序列中各词语的词特征输入到所述训练好的词语权重预测模型中,以获取该第一搜索词序列中各词语的预测权重;
对每一个第一标题词序列,将该第一标题词序列中各词语的词特征输入到所述训练好的词语权重预测模型中,以获取该第一标题词序列中各词语的预测权重。
B14.如B8-13中任一项所述的方法,在所述根据各词语的预测权重,计算第一待处理搜索词与各第一职位标题的相似度的步骤之前,还包括:
获取所述第一搜索词序列中预测权重最大的词语作为所述第一待处理搜索词的核心词;
对每一个第一标题词序列,若该第一标题词序列中预测权重最大的词语与所述核心词相同或等同,则保留该第一标题词序列对应的第一职位标题,否则删除该第一标题词序列对应的第一职位标题。
B15.如B8-14中任一项所述的方法,还包括:
对每一个第二职位标题,判断所述第二待处理搜索词与该第二职位标题之间的结构关系;
若该结构关系满足预设的相似度计算规则,则根据该相似度计算规则确定所述第二待处理搜索词与该第二职位标题的相似度,将该相似度作为第一待处理搜索词与该第二职位标题所对应第一职位标题的相似度。
B16.如B10-15中任一项所述的方法,还包括预先生成同义扩展词库,所述预先生成同义扩展词库的步骤包括:
获取搜索时间在预设的第二时间段内的各搜索词,以及各搜索词被搜索后点击的一个或多个职位标题;
对每一个获取到的搜索词,将该搜索词作为待处理词,并分别与其对应的一个或多个职位标题进行关联,以形成一个或多个同义词候选集;
对每一个同义词候选集,计算该同义词候选集中的待处理词和职位标题相应的统计特征,以作为统计分析结果;
若该统计分析结果指示该同义词候选集满足预设的统计规则,则将该同义词候选集中的职位标题记为与待处理词对应的同义词,将该同义词候选集作为同义词对进行存储。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组间可以布置在如该实施例中所描述的设备中,或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组间组合成一个模块或单元或组间,以及此外可以把它们分成多个子模块或子单元或子组间。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
此外,所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此,具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外,装置实施例的在此所述的元素是如下装置的例子:该装置用于实施由为了实施该发明的目的的元素所执行的功能。
这里描述的各种技术可结合硬件或软件,或者它们的组合一起实现。从而,本发明的方法和设备,或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介,例如软盘、CD-ROM、硬盘驱动器或者其它任意机器可读的存储介质中的程序代码(即指令)的形式,其中当程序被载入诸如计算机之类的机器,并被所述机器执行时,所述机器变成实践本发明的设备。
在程序代码在可编程计算机上执行的情况下,计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件),至少一个输入装置,和至少一个输出装置。其中,存储器被配置用于存储程序代码;处理器被配置用于根据该存储器中存储的所述程序代码中的指令,执行本发明的用于对职位标题中的词语进行权重预测的词语权重预测模型生成方法和/或职位推荐方法。
以示例而非限制的方式,计算机可读介质包括计算机存储介质和通信介质。计算机可读介质包括计算机存储介质和通信介质。计算机存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据,并且包括任何信息传递介质。以上的任一种的组合也包括在计算机可读介质的范围之内。
如在此所使用的那样,除非另行规定,使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例,并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。
Claims (10)
1.一种用于对职位标题中的词语进行权重预测的词语权重预测模型生成方法,适于在计算设备中执行,所述方法包括步骤:
获取预先收集的职位标题训练集,所述职位标题训练集包括多个职位标题,每个职位标题关联有对应的分词序列,所述分词序列包括对职位标题分词处理后获取的一个或多个词语;
对每一个职位标题,获取其关联的分词序列中各词语的词特征;
计算各职位标题所关联的分词序列中各词语的标记权重;
构建用于预测词语权重的逻辑回归模型;
以各职位标题所关联的分词序列中各词语的词特征为输入,以相应的标记权重为输出,对所述逻辑回归模型进行训练以生成词语权重预测模型,所述词语权重预测模型的输出指示输入的职位标题中各词语的预测权重。
2.如权利要求1所述的方法,所述词特征包括词元特征、序次特征、概率特征和关联特征。
3.如权利要求2所述的方法,所述词元特征包括当前词语的词向量、是否为英文、是否为纯数字、是否为公司名称、是否为地名和词语全局权重。
4.如权利要求2或3所述的方法,所述序次特征包括当前词语在其所属分词序列中的序次,以及该分词序列包含的词语数量。
5.如权利要求2-4中任一项所述的方法,所述概率特征包括当前词语接收相邻的上一个词语转移的概率,以及从当前词语转移到相邻的下一个词语的概率。
6.如权利要求2-5中任一项所述的方法,所述关联特征包括与当前词语相邻的上一个词语及下一个词语的词元特征。
7.如权利要求1-6中任一项所述的方法,所述计算各职位标题所关联的分词序列中各词语的标记权重的步骤包括:
对各职位标题所关联的分词序列中的每一个词语,获取在预设的第一时间段内、该词语被搜索后点击其所对应的职位标题的用户数量;
对每一个职位标题所关联的分词序列,统计该分词序列中所有词语的用户数量之和作为用户总量,分别计算该分词序列的各词语的用户数量与所述用户总量之商,作为各词语的标记权重。
8.一种职位推荐方法,适于在计算设备中执行,所述计算设备包括数据存储装置,所述数据存储装置中存储有如权利要求1-7中任一项所述的训练好的词语权重预测模型,以及职位标题数据集,所述职位标题数据集包括多个第一职位标题,所述方法包括步骤:
获取当前用户输入的第一待处理搜索词;
对所述第一待处理搜索词及各第一职位标题进行文本预处理,以获取对应的第二待处理搜索词及各第二职位标题;
对所述第二待处理搜索词和各第二职位标题进行分词处理,以生成相应的第一搜索词序列及各第一标题词序列,所述第一搜索词序列包括对第一待处理搜索词分词处理后获取的一个或多个词语,所述第一标题词序列包括对第二职位标题分词处理后获取的一个或多个词语;
基于所述训练好的词语权重预测模型,分别计算所述第一搜索词序列和各第一标题词序列中各词语的预测权重;
根据各词语的预测权重,计算第一待处理搜索词与各第一职位标题的相似度,按照相似度从高到低的顺序将各第一职位标题推荐给用户。
9.一种计算设备,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行根据权利要求1-7所述的方法中的任一方法和/或权利要求8所述的方法的指令。
10.一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行根据权利要求1-7所述的方法中的任一方法和/或权利要求8所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711122651.8A CN107967256B (zh) | 2017-11-14 | 2017-11-14 | 词语权重预测模型生成方法、职位推荐方法及计算设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711122651.8A CN107967256B (zh) | 2017-11-14 | 2017-11-14 | 词语权重预测模型生成方法、职位推荐方法及计算设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107967256A true CN107967256A (zh) | 2018-04-27 |
CN107967256B CN107967256B (zh) | 2021-12-21 |
Family
ID=62000186
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711122651.8A Active CN107967256B (zh) | 2017-11-14 | 2017-11-14 | 词语权重预测模型生成方法、职位推荐方法及计算设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107967256B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108959263A (zh) * | 2018-07-11 | 2018-12-07 | 北京奇艺世纪科技有限公司 | 一种词条权重计算模型训练方法及装置 |
CN110889287A (zh) * | 2019-11-08 | 2020-03-17 | 创新工场(广州)人工智能研究有限公司 | 一种用于命名实体识别的方法与装置 |
CN110909120A (zh) * | 2018-09-14 | 2020-03-24 | 阿里巴巴集团控股有限公司 | 简历搜索/投递方法、装置、系统及电子设备 |
CN111128376A (zh) * | 2019-11-21 | 2020-05-08 | 泰康保险集团股份有限公司 | 一种推荐评估表单的方法和装置 |
WO2020114429A1 (zh) * | 2018-12-07 | 2020-06-11 | 腾讯科技(深圳)有限公司 | 关键词提取模型训练方法、关键词提取方法及计算机设备 |
CN111311180A (zh) * | 2020-02-10 | 2020-06-19 | 腾讯云计算(北京)有限责任公司 | 简历筛选方法及装置 |
CN113392651A (zh) * | 2020-11-09 | 2021-09-14 | 腾讯科技(深圳)有限公司 | 训练词权重模型及提取核心词的方法、装置、设备和介质 |
CN116187307A (zh) * | 2023-04-27 | 2023-05-30 | 吉奥时空信息技术股份有限公司 | 一种政务文章标题关键字提取方法、设备及存储设备 |
CN113392651B (zh) * | 2020-11-09 | 2024-05-14 | 腾讯科技(深圳)有限公司 | 训练词权重模型及提取核心词的方法、装置、设备和介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104217031A (zh) * | 2014-09-28 | 2014-12-17 | 北京奇虎科技有限公司 | 一种根据服务器搜索日志数据进行用户分类的方法和装置 |
CN104331472A (zh) * | 2014-11-03 | 2015-02-04 | 百度在线网络技术(北京)有限公司 | 分词训练数据的构造方法和装置 |
CN104899322A (zh) * | 2015-06-18 | 2015-09-09 | 百度在线网络技术(北京)有限公司 | 搜索引擎及其实现方法 |
CN105183905A (zh) * | 2015-09-30 | 2015-12-23 | 北京奇虎科技有限公司 | 一种官方网站网址的查询词挖掘方法和装置 |
CN105653562A (zh) * | 2014-12-02 | 2016-06-08 | 阿里巴巴集团控股有限公司 | 一种文本内容与查询请求之间相关性的计算方法及装置 |
CN105760400A (zh) * | 2014-12-19 | 2016-07-13 | 阿里巴巴集团控股有限公司 | 一种基于搜索行为的推送消息排序方法及装置 |
CN105893641A (zh) * | 2016-07-01 | 2016-08-24 | 中国传媒大学 | 一种职位推荐方法 |
CN105975459A (zh) * | 2016-05-24 | 2016-09-28 | 北京奇艺世纪科技有限公司 | 一种词项的权重标注方法和装置 |
US9536522B1 (en) * | 2013-12-30 | 2017-01-03 | Google Inc. | Training a natural language processing model with information retrieval model annotations |
CN106951422A (zh) * | 2016-01-07 | 2017-07-14 | 腾讯科技(深圳)有限公司 | 网页训练的方法和装置、搜索意图识别的方法和装置 |
-
2017
- 2017-11-14 CN CN201711122651.8A patent/CN107967256B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9536522B1 (en) * | 2013-12-30 | 2017-01-03 | Google Inc. | Training a natural language processing model with information retrieval model annotations |
CN104217031A (zh) * | 2014-09-28 | 2014-12-17 | 北京奇虎科技有限公司 | 一种根据服务器搜索日志数据进行用户分类的方法和装置 |
CN104331472A (zh) * | 2014-11-03 | 2015-02-04 | 百度在线网络技术(北京)有限公司 | 分词训练数据的构造方法和装置 |
CN105653562A (zh) * | 2014-12-02 | 2016-06-08 | 阿里巴巴集团控股有限公司 | 一种文本内容与查询请求之间相关性的计算方法及装置 |
CN105760400A (zh) * | 2014-12-19 | 2016-07-13 | 阿里巴巴集团控股有限公司 | 一种基于搜索行为的推送消息排序方法及装置 |
CN104899322A (zh) * | 2015-06-18 | 2015-09-09 | 百度在线网络技术(北京)有限公司 | 搜索引擎及其实现方法 |
CN105183905A (zh) * | 2015-09-30 | 2015-12-23 | 北京奇虎科技有限公司 | 一种官方网站网址的查询词挖掘方法和装置 |
CN106951422A (zh) * | 2016-01-07 | 2017-07-14 | 腾讯科技(深圳)有限公司 | 网页训练的方法和装置、搜索意图识别的方法和装置 |
CN105975459A (zh) * | 2016-05-24 | 2016-09-28 | 北京奇艺世纪科技有限公司 | 一种词项的权重标注方法和装置 |
CN105893641A (zh) * | 2016-07-01 | 2016-08-24 | 中国传媒大学 | 一种职位推荐方法 |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108959263B (zh) * | 2018-07-11 | 2022-06-03 | 北京奇艺世纪科技有限公司 | 一种词条权重计算模型训练方法及装置 |
CN108959263A (zh) * | 2018-07-11 | 2018-12-07 | 北京奇艺世纪科技有限公司 | 一种词条权重计算模型训练方法及装置 |
CN110909120A (zh) * | 2018-09-14 | 2020-03-24 | 阿里巴巴集团控股有限公司 | 简历搜索/投递方法、装置、系统及电子设备 |
CN110909120B (zh) * | 2018-09-14 | 2023-05-02 | 阿里巴巴集团控股有限公司 | 简历搜索/投递方法、装置、系统及电子设备 |
WO2020114429A1 (zh) * | 2018-12-07 | 2020-06-11 | 腾讯科技(深圳)有限公司 | 关键词提取模型训练方法、关键词提取方法及计算机设备 |
US11947911B2 (en) | 2018-12-07 | 2024-04-02 | Tencent Technology (Shenzhen) Company Limited | Method for training keyword extraction model, keyword extraction method, and computer device |
CN110889287A (zh) * | 2019-11-08 | 2020-03-17 | 创新工场(广州)人工智能研究有限公司 | 一种用于命名实体识别的方法与装置 |
CN111128376A (zh) * | 2019-11-21 | 2020-05-08 | 泰康保险集团股份有限公司 | 一种推荐评估表单的方法和装置 |
CN111128376B (zh) * | 2019-11-21 | 2023-06-16 | 泰康保险集团股份有限公司 | 一种推荐评估表单的方法和装置 |
CN111311180B (zh) * | 2020-02-10 | 2023-03-24 | 腾讯云计算(北京)有限责任公司 | 简历筛选方法及装置 |
CN111311180A (zh) * | 2020-02-10 | 2020-06-19 | 腾讯云计算(北京)有限责任公司 | 简历筛选方法及装置 |
CN113392651A (zh) * | 2020-11-09 | 2021-09-14 | 腾讯科技(深圳)有限公司 | 训练词权重模型及提取核心词的方法、装置、设备和介质 |
CN113392651B (zh) * | 2020-11-09 | 2024-05-14 | 腾讯科技(深圳)有限公司 | 训练词权重模型及提取核心词的方法、装置、设备和介质 |
CN116187307A (zh) * | 2023-04-27 | 2023-05-30 | 吉奥时空信息技术股份有限公司 | 一种政务文章标题关键字提取方法、设备及存储设备 |
Also Published As
Publication number | Publication date |
---|---|
CN107967256B (zh) | 2021-12-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107967256A (zh) | 词语权重预测模型生成方法、职位推荐方法及计算设备 | |
US11520812B2 (en) | Method, apparatus, device and medium for determining text relevance | |
CN111444320B (zh) | 文本检索方法、装置、计算机设备和存储介质 | |
US10795922B2 (en) | Authorship enhanced corpus ingestion for natural language processing | |
WO2020001373A1 (zh) | 一种本体构建方法及装置 | |
US9703860B2 (en) | Returning related previously answered questions based on question affinity | |
CN107220384B (zh) | 一种基于相关性的搜索词处理方法、装置及计算设备 | |
US20150161242A1 (en) | Identifying and Displaying Relationships Between Candidate Answers | |
US9697099B2 (en) | Real-time or frequent ingestion by running pipeline in order of effectiveness | |
US20160098444A1 (en) | Corpus Management Based on Question Affinity | |
CN112732870B (zh) | 基于词向量的搜索方法、装置、设备及存储介质 | |
CN111144120A (zh) | 一种训练语句的获取方法、装置、存储介质及电子设备 | |
US11593559B2 (en) | Enhanced natural language query segment tagging | |
CN112183881A (zh) | 一种基于社交网络的舆情事件预测方法、设备及存储介质 | |
CN107341233A (zh) | 一种职位推荐方法及计算设备 | |
CN114330343B (zh) | 词性感知嵌套命名实体识别方法、系统、设备和存储介质 | |
WO2021112984A1 (en) | Feature and context based search result generation | |
CN112463976A (zh) | 一种以群智感知任务为中心的知识图谱构建方法 | |
US10198497B2 (en) | Search term clustering | |
CN111325018A (zh) | 一种基于web检索和新词发现的领域词典构建方法 | |
US20110264642A1 (en) | Dynamic computation engine in search stack | |
US9705972B2 (en) | Managing a set of data | |
Peng et al. | MeSHLabeler and DeepMeSH: recent progress in large-scale MeSH indexing | |
Zhang et al. | Fast attention-based learning-to-rank model for structured map search | |
Abed et al. | Word sense disambiguation in evolutionary manner |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |