CN113987145B - 一种精准推理用户属性实体的方法、系统、设备和存储介质 - Google Patents

一种精准推理用户属性实体的方法、系统、设备和存储介质 Download PDF

Info

Publication number
CN113987145B
CN113987145B CN202111231043.7A CN202111231043A CN113987145B CN 113987145 B CN113987145 B CN 113987145B CN 202111231043 A CN202111231043 A CN 202111231043A CN 113987145 B CN113987145 B CN 113987145B
Authority
CN
China
Prior art keywords
entity
matching
result
data
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111231043.7A
Other languages
English (en)
Other versions
CN113987145A (zh
Inventor
徐小磊
沈玉军
刘建华
邢继风
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhilian Wangpin Information Technology Co ltd
Original Assignee
Zhilian Wangpin Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhilian Wangpin Information Technology Co ltd filed Critical Zhilian Wangpin Information Technology Co ltd
Priority to CN202111231043.7A priority Critical patent/CN113987145B/zh
Publication of CN113987145A publication Critical patent/CN113987145A/zh
Application granted granted Critical
Publication of CN113987145B publication Critical patent/CN113987145B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/105Human resources
    • G06Q10/1053Employment or hiring

Abstract

本发明公开了一种精准推理候选人用户工作单位属性实体的方法,包括S1:从多个指定列表字段分别抽取用户的个人属性实体信息,对所述个人属性实体信息进行数据清洗;S2:对清洗后的数据进行问询,若问询结果无效,则直接执行S7,若问询结果有效,则执行S3;S3:对步骤S2中的问询信息进行抽取,解析实体属性名称,生成实体属性特征;S4:将所述生成的实体属性特征与公司标准实体库数据执行标准匹配;S5:判断标准匹配是否有结果,如果有结果,则得到标准匹配结果;若匹配无结果,则执行步骤S6;S6:进行推理匹配,得到推理匹配结果S7:返回结果。本发明可有效提高工作单位属性实体识别的精确率,满足使用需求,有利于使用。

Description

一种精准推理用户属性实体的方法、系统、设备和存储介质
技术领域
本发明涉及方法技术领域,具体地说,涉及一种便于内部检索的数据归一化处理方法,尤其涉及一种精准推理用户属性实体的方法、系统、设备和存储介质。
背景技术
在推理用户属性实体中,通过对求职者属性的初步统计,仅不到40%的求职者填写了标准的属性名称,剩余60%的用户填写不标准,在进行识别的过程中,经常出现名称多样化、过于简洁、信息不明确等等问题,导致后续对属性的画像不精准,进而影响识别精确率,从而影响B/C端用户匹配准确率,不能满足使用需求。
例如,C端求职者的工作经历中对同一工作单位的描述多种多样,如:“美团”、“三快在线”、“美团点评”等;C端求职者对工作单位的描述过于简洁,如:“TCL”,但是涉及“TCL”的实体有“TCL科技集团股份有限公司”、“TCL空调器(中山)有限公司”、“科天智慧云(广州)信息科技有限公司”等;C端求职者的工作单位描述与求职信息不明确,如:工作单位为“湖南顺丰速运”,当前所在地为广东-广州等;如何排序总公司与分公司,如:工作经历的工作单位为“宜信财富芜湖分公司”,如何排序总公司与分公司等。
也就是说,在同一项目(例如,智联招聘项目)中,用户通过各类平台例如APP/网页等,将个人的属性实体信息输入到项目系统中。但是,针对同一内容,例如,同一工作单位,不同用户的描述就不同。
因此我们提出了一种精准推理用户属性实体的方法用于解决上述问题。
发明内容
基于背景技术存在的技术问题,本发明提出了一种精准推理用户属性实体的方法。
以招聘平台为例,通过对求职者工作单位的初步统计,仅不到40%的求职者填写了标准的工作单位名称,剩余60%的用户填写不标准,出现名称多样化、过于简洁、信息不明确等等问题,导致后续对工作单位的画像不精准,从而影响B/C端用户匹配准确率。
如,对于需要信息整合的系统内部,由于获取信息的来源不同,获取的数据质量也良莠不齐,导致对同一信息实体的描述多样化,比如“阿里巴巴”,存在“阿里巴巴(中国)有限公司”、“阿里”、“alibaba”、“阿里巴巴(杭州)”、“高德地图(阿里)”、“天猫”等等多种实体描述。因此,为了解决不同数据源的数据重复问题,更大的挖掘数据的价值,该字段中,必须进行用户属性实体的精准推理,也就是数据的归一化处理(知识实体的融合)。
本发明提出的一种精准推理用户属性实体的方法,包括以下步骤:
S1:从多个指定列表字段分别抽取用户的个人属性实体信息,对所述个人属性实体信息进行数据清洗;
S2:对清洗后的数据进行问询,若问询结果无效,则直接执行S7,若问询结果有效,则执行S3;
S3:对步骤S2中的问询信息进行抽取,解析实体属性名称,生成实体属性特征;
S4:将所述生成的实体属性特征与公司标准实体库数据执行标准匹配;
S5:判断标准匹配是否有结果,如果有结果,则得到标准匹配结果;若匹配无结果,则执行步骤S6;
S6:进行推理匹配,得到推理匹配结果;
S7:返回结果。
可选的,所述步骤S3具体包括:
S31:加载各类词典;
S32:抽取所述实体属性名称的主要成份;
S33:抽取所述实体属性名称的核心成份;
S34:以序列标注样本数据为基础,基于深度学习算法及实验标注数据实现名称解析,抽取业务领域、机构类型、地域成份三个成份中的一个或多个。
可选的,所述步骤S31中,各类词典包含地域词典、业务领域词典、机构类型词典和高频词典。
可选的,所述步骤S4中,所述标准匹配的步骤可以包括:
S41:一排召回,将S2中数据清洗后的用户输入和用户主要成份mainName和原始用户输入作为召回条件字段,将满足匹配条件的全部实体返回;
S42:二排排序,对所述所有召回的实体进行二次排序。
可选的,所述步骤S6中,所述推理匹配的步骤可以包括:
S61:一排召回。
S62:二排排序。
可选的,所述召回和排序是利用ElasticSearch搜索引擎实现整体的召回排序功能。
本发明的第二个方面提供了一种精准推理用户属性实体的系统,其特征在于,包括以下模块:
数据清洗模块,从多个指定列表字段分别抽取用户的个人属性实体信息,对所述个人属性实体信息进行数据清洗;
问询有效确认模块,将清洗后的数据通过问询模块对其信息进行问询,判断问询结果是否有效;
特征生成模块,对所述问询信息进行抽取,进行实体属性名称解析,生成实体属性特征;
标准匹配模块,将所述生成的实体属性特征与公司标准实体库数据执行标准匹配;
判断模块,判断标准匹配是否有结果;
推理匹配模块,当标准匹配无结果时,通过召回和排序得到推理匹配结果;
返回模块,返回结果。
可选的,所述特征生成模块包括:
加载单元,用于加载各类词典;
第一抽取单元:抽取所述实体属性名称的主要成份;
第二抽取单元:抽取所述实体属性名称的核心成份;
抽取单元,以序列标注样本数据为基础,基于深度学习算法及实验标注数据实现名称解析,抽取业务领域、机构类型、地域成份三个成份中的一个或多个。
本发明的第三方面提供了一种存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本发明的第四方面提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现上述任一项所述方法。
附图说明
图1为本发明提出的一种精准推理用户属性实体的方法的流程图;
图2为本发明提出的一种精准推理用户属性实体的方法执行的推理结果的随机截图;
图3为本发明提出的一种精准推理用户属性实体的系统的框图;
图4是是本发明基于一种精准推理候选人用户工作单位属性实体的系统所在计算机设备的一种硬件结构图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。
知识图谱,其本质上是语义网络,是一种基于图的数据结构,可以由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的有效的表示方式。通俗理解,知识图谱可以是把所有不同种类的信息连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。假设用知识图谱来描述一个事实:张三是李四的父亲。这里实体是张三和李四,关系是父亲。当然,张三和李四有可能会跟其他人存在着某种类型的关系,在此暂不考虑。当把电话号码也作为节点加入到知识图谱以后,电话号码也是实体,人和电话之间也可以定义一种关系叫has_phone,即某个电话号码属于某个人。可以把时间作为属性添加到has_phone关系里来表示开通电话号码的时间,这种属性不仅可以加到关系里,还可以加到实体当中等。
简历知识图谱是利用简历相关的信息构建的知识图谱。简历知识图谱可以是一整套实现知识表示和推理的框架,包括知识图谱实体、关系、词林(同义词、上下位词)、垂直知识图谱(领域专业图谱)、知识维护模块、机器学习推理引擎(上下位和等位推理、不一致推理、知识发现推理、本体概念推理)等。知识图谱的推理机制一方面在简历解析时起到辅助识别作用;另一方面在信息评估中,实现实体定位、匹配程度识别等功能,为最终的简历评估提供支持。
在一个实施例中,可以利用已评估过的历史简历生成简历知识图谱。已评估过的历史简历,可以包括已经应聘成功的求职者的简历,还可以包括没有应聘成功的求职者的简历。已评估过的历史简历,可以是对历史简历进行整体评分后的简历,也可以是针对简历中一个或多个简历信息进行评分后的简历。简历知识图谱中至少包括历史简历的简历信息相对于岗位的岗位需求的相关性信息。岗位需求可以由招聘需求和领域定位确定。例如,可以包括技能需求、学历需求、工作年限需求、行业特征需求等等。简历信息可以是简历中记录的信息,例如,包括个人描述、学习经历描述、工作经历描述等。简历知识图谱中的节点以及节点间的关系,可以根据需求配置。例如,简历知识图谱中的节点可以包括岗位节点和简历节点等。岗位节点可以用于表示岗位需求,简历节点可以用于表示与简历相关的信息。简历知识图谱中的节点连边用于表示相连节点之间具有关联关系。相关性信息可以是关联度、评分或匹配度等用于评价关联性的信息。示例的,简历节点与岗位节点的节点连边的属性,可以包括简历节点相对于岗位节点的价值属性。价值属性可以由评分值/关联度等方式来体现。在某些示例中,某些简历节点还具有价值属性。例如,某个节点表示获得了诺贝尔奖,该节点具有价值属性,用来描述该节点的价值。在确定节点间的相关性时,可以由节点间连边的价值属性来确定,也可以由节点的价值属性来确定。
构建简历知识图谱的方式有很多种,在此不一一赘述。
本申请旨在解决对于需要信息整合的系统内部,由于获取信息的来源不同,获取的数据质量也良莠不齐,导致对同一信息实体的描述多样化情况下,如何精准推理用户属性实体,以便对用户画像进行准确描述的问题。
实施例
参照图1,本实施例提出了一种精准推理用户属性实体的方法,包括以下步骤:
S1:从多个指定列表字段分别抽取用户的个人属性实体信息,对所述个人属性实体信息进行数据清洗。
通过各种路径,例如,APP,网页等,在用户填写简历信息的“工作经历”等条目时,采集用户个人的属性实体信息(例如工作单位)。例如,“美团”、美团集团[到店事业部]、“三快在线”、“美团点评”等。
数据清洗步骤对用户输入的信息数据,个人的属性实体信息(例如工作单位),进行清洗统一。
例如,首先是统一所有符号的格式,将所有的符号转为半角符号,将“()、{}、【】、《》”等全部替换成“()”,将大写字母统一转为小写字母,繁体字统一转为简体字,去除网址信息等。
S2:对清洗后的数据进行问询,若问询结果无效,则直接执行S7,若问询结果有效,则执行S3。
参考所采集的用户简历中的企业名、企业历史名、工作时间、工作地点、工作经验的基本信息,
终端用户在输入简历信息时,常常会输入一些对系统而言,无意义的词,例如,“工作单位”条目可能会采集到例如“无业”,“北京”,“休假中”之类的信息,这类信息对于数据采集没有实际意义,为了使得系统性能更好,当系统内部问询无效时,可以直接输出“无匹配”的结果。
经过统计,系统采集到无效输入的概率大约是16%左右。因此,在进行有效推理之前,先将不可能通过推理得到用户属性实体的数据排除。该步骤可以过滤16%的无效数据,免于进行后续的标准匹配和推理匹配,提高了运行效率。
S3:对步骤S2中的问询信息进行抽取,进行实体属性名称解析,生成实体属性特征。
上述实体属性,例如是用户的工作单位。
举例来说,通过对大量工作单位数据观察,总体来说包括:主要成份、核心成份、业务领域、机构类型、地域五大类算法特征,以上五大类算法特征具体体现为字符串,解释如下:
(1)主要成份(mainName)
基于规则抽取query中的mainname,如:“北京网聘咨询有限公司”抽取后的mainname为“北京网聘咨询”;
(2)核心成份(substrName)
基于规则抽取query中的substrName,如:“北京网聘咨询有限公司”抽取后的substrName为“网聘咨询”;
(3)业务领域(business)
基于模型抽取query中的领域成份,如:“北京网聘咨询有限公司”抽取后的business为“咨询”;
(4)机构类型(organization)
基于模型抽取query中的机构类型成份,如:“北京网聘咨询有限公司”抽取后的organization为“有限公司、公司”;
(5)地域成份(address)
基于BERT+BiLSTM+CRF实体命名识别模型模型,对步骤S2中的问询(query)信息进行抽取。
终端用户在输入简历信息时,有的用户会输入标准词条,例如,“北京网聘咨询有限公司”,这种概率大约是40%。当用户输入属于标准词条时,例如,“北京网聘咨询有限公司上海分公司”其中,“北京”属于地域词,“网聘”属于品牌/商号,“咨询”属于行业,“公司”属于机构,“深圳分公司”属于分支机构。此时,标准输入会在系统内直接确认到准确的用户属性实体,无需复杂推理过程。
抽取的地域成份(address),如:“北京网聘咨询有限公司”抽取后的address为:[country:”-”,province:“北京”,city:“北京”,district:“-”]。
上述步骤S3中,生成实体属性特征步骤具体包括:
S31:加载各类词典。主要包含地域词典(北京、江苏、苏州等)、地域后缀字典(省、市、自治区等)、业务领域词典(科技、咨询等)、机构类型词典(公司、分行等)、高频词典(有限公司、分公司等)。
S32:抽取所述实体属性名称的主要成份(mainName)。
基于剔除高频词,剔除地域成份中的省、市等词后剩下的成份,即,剔除地域成份中后缀。例如“海南省中远(集团)有限公司南昌分公司”的主要成份为“海南中远集团南昌”。
S33:抽取所述实体属性名称的核心成份(substrName)。
基于剔除高频词、剔除机构类型、剔除地域后的成份;例如“海南省中远(集团)有限公司南昌分公司”的核心成份为“中远集团”。
以上,步骤S32和步骤S33的执行顺序不分先后,可以互换,也可以并行执行。
S34:以序列标注样本数据为基础,基于深度学习算法及实验标注数据实现名称解析,抽取业务领域、机构类型、地域成份三个成份中的一个或多个。
以序列标注样本数据为基础,采用BERT+BiLSTM+CRF实现的NER(命名实体识别),识别出问询(query)中的成份,主要包括:业务领域(business)、机构类型(organization)、地域(address)三个成份中的一个或多个。
进一步的,所述抽取方法为:在先验知识的基础上进行模型训练,使用BERT预训练模型做嵌入,可以将大量语义信息迁移过来,结合BiLSTM+CRF实现的NER(命名实体识别),从而抽取出各种成份。例如“北京网聘咨询有限公司”抽取的成份为:业务领域-“咨询”,机构类型-“有限公司、公司”,地域-[country:”-”,province:“北京”,city:“北京”,district:“-”]。
S4:将所述生成的实体属性特征与公司标准实体库数据执行标准匹配。
需要说明的是,所述公司标准实体库数据在执行推理用户属性实体程序前已经构造完毕。
标准实体库数据的主要来源数据有:百度百科、维基百科、天眼查、本公司客户数据中的一个或多个。
通过对各来源端数据进行人工标注和融合,形成初始标准实体库,标准实体库的数据主要包含字段有:实体编号、实体名称、实体简称(alias)、实体曾用名(historyName)、实体行业(industry)、实体主要产品(product)、实体注册地(address)等。
实体库标准数据库暂时没有数据的字段空置,定期更新。
进一步地,可以人工标注出实体简称(alias)、历史名城(historyName)、英文名称(englishName)和实体产品(product),生成实体属性特征中的一个或多个。
形成初始标准实体库后,再以一周为周期更新本公司新增客户数据和天眼查更新数据,目前月6000万公司实体。
将S1中数据清洗后的名称字符串和S3中抽取的主要成份字符串进行匹配。
具体的说,所述标准匹配的步骤可以包括:
S41:一排召回。抽取用户工作单位的主要成份mainName,将实体属性全部返回。
S41:一排召回,将S2中数据清洗后的用户输入名称和用户主要成份(mainName)作为召回条件字段,与公司标准实体库的属性(alias、historyName、product)、主要成份(mainName)进行匹配,并将满足条件的全部实体返回。
例如,将数据清洗后的名称和主要成份(mainName)例如用户填写工作单位为“淘宝”,抽取后的mainName为“淘宝”,字符串完全匹配则满足匹配条件,将该结果返回。
例如,用户填写为“阿里巴巴(中国)有限公司”(定义为query),抽取后的mainName为“阿里巴巴中国”,与标准实体库属性中的name、alias、historyName、product、mainName值进行匹配,将任何一个属性为“阿里巴巴(中国)有限公司”,或者“阿里巴巴中国”的实体全部召回,召回结果为:
“浙江淘宝网络有限公司”
“阿里巴巴(中国)有限公司”
“淘宝(中国)软件有限公司”。
由于主要成份mainName字段简单,易于匹配,经过统计,大约40%左右的数据可以直接通过标准匹配中的字段匹配将算法速度大大提升。
由于可能产生多个匹配结果,在该步骤中均作为返回对象。为了自动匹配到最准确的结果,进行步骤S42。
S42:二排召回,对所述所有召回的实体进行二次排序。
其中,排序规则为业务领域、机构类型、二级行业以及一排召回特征的得分总和降序排序。
例如:
例如,将S41中的示例,继续按照二排规则排序后的顺序为可以是:
“阿里巴巴(中国)有限公司” 1
“淘宝(中国)软件有限公司” 2
“浙江淘宝网络有限公司” 3
S5:判断步骤,标准匹配是否有结果,则得到标准匹配结果;若匹配无结果,则执行步骤S5。
将标准数据库的数据导入ElasticSearch数据库中,利用ElasticSearch搜索引擎实现整体的召回排序功能。
有匹配结果则返回,若匹配无结果则进行步骤S5的推理匹配。
如果标准匹配没有结果,则进行S5推理匹配步骤。
S6:进行推理匹配,得到推理匹配结果。
具体可以包括:
S61:一排召回,以核心成份(substrName)整体、substrName-Hanlp分词、substrName-Ngram分词中任何一个或多个为召回条件的实体,返回满足任何一个条件的所有结果。
substrName-Hanlp分词、substrName-Ngram分词两种分词方式作为核心成份(substrName)整体的补充,对字符串的分词方式,以免遗漏。
具体来说,substrName-Hanlp分词、substrName-Ngram分词分别是两种从文本字符串中之中提取出相应的关键词的分词方法。substrName-Hanlp分词、substrName-Ngram分词是比单纯机器学习正确率更高的提取关键词的方法。
NLP的底层任务由易到难大致可以分为词法分析、句法分析和语义分析。分词是词法分析(还包括词性标注和命名实体识别)中最基本的任务,可以说既简单又复杂。说简单是因为分词的算法研究已经很成熟了,大部分的准确率都可以达到95%以上,说复杂是因为剩下的5%很难有突破,主要因为三点:(1)粒度,不同应用对粒度的要求不一样,比如“苹果手机”可以是一个词也可以是两个词;(2)歧义,比如“下雨天留人天留我不留”;(3)未登录词,比如“skrrr”、“打call”等新兴词语。然而,在真实的应用中往往会因为以上的难点造成分词效果欠佳,进而影响之后的任务。因此,在做真正的工业级应用时,尽量对分词器进行相应调整。
分词算法根据其核心思想主要分为两种,第一种是基于字典的分词,先把句子按照字典切分成词,再寻找词的最佳组合方式;第二种是基于字的分词,即由字构词,先把句子分成一个个字,再将字组合成词,寻找最优的切分策略,同时也可以转化成序列标注问题。归根结底,上述两种方法都可以归结为在图或者概率图上寻找最短路径的问题。
hanlp由一系列模型与算法组成的Java工具包,目标是促进自然语言处理在生产环境中的应用,HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。
hanlp在功能上的扩展主要体现在以下几个方面:
·关键词提取
·自动摘要
·短语提取
·拼音转换
·简繁转换
·文本推荐
Ngram分词器,NGram分词器是ElasticSearch自带的具有前缀匹配搜索功能的一个文本分词器。它能根据文本的步长逐步对写入的文本内容进行约束切割。
本发明使用Ngram分词器实现消除中文表述歧义的功能优势。
消除歧义的目的就是从若干种字符串的切分结果中挑选切分正确的。比如,
又例如,用户输入一段支行名称或拼音首字母,返回相应的支行名称。比如,用户输入"工行"或者"gh",Ngram分词器可以返回"工行XXX分行"类似这样的标准结。
不仅是从首字开始,而是逐字开始按步长,逐字符分词。基于n-grammodel的分词算法,解决的就是全部可能性下的概率问题。
为了真正计算一段字符串分词的最大概率,作为输出结果,就必须计算出上述所有分词的概率,然而总计算量太过庞大,因此我们取近似算法:
其中s=w1w2……wl,wi为字或单词,i是字或词的数目p(s)是分词结果的概率值。我们将上述模型成为二元语言模型(2-gram model)。类似的,如果只对词频进行统计,则为一元语言模型。由于计算量的限制,在实际应用中i一般取3。
将基于词的语言模型所统计出的概率分布应用到词图中,可以得到词的概率图。对所得到的词图用N-最短路径分词算法求解最大概率的路径,即可得到分词结果。
所述N-最短路径分词是对Dijkstra算法的扩展,在每一步保存最短的N条路径,并记录这些路径上当前节点的前驱,在最后求得最优解时回溯得到最短路径。
本申请中,该步骤,例如query为“北京华宏信达”,在标准匹配模块中无结果,则通过推理匹配召回结果为:
北京华宏信达建筑工程有限公司
北京华宏信达科技股份有限公司
S62:二排排序,对所述所有召回的实体进行二次排序。
将步骤S51召回结果,按照主要成份、业务领域、机构类型、地域、二级行业以及一排召回特征的得分总和降序排序,返回最后结果。
例如query为“北京华宏信达”,二排后的结果为:
北京华宏信达科技股份有限公司1
北京华宏信达建筑工程有限公司2。
标准匹配和推理匹配都不涉及简称,历史名城,英文名城,由于标准库。
S7:返回结果。
如图2所示,为本发明提出的一种精准推理用户属性实体的方法执行的推理结果的随机截图。
更优选的是,采用逻辑回归模型来确定上述S4、S6中的一排和二排的权重。
申请人经过大量实验和推理计算,将实体匹配(例如工作单位标准匹配)转化为一个二分类问题,常用的评价指标为准确率与召回率。本发明采用了逻辑回归模型两种模型的F1值(准确率和召回率),采用逻辑回归模型计算出初步的特征权重。具有更高准确率(98%)和更高的召回率(90%),同时预测结果效率更快等有约优越性。
相对于GBDT(梯度提升树)模型来讲,更高准确率(90%)和更高的召回率(86%)。
此外,优选的,还可以人为调整特征权重,最终作为采用的逻辑回归模型的权重。
如上文所述,本申请算法整体逻辑为先进行标准匹配,有推理结果则返回用户,若无结果再进行推理匹配,将最终推理结果返回,最终在测试样本集上打到60%的召回率,98%的准确率。随机截取部分推理结果如图3所示。
目前本申请所述精准推理用户属性实体的方法已应用于B端公司实体识别、C端用户工作经历实体识别等场景中。经过线上数据统计,算法服务实现工作单位实体识别覆盖率为60%左右,比较原始方案提升20%。
本实施例提供的基于知识图谱进行的精准推理用户属性实体的方法可以通过软件执行,也可以通过软件和硬件相结合或者硬件执行的方式实现,所涉及的硬件可以由两个或多个物理实体构成,也可以由一个物理实体构成。本实施例方法可以应用于具有处理能力的电子设备。其中,电子设备可以是PC、平板电脑、笔记本电脑、台式电脑等设备。所述计算机设备包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述方法实施例中的步骤。
需要说明的是,对本申请所述精准推理用户属性实体的方法而言,本领域普通测试人员可以理解实现本申请实施例所述精准推理用户属性实体的方法的全部或部分流程,是可以通过计算机程序来控制相关的硬件来完成,所述计算机程序可存储于一计算机可读存储介质中,如存储在计算机设备的存储器中,并被该计算机设备内的至少一个处理器执行,在执行过程中可包括如所述精准推理用户属性实体的方法的实施例的流程。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。
图3为本发明提出的一种精准推理用户属性实体的系统的框图。
如图3所示,本发明提出的一种精准推理用户属性实体的系统,包括以下模块:
数据清洗模块,从多个指定列表字段分别抽取用户的个人属性实体信息,对所述个人属性实体信息进行数据清洗;
问询有效确认模块,将清洗后的数据通过问询模块对其信息进行问询,判断问询结果是否有效;
特征生成模块,对所述问询信息进行抽取,进行实体属性名称解析,生成实体属性特征;
标准匹配模块,将所述生成的实体属性特征与公司标准实体库数据执行标准匹配;
判断模块,判断标准匹配是否有结果;
推理匹配模块,当标准匹配无结果时,通过召回和排序得到推理匹配结果;
返回模块,返回结果。
与前述一种精准推理用户属性实体的方法的实施例相对应,本说明书还提供了述一种精准推理用户属性实体的装置及其所应用的电子设备的实施例。
本说明书精准推理用户属性实体的装置的实施例可以应用在计算机设备。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在计算机设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图4所示,为本说明书一种精准推理用户属性实体的装置所在计算机设备的一种硬件结构图,除了图4所示的处理器410、网络接口420、内存430、以及非易失性存储器440之外,实施例中精准推理用户属性实体的装置431所在的计算机设备通常根据该设备的实际功能,还可以包括其他硬件,对此不再赘述。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
相应的,本说明书实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现上述任一项所述精准推理用户属性实体的方法。
本说明书实施例可采用在一个或多个其中包含有程序代码的存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。计算机可用存储介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于:相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
对本申请实施例的所述精准推理用户属性实体的系统而言,其各功能模块可以集成在一个处理芯片中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中,所述存储介质譬如为只读存储器,磁盘或光盘等。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域技术人员在考虑说明书及实践这里申请的发明后,将容易想到本说明书的其它实施方案。本说明书旨在涵盖本说明书的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本说明书的一般性原理并包括本说明书未申请的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本说明书的真正范围和精神由下面的权利要求指出。
应当理解的是,本说明书并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本说明书的范围仅由所附的权利要求来限制。
以上所述仅为本说明书的较佳实施例而已,并不用以限制本说明书,凡在本说明书的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书保护的范围之内。

Claims (5)

1.一种精准推理用户属性实体的方法,其特征在于,包括以下步骤:
S1:从多个指定列表字段分别抽取用户的个人属性实体信息,对所述个人属性实体信息进行数据清洗;
S2:对清洗后的数据进行问询,若问询结果无效,则直接执行S7,若问询结果有效,则执行S3;
S3:对步骤S2中的问询的信息进行抽取,解析实体属性名称,生成实体属性特征;
S4:将所述生成的实体属性特征与公司标准实体库数据执行标准匹配;
S5:判断标准匹配是否有结果,如果有结果,则得到标准匹配结果;若匹配无结果,则执行步骤S6;
S6:进行推理匹配,得到推理匹配结果;
S7:返回结果;
所述步骤S3具体包括:
S31:加载各类词典,包含地域词典、地域后缀字典、业务领域词典、机构类型词典、高频词典;
S32:抽取所述实体属性名称的主要成份,所述主要成份为剔除高频词,剔除地域成份中的省、市后剩下的成份;
S33:抽取所述实体属性名称的核心成份,所述核心成份为基于剔除高频词、剔除机构类型、剔除地域后的成份;
S34:以序列标注样本数据为基础,基于深度学习算法及实验标注数据实现名称解析,抽取业务领域、机构类型、地域成份三个成份中的一个或多个;
所述步骤S4中,所述标准匹配的步骤包括:
S41:一排召回,将数据清洗后的数据和所述实体属性名称的主要成份mainName作为召回条件字段,将满足匹配条件的全部实体返回;
S42:二排排序,对所述所有召回的实体进行二次排序;
步骤S6中,所述推理匹配的步骤包括:
S61:一排召回,以核心成份substrName整体、substrName-Hanlp分词、substrName-Ngram分词中任何一个或多个为召回条件的实体,返回满足任何一个条件的所有结果;
S62:二排排序,对所述所有召回的实体进行二次排序。
2.根据权利要求1所述的一种精准推理用户属性实体的方法,其特征在于,所述召回和排序是利用ElasticSearch搜索引擎实现整体的召回排序功能。
3.一种精准推理用户属性实体的系统,其特征在于,包括以下模块:
数据清洗模块,从多个指定列表字段分别抽取用户的个人属性实体信息,对所述个人属性实体信息进行数据清洗;
问询有效确认模块,将清洗后的数据通过问询模块对其信息进行问询,判断问询结果是否有效;特征生成模块,对所述问询信息进行抽取,进行实体属性名称解析,生成实体属性特征;
所述特征生成模块包括:
加载单元,用于加载各类词典,包含地域词典、地域后缀字典、业务领域词典、机构类型词典、高频词典;
第一抽取单元:抽取所述实体属性名称的主要成份,所述主要成份为剔除高频词,剔除地域成份中的省、市后剩下的成份;
第二抽取单元:抽取所述实体属性名称的核心成份,所述核心成份为基于剔除高频词、剔除机构类型、剔除地域后的成份;
抽取单元,以序列标注样本数据为基础,基于深度学习算法及实验标注数据实现名称解析,抽取业务领域、机构类型、地域成份三个成份中的一个或多个;
标准匹配模块,将所述生成的实体属性特征与公司标准实体库数据执行标准匹配;
所述标准匹配包括:
一排召回,将数据清洗后的数据和所述实体属性名称的主要成份mainName作为召回条件字段,将满足匹配条件的全部实体返回;二排排序,对所述所有召回的实体进行二次排序;
判断模块,判断标准匹配是否有结果;
推理匹配模块,当标准匹配无结果时,通过召回和排序得到推理匹配结果;所述召回包括,以核心成份substrName整体、substrName-Hanlp分词、substrName-Ngram分词中任何一个或多个为召回条件的实体,返回满足任何一个条件的所有结果;
所述排序包括,对所述所有召回的实体进行二次排序;
返回模块,返回结果。
4.一种存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至2中任一项所述的方法的步骤。
5.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现上述权利要求1-2任一项所述方法。
CN202111231043.7A 2021-10-22 2021-10-22 一种精准推理用户属性实体的方法、系统、设备和存储介质 Active CN113987145B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111231043.7A CN113987145B (zh) 2021-10-22 2021-10-22 一种精准推理用户属性实体的方法、系统、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111231043.7A CN113987145B (zh) 2021-10-22 2021-10-22 一种精准推理用户属性实体的方法、系统、设备和存储介质

Publications (2)

Publication Number Publication Date
CN113987145A CN113987145A (zh) 2022-01-28
CN113987145B true CN113987145B (zh) 2024-02-02

Family

ID=79740215

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111231043.7A Active CN113987145B (zh) 2021-10-22 2021-10-22 一种精准推理用户属性实体的方法、系统、设备和存储介质

Country Status (1)

Country Link
CN (1) CN113987145B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104484339A (zh) * 2014-11-21 2015-04-01 百度在线网络技术(北京)有限公司 一种相关实体推荐方法和系统
CN108491373A (zh) * 2018-02-01 2018-09-04 北京百度网讯科技有限公司 一种实体识别方法及系统
CN109284363A (zh) * 2018-12-03 2019-01-29 北京羽扇智信息科技有限公司 一种问答方法、装置、电子设备及存储介质
CN109508458A (zh) * 2018-10-31 2019-03-22 北京国双科技有限公司 法律实体的识别方法及装置
CN111552788A (zh) * 2020-04-24 2020-08-18 上海卓辰信息科技有限公司 基于实体属性关系的数据库检索方法、系统与设备
CN111597304A (zh) * 2020-05-15 2020-08-28 上海财经大学 一种中文企业名实体精准识别二次匹配方法
CN111783460A (zh) * 2020-06-15 2020-10-16 苏宁金融科技(南京)有限公司 一种企业简称提取方法、装置、计算机设备及存储介质
CN112100351A (zh) * 2020-09-11 2020-12-18 陕西师范大学 一种通过问题生成数据集构建智能问答系统的方法及设备
WO2021139283A1 (zh) * 2020-06-16 2021-07-15 平安科技(深圳)有限公司 基于深度学习技术的知识图谱问答方法、装置及设备
CN113204967A (zh) * 2021-05-25 2021-08-03 山东师范大学 简历命名实体识别方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10839028B2 (en) * 2018-07-02 2020-11-17 Bank Of America Corporation System for querying web pages using a real time entity authentication engine
CN111324742B (zh) * 2020-02-10 2024-01-23 同方知网数字出版技术股份有限公司 一种数字人文知识图谱的构建方法
CN111708874B (zh) * 2020-08-24 2020-11-13 湖南大学 基于复杂意图智能识别的人机交互问答方法与系统
CN112650840A (zh) * 2020-12-04 2021-04-13 天津泰凡科技有限公司 一种基于知识图谱推理的医疗智能问答处理方法及系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104484339A (zh) * 2014-11-21 2015-04-01 百度在线网络技术(北京)有限公司 一种相关实体推荐方法和系统
CN108491373A (zh) * 2018-02-01 2018-09-04 北京百度网讯科技有限公司 一种实体识别方法及系统
CN109508458A (zh) * 2018-10-31 2019-03-22 北京国双科技有限公司 法律实体的识别方法及装置
CN109284363A (zh) * 2018-12-03 2019-01-29 北京羽扇智信息科技有限公司 一种问答方法、装置、电子设备及存储介质
CN111552788A (zh) * 2020-04-24 2020-08-18 上海卓辰信息科技有限公司 基于实体属性关系的数据库检索方法、系统与设备
CN111597304A (zh) * 2020-05-15 2020-08-28 上海财经大学 一种中文企业名实体精准识别二次匹配方法
CN111783460A (zh) * 2020-06-15 2020-10-16 苏宁金融科技(南京)有限公司 一种企业简称提取方法、装置、计算机设备及存储介质
WO2021139283A1 (zh) * 2020-06-16 2021-07-15 平安科技(深圳)有限公司 基于深度学习技术的知识图谱问答方法、装置及设备
CN112100351A (zh) * 2020-09-11 2020-12-18 陕西师范大学 一种通过问题生成数据集构建智能问答系统的方法及设备
CN113204967A (zh) * 2021-05-25 2021-08-03 山东师范大学 简历命名实体识别方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Chunliang Lu.et al.Structured positional entity language model for enterprise entity retrieval.CIKM '13: Proceedings of the 22nd ACM international conference on Information & Knowledge Management.2013,第129–138页. *

Also Published As

Publication number Publication date
CN113987145A (zh) 2022-01-28

Similar Documents

Publication Publication Date Title
CN109492077B (zh) 基于知识图谱的石化领域问答方法及系统
CN109408627B (zh) 一种融合卷积神经网络和循环神经网络的问答方法及系统
CN107180045B (zh) 一种互联网文本蕴含地理实体关系的抽取方法
US20150006528A1 (en) Hierarchical data structure of documents
Vysotska et al. Method of similar textual content selection based on thematic information retrieval
CN110059177B (zh) 一种基于用户画像的活动推荐方法及装置
CN113254630B (zh) 一种面向全球综合观测成果的领域知识图谱推荐方法
WO2023108980A1 (zh) 基于文本对抗样例的信息推送方法及装置
Saju et al. A survey on efficient extraction of named entities from new domains using big data analytics
CN113064999A (zh) 基于it设备运维的知识图谱构建算法、系统、设备及介质
Bowker et al. Information science, terminology and translation studies
CN114328800A (zh) 文本处理方法、装置、电子设备和计算机可读存储介质
Jeong et al. Discovery of research interests of authors over time using a topic model
CN113987145B (zh) 一种精准推理用户属性实体的方法、系统、设备和存储介质
Wongchaisuwat Automatic keyword extraction using textrank
Schirmer et al. A new dataset for topic-based paragraph classification in genocide-related court transcripts
CN112507097B (zh) 一种提高问答系统泛化能力的方法
CN113127650A (zh) 一种基于图数据库的技术图谱构建方法和系统
Pertsas et al. Ontology-driven information extraction from research publications
Habous et al. A fuzzy logic and ontology-based approach for improving the CV and job offer matching in recruitment process
Uddin et al. A neural network approach for Bangla POS tagger
Tao et al. A Cross-Field Construction Method of Chinese Tourism Knowledge Graph based on Expasion and Adjustment of Entities
Tolle et al. Semantic search based on natural language processing–a numismatic example
Jardaeh et al. ArEmotive Bridging the Gap: Automatic Ontology Augmentation using Zero-shot Classification for Fine-grained Sentiment Analysis of Arabic Text
CN112860940B (zh) 基于描述逻辑知识库上有序概念空间的音乐资源检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 214000 room 706, 7 / F, building 8 (Wuxi talent financial port), east of Hongxing Duhui, economic development zone, Wuxi City, Jiangsu Province

Applicant after: Zhilian Wangpin Information Technology Co.,Ltd.

Address before: 214000 room 706, 7 / F, building 8 (Wuxi talent financial port), east of Hongxing Duhui, Wuxi Economic Development Zone, Wuxi City, Jiangsu Province

Applicant before: Zhilian (Wuxi) Information Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant