对象的行业识别方法及装置
技术领域
本申请涉及计算机技术领域,特别涉及对象身份识别技术。
背景技术
随着互联网技术的发展和应用的普及,互联网产品的设计更需要贴近客户(即服务的对象,也可简称对象)的需求才能更好为客户服务,因此需要加强对客户的了解,以便针对不同类型的客户,做出差异化的风控产品。
具体的,了解客户需要对客户的真实身份做出刻画,即客户画像。客户画像是客群划分的基础。
具体的,判断客户的从事行业是对客户的重要认知之一,也决定了客户的收入水平的重要因素之一,进一步地,客户的收入水平的判断的精确性,则是客户差异化授信和定价的最重要和最基础的依据。
但是,长期以来,业内无法准确高效地判断客户的从事行业。
另一方面,仅依靠客户个人填写的基础信息,由于维度匮乏、信息缺失、填写的信息不准确,造成对判断客户的从事行业的判断的准确率较低。
总体来说,目前对客户的行业识别技术存在以下不足:准确率不够高、覆盖不够广泛,并且,无法有效进行粒度细化,并且标准化和体系化也欠缺。
发明内容
本申请的目的在于提供一种对象的识别方法及装置,能够显著提高准确率,并且覆盖更加广泛,并且,还能够有效进行粒度细化,并且,还提高了标准化和体系化程度。
为了解决上述问题,本申请公开了一种对象的行业识别方法,包括:
获取指定群体中的每一个工商企业的公司名称所属的行业大类;
确定每一个该行业大类对应的行业标准向量;
确定待识别的对象在全量人群的标签语料库上的总行业向量Vclient;
根据该待识别的对象在全量人群的标签语料库上的总行业向量Vclient,与每一个该行业大类对应的行业标准向量Vindustry之间的相似度,确定该待识别的对象所属的行业大类及其对应的行业标签。
在一个优选例中,该确定每一个该行业大类对应的行业标准向量的步骤,包含:
确定行业标签,其中,该每一个行业标签分别对应一个该行业大类;
确定每一个该行业标签对应的行业种子关键词;
为每一个该行业标签建立行业种子关键词词典;以及
根据该行业大类对应的行业标签的行业种子关键词词典中的所有行业关键词的词向量,确定该行业大类对应的行业标准向量Vindustry。
在一个优选例中,该确定待识别的对象在全量人群的标签语料库上的总行业向量Vclient的步骤,包含:
确定待识别的对象的语料库中包含的行业关键词的集合S;
根据该待识别的对象的行业关键词的集合S中的每一个行业关键词Wi的词向量Vwi及其词频fi,确定该待识别的对象在该全量人群的标签语料库上的总行业向量Vclient。
在一个优选例中,该根据待识别的对象在全量人群的标签语料库上的总行业向量Vclient,与每一个该行业大类对应的行业标准向量Vindustry之间的相似度,确定该待识别的对象所属的行业大类及其对应的行业标签的步骤,包含:
计算该待识别的对象在该全量人群的标签语料库上的总行业向量Vclient,与每一个该行业大类对应的行业标准向量Vindustry之间的相似度;
根据待识别的对象在全量人群的标签语料库上的总行业向量Vclient,与每一个该行业大类对应的行业标准向量Vindustry之间的相似度,确定该待识别的对象对应的行业大类及其行业标签。
在一个优选例中,通过以下算法确定该待识别的对象在该全量人群的标签语料库上的总行业向量Vclient:
其中,
Vwi是待识别的对象的行业关键词的集合S中第i个关键词Wi的词向量。
fi是待识别的对象的行业关键词的集合S中第i个关键词Wi的词频。
在一个优选例中,通过以下具体公式计算该待识别的对象在该全量人群的标签语料库上的总行业向量Vclient,与每一个该行业大类对应的行业标准向量Vindustry之间的相似度:
其中,
β是待识别的对象的语料库中包含的行业关键词的集合S的总的行业关键词频率。
本申请还公开了一种对象的行业识别装置,包含:
获取模块,用于获取初始数据,该初始数据至少包含每一个工商企业的公司名称所属的行业大类;
行业标准向量确定模块,用于确定每一个该行业大类对应的行业标准向量Vindustry;
总行业向量确定模块,用于确定待识别的对象在全量人群的标签语料库上的总行业向量Vclient;
行业识别模块,用于根据该待识别的对象在全量人群的标签语料库上的总行业向量Vclient,与每一个该行业大类对应的行业标准向量Vindustry之间的相似度,确定该待识别的对象所属的行业大类及其对应的行业标签。
在一个优选例中,该行业标准向量确定模块包含:
行业标签子模块,用于确定行业标签,其中,该每一个行业标签分别对应一个该行业大类;
行业种子关键词子模块,用于确定每一个该行业标签对应的行业种子关键词;
行业种子关键词词典子模块,用于为每一个该行业标签建立行业种子关键词词典;以及
行业标准向量子模块,用于根据该行业大类对应的行业标签的行业种子关键词词典中的所有行业关键词的词向量,确定该行业大类对应的行业标准向量Vindustry。
在一个优选例中,该总行业向量确定模块包含:
行业关键词的集合子模块,用于确定待识别的对象的语料库中包含的行业关键词的集合S;
总行业向量子模块,用于根据该待识别的对象的行业关键词的集合S中的每一个行业关键词Wi的词向量Vwi及其词频fi,确定该待识别的对象在该全量人群的标签语料库上的总行业向量Vclient。
在一个优选例中,该行业识别模块包含:
相似度子模块,用于计算该待识别的对象在该全量人群的标签语料库上的总行业向量Vclient,与每一个该行业大类对应的行业标准向量Vindustry之间的相似度;
行业大类及行业标签确定子模块,英语根据待识别的对象在全量人群的标签语料库上的总行业向量Vclient,与每一个该行业大类对应的行业标准向量Vindustry之间的相似度,确定该待识别的对象对应的行业大类及其行业标签。
本申请还公开了一种对象的行业识别设备,包括:
存储器,用于存储计算机可执行指令;以及,
处理器,用于在执行该计算机可执行指令时实现如前文描述的方法中的步骤。
本申请还公开了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现如前文描述的方法中的步骤。
本申请实施方式中,首先,通过对相似度的具体计算方式做了进一步的改进,在相似度最高的Top10%的行业上,对对象行业识别的准确度提升了20%。第二,通过增加贝叶斯算法,增加行业相似度的可解释性,并对识别的精度有进一步的提升。在精准度80%的前提下,覆盖的人群增加了10%。终上所述,通过2点改进,在显著提高准确率的同时,提升覆盖度,并且能够有效进行分类粒度细化,故有效提高了标准化和体系化程度。
本申请的说明书中记载了大量的技术特征,分布在各个技术方案中,如果要罗列出本申请所有可能的技术特征的组合(即技术方案)的话,会使得说明书过于冗长。为了避免这个问题,本申请上述发明内容中公开的各个技术特征、在下文各个实施方式和例子中公开的各技术特征、以及附图中公开的各个技术特征,都可以自由地互相组合,从而构成各种新的技术方案(这些技术方案均因视为在本说明书中已经记载),除非这种技术特征的组合在技术上是不可行的。例如,在一个例子中公开了特征A+B+C,在另一个例子中公开了特征A+B+D+E,而特征C和D是起到相同作用的等同技术手段,技术上只要择一使用即可,不可能同时采用,特征E技术上可以与特征C相组合,则,A+B+C+D的方案因技术不可行而应当不被视为已经记载,而A+B+C+E的方案应当视为已经被记载。
附图说明
图1是根据本申请第一实施方式的对象的行业识别方法的流程示意图;
图2,图3和图4是根据本申请第一实施方式的对象的行业识别方法的具体细节步骤的示意图;
图5是根据本申请的第二实施方式的对象的行业识别装置的结构示意图。
具体实施方式
在以下的叙述中,为了使读者更好地理解本申请而提出了许多技术细节。但是,本领域的普通技术人员可以理解,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。
部分概念的说明:
全量人群的标签语料库:是指基于对象的各个维度信息,归集和汇总,得到刻画对象特征的语料库。其中,刻画对象特征由不同的关键词表示,举例来说,A是一个出色的外科主任,别人对的A的标注有医生、外科主任等,“医生”,“外科主任”都是刻画A的关键词。在本申请中,全量人群的标签语料库可简称为“语料库”,其含义相同。
行业标签:指用于形容行业属性的标签,每一个行业标签分别与一个行业大类对应,例如:卫生、餐饮、银行,等等。本申请中提到的行业标签,是指基于成熟、合理、全面的行业划分标准下,对所有行业划分成若干个大类,每一个行业大类由一个行业标签命名。具体的,可以基于初始的全国工商企业的行业大类(119个),进行归并和处理之后,得到更准确的新行业大类,其中,新行业大类对应行业标签。
行业种子关键词:指能够精准定位行业大类(即行业属性)的关键词汇,换句话说,种子关键词是可以确定行业大类的充分条件,且行业大类带有种子关键词的大类信息(即属性信息)。种子关键词用于唯一确定行业大类(即行业标准)。举例来说,医护行业的关键词有:医生、主任、外科等,某人被标记为医生,那么他的行业一定属于医护行业,而一个人被标记为主任,他的行业不一定是医护行业;在这里“医生”就是医护行业的种子关键词,而主任则是关键词。
行业种子关键词词典:是指行业种子关键词汇总在一起形成的词典。
行业关键词:是指每一个行业大类所包含的行业属性信息。需指出,行业关键词一定是确定行业的充分条件的关键词汇。关键词的作用是为了全面覆盖行业属性,提升行业的覆盖人群。举例来说,医护行业的关键词有:医生、主任、外科等,某人被标记为医生,那么他的行业一定属于医护行业,而一个人被标记为主任,他的行业不一定是医护行业;在这里“医生”就是医护行业的种子关键词,而主任则是关键词。
行业关键词词典:是指行业关键词汇总在一起形成的词典。
词向量:指Word嵌入式自然语言处理(NLP)中的一组语言建模和特征学习技术的统称,其中来自词汇表的单词或短语被映射到实数的向量。
词向量空间:在同一个的语料库上运用相同的模型方法训练得到的词向量,汇总成词向量空间。
下面概要说明本申请的部分创新点:
本申请的发明人发现,看似抽象的职业标签,通过海量的数据分析也能推测出一部分用户的行业(职业)类型。比如经常有很多标签为“医院”的对象,那么对应职业就很大可能是“医务人员”,故个人的各种标签蕴含着个人的行业信息,有了这些标签作为算法输入,通过特定的处理方式,可以更加高效地判断个人从事的行业。
在本申请中,首先,通过对相似度的计算方式做了反复的尝试和参数的修正,在相似度最高Top10%的行业上,对对象的行业识别的准确度提升了20%。第二,通过增加贝叶斯算法,增加行业相似度的可解释性,并对识别的精度做了提升。在精准度80%的前提下,覆盖的人群增加了10%。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请的实施方式作进一步地详细描述。
本申请的第一实施方式涉及一种对象的行业识别方法,其流程如图1所示,该方法包括以下步骤:
步骤110:获取指定群体中的每一个工商企业的公司名称所属的行业大类。
需指出,在本实施方式中的指定群体是指全国所有工商企业。但本申请不限于此,也可以根据具体的需要,预先设定一个或多个区域内的工商企业、或者设定一个或多个具体的行业大类的工商企业。
另外,在本步骤中,还可以进一步地获取全量人群的标签语料库,以及全国所有工商企业的公司名称,这些数据均可视为是初始数据。
步骤120:确定每一个所述行业大类对应的行业标准向量。
具体的,如图2所示,步骤120进一步包含步骤121-124,具体如下:
步骤121:确定行业标签,所述每一个行业标签分别对应一个行业大类。
具体的,如上所述,本申请中提到的行业标签,是指基于成熟、合理、全面的行业划分标准下,对所有行业划分成若干个大类,每一个行业大类由一个行业标签命名。例如:卫生、餐饮、银行,等等。
进一步地的,可以基于上述初始的全国工商企业的行业大类(119个),进行归并和处理之后,得到更准确的新行业大类(70个),其中,每一个新行业大类对应一个行业标签。
步骤122:确定每一个所述行业标签对应的行业种子关键词。
具体的,对于每一个行业大类,对其中的每一个工商企业的公司名称进行分词并统计词频,删除无意义的词,并根据词频确定该行业大类的行业种子关键词。
步骤123:为每一个所述行业标签建立行业种子关键词词典。
具体的,通过计算获取每一个行业大类中每一个工商企业的公司名称中的词在上述全量人群的标签语料库中的词向量,并在所述词向量的空间中,根据“语义越相似的词,相互的空间距离越近”的特性,进行行业关键词的嵌入(embedding),建立该行业大类对应的行业标签的行业种子关键词词典。
具体的,“嵌入(embedding)”是指将文本转化为向量。
需指出,在本实施方式中,采用的是word2vec算法,计算获取每一个行业大类中每一个工商企业的公司名称中的词在上述全量人群的标签语料库中的词向量空间。
这样做的好处是提高语言理解的性能。
但本申请不限于此,在其它实施例中,也可以采用其它算法,例如较著名的采用neural network language model生成词向量的方法有:Skip-gram、CBOW、LBL、NNLM、C&W、GloVe等。
步骤124:根据所述行业大类对应的行业标签的行业种子关键词词典中的所有行业关键词的词向量,确定该行业大类对应的行业标准向量Vindustry。
具体的,每一个行业大类的行业标准向量Vindustry通过以下方式计算:
Vindustry=σ(Vwword1,Vword2,,......,Vwoidi).
其中,
Vindustry是每一个行业大类的行业标准向量。
Vword是行业大类对应的行业种子关键词词典中的每个行业关键词的词向量。
i是该行业种子关键词词典中的行业种子关键词的数量。
更具体的,在本实施方式中,每一个行业大类的行业标准向量通过以下方式计算:
Vindustry=avg(Vword1,Vword2,......,Vwordi)
即,根据每一个行业大类对应的词向量空间中,该行业大类对应的行业标签的行业种子关键词词典中的所有行业种子关键词集合的中心,确定该行业大类对应的行业标准向量。
这样做的好处在于,采用多重向量的中心,可以避免由于词向量表达不准确或者个别不准确词带来的偏移。
需指出,本申请不限于此,在其它实施例中,也可以根据词向量的重心点、加权平均点等方式,确定该行业大类的行业标准向量。
需指出,在本申请的其它实施方式中,步骤120还可以进一步包含以下步骤:根据预先设置的归并条件,对符合条件的行业大类进行归并。
具体的,由于工商行业划分的特殊性,一些行业之间在文本行业关键词方面存在及其相似的情况,举例来说,批发业和零售业(如:医药及医疗器材批发与医药及医疗器材专门零售)、批发零售业与其上游制造业(例如:医药制造业与医药及医疗器材批发),等等。因此,出于业务以及算法本身的原因,需要对这些行业进行归并。在本实施方式中,最终得到模型输出的行业为70个。
步骤130:确定待识别的对象在全量人群的标签语料库上的总行业向量Vclient。
具体的,如图3所示,步骤130进一步包含步骤131-132,具体如下:
步骤131:确定待识别的对象的语料库中包含的行业关键词的集合S。
具体的,通过将待识别的对象的语料库中所有的词与全量人群的标签语料库进行匹配,根据匹配结果确定该待识别的对象的语料库中包含的行业关键词的集合S。
步骤132:根据所述待识别的对象的行业关键词的集合S中的每一个行业关键词Wi的词向量Vwi及其词频fi,确定所述待识别的对象在所述全量人群的标签语料库上的总行业向量Vclient。
具体的,在本实施方式中,通过以下具体算法确定所述待识别的对象在所述全量人群的标签语料库上的总行业向量Vclient:
其中,
Vwi是待识别的对象的行业关键词的集合S中第i个关键词Wi的词向量。
fi是待识别的对象的行业关键词的集合S中第i个关键词Wi的词频。
n是值词频出现最高的前n个。
具体的,在本实施方式中,考虑到长尾对相似度准确率产生的影响,故取词频最高的前n个(即,top n)行业关键词,用于计算待识别的对象在所述全量人群的标签语料库上的总行业向量Vclient。其中,n的具体取值方式如下:
a是指待识别对象的实际行业关键词的数量。
步骤140:根据待识别的对象在全量人群的标签语料库上的总行业向量Vclient,与每一个所述行业大类对应的行业标准向量之间的相似度,确定所述待识别的对象所属的行业大类及其对应的行业标签。
具体的,如图4所示,步骤140进一步包含步骤141-142,具体如下:
步骤141:计算所述待识别的对象在所述全量人群的标签语料库上的总行业向量Vclient,与每一个所述行业大类对应的行业标准向量之间的相似度。
具体的,计算所述待识别的对象在所述全量人群的标签语料库上的总行业向量Vclient与每一个所述行业大类对应的行业标准向量之间的余弦值(cos值)。
需指出,考虑到标注入度(即该标签由其他人标记的次数)对最终相似度的影响,可以加入待识别的对象的语料库中包含的行业关键词的集合S的总的行业关键词频率,作为计算相似度Sim的参数。
需指出,上述“待识别的对象的语料库中包含的行业关键词的集合S的总的行业关键词频率”是指行业词典中词出现的频率,可以通过Ni/N(N表示词在行业词典中出现的次数,Ni表示词在某类行业中出现的次数)的方式计算获得。
具体的,在本实施方式中,通过以下具体公式计算相似度:
其中,
β是待识别的对象的语料库中包含的行业关键词的集合S的总的行业关键词频率。
需指出,上述Sim的值越大,说明相似度越高。这样是做的好处是这个词出现的频率越高,相似度的可信度越高。
根据上面的计算方式,得到置信行业为验证集,当n=10,β=1.2时,准确率最高。其中,n指待识别对象的实际行业关键词的数量。
步骤142:根据待识别的对象在全量人群的标签语料库上的总行业向量Vclient,与每一个所述行业大类对应的行业标准向量之间的相似度,确定所述待识别的对象对应的行业大类及其行业标签。
具体的,本步骤中,确定与所述待识别的对象在所述全量人群的标签语料库上的总行业向量Vclient的相似度最高的行业标准向量对应的行业大类的行业标签,作为所述待识别的对象的行业标签。
根据上述实施方式,首先,通过对相似度的具体计算方式做了进一步的改进,在相似度最高的Top10%的行业上,对客户的行业识别的准确度提升了20%。第二,通过增加贝叶斯算法,增加行业相似度的可解释性,并对识别的精度做了提升。在精准度80%的前提下,覆盖的人群增加了10%。从而显著提高准确率,并且覆盖更加广泛,并且,还能够有效进行粒度细化,并且,还提高了标准化和体系化程度。
本申请的第二实施方式涉及一种对象的行业识别装置,其结构如图5所示,该行业识别装置包括:获取模块,行业标准向量确定模块,行业标准向量确定模块,总行业向量确定模块和行业识别模块。具体如下:
获取模块,用于获取初始数据,所述初始数据至少包含每一个工商企业的公司名称所属的行业大类;
行业标准向量确定模块,用于确定每一个所述行业大类对应的行业标准向量;
总行业向量确定模块,用于确定待识别的对象在全量人群的标签语料库上的总行业向量Vclient;
行业识别模块,用于根据所述待识别的对象在全量人群的标签语料库上的总行业向量Vclient,与每一个所述行业大类对应的行业标准向量之间的相似度,确定所述待识别的对象所属的行业大类及其对应的行业标签。
进一步的,行业标准向量确定模块包含:行业标签子模块,行业种子关键词子模块,行业种子关键词词典子模块,和行业标准向量子模块。其中:
行业标签子模块,用于确定行业标签,其中,所述每一个行业标签分别对应一个所述行业大类;
行业种子关键词子模块,用于确定每一个所述行业标签对应的行业种子关键词;
行业种子关键词词典子模块,用于为每一个所述行业标签建立行业种子关键词词典;以及
行业标准向量子模块,用于根据所述行业大类对应的行业标签的行业种子关键词词典中的所有行业关键词的词向量,确定该行业大类对应的行业标准向量Vindustry。
进一步的,总行业向量确定模块包含行业关键词的集合子模块,总行业向量子模块。其中:
行业关键词的集合子模块,用于确定待识别的对象的语料库中包含的行业关键词的集合S;
总行业向量子模块,用于根据所述待识别的对象的行业关键词的集合S中的每一个行业关键词Wi的词向量Vwi及其词频fi,确定所述待识别的对象在所述全量人群的标签语料库上的总行业向量Vclient。
进一步的,行业识别模块包含相似度子模块,和行业大类及行业标签确定子模块。其中:
相似度子模块,用于计算所述待识别的对象在所述全量人群的标签语料库上的总行业向量Vclient,与每一个所述行业大类对应的行业标准向量之间的相似度;
行业大类及行业标签确定子模块,英语根据待识别的对象在全量人群的标签语料库上的总行业向量Vclient,与每一个所述行业大类对应的行业标准向量之间的相似度,确定所述待识别的对象对应的行业大类及其行业标签。
第一实施方式是与本实施方式相对应的方法实施方式,第一实施方式中的技术细节可以应用于本实施方式,本实施方式中的技术细节也可以应用于第一实施方式。
需要说明的是,本领域技术人员应当理解,上述对象的行业识别装置的实施方式中所示的各模块的实现功能可参照前述对象的行业识别方法的相关描述而理解。上述对象的行业识别装置的实施方式中所示的各模块的功能可通过运行于处理器上的程序(可执行指令)而实现,也可通过具体的逻辑电路而实现。本申请实施例上述对象的行业识别方法如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本申请实施例不限制于任何特定的硬件和软件结合。
相应地,本申请实施方式还提供一种计算机存储介质,其中存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现本申请的各方法实施方式。
此外,本申请实施方式还提供一种对象的行业识别设备,其中包括用于存储计算机可执行指令的存储器,以及,处理器;该处理器用于在执行该存储器中的计算机可执行指令时实现上述各方法实施方式中的步骤。其中,该处理器可以是中央处理单元(CentralProcessing Unit,简称“CPU”),还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,简称“DSP”)、专用集成电路(Appl ication Specific IntegratedCircuit,简称“ASIC”)等。前述的存储器可以是只读存储器(read-only memory,简称“ROM”)、随机存取存储器(random access memory,简称“RAM”)、快闪存储器(Flash)、硬盘或者固态硬盘等。本发明各实施方式所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
需要说明的是,在本专利的申请文件中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。本专利的申请文件中,如果提到根据某要素执行某行为,则是指至少根据该要素执行该行为的意思,其中包括了两种情况:仅根据该要素执行该行为、和根据该要素和其它要素执行该行为。多个、多次、多种等表达包括2个、2次、2种以及2个以上、2次以上、2种以上。
在本申请提及的所有文献都被认为是整体性地包括在本申请的公开内容中,以便在必要时可以作为修改的依据。此外应理解,在阅读了本申请的上述公开内容之后,本领域技术人员可以对本申请作各种改动或修改,这些等价形式同样落于本申请所要求保护的范围。