CN110188357A - 对象的行业识别方法及装置 - Google Patents

对象的行业识别方法及装置 Download PDF

Info

Publication number
CN110188357A
CN110188357A CN201910469470.5A CN201910469470A CN110188357A CN 110188357 A CN110188357 A CN 110188357A CN 201910469470 A CN201910469470 A CN 201910469470A CN 110188357 A CN110188357 A CN 110188357A
Authority
CN
China
Prior art keywords
industry
vector
label
identified
major class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910469470.5A
Other languages
English (en)
Other versions
CN110188357B (zh
Inventor
方精丽
王炀
方彦明
钟娙雩
贾全慧
赵凤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201910469470.5A priority Critical patent/CN110188357B/zh
Publication of CN110188357A publication Critical patent/CN110188357A/zh
Application granted granted Critical
Publication of CN110188357B publication Critical patent/CN110188357B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及计算机技术,公开了一种对象的行业识别方法及装置。本发明的对象的行业识别方法包括:获取初始数据,所述初始数据至少包含每一个工商企业的公司名称所属的行业大类;确定每一个所述行业大类对应的行业标准向量;确定待识别的对象在全量人群的标签语料库上的总行业向量,并根据所述待识别的对象在全量人群的标签语料库上的总行业向量,与每一个所述行业大类对应的行业标准向量之间的相似度,确定所述待识别的对象所属的行业大类及其对应的行业标签。本发明对用户的行业识别的准确率更高,覆盖更广,并且,能够有效进行粒度细化,并改善了标准化和体系化。

Description

对象的行业识别方法及装置
技术领域
本申请涉及计算机技术领域,特别涉及对象身份识别技术。
背景技术
随着互联网技术的发展和应用的普及,互联网产品的设计更需要贴近客户(即服务的对象,也可简称对象)的需求才能更好为客户服务,因此需要加强对客户的了解,以便针对不同类型的客户,做出差异化的风控产品。
具体的,了解客户需要对客户的真实身份做出刻画,即客户画像。客户画像是客群划分的基础。
具体的,判断客户的从事行业是对客户的重要认知之一,也决定了客户的收入水平的重要因素之一,进一步地,客户的收入水平的判断的精确性,则是客户差异化授信和定价的最重要和最基础的依据。
但是,长期以来,业内无法准确高效地判断客户的从事行业。
另一方面,仅依靠客户个人填写的基础信息,由于维度匮乏、信息缺失、填写的信息不准确,造成对判断客户的从事行业的判断的准确率较低。
总体来说,目前对客户的行业识别技术存在以下不足:准确率不够高、覆盖不够广泛,并且,无法有效进行粒度细化,并且标准化和体系化也欠缺。
发明内容
本申请的目的在于提供一种对象的识别方法及装置,能够显著提高准确率,并且覆盖更加广泛,并且,还能够有效进行粒度细化,并且,还提高了标准化和体系化程度。
为了解决上述问题,本申请公开了一种对象的行业识别方法,包括:
获取指定群体中的每一个工商企业的公司名称所属的行业大类;
确定每一个该行业大类对应的行业标准向量;
确定待识别的对象在全量人群的标签语料库上的总行业向量Vclient
根据该待识别的对象在全量人群的标签语料库上的总行业向量Vclient,与每一个该行业大类对应的行业标准向量Vindustry之间的相似度,确定该待识别的对象所属的行业大类及其对应的行业标签。
在一个优选例中,该确定每一个该行业大类对应的行业标准向量的步骤,包含:
确定行业标签,其中,该每一个行业标签分别对应一个该行业大类;
确定每一个该行业标签对应的行业种子关键词;
为每一个该行业标签建立行业种子关键词词典;以及
根据该行业大类对应的行业标签的行业种子关键词词典中的所有行业关键词的词向量,确定该行业大类对应的行业标准向量Vindustry
在一个优选例中,该确定待识别的对象在全量人群的标签语料库上的总行业向量Vclient的步骤,包含:
确定待识别的对象的语料库中包含的行业关键词的集合S;
根据该待识别的对象的行业关键词的集合S中的每一个行业关键词Wi的词向量Vwi及其词频fi,确定该待识别的对象在该全量人群的标签语料库上的总行业向量Vclient
在一个优选例中,该根据待识别的对象在全量人群的标签语料库上的总行业向量Vclient,与每一个该行业大类对应的行业标准向量Vindustry之间的相似度,确定该待识别的对象所属的行业大类及其对应的行业标签的步骤,包含:
计算该待识别的对象在该全量人群的标签语料库上的总行业向量Vclient,与每一个该行业大类对应的行业标准向量Vindustry之间的相似度;
根据待识别的对象在全量人群的标签语料库上的总行业向量Vclient,与每一个该行业大类对应的行业标准向量Vindustry之间的相似度,确定该待识别的对象对应的行业大类及其行业标签。
在一个优选例中,通过以下算法确定该待识别的对象在该全量人群的标签语料库上的总行业向量Vclient
其中,
Vwi是待识别的对象的行业关键词的集合S中第i个关键词Wi的词向量。
fi是待识别的对象的行业关键词的集合S中第i个关键词Wi的词频。
在一个优选例中,通过以下具体公式计算该待识别的对象在该全量人群的标签语料库上的总行业向量Vclient,与每一个该行业大类对应的行业标准向量Vindustry之间的相似度:
其中,
β是待识别的对象的语料库中包含的行业关键词的集合S的总的行业关键词频率。
本申请还公开了一种对象的行业识别装置,包含:
获取模块,用于获取初始数据,该初始数据至少包含每一个工商企业的公司名称所属的行业大类;
行业标准向量确定模块,用于确定每一个该行业大类对应的行业标准向量Vindustry
总行业向量确定模块,用于确定待识别的对象在全量人群的标签语料库上的总行业向量Vclient
行业识别模块,用于根据该待识别的对象在全量人群的标签语料库上的总行业向量Vclient,与每一个该行业大类对应的行业标准向量Vindustry之间的相似度,确定该待识别的对象所属的行业大类及其对应的行业标签。
在一个优选例中,该行业标准向量确定模块包含:
行业标签子模块,用于确定行业标签,其中,该每一个行业标签分别对应一个该行业大类;
行业种子关键词子模块,用于确定每一个该行业标签对应的行业种子关键词;
行业种子关键词词典子模块,用于为每一个该行业标签建立行业种子关键词词典;以及
行业标准向量子模块,用于根据该行业大类对应的行业标签的行业种子关键词词典中的所有行业关键词的词向量,确定该行业大类对应的行业标准向量Vindustry
在一个优选例中,该总行业向量确定模块包含:
行业关键词的集合子模块,用于确定待识别的对象的语料库中包含的行业关键词的集合S;
总行业向量子模块,用于根据该待识别的对象的行业关键词的集合S中的每一个行业关键词Wi的词向量Vwi及其词频fi,确定该待识别的对象在该全量人群的标签语料库上的总行业向量Vclient
在一个优选例中,该行业识别模块包含:
相似度子模块,用于计算该待识别的对象在该全量人群的标签语料库上的总行业向量Vclient,与每一个该行业大类对应的行业标准向量Vindustry之间的相似度;
行业大类及行业标签确定子模块,英语根据待识别的对象在全量人群的标签语料库上的总行业向量Vclient,与每一个该行业大类对应的行业标准向量Vindustry之间的相似度,确定该待识别的对象对应的行业大类及其行业标签。
本申请还公开了一种对象的行业识别设备,包括:
存储器,用于存储计算机可执行指令;以及,
处理器,用于在执行该计算机可执行指令时实现如前文描述的方法中的步骤。
本申请还公开了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现如前文描述的方法中的步骤。
本申请实施方式中,首先,通过对相似度的具体计算方式做了进一步的改进,在相似度最高的Top10%的行业上,对对象行业识别的准确度提升了20%。第二,通过增加贝叶斯算法,增加行业相似度的可解释性,并对识别的精度有进一步的提升。在精准度80%的前提下,覆盖的人群增加了10%。终上所述,通过2点改进,在显著提高准确率的同时,提升覆盖度,并且能够有效进行分类粒度细化,故有效提高了标准化和体系化程度。
本申请的说明书中记载了大量的技术特征,分布在各个技术方案中,如果要罗列出本申请所有可能的技术特征的组合(即技术方案)的话,会使得说明书过于冗长。为了避免这个问题,本申请上述发明内容中公开的各个技术特征、在下文各个实施方式和例子中公开的各技术特征、以及附图中公开的各个技术特征,都可以自由地互相组合,从而构成各种新的技术方案(这些技术方案均因视为在本说明书中已经记载),除非这种技术特征的组合在技术上是不可行的。例如,在一个例子中公开了特征A+B+C,在另一个例子中公开了特征A+B+D+E,而特征C和D是起到相同作用的等同技术手段,技术上只要择一使用即可,不可能同时采用,特征E技术上可以与特征C相组合,则,A+B+C+D的方案因技术不可行而应当不被视为已经记载,而A+B+C+E的方案应当视为已经被记载。
附图说明
图1是根据本申请第一实施方式的对象的行业识别方法的流程示意图;
图2,图3和图4是根据本申请第一实施方式的对象的行业识别方法的具体细节步骤的示意图;
图5是根据本申请的第二实施方式的对象的行业识别装置的结构示意图。
具体实施方式
在以下的叙述中,为了使读者更好地理解本申请而提出了许多技术细节。但是,本领域的普通技术人员可以理解,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。
部分概念的说明:
全量人群的标签语料库:是指基于对象的各个维度信息,归集和汇总,得到刻画对象特征的语料库。其中,刻画对象特征由不同的关键词表示,举例来说,A是一个出色的外科主任,别人对的A的标注有医生、外科主任等,“医生”,“外科主任”都是刻画A的关键词。在本申请中,全量人群的标签语料库可简称为“语料库”,其含义相同。
行业标签:指用于形容行业属性的标签,每一个行业标签分别与一个行业大类对应,例如:卫生、餐饮、银行,等等。本申请中提到的行业标签,是指基于成熟、合理、全面的行业划分标准下,对所有行业划分成若干个大类,每一个行业大类由一个行业标签命名。具体的,可以基于初始的全国工商企业的行业大类(119个),进行归并和处理之后,得到更准确的新行业大类,其中,新行业大类对应行业标签。
行业种子关键词:指能够精准定位行业大类(即行业属性)的关键词汇,换句话说,种子关键词是可以确定行业大类的充分条件,且行业大类带有种子关键词的大类信息(即属性信息)。种子关键词用于唯一确定行业大类(即行业标准)。举例来说,医护行业的关键词有:医生、主任、外科等,某人被标记为医生,那么他的行业一定属于医护行业,而一个人被标记为主任,他的行业不一定是医护行业;在这里“医生”就是医护行业的种子关键词,而主任则是关键词。
行业种子关键词词典:是指行业种子关键词汇总在一起形成的词典。
行业关键词:是指每一个行业大类所包含的行业属性信息。需指出,行业关键词一定是确定行业的充分条件的关键词汇。关键词的作用是为了全面覆盖行业属性,提升行业的覆盖人群。举例来说,医护行业的关键词有:医生、主任、外科等,某人被标记为医生,那么他的行业一定属于医护行业,而一个人被标记为主任,他的行业不一定是医护行业;在这里“医生”就是医护行业的种子关键词,而主任则是关键词。
行业关键词词典:是指行业关键词汇总在一起形成的词典。
词向量:指Word嵌入式自然语言处理(NLP)中的一组语言建模和特征学习技术的统称,其中来自词汇表的单词或短语被映射到实数的向量。
词向量空间:在同一个的语料库上运用相同的模型方法训练得到的词向量,汇总成词向量空间。
下面概要说明本申请的部分创新点:
本申请的发明人发现,看似抽象的职业标签,通过海量的数据分析也能推测出一部分用户的行业(职业)类型。比如经常有很多标签为“医院”的对象,那么对应职业就很大可能是“医务人员”,故个人的各种标签蕴含着个人的行业信息,有了这些标签作为算法输入,通过特定的处理方式,可以更加高效地判断个人从事的行业。
在本申请中,首先,通过对相似度的计算方式做了反复的尝试和参数的修正,在相似度最高Top10%的行业上,对对象的行业识别的准确度提升了20%。第二,通过增加贝叶斯算法,增加行业相似度的可解释性,并对识别的精度做了提升。在精准度80%的前提下,覆盖的人群增加了10%。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请的实施方式作进一步地详细描述。
本申请的第一实施方式涉及一种对象的行业识别方法,其流程如图1所示,该方法包括以下步骤:
步骤110:获取指定群体中的每一个工商企业的公司名称所属的行业大类。
需指出,在本实施方式中的指定群体是指全国所有工商企业。但本申请不限于此,也可以根据具体的需要,预先设定一个或多个区域内的工商企业、或者设定一个或多个具体的行业大类的工商企业。
另外,在本步骤中,还可以进一步地获取全量人群的标签语料库,以及全国所有工商企业的公司名称,这些数据均可视为是初始数据。
步骤120:确定每一个所述行业大类对应的行业标准向量。
具体的,如图2所示,步骤120进一步包含步骤121-124,具体如下:
步骤121:确定行业标签,所述每一个行业标签分别对应一个行业大类。
具体的,如上所述,本申请中提到的行业标签,是指基于成熟、合理、全面的行业划分标准下,对所有行业划分成若干个大类,每一个行业大类由一个行业标签命名。例如:卫生、餐饮、银行,等等。
进一步地的,可以基于上述初始的全国工商企业的行业大类(119个),进行归并和处理之后,得到更准确的新行业大类(70个),其中,每一个新行业大类对应一个行业标签。
步骤122:确定每一个所述行业标签对应的行业种子关键词。
具体的,对于每一个行业大类,对其中的每一个工商企业的公司名称进行分词并统计词频,删除无意义的词,并根据词频确定该行业大类的行业种子关键词。
步骤123:为每一个所述行业标签建立行业种子关键词词典。
具体的,通过计算获取每一个行业大类中每一个工商企业的公司名称中的词在上述全量人群的标签语料库中的词向量,并在所述词向量的空间中,根据“语义越相似的词,相互的空间距离越近”的特性,进行行业关键词的嵌入(embedding),建立该行业大类对应的行业标签的行业种子关键词词典。
具体的,“嵌入(embedding)”是指将文本转化为向量。
需指出,在本实施方式中,采用的是word2vec算法,计算获取每一个行业大类中每一个工商企业的公司名称中的词在上述全量人群的标签语料库中的词向量空间。
这样做的好处是提高语言理解的性能。
但本申请不限于此,在其它实施例中,也可以采用其它算法,例如较著名的采用neural network language model生成词向量的方法有:Skip-gram、CBOW、LBL、NNLM、C&W、GloVe等。
步骤124:根据所述行业大类对应的行业标签的行业种子关键词词典中的所有行业关键词的词向量,确定该行业大类对应的行业标准向量Vindustry
具体的,每一个行业大类的行业标准向量Vindustry通过以下方式计算:
Vindustry=σ(Vwword1,Vword2,,......,Vwoidi).
其中,
Vindustry是每一个行业大类的行业标准向量。
Vword是行业大类对应的行业种子关键词词典中的每个行业关键词的词向量。
i是该行业种子关键词词典中的行业种子关键词的数量。
更具体的,在本实施方式中,每一个行业大类的行业标准向量通过以下方式计算:
Vindustry=avg(Vword1,Vword2,......,Vwordi)
即,根据每一个行业大类对应的词向量空间中,该行业大类对应的行业标签的行业种子关键词词典中的所有行业种子关键词集合的中心,确定该行业大类对应的行业标准向量。
这样做的好处在于,采用多重向量的中心,可以避免由于词向量表达不准确或者个别不准确词带来的偏移。
需指出,本申请不限于此,在其它实施例中,也可以根据词向量的重心点、加权平均点等方式,确定该行业大类的行业标准向量。
需指出,在本申请的其它实施方式中,步骤120还可以进一步包含以下步骤:根据预先设置的归并条件,对符合条件的行业大类进行归并。
具体的,由于工商行业划分的特殊性,一些行业之间在文本行业关键词方面存在及其相似的情况,举例来说,批发业和零售业(如:医药及医疗器材批发与医药及医疗器材专门零售)、批发零售业与其上游制造业(例如:医药制造业与医药及医疗器材批发),等等。因此,出于业务以及算法本身的原因,需要对这些行业进行归并。在本实施方式中,最终得到模型输出的行业为70个。
步骤130:确定待识别的对象在全量人群的标签语料库上的总行业向量Vclient
具体的,如图3所示,步骤130进一步包含步骤131-132,具体如下:
步骤131:确定待识别的对象的语料库中包含的行业关键词的集合S。
具体的,通过将待识别的对象的语料库中所有的词与全量人群的标签语料库进行匹配,根据匹配结果确定该待识别的对象的语料库中包含的行业关键词的集合S。
步骤132:根据所述待识别的对象的行业关键词的集合S中的每一个行业关键词Wi的词向量Vwi及其词频fi,确定所述待识别的对象在所述全量人群的标签语料库上的总行业向量Vclient
具体的,在本实施方式中,通过以下具体算法确定所述待识别的对象在所述全量人群的标签语料库上的总行业向量Vclient
其中,
Vwi是待识别的对象的行业关键词的集合S中第i个关键词Wi的词向量。
fi是待识别的对象的行业关键词的集合S中第i个关键词Wi的词频。
n是值词频出现最高的前n个。
具体的,在本实施方式中,考虑到长尾对相似度准确率产生的影响,故取词频最高的前n个(即,top n)行业关键词,用于计算待识别的对象在所述全量人群的标签语料库上的总行业向量Vclient。其中,n的具体取值方式如下:
a是指待识别对象的实际行业关键词的数量。
步骤140:根据待识别的对象在全量人群的标签语料库上的总行业向量Vclient,与每一个所述行业大类对应的行业标准向量之间的相似度,确定所述待识别的对象所属的行业大类及其对应的行业标签。
具体的,如图4所示,步骤140进一步包含步骤141-142,具体如下:
步骤141:计算所述待识别的对象在所述全量人群的标签语料库上的总行业向量Vclient,与每一个所述行业大类对应的行业标准向量之间的相似度。
具体的,计算所述待识别的对象在所述全量人群的标签语料库上的总行业向量Vclient与每一个所述行业大类对应的行业标准向量之间的余弦值(cos值)。
需指出,考虑到标注入度(即该标签由其他人标记的次数)对最终相似度的影响,可以加入待识别的对象的语料库中包含的行业关键词的集合S的总的行业关键词频率,作为计算相似度Sim的参数。
需指出,上述“待识别的对象的语料库中包含的行业关键词的集合S的总的行业关键词频率”是指行业词典中词出现的频率,可以通过Ni/N(N表示词在行业词典中出现的次数,Ni表示词在某类行业中出现的次数)的方式计算获得。
具体的,在本实施方式中,通过以下具体公式计算相似度:
其中,
β是待识别的对象的语料库中包含的行业关键词的集合S的总的行业关键词频率。
需指出,上述Sim的值越大,说明相似度越高。这样是做的好处是这个词出现的频率越高,相似度的可信度越高。
根据上面的计算方式,得到置信行业为验证集,当n=10,β=1.2时,准确率最高。其中,n指待识别对象的实际行业关键词的数量。
步骤142:根据待识别的对象在全量人群的标签语料库上的总行业向量Vclient,与每一个所述行业大类对应的行业标准向量之间的相似度,确定所述待识别的对象对应的行业大类及其行业标签。
具体的,本步骤中,确定与所述待识别的对象在所述全量人群的标签语料库上的总行业向量Vclient的相似度最高的行业标准向量对应的行业大类的行业标签,作为所述待识别的对象的行业标签。
根据上述实施方式,首先,通过对相似度的具体计算方式做了进一步的改进,在相似度最高的Top10%的行业上,对客户的行业识别的准确度提升了20%。第二,通过增加贝叶斯算法,增加行业相似度的可解释性,并对识别的精度做了提升。在精准度80%的前提下,覆盖的人群增加了10%。从而显著提高准确率,并且覆盖更加广泛,并且,还能够有效进行粒度细化,并且,还提高了标准化和体系化程度。
本申请的第二实施方式涉及一种对象的行业识别装置,其结构如图5所示,该行业识别装置包括:获取模块,行业标准向量确定模块,行业标准向量确定模块,总行业向量确定模块和行业识别模块。具体如下:
获取模块,用于获取初始数据,所述初始数据至少包含每一个工商企业的公司名称所属的行业大类;
行业标准向量确定模块,用于确定每一个所述行业大类对应的行业标准向量;
总行业向量确定模块,用于确定待识别的对象在全量人群的标签语料库上的总行业向量Vclient
行业识别模块,用于根据所述待识别的对象在全量人群的标签语料库上的总行业向量Vclient,与每一个所述行业大类对应的行业标准向量之间的相似度,确定所述待识别的对象所属的行业大类及其对应的行业标签。
进一步的,行业标准向量确定模块包含:行业标签子模块,行业种子关键词子模块,行业种子关键词词典子模块,和行业标准向量子模块。其中:
行业标签子模块,用于确定行业标签,其中,所述每一个行业标签分别对应一个所述行业大类;
行业种子关键词子模块,用于确定每一个所述行业标签对应的行业种子关键词;
行业种子关键词词典子模块,用于为每一个所述行业标签建立行业种子关键词词典;以及
行业标准向量子模块,用于根据所述行业大类对应的行业标签的行业种子关键词词典中的所有行业关键词的词向量,确定该行业大类对应的行业标准向量Vindustry
进一步的,总行业向量确定模块包含行业关键词的集合子模块,总行业向量子模块。其中:
行业关键词的集合子模块,用于确定待识别的对象的语料库中包含的行业关键词的集合S;
总行业向量子模块,用于根据所述待识别的对象的行业关键词的集合S中的每一个行业关键词Wi的词向量Vwi及其词频fi,确定所述待识别的对象在所述全量人群的标签语料库上的总行业向量Vclient
进一步的,行业识别模块包含相似度子模块,和行业大类及行业标签确定子模块。其中:
相似度子模块,用于计算所述待识别的对象在所述全量人群的标签语料库上的总行业向量Vclient,与每一个所述行业大类对应的行业标准向量之间的相似度;
行业大类及行业标签确定子模块,英语根据待识别的对象在全量人群的标签语料库上的总行业向量Vclient,与每一个所述行业大类对应的行业标准向量之间的相似度,确定所述待识别的对象对应的行业大类及其行业标签。
第一实施方式是与本实施方式相对应的方法实施方式,第一实施方式中的技术细节可以应用于本实施方式,本实施方式中的技术细节也可以应用于第一实施方式。
需要说明的是,本领域技术人员应当理解,上述对象的行业识别装置的实施方式中所示的各模块的实现功能可参照前述对象的行业识别方法的相关描述而理解。上述对象的行业识别装置的实施方式中所示的各模块的功能可通过运行于处理器上的程序(可执行指令)而实现,也可通过具体的逻辑电路而实现。本申请实施例上述对象的行业识别方法如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本申请实施例不限制于任何特定的硬件和软件结合。
相应地,本申请实施方式还提供一种计算机存储介质,其中存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现本申请的各方法实施方式。
此外,本申请实施方式还提供一种对象的行业识别设备,其中包括用于存储计算机可执行指令的存储器,以及,处理器;该处理器用于在执行该存储器中的计算机可执行指令时实现上述各方法实施方式中的步骤。其中,该处理器可以是中央处理单元(CentralProcessing Unit,简称“CPU”),还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,简称“DSP”)、专用集成电路(Appl ication Specific IntegratedCircuit,简称“ASIC”)等。前述的存储器可以是只读存储器(read-only memory,简称“ROM”)、随机存取存储器(random access memory,简称“RAM”)、快闪存储器(Flash)、硬盘或者固态硬盘等。本发明各实施方式所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
需要说明的是,在本专利的申请文件中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。本专利的申请文件中,如果提到根据某要素执行某行为,则是指至少根据该要素执行该行为的意思,其中包括了两种情况:仅根据该要素执行该行为、和根据该要素和其它要素执行该行为。多个、多次、多种等表达包括2个、2次、2种以及2个以上、2次以上、2种以上。
在本申请提及的所有文献都被认为是整体性地包括在本申请的公开内容中,以便在必要时可以作为修改的依据。此外应理解,在阅读了本申请的上述公开内容之后,本领域技术人员可以对本申请作各种改动或修改,这些等价形式同样落于本申请所要求保护的范围。

Claims (12)

1.一种对象的行业识别方法,包括:
获取指定群体中的每一个工商企业的公司名称所属的行业大类;
确定每一个所述行业大类对应的行业标准向量Vindustry
确定待识别的对象在全量人群的标签语料库上的总行业向量Vclient
根据所述待识别的对象在全量人群的标签语料库上的总行业向量Vclient,与每一个所述行业大类对应的行业标准向量Vindustry之间的相似度,确定所述待识别的对象所属的行业大类及其对应的行业标签。
2.如权利要求1所述的方法,所述确定每一个所述行业大类对应的行业标准向量的步骤,包含:
确定行业标签,其中,所述每一个行业标签分别对应一个所述行业大类;
确定每一个所述行业标签对应的行业种子关键词;
为每一个所述行业标签建立行业种子关键词词典;以及
根据所述行业大类对应的行业标签的行业种子关键词词典中的所有行业关键词的词向量,确定该行业大类对应的行业标准向量Vindustry
3.如权利要求1或2所述的方法,所述确定待识别的对象在全量人群的标签语料库上的总行业向量Vclient的步骤,包含:
确定待识别的对象的语料库中包含的行业关键词的集合S;
根据所述待识别的对象的行业关键词的集合S中的每一个行业关键词Wi的词向量Vwi及其词频fi,确定所述待识别的对象在所述全量人群的标签语料库上的总行业向量Vclient
4.如权利要求3所述的方法,所述根据待识别的对象在全量人群的标签语料库上的总行业向量Vclient,与每一个所述行业大类对应的行业标准向量Vindustry之间的相似度,确定所述待识别的对象所属的行业大类及其对应的行业标签的步骤,包含:
计算所述待识别的对象在所述全量人群的标签语料库上的总行业向量Vclient,与每一个所述行业大类对应的行业标准向量Vindustry之间的相似度;
根据待识别的对象在全量人群的标签语料库上的总行业向量Vclient,与每一个所述行业大类对应的行业标准向量Vindustry之间的相似度,确定所述待识别的对象对应的行业大类及其行业标签。
5.如权利要求3所述的方法,通过以下算法确定所述待识别的对象在所述全量人群的标签语料库上的总行业向量Vclient
其中,
Vwi是待识别的对象的行业关键词的集合S中第i个关键词Wi的词向量。
fi是待识别的对象的行业关键词的集合S中第i个关键词Wi的词频。
6.如权利要求4所述的方法,通过以下具体公式计算所述待识别的对象在所述全量人群的标签语料库上的总行业向量Vclient,与每一个所述行业大类对应的行业标准向量Vindustry之间的相似度:
其中,
β是待识别的对象的语料库中包含的行业关键词的集合S的总的行业关键词频率。
7.一种对象的行业识别装置,包含:
获取模块,用于获取初始数据,所述初始数据至少包含每一个工商企业的公司名称所属的行业大类;
行业标准向量确定模块,用于确定每一个所述行业大类对应的行业标准向量Vindustry
总行业向量确定模块,用于确定待识别的对象在全量人群的标签语料库上的总行业向量Vclient
行业识别模块,用于根据所述待识别的对象在全量人群的标签语料库上的总行业向量Vclient,与每一个所述行业大类对应的行业标准向量Vindustry之间的相似度,确定所述待识别的对象所属的行业大类及其对应的行业标签。
8.如权利要求7所述的方法,所述行业标准向量确定模块包含:
行业标签子模块,用于确定行业标签,其中,所述每一个行业标签分别对应一个所述行业大类;
行业种子关键词子模块,用于确定每一个所述行业标签对应的行业种子关键词;
行业种子关键词词典子模块,用于为每一个所述行业标签建立行业种子关键词词典;以及
行业标准向量子模块,用于根据所述行业大类对应的行业标签的行业种子关键词词典中的所有行业关键词的词向量,确定该行业大类对应的行业标准向量Vindustry
9.如权利要求7或8所述的方法,所述总行业向量确定模块包含:
行业关键词的集合子模块,用于确定待识别的对象的语料库中包含的行业关键词的集合S;
总行业向量子模块,用于根据所述待识别的对象的行业关键词的集合S中的每一个行业关键词Wi的词向量Vwi及其词频fi,确定所述待识别的对象在所述全量人群的标签语料库上的总行业向量Vclient
10.如权利要求9所述的方法,所述行业识别模块包含:
相似度子模块,用于计算所述待识别的对象在所述全量人群的标签语料库上的总行业向量Vclient,与每一个所述行业大类对应的行业标准向量Vindustry之间的相似度;
行业大类及行业标签确定子模块,英语根据待识别的对象在全量人群的标签语料库上的总行业向量Vclient,与每一个所述行业大类对应的行业标准向量Vindustry之间的相似度,确定所述待识别的对象对应的行业大类及其行业标签。
11.一种对象的行业识别设备,包括:
存储器,用于存储计算机可执行指令;以及,
处理器,用于在执行所述计算机可执行指令时实现如权利要求1至5中任意一项所述的方法中的步骤。
12.一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器执行时实现如权利要求1至6中任意一项所述的方法中的步骤。
CN201910469470.5A 2019-05-31 2019-05-31 对象的行业识别方法及装置 Active CN110188357B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910469470.5A CN110188357B (zh) 2019-05-31 2019-05-31 对象的行业识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910469470.5A CN110188357B (zh) 2019-05-31 2019-05-31 对象的行业识别方法及装置

Publications (2)

Publication Number Publication Date
CN110188357A true CN110188357A (zh) 2019-08-30
CN110188357B CN110188357B (zh) 2023-06-20

Family

ID=67719424

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910469470.5A Active CN110188357B (zh) 2019-05-31 2019-05-31 对象的行业识别方法及装置

Country Status (1)

Country Link
CN (1) CN110188357B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674248A (zh) * 2019-09-23 2020-01-10 税友软件集团股份有限公司 一种行业数据识别装置、相关方法及相关装置
CN111062642A (zh) * 2019-12-27 2020-04-24 南京三百云信息科技有限公司 对象的行业风险程度识别方法、装置以及电子设备
CN113553400A (zh) * 2021-07-26 2021-10-26 杭州叙简科技股份有限公司 一种企业知识图谱实体链接模型的构建方法及装置
CN113987166A (zh) * 2021-10-11 2022-01-28 科技日报社 基于全媒体内容可信共治的标签生成方法及装置
WO2022068297A1 (zh) * 2020-09-30 2022-04-07 深圳前海微众银行股份有限公司 行业标签的确定方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180060437A1 (en) * 2016-08-29 2018-03-01 EverString Innovation Technology Keyword and business tag extraction
CN107944480A (zh) * 2017-11-16 2018-04-20 广州探迹科技有限公司 一种企业行业分类方法
WO2018099275A1 (zh) * 2016-11-29 2018-06-07 阿里巴巴集团控股有限公司 一种业务对象属性标识的生成方法、装置和系统
CN108460014A (zh) * 2018-02-07 2018-08-28 百度在线网络技术(北京)有限公司 企业实体的识别方法、装置、计算机设备及存储介质
CN108733778A (zh) * 2018-05-04 2018-11-02 百度在线网络技术(北京)有限公司 对象的行业类型识别方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180060437A1 (en) * 2016-08-29 2018-03-01 EverString Innovation Technology Keyword and business tag extraction
WO2018099275A1 (zh) * 2016-11-29 2018-06-07 阿里巴巴集团控股有限公司 一种业务对象属性标识的生成方法、装置和系统
CN107944480A (zh) * 2017-11-16 2018-04-20 广州探迹科技有限公司 一种企业行业分类方法
CN108460014A (zh) * 2018-02-07 2018-08-28 百度在线网络技术(北京)有限公司 企业实体的识别方法、装置、计算机设备及存储介质
CN108733778A (zh) * 2018-05-04 2018-11-02 百度在线网络技术(北京)有限公司 对象的行业类型识别方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
柳路芳等: "基于词向量与可比语料库的双语词典提取研究", 《计算机工程与科学》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674248A (zh) * 2019-09-23 2020-01-10 税友软件集团股份有限公司 一种行业数据识别装置、相关方法及相关装置
CN111062642A (zh) * 2019-12-27 2020-04-24 南京三百云信息科技有限公司 对象的行业风险程度识别方法、装置以及电子设备
WO2022068297A1 (zh) * 2020-09-30 2022-04-07 深圳前海微众银行股份有限公司 行业标签的确定方法、装置、设备及存储介质
CN113553400A (zh) * 2021-07-26 2021-10-26 杭州叙简科技股份有限公司 一种企业知识图谱实体链接模型的构建方法及装置
CN113987166A (zh) * 2021-10-11 2022-01-28 科技日报社 基于全媒体内容可信共治的标签生成方法及装置

Also Published As

Publication number Publication date
CN110188357B (zh) 2023-06-20

Similar Documents

Publication Publication Date Title
CN110188357A (zh) 对象的行业识别方法及装置
US11847113B2 (en) Method and system for supporting inductive reasoning queries over multi-modal data from relational databases
WO2019157946A1 (zh) 一种反洗钱方法、装置及设备
US9262445B2 (en) Image ranking based on attribute correlation
WO2022105115A1 (zh) 问答对匹配方法、装置、电子设备及存储介质
CN110032728B (zh) 疾病名称标准化的转换方法和装置
Malik et al. Applied unsupervised learning with R: Uncover hidden relationships and patterns with k-means clustering, hierarchical clustering, and PCA
WO2020238229A1 (zh) 交易特征生成模型的训练、交易特征的生成方法和装置
Lei et al. Patent analytics based on feature vector space model: A case of IoT
CN108874768A (zh) 一种基于主题情感联合概率的电子商务虚假评论识别方法
WO2019072007A1 (zh) 一种数据处理方法及装置
Wang et al. How polarized have we become? a multimodal classification of trump followers and clinton followers
CN108287916B (zh) 一种资源推荐方法
Angadi et al. Multimodal sentiment analysis using reliefF feature selection and random forest classifier
CN112132238A (zh) 一种识别隐私数据的方法、装置、设备和可读介质
CN111178533A (zh) 实现自动半监督机器学习的方法及装置
CN109543945A (zh) 企业创新评估方法及终端设备
JP5933863B1 (ja) データ分析システム、制御方法、制御プログラム、および記録媒体
CN111368081A (zh) 一种精选文本内容确定方法和系统
CN113821641B (zh) 基于权重分配的药品分类的方法、装置、设备及存储介质
JP6178480B1 (ja) データ分析システム、その制御方法、プログラム、及び、記録媒体
CN109284693A (zh) 基于字迹关键点的金融行为预测方法、装置、电子设备
Xia et al. Semantic similarity metric learning for sketch-based 3D shape retrieval
Ntekouli et al. Clustering individuals based on multivariate EMA time-series data
Yu et al. A Novel Deep Ensemble Framework for Online Signature Verification Using Temporal and Spatial Representation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200923

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman, British Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

Effective date of registration: 20200923

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman, British Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman, British Islands

Applicant before: Advanced innovation technology Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant