CN112215288B - 目标企业的类别确定方法及装置、存储介质、电子装置 - Google Patents
目标企业的类别确定方法及装置、存储介质、电子装置 Download PDFInfo
- Publication number
- CN112215288B CN112215288B CN202011091986.XA CN202011091986A CN112215288B CN 112215288 B CN112215288 B CN 112215288B CN 202011091986 A CN202011091986 A CN 202011091986A CN 112215288 B CN112215288 B CN 112215288B
- Authority
- CN
- China
- Prior art keywords
- target enterprise
- information
- category
- target
- enterprise
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 239000013598 vector Substances 0.000 claims abstract description 101
- 230000002159 abnormal effect Effects 0.000 claims abstract description 35
- 238000004422 calculation algorithm Methods 0.000 claims description 27
- 238000004590 computer program Methods 0.000 claims description 16
- 230000011218 segmentation Effects 0.000 claims description 14
- 230000009467 reduction Effects 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 8
- 238000005516 engineering process Methods 0.000 claims description 3
- 238000012827 research and development Methods 0.000 claims description 2
- 238000004220 aggregation Methods 0.000 claims 1
- 230000002776 aggregation Effects 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 9
- 230000005540 biological transmission Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000003595 spectral effect Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000003064 k means clustering Methods 0.000 description 3
- 238000000513 principal component analysis Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000007635 classification algorithm Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Educational Administration (AREA)
- Development Economics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Game Theory and Decision Science (AREA)
- Probability & Statistics with Applications (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供了一种目标企业的类别确定方法及装置、存储介质、电子装置,方法包括分别获取多个目标企业在指定信息维度的多个维度信息;确定该多个目标企业中的每一个目标企业的每一个维度信息所对应的向量;对该向量进行第一聚类,得到每个该目标企业的特征向量;根据每个该目标企业的该特征向量确定该目标企业的实际类别,因此,可以准确的确定目标企业所属的实际类别,可以解决目前所存在的无法准确确定目标企业的类别而导致的目标企业账号异常的问题,达到提高分类准确度的技术效果。
Description
技术领域
本发明涉及通信领域,具体而言,涉及一种目标企业的类别确定方法及装置、存储介质,电子装置。
背景技术
相关技术中,一般是根据一个目标企业的原始登记或注册的类别对该目标企业的账号进行监控或管理。然而,目标企业的实际活动内容可能与该目标企业的原始类别存在偏差,由于不同类别的目标企业所对应的账号会有不同的监控、管理标准,如果不能准确确定一个目标企业的实际类别,会出现目标企业的账号与监控、管理标准不匹配的情况,导致账号发生异常,会影响账号数据安全。
如何确定一个目标企业的实际活动内容是否与其原始类别有偏差是一个亟需解决的问题。目前,如果需要确定一个目标企业的类别,例如企业的行业类别,只能对企业的数值型数据进行分析(如投资金额、营业收入等)。这种方法操作复杂,精确度很低,无法准确确定目标企业的实际活动内容(例如企业经营活动)是哪种类别(例如行业类别),进一步就更无法确定该目标企业的活动内容与该目标企业的原始类别(例如该企业登记注册的类别)是否一致或者说相匹配。
针对目前所存在的无法准确确定目标企业的类别而导致的目标企业账号异常的问题,尚不存在较好的解决方案。
发明内容
本发明实施例提供了一种目标企业的类别确定方法及装置、存储介质、电子装置,以至少解决相关技术中无法准确确定目标企业的类别的问题。
根据本发明的一个实施例,提供了一种目标企业的类别确定方法,包括:分别获取多个目标企业在指定信息维度的多个维度信息;确定所述多个目标企业中的每一个目标企业在所述指定信息维度的所有维度信息所对应的向量;对所述向量进行第一聚类,得到每个所述目标企业的特征向量;根据每个所述目标企业的所述特征向量确定所述目标企业的实际类别。
根据本发明的另一个实施例,提供了一种目标企业的类别确定装置,包括:
获取模块,用于分别获取多个目标企业在指定信息维度的多个维度信息;
第一确定模块,用于确定所述多个目标企业中的每一个目标企业在所述指定信息维度的所有维度信息所对应的向量;
聚类模块,用于对所述向量进行第一聚类,得到每个所述目标企业的特征向量;
第二确定模块,用于根据每个所述目标企业的所述特征向量确定所述目标企业的实际类别。
根据本发明的又一个实施例,还提供了一种计算机可读的存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
根据本发明的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
通过本发明实施例,由于分别获取多个目标企业在指定信息维度的多个维度信息;确定所述多个目标企业中的每一个目标企业的每一个维度信息所对应的向量;对所述向量进行第一聚类,得到每个所述目标企业的特征向量;根据每个所述目标企业的所述特征向量确定所述目标企业的实际类别,因此,可以准确的确定目标企业所属的实际类别,可以解决目前所存在的无法准确确定目标企业的类别而导致的目标企业账号异常的问题,达到提高分类准确度的技术效果。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明实施例的一种目标企业的类别确定方法的运算装置的硬件结构框图;
图2是根据本发明实施例的目标企业的类别确定方法的流程图;
图3是根据本发明实施例的目标企业的类别确定装置的结构框图;
图4是根据本发明示例实施方式的聚类结果的示意图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
实施例1
本申请实施例一所提供的方法实施例可以在移动终端、计算机终端、服务器或者类似的运算装置中执行。以运行在运算装置上为例,图1是本发明实施例的一种目标企业的类别确定方法的运算装置的硬件结构框图。如图1所示,运算装置10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,可选地,上述运算装置还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述运算装置的结构造成限定。例如,运算装置10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的目标企业的类别确定方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至运算装置10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括运算装置10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种运行于上述运算装置的目标企业的类别确定方法,图2是根据本发明实施例的目标企业的类别确定方法的流程图,如图2所示,该流程包括如下步骤:
步骤S202,分别获取多个目标企业在指定信息维度的多个维度信息;
步骤S204,确定该多个目标企业中的每一个目标企业在该指定信息维度的所有维度信息所对应的向量;
步骤S206,对该向量进行第一聚类,得到每个该目标企业的特征向量;
步骤S208,根据每个该目标企业的该特征向量确定该目标企业的实际类别。
通过上述步骤,由于分别获取多个目标企业在指定信息维度的多个维度信息;确定该多个目标企业中的每一个目标企业的每一个维度信息所对应的向量;对该向量进行第一聚类,得到每个该目标企业的特征向量;根据每个该目标企业的该特征向量确定该目标企业的实际类别,因此,可以准确的确定目标企业所属的实际类别,可以解决目前所存在的无法准确确定目标企业的类别而导致的目标企业账号异常的问题,达到提高分类准确度的技术效果。
在一个示例性的实施方式中,每一个维度信息都对应了一个向量。
在一个示例性的实施方式中,该根据每个该目标企业的该特征向量确定该目标企业的实际类别,包括:对每个该目标企业的特征向量进行第二聚类;根据该第二聚类的聚类结果确定该目标企业的实际类别,其中,在该聚类结果中,与指定聚类中心的第一相似度位于第一预设范围之内的目标企业的实际类别为该指定聚类中心所在的聚类类别。该距离可以用一些平面距离表示,例如欧氏距离、曼哈顿距离等。
在一个示例性的实施方式中,根据该第二聚类的聚类结果确定该目标企业的实际类别,包括:对该第二聚类的聚类结果进行降维处理,得到二维聚类结果;根据该二维聚类结果确定该目标企业的实际类别,其中,该第一相似度通过该二维聚类结果中的该目标企业距该指定聚类中心的距离来表征,该第一预设范围为预设的距离范围。
在一个示例性的实施方式中,该确定该多个目标企业中的每一个目标企业在该指定信息维度的所有维度信息所对应的向量,包括:分别对该多个目标企业中的每一个该目标企业的每一个该维度信息进行分词处理,得到多个分词;利用词汇转向量算法将该分词转换为向量,得到该多个目标企业中的每一个该目标企业在该指定信息维度的所有维度信息所对应的向量。
在一个示例性的实施方式中,该对该向量进行第一聚类,得到每个该目标企业的特征向量,包括:确定每一个该维度信息的基准向量;分别确定每一个该目标企业的每一个该维度信息与该基准向量的第二相似度;分别根据该第二相似度确定每一个该目标企业的特征向量。
需要说明的是,示例性的,本实施例中的“相似度”都可以通过降维处理后的结果中的平面距离确定。
在一个示例性的实施方式中,本实施例的方法还包括:根据该目标企业的实际类别与原始类别确定该目标企业是否是异常目标企业,其中,一个目标企业对应一种原始类别,实际类别与该原始类别不一致的目标企业为该异常目标企业。需要说明的是,确定出异常目标企业后,可以对异常的目标企业的账号进行一些对应的调整管控处理。
在一个示例性的实施方式中,本实施例的方法还包括:对于被确定为该异常目标企业的目标企业,根据该目标企业与自身的原始类别的相似度以及该目标企业与自身的实际类别的相似度的相差值确定异常目标企业子类,其中,该相差值用于指示目标企业偏离自身的原始类别的偏离程度,不同的相差值范围对应了不同的该异常目标企业子类。需要说明的是,确定出不同的异常目标企业子类有利于对异常的目标企业进行分级管理控制。
在本实施例中还提供了一种目标企业的类别确定装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图3是根据本发明实施例的目标企业的类别确定装置的结构框图,如图3所示,该装置包括:
获取模块31,用于分别获取多个目标企业在指定信息维度的多个维度信息;
第一确定模块33,用于确定所述多个目标企业中的每一个目标企业在所述指定信息维度的所有维度信息所对应的向量;
聚类模块35,用于对所述向量进行第一聚类,得到每个所述目标企业的特征向量;
第二确定模块37,用于根据每个所述目标企业的所述特征向量确定所述目标企业的实际类别。
通过上述模块,由于分别获取多个目标企业在指定信息维度的多个维度信息;确定该多个目标企业中的每一个目标企业的每一个维度信息所对应的向量;对该向量进行第一聚类,得到每个该目标企业的特征向量;根据每个该目标企业的该特征向量确定该目标企业的实际类别,因此,可以准确的确定目标企业所属的实际类别,可以解决目前所存在的无法准确确定目标企业的类别而导致的目标企业账号异常的问题,达到提高分类准确度的技术效果。
在一个示例性的实施方式中,该根据每个该目标企业的该特征向量确定该目标企业的实际类别,包括:对每个该目标企业的特征向量进行第二聚类;根据该第二聚类的聚类结果确定该目标企业的实际类别,其中,在该聚类结果中,与指定聚类中心的第一相似度位于第一预设范围之内的目标企业的实际类别为该指定聚类中心所在的聚类类别。该距离可以用一些平面距离表示,例如欧氏距离、曼哈顿距离等。
在一个示例性的实施方式中,根据该第二聚类的聚类结果确定该目标企业的实际类别,包括:对该第二聚类的聚类结果进行降维处理,得到二维聚类结果;根据该二维聚类结果确定该目标企业的实际类别,其中,该第一相似度通过该二维聚类结果中的该目标企业距该指定聚类中心的距离来表征,该第一预设范围为预设的距离范围。
在一个示例性的实施方式中,该确定该多个目标企业中的每一个目标企业在该指定信息维度的所有维度信息所对应的向量,包括:分别对该多个目标企业中的每一个该目标企业的每一个该维度信息进行分词处理,得到多个分词;利用词汇转向量算法将该分词转换为向量,得到该多个目标企业中的每一个该目标企业在该指定信息维度的所有维度信息所对应的向量。
在一个示例性的实施方式中,该对该向量进行第一聚类,得到每个该目标企业的特征向量,包括:确定每一个该维度信息的基准向量;分别确定每一个该目标企业的每一个该维度信息与该基准向量的第二相似度;分别根据该第二相似度确定每一个该目标企业的特征向量。
需要说明的是,示例性的,本实施例中的“相似度”都可以通过降维处理后的结果中的平面距离确定。
在一个示例性的实施方式中,本实施例的装置还包括:第三确定模块,用于根据该目标企业的实际类别与原始类别确定该目标企业是否是异常目标企业,其中,一个目标企业对应一种原始类别,实际类别与该原始类别不一致的目标企业为该异常目标企业。需要说明的是,确定出异常目标企业后,可以对异常的目标企业进行管控处理。
在一个示例性的实施方式中,本实施例的装置还包括:所述第三确定模块,还用于对于被确定为该异常目标企业的目标企业,根据该目标企业与自身的原始类别的相似度以及该目标企业与自身的实际类别的相似度的相差值确定异常目标企业子类,其中,该相差值用于指示目标企业偏离自身的原始类别的偏离程度,不同的相差值范围对应了不同的该异常目标企业子类。需要说明的是,确定出不同的异常目标企业子类有利于对异常的目标企业进行分级管理控制。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
示例实施方式
以下结合具体实施场景对本发明实施例进行进一步解释说明。
例如,在需要评判不同目标企业在某项领域的投入时,例如,评判不同企业在科技领域的投入时,可以采用如下的方法:
示例性地,可以制定企业信息挖掘分析框架,例如财务信息,获取每个企业的若干类的文本描述,这些类可以是预设的类,例如,这些类可以是与科技投入相关的类。利用word2vec(即一群用来产生词向量的相关模型)得到目标企业的不同类的文本描述的分词的向量表示,其中,包括但不限于转换为64维向量,训练得到分词的向量表示,然后得出每个目标企业(例如企业)每一类的向量表示,然后进行聚类(聚类方法包括但不限于k-means聚类、层次聚类、谱聚类等),再使用降维算法对数据进行降维(包括但不限于t-sne、PCA方法等),查看初步的聚类结果;再选择合适的聚类算法(包括但不限于k-means算法(也可以称为kmeans算法或者Kmeans算法)、层次聚类算法、谱聚类算法等算法)对企业进行聚类,根据每个企业跟每类企业聚类中心的相似度,列出距离聚类中心较远的企业,进行分析。
需要说明的是,示例性地,对于目标企业的多个类的文本描述,不同文本描述的原始中文语句可以使用分词算法(包括但不限于命名实体识别技术),或者相关技术中的分词工具包(包括但不限于jieba、THUlac等)将完整语句划分为多个词语,该过程称为分词。而word2vec可以将分词后的每个词语转换为词向量。
相关技术中只能对企业的数值型指标进行分析,本实施例所提供的方法可以将企业的文本信息进行量化,从而确定企业的实际类别,找出异常企业。
示例性地,以企业科技投入情况分析为例,可以获取企业的与科技投入相关的一些数据,该数据的种类可以预先设定,例如5类、10类等,不同类的选择也可以预先设定,示例性地,可以收集企业科技投入相关(相当于上述实施例中的某一种信息维度)的20类数据(相当于上述实施例中的维度信息),即平台描述、研发投入、科技合作、科技人员、专利、科技背景、产品效用/影响、外部政策、内部战略、模式、科技描述、宣传、设立/建立、流程、主营业务、经验、风险、产品线、产品描述、技术趋势等20类数据,然后对不同类数据进行分词,得到每一类数据的分词。再利用词汇转向量算法(包括但不限于word2vec算法、TFIDF算法等算法),训练得到分词的向量表示,然后得出每个企业的每一类数据的向量表示,然后进行聚类(聚类方法包括但不限于k-means聚类、层次聚类、谱聚类等),还可以使用降维算法对每个目标企业(例如每个企业)的每一类数据所对应的向量表示数据进行降维(包括但不限于t-sne、PCA方法等),查看初步的聚类结果。再选择合适的聚类算法(包括但不限于k-means算法、层次聚类算法、谱聚类算法等算法)对企业进行聚类,根据每个企业跟每类企业聚类中心的相似度,列出距离聚类中心较远的企业,进行分析。需要说明的是,示例性地,可以通过初次聚类查看数据的聚类情况,从而确定第二次聚类的参数,例如可以根据第一次的聚类簇数确定第二次k-means的k值,例如,可以将第一次聚类的簇数作为第二次聚类的k值。
示例性地,具体操作步骤如下:
1)获取每个企业的20类的文本描述,这些企业可能属于不同的行业类别。
2)利用word2vec得到的分词的向量表示(包括但不限于转换为64维向量),将每个企业的每一类内的文本均表示为向量形式,涉及的多个句子、多个分词的,统一采用均值权重求和的策略。最终,每一个企业的每一类都被表示为一个64维的向量。需要说明的是,示例性地,每个分词被转化为一个向量,如果企业的一个类别的数据是一句话,这句话可能包含了多个分词,则这句话(即该类别的文本描述)的向量表示就可以是这句话中的每个分词向量求和取均值。如果每个类别可能包含多句话,则通过对句子向量求和取均值,每个类别也可以被表示成一个向量。
3)进行聚类,确定每个行业每个类别的基向量的每一维取值均为0.5(64维向量),即所有行业的基准向量都为固定的平均值,计算20个类别和基准向量的相似度(包括但不限于欧氏距离、曼哈顿距离等)作为该企业的特征向量。由此,每个企业都被表示为20维的特征向量。需要说明的是,相似度的算法也可以是将向量降维处理,然后计算降维后的数据中的距离。
4)选择某几个行业的数据(即某几个行业的企业的特征向量)(包括但不限于金融业、科学技术业、批发零售业、房地产业等行业),使用t-sne对20维数据进行降维,查看初步的聚类结果。再选择k-means算法(例如k=4)对所有企业进行聚类,根据每个企业跟每类企业聚类中心的相似度,列出距离聚类中心较远的企业,进行分析。例如,可以预设距聚类中心的距离阈值,如果某企业距聚类中心的距离超过该阈值则可以确定该企业是“距离聚类中心较远的企业”。
以下是具体结果的一种示例:
示例性地,首先使用t-sne算法对企业特征向量进行可视化,图4是根据本发明示例实施方式的聚类结果的示意图,如图4所示,一个符号表示一个企业,不同类型的符号表示不同原始类别的企业,其中加号符号表示原始类别为金融业,五角星符号表示原始类别为科学技术业,乘号符号表示原始类别为批发零售业,圆点符号表示原始类别为房地产业。其中,t-sne算法的基本思想是:若两个数据在高维空间中是相似的,那么降维至低维空间(例如2维空间)时他们应该离得很近。
由此可以看出,利用设计的20类数据,使用word2vec词向量表示后,不同行业内的企业之间是相似的,这验证了类别设计和词向量的有效性。同时,可以看出,有些数据点偏离了原始类别。所以,使用k-means算法进行进一步分析。
示例性地,使用k-means聚类算法后,偏离原始类别的企业列表如下
表1所示:
/>
表1
需要说明的是,表1中的“错分类别”指的是表中的kmeans分类,即kmeans的判别类别(相当于上述实施例中的“实际类别”);“偏离原始类别的企业”指的是利用算法所判别的企业类别与该企业的原始类别不相同的企业。示例性的,可以对这些偏离原始类别的企业进行分析,进一步地,可以选择某个或某些企业进行分析,或者,可以选择某些企业的同一种企业类别进行进一步分析,例如,可以选择沪市公司,企业真实分类为金融业的企业进行分析。例如以下表2中的示例企业:
表2
可以看出,原始分类为金融业的企业,即便是被Kmeans分类算法分到其他类(例如房地产或批发零售),其跟原始类别的相似度仍然很高,说明金融行业的企业偏离主业的程度较弱。
示例性地,可以选择某些原始分类为房地产的公司进行分析,分析结果如以下表3:
/>
表3
可以看出,原始分类为房地产业的企业,在被Kmeans分类算法分错分到金融业时,其跟原始类别的相似度差别(平均值为-0.07345)是错分企业相似度差别平均值(-0.02976)的2.47倍,说明房地产业的企业偏离主业的程度相对较强。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
本发明的实施例还提供了一种计算机可读的存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种目标企业的类别确定方法,其特征在于,包括:
分别获取多个目标企业在指定信息维度的多个维度信息;
分别对所述多个目标企业中的每一个所述目标企业的每一个所述维度信息进行分词处理,得到多个分词;
利用词汇转向量算法将所述分词转换为向量,得到所述多个目标企业中的每一个所述目标企业在所述指定信息维度的所有维度信息所对应的向量;
对所述向量进行第一聚类,得到每个所述目标企业的特征向量;
对每个所述目标企业的特征向量进行第二聚类;
对所述第二聚类的聚类结果进行降维处理,得到二维聚类结果;
根据所述二维聚类结果确定所述目标企业的实际类别,其中,在所述二维聚类结果中,与指定聚类中心的第一相似度位于第一预设范围之内的目标企业的实际类别为所述指定聚类中心所在的聚类类别,所述第一相似度通过所述二维聚类结果中的所述目标企业距所述指定聚类中心的距离来表征,所述第一预设范围为预设的距离范围;
所述目标企业的类别确定方法还包括:根据所述目标企业的实际类别与原始类别确定所述目标企业是否是异常目标企业,其中,一个目标企业对应一种原始类别,实际类别与所述原始类别不一致的目标企业为所述异常目标企业;
对于被确定为所述异常目标企业的目标企业,根据所述目标企业与自身的原始类别的相似度以及所述目标企业与自身的实际类别的相似度的相差值确定异常目标企业子类,其中,所述相差值用于指示目标企业偏离自身的原始类别的偏离程度,不同的相差值范围对应了不同的所述异常目标企业子类。
2.根据权利要求1所述的目标企业的类别确定方法,其特征在于,所述对所述向量进行第一聚类,得到每个所述目标企业的特征向量,包括:
确定每一个所述维度信息的基准向量;
分别确定每一个所述目标企业的每一个所述维度信息与所述基准向量的第二相似度;
分别根据所述第二相似度确定每一个所述目标企业的特征向量。
3.根据权利要求1所述的目标企业的类别确定方法,其特征在于,所述指定信息维度为企业科技投入维度。
4.根据权利要求3所述的目标企业的类别确定方法,其特征在于,所述多个维度信息包括:
平台描述信息、研发投入信息、科技合作信息、科技人员信息、专利信息、科技背景信息、产品效用或影响信息、外部政策信息、内部战略信息、模式信息、科技描述信息、宣传信息、设立或建立信息、流程信息、主营业务信息、经验信息、风险信息、产品线信息、产品描述信息和技术趋势信息。
5.一种目标企业的类别确定装置,其特征在于,包括:
获取模块,用于分别获取多个目标企业在指定信息维度的多个维度信息;
第一确定模块,用于分别对所述多个目标企业中的每一个所述目标企业的每一个所述维度信息进行分词处理,得到多个分词;利用词汇转向量算法将所述分词转换为向量,得到所述多个目标企业中的每一个所述目标企业在所述指定信息维度的所有维度信息所对应的向量;
聚类模块,用于对所述向量进行第一聚类,得到每个所述目标企业的特征向量;
第二确定模块,用于对每个所述目标企业的特征向量进行第二聚类;对所述第二聚类的聚类结果进行降维处理,得到二维聚类结果;根据所述二维聚类结果确定所述目标企业的实际类别,其中,在所述二维聚类结果中,与指定聚类中心的第一相似度位于第一预设范围之内的目标企业的实际类别为所述指定聚类中心所在的聚类类别;其中,所述第一相似度通过所述二维聚类结果中的所述目标企业距所述指定聚类中心的距离来表征,所述第一预设范围为预设的距离范围;
第三确定模块,用于根据该目标企业的实际类别与原始类别确定该目标企业是否是异常目标企业,其中,一个目标企业对应一种原始类别,实际类别与该原始类别不一致的目标企业为该异常目标企业;
所述第三确定模块,还用于对于被确定为该异常目标企业的目标企业,根据该目标企业与自身的原始类别的相似度以及该目标企业与自身的实际类别的相似度的相差值确定异常目标企业子类,其中,该相差值用于指示目标企业偏离自身的原始类别的偏离程度,不同的相差值范围对应了不同的该异常目标企业子类。
6.根据权利要求5所述的目标企业的类别确定装置,其特征在于,所述聚类模块,用于确定每一个所述维度信息的基准向量;分别确定每一个所述目标企业的每一个所述维度信息与所述基准向量的第二相似度;分别根据所述第二相似度确定每一个所述目标企业的特征向量。
7.一种计算机可读的存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至4任一项中所述的方法。
8.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至4任一项中所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011091986.XA CN112215288B (zh) | 2020-10-13 | 2020-10-13 | 目标企业的类别确定方法及装置、存储介质、电子装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011091986.XA CN112215288B (zh) | 2020-10-13 | 2020-10-13 | 目标企业的类别确定方法及装置、存储介质、电子装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112215288A CN112215288A (zh) | 2021-01-12 |
CN112215288B true CN112215288B (zh) | 2024-04-30 |
Family
ID=74053871
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011091986.XA Active CN112215288B (zh) | 2020-10-13 | 2020-10-13 | 目标企业的类别确定方法及装置、存储介质、电子装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112215288B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113011886B (zh) * | 2021-02-19 | 2023-07-14 | 腾讯科技(深圳)有限公司 | 帐号类型的确定方法和装置及电子设备 |
CN113204603B (zh) * | 2021-05-21 | 2024-02-02 | 中国光大银行股份有限公司 | 金融数据资产的类别标注方法及装置 |
CN115239214B (zh) * | 2022-09-23 | 2022-12-27 | 建信金融科技有限责任公司 | 企业的评估处理方法、装置及电子设备 |
CN115657971B (zh) * | 2022-12-27 | 2023-03-10 | 扬州博士创新技术转移有限公司 | 面向企业数字化服务的云存储分配方法、系统及云服务器 |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105022740A (zh) * | 2014-04-23 | 2015-11-04 | 苏州易维迅信息科技有限公司 | 非结构化数据的处理方法和装置 |
CN106021388A (zh) * | 2016-05-11 | 2016-10-12 | 华南理工大学 | 基于lda主题聚类的微信公众号的分类方法 |
CN106611291A (zh) * | 2016-12-13 | 2017-05-03 | 税云网络科技服务有限公司 | 信息推送方法和装置 |
CN107577792A (zh) * | 2017-09-18 | 2018-01-12 | 前海梧桐(深圳)数据有限公司 | 一种企业数据自动聚类的方法及其系统 |
CN107944480A (zh) * | 2017-11-16 | 2018-04-20 | 广州探迹科技有限公司 | 一种企业行业分类方法 |
CN107943847A (zh) * | 2017-11-02 | 2018-04-20 | 平安科技(深圳)有限公司 | 企业关系提取方法、装置及存储介质 |
CN109657932A (zh) * | 2018-11-29 | 2019-04-19 | 平安科技(深圳)有限公司 | 企业风险分析方法、装置、计算机设备和存储介质 |
CN109657947A (zh) * | 2018-12-06 | 2019-04-19 | 西安交通大学 | 一种面向企业行业分类的异常检测方法 |
CN109766437A (zh) * | 2018-12-07 | 2019-05-17 | 中科恒运股份有限公司 | 一种文本聚类方法、文本聚类装置及终端设备 |
CN110196907A (zh) * | 2019-04-15 | 2019-09-03 | 中国石油大学(华东) | 一种多层次文本聚类方法和装置 |
CN110443458A (zh) * | 2019-07-05 | 2019-11-12 | 深圳壹账通智能科技有限公司 | 风险评估方法、装置、计算机设备和存储介质 |
CN110852878A (zh) * | 2019-11-26 | 2020-02-28 | 中国建设银行股份有限公司 | 一种可信度确定方法、装置、设备和存储介质 |
CN111062570A (zh) * | 2019-11-18 | 2020-04-24 | 成都数联铭品科技有限公司 | 一种企业的动态分类分析方法及系统 |
CN111475603A (zh) * | 2019-01-23 | 2020-07-31 | 百度在线网络技术(北京)有限公司 | 企业标识识别方法、装置、计算机设备及存储介质 |
CN111538837A (zh) * | 2020-04-27 | 2020-08-14 | 北京同邦卓益科技有限公司 | 用于分析企业经营范围信息的方法和装置 |
CN111581226A (zh) * | 2020-05-17 | 2020-08-25 | 广州博士信息技术研究院有限公司 | 基于大数据平台的数据共享方法、装置及政企云平台 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2528047A (en) * | 2014-07-07 | 2016-01-13 | Ibm | Mining of policy data source description based on file, storage and application meta-data |
-
2020
- 2020-10-13 CN CN202011091986.XA patent/CN112215288B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105022740A (zh) * | 2014-04-23 | 2015-11-04 | 苏州易维迅信息科技有限公司 | 非结构化数据的处理方法和装置 |
CN106021388A (zh) * | 2016-05-11 | 2016-10-12 | 华南理工大学 | 基于lda主题聚类的微信公众号的分类方法 |
CN106611291A (zh) * | 2016-12-13 | 2017-05-03 | 税云网络科技服务有限公司 | 信息推送方法和装置 |
CN107577792A (zh) * | 2017-09-18 | 2018-01-12 | 前海梧桐(深圳)数据有限公司 | 一种企业数据自动聚类的方法及其系统 |
CN107943847A (zh) * | 2017-11-02 | 2018-04-20 | 平安科技(深圳)有限公司 | 企业关系提取方法、装置及存储介质 |
CN107944480A (zh) * | 2017-11-16 | 2018-04-20 | 广州探迹科技有限公司 | 一种企业行业分类方法 |
CN109657932A (zh) * | 2018-11-29 | 2019-04-19 | 平安科技(深圳)有限公司 | 企业风险分析方法、装置、计算机设备和存储介质 |
CN109657947A (zh) * | 2018-12-06 | 2019-04-19 | 西安交通大学 | 一种面向企业行业分类的异常检测方法 |
CN109766437A (zh) * | 2018-12-07 | 2019-05-17 | 中科恒运股份有限公司 | 一种文本聚类方法、文本聚类装置及终端设备 |
CN111475603A (zh) * | 2019-01-23 | 2020-07-31 | 百度在线网络技术(北京)有限公司 | 企业标识识别方法、装置、计算机设备及存储介质 |
CN110196907A (zh) * | 2019-04-15 | 2019-09-03 | 中国石油大学(华东) | 一种多层次文本聚类方法和装置 |
CN110443458A (zh) * | 2019-07-05 | 2019-11-12 | 深圳壹账通智能科技有限公司 | 风险评估方法、装置、计算机设备和存储介质 |
CN111062570A (zh) * | 2019-11-18 | 2020-04-24 | 成都数联铭品科技有限公司 | 一种企业的动态分类分析方法及系统 |
CN110852878A (zh) * | 2019-11-26 | 2020-02-28 | 中国建设银行股份有限公司 | 一种可信度确定方法、装置、设备和存储介质 |
CN111538837A (zh) * | 2020-04-27 | 2020-08-14 | 北京同邦卓益科技有限公司 | 用于分析企业经营范围信息的方法和装置 |
CN111581226A (zh) * | 2020-05-17 | 2020-08-25 | 广州博士信息技术研究院有限公司 | 基于大数据平台的数据共享方法、装置及政企云平台 |
Non-Patent Citations (1)
Title |
---|
聚类在企业资产结构与区域发展关系研究中的应用;季芳;占鹏飞;陈帅飞;吕鑫;;电子设计工程(第10期);26-29 * |
Also Published As
Publication number | Publication date |
---|---|
CN112215288A (zh) | 2021-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112215288B (zh) | 目标企业的类别确定方法及装置、存储介质、电子装置 | |
Foss et al. | Distance metrics and clustering methods for mixed‐type data | |
EP3588279B1 (en) | Automated extraction of rules embedded in software application code using machine learning | |
WO2020107872A1 (zh) | 企业风险分析方法、装置、计算机设备和存储介质 | |
CN110909165B (zh) | 数据处理方法、装置、介质及电子设备 | |
CN110781294A (zh) | 训练语料库细化和增量更新 | |
CN110059923A (zh) | 岗位画像和简历信息的匹配方法、装置、设备及存储介质 | |
CN110008343A (zh) | 文本分类方法、装置、设备及计算机可读存储介质 | |
CN107862425B (zh) | 风控数据采集方法、设备、系统及可读存储介质 | |
CN115238815A (zh) | 异常交易数据获取方法、装置、设备、介质和程序产品 | |
CN114638501A (zh) | 一种业务数据处理方法、装置、计算机设备及存储介质 | |
CN117035416A (zh) | 企业风险评估方法、企业风险评估装置、设备及存储介质 | |
CN111754352A (zh) | 一种观点语句正确性的判断方法、装置、设备和存储介质 | |
CN110795308A (zh) | 一种服务器检验方法、装置、设备及存储介质 | |
CN111581296A (zh) | 数据相关性分析方法、装置、计算机系统及可读存储介质 | |
CN110705258A (zh) | 文本实体识别方法及装置 | |
CN116150376A (zh) | 一种样本数据分布优化方法、装置和存储介质 | |
CN113901075A (zh) | 生成sql语句的方法、装置、计算机设备及存储介质 | |
CN114330720A (zh) | 用于云计算的知识图谱构建方法、设备及存储介质 | |
CN109885710B (zh) | 基于差分演化算法的用户画像刻画方法及服务器 | |
CN112948583A (zh) | 数据的分类方法及装置、存储介质、电子装置 | |
CN113901817A (zh) | 文档分类方法、装置、计算机设备和存储介质 | |
CN111027296A (zh) | 基于知识库的报表生成方法及系统 | |
CN110717521A (zh) | 智能业务实现方法、装置及计算机可读存储介质 | |
CN114120341A (zh) | 简历文档识别模型训练方法、简历文档识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |