CN111062570A - 一种企业的动态分类分析方法及系统 - Google Patents

一种企业的动态分类分析方法及系统 Download PDF

Info

Publication number
CN111062570A
CN111062570A CN201911132344.7A CN201911132344A CN111062570A CN 111062570 A CN111062570 A CN 111062570A CN 201911132344 A CN201911132344 A CN 201911132344A CN 111062570 A CN111062570 A CN 111062570A
Authority
CN
China
Prior art keywords
enterprise
vector
data
product
taking
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911132344.7A
Other languages
English (en)
Inventor
康青杨
刘世林
张学锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Business Big Data Technology Co Ltd
Original Assignee
Chengdu Business Big Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Business Big Data Technology Co Ltd filed Critical Chengdu Business Big Data Technology Co Ltd
Priority to CN201911132344.7A priority Critical patent/CN111062570A/zh
Publication of CN111062570A publication Critical patent/CN111062570A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0637Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Educational Administration (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种企业的动态分类分析方法及系统;通过聚类重新定义产品类型,降低候选计算维度,减小计算开销;巧妙的将企业的实际经营状态融入企业的表征向量中;将零散的不具有对比性的报表信息转化成可以直接计算的企业向量数据,跨域数据种类的鸿沟,实现数据的机器化快速处理,提高了数据分析的效率。

Description

一种企业的动态分类分析方法及系统
技术领域
本发明涉及自然语言处理技术领域,特别涉及一种企业的动态分类分析方法及系统。
背景技术
近几年,由于数据的持续增长,基于大数据、数据挖掘的应用层出不穷。对于数据分析的需求也越来越大。在证券监管、财务审计、金融投资等领域在在进行分析时都需要进行分类分析,我们知道无论是在监管领域还是投资领域都需要对公司进行分类,需要在同类型的公司中进行比较分析。现有的企业行业分类主要根据工商登记中的营业范围数据,按照行业标准例如证监会行业分类、万得行业分类等标准来划分;行业划分相对固化,依据比较单一。然而就市场情况变化很快的当下来说这样的分类方式并不能反映企业的真实行业情况,很多企业实行多元化发展战略,业务可能跨多个行业;而且企业的主营业务都可能随时间发生改变,例如某些企业被借壳后业务会发生巨大变化。目前的方法不能很好反映各个企业的真实情况,影响后续分析判断的准确度。
发明内容
本发明的目的在于克服现有技术中静态的对比样本集方式对于数据分析的不利影响,提供一种企业的动态分类分析方法及系统;通数据分析锁定企业实际经营领域和构建企业向量,进行新的目标企业动态分类分析。
为解决上述技术问题,本发明实施例提供了以下技术方案:
一种企业的动态分类分析方法,包括以下步骤:
(1)对获取到的企业数据中产品名称进行聚类,得到产品类型集并编号;
(2)将产品类型集数作为向量维度,产品类型集序号作为向量的对应位;
选取目标企业数据中的销售占比最高的前N项产品,将该N项产品在销售收入中的占比数值作为对应编号位的向量取值;完成对应企业的向量编码;
(3)对企业向量进行聚类得到分类的结果。
进一步的,所述步骤(1)包含以下实现过程:
(1-1)获取全部待分析企业数据中的产品名称,并对产品名称去重获得产品名称集;
(1-2)获取产品名称集所包含的文字集,并对文字集中的文字进行编号;
(1-3)将所述文字集中包含的文字数作为,产品名称向量的纬度,将文字的编号作为对应向量位;
计算各文字的TF-IDF值;
读取各产品名,将产品名包含的文字的TF-IDF值作为对应位置的数值,其余位置零,完成产品名的向量转化;
(1-4)对转化后的产品名向量进行聚类,得到产品类型集;并编号。
进一步的,所述步骤(2)包含以下实现过程:
(2-1)读取目标企业数据中的销售占比最高的前N项产品名和对应销售占比数值;
(2-2)依次查询各产品名所在产品类型集的序号;将销售占比数值作为对应向量位置的取值,其余位向量取值置零,完成企业的向量转化。
如果有两个或以上产品名处于同一产品类型集,则将对应销售占比的加和数值作为该产品类型集向量位的数值。
进一步的,所述步骤(3)中经过聚类形成各个簇,将各个簇中的企业归属到一个类别中实现分类。
进一步的,所述方法采用分布式计算处理框架完成,同步计算出待处理目标的对比样本集。
进一步的,对于新收录企业,根据所述方法转化成向量后,计算与各个中心簇(所述步骤(3)中企业向量经过聚类形成的簇)的距离,并将该企业归入与中心簇距离最近的类别中。
进一步,设置阈值,将包含企业少于阈值的簇中的企业划分到与该簇中心距离最近的其他簇中。
进一步的,本发明提供一种动态可比企业集构建系统;包含数据获取模块,数据存储模块;数据处理模块;所述数据获取模块,获取待分析目标的实时相关数据比如财务报表;
所述数据存储模块存储包括数据获取模块和数据处理模块的输出的数据;
所述数据处理模块;通过上述一种企业的动态分类分析方法完成各个企业动态可比企业集的计算。
进一步的,本发明提供了一种电子设备,所述电子设备,所述电子设备包含存储器和处理器,所述存储器和处理器相连,所述处理器通过本发明方法来实现企业分类。
进一步的,本发明提供一种包括计算机可读指令的计算机可读存储介质,所述计算机可读指令使得电子设备执行本发明方法所包含的操作步骤。
与现有技术相比,本发明方法及系统具有以下有益效果:
本发明方法及系统通过聚类重新定义产品类型,降低候选计算维度,减小计算开销;并且通过企业报表中的主营产品来完成企业向量的构建;巧妙的将企业的实际经营状态融入企业的表征向量中;将零散的不具有对比性的报表信息转化成可以直接计算的企业向量数据,实现数据的机器化快速处理,提高了数据分析的效率。本发明方法及系统避免了对传统分类标准和静态登记信息的依赖;分类结果更加能体现企业的实际经营状况。为金融监管,投资分析,行业研究、企业调研以及其他相关数据分析提供更加可靠的分类结果。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明方法实现步骤示意图。
图2为实施例1中数据处理流程示意图。
图3为实施例2中所述的动态可比企业集构建的系统的示意框图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
为解决上述技术问题,本发明实施例提供了以下技术方案:
一种企业的动态分类分析方法,包括以下步骤:
(1)对获取到的企业数据中产品名称进行聚类,得到产品类型集并编号;对获取到各个企业的数据进行分析具有实时性,避免了传统的静态分类的弊端,有利于实时掌握企业产品和经营状况的变化,掌握真实的各个企业的情况。
由于待分析数据规模较大,所涉及的产品名称种类繁多;即便是相近的产品在各个企业财报上的表现的产品名称也可能多种多样,为方便分析和降低后续企业编码的计算维度,先对产品名称进行聚类处理;将相似的产品名称聚类到同一产品类型集中。通过产品名称的聚类,事实上实现了一种新的数据分类方式。
(2)将产品类型集总数作为企业向量维度,产品类型集编号作为企业向量的对应位;选取目标企业数据中的销售占比最高的前N项产品,将该N项产品在销售收入中的占比数值作为对应编号位的向量取值;完成企业的向量编码。
本步骤用企业主营产品销售占比数据来对企业进行向量编码,集合了企业产品类型信息和实际的经营状况信息(主营产品的占比),更能体现企业的实际经营情况;同时各个企业报表中根据每年的经营情况在动态变化中,因此本向量编码方法更能捕捉企业的当前状态信息,数据分析的结果根据表报的变化而变化,具有灵活性、实时性和动态性。
并且通过销售占比来对企业进行向量编码,反应了企业的真实重点经营方向;通过向量编码,将不具有对比性的企业数据转化成可计算和比较的向量数据,为对比样本集的构建创造了条件。
(3)计算向量编码后的各个企业向量距离;选取与目标企业向量距离最近的M个企业作为对比企业样本。向量化的企业编码,通过计算向量距离来计算出企业之间的相似程度。经过上述过程,为每个待分析的企业建立起了动态的可比的企业集;克服了传统仅依赖工商登记信息和传统行业划分的获得的静态的可比企业集的数据固化、失真和不具有时效性的弊端。
进一步的,所述步骤(1)包含以下实现步骤:
(1-1)获取全部待分析企业的数据(比如财务报表)中的产品名称,并对产品名称去重,获得产品名称集;对数据进行与处理,减少数据冗余,方便后续计算。作为本步骤的优选可以在产品名选择是就只读取各个企业的前N项主营产品名;减少数据的处理量,提高处理效率。
(1-2)获取产品名称集所包含的文字集,并对文字集中的文字进行编号;本步骤为产品名的向量编码做准备。
(1-3)计算各文字TF-IDF值;读取各产品名中文字,将产品名包含的文字的TF-IDF值作为对应位置的数值,并将其他位置零,完成产品名的向量转化。
使用本方式对产品名称进行向量编码,在包含所有产品名称的文字集中依次计算每个文字的TF-IDF值,并完成向量转化,所转化的产品名向量带有在整个名称集中的词频信息,更好体现产品名称的相关性或者区分性,为产品名称聚类准备可靠向量基础。
(1-4)对转化后的产品名向量进行聚类,得到产品类型集;并编号。对聚类后的产品类型集进行编号,为后续的企业向量化做准备,编号后方便按照产品类型集编号来确定企业向量位的序号,统一后续企业向量各个位置的信息所代表的含义。
进一步的,所述步骤(2)包含以下实现步骤:
(2-1)企业数据中的销售占比最高的前N项产品(主营产品);读取各产品在销售总收入中的占比数值。企业数据例如财务表报定期更新,极大保障了分析数据的实时性。
(2-2)依次查询各产品名所在产品类型集序号;将各产品在销售收入中的占比数值作为对应向量位置的取值,其余位向量取值置零,完成企业的向量转化。
根据主营产品在销售收入中的占比数值来进行企业向量编号,符合企业的实际经营状态。
进一步的,所述步骤(2-2)中如主营产品中有两个或以上产品名处于同一产品类型集,则将对应销售占比相加得到的数值作为该产品类型集向量位的数值。处于同一产品类型集的产品,具有较高的相似性,将销售占比的加和作为对应向量取值更好反应企业的经营情况;同时进一步反应产品名聚类的意义;经过聚类将相似的产品名称放入同一类型集合中,降低了整体的计算维度,简化计算过程。
进一步的,所述步骤(3)中经过聚类形成各个簇,将各个簇中的企业归属到一个类别中实现分类;可以根据想要的分类所得的类别数,来调聚类所采取算法的参数;比如聚类使用kmeans算法,根据需要可以设定所需K值,选用轮廓系数来评价计算结果;保留轮廓系数最大的聚类结果,作为分类结果。
进一步,设置阈值,将包含企业少于阈值的簇中的企业划分到与该簇中心距离最近的其他簇中。从而减少分类结果的总数,避免不具有代表性的少数类的形成。
进一步的,所述方法采用分布式计算处理框架完成,同步计算出待处理目标的对比样本集。比如待分析目标有几千或者几万个,通过分布式处理框架,可以快速计算出所有待分析企业的对比样本集。
进一步的,对于新收录企业,根据所述方法转化成向量后,计算与各个中心簇(所述步骤(3)中企业向量经过聚类形成的簇)的距离,并将该企业归入与中心簇距离最近的类别中。
进一步的,所述方法采用分布式计算处理框架完成,同步计算出全部待处理目标的对比样本集。
进一步的,本发明提供一种动态可比企业集构建系统;包含数据获取模块,数据存储模块;数据处理模块;所述数据获取模块,获取待分析目标的实时相关数据比如财务报表;
所述数据存储模块存储包括数据获取模块和数据处理模块的输出的数据;
所述数据处理模块;通过上述一种企业的动态分类分析方法来实现企业分类。
进一步的,本发明提供了一种电子设备,所述电子设备,所述电子设备包含存储器和处理器,所述存储器和处理器相连,所述处理器通过本发明方法来完成动态可比样本集的创建。
进一步的,本发明提供一种包括计算机可读指令的计算机可读存储介质,所述计算机可读指令使得电子设备执行本发明方法所包含的操作步骤。
实施例1
例如上市公司的财报中都会公布主营产品收入和主营产品构成,我们使用主营产品收入构成作为它的主营产品构成。但是这些产品名称各不相同,如木门、原木、木地板、木制脚桶等产品都属于木材和木材制品类。如果直接使用这些产品名称去找公司的可比公司,可能有些公司很难找到可比公司。因此先对所有的产品名称进行聚类。
比如我们获取到所有上市公司年报中的主营产品,去重后得到15000个产品名称。进一步分析,这15000个产品名称中共有2000个不同的字,将这些字进行编号。使用TF-IDF来对所有的字进行编号。TF-IDF由TF和IDF两部分构成,其中TF(词频)就是这个字在这个产品名称中出现的次数。IDF(逆文档频)就是log(产品名称个数/(包含该字的文档数+1))。TF-IDF等于TF乘以IDF。例如“木门”中的“木”和“门”字的TF都为1.“木门”中的“木”在34个产品名称中出现,那么IDF等于log(15000/(34+1))≈2.63。“门”在30个产品名称中出现,那么IDF等于log(15000/(30+1))≈2.68。“木”字的编号是105,“门”字的编号是25。那么“木门”这个产品的TF-IDF编码就是一个长度是2000的向量,这个向量的第105位是2.63,第25位是2.68,其余的数都是0。就这样把这15000个产品名称都转换成了2000维的向量。
进一步的,对这15000个产品名向量进行聚类。采用kmeans算法进行聚类。考虑到产品的类别数不宜过多也不宜过少,我们取k=50,100,200,300,500这5个分别聚类(产品类别数根据实际情况来选择)。使用聚类的轮廓系数评价聚类效果,当k=300时轮廓系数最大,取k=300的聚类结果。
为了使得产品聚类效果更优,可以再人工做一些调整,例如有个类里面包含化学试剂、化学制剂、用途化学品、液晶化学品等产品名称,还有个类里面包含氧气、氧化锌、氧化钨、氧化锑、氧化铝等产品名称。它们可以融合到一起归为同一类。通过人工处理后剩下了200个类别。
然后使用这200个类别根据主营产品对公司进行编码。例如公司A的主营产品包括贸易、饲料、肉食品收入占比分别是3%,53%,44%。其中贸易所在的类序号为20,饲料所在的类序号为114,肉食品所在的序号为42。那么该公司的编码就是长度为200的向量其中第20位是0.03,第114位是0.53,第42位是0.44,其他数全部为0。
公司B的主营产品包括尿素、三聚氰胺、结晶硝铵收入占比分别是32.88%、28.33%、14.18%。这三个产品同属于一个类别簇16,那么该公司的编码就是第16位等于0.3288+0.2833+0.1418=0.7539,其它全为0。
对企业向量进行聚类,取k值从100到200,步长设置为10。使用轮廓系数对聚类效果评价。当k=160时轮廓系数最大。得到了k=160时的聚类结果和簇中心的产品构成。进一步,设置阈值,将包含企业少于阈值的簇中的企业划分到与该簇中心距离最近的其他簇中,比如观察聚类结果发现存在个别簇中的企业数量很少,对于这种年报数量少于40个的簇通过设置阈值强行将其划分到最近的簇中。
最后经过处理后得到150个企业分类,以及每个类别中心的产品构成。对于新增加的企业,可以使用同样的方式得到它的编码向量,再计算它跟那个簇中心最近,得到它的类别。
实施例2
上述动态对比样本集构建系统,如图3所示,本实施例同时提供了一种电子设备,该电子设备可以包括处理器51和存储器52,其中存储器52耦合至处理器51。值得注意的是,该图是示例性的,还可以使用其他类型的结构来补充或替代该结构。
如图3所示,该电子设备还可以包括:输入单元53、显示单元54和电源55。值得注意的是,该电子设备也并不是必须要包括图3中显示的所有部件。此外,电子设备还可以包括图3中没有示出的部件,可以参考现有技术。
处理器51有时也称控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该处理器51接收输入并控制电子设备的各个部件的操作。
其中,存储器52例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其他合适装置中的一种或多种,可存储上述处理器51的配置信息、处理器51执行的指令、记录的表格数据等信息。处理器51可以执行存储器52存储的程序,以实现信息存储或处理等。在一个实施例中,存储器52中还包括缓冲存储器,即缓冲器,以存储中间信息。
输入单元53例如用于向处理器51提供待标注的文本数据。显示单元54用于显示处理过程中的各种结果,例如输入的文本数据、转换后的多维向量、计算出的距离值等,该显示单元例如可以为LCD显示器,但本发明并不限于此。电源55用于为电子设备提供电力。
本发明实施例还提供一种计算机可读指令,其中当在电子设备中执行所述指令时,所述程序使得电子设备执行本发明方法所包含的操作步骤。
本发明实施例还提供一种存储有计算机可读指令的存储介质,其中所述计算机可读指令使得电子设备执行本发明方法所包含的操作步骤。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的模块,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成模块及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (11)

1.一种企业的动态分类分析方法,其特征在于,包括以下步骤:
(1)对获取到的企业数据中产品名称进行聚类,得到产品类型集并编号;
(2)将产品类型集数作为向量维度,产品类型集序号作为向量的对应位;选取目标企业数据中的销售占比最高的前N项产品,将该N项产品在销售收入中的占比数值作为对应编号位的向量取值;完成对应企业的向量编码;
(3)对企业向量进行聚类得到企业分类的结果。
2.如权利要求1所述的方法,其特征在于,所述步骤(1)包含以下实现过程:
(1-1)获取全部待分析企业数据中的产品名称,并对产品名称去重获得产品名称集;
(1-2)获取产品名称集所包含的文字集,并对文字集中的文字进行编号;
(1-3)将所述文字集中包含的文字数作为,产品名称向量的纬度,将文字的编号作为对应向量位;
计算各文字的TF-IDF值;
读取各产品名,将产品名包含的文字的TF-IDF值作为对应位置的数值,其余位置零,完成产品名的向量转化;
(1-4)对转化后的产品名向量进行聚类,得到产品类型集;并编号。
3.如权利要求1或者2所述的方法,其特征在于,所述步骤(2)包含以下实现过程:
(2-1)读取目标企业数据中的销售占比最高的前N项产品名和对应销售占比数值;
(2-2)依次查询各产品名所在产品类型集的序号;将销售占比数值作为对应向量位置的取值,其余位向量取值置零,完成企业的向量转化。
4.如权利要求3所述的方法,其特征在于,所述步骤(2-2)中,如果有两个或以上产品名处于同一产品类型集,则将对应销售占比的加和数值作为该产品类型集向量位的数值。
5.如权利要求4所述的方法,其特征在于,所述步骤(3)中,经过聚类形成各个簇,同一簇中的企业归属到一个类别中实现企业分类。
6.如权利要求5所述的方法,其特征在于,所述步骤(3)中,设置阈值,将包含企业少于阈值的簇中的企业划分到与该簇中心距离最近的其他簇中。
7.如权利要求6所述的方法,其特征在于,所述方法采用分布式计算处理框架完成,同步计算出待处理目标的对比样本集。
8.如权利要求7所述的方法,其特征在于,对于新收录企业,根据所述方法转化成向量后,计算与各个中心簇的距离,将该企业归入与中心簇距离最近的类别中。
9.一种系统,其特征在于,包括数据获取模块,数据存储模块;数据处理模块;
所述数据获取模块,获取待分析目标的动态财务报表数据;
所述数据存储模块存储包括数据获取模块和数据处理模块的输出的数据;
所述数据处理模块,通过去权利要求1至8之一的方法来实现企业分类。
10.一种包括计算机可读指令的计算机可读存储介质,其特征在于,所述计算机可读指令在被执行时使处理器执行权利要求1-8任一所述方法中的操作。
11.一种电子设备,其特征在于,所述的设备包括:存储器,存储程序指令;处理器,与所述存储器相连接,执行存储器中的程序指令,实现权利要求1-8任一所述方法中的步骤。
CN201911132344.7A 2019-11-18 2019-11-18 一种企业的动态分类分析方法及系统 Pending CN111062570A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911132344.7A CN111062570A (zh) 2019-11-18 2019-11-18 一种企业的动态分类分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911132344.7A CN111062570A (zh) 2019-11-18 2019-11-18 一种企业的动态分类分析方法及系统

Publications (1)

Publication Number Publication Date
CN111062570A true CN111062570A (zh) 2020-04-24

Family

ID=70297827

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911132344.7A Pending CN111062570A (zh) 2019-11-18 2019-11-18 一种企业的动态分类分析方法及系统

Country Status (1)

Country Link
CN (1) CN111062570A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112215288A (zh) * 2020-10-13 2021-01-12 中国光大银行股份有限公司 目标企业的类别确定方法及装置、存储介质、电子装置
CN113342984A (zh) * 2021-07-05 2021-09-03 深圳云谷星辰信息技术有限公司 一种园区企业分类方法、系统、智能终端及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112215288A (zh) * 2020-10-13 2021-01-12 中国光大银行股份有限公司 目标企业的类别确定方法及装置、存储介质、电子装置
CN112215288B (zh) * 2020-10-13 2024-04-30 中国光大银行股份有限公司 目标企业的类别确定方法及装置、存储介质、电子装置
CN113342984A (zh) * 2021-07-05 2021-09-03 深圳云谷星辰信息技术有限公司 一种园区企业分类方法、系统、智能终端及存储介质

Similar Documents

Publication Publication Date Title
Li et al. Firm and industry specific determinants of capital structure: Evidence from the Australian market
CN110852856B (zh) 一种基于动态网络表征的发票虚开识别方法
Ingram et al. Narrative disclosures in annual reports
Abebe Top team composition and corporate turnaround under environmental stability and turbulence
Fixler et al. The revisions to GDP, GDI, and their major components
Nanos et al. The composition of wage differentials between migrants and natives
Colburn et al. The role of oral histories in the conduct of fisheries social impact assessments in Northeast US
Yazdanfar Predicting bankruptcy among SMEs: evidence from Swedish firm-level data
CN111652667A (zh) 一种企业主要相关自然人实体数据对齐方法
Magerakis et al. The impact of business strategy on corporate cash policy
CN111062570A (zh) 一种企业的动态分类分析方法及系统
Bishop The Effect of Minimum Wage Increases on Wages, Hours Worked and Job Loss| Bulletin–September 2018
CN111241153A (zh) 企业自然人实体综合判断对齐方法及系统
Pratiwi et al. Prediction Analysis of Company Bangkruptcy Using Comparison of the Altman Method (Z-score) and Grover Method (G-scrore) as an Early Warning System in Pharmaceutical Subsector Companies
Yazdanfar et al. The bankruptcy determinants of Swedish SMEs.
Ren et al. Carbon prices forecasting using group information
Nawirah et al. Financial distress analysis in banking: wich methods is the most accurate?
Park et al. Financial Performance of Healthcare Firms: The Case of Korea
CN111027311A (zh) 一种数据分析方法及系统
Indah Effect of Profitability, Financial Leverage, and Sales Growth on Financial Distress of Transportation and Logistics Sector Companies Listed on the Indonesia Stock Exchange 2020-2022
Chou et al. What is the impact of corporate governance on the food industry at different thresholds of internationalization
Bernetti et al. A survey on the performance of the Italian brewing companies
Sriyono et al. Managerial Innovations in Structure Capital and Important Decisions in Determining the Profit Management of Plantation Company: Empirical Evidence in ASEAN Countries
Bulava et al. Integrated Risk Management Model Of The Company
Dempere et al. The impact of the Dubai International Airport's activity volume on the Emirati stock market

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200424

WD01 Invention patent application deemed withdrawn after publication