CN111782806A - 一种基于人工智能算法的相似上市企业检索分类方法及系统 - Google Patents

一种基于人工智能算法的相似上市企业检索分类方法及系统 Download PDF

Info

Publication number
CN111782806A
CN111782806A CN202010550600.0A CN202010550600A CN111782806A CN 111782806 A CN111782806 A CN 111782806A CN 202010550600 A CN202010550600 A CN 202010550600A CN 111782806 A CN111782806 A CN 111782806A
Authority
CN
China
Prior art keywords
algorithm
data
financial
company
artificial intelligence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010550600.0A
Other languages
English (en)
Inventor
薛逢源
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jianda Data Technology Co ltd
Original Assignee
Shanghai Jianda Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jianda Data Technology Co ltd filed Critical Shanghai Jianda Data Technology Co ltd
Priority to CN202010550600.0A priority Critical patent/CN111782806A/zh
Publication of CN111782806A publication Critical patent/CN111782806A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/06Asset management; Financial planning or analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/12Accounting
    • G06Q40/125Finance or payroll

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • General Engineering & Computer Science (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Technology Law (AREA)
  • Game Theory and Decision Science (AREA)
  • Databases & Information Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Data Mining & Analysis (AREA)
  • Human Resources & Organizations (AREA)
  • Operations Research (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于人工智能算法的相似上市企业检索分类方法及系统,属于金融分析、评估领域,该方法根据标的企业与相关企业的财务报表,主营业务,财务指标,商业周期敏感程度,以及统计相关程度结合的方式,结合当前主流的机器学习算法构建人工智能模型,深入挖掘提取出与标的公司财务指标相似的公司,并对相关联的企业进行相似度排名,以找出对标企业,并提取出每个公司对应的上市相似的公司集群及其财务指标,为投资研究提供数据基础。本发明有效地解决了传统的数据覆盖面不全和传统的对标企业检索系统的数据不准确以及实用性不强的问题。

Description

一种基于人工智能算法的相似上市企业检索分类方法及系统
技术领域
本发明属于金融分析、评估技术领域,具体涉及一种基于人工智能算法的相似上市企业检索分类方法及系统。
背景技术
在金融投资领域中,投资者需要对标的企业进行详细的业务分析,财务分析,以及合理的企业价值估值。对于标的公司的研究,经常需要有同行业或同领域竞争公司的企业经营数据做参考分析,使用余弦距离与欧氏距离等算法构建的人工智能模型,可找出与标的公司财务指标相似的上市公司,以预测该公司的预期财务指标数据,发现潜在的投资标的。常用的寻找相似公司方式,主要是通过已有的行业分类模型,如全球行业分类标准、罗素全球行业、行业分类基准等投资性分类系统,以及国民经济行业分类、上市企业行业分类等管理型政府行业分类系统。由于新兴技术的不断进步,多领域多行业交融的公司企业相继涌现,传统的分类方式很难满足市场现有的需求。
现有的查找相似公司的多是基于文本检索的方式,如搜集上市公司的招股说明书、年度报告、重要公告、财务报告、行业研究报告、专利信息、诉讼信息、招标投标信息和企业重要新闻等,使用文本分析检索、知识库推理、关键词提取等技术来进行公司相似度分类,此种方法并没有真正触及到上市公司的核心数据——财务数据,数据覆盖面不全、实用性较差、数据不准确。
发明内容
本发明的目的在于提供一种基于人工智能算法的相似上市企业检索分类方法及系统,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于人工智能算法的相似上市企业检索分类方法,该方法包括如下步骤:
S1、获取上市企业的财务季度报表和财务年度报表数据;
S2、将获取的数据按照标题的公告分类,经过处理后进行分类存储;
S3、将财务数据存储后针对每家上市企业的财务数据及指标通过人工智能模型进行结构分析及计算,并对财务指标进行存储;
S4、从财务数据和财务指标数据中提出数据,进行财务特征值计算;
S5、利用分布式检索引擎技术对结构化处理后的数据建立空间向量模型,根据数据集合类型选择公司距离矩阵的计算方法计算得出公司距离矩阵;
S6、根据公司距离矩阵,设置数据阀值,提取出各个公司的相似公司距离矩阵,生成公司相似度矩阵。
优选的,所述S2中,标题的公告分类通过选择合适的分类算法构建分类模型,提炼语料训练集并使用分类模型对每篇公告进行精准分类。
优选的,所述分类算法包括KNN算法、聚类算法、决策树算法、朴素贝叶斯算法和Rocchio算法。
优选的,所述S2中,分类处理包括如下步骤:
S21、PDF文件解析;
S22、财务报表定位;
S23、表格识别;
S24、表格语义解析。
优选的,所述S3中,人工智能模型包括全面的财务指标算法,可根据不同维度的财务指标自动化匹配有针对性的财务指标算法,并在计算完成后对现有数据进行清洗检测,去掉重复数据和冗余数据。
优选的,所述S5中,空间向量模型建立后还需进行模型标准化,所述模型标准化包括如下步骤:
S51、异常值检测,通过Z-score检测方法、DBSCAN基于密度的离群值检测方法和孤立森林异常值检测方法对异常值进行检测;
S52、缺失值处理,通过机器学习算法预测、相似样本的均值和可用特征的均值对缺失值进行填补;
S53、数据标准化,通过StandardScaler方法、MinMaxScaler方法和RobustScaler方法对数据进行标准化处理。
优选的,所述S5中,公司距离矩阵的计算方法包括余弦距离算法、欧氏距离算法、杰卡德距离算法、马氏距离算法和兰式距离算法。
此外,本发明还提供一种基于人工智能算法的相似上市企业检索分类系统,该系统包括:
获取模块,用于对所有上市企业的不同维度的年度财务报表、季度财务报表进行获取;
财务数据提取及存储模块,用于将获取的所有财务数据进行分析整理,通过标题公告分类算法模型对所有公告进行精准分类,在分类完成后进行PDF文件解析,并清除清除冗余数据并对财务数据进行存储;
财务特征计算及提取模块,用于构建人工智能模型并提取存储模块中的财务数据和指标进行结构分析计算并将财务指标存入存储模块内;
公司距离矩阵计算模块,用于对财务数据进行标准化处理、建立数据空间向量并匹配最优算法计算出公司距离矩阵;
相似公司提取模块,用于根据公司距离矩阵,设置数据阀值,提取出各个公司的相似公司距离矩阵,生成公司相似度矩阵。
本发明提供一种基于人工智能算法推理的相似上市公司企业检索分类方法及系统,结合当前主流的机器学习算法构建人工智能模型,深入挖掘提取出与标的公司财务指标相似的公司,有效地解决了传统的数据覆盖面不全和传统的对标企业检索系统的数据不准确以及实用性不强的问题。
附图说明
图1为一种基于人工智能算法的相似上市企业检索分类方法的流程示意图;
图2为一种基于人工智能算法的相似上市企业检索分类方法中财务数据提取的流程示意图;
图3为一种基于人工智能算法的相似上市企业检索分类方法中相似度的计算流程示意图。
具体实施方式
下面结合实施例对本发明做进一步的描述。
以下实施例用于说明本发明,但不能用来限制本发明的保护范围。实施例中的条件可以根据具体条件做进一步的调整,在本发明的构思前提下对本发明的方法简单改进都属于本发明要求保护的范围。
如图1-3所示,本发明提供一种基于人工智能算法的相似上市企业检索分类方法,该方法包括如下步骤:
S1、对所有上市企业进行数据收集,包括上市企业的财务季度报表和财务年度报表数据。
S2、将搜集的所有上市公司的财务数据进行分析整理,首先进行基于标题的公告分类技术处理,公告分类模型需要提前提炼好语料训练集,其核心问题是选择合适的分类算法,构建分类模型。基于标题的公告分类采用KNN算法、聚类算法、决策树算法、朴素贝叶斯算法、Rocchio五种分类算法集成构成模型,使用分类模型对每篇公告进行精准分类。分类完成后解析所有的PDF文件,解析的内容包括,识别文字和表格,准确定位PDF中的表格,并对表格中的语义进行智能解析,提取表格中的关键信息及数据,搭建高性能缓存数据空间,将一部分数据集合组存至缓存数据空间,减少数据库的访问,减少数据库压力,提高访问速度,整体提升检索效率。最后将数据存入财务数据数据库中。
S3、将搜集的财务数据处理并存至数据库后需进行财务指标计算,财务指标计算使用的是我们自主研发的人工智能模型,该模型汇集了全面的财务指标算法,可根据不用维度的财务指标自动化匹配有针对性的财务指标算法,在计算完成后,还需对现有数据进行清洗检测,去掉重复数据,去掉无用的财务标签等冗余数据,最后将财务指标数据存入财务指标数据库中。
S4、在财务特征计算过程中,财务特征计算的核心就是开发策略。从海量的财务数据及财务指标数据中提取出能够产生策略超额收益的财务特征至关重要,特征计算和提取是计算公司相似度的前处理步骤,在降维、去除不相关数据,在增加数据精度和提高结果可靠性方面非常有效,我们采用主成分分析(PCA)及线性判别分析(LDA)特征提取方法构造人工智能模型,PCA是一种线性转换技术,其目标是在高纬度数据中找到最大方差方向,最后将数据映射到特征子空间上,其可提高计算效率,降低不同维度间的数据差异;LDA的目标是发现最优化分类的特征子空间。使用这两种方法构建的模型可对不同的财务特征适配最优的计算方法,以此保证财务特征的准确性,同时对计算的数据进行清洗整理,完善财务特征值,最后提取出财务特征。
S5、在步骤4提取出财务特征后,利用分布式检索引擎技术对结构化处理后的数据建立空间向量模型,建立好对应的模型后还需实现模型的标准化,标准化的流程包括异常值检测——缺失值判断——数据标准化。通常使用Z-score检测方法、DBSCAN基于密度的离群值检测方法、孤立森林异常值检测方法、使用这三种异常值检测方法即可检测一维特征空间,也可检测高维特征空间,提高异常值检测的准确性;当我们拿到所有的数据缺失值是比较常见的,不同的缺失值处理方式对特征提取及空间向量建模都有较大影响,缺失值处理方法包括机器学习算法预测填补缺失值、相似样本的均值填补缺失值、可用特征的均值填补缺失值,通过上述三种方法处理缺失值可以有效提高数据的精确度,使特征提取和建模更完善;在数据科学中预处理数据很关键的一步就是数据的标准化,数据的标准化主要使用StandardScaler、MinMaxScaler、RobustScaler,通过这三种方法标准化处理后可以让不同维度之间的特征在数值上有一定的比较性,可以大大提升模型的精度,同时还能提升线性模型的收敛速度,更容易正确的收敛到最优解。进行完标准化处理后就开始计算公司的相似度了,首先先要进行矩阵的方法选择,我们的矩阵方法匹配模型由五种相似度算法构成,其中包括余弦距离算法、欧氏距离算法、杰卡德距离算法、马氏距离算法、兰氏距离算法,依据不同的数据选择不同的相似度算法模型,计算完成后得到公司的距离矩阵。
S6、选择合适的计算矩阵算法后,设置相似度阀值,根据相似度矩阵返回相似度大于阀值的检索结果并进行排序。
此外,本发明还提供一种基于人工智能算法的相似上市企业检索分类系统,该系统包括:
获取模块,用于对所有上市企业的不同维度的年度财务报表、季度财务报表进行获取;
财务数据提取及存储模块,用于将获取的所有财务数据进行分析整理,通过标题公告分类算法模型对所有公告进行精准分类,在分类完成后进行PDF文件解析,并清除清除冗余数据并对财务数据进行存储;
财务特征计算及提取模块,用于构建人工智能模型并提取存储模块中的财务数据和指标进行结构分析计算并将财务指标存入存储模块内;
公司距离矩阵计算模块,用于对财务数据进行标准化处理、建立数据空间向量并匹配最优算法计算出公司距离矩阵;
相似公司提取模块,用于根据公司距离矩阵,设置数据阀值,提取出各个公司的相似公司距离矩阵,生成公司相似度矩阵。
本发明基于多个人工智能算法网络模型,根据标的企业与相关企业的财务报表,主营业务,财务指标,商业周期敏感程度,以及统计相关程度结合的方式,对相关联的企业进行相似度排名,以找出对标企业,并提取出每个公司对应的上市相似的公司集群及其财务指标,为投资研究提供数据基础。本发明具有数据覆盖面全,数据准确准确、全面,计算效率高及实用性更强的优点。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (8)

1.一种基于人工智能算法的相似上市企业检索分类方法,其特征在于,所述方法包括如下步骤:
S1、获取上市企业的财务季度报表和财务年度报表数据;
S2、将获取的数据按照标题的公告分类,经过处理后进行分类存储;
S3、将财务数据存储后针对每家上市企业的财务数据及指标通过人工智能模型进行结构分析及计算,并对财务指标进行存储;
S4、从财务数据和财务指标数据中提出数据,进行财务特征值计算;
S5、利用分布式检索引擎技术对结构化处理后的数据建立空间向量模型,根据数据集合类型选择公司距离矩阵的计算方法计算得出公司距离矩阵;
S6、根据公司距离矩阵,设置数据阀值,提取出各个公司的相似公司距离矩阵,生成公司相似度矩阵。
2.根据权利要求1所述的基于人工智能算法的相似上市企业检索分类方法,其特征在于,所述S2中,标题的公告分类通过选择合适的分类算法构建分类模型,提炼语料训练集并使用分类模型对每篇公告进行精准分类。
3.根据权利要求2所述的基于人工智能算法的相似上市企业检索分类方法及系统,其特征在于,所述分类算法包括KNN算法、聚类算法、决策树算法、朴素贝叶斯算法和Rocchio算法。
4.根据权利要求1所述的基于人工智能算法的相似上市企业检索分类方法,其特征在于,所述S2中,分类处理包括如下步骤:
S21、PDF文件解析;
S22、财务报表定位;
S23、表格识别;
S24、表格语义解析。
5.根据权利要求1所述的基于人工智能算法的相似上市企业检索分类方法,其特征在于,所述S3中,人工智能模型包括全面的财务指标算法,可根据不同维度的财务指标自动化匹配有针对性的财务指标算法,并在计算完成后对现有数据进行清洗检测,去掉重复数据和冗余数据。
6.根据权利要求1所述的基于人工智能算法的相似上市企业检索分类方法及系统,其特征在于,所述S5中,空间向量模型建立后还需进行模型标准化,所述模型标准化包括如下步骤:
S51、异常值检测,通过Z-score检测方法、DBSCAN基于密度的离群值检测方法和孤立森林异常值检测方法对异常值进行检测;
S52、缺失值处理,通过机器学习算法预测、相似样本的均值和可用特征的均值对缺失值进行填补;
S53、数据标准化,通过StandardScaler方法、MinMaxScaler方法和RobustScaler方法对数据进行标准化处理。
7.根据权利要求1所述的基于人工智能算法的相似上市企业检索分类方法,其特征在于,所述S5中,公司距离矩阵的计算方法包括余弦距离算法、欧氏距离算法、杰卡德距离算法、马氏距离算法和兰式距离算法。
8.一种基于人工智能算法的相似上市企业检索分类系统,其特征在于,所述系统包括:
获取模块,用于对所有上市企业的不同维度的年度财务报表、季度财务报表进行获取;
财务数据提取及存储模块,用于将获取的所有财务数据进行分析整理,通过标题公告分类算法模型对所有公告进行精准分类,在分类完成后进行PDF文件解析,并清除清除冗余数据并对财务数据进行存储;
财务特征计算及提取模块,用于构建人工智能模型并提取存储模块中的财务数据和指标进行结构分析计算并将财务指标存入存储模块内;
公司距离矩阵计算模块,用于对财务数据进行标准化处理、建立数据空间向量并匹配最优算法计算出公司距离矩阵;
相似公司提取模块,用于根据公司距离矩阵,设置数据阀值,提取出各个公司的相似公司距离矩阵,生成公司相似度矩阵。
CN202010550600.0A 2020-06-16 2020-06-16 一种基于人工智能算法的相似上市企业检索分类方法及系统 Pending CN111782806A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010550600.0A CN111782806A (zh) 2020-06-16 2020-06-16 一种基于人工智能算法的相似上市企业检索分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010550600.0A CN111782806A (zh) 2020-06-16 2020-06-16 一种基于人工智能算法的相似上市企业检索分类方法及系统

Publications (1)

Publication Number Publication Date
CN111782806A true CN111782806A (zh) 2020-10-16

Family

ID=72755974

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010550600.0A Pending CN111782806A (zh) 2020-06-16 2020-06-16 一种基于人工智能算法的相似上市企业检索分类方法及系统

Country Status (1)

Country Link
CN (1) CN111782806A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112329423A (zh) * 2020-11-05 2021-02-05 上海钐昆网络科技有限公司 Icp备案公司分类方法、装置、电子设备及计算机存储介质
CN113962614A (zh) * 2021-12-21 2022-01-21 深圳市迪博企业风险管理技术有限公司 一种上市公司经营异常智能审查方法及装置
CN114511190A (zh) * 2021-12-31 2022-05-17 上海华鑫股份有限公司 一种面向二级市场市值重估的可视分析系统及分析方法
CN116028829A (zh) * 2021-01-20 2023-04-28 国义招标股份有限公司 基于传递步长调整的修正聚类处理方法、设备及存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112329423A (zh) * 2020-11-05 2021-02-05 上海钐昆网络科技有限公司 Icp备案公司分类方法、装置、电子设备及计算机存储介质
CN116028829A (zh) * 2021-01-20 2023-04-28 国义招标股份有限公司 基于传递步长调整的修正聚类处理方法、设备及存储介质
CN116028829B (zh) * 2021-01-20 2023-10-24 国义招标股份有限公司 基于传递步长调整的修正聚类处理方法、设备及存储介质
CN113962614A (zh) * 2021-12-21 2022-01-21 深圳市迪博企业风险管理技术有限公司 一种上市公司经营异常智能审查方法及装置
CN114511190A (zh) * 2021-12-31 2022-05-17 上海华鑫股份有限公司 一种面向二级市场市值重估的可视分析系统及分析方法

Similar Documents

Publication Publication Date Title
CN111782806A (zh) 一种基于人工智能算法的相似上市企业检索分类方法及系统
CN112632228A (zh) 一种基于文本挖掘的辅助评标方法及系统
CN101097570A (zh) 一种自动识别分类广告类型的广告分类方法
CN109241199B (zh) 一种面向金融知识图谱发现的方法
CN105740353A (zh) 个股和文章关联度的计算方法及其系统
CN112581006A (zh) 筛选舆情信息及监测企业主体风险等级的舆情引擎及方法
CN111967761A (zh) 一种基于知识图谱的监控预警方法、装置及电子设备
CN111191051B (zh) 一种基于中文分词技术的应急知识图谱的构建方法及系统
AU2018101531A4 (en) Stock forecast model based on text news by random forest
CN111522950B (zh) 一种针对非结构化海量文本敏感数据的快速识别系统
CN106611016B (zh) 一种基于可分解词包模型的图像检索方法
CN111666499A (zh) 一种基于大数据的舆情监测云服务平台
Zhao RETRACTED ARTICLE: Application of deep learning algorithm in college English teaching process evaluation
CN111104422A (zh) 一种数据推荐模型的训练方法、装置、设备及存储介质
Liao et al. Improving farm management optimization: Application of text data analysis and semantic networks
Ghanadi Nezhad et al. Forecasting the subject trend of International library and information science research by 2030 using the deep learning approach
Ziv et al. CompanyName2Vec: Company Entity Matching Based on Job Ads
CN111209375B (zh) 一种通用的条款与文档匹配方法
CN112800219A (zh) 客服日志反馈回流数据库的方法及系统
Mallek et al. An Unsupervised Approach for Precise Context Identification from Unstructured Text Documents
LU505053B1 (en) Sentiment analysis method and system based on deep learning
Sameemdeen et al. Topic classification using active learning for sinhala language documents
CN113377746B (zh) 一种试验报告数据库构建和智能诊断分析系统
Sun et al. A method for discovering and obtaining company hot events from Internet news
Li et al. Chinese Comments Classification and Hotspot Mining Algorithm based on Natural Language Processing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination