CN113361262A - 一种企业经营业绩预测先行指标筛选方法及系统 - Google Patents

一种企业经营业绩预测先行指标筛选方法及系统 Download PDF

Info

Publication number
CN113361262A
CN113361262A CN202110620532.5A CN202110620532A CN113361262A CN 113361262 A CN113361262 A CN 113361262A CN 202110620532 A CN202110620532 A CN 202110620532A CN 113361262 A CN113361262 A CN 113361262A
Authority
CN
China
Prior art keywords
index
research
report
indexes
keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110620532.5A
Other languages
English (en)
Inventor
周纯葆
王彦棡
王珏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Computer Network Information Center of CAS
Original Assignee
Computer Network Information Center of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Computer Network Information Center of CAS filed Critical Computer Network Information Center of CAS
Priority to CN202110620532.5A priority Critical patent/CN113361262A/zh
Publication of CN113361262A publication Critical patent/CN113361262A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Development Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Educational Administration (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种企业经营业绩预测先行指标筛选方法,包括:获取目标企业的研报图表和营业收入,并从所述研报图表中提取研报关键词并计算研报关键词向量;从行业数据库中获取所述目标企业所属行业的宏观指标和产业指标的指标关键词,并计算得到指标词向量和指标值;确定研报关键词向量与指标词向量的逻辑相关性;确定所述指标值与所述营业收入的数学相关性;根据所述逻辑相关性和数学相关性确定各指标的综合相关性,并得到相关指标列表;根据相关指标列表得到目标企业的前瞻指标。通过基于逻辑相关性与数学相关性融合的前瞻因子筛选,可以将该企业的前瞻指标进行排序,获得相关性较高的指标,以提高对企业经营业绩预测的准确性。

Description

一种企业经营业绩预测先行指标筛选方法及系统
技术领域
本发明涉及指标筛选技术领域,尤其涉及一种企业经营业绩预测先行指标筛选方法及系统。
背景技术
在预测上市公司业绩时,往往需要用到宏观指标、行业数据指标,市场上可以采购到的宏观指标和行业数据指标数量级庞大(几十万条,甚至上百万条),传统人工筛选的方法需要消耗大量的人力,并且需要筛选的人员对上市公司业务情况及宏观、行业指标有非常深入的研究和了解,但受限于人注意力和精力有限,因此在筛选时往往可能漏掉很多高价值的宏观、行业先行指标;或者随着时间推移和上市公司经营范围的变化,上市公司经营业绩的先行指标也会发生变化,因此需要一种新型的利用计算机高效、相对准确的筛选上市公司经营业绩预测先行指标的筛选方法。
发明内容
有鉴于此,本申请实施例提供了一种企业经营业绩预测先行指标筛选方法。
第一方面,本申请实施例提供了一种企业经营业绩预测先行指标筛选方法,包括:
获取目标企业的研报图表和营业收入,并从所述研报图表中提取研报关键词,对所述研报关键词进行计算得到所述研报关键词向量;
从行业数据库中获取所述目标企业所属行业的宏观指标和产业指标;并从所述宏观指标和产业指标中获取指标关键词,对所述指标关键词进行计算得到指标词向量;
确定所述研报关键词向量与所述指标词向量的逻辑相关性;
获取所述宏观指标和产业指标的指标值,并确定所述指标值与所述营业收入的数学相关性;
根据所述逻辑相关性和数学相关性确定各指标的综合相关性,并根据所述综合相关性确定相关指标列表;
对所述相关指标列表中的指标进行去共线性分析,得到所述目标企业的前瞻指标。
可选地,所述从所述研报文件中提取研报关键词包括:
通过字符识别技术得到所述研报图表中的文字信息;
针对所述研报图表中的文字信息,通过分词、词频统计和词性分析得到所述研报图表中的关键词。
可选地,通过字符识别技术得到所述研报图表中的文字信息包括:
针对目标企业的研报图表,通过OCR技术,得到所述目标企业研报图表中的文字信息,其中判定标准为识别准确率大于等99.9%。
可选地,所述对所述研报关键词进行计算得到研报关键词向量包括:
获取所述研报关键词在所有研报图表中的出现频率和上下文的共现频率;
根据所述出现频率和上下文的共现频率确定所述研报关键词向量。
可选地,所述对所述指标关键词进行计算得到指标词向量包括:
获取所述关键词在所述指标文件中的出现频率和在所述指标文件中的上下文的共现频率;
根据所述出现频率和所述共现频率确定所述指标词向量。
可选地,所述根据所述综合相关性确定相关指标列表包括:
将所述宏观指标和所述产业指标按照综合相关性由大到小的顺序进行排序,并选取排名前N个指标组成相关指标列表,其中N为大于等于1的自然数。
可选地,所述对所述相关指标列表中的指标进行去共线性分析包括:差分法、逐步回归分析、主成份分析、单因素方差分析中的至少一种。
第二方面,本申请实施例提供了一种企业经营业绩预测先行指标筛选系统,其特征在于,包括:
采集单元,用于采集目标企业的研报图表和营业收入以及采集所述目标企业所属的行业数据库中的宏观指标和产业指标;
处理单元,用于从所述研报图表中提取研报关键词以及从所述宏观指标和产业指标中提取指标关键词,并对所述研报关键词进行计算得到研报关键词向量,对所述指标关键词进行计算得到指标词向量;确定所述研报关键词向量与所述指标词向量的逻辑相关性;
所述处理单元,还用于根据所述宏观指标和产业指标确定所述宏观指标和产业指标的指标值,并确定所述指标值与所述营业收入的数学相关性;根据所述逻辑相关性和数学相关性确定指标的综合相关性,将所述宏观指标和产业指标按照所述指标相关性排序,得到相关指标列表;对所述相关指标列表中的指标进行去共线性分析,得到所述目标企业的前瞻指标。
本申请实施例提供一种企业经营业绩预测先行指标筛选方法,通过基于逻辑相关性与数学相关性融合的前瞻因子筛选,可以将该企业的前瞻指标进行排序,获得相关性较高的指标,以提高对企业经营业绩预测的准确性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本申请实施例提供的一种企业经营业绩预测先行指标筛选系统的结构示意图;
图2为本申请实施例提供的一种企业经营业绩预测先行指标筛选方法的流程图;
图3为本申请实施例提供的又一种企业经营业绩预测先行指标筛选方法的流程图;
图4为采用Word2Vec模型获取关键词的词向量的流程图;
图5为基于逻辑相关性与数学相关性融合的前瞻因子筛选结果示意;
图6基于逻辑相关性与数学相关性融合的前瞻因子筛选去共线性结果示意。
具体实施方式
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
图1为本发明申请实施例提供的一种企业经营业绩预测先行指标筛选系统的结构示意图,如图1所示,包括:采集单元101、处理单元102、存储单元103、显示单元104。这些元件可以连接到内部总线,也可以通过单独的布线彼此连接。
采集单元101用于根据用户输入的企业名称获取该企业的研报图表和营业收入。以及根据用户输入的企业名称确定该企业所属的行业,并获取该行业数据库中中的宏观指标和行业指标。然后将获取的研报图表、营业收入、宏观指标和产业指标存储在存储单元103中,以供处理单元102调用。
处理单元102用于根据采集单元101采集的研报图表提取研报关键词以及根据宏观指标和产业指标提取指标关键词,并对该研报关键词进行计算得到研报关键词向量,对该指标关键词进行计算得到指标词向量;然后计算所研报关键词向量与指标词向量的逻辑相关性。
进一步地,处理单元102还用于根据宏观指标和产业指标确定宏观指标和产业指标的指标值,并计算该指标值与营业收入的数学相关性。然后根据逻辑相关性和数学相关性确定指标的综合相关性,并将宏观指标和产业指标按照综合相关性排序,得到相关指标列表。最后对相关指标列表中的指标进行去共线性分析,得到目标企业的前瞻指标。并通过显示单元104展示给用户。
图2、图3均为本发明申请实施例提供的一种企业经营业绩预测先行指标筛选方法的流程图,如图3所示,包括以下步骤:
步骤S301:获取目标企业的研报图表和营业收入,并从该研报图表中提取关键词,对关键词进行计算得到关键词词向量;
根据目标企业的企业名称来获取目标企业的研报图表和营业收入。其中,可以根据该目标企业的企业名称搜索其官网,在目标企业的官方网站上下载该目标企业的研报图表和营业收入。
在下载目标企业的研报图表时,选取的标准为大于20页的研报图表为高质量的研报图表并进行下载。
由于下载的研报图表多为图像文件,因此还需要从下载的研报图表中提取出文件信息。具体地,可以通过光学字符识别(Optical Character Recognition,OCR)对下载的图像文件进行分析识别处理,获取文字及版面信息。
针对研报图表中的文字信息,通过分词、词频统计和词性分析得到该图该研报图表中的关键词。然后根据该关键词在所有研报图表中的出现频率以及在上下文的共现频率,确定该关键词的词向量。
在一个可能的示例中,还可以通过Word2Vec模型来获取研报图表中的关键词的词向量。Word2Vec是从大量文本中学习语义知识的一种模型,采用无监督的方式。简单来说就是通过训练大量文本,将文本中的词用向量形式表示。图4为采用Word2Vec模型获取关键词的词向量的流程图。主要步骤包括:使用Skip-Gram或者CBOW获得(输入词,输出词)对。使用one-hot编码将输入词、输出词进行编码。前面这两步得到模型的训练样本。最后将编码过的输入词、输出词带入神经网络进行训练,输入矩阵乘输入-隐层权重矩阵结果即为输入词的词向量结果。
步骤S302,根据目标企业从行业数据库中获取目标企业所属行业的宏观指标和产业指标;并从宏观指标和产业指标中获取指标关键词,对指标关键词进行计算得到指标词向量;
从目标企业所属行业的行业数据库中获取宏观指标和产业指标,并根据获得的宏观指标和产业指标提取指标关键字,并确定获得的关键词的词向量
其中,获得指标关键词的方法与步骤S101中获取关键词的方法相同,在此,不再赘述。
步骤S303,计算所述关键词词向量与所述指标词向量的逻辑相关性;
步骤S304,获取所述宏观指标和产业指标的指标值,并计算所述指标值与所述营业收入的数学相关性;
其中,每一个指标都对应了一个指标值,获取的指标值是指存储在数据库中的时间序列数据,可以通过数据库操作进行提取。
步骤S305,根据逻辑相关性和数学相关性确定指标的综合相关性,并将宏观指标和产业指标按照综合相关性排序,得到相关指标列表;
在根据各指标与关键词的逻辑相关性以及各指标与营业收入的数学相关性确定各指标的相关性时,逻辑相关性和数学相关性的比例可以根据用户的需求进行调整。当用户更关注逻辑相关性时,可以提高逻辑相关性的权重,当用户更关注数学相关性时,可以提高数学相关性的权重。
步骤S306,对相关指标列表中的指标进行去共线性分析,得到目标企业的前瞻指标。
在一个可能的示例中,可以通过单因素方差分析法、差分法、逐步回归分词、主成分分析中的至少一种对得到的相关性列表进行去共线性分析。
在本发明申请实施例中,通过逻辑相关性和数学相关性融合的前瞻因子筛选,可以将企业的前瞻指标进行排序,获得相关性较高的指标,以提高对企业经营业绩的预测准确率。
在一个可能的实施例中,以A公司为例,通过基于逻辑相关性与数学相关性融合的前瞻因子筛选得到相关性较高的宏观指标和产业指标如图5所示。在对相关性较高的宏观指标和产业指标进行去共线性分析以后,得到最终的企业前瞻因子,如图6所示。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (8)

1.一种企业经营业绩预测先行指标筛选方法,其特征在于,包括:
获取目标企业的研报图表和营业收入,并从所述研报图表中提取研报关键词,对所述研报关键词进行计算得到所述研报关键词向量;
从行业数据库中获取所述目标企业所属行业的宏观指标和产业指标;并从所述宏观指标和产业指标中获取指标关键词,对所述指标关键词进行计算得到指标词向量;
确定所述研报关键词向量与所述指标词向量的逻辑相关性;
获取所述宏观指标和产业指标的指标值,并确定所述指标值与所述营业收入的数学相关性;
根据所述逻辑相关性和数学相关性确定各指标的综合相关性,并根据所述综合相关性确定相关指标列表;
对所述相关指标列表中的指标进行去共线性分析,得到所述目标企业的前瞻指标。
2.根据权利要求1所述的方法,其特征在于,所述从所述研报文件中提取研报关键词包括:
通过字符识别技术得到所述研报图表中的文字信息;
针对所述研报图表中的文字信息,通过分词、词频统计和词性分析得到所述研报图表中的关键词。
3.根据权利要求2所述的方法,其特征在于,通过字符识别技术得到所述研报图表中的文字信息包括:
针对目标企业的研报图表,通过OCR技术,得到所述目标企业研报图表中的文字信息,其中判定标准为识别准确率大于等99.9%。
4.根据权利要求1所述的方法,其特征在于,所述对所述研报关键词进行计算得到研报关键词向量包括:
获取所述研报关键词在所有研报图表中的出现频率和上下文的共现频率;
根据所述出现频率和上下文的共现频率确定所述研报关键词向量。
5.根据权利要求1所述的方法,其特征在于,所述对所述指标关键词进行计算得到指标词向量包括:
获取所述关键词在所述指标文件中的出现频率和在所述指标文件中的上下文的共现频率;
根据所述出现频率和所述共现频率确定所述指标词向量。
6.根据权利要求1所述的方法,其特征在于,所述根据所述综合相关性确定相关指标列表包括:
将所述宏观指标和所述产业指标按照综合相关性由大到小的顺序进行排序,并选取排名前N个指标组成相关指标列表,其中N为大于等于1的自然数。
7.根据权利要求1所述的方法,其特征在于,所述对所述相关指标列表中的指标进行去共线性分析包括:差分法、逐步回归分析、主成份分析、单因素方差分析中的至少一种。
8.一种企业经营业绩预测先行指标筛选系统,其特征在于,包括:
采集单元,用于采集目标企业的研报图表和营业收入以及采集所述目标企业所属的行业数据库中的宏观指标和产业指标;
处理单元,用于从所述研报图表中提取研报关键词以及从所述宏观指标和产业指标中提取指标关键词,并对所述研报关键词进行计算得到研报关键词向量,对所述指标关键词进行计算得到指标词向量;确定所述研报关键词向量与所述指标词向量的逻辑相关性;
所述处理单元,还用于根据所述宏观指标和产业指标确定所述宏观指标和产业指标的指标值,并确定所述指标值与所述营业收入的数学相关性;根据所述逻辑相关性和数学相关性确定指标的综合相关性,将所述宏观指标和产业指标按照所述指标相关性排序,得到相关指标列表;对所述相关指标列表中的指标进行去共线性分析,得到所述目标企业的前瞻指标。
CN202110620532.5A 2021-06-03 2021-06-03 一种企业经营业绩预测先行指标筛选方法及系统 Pending CN113361262A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110620532.5A CN113361262A (zh) 2021-06-03 2021-06-03 一种企业经营业绩预测先行指标筛选方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110620532.5A CN113361262A (zh) 2021-06-03 2021-06-03 一种企业经营业绩预测先行指标筛选方法及系统

Publications (1)

Publication Number Publication Date
CN113361262A true CN113361262A (zh) 2021-09-07

Family

ID=77531815

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110620532.5A Pending CN113361262A (zh) 2021-06-03 2021-06-03 一种企业经营业绩预测先行指标筛选方法及系统

Country Status (1)

Country Link
CN (1) CN113361262A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180157644A1 (en) * 2016-12-07 2018-06-07 Disney Enterprises, Inc. Dynamic word embeddings
CN111950932A (zh) * 2020-08-26 2020-11-17 北京信息科技大学 基于多源信息融合的中小微企业综合质量画像方法
CN112365202A (zh) * 2021-01-15 2021-02-12 平安科技(深圳)有限公司 一种多目标对象的评价因子筛选方法及其相关设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180157644A1 (en) * 2016-12-07 2018-06-07 Disney Enterprises, Inc. Dynamic word embeddings
CN111950932A (zh) * 2020-08-26 2020-11-17 北京信息科技大学 基于多源信息融合的中小微企业综合质量画像方法
CN112365202A (zh) * 2021-01-15 2021-02-12 平安科技(深圳)有限公司 一种多目标对象的评价因子筛选方法及其相关设备

Similar Documents

Publication Publication Date Title
CN112818093B (zh) 基于语义匹配的证据文档检索方法、系统及存储介质
CN111831802B (zh) 一种基于lda主题模型的城市领域知识检测系统及方法
US20220237230A1 (en) System and method for automated file reporting
US10755045B2 (en) Automatic human-emulative document analysis enhancements
CN111125343A (zh) 适用于人岗匹配推荐系统的文本解析方法及装置
CN107463616B (zh) 一种企业信息分析方法及系统
CN110334343B (zh) 一种合同中个人隐私信息抽取的方法和系统
CN112051986B (zh) 基于开源知识的代码搜索推荐装置及方法
CN112883730B (zh) 相似文本匹配方法、装置、电子设备及存储介质
US20150286706A1 (en) Forensic system, forensic method, and forensic program
CN111625621A (zh) 一种文档检索方法、装置、电子设备及存储介质
CN110134799A (zh) 一种基于bm25算法的文本语料库的搭建和优化方法
CN110968664A (zh) 一种文书检索方法、装置、设备及介质
CN114491034B (zh) 一种文本分类方法及智能设备
CN117520503A (zh) 基于llm模型的金融客服对话生成方法、装置、设备及介质
JP5986687B2 (ja) データ分別システム、データ分別方法、データ分別のためのプログラム、及び、このプログラムの記録媒体
CN113806483B (zh) 数据处理方法、装置、电子设备及计算机程序产品
CN110310012B (zh) 数据分析方法、装置、设备及计算机可读存储介质
CN111538903A (zh) 搜索推荐词确定方法、装置、电子设备及计算机可读介质
CN111563212A (zh) 一种内链添加方法及装置
CN117574858A (zh) 一种基于大语言模型的类案检索报告自动生成方法
CN111859955A (zh) 一种基于深度学习的舆情数据分析模型
CN114996400A (zh) 裁判文书处理方法、装置、电子设备及存储介质
CN113361262A (zh) 一种企业经营业绩预测先行指标筛选方法及系统
CN114117047A (zh) 一种基于c4.5算法对非法语音进行分类的方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination