CN117011073A

CN117011073A - 基于多层次模型的新股倾向预测方法和装置

Info

Publication number: CN117011073A
Application number: CN202311069927.6A
Authority: CN
Inventors: 李煜; 丑晓慧; 邹声乐
Original assignee: Shanghai Deepq Information Technology Co ltd; Ningbo Deepq Information Technology Co ltd
Current assignee: Shanghai Deepq Information Technology Co ltd; Ningbo Deepq Information Technology Co ltd
Priority date: 2023-08-23
Filing date: 2023-08-23
Publication date: 2023-11-07

Abstract

本申请涉及一种基于多层次模型的新股倾向预测方法和装置。所述方法包括：构建多层次模型，获取待分析对象的企业基本数据以及新股发行特征，以及通过网络爬虫获取待分析对象的评论信息数据，调用情感趋势识别模型对评论信息数据进行处理，得到与新股倾向相关的信息特征，对企业基本数据、新股发行特征以及信息特征进行向量化，得到特征向量，将特征向量输入预先训练的新股倾向预测模型，得到新股的破发概率。采用本方法能够实现新股的精确破发预测。

Description

基于多层次模型的新股倾向预测方法和装置

技术领域

本申请涉及计算机技术领域，特别是涉及一种基于多层次模型的新股倾向预测方法和装置。

背景技术

新股破发是指股票发行上市当日就跌破发行价，现有研究或技术是在分析和研究新股上市破发的影响因素，从统计分析的角度给出新股破发和影响因素的相关关系。但是新股是否破发的影响因素非常复杂，目前的分析手段的分析效果欠佳。

发明内容

基于此，有必要针对上述技术问题，提供一种基于多层次模型的新股倾向预测方法和装置。

一种基于多层次模型的新股倾向预测方法，所述方法包括：

构建多层次模型；所述多层次模型包括：情感趋势识别模型和新股倾向预测模型；

获取待分析对象的企业基本数据以及新股发行特征，以及通过网络爬虫获取所述待分析对象的评论信息数据；

调用所述情感趋势识别模型对所述评论信息数据进行处理，得到与新股倾向相关的信息特征；

对所述企业基本数据、新股发行特征以及所述信息特征进行向量化，得到特征向量；

将所述特征向量输入预先训练的所述新股倾向预测模型，得到新股的破发概率。

在其中一个实施例中，所述企业基本数据包括：企业经营数据和企业资产数据。

在其中一个实施例中，还包括：调用所述情感趋势识别模型对所述评论信息数据进行处理，预测得到所述评论信息数据对应的情感倾向；根据情感倾向占比，得到各个情感倾对应的情感指数，将所述情感指数作为与新股倾向相关的信息特征。

在其中一个实施例中，所述情感趋势识别模型为文本分类模型。

在其中一个实施例中，所述信息特征为正面、中性或负面。

在其中一个实施例中，还包括：对所述评论信息数据进行分类，得到连续特征数据和离散特征数据；对所述连续特征数据分别执行对齐对数变换操作，得到连续特征；对所述离散特征数据进行ID化处理，得到离散特征；调用所述情感趋势识别模型对所述连续特征和所述离散特征进行处理，得到信息特征。

在其中一个实施例中，所述新股倾向预测模型包括多个类型的二分类模型；通过K折交叉验证的方式进行训练，每种二分类模型得到K个模型；在进行新股倾向预测模型的破发预测时，通过投票方式确定输出破发概率的二分类模型。

一种基于多层次模型的新股倾向预测装置，所述装置包括：

模型构建模块，用于构建多层次模型；所述多层次模型包括：情感趋势识别模型和新股倾向预测模型；

数据获取模块，用于获取待分析对象的企业基本数据以及新股发行特征，以及通过网络爬虫获取所述待分析对象的评论信息数据；

数据处理模块，用于调用所述情感趋势识别模型对所述评论信息数据进行处理，得到与新股倾向相关的信息特征；

向量化模块，用于对所述企业基本数据、新股发行特征以及所述信息特征进行向量化，得到特征向量；

预测模块，用于将所述特征向量输入预先训练的所述新股倾向预测模型，得到新股的破发概率。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述基于多层次模型的新股倾向预测方法、装置、计算机设备和存储介质，首先构建多层次模型，包括情感趋势识别模型和新股倾向预测模型。分析企业基本数据以及新股发行特征，对新股的内在属性进行分析，构建从新股本体是否存在破发倾向的特征，为了进一步获取新股的外在属性，通过网络爬虫获取待分析对象的评论信息数据，信息数据一定程度会影响购买者的购买倾向，从而从一定程度的影响新股的购买期望，通过新股的内在属性和外在属性分别构建用于新股预测的特征，利用新股倾向预测模型进行预测，可以显著提升新股破发预测的准确性。

附图说明

图1为一个实施例中基于多层次模型的新股倾向预测方法的流程示意图；

图2为一个实施例中基于多层次模型的新股倾向预测装置的结构框图；

图3为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种基于多层次模型的新股倾向预测方法，包括以下步骤：

步骤102，构建多层次模型。

多层次模型包括：情感趋势识别模型和新股倾向预测模型，情感趋势识别模型可以是一个多分类模型，通过对文本进行处理后输入情感趋势识别模型，对文本进行分类。

具体的，情感趋势识别模型可以是bert、fasttext等模型，利用大量人工标注的数据，学习文本数据的语义特征，用于分类。

新股倾向预测模型是一个二分类模型，通过对输入特征的训练，输出新股破发的概率。

步骤104，获取待分析对象的企业基本数据以及新股发行特征，以及通过网络爬虫获取待分析对象的评论信息数据。

企业基本数据是决定新股是否破发的关键因素，企业基本数据中的财务状况更是最为关键的，但是如何提取财务状况作为新股倾向预测模型的特征，是一个技术问题，本实施例中，选择发行前一年每股净资产、发行前一年度每股收益、发行前一年度利润总额、发行前一年度营业收入、发行前一年度总资产、发行前一年度利润增长率、发行前一年度资产增长率、发行前一年度资产负债率、发行前一年度ROA、发行前一年度ROE作为企业基本数据。

新股发行特征指的是新股发行时的参数，本实施例中，选择首发价格、首发市盈率、首发募集资金、首发超募资金、上市年份、网下申购配售额、超额认购倍数、初步询价期间天数、发行与上市间隔期、大股东持股比例、限售股比例作为新股发行特征。

评论信息数据指的是在网络上投资者对于新股的信息数据。

值得说明的是，在一个市场化的定价体系下，新股发行价的制定是上市公司、承销商和机构投资者之间的博弈所形成的最终价格。

步骤106，调用情感趋势识别模型对评论信息数据进行处理，得到与新股倾向相关的信息特征。

步骤108，对企业基本数据、新股发行特征以及信息特征进行向量化，得到特征向量。

步骤110，将特征向量输入预先训练的新股倾向预测模型，得到新股的破发概率。

上述基于多层次模型的新股倾向预测方法中，首先构建多层次模型，包括情感趋势识别模型和新股倾向预测模型。分析企业基本数据以及新股发行特征，对新股的内在属性进行分析，构建从新股本体是否存在破发倾向的特征，为了进一步获取新股的外在属性，通过网络爬虫获取待分析对象的评论信息数据，信息数据一定程度会影响购买者的购买倾向，从而从一定程度的影响新股的购买期望，通过新股的内在属性和外在属性分别构建用于新股预测的特征，利用新股倾向预测模型进行预测，可以显著提升新股破发预测的准确性。

在其中一个实施例中，企业基本数据包括：企业经营数据和企业资产数据。企业经营数据包括：发行前一年度每股收益、发行前一年度利润总额、发行前一年度营业收入、发行前一年度利润增长率、发行前一年度ROA、发行前一年度ROE，企业资产数据包括：发行前一年每股净资产、发行前一年度总资产、发行前一年度资产增长率、发行前一年度资产负债率。

在其中一个实施例中，调用情感趋势识别模型对评论信息数据进行处理，预测得到评论信息数据对应的情感倾向；根据情感倾向占比，得到各个情感倾对应的情感指数，将情感指数作为与新股倾向相关的信息特征。

具体的，上市期间市场投资者情绪的变化可能使首日收盘价低于发行时的预期，最终导致首日破发。为了准确衡量投资者情绪，除了使用市场基本面数据以外，还通过爬虫爬取金融市场如东方财富、淘股吧、雪球等社区的信息数据，将其加工成可量化指标，一方面分别按个股、行业、概念等角度统计讨论留言帖的总次数作为投资者关注指数。另一方面建立情感趋势识别模型分析每个留言帖的情感趋势(乐观、悲观、中性)分别按个股、行业、概念等角度统计作为投资者乐观指数(乐观评论数/总评论数)，投资者悲观指数(悲观评论数/总评论数)。

对以上影响因子做如下特征处理：对于所有连续特征分别取自然对数，如每股净资产、每股收益等，分别对齐取对数变换。对于所有离散特征分别进行ID化处理，如上市板块，主板取1、创业板取2、科创板取3。以上特征处理后的影响因子作为新股破发预测模型的自变量。

在其中一个实施例中，信息特征为正面、中性或负面。

具体的，使用神经网络模型结构，利用大量人工标注的数据，学习文本数据的语义特征，用于分类。使用但不限于bert、fasttext生成文本分类方法。下面介绍fasttext的模型生成文本向量的方法。

fasttext模型分类，fasttext算法原理，整篇文档的词及n-gram向量叠加平均得到文档向量，然后使用文档向量做softmax多分类。

训练方法：数据为信息评论数据，标记三个情感类别(正面、负面、中性)，使用分词器对评论进行分词，数据预处理后进行训练，生成一个三分类模型。

在其中一个实施例中，对企业基本数据和新股发行特征进行分类，得到连续特征数据和离散特征数据；对连续特征数据分别执行对齐对数变换操作，得到连续特征；对离散特征数据进行ID化处理，得到离散特征；调用情感趋势识别模型输出的信息特征，拼接得到特征向量。

在其中一个实施例中，新股倾向预测模型包括多个类型的二分类模型；通过K折交叉验证的方式进行训练，每种二分类模型得到K个模型；在进行新股倾向预测模型的破发预测时，通过投票方式确定输出破发概率的二分类模型。

应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图2所示，提供了一种基于多层次模型的新股倾向预测装置，包括：模型构建模块202、数据获取模块204、数据处理模块206、向量化模块208和预测模块210，其中：

模型构建模块202，用于构建多层次模型；所述多层次模型包括：情感趋势识别模型和新股倾向预测模型；

数据获取模块204，用于获取待分析对象的企业基本数据以及新股发行特征，以及通过网络爬虫获取所述待分析对象的评论信息数据；

数据处理模块206，用于调用所述情感趋势识别模型对所述评论信息数据进行处理，得到与新股倾向相关的信息特征；

向量化模块208，用于对所述企业基本数据、新股发行特征以及所述信息特征进行向量化，得到特征向量；

预测模块210，用于将所述特征向量输入预先训练的所述新股倾向预测模型，得到新股的破发概率。

在其中一个实施例中，企业基本数据包括：企业经营数据和企业资产数据。

在其中一个实施例中，数据处理模块206还用于调用所述情感趋势识别模型对所述评论信息数据进行处理，预测得到所述评论信息数据对应的情感倾向；根据情感倾向占比，得到各个情感倾对应的情感指数，将所述情感指数作为与新股倾向相关的信息特征。

在其中一个实施例中，信息特征为正面、中性或负面。

在其中一个实施例中，数据处理模块206还用于对所述评论信息数据进行分类，得到连续特征数据和离散特征数据；对所述连续特征数据分别执行对齐对数变换操作，得到连续特征；对所述离散特征数据进行ID化处理，得到离散特征；调用所述情感趋势识别模型对所述连续特征和所述离散特征进行处理，得到信息特征。

在其中一个实施例，所述新股倾向预测模型包括多个类型的二分类模型；通过K折交叉验证的方式进行训练，每种二分类模型得到K个模型；在进行新股倾向预测模型的破发预测时，通过投票方式确定输出破发概率的二分类模型。

关于基于多层次模型的新股倾向预测装置的具体限定可以参见上文中对于基于多层次模型的新股倾向预测方法的限定，在此不再赘述。上述基于多层次模型的新股倾向预测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于多层次模型的新股倾向预测方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现上述实施例中方法的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于多层次模型的新股倾向预测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述企业基本数据包括：企业经营数据和企业资产数据。

3.根据权利要求1所述的方法，其特征在于，调用所述情感趋势识别模型对所述评论信息数据进行处理，得到与新股倾向相关的信息特征，包括：

调用所述情感趋势识别模型对所述评论信息数据进行处理，预测得到所述评论信息数据对应的情感倾向；

根据情感倾向占比，得到各个情感倾对应的情感指数，将所述情感指数作为与新股倾向相关的信息特征。

4.根据权利要求3所述的方法，其特征在于，所述情感趋势识别模型为文本分类模型。

5.根据权利要求4所述的方法，其特征在于，所述信息特征为正面、中性或负面。

6.根据权利要求1至5任一项所述的方法，其特征在于，调用所述情感趋势识别模型对所述评论信息数据进行处理，得到与新股倾向相关的信息特征，包括：

对所述评论信息数据进行分类，得到连续特征数据和离散特征数据；

对所述连续特征数据分别执行对齐对数变换操作，得到连续特征；

对所述离散特征数据进行ID化处理，得到离散特征；

调用所述情感趋势识别模型对所述连续特征和所述离散特征进行处理，得到信息特征。

7.根据权利要求6所述的方法，其特征在于，所述新股倾向预测模型包括多个类型的二分类模型；通过K折交叉验证的方式进行训练，每种二分类模型得到K个模型；

在进行新股倾向预测模型的破发预测时，通过投票方式确定输出破发概率的二分类模型。

8.一种基于多层次模型的新股倾向预测装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。