CN116821489A

CN116821489A - 一种股票筛选方法及系统

Info

Publication number: CN116821489A
Application number: CN202310750041.1A
Authority: CN
Inventors: 唐方凯; 李正非; 冯焯佳; 刘硕凌
Original assignee: E Fund Management Co ltd
Current assignee: E Fund Management Co ltd
Priority date: 2023-06-21
Filing date: 2023-06-21
Publication date: 2023-09-29
Anticipated expiration: 2043-06-21
Also published as: CN116821489B

Abstract

本发明公开了一种股票筛选方法及系统，获取待检索的股票信息，将股票信息进行数字向量转化，得到第一语义向量，计算第一语义向量与预设数据库中的各个预设语义向量的距离，筛选出与第一语义向量的距离小于预设距离的预设语义向量作为目标语义向量，根据目标语义向量得到目标股票信息，将股票信息与各个目标股票信息进行文本推理，得到股票信息与各个目标股票信息的概率值，然后采用T统计汇总方式计算出股票信息与各个目标股票信息的总分数，以使用户根据总分数选择目标股票。本方法通过自然语言处理技术实现了定性描述方法进行股票筛选，解决了因替代变量的信息损失和能量局限带来的筛选结果不稳定的问题，提高了股票筛选方法的效率和准确度。

Description

一种股票筛选方法及系统

技术领域

本发明涉及数据处理技术领域，尤其涉及一种股票筛选方法及系统。

背景技术

股票筛选是投资者在进行股票投资时必须掌握的技能之一，通过规则初筛，可以将符合某种特征的股票保留下来，进行下一步精细分析。在股票筛选中数字定量筛选、替代变量筛选、条件筛选以及主观分析筛选是几种常见的筛选方式。

数字定量筛选。在具备明确筛选指标的情况下，采用数字定量筛选的方式。例如市值大于100亿的公司、营收增速超过30％的公司等；条件筛选是指有一些指标以格式化处理后的文字条件的形式可供投研人员筛选，比如行业、所在地区等等。替代变量筛选是指如果找不到明确筛选的指标，往往需要寻找替代变量来表示，比如员工福利好的公司，需要用员工薪酬来替代；具备领先技术的公司，需要用研发投入或者专利数量来近似替代。但是这些替代指标往往不能完全代表我们想要筛选的标准，存在信息损失。

数字筛选和条件筛选虽然客观便捷，但限制较大。只能应用在极少的筛选场景下。替代变量筛选是数字筛选的补充，仍然存在很多限制。一方面是替代变量无法完全表达用户筛选的预期，另一方面是仍存在大量条件无法找到合适的替代变量。主观分析则需要研究人员深入搜集信息，单家公司耗时长，因此只能选择其中的少部分公司进行分析，或者花费大量人力。但由于主观分析标准不统一，每个人的思维方式和逻辑都不一样，甚至可能对于同样的信息，不同的人给出的结论截然相反。

发明内容

本发明提供了一种股票筛选方法及系统，可以通过自然语言处理技术实现了定性描述方法进行股票筛选，解决了因替代变量的信息损失和能量局限带来的筛选结果不稳定的问题，提高了股票筛选方法的效率和准确度。

本发明实施例的第一方面提供了一种股票筛选方法，所述方法包括：

获取待检索的股票信息；

将股票信息进行数字向量转化，得到第一语义向量，计算第一语义向量与预设数据库中的各个预设语义向量的距离，筛选出与第一语义向量的距离小于预设距离的预设语义向量作为目标语义向量，根据目标语义向量得到目标股票信息，其中，预设数据库的预设语义向量通过NLP预训练模型对研报文本信息进行转换得到的；

将股票信息与各个目标股票信息进行文本推理，得到股票信息与各个目标股票信息的概率值；

根据概率值，采用T统计汇总方式计算出股票信息与各个目标股票信息的总分数，以使用户根据总分数选择目标股票。

实施本实施例，获取待检索的股票信息，将股票信息进行数字向量转化，得到第一语义向量，计算第一语义向量与预设数据库中的各个预设语义向量的距离，筛选出与第一语义向量的距离小于预设距离的预设语义向量作为目标语义向量，根据目标语义向量得到目标股票信息，其中，预设数据库的预设语义向量通过NLP预训练模型对研报文本信息进行转换得到的。将股票信息与各个目标股票信息进行文本推理，得到股票信息与各个目标股票信息的概率值，根据概率值，采用T统计汇总方式计算出股票信息与各个目标股票信息的总分数，以使用户根据总分数选择目标股票。本方法通过自然语言处理技术实现了定性描述方法进行股票筛选，解决了因替代变量的信息损失和能量局限带来的筛选结果不稳定的问题，提高了股票筛选方法的效率和准确度。

在第一方面的一种可能的实现方式中，计算第一语义向量与预设数据库中的各个预设语义向量的距离，具体为：

将第一语义向量进行拆分后，得到多个语义向量段；

计算各个语义向量段与预设数据库中的各个簇的中心的第一距离，筛选出第一距离小于第一预设距离的簇作为目标簇，并计算各个语义向量段与目标簇中预设语义向量的第二距离；

将各个语义向量段与目标簇中各个预设语义向量的第二距离进行相加，得到第一语义向量与目标簇中各个预设语义向量的距离。

在第一方面的一种可能的实现方式中，预设数据库的预设语义向量通过NLP预训练模型对研报文本信息进行转换得到的，具体为：

获取研报文本信息，其中，研报文本信息通过从各个网站上实时获取的股票相关信息；

将研报文本信息进行拆分，得到多个文本句子，并通过NLP预训练模型将文本句子进行数字向量转换，得到语义向量，再将语义向量存储至预设数据库。

在第一方面的一种可能的实现方式中，将股票信息与各个目标股票信息进行文本推理，得到股票信息与各个目标股票信息的概率值，具体为：

判断股票信息与各个目标股票信息的因果关系，若股票信息与各个目标股票信息构成因果关系，则得到蕴含概率值；

若股票信息与各个目标股票信息构成相反的因果关系，则得到矛盾概率值；

若股票信息与各个目标股票信息没有因果关系，则得到无关概率值。

在第一方面的一种可能的实现方式中，根据概率值，采用T统计汇总方式计算出股票信息与各个目标股票信息的总分数，以使用户根据总分数选择目标股票，具体为：

统计股票信息与目标股票信息得到概率值的个数，得到得分样本个数；

根据得分样本个数，利用T统计汇总方式计算出股票信息与各个目标股票信息的总分数，其中，T统计汇总方式为：

其中，N为股票信息获取的得分样本个数，分母为标准差，std(X)代表样本标准差，

其中，x_N表示股票信息与目标股票信息的概率值，表示股票信息与目标股票信息的概率值的平均值。

本发明实施例的第二方面提供了一种股票筛选系统，系统包括：

获取模块，用于获取待检索的股票信息；

转换模块，用于将股票信息进行数字向量转化，得到第一语义向量，计算第一语义向量与预设数据库中的各个预设语义向量的距离，筛选出与第一语义向量的距离小于预设距离的预设语义向量作为目标语义向量，根据目标语义向量得到目标股票信息，其中，预设数据库的预设语义向量通过NLP预训练模型对研报文本信息进行转换得到的；

概率值计算模块，用于将股票信息与各个目标股票信息进行文本推理，得到股票信息与各个目标股票信息的概率值；

总分数计算模块，用于根据概率值，采用T统计汇总方式计算出股票信息与各个目标股票信息的总分数，以使用户根据总分数选择目标股票。

在第二方面的一种可能的实现方式中，转换模块包括拆分单元、计算单元和相加单元，

其中，拆分单元用于将第一语义向量进行拆分后，得到多个语义向量段；

计算单元用于计算各个语义向量段与预设数据库中的各个簇的中心的第一距离，筛选出第一距离小于第一预设距离的簇作为目标簇，并计算各个语义向量段与目标簇中预设语义向量的第二距离；

相加单元用于将各个语义向量段与目标簇中各个预设语义向量的第二距离进行相加，得到第一语义向量与目标簇中各个预设语义向量的距离。

在第二方面的一种可能的实现方式中，预设数据库的预设语义向量通过NLP预训练模型对研报文本信息进行转换得到的，具体为：

在第二方面的一种可能的实现方式中，概率值计算模块包括判断单元，

所述判断单元用于判断所述股票信息与各个所述目标股票信息的因果关系，若所述股票信息与各个所述目标股票信息构成因果关系，则得到蕴含概率值，若所述股票信息与各个所述目标股票信息构成相反的因果关系，则得到矛盾概率值，若所述股票信息与各个所述目标股票信息没有因果关系，则得到无关概率值。

在第二方面的一种可能的实现方式中，总分数计算模块包括统计单元和总分数计算单元，

其中，统计单元用于统计股票信息与目标股票信息得到概率值的个数，得到得分样本个数；

总分数计算单元用于根据得分样本个数，利用T统计汇总方式计算出股票信息与各个目标股票信息的总分数，其中，T统计汇总方式为：

附图说明

图1为本发明提供的股票筛选方法的一种实施例的流程示意图；

图2为本发明提供的股票筛选方法的一种实施例的股票筛选流程示意图；

图3为本发明提供的股票筛选方法的另一种实施例的系统结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

请参照图1，图1是本发明提供的股票筛选方法的一种实施例的流程示意图，包括步骤S11～S14。各步骤具体如下：

S11、获取待检索的股票信息。

在本实施例中，获取待检索的股票信息主要可以为股票筛选提高参考的信息，该信息包括但不限于股票发行公司的公司基本情况信息、财务信息、产品销售信息、股价涨幅信息和专利信息等；国家宏观政策信息和奖励信息以及其他平台的金融研究报告等信息。

S12、将股票信息进行数字向量转化，得到第一语义向量，计算第一语义向量与预设数据库中的各个预设语义向量的距离，筛选出与第一语义向量的距离小于预设距离的预设语义向量作为目标语义向量，根据目标语义向量得到目标股票信息，其中，预设数据库的预设语义向量通过NLP预训练模型对研报文本信息进行转换得到的。

在优选的实施例当中，计算第一语义向量与预设数据库中的各个预设语义向量的距离，具体为：

将第一语义向量进行拆分后，得到多个语义向量段；

在本实施例中，如图2所示，首先基于每日更新的研报信息，每日把过去一段时间内的研报的文本拆分成句子的形式，通过NLP预训练模型，把文本句子转化成数字向量。数字向量中包含了文本的语义，下称语义向量，将研报信息转化的语义向量以数据库文件的方式存储下来。

采用FAI SS算法，在数据库文件中查找和用户的查询指令在语义上存在关联关系的研报文本。采用FAI SS算法计算用户指令语义向量和数据库中的语义向量之间两两的距离，距离越近代表语义关联度越高。具体计算步骤为：

当用户输入查询指令时，把用户指令转化成第一语义向量，再将所述第一语义向量进行拆分，得到多个语义向量段；

在数据库中，将各个预设语义向量分成多个簇，然后计算各个所述语义向量段与所述预设数据库中的各个簇的中心的第一距离，筛选出第一距离小于第一预设距离的簇作为目标簇，并计算各个语义向量段与目标簇中预设语义向量的第二距离，再将各个语义向量段与目标簇中各个预设语义向量的第二距离进行相加，得到第一语义向量与目标簇中各个预设语义向量的距离。

筛选出与第一语义向量的距离小于预设距离的预设语义向量作为目标语义向量，根据目标语义向量得到目标股票信息。

需要说明的是，所述预设距离可以根据用户的需求进行设置。

S13、将股票信息与各个目标股票信息进行文本推理，得到股票信息与各个目标股票信息的概率值。

在优选的实施例当中，将股票信息与各个目标股票信息进行文本推理，得到股票信息与各个目标股票信息的概率值，具体为：

在本实施例中，首先训练好一个具备文本推理能力的NLP模型，该NLP模型是基于Bert模型结合网络公开的中文因果推理语料集训练而得。该模型的能力是根据输入的两句话，判断两句话之间是否存在因果关系，关系一共有三种：蕴含、矛盾和无关。模型以概率的方式输出，三种关系结果的概率之和为1。例如句子一：“太阳出来了”，与句子二：“外面开始变亮了”之间，在本例中，句一“蕴含”句二，即“太阳出来了”是“外面开始变亮”的因。

在建模时，句子一和句子二的顺序是固定的，也就是说同样的一对句子，顺序交换之后，模型判断其逻辑关系的结果可能不同。

然后，将语义检索模块输出的研报文本和用户输入的描述形成匹配。以研报文本为因，为论据。以用户输入的定性描述为果，为结论，判断两者之间是否存在因果关系，即研报提供的信息，是否支持用户提供的描述。例如研报中的文本为“长期而言，公司自由现金流水平充沛，具备长期高分红能力”，用户输入的筛选标准是“公司现金充足”，则研报文本支持用户的条件。相反，如果研报文本为“2018年金融市场资金收紧，去杠杆进一步深化，公司负债率偏高，导致2017年度第四期短期融资券未能按期兑付，构成实质性违约”，则研报文本与用户输入的条件相反，即逻辑关系为矛盾。

针对每个语义检索获得的研报问句都输出和用户查询语句的三类关系，即蕴含、矛盾和无关的概率值。

S14、根据概率值，采用T统计汇总方式计算出股票信息与各个目标股票信息的总分数，以使用户根据所述总分数选择目标股票。

在优选的实施例当中，根据概率值，采用T统计汇总方式计算出股票信息与各个目标股票信息的总分数，以使用户根据总分数选择目标股票，具体为：

在本实施例中，采用T-统计汇总方式进行个股得分汇总。T-统计汇总方式为发明人提出的创新汇总方式，适用于NLP场景建模。传统的汇总方式一般是取均值、中值或者分位数，这种汇总方式并不适用与NLP场景。NLP场景的特点是不同主体的样本量可能相差悬殊。以上市公司的研报为例，有一些上市公司可能由于近期事件频繁备受关注，而有些上市公司关注度低，导致单纯采用均值、中值显然无法纳入样本数带来的置信度影响，因此根据T检验的思路，设计出T统计汇总方式，T统计汇总方式为：

该汇总方式综合考虑了样本数和描述差异化的影响，适合NLP场景下的汇总统计。

本发明获取待检索的股票信息，将股票信息进行数字向量转化，得到第一语义向量，计算第一语义向量与预设数据库中的各个预设语义向量的距离，筛选出与第一语义向量的距离小于预设距离的预设语义向量作为目标语义向量，根据目标语义向量得到目标股票信息，其中，预设数据库的预设语义向量通过NLP预训练模型对研报文本信息进行转换得到的。将股票信息与各个目标股票信息进行文本推理，得到股票信息与各个目标股票信息的概率值，根据概率值，采用T统计汇总方式计算出股票信息与各个目标股票信息的总分数，以使用户根据总分数选择目标股票。本方法通过自然语言处理技术实现了定性描述方法进行股票筛选，解决了因替代变量的信息损失和能量局限带来的筛选结果不稳定的问题，提高了股票筛选方法的效率和准确度。

实施例二

相应地，参见图3，图3为本发明提供的一种股票筛选系统，如图所示，该股票筛选系统包括：

获取模块301，用于获取待检索的股票信息；

转换模块302，用于将股票信息进行数字向量转化，得到第一语义向量，计算第一语义向量与预设数据库中的各个预设语义向量的距离，筛选出与第一语义向量的距离小于预设距离的预设语义向量作为目标语义向量，根据目标语义向量得到目标股票信息，其中，预设数据库的预设语义向量通过NLP预训练模型对研报文本信息进行转换得到的；

概率值计算模块303，用于将股票信息与各个目标股票信息进行文本推理，得到股票信息与各个目标股票信息的概率值；

总分数计算模块304，用于根据概率值，采用T统计汇总方式计算出股票信息与各个目标股票信息的总分数，以使用户根据总分数选择目标股票。

在优选的实施例当中，转换模块302包括拆分单元3021、计算单元3022和相加单元3023，

其中，拆分单元3021用于将第一语义向量进行拆分后，得到多个语义向量段；

计算单元3022用于计算各个语义向量段与预设数据库中的各个簇的中心的第一距离，筛选出第一距离小于第一预设距离的簇作为目标簇，并计算各个语义向量段与目标簇中预设语义向量的第二距离；

相加单元3023用于将各个语义向量段与目标簇中各个预设语义向量的第二距离进行相加，得到第一语义向量与目标簇中各个预设语义向量的距离。

在优选的实施例当中，预设数据库的预设语义向量通过NLP预训练模型对研报文本信息进行转换得到的，具体为：

在优选的实施例当中，概率值计算模块303包括判断单元3031，

判断单元3031用于判断股票信息与各个目标股票信息的因果关系，若股票信息与各个目标股票信息构成因果关系，则得到蕴含概率值，若股票信息与各个目标股票信息构成相反的因果关系，则得到矛盾概率值，若股票信息与各个目标股票信息没有因果关系，则得到无关概率值。

在优选的实施例当中，总分数计算模块304包括统计单元3041和总分数计算单元3042，

其中，统计单元3041用于统计股票信息与目标股票信息得到概率值的个数，得到得分样本个数；

总分数计算单元3042用于根据得分样本个数，利用T统计汇总方式计算出股票信息与各个目标股票信息的总分数，其中，T统计汇总方式为：

综上所述，实施本发明的实施例，具有如下有益效果：

获取待检索的股票信息，将股票信息进行数字向量转化，得到第一语义向量，计算第一语义向量与预设数据库中的各个预设语义向量的距离，筛选出与第一语义向量的距离小于预设距离的预设语义向量作为目标语义向量，根据目标语义向量得到目标股票信息，其中，预设数据库的预设语义向量通过NLP预训练模型对研报文本信息进行转换得到的。将股票信息与各个目标股票信息进行文本推理，得到股票信息与各个目标股票信息的概率值，根据概率值，采用T统计汇总方式计算出股票信息与各个目标股票信息的总分数，以使用户根据总分数选择目标股票。本方法通过自然语言处理技术实现了定性描述方法进行股票筛选，解决了因替代变量的信息损失和能量局限带来的筛选结果不稳定的问题，提高了股票筛选方法的效率和准确度。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种股票筛选方法，其特征在于，包括：

获取待检索的股票信息；

将所述股票信息进行数字向量转化，得到第一语义向量，计算所述第一语义向量与预设数据库中的各个预设语义向量的距离，筛选出与所述第一语义向量的所述距离小于预设距离的预设语义向量作为目标语义向量，根据所述目标语义向量得到目标股票信息，其中，所述预设数据库的预设语义向量通过NLP预训练模型对研报文本信息进行转换得到的；

将所述股票信息与各个所述目标股票信息进行文本推理，得到所述股票信息与各个所述目标股票信息的概率值；

根据所述概率值，采用T统计汇总方式计算出所述股票信息与各个所述目标股票信息的总分数，以使用户根据所述总分数选择目标股票。

2.如权利要求1所述的股票筛选方法，其特征在于，所述计算所述第一语义向量与预设数据库中的各个预设语义向量的距离，具体为：

将所述第一语义向量进行拆分后，得到多个语义向量段；

计算各个所述语义向量段与所述预设数据库中的各个簇的中心的第一距离，筛选出所述第一距离小于第一预设距离的簇作为目标簇，并计算各个所述语义向量段与所述目标簇中预设语义向量的第二距离；

将各个所述语义向量段与所述目标簇中各个预设语义向量的第二距离进行相加，得到所述第一语义向量与所述目标簇中各个预设语义向量的距离。

3.如权利要求1所述的股票筛选方法，其特征在于，所述预设数据库的预设语义向量通过NLP预训练模型对研报文本信息进行转换得到的，具体为：

获取研报文本信息，其中，所述研报文本信息通过从各个网站上实时获取的股票相关信息；

将所述研报文本信息进行拆分，得到多个文本句子，并通过NLP预训练模型将所述文本句子进行数字向量转换，得到语义向量，再将所述语义向量存储至预设数据库。

4.如权利要求1所述的股票筛选方法，其特征在于，所述将所述股票信息与各个所述目标股票信息进行文本推理，得到所述股票信息与各个所述目标股票信息的概率值，具体为：

判断所述股票信息与各个所述目标股票信息的因果关系，若所述股票信息与各个所述目标股票信息构成因果关系，则得到蕴含概率值；

若所述股票信息与各个所述目标股票信息构成相反的因果关系，则得到矛盾概率值；

若所述股票信息与各个所述目标股票信息没有因果关系，则得到无关概率值。

5.如权利要求1所述的股票筛选方法，其特征在于，所述根据所述概率值，采用T统计汇总方式计算出所述股票信息与各个所述目标股票信息的总分数，以使所述用户根据所述总分数选择目标股票，具体为：

统计所述股票信息与目标股票信息得到概率值的个数，得到得分样本个数；

根据得分样本个数，利用T统计汇总方式计算出所述股票信息与各个所述目标股票信息的总分数，其中，所述T统计汇总方式为：

其中，N为所述股票信息获取的得分样本个数，分母为标准差，std(X)代表样本标准差，

其中，x_N表示所述股票信息与目标股票信息的概率值，表示所述股票信息与目标股票信息的概率值的平均值。

6.一种股票筛选系统，其特征在于，包括：

获取模块，用于获取待检索的股票信息；

转换模块，用于将所述股票信息进行数字向量转化，得到第一语义向量，计算所述第一语义向量与预设数据库中的各个预设语义向量的距离，筛选出与所述第一语义向量的所述距离小于预设距离的预设语义向量作为目标语义向量，根据所述目标语义向量得到目标股票信息，其中，所述预设数据库的预设语义向量通过NLP预训练模型对研报文本信息进行转换得到的；

概率值计算模块，用于将所述股票信息与各个所述目标股票信息进行文本推理，得到所述股票信息与各个所述目标股票信息的概率值；

总分数计算模块，用于根据所述概率值，采用T统计汇总方式计算出所述股票信息与各个所述目标股票信息的总分数，以使所述用户根据所述总分数选择目标股票。

7.如权利要求6所述的股票筛选系统，其特征在于，所述转换模块包括拆分单元、计算单元和相加单元，

其中，所述拆分单元用于将所述第一语义向量进行拆分后，得到多个语义向量段；

所述计算单元用于计算各个所述语义向量段与所述预设数据库中的各个簇的中心的第一距离，筛选出所述第一距离小于第一预设距离的簇作为目标簇，并计算各个所述语义向量段与所述目标簇中预设语义向量的第二距离；

所述相加单元用于将各个所述语义向量段与所述目标簇中各个预设语义向量的第二距离进行相加，得到所述第一语义向量与所述目标簇中各个预设语义向量的距离。

8.如权利要求6所述的股票筛选系统，其特征在于，所述预设数据库的预设语义向量通过NLP预训练模型对研报文本信息进行转换得到的，具体为：

9.如权利要求6所述的股票筛选系统，其特征在于，所述概率值计算模块包括判断单元，

10.如权利要求6所述的股票筛选系统，其特征在于，所述总分数计算模块包括统计单元和总分数计算单元，

其中，所述统计单元用于统计所述股票信息与目标股票信息得到概率值的个数，得到得分样本个数；

所述总分数计算单元用于根据得分样本个数，利用T统计汇总方式计算出所述股票信息与各个所述目标股票信息的总分数，其中，所述T统计汇总方式为：