CN116821489A - 一种股票筛选方法及系统 - Google Patents
一种股票筛选方法及系统 Download PDFInfo
- Publication number
- CN116821489A CN116821489A CN202310750041.1A CN202310750041A CN116821489A CN 116821489 A CN116821489 A CN 116821489A CN 202310750041 A CN202310750041 A CN 202310750041A CN 116821489 A CN116821489 A CN 116821489A
- Authority
- CN
- China
- Prior art keywords
- stock information
- target
- semantic vector
- information
- stock
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012216 screening Methods 0.000 title claims abstract description 75
- 238000000034 method Methods 0.000 title claims abstract description 39
- 239000013598 vector Substances 0.000 claims abstract description 190
- 238000006243 chemical reaction Methods 0.000 claims abstract description 21
- 230000001364 causal effect Effects 0.000 claims description 27
- 238000011160 research Methods 0.000 claims description 21
- 238000012549 training Methods 0.000 claims description 20
- 230000002776 aggregation Effects 0.000 claims description 15
- 238000004220 aggregation Methods 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 14
- 238000005516 engineering process Methods 0.000 abstract description 6
- 238000003058 natural language processing Methods 0.000 abstract description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2474—Sequence data queries, e.g. querying versioned data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- Computing Systems (AREA)
- Pure & Applied Mathematics (AREA)
- Finance (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Accounting & Taxation (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Mathematics (AREA)
- Evolutionary Computation (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Operations Research (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Fuzzy Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Algebra (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
Abstract
本发明公开了一种股票筛选方法及系统,获取待检索的股票信息,将股票信息进行数字向量转化,得到第一语义向量,计算第一语义向量与预设数据库中的各个预设语义向量的距离,筛选出与第一语义向量的距离小于预设距离的预设语义向量作为目标语义向量,根据目标语义向量得到目标股票信息,将股票信息与各个目标股票信息进行文本推理,得到股票信息与各个目标股票信息的概率值,然后采用T统计汇总方式计算出股票信息与各个目标股票信息的总分数,以使用户根据总分数选择目标股票。本方法通过自然语言处理技术实现了定性描述方法进行股票筛选,解决了因替代变量的信息损失和能量局限带来的筛选结果不稳定的问题,提高了股票筛选方法的效率和准确度。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种股票筛选方法及系统。
背景技术
股票筛选是投资者在进行股票投资时必须掌握的技能之一,通过规则初筛,可以将符合某种特征的股票保留下来,进行下一步精细分析。在股票筛选中数字定量筛选、替代变量筛选、条件筛选以及主观分析筛选是几种常见的筛选方式。
数字定量筛选。在具备明确筛选指标的情况下,采用数字定量筛选的方式。例如市值大于100亿的公司、营收增速超过30%的公司等;条件筛选是指有一些指标以格式化处理后的文字条件的形式可供投研人员筛选,比如行业、所在地区等等。替代变量筛选是指如果找不到明确筛选的指标,往往需要寻找替代变量来表示,比如员工福利好的公司,需要用员工薪酬来替代;具备领先技术的公司,需要用研发投入或者专利数量来近似替代。但是这些替代指标往往不能完全代表我们想要筛选的标准,存在信息损失。
数字筛选和条件筛选虽然客观便捷,但限制较大。只能应用在极少的筛选场景下。替代变量筛选是数字筛选的补充,仍然存在很多限制。一方面是替代变量无法完全表达用户筛选的预期,另一方面是仍存在大量条件无法找到合适的替代变量。主观分析则需要研究人员深入搜集信息,单家公司耗时长,因此只能选择其中的少部分公司进行分析,或者花费大量人力。但由于主观分析标准不统一,每个人的思维方式和逻辑都不一样,甚至可能对于同样的信息,不同的人给出的结论截然相反。
发明内容
本发明提供了一种股票筛选方法及系统,可以通过自然语言处理技术实现了定性描述方法进行股票筛选,解决了因替代变量的信息损失和能量局限带来的筛选结果不稳定的问题,提高了股票筛选方法的效率和准确度。
本发明实施例的第一方面提供了一种股票筛选方法,所述方法包括:
获取待检索的股票信息;
将股票信息进行数字向量转化,得到第一语义向量,计算第一语义向量与预设数据库中的各个预设语义向量的距离,筛选出与第一语义向量的距离小于预设距离的预设语义向量作为目标语义向量,根据目标语义向量得到目标股票信息,其中,预设数据库的预设语义向量通过NLP预训练模型对研报文本信息进行转换得到的;
将股票信息与各个目标股票信息进行文本推理,得到股票信息与各个目标股票信息的概率值;
根据概率值,采用T统计汇总方式计算出股票信息与各个目标股票信息的总分数,以使用户根据总分数选择目标股票。
实施本实施例,获取待检索的股票信息,将股票信息进行数字向量转化,得到第一语义向量,计算第一语义向量与预设数据库中的各个预设语义向量的距离,筛选出与第一语义向量的距离小于预设距离的预设语义向量作为目标语义向量,根据目标语义向量得到目标股票信息,其中,预设数据库的预设语义向量通过NLP预训练模型对研报文本信息进行转换得到的。将股票信息与各个目标股票信息进行文本推理,得到股票信息与各个目标股票信息的概率值,根据概率值,采用T统计汇总方式计算出股票信息与各个目标股票信息的总分数,以使用户根据总分数选择目标股票。本方法通过自然语言处理技术实现了定性描述方法进行股票筛选,解决了因替代变量的信息损失和能量局限带来的筛选结果不稳定的问题,提高了股票筛选方法的效率和准确度。
在第一方面的一种可能的实现方式中,计算第一语义向量与预设数据库中的各个预设语义向量的距离,具体为:
将第一语义向量进行拆分后,得到多个语义向量段;
计算各个语义向量段与预设数据库中的各个簇的中心的第一距离,筛选出第一距离小于第一预设距离的簇作为目标簇,并计算各个语义向量段与目标簇中预设语义向量的第二距离;
将各个语义向量段与目标簇中各个预设语义向量的第二距离进行相加,得到第一语义向量与目标簇中各个预设语义向量的距离。
在第一方面的一种可能的实现方式中,预设数据库的预设语义向量通过NLP预训练模型对研报文本信息进行转换得到的,具体为:
获取研报文本信息,其中,研报文本信息通过从各个网站上实时获取的股票相关信息;
将研报文本信息进行拆分,得到多个文本句子,并通过NLP预训练模型将文本句子进行数字向量转换,得到语义向量,再将语义向量存储至预设数据库。
在第一方面的一种可能的实现方式中,将股票信息与各个目标股票信息进行文本推理,得到股票信息与各个目标股票信息的概率值,具体为:
判断股票信息与各个目标股票信息的因果关系,若股票信息与各个目标股票信息构成因果关系,则得到蕴含概率值;
若股票信息与各个目标股票信息构成相反的因果关系,则得到矛盾概率值;
若股票信息与各个目标股票信息没有因果关系,则得到无关概率值。
在第一方面的一种可能的实现方式中,根据概率值,采用T统计汇总方式计算出股票信息与各个目标股票信息的总分数,以使用户根据总分数选择目标股票,具体为:
统计股票信息与目标股票信息得到概率值的个数,得到得分样本个数;
根据得分样本个数,利用T统计汇总方式计算出股票信息与各个目标股票信息的总分数,其中,T统计汇总方式为:
其中,N为股票信息获取的得分样本个数,分母为标准差,std(X)代表样本标准差,
其中,xN表示股票信息与目标股票信息的概率值,表示股票信息与目标股票信息的概率值的平均值。
本发明实施例的第二方面提供了一种股票筛选系统,系统包括:
获取模块,用于获取待检索的股票信息;
转换模块,用于将股票信息进行数字向量转化,得到第一语义向量,计算第一语义向量与预设数据库中的各个预设语义向量的距离,筛选出与第一语义向量的距离小于预设距离的预设语义向量作为目标语义向量,根据目标语义向量得到目标股票信息,其中,预设数据库的预设语义向量通过NLP预训练模型对研报文本信息进行转换得到的;
概率值计算模块,用于将股票信息与各个目标股票信息进行文本推理,得到股票信息与各个目标股票信息的概率值;
总分数计算模块,用于根据概率值,采用T统计汇总方式计算出股票信息与各个目标股票信息的总分数,以使用户根据总分数选择目标股票。
在第二方面的一种可能的实现方式中,转换模块包括拆分单元、计算单元和相加单元,
其中,拆分单元用于将第一语义向量进行拆分后,得到多个语义向量段;
计算单元用于计算各个语义向量段与预设数据库中的各个簇的中心的第一距离,筛选出第一距离小于第一预设距离的簇作为目标簇,并计算各个语义向量段与目标簇中预设语义向量的第二距离;
相加单元用于将各个语义向量段与目标簇中各个预设语义向量的第二距离进行相加,得到第一语义向量与目标簇中各个预设语义向量的距离。
在第二方面的一种可能的实现方式中,预设数据库的预设语义向量通过NLP预训练模型对研报文本信息进行转换得到的,具体为:
获取研报文本信息,其中,研报文本信息通过从各个网站上实时获取的股票相关信息;
将研报文本信息进行拆分,得到多个文本句子,并通过NLP预训练模型将文本句子进行数字向量转换,得到语义向量,再将语义向量存储至预设数据库。
在第二方面的一种可能的实现方式中,概率值计算模块包括判断单元,
所述判断单元用于判断所述股票信息与各个所述目标股票信息的因果关系,若所述股票信息与各个所述目标股票信息构成因果关系,则得到蕴含概率值,若所述股票信息与各个所述目标股票信息构成相反的因果关系,则得到矛盾概率值,若所述股票信息与各个所述目标股票信息没有因果关系,则得到无关概率值。
在第二方面的一种可能的实现方式中,总分数计算模块包括统计单元和总分数计算单元,
其中,统计单元用于统计股票信息与目标股票信息得到概率值的个数,得到得分样本个数;
总分数计算单元用于根据得分样本个数,利用T统计汇总方式计算出股票信息与各个目标股票信息的总分数,其中,T统计汇总方式为:
其中,N为股票信息获取的得分样本个数,分母为标准差,std(X)代表样本标准差,
其中,xN表示股票信息与目标股票信息的概率值,表示股票信息与目标股票信息的概率值的平均值。
附图说明
图1为本发明提供的股票筛选方法的一种实施例的流程示意图;
图2为本发明提供的股票筛选方法的一种实施例的股票筛选流程示意图;
图3为本发明提供的股票筛选方法的另一种实施例的系统结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
请参照图1,图1是本发明提供的股票筛选方法的一种实施例的流程示意图,包括步骤S11~S14。各步骤具体如下:
S11、获取待检索的股票信息。
在本实施例中,获取待检索的股票信息主要可以为股票筛选提高参考的信息,该信息包括但不限于股票发行公司的公司基本情况信息、财务信息、产品销售信息、股价涨幅信息和专利信息等;国家宏观政策信息和奖励信息以及其他平台的金融研究报告等信息。
S12、将股票信息进行数字向量转化,得到第一语义向量,计算第一语义向量与预设数据库中的各个预设语义向量的距离,筛选出与第一语义向量的距离小于预设距离的预设语义向量作为目标语义向量,根据目标语义向量得到目标股票信息,其中,预设数据库的预设语义向量通过NLP预训练模型对研报文本信息进行转换得到的。
在优选的实施例当中,计算第一语义向量与预设数据库中的各个预设语义向量的距离,具体为:
将第一语义向量进行拆分后,得到多个语义向量段;
计算各个语义向量段与预设数据库中的各个簇的中心的第一距离,筛选出第一距离小于第一预设距离的簇作为目标簇,并计算各个语义向量段与目标簇中预设语义向量的第二距离;
将各个语义向量段与目标簇中各个预设语义向量的第二距离进行相加,得到第一语义向量与目标簇中各个预设语义向量的距离。
在本实施例中,如图2所示,首先基于每日更新的研报信息,每日把过去一段时间内的研报的文本拆分成句子的形式,通过NLP预训练模型,把文本句子转化成数字向量。数字向量中包含了文本的语义,下称语义向量,将研报信息转化的语义向量以数据库文件的方式存储下来。
采用FAI SS算法,在数据库文件中查找和用户的查询指令在语义上存在关联关系的研报文本。采用FAI SS算法计算用户指令语义向量和数据库中的语义向量之间两两的距离,距离越近代表语义关联度越高。具体计算步骤为:
当用户输入查询指令时,把用户指令转化成第一语义向量,再将所述第一语义向量进行拆分,得到多个语义向量段;
在数据库中,将各个预设语义向量分成多个簇,然后计算各个所述语义向量段与所述预设数据库中的各个簇的中心的第一距离,筛选出第一距离小于第一预设距离的簇作为目标簇,并计算各个语义向量段与目标簇中预设语义向量的第二距离,再将各个语义向量段与目标簇中各个预设语义向量的第二距离进行相加,得到第一语义向量与目标簇中各个预设语义向量的距离。
筛选出与第一语义向量的距离小于预设距离的预设语义向量作为目标语义向量,根据目标语义向量得到目标股票信息。
需要说明的是,所述预设距离可以根据用户的需求进行设置。
S13、将股票信息与各个目标股票信息进行文本推理,得到股票信息与各个目标股票信息的概率值。
在优选的实施例当中,将股票信息与各个目标股票信息进行文本推理,得到股票信息与各个目标股票信息的概率值,具体为:
判断股票信息与各个目标股票信息的因果关系,若股票信息与各个目标股票信息构成因果关系,则得到蕴含概率值;
若股票信息与各个目标股票信息构成相反的因果关系,则得到矛盾概率值;
若股票信息与各个目标股票信息没有因果关系,则得到无关概率值。
在本实施例中,首先训练好一个具备文本推理能力的NLP模型,该NLP模型是基于Bert模型结合网络公开的中文因果推理语料集训练而得。该模型的能力是根据输入的两句话,判断两句话之间是否存在因果关系,关系一共有三种:蕴含、矛盾和无关。模型以概率的方式输出,三种关系结果的概率之和为1。例如句子一:“太阳出来了”,与句子二:“外面开始变亮了”之间,在本例中,句一“蕴含”句二,即“太阳出来了”是“外面开始变亮”的因。
在建模时,句子一和句子二的顺序是固定的,也就是说同样的一对句子,顺序交换之后,模型判断其逻辑关系的结果可能不同。
然后,将语义检索模块输出的研报文本和用户输入的描述形成匹配。以研报文本为因,为论据。以用户输入的定性描述为果,为结论,判断两者之间是否存在因果关系,即研报提供的信息,是否支持用户提供的描述。例如研报中的文本为“长期而言,公司自由现金流水平充沛,具备长期高分红能力”,用户输入的筛选标准是“公司现金充足”,则研报文本支持用户的条件。相反,如果研报文本为“2018年金融市场资金收紧,去杠杆进一步深化,公司负债率偏高,导致2017年度第四期短期融资券未能按期兑付,构成实质性违约”,则研报文本与用户输入的条件相反,即逻辑关系为矛盾。
针对每个语义检索获得的研报问句都输出和用户查询语句的三类关系,即蕴含、矛盾和无关的概率值。
S14、根据概率值,采用T统计汇总方式计算出股票信息与各个目标股票信息的总分数,以使用户根据所述总分数选择目标股票。
在优选的实施例当中,根据概率值,采用T统计汇总方式计算出股票信息与各个目标股票信息的总分数,以使用户根据总分数选择目标股票,具体为:
统计股票信息与目标股票信息得到概率值的个数,得到得分样本个数;
根据得分样本个数,利用T统计汇总方式计算出股票信息与各个目标股票信息的总分数,其中,T统计汇总方式为:
其中,N为股票信息获取的得分样本个数,分母为标准差,std(X)代表样本标准差,
其中,xN表示股票信息与目标股票信息的概率值,表示股票信息与目标股票信息的概率值的平均值。
在本实施例中,采用T-统计汇总方式进行个股得分汇总。T-统计汇总方式为发明人提出的创新汇总方式,适用于NLP场景建模。传统的汇总方式一般是取均值、中值或者分位数,这种汇总方式并不适用与NLP场景。NLP场景的特点是不同主体的样本量可能相差悬殊。以上市公司的研报为例,有一些上市公司可能由于近期事件频繁备受关注,而有些上市公司关注度低,导致单纯采用均值、中值显然无法纳入样本数带来的置信度影响,因此根据T检验的思路,设计出T统计汇总方式,T统计汇总方式为:
其中,N为股票信息获取的得分样本个数,分母为标准差,std(X)代表样本标准差,
其中,xN表示股票信息与目标股票信息的概率值,表示股票信息与目标股票信息的概率值的平均值。
该汇总方式综合考虑了样本数和描述差异化的影响,适合NLP场景下的汇总统计。
本发明获取待检索的股票信息,将股票信息进行数字向量转化,得到第一语义向量,计算第一语义向量与预设数据库中的各个预设语义向量的距离,筛选出与第一语义向量的距离小于预设距离的预设语义向量作为目标语义向量,根据目标语义向量得到目标股票信息,其中,预设数据库的预设语义向量通过NLP预训练模型对研报文本信息进行转换得到的。将股票信息与各个目标股票信息进行文本推理,得到股票信息与各个目标股票信息的概率值,根据概率值,采用T统计汇总方式计算出股票信息与各个目标股票信息的总分数,以使用户根据总分数选择目标股票。本方法通过自然语言处理技术实现了定性描述方法进行股票筛选,解决了因替代变量的信息损失和能量局限带来的筛选结果不稳定的问题,提高了股票筛选方法的效率和准确度。
实施例二
相应地,参见图3,图3为本发明提供的一种股票筛选系统,如图所示,该股票筛选系统包括:
获取模块301,用于获取待检索的股票信息;
转换模块302,用于将股票信息进行数字向量转化,得到第一语义向量,计算第一语义向量与预设数据库中的各个预设语义向量的距离,筛选出与第一语义向量的距离小于预设距离的预设语义向量作为目标语义向量,根据目标语义向量得到目标股票信息,其中,预设数据库的预设语义向量通过NLP预训练模型对研报文本信息进行转换得到的;
概率值计算模块303,用于将股票信息与各个目标股票信息进行文本推理,得到股票信息与各个目标股票信息的概率值;
总分数计算模块304,用于根据概率值,采用T统计汇总方式计算出股票信息与各个目标股票信息的总分数,以使用户根据总分数选择目标股票。
在优选的实施例当中,转换模块302包括拆分单元3021、计算单元3022和相加单元3023,
其中,拆分单元3021用于将第一语义向量进行拆分后,得到多个语义向量段;
计算单元3022用于计算各个语义向量段与预设数据库中的各个簇的中心的第一距离,筛选出第一距离小于第一预设距离的簇作为目标簇,并计算各个语义向量段与目标簇中预设语义向量的第二距离;
相加单元3023用于将各个语义向量段与目标簇中各个预设语义向量的第二距离进行相加,得到第一语义向量与目标簇中各个预设语义向量的距离。
在优选的实施例当中,预设数据库的预设语义向量通过NLP预训练模型对研报文本信息进行转换得到的,具体为:
获取研报文本信息,其中,研报文本信息通过从各个网站上实时获取的股票相关信息;
将研报文本信息进行拆分,得到多个文本句子,并通过NLP预训练模型将文本句子进行数字向量转换,得到语义向量,再将语义向量存储至预设数据库。
在优选的实施例当中,概率值计算模块303包括判断单元3031,
判断单元3031用于判断股票信息与各个目标股票信息的因果关系,若股票信息与各个目标股票信息构成因果关系,则得到蕴含概率值,若股票信息与各个目标股票信息构成相反的因果关系,则得到矛盾概率值,若股票信息与各个目标股票信息没有因果关系,则得到无关概率值。
在优选的实施例当中,总分数计算模块304包括统计单元3041和总分数计算单元3042,
其中,统计单元3041用于统计股票信息与目标股票信息得到概率值的个数,得到得分样本个数;
总分数计算单元3042用于根据得分样本个数,利用T统计汇总方式计算出股票信息与各个目标股票信息的总分数,其中,T统计汇总方式为:
其中,N为股票信息获取的得分样本个数,分母为标准差,std(X)代表样本标准差,
其中,xN表示股票信息与目标股票信息的概率值,表示股票信息与目标股票信息的概率值的平均值。
综上所述,实施本发明的实施例,具有如下有益效果:
获取待检索的股票信息,将股票信息进行数字向量转化,得到第一语义向量,计算第一语义向量与预设数据库中的各个预设语义向量的距离,筛选出与第一语义向量的距离小于预设距离的预设语义向量作为目标语义向量,根据目标语义向量得到目标股票信息,其中,预设数据库的预设语义向量通过NLP预训练模型对研报文本信息进行转换得到的。将股票信息与各个目标股票信息进行文本推理,得到股票信息与各个目标股票信息的概率值,根据概率值,采用T统计汇总方式计算出股票信息与各个目标股票信息的总分数,以使用户根据总分数选择目标股票。本方法通过自然语言处理技术实现了定性描述方法进行股票筛选,解决了因替代变量的信息损失和能量局限带来的筛选结果不稳定的问题,提高了股票筛选方法的效率和准确度。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (10)
1.一种股票筛选方法,其特征在于,包括:
获取待检索的股票信息;
将所述股票信息进行数字向量转化,得到第一语义向量,计算所述第一语义向量与预设数据库中的各个预设语义向量的距离,筛选出与所述第一语义向量的所述距离小于预设距离的预设语义向量作为目标语义向量,根据所述目标语义向量得到目标股票信息,其中,所述预设数据库的预设语义向量通过NLP预训练模型对研报文本信息进行转换得到的;
将所述股票信息与各个所述目标股票信息进行文本推理,得到所述股票信息与各个所述目标股票信息的概率值;
根据所述概率值,采用T统计汇总方式计算出所述股票信息与各个所述目标股票信息的总分数,以使用户根据所述总分数选择目标股票。
2.如权利要求1所述的股票筛选方法,其特征在于,所述计算所述第一语义向量与预设数据库中的各个预设语义向量的距离,具体为:
将所述第一语义向量进行拆分后,得到多个语义向量段;
计算各个所述语义向量段与所述预设数据库中的各个簇的中心的第一距离,筛选出所述第一距离小于第一预设距离的簇作为目标簇,并计算各个所述语义向量段与所述目标簇中预设语义向量的第二距离;
将各个所述语义向量段与所述目标簇中各个预设语义向量的第二距离进行相加,得到所述第一语义向量与所述目标簇中各个预设语义向量的距离。
3.如权利要求1所述的股票筛选方法,其特征在于,所述预设数据库的预设语义向量通过NLP预训练模型对研报文本信息进行转换得到的,具体为:
获取研报文本信息,其中,所述研报文本信息通过从各个网站上实时获取的股票相关信息;
将所述研报文本信息进行拆分,得到多个文本句子,并通过NLP预训练模型将所述文本句子进行数字向量转换,得到语义向量,再将所述语义向量存储至预设数据库。
4.如权利要求1所述的股票筛选方法,其特征在于,所述将所述股票信息与各个所述目标股票信息进行文本推理,得到所述股票信息与各个所述目标股票信息的概率值,具体为:
判断所述股票信息与各个所述目标股票信息的因果关系,若所述股票信息与各个所述目标股票信息构成因果关系,则得到蕴含概率值;
若所述股票信息与各个所述目标股票信息构成相反的因果关系,则得到矛盾概率值;
若所述股票信息与各个所述目标股票信息没有因果关系,则得到无关概率值。
5.如权利要求1所述的股票筛选方法,其特征在于,所述根据所述概率值,采用T统计汇总方式计算出所述股票信息与各个所述目标股票信息的总分数,以使所述用户根据所述总分数选择目标股票,具体为:
统计所述股票信息与目标股票信息得到概率值的个数,得到得分样本个数;
根据得分样本个数,利用T统计汇总方式计算出所述股票信息与各个所述目标股票信息的总分数,其中,所述T统计汇总方式为:
其中,N为所述股票信息获取的得分样本个数,分母为标准差,std(X)代表样本标准差,
其中,xN表示所述股票信息与目标股票信息的概率值,表示所述股票信息与目标股票信息的概率值的平均值。
6.一种股票筛选系统,其特征在于,包括:
获取模块,用于获取待检索的股票信息;
转换模块,用于将所述股票信息进行数字向量转化,得到第一语义向量,计算所述第一语义向量与预设数据库中的各个预设语义向量的距离,筛选出与所述第一语义向量的所述距离小于预设距离的预设语义向量作为目标语义向量,根据所述目标语义向量得到目标股票信息,其中,所述预设数据库的预设语义向量通过NLP预训练模型对研报文本信息进行转换得到的;
概率值计算模块,用于将所述股票信息与各个所述目标股票信息进行文本推理,得到所述股票信息与各个所述目标股票信息的概率值;
总分数计算模块,用于根据所述概率值,采用T统计汇总方式计算出所述股票信息与各个所述目标股票信息的总分数,以使所述用户根据所述总分数选择目标股票。
7.如权利要求6所述的股票筛选系统,其特征在于,所述转换模块包括拆分单元、计算单元和相加单元,
其中,所述拆分单元用于将所述第一语义向量进行拆分后,得到多个语义向量段;
所述计算单元用于计算各个所述语义向量段与所述预设数据库中的各个簇的中心的第一距离,筛选出所述第一距离小于第一预设距离的簇作为目标簇,并计算各个所述语义向量段与所述目标簇中预设语义向量的第二距离;
所述相加单元用于将各个所述语义向量段与所述目标簇中各个预设语义向量的第二距离进行相加,得到所述第一语义向量与所述目标簇中各个预设语义向量的距离。
8.如权利要求6所述的股票筛选系统,其特征在于,所述预设数据库的预设语义向量通过NLP预训练模型对研报文本信息进行转换得到的,具体为:
获取研报文本信息,其中,所述研报文本信息通过从各个网站上实时获取的股票相关信息;
将所述研报文本信息进行拆分,得到多个文本句子,并通过NLP预训练模型将所述文本句子进行数字向量转换,得到语义向量,再将所述语义向量存储至预设数据库。
9.如权利要求6所述的股票筛选系统,其特征在于,所述概率值计算模块包括判断单元,
所述判断单元用于判断所述股票信息与各个所述目标股票信息的因果关系,若所述股票信息与各个所述目标股票信息构成因果关系,则得到蕴含概率值,若所述股票信息与各个所述目标股票信息构成相反的因果关系,则得到矛盾概率值,若所述股票信息与各个所述目标股票信息没有因果关系,则得到无关概率值。
10.如权利要求6所述的股票筛选系统,其特征在于,所述总分数计算模块包括统计单元和总分数计算单元,
其中,所述统计单元用于统计所述股票信息与目标股票信息得到概率值的个数,得到得分样本个数;
所述总分数计算单元用于根据得分样本个数,利用T统计汇总方式计算出所述股票信息与各个所述目标股票信息的总分数,其中,所述T统计汇总方式为:
其中,N为所述股票信息获取的得分样本个数,分母为标准差,std(X)代表样本标准差,
其中,xN表示所述股票信息与目标股票信息的概率值,表示所述股票信息与目标股票信息的概率值的平均值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310750041.1A CN116821489B (zh) | 2023-06-21 | 2023-06-21 | 一种股票筛选方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310750041.1A CN116821489B (zh) | 2023-06-21 | 2023-06-21 | 一种股票筛选方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116821489A true CN116821489A (zh) | 2023-09-29 |
CN116821489B CN116821489B (zh) | 2024-05-10 |
Family
ID=88113941
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310750041.1A Active CN116821489B (zh) | 2023-06-21 | 2023-06-21 | 一种股票筛选方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116821489B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080177702A1 (en) * | 2007-01-23 | 2008-07-24 | Gm Global Technology Operations, Inc. | Retrieving case-based reasoning information from archive records |
CN114168575A (zh) * | 2021-11-22 | 2022-03-11 | 苏州中科劢诺信息科技有限公司 | 一种金融领域舆情分析方法及系统 |
CN114298314A (zh) * | 2022-01-04 | 2022-04-08 | 重庆邮电大学 | 一种基于电子病历的多粒度因果关系推理方法 |
CN115345710A (zh) * | 2022-08-19 | 2022-11-15 | 杭州么贝软件科技有限公司 | 一种电商商务大数据决策分析与数据处理方法 |
CN115374845A (zh) * | 2022-08-08 | 2022-11-22 | 中银金融科技有限公司 | 商品信息推理方法和装置 |
CN115640462A (zh) * | 2022-11-07 | 2023-01-24 | 北京航空航天大学 | 一种基于知识库增强的跨域新闻推荐方法 |
CN116228302A (zh) * | 2023-03-23 | 2023-06-06 | 中国工商银行股份有限公司 | 业务市场环境的分析方法、装置、处理器以及电子设备 |
-
2023
- 2023-06-21 CN CN202310750041.1A patent/CN116821489B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080177702A1 (en) * | 2007-01-23 | 2008-07-24 | Gm Global Technology Operations, Inc. | Retrieving case-based reasoning information from archive records |
CN114168575A (zh) * | 2021-11-22 | 2022-03-11 | 苏州中科劢诺信息科技有限公司 | 一种金融领域舆情分析方法及系统 |
CN114298314A (zh) * | 2022-01-04 | 2022-04-08 | 重庆邮电大学 | 一种基于电子病历的多粒度因果关系推理方法 |
CN115374845A (zh) * | 2022-08-08 | 2022-11-22 | 中银金融科技有限公司 | 商品信息推理方法和装置 |
CN115345710A (zh) * | 2022-08-19 | 2022-11-15 | 杭州么贝软件科技有限公司 | 一种电商商务大数据决策分析与数据处理方法 |
CN115640462A (zh) * | 2022-11-07 | 2023-01-24 | 北京航空航天大学 | 一种基于知识库增强的跨域新闻推荐方法 |
CN116228302A (zh) * | 2023-03-23 | 2023-06-06 | 中国工商银行股份有限公司 | 业务市场环境的分析方法、装置、处理器以及电子设备 |
Non-Patent Citations (2)
Title |
---|
XINGCHEN WAN ET AL: "An Impact Factors Model of Income Distribution Based on GINI Coefficient", 《2021 INTERNATIONAL CONFERENCE OF SOCIAL COMPUTING AND DIGITAL ECONOMY》, 6 October 2021 (2021-10-06), pages 56 - 59 * |
刘博研: "面向工业领域知识图谱构建的信息抽取方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, vol. 2021, no. 06, 15 June 2021 (2021-06-15), pages 138 - 785 * |
Also Published As
Publication number | Publication date |
---|---|
CN116821489B (zh) | 2024-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Day et al. | Deep learning for financial sentiment analysis on finance news providers | |
CN112581006B (zh) | 筛选舆情信息及监测企业主体风险等级的舆情系统及方法 | |
US8671040B2 (en) | Credit risk mining | |
CN110837931A (zh) | 客户流失预测方法、装置及存储介质 | |
CN117668205B (zh) | 智慧物流客服处理方法、系统、设备及存储介质 | |
CN117390170B (zh) | 数据标准的对标方法、装置、电子设备和可读存储介质 | |
CN115630843A (zh) | 合同条款自动审核方法及系统 | |
CN114491034B (zh) | 一种文本分类方法及智能设备 | |
CN115099310A (zh) | 训练模型、对企业进行行业分类的方法和装置 | |
CN117911079A (zh) | 一种个性化商户营销智能推荐方法和系统 | |
Li et al. | Credit risk management of scientific and technological enterprises based on text mining | |
CN116821489B (zh) | 一种股票筛选方法及系统 | |
CN112133308B (zh) | 一种用于语音识别文本多标签分类的方法和装置 | |
CN113361911B (zh) | 一种基于资产风控的新媒体内容投放方法及设备 | |
CN115048487A (zh) | 基于人工智能的舆情分析方法、装置、计算机设备及介质 | |
CN118246749B (zh) | 一种基于大模型代理的财务数据风险分析方法及系统 | |
CN116882412B (zh) | 一种基于nlp分类的语义推理方法及系统 | |
CN117541044B (zh) | 基于项目风险分析的项目分类方法、系统、介质及设备 | |
CN114549213B (zh) | 一种基金产品的分析管理方法、装置及系统 | |
CN117875309B (zh) | 基于大数据与深度学习的舆情分析方法、装置及介质 | |
CN116957140B (zh) | 一种基于nlp因子的股票预测方法及系统 | |
CN117891898B (zh) | 一种基于gpt大模型的分类检索方法及系统 | |
Huang et al. | Digital Transformation Strategy for Financial Management of Entity Enterprises in the Information Age | |
CN117762914A (zh) | 一种数据质量检测方法及系统 | |
CN114219141A (zh) | 一种公司风险应对能力的预测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |