CN107292744A - 基于机器学习的投资趋势分析方法及其系统 - Google Patents
基于机器学习的投资趋势分析方法及其系统 Download PDFInfo
- Publication number
- CN107292744A CN107292744A CN201710424134.XA CN201710424134A CN107292744A CN 107292744 A CN107292744 A CN 107292744A CN 201710424134 A CN201710424134 A CN 201710424134A CN 107292744 A CN107292744 A CN 107292744A
- Authority
- CN
- China
- Prior art keywords
- investment
- data
- module
- machine learning
- training set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/06—Asset management; Financial planning or analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Abstract
本发明涉及基于机器学习的投资趋势分析方法及其系统,该方法包括获取海量投资数据;根据投资数据,对企业的细分行业进行定位;按照细分行业的多维度,对投资数据进行分析和归类,获取基础指标库;根据基础指标库,获取符合投资属性的训练集;利用机器学习技术,使用训练集对需要分析和预测的数据进行投资趋势分析和预测。本发明通过利用机器学习技术对训练集进行训练,提高训练集指标的可靠性和准确性,利用海量投资数据进行分析,有助于提升训练集的准确度,实现利用海量可靠的数据以及从数据多个维度,筛选出优秀的企业,且根据投资机构的投资偏好进行数据分析,自动总结规律,提高分析效率以及分析的准确度。
Description
技术领域
本发明涉及投资趋势分析方法,更具体地说是指基于机器学习的投资趋势分析方法及其系统。
背景技术
投资指的是特定经济主体为了在未来可预见的时期内获得收益或是资金增值,在一定时期内向一定领域的标的物投放足够数额的资金或实物的货币等价物的经济行为,可分为实物投资、资本投资和证券投资。前者是以货币投入企业,通过生产经营活动取得一定利润。后者是以货币购买企业发行的股票和公司债券,间接参与企业的利润分配。
投资方寻求企业在投资时主要是进行投资趋势的分析,对于投资趋势的分析,一般都是基于对企业基础数据的简单分析,再由计算机做一些简单的统计分析和报表分析,投资经理人工来根据分析结果筛选企业,由于数据量小,数据维度少,很难筛选出优秀的企业。
中国专利201210253785.4公开了一种基于SWOT模型的行业投资信息及数据处理系统,包括信息采集分类服务器中的互联网上行业信息自动采集模块和行业信息手工补录模块;信息及数据处理服务器中的信息筛选加工模块、SWOT分析模块、影响力量化模块、SWOT指数处理模块;信息及数据输出终端。行业信息自动采集模块自动抓取互联网上的行业信息,信息筛选加工模块自动筛选去重和统一格式;SWOT分析模块将各子行业信息分成S、W、O、T部分;SWOT指数处理模块对信息设定影响概率系数并得到SWOT分析投资指数。该专利能自动搜索、抓取、筛选和加工行业投资信息,生成按子行业分类的信息和投资指数,实现信息和指数S、W、O、T类别的归类、存储和输出。
上述的专利采用SWOT模型对行业投资信息进行分析和处理,所有的信息都分成S、W、O、T部分,存在一定的局限性,不能结合行业特征进行提取,也无法根据投资机构的投资偏好进行数据分析,总结规律,效率不高。
因此,有必要设计一种基于机器学习的投资趋势分析方法,实现利用海量可靠的数据以及从数据多个维度,筛选出优秀的企业,且根据投资机构的投资偏好进行数据分析,自动总结规律,提高分析效率以及分析的准确度。
发明内容
本发明的目的在于克服现有技术的缺陷,提供基于机器学习的投资趋势分析方法及其系统。
为实现上述目的,本发明采用以下技术方案:基于机器学习的投资趋势分析方法,所述方法包括:
获取海量投资数据;
根据投资数据,对企业的细分行业进行定位;
按照细分行业的多维度,对所述投资数据进行分析和归类,获取基础指标库;
根据基础指标库,获取符合投资属性的训练集;
利用机器学习技术,使用训练集对需要分析和预测的数据进行投资趋势分析和预测。
其进一步技术方案为:根据投资数据,对企业的细分行业进行定位的步骤,包括以下具体步骤:
根据投资数据,建立符合投资属性的行业数据库;
采用企业全名搜索相关咨讯网站,获取搜索返回内容;
对所述搜索返回内容进行精准分析,获取相应投资属性的关键分词;
对所述关键分词进行匹配、分组统计以及打标签,形成企业的细分行业。
其进一步技术方案为:按照细分行业的多维度,对所述投资数据进行分析和归类,获取基础指标库的步骤,包括以下具体步骤:
按照细分行业分析和划分投资数据,获取每个细分行业的投资数据;
对每个细分行业的投资数据进行不同维度的分析和划分;
统计每个细分行业在各个维度中的总计数量,将总计数量作为每个细分行业各个维度的基础指标;
整合所有所述基础指标,形成基础指标库。
其进一步技术方案为:根据基础指标库,获取符合投资属性的训练集的步骤,包括以下具体步骤:
从基础指标库中提取符合投资属性的投资数据的规律;
抽取所述规律中的特征值,并量化所述特征值;
整合所述特征值,形成训练集。
其进一步技术方案为:利用机器学习技术,使用训练集对需要分析和预测的数据进行投资趋势分析和预测的步骤,包括以下具体步骤:
收集需要分析和预测的数据;
初步归类和分析所述数据;
计算所述数据的各个独立特征在不同分类中的条件概率和各类别概率;
计算条件概率以及各类别概率的错误率;
输入所述数据中指定的特征,计算输入特征的相应属于特定分类的条件概率;
返回属于特定分类的条件概率最大的类别。
本发明还提供了基于机器学习的投资趋势分析系统,包括数据获取单元、定位单元、基础指标库获取单元、训练集获取单元以及分析预测单元;
所述数据获取单元,用于获取海量投资数据;
所述定位单元,用于根据投资数据,对企业的细分行业进行定位;
所述基础指标库获取单元,用于按照细分行业的多维度,对所述投资数据进行分析和归类,获取基础指标库;
所述训练集获取单元,用于根据基础指标库,获取符合投资属性的训练集;
所述分析预测单元,用于利用机器学习技术,使用训练集对需要分析和预测的数据进行投资趋势分析和预测。
其进一步技术方案为:所述定位单元包括行业数据库建立模块、内容获取模块、分词获取模块以及处理模块;
所述行业数据库建立模块,用于根据投资数据,建立符合投资属性的行业数据库;
所述内容获取模块,用于采用企业全名搜索相关咨讯网站,获取搜索返回内容;
所述分词获取模块,用于对所述搜索返回内容进行精准分析,获取相应投资属性的关键分词;
所述处理模块,用于对所述关键分词进行匹配、分组统计以及打标签。
其进一步技术方案为:所述基础指标库获取单元包括行业划分模块、维度划分模块、总计数量获取模块以及数量整合模块;
所述行业划分模块,用于按照细分行业分析和划分投资数据,获取每个细分行业的投资数据;
所述维度划分模块,用于对每个细分行业的投资数据进行不同维度的分析和划分;
所述总计数量获取模块,用于统计每个细分行业在各个维度中的总计数量,将总计数量作为每个细分行业各个维度的基础指标;
所述数量整合模块,用于整合所有所述基础指标,形成基础指标库。
其进一步技术方案为:所述训练集获取单元包括规律提取模块、特征值处理模块以及特征值整合模块;
所述规律提取模块,用于从基础指标库中提取符合投资属性的投资数据的规律;
所述特征值处理模块,用于抽取所述规律中的特征值,并量化所述特征值;
所述特征值整合模块,用于整合所述特征值,形成训练集。
其进一步技术方案为:所述分析预测单元包括数据收集模块、初步处理模块、概率计算模块、错误率计算模块、输入计算模块以及类别返回模块;
所述数据收集模块,用于收集需要分析和预测的数据;
所述初步处理模块,用于初步归类和分析所述数据;
所述概率计算模块,用于计算所述数据的各个独立特征在不同分类中的条件概率和各类别概率;
所述错误率计算模块,用于计算条件概率以及各类别概率的错误率;
所述输入计算模块,用于输入所述数据中指定的特征,计算输入特征的相应属于特定分类的条件概率;
所述类别返回模块,用于返回属于特定分类的条件概率最大的类别。
本发明与现有技术相比的有益效果是:本发明的基于机器学习的投资趋势分析方法,通过爬取公开的海量投资数据,对数据进行细分行业和多维度的分类,并提取特征值,形成训练集,利用机器学习技术对训练集进行训练,提高训练集指标的可靠性和准确性,且预测和分析时自动返回类别,利用海量投资数据进行分析,有助于提升训练集的准确度,实现利用海量可靠的数据以及从数据多个维度,筛选出优秀的企业,且根据投资机构的投资偏好进行数据分析,自动总结规律,提高分析效率以及分析的准确度。
下面结合附图和具体实施例对本发明作进一步描述。
附图说明
图1为本发明具体实施例提供的基于机器学习的投资趋势分析方法的流程图;
图2为本发明具体实施例提供的对企业的细分行业进行定位的具体流程图;
图3为本发明具体实施例提供的获取基础指标库的具体流程图;
图4为本发明具体实施例提供的获取符合投资属性的训练集的具体流程图;
图5为本发明具体实施例提供的使用训练集对需要分析和预测的数据进行投资趋势分析和预测的具体流程图;
图6为本发明具体实施例提供的基于机器学习的投资趋势分析系统的结构框图;
图7为本发明具体实施例提供的定位单元的结构框图;
图8为本发明具体实施例提供的基础指标库获取单元的结构框图;
图9为本发明具体实施例提供的训练集获取单元的结构框图;
图10为本发明具体实施例提供的分析预测单元的结构框图。
具体实施方式
为了更充分理解本发明的技术内容,下面结合具体实施例对本发明的技术方案进一步介绍和说明,但不局限于此。
如图1~10所示的具体实施例,本实施例提供的基于机器学习的投资趋势分析方法,可以运用在投资方寻求企业投资的过程中,实现利用海量可靠的数据以及从数据多个维度,筛选出优秀的企业,且根据投资机构的投资偏好进行数据分析,自动总结规律,提高分析效率以及分析的准确度。
如图1所示,基于机器学习的投资趋势分析方法,其特征在于,所述方法包括:
S1、获取海量投资数据;
S2、根据投资数据,对企业的细分行业进行定位;
S3、按照细分行业的多维度,对所述投资数据进行分析和归类,获取基础指标库;
S4、根据基础指标库,获取符合投资属性的训练集;
S5、利用机器学习技术,使用训练集对需要分析和预测的数据进行投资趋势分析和预测。
对于上述的S1步骤,获取海量投资数据的步骤,具体是使用数据爬取技术,在设定时间内从互联网上采集和爬取全国私募基金相关投资数据,作为海量投资数据;在获取到海量投资数据后,还需要对这些海量投资数据进行定期更新,以此来积累私募基金的相关投资数据,海量可靠数据的支持,有助于提升训练集的准确度。
更进一步的,对于上述的S2步骤,根据投资数据,对企业的细分行业进行定位的步骤,包括以下具体步骤:
S21、根据投资数据,建立符合投资属性的行业数据库;
S22、采用企业全名搜索相关咨讯网站,获取搜索返回内容;
S23、对所述搜索返回内容进行精准分析,获取相应投资属性的关键分词;
S24、对所述关键分词进行匹配、分组统计以及打标签,形成企业的细分行业。
对于上述的S21步骤,具体是对投资数据进行自然语义分析获得投资类词语,与现有数据库进行比对,属于新词加入行业数据。例如:从网站中获取了“三江购物俱乐部股份有限公司是浙江省目前最大的连锁超市之一,中国连锁业百强,是浙江省政府重点扶持大型连锁企业,中国经贸委重点联系企业。公司目前拥有两座大型配送中心,共占地13万多平方米。有员工近万名,会员顾客131多万人,每天有近50多万的顾客在三江的各连锁商场购物消费。”通过自然语义分析,得到“物流运输、连锁超市、超市配送”行业分词,通过大量资讯的分析,发现“物流运输”和“超市配送”呈现上升的趋势,将这两个词与数据库比对后,建立新的行业字段“交通运输、仓储和邮政业”到“物流”再到“超市配送”。
上述的S22步骤,采用企业全名搜索相关咨讯网站,获取搜索返回内容;上述的相关咨讯网站包括百度、百度新闻、网络黄页、企业官网、微博、微信、招聘、工商信息、专利信息和SEO等,基于互联网公开信息收集和处理,不存在敏感信息,数据获取成本较低。在当新企业加入后,采用企业全名在互联网采集相关咨讯网站的海量数据,使用大数据HDFS技术分布式存储海量数据,将所述海量数据作为搜索返回内容,基于成熟的大数据技术,保证海量数据的安全存储,效率高,准确度随着数据的积累不断提升。
对于上述的S23步骤,对上述搜索返回内容进行投资语义分词,得出如在线教育、移动互联网、新四板、VC、天使、PE、交易市场、新三板、并购、并购重组、创业板、中小板、主板、境外、投行、直播以及O2O等分词,具体的,是对采集返回的所述海量数据进行清洗、归类、提取摘要、提取关键字、分词法以及语义分析,获取精准的语言材料;将所述精准的语言材料与语料库进行匹配,获得相应投资属性的关键分词。
对于上述的S24步骤,具体是将所述关键分词与行业数据库内的行业进行匹配和分组统计,筛选出排名及权重合理的行业属性,给企业打上精准的行业和产品标签。采用使用大数据MapReduce进行海量数据的匹配及分组统计。保证海量数据分布式处理,效率高,准确度随着数据的积累不断提升。以大数据技术驱动,基于分布式并行计算架构,解决海量数据的存储以及计算;将上述分词进行统计,比如,若其中在线教育出现了七次,而且与数据库内的在线教育标签匹配,采用通过统计学算法选出排名及权重合理的行业属性。比如,通过算法优化为该企业打上了行业标签,比如互联网/互联网信息服务/在线教育,从而确定企业的细分行业,以便后面投资趋势分析时能细化到企业的细分行业。
更进一步的,上述的S3步骤,按照细分行业的多维度,对所述投资数据进行分析和归类,获取基础指标库的步骤,包括以下具体步骤:
S31、按照细分行业分析和划分投资数据,获取每个细分行业的投资数据;
S32、对每个细分行业的投资数据进行不同维度的分析和划分;
S33、统计每个细分行业在各个维度中的总计数量,将总计数量作为每个细分行业各个维度的基础指标;
S34、整合所有所述基础指标,形成基础指标库。
对于上述的S31步骤,具体的是对投资数据按照细分行业划分,先区分每个细分行业中的企业个数,并获取每个细分行业的投资数据。
对于S32步骤,具体的是按照生命周期、董事会治理、股东集中度等多个维度对投资数据进行划分。
对于S33步骤,具体是通过大数据的算法统计生命周期、董事会治理、股东集中度等多个维度的细分行业的个数,比如通过大数据的算法统计每个细分行业在各个生命周期的总计数量,保存到数据库,以此类推,建立基础指标库。
更进一步的,上述的S4步骤,根据基础指标库,获取符合投资属性的训练集的步骤,包括以下具体步骤:
S41、从基础指标库中提取符合投资属性的投资数据的规律;
S42、抽取所述规律中的特征值,并量化所述特征值;
S43、整合所述特征值,形成训练集。
对于上述的S41步骤,具体是由投资专家按照基础指标库内的数据进行分析,挖掘规律,也可以将投资专家分析的流程形成在一个模块内,由该模块自动分析。
对于上述的S42步骤,对规律内具有一定代表性的特征值进行提取,并量化。
对于上述S43步骤,按照投资专家提取的规律,将历史投资的各个企业,从基础指标库中抽取的特征值,这些特征值保存到数据库,作为训练集。
例如:达晨投资的企业:
更进一步的,上述的S5步骤,利用机器学习技术,使用训练集对需要分析和预测的数据进行投资趋势分析和预测的步骤,包括以下具体步骤:
S51、收集需要分析和预测的数据;
S52、初步归类和分析所述数据;
S53、计算所述数据的各个独立特征在不同分类中的条件概率和各类别概率;
S54、计算条件概率以及各类别概率的错误率;
S55、输入所述数据中指定的特征,计算输入特征的相应属于特定分类的条件概率;
S56、返回属于特定分类的条件概率最大的类别。
对于上述的S51步骤,收集需要分析和预测的数据,此过程可以通过从相关的咨询网站进行数据的爬取。
上述的S52步骤,此过程是为了辨别需要分析和预测的数据是属于数值型数据或布尔型数据,初步归类和分析是为了后续的预测和分析更加顺畅。
上述S53步骤,主要是对训练集内的特征值进行训练,减少后续预测和分析的误差。
上述的S54步骤,利用计算的错误率来纠正特征值,错误率在允许的范围内时,则可忽略,若错误率超过所允许的范围内时,则需要对所对应的特征值进行纠正,以提高后续预测和分析的准确率。
上述的S55步骤,具体是以实际应用为驱动,对于数据中特定的特征输入,计算其相应属于特定分类的条件概率。
上述的S56步骤,当条件概率越高时,符合投资的概率越大,因此,属于特定分类的条件概率最大的类别是最符合需要预测和分析的数据所处的类别。
上述的S41步骤至S43步骤、S51步骤至S56步骤,行业专家对特征的提取,并建立训练集,使用训练集进行机器学习,保证训练集指标的可靠性和准确性。
另外,上述的S55步骤以及S56步骤,挑选数据中指定的特征,即是根据投资机构的投资偏好,分析并自动总结规律,返回类别,则是自动推荐企业。
上述的基于机器学习的投资趋势分析方法,通过爬取公开的海量投资数据,对数据进行细分行业和多维度的分类,并提取特征值,形成训练集,利用机器学习技术对训练集进行训练,提高训练集指标的可靠性和准确性,且预测和分析时自动返回类别,利用海量投资数据进行分析,有助于提升训练集的准确度,实现利用海量可靠的数据以及从数据多个维度,筛选出优秀的企业,且根据投资机构的投资偏好进行数据分析,自动总结规律,提高分析效率以及分析的准确度。
如图6所示,本实施例还提供了基于机器学习的投资趋势分析系统,包括数据获取单元1、定位单元2、基础指标库获取单元3、训练集获取单元4以及分析预测单元5。
数据获取单元1,用于获取海量投资数据。
定位单元2,用于根据投资数据,对企业的细分行业进行定位。
基础指标库获取单元3,用于按照细分行业的多维度,对所述投资数据进行分析和归类,获取基础指标库。
训练集获取单元4,用于根据基础指标库,获取符合投资属性的训练集。
分析预测单元5,用于利用机器学习技术,使用训练集对需要分析和预测的数据进行投资趋势分析和预测。
数据获取单元1具体是使用数据爬取技术,每天从互联网上采集和爬取全国私募基金相关投资数据,作为海量投资数据;在获取到海量投资数据后,还需要对这些海量投资数据进行定期更新,以此来积累私募基金的相关投资数据,海量可靠数据的支持,有助于提升训练集的准确度。
更进一步的,上述的定位单元2包括行业数据库建立模块21、内容获取模块22、分词获取模块23以及处理模块24。
行业数据库建立模块21,用于根据投资数据,建立符合投资属性的行业数据库。
内容获取模块22,用于采用企业全名搜索相关咨讯网站,获取搜索返回内容。
分词获取模块23,用于对所述搜索返回内容进行精准分析,获取相应投资属性的关键分词。
处理模块24,用于对所述关键分词进行匹配、分组统计以及打标签。
上述的行业数据库建立模块21具体是对投资数据进行自然语义分析获得投资类词语,与现有数据库进行比对,属于新词加入行业数据。例如:从网站中获取了“三江购物俱乐部股份有限公司是浙江省目前最大的连锁超市之一,中国连锁业百强,是浙江省政府重点扶持大型连锁企业,中国经贸委重点联系企业。公司目前拥有两座大型配送中心,共占地13万多平方米。有员工近万名,会员顾客131多万人,每天有近50多万的顾客在三江的各连锁商场购物消费。”通过自然语义分析,得到“物流运输、连锁超市、超市配送”行业分词,通过大量资讯的分析,发现“物流运输”和“超市配送”呈现上升的趋势,将这两个词与数据库比对后,建立新的行业字段“交通运输、仓储和邮政业”到“物流”再到“超市配送”。
内容获取模块22采用企业全名搜索相关咨讯网站,获取搜索返回内容;上述的相关咨讯网站包括百度、百度新闻、网络黄页、企业官网、微博、微信、招聘、工商信息、专利信息和SEO等,基于互联网公开信息收集和处理,不存在敏感信息,数据获取成本较低。在当新企业加入后,采用企业全名在互联网采集相关咨讯网站的海量数据,使用大数据HDFS技术分布式存储海量数据,将所述海量数据作为搜索返回内容,基于成熟的大数据技术,保证海量数据的安全存储,效率高,准确度随着数据的积累不断提升。
分词获取模块23具体是对上述搜索返回内容进行投资语义分词,得出如在线教育、移动互联网、新四板、VC、天使、PE、交易市场、新三板、并购、并购重组、创业板、中小板、主板、境外、投行、直播以及O2O等分词,具体的,是对采集返回的所述海量数据进行清洗、归类、提取摘要、提取关键字、分词法以及语义分析,获取精准的语言材料;将所述精准的语言材料与语料库进行匹配,获得相应投资属性的关键分词。
处理模块24具体是将所述关键分词与行业数据库内的行业进行匹配和分组统计,筛选出排名及权重合理的行业属性,给企业打上精准的行业和产品标签。采用使用大数据MapReduce进行海量数据的匹配及分组统计。保证海量数据分布式处理,效率高,准确度随着数据的积累不断提升。以大数据技术驱动,基于分布式并行计算架构,解决海量数据的存储以及计算;将上述分词进行统计,比如,若其中在线教育出现了七次,而且与数据库内的在线教育标签匹配,采用通过统计学算法选出排名及权重合理的行业属性。比如,通过算法优化为该企业打上了行业标签,比如互联网/互联网信息服务/在线教育,从而确定企业的细分行业,以便后面投资趋势分析时能细化到企业的细分行业。
更进一步的,基础指标库获取单元3包括行业划分模块31、维度划分模块32、总计数量获取模块33以及数量整合模块34。
行业划分模块31,用于按照细分行业分析和划分投资数据,获取每个细分行业的投资数据。
维度划分模块32,用于对每个细分行业的投资数据进行不同维度的分析和划分。
总计数量获取模块33,用于统计每个细分行业在各个维度中的总计数量,将总计数量作为每个细分行业各个维度的基础指标。
数量整合模块34,用于整合所有所述基础指标,形成基础指标库。
行业划分模块31具体的是对投资数据按照细分行业划分,先区分每个细分行业中的企业个数,并获取每个细分行业的投资数据。
维度划分模块32具体的是按照生命周期、董事会治理、股东集中度等多个维度对投资数据进行划分。
总计数量获取模块33具体是通过大数据的算法统计生命周期、董事会治理、股东集中度等多个维度的细分行业的个数,比如通过大数据的算法统计每个细分行业在各个生命周期的总计数量,保存到数据库,以此类推,建立基础指标库。
更进一步的,上述的训练集获取单元4包括规律提取模块41、特征值处理模块42以及特征值整合模块43。
规律提取模块41,用于从基础指标库中提取符合投资属性的投资数据的规律。
特征值处理模块42,用于抽取所述规律中的特征值,并量化所述特征值。
特征值整合模块43,用于整合所述特征值,形成训练集。
上述的规律提取模块41具体是由投资专家按照基础指标库内的数据进行分析,挖掘规律,也可以将投资专家分析的流程形成在一个模块内,由该模块自动分析。
上述的特征值处理模块42对规律内具有一定代表性的特征值进行提取,并量化。
上述的特征值整合模块43按照投资专家提取的规律,将历史投资的各个企业,从基础指标库中抽取的特征值,这些特征值保存到数据库,作为训练集。
例如:达晨投资的企业:
更进一步的,上述的分析预测单元5包括数据收集模块51、初步处理模块52、概率计算模块53、错误率计算模块54、输入计算模块55以及类别返回模块56。
数据收集模块51,用于收集需要分析和预测的数据。
初步处理模块52,用于初步归类和分析所述数据。
概率计算模块53,用于计算所述数据的各个独立特征在不同分类中的条件概率和各类别概率。
错误率计算模块54,用于计算条件概率以及各类别概率的错误率。
输入计算模块55,用于输入所述数据中指定的特征,计算输入特征的相应属于特定分类的条件概率。
类别返回模块56,用于返回属于特定分类的条件概率最大的类别。
上述的数据收集模块51收集需要分析和预测的数据,此过程可以通过从相关的咨询网站进行数据的爬取。
上述的初步处理模块52是为了辨别需要分析和预测的数据是属于数值型数据或布尔型数据,初步归类和分析是为了后续的预测和分析更加顺畅。
上述的概率计算模块53主要是对训练集内的特征值进行训练,减少后续预测和分析的误差。
错误率计算模块54是用于纠正特征值,错误率在允许的范围内时,则可忽略,若错误率超过所允许的范围内时,则需要对所对应的特征值进行纠正,以提高后续预测和分析的准确率。
输入计算模块55具体是以实际应用为驱动,对于数据中特定的特征输入,计算其相应属于特定分类的条件概率。
当条件概率越高时,符合投资的概率越大,因此,类别返回模块56返回的属于特定分类的条件概率最大的类别是最符合需要预测和分析的数据所处的类别。
利用训练集获取单元4以及分析预测单元5,实现行业专家对特征的提取,并建立训练集,使用训练集进行机器学习,保证训练集指标的可靠性和准确性。
利用输入计算模块55以及类别返回模块56,挑选数据中指定的特征,即是根据投资机构的投资偏好,分析并自动总结规律,返回类别,则是自动推荐企业。
上述的基于机器学习的投资趋势分析系统,通过爬取公开的海量投资数据,对数据进行细分行业和多维度的分类,并提取特征值,形成训练集,利用机器学习技术对训练集进行训练,提高训练集指标的可靠性和准确性,且预测和分析时自动返回类别,利用海量投资数据进行分析,有助于提升训练集的准确度,实现利用海量可靠的数据以及从数据多个维度,筛选出优秀的企业,且根据投资机构的投资偏好进行数据分析,自动总结规律,提高分析效率以及分析的准确度。
上述仅以实施例来进一步说明本发明的技术内容,以便于读者更容易理解,但不代表本发明的实施方式仅限于此,任何依本发明所做的技术延伸或再创造,均受本发明的保护。本发明的保护范围以权利要求书为准。
Claims (10)
1.基于机器学习的投资趋势分析方法,其特征在于,所述方法包括:
获取海量投资数据;
根据投资数据,对企业的细分行业进行定位;
按照细分行业的多维度,对所述投资数据进行分析和归类,获取基础指标库;
根据基础指标库,获取符合投资属性的训练集;
利用机器学习技术,使用训练集对需要分析和预测的数据进行投资趋势分析和预测。
2.根据权利要求1所述的基于机器学习的投资趋势分析方法,其特征在于,根据投资数据,对企业的细分行业进行定位的步骤,包括以下具体步骤:
根据投资数据,建立符合投资属性的行业数据库;
采用企业全名搜索相关咨讯网站,获取搜索返回内容;
对所述搜索返回内容进行精准分析,获取相应投资属性的关键分词;
对所述关键分词进行匹配、分组统计以及打标签,形成企业的细分行业。
3.根据权利要求2所述的基于机器学习的投资趋势分析方法,其特征在于,按照细分行业的多维度,对所述投资数据进行分析和归类,获取基础指标库的步骤,包括以下具体步骤:
按照细分行业分析和划分投资数据,获取每个细分行业的投资数据;
对每个细分行业的投资数据进行不同维度的分析和划分;
统计每个细分行业在各个维度中的总计数量,将总计数量作为每个细分行业各个维度的基础指标;
整合所有所述基础指标,形成基础指标库。
4.根据权利要求1所述的基于机器学习的投资趋势分析方法,其特征在于,根据基础指标库,获取符合投资属性的训练集的步骤,包括以下具体步骤:
从基础指标库中提取符合投资属性的投资数据的规律;
抽取所述规律中的特征值,并量化所述特征值;
整合所述特征值,形成训练集。
5.根据权利要求1至4任一项所述的基于机器学习的投资趋势分析方法,其特征在于,利用机器学习技术,使用训练集对需要分析和预测的数据进行投资趋势分析和预测的步骤,包括以下具体步骤:
收集需要分析和预测的数据;
初步归类和分析所述数据;
计算所述数据的各个独立特征在不同分类中的条件概率和各类别概率;
计算条件概率以及各类别概率的错误率;
输入所述数据中指定的特征,计算输入特征的相应属于特定分类的条件概率;
返回属于特定分类的条件概率最大的类别。
6.基于机器学习的投资趋势分析系统,其特征在于,包括数据获取单元、定位单元、基础指标库获取单元、训练集获取单元以及分析预测单元;
所述数据获取单元,用于获取海量投资数据;
所述定位单元,用于根据投资数据,对企业的细分行业进行定位;
所述基础指标库获取单元,用于按照细分行业的多维度,对所述投资数据进行分析和归类,获取基础指标库;
所述训练集获取单元,用于根据基础指标库,获取符合投资属性的训练集;
所述分析预测单元,用于利用机器学习技术,使用训练集对需要分析和预测的数据进行投资趋势分析和预测。
7.根据权利要求6所述的基于机器学习的投资趋势分析系统,其特征在于,所述定位单元包括行业数据库建立模块、内容获取模块、分词获取模块以及处理模块;
所述行业数据库建立模块,用于根据投资数据,建立符合投资属性的行业数据库;
所述内容获取模块,用于采用企业全名搜索相关咨讯网站,获取搜索返回内容;
所述分词获取模块,用于对所述搜索返回内容进行精准分析,获取相应投资属性的关键分词;
所述处理模块,用于对所述关键分词进行匹配、分组统计以及打标签。
8.根据权利要求7所述的基于机器学习的投资趋势分析系统,其特征在于,所述基础指标库获取单元包括行业划分模块、维度划分模块、总计数量获取模块以及数量整合模块;
所述行业划分模块,用于按照细分行业分析和划分投资数据,获取每个细分行业的投资数据;
所述维度划分模块,用于对每个细分行业的投资数据进行不同维度的分析和划分;
所述总计数量获取模块,用于统计每个细分行业在各个维度中的总计数量,将总计数量作为每个细分行业各个维度的基础指标;
所述数量整合模块,用于整合所有所述基础指标,形成基础指标库。
9.根据权利要求8所述的基于机器学习的投资趋势分析系统,其特征在于,所述训练集获取单元包括规律提取模块、特征值处理模块以及特征值整合模块;
所述规律提取模块,用于从基础指标库中提取符合投资属性的投资数据的规律;
所述特征值处理模块,用于抽取所述规律中的特征值,并量化所述特征值;
所述特征值整合模块,用于整合所述特征值,形成训练集。
10.根据权利要求9所述的基于机器学习的投资趋势分析系统,其特征在于,所述分析预测单元包括数据收集模块、初步处理模块、概率计算模块、错误率计算模块、输入计算模块以及类别返回模块;
所述数据收集模块,用于收集需要分析和预测的数据;
所述初步处理模块,用于初步归类和分析所述数据;
所述概率计算模块,用于计算所述数据的各个独立特征在不同分类中的条件概率和各类别概率;
所述错误率计算模块,用于计算条件概率以及各类别概率的错误率;
所述输入计算模块,用于输入所述数据中指定的特征,计算输入特征的相应属于特定分类的条件概率;
所述类别返回模块,用于返回属于特定分类的条件概率最大的类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710424134.XA CN107292744A (zh) | 2017-06-07 | 2017-06-07 | 基于机器学习的投资趋势分析方法及其系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710424134.XA CN107292744A (zh) | 2017-06-07 | 2017-06-07 | 基于机器学习的投资趋势分析方法及其系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107292744A true CN107292744A (zh) | 2017-10-24 |
Family
ID=60096062
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710424134.XA Pending CN107292744A (zh) | 2017-06-07 | 2017-06-07 | 基于机器学习的投资趋势分析方法及其系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107292744A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107844901A (zh) * | 2017-11-01 | 2018-03-27 | 前海梧桐(深圳)数据有限公司 | 一种企业运营自动化分析的方法及其系统 |
CN107844912A (zh) * | 2017-11-22 | 2018-03-27 | 前海梧桐(深圳)数据有限公司 | 企业特性对企业发展影响的计算方法及其系统 |
CN108038119A (zh) * | 2017-11-01 | 2018-05-15 | 平安科技(深圳)有限公司 | 利用新词发现投资标的的方法、装置及存储介质 |
CN108509633A (zh) * | 2018-04-10 | 2018-09-07 | 国云科技股份有限公司 | 一种基于CAD导出Excel数据的物件归类分析系统及方法 |
CN108563783A (zh) * | 2018-04-25 | 2018-09-21 | 张艳 | 一种基于大数据的财务分析管理系统及方法 |
CN109064339A (zh) * | 2018-09-12 | 2018-12-21 | 张连祥 | 一种智能查询招商载体环境信息的方法和系统 |
CN109360107A (zh) * | 2018-10-16 | 2019-02-19 | 成都四方伟业软件股份有限公司 | 一种证券分析方法、装置及其存储介质 |
WO2019192134A1 (zh) * | 2018-04-03 | 2019-10-10 | 平安科技(深圳)有限公司 | 投资组合优化方法、装置及存储介质 |
CN111159169A (zh) * | 2019-12-31 | 2020-05-15 | 中国联合网络通信集团有限公司 | 数据治理方法及设备 |
CN116151670A (zh) * | 2023-02-01 | 2023-05-23 | 北京共识数信科技有限公司 | 一种投行业务上市项目质量的智能评估方法、系统及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040117286A1 (en) * | 2002-09-23 | 2004-06-17 | Water Street Advisers, Inc. | Process to the audit the performance of investment portfolios |
CN103218744A (zh) * | 2012-07-20 | 2013-07-24 | 上海大智慧股份有限公司 | 一种基于swot模型的行业投资信息及数据处理系统 |
CN105786961A (zh) * | 2016-01-15 | 2016-07-20 | 优品财富管理有限公司 | 一种基于金融资讯的数据分类处理方法 |
CN106127373A (zh) * | 2016-06-17 | 2016-11-16 | 邓强 | 基于基金投资价值评价的多元资产投资决策系统及方法 |
-
2017
- 2017-06-07 CN CN201710424134.XA patent/CN107292744A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040117286A1 (en) * | 2002-09-23 | 2004-06-17 | Water Street Advisers, Inc. | Process to the audit the performance of investment portfolios |
CN103218744A (zh) * | 2012-07-20 | 2013-07-24 | 上海大智慧股份有限公司 | 一种基于swot模型的行业投资信息及数据处理系统 |
CN105786961A (zh) * | 2016-01-15 | 2016-07-20 | 优品财富管理有限公司 | 一种基于金融资讯的数据分类处理方法 |
CN106127373A (zh) * | 2016-06-17 | 2016-11-16 | 邓强 | 基于基金投资价值评价的多元资产投资决策系统及方法 |
Non-Patent Citations (1)
Title |
---|
骆桦等: "基于贝叶斯分类法的股票选择模型的研究", 《浙江理工大学学报(自然科学版)》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107844901A (zh) * | 2017-11-01 | 2018-03-27 | 前海梧桐(深圳)数据有限公司 | 一种企业运营自动化分析的方法及其系统 |
CN108038119A (zh) * | 2017-11-01 | 2018-05-15 | 平安科技(深圳)有限公司 | 利用新词发现投资标的的方法、装置及存储介质 |
CN107844912A (zh) * | 2017-11-22 | 2018-03-27 | 前海梧桐(深圳)数据有限公司 | 企业特性对企业发展影响的计算方法及其系统 |
WO2019192134A1 (zh) * | 2018-04-03 | 2019-10-10 | 平安科技(深圳)有限公司 | 投资组合优化方法、装置及存储介质 |
CN108509633A (zh) * | 2018-04-10 | 2018-09-07 | 国云科技股份有限公司 | 一种基于CAD导出Excel数据的物件归类分析系统及方法 |
CN108563783A (zh) * | 2018-04-25 | 2018-09-21 | 张艳 | 一种基于大数据的财务分析管理系统及方法 |
CN108563783B (zh) * | 2018-04-25 | 2022-04-12 | 张艳 | 一种基于大数据的财务分析管理系统及方法 |
CN109064339A (zh) * | 2018-09-12 | 2018-12-21 | 张连祥 | 一种智能查询招商载体环境信息的方法和系统 |
CN109360107A (zh) * | 2018-10-16 | 2019-02-19 | 成都四方伟业软件股份有限公司 | 一种证券分析方法、装置及其存储介质 |
CN111159169A (zh) * | 2019-12-31 | 2020-05-15 | 中国联合网络通信集团有限公司 | 数据治理方法及设备 |
CN116151670A (zh) * | 2023-02-01 | 2023-05-23 | 北京共识数信科技有限公司 | 一种投行业务上市项目质量的智能评估方法、系统及介质 |
CN116151670B (zh) * | 2023-02-01 | 2023-11-24 | 北京共识数信科技有限公司 | 一种投行业务上市项目质量的智能评估方法、系统及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107292744A (zh) | 基于机器学习的投资趋势分析方法及其系统 | |
CN103154991B (zh) | 信用风险采集 | |
CN103914478B (zh) | 网页训练方法及系统、网页预测方法及系统 | |
Dreżewski et al. | System supporting money laundering detection | |
CN106960063A (zh) | 一种针对招商引资领域的互联网情报抓取和推荐系统 | |
WO2021088499A1 (zh) | 一种基于动态网络表征的发票虚开识别方法及系统 | |
CN108563783B (zh) | 一种基于大数据的财务分析管理系统及方法 | |
CN107301471A (zh) | 基于大数据的行业趋势精准预测方法及其系统 | |
Nagar et al. | Using text and data mining techniques to extract stock market sentiment from live news streams | |
CN112347254B (zh) | 新闻文本的分类方法、装置、计算机设备和存储介质 | |
CN106934054A (zh) | 基于大数据的企业细分行业精准分析方法及其系统 | |
CN111783829A (zh) | 一种基于多标签学习的财务异常检测方法及装置 | |
CN104850868A (zh) | 一种基于k-means和神经网络聚类的客户细分方法 | |
Ghankutkar et al. | Modelling machine learning for analysing crime news | |
Fu et al. | A sentiment-aware trading volume prediction model for P2P market using LSTM | |
CN113450009A (zh) | 一种企业成长性评价的方法及系统 | |
CN115794803A (zh) | 一种基于大数据ai技术的工程审计问题监测方法与系统 | |
CN116090915A (zh) | 一种面向企业市值分析的可视分析方法及系统 | |
CN115204995A (zh) | 一种税务数据采集分析方法、系统及计算机存储介质 | |
Li et al. | How to make machine select stocks like fund managers? Use scoring and screening model | |
US20210216542A1 (en) | Systems and method for dynamically updating materiality distributions and classifications | |
CN110119464A (zh) | 一种合同中数值的智能推荐方法及装置 | |
CN112632405B (zh) | 一种推荐方法、装置、设备及存储介质 | |
CN113837764B (zh) | 风险预警方法、装置、电子设备和存储介质 | |
Agarwal et al. | Deep Learning–Based Financial Forecasting of NSE Using Sentiment Analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171024 |