CN108629693A

CN108629693A - 自动生成投资建议的方法、装置、计算机设备和存储介质

Info

Publication number: CN108629693A
Application number: CN201810433124.7A
Authority: CN
Inventors: 王健宗; 吴天博; 黄章成; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-05-08
Filing date: 2018-05-08
Publication date: 2018-10-09
Also published as: WO2019214048A1

Abstract

本申请揭示了一种自动生成投资建议的方法、装置、计算机设备和存储介质，其中方法包括：获取热点事件；提取热点事件中的关键词；将所述关键词向量化，得到关键词对应的关键词向量；将所述关键词向量分别与各股票对应的股票向量进行相关性分析，得到与所述热点事件相关的相关股票；根据所述热点事件的性质，生成关于所述相关股票的投资建议。本申请通过采集财经媒体发布的消息，根据发布消息产生的效果，自动获取热点事件，并根据预设的规则生成相关的投资建议。该投资建议是系统自动获取热点事件，自动计算热点事件与相关股票之间的关系，不用人工成本，不会受到人为感情的影响，相较人工能客观准确的计算出股票的走势并给出相应的投资建议。

Description

自动生成投资建议的方法、装置、计算机设备和存储介质

技术领域

本申请涉及到计算机技术领域，特别是涉及到一种自动生成投资建议的方法、装置、计算机设备和存储介质。

背景技术

证券投资领域分析师经常基于热点财经新闻或者事件，构建概念或者题材，并依据其自身经验与其对证券投资域中股票的了解程度，选择概念投资组合。

证券分析师人工完成这一业务需求，人为因素影响较多，弊端显而易见，一是，实时性难以得到保证，尤其是突发热点事件，投资时间可能就在那几分钟，而人工很难全天候应对；二是，人工主观性构建投资组合受限于证券分析师个人经验、个人情感，投资组合价值无法得到保证；三是，证券分析师的人力成本比较高；四是，由于人才流动性，业务经验持续性的累计难以为继，无法保证持续性地“在线学习”，等等。

所以提供一种自动生成投资建议的方法是亟需解决的问题。

发明内容

本申请的主要目的为提供一种自动生成投资建议的方法、装置、计算机设备和存储介质。

为了实现上述发明目的，本申请提出一种自动生成投资建议的方法，包括：

获取热点事件；

提取所述热点事件中的关键词；

将所述关键词向量化，得到关键词对应的关键词向量；

将所述关键词向量分别与各股票对应的股票向量进行相关性分析，得到与所述热点事件相关的相关股票；

根据所述热点事件的性质，生成关于所述相关股票的投资建议。

进一步地，所述获取热点事件的步骤包括：

获取预设媒体账户的关注数量的增长率；

当所述增长率超过增长阈值时，判定所述媒体账户在预设时间段内发布的消息包含有热点事件；

根据所述媒体账在所述预设时间段内发布的消息，确定所述热点事件。

进一步地，所述获取热点事件的步骤包括：

获取预设媒体账户发布的消息的评论数；

当所述预设媒体账户发布的消息中目标消息的评论数超过评论阈值时，确所述目标消息为热点事件。

进一步地，所述自动生成投资建立的方法包括：

获取带有财经标记的财经媒体账户的信息；

将所述财经媒体账户的信息输入至预设公式，得到账户分数，所述账户分数用于量化所述财经媒体账户的影响力；

将所述账户分数超过分数阈值的财经媒体账户设置为所述预设媒体账户。

进一步地，所述根据所述热点事件的性质，生成关于所述相关股票的投资建议的步骤之后包括：

调用预设的账户分数与等级的映射关系以及所述预设媒体账户的账户分数，确定所述预设媒体账户所在的等级；

根据所述等级，对所述投资建议进行优化。

进一步地，所述提取热点事件中的关键词的步骤包括：

将所述热点事件输入LDA模型中；

接收所述LDA模型计算出的关键词。

进一步地，所述将所述关键词向量化的步骤包括：

将所述关键词输入word2vec语言模型进行预测，得到关键词的向量。

本申请还提供一种自动生成投资建议的装置，包括：

获取模块，用于获取热点事件；

提取模块，用于提取所述热点事件中的关键词；

向量模块，用于将所述关键词向量化，得到关键词对应的关键词向量；

分析模块，用于将所述关键词向量分别与各股票对应的股票向量进行相关性分析，得到与所述热点事件相关的相关股票；

生成模块，用于根据所述热点事件的性质，生成关于所述相关股票的投资建议。

本申请还提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

本申请的自动生成投资建议的方法、装置、计算机设备和存储介质，通过采集财经媒体发布的消息，根据发布消息产生的效果，自动获取热点事件，并根据热点事件与相关股票的关联，计算出该热点事件对相关股票的影响，从而生成相关的投资建议。该投资建议是系统自动获取热点事件，自动计算热点事件与相关股票之间的关系，不用人工成本，不会受到人为感情的影响，相较人工能客观准确的计算出股票的走势并给出相应的投资建议。

附图说明

图1为本申请一实施例的自动生成投资建议的方法的流程示意图；

图2为本申请一实施例的上述自动生成投资建议的方法中步骤S1的具体流程示意图；

图3为本申请另一实施例的上述自动生成投资建议的方法中步骤S1的具体流程示意图；

图4为本申请一实施例的自动生成投资建议的方法的流程示意图；

图5为本申请一实施例的自动生成投资建议的方法中步骤S2的具体流程示意图；

图6为本申请一实施例的自动生成投资建议的装置的结构示意框图；

图7为本申请一实施例的自动生成投资建议的装置的获取模块的结构示意框图；

图8为本申请另一实施例的自动生成投资建议的装置的获取模块的结构示意框图；

图9为本申请一实施例的自动生成投资建议的装置的结构示意框图；

图10为本申请一实施例的自动生成投资建议的装置的提取模块的结构示意框图；

图11为本申请一实施例的计算机设备的结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，本申请提供一种自动生成投资建议的方法，包括步骤：

S1、获取热点事件；

S2、提取热点事件中的关键词；

S3、将所述关键词向量化，得到关键词对应的关键词向量；

S4、将所述关键词向量分别与各股票对应的股票向量进行相关性分析，得到与所述热点事件相关的相关股票；

S5、根据所述热点事件的性质，生成关于所述股票的投资建议。

如上述步骤S1所述，社会热点事件是指在社会中引起广泛关注、参与讨论、激起民众情绪，引发强烈反响的事件，通俗地理解就是：被很多人熟知且讨论的事件。其中，本实施例中的热点事件均是指与财经相关的热点事件。该热点事件可以有多种方式获取，比如是自动获取一些APP推送的财经头条，或者是接收人工观察财经相关的新闻整理推送给系统的热点事件。

如上述步骤S2所述，热点事件是指一件事情，有相关的文字消息或报导对其进行描述，文字消息中，会有一些词语对事件进行关键性的描述，该词即为关键词。提取出关键词的方法，可以是从题目中进行提取，也可以是根据一些训练模型，判断文字消息中出现的词次数较多的为关键词。关键词一般是涉及到事情的主体、事情的性质。例如，有一个热点事件是关于贾跃亭的FF91电动汽车在美国进行高寒测试。通过训练的模型计算后输出的关键词就可能包括：贾跃亭、乐视、电动汽车、豪华、希望等。

如上述步骤S3所述，词向量化是提供了一种数学化的方法，把自然语言这种符号信息转化为向量形式的数字信息。这样就把自然语言理解的问题要解决的问题转化为机器学习的问题。关键词进行向量化，得到向量关键词，可以用one-hot Representation模型。One-hot Representation就是用一个很长的向量来表示一个词，向量长度为词典的大小N，每个向量只有一个维度为1，其余维度全部为0，为1的位置表示该词语在词典的位置。这种One-hot Representation采用稀疏方式存储，向量化的过程非常的简洁。

如上述步骤S4所述，股票对应的股票向量是预先存储在知识库中的，知识库是指包含有股票信息的数据库，股票信息包含有多种数据，有股票名称、股票描述词，还包含有股票的向量。股票的向量，即将股票名称、股票描述词进行向量化后的向量。将关键词向量与股票向量进行相关性分析，通过计算关键词的向量与股票的向量之间的欧式距离来进行分析，实际上就是计算该热点事件属于各个股票的概率或者分布。这一步的意义是计算关键词的向量与股票的向量的距离，目的是计算出热点事件的发生对股票的影响力大小。分别计算关键词向量与数据库中各股票向量的欧式距离，计算得出多个欧式距离，将欧式距离小于一定值的，确定为股票向量对应的股票为与热点事件相关的股票。

如上述步骤S5所述，关键词中包含有一些感情色彩的词语，分为褒义词和贬义词，关键词中含有褒义词，说明热点事件的性质是利好，生成对应的股票的投资建议是购买；关键词中含有贬义词，说明热点事件的性质是利坏，生成对应的股票的投资建议是抛售。

进一步地，生成关于相关股票的投资建议后的步骤包括：

获取用户的投资领域，将属于该投资领域的相关股票的投资建议推送给该用户。

进一步地，在另一实施例中，生成关于相关股票的投资建议后的步骤包括：

获取用户的风险承受能力，将符合该风险承受能力的相关股票的投资建议推送给该用户。

在一具体实施例中，用户在手机上打开平安证券的APP，该应用程序访问平安集团的服务器，获取到热点事件，然后提取出关键词：区块链、人工智能、喜迎、平安科技，将这四个关键词分别向量化得到四个关键词向量，然后访问数据库，将这四个关键词向量与各股票的向量分别计算欧式距离，经分析后计算得出与200个股票相关性较大。获取到用户喜欢投资生物技术、医疗领域相关的股票，就将这200个股票中与生物技术、医疗的10个股票的投资建议推送给用户，发送至用户的APP端。

参照图2，本申请实施例中，上述获取热点事件的步骤包括：

S11、获取预设媒体账户的关注数量的增长率；

S12、当所述增长率超过增长阈值时，判定所述媒体账户在预设时间段内发布的消息包含有热点事件；

S13、根据所述媒体账户在所述预设时间段内发布的消息，确定所述热点事件。

如上述S11步骤所述，预设媒体账户是指一些在财经方面有影响力或者有权威性的媒体账户。包括一些财经达人开通的个人微博账户，或者是财经相关的官方的发布信息渠道的媒体账户，例如证监会的官方微博。在一个事件发酵成热点事件时，都会伴随一个现象就是关注这个事件的人呈指数级增长；对应的，体现在预设媒体账户上的是，关注预设媒体账户的人的数量也是有一个明显的增长。因此要获取预设媒体账户的关注数量的增长率。具体的，获取增长率的方法为：获取当前时刻的关注数量x，提取当前时刻之前的预设时间的关注数量y，计算出x相对y的增长率。本实施例中，每隔一分钟计算关注数量的变化，假定一分钟前的关注数量是t1，当前时刻的关注数量是t0，则增长率a＝(t0-t1)/t1。在其他的实施方式中，获取增长率的周期可以是5分钟、10分钟等，也可以是10秒、20秒等。

如上述S12步骤所述，增长阈值是用于判定该账户是否有发布热点事件的临界值。上述S11步骤中获取的增长率，也有可能是负数，即关注媒体账户的数量减少。因此，所述增长阈值包括一个或两个数字。具体的，增长阈值可以是-20％和10％，即增长率低于20％或者高于10％，均是超过增长阈值。当增长率超过了增长阈值，判定该媒体账户在预设时间段内发布的消息包含有热点事件。

如上述S13步骤所述，当判定该媒体账户发布的消息包含有热点事件后，获取当天该媒体账户发布的消息内容，具体的，是获取文字内容。若媒体账户发布的消息中包含图片，通过扫描识别图片中的文字。从而，可以将媒体账户在所述预设时间段内发布的消息确定为热点事件，也可以根据媒体账户在预设时间段内发布的消息，进一步筛选其中的部分消息作为热点事件，例如，将媒体账户在预设时间段内发布的消息中评论数超过预设评论阈值的消息确定为热点事件。

参照图3，在一具体实施例中，上述获取热点事件的步骤包括：

S15、获取预设媒体账户发布的消息的评论数；

S16、当所述预设媒体账户发布的消息中目标消息的评论数超过评论阈值时，确定所述目标消息为热点事件。

如上述步骤S15所述，媒体账户发布一条消息后，后面会有社会人士对该消息进行评论。每个人可以进行多条评论留言。系统获取评论的数量，是获取对发布消息的评论数量，而不是获取媒体账户的评论数量。例如，某个媒体账户某天发布了两条消息，第一条消息有500条评论，第二条消息有800条评论，则系统获取了该媒体账户的两个消息对应的评论数，分别是500和800。

如上述步骤S16所述，对评论数进行比较，是否超过评论阈值。评论阈值是一个数字，用于界定发布的消息是否是热点事件。评论阈值是用于判断每个媒体账户发布的消息包含有热点事件的评论依据的临界值。例如，评论阈值是600。在S15步骤中提到的两条消息，第一条消息的论数是500条，没有超过评论阈值；第二条消息的评论数是800条，超过了评论阈值，判定第二条消息为热点事件。

进一步地，步骤S11或步骤S15之前，还可以包括：

S101、获取带有财经标记的财经媒体账户的信息；

S102、将所述财经媒体账户的信息输入至预设公式，得到账户分数，所述账户分数用于量化所述财经媒体账户的影响力；

S103、将所述账户分数超过分数阈值的财经媒体账户设置为所述预设媒体账户。

如上述S101步骤所述，带有财经标记的媒体账户是指与财经相关的媒体账户，例如发表过一定篇幅或一定数量的财经类文章，或者是一些财经官方认证的媒体账户。具体的，系统统问微博后台，访问所有微博中带有财经标记的财经媒体账户，获取这些财经媒体账户发布的信息。

如上述S102步骤所述，媒体账户的信息包括好友数、粉丝数、等级、和发布微博数据，以及历史微博相关的信息等均是媒体账户的信息，将每个信息进行量化。好友数、粉丝数、等级均是量化的数据；发布微博数据可以是近一年发布微博的数量，或者是近一年发布微博中评论数达到500的数量；预设公式是对媒体账户进行评价的一个公式，用于体现该媒体账户的影响力。好友数越多、粉丝数越多、等级越高、发布的微博数量越多、微博评论数量越多，对应的影响力越大，最终得到的账户分数越高。例如，设置一具体公式如下：

s＝c*(a+b)+d

上述公式中，s是账户分数，a是好友分数，b是粉丝分数，c是等级数，d是微博评论超过500的分数。好友分数的计算方式如下表1：

好友数量	得分
		0-10	1
11-20	2
		21-50	3
51-100	5
		101-1000	10
1000以上	30

表1：好友数量与好友分数映射表

其他的粉丝分数、等级分数、微博评论超过500的分数均可以是如上表1按照阶梯进行评分。

如上述步骤S103所述，获取到媒体账户的信息后，通过预设公式，计算得到账户分数，该分数是反映一个媒体账户的影响力。然后将该账户分数与分数阈值进行比较。分数阈值是用于界定一个媒体账户的影响力是否大到可以用作参考的预设媒体。在一具体实施例中，根据上述S102步骤中的预设公式，分数阈值是60。

参照图4，上述根据所述热点事件的性质，生成关于所述相关股票的投资建议的步骤之后包括：

S6、根据预设的账户分数与等级的映射关系以及所述预设媒体账户的账户分数，确定所述预设媒体账户所在的等级；

S7、根据所述等级，对所述投资建议进行优化。

如上述步骤S6所述，调用账户分数，即通过步骤S103所计算出的账户分数。确定账户分数所在的等级，是根据预设的逻辑确定得出的。账户分数越高，对应的等级越高。在一具体的实施例中，账户分数与等级之间的映射关系如下表2：

账户分数	等级
		60-100	1
101-150	1.5
		151-200	1.8
201-300	3
		300以上	5

表2：账户分数与等级之间的映射关系表

账户分数越高，说明该账户的影响力越大，那么对应的等级也就越高。

如上述步骤S7所述，将步骤S5中的投资建议乘以等级，得出优化后的投资建议。在一具体实施例中，投资建议是对某股票增持1000股，然后确定获取热点事件的账户分数是1.8，则优化后的投资建议是对某股票增持1800股。

参照图5，所述提取热点事件中的关键词的步骤包括：

S21、将所述热点事件输入LDA模型中；

S22、接收所述LDA模型计算出的关键词。

如上述步骤S21所述，获取到热点事件后，将热点事件输入到LDA(LatentDirichlet Allocation文档主题生成模型)模型中。LDA模型是由Blei等提出的，是一个“文本—主题—词”的三层贝叶斯产生式模型，每篇文本表示为主题的混合分布，而每个主题则是词上的概率分布。最初的模型只对文本—主题概率分布引入一个超参数使其服从Dirichlet分布，随后Griffiths等对主题—词概率分布也引入一个超参数使其服从Dirichlet分布。两个超参数一般设置为α＝50/T，β＝0.01。LDA模型的参数个数只与主题数和词数有关，参数估计是计算出文本—主题概率分布以及主题—词概率分布，即θ和φ。通过对变量z进行Gibbs采样间接估算θ和φ:

符号	含义	符号	含义
				α	θ的超参数	w	词
β	φ的超参数	M	文本数
				θ	文本—主题概率分布	N	词数
φ	主题—词概率分布	T	主题数
				z	词的主题分配

其中:nm(j)表示文本dm中赋予主题j的词的总数，ns(i)表示词vi被赋予主题s的总次数。

如上述步骤S22所述，将热点事件的文本消息输入到上述LDA模型中，LDA模型计算得出该文本消息的关键词。然后系统存储该关键词。关键词的数量根据消息的内容或长度，可能是一个关键词，也可能是多个关键词。

进一步地，所述将关键词向量化的步骤包括：

将所述关键词输入word2vec语音模型进行预测，得到关键词的向量。

本实施例中，word2vec语言模型可以快速有效地训练词向量。word2vec模型有两种，分别是CBOW(ContinuousBag Of Words Model)模型和Skip-gram模型。其中CBOW模型利用词w(t)前后各c(这里c＝2)个词去预测当前词；而Skip-gram(Continuous Skip-gramModel)模型恰好相反，它利用词w(t)去预测它前后各c(c＝2)个词。在本实施例中，采用CBOW模型进行训练。其中输入层是词w(t)的上下文中的2c个词向量，而投影层向量Xw是这2c个词向量的累加和。输出层是以训练语料库中出现过的词作叶子节点，以各词在语料库中出现的次数作为权值构造出的一棵Huffman树。在这棵Huffman树中，叶子节点共N(＝IDI)个，分别对应词典D中的词，非叶子节点N-1个。通过随机梯度上升算法对Xw的结果进行预测，使得值最大化，context(w)指词的上下文中的2c个词。由此可见，前者是由上下文推当前词，后者是由当前词推上下文，用公式表示如下：

￡＝∑_w∈C(log p(context(w)|w))

综上所述，本申请的自动生成投资建议的方法，通过采集财经媒体发布的消息，根据发布消息产生的效果，自动获取热点事件，并根据热点事件与相关股票的关联，计算出该热点事件对相关股票的影响，从而生成相关的投资建议。该投资建议是系统自动获取热点事件，自动计算热点事件与相关股票之间的关系，不用人工成本，不会受到人为感情的影响，相较人工能客观准确的计算出股票的走势并给出相应的投资建议。

参照图6，本申请还提出一种自动生成投资建议的装置，包括：

获取模块1，用于获取热点事件；

提取模块2，用于提取所述热点事件中的关键词；

向量模块3，用于将所述关键词向量化，得到关键词对应的关键词向量；

分析模块4，用于将所述关键词向量分别与各股票对应的股票向量进行相关性分析，得到与所述热点事件相关的相关股票；

生成模块5，用于根据所述热点事件的性质，生成关于所述相关股票的投资建议。

本实施例中，社会热点事件是指在社会中引起广泛关注、参与讨论、激起民众情绪，引发强烈反响的事件，通俗地理解就是：被很多人熟知且讨论的事件。其中，本实施例中的热点事件均是指与财经相关的热点事件。该热点事件可以有多种方式获取，比如是获取模块1自动获取一些APP推送的财经头条，或者是获取模块1接收人工观察财经相关的新闻整理推送给系统的热点事件。

热点事件是指一件事情，有相关的文字消息或报导对其进行描述，文字消息中，会有一些词语对事件进行关键性的描述，该词即为关键词。提取模块2提取出关键词的方法，可以是从题目中进行提取，也可以是根据一些训练模型，判断文字消息中出现的词次数较多的为关键词。关键词一般是涉及到事情的主体、事情的性质。例如，有一个热点事件是关于贾跃亭的FF91电动汽车在美国进行高寒测试。提取模块2通过训练的模型计算后提取出的关键词就可能包括：贾跃亭、乐视、电动汽车、豪华、希望等。

词向量化是提供了一种数学化的方法，把自然语言这种符号信息转化为向量形式的数字信息。这样就把自然语言理解的问题要解决的问题转化为机器学习的问题。向量模块3将关键词进行向量化，得到向量关键词，可以用one-hot Representation模型。One-hotRepresentation就是用一个很长的向量来表示一个词，向量长度为词典的大小N，每个向量只有一个维度为1，其余维度全部为0，为1的位置表示该词语在词典的位置。这种One-hotRepresentation采用稀疏方式存储，向量化的过程非常的简洁。

股票对应的股票向量是预先存储在知识库中的，知识库是指包含有股票信息的数据库，股票信息包含有多种数据，有股票名称、股票描述词，还包含有股票的向量。股票的向量，即将股票名称、股票描述词进行向量化后的向量。分析模块4将关键词向量与股票向量进行相关性分析，通过计算关键词的向量与股票的向量之间的欧式距离来进行分析，实际上就是计算该热点事件属于各个股票的概率或者分布。这一步的意义是计算关键词的向量与股票的向量的距离，目的是计算出热点事件的发生对股票的影响力大小。分析模块4分别计算关键词向量与数据库中各股票向量的欧式距离，计算得出多个欧式距离，将欧式距离小于一定值的，分析模块4确定为股票向量对应的股票为与热点事件相关的股票。

关键词中包含有一些感情色彩的词语，分为褒义词和贬义词，关键词中含有褒义词，说明热点事件的性质是利好，生成模块5生成对应的股票的投资建议是购买；关键词中含有贬义词，说明热点事件的性质是利坏，生成模块5生成对应的股票的投资建议是抛售。

本实施例中，上述自动生成投资建议的装置还包括：

推送领域模块，用于获取用户的投资领域，将属于该投资领域的相关股票的投资建议推送给该用户。

进一步地，在另一实施例中，上述自动生成投资建议的装置还包括：

推送风险模块，用于获取用户的风险承受能力，将符合该风险承受能力的相关股票的投资建议推送给该用户。

在一具体实施例中，用户在手机上打开平安证券的APP，该应用程序访问平安集团的服务器，获取模块1获取到热点事件，然后提取模块2提取出关键词：区块链、人工智能、喜迎、平安科技，向量模块3将这四个关键词分别向量化得到四个关键词向量，然后分析模块4访问数据库，将这四个关键词向量与各股票的向量分别计算欧式距离，经分析后计算得出与200个股票相关性较大。语义理解获取关键词的感情词汇后，生成模块5生成对这200个股票的投资建议。推送领域模块获取到用户喜欢投资生物技术、医疗领域相关的股票，就将这200个股票中与生物技术、医疗的10个股票的投资建议推送给用户，发送至用户的APP端。

参照图7，进一步地，所述获取模块1包括：

增长率单元11，用于获取预设媒体账户的关注数量的增长率；

第一判定单元12，用于当所述增长率超过增长阈值时，判定所述媒体账户在预设时间段内发布的消息包含有热点事件；

消息单元13，用于根据所述媒体账户在所述预设时间段内发布的消息，确定所述热点事件。

本实施例中，预设媒体账户是指一些在财经方面有影响力或者有权威性的媒体账户。包括一些财经达人开通的个人微博账户，或者是财经相关的官方的发布信息渠道的媒体账户，例如证监会的官方微博。在一个事件发酵成热点事件时，都会伴随一个现象就是关注这个事件的人呈指数级增长；对应的，体现在预设媒体账户上的是，关注预设媒体账户的人的数量也是有一个明显的增长。因此增长率单元11要获取预设媒体账户的关注数量的增长率。具体的，获取增长率的方法为：获取当前时刻的关注数量x，提取当前时刻之前的预设时间的关注数量y，计算出x相对y的增长率。增长率单元11每隔一分钟计算关注数量的变化，假定一分钟前的关注数量是t1，当前时刻的关注数量是t0，则增长率a＝(t0-t1)/t1。在其他的实施方式中，获取增长率的周期可以是5分钟、10分钟等，也可以是10秒、20秒等。

增长阈值是用于判定该账户是否有发布热点事件的临界值。上述S11步骤中获取的增长率，也有可能是负数，即关注媒体账户的数量减少。因此，所述增长阈值包括一个或两个数字。具体的，增长阈值可以是-20％和10％，即增长率低于20％或者高于10％，均是超过增长阈值。当增长率超过了增长阈值，第一判定单元12判定该媒体账户在预设时间段内发布的消息包含有热点事件。

当第一判定单元12判定该媒体账户发布的消息包含有热点事件后，消息单元13获取当天该媒体账户发布的消息内容，具体的，是获取文字内容。若媒体账户发布的消息中包含图片，消息单元13通过扫描识别图片中的文字。从而，可以将媒体账户在所述预设时间段内发布的消息确定为获取到了热点事件，也可以根据媒体账户在预设时间段内发布的消息，进一步筛选其中的部分消息作为热点事件，例如，将媒体账户在预设时间段内发布的消息中评论数超过预设评论阈值的消息确定为热点事件。

参照图8，进一步地，所述获取模块1包括：

评论数单元15，用于获取预设媒体账户发布的消息的评论数；

第二判定单元16，用于当所述预设媒体账户发布的消息中目标消息的评论数超过评论阈值时，确定所述目标消息为热点事件。

本实施例中，媒体账户发布一条消息后，后面会有社会人士对该消息进行评论。每个人可以进行多条评论留言。评论数单元15获取评论的数量。是获取对发布消息的评论数量，而不是获取媒体账户的评论数量。例如，某个媒体账户某天发布了两条消息，第一条消息有500条评论，第二条消息有800条评论，则系统获取了该媒体账户的两个消息对应的评论数，分别是500和800。

对评论数进行比较，第二判定单元16是否超过评论阈值。评论阈值是一个数字，用于界定发布的消息是否是热点事件。评论阈值是用于判断每个媒体账户发布的消息包含有热点事件的评论依据的临界值。例如，评论阈值是600。在评论数单元15中提到的两条消息，第一条消息的论数是500条，没有超过评论阈值；第二条消息的评论数是800条，超过了评论阈值，第二判定单元16判定第二条消息为热点事件。

进一步地，所述自动生成投资建议的装置包括：

财经标记模块，用于获取带有财经标记的财经媒体账户的信息；

账户分数模块，用于将所述财经媒体账户的信息输入至预设公式，得到账户分数，所述账户分数用于量化所述财经媒体账户的影响力；

预设媒体模块，用于将所述账户分数超过分数阈值的财经媒体账户设置为所述预设媒体账户。

本实施例中，带有财经标记的媒体账户是指与财经相关的媒体账户，例如发表过一定篇幅或一定数量的财经类文章，或者是一些财经官方认证的媒体账户。具体的，系统统问微博后台，财经标记模块访问所有微博中带有财经标记的财经媒体账户，获取这些财经媒体账户发布的信息。

媒体账户的信息包括好友数、粉丝数、等级、和发布微博数据，以及历史微博相关的信息等均是媒体账户的信息，账户分数模块将每个信息进行量化。好友数、粉丝数、等级均是量化的数据；发布微博数据可以是近一年发布微博的数量，或者是近一年发布微博中评论数达到500的数量；预设公式是对媒体账户进行评价的一个公式，用于体现该媒体账户的影响力。好友数越多、粉丝数越多、等级越高、发布的微博数量越多、微博评论数量越多，对应的影响力越大，最终得到的账户分数越高。例如，账户分数模块中的计算账户分数的公式如下：

s＝c*(a+b)+d

上述公式中，s是账户分数，a是好友分数，b是粉丝分数，c是等级数，d是微博评论超过500的分数。好友分数的计算方式如下表3：

好友数量	得分
		0-10	1
11-20	2
		21-50	3
51-100	5
		101-1000	10
1000以上	30

表3：好友数量与好友分数映射表

其他的粉丝分数、等级分数、微博评论超过500的分数均可以是如上表3按照阶梯进行评分。

获取到媒体账户的信息后，通过预设公式，计算得到账户分数，该分数是反映一个媒体账户的影响力。然后预设媒体模块将该账户分数与分数阈值进行比较。分数阈值是用于界定一个媒体账户的影响力是否大到可以用作参考的预设媒体。在一具体实施例中，根据上述账户分数模块的预设公式，预设媒体账户的分数阈值是60。

参照图9，进一步地，所述自动生成投资建议的装置还包括：

等级模块6，用于根据预设的账户分数与等级的映射关系以及所述预设媒体账户的账户分数，确定所述预设媒体账户的等级；

优化模块7，用于根据所述等级，对所述投资建议进行优化。

本实施例中，调用账户分数，即通过预设媒体模块103所计算出的账户分数。等级模块6确定账户分数所在的等级，是根据预设的逻辑确定得出的。账户分数越高，对应的等级越高。在一具体的实施例中，账户分数与等级之间的映射关系如下表4：

账户分数	等级
		60-100	1
101-150	1.5
		151-200	1.8
201-300	3
		300以上	5

表4：账户分数与等级之间的映射关系表

优化模块7将生成模块5中的投资建议乘以等级，得出优化后的投资建议。在一具体实施例中，投资建议是对某股票增持1000股，然后确定获取热点事件的账户分数是1.8，则优化后的投资建议是对某股票增持1800股。

参照图10，进一步地，所述提取模块2包括：

输入单元21，用于将所述热点事件输入LDA模型中；

计算单元22，用于接收所述LDA模型计算出的关键词。

本实施例中，获取到热点事件后，输入单元21将热点事件输入到LDA(LatentDirichlet Allocation文档主题生成模型)模型中。LDA模型是由Blei等提出的，是一个“文本—主题—词”的三层贝叶斯产生式模型，每篇文本表示为主题的混合分布，而每个主题则是词上的概率分布。最初的模型只对文本—主题概率分布引入一个超参数使其服从Dirichlet分布，随后Griffiths等对主题—词概率分布也引入一个超参数使其服从Dirichlet分布。两个超参数一般设置为α＝50/T，β＝0.01。LDA模型的参数个数只与主题数和词数有关，参数估计是计算出文本—主题概率分布以及主题—词概率分布，即θ和φ。通过对变量z进行Gibbs采样间接估算θ和φ:

将热点事件的文本消息输入到上述LDA模型中，LDA模型计算得出该文本消息的关键词。然后计算单元22存储该关键词。关键词的数量根据消息的内容或长度，可能是一个关键词，也可能是多个关键词。

进一步地，所述向量模块3包括：

训练单元，用于将所述关键词输入word2vec语言模型进行预测，得到关键词的向量。

本实施例中，word2vec语言模型可以快速有效地训练词向量。word2vec模型有两种，分别是CBOW(ContinuousBag Of Words Model)模型和Skip-gram模型。其中CBOW模型利用词w(t)前后各c(这里c＝2)个词去预测当前词；而Skip-gram(Continuous Skip-gramModel)模型恰好相反，它利用词w(t)去预测它前后各c(c＝2)个词。在本实施例中，训练单元采用CBOW模型进行训练。其中输入层是词w(t)的上下文中的2c个词向量，而投影层向量Xw是这2c个词向量的累加和。输出层是以训练语料库中出现过的词作叶子节点，以各词在语料库中出现的次数作为权值构造出的一棵Huffman树。在这棵Huffman树中，叶子节点共N(＝IDI)个，分别对应词典D中的词，非叶子节点N-1个。通过随机梯度上升算法对Xw的结果进行预测，使得值最大化，context(w)指词的上下文中的2c个词。由此可见，前者是由上下文推当前词，后者是由当前词推上下文，用公式表示如下：

￡＝∑_w∈C(log p(context(w)|w))

综上所述，本申请的自动生成投资建议的装置，通过采集财经媒体发布的消息，根据发布消息产生的效果，自动获取热点事件，并根据热点事件与相关股票的关联，计算出该热点事件对相关股票的影响，从而生成相关的投资建议。该投资建议是系统自动获取热点事件，自动计算热点事件与相关股票之间的关系，不用人工成本，不会受到人为感情的影响，相较人工能客观准确的计算出股票的走势并给出相应的投资建议。

参照图11，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储自动生成投资建议的模型等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种自动生成投资建议的方法。

上述处理器执行上述自动生成投资建议的方法的步骤：获取热点事件；提取所述热点事件中的关键词；将所述关键词向量化，得到关键词对应的关键词向量；将所述关键词向量分别与各股票对应的股票向量进行相关性分析，得到与所述热点事件相关的相关股票；根据所述热点事件的性质，生成关于所述相关股票的投资建议。

在一个实施例中，上述处理器获取热点事件的步骤包括：获取预设媒体账户的关注数量的增长率；当所述增长率超过增长阈值时，判定所述媒体账户在预设时间段内发布的消息包含有热点事件；根据所述媒体账户在所述预设时间段内发布的消息，确定所述热点事件。

在一个实施例中，上述处理器获取热点事件的步骤包括：获取预设媒体账户发布的消息的评论数；当所述预设媒体账户发布的消息中目标消息的评论数超过评论阈值时，确定所述目标消息为热点事件。

在一个实施例中，上述自动生成投资建议的方法包括：获取带有财经标记的财经媒体账户的信息；将所述财经媒体账户的信息输入至预设公式，得到账户分数，所述账户分数用于量化所述财经媒体账户的影响力；将所述账户分数超过分数阈值的财经媒体账户设置为所述预设媒体账户。

在一个实施例中，上述处理器所述根据所述热点事件的性质，生成关于所述相关股票的投资建议的步骤之后包括：根据预设的账户分数与等级的映射关系以及所述预设媒体账户的账户分数，确定所述预设媒体账户所在的等级；根据所述等级，对所述投资建议进行优化。

在一个实施例中，上述处理器提取热点事件中的关键词的步骤包括：将所述热点事件输入LDA模型中；接收所述LDA模型计算出的关键词。

在一个实施例中，上述处理器将所述关键词向量化的步骤包括：将所述关键词输入word2vec语言模型进行预测，得到关键词的向量。

本申请的计算机设备通过采集财经媒体发布的消息，根据发布消息产生的效果，自动获取热点事件，并根据热点事件与相关股票的关联，计算出该热点事件对相关股票的影响，从而生成相关的投资建议。该投资建议是系统自动获取热点事件，自动计算热点事件与相关股票之间的关系，不用人工成本，不会受到人为感情的影响，相较人工能客观准确的计算出股票的走势并给出相应的投资建议。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现一种自动生成投资建议的方法，具体为：获取热点事件；提取所述热点事件中的关键词；将所述关键词向量化，得到关键词对应的关键词向量；将所述关键词向量分别与各股票对应的股票向量进行相关性分析，得到与所述热点事件相关的相关股票；根据所述热点事件的性质，生成关于所述相关股票的投资建议。

在一个实施例中，上述处理器自动生成投资建议的方法的步骤还包括：获取带有财经标记的财经媒体账户的信息；将所述财经媒体账户的信息输入至预设公式，得到账户分数，所述账户分数用于量化所述财经媒体账户的影响力；将所述账户分数超过分数阈值的财经媒体账户设置为所述预设媒体账户。

本申请的存储介质通过采集财经媒体发布的消息，根据发布消息产生的效果，自动获取热点事件，并根据热点事件与相关股票的关联，计算出该热点事件对相关股票的影响，从而生成相关的投资建议。该投资建议是系统自动获取热点事件，自动计算热点事件与相关股票之间的关系，不用人工成本，不会受到人为感情的影响，相较人工能客观准确的计算出股票的走势并给出相应的投资建议。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种自动生成投资建议的方法，其特征在于，包括：

获取热点事件；

提取所述热点事件中的关键词；

将所述关键词向量化，得到关键词对应的关键词向量；

2.如权利要求1所述的自动生成投资建议的方法，其特征在于，所述获取热点事件的步骤包括：

获取预设媒体账户的关注数量的增长率；

根据所述媒体账户在所述预设时间段内发布的消息，确定所述热点事件。

3.如权利要求1所述的自动生成投资建议的方法，其特征在于，所述获取热点事件的步骤包括：

获取预设媒体账户发布的消息的评论数；

当所述预设媒体账户发布的消息中目标消息的评论数超过评论阈值时，确定所述目标消息为热点事件。

4.如权利要求2或3所述的自动生成投资建议的方法，其特征在于，所述方法还包括：

获取带有财经标记的财经媒体账户的信息；

5.如权利要求4所述的自动生成投资建议的方法，其特征在于，所述根据所述热点事件的性质，生成关于所述相关股票的投资建议的步骤之后包括：

根据预设的账户分数与等级的映射关系以及所述预设媒体账户的账户分数，确定所述预设媒体账户所在的等级；

根据所述等级，对所述投资建议进行优化。

6.如权利要求1所述的自动生成投资建议的方法，其特征在于，所述提取热点事件中的关键词的步骤包括：

将所述热点事件输入LDA模型中；

接收所述LDA模型计算出的关键词。

7.如权利要求1所述的自动生成投资建议的方法，其特征在于，所述将所述关键词向量化的步骤包括：

8.一种自动生成投资建议的装置，其特征在于，包括：

获取模块，用于获取热点事件；

提取模块，用于提取所述热点事件中的关键词；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。