股票舆情指数预测方法以及装置
技术领域
本发明涉及网络技术,尤其是涉及一种股票舆情指数预测方法以及股票舆情指数预测装置。
背景技术
量化投资已经在国内外获得了越来越多的关注和应用。根据统计美国市场大约有不少于60%的成交量来自于量化交易,而2010年也被国内投资者誉为中国量化投资的元年。
量化投资不是依靠人的感觉来管理资产,而是根据人的投资思想和投资经验来构建数学模型,并基于计算机设备利用大量的历史股票量价数据作为数据源来对数学模型进行有效性验证,有效性验证通过的数学模型可以被用于量化投资中。
发明人在实现本发明过程中发现,由于股票量价数据中的噪音较多且其具有完全公开性,因此,利用股票量价数据来实现量化投资往往会存在构建有效的量化投资策略难度较大的问题,从而不利用量化投资。
发明内容
本发明的目的是提供一种股票舆情指数预测方法以及装置。
根据本发明的一个方面,提供一种股票舆情指数预测方法,且所述方法主要包括以下步骤:获取需要进行股票舆情指数预测的股票标识信息;根据所述股票标识信息和预先设置的各预定模式对不同类型的数据源中的实时数据分别进行过滤统计,以确定不同类型的数据源中针对所述股票标识信息所存在的各预定模式;根据不同类型的数据源的权重值以及所述不同类型的数据源中所存在的各预定模式的权重值计算确定所述股票标识信息的股票舆情指数。
根据本发明的另一个方面,提供一种股票舆情指数预测装置,且所述装置包括:用于获取需要进行股票舆情指数预测的股票标识信息的装置;用于根据所述股票标识信息和预先设置的各预定模式对不同类型的数据源中的实时数据分别进行过滤统计,以确定不同类型的数据源中针对所述股票标识信息所存在的各预定模式的装置;用于根据不同类型的数据源的权重值以及所述不同类型的数据源中所存在的各预定模式的权重值计算确定所述股票标识信息的股票舆情指数的装置。
与现有技术相比,本发明具有以下优点:本发明通过对不同类型的数据源中的实时数据分别进行过滤统计,可以及时地确定出股票在不同类型的数据源中所出现的预定模式,使本发明可以通过多角度的数据挖掘获得更多对股票价格可能会产生影响的信息;本发明通过根据不同类型的数据源的权重值以及不同类型的数据源中所出现的各预定模式的权重值来计算确定股票舆情指数,使股票舆情指数建立在对多个数据源和多种对股票价格可能会产生影响的信息进行全面考虑的基础之上;由此可知,本发明提供的技术方案能够获得较为准确的股票舆情指数,由于本发明的股票舆情指数可以作为量化投资过程中一项有参考价值的指标,因此,本发明提供的技术方案有利于量化投资。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明实施例一的股票舆情指数预测方法流程图;
图2为本发明实施例二的股票舆情指数预测装置示意图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
在更加详细地讨论示例性实施例之前,应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作描述成顺序的处理,但是,其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的执行顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
在上下文中所称“计算机设备”,也称为“电脑”,是指可以通过运行预定程序或指令来执行数值计算和/或逻辑计算等预定处理过程的智能电子设备,其可以包括处理器与存储器,由处理器执行在存储器中预存的存续指令来执行预定处理过程,或者是由ASIC、FPGA、DSP等硬件执行预定处理过程,或者是由上述二者组合来实现。计算机设备包括但不限于服务器、个人电脑以及笔记本电脑等。
所述计算机设备包括用户设备与网络设备。其中,所述用户设备包括但不限于电脑、智能手机、PDA等;所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(CloudComputing)的由大量计算机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。其中,所述计算机设备可单独运行来实现本发明,也可接入网络并通过与网络中的其他计算机设备的交互操作来实现本发明。其中,所述计算机设备所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。
需要说明的是,所述用户设备、网络设备和网络等仅为举例,其他现有的或今后可能出现的计算机设备或网络如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
后面所讨论的方法(其中一些通过流程图示出)可通过硬件、软件、固件、中间件、微代码、硬件描述语言或者其任意组合来实施。当用软件、固件、中间件或微代码来实施时,用以实施必要任务的程序代码或代码段可以被存储在机器或计算机可读介质(比如存储介质)中。(一个或多个)处理器可以实施必要的任务。
这里所公开的具体结构和功能细节仅仅是代表性的,并且是用于描述本发明的示例性实施例的目的。但是,本发明可以通过许多替换形式来具体实现,并且不应当被解释成仅仅受限于这里所阐述的实施例。
应当理解的是,虽然在这里可能使用了术语“第一”、“第二”等等来描述各个单元,但是这些单元不应当受这些术语限制。使用这些术语仅仅是为了将一个单元与另一个单元进行区分。举例来说,在不背离示例性实施例的范围的情况下,第一单元可以被称为第二单元,并且类似地第二单元可以被称为第一单元。这里所使用的术语“和/或”包括其中一个或更多所列出的相关联项目的任意和所有组合。
应当理解的是,当一个单元被称为“连接”或者“耦合”到另一个单元时,其可以直接连接或耦合到所述另一单元,或者可以存在中间单元。与此相对,当一个单元被称为“直接连接”或“直接耦合”到另一单元时,则不存在中间单元。应当按照类似的方式来解释被用于描述单元之间的关系的其他词语(例如“处于...之间”相比于“直接处于...之间”,“与...邻近”相比于“与...直接邻近”等等)。
这里所使用的术语仅仅是为了描述具体实施例而不意图限制示例性实施例。除非上下文明确地另有所指,否则这里所使用的单数形式“一个”、“一项”还意图包括复数。还应当理解的是,这里所使用的术语“包括”和/或“包含”规定所陈述的特征、整数、步骤、操作、单元和/或组件的存在,而不排除存在或添加一个或更多其他特征、整数、步骤、操作、单元、组件和/或其组合。
还应当提到的是,在一些替换实现方式中,所提到的功能/动作可以按照不同于附图中标示的顺序发生。举例来说,取决于所涉及的功能/动作,相继示出的两幅图实际上可以基本上同时执行或者有时可以按照相反的顺序来执行。
下面结合附图对本发明作进一步详细描述。
实施例一、股票舆情指数预测方法。
图1为本实施例的股票舆情指数预测方法的流程图,且图1所示的方法主要包括:步骤S100、步骤S110以及步骤S120。本实施例所记载的方法通常是在计算机设备中被执行的,优选的,本实施例所记载的方法可以在服务器、台式计算机以及其他网络设备中被执行。下面对图1中的各步骤分别进行说明。
S100、获取需要进行股票舆情指数预测的股票标识信息。
具体的,本实施例中的股票舆情指数主要用于反映股票的走向,即本实施例中的股票舆情指数反映出市场近期对股票的极性(如股票价格的上升/下跌)以及强度(如支持股票价格上升/下跌的势头等)所持的态度;一个具体的例子,在预先设定股票舆情指数的最大值为+1且其最小值为-1的情况下,股票舆情指数越接近+1,则表示市场近期对个股的看多情绪越高,股票舆情指数越接近-1,则表示市场近期对个股的看多情绪越低,而当股票舆情指数在0附近徘徊,则表明市场近期对个股的多空预期没有明显的倾向性。
作为示例,本实施例中的股票舆情指数可以应用于炒股类型的软件产品中,以便于软件产品可以利用股票舆情指数为用户提供的量化投资的决策参考信息,如本实施例中的股票舆情指数可以应用于百度股市通APP中,且本实施例不限制股票舆情指数的具体应用。
作为示例,本实施例中的股票标识信息可以具体为:股票名称、股票代码以及股票名称的简称中的一个或者多个,且一条股票标识信息只能唯一表示出一只股票,不同的股票标识信息所表示出的股票并不相同。在实际应用中,股票标识信息最好包括:股票名称、股票代码以及股票名称的简称,以便于后续可以对数据源中的实时数据进行充分的过滤统计。
作为示例,本实施例可以根据外部输入的信息获取到需要进行股票舆情指数预测的股票标识信息,如根据键盘输入的信息获取到需要进行股票舆情指数预测的股票标识信息,再如根据网络传输来的信息获取到需要进行股票舆情指数预测的股票标识信息。
作为示例,本实施例也可以从本地存储的文件中获取到需要进行股票舆情指数预测的股票标识信息;一个具体的例子,本地存储的文件中包含有目前A股市场中的所有股票的股票标识信息,从而从该文件中可以获取到任意一个需要进行股票舆情指数预测的股票标识信息。在需要对目前A股市场中的所有股票均进行股票舆情指数预测时,本实施例可以从该文件中逐个读取股票标识信息,通过针对每次读取出的股票标识信息分别执行下述步骤S110和步骤S120,即可实现对目前A股市场中的所有股票分别进行股票舆情指数预测的目的。
本实施例不限制获取需要进行股票舆情指数预测的股票标识信息的具体实现方式以及股票标识信息所包含的具体内容。
S110、根据股票标识信息和预先设置的各预定模式对不同类型的数据源中的实时数据分别进行过滤统计,以确定不同类型的数据源中针对所述股票标识信息所存在的各预定模式。
具体的,本实施例中的不同类型的数据源可以包括:基于搜索引擎的数据源(也可以称为搜索大数据,如百度搜索大数据)、基于社区/论坛的数据源(也可称为社区/论坛大数据,如百度社区大数据)以及基于新闻的数据源(也可以称为新闻大数据,如百度新闻大数据)中的一个或者多个。一个具体的例子,在实际应用中,不同类型的数据源包括:百度搜索大数据、百度社区大数据以及百度新闻大数据。
本实施例中的预先设置的预定模式的数量通常为多个,且本实施例中的预定模式是在金融学理论的基础上设置的,也就是说,本实施例中的预定模式是基于金融语言的预定模式;本实施例中的金融语言如被立案调查、资产重组、收购以及被收购等。上述金融语言也可以被称为基于金融学的描述信息。本实施例不限制金融语言的具体内容。
作为示例,本实施例中的预定模式通常可以包含两部分内容,一部分内容可以被描述为在预定数据源的实时数据中必须出现特定的金融语言(即基于金融学的描述信息),另一部分内容可以被描述为特定的金融语言在特定数据源的实时数据中出现的次数应满足预定条件。一个具体的例子,本实施例中的一个预定模式可以被描述为:在特定数据源的实时数据中出现了“被立案调查”这一金融语言,且“被立案调查”这一金融语言在特定数据源的实时数据中出现的次数超过了其在过去20天在特定数据源的历史数据中出现的次数的均值再加上2倍标准差。本实施例不限制预定模式的具体表现形式。
作为示例,本实施例中的预定模式通常是针对特定数据源设置的,也就是说,本实施例中的每个数据源都对应有一个预定模式集合,且不同类型的数据源所对应的预定模式集合并不相同。另外,位于不同预定模式集合中的两个预定模式所针对的金融语言有可能相同,也有可能不相同。
作为示例,本实施例可以通过对各数据源中的历史数据进行数据挖掘来为各数据源分别设置其各自的预定模式。一个具体的例子,针对第一数据源而言,对第一数据源中的历史数据(如上半年的数据或者上一季度的数据等)进行数据挖掘,如根据预先设定的金融语言集合中的所有基于金融学的描述信息对历史数据进行过滤统计等处理,以确定出第一数据源的历史数据中针对第一股票标识信息所重复出现的所有基于金融学的描述信息(如被立案调查、资产重组、收购以及被收购等);可选的,本实施例可以根据重复出现的所有基于金融学的描述信息生成频繁模式,本实施例所生成的频繁模式同预定模式一样也包括两部分内容(具体如上述针对预定模式的描述,在此不再重复说明);之后,本实施例针对数据挖掘出的重复出现的每一个基于金融学的描述信息分别获取相应历史时期(如基于金融学的描述信息的最晚产生时间之后的几天内或者十几天内)的股票价格信息,并根据获取到的股票价格信息判断股票价格在该历史时期是否发生了波动,且股票价格波动是否符合预定要求,如果股票价格产生了波动且股票价格波动符合预定要求(如股票价格波动幅度超过一定的阈值等),则本实施例可以利用相应的重复出现的基于金融学的描述信息生成预定模式;另外,在前述已经可选的生成了频繁模式的情况下,本实施例可以不再执行上述生成预定模式的操作,而是直接将该频繁模式作为预定模式。上述仅以第一数据源以及第一股票标识信息为例进行描述的,本实施例还可以利用第一数据源以及其他股票标识信息或者利用其他数据源以及各股票标识信息来生成预定模式,在此不再一一详细说明。
作为示例,本实施例中的实时数据也可以称为当前数据或者非历史数据或者新鲜数据或者未过时效的数据等,且本实施例中的实时数据通常是指数据产生时间在预定时间范围内的数据,如本实施例可以将当天的数据均作为实时数据,再如本实施例可以将前一天15:00到当天早7:00所产生的数据均作为实时数据。
作为示例,本实施例的根据股票标识信息和预先设置的各预定模式对不同类型的数据源中的实时数据分别进行过滤统计,以确定不同类型的数据源中针对上述股票标识信息所存在的各预定模式可以具体为:针对第一数据源而言,对第一数据源中的第一条实时数据进行文字过滤操作(也可以称为文字识别操作),以确定第一条实时数据中是否包含有需要进行股票舆情指数预测的股票标识信息;在确定出第一条实时数据中没有包含股票标识信息的情况下,继续对该第一数据源中的第二条实时数据进行文字过滤操作;而在确定出第一条实时数据中包含有股票标识信息的情况下,继续判断第一条实时数据中是否包含有第一数据源所对应的各预定模式中的特定金融语言,在判断出第一条实时数据中没有包含第一数据源所对应的任意一个预定模式中的特定金融语言或者第一条实时数据所包含的特定金融语言并不是针对需要进行股票舆情指数预测的股票标识信息的情况下,继续对该第一数据源中的第二条实时数据进行文字过滤操作;而在判断出第一条实时数据包含有第一数据源所对应的一个或者多个预定模式中的特定金融语言,且第一条实时数据所包含的特定金融语言是针对需要进行股票舆情指数预测的股票标识信息时,针对第一条实时数据所包含的特定金融语言进行相应的统计操作,并判断本次统计操作的结果是否满足第一数据源所对应的相应预定模式中的预定条件,如果判断结果为本次统计操作的结果满足第一数据源所对应的相应预定模式中的预定条件,则将该相应预定模式确定为第一数据源中存在的预定模式,如果判断结果为本次统计操作的结果不满足第一数据源所对应的相应预定模式中的预定条件,则不会将该相应预定模式确定为第一数据源中存在的预定模式;之后,继续对该第一数据源中的第二条实时数据进行文字过滤操作。以此类推,直到针对各数据源中的各实时数据分别进行了上述文字过滤操作以及上述各判断操作,即可确定出不同类型的数据源中针对需要进行股票舆情指数预测的股票标识信息所存在的各预定模式。
S120、根据不同类型的数据源的权重值以及不同类型的数据源中所存在的各预定模式的权重值计算确定股票标识信息的股票舆情指数。
具体的,本实施例中的各数据源分别预先设置有权重值,本实施例中的各数据源所对应的所有预定模式也分别预先设置有权重值,且本实施例中的各数据源的权重值以及各数据源所对应的所有预定模式的权重值都是可以动态调整的。
作为示例,本实施例的计算确定股票标识信息的股票舆情指数的一个具体过程可以为:将不同类型的数据源中所存在的各预定模式的权重值与相应的数据源的权重值相乘后叠加,从而可以将叠加后的数值作为股票标识信息的股票舆情指数。
一个更具体的例子,设定百度搜索大数据的权重值为0.5、百度社区大数据的权重值为0.3以及百度新闻大数据的权重值为0.2,设定百度搜索大数据对应的预定模式包括:权重值为+1预定模式A、权重值为+2的预定模式B以及权重值为-3的预定模式C,百度社区大数据对应的预定模式包括:权重值为+3的预定模式D、权重值为+1的预定模式E以及权重值为-2的预定模式F,百度新闻大数据对应的预定模式包括:权重值为+1的预定模式G、权重值为+4的预定模式H以及权重值为-2的预定模式I;如果对于第一股票标识信息而言,通过上述步骤S110确定出百度搜索大数据中存在的预定模式为预定模式B、百度社区大数据中存在的预定模式为预定模式E以及百度新闻大数据中存在的预定模式为预定模式H,则本实施例针对第一股票标识信息所预测出的股票舆情指数为:0.5×2+0.3×1+0.2×4=2.1。
作为示例,本实施例的计算确定股票标识信息的股票舆情指数的另一个具体过程可以为:将不同类型的数据源中所存在的各预定模式的权重值与相应的数据源的权重值相乘后叠加,将叠加获得的数值进行映射处理,以使叠加获得的数值被转换为预定区间(如[-1,1])中的数值,从而可以将映射处理后的数值作为股票标识信息的股票舆情指数。映射处理后的数值能够更加明确的表现出市场近期对股票的极性以及强度所持的态度。本实施例可以采用多种方式对叠加获得的数值进行映射处理,本实施例不限制映射处理的具体实现方式。
一个更具体的例子,设定百度搜索大数据的权重值为0.5、百度社区大数据的权重值为0.3以及百度新闻大数据的权重值为0.2,设定百度搜索大数据对应的预定模式包括:权重值为+1预定模式A、权重值为+2的预定模式B以及权重值为-3的预定模式C,百度社区大数据对应的预定模式包括:权重值为+3的预定模式D、权重值为+1的预定模式E以及权重值为-2的预定模式F,百度新闻大数据对应的预定模式包括:权重值为+1的预定模式G、权重值为+4的预定模式H以及权重值为-2的预定模式I;如果对于第一股票标识信息而言,通过上述步骤S110确定出百度搜索大数据中存在的预定模式为预定模式B、百度社区大数据中存在的预定模式为预定模式E以及百度新闻大数据中存在的预定模式为预定模式H,则本实施例叠加后的数值为:0.5×2+0.3×1+0.2×4=2.3,将叠加后的数值进行[-1,1]区间的映射处理,映射处理后获得的针对第一股票标识信息所预测出的股票舆情指数为:0.6。
需要特别说明的是,上述仅举例说明了本实施例根据相应的权重值计算股票舆情指数的两种具体实现过程,本实施例还可以根据不同类型的数据源的权重值以及不同类型的数据源中所存在的各预定模式的权重值采用其他计算方法来确定股票标识信息所对应的股票舆情指数,本实施例不限制根据相应的权重值计算股票舆情指数的具体实现方式。
下面对本实施例中的各数据源的权重值以及各预定模式的权重值的设置方式进行举例说明。
本实施例预先为各数据源分别设置权重值的一个具体的例子为,预先为各数据源分别设置初始权重值,如首先将百度搜索大数据的初始权重值设置为0.5,将百度社区大数据的初始权重值设置为0.3,并将百度新闻大数据的初始权重值为0.2,然后,获取各数据源的历史数据(如上半年的数据或者上个季度的数据等),并利用历史数据来预测多个股票标识信息(如目前A股市场中的所有股票标识信息)的股票舆情指数;由于使用的各数据源的数据为各数据源中的历史数据,因此,本实施例可以利用当前能够获取到的各股票在相应历史时期的实际股票价格来检测当前预测出的各股票的股票舆情指数的准确性,如利用预定算法(神经网络算法等)对所有股票标识信息的股票舆情指数以及相应股票标识信息所对应的实际股票价格进行学习,以最终确定百度搜索大数据、百度社区大数据以及百度新闻大数据的当前权重值(如提高反映实际股票价格能力强的数据源的当前权重值,并降低反映实际股票价格能力弱的数据源的当前权重值)。
本实施例预先为各数据源中的预定模式分别设置权重值的一个具体的例子为,在上述步骤S110的为各数据源设置预定模式的过程中,本实施例还可以为不同数据源中的预定模式设置权重值,即在设置预定模式的过程中根据股票价格波动的幅度为相应的预定模式设置权重值等,如对股票价格波动的幅度进行判断,在股票价格波动的幅度为上升幅度时,将预定模式的权重值设置为正权重值,且上升幅度越大权重值越大,而在股票价格波动的幅度为下降幅度时,将预定模式的权重值设置为负权重值,且下降幅度越大权重值越小;由于一种预定模式可能会在不同的权重值设置过程中被设置不同的权重值,因此,本实施例可以利用求多个权重值的均值等方式来确定一种预定模式的权重值;然后,获取各数据源的历史数据(如上半年的数据或者上个季度的数据等),并利用获取的历史数据来预测多个股票标识信息(如目前A股市场中的所有股票标识信息)的股票舆情指数;由于使用的各数据源的数据为各数据源中的历史数据,因此,本实施例可以利用当前能够获取到的各股票在相应历史时期的实际股票价格来检测当前预测出的各股票的股票舆情指数的准确性,如利用预定算法(神经网络算法等)对所有股票标识信息的股票舆情指数以及相应股票标识信息所对应的实际股票价格进行学习,以最终确定各预定模式的当前权重值(如提高反映实际股票价格能力强的预定模式的当前权重值,并降低反映实际股票价格能力弱的预定模式的当前权重值)。
在预先为各数据源分别设置权重值,并预先为各数据源中的预定模式分别设置权重值之后,且在股票舆情指数预测方法已经被投入到实际应用过程中,本实施例仍可以定期的利用上述学习过程(如每天均利用神经网络算法对所有股票标识信息的股票舆情指数以及相应股票标识信息所对应的实际股票价格进行学习)对各数据源的权重值以及各预定模式的权重值进行动态调整,以不断的提高股票舆情指数的预测准确性。上述定期调整各数据源的权重值以及各预定模式的权重值的过程的一个具体例子为:获取本实施例昨天预测出的所有股票的股票舆情指数以及今天所有股票的实际股票价格,利用预定算法(神经网络算法等)对昨天预测出的所有股票的股票舆情指数以及今天所有股票的实际股票价格进行学习,以调整各数据源的权重值以及各预定模式的权重值。本实施例不限制上述利用预定算法(如神经网络算法)进行学习的具体实现方式。
实施例二、股票舆情指数预测装置。
本实施例的股票舆情指数预测装置通常会被设置于计算机设备中,优选的,本实施例所记载的股票舆情指数预测装置可以设置于服务器、台式计算机以及其他网络设备中。本实施例的股票舆情指数预测装置的主要结构如图2所示。
下面参照具体实施例对股票舆情指数预测装置进行说明。
图2中,本实施例的股票舆情指数预测装置主要包括:用于获取需要进行股票舆情指数预测的股票标识信息的装置(下述简称“股票标识获取装置200”)、用于根据上述股票标识信息和预先设置的各预定模式对不同类型的数据源中的实时数据分别进行过滤统计,以确定不同类型的数据源中针对所述股票标识信息所存在的各预定模式的装置(下述简称“过滤统计装置210”)以及用于根据不同类型的数据源的权重值以及不同类型的数据源中所存在的各预定模式的权重值计算确定上述股票标识信息的股票舆情指数的装置(下述简称“股票舆情指数计算装置220”)。
股票标识获取装置200主要用于获取需要进行股票舆情指数预测的股票标识信息。
具体的,本实施例中的股票舆情指数主要用于反映股票的走向,即本实施例中的股票舆情指数反映出市场近期对股票的极性(如股票价格的上升/下跌)以及强度(如支持股票价格上升/下跌的势头等)所持的态度;一个具体的例子,在预先设定股票舆情指数的最大值为+1且其最小值为-1的情况下,股票舆情指数越接近+1,则表示市场近期对个股的看多情绪越高,股票舆情指数越接近-1,则表示市场近期对个股的看多情绪越低,而当股票舆情指数在0附近徘徊,则表明市场近期对个股的多空预期没有明显的倾向性。
作为示例,本实施例的股票舆情指数预测装置所提供的股票舆情指数可以应用于炒股类型的软件产品中,以便于软件产品可以利用股票舆情指数为用户提供量化投资的决策参考信息,如本实施例中的股票舆情指数可以应用于百度股市通APP中,且本实施例不限制股票舆情指数的具体应用。
作为示例,股票标识获取装置200获取的股票标识信息可以具体为:股票名称、股票代码以及股票名称的简称中的一个或多个。在实际应用中,股票标识获取装置200获取的股票标识信息最好包括:股票名称、股票代码以及股票名称的简称,以便于后续过滤统计装置210可以对各数据源中的实时数据进行充分的过滤统计。
作为示例,股票标识获取装置200可以根据外部输入的信息获取到需要进行股票舆情指数预测的股票标识信息,如股票标识获取装置200根据键盘输入的信息获取到需要进行股票舆情指数预测的股票标识信息,再如股票标识获取装置200根据网络传输来的信息获取到需要进行股票舆情指数预测的股票标识信息。
作为示例,股票标识获取装置200也可以从本地存储的文件中获取到需要进行股票舆情指数预测的股票标识信息;一个具体的例子,本地存储的文件中包含有目前A股市场中的所有股票的股票标识信息,从而股票标识获取装置200从该文件中可以获取到任意一个需要进行股票舆情指数预测的股票标识信息。在股票舆情指数预测装置需要对目前A股市场中的所有股票均进行股票舆情指数预测时,股票标识获取装置200可以从该文件中逐个读取股票标识信息,通过使过滤统计装置210以及股票舆情指数计算装置220针对股票标识获取装置200每次读取出的股票标识信息分别执行相应的操作,即可实现对目前A股市场中的所有股票分别进行股票舆情指数预测的目的。
本实施例不限制股票标识获取装置200获取需要进行股票舆情指数预测的股票标识信息的具体实现方式以及股票标识信息的具体表现形式。
过滤统计装置210主要用于根据股票标识获取装置200获取的股票标识信息和预先设置的各预定模式对不同类型的数据源中的实时数据分别进行过滤统计,以确定不同类型的数据源中针对该股票标识信息所存在的各预定模式。
具体的,本实施例中的不同类型的数据源可以包括:基于搜索引擎的数据源(也可以称为搜索大数据,如百度搜索大数据)、基于社区/论坛的数据源(也可称为社区/论坛大数据,如百度社区大数据)以及基于新闻的数据源(也可以称为新闻大数据,如百度新闻大数据)中的一个或者多个。一个具体的例子,在实际应用中,不同类型的数据源包括:百度搜索大数据、百度社区大数据以及百度新闻大数据。
股票舆情指数预测装置中的预先设置的预定模式的数量通常为多个,且股票舆情指数预测装置中的预定模式是在金融学理论的基础上设置的,也就是说,本实施例中的预定模式是基于金融语言的预定模式;本实施例中的金融语言如被立案调查、资产重组、收购以及被收购等。上述金融语言也可以被称为基于金融学的描述信息。本实施例不限制金融语言的具体内容。
作为示例,股票舆情指数预测装置中的预定模式通常可以包含两部分内容,一部分内容可以被描述为在预定数据源的实时数据中必须出现特定的金融语言(即基于金融学的描述信息),另一部分内容可以被描述为特定的金融语言在特定数据源的实时数据中出现的次数应满足预定条件。一个具体的例子,股票舆情指数预测装置中的一个预定模式可以被描述为:在特定数据源的实时数据中出现了“被立案调查”这一金融语言,且“被立案调查”这一金融语言在特定数据源的实时数据中出现的次数超过了其在过去20天在特定数据源的历史数据中出现的次数的均值再加上2倍标准差。本实施例不限制预定模式的具体表现形式。
作为示例,股票舆情指数预测装置中的预定模式通常是针对特定数据源设置的,也就是说,股票舆情指数预测装置中的每一个数据源都对应有一个预定模式集合,而且不同类型的数据源所对应的预定模式集合并不相同。另外,分设于不同预定模式集合中的两个预定模式所针对的金融语言有可能相同,也有可能不相同。
作为示例,本实施例的股票舆情指数预测装置可以可选的包括:用于通过对各数据源中的历史数据进行数据挖掘设置所述各预定模式的装置(下述简称“预定模式设置装置”,图2中未示出),即预定模式设置装置主要用于通过对各数据源中的历史数据进行数据挖掘来为各数据源分别设置其各自的预定模式。可选的,该预定模式设置装置可以具体包括:用于对不同类型的各数据源中的历史数据分别进行数据挖掘,以确定针对一只股票而言重复出现的基于金融学的描述信息的装置(下述简称“数据挖掘装置”,图2中未示出)、用于根据相应历史时期的相应股票的价格确定股票价格波动的装置(下述简称“股票价格波动确定装置”,图2中未示出)以及用于在股票价格波动符合预定要求时,根据重复出现的基于金融学的描述信息生成预定模式的装置(下述简称“预定模式生成装置”,图2中未示出)。
一个具体的例子,针对第一数据源而言,预定模式设置装置(如数据挖掘装置)对第一数据源中的历史数据(如上半年的数据或者上一季度的历史数据等)进行数据挖掘,如预定模式设置装置(如数据挖掘装置)根据预先设定的金融语言集合中的所有基于金融学的描述信息对历史数据进行过滤统计等处理,以确定出第一数据源的历史数据中针对第一股票标识信息所重复出现的所有基于金融学的描述信息(如被立案调查、资产重组、收购以及被收购等);可选的,预定模式设置装置(如预定模式生成装置)可以根据重复出现的所有基于金融学的描述信息生成频繁模式,预定模式设置装置(如预定模式生成装置)所生成的频繁模式同预定模式一样也包括两部分内容(具体如上述针对预定模式的描述,在此不再重复说明);之后,预定模式设置装置(如股票价格波动确定装置)针对数据挖掘出的重复出现的每一个基于金融学的描述信息分别获取相应历史时期(如基于金融学的描述信息的最晚产生时间之后的几天内或者十几天内)的股票价格信息,并根据获取到的股票价格信息判断股票价格在该历史时期是否发生了波动,且股票价格波动是否符合预定要求,如果股票价格产生了波动且股票价格波动符合预定要求(如股票价格波动幅度超过一定的阈值等),则预定模式设置装置(如预定模式生成装置)可以利用相应的重复出现的基于金融学的描述信息生成相应的预定模式;另外,在前述已经可选的生成了频繁模式的情况下,预定模式设置装置(如预定模式生成装置)可以不再执行上述生成预定模式的操作,而是直接将该频繁模式作为预定模式。上述仅以第一数据源以及第一股票标识信息为例进行描述的,预定模式设置装置还可以利用第一数据源以及其他股票标识信息或者利用其他数据源以及各股票标识信息来生成预定模式,在此不再一一详细说明。
作为示例,过滤统计装置210所使用的实时数据也可以称为当前数据或者非历史数据或者新鲜数据或者未过时效的数据等,且过滤统计装置210所使用的实时数据通常是指数据产生时间在预定时间范围内的数据,如过滤统计装置210可以将当天的数据均作为实时数据,再如过滤统计装置210可以将前一天15:00到当天早7:00所产生的数据均作为实时数据。
作为示例,过滤统计装置210根据股票标识信息和预先设置的各预定模式对不同类型的数据源中的实时数据分别进行过滤统计,以确定不同类型的数据源中针对上述股票标识信息所存在的各预定模式可以具体为:针对第一数据源而言,过滤统计装置210对第一数据源中的第一条实时数据进行文字过滤操作(也可以称为文字识别操作),以确定第一条实时数据中是否包含有需要进行股票舆情指数预测的股票标识信息;在确定出第一条实时数据中没有包含股票标识信息的情况下,过滤统计装置210继续对该第一数据源中的第二条实时数据进行文字过滤操作;而在确定出第一条实时数据中包含有股票标识信息的情况下,过滤统计装置210继续判断第一条实时数据中是否包含有第一数据源所对应的各预定模式中的特定金融语言,在判断出第一条实时数据中没有包含第一数据源所对应的任意一个预定模式中的特定金融语言或者第一条实时数据所包含的特定金融语言并不是针对需要进行股票舆情指数预测的股票标识信息的情况下,过滤统计装置210继续对该第一数据源中的第二条实时数据进行文字过滤操作;而在判断出第一条实时数据包含有第一数据源所对应的一个或者多个预定模式中的特定金融语言,且第一条实时数据所包含的特定金融语言是针对需要进行股票舆情指数预测的股票标识信息时,过滤统计装置210针对第一条实时数据所包含的特定金融语言进行相应的统计操作,并判断本次统计操作的结果是否满足第一数据源所对应的相应预定模式中的预定条件,如果判断结果为本次统计操作的结果满足第一数据源所对应的相应预定模式中的预定条件,则过滤统计装置210将该相应预定模式确定为第一数据源中存在的预定模式,如果判断结果为本次统计操作的结果不满足第一数据源所对应的相应预定模式中的预定条件,则过滤统计装置210不会将该相应预定模式确定为第一数据源中存在的预定模式;之后,过滤统计装置210继续对该第一数据源中的第二条实时数据进行文字过滤操作。以此类推,直到过滤统计装置210针对各数据源中的各实时数据分别进行了上述文字过滤操作以及上述各判断操作,过滤统计装置210即可确定出不同类型的数据源中针对需要进行股票舆情指数预测的股票标识信息所存在的各预定模式。
股票舆情指数计算装置220主要用于根据不同类型的数据源的权重值以及不同类型的数据源中所存在的各预定模式的权重值计算确定上述股票标识信息的股票舆情指数。可选的,该股票舆情指数计算装置220可以包括:用于将不同类型的数据源中所存在的各预定模式的权重值与相应的数据源的权重值相乘后叠加的装置(下述简称“叠加装置”,图2中未示出)以及用于将叠加后的数值作为股票标识信息的股票舆情指数的装置(下述简称“第一指数确定装置”,图2中未示出)。可选的,该股票舆情指数计算装置220也可以包括:用于将不同类型的数据源中所存在的各预定模式的权重值与相应的数据源的权重值相乘后叠加的装置(下述简称“叠加装置”,图2中未示出)、用于将叠加后的数值映射到预定区间范围内的装置(下述简称“映射装置”,图2中未示出)以及用于将映射后的数值作为股票标识信息的股票舆情指数的装置(下述简称“第二指数确定装置”,图2中未示出)。
具体的,本实施例中的各数据源分别预先设置有权重值,本实施例中的各数据源所对应的所有预定模式也分别预先设置有权重值,且本实施例中的各数据源的权重值以及各数据源所对应的所有预定模式的权重值都是可以动态调整的。
作为示例,股票舆情指数计算装置220计算确定股票标识信息的股票舆情指数的一个具体过程可以为:股票舆情指数计算装置220(如叠加装置)将不同类型的数据源中所存在的各预定模式的权重值与相应的数据源的权重值相乘后叠加,从而股票舆情指数计算装置220(如第一指数确定装置)可以将叠加后的数值作为股票标识信息的股票舆情指数。
一个更具体的例子,设定百度搜索大数据的权重值为0.5、百度社区大数据的权重值为0.3以及百度新闻大数据的权重值为0.2,设定百度搜索大数据对应的预定模式包括:权重值为+1预定模式A、权重值为+2的预定模式B以及权重值为-3的预定模式C,百度社区大数据对应的预定模式包括:权重值为+3的预定模式D、权重值为+1的预定模式E以及权重值为-2的预定模式F,百度新闻大数据对应的预定模式包括:权重值为+1的预定模式G、权重值为+4的预定模式H以及权重值为-2的预定模式I;如果对于第一股票标识信息而言,过滤统计装置210确定出百度搜索大数据中存在的预定模式为预定模式B、百度社区大数据中存在的预定模式为预定模式E以及百度新闻大数据中存在的预定模式为预定模式H,则股票舆情指数计算装置220针对第一股票标识信息所预测出的股票舆情指数为:0.5×2+0.3×1+0.2×4=2.1。
作为示例,股票舆情指数计算装置220计算确定股票标识信息的股票舆情指数的另一个具体过程可以为:股票舆情指数计算装置220(如叠加装置)将不同类型的数据源中所存在的各预定模式的权重值与相应的数据源的权重值相乘后叠加,股票舆情指数计算装置220(如映射装置)将叠加获得的数值进行映射处理,以使叠加获得的数值被转换为预定区间(如[-1,1])中的数值,从而股票舆情指数计算装置220(如第二指数确定装置)可以将映射处理后的数值作为股票标识信息的股票舆情指数。映射处理后的数值能够更加明确的表现出市场近期对股票的极性以及强度所持的态度。股票舆情指数计算装置220(如映射装置)可以采用多种方式对叠加获得的数值进行映射处理,本实施例不限制股票舆情指数计算装置220(如映射装置)所执行的映射处理的具体实现方式。
一个更具体的例子,设定百度搜索大数据的权重值为0.5、百度社区大数据的权重值为0.3以及百度新闻大数据的权重值为0.2,设定百度搜索大数据对应的预定模式包括:权重值为+1预定模式A、权重值为+2的预定模式B以及权重值为-3的预定模式C,百度社区大数据对应的预定模式包括:权重值为+3的预定模式D、权重值为+1的预定模式E以及权重值为-2的预定模式F,百度新闻大数据对应的预定模式包括:权重值为+1的预定模式G、权重值为+4的预定模式H以及权重值为-2的预定模式I;如果对于第一股票标识信息而言,过滤统计装置210确定出百度搜索大数据中存在的预定模式为预定模式B、百度社区大数据中存在的预定模式为预定模式E以及百度新闻大数据中存在的预定模式为预定模式H,则股票舆情指数计算装置220(如叠加装置)叠加后的数值为:0.5×2+0.3×1+0.2×4=2.3,股票舆情指数计算装置220(如映射装置)将叠加后的数值进行[-1,1]区间的映射处理,映射处理后股票舆情指数计算装置220(如第二指数确定装置)获得的针对第一股票标识信息所预测出的股票舆情指数为:0.6。
需要特别说明的是,上述仅举例说明了股票舆情指数计算装置220根据相应的权重值计算股票舆情指数的两种具体实现过程,股票舆情指数计算装置220还可以根据不同类型的数据源的权重值以及不同类型的数据源中所存在的各预定模式的权重值采用其他计算方法来确定股票标识信息所对应的股票舆情指数,本实施例不限制股票舆情指数计算装置220根据相应的权重值计算股票舆情指数的具体实现方式。
下面对股票舆情指数预测装置中的各数据源的权重值以及各预定模式的权重值的设置方式进行举例说明。
作为示例,股票舆情指数预测装置中的预定模式设置装置可以可选的包括:用于根据股票价格波动的幅度设置预定模式的权重值的装置(下述简称“权重值设置装置”,图2中未示出);且该权重值设置装置可以可选的包括:用于判断股票价格波动的幅度的装置(下述简称“幅度判断装置”,图2中未示出)、用于在股票价格波动的幅度为上升幅度时,将预定模式的权重值设置为正权重值的装置(下述简称“第一设置装置”,图2中未示出)以及用于在股票价格波动的幅度为下降幅度时,将预定模式的权重值设置为负权重值的装置(下述简称“第二设置装置”,图2中未示出)。
作为示例,股票舆情指数预测装置还可以包括:用于通过利用预定算法对所述股票标识信息的股票舆情指数以及股票标识信息对应的股票价格进行学习,以调整不同类型的数据源的权重值和/或所述各预定模式的权重值的装置(下述简称“学习装置”,图2中未示出)。
股票舆情指数预测装置预先为各数据源分别设置权重值的一个具体的例子为,权重值设置装置预先为各数据源分别设置初始权重值,如预权重值设置装置将百度搜索大数据的初始权重值设置为0.5,将百度社区大数据的初始权重值设置为0.3,并将百度新闻大数据的初始权重值为0.2,然后,过滤统计装置210和股票舆情指数计算装置220通过获取各数据源的历史数据(如上半年的数据或者上个季度的数据等),并利用历史数据来预测多个股票标识信息(如目前A股市场中的所有股票标识信息)的股票舆情指数;由于过滤统计装置210和股票舆情指数计算装置220使用的各数据源的数据为各数据源中的历史数据,因此,学习装置可以利用当前能够获取到的各股票在相应历史时期的实际股票价格来检测当前预测出的各股票的股票舆情指数的准确性,如学习装置利用预定算法(神经网络算法等)对所有股票标识信息的股票舆情指数以及相应股票标识信息所对应的实际股票价格进行学习,以最终确定百度搜索大数据、百度社区大数据以及百度新闻大数据的当前权重值(如提高反映实际股票价格能力强的数据源的当前权重值,并降低反映实际股票价格能力弱的数据源的当前权重值)。
股票舆情指数预测装置预先为各数据源中的预定模式分别设置权重值的一个具体的例子为,在预定模式设置装置为各数据源分别设置各预定模式的过程中,权重值设置装置还可以为不同数据源中的预定模式设置权重值,即在预定模式设置装置设置预定模式的过程中,权重值设置装置(如幅度判断装置)判断股票价格波动的幅度,权重值设置装置(如第一设置装置和第二设置装置)根据股票价格波动的幅度为相应的预定模式设置权重值等,如在股票价格波动的幅度为上升幅度时,权重值设置装置(如第一设置装置)将预定模式的权重值设置为正权重值,且上升幅度越大权重值越大,而在股票价格波动的幅度为下降幅度时,权重值设置装置(如第二设置装置)将预定模式的权重值设置为负权重值,且下降幅度越大权重值越小;由于一种预定模式可能会在不同的过程中被设置不同的权重值,因此权重值设置装置可以利用求多个权重值的均值等方式来确定一种预定模式的权重值;然后,过滤统计装置210和股票舆情指数计算装置220获取各数据源的历史数据(如上半年的数据或者上个季度的数据等),并利用获取的历史数据来预测多个股票标识信息(如目前A股市场中的所有股票标识信息)的股票舆情指数;由于使用的各数据源的数据为各数据源中的历史数据,因此,学习装置可以利用当前能够获取到的各股票在相应历史时期的实际股票价格来检测当前预测出的各股票的股票舆情指数的准确性,如学习装置利用预定算法(神经网络算法等)对所有股票标识信息的股票舆情指数以及相应股票标识信息所对应的实际股票价格进行学习,以最终确定各预定模式的当前权重值(如提高反映实际股票价格能力强的预定模式的当前权重值,并降低反映实际股票价格能力弱的预定模式的当前权重值)。
在权重值设置装置预先为各数据源分别设置权重值,并预先为各数据源中的预定模式分别设置权重值之后,且在股票舆情指数预测装置已经被投入到实际应用过程中,股票舆情指数预测装置仍可以定期的利用学习装置的学习过程(如每天使学习装置基于神经网络算法对所有股票标识信息的股票舆情指数以及相应股票标识信息所对应的实际股票价格进行学习)对各数据源的权重值以及各预定模式的权重值进行动态调整,以不断的提高股票舆情指数的预测准确性。上述定期调整各数据源的权重值以及各预定模式的权重值的过程的一个具体例子为:学习装置获取股票舆情指数预测装置昨天预测出的所有股票的股票舆情指数以及今天所有股票的实际股票价格,利用预定算法(神经网络算法等)对昨天预测出的所有股票的股票舆情指数以及今天所有股票的实际股票价格进行学习,以调整各数据源的权重值以及各预定模式的权重值。本实施例不限制学习装置利用预定算法(如神经网络算法)进行学习的具体实现方式。
需要注意的是,本发明可以在软件和/或者软件与硬件的组合体中被实施,例如,本发明的各个装置可采用专用集成电路(ASIC)或者任何其他类似硬件设备来实现。在一个实施例中,本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器、磁或者光驱动器或软磁盘及类似设备。另外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
对于本领域技术人员而言,显然,本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一方面来看,均应该将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明来限定,因此,旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应该将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一以及第二等词语用来表示名称,而并不表示任何特定顺序。
虽然前面特别示出并且描述了示例性实施例,但是本领域技术人员将会理解的是,在不背离权利要求书的精神和范围的情况下,在其形式和细节方面可以有所变化。这里所寻求的保护在所附权利要求书中做了阐述。