CN108038164A - 数据关联方法、设备及存储介质 - Google Patents

数据关联方法、设备及存储介质 Download PDF

Info

Publication number
CN108038164A
CN108038164A CN201711277315.0A CN201711277315A CN108038164A CN 108038164 A CN108038164 A CN 108038164A CN 201711277315 A CN201711277315 A CN 201711277315A CN 108038164 A CN108038164 A CN 108038164A
Authority
CN
China
Prior art keywords
domestic news
information
cluster
news
dimension
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711277315.0A
Other languages
English (en)
Inventor
陈盛福
李贵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Wide Intelligent Technology Co Ltd
Original Assignee
Shanghai Wide Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Wide Intelligent Technology Co Ltd filed Critical Shanghai Wide Intelligent Technology Co Ltd
Priority to CN201711277315.0A priority Critical patent/CN108038164A/zh
Publication of CN108038164A publication Critical patent/CN108038164A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/06Asset management; Financial planning or analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Finance (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Human Resources & Organizations (AREA)
  • Operations Research (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种数据关联方法、设备与存储介质,涉及金融领域,所述方法包括:获取新闻资讯,对新闻资讯按类别进行多维度聚类;获取多个对象的资讯信息,基于所述资讯信息对所述对象进行多维度聚类;按维度建立所述聚类对象与所述聚类新闻资讯的映射关系;显示结果。通过将对象与新闻资讯分别按维度建立映射关系,可自动触发相关联的信息,通过本发明数据关联方法关联的信息较为全面,避免信息的遗漏,可以提供更全面的信息给投资者作参考,以作出更为合理的决策;通过建立聚类对象之间的相关性,并依聚类对象的相关性大小排序,通过建立聚类对象之间的相关性可提前给投资者以警示,提前作出决策。

Description

数据关联方法、设备及存储介质
技术领域
本发明涉及金融领域,特别地,涉及金融数据处理领域中关于数据关联方法、设备与存储介质。
背景技术
证券市场与金融投资在现代社会中占有重要的地位。股票市场的建模和预测研究对我国的经济发展和金融建设具有重要意义,一直为人们所关注,股市行情受国家政策、经济形势、公司发展状况以及投资者心理等诸多因素的影响。
常见的股市预测方法包括证券投资分析方法、时间序列预测分析法、非线性预测法。证券投资分析法包括基本分析法和技术分析法。基本分析法主要包括宏观经济分析和产业周期分析等,技术分析法是根据股市行情变化进行分析的方法。时间序列预测分析法是根据股市行情的历史数据来预测股票价格未来的发展趋势和特点。非线性预测法包括基于统计学理论的预测方法、神经网络方法、模糊逻辑预测法等等,但是这些方法往往对于过去的拟合效果非常好,但是对于未来股票走势预测却不准,因为股票的价格受实时新闻以及公司公告影响,所以根据过去数据训练出来的模型并不能很好的适用于预测的股票走势。
随着互联网技术的迅速发展和普及,普通投资者有越来越多的渠道获得更多的互联网信息。越来越多的财经网站每天都会推送大量的有关于各个公司的财经新闻以及很多媒体或者专家对于各个公司近来状况的解读,所以投资者会受到来自各个方面新闻信息的影响,这些新闻信息会影响投资者的判断。所以新闻导向同时也会对股票数据的走向具有一定的预警作用。
社会中发生的事件、国家政策以及各方各面的信息都对金融市场的情况变化有着极为重要的影响,而这些事件的信息往往都会通过新闻对社会公众进行发布。目前投资者使用的股票投资平台,关于股票和新闻的关联是通过人工筛选的出来的。以A股票为例,该股票的行情信息中包括相关的新闻报道,该相应的新闻报道都是通过人工筛选的,极其费时,并且可能会漏掉一些重要的信息。若能有一种能自动将股票和新闻进行关联的系统,则能给投资者带来很大的便利性,更有利于投资者作出正确的决策。
发明内容
为克服以上缺陷,本发明提出一种数据关联方法、设备和存储介质,通过对对象和新闻资讯进行多维度聚类,再按维度建立对象与新闻资讯的映射关系,上述方法由计算机自动完成,避免人工筛选来带的缺点。
为此,本发明的其中一实施例提供一种数据关联方法,所述方法适于在计算设备中执行,包括以下步骤:
(1)获取新闻资讯,对新闻资讯按类别进行多维度聚类;
(2)获取多个对象的资讯信息,基于所述资讯信息对所述对象进行多维度聚类;
(3)按维度建立所述聚类新闻资讯与所述聚类对象的映射关系;
(4)显示结果。
在所述步骤(3)后,所述步骤(4)前还包括:计算所述新闻资讯与所述关联对象的情绪指数,所述情绪指数的计算方法包括:
(A1)计算新闻资讯与关联的对象之间的相似度;
(A2)根据相似度计算对象的情绪指数,所述情绪指数的计算方法如下:
情绪指数M=K*S*W
其中,K为情绪系数;S为新闻资讯与关联对象之间相似度的绝对值;W为预设更新时间周期内的最高涨幅、收盘涨幅或者平均涨幅中的任一项。
在所述计算所述新闻资讯与所述关联对象的情绪指数步骤后,还包括:按维度建立聚类对象之间的相关性,并按照所述相关性大小进行排序。
所述步骤(1)和步骤(2)中所述的多维度聚类方法包括按板块维度聚类、按区域维度聚类、按行业维度聚类、按人员维度聚类、按企业规模维度聚类。
所述步骤(1)具体包括:
(B1)抓取原始新闻资讯,去除重复的新闻资讯;
(B2)提取所述新闻资讯包含经营数据、主营业务、人员信息、地域信息的关键词,剔除预设的关键词;
(B3)合并所述关键词中的同义词或相似度符合阈值的词,生成特征词库;所述特征词库为包括板块、区域、行业、人员、规模相关的标准词汇;
(B4)根据所述特征词库对所述新闻资讯进行多维度定义并进行标注;
(B5)根据所述定义对所述新闻资讯进行多维度聚类。
所述步骤(2)具体包括:
(C1)获取对象的资讯信息,所述资讯信息来源包括第三方数据平台、企业网站;
(C2)提取所述资讯信息中包含经营数据、主营业务、人员信息、地域信息的关键词;
(C3)将所述关键词与预定义标准词库进行匹配,根据预定义标准词库对所述对象进行多维度定义并进行标注;所述预定义标准词库包括板块、区域、行业、人员、规模相关的标准词汇;
(C4)述定义对所述对象进行多维度聚类。
在所述步骤(C1)前,还包括更新预定义词库的步骤,根据所述新闻资讯生成的特征词库更新所述预定义词库。
所述步骤(4)具体包括:
显示对象关联的新闻资讯和/或所述新闻资讯对对象产生的情绪指数;和/或
显示新闻资讯关联的对象和/或所述新闻资讯对对象产生的情绪指数;和/或
显示相同维度聚类对象之间的相关性。
本发明的另一实施例提供一种数据关联装置,所述装置适于驻留在计算设备中,包括以下模块:
新闻资讯聚类模块,适于获取新闻资讯,对新闻资讯按类别进行多维度聚类;
对象聚类模块,适于获取多个对象的资讯信息,基于所述资讯信息对所述对象进行多维度聚类;
映射关系建立模块,适于按维度建立所述聚类对象与所述聚类新闻资讯的映射关系;
显示结果模块,适于显示对象关联的新闻资讯和/或所述新闻资讯对对象产生的情绪指数;和/或
显示新闻资讯关联的对象和/或所述新闻资讯对对象产生的情绪指数;和/或
显示相同维度聚类对象之间的相关性。
本发明的另一实施例还提供一种计算设备,所述计算设备包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行数据关联方法中的任一方法的指令。
本发明的另一实施例还提供一种计算机存储介质,所述存储介质存储有一个或多个程序,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行数据关联方法中的任一方法的指令。
与现有技术相比,本发明提供的一种数据关联方法、设备及存储介质具有以下优点:
1.通过将对象与新闻资讯分别进行多维度聚类,并按维度建立聚类对象与聚类新闻资讯的映射关系,通过操作界面自动显示出分析对象相关的新闻资讯列表,或显示新闻资讯相关的对象列表,无须人工对上述信息的筛选匹配,节省大量的人力资源;同时通过本发明数据关联方法关联的信息较为全面,避免信息的遗漏,可以提供更全面的信息给投资者作参考,以作出更为合理的决策;
2.新闻效应往往会生成新的特征词,通过新闻资讯生成的特征词来相应更新对象的预定义词库,实时更新对象的预定义词库;
3.聚类对象之间往往会发生联动效应,通过建立聚类对象之间的相关性,并依聚类对象的相关性大小排序,一个聚类对象发生涨跌信号,其相关的聚类对象极有可能在下一时间段发生联动效应,相应地出现涨跌现象,通过建立聚类对象之间的相关性可提前给投资者以警示,提前作出决策;
4.市场情绪具有定价功能,市场情绪的变化在短期内,比起基本面因素可能更好的解释市场价格的变化行为,建立情绪指数的能够反应出对象的价格趋势,给投资者提供判断的依据。
附图说明
图1示出了本发明实施例一数据关联方法的流程图。
图2示出了本发明实施例二数据关联方法的流程图。
图3示出了本发明实施例三数据关联方法的流程图。
图4示出了本发明实施例四数据关联置的框架图。
具体实施方式
本发明的目的之一是提供一种适于在计算设备中执行的数据关联方法,通过将对象资讯信息中的关键词与预定义词库进行匹配,对对象进行多维度定义并进行聚类;同时提取新闻资讯中的关键词并进行同义词或近义词合并生成特征词库,按所述特征词库对新闻资讯进行多维度定义并聚类,再将多维度的聚类对象与多维度的聚类新闻之间建立映射关系,通过操作界面自动显示出分析对象相关的新闻资讯列表,或显示新闻资讯相关的对象列表,通过本发明方法关联的信息较为全面,避免信息的遗漏;
本发明的另一目的是提供一种适于在计算设备中执行的数据关联方法,通过建立聚类对象之间的相关性,并依聚类对象的相关性大小排序,由于聚类对象之间往往会发生联动效应,一个聚类对象发生涨跌信号,其相关的聚类对象极有可能在下一时间段发生联动效应并相应地出现涨跌现象,通过建立聚类对象之间的相关性可提前给投资者以警示,提前作出决策。
本发明数据关联方法适用于股票、基金、期货、债券及相关的金融衍生品,本发明将以股票为例进行具体阐述。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
本实施例提供一种数据关联方法,该方法适于在所述计算设备中执行。参考图1,示出了本实施例数据关联方法流程图,包括以下步骤:
步骤101,获取新闻资讯,对新闻资讯按类别进行多维度聚类。
其中,所述步骤101具体可采用以下步骤来实现,参考图2,示出了新闻资讯聚类方法的流程图,具体包括:
步骤B1,抓取原始新闻资讯,去除重复的新闻资讯。
利用网络爬虫技术爬取原始新闻资讯,该新闻资讯包括财经新闻以及博客、论坛中的财经信息,其新闻资讯来源端可以是新浪财经新闻、网易财经新闻、以及财经相关的博客、论坛,去除重复的新闻资讯。
步骤B2,提取新闻资讯中包含经营数据、主营业务、人员信息、地域信息的关键词,剔除预设的关键词。
提取新闻资讯中包含企业经营数据、主营业务、人员信息、地域信息的关键词,剔除预设的关键词。该预设的词为与上述信息无关的词,比如“行业”、“板块”、“概念”等等,可选择预设一个待剔除的关键词库。
步骤B3,合并关键词中的同义词或相似度符合阈值的词,生成特征词库。
将步骤B2中生成的关键词进行同义词或近义词合并,或通过计算关键词之间的相似度,选择相似度符合阈值的关键词进行合并,生成特征词库。该特征词库为包括板块、区域、行业、人员、规模相关的标准词汇。
步骤B4,根据特征词库对新闻资讯进行多维度定义并进行标注。
根据上述生成的特征词库,对所述新闻资讯进行多维度定义,可分别按照新闻相关的板块、所属区域、行业、高管姓名、规模大小对新闻资讯进行定义并作标注,以备按所述标注信息进行聚类。
步骤B5,根据定义对所述新闻资讯进行多维度聚类。
依上述的标注信息对新闻资讯进行多维度聚类,本实施例中,所述的多维度聚类,包括将新闻资讯分别按板块维度聚类、按区域维度聚类、按行业维度聚类、按人员维度聚类、按企业规模维度聚类。
具体地,再以对新闻资讯进行板块维度聚类作说明。利用网络爬虫技术爬取原始新闻资讯,过滤重复的资讯,并提取上述新闻资讯中关于行业、概念等板块相关的关键词,剔除预设的词,并合并上述关键词中的同义词或相似度符合阈值的词,生成板块特征词库。比如,生成的板块特征词包括证券、银行、环保工程、房地产开发、石油、化工等等,并不限于此。根据上述的板块特征词库相应对新闻资讯进行定义并标注所述定义的信息,以标注的板块特征词对上述新闻进行聚类,则新闻资讯可包括证券相关新闻、银行相关新闻、环保工程相关新闻、房地产开发相关新闻、石油相关新闻、化工相关新闻,并不限于此。
本实施例中,板块特征词依据新闻中抓取的信息中提取,抓取的频率和时间跨度由用户定义,可以1天抓取1次、2次,或2天抓取1次,或3天抓取1次,或5天抓取1次;新闻的时间跨度可以为1天,2天、3天、5天、10天,并不限于此。考虑到新闻的时效性,可选择1天抓取1次。另外,新闻的时间跨度也会影响到特征词库中的词汇量,若时间跨度太小,比如1天,可能提取的关键词数据有限,不利于后续与对象建立映射关系,若时间跨度太长,提取的关键词较多,有部分可能已不适用,故优选3-10天为宜。
步骤102,获取多个对象的资讯信息,基于资讯信息对对象进行多维度聚类。
其中,所述步骤102具体可采用以下步骤来实现,参考图3,示出了对象聚类方法的流程图,具体包括:
步骤C1,获取对象的资讯信息,所述的对象包括股票、基金、期货、债券及相关的金融衍生品。
本实施例中,对象包括股票、基金、期货、债券及相关的金融衍生品,多个对象即相应金融产品中的所有对象,若以股票为对象,则多个对象即为上市的所有股票。资讯信息来源包括第三方数据平台、企业官方网站,该第三方数据平台包括同花顺、大智慧以及其它的券商平台。
步骤C2,提取资讯信息中包含经营数据、主营业务、人员信息、地域信息的关键词。
提取多个对象资讯信息中包含经营数据、主营业务、人员信息、地域信息的关键词,剔除预设的关键词。该预设的词为与上述信息无关的词,比如“行业”、“板块”、“概念”等等,可选择预设一个待剔除的关键词库。
步骤C3,将所述关键词与预定义标准词库进行匹配,根据预定义标准词库对所述对象进行多维度定义并进行标注。
本实施例中,预先给对象设置标准词库,该标准词库包括板块、所属区域、所属行业、企业高管、企业规模相关的标准词汇。将自对象资讯信息中提取的关键词与标准词库进行匹配,匹配方式包括相似度计算,对象的关键词与所述标准词库的词汇相似度符合阈值的按预定义标准词库对对象进行定义并作标注。
步骤C4,根据定义对对象进行多维度聚类。
依上述的标注信息对多个对象进行多维度聚类,本实施例中,所述的多维度聚类,包括将多个对象分别按板块维度聚类、按区域维度聚类、按行业维度聚类、按高管姓名维度聚类、按企业规模维度聚类。
具体地,再以对对象进行板块维度聚类作说明。自第三方数据平台如同花顺、大智慧以及其它的券商平台和企业官方网站提取所有股票的资讯信息,从资讯信息中提取板块相关的关键词,将板块相关的关键词与预设的板块标准词库进行匹配,所述匹配方式包括将两者进行相似度运算,相似度符合阈值的按预设板块标准词对对象进行相应定义并标注。比如,以预设的标准词库对上述对象进行聚类,则对象可包括证券板块、银行板块、环保工程板块、房地产开发板块、石油板块、化工板块,并不限于此。
步骤103,按维度建立所述聚类新闻资讯与所述聚类对象的映射关系。
按各个维度建立聚类对象和聚类新闻资讯之间的映射关系,具体地,将相同板块的聚类对象与聚类新闻建立映射关系,相同区域的聚类对象与聚类新闻建立映射关系、相同高管的聚类对象与相应新闻建立映射关系等等,以建立多维度的映射关系,用户操作时即触发联动并显示关联信息。具体地,用户在界面点开石油板块的股票,则自动触发界面显示出石油板块相关的新闻的列表供用户参考,同理,用户在界面点开石油板块相关的新闻资讯,则自动触发界面显示出石油板块相关的股票列表供用户参考。可选地,上述新闻资讯可按时间先后顺序排列,上述对象可按当日涨跌幅或首字母先后顺序排序。
本发明通过将聚类对象与聚类新闻之间建立多维度的映射关系,关联的信息较为全面,避免信息的遗漏。
优选地,在本实施例的步骤(C1)前,还包括更新预定义标准词库的步骤,根据新闻资讯最新生成的特征词库更新所述预定义词库。由于股票预设的标准特征词库存在滞后性,而新闻特征词库具有即时性,建立映射关系时存在两者不匹配的问题,故预定义词库参照新闻资讯最新生成的特征词库进行更新,以便实时更新股票的预定义标准词库,更好地建立映射关系。
步骤104,显示结果。
通过查询对象获得对象关联的新闻资讯列表以及对象的行情走势;也可以通过查询新闻资讯获得关联的对象列表及相应对象行情走势。
实施例二
本发明实施例二视为对实施例一所述数据关联方法的进一步改进流程,参考图2,示出了本发明实施例二数据关联方法的流程图,步骤201至步骤203与实施例一中的步骤101到步骤103相同,在此不再赘述。与实施例一的不同之处在于,本实施例还包括:
步骤204,计算所述新闻资讯与所述关联对象的情绪指数,所述情绪指数的计算方法包括:
(A1)根据映射关系计算各条新闻资讯与每个关联的对象之间的相似度;
(A2)根据相似度计算对象的情绪指数,该情绪指数的计算方法如下:
情绪指数M=K*S*W,
其中,K为情绪系数,根据用户预设,本实施例中预设为1;S为新闻资讯与关联对象之间相似度的绝对值,本实施例中S取值范围[0,1];W为预设更新时间周期内的最高涨幅、收盘涨幅或者平均涨幅中的任一项。
具体地,比如预设更新时间周期为5分钟,自某条资讯发布开始计时,若超过预设更新时间周期5分钟未有资讯更新,则不再纳入生成情绪指数。该资讯与相关联的其中一支股票的相似度为0.5,对象在5分钟内的收盘涨幅为3%,则该条资讯对该股票的情绪指数为1*0.5*3%=1.5%。上述情绪指数也可以通过四则运算变为为其他值,比如统一加一个值,或者统一乘以或者除以一个系数得到情绪指数。另外一种情况,如果在预设更新时间周期内某聚类对象持续发布相关联的新闻资讯,则每一对象根据相邻两条资讯发布的时间点自动生成多个情绪区间,并相应生成多个情绪指数,最后一个情绪指数的区间为最后一条资讯发布时间点到往后延续一个预设更新时间周期,比如:预设更新时间周期为5分钟,第0分钟发布与股票T相关的资讯X1,第1分钟发布与股票T相关的X2资讯,第4分钟发布与股票T相关的X3资讯,第相关的资讯X4在10分钟之后发布,则0-1分钟为第1情绪区间生成情绪指数M1,1-4分钟为第2情绪区间生成情绪指数M2,4-9(4+预设更新时间周期)分钟为第3情绪区间生成情绪指数M3,自第4分钟开始,在预设更新时间周期内即第9分钟后发布的资讯不再生成情绪指数。假设资讯X1与股票M的相似度为0.3,第1情绪区间股票M的最高涨幅W1为0.5%;假设资讯X2与股票M的相似度为0.5,第2情绪区间股票M的最高涨幅为W2为2%;假设资讯X3与股票M的相似度为0.8,第3情绪区间股票M的最高涨幅W3为3%;则三个区间生成的情绪指数分别为:
M1(0-1分钟)=0.5%x0.3=0.15%
M2(1-4分钟)=2%x0.5=1%
M3(4-9分钟)=-3%x0.8=-2.4%
该多个情绪指数可并列显示。建立情绪指数能够反应出对象的价格趋势,给投资者提供判断的依据。
步骤205,显示结果。
显示结果具体包括:
通过查询对象,获得对象关联的新闻资讯列表、各条新闻资讯对关联对象产生的情绪指数以及对象的行情走势。
也可以通过查询新闻资讯获得关联的对象列表、对各关联对象产生的情绪指数以及对象的行情走势。
通过选择聚类对象,显示相同维度与该聚类对象相关联的聚类对象列表,并依相关度大小排序。
实施例三
本发明实施例三视为对实施例二所述数据关联方法的另一个改进流程,参考图3,示出了本发明实施例三数据关联方法的流程图,步骤301至步骤304与实施例一中的步骤101到步骤104相同,在此不再赘述。与实施例二的不同之处在于,本实施例还包括:
步骤305,按维度建立聚类对象之间的相关性,并按照所述相关性大小排序。
本实施例中,包括分别按板块维度、按区域维度、按行业维度、按人员维度、按企业规模维度建立聚类对象之间的相关性。相关性可通过聚类对象之间相似度大小确定相关性大小,具体地,计算聚类对象定义的标准词之间的相似度,依相似度大小进行排序,具体地,当用户在界面点开某个维度的聚类对象时,则自动触发界面显示出与该维度的聚类对象相关的一系列聚类对象列表,并依相关性大小排序。
步骤306,显示结果。
通过查询对象,获得对象关联的新闻资讯列表、各条新闻资讯对关联对象产生的情绪指数以及对象的行情走势。
也可以通过查询新闻资讯获得关联的对象列表、对各关联对象产生的情绪指数以及对象的行情走势。
通过点击某一维度的聚类对象,触动显示该维度其它聚类对象之间的相关性。
当某个维度聚类的股票发生较大波动时,其相关性较大的股票极有可能在下一个时间段发生波动,即存在联动效应。建立聚类对象之间的相关性,目的在于提前给投资者以警示并提前作出决策。以板块维度为例,当煤炭板块股票普遍暴跌现象,与其相关性较大的钢铁板块极有可能会跟随下跌,投资者通过建立对象之间的相关性便可早一步作出决策。
实施例四
本实施例提供一种数据关联装置,适于驻留在计算设备中。参考图4,示出了本发明数据关联装置的框架图,包括以下模块:
新闻资讯聚类模块401,适于获取新闻资讯,对新闻资讯按类别进行多维度聚类。
利用网络爬虫技术爬取新闻资讯,该新闻资讯包括财经新闻、博客、论坛中的财经信息,比如其新闻资讯来源端可以是新浪财经新闻、网易财经新闻、以及财经相关的博客、论坛。
本实施例中,将新闻资讯进行多维度聚类,包括将新闻资讯分别按板块维度聚类、按区域维度聚类、按行业维度聚类、按人员维度聚类、按企业规模维度聚类。
对象聚类模块402,适于获取多个对象的资讯信息,基于资讯信息对对象进行多维度聚类。
本实施例中,对象包括股票、基金、期货、债券及相关的金融衍生品。资讯信息来源包括第三方数据平台、企业官方网站,该第三方数据平台包括同花顺、大智慧以及其它的券商平台。
本实施例中,将多个对象进行多维度聚类,包括将对象分别按板块维度聚类、按区域维度聚类、按行业维度聚类、按人员维度聚类、按企业规模维度聚类。
映射关系建立模块403,适于按维度建立所述聚类对象与所述聚类新闻资讯的映射关系。
显示结果模块404,适于显示对象关联的新闻资讯和/或所述新闻资讯对对象产生的情绪指数;和/或
显示新闻资讯关联的对象和/或所述新闻资讯对对象产生的情绪指数;和/或
显示相同维度聚类对象之间的相关性。
按各个维度建立聚类对象和聚类新闻资讯之间的映射关系,操作界面自动显示出分析对象相关的新闻资讯列表,或自动显示新闻资讯相关的对象列表,通过本发明方法关联的信息较为全面,避免信息的遗漏。
实施例五
本发明还提供一种计算设备,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行下列方法中的任一方法:
(1)获取新闻资讯,对新闻资讯按类别进行多维度聚类;
(2)获取多个对象的资讯信息,基于所述资讯信息对所述对象进行多维度聚类;
(3)按维度建立所述聚类新闻资讯与所述聚类对象的映射关系;
(4)显示结果。
实施例六
本发明还提供一种计算机存储介质,所述存储介质存储有一个或多个程序,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行下列方法中的任一方法:
(1)获取新闻资讯,对新闻资讯按类别进行多维度聚类;
(2)获取多个对象的资讯信息,基于所述资讯信息对所述对象进行多维度聚类;
(3)按维度建立所述聚类新闻资讯与所述聚类对象的映射关系;
(4)显示结果。
上述实施例所述的方法和装置,具体可由计算机芯片或实体实现,或由具有某种功能的产品来实现,其中,一种典型的设备为计算机。具体地,计算机可以为个人计算机、服务器、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制平台、平板计算机、可穿戴设备或这些设备中的任何设备的组合。
本领域技术人员应明白,本发明的实施例可提供方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或者结合软件和硬件方面的实施例的形式。而且,本发明可采用一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD、ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本发明的实施例,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (10)

1.一种数据关联方法,适于在计算设备中执行,其特征在于,包括以下步骤:
(1)获取新闻资讯,对新闻资讯按类别进行多维度聚类;
(2)获取多个对象的资讯信息,基于所述资讯信息对所述对象进行多维度聚类;
(3)按维度建立所述聚类新闻资讯与所述聚类对象的映射关系;
(4)显示结果。
2.如权利要求1所述的数据关联方法,其特征在于,在所述步骤(3)后,所述步骤(4)前还包括:计算所述新闻资讯与所述关联对象的情绪指数步骤,所述情绪指数的计算方法包括:
(A1)计算新闻资讯与关联的对象之间的相似度;
(A2)根据相似度计算对象的情绪指数,所述情绪指数的计算方法如下:
情绪指数M=K*S*W
其中,K为情绪系数;S为新闻资讯与关联对象之间相似度的绝对值;W为预设更新时间周期内的最高涨幅、收盘涨幅或者平均涨幅中的任一项。
3.如权利要求2所述的数据关联方法,其特征在于,在所述计算所述新闻资讯与所述关联对象的情绪指数步骤后,还包括:按维度建立聚类对象之间的相关性,并按照所述相关性大小进行排序。
4.如权利要求1所述的数据关联方法,其特征在于,所述步骤(1)和步骤(2)中所述的多维度聚类方法包括按板块维度聚类、按区域维度聚类、按行业维度聚类、按人员维度聚类、按企业规模维度聚类。
5.如权利要求1所述的数据关联方法,其特征在于,所述步骤(1)具体包括:
(B1)抓取原始新闻资讯,去除重复的新闻资讯;
(B2)提取所述新闻资讯包含经营数据、主营业务、人员信息、地域信息的关键词,剔除预设的关键词;
(B3)合并所述关键词中的同义词或相似度符合阈值的词,生成特征词库;所述特征词库为包括板块、区域、行业、人员、规模相关的标准词汇;
(B4)根据所述特征词库对所述新闻资讯进行多维度定义并进行标注;
(B5)根据所述定义对所述新闻资讯进行多维度聚类。
6.如权利要求1所述的数据关联方法,其特征在于,所述步骤(2)具体包括:
(C1)获取对象的资讯信息,所述资讯信息来源包括第三方数据平台、企业网站;
(C2)提取所述资讯信息中包含经营数据、主营业务、人员信息、地域信息的关键词;
(C3)将所述关键词与预定义标准词库进行匹配,根据预定义标准词库对所述对象进行多维度定义并进行标注;所述预定义标准词库包括板块、区域、行业、人员、规模相关的标准词汇;
(C4)述定义对所述对象进行多维度聚类。
7.如权利要求6所述的数据关联方法,其特征在于,在所述步骤(C1)前,还包括更新预定义词库的步骤,根据所述新闻资讯生成的特征词库更新所述预定义词库。
8.如权利要求1所述的数据联动方法,其特征在于,所述步骤(4)具体包括:
显示对象关联的新闻资讯和/或所述新闻资讯对对象产生的情绪指数;和/或
显示新闻资讯关联的对象和/或所述新闻资讯对对象产生的情绪指数;和/或
显示相同维度聚类对象之间的相关性。
9.一种计算设备,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行根据权利要求1-8述方法中的任一方法。
10.一种计算机存储介质,所述存储介质存储有一个或多个程序,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行根据权利要求1-8述方法中的任一方法。
CN201711277315.0A 2017-12-06 2017-12-06 数据关联方法、设备及存储介质 Pending CN108038164A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711277315.0A CN108038164A (zh) 2017-12-06 2017-12-06 数据关联方法、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711277315.0A CN108038164A (zh) 2017-12-06 2017-12-06 数据关联方法、设备及存储介质

Publications (1)

Publication Number Publication Date
CN108038164A true CN108038164A (zh) 2018-05-15

Family

ID=62095527

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711277315.0A Pending CN108038164A (zh) 2017-12-06 2017-12-06 数据关联方法、设备及存储介质

Country Status (1)

Country Link
CN (1) CN108038164A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110209930A (zh) * 2019-04-30 2019-09-06 平安科技(深圳)有限公司 基于知识图谱的投资对象分析方法及装置
CN110889024A (zh) * 2019-10-25 2020-03-17 武汉灯塔之光科技有限公司 一种用于计算资讯关联股票的方法和装置
CN111857935A (zh) * 2020-07-29 2020-10-30 北京字节跳动网络技术有限公司 文字生成方法和装置
CN112116480A (zh) * 2019-06-20 2020-12-22 财付通支付科技有限公司 虚拟资源确定方法、装置、计算机设备及存储介质
CN112417327A (zh) * 2020-11-24 2021-02-26 深圳平安综合金融服务有限公司 一种数据处理方法、装置、设备及介质
CN114021788A (zh) * 2021-10-25 2022-02-08 深圳市维度数据科技股份有限公司 预测方法、装置、电子设备和存储介质
TWI811580B (zh) * 2020-11-04 2023-08-11 合作金庫商業銀行股份有限公司 金融訊息提供系統及提供金融訊息的方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110209930A (zh) * 2019-04-30 2019-09-06 平安科技(深圳)有限公司 基于知识图谱的投资对象分析方法及装置
CN112116480A (zh) * 2019-06-20 2020-12-22 财付通支付科技有限公司 虚拟资源确定方法、装置、计算机设备及存储介质
CN110889024A (zh) * 2019-10-25 2020-03-17 武汉灯塔之光科技有限公司 一种用于计算资讯关联股票的方法和装置
CN111857935A (zh) * 2020-07-29 2020-10-30 北京字节跳动网络技术有限公司 文字生成方法和装置
CN111857935B (zh) * 2020-07-29 2023-12-22 抖音视界有限公司 文字生成方法和装置
TWI811580B (zh) * 2020-11-04 2023-08-11 合作金庫商業銀行股份有限公司 金融訊息提供系統及提供金融訊息的方法
CN112417327A (zh) * 2020-11-24 2021-02-26 深圳平安综合金融服务有限公司 一种数据处理方法、装置、设备及介质
CN112417327B (zh) * 2020-11-24 2024-04-09 深圳平安综合金融服务有限公司 一种数据处理方法、装置、设备及介质
CN114021788A (zh) * 2021-10-25 2022-02-08 深圳市维度数据科技股份有限公司 预测方法、装置、电子设备和存储介质
CN114021788B (zh) * 2021-10-25 2022-07-26 深圳市维度数据科技股份有限公司 预测方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN108038164A (zh) 数据关联方法、设备及存储介质
Chu et al. A global supply chain risk management framework: An application of text-mining to identify region-specific supply chain risks
Guo et al. Can investor sentiment be used to predict the stock price? Dynamic analysis based on China stock market
Shin et al. A case-based approach using inductive indexing for corporate bond rating
Moudud-Ul-Huq The Role of Artificial Intelligence in the Development of Accounting Systems: A Review.
Zhao et al. Distributed feature selection for efficient economic big data analysis
Breitzman et al. The Emerging Clusters Model: A tool for identifying emerging technologies across multiple patent systems
Dymowa Soft computing in economics and finance
Lin et al. Mapping the oil price-stock market nexus researches: A scientometric review
Jin et al. Forex-foreteller: Currency trend modeling using news articles
Li et al. Improving stock market prediction by integrating both market news and stock prices
CN106649223A (zh) 基于自然语言处理的金融报告自动生成方法
Steblianskaia et al. Environmental-social-governance concept bibliometric analysis and systematic literature review: Do investors becoming more environmentally conscious?
CN108228687A (zh) 大数据知识挖掘及精准跟踪方法与系统
Zhang et al. Car sales analysis based on the application of big data
Li et al. Theory and application of artificial intelligence in financial industry
KR20210033294A (ko) 자동보고서생성장치 및 그 동작 방법
Wang et al. Review of graph construction and graph learning in stock price prediction
Zhang et al. Research on knowledge discovery and stock forecasting of financial news based on domain ontology
Wu et al. Creating a large-scale financial news corpus for relation extraction
Sun et al. An active and dynamic credit reporting system for SMEs in China
Manogna et al. A bibliometric analysis on the application of deep learning in finance: status, development and future directions
Zhou et al. Knowledge mapping of credit risk research: scientometrics analysis using CiteSpace
Tao et al. Establishment of cross-border e-commerce credit evaluation system based on big data
Yu et al. Using news to predict Chinese medicinal material price index movements

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180515

WD01 Invention patent application deemed withdrawn after publication