CN107527289A - 一种投资组合行业配置方法、装置、服务器和存储介质 - Google Patents

一种投资组合行业配置方法、装置、服务器和存储介质 Download PDF

Info

Publication number
CN107527289A
CN107527289A CN201710741554.0A CN201710741554A CN107527289A CN 107527289 A CN107527289 A CN 107527289A CN 201710741554 A CN201710741554 A CN 201710741554A CN 107527289 A CN107527289 A CN 107527289A
Authority
CN
China
Prior art keywords
search term
stock
industry
focus search
finance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710741554.0A
Other languages
English (en)
Other versions
CN107527289B (zh
Inventor
郝竞超
赵鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing duxiaoman Youyang Technology Co.,Ltd.
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201710741554.0A priority Critical patent/CN107527289B/zh
Publication of CN107527289A publication Critical patent/CN107527289A/zh
Application granted granted Critical
Publication of CN107527289B publication Critical patent/CN107527289B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/06Asset management; Financial planning or analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Finance (AREA)
  • Databases & Information Systems (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Human Resources & Organizations (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种投资组合行业配置方法、装置、服务器和存储介质,其中投资组合行业配置方法包括:爬取互联网上的财经文本数据,从搜索引擎的日志数据中获取与股票市场概念相关的热点搜索词及其搜索量,从财经文本数据中抽取出与热点搜索词相关的至少一个股票名称,并计算出热点搜索词与相关的各股之间的关联度强弱值,根据热点搜索词的搜索量和关联度强弱值,计算至少一个股票名称所属各行业的决策参数,以根据该决策参数进行行业配置。本发明实施例通过应用大数据挖掘和自然语言处理等技术,对互联网和搜索引擎中的文本数据进行分析处理,从而实现合理的行业配置,不仅扩充了数据维度,而且使决策过程量化、更加科学高效。

Description

一种投资组合行业配置方法、装置、服务器和存储介质
技术领域
本发明实施例涉及数据分析技术,尤其涉及一种投资组合行业配置方法、装置、服务器和存储介质。
背景技术
股票因所对应的上市公司的主要经营业务不同而归属于不同的行业类别,不同行业的股票在市场运行中通常具有完全不同的运行趋势,同一行业内的股票通常有类似的运行趋势。在股票投资中存在的核心问题是构建投资组合、选择股票并对所选择的股票按照合理的权重进行配比,在股票投资组合构建的过程中可以针对归属不同行业的股票进行配比。
现有构建股票投资组合的研究方法都是从传统的市场交易数据和金融数据中进行分析,或是由投资经理主观进行分析判断,这些方法无法对数据和思考过程进行准确量化,也就不能对不同行业的股票进行科学合理的配比,因而无法在使用股指期货对冲时规避更大的系统性风险和获取稳健的超额收益。
发明内容
本发明实施例提供一种投资组合行业配置方法、装置、服务器和存储介质,扩充了数据维度,并且决策过程能够量化,使得投资组合行业配置更加科学有效。
第一方面,本发明实施例提供了一种投资组合行业配置方法,该方法包括:
爬取互联网上的财经文本数据;
从搜索引擎的日志数据中获取与股票市场概念相关的热点搜索词及其搜索量;
从所述财经文本数据中抽取出与所述热点搜索词相关的至少一个股票名称,并计算出所述热点搜索词与相关的各股之间的关联度强弱值;
根据所述热点搜索词的搜索量和关联度强弱值,计算所述至少一个股票名称所属各行业的决策参数,以根据该决策参数进行行业配置。
第二方面,本发明实施例还提供了一种投资组合行业配置装置,该装置包括:
财经文本数据爬取模块,用于爬取互联网上的财经文本数据;
热点搜索词及搜索量获取模块,用于从搜索引擎的日志数据中获取与股票市场概念相关的热点搜索词及其搜索量;
关联度强弱值计算模块,用于从所述财经文本数据中抽取出与所述热点搜索词相关的至少一个股票名称,并计算出所述热点搜索词与相关的各股之间的关联度强弱值;
行业配置模块,用于根据所述热点搜索词的搜索量和关联度强弱值,计算所述至少一个股票名称所属各行业的决策参数,以根据该决策参数进行行业配置。
第三方面,本发明实施例还提供了一种服务器,该服务器包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上所述的投资组合行业配置方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的投资组合行业配置方法。
本发明实施例通过应用大数据挖掘和自然语言处理等技术,对互联网中的财经文本数据和搜索引擎中与股票市场概念相关的热点搜索词进行分析处理,实现对市场中投资者对不同行业股票的情绪度量,从而进行行业配置。不仅扩充了数据维度,而且使决策过程能够量化,使得投资组合行业配置更加科学高效。
附图说明
图1是本发明实施例一中的投资组合行业配置方法的流程图;
图2是本发明实施例二中的投资组合行业配置方法的流程图;
图3是本发明实施例三中的投资组合行业配置方法的流程图;
图4是本发明实施例四中的投资组合行业配置方法的流程图;
图5是本发明实施例五中的投资组合行业配置装置的结构示意图;
图6是本发明实施例六中的服务器的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的投资组合行业配置方法的流程图,本实施例可适用于股票投资中需要进行投资组合行业配置的情况,该方法可以由投资组合行业配置装置来执行,该装置可以采用软件/硬件的方式实现。如图1所示,该方法具体包括:
S110、爬取互联网上的财经文本数据。
本实施例中,可以采用网络爬虫技术,实时的在互联网中爬取财经文本数据,其中,爬取财经文本数据的目标网站可以是互联网中的各个财经网站,优选可以是整体访问量排名在前20的主流财经网站。实施时,可以每隔一个预设时间段,执行一次对互联网中各财经网站的各类财经文本数据的自动爬取,并将爬取到的财经文本数据存储到本地的服务器资源中,以备后续数据处理时使用。上述爬取到的财经文本数据可以包括财经文本的标题和正文;上述设定爬取数据的预设时间段,既可以获取实时可靠的财经文本数据,确保可以跟踪到市场的实时变化,又可以降低系统的运行功耗。
示例性的,可以利用百度整体的技术服务资源,每间隔30分钟对访问量排名在前20的主流财经网站中的各类财经文本数据进行自动爬取,并将爬取到的各财经文本的标题和正文数据存储到本地的服务器资源中。
S120、从搜索引擎的日志数据中获取与股票市场概念相关的热点搜索词及其搜索量。
互联网用户每天都会向搜索引擎提交海量的搜索需求,这些搜索需求涉及金融、游戏、旅游等众多领域,为了获取目标领域的相关信息,可以借助搜索引擎中的日志数据进行分析。
本实施例中,可以利用自然语言处理技术从搜索引擎的众多日志数据中,获取与股票市场概念相关的搜索数据,其中搜索数据可以包括与股票市场概念相关的热点搜索词和与热点搜索词相对应的搜索量,其中,搜索量可以理解为投资者对于股票市场相应概念热点的关注度。
本实施例中,通过对与股票市场概念相关的搜索数据的挖掘,可以捕捉到目前股票市场最热的概念热点及其相应的搜索量,还可以精准敏感的捕捉到市场炒作热点的变换。
S130、从财经文本数据中抽取出与热点搜索词相关的至少一个股票名称,并计算出热点搜索词与相关的各股之间的关联度强弱值。
本实施例中,可以利用自然语言处理技术,从预先爬取到并保存的每一篇财经文本的标题与正文数据中,抽取出与上述获取到的热点搜索词相关的各个股票名称,并利用预设算法计算出热点搜索词和与其相关的各个股票之间的关联度强弱值,以给出不同的股票与相对应的热点搜索词之间的关联度强弱值的度量。
S140、根据热点搜索词的搜索量和关联度强弱值,计算至少一个股票名称所属各行业的决策参数,以根据该决策参数进行行业配置。
本实施例中,可以利用行业配置模型计算各行业的决策参数,其中,每个行业都包含数十只股票作为其成份股,股票和行业之间的对应关系可以从行业分类体系中得到。可以利用上述获得的热点搜索词的搜索量和不同的股票与相对应的热点搜索词之间的关联度强弱值作为行业配置模型的输入值,按照行业配置模型的预设规则计算各行业的决策参数,以根据该决策参数进行行业配置。
本实施例提供的投资组合行业配置方法,通过应用大数据挖掘和自然语言处理等技术,对互联网中的财经文本数据和搜索引擎中与股票市场概念相关的热点搜索词进行分析处理,实现对市场中投资者对不同行业股票的情绪度量,从而进行行业配置。不仅扩充了数据维度,而且使决策过程能够量化,使得投资组合行业配置更加科学高效。
实施例二
本实施例在实施例一的基础上,对从搜索引擎的日志数据中获取与股票市场概念相关的热点搜索词及其搜索量,做出进一步优化。图2是本发明实施例二提供的投资组合行业配置方法的流程图,如图2所示,该方法具体包括:
S210、爬取互联网上的财经文本数据。
S220、对日志数据中的搜索条目进行自然语言处理,抽取出与股票市场概念相关的至少一个关键词。
本实施例中,可以利用自然语言处理技术对搜引擎中日志数据中的各搜索条目进行分析处理,以得到与股票市场相关的至少一个关键词。
具体的,与股票、投资等相关的关键词或描述方式可以通过对历史数据统计获得,根据历史数据中获取的与股票、投资等相关的关键词或描述方式还可以获取到与之相关的词根特征,并依此建立词根库。利用词根库以及相应的词根特征,即可从日志数据的搜索条目中抽取出与股票市场概念相关的各个关键词,其中,抽取出的关键词既可以是词根库中的词汇,也可以是根据词根库衍生的、符合相应的词根特征的关键词。示例性的,关键词可以是“深港通”、“股权转让”、“铁矿石”以及“健康中国”等。
S230、统计全部搜索条目中各关键词的搜索量。
本实施例中,在各搜索条目中抽取出各关键词后,需要对各关键词的搜索量进行分类统计,即从全部搜索条目中获取与股票市场概念相关的各关键词以及各关键词的搜索量,以体现投资者对于相应关键词的关注度。示例性的,关键词为“深港通”,其搜索量是“1256”、关键词为“股权转让”,其搜索量是“1099”、关键词为“铁矿石”,其搜索量是“1002”以及关键词为“健康中国”,其搜索量是“339”等。
S240、将根据搜索量排名在前预设个数的关键词作为热点搜索词。
本实施例中,可以根据各关键词的搜索量排名,从各关键词中选取前预设个数的关键词作为热点搜索词。
以上述“深港通”、“股权转让”、“铁矿石”以及“健康中国”四个关键词为例,其对应的搜索量分别是“1256”、“1099”、“1002”和“339”,设定预设个数为3,则从上述四个关键词中选取的前三个热点搜索词分别为“深港通”、“股权转让”和“铁矿石”。
S250、从财经文本数据中抽取出与热点搜索词相关的至少一个股票名称,并计算出热点搜索词与相关的各股之间的关联度强弱值。
S260、根据热点搜索词的搜索量和关联度强弱值,计算至少一个股票名称所属各行业的决策参数,以根据该决策参数进行行业配置。
本实施例提供的投资组合行业配置方法,通过应用大数据挖掘和自然语言处理等技术,从搜索引擎的日志数据中抽取出与股票市场概念相关的热点搜索词及其搜索量,并利用互联网中的财经文本数据计算出热点搜索词与相关的各个股票之间的关联度强弱值,实现对市场中投资者对不同行业股票的情绪度量,从而进行行业配置。不仅扩充了数据维度,而且使决策过程能够量化,使得投资组合行业配置更加科学高效。
进一步的,在S220对日志数据中的搜索条目进行自然语言处理,抽取出与股票市场概念相关的关键词之前,还可以包括:
根据日志数据中用户的点击行为数据对搜索条目进行过滤,其中,点击行为数据包括在根据用户的搜索条目展示的搜索结果中,已点击的搜索结果为其标题与股票市场概念无关,或者其URL与预设的与股票市场概念有关的URL 库不匹配。
在互联网的海量搜索行为中,存在很多无效的搜索行为,例如网络爬虫、恶意攻击以及虚假搜索等,这些搜索行为严重影响了数据的质量,因此,在对搜索引擎中的日志数据中的搜索条目进行自然语言处理之前,需要对无效搜索行为进行过滤。
本实施例中,可以根据日志数据中用户的点击行为数据对搜索条目进行过滤。具体的,用户的点击行为数据可以包括在展示的搜索结果中,已点击的搜索结果的标题与股票市场概念无关,或者已点击的搜索结果的URL与预设的与股票市场概念有关的URL库不匹配,利用上述点击行为数据即可将日志数据中的无效搜索条目滤除掉。
实施例三
本实施例在上述各实施例的基础上,对从财经文本数据中抽取出与热点搜索词相关的至少一个股票名称,并计算出热点搜索词与相关的各股之间的关联度强弱值,做出进一步优化。图3是本发明实施例三提供的投资组合行业配置方法的流程图,如图3所示,该方法具体包括:
S310、爬取互联网上的财经文本数据。
S320、从搜索引擎的日志数据中获取与股票市场概念相关的热点搜索词及其搜索量。
S330、对财经文本数据进行分词,得到多个分词短语。
本实施例中,可以利用自然语言处理技术,对预先爬取到并保存的每一篇财经文本的标题与正文数据,进行分词处理,得到多个分词短语。
S340、在多个分词短语中匹配每一个热点搜索词,若匹配上,则从匹配的分词短语在对应财经文本数据的上下文中提取股票名称,得到与每一个热点搜索词相关的至少一个股票名称;
本实施例中,将从财经文本数据中得到的多个分词短语,与从搜索引擎的日志数据中获取到的每一个热点搜索词进行匹配,如果热点搜索词与分词短语能够匹配上,则可以从匹配的分词短语对应的财经文本数据的上下文中提取出相应的股票名称,以得到与每个热点搜索词相对应的各个股票名称。
示例性的,热点搜索词是“3d打印”,而财经文本数据的某些分词短语中恰好存在“3d打印”,则说明热点搜索词“3d打印”与分词短语“3d打印”相匹配,此时,可以从匹配的分词短语“3d打印”对应的财经文本数据的上下文中提取出相应的股票名称,从而得到与热点搜索词“3d打印”相对应的各个股票名称。在此需要说明的是,与热点搜索词“3d打印”相匹配的分词短语“3d 打印”不止一条,并且与分词短语“3d打印”相对应的财经文本数据也不止一条,因此,由分词短语“3d打印”提取出的股票名称可以有多个,例如,股票名称可以是“光韵达”、“中航重机”、“金运激光”和“银邦股份”等。
S350、对于每一个热点搜索词,计算财经文本数据中提取出与当前热点搜索词相关的每支股票名称的财经文本的数量与财经文本数据总数的比值,作为当前热点搜索词与其相关的每支股票名称的关联度强弱值。
本实施例中,需要计算与当前热点搜索词相关的每支股票名称和当前热点搜索词的关联度强弱值,具体的,可以通过计算提取出与当前热点搜索词相关的每支股票名称的财经文本的数量和与当前热点搜索词相关的财经文本数据的总数的比值,来确定各关联度强弱值。
示例性的,通过上述与分词短语“3d打印”进行匹配,统计得到与当前热点搜索词“3d打印”相关的财经文本数据的总数为10000,并从匹配的分词短语“3d打印”对应的财经文本数据的上下文中提取出相应的股票名称,并统计得到提取出各个股票名称的财经文本数据的数量,具体可以是股票名称为“光韵达”,其对应财经文本数量是4980、股票名称为“中航重机”,其对应财经文本数量是4490、股票名称为“金运激光”,其对应财经文本数量是4270和股票名称为“银邦股份”,其对应财经文本数量是3880,则利用上述算法可以计算出每个股票名称对应的关联度强弱值分别为0.498、0.449、0.427和0.388。
S360、根据热点搜索词的搜索量和关联度强弱值,计算至少一个股票名称所属各行业的决策参数,以根据该决策参数进行行业配置。
本实施例提供的投资组合行业配置方法,通过应用大数据挖掘和自然语言处理等技术,从搜索引擎的日志数据中获取与股票市场概念相关的热点搜索词及其搜索量,并对互联网中的财经文本数据进行分词处理,利用分词短语获得与各热点搜索词相关的各个股票名称,据此,计算出各热点搜索词与其相关的每支股票名称的关联度强弱值,实现对市场中投资者对不同行业股票的情绪度量,从而进行行业配置。不仅扩充了数据维度,而且使决策过程能够量化,使得投资组合行业配置更加科学高效。
实施例四
本实施例在上述各实施例的基础上,对根据热点搜索词的搜索量和关联度强弱值,计算至少一个股票名称所属各行业的决策参数,以根据该决策参数进行行业配置,做出进一步优化。图4是本发明实施例四提供的投资组合行业配置方法的流程图,如图4所示,该方法具体包括:
S410、爬取互联网上的财经文本数据。
S420、从搜索引擎的日志数据中获取与股票市场概念相关的热点搜索词及其搜索量。
S430、从财经文本数据中抽取出与热点搜索词相关的至少一个股票名称,并计算出热点搜索词与相关的各股之间的关联度强弱值。
S440、依据预设的行业分类体系,根据所述热点搜索词相关的至少一个股票名称,将热点搜索词及其搜索量以及热点搜索词与相关的各股之间的关联度强弱值映射到各个行业中。
本实施例中,可以选择基于中信证券的行业分类体系,并且可以从该行业分类体系中得到各个股票与各行业之间的对应关系,其中,中信证券行业体系下包括29个一级行业,并且每个一级行业下均包含数十只股票作为其成份股。
本实施例中,可以依据热点搜索词对应的各股票名称所属的行业,将各热点搜索词及其搜索量以及热点搜索词与相关的各股之间的关联度强弱值作为行业配置模型的输入变量,映射到各个行业中。
S450、在每个行业中,分别计算映射其中的各热点搜索词的搜索量与其在当前行业中对应的与各股之间的关联度强弱值的乘积之和,作为当前行业的决策参数。
本实施例中,可以将如下表达式作为行业配置模型:
其中,Ind(k,t)为一级行业k在t日的因子值,con(t)表示t日时的各热点搜索词的搜索量,link(con,stock,t,k)表示各热点搜索词和与其相关的各个股票在t日的关联度强弱值,此外,当计算一级行业k的因子值时,如果某个股票不是一级行业k的成份股,则link(con,stock,t,k)=0。利用上述行业配置模型,分别计算映射其中的各热点搜索词的搜索量con(t)与其在当前一级行业k中对应的与各股之间的关联度强弱值link(con,stock,t,k)的乘积之和,即可得到当前行业k在t日的决策参数Ind(k,t)。
本实施例中,为了使行业配置更加科学准确,在利用上述模型得到全部29 个一级行业在t日的因子值后,可以分别对连续预设日期内的全部29个一级行业的因子值进行计算,并求出全部29个一级行业在连续预设日期内的因子值的移动平均值,最终得到移动平均后的全部29个一级行业的决策参数,作为全部 29个一级行业最终的决策参数,其中,连续预设日期可以设置为连续20天。
S460、根据所述决策参数进行行业配置。
本实施例中,具体的,可以对上述全部29个一级行业的最终的决策参数的数值进行由大到小的排序,选择数值最高的前预设个数的行业进行超额配置,提高投资组合中该预设个数的行业的配置比例,选择数值最低的后预设个数的行业进行低配,减少投资组合中该预设个数的行业的配置比例,其中,预设个数可以是5个。
本实施例提供的投资组合行业配置方法,通过应用大数据挖掘和自然语言处理等技术,对互联网中的财经文本数据和搜索引擎中与股票市场概念相关的热点搜索词进行分析处理,实现对市场中投资者对不同行业股票的情绪度量,并具体利用行业配置模型和行业决策参数进行行业配置。不仅扩充了数据维度,而且使决策过程能够量化,使得投资组合行业配置更加科学高效。
实施例五
图5是本发明实施例五中的投资组合行业配置装置的结构示意图。如图5 所示,投资组合行业配置装置包括:
财经文本数据爬取模块510,用于爬取互联网上的财经文本数据;
热点搜索词及搜索量获取模块520,用于从搜索引擎的日志数据中获取与股票市场概念相关的热点搜索词及其搜索量;
关联度强弱值计算模块530,用于从财经文本数据中抽取出与热点搜索词相关的至少一个股票名称,并计算出热点搜索词与相关的各股之间的关联度强弱值;
行业配置模块540,用于根据所述热点搜索词的搜索量和关联度强弱值,计算至少一个股票名称所属各行业的决策参数,以根据该决策参数进行行业配置。
本实施例提供的投资组合行业配置装置,通过应用大数据挖掘和自然语言处理等技术,对互联网中的财经文本数据和搜索引擎中与股票市场概念相关的热点搜索词进行分析处理,实现对市场中投资者对不同行业股票的情绪度量,从而进行行业配置。不仅扩充了数据维度,而且使决策过程能够量化,使得投资组合行业配置更加科学高效。
进一步的,热点搜索词及搜索量获取模块520具体可以包括:
关键词抽取子模块,用于对日志数据中的搜索条目进行自然语言处理,抽取出与股票市场概念相关的至少一个关键词;
搜索量统计子模块,用于统计全部搜索条目中各关键词的搜索量;
热点搜索词确定子模块,用于将根据搜索量排名在前预设个数的关键词作为热点搜索词。
进一步的,关联度强弱值计算模块530具体可以包括:
分词短语获取子模块,用于对财经文本数据进行分词,得到多个分词短语;
股票名称提取子模块,用于在多个分词短语中匹配每一个热点搜索词,若匹配上,则从匹配的分词短语在对应财经文本数据的上下文中提取股票名称,得到与每一个热点搜索词相关的至少一个股票名称;
关联度强弱值计算子模块,用于对于每一个热点搜索词,计算财经文本数据中提取出与当前热点搜索词相关的每支股票名称的财经文本的数量与财经文本数据总数的比值,作为当前热点搜索词与其相关的每支股票名称的关联度强弱值。
进一步的,行业配置模块540具体可以包括:
行业映射子模块,用于依据预设的行业分类体系,根据热点搜索词相关的至少一个股票名称,将热点搜索词及其搜索量映射到各个行业中;
决策参数计算子模块,用于在每个行业中,分别计算映射其中的各热点搜索词的搜索量与其在当前行业中对应的与各股之间的关联度强弱值的乘积之和,作为当前行业的决策参数;
行业配置子模块,用于根据决策参数进行行业配置。
进一步的,热点搜索词及搜索量获取模块520还可以包括:
搜索条目过滤子模块,用于在对日志数据中的搜索条目进行自然语言处理,抽取出与股票市场概念相关的关键词之前,根据日志数据中用户的点击行为数据对搜索条目进行过滤,其中,点击行为数据包括在根据用户的搜索条目展示的搜索结果中,已点击的搜索结果为其标题与股票市场概念无关,或者其URL 与预设的与股票市场概念有关的URL库不匹配。
本实施例提供的投资组合行业配置装置,与本发明任意实施例所提供的投资组合行业配置方法属于同一发明构思,可执行本发明任意实施例所提供的投资组合行业配置方法,具备执行投资组合行业配置方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明任意实施例提供的投资组合行业配置方法。
实施例六
图6为本发明实施例六提供的一种服务器的结构示意图。图6示出了适于用来实现本发明实施方式的示例性服务器设备612的框图。图6显示的服务器 612仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图6所示,服务器612以通用计算设备的形式表现。服务器612的组件可以包括但不限于:一个或者多个处理器616,系统存储器628,连接不同系统组件(包括系统存储器628和处理器616)的总线618。
总线618表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构 (ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
服务器612典型地包括多种计算机系统可读介质。这些介质可以是任何能够被服务器612访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器628可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)630和/或高速缓存存储器632。服务器612可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储装置634可以用于读写不可移动的、非易失性磁介质(图6未显示,通常称为“硬盘驱动器”)。尽管图6中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如 CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线618相连。存储器628可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块642的程序/实用工具640,可以存储在例如存储器628中,这样的程序模块642包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块642通常执行本发明所描述的实施例中的功能和/或方法。
服务器612也可以与一个或多个外部设备614(例如键盘、指向设备、显示器624等)通信,还可与一个或者多个使得用户能与该计算机设备612交互的设备通信,和/或与使得该服务器612能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出 (I/O)接口622进行。并且,计算机设备612还可以通过网络适配器620与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器620通过总线618与计算机设备612的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备612使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储装置等。
处理器616通过运行存储在系统存储器628中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的投资组合行业配置方法,包括:
爬取互联网上的财经文本数据;
从搜索引擎的日志数据中获取与股票市场概念相关的热点搜索词及其搜索量;
从财经文本数据中抽取出与热点搜索词相关的至少一个股票名称,并计算出热点搜索词与相关的各股之间的关联度强弱值;
根据热点搜索词的搜索量和关联度强弱值,计算至少一个股票名称所属各行业的决策参数,以根据该决策参数进行行业配置。
实施例七
本发明实施例七提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例所提供的投资组合行业配置方法,包括:
爬取互联网上的财经文本数据;
从搜索引擎的日志数据中获取与股票市场概念相关的热点搜索词及其搜索量;
从财经文本数据中抽取出与热点搜索词相关的至少一个股票名称,并计算出热点搜索词与相关的各股之间的关联度强弱值;
根据热点搜索词的搜索量和关联度强弱值,计算至少一个股票名称所属各行业的决策参数,以根据该决策参数进行行业配置。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器 (CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、 Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (12)

1.一种投资组合行业配置方法,其特征在于,包括:
爬取互联网上的财经文本数据;
从搜索引擎的日志数据中获取与股票市场概念相关的热点搜索词及其搜索量;
从所述财经文本数据中抽取出与所述热点搜索词相关的至少一个股票名称,并计算出所述热点搜索词与相关的各股之间的关联度强弱值;
根据所述热点搜索词的搜索量和关联度强弱值,计算所述至少一个股票名称所属各行业的决策参数,以根据该决策参数进行行业配置。
2.根据权利要求1所述的方法,其特征在于,从搜索引擎的日志数据中获取与股票市场概念相关的热点搜索词及其搜索量,包括:
对日志数据中的搜索条目进行自然语言处理,抽取出与股票市场概念相关的至少一个关键词;
统计全部搜索条目中各关键词的搜索量;
将根据所述搜索量排名在前预设个数的关键词作为所述热点搜索词。
3.根据权利要求1所述的方法,其特征在于,从所述财经文本数据中抽取出与所述热点搜索词相关的至少一个股票名称,并计算出所述热点搜索词与相关的各股之间的关联度强弱值,包括:
对所述财经文本数据进行分词,得到多个分词短语;
在所述多个分词短语中匹配每一个热点搜索词,若匹配上,则从匹配的分词短语在对应财经文本数据的上下文中提取股票名称,得到与每一个热点搜索词相关的至少一个股票名称;
对于每一个热点搜索词,计算所述财经文本数据中提取出与当前热点搜索词相关的每支股票名称的财经文本的数量与财经文本数据总数的比值,作为当前热点搜索词与其相关的每支股票名称的关联度强弱值。
4.根据权利要求1所述的方法,其特征在于,根据所述热点搜索词的搜索量和关联度强弱值,计算所述至少一个股票名称所属各行业的决策参数,以根据该决策参数进行行业配置,包括:
依据预设的行业分类体系,根据所述热点搜索词相关的至少一个股票名称,将所述热点搜索词及其搜索量以及热点搜索词与相关的各股之间的关联度强弱值映射到各个行业中;
在每个行业中,分别计算映射其中的各热点搜索词的搜索量与其在当前行业中对应的与各股之间的关联度强弱值的乘积之和,作为当前行业的决策参数;
根据所述决策参数进行行业配置。
5.根据权利要求2所述的方法,其特征在于,对日志数据中的搜索条目进行自然语言处理,抽取出与股票市场概念相关的关键词之前,从搜索引擎的日志数据中获取与股票市场概念相关的热点搜索词及其搜索量还包括:
根据日志数据中用户的点击行为数据对搜索条目进行过滤,其中,所述点击行为数据包括在根据用户的搜索条目展示的搜索结果中,已点击的搜索结果为其标题与股票市场概念无关,或者其URL与预设的与股票市场概念有关的URL库不匹配。
6.一种投资组合行业配置装置,其特征在于,包括:
财经文本数据爬取模块,用于爬取互联网上的财经文本数据;
热点搜索词及搜索量获取模块,用于从搜索引擎的日志数据中获取与股票市场概念相关的热点搜索词及其搜索量;
关联度强弱值计算模块,用于从所述财经文本数据中抽取出与所述热点搜索词相关的至少一个股票名称,并计算出所述热点搜索词与相关的各股之间的关联度强弱值;
行业配置模块,用于根据所述热点搜索词的搜索量和关联度强弱值,计算所述至少一个股票名称所属各行业的决策参数,以根据该决策参数进行行业配置。
7.根据权利要求6所述的装置,其特征在于,所述热点搜索词及搜索量获取模块包括:
关键词抽取子模块,用于对日志数据中的搜索条目进行自然语言处理,抽取出与股票市场概念相关的至少一个关键词;
搜索量统计子模块,用于统计全部搜索条目中各关键词的搜索量;
热点搜索词确定子模块,用于将根据所述搜索量排名在前预设个数的关键词作为所述热点搜索词。
8.根据权利要求6所述的装置,其特征在于,所述关联度强弱值计算模块包括:
分词短语获取子模块,用于对所述财经文本数据进行分词,得到多个分词短语;
股票名称提取子模块,用于在所述多个分词短语中匹配每一个热点搜索词,若匹配上,则从匹配的分词短语在对应财经文本数据的上下文中提取股票名称,得到与每一个热点搜索词相关的至少一个股票名称;
关联度强弱值计算子模块,用于对于每一个热点搜索词,计算所述财经文本数据中提取出与当前热点搜索词相关的每支股票名称的财经文本的数量与财经文本数据总数的比值,作为当前热点搜索词与其相关的每支股票名称的关联度强弱值。
9.根据权利要求6所述的装置,其特征在于,所述行业配置模块包括:
行业映射子模块,用于依据预设的行业分类体系,根据所述热点搜索词相关的至少一个股票名称,将所述热点搜索词及其搜索量以及热点搜索词与相关的各股之间的关联度强弱值映射到各个行业中;
决策参数计算子模块,用于在每个行业中,分别计算映射其中的各热点搜索词的搜索量与其在当前行业中对应的与各股之间的关联度强弱值的乘积之和,作为当前行业的决策参数;
行业配置子模块,用于根据所述决策参数进行行业配置。
10.根据权利要求7所述的装置,其特征在于,所述热点搜索词及搜索量获取模块还包括:
搜索条目过滤子模块,用于在对日志数据中的搜索条目进行自然语言处理,抽取出与股票市场概念相关的关键词之前,根据日志数据中用户的点击行为数据对搜索条目进行过滤,其中,所述点击行为数据包括在根据用户的搜索条目展示的搜索结果中,已点击的搜索结果为其标题与股票市场概念无关,或者其URL与预设的与股票市场概念有关的URL库不匹配。
11.一种服务器,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5中任一所述的投资组合行业配置方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一所述的投资组合行业配置方法。
CN201710741554.0A 2017-08-25 2017-08-25 一种投资组合行业配置方法、装置、服务器和存储介质 Active CN107527289B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710741554.0A CN107527289B (zh) 2017-08-25 2017-08-25 一种投资组合行业配置方法、装置、服务器和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710741554.0A CN107527289B (zh) 2017-08-25 2017-08-25 一种投资组合行业配置方法、装置、服务器和存储介质

Publications (2)

Publication Number Publication Date
CN107527289A true CN107527289A (zh) 2017-12-29
CN107527289B CN107527289B (zh) 2021-08-06

Family

ID=60682342

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710741554.0A Active CN107527289B (zh) 2017-08-25 2017-08-25 一种投资组合行业配置方法、装置、服务器和存储介质

Country Status (1)

Country Link
CN (1) CN107527289B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110134847A (zh) * 2019-05-06 2019-08-16 北京科技大学 一种基于互联网金融信息的热点挖掘方法及系统
CN110443489A (zh) * 2019-07-31 2019-11-12 北京明略软件系统有限公司 目标行业的获取方法及装置、存储介质、电子装置
CN110992183A (zh) * 2019-12-12 2020-04-10 深圳前海环融联易信息科技服务有限公司 企业交易信息分析方法、装置、计算机设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101311923A (zh) * 2007-05-23 2008-11-26 神乎科技股份有限公司 一种信息分类检索系统与方法
CN101923544A (zh) * 2009-06-15 2010-12-22 北京百分通联传媒技术有限公司 一种监测展示互联网热点的方法
CN103544255A (zh) * 2013-10-15 2014-01-29 常州大学 基于文本语义相关的网络舆情信息分析方法
CN105404699A (zh) * 2015-12-29 2016-03-16 广州神马移动信息科技有限公司 一种搜索财经文章的方法、装置及服务器
CN106294542A (zh) * 2016-07-25 2017-01-04 北京市信访矛盾分析研究中心 一种信访数据挖掘评分方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101311923A (zh) * 2007-05-23 2008-11-26 神乎科技股份有限公司 一种信息分类检索系统与方法
CN101923544A (zh) * 2009-06-15 2010-12-22 北京百分通联传媒技术有限公司 一种监测展示互联网热点的方法
CN103544255A (zh) * 2013-10-15 2014-01-29 常州大学 基于文本语义相关的网络舆情信息分析方法
CN105404699A (zh) * 2015-12-29 2016-03-16 广州神马移动信息科技有限公司 一种搜索财经文章的方法、装置及服务器
CN106294542A (zh) * 2016-07-25 2017-01-04 北京市信访矛盾分析研究中心 一种信访数据挖掘评分方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110134847A (zh) * 2019-05-06 2019-08-16 北京科技大学 一种基于互联网金融信息的热点挖掘方法及系统
CN110443489A (zh) * 2019-07-31 2019-11-12 北京明略软件系统有限公司 目标行业的获取方法及装置、存储介质、电子装置
CN110992183A (zh) * 2019-12-12 2020-04-10 深圳前海环融联易信息科技服务有限公司 企业交易信息分析方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN107527289B (zh) 2021-08-06

Similar Documents

Publication Publication Date Title
Khan et al. Stock market prediction using machine learning classifiers and social media, news
US11941714B2 (en) Analysis of intellectual-property data in relation to products and services
CN104915879B (zh) 基于金融数据的社会关系挖掘的方法及装置
CN110489520A (zh) 基于知识图谱的事件处理方法、装置、设备和存储介质
CN109859052B (zh) 一种投资策略的智能推荐方法、装置、存储介质和服务器
CN107330785A (zh) 一种基于大数据智能风控的小额贷款系统及方法
CN110163478A (zh) 一种合同条款的风险审查方法及装置
US11887201B2 (en) Analysis of intellectual-property data in relation to products and services
CN110796470A (zh) 一种面向市场主体监管和服务的数据分析系统
US11803927B2 (en) Analysis of intellectual-property data in relation to products and services
US11348195B2 (en) Analysis of intellectual-property data in relation to products and services
US11263523B1 (en) System and method for organizational health analysis
US20210004918A1 (en) Analysis Of Intellectual-Property Data In Relation To Products And Services
CN109118118A (zh) 企业业务的风险评估方法、存储介质和服务器
CN107844548A (zh) 一种数据标签方法和装置
CN110263233B (zh) 企业舆情库构建方法、装置、计算机设备及存储介质
CN107527289A (zh) 一种投资组合行业配置方法、装置、服务器和存储介质
CN110489691A (zh) 页面组件显示方法及终端设备
Kaczmarek et al. A machine learning approach for integration of spatial development plans based on natural language processing
WO2021003187A1 (en) Analysis of intellectual-property data in relation to products and services
Wu Using machine learning approach to evaluate the excessive financialization risks of trading enterprises
CN107515928A (zh) 一种判断资产价格走势的方法、装置、服务器、存储介质
Ayvaz et al. A scalable streaming big data architecture for real-time sentiment analysis
CN111242779B (zh) 金融数据特征选择和预测方法、装置、设备及存储介质
Haile Data Analytics in Financial Institutions: How Text Analytics Can Help in Risk Management

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20191114

Address after: 201815 room 3135, zone a, floor 3, building h, No. 55, Jiading District, Shanghai

Applicant after: SHANGHAI YOUYANG NEW MEDIA INFORMATION TECHNOLOGY Co.,Ltd.

Address before: 100085 Beijing, Haidian District, No. ten on the ground floor, No. 10 Baidu building, layer three

Applicant before: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd.

EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20171229

Assignee: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd.

Assignor: SHANGHAI YOUYANG NEW MEDIA INFORMATION TECHNOLOGY Co.,Ltd.

Contract record no.: X2019110000009

Denomination of invention: Portfolio sector allocation method and device, server, and storage medium

License type: Exclusive License

Record date: 20191218

GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 401120 b7-7-2, Yuxing Plaza, No.5, Huangyang Road, Yubei District, Chongqing

Patentee after: Chongqing duxiaoman Youyang Technology Co.,Ltd.

Address before: 201815 room 3135, zone a, floor 3, building h, No. 55, Jiading District, Shanghai

Patentee before: SHANGHAI YOUYANG NEW MEDIA INFORMATION TECHNOLOGY Co.,Ltd.