CN111143647B - 信息处理方法及装置、电子设备、存储介质 - Google Patents

信息处理方法及装置、电子设备、存储介质 Download PDF

Info

Publication number
CN111143647B
CN111143647B CN201911195233.0A CN201911195233A CN111143647B CN 111143647 B CN111143647 B CN 111143647B CN 201911195233 A CN201911195233 A CN 201911195233A CN 111143647 B CN111143647 B CN 111143647B
Authority
CN
China
Prior art keywords
historical
information
news
topic
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911195233.0A
Other languages
English (en)
Other versions
CN111143647A (zh
Inventor
阎明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taikang Asset Management Co ltd
Taikang Insurance Group Co Ltd
Original Assignee
Taikang Asset Management Co ltd
Taikang Insurance Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taikang Asset Management Co ltd, Taikang Insurance Group Co Ltd filed Critical Taikang Asset Management Co ltd
Priority to CN201911195233.0A priority Critical patent/CN111143647B/zh
Publication of CN111143647A publication Critical patent/CN111143647A/zh
Application granted granted Critical
Publication of CN111143647B publication Critical patent/CN111143647B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开涉及一种信息处理方法及装置、电子设备、计算机可读存储介质,属于互联网金融技术领域。该方法包括:获取第一历史时间段的历史新闻信息和历史宏观数据,根据历史新闻信息和历史宏观数据确定历史指标数据;获取第二历史时间段的历史决策信息,通过文档主题生成模型确定历史决策信息的多个信息主题,并确定每个信息主题发生的先验概率;通过贝叶斯公式,根据所获取的每个信息主题对应的历史指标数据出现的先验概率、每个信息主题发生的先验概率、历史新闻信息和历史宏观数据,计算在历史指标数据出现后每个信息主题发生的后验概率;通过隐马尔科夫模型,根据多个信息主题的后验概率,得到当前的信息主题。本公开可提高信息主题确定的准确性。

Description

信息处理方法及装置、电子设备、存储介质
技术领域
本公开涉及互联网金融技术领域,尤其涉及一种信息处理方法及装置、电子设备、计算机可读存储介质。
背景技术
当前国际环境下,我国宏观政策与资本市场是紧密联系的。在政策落实之前,政府会通过官方、主流媒体发布最新政府工作会议内容及各层领导、专家观点,对外界释放信号。如何解读信息,预测未来政策走势对把握资本市场有重要意义。
对于资产管理公司而言,研究宏观经济数据、预测政策走向、判断“政策靴子落地”、调整资产配置成为日常核心工作之一。目前,研究人员可以通过数据源获取数据,同时阅读新闻、政策等相关信息,采用Excel、PowerPoint等工具形成研究报告,发布给读者。但是该方法容易出现人为失误,并且处理周期较长,导致得到的决策信息的实时性和准确性较低。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种信息处理方法及装置、电子设备、计算机可读存储介质,进而至少在一定程度上克服由于现有技术的限制和缺陷而导致的得到的决策信息的实时性和准确性较低的问题。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的一个方面,提供一种信息处理方法,包括:
获取第一历史时间段的历史新闻信息和历史宏观数据,根据所述历史新闻信息和所述历史宏观数据确定历史指标数据;
获取第二历史时间段的历史决策信息,通过文档主题生成模型确定所述历史决策信息的多个信息主题,并确定每个信息主题发生的先验概率,所述第二历史时间段在所述第一历史时间段之后;
针对每个信息主题,通过贝叶斯公式,根据所获取的该信息主题对应的历史指标数据出现的先验概率、该信息主题发生的先验概率、所述历史新闻信息和所述历史宏观数据,计算在所述历史指标数据出现后该信息主题发生的后验概率;
通过隐马尔科夫模型,根据所述多个信息主题的后验概率,得到当前的信息主题。
在本公开的一种示例性实施例中,所述根据所述历史新闻信息和所述历史宏观数据确定历史指标数据,包括:
通过文档主题生成模型确定所述历史新闻信息的新闻主题;
判断单个历史宏观数据与单个新闻主题是否具有相关性;
如果单个历史宏观数据与单个新闻主题具有相关性,将该单个新闻主题和单个历史宏观数据作为历史指标数据。
在本公开的一种示例性实施例中,所述判断单个历史宏观数据与单个新闻主题是否具有相关性,包括:
判断单个历史宏观数据是否满足该单个新闻主题对应的宏观数据判断规则;
如果单个历史宏观数据满足该单个新闻主题对应的宏观数据判断规则,确定该单个历史宏观数据与该单个新闻主题具有相关性;
如果单个历史宏观数据不满足该单个新闻主题对应的宏观数据判断规则,确定该单个历史宏观数据与该单个新闻主题不具有相关性。
在本公开的一种示例性实施例中,所述通过贝叶斯公式,根据所获取的该信息主题对应的历史指标数据出现的先验概率、该信息主题发生的先验概率、所述历史新闻信息和所述历史宏观数据,计算在所述历史指标数据出现后该信息主题发生的后验概率,包括:
根据所述历史新闻信息、所述历史宏观数据,计算该信息主题发生前所述历史指标数据出现的先验概率;
通过贝叶斯公式,根据所获取的该信息主题对应的历史指标数据出现的先验概率、所述信息主题发生的先验概率,以及该信息主题发生前所述历史指标数据出现的先验概率,计算在所述历史指标数据出现后该信息主题发生的后验概率。
在本公开的一种示例性实施例中,所述通过文档主题生成模型确定所述历史新闻信息的新闻主题,包括:
针对单个历史新闻信息,根据预先建立的语料库,对所述单个历史新闻信息进行分词处理,得到词语序列;
将所述词语序列输入文档主题生成模型,得到所述单个历史新闻信息对应各预设主题的概率向量;
根据所述概率向量,确定所述单个历史新闻信息的新闻主题。
在本公开的一种示例性实施例中,所述根据所述概率向量,确定所述单个历史新闻信息的新闻主题,包括:
将所述概率向量中最大的元素对应的主题,作为单个历史新闻信息的新闻主题。
在本公开的一种示例性实施例中,所述方法还包括:
获取第三历史时间段的新闻信息和宏观数据,根据所述新闻信息和所述宏观数据,确定当前指标数据,所述第三历史时间段在所述第二历史时间段之后;
根据所述当前指标数据和当前的信息主题,生成信息主题预测报告;
将所述信息主题预测报告显示给用户。
根据本公开的一个方面,提供一种信息处理装置,包括:
历史指标数据确定模块,用于获取第一历史时间段的历史新闻信息和历史宏观数据,根据所述历史新闻信息和所述历史宏观数据确定历史指标数据;
信息主题先验概率确定模块,用于获取第二历史时间段的历史决策信息,通过文档主题生成模型确定所述历史决策信息的多个信息主题,并确定每个信息主题发生的先验概率,所述第二历史时间段在所述第一历史时间段之后;
信息主题后验概率确定模块,用于针对每个信息主题,通过贝叶斯公式,根据所获取的该信息主题对应的历史指标数据出现的先验概率、该信息主题发生的先验概率、所述历史新闻信息和所述历史宏观数据,计算在所述历史指标数据出现后该信息主题发生的后验概率;
信息主题确定模块,用于通过隐马尔科夫模型,根据所述多个信息主题的后验概率,得到当前的信息主题。
在本公开的一种示例性实施例中,所述历史指标数据确定模块,包括:
新闻主题确定单元,用于通过文档主题生成模型确定所述历史新闻信息的新闻主题;
相关性判断单元,用于判断单个历史宏观数据与单个新闻主题是否具有相关性;
历史指标数据确定单元,用于如果单个历史宏观数据与单个新闻主题具有相关性,将该单个新闻主题和单个历史宏观数据作为历史指标数据。
在本公开的一种示例性实施例中,所述相关性判断单元具体用于,判断单个历史宏观数据是否满足该单个新闻主题对应的宏观数据判断规则;如果单个历史宏观数据满足该单个新闻主题对应的宏观数据判断规则,确定该单个历史宏观数据与该单个新闻主题具有相关性;如果单个历史宏观数据不满足该单个新闻主题对应的宏观数据判断规则,确定该单个历史宏观数据与该单个新闻主题不具有相关性。
在本公开的一种示例性实施例中,所述信息主题后验概率确定模块具体用于根据所述历史新闻信息、所述历史宏观数据,计算该信息主题发生前所述历史指标数据出现的先验概率;
通过贝叶斯公式,根据所获取的该信息主题对应的历史指标数据出现的先验概率、所述信息主题发生的先验概率,以及该信息主题发生前所述历史指标数据出现的先验概率,计算在所述历史指标数据出现后该信息主题发生的后验概率。
在本公开的一种示例性实施例中,所述新闻主题确定单元,具体用于针对单个历史新闻信息,根据预先建立的语料库,对所述单个历史新闻信息进行分词处理,得到词语序列;将所述词语序列输入文档主题生成模型,得到所述单个历史新闻信息对应各预设主题的概率向量;根据所述概率向量,确定所述单个历史新闻信息的新闻主题。
在本公开的一种示例性实施例中,所述新闻主题确定单元通过以下步骤实现根据所述概率向量,确定所述单个历史新闻信息的新闻主题:
将所述概率向量中最大的元素对应的主题,作为单个历史新闻信息的新闻主题。
在本公开的一种示例性实施例中,所述装置还包括:
当前指标数据确定模块,用于获取第三历史时间段的新闻信息和宏观数据,根据所述新闻信息和所述宏观数据,确定当前指标数据,所述第三历史时间段在所述第二历史时间段之后;
报告生成模块,用于根据所述当前指标数据和当前的信息主题,生成信息主题预测报告;
报告显示模块,用于将所述信息主题预测报告显示给用户。
根据本公开的一个方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的方法。
根据本公开的一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的方法。
本公开的示例性实施例具有以下有益效果:
本公开实施例提供的信息处理方法及装置中,通过自动抓取历史新闻信息、历史宏观数据以及历史决策信息,结合贝叶斯公式和隐马尔科夫模型等,得到当前的信息主题。一方面,可以降低人工成本,提高信息主题确定的效率及准确性。另一方面,由于提高了效率,可以相应提高所确定的信息主题的实时性,进一步提高了信息主题的准确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示意性示出了本公开实施例的信息处理方法的一种流程图;
图2示意性示出了本公开实施例的信息处理方法的又一种流程图;
图3示意性示出了本公开实施例的信息处理方法的又一种流程图;
图4示意性示出了本公开实施例的信息处理装置的一种结构图;
图5示出了用于实现本公开实施例的电子设备的计算机系统的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。
需要说明的是,本公开中,用语“包括”、“配置有”、“设置于”用以表示开放式的包括在内的意思,并且是指除了列出的要素/组成部分/等之外还可存在另外的要素/组成部分/等;用语“第一”、“第二”等仅作为标记使用,不是对其对象数量或次序的限制。
大力发展我国的资本市场,建立以人民币为计价单位的全球金融中心是我国的重要发展目标。在经济资源配置过程中,资本市场是宏观经济的重要组成部分,两者互相制约又互相影响。作为宏观经济“晴雨表”,资本市场的稳定发展至关重要。为维护国家资本市场稳定,以及宏观经济可持续发展,我国的宏观调控政策的制定与市场引导日趋成熟,政策的传导有效性逐渐增强。宏观研究团队可以预测未来的政策走向等,已经成为各资产管理公司不可或缺的组成部分。
传统的预测方法包括:宏观分析专家通过国家统计局、第三方数据提供商等数据源获得最新的宏观数据及市场数据;针对各个维度构建时间序列图表,添加辅助阅读线,配以历史关键节点宏观经济、国家政策、全球局势、资产价格等因素,对当下环境进行定量描述和定性分析;在行为经济学、预期理论、周期理论等研究框架下预测未来长短期走势。对市场进行预测,形成最终报告。然而,发明人在实现本申请的过程中发现,该方法存在如下不足:
媒体逐渐公开透明、政府不断公布创新数据、高速互联网下信息化的传播速度成倍提高,与此同时,政府的政策调控速度明显提速,市场传导加快。传统方式下,人力成本较高、预测效率较低,并且报告形成的周期较长,对市场反馈不敏感,当传导到读者处信息已经滞后,容易错失投资机会。为了解决上述问题,本公开提供了一种信息处理方法及装置、电子设备、计算机可读存储介质,可以提高信息主题确定的效率以及得到的信息主题的实时性及准确性。
下面首先对本公开实施例的信息处理方法进行介绍。
参见图1,图1示意性示出了本公开实施例的信息处理方法的一种流程图,可以包括以下步骤:
步骤S110,获取第一历史时间段的历史新闻信息和历史宏观数据,根据历史新闻信息和历史宏观数据确定历史指标数据。
步骤S120,获取第二历史时间段的历史决策信息,通过文档主题生成模型确定历史决策信息的多个信息主题,并确定每个信息主题发生的先验概率,第二历史时间段在第一历史时间段之后。
步骤S130,针对每个信息主题,通过贝叶斯公式,根据所获取的该信息主题对应的历史指标数据出现的先验概率、该信息主题发生的先验概率、历史新闻信息和历史宏观数据,计算在历史指标数据出现后该信息主题发生的后验概率。
步骤S140,通过隐马尔科夫模型,根据多个信息主题的后验概率,得到当前的信息主题。
本公开实施例的信息处理方法,通过自动抓取历史新闻信息、历史宏观数据以及历史决策信息,结合贝叶斯公式和隐马尔科夫模型等,得到当前的信息主题。一方面,可以降低人工成本,提高信息主题确定的效率及准确性。另一方面,由于提高了预测效率,可以相应提高信息主题的实时性,进一步提高了信息主题的准确性。
以下对本公开实施例的技术方案进行更加详细的阐述:
在步骤S110中,获取第一历史时间段的历史新闻信息和历史宏观数据,根据历史新闻信息和历史宏观数据确定历史指标数据。
本公开实施例中,可以通过网络爬虫技术从人民网、新华网、环球网等网站抓取历史新闻信息,历史新闻信息可以是经济、金融等方面的新闻信息。网络爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。通过数据库接口获取历史宏观数据,其中,宏观数据是指一系列的宏观经济学的统计指标经过一定公式计算得到的一个综合指标,包括生产总值、国民总收入、劳动者报酬、消费水平等。历史宏观数据可以包括:采购经理指数PMI、居民消费价格指数CPI、生产价格指数PPI、经常账户、政府收支、外汇储备、市场利率等。
需要说明的是,第一历史时间段可以是历史六个月、历史一个月、历史一周等,可以根据待预测的信息类型进行设定,在此不做限定。例如,在新闻信息关于经济发展状况时,第一历史时间段可以是历史六个月;在新闻信息关于股票走势时,第一历史时间段可以是历史一周等。第一历史时间段和下文中的第二历史时间段、第三历史时间段均表示历史时间段,主要区别在于,第二历史时间段在第一历史时间段之后,第三历史时间段在第二历史时间段之后。在实际应用中,要预测的通常是当前时刻的决策信息,第三历史时间段可以是当前时刻之前、比较接近当前时刻的一个历史时间段,例如,可以是当前时刻之前的一年,第一历史时间段可以是第三历史时间段之前的一个时间段,第二历史时间段是位于第一历史时间段和第三历史时间段之间的一个时间段。
在获取历史新闻信息和历史宏观数据之后,可以根据历史新闻信息和历史宏观数据,得到可以综合描述历史经济状况的历史指标数据。历史指标数据可以是一个或多个,对于单个历史指标数据,其中可以包含单个历史新闻信息和单个历史宏观数据。
在本公开的一种示例性实施例中,根据历史新闻信息和历史宏观数据确定历史指标数据的方法可参见图2,可以包括以下步骤:
步骤S210,通过文档主题生成模型确定历史新闻信息的新闻主题。
由于历史新闻信息通常是内容比较长的信息,在此,可以通过文档主题生成模型确定历史新闻信息的新闻主题,新闻主题通常是比较简短的内容。文档主题生成模型也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。所谓生成模型,就是说,认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布,主题到词服从多项式分布。
在本公开的一种示例性实施例中,通过文档主题生成模型确定历史新闻信息的新闻主题的方法可参见图3,包括以下步骤:
步骤S310,针对单个历史新闻信息,根据预先建立的语料库,对单个历史新闻信息进行分词处理,得到词语序列。
其中,分词是自然语言处理的基础,分词准确度直接决定了后面的词性标注、句法分析、词向量以及文本分析的质量。英文语句使用空格将单词进行分隔,除了某些特定词,如how many,New York等外,大部分情况下不需要考虑分词问题。但是,由于中文天然缺少分隔符,需要读者自行分词和断句。因此在做中文自然语言处理时,可以先进行分词。对于中文,可以按照词含义进行分词。本公开实施例中,可以预先建立语料库,根据语料库,通过匹配的方式进行分词。针对单个历史新闻信息,通过分词处理,可以得到对应的词语序列。其中,语料库可以是符合金融、政府、新闻习惯的词库。
步骤S320,将词语序列输入文档主题生成模型,得到单个历史新闻信息对应各预设主题的概率向量。
其中,文档主题生成模型可以通过训练得到,具体训练过程在此不再详述。对于不同的文档主题生成模型,可以对应不同的预设主题。预设主题可以有多种,例如,政治、金融、体育等,通过对词语序列进行处理之后,可以得到对应各预设主题的概率向量,概率向量中的元素表示历史新闻信息属于对应主题的概率。若预设主题包括:政治、金融、经济,得到的概率向量为(0.1,0.5,0.4),表示历史新闻信息属于政治、金融、经济的概率分别为0.1、0.5和0.4。
步骤S330,根据概率向量,确定单个历史新闻信息的新闻主题。
本公开实施例中,可以将概率向量中最大的元素对应的主题,作为单个历史新闻信息的新闻主题。例如,对于上述概率向量(0.1,0.5,0.4),可以得到对应的主题为金融。当然,也可以将概率向量中大于概率阈值的元素对应的主题,作为历史新闻信息的新闻主题。在此情况下,,历史新闻信息的新闻主题可以是一个,也可以是多个。例如,若概率阈值为0.4,上述概率向量(0.1,0.5,0.4)对应的主题为两个,即金融和经济。
步骤S220,判断单个历史宏观数据与单个新闻主题是否具有相关性。
本公开实施例中,可以将相关性强的新闻主题和历史宏观数据作为历史指标数据。针对单个历史宏观数据与单个新闻主题,如果具有相关性,执行步骤S230;如果不具有相关性,可以不做处理。
在本公开的一种示例性实施例中,判断单个历史宏观数据与单个新闻主题是否具有相关性的方法可以是:判断单个历史宏观数据是否满足该单个新闻主题对应的宏观数据判断规则。如果单个历史宏观数据满足该单个新闻主题对应的宏观数据判断规则,确定该单个历史宏观数据与该单个新闻主题具有相关性;如果单个历史宏观数据不满足该单个新闻主题对应的宏观数据判断规则,确定该单个历史宏观数据与该单个新闻主题不具有相关性。
在此以新闻主题经济过热为例进行说明。由于多种宏观数据(居民消费价格指数、生产价格指数等)均可以反映经济过热的情况,也就是,经济过热可以对应多种衡量标准。例如,在居民消费价格指数上涨大于3%时,可以认为经济过热。那么,经济过热对应的居民消费价格指数判断规则即为:居民消费价格指数大于3%。根据该判断规则,可以确定经济过热与居民消费价格指数上涨5%之间具有相关性。
步骤S230,将该单个新闻主题和单个历史宏观数据作为历史指标数据。
具体的,可以直接将该单个新闻主题和单个历史宏观数据相结合,得到历史指标数据。例如,若新闻主题是经济过热,历史宏观数据是居民消费价格指数上涨5%,并且两者具有相关性,那么,历史指标数据可以为:经济过热,居民消费价格指数上涨5%。
步骤S120,获取第二历史时间段的历史决策信息,通过文档主题生成模型确定历史决策信息的多个信息主题,并确定每个信息主题发生的先验概率,第二历史时间段在第一历史时间段之后。
本公开实施例中,历史决策信息指历史发布的政府政策、公告及规章制度变更等信息。由于决策信息通常在宏观数据出现之后发布,因此,可以通过网络爬虫技术从中国政府网、中国人民银行网站、外汇交易中心网站、上交所网站、深交所网站等,抓取在第一历史时间段之后的第二历史时间段内的决策信息。
其中,通过文档主题生成模型确定历史决策信息的多个信息主题的方法与步骤S210的处理方法相同,在此不再赘述。历史决策信息的多个信息主题可以包括:上调利率、加息、增加货币供给等等。在确定信息主题后,可以确定信息主题发生的先验概率。例如,具体可以通过该信息主题出现的次数进行计算。若该第二历史时间段内发布决策信息的次数共有10次,该信息主题发生的次数为7,那么,可以确定该信息主题发生的先验概率为70%。
步骤S130,针对每个信息主题,通过贝叶斯公式,根据所获取的该信息主题对应的历史指标数据出现的先验概率、该信息主题发生的先验概率、历史新闻信息和历史宏观数据,计算在历史指标数据出现后该信息主题发生的后验概率。
其中,贝叶斯定理是关于随机事件A和B的条件概率(或边缘概率)的一则定理。贝叶斯公式为:本公开实施例中,事件A指信息主题,事件B指该信息主题对应的历史指标数据;P(A|B)表示在历史指标数据出现后信息主题发生的后验概率,P(A)表示信息主题发生的先验概率,P(B)表示该信息主题对应的历史指标数据出现的先验概率,P(B|A)表示信息主题发生后该信息主题对应的历史指标数据出现的先验概率。
在本公开的一种示例性实施例中,可以根据历史新闻信息、历史宏观数据,计算该信息主题发生后历史指标数据出现的先验概率,具体也可以根据该信息主题发生前该信息主题对应的历史指标数据出现的次数进行计算。例如,若信息主题为上调利率,该信息主题对应的历史指标数据为:经济过热,居民消费价格指数上涨5%。在历史新闻信息、历史宏观数据中,若经济过热,居民消费价格指数上涨大于或等于5%出现的次数共有6次,若经济低迷,居民消费价格指数下降的次数共有4次,那么,可以确定该信息主题发生后该信息主题对应的历史指标数据出现的先验概率为60%。历史指标数据出现的先验概率可以根据第三方服务器获取,在得到P(A)、P(B|A)和P(B)之后,可以通过贝叶斯公式,计算在历史指标数据出现后信息主题发生的后验概率,并将此概率作为预测未来发生事件的假设概率。
步骤S140,通过隐马尔科夫模型,根据多个信息主题的后验概率,得到当前的信息主题。
隐马尔科夫模型是统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。马尔可夫过程假设某一时刻状态转移的概率只依赖于它的前一个状态。假如,如果每天的天气是一个状态,那么,今天的天气状态只依赖于昨天的天气。隐马尔科夫模型的参数λ=(M,N,π),M表示一个信息主题到另一个信息主题出现的概率矩阵,即状态转移矩阵;由于历史指标数据和信息主题均可以是多个,那么在历史指标数据出现后信息主题发生的后验概率也可以是多个,N表示多个后验概率构成的概率矩阵。Π为初始状态概率矩阵,可以通过历史数据计算得到。那么,在给定的M,N,π下,对信息主题进行预测。例如,对否上调利率,增加货币供给等。
本公开实施例中,还可以获取第三历史时间段的新闻信息和宏观数据,第三历史时间段在第二历史时间段之后。根据第三历史时间段的新闻信息和宏观数据,确定当前指标数据,其确定方法与历史指标数据的确定方法相同,在此不再赘述。之后,根据当前指标数据和当前的信息主题,生成信息主题预测报告,也就是,信息主题预测报告中可以即包含当前指标数据,又包含当前的信息主题,使信息主题预测报告更完整全面,更具有可参考性。可选的,可以通过LATEX技术,自动生成信息主题预测报告,生成的信息主题预测报告的格式可以是PDF格式、word格式等,并将信息主题预测报告显示给用户。其中,LATEX(音译“拉泰赫”)是一种基于ΤΕX的排版系统,由美国计算机学家莱斯利·兰伯特(LeslieLamport)在20世纪80年代初期开发,利用这种格式,即使使用者没有排版和程序设计的知识也可以充分发挥由ΤΕX所提供的强大功能,能在几天,甚至几小时内生成很多具有书籍质量的印刷品。
本公开实施例的信息处理方法,可以通过网络爬虫技术自动抓取历史新闻信息以及历史决策信息,可以通过数据库接口获取历史宏观数据,结合贝叶斯公式和隐马尔科夫模型等,得到当前的信息主题。并根据最近的新闻信息和宏观数据,确定当前指标数据,根据当前指标数据和当前的信息主题自动生成信息主题预测报告。由于全程不需要人为干预,可以降低人工成本,提高信息主题确定的效率。并且,由于提高了效率,可以相应提高信息主题的实时性,进一步提高了信息主题的准确性。本公开实施例的信息处理方法可以应用于多个领域,对于不同领域的新闻信息,可以得到不同的决策信息。例如,在金融领域,通过预测实时的经济决策信息可以使投资者做出正确的投资决策。
应当注意,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
进一步的,本示例实施方式中,还提供了一种信息处理装置400,参见图4,图4示意性示出了本公开实施例的信息处理装置的一种结构示意图,包括:
历史指标数据确定模块410,用于获取第一历史时间段的历史新闻信息和历史宏观数据,根据历史新闻信息和历史宏观数据确定历史指标数据;
信息主题先验概率确定模块420,用于获取第二历史时间段的历史决策信息,通过文档主题生成模型确定历史决策信息的多个信息主题,并确定每个信息主题发生的先验概率,第二历史时间段在第一历史时间段之后;
信息主题后验概率确定模块430,用于针对每个信息主题,通过贝叶斯公式,根据所获取的该信息主题对应的历史指标数据出现的先验概率、该信息主题发生的先验概率、历史新闻信息和历史宏观数据,计算在历史指标数据出现后该信息主题发生的后验概率;
信息主题确定模块440,用于通过隐马尔科夫模型,根据多个信息主题的后验概率,得到当前的信息主题。
在本公开的一种示例性实施例中,历史指标数据确定模块,包括:
新闻主题确定单元,用于通过文档主题生成模型确定历史新闻信息的新闻主题;
相关性判断单元,用于判断单个历史宏观数据与单个新闻主题是否具有相关性;
历史指标数据确定单元,用于如果单个历史宏观数据与单个新闻主题具有相关性,将该单个新闻主题和单个历史宏观数据作为历史指标数据。
在本公开的一种示例性实施例中,相关性判断单元具体用于判断单个历史宏观数据是否满足该单个新闻主题对应的宏观数据判断规则;如果单个历史宏观数据满足该单个新闻主题对应的宏观数据判断规则,确定该单个历史宏观数据与该单个新闻主题具有相关性;如果单个历史宏观数据不满足该单个新闻主题对应的宏观数据判断规则,确定该单个历史宏观数据与该单个新闻主题不具有相关性。
在本公开的一种示例性实施例中,信息主题后验概率确定模块具体用于根据历史新闻信息、历史宏观数据,计算该信息主题发生前历史指标数据出现的后验概率;
通过贝叶斯公式,根据所获取的该信息主题对应的历史指标数据出现的先验概率、该信息主题发生的先验概率,以及信息主题发生前历史指标数据出现的后验概率,计算在历史指标数据出现后该信息主题发生的后验概率。
在本公开的一种示例性实施例中,新闻主题确定单元,具体用于针对单个历史新闻信息,根据预先建立的语料库,对单个历史新闻信息进行分词处理,得到词语序列;将词语序列输入文档主题生成模型,得到单个历史新闻信息对应各预设主题的概率向量;根据概率向量,确定单个历史新闻信息的新闻主题。
在本公开的一种示例性实施例中,新闻主题确定单元通过以下步骤实现根据概率向量,确定单个历史新闻信息的新闻主题:
将概率向量中最大的元素对应的主题,作为单个历史新闻信息的新闻主题。
在本公开的一种示例性实施例中,上述信息处理装置还包括:
当前指标数据确定模块,用于获取第三历史时间段的新闻信息和宏观数据,根据新闻信息和宏观数据,确定当前指标数据,第三历史时间段在第二历史时间段之后;
报告生成模块,用于根据当前指标数据和当前的信息主题,生成信息主题预测报告;
报告显示模块,用于将信息主题预测报告显示给用户。
上述装置中各模块/单元的具体细节在方法部分的实施例中已经详细说明,因此不再赘述。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
在本公开的示例性实施例中,还提供一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为执行本示例实施方式中任一所述的方法。
图5示出了用于实现本公开实施例的电子设备的计算机系统的结构示意图。需要说明的是,图5示出的电子设备的计算机系统500仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图5所示,计算机系统500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM503中,还存储有系统操作所需的各种程序和数据。CPU501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如局域网(LAN)卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时,执行本申请的装置中限定的各种功能。
在本公开的示例性实施例中,还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的方法。
需要说明的是,本公开所示的计算机可读存储介质例如可以是—但不限于—电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、射频等等,或者上述的任意合适的组合。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。

Claims (10)

1.一种信息处理方法,其特征在于,所述方法包括:
获取第一历史时间段的历史新闻信息和历史宏观数据,根据所述历史新闻信息和所述历史宏观数据确定历史指标数据;
获取第二历史时间段的历史决策信息,通过文档主题生成模型确定所述历史决策信息的多个信息主题,并确定每个信息主题发生的先验概率,所述第二历史时间段在所述第一历史时间段之后;
针对每个信息主题,通过贝叶斯公式,根据所获取的该信息主题对应的历史指标数据出现的先验概率、该信息主题发生的先验概率、所述历史新闻信息和所述历史宏观数据,计算在所述历史指标数据出现后该信息主题发生的后验概率;
通过隐马尔科夫模型,根据所述多个信息主题的后验概率,得到当前的信息主题。
2.根据权利要求1所述的方法,其特征在于,所述根据所述历史新闻信息和所述历史宏观数据确定历史指标数据,包括:
通过文档主题生成模型确定所述历史新闻信息的新闻主题;
判断单个历史宏观数据与单个新闻主题是否具有相关性;
如果单个历史宏观数据与单个新闻主题具有相关性,将该单个新闻主题和单个历史宏观数据作为历史指标数据。
3.根据权利要求2所述的方法,其特征在于,所述判断单个历史宏观数据与单个新闻主题是否具有相关性,包括:
判断单个历史宏观数据是否满足该单个新闻主题对应的宏观数据判断规则;
如果单个历史宏观数据满足该单个新闻主题对应的宏观数据判断规则,确定该单个历史宏观数据与该单个新闻主题具有相关性;
如果单个历史宏观数据不满足该单个新闻主题对应的宏观数据判断规则,确定该单个历史宏观数据与该单个新闻主题不具有相关性。
4.根据权利要求1所述的方法,其特征在于,所述通过贝叶斯公式,根据所获取的该信息主题对应的历史指标数据出现的先验概率、该信息主题发生的先验概率、所述历史新闻信息和所述历史宏观数据,计算在所述历史指标数据出现后该信息主题发生的后验概率,包括:
根据所述历史新闻信息、所述历史宏观数据,计算该信息主题发生后所述历史指标数据出现的先验概率;
通过贝叶斯公式,根据所获取的该信息主题对应的历史指标数据出现的先验概率、所述信息主题发生的先验概率,以及该信息主题发生后所述历史指标数据出现的先验概率,计算在所述历史指标数据出现后该信息主题发生的后验概率。
5.根据权利要求2所述的方法,其特征在于,所述通过文档主题生成模型确定所述历史新闻信息的新闻主题,包括:
针对单个历史新闻信息,根据预先建立的语料库,对所述单个历史新闻信息进行分词处理,得到词语序列;
将所述词语序列输入文档主题生成模型,得到所述单个历史新闻信息对应各预设主题的概率向量;
根据所述概率向量,确定所述单个历史新闻信息的新闻主题。
6.根据权利要求5所述的方法,其特征在于,所述根据所述概率向量,确定所述单个历史新闻信息的新闻主题,包括:
将所述概率向量中最大的元素对应的主题,作为单个历史新闻信息的新闻主题。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取第三历史时间段的新闻信息和宏观数据,根据所述新闻信息和所述宏观数据,确定当前指标数据,所述第三历史时间段在所述第二历史时间段之后;
根据所述当前指标数据和当前的信息主题,生成信息主题预测报告;
将所述信息主题预测报告显示给用户。
8.一种信息处理装置,其特征在于,所述装置包括:
历史指标数据确定模块,用于获取第一历史时间段的历史新闻信息和历史宏观数据,根据所述历史新闻信息和所述历史宏观数据确定历史指标数据;
信息主题先验概率确定模块,用于获取第二历史时间段的历史决策信息,通过文档主题生成模型确定所述历史决策信息的多个信息主题,并确定每个信息主题发生的先验概率,所述第二历史时间段在所述第一历史时间段之后;
信息主题后验概率确定模块,用于针对每个信息主题,通过贝叶斯公式,根据所获取的该信息主题对应的历史指标数据出现的先验概率、该信息主题发生的先验概率、所述历史新闻信息和所述历史宏观数据,计算在所述历史指标数据出现后该信息主题发生的后验概率;
信息主题确定模块,用于通过隐马尔科夫模型,根据所述多个信息主题的后验概率,得到当前的信息主题。
9.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1~7任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1~7任一项所述的方法。
CN201911195233.0A 2019-11-28 2019-11-28 信息处理方法及装置、电子设备、存储介质 Active CN111143647B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911195233.0A CN111143647B (zh) 2019-11-28 2019-11-28 信息处理方法及装置、电子设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911195233.0A CN111143647B (zh) 2019-11-28 2019-11-28 信息处理方法及装置、电子设备、存储介质

Publications (2)

Publication Number Publication Date
CN111143647A CN111143647A (zh) 2020-05-12
CN111143647B true CN111143647B (zh) 2023-11-17

Family

ID=70517465

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911195233.0A Active CN111143647B (zh) 2019-11-28 2019-11-28 信息处理方法及装置、电子设备、存储介质

Country Status (1)

Country Link
CN (1) CN111143647B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101174273A (zh) * 2007-12-04 2008-05-07 清华大学 基于元数据分析的新闻事件检测方法
WO2008065711A1 (fr) * 2006-11-28 2008-06-05 I-N Information Systems, Ltd. Système et programme d'affichage de données statistiques économiques
WO2014186639A2 (en) * 2013-05-15 2014-11-20 Kensho Llc Systems and methods for data mining and modeling
CN104217038A (zh) * 2014-09-30 2014-12-17 中国科学技术大学 一种针对财经新闻的知识网络构建方法
CN104504150A (zh) * 2015-01-09 2015-04-08 成都布林特信息技术有限公司 新闻舆情监测系统
CN104537028A (zh) * 2014-12-19 2015-04-22 百度在线网络技术(北京)有限公司 一种网页信息处理方法及装置
AU2017200585A1 (en) * 2016-01-29 2017-08-17 Thomson Reuters Enterprise Centre Gmbh System and engine for seeded clustering of news events

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10977322B2 (en) * 2015-11-09 2021-04-13 WP Company, LLC Systems and methods for recommending temporally relevant news content using implicit feedback data

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008065711A1 (fr) * 2006-11-28 2008-06-05 I-N Information Systems, Ltd. Système et programme d'affichage de données statistiques économiques
CN101174273A (zh) * 2007-12-04 2008-05-07 清华大学 基于元数据分析的新闻事件检测方法
WO2014186639A2 (en) * 2013-05-15 2014-11-20 Kensho Llc Systems and methods for data mining and modeling
CN104217038A (zh) * 2014-09-30 2014-12-17 中国科学技术大学 一种针对财经新闻的知识网络构建方法
CN104537028A (zh) * 2014-12-19 2015-04-22 百度在线网络技术(北京)有限公司 一种网页信息处理方法及装置
CN104504150A (zh) * 2015-01-09 2015-04-08 成都布林特信息技术有限公司 新闻舆情监测系统
AU2017200585A1 (en) * 2016-01-29 2017-08-17 Thomson Reuters Enterprise Centre Gmbh System and engine for seeded clustering of news events

Also Published As

Publication number Publication date
CN111143647A (zh) 2020-05-12

Similar Documents

Publication Publication Date Title
US12073176B2 (en) System and method for a thing machine to perform models
US11663406B2 (en) Methods and systems for automated detection of personal information using neural networks
US20220100967A1 (en) Lifecycle management for customized natural language processing
CN113779225B (zh) 实体链接模型的训练方法、实体链接方法及装置
CN116307672A (zh) 一种故障诊断方法、装置、电子设备及介质
CN111221881B (zh) 用户特征数据合成方法、装置及电子设备
Zhang et al. Distant supervision for relation extraction with hierarchical attention-based networks
CN114169418A (zh) 标签推荐模型训练方法及装置、标签获取方法及装置
Zhang et al. Incorporating stock prices and text for stock movement prediction based on information fusion
Li et al. Credit risk management of scientific and technological enterprises based on text mining
CN113724057A (zh) 基于大数据的财政预算填报方法、系统、设备及介质
CN111143647B (zh) 信息处理方法及装置、电子设备、存储介质
Xia et al. Knowledge acquisition model of mobile payment based on automatic summary technology
Wang Research on the art value and application of art creation based on the emotion analysis of art
CN116150283A (zh) 一种知识图谱本体构建系统、方法、电子设备及存储介质
CN114626370A (zh) 训练方法、风险预警方法、装置、设备、介质和程序产品
US11822609B2 (en) Prediction of future prominence attributes in data set
Kulkarni Natural Language Processing for Text Analytics in SAP HANA
CN114691836A (zh) 文本的情感倾向性分析方法、装置、设备及介质
CN113095078A (zh) 关联资产确定方法、装置和电子设备
Liu et al. Risk identification and management through knowledge Association: A financial event evolution knowledge graph approach
Liu et al. One-to-many comparative summarization for patents
Zhong et al. Aspect-level sentiment analysis incorporating multidimensional feature
Su et al. A Novel Model Based on Big Data Environment for Text Content Security Recognition
Haney Patents for NLP Software: An Empirical Review

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant