CN111090744A - 股市运行风险信息挖掘方法及装置 - Google Patents

股市运行风险信息挖掘方法及装置 Download PDF

Info

Publication number
CN111090744A
CN111090744A CN201911305866.2A CN201911305866A CN111090744A CN 111090744 A CN111090744 A CN 111090744A CN 201911305866 A CN201911305866 A CN 201911305866A CN 111090744 A CN111090744 A CN 111090744A
Authority
CN
China
Prior art keywords
risk
extraction
news
policy
extraction rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911305866.2A
Other languages
English (en)
Inventor
席丽娜
刘大双
李德彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dinfo Beijing Science Development Co ltd
Original Assignee
Dinfo Beijing Science Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dinfo Beijing Science Development Co ltd filed Critical Dinfo Beijing Science Development Co ltd
Priority to CN201911305866.2A priority Critical patent/CN111090744A/zh
Publication of CN111090744A publication Critical patent/CN111090744A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/06Asset management; Financial planning or analysis

Abstract

本申请提供一种股市运行风险信息挖掘方法及装置。该方法包括:获取待挖掘的新闻数据;利用信息抽取模型中的多个抽取规则分别对所述新闻数据进行抽取,获得风险摘要;其中,所述风险摘要为利用目标抽取规则从所述新闻数据中抽取到的内容,所述目标抽取规则为多个抽取规则中成功抽取到风险摘要的抽取规则。本申请实施例通过多个抽取规则分别对新闻数据进行抽取,获得新闻数据中的风险摘要,无需人工从新闻数据中摘取,从而提高了对风险摘要挖掘的效率。

Description

股市运行风险信息挖掘方法及装置
技术领域
本申请涉及信息挖掘技术领域,具体而言,涉及一种股市运行风险信息挖掘方法及装置。
背景技术
股票市场是一个国家或地区经济和金融活动的晴雨表,也是企业融资和投资者资产配置的重要手段,对股市的预测研究不仅可以为政府、企业和投资者制定相关决策提供依据,还可以规避金融风险,促进股票市场稳定健康发展。
政府相关政策对股市有着重要的影响,因此股民几乎每天都会关注政府部门发布的政策新闻,但是,一般情况下,政策新闻篇幅较大,股民需要阅读整篇政策新闻,然后从中获取对股市有影响的内容。现有技术中,为了节省了用户的阅读时间,有些股市预测平台会定期向用户推送政策新闻中对股市有影响的内容,这些内容是通过人工预先从整篇政策新闻中挑选出来的。很显然,人工从政策新闻中挑选有价值的内容效率比较低。
发明内容
本申请实施例的目的在于提供一种股市运行风险信息挖掘方法及装置,用以解决现有技术中对政策新闻挖掘效率低的问题。
第一方面,本申请实施例提供一种股市运行风险信息挖掘方法,包括:获取待挖掘的新闻数据;利用信息抽取模型中的多个抽取规则分别对所述新闻数据进行抽取,获得风险摘要;其中,所述风险摘要为利用目标抽取规则从所述新闻数据中抽取到的内容,所述目标抽取规则为多个抽取规则中成功抽取到风险摘要的抽取规则。
本申请实施例通过多个抽取规则分别对新闻数据进行抽取,获得新闻数据中的风险摘要,无需人工从新闻数据中摘取,从而提高了对风险摘要挖掘的效率。
进一步地,所述信息抽取模型中包括与每个抽取规则对应的新闻类型;所述方法还包括:根据所述目标抽取规则确定所述新闻数据对应的目标新闻类型。
本申请实施例通过利率利空政策、股市利空政策和行业概念利空政策这三个方面对新闻数据进行挖掘,从而可以获得更加全面、准确的风险摘要。
进一步地,在获得目标抽取规则和风险摘要之后,所述方法还包括:获取属于同一新闻类型的多个风险摘要;对所述多个风险摘要进行聚类分析,获得至少一个细分类别。
本申请实施例通过对同一类型的风险摘要进行聚类分析,将属于同一类型的风险摘要归为一类,以实现对风险摘要的整理。
进一步地,所述对所述多个风险摘要进行聚类分析,获得至少一个细分类别,包括:从多个风险摘要中选取K个风险摘要作为均值向量;其中,K为正整数,且K的最大值小于风险摘要的总数;循环执行簇归类操作,直至计算每个簇的新的均值向量的变化幅度小于预设幅度为止;其中,所述簇归类操作包括:计算每个风险摘要到每个均值向量之间的距离;将距离风险摘要最近的均值向量的标记作为所述风险摘要的簇标记,获得K个簇,计算每个簇的新的均值向量。
进一步地,所述新闻类型包括利率利空政策、股市利空政策和行业概念利空政策;在利用信息抽取模型中的多个抽取规则分别对所述新闻数据进行抽取之前,所述方法还包括:分别获取所述利率利空政策、股市利空政策和行业概念利空政策对应的关键词;根据所述利率利空政策的关键词生成所述利率利空政策对应的抽取规则;根据所述股市利空政策的关键词生成所述股市利空政策对应的抽取规则;根据所述行业概念利空政策的关键词生成所述行业概念利空政策对应的抽取规则。
本申请实施例通过不同的抽取规则对新闻数据进行抽取,能够从不同类型的新闻数据所具备的特征不同出发,从而提高了抽取的准确性。
进一步地,所述利用信息抽取模型中的多个抽取规则分别对所述新闻数据进行抽取,获得风险摘要,包括:将所述新闻数据中的每个段落与抽取规则进行匹配,若匹配成功,则所述抽取规则为目标抽取规则,匹配成功的段落为所述风险摘要。
本申请实施例通过以段落为单位,将对股市有影响的段落抽取出来,使得风险摘要更加精简。
第二方面,本申请实施例提供一种股市运行风险信息挖掘装置,包括:
数据获取模块,用于获取待挖掘的新闻数据;
信息抽取模块,用于利用信息抽取模型中的多个抽取规则分别对所述新闻数据进行抽取,获得风险摘要;
其中,所述风险摘要为利用目标抽取规则从所述新闻数据中抽取到的内容,所述目标抽取规则为多个抽取规则中成功抽取到风险摘要的抽取规则。
进一步地,所述信息抽取模型中包括与每个抽取规则对应的新闻类型;所述挖掘装置还包括:
类型确定模块,用于根据所述目标抽取规则确定所述新闻数据对应的目标新闻类型。
第三方面,本申请实施例提供一种电子设备,包括:处理器、存储器和总线,其中,
所述处理器和所述存储器通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行第一方面的方法。
第四方面,本申请实施例提供一种非暂态计算机可读存储介质,包括:
所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行第一方面的方法。
本申请的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的股市运行风险信息挖掘方法流程示意图;
图2为本申请实施例提供的聚类分析流程示意图;
图3为本申请实施例提供的规则配置页面;
图4为本申请实施例提供的抽取规则显示页面;
图5为本申请实施例提供的抽取结果示意图;
图6为本申请实施例提供的挖掘装置结构示意图;
图7为本申请实施例提供的电子设备实体结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
图1为本申请实施例提供的股市运行风险信息挖掘方法流程示意图,如图1所示,执行该方法的主体为挖掘装置,该挖掘装置可以是服务器、电脑终端、移动终端或智能穿戴设备等,该方法包括:
步骤101:获取待挖掘的新闻数据;
步骤102:利用信息抽取模型中的多个抽取规则分别对所述新闻数据进行抽取,获得风险摘要;
其中,所述风险摘要为利用目标抽取规则从所述新闻数据中抽取到的内容,所述目标抽取规则为多个抽取规则中成功抽取到风险摘要的抽取规则。
在具体的实施过程中,下面从挖掘装置分别为服务器和电脑进行描述。
一、挖掘装置为服务器
当用户想要获知近期的关于股市的政策新闻时,可以通过用户终端向服务器发送查询请求。其中,用户终端可以安装有该服务器对应的客户端,通过客户端向服务器发送该查询请求。查询请求可以是近期政策风险有哪些,并且查询请求中也可以指定具体日期,例如:今天、最近一周等。服务器在接收到查询请求之后,获取待挖掘的新闻数据。应当说明的是,若用户没有指定时间,那么可以默认只获取当天的新闻数据。并且,新闻数据可以是预先从政府网站或其他相关网站中获取,本申请实施例不对新闻数据的获取途径进行限定。
另外,服务器也可以定期获取待挖掘的新闻数据,并对新闻数据进行抽取,不需要在接收到用户的查询请求后再进行挖掘操作,因此,可以将挖掘的结果定期推送给注册用户的终端上。预先做好挖掘的好处还有当接收到用户发送的查询请求后,可以快速的向用户终端返回对应的结果。
在服务器获取到新闻数据之后,利用预先构建的信息抽取模型中的多个抽取规则分别对该新闻数据进行抽取。应当说明的是,抽取规则可以是正则表达式,并不是每个抽取规则都能够从该新闻数据中抽取到文本信息,因为,新闻数据的类型不同,其内容不同,所包含的特征不同,如果新闻数据的类型为A,用抽取规则B来进行抽取,则抽取不到内容。因此,多个抽取规则中可能所有的抽取规则都不能抽取到内容,也可能只有一个抽取规则抽取到内容。没有抽取规则可以从新闻数据中抽取到内容的,则说明该新闻数据中没有关于股市风险的内容。若有一个抽取规则从新闻数据中抽取到内容,则该抽取规则为目标抽取规则,目标抽取规则抽取到的内容称为风险摘要。
再有,当服务器抽取到风险摘要之后,可以将风险摘要推送给发送查询请求的用户终端,也可以推送给所有的注册用户。
二、挖掘装置为电脑终端
用户通过电脑终端的输入模块输入查询请求,当电脑终端接收到该查询请求后,获取待挖掘的新闻数据,应当说明的是,新闻数据与上述实施例一致,此处不再赘述。
在电脑终端获取到新闻数据之后,利用预先构建的信息抽取模型中的多个抽取规则分别对该新闻数据进行抽取。应当说明的是,抽取规则也与上述实施例一致,此处不再赘述。
当电脑终端获取到风险摘要后,可以将风险摘要进行显示,以使用户可以获知股市运行风险情况。
本申请实施例通过多个抽取规则分别对新闻数据进行抽取,获得新闻数据中的风险摘要,无需人工从新闻数据中摘取,从而提高了对风险摘要挖掘的效率。
在上述实施例的基础上,所述信息抽取模型中包括与每个抽取规则对应的新闻类型;所述方法还包括:
根据所述目标抽取规则确定所述新闻数据对应的目标新闻类型。
在具体的实施过程中,在对政策新闻进行挖掘时,可以预先将政策新闻分为针对利率的政策,针对股市的政策和针对行业概念的政策,又由于普遍对利空消息的关注,因此,可以将新闻类型可以包括利率利空政策、股市利空政策和行业概念利空政策。应当说明的是,新闻类型中还可以包括一些利好的消息,例如利率利好政策、股市利好政策和行业概念利好政策,因此,新闻类型可以根据实际情况进行预先设定,本申请实施例对此不作具体限定。
由于每种新闻类型的政策新闻,其内容中的特征不同,即所出现的关键词不同,因此,可以预先分别为每种新闻类型创建对应的抽取规则。当使用目标抽取规则抽取到风险摘要后,便能够获知该风险摘要对应的目标新闻类型。以便后续发送给用户后,使得用户一目了然该风险摘要的类型。
在上述实施例的基础上,在获得目标抽取规则和风险摘要之后,所述方法还包括:
获取属于同一新闻类型的多个风险摘要;
对所述多个风险摘要进行聚类分析,获得至少一个细分类别。
在具体的实施过程中,对于待挖掘的新闻数据较多的情况下,在获得到每个新闻数据中的风险摘要之后,属于同一新闻类型的风险摘要的数量可能也比较多,为了能够对风险信息聚焦,可以再次对属于同一新闻类型的风险摘要进行聚类分析,以获得粒度更小的细分类别。例如:新闻类型为行业概念的风险摘要,行业概念中可以包括网络游戏、猪肉、光学光电子等。如果直接将属于行业概念的风险摘要发送给用户,风险摘要的排列比较杂乱,用户的感受度较差。因此,可以对属于同一个新闻类型的风险摘要进行聚类分析,从而将属于同一个细分类别的风险摘要归为一类。
图2为本申请实施例提供的聚类分析流程示意图,如图2所示,包括:
步骤201:获取均值向量;从属于同一个新闻类型的多个风险摘要中选取K个风险摘要作为均值向量。应当说明的是,K为预先设定的正整数,即要将多个风险摘要分为K个细分类别。K的最大值应当小于风险摘要的总数,当K等于风险摘要的数量时,聚类也就没有意义了。并且,K个风险摘要为随机选取的。K个风险摘要作为K个簇中心。
步骤202:计算距离;计算每个风险摘要分别到K个风险摘要之间的距离,该距离可以是欧氏距离,也可以是曼哈顿距离等。通过计算两个风险摘要的距离来表示这两个风险摘要之间的差异性。
步骤203:归类;对于每一个风险摘要来说,将该风险摘要归为距离最近的那个簇,从而获得对应的簇标记。
步骤204:是否聚类结束;判断聚类是否结束,若结束则执行步骤206,否则执行步骤205;其中,判断聚类是否结束的依据是该簇的均值向量与上一次聚类相比,变化幅度小于预设幅度,或者达到预设的聚类次数;
步骤205:重新计算均值向量;对于每一个簇重新计算均值向量,然后执行步骤202。应当说明的是,步骤202中计算距离时,是计算每个风险摘要距离最新的K个均值向量的距离。
步骤205:输出聚类结果。
本申请实施例通过对同一类型的风险摘要进行聚类分析,将属于同一类型的风险摘要归为一类,以实现对风险摘要的整理。
在上述实施例的基础上,在利用信息抽取模型中的多个抽取规则分别对所述新闻数据进行抽取之前,所述方法还包括:
分别获取所述利率利空政策、股市利空政策和行业概念利空政策对应的关键词;
根据所述利率利空政策的关键词生成所述利率利空政策对应的抽取规则;
根据所述股市利空政策的关键词生成所述股市利空政策对应的抽取规则;
根据所述行业概念利空政策的关键词生成所述行业概念利空政策对应的抽取规则。
在具体的实施过程中,由于不同新闻类型的政策新闻所包含的关键词不同,因此,可以根据不同新闻类型设定不同的关键词,然后根据关键词生成对应的抽取规则。
例如:对于利率利空政策来说,其关键词可以包括存款基准利率、上浮等。因此,在获取到利率利空政策的关键词之后可以生成对应的抽取规则,即:“@.*?存款基准利率.{0,5}?上浮.*?\n@”。在同一段落文本中,存在存款基准利率概念,考虑利率出现上浮的趋势,会促使市场份额缩水,向银行存款转移。对于股市来说,这种利率调整属于利空政策消息。上述抽取表达式的设计,在定位、识别利空消息特征的同时,结合模式匹配技术,实现利空消息特征所在段落信息文本的抽取。
对于行业概念利空政策来说,其抽取规则可以是:“@(\n|^|。).*?(政策|国家|举措).*?(调低|下调|调控|暂停).*?(板块|行业|概念).*?(挫|跌|难|回落|伤|下行|影响).*?\n@”。
对于股市利空政策来说,其抽取规则可以为:“@.*?国家.*?禁止.*?上市.*?\n@”。
在设定上述规则时,挖掘装置提供了规则配置页面,如图3所示,配置人员可以在页面中输入或选择所需的关键词以及逻辑符,挖掘装置在接收到关键词和逻辑符之后,生成对应的抽取规则。
应当说明的是,上述的抽取规则只是一种示意,具体抽取规则可以根据实际情况进行配置,本申请实施例对每种新闻类型对应的抽取规则不作具体限定。
图4为本申请实施例提供的抽取规则显示页面,从页面中可以看出,挖掘装置还提供有对抽取规则进行修改、删除操作。应当说明的是,每种新闻类型可以对应一个抽取规则,也可以对应多个抽取规则。对于某一新闻类型下面还分有更细的类别来说,例如:行业概念利空政策,网络游戏、猪肉、光学光电子等均有其对应的抽取规则。在页面的左侧有新闻类型树,选择新闻类型树中的某个新闻类型后,可以在右侧的抽取表达式列表中显示对应新闻类型的抽取规则。应当说明的是,可以对新闻类型树进行调整,例如增加新闻类型,增加某个新闻类型下的子类型等。
在上述实施例的基础上,所述利用信息抽取模型中的多个抽取规则分别对所述新闻数据进行抽取,获得风险摘要,包括:
将所述新闻数据中的每个段落与抽取规则进行匹配,若匹配成功,则所述抽取规则为目标抽取规则,匹配成功的段落为所述风险摘要。
在具体的实施过程中,在利用抽取规则从新闻数据中抽取风险摘要时,可以将新闻数据中的每个段落与抽取规则进行匹配,如果某个段落满足抽取规则的要求,则将该段落作为风险摘要。
另外,在进行抽取之前,还可以预先对新闻数据进行清洗处理,例如,可以将新闻数据中少于预设字符的段落删除处理,一般篇幅较少的段落可能是标题,或者该段落中信息量太少,不会满足抽取要求,然后再对剩下的段落进行抽取。这样做的好处是能够提高抽取的效率。
图5为本申请实施例提供的抽取结果示意图,如图5所示,可以将新闻数据的挖掘结果进行分类展示。
在另一实施例中,不同的用户可能关注不同类型的政策新闻,因此,用户可以预先在挖掘装置中设定所关注的政策新闻的新闻类型,挖掘装置在获取到风险摘要后,可以根据风险摘要对应的新闻类型,向关注了该新闻类型的用户推送该风险摘要。
另外,不同的用户风险承受值也不同,因此,可以预先对用户进行风险评测,其评测的方法可以是为用户提供一套评测试题,根据用户的回答对用户进行评测,获得该用户的风险承受值。应当说明的是,对于用户的风险承受值的评测还可以使用其他方法,本申请实施例对此不作具体限定。在获取到该用户的风险承受值之后,当抽取到的风险摘要超出该风险承受值,则向该用户发送告警信息。
图6为本申请实施例提供的挖掘装置结构示意图,该装置可以是电子设备上的模块、程序段或代码。应理解,该装置与上述图1方法实施例对应,能够执行图1方法实施例涉及的各个步骤,该装置具体的功能可以参见上文中的描述,为避免重复,此处适当省略详细描述。该挖掘装置包括:数据获取模块601和信息抽取模块602,其中:
数据获取模块601用于获取待挖掘的新闻数据;信息抽取模块602用于利用信息抽取模型中的多个抽取规则分别对所述新闻数据进行抽取,获得风险摘要;其中,所述风险摘要为利用目标抽取规则从所述新闻数据中抽取到的内容,所述目标抽取规则为多个抽取规则中成功抽取到风险摘要的抽取规则。
在上述实施例的基础上,所述信息抽取模型中包括与每个抽取规则对应的新闻类型,所述新闻类型包括利率利空政策、股市利空政策和行业概念利空政策;所述挖掘装置还包括:
类型确定模块,用于根据所述目标抽取规则确定所述新闻数据对应的目标新闻类型。
在上述实施例的基础上,在获得目标抽取规则和风险摘要之后,所述挖掘装置还包括:
聚类模块,用于获取属于同一新闻类型的多个风险摘要;对所述多个风险摘要进行聚类分析,获得至少一个细分类别。
在上述实施例的基础上,聚类模块具体用于:从多个风险摘要中选取K个风险摘要作为均值向量;其中,K为正整数,且K的最大值小于风险摘要的总数;
循环执行簇归类操作,直至计算每个簇的新的均值向量的变化幅度小于预设幅度为止;
其中,所述簇归类操作包括:
计算每个风险摘要到每个均值向量之间的距离;
将距离风险摘要最近的均值向量的标记作为所述风险摘要的簇标记,获得K个簇,计算每个簇的新的均值向量。
在上述实施例的基础上,在利用信息抽取模型中的多个抽取规则分别对所述新闻数据进行抽取之前,所述挖掘装置还包括:
分别获取所述利率利空政策、股市利空政策和行业概念利空政策对应的关键词;
根据所述利率利空政策的关键词生成所述利率利空政策对应的抽取规则;
根据所述股市利空政策的关键词生成所述股市利空政策对应的抽取规则;
根据所述行业概念利空政策的关键词生成所述行业概念利空政策对应的抽取规则。
在上述实施例的基础上,信息抽取模块602具体用于:
将所述新闻数据中的每个段落与抽取规则进行匹配,若匹配成功,则所述抽取规则为目标抽取规则,匹配成功的段落为所述风险摘要。
图7为本申请实施例提供的电子设备实体结构示意图,如图7所示,所述电子设备,包括:处理器(processor)701、存储器(memory)702和总线703;其中,
所述处理器701和存储器702通过所述总线703完成相互间的通信;
所述处理器701用于调用所述存储器702中的程序指令,以执行上述各方法实施例所提供的方法,例如包括:获取待挖掘的新闻数据;利用信息抽取模型中的多个抽取规则分别对所述新闻数据进行抽取,获得风险摘要;其中,所述风险摘要为利用目标抽取规则从所述新闻数据中抽取到的内容,所述目标抽取规则为多个抽取规则中成功抽取到风险摘要的抽取规则。
处理器701可以是一种集成电路芯片,具有信号处理能力。上述处理器701可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。其可以实现或者执行本申请实施例中公开的各种方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器702可以包括但不限于随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。
本实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:获取待挖掘的新闻数据;利用信息抽取模型中的多个抽取规则分别对所述新闻数据进行抽取,获得风险摘要;其中,所述风险摘要为利用目标抽取规则从所述新闻数据中抽取到的内容,所述目标抽取规则为多个抽取规则中成功抽取到风险摘要的抽取规则。
本实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的方法,例如包括:获取待挖掘的新闻数据;利用信息抽取模型中的多个抽取规则分别对所述新闻数据进行抽取,获得风险摘要;其中,所述风险摘要为利用目标抽取规则从所述新闻数据中抽取到的内容,所述目标抽取规则为多个抽取规则中成功抽取到风险摘要的抽取规则。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
再者,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种股市运行风险信息挖掘方法,其特征在于,包括:
获取待挖掘的新闻数据;
利用信息抽取模型中的多个抽取规则分别对所述新闻数据进行抽取,获得风险摘要;
其中,所述风险摘要为利用目标抽取规则从所述新闻数据中抽取到的内容,所述目标抽取规则为多个抽取规则中成功抽取到风险摘要的抽取规则。
2.根据权利要求1所述的方法,其特征在于,所述信息抽取模型中包括与每个抽取规则对应的新闻类型;所述方法还包括:
根据所述目标抽取规则确定所述新闻数据对应的目标新闻类型。
3.根据权利要求2所述的方法,其特征在于,在获得目标抽取规则和风险摘要之后,所述方法还包括:
获取属于同一新闻类型的多个风险摘要;
对所述多个风险摘要进行聚类分析,获得至少一个细分类别。
4.根据权利要求3所述的方法,其特征在于,所述对所述多个风险摘要进行聚类分析,获得至少一个细分类别,包括:
从多个风险摘要中选取K个风险摘要作为均值向量;其中,K为正整数,且K的最大值小于风险摘要的总数;
循环执行簇归类操作,直至计算每个簇的新的均值向量的变化幅度小于预设幅度为止;
其中,所述簇归类操作包括:
计算每个风险摘要到每个均值向量之间的距离;
将距离风险摘要最近的均值向量的标记作为所述风险摘要的簇标记,获得K个簇,计算每个簇的新的均值向量。
5.根据权利要求2所述的方法,其特征在于,所述新闻类型包括利率利空政策、股市利空政策和行业概念利空政策,在利用信息抽取模型中的多个抽取规则分别对所述新闻数据进行抽取之前,所述方法还包括:
分别获取所述利率利空政策、股市利空政策和行业概念利空政策对应的关键词;
根据所述利率利空政策的关键词生成所述利率利空政策对应的抽取规则;
根据所述股市利空政策的关键词生成所述股市利空政策对应的抽取规则;
根据所述行业概念利空政策的关键词生成所述行业概念利空政策对应的抽取规则。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述利用信息抽取模型中的多个抽取规则分别对所述新闻数据进行抽取,获得风险摘要,包括:
将所述新闻数据中的每个段落与抽取规则进行匹配,若匹配成功,则所述抽取规则为目标抽取规则,匹配成功的段落为所述风险摘要。
7.一种股市运行风险信息挖掘装置,其特征在于,包括:
数据获取模块,用于获取待挖掘的新闻数据;
信息抽取模块,用于利用信息抽取模型中的多个抽取规则分别对所述新闻数据进行抽取,获得风险摘要;
其中,所述风险摘要为利用目标抽取规则从所述新闻数据中抽取到的内容,所述目标抽取规则为多个抽取规则中成功抽取到风险摘要的抽取规则。
8.根据权利要求7所述的装置,其特征在于,所述信息抽取模型中包括与每个抽取规则对应的新闻类型,所述挖掘装置还包括:
类型确定模块,用于根据所述目标抽取规则确定所述新闻数据对应的目标新闻类型。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,其中,
所述处理器和所述存储器通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1-6任一项所述的方法。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令被计算机运行时,使所述计算机执行如权利要求1-6任一项所述的方法。
CN201911305866.2A 2019-12-17 2019-12-17 股市运行风险信息挖掘方法及装置 Pending CN111090744A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911305866.2A CN111090744A (zh) 2019-12-17 2019-12-17 股市运行风险信息挖掘方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911305866.2A CN111090744A (zh) 2019-12-17 2019-12-17 股市运行风险信息挖掘方法及装置

Publications (1)

Publication Number Publication Date
CN111090744A true CN111090744A (zh) 2020-05-01

Family

ID=70395640

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911305866.2A Pending CN111090744A (zh) 2019-12-17 2019-12-17 股市运行风险信息挖掘方法及装置

Country Status (1)

Country Link
CN (1) CN111090744A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831193A (zh) * 2012-08-03 2012-12-19 人民搜索网络股份公司 基于分布式多级聚类的话题检测装置及方法
CN103778200A (zh) * 2014-01-09 2014-05-07 中国科学院计算技术研究所 一种报文信息源抽取方法及其系统
CN110362825A (zh) * 2019-06-28 2019-10-22 北京淇瑀信息科技有限公司 一种基于文本的金融数据抽取方法、装置和电子设备
WO2022134794A1 (zh) * 2020-12-22 2022-06-30 深圳壹账通智能科技有限公司 新闻事件的舆情处理方法及装置、存储介质、计算机设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831193A (zh) * 2012-08-03 2012-12-19 人民搜索网络股份公司 基于分布式多级聚类的话题检测装置及方法
CN103778200A (zh) * 2014-01-09 2014-05-07 中国科学院计算技术研究所 一种报文信息源抽取方法及其系统
CN110362825A (zh) * 2019-06-28 2019-10-22 北京淇瑀信息科技有限公司 一种基于文本的金融数据抽取方法、装置和电子设备
WO2022134794A1 (zh) * 2020-12-22 2022-06-30 深圳壹账通智能科技有限公司 新闻事件的舆情处理方法及装置、存储介质、计算机设备

Similar Documents

Publication Publication Date Title
CN109271512B (zh) 舆情评论信息的情感分析方法、装置及存储介质
US20230222366A1 (en) Systems and methods for semantic analysis based on knowledge graph
CN109634698B (zh) 菜单显示方法、装置、计算机设备及存储介质
CN111178380B (zh) 数据分类方法、装置及电子设备
CN110597511A (zh) 一种页面自动生成方法、系统、终端设备及存储介质
CN110737630A (zh) 电子归档文件的处理方法、装置、计算机设备及存储介质
CN110019774B (zh) 标签分配方法、装置、存储介质及电子装置
CN110972086A (zh) 短信息处理方法、装置、电子设备及计算机可读存储介质
CN112527602A (zh) 业务数据统计方法、装置、计算机设备及存储介质
CN110110295B (zh) 大样本研报信息提取方法、装置、设备及存储介质
CN108563786B (zh) 文本分类和展示方法、装置、计算机设备及存储介质
CN111090744A (zh) 股市运行风险信息挖掘方法及装置
CN114925275A (zh) 产品推荐方法、装置、计算机设备及存储介质
CN114298845A (zh) 一种理赔票据处理方法和装置
CN114817518A (zh) 基于大数据档案识别的证照办理方法、系统及介质
CN112558958A (zh) 基于模板的推送内容生成方法、装置及计算机设备
CN111695077A (zh) 资产信息推送方法、终端设备及可读存储介质
EP3956774A1 (en) Company size estimation system
CN110727850A (zh) 网络信息的过滤方法,计算机可读存储介质和移动终端
CN116308237B (zh) 一种erp邮件处理方法及其相关设备
CN111125345B (zh) 数据应用方法和装置
CN110008334B (zh) 一种信息处理方法、装置及存储介质
CN117649305A (zh) 个性化理赔微服务管理方法、装置、设备及存储介质
CN117573982A (zh) 内容推荐方法、装置及设备
CN113157948A (zh) 非结构化数据的审计方法、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: Zone B, 19 / F, building A1, 3333 Xiyou Road, hi tech Zone, Hefei City, Anhui Province

Applicant after: Dingfu Intelligent Technology Co., Ltd

Address before: Room 630, 6th floor, Block A, Wanliu Xingui Building, 28 Wanquanzhuang Road, Haidian District, Beijing

Applicant before: DINFO (BEIJING) SCIENCE DEVELOPMENT Co.,Ltd.