CN105787075A - 一种基于数据挖掘的事件预测方法和装置 - Google Patents

一种基于数据挖掘的事件预测方法和装置 Download PDF

Info

Publication number
CN105787075A
CN105787075A CN201610118099.4A CN201610118099A CN105787075A CN 105787075 A CN105787075 A CN 105787075A CN 201610118099 A CN201610118099 A CN 201610118099A CN 105787075 A CN105787075 A CN 105787075A
Authority
CN
China
Prior art keywords
search data
search
prediction
predicted event
event
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610118099.4A
Other languages
English (en)
Inventor
杨兴
杨晓静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201610118099.4A priority Critical patent/CN105787075A/zh
Publication of CN105787075A publication Critical patent/CN105787075A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Databases & Information Systems (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Tourism & Hospitality (AREA)
  • Operations Research (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Quality & Reliability (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种基于数据挖掘的事件预测方法和装置,其中方法包括:针对各对象提取与所预测事件相关的搜索数据;分别针对各对象识别在第一设定时段内所述搜索数据所体现特征值的离群值;将离群值满足预设预测条件的对象送入备选集合;确定预测结果为:所述备选集合中的对象在未来的第二设定时段内会发生所述所预测事件。通过本发明能够较为准确地实现对突发事件的预测。

Description

一种基于数据挖掘的事件预测方法和装置
【技术领域】
本发明涉及计算机应用技术领域,特别涉及一种基于数据挖掘的事件预测方法和装置。
【背景技术】
在社会发展过程中,往往存在着很多突发事件,这些突发事件往往会在相关领域带来巨大影响,与人们的生活也息息相关。但因为突发事件具有突发性、随机性和不确定性非常难以预测,但人们对于突发事件的预测准确性却提出了较高的要求。例如,对于股票领域而言,股权激励是一种突发事件。上市公司在实施股权激励后,其股价会有稳定的超额收益,因而对于股民来说,股权激励的预测有着非常重要的意义。然而,目前尚不存在一种较为准确的事件预测方式。
【发明内容】
有鉴于此,本发明提供了一种基于数据挖掘的事件预测方法和装置,以便于较为准确地实现对突发事件的预测。
具体技术方案如下:
本发明提供了一种基于数据挖掘的事件预测方法,该方法包括:
针对各对象提取与所预测事件相关的搜索数据;
分别针对各对象识别在第一设定时段内所述搜索数据所体现特征值的离群值;
将离群值满足预设预测条件的对象送入备选集合;
确定预测结果为:所述备选集合中的对象在未来的第二设定时段内会发生所述所预测事件。
根据本发明一优选实施方式,所述针对各对象提取与所预测事件相关的搜索数据包括:
提取包含对象关键字和所预测事件关键字的搜索项所对应的搜索数据;或者,
提取包含对象关键字的搜索项所对应的搜索数据,从提取的搜索数据中筛选出与所预测事件相关的搜索数据;或者,
提取包含所预测事件关键字的搜索项所对应的搜索数据,从提取的搜索数据中筛选出与对象相关的搜索数据。
根据本发明一优选实施方式,所述搜索数据所体现特征值包括:
单位时间的搜索量、点击量和浏览量中的至少一种。
根据本发明一优选实施方式,所述将离群值满足预设预测条件的对象送入备选集合包括:
将在第三设定时段内检测出M次离群值的对象送入备选集合,所述M为预设的正整数,所述第一设定时段包含所述第三设定时段。
根据本发明一优选实施方式,在预测所述备选集合中的对象在未来的第二设定时段内会发生所述所预测事件之前,还包括:
删除所述备选集合中在设定第四时段内发生过所述所预测事件的对象。
根据本发明一优选实施方式,该方法还包括:
利用预测准确率,调整所述预测条件。
根据本发明一优选实施方式,该方法还包括:
输出在未来的第二设定时段内会发生所述所预测事件的对象信息。
根据本发明一优选实施方式,所述对象包括股票、期货或基金;
所述所预测事件包括:股权激励、定向增发、高管增减持、并购重组或分红。
本发明还提供了一种基于数据挖掘的事件预测装置,该装置包括:
数据提取单元,用于针对各对象提取与所预测事件相关的搜索数据;
离群值识别单元,用于分别针对各对象识别在第一设定时段内所述搜索数据所体现特征值的离群值;
条件判决单元,用于将离群值满足预设预测条件的对象送入备选集合;
事件预测单元,用于确定预测结果为:所述备选集合中的对象在未来的第二设定时段内会发生所述所预测事件。
根据本发明一优选实施方式,所述数据提取单元,具体用于:
提取包含对象关键字和所预测事件关键字的搜索项所对应的搜索数据;或者,
提取包含对象关键字的搜索项所对应的搜索数据,从提取的搜索数据中筛选出与所预测事件相关的搜索数据;或者,
提取包含所预测事件关键字的搜索项所对应的搜索数据,从提取的搜索数据中筛选出与对象相关的搜索数据。
根据本发明一优选实施方式,所述搜索数据所体现特征值包括:
单位时间的搜索量、点击量和浏览量中的至少一种。
根据本发明一优选实施方式,所述条件判决单元,具体用于:
将在第三设定时段内检测出M次离群值的对象送入备选集合,所述M为预设的正整数,所述第一设定时段包含所述第三设定时段。
根据本发明一优选实施方式,该装置还包括:
对象筛选单元,用于删除所述备选集合中在设定第四时段内发生过所述所预测事件的对象。
根据本发明一优选实施方式,该装置还包括:
条件调整单元,用于利用预测准确率,调整所述预测条件。
根据本发明一优选实施方式,该装置还包括:
结果输出单元,用于输出在未来的第二设定时段内会发生所述所预测事件的对象信息。
根据本发明一优选实施方式,所述对象包括股票、期货或基金;
所述所预测事件包括:股权激励、定向增发、高管增减持、并购重组或分红。
由以上技术方案可以看出,通过本发明所提供的方式,能够对各对象的与所预测事件相关的搜索数据进行挖掘,基于搜索数据所体现特征值的离群值,对未来的设定时段内发送所预测事件的对象进行预测,从而实现较为准确地对突发事件的预测。
【附图说明】
图1为本发明实施例提供的主要方法流程图;
图2为本发明实施例提供的对股票的股权激励进行预测的方法流程图;
图3为本发明实施例提供的装置结构图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
图1为本发明实施例提供的主要方法流程图,如图1中所示,该方法可以主要包括以下步骤:
在101中,针对各对象提取与所预测事件相关的搜索数据。
搜索数据是提供搜索服务的公司的核心数据,其应用于数据分析进行事件预测具有重要意义。在本发明实施例中,可以从大规模的搜索数据中提取出与针对各对象所预测事件相关的搜索数据。
在本步骤中,可以采用但不限于以下几种方式:
第一种方式:提取包含对象关键字和所预测事件关键字的搜索项所对应的搜索数据。例如将“对象名称+事件名称”作为搜索项,提取搜索日志中该搜索项对应的搜索数据。
第二种方式:提取包含对象关键字的搜索项所对应的搜索数据,再从提取的搜索数据中筛选出与所预测事件相关的搜索数据。例如,先将“对象名称”作为搜索项,提取搜索日志中该搜索项对应的搜索数据,然后再从提取的搜索数据中基于“事件名称”作为关键词筛选出包含该“事件名称”的搜索数据。
第三种方式:提取包含所预测事件关键字的搜索项所对应的搜索数据,从提取的搜索数据中筛选出与对象相关的搜索数据。例如,先将“事件名称”作为搜索项,提取搜索日志中该搜索项对应的搜索数据,然后再从提取的搜索数据中基于“对象名称”作为关键词筛选出包含“对象名称”的搜索数据。
在102中,分别针对各对象识别在第一设定时段内搜索数据所体现特征值的离群值。
在统计学中,将数据中与其他数值相比差异较大的值称为离群值。通常离群值在一定程度上代表异常信息,具有很大的研究价值。
在本发明实施例中,搜索数据所体现特征值可以包括单位时间的搜索量、点击量、浏览量等中的至少一种。可以针对各对象分别统计第一设定时段内各单位时间的搜索量、点击量、浏览量等中的至少一种,然后从中找出离群值。举一个例子,先针对某对象分别统计三个月内每一天的搜索量,然后找出离群值,该离群值对应的搜索量与其他天的搜索量相差较大。
对于离群值的判定方法本发明并不加以限制,可以采用统计学中的任一种判定方法,例如可以将第一设定时段内搜索数据所体现特征值作为一个数据向量,将其中大于该数据向量的四分位值的1.5倍的数据作为离群值。当然,也可以采用其他离群值的判定方法,在此不再一一穷举。
在103中,将离群值满足预设预测条件的对象送入备选集合。
在针对各对象识别出离群值后,可以对离群值进行预设预测条件的判决,将满足预设预测条件的对象送入备选集合,该备选集合中的对象即为可能发生所预测事件的对象。
其中预设预测条件可以依据实际的预测场景和需求进行灵活设置,同时该预测条件也可以根据后续的预测结果准确度进行自适应调整。在本发明实施例中,可以将第三设定时段内检测出M次离群值的对象标识送入备选集合,其中上述的第一设定时段包含第三设定时段,M为预设的正整数。
在104中,预测上述备选集合中的对象在未来的第二设定时段内会发生所述所预测事件。
另外,在执行本步骤之前,还可以对备选集合进行一些筛选处理,例如进行去重、基于专家知识的删除等,还可以针对存在解锁期的预测事件,将仍处于解锁期的对象从备选集合中删除,即删除备选集合中在设定第四时段内发生过所预测事件的对象,其中第四时段为所预测事件的解锁期。
对于备选集合中的对象可以预测其在未来的第二设定时段内会发生所预测事件,该第二设定时段的设置可以根据历史的统计数据确定。对于预测结果可以实时输出,也可以存储于数据库中供用户查询。
在本发明实施例中,还可以进一步利用备选集合中各对象在未来的第二设定时段内发生所预测事件的概率即预测准确率,调整预测条件。该调整可以是用户依据经验进行干预调整,也可以是自适应的调整过程。另外,也可以预先针对各参数分别采用不同的参数值进行测试,最终根据实际需求得到最优的参数值组合。
本发明所提供的上述方法可以适用于多种对象和多种类型的事件预测。例如对象可以是股票、期货、基金,所预测事件可以是诸如股权激励、高送转、定向增发、并购重组、分红、高管增减持等公司行为。下面以对股票的股权激励为例,对上述方法进行详细描述。
图2为本发明实施例提供的对股票的股权激励进行预测的方法流程图,如图2所示,该方法可以包括以下步骤:
在201中,针对各支股票提取与股权激励相关的搜索数据。
在本步骤中,可以首先获得仅3个月内所有A股的搜索数据,然后从中针对各支股票提取与股权激励相关的搜索数据。采用的方式可以包括但不限于以下几种方式:
第一种方式:可以提取包含股票关键字和股权激励关键字的搜索项所对应的搜索数据。例如,对于股票“华联控股”而言,可以将“华联控股股权激励”作为搜索项,获取该搜索项对应的搜索数据。
第二种方式:可以提取包含股票关键词的搜索项所对应的搜索数据,再从中筛选出与股权激励相关的搜索数据。例如,先将“华联控股”作为搜索项,提取搜索日志中该搜索项对应的搜索数据,然后再从中山选出包含“股权激励”的搜索数据。
第三种方式:可以提取包含股权激励相关关键词的搜索项所对应的搜索数据,再从中筛选出与股票关键词相关的搜索数据。例如,现将“股权激励”作为搜索项,提取搜索日志中该搜索项对应的搜索数据,然后再从中山选出包含“华联控股”的搜索数据。
在202中,分别针对各支股票识别在过去近三个月内对应的日搜索量的离群值。
其中近三个月是本实施例所举的一个第一设定时段的例子,也可以根据需求或经验设置其他数值。日搜索量也是本实施例所举的一个搜索数据所体现特征值的例子,也可以采用诸如日点击量、日浏览量、周点击量、周浏览量等其他特征值。
在本步骤中,首先针对各支股票分别统计过去近三个月内对应的日搜索量,然后分别离群值。例如,若针对“华联控股”提取的搜索数据中,日搜索量大多在2000左右,其中有一天的日搜索量达到了5000,那么该日的搜索量就为一个离群值,或者其中有一天的日搜索量为15,那么该日的搜索量就为一个离群值。
在203中,将近7日内产生3个离群值的股票标识加入备选集合。
同样,此处的近7日产生3个离群值是本实施例对预测条件所举的例子。股票标识可以采用但不限于股票名称、股票代码等。
在204中,将5年内实施过股权激励的股票标识从备选集合中删除。
由于股票的股权激励的平均解锁期为5年,因此5年内再次实施股权激励的可能性极低,其离群值可能是其他原因造成的搜索数据异常,因此将该股票标识从备选集合中删除。
在205中,预测备选集合中的股票在未来的3个月内会发生股权激励。
在206中,输出预测结果。
在本实施例中,输出的预测结果可以是3个月内会发生股权激励的股票名称、股票代码等。
本发明所示方法实施例的执行主体可以为事件预测装置,该装置可以位于终端本地的应用,或者还可以为位于终端本地应用中的插件或软件开发工具包(SoftwareDevelopmentKit,SDK)等功能单元,或者,还可以位于服务器端,本发明实施例对此不进行特别限定。
对于事件预测装置所位于终端的应用,例如股票类应用,可以周期性地进行事件预测(例如每天都进行预测),也可以应用户请求或其他事件触发进行事件预测。然后在应用界面上以弹出窗口、系统消息或者其他形式输出3个月内会发生股权激励的股票名称或股票代码。
对图2所示流程所产生的预测结果进行验证,从2013年开始至今的股票的股权激励采用上述方式进行预测,采用153个股票样本,最终成功预测的数量为112,也就是预测准确率为73%。截取2015-1-1至2015-9-30的预测数据如表1所示。
表1
可见,采用该方式进行的股权激励预测的准确率还是比较可观的。即便预测得到的准确率和理想准确率存在一定偏差,则可以采用回测的方式进行预测条件的调整。
例如:在上述实施例中,第一设定时段的时长一方面与预测准确率(即备选集合中各对象在未来的第二设定时段内发送所预测事件的概率)相关,另一方面也与样本数据(提取的搜索数据)的时间长度相关,样本数据的时间长度越长,样本数据越多,带来的计算量也较大。需要在两者之间取一个平衡,例如可以分别采用60天、90天和120天分别进行测试,分别得到各预测准确率,再综合考虑各参数值所带来的计算量,最终选择一个优选的参数值作为第一设定时段的时长。
对于第三设定时段的长度选择以及离群值次数M的选择,其意义在于选取近期呈上升趋势的信号,尽量排除由于其他因素导致的偶然性。一方面参数值的选择会影响预测准确率,另一方面参数值的选择也导致对象的漏选(即某对象实际发生了预测事件,但并未预测到),因此同样需要在两者之间取得一个平衡。可以通过对预测准确率的回测,选择最优的参数组合。例如若7天内2次检测到离群值,预测准确率为63%,则可以调整参数为7天内3次检测到离群值,预测准确率为73%,漏选率较低。若调整参数为7天内4次检测到离群值,则预测准确率虽然升高为75%,但漏选率大幅度上升。则最终综合考虑可以选择参数组合为:7天内3次检测到离群值。
以上是对本发明所提供方法进行的详细描述,下面结合实施例对本发明提供的装置进行详细描述。
图3为本发明实施例提供的装置结构图,如图3所示,该装置可以包括:数据提取单元01、离群值识别单元02、条件判决单元03和事件预测单元04,还可以包括对象筛选单元05、条件调整单元06或结果输出单元07。各组成单元的主要功能如下:
数据提取单元01负责针对各对象提取与所预测事件相关的搜索数据。其中,数据提取单元01可以采用但不限于以下几种方式:
第一种方式:提取包含对象关键字和所预测事件关键字的搜索项所对应的搜索数据。
第二种方式:提取包含对象关键字的搜索项所对应的搜索数据,从提取的搜索数据中筛选出与所预测事件相关的搜索数据。
第三种方式:提取包含所预测事件关键字的搜索项所对应的搜索数据,从提取的搜索数据中筛选出与对象相关的搜索数据。
离群值识别单元02负责分别针对各对象识别在第一设定时段内搜索数据所体现特征值的离群值。其中,搜索数据所体现特征值可以包括:单位时间的搜索量、点击量和浏览量中的至少一种。举一个例子,先针对某对象分别统计三个月内每一天的搜索量,然后找出离群值,该离群值对应的搜索量与其他天的搜索量相差较大。
对于离群值的判定方法本发明并不加以限制,可以采用统计学中的任一种判定方法,例如可以将第一设定时段内搜索数据所体现特征值作为一个数据向量,将其中大于该数据向量的四分位值的1.5倍的数据作为离群值。当然,也可以采用其他离群值的判定方法,在此不再一一穷举。
条件判决单元03负责将离群值满足预设预测条件的对象送入备选集合。其中预设预测条件可以依据实际的预测场景和需求进行灵活设置,同时该预测条件也可以根据后续的预测结果准确度进行自适应调整。在本发明实施例中,可以将第三设定时段内检测出M次离群值的对象标识送入备选集合,其中上述的第一设定时段包含第三设定时段,M为预设的正整数。
对象筛选单元05负责删除备选集合中在设定第四时段内发生过所预测事件的对象。该第四时段通常与所预测事件的解锁期相关。除此之外,该对象筛选单元05还可以进行诸如去重、基于专家知识的删除等等。
事件预测单元04负责确定预测结果为:备选集合中的对象在未来的第二设定时段内会发生所预测事件。该第二设定时段的设置可以根据历史的统计数据确定。对于预测结果可以实时输出,也可以存储于数据库中供用户查询。
条件调整单元06,用于利用预测准确率,调整预测条件。该调整可以是用户依据经验进行干预调整,也可以是自适应的调整过程。
结果输出单元07负责输出在未来的第二设定时段内会发生所述所预测事件的对象信息。
该装置可以位于本地终端的应用,或者还可以为位于本地终端的应用中的插件或软件开发工具包(SoftwareDevelopmentKit,SDK)等功能单元,或者,还可以位于服务器端,本发明实施例对此不进行特别限定。
对于事件预测装置所位于终端的应用,例如股票类应用,可以周期性地进行事件预测(例如每天都进行预测),也可以应用户请求或其他事件触发进行事件预测。然后在应用界面上以弹出窗口、系统消息或者其他形式输出3个月内会发生股权激励的股票名称或股票代码,以供用户进行查看和参考。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(RandomAccessMemory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (16)

1.一种基于数据挖掘的事件预测方法,其特征在于,该方法包括:
针对各对象提取与所预测事件相关的搜索数据;
分别针对各对象识别在第一设定时段内所述搜索数据所体现特征值的离群值;
将离群值满足预设预测条件的对象送入备选集合;
确定预测结果为:所述备选集合中的对象在未来的第二设定时段内会发生所述所预测事件。
2.根据权利要求1所述的方法,其特征在于,所述针对各对象提取与所预测事件相关的搜索数据包括:
提取包含对象关键字和所预测事件关键字的搜索项所对应的搜索数据;或者,
提取包含对象关键字的搜索项所对应的搜索数据,从提取的搜索数据中筛选出与所预测事件相关的搜索数据;或者,
提取包含所预测事件关键字的搜索项所对应的搜索数据,从提取的搜索数据中筛选出与对象相关的搜索数据。
3.根据权利要求1所述的方法,其特征在于,所述搜索数据所体现特征值包括:
单位时间的搜索量、点击量和浏览量中的至少一种。
4.根据权利要求1所述的方法,其特征在于,所述将离群值满足预设预测条件的对象送入备选集合包括:
将在第三设定时段内检测出M次离群值的对象送入备选集合,所述M为预设的正整数,所述第一设定时段包含所述第三设定时段。
5.根据权利要求1所述的方法,其特征在于,在预测所述备选集合中的对象在未来的第二设定时段内会发生所述所预测事件之前,还包括:
删除所述备选集合中在设定第四时段内发生过所述所预测事件的对象。
6.根据权利要求4所述的方法,其特征在于,该方法还包括:
利用预测准确率,调整所述预测条件。
7.根据权利要求1所述的方法,其特征在于,该方法还包括:
输出在未来的第二设定时段内会发生所述所预测事件的对象信息。
8.根据权利要求1至7任一权项所述的方法,其特征在于,所述对象包括股票、期货或基金;
所述所预测事件包括:股权激励、定向增发、高管增减持、并购重组或分红。
9.一种基于数据挖掘的事件预测装置,其特征在于,该装置包括:
数据提取单元,用于针对各对象提取与所预测事件相关的搜索数据;
离群值识别单元,用于分别针对各对象识别在第一设定时段内所述搜索数据所体现特征值的离群值;
条件判决单元,用于将离群值满足预设预测条件的对象送入备选集合;
事件预测单元,用于确定预测结果为:所述备选集合中的对象在未来的第二设定时段内会发生所述所预测事件。
10.根据权利要求9所述的装置,其特征在于,所述数据提取单元,具体用于:
提取包含对象关键字和所预测事件关键字的搜索项所对应的搜索数据;或者,
提取包含对象关键字的搜索项所对应的搜索数据,从提取的搜索数据中筛选出与所预测事件相关的搜索数据;或者,
提取包含所预测事件关键字的搜索项所对应的搜索数据,从提取的搜索数据中筛选出与对象相关的搜索数据。
11.根据权利要求9所述的装置,其特征在于,所述搜索数据所体现特征值包括:
单位时间的搜索量、点击量和浏览量中的至少一种。
12.根据权利要求9所述的装置,其特征在于,所述条件判决单元,具体用于:
将在第三设定时段内检测出M次离群值的对象送入备选集合,所述M为预设的正整数,所述第一设定时段包含所述第三设定时段。
13.根据权利要求9所述的装置,其特征在于,该装置还包括:
对象筛选单元,用于删除所述备选集合中在设定第四时段内发生过所述所预测事件的对象。
14.根据权利要求12所述的装置,其特征在于,该装置还包括:
条件调整单元,用于利用预测准确率,调整所述预测条件。
15.根据权利要求9所述的装置,其特征在于,该装置还包括:
结果输出单元,用于输出在未来的第二设定时段内会发生所述所预测事件的对象信息。
16.根据权利要求9至15任一权项所述的装置,其特征在于,所述对象包括股票、期货或基金;
所述所预测事件包括:股权激励、定向增发、高管增减持、并购重组或分红。
CN201610118099.4A 2016-03-02 2016-03-02 一种基于数据挖掘的事件预测方法和装置 Pending CN105787075A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610118099.4A CN105787075A (zh) 2016-03-02 2016-03-02 一种基于数据挖掘的事件预测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610118099.4A CN105787075A (zh) 2016-03-02 2016-03-02 一种基于数据挖掘的事件预测方法和装置

Publications (1)

Publication Number Publication Date
CN105787075A true CN105787075A (zh) 2016-07-20

Family

ID=56387868

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610118099.4A Pending CN105787075A (zh) 2016-03-02 2016-03-02 一种基于数据挖掘的事件预测方法和装置

Country Status (1)

Country Link
CN (1) CN105787075A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107451249A (zh) * 2017-07-28 2017-12-08 成都澳海川科技有限公司 事件发展趋势的预测方法及装置
CN111242311A (zh) * 2020-01-06 2020-06-05 高盈量化云科技(深圳)有限公司 一种多线条集合有效输出方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103176983A (zh) * 2011-12-20 2013-06-26 中国科学院计算机网络信息中心 一种基于互联网信息的事件预警方法
CN103176981A (zh) * 2011-12-20 2013-06-26 中国科学院计算机网络信息中心 一种事件信息挖掘并预警的方法
CN104699725A (zh) * 2013-12-10 2015-06-10 阿里巴巴集团控股有限公司 数据搜索处理方法及系统
CN105095414A (zh) * 2015-07-10 2015-11-25 百度在线网络技术(北京)有限公司 用于预测网络搜索量的方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103176983A (zh) * 2011-12-20 2013-06-26 中国科学院计算机网络信息中心 一种基于互联网信息的事件预警方法
CN103176981A (zh) * 2011-12-20 2013-06-26 中国科学院计算机网络信息中心 一种事件信息挖掘并预警的方法
CN104699725A (zh) * 2013-12-10 2015-06-10 阿里巴巴集团控股有限公司 数据搜索处理方法及系统
CN105095414A (zh) * 2015-07-10 2015-11-25 百度在线网络技术(北京)有限公司 用于预测网络搜索量的方法和装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107451249A (zh) * 2017-07-28 2017-12-08 成都澳海川科技有限公司 事件发展趋势的预测方法及装置
CN107451249B (zh) * 2017-07-28 2020-01-21 成都澳海川科技有限公司 事件发展趋势的预测方法及装置
CN111242311A (zh) * 2020-01-06 2020-06-05 高盈量化云科技(深圳)有限公司 一种多线条集合有效输出方法
CN111242311B (zh) * 2020-01-06 2020-12-01 高盈量化云科技(深圳)有限公司 一种多线条集合有效输出方法

Similar Documents

Publication Publication Date Title
CN107609708B (zh) 一种基于手机游戏商店的用户流失预测方法及系统
CN105590055B (zh) 用于在网络交互系统中识别用户可信行为的方法及装置
US10033694B2 (en) Method and device for recognizing an IP address of a specified category, a defense method and system
US7809718B2 (en) Method and apparatus for incorporating metadata in data clustering
CN107895011B (zh) 会话信息的处理方法、系统、存储介质和电子设备
CN112329811B (zh) 异常账号识别方法、装置、计算机设备和存储介质
CN110633330A (zh) 事件发现方法、装置、设备及存储介质
CN105095434B (zh) 时效需求识别方法及装置
CN109284369B (zh) 证券新闻资讯重要性的判定方法、系统、装置及介质
CN109754290B (zh) 一种游戏数据的处理方法和装置
CN108804577B (zh) 一种资讯标签兴趣度的预估方法
EP3608802A1 (en) Model variable candidate generation device and method
CN112395881B (zh) 物料标签的构建方法、装置、可读存储介质及电子设备
CN112101692B (zh) 移动互联网质差用户的识别方法及装置
CN105405051B (zh) 金融事件预测方法和装置
CN109978575B (zh) 一种挖掘用户流量经营场景的方法及装置
CN115619245A (zh) 一种基于数据降维方法的画像构建和分类方法及系统
CN111967807A (zh) 计算机执行的风险事件判别规则的生成方法及装置
CN114186760A (zh) 一种企业稳健运营的分析方法、系统及可读存储介质
CN112818230A (zh) 内容推荐方法、装置、电子设备和存储介质
CN116226173A (zh) 数据查询方法、装置、存储介质和电子设备
CN113901037A (zh) 数据管理方法、装置及存储介质
CN113988195A (zh) 一种私域流量线索挖掘方法、装置、车辆、可读介质
CN112182390B (zh) 一种函件推送方法、装置、计算机设备及存储介质
CN105787075A (zh) 一种基于数据挖掘的事件预测方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination