CN105446995A - 估计数据更新时刻的方法和设备、数据集成方法和设备 - Google Patents

估计数据更新时刻的方法和设备、数据集成方法和设备 Download PDF

Info

Publication number
CN105446995A
CN105446995A CN201410333777.XA CN201410333777A CN105446995A CN 105446995 A CN105446995 A CN 105446995A CN 201410333777 A CN201410333777 A CN 201410333777A CN 105446995 A CN105446995 A CN 105446995A
Authority
CN
China
Prior art keywords
data
upgrade
markov model
http request
hidden markov
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410333777.XA
Other languages
English (en)
Inventor
邹纲
皮冰锋
钟朝亮
张军
孙俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN201410333777.XA priority Critical patent/CN105446995A/zh
Publication of CN105446995A publication Critical patent/CN105446995A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了估计数据更新时刻的方法和设备、数据集成方法和设备。根据本发明的估计数据更新时刻的方法包括:对于仅公开应用程序接口API的黑盒子型服务器,利用隐马尔可夫模型,以第一预定频率,判断当前时刻与API相关联的数据是否已更新,所述隐马尔可夫模型的显式状态是当前时刻数据是否已更新,所述隐马尔可夫模型的隐式状态是距离上一次数据更新的时间;对于可访问服务器,捕获超文本传输协议HTTP请求的出现及其时刻;根据与可访问服务器相关联的数据的更新和HTTP请求的相关性,以第二预定频率,判断当前时刻数据是否已更新。

Description

估计数据更新时刻的方法和设备、数据集成方法和设备
技术领域
本发明一般地涉及信息处理领域。具体而言,本发明涉及一种在数据集成中估计数据更新时刻的方法和设备、以及相应的数据集成方法和设备。
背景技术
在许多大型或者中型的机构,如组织、公司等中,有很多独立的、分隔开的系统,这些系统之间不能彼此交流数据。重构现有系统的代价通常是很高的,不同的系统又存在交流数据的需要。
因此,为了解决这一问题,提出了数据集成技术。如图1所示,数据仓库被利用来存储数据,作为数据中心。基于数据仓库中的数据,可以进行数据呈现和数据挖掘等。数据仓库中的数据是通过数据导入从数据源获得的。数据源例如是数据库管理系统、Excel表格、网络APP(应用)等。当然,希望数据仓库中的数据与原始的数据源尽可能地保持一致。但是,何时更新在数据仓库中的数据是很难把握的。如果更新得不及时,则数据仓库中的数据不是最新的。如果更新得过于频繁,又产生了过多的资源消耗。
此外,如下两种情况更是增加了数据集成的困难。一种情况是作为数据源的系统是一个黑盒子型服务器。这种服务器除了应用程序接口(ApplicationProgrammingInterface,API)之外,没有提供任何接口帮助判断数据更新时刻。另一种情况是系统部署在局域网中,无法接触到应用,但是可以接触到服务器,即,可访问服务器,但不能访问驻留在服务器上的应用。
因此,期望一种针对如上所述的两种情况能够以较小的资源、较准确地估计数据更新时刻的方法和设备、以及相应的数据集成方法和设备。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
本发明的目的是针对现有技术的上述问题,提出了一种针对如上所述的两种情况能够以较小的资源消耗为代价相对准确地估计数据更新时刻的方法和设备、以及相应的数据集成方法和设备。
为了实现上述目的,根据本发明的一个方面,提供了一种估计数据更新时刻的方法,该方法包括:对于仅公开应用程序接口API的黑盒子型服务器,利用隐马尔可夫模型,以第一预定频率,判断当前时刻与API相关联的数据是否已更新,所述隐马尔可夫模型的显式状态是当前时刻数据是否已更新,所述隐马尔可夫模型的隐式状态是距离上一次数据更新的时间;对于可访问服务器,捕获超文本传输协议HTTP请求的出现及其时刻;根据与可访问服务器相关联的数据的更新和HTTP请求的相关性,以第二预定频率,判断当前时刻数据是否已更新。
相应地,根据本发明的再一方面,提供了一种数据集成方法,该方法包括:根据如上所述的估计数据更新时刻的方法,估计所述仅公开应用程序接口的黑盒子型服务器或可访问服务器的数据是否已更新;以及如果判断为数据已更新,则从相应服务器获取相应的数据并存储到数据中心。
根据本发明的另一个方面,提供了一种估计数据更新时刻的设备,该设备包括:第一判断装置,对于仅公开应用程序接口API的黑盒子型服务器,利用隐马尔可夫模型,以第一预定频率,判断当前时刻与API相关联的数据是否已更新,所述隐马尔可夫模型的显式状态是当前时刻数据是否已更新,所述隐马尔可夫模型的隐式状态是距离上一次数据更新的时间;第二判断装置,对于可访问服务器,捕获超文本传输协议HTTP请求的出现及其时刻;根据与可访问服务器相关联的数据的更新和HTTP请求的相关性,以第二预定频率,判断当前时刻数据是否已更新。
相应地,根据本发明的再一方面,提供了一种数据集成设备,其包括:如上所述的估计数据更新时刻的设备,用于估计所述仅公开应用程序接口的黑盒子型服务器或可访问服务器的数据是否已更新;以及获取装置,在判断为数据已更新的情况下从相应服务器获取相应的数据并存储到数据中心。
另外,根据本发明的另一方面,还提供了一种存储介质。所述存储介质包括机器可读的程序代码,当在信息处理设备上执行所述程序代码时,所述程序代码使得所述信息处理设备执行根据本发明的上述方法。
此外,根据本发明的再一方面,还提供了一种程序产品。所述程序产品包括机器可执行的指令,当在信息处理设备上执行所述指令时,所述指令使得所述信息处理设备执行根据本发明的上述方法。
附图说明
参照下面结合附图对本发明实施例的说明,会更加容易地理解本发明的以上和其它目的、特点和优点。附图中的部件只是为了示出本发明的原理。在附图中,相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。附图中:
图1示出了数据集成系统的示意图;
图2示出了根据本发明的实施例的估计数据更新时刻的方法的流程图;
图3示出了根据本发明的实施例的隐马尔可夫模型的训练方法的流程图;
图4示出了根据本发明的实施例的计算相关性的方法的流程图;
图5示出了监测结果的示例;
图6示出了根据本发明实施例的估计数据更新时刻的设备的结构方框图;
图7示出了根据本发明实施例的数据集成设备的结构方框图;以及
图8示出了可用于实施根据本发明实施例的方法和设备的计算机的示意性框图。
具体实施方式
在下文中将结合附图对本发明的示范性实施例进行详细描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施方式的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤,而省略了与本发明关系不大的其他细节。另外,还需要指出的是,在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。
下面将参照图2描述根据本发明的实施例的估计数据更新时刻的方法的流程。
图2示出了根据本发明的实施例的估计数据更新时刻的方法的流程图。如图2所示,根据本发明的估计数据更新时刻的方法包括如下步骤:对于仅公开应用程序接口API的黑盒子型服务器,利用隐马尔可夫模型,以第一预定频率,判断当前时刻与API相关联的数据是否已更新,所述隐马尔可夫模型的显式状态是当前时刻数据是否已更新,所述隐马尔可夫模型的隐式状态是距离上一次数据更新的时间(步骤S1)。另外,根据本发明的估计数据更新时刻的方法,对于可访问服务器,首先捕获超文本传输协议HTTP请求的出现及其时刻(步骤S21);然后根据与可访问服务器相关联的数据的更新和HTTP请求的相关性,以第二预定频率,判断当前时刻数据是否已更新(步骤S22)。
步骤S1针对仅公开应用程序接口的黑盒子型服务器进行处理。
由于黑盒子型服务器仅公开应用程序接口,所以只能观测数据是否已更新的历史,根据观测的结果,预测将来数据的更新时刻。这样的观测和预测通过隐马尔可夫模型来实现。
具体地,将隐马尔可夫模型的显式状态设定为当前时刻数据是否已更新,将隐马尔可夫模型的隐式状态设定为距离上一次数据更新的时间。通过对隐马尔可夫模型进行上述设定,并利用历史数据对隐马尔可夫模型进行训练,就能够利用隐马尔可夫模型进行关于数据更新时刻的判断。
在实际应用时,利用隐马尔可夫模型,以第一预定频率,判断当前时刻与应用程序接口相关联的数据是否已更新。
此处的第一预定频率可以由本领域技术人员灵活设计,在设计时,可考虑系统资源、判断和更新的及时性等因素。
第一预定频率如果过于频繁,则会增加很多无谓的探测和判断,增加系统资源的消耗。第一预定频率如果过于稀疏,则会不利于及时更新数据。
应注意,应用时的频率与训练时的频率相同,均为第一预定频率。
举例来说,第一预定频率可以被设计为每小时一次。
由于黑盒子型服务器仅公开了应用程序接口,所以无论训练还是应用时,隐马尔可夫模型只能判断与应用程序接口相关联的数据是否已更新。
与应用程序接口相关联的数据例如是应用程序接口能够提供的各种参数,这样的数据是希望在数据中心(数据仓库)中存储并更新的、能够从应用程序接口获得的数据。
如上所述,需要利用隐马尔可夫模型观测这样的数据,从而对数据的更新时刻进行预测。
图3示出了根据本发明的实施例的隐马尔可夫模型的训练方法的流程图。如图3所示,根据本发明的训练隐马尔可夫模型的方法包括如下步骤:以第一预定频率访问应用程序接口,以确定数据是否已更新,从而得到表征数据是否已更新的第一观测序列(步骤S31);利用所得到的第一观测序列,训练隐马尔可夫模型(步骤S32)。
具体地,在步骤S31中,以第一预定频率访问应用程序接口,以确定数据是否已更新,从而得到表征数据是否已更新的第一观测序列。
通过访问应用程序接口,可以确定感兴趣的数据是否已更新。通过以第一预定频率访问应用程序接口,可以避免浪费过多的系统资源同时避免数据更新不及时。
可以进行如下的设定来表征数据是否已更新,并相应地获得第一观测序列:如果数据已更新,则表示为1;如果数据未更新,则表示为0。
相应地,例如,第一观测序列可以表示为:
......ti-2ti-1titi+1......
......1001......。
其中,时刻ti-2、ti-1、ti、ti+1分别对应数据已更新(“1”)、数据未更新(“0”)、数据未更新(“0”)、数据已更新(“1”)。
在步骤S32中,利用所得到的第一观测序列,训练隐马尔可夫模型。
隐马尔可夫模型的隐式状态,即距离上一次数据更新的时间,可以表示为hstate。隐马尔可夫模型的显式状态,即当前时刻数据是否已更新,可以表示为statei。i表示与时刻ti对应。如上所述,第一预定频率可以为1小时一次,也即时刻ti-2、ti-1、ti、ti+1等分别间隔一小时。因此,可以基于第一观测序列,训练隐马尔可夫模型。
在隐马尔可夫模型中,ti时刻的显式状态的概率P(statei)可根据下式计算:
P(statei)=P(hstatei|hstatei-1)*P(statei|hstatei)
P(hstatei|hstatei-1)为转移概率,P(statei|hstatei)为发射概率。
隐马尔可夫模型的隐式状态的数量是有限的。例如,假定两次更新的最大距离是一个月,第一预定频率为每小时一次。那么,总计有30*24=720个隐式状态。
模型的参数,如P(hstatei|hstatei-1)和P(statei|hstatei)是从作为历史数据的训练数据中训练得到的。
举例来说,模型参数(发射概率)可以用如下的等式来预测:
P ( [ state = 1 ] | [ hstate = 10 ] ) = co - occurrence _ count ( state = 1 , hstate = 10 ) all _ occurrence _ count ( hstate )
P([state=1]|[hstate=10])表示hstate等于10时,state等于1的概率。co-occurrence_count(state=1,hstate=10)表示hstate等于10和state等于1同时出现的次数,all_occurrence_count(hstate)表示hstate的各种取值的出现总次数。
转移概率的计算类似。本领域技术人员熟悉隐马尔可夫模型的训练和参数计算,在此不再赘述。
在应用时,可以根据P(statei=1)和P(statei=0)哪个概率更高来判断当前时刻ti数据是否已更新,并相应地知晓是否该执行数据获取操作。如果P(statei=1)大于P(statei=0),则判断为当前时刻数据已更新,从应用程序接口获取相应的数据以进行更新,否则判断为当前时刻数据未更新,不需要执行获取和更新操作。
此外,观测从应用程序接口获取的数据是否确实相对于之前获取的数据存在更新,并将观测结果用作隐马尔可夫模型的新的训练数据。
以上介绍了针对黑盒子型服务器如何利用隐马尔可夫模型对数据是否已更新进行判断的方法。以下介绍针对可访问服务器如何判断数据是否已更新。
如图2所示,在步骤S21中,捕获超文本传输协议请求的出现及其时刻。
由于能够对可访问服务器进行操作,所以在可访问服务器中安装软件,监控其输入输出。具体地,监控超文本传输协议(HypertextTransferProtocol,HTTP)请求的出现及其时刻,从而学习到哪些请求能够导致数据的改变。
因此,在应用时,首先捕获HTTP请求的出现及其时刻。
HTTP请求包括HTTPPOST请求和HTTPGET请求。
然后,在步骤S22中,根据与可访问服务器相关联的数据的更新和HTTP请求之间的相关性,以第二预定频率,判断当前时刻数据是否已更新。
也就是说,为了减少系统的负担,并不是一旦捕获到HTTP请求就判断当前时刻数据是否已更新。而是,以第二预定频率去判断当前时刻数据是否已更新。
举例来说,第二预定频率为每三十分钟一次。在这种情况下,每隔30分钟,根据这三十分钟内捕获到的HTTP请求以及更新与请求的相关性来判断当前时刻数据是否已更新。
如果判断为当前时刻数据已更新,则从可访问服务器获取相应的数据用以更新。优选地,观测从可访问服务器获取的数据是否确实相对于之前获取的数据存在更新,并将观测结果用于相关性的计算。
如果判断为当前时刻数据未更新,则不获取数据也不进行更新。
相关性由HTTP请求和数据已更新的状态的共现概率、HTTP请求和数据未更新的状态的共现概率来表征。
当一个HTTP请求和数据已更新的状态的共现概率大于该HTTP请求和数据未更新的状态的共现概率时,判断为当前时刻数据已更新;当一个HTTP请求和数据已更新的状态的共现概率小于该HTTP请求和数据未更新的状态的共现概率时,判断为当前时刻数据未更新。
显然,训练的重点是获得与可访问服务器相关联的数据的更新和HTTP请求的相关性,即两种共现概率。
下面将参照图4描述根据本发明的实施例的计算相关性的方法的流程。
图4示出了根据本发明的实施例的计算相关性的方法的流程图。如图4所示,根据本发明的计算相关性的方法包括如下步骤:监测可访问服务器的HTTP流,以获得HTTP请求及其出现时刻(步骤S41);以第二预定频率,访问可访问服务器,以获得表征数据是否已更新的第二观测序列(步骤S42);利用已获得的HTTP请求及其出现时刻、以及所述第二观测序列,计算所述相关性(步骤S43)。
在步骤S41中,监测可访问服务器的HTTP流,以获得HTTP请求及其出现时刻。
监测的结果例如如图5上部所示。
随着时间的推移,检测到HTTP请求“1.jsp”、“2.jsp”、“3.jsp”、“1.jsp”、“2.jsp”、......。
在步骤S42中,以第二预定频率,访问可访问服务器,以获得表征数据是否已更新的第二观测序列。
第二观测序列例如如图5下部所示。
在每个30分钟的间隙里,数据改变事件分别为“1”、“0”、“0”、......,“1”表示数据已改变,“0”表示数据未改变。
在步骤S43中,利用已获得的HTTP请求及其出现时刻、以及第二观测序列,计算相关性。
相关性的基本思想是如果某个HTTP请求总与数据改变事件同时出现(发生),则很有可能这个HTTP请求是导致数据改变的原因,这个HTTP请求与数据改变事件的相关性强。
如上所述,相关性由HTTP请求和数据已更新的状态的共现概率、HTTP请求和数据未更新的状态的共现概率表征。
具体地,可以采用如下方式计算共现概率。
以图5为例,首先,从第二观测序列中提取出HTTP请求与数据改变事件的共现对,例如表示为:[1.jsp,1]、[2.jsp,1]、[1.jsp,0]、......。
然后,统计每种共现对的出现次数,例如表示为:{[1.jsp,1],10}、{[2.jsp,0],5}、.......。其中,{[1.jsp,1],10}表示HTTP请求“1.jsp”与数据改变事件“1”在第二观测序列中共同出现的次数为10次。
最后,计算各个HTTP请求与各个数据改变事件的共现概率。例如,HTTP请求“1.jsp”与数据改变事件“1”的共现概率P([1.jsp,1])=10/total[1.jsp,*]。10表示HTTP请求“1.jsp”与数据改变事件“1”在第二观测序列中共同出现的次数为10次。total[1.jsp,*]表示HTTP请求“1.jsp”在第二观测序列中出现的总次数。
类似地,可以计算其它的共现概率。
所计算的共现概率,可以表征相关性,用于判断数据是否已更新。
以上,介绍了针对黑盒子型服务器和可访问服务器,如何利用本发明的方法来判断数据是否已更新。
相应地,根据本发明的另一方面,提出了一种数据集成方法,该数据集成方法包括:根据如上所述的估计数据更新时刻的方法,估计仅公开应用程序接口的黑盒子型服务器或可访问服务器的数据是否已更新;以及如果判断为数据已更新,则从相应服务器获取相应的数据并存储到数据中心。如果判断为数据未更新,则不进行任何操作。
其中,数据中心包括数据仓库,其存储用于数据呈现和数据挖掘的数据。
下面,将参照图6描述根据本发明实施例的估计数据更新时刻的设备。
图6示出了根据本发明实施例的估计数据更新时刻的设备的结构方框图。如图6所示,根据本发明的估计数据更新时刻的估计设备600包括:第一判断装置61,对于仅公开应用程序接口API的黑盒子型服务器,利用隐马尔可夫模型,以第一预定频率,判断当前时刻与API相关联的数据是否已更新,所述隐马尔可夫模型的显式状态是当前时刻数据是否已更新,所述隐马尔可夫模型的隐式状态是距离上一次数据更新的时间;以及第二判断装置62,对于可访问服务器,捕获超文本传输协议HTTP请求的出现及其时刻;根据与可访问服务器相关联的数据的更新和HTTP请求的相关性,以第二预定频率,判断当前时刻数据是否已更新。
在一个实施例中,估计设备600还包括第一训练装置,被配置为:以所述第一预定频率访问API,以确定数据是否已更新,从而得到表征数据是否已更新的第一观测序列;以及利用所得到的第一观测序列,训练隐马尔可夫模型。
在一个实施例中,估计设备600还包括第一更新装置,被配置为:在所述第一判断装置61判断为当前时刻与API相关联的数据已更新的情况下,从API获取相应的数据用以更新。
在一个实施例中,第一更新装置还被配置为:观测从API获取的数据是否确实相对于之前获取的数据存在更新,并将观测结果传递给所述第一训练装置用作所述隐马尔可夫模型的新的训练数据。
在一个实施例中,估计设备600还包括相关性计算装置,被配置为:监测可访问服务器的HTTP流,以获得HTTP请求及其出现时刻;以所述第二预定频率,访问所述可访问服务器,以获得表征数据是否已更新的第二观测序列;以及利用已获得的HTTP请求及其出现时刻、以及所述第二观测序列,计算所述相关性。
在一个实施例中,相关性由HTTP请求和数据已更新的状态的共现概率、HTTP请求和数据未更新的状态的共现概率来表征。
在一个实施例中,估计设备600还包括第二更新装置,被配置为:在所述第二判断装置62判断为当前时刻与可访问服务器相关的数据已更新的情况下,从可访问服务器获取相应的数据用以更新。
在一个实施例中,第二更新装置还被配置为:观测从可访问服务器获取的数据是否确实相对于之前获取的数据存在更新,并将观测结果传送给所述相关性计算装置用于所述相关性的计算。
在一个实施例中,HTTP请求包括HTTPPOST请求和HTTPGET请求。
由于在根据本发明的估计设备600中所包括的各个装置和单元中的处理分别与上面描述的估计方法中所包括的各个步骤中的处理类似,因此为了简洁起见,在此省略这些装置和单元的详细描述。
图7示出了根据本发明实施例的数据集成设备的结构方框图。如图7所示,根据本发明的数据集成设备700包括:如上所述的估计数据更新时刻的估计设备600,用于估计仅公开应用程序接口的黑盒子型服务器或可访问服务器的数据是否已更新;以及获取装置70,在估计设备600判断为数据已更新的情况下从服务器获取相应的数据并存储到数据中心。
在一个实施例中,数据中心包括数据仓库,其存储用于数据呈现和数据挖掘的数据。
此外,这里尚需指出的是,上述设备中各个组成装置、单元可以通过软件、固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知,在此不再赘述。在通过软件或固件实现的情况下,从存储介质或网络向具有专用硬件结构的计算机(例如图8所示的通用计算机800)安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等。
图8示出了可用于实施根据本发明实施例的方法和设备的计算机的示意性框图。
在图8中,中央处理单元(CPU)801根据只读存储器(ROM)802中存储的程序或从存储部分808加载到随机存取存储器(RAM)803的程序执行各种处理。在RAM803中,还根据需要存储当CPU801执行各种处理等等时所需的数据。CPU801、ROM802和RAM803经由总线804彼此连接。输入/输出接口805也连接到总线804。
下述部件连接到输入/输出接口805:输入部分806(包括键盘、鼠标等等)、输出部分807(包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分808(包括硬盘等)、通信部分809(包括网络接口卡比如LAN卡、调制解调器等)。通信部分809经由网络比如因特网执行通信处理。根据需要,驱动器810也可连接到输入/输出接口805。可拆卸介质811比如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器810上,使得从中读出的计算机程序根据需要被安装到存储部分808中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质811安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图8所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质811。可拆卸介质811的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM802、存储部分808中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
本发明还提出一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时,可执行上述根据本发明实施例的方法。
相应地,用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。
在上面对本发明具体实施例的描述中,针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。
此外,本发明的方法不限于按照说明书中描述的时间顺序来执行,也可以按照其他的时间顺序地、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。
尽管上面已经通过对本发明的具体实施例的描述对本发明进行了披露,但是,应该理解,上述的所有实施例和示例均是示例性的,而非限制性的。本领域的技术人员可在所附权利要求的精神和范围内设计对本发明的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本发明的保护范围内。
附记
1.一种估计数据更新时刻的方法,包括:
对于仅公开应用程序接口API的黑盒子型服务器,
利用隐马尔可夫模型,以第一预定频率,判断当前时刻与API相关联的数据是否已更新,所述隐马尔可夫模型的显式状态是当前时刻数据是否已更新,所述隐马尔可夫模型的隐式状态是距离上一次数据更新的时间;
对于可访问服务器,
捕获超文本传输协议HTTP请求的出现及其时刻;
根据与可访问服务器相关联的数据的更新和HTTP请求的相关性,以第二预定频率,判断当前时刻数据是否已更新。
2.如附记1所述的方法,其中,所述隐马尔可夫模型通过如下步骤获得:
以所述第一预定频率访问API,以确定数据是否已更新,从而得到表征数据是否已更新的第一观测序列;
利用所得到的第一观测序列,训练隐马尔可夫模型。
3.如附记2所述的方法,其中,在利用隐马尔可夫模型进行所述判断时,如果判断为当前时刻与API相关联的数据已更新,则从API获取相应的数据以进行用以更新。
4.如附记3所述的方法,其中,观测从API获取的数据是否确实相对于之前获取的数据存在更新,并将观测结果用作所述隐马尔可夫模型的新的训练数据。
5.如附记1所述的方法,其中,所述相关性通过如下步骤获得:
监测可访问服务器的HTTP流,以获得HTTP请求及其出现时刻;
以所述第二预定频率,访问所述可访问服务器,以获得表征数据是否已更新的第二观测序列;
利用已获得的HTTP请求及其出现时刻、以及所述第二观测序列,计算所述相关性。
6.如附记1所述的方法,其中,所述相关性由HTTP请求和数据已更新的状态的共现概率、HTTP请求和数据未更新的状态的共现概率来表征。
7.如附记5所述的方法,其中,在根据相关性进行所述判断时,如果判断为当前时刻与可访问服务器相关联的数据已更新,则从可访问服务器获取相应的数据用以更新。
8.如附记7所述的方法,其中,观测从可访问服务器获取的数据是否确实相对于之前获取的数据存在更新,并将观测结果用于所述相关性的计算。
9.如附记1所述的方法,其中所述HTTP请求包括HTTPPOST请求和HTTPGET请求。
10.一种数据集成方法,包括:
根据附记1-9之一所述的估计数据更新时刻的方法,估计所述仅公开应用程序接口的黑盒子型服务器或可访问服务器的数据是否已更新;
如果判断为数据已更新,则从相应服务器获取相应的数据并存储到数据中心。
11.如附记10所述的数据集成方法,其中所述数据中心包括数据仓库,所述数据仓库存储用于数据呈现和数据挖掘的数据。
12.一种估计数据更新时刻的设备,包括:
第一判断装置,对于仅公开应用程序接口API的黑盒子型服务器,利用隐马尔可夫模型,以第一预定频率,判断当前时刻与API相关联的数据是否已更新,所述隐马尔可夫模型的显式状态是当前时刻数据是否已更新,所述隐马尔可夫模型的隐式状态是距离上一次数据更新的时间;
第二判断装置,对于可访问服务器,
捕获超文本传输协议HTTP请求的出现及其时刻;
根据与可访问服务器相关联的数据的更新和HTTP请求的相关性,以第二预定频率,判断当前时刻数据是否已更新。
13.如附记12所述的设备,还包括第一训练装置,被配置为:
以所述第一预定频率访问API,以确定数据是否已更新,从而得到表征数据是否已更新的第一观测序列;
利用所得到的第一观测序列,训练隐马尔可夫模型。
14.如附记13所述的设备,还包括第一更新装置,被配置为:在所述第一判断装置判断为当前时刻与API相关联的数据已更新的情况下,从API获取相应的数据用以更新。
15.如附记14所述的设备,其中,所述第一更新装置还被配置为:观测从API获取的数据是否确实相对于之前获取的数据存在更新,并将观测结果传递给所述第一训练装置用作所述隐马尔可夫模型的新的训练数据。
16.如附记12所述的设备,还包括相关性计算装置,被配置为:
监测可访问服务器的HTTP流,以获得HTTP请求及其出现时刻;
以所述第二预定频率,访问所述可访问服务器,以获得表征数据是否已更新的第二观测序列;
利用已获得的HTTP请求及其出现时刻、以及所述第二观测序列,计算所述相关性。
17.如附记12所述的设备,其中,所述相关性由HTTP请求和数据已更新的状态的共现概率、HTTP请求和数据未更新的状态的共现概率来表征。
18.如附记16所述的设备,还包括第二更新装置,被配置为:在所述第二判断装置判断为当前时刻与可访问服务器相关联的数据已更新的情况下,从可访问服务器获取相应的数据用以更新。
19.如附记18所述的设备,其中,所述第二更新装置还被配置为:观测从可访问服务器获取的数据是否确实相对于之前获取的数据存在更新,并将观测结果传送给所述相关性计算装置用于所述相关性的计算。
20.如附记12所述的设备,其中所述HTTP请求包括HTTPPOST请求和HTTPGET请求。

Claims (10)

1.一种估计数据更新时刻的方法,包括:
对于仅公开应用程序接口API的黑盒子型服务器,
利用隐马尔可夫模型,以第一预定频率,判断当前时刻与API相关联的数据是否已更新,所述隐马尔可夫模型的显式状态是当前时刻数据是否已更新,所述隐马尔可夫模型的隐式状态是距离上一次数据更新的时间;
对于可访问服务器,
捕获超文本传输协议HTTP请求的出现及其时刻;
根据与可访问服务器相关联的数据的更新和HTTP请求的相关性,以第二预定频率,判断当前时刻数据是否已更新。
2.如权利要求1所述的方法,其中,所述隐马尔可夫模型通过如下步骤获得:
以所述第一预定频率访问API,以确定数据是否已更新,从而得到表征数据是否已更新的第一观测序列;
利用所得到的第一观测序列,训练隐马尔可夫模型。
3.如权利要求2所述的方法,其中,在利用隐马尔可夫模型进行所述判断时,如果判断为当前时刻与API相关联的数据已更新,则从API获取相应的数据用以更新。
4.如权利要求3所述的方法,其中,观测从API获取的数据是否确实相对于之前获取的数据存在更新,并将观测结果用作所述隐马尔可夫模型的新的训练数据。
5.如权利要求1所述的方法,其中,所述相关性通过如下步骤获得:
监测可访问服务器的HTTP流,以获得HTTP请求及其出现时刻;
以所述第二预定频率,访问所述可访问服务器,以获得表征数据是否已更新的第二观测序列;
利用已获得的HTTP请求及其出现时刻、以及所述第二观测序列,计算所述相关性。
6.如权利要求1所述的方法,其中,所述相关性由HTTP请求和数据已更新的状态的共现概率、HTTP请求和数据未更新的状态的共现概率来表征。
7.如权利要求5所述的方法,其中,在根据相关性进行所述判断时,如果判断为当前时刻与可访问服务器相关联的数据已更新,则从可访问服务器获取相应的数据用以更新。
8.如权利要求7所述的方法,其中,观测从可访问服务器获取的数据是否确实相对于之前获取的数据存在更新,并将观测结果用于所述相关性的计算。
9.一种数据集成方法,包括:
根据权利要求1-8之一所述的估计数据更新时刻的方法,估计所述仅公开应用程序接口的黑盒子型服务器或可访问服务器的数据是否已更新;
如果判断为数据已更新,则从相应服务器获取相应的数据并存储到数据中心。
10.一种估计数据更新时刻的设备,包括:
第一判断装置,对于仅公开应用程序接口API的黑盒子型服务器,利用隐马尔可夫模型,以第一预定频率,判断当前时刻与API相关联的数据是否已更新,所述隐马尔可夫模型的显式状态是当前时刻数据是否已更新,所述隐马尔可夫模型的隐式状态是距离上一次数据更新的时间;
第二判断装置,对于可访问服务器,
捕获超文本传输协议HTTP请求的出现及其时刻;
根据与可访问服务器相关联的数据的更新和HTTP请求的相关性,以第二预定频率,判断当前时刻数据是否已更新。
CN201410333777.XA 2014-07-14 2014-07-14 估计数据更新时刻的方法和设备、数据集成方法和设备 Pending CN105446995A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410333777.XA CN105446995A (zh) 2014-07-14 2014-07-14 估计数据更新时刻的方法和设备、数据集成方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410333777.XA CN105446995A (zh) 2014-07-14 2014-07-14 估计数据更新时刻的方法和设备、数据集成方法和设备

Publications (1)

Publication Number Publication Date
CN105446995A true CN105446995A (zh) 2016-03-30

Family

ID=55557191

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410333777.XA Pending CN105446995A (zh) 2014-07-14 2014-07-14 估计数据更新时刻的方法和设备、数据集成方法和设备

Country Status (1)

Country Link
CN (1) CN105446995A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108228879A (zh) * 2018-01-23 2018-06-29 平安普惠企业管理有限公司 一种数据更新方法、存储介质和智能设备
CN109298831A (zh) * 2017-07-24 2019-02-01 北京京东尚科信息技术有限公司 信息存储方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040003042A1 (en) * 2001-06-28 2004-01-01 Horvitz Eric J. Methods and architecture for cross-device activity monitoring, reasoning, and visualization for providing status and forecasts of a users' presence and availability
CN102087709A (zh) * 2009-12-04 2011-06-08 索尼公司 学习设备、学习方法以及程序

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040003042A1 (en) * 2001-06-28 2004-01-01 Horvitz Eric J. Methods and architecture for cross-device activity monitoring, reasoning, and visualization for providing status and forecasts of a users' presence and availability
CN102087709A (zh) * 2009-12-04 2011-06-08 索尼公司 学习设备、学习方法以及程序

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《南京大学学报(自然科学)》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109298831A (zh) * 2017-07-24 2019-02-01 北京京东尚科信息技术有限公司 信息存储方法和装置
CN109298831B (zh) * 2017-07-24 2021-05-25 北京京东尚科信息技术有限公司 信息存储方法和装置
CN108228879A (zh) * 2018-01-23 2018-06-29 平安普惠企业管理有限公司 一种数据更新方法、存储介质和智能设备

Similar Documents

Publication Publication Date Title
CN107316083B (zh) 用于更新深度学习模型的方法和装置
US8584079B2 (en) Quality on submit process
EP3726779A1 (en) Device for testing blockchain network
US20190028498A1 (en) Threat Modeling Tool Using Machine Learning
US20120167104A1 (en) System and method for extending legacy applications with undo/redo functionality
CN109861842A (zh) 服务器集群的运维方法、装置、电子设备及存储介质
US8839197B2 (en) Automated analysis of composite applications
CN103780636A (zh) 一种缓存数据处理方法和系统
CN112785144A (zh) 基于联邦学习的模型构建方法、设备及存储介质
CN114239853A (zh) 模型训练方法、装置、设备、存储介质以及程序产品
CN105446995A (zh) 估计数据更新时刻的方法和设备、数据集成方法和设备
CN114238993A (zh) 风险检测方法、装置、设备及介质
US20190324606A1 (en) Online training of segmentation model via interactions with interactive computing environment
Nguyen et al. sae: A stata package for unit level small area estimation
US20210110287A1 (en) Causal Reasoning and Counterfactual Probabilistic Programming Framework Using Approximate Inference
CN111198902A (zh) 元数据管理方法、装置、存储介质及电子设备
CN116541069A (zh) 关键函数评估方法、装置、电子设备、介质和程序产品
CN110618814A (zh) 数据可视化方法、装置、电子设备及计算机可读存储介质
CN111507852A (zh) 基于大数据的保险方案的确定方法、装置、介质及设备
CN109597819B (zh) 用于更新数据库的方法和装置
Nguyen et al. Small area estimation: An extended ELL approach
EP3921747A1 (en) Systems and methods for item response modelling of digital assessments
CN107623583B (zh) 数据交互处理方法、装置及系统
Abdelmoez et al. Methodology for maintainability-based risk assessment
US20140281755A1 (en) Identify Failed Components During Data Collection

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160330

WD01 Invention patent application deemed withdrawn after publication