CN117077802B - 一种时序性数据的排序预测方法及装置 - Google Patents
一种时序性数据的排序预测方法及装置 Download PDFInfo
- Publication number
- CN117077802B CN117077802B CN202310714943.XA CN202310714943A CN117077802B CN 117077802 B CN117077802 B CN 117077802B CN 202310714943 A CN202310714943 A CN 202310714943A CN 117077802 B CN117077802 B CN 117077802B
- Authority
- CN
- China
- Prior art keywords
- time sequence
- model
- sequence pair
- data
- chase
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000012163 sequencing technique Methods 0.000 title abstract description 3
- 230000008439 repair process Effects 0.000 claims description 19
- 230000002123 temporal effect Effects 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 7
- 238000010200 validation analysis Methods 0.000 claims description 7
- 238000013473 artificial intelligence Methods 0.000 claims description 6
- 238000012795 verification Methods 0.000 claims description 6
- 238000010801 machine learning Methods 0.000 abstract description 14
- 230000008569 process Effects 0.000 description 10
- 238000012545 processing Methods 0.000 description 7
- 238000012549 training Methods 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000009795 derivation Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000037007 arousal Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Abstract
本发明实施例提供了一种时序性数据的排序预测方法及装置,本申请具体为:所述第一模型获取数据集并依据所述数据集确定第一预测时间顺序对;所述第二模型依据所述第一预测时间顺序对和逻辑规则确定关联时间顺序对;依据所述关联时间顺序对对第一模型进行迭代,直至所述第一预测时间顺序对与所述第二模型输出的关联时间顺序对相同时,所述第一模型输出第二预测时间顺序对;依据所述第二预测时间顺序对生成数据的时效性排序。本申请通过“将机器学习模型和逻辑规则结合”解决了“时效性排序模型来说,很难证明排名是否符合现实世界中的时间顺序”的技术问题,与单独使用时相比,本申请能有效提高机器学习模型和逻辑规则各自的准确性。
Description
技术领域
本发明涉及数据识别领域,具体涉及一种时序性数据的排序预测方法及装置。
背景技术
随着时间的推移,数据的属性值可能会变得过时和不准确。更糟糕的是,可能只有部分可靠的时间戳可用。通常我们说一个时间戳是可靠的,是指该时间戳是精确的,正确的,而且,它表明当时的属性值是正确的和最新的。
现有技术,需要用机器学习。
但对于机器学习有局限性。对于时效性排序模型来说,我们很难证明排名是否符合现实世界中的时间顺序。
发明内容
鉴于所述问题,提出了本申请以便提供克服所述问题或者至少部分地解决所述问题的一种时序性数据的排序预测方法及装置,包括:
一种时序性数据的排序预测方法,所述方法应用于通过人工智能模型预测对数据进行时效性排序;其中,所述人工智能模型包括第一模型和第二模型,包括:
所述第一模型获取数据集并依据所述数据集确定第一预测时间顺序对;
所述第二模型依据所述第一预测时间顺序对和逻辑规则确定关联时间顺序对;
依据所述关联时间顺序对对第一模型进行迭代,直至所述第一预测时间顺序对与所述第二模型输出的关联时间顺序对相同时,所述第一模型输出第二预测时间顺序对;
依据所述第二预测时间顺序对生成数据的时效性排序。
优选地,所述第一模型获取数据集并依据所述数据集确定第一预测时间顺序对的步骤,包括:
所述第一模型获取数据集;其中,所述数据集包含数据和与其一一对应的属性值;所述数据集包括至少两组数据;
所述第一模型依据所述数据的属性值确定第一预测时间顺序对。
优选地,所述第一模型依据所述数据的属性值确定第一预测时间顺序对的步骤,包括:
所述第一模型依据所述数据的属性值得到初始时间顺序对的置信度;
所述第一模型依据所述初始时间顺序对的置信度对所述初始时间顺序进行筛选得到所述第一预测时间顺序对。
优选地,所述第二模型依据所述第一预测时间顺序对和逻辑规则确定关联时间顺序对的步骤,包括:
所述第二模型依据所述第一预测时间顺序和逻辑规则执行追逐程序得到有效追逐和无效追逐;
所述第二模型依据所述有效追逐得到所述关联时间顺序对。
优选地,所述第二模型依据所述第一预测时间顺序和逻辑规则执行追逐程序得到有效追逐和无效追逐的步骤,包括:
所述第二模型追逐程序通过在所述第一预测时间顺序中使用逻辑规则和验证数据来推导修复得到所述有效追逐和无效追逐。
优选地,所述依据所述关联时间顺序对对第一模型进行迭代的步骤,包括:
将所述关联时间顺序对和所述数据集作为输入对所述第一模型进行迭代。
优选地,所述依据所述第二预测时间顺序对生成数据的时效性排序的步骤,包括:
依据所述第二预测时间顺序对生成所述数据的属性值的总顺序。
为实现本申请还包括一种时序性数据的排序预测装置,所述装置,包括:
第一预测时间顺序对模块,用于所述第一模型获取数据集并依据所述数据集确定第一预测时间顺序对;
关联时间顺序对模块,用于所述第二模型依据所述第一预测时间顺序对和逻辑规则确定关联时间顺序对;
第二预测时间顺序对模块,用于依据所述关联时间顺序对对第一模型进行迭代,直至所述第一预测时间顺序对与所述第二模型输出的关联时间顺序对相同时,所述第一模型输出第二预测时间顺序对;
时效性排序模块,用于依据所述第二预测时间顺序对生成数据的时效性排序。
为实现本申请还包括一种计算机电子设备,包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现所述的时序性数据的排序预测方法的步骤。
为实现本申请一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现所述的时序性数据的排序预测方法的步骤。
本申请具有以下优点:
在本申请的实施例中,相对于现有技术中的“时效性排序模型来说,很难证明排名是否符合现实世界中的时间顺序”,本申请提供了“将机器学习模型和逻辑规则结合”的解决方案,具体为:所述第一模型获取数据集并依据所述数据集确定第一预测时间顺序对;所述第二模型依据所述第一预测时间顺序对和逻辑规则确定关联时间顺序对;依据所述关联时间顺序对对第一模型进行迭代,直至所述第一预测时间顺序对与所述第二模型输出的关联时间顺序对相同时,所述第一模型输出第二预测时间顺序对;依据所述第二预测时间顺序对生成数据的时效性排序。本申请通过“将机器学习模型和逻辑规则结合”解决了“时效性排序模型来说,很难证明排名是否符合现实世界中的时间顺序”的问题,与单独使用时相比,本申请的框架能提高机器学习模型和逻辑规则各自的准确性。
附图说明
为了更清楚地说明本申请的技术方案,下面将对本申请的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例提供的一种时序性数据的排序预测方法的步骤流程图;
图2是本申请一实施例提供的一种时序性数据的排序预测方法的结构框架图;
图3是本申请一实施例提供的一种时序性数据的排序预测方法的数据集图;
图4是本申请一实施例提供的一种时序性数据的排序预测装置的结构框图;
图5是本发明一实施例提供的一种计算机设备的结构示意图;
12、计算机设备;14、外部设备;16、处理单元;18、总线;20、网络适配器;22、I/O接口;24、显示器;28、内存;30、随机存取存储器;32、高速缓存存储器;34、存储系统;40、程序/实用工具;42、程序模块。
具体实施方式
为使本申请的所述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
发明人通过分析现有技术发现:随着时间的推移,数据的属性值可能会变得过时和不准确。更糟糕的是,可能只有部分可靠的时间戳可用。通常我们说一个时间戳是可靠的,是指该时间戳是精确的,正确的,而且它表明当时的属性值是正确的和最新的。除了机械原因(恶意攻击或硬件故障)之外,下面的逻辑原因是数据质量中的主要时间戳相关问题,并解释了缺乏可靠时间戳的原因。
一、少时间戳。时间戳可能根本没有被记录。例如,在一个电子健康数据库中,26个关系表中只有16个是时间戳的。即使一个关系表有时间戳,它也可能不完整。
二、不精确的时间戳。时间戳可能过于粗糙,导致不可靠的时间排序。一个电子表格可能会在一天内被员工多次提交到OA系统。如果表格以日期戳进行记录,则我们不清楚哪张表格(全部在同一天)是最新的。在医院数据中也经常遇到类似的问题,只记录了日期。另一个例子涉及时间戳力度不一致(例如,分钟vs.天)。如果两个值分别有“12-8-2021”和“12-8-2021 20:41”的时间戳,则不清楚哪个是最新的。
三、时间戳不正确。很多因素会导致时间戳不正确。以医疗数据为例,一台x光机有许多异步模块,每个模块都有一个本地时钟和一个本地缓冲区。由于值在记录之前首先在缓冲区中排队,因此实际更新值的时间和记录值的时间可能存在差异。
因此本申请要解决的是在没有完整时间戳的情况下,本申请需要确定数据的时效性,确定数据的最新程度。
如图3所示,为一个数据集的图片,考虑一组属于同一个实体的记录。它们的属性值可能会过时和不准确。更糟糕的是,可能只有部分可靠的时间戳可用。在这种情况下,我们如何能判断数据属性的新旧程度,也就是说,假设给定属于同一实体的两条记录t1和t2,我们需要判断t1的A属性值比t2的A属性值要新,表示为t2<At1。
如图3所示的客户记录t1-t6已经被确认是指同一个人玛丽(Mary)。每一个记录记载了她的婚姻状况,工作,孩子数量,SZ(鞋码)的一些属性值。这里面一些记录的属性已经过时了。例如,她的工作、地址和姓氏分别换了4次,5次和2次。并且只有某些属性值可能有可靠的时间戳,例如,t5[工作]和t6[工作]的时间戳可能分别为2016和2019,表示在那个时候,这些属性值是最新的。然而,在没有完整时间戳的情况下,我们很难知道是否t2<LNt6,即t2的姓氏值是被否t6的姓氏值要新,除此之外,玛丽的最近工作是什么等问题都是需要进行排序的。
现有技术通过训练一个时效性排序模型来解决这个问题,该模型根据对象的关联度或重要性对数据属性值进行排序。在这方面,最先进的系统采用深度学习或强化学习,并已用于搜索引擎和机器翻译。通过排序模型,人们可以学习时间顺序,并对于所有记录t1 t2和属性A,判断是否为t2<At1。
另一种方法是使用逻辑规则帮助我们推断时间顺序。以图3为例,同一个人的鞋码通常单调增加(在20岁之前),一个人的地址可能与婚姻状况有关。这些约束都可以抽象成逻辑规则的形式,来进行时序的推导。
然而,机器学习和逻辑规则都有各自的局限性。
对于时效性排序模型来说,我们很难证明排名是否符合现实世界中的时间顺序。对于数据驱动的决策,我们需要确保学习到的顺序是可靠的。此外,这些方法无法解释遵循复杂关系的对象(例如地址)的排序。
对于逻辑规则来说,我们很难找到足够的规则来推断每一对值的相对顺序。当在具有5%初始时间戳的数据集上测试现有的基于规则的方法时,即使是最好的方法也只能推断出16.3%的时间顺序,剩下的78.7%尚未确定。此外,我们很难泛化规则来处理词汇不同但语义相似的值(例如,婚姻状态:结婚vs.已婚)。
一个自然的问题是,是否有可能将机器学习模型和逻辑规则结合在一个统一的框架中,这样我们就可以学习时间顺序,并使用规则来验证排名和改进模型的学习。与单独使用时相比,本申请的框架有效提高机器学习模型和逻辑规则各自的准确性。
因此我们提出了一个用于确定时间顺序的创作者-评论家框架,如图2所示,并开发了系统GATE(门)来实现它。GATE的一个独特之处在于它结合了深度学习和逻辑演绎。下面我们从GATE的架构开始,然后呈现它的整体工作流程。
GATE的最终目标是获得每个属性值的总顺序。如图2所示,GATE首先离线地在数据上发现逻辑规则,用于执行逻辑演绎。然后取一个时序数据库作为输入,并学习和推断出更多的时间顺序对。更具体地说,GATE中的学习和演绎过程迭代地执行两个阶段,即创作者和批评家,如下所示。
需要说明的是,在本发明任一实施例中,所述方法应用于通过人工智能模型预测对数据进行时效性排序;其中,所述人工智能模型包括第一模型和第二模型。
参照图1,示出了本申请一实施例提供的一种时序性数据的排序预测方法的步骤流程图,具体包括如下步骤:
S110、所述第一模型获取数据集并依据所述数据集确定第一预测时间顺序对;
S120、所述第二模型依据所述第一预测时间顺序对和逻辑规则确定关联时间顺序对;
S130、依据所述关联时间顺序对对第一模型进行迭代,直至所述第一预测时间顺序对与所述第二模型输出的关联时间顺序对相同时,所述第一模型输出第二预测时间顺序对;
S140、依据所述第二预测时间顺序对生成数据的时效性排序。
在本申请的实施例中,相对于现有技术中的“时效性排序模型来说,很难证明排名是否符合现实世界中的时间顺序”,本申请提供了“将机器学习模型和逻辑规则结合”的解决方案,具体为:所述第一模型获取数据集并依据所述数据集确定第一预测时间顺序对;所述第二模型依据所述第一预测时间顺序对和逻辑规则确定关联时间顺序对;依据所述关联时间顺序对对第一模型进行迭代,直至所述第一预测时间顺序对与所述第二模型输出的关联时间顺序对相同时,所述第一模型输出第二预测时间顺序对;依据所述第二预测时间顺序对生成数据的时效性排序。本申请通过“将机器学习模型和逻辑规则结合”解决了“时效性排序模型来说,很难证明排名是否符合现实世界中的时间顺序”达到了与单独使用时相比,本申请的框架能提高机器学习模型和逻辑规则各自的准确性。
下面,将对本示例性实施例中的时序性数据的排序预测方法作进一步地说明。
如上述步骤S110所述,所述第一模型获取数据集并依据所述数据集确定第一预测时间顺序对。
在本发明一实施例中,可以结合下列描述进一步说明步骤S110所述“所述第一模型获取数据集并依据所述数据集确定第一预测时间顺序对”的具体过程。
如下列步骤所述,所述第一模型获取数据集;其中,所述数据集包含数据和与其一一对应的属性值;所述数据集包括至少两组数据;所述第一模型依据所述数据的属性值确定第一预测时间顺序对。
在本发明一实施例中,可以结合下列描述进一步说明步骤所述“第一模型依据所述数据的属性值确定第一预测时间顺序对”的具体过程。
如下列步骤所述,所述第一模型依据所述数据的属性值得到初始时间顺序对的置信度;所述第一模型依据所述初始时间顺序对的置信度对所述初始时间顺序进行筛选得到所述第一预测时间顺序对。
作为一种示例,述第一模型依据所述初始时间顺序对的置信度通过预定义的阈值对初始时间顺序对进行筛选,选出高于所示预定义的阈值的初始时间顺序对,得到所述第一预测时间顺序对。
在一具体实施例中,第一模型为创作者。在这个阶段,GATE可以采用任意一个现有的排名模型。给定记录t1 t2和属性A,模型计算出t2<At1的置信度,用conf(t2<At1)表示。当conf(t2<At1)大于一个预定义的阈值δ时,我们称t2<At1为一个候选的时间顺序对。
如上述步骤S120所述,所述第二模型依据所述第一预测时间顺序对和逻辑规则确定关联时间顺序对。
在本发明一实施例中,可以结合下列描述进一步说明步骤S120所述“所述第二模型依据所述第一预测时间顺序对和逻辑规则确定关联时间顺序对”的具体过程。
如下列步骤所述,所述第二模型依据所述第一预测时间顺序和逻辑规则执行追逐程序得到有效追逐和无效追逐;所述第二模型依据所述有效追逐得到所述关联时间顺序对。
如下列步骤所述,所述第二模型追逐程序通过在所述第一预测时间顺序中使用逻辑规则和验证数据来推导修复得到所述有效追逐和无效追逐。
在一具体实施例中,所述第二模型通过逻辑规则对上述第一预测时间进行追逐得到关联时间顺序对;其中,所述逻辑规则与第一预测时间顺序对相关联的数据,进行推导从而得到关联时间顺序对。
在一具体实施例中,第二模型为评论家,在这个阶段,GATE的评论家通过离线时得到的逻辑规则执行追逐程序,来证明和推断更多的时间顺序对。根据追逐程序结果的有效性,我们构建一个增强训练数据,其中可能包括经过验证的时间顺序对和被规则捕获的冲突顺序对。这些信息会反馈给创作者并要求创作者通过相应地修改其模型来解决潜在的冲突,并用于下一轮的模型学习,让创作者可以从更多未知的数据中学习,迭代得到更高的准确率。随着更多的迭代,时间顺序对会逐渐扩展,最终,变得稳定且不变化。
在一具体实施例中,无论多么理想,如果我们以穷尽的方式枚举所有的规则,追逐可能是昂贵的。下面我们提供了一个高效的算法来实现追逐程序。
一个暴力实现的追逐是通过枚举所有规则。如果可以应用,则执行一个追逐步骤,直到追逐序列终止。然而,这种方法开销很大,因为枚举本质上是指数式的。为了应对这一挑战,我们开发了一种高效的算法来实现追逐;关键思想是只在追逐中惰性地唤起与受影响修复相关的规则。
为了允许惰性唤起,规则只有在被一些新推导的时间顺序对唤起时才会生成和应用,而不是在追逐开始时就全部构建。具体来说,当一个新的时间顺序对被推导出来时,我们检查唤起满足下列条件的规则:(a)这个规则受到了被推导的修复的影响,(b)这个规则之前没有被唤起过,(c)这个规则推断出来的时间顺序对从来没有被推导过。我们维护指定的数据结构,以便有效地检查这三个条件。
作为一种示例,追逐程序,是给定一个时序数据库,追逐程序通过在数据中使用规则和验证数据来推导修复。它使用一个集合≤Σ来跟踪追逐中受影响的修复。
具体来说,第i个追逐步骤的形式是:
其中,是一条逻辑规则,h是逻辑规则的应用。逻辑规则的应用需要满足以下条件:(1)满足所有验证数据和(2)第i步的修复被推导出来的t2<At1拓展成为同理≤Σ也被对应的拓展。
从一组初始修复开始,一串追逐序列为:
追逐序列在以下情况之一终止:(1)没有逻辑规则能再被应用。如果是这样,我们说这是有效追逐;或者(2)修复出现了冲突,我们说这是无效追逐。
直观上,当追逐以有效结束时,它可以帮助我们推断出更多的时间顺序对;此外,如果没有无效追逐,它会证明和解释学习到的顺序。当它的结果是无效时时,它就检测到了创作者的预测的冲突时间顺序对。
需要说明的是,修复是指我们通过在数据中应用规则来推导“修复”来扩展时间顺序对,这些修复被建模为临时的时间顺序对t2<At1的集合,用表示,其中每个t2<At1意味着t2<At1被规则推导了出来。值得注意的时,这里我们只会应用被“验证数据”满足的逻辑规则来推导“修复”。直观上,修复是规则和验证数据的逻辑结果,也就是说,只要规则和验证数据是正确的,修复也是正确的。
通常我们说一组修复是没有冲突的,是指不存在任何属性A和记录t1 t2,使得t2<At1和t1<At2同时存在。
验证数据是为了证明修复的正确性,我们维护并使用一个集合的验证数据。刚开始验证数据可由用户少量指定,随后会在迭代的过程中被创作者预测的高于置信度阈值的时间顺序对进行迭代扩展,或者通过在评论家中的追逐推断。
作为一种示例,所述第二模型依据所述有效追逐得到所述关联时间顺序对,将无效追逐去除,将所述有效追逐进行验证数据。
如上述步骤S130所述,依据所述关联时间顺序对对第一模型进行迭代,直至所述第一预测时间顺序对与所述第二模型输出的关联时间顺序对相同时,所述第一模型输出第二预测时间顺序对。
在本发明一实施例中,可以结合下列描述进一步说明步骤S130所述“依据所述关联时间顺序对对第一模型进行迭代,直至所述第一预测时间顺序对与所述第二模型输出的关联时间顺序对相同时,所述第一模型输出第二预测时间顺序对”的具体过程。
如下列步骤所述,将所述关联时间顺序对和所述数据集作为输入对所述第一模型进行迭代。
作为一种示例,将所述关联时间顺序对作为所述第一模型的输入,不断的循环直达所述第一预测时间顺序对与所述第二模型输出的关联时间顺序对相同时,也即第二模型不在输出内容为止,将多次循环后的所述关联时间顺序对放入所述第一模型中得到第二预测时间顺序对。
在一具体实施例中,关联时间顺序对会反馈给创作者并要求创作者通过相应地修改其模型来解决潜在的冲突,并用于下一轮的模型学习,让创作者可以从更多未知的数据中学习,迭代得到更高的准确率。随着更多的迭代,时间顺序对会逐渐扩展,最终,变得稳定且不变化。
如上述步骤S140所述,依据所述第二预测时间顺序对生成数据的时效性排序。
在本发明一实施例中,可以结合下列描述进一步说明步骤S140所述“依据所述第二预测时间顺序对生成数据的时效性排序”的具体过程。
如下列步骤所述,依据所述第二预测时间顺序对生成所述数据的属性值的总顺序。
在一具体实施例中,我们通过在真实数据集上的实验,验证的本发明的有效性。我们实现了基于创作者-评论家框架的系统GATE,并分别对比了单独使用创作者和单独使用评论家的效果。
从实验结果来看,GATE收敛速度很快,平均只需要不到十轮的迭代即可收敛。比如在一个关于足球运动员从FIFA-15(国际足联)到FIFA-22的职业生涯的数据集上,GATE的F1,MRR(Mean Reciprocal Rank,平均倒数排名)和MAP(Mean Average Precision,平均精度均值)指标分别从0.767增加到0.866,0.786增加到0.857,0.752增加到0.809,验证GATE能够推断出最新的值,并产生良好的时效性排名。这是因为创作者迭代地积累了来自评论家的训练数据,使得模型在更多回合中得到了更好的训练;同时,随着创作者预测的结果更好,评论者在随后的回合中为创作者推断出更多的时间顺序对作为增强的训练数据。此外,GATE的准确率和召回率分别为0.859和0.873,表明GATE在两者之间取得了很好的平衡,并且相当准确。
GATE在F1指标上的平均表现分别比创作者和评论家高出7.8%和34.4%,最高可达11.0%和45.6%,相比两者都有所提升。这说明在我们的框架下,创作者和评论家相互受益。在一个深圳个体户创业者的开源数据集COM上,评论家每轮平均生成6千个新的训练数据,5轮后将GATE的F1指标从0.701提高到0.748。
作为一种示例,我们提出GATE,这是一个创作者-批评者框架,通过结合深度学习和逻辑演绎来确定时间顺序。GATE迭代地调用创作者对属性值的时间顺序进行排序,然后由评论家验证创作者的排名,并通过发现的规则推断出更多的时间顺序对。评论家还会为创作者生成增强的训练数据,以在下一轮提高其排名的准确性。这个过程持续进行,创作者和评论家相互增强,直到时间顺序的准确性无法进一步提高。
本申请与基于机器学习时效性排序模型相比,GATE通过评价者基于规则的追逐程序证明了排名是可靠的,是符合现实世界中的时间顺序的。此外,创作者还能为评论家产生更多的时间顺序对,用来进行逻辑推导。
本申请与基于规则的方法相比,GATE具有更强大的泛化能力和鲁棒性。通过对时间顺序对的逻辑推导,能反过来提供增强训练数据给创作者,用于优化模型。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
参照图4,示出了本申请一实施例提供的一种时序性数据的排序预测装置,具体包括如下模块,
第一预测时间顺序对模块410:用于所述第一模型获取数据集并依据所述数据集确定第一预测时间顺序对;
关联时间顺序对模块420:用于所述第二模型依据所述第一预测时间顺序对和逻辑规则确定关联时间顺序对;
第二预测时间顺序对模块430:用于依据所述关联时间顺序对对第一模型进行迭代,直至所述第一预测时间顺序对与所述第二模型输出的关联时间顺序对相同时,所述第一模型输出第二预测时间顺序对;
时效性排序模块440:用于依据所述第二预测时间顺序对生成数据的时效性排序。
在本发明一实施例中,所述第一预测时间顺序对模块410包括:
获取子模块:用于所述第一模型获取数据集;其中,所述数据集包含数据和与其一一对应的属性值;所述数据集包括至少两组数据;
第一预测时间顺序对子模块:用于所述第一模型依据所述数据的属性值确定第一预测时间顺序对。
在本发明一实施例中,所述第一预测时间顺序对子模块包括:
置信度子模块:用于所述第一模型依据所述数据的属性值得到初始时间顺序对的置信度;
筛选子模块:用于所述第一模型依据所述初始时间顺序对的置信度对所述初始时间顺序进行筛选得到所述第一预测时间顺序对。
在本发明一实施例中,所述关联时间顺序对模块420包括:
追逐子模块:用于所述第二模型依据所述第一预测时间顺序和逻辑规则执行追逐程序得到有效追逐和无效追逐;
有效追逐子模块:用于所述第二模型依据所述有效追逐得到所述关联时间顺序对。
在本发明一实施例中,所述第二预测时间顺序对模块430包括:
迭代子模块:用于将所述关联时间顺序对和所述数据集作为输入对所述第一模型进行迭代。
在本发明一实施例中,所述时效性排序模块440包括:
总顺序子模块:用于依据所述第二预测时间顺序对生成所述数据的属性值的总顺序。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
在本具体实施例与上述具体实施例中有重复的操作步骤,本具体实施例仅做简单描述,其余方案参考上述具体实施例描述即可。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
参照图5,示出了本申请的一种时序性数据的排序预测方法的计算机设备,具体可以包括如下:
上述计算机设备12以通用计算设备的形式表现,计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,内存28,连接不同系统组件(包括内存28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、音视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
内存28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器30和/或高速缓存存储器32。计算机设备12可以进一步包括其他移动/不可移动的、易失性/非易失性计算机体统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其他光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质界面与总线18相连。存储器可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块42,这些程序模块42被配置以执行本申请各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器中,这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其他程序模块42以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24、摄像头等)通信,还可与一个或者多个使得操作人员能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其他计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过I/O接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)),广域网(WAN)和/或公共网络(例如因特网)通信。如图5所示,网络适配器20通过总线18与计算机设备12的其他模块通信。应当明白,尽管图5中未示出,可以结合计算机设备12使用其他硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元16、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统34等。
处理单元16通过运行存储在内存28中的程序,从而执行各种功能应用以及数据处理,例如实现本申请实施例所提供的一种时序性数据的排序预测方法。
也即,上述处理单元16执行上述程序时实现:所述第一模型获取数据集并依据所述数据集确定第一预测时间顺序对;所述第二模型依据所述第一预测时间顺序对和逻辑规则确定关联时间顺序对;依据所述关联时间顺序对对第一模型进行迭代,直至所述第一预测时间顺序对与所述第二模型输出的关联时间顺序对相同时,所述第一模型输出第二预测时间顺序对;依据所述第二预测时间顺序对生成数据的时效性排序。
在本申请实施例中,本申请还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请所有实施例提供的一种时序性数据的排序预测方法。
也即,给程序被处理器执行时实现:所述第一模型获取数据集并依据所述数据集确定第一预测时间顺序对;所述第二模型依据所述第一预测时间顺序对和逻辑规则确定关联时间顺序对;依据所述关联时间顺序对对第一模型进行迭代,直至所述第一预测时间顺序对与所述第二模型输出的关联时间顺序对相同时,所述第一模型输出第二预测时间顺序对;依据所述第二预测时间顺序对生成数据的时效性排序。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言——诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在操作人员计算机上执行、部分地在操作人员计算机上执行、作为一个独立的软件包执行、部分在操作人员计算机上部分在远程计算机上执行或者完全在远程计算机或者服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到操作人员计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的一种时序性数据的排序预测方法及装置,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (9)
1.一种时序性数据的排序预测方法,所述方法应用于通过人工智能模型预测对数据进行时效性排序;其中,所述人工智能模型包括第一模型和第二模型,其特征在于,包括:
所述第一模型获取数据集并依据所述数据集确定第一预测时间顺序对;
所述第二模型依据所述第一预测时间顺序对和逻辑规则确定关联时间顺序对;所述第二模型依据所述第一预测时间顺序和逻辑规则执行追逐程序得到有效追逐和无效追逐;所述追逐程序是使用一个集合≤Σ来跟踪追逐中受影响的修复:
具体来说,第i个追逐步骤的形式是:
其中,φ是一条逻辑规则,h是逻辑规则的应用;逻辑规则的应用需要满足以下条件:φ满足所有验证数据;第i步的修复被推导出来的t2<At1拓展成为同理≤Σ也被对应的拓展;
从一组初始修复开始,一串追逐序列为:
追逐序列在以下情况之一终止:没有逻辑规则能再被应用是有效追逐;或者所述修复出现了冲突,是无效追逐;
所述第二模型依据所述有效追逐得到所述关联时间顺序对;
依据所述关联时间顺序对对第一模型进行迭代,直至所述第一预测时间顺序对与所述第二模型输出的关联时间顺序对相同时,所述第一模型输出第二预测时间顺序对;
依据所述第二预测时间顺序对生成数据的时效性排序。
2.根据权利要求1所述的时序性数据的排序预测方法,其特征在于,所述第一模型获取数据集并依据所述数据集确定第一预测时间顺序对的步骤,包括:
所述第一模型获取数据集;其中,所述数据集包含数据和与其一一对应的属性值;所述数据集包括至少两组数据;
所述第一模型依据所述数据的属性值确定第一预测时间顺序对。
3.根据权利要求2所述的时序性数据的排序预测方法,其特征在于,所述第一模型依据所述数据的属性值确定第一预测时间顺序对的步骤,包括:
所述第一模型依据所述数据的属性值得到初始时间顺序对的置信度;
所述第一模型依据所述初始时间顺序对的置信度对所述初始时间顺序进行筛选得到所述第一预测时间顺序对。
4.根据权利要求1所述的时序性数据的排序预测方法,其特征在于,所述第二模型依据所述第一预测时间顺序和逻辑规则执行追逐程序得到有效追逐和无效追逐的步骤,包括:
所述第二模型追逐程序通过在所述第一预测时间顺序中使用逻辑规则和验证数据来推导修复得到所述有效追逐和无效追逐。
5.根据权利要求1所述的时序性数据的排序预测方法,其特征在于,所述依据所述关联时间顺序对对第一模型进行迭代的步骤,包括:
将所述关联时间顺序对和所述数据集作为输入对所述第一模型进行迭代。
6.根据权利要求1所述的时序性数据的排序预测方法,其特征在于,所述依据所述第二预测时间顺序对生成数据的时效性排序的步骤,包括:
依据所述第二预测时间顺序对生成所述数据的属性值的总顺序。
7.一种时序性数据的排序预测装置,所述装置用于通过人工智能模型预测对数据进行时效性排序;其中,所述人工智能模型包括第一模型和第二模型,其特征在于,包括:
第一预测时间顺序对模块,用于所述第一模型获取数据集并依据所述数据集确定第一预测时间顺序对;
关联时间顺序对模块,用于所述第二模型依据所述第一预测时间顺序对和逻辑规则确定关联时间顺序对;所述第二模型依据所述第一预测时间顺序和逻辑规则执行追逐程序得到有效追逐和无效追逐;所述追逐程序是使用一个集合≤Σ来跟踪追逐中受影响的修复:
具体来说,第i个追逐步骤的形式是:
其中,φ是一条逻辑规则,h是逻辑规则的应用;逻辑规则的应用需要满足以下条件:φ满足所有验证数据;第i步的修复被推导出来的t2<At1拓展成为同理≤Σ也被对应的拓展;
从一组初始修复开始,一串追逐序列为:
追逐序列在以下情况之一终止:没有逻辑规则能再被应用是有效追逐;或者所述修复出现了冲突,是无效追逐;
所述第二模型依据所述有效追逐得到所述关联时间顺序对;
第二预测时间顺序对模块,用于依据所述关联时间顺序对对第一模型进行迭代,直至所述第一预测时间顺序对与所述第二模型输出的关联时间顺序对相同时,所述第一模型输出第二预测时间顺序对;
时效性排序模块,用于依据所述第二预测时间顺序对生成数据的时效性排序。
8.一种计算机电子设备,其特征在于,包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至6中任一项所述的时序性数据的排序预测方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的时序性数据的排序预测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310714943.XA CN117077802B (zh) | 2023-06-15 | 一种时序性数据的排序预测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310714943.XA CN117077802B (zh) | 2023-06-15 | 一种时序性数据的排序预测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117077802A CN117077802A (zh) | 2023-11-17 |
CN117077802B true CN117077802B (zh) | 2024-07-02 |
Family
ID=
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102955829A (zh) * | 2011-08-30 | 2013-03-06 | 北京百度网讯科技有限公司 | 用于对资源项进行排序的方法、装置和设备 |
CN115358397A (zh) * | 2022-08-17 | 2022-11-18 | 深圳计算科学研究院 | 一种基于数据采样的并行图规则挖掘方法及装置 |
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102955829A (zh) * | 2011-08-30 | 2013-03-06 | 北京百度网讯科技有限公司 | 用于对资源项进行排序的方法、装置和设备 |
CN115358397A (zh) * | 2022-08-17 | 2022-11-18 | 深圳计算科学研究院 | 一种基于数据采样的并行图规则挖掘方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10963794B2 (en) | Concept analysis operations utilizing accelerators | |
US20200050968A1 (en) | Interactive interfaces for machine learning model evaluations | |
US10936821B2 (en) | Testing and training a question-answering system | |
US20240020579A1 (en) | Computer Model Machine Learning Based on Correlations of Training Data with Performance Trends | |
US9684726B2 (en) | Realtime ingestion via multi-corpus knowledge base with weighting | |
US20200034732A1 (en) | System and Method for Automated Analysis of Ground Truth Using Confidence Model to Prioritize Correction Options | |
CN110688111A (zh) | 业务流程的配置方法、装置、服务器和存储介质 | |
US8650180B2 (en) | Efficient optimization over uncertain data | |
CN115803734A (zh) | 使用动作解释的自然语言丰富 | |
CN117709435B (zh) | 大语言模型的训练方法、代码生成方法、设备及存储介质 | |
CN104580109A (zh) | 生成点选验证码的方法及装置 | |
CN110717008B (zh) | 基于语意识别的搜索结果排序方法及相关装置 | |
CN117216114A (zh) | 一种数据流关联方法、装置、设备及其存储介质 | |
US9940320B2 (en) | Plugin tool for collecting user generated document segmentation feedback | |
CN117077802B (zh) | 一种时序性数据的排序预测方法及装置 | |
CN117077802A (zh) | 一种时序性数据的排序预测方法及装置 | |
CN115358397A (zh) | 一种基于数据采样的并行图规则挖掘方法及装置 | |
CN115186738A (zh) | 模型训练方法、装置和存储介质 | |
CN116578602B (zh) | 一种时序排序方法及装置 | |
CN111914201A (zh) | 网络页面的处理方法及装置 | |
CN116248375B (zh) | 一种网页登录实体识别方法、装置、设备和存储介质 | |
CN113190643B (zh) | 信息生成方法、终端设备和计算机可读介质 | |
CN115250200B (zh) | 服务授权认证方法及其相关设备 | |
US20240202458A1 (en) | Generating prompt recommendations for natural language processing tasks | |
US20230064674A1 (en) | Iterative training of computer model for machine learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |