CN112905801B - 基于事件图谱的行程预测方法、系统、设备及存储介质 - Google Patents

基于事件图谱的行程预测方法、系统、设备及存储介质 Download PDF

Info

Publication number
CN112905801B
CN112905801B CN202110180596.8A CN202110180596A CN112905801B CN 112905801 B CN112905801 B CN 112905801B CN 202110180596 A CN202110180596 A CN 202110180596A CN 112905801 B CN112905801 B CN 112905801B
Authority
CN
China
Prior art keywords
event
travel
graph
map
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110180596.8A
Other languages
English (en)
Other versions
CN112905801A (zh
Inventor
汤才芳
鞠剑勋
李健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ctrip Travel Information Technology Shanghai Co Ltd
Original Assignee
Ctrip Travel Information Technology Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ctrip Travel Information Technology Shanghai Co Ltd filed Critical Ctrip Travel Information Technology Shanghai Co Ltd
Priority to CN202110180596.8A priority Critical patent/CN112905801B/zh
Publication of CN112905801A publication Critical patent/CN112905801A/zh
Application granted granted Critical
Publication of CN112905801B publication Critical patent/CN112905801B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/14Travel agencies

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Tourism & Hospitality (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Computational Linguistics (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • General Business, Economics & Management (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Marketing (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Animal Behavior & Ethology (AREA)
  • Primary Health Care (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了基于事件图谱的行程预测方法、系统、设备及存储介质,该方法包括:根据网络旅游文本信息生成事件节点和有向边,获得旅游事件图谱;将带权重的节点序列输入到网络建模工具中,构建有权有向图;将有权有向图输入到图神经网络模型中,生成旅游事件图谱中每个节点的向量表示;根据有权有向图构建每个事件链涉及到的子图,获得对应的子图邻接矩阵A;分批次将样本输入图神经网络模型中,获得节点的向量表示;将子图邻接矩阵A和向量表示输入门控图神经网络中,输出子图事件表示;根据相关性分数最高的候选事件节点确定候选事件。本发明能够对旅游领域数据进行信息抽取和融合,构建旅游事件图谱,进行准确的行程预测,大大节省人力成本。

Description

基于事件图谱的行程预测方法、系统、设备及存储介质
技术领域
本发明涉及深度学习推理领域,具体地说,涉及基于事件图谱的行程预测方法、系统、设备及存储介质。
背景技术
近年来,随着深度学习的不断发展,基于深度学习的推理和认知计算越来越受到业界和学者的广泛关注。而事件之间在时间上相继发生的演化规律和模式正是一种十分有价值的知识,旅游事件图谱可以为揭示和发现事件演化规律提供强有力的支持,文本推理的很多下游任务都依赖于对事理逻辑知识的深刻理解。但是,让机器掌握大量的事理逻辑知识,并进行认知推理面临着挑战,尤其是在以用户体验为目标的旅游领域的准确率仍然很低。
目前,大多数方法都是基于共现关系的概率统计的相关方法来描述抽象事件之间潜在规律,或者是基于长短期记忆网络(LSTM)来学习事件的序列信息。以上这些方法虽然显示出了一定的效果,但是却忽略了事件节点之间丰富的连接信息,没有从图的结构层面对事件进行表征学习,从而进行相关分析预测。本文针对以上提出的问题进行研究,提出了构建旅游领域事件图谱,在旅游场景下基于事件图谱的行程分析预测方法,利用Node2vec和门控图神经网络(GGNN)进行网络表示学习,捕获事件图谱的拓扑结构信息。
因此,本发明提供了一种基于事件图谱的行程预测方法、系统、设备及存储介质。
发明内容
针对现有技术中的问题,本发明的目的在于提供基于事件图谱的行程预测方法、系统、设备及存储介质,克服了现有技术的困难,能够对旅游领域数据进行信息抽取和融合,形成事件链条,构建旅游事件图谱,学习旅游领域行程事理逻辑,进行行程预测,性能有较大的提升,大大节省人力成本,提高预测的准确率。
本发明的实施例提供一种基于事件图谱的行程预测方法,包括以下步骤:
S100、根据网络旅游文本信息生成事件节点以及连接事件节点的有向边,并统计每条有向边的频数,获得旅游事件图谱G;
S110、对所述旅游事件图谱G中的所有事件节点编号后,将带权重的节点序列输入到网络建模工具networkx中,构建有权有向图;
S120、将所述有权有向图输入到图神经网络模型Node2vec中,生成旅游事件图谱G中每个节点的向量表示;
S130、根据所述有权有向图构建每个事件链涉及到的子图,所述子图包括事件上下文和候选事件节点,获得对应的子图邻接矩阵A;
S140、分批次将样本输入图神经网络模型中,根据所述节点的向量表示获得所述节点对应的上下文及候选事件的向量表示h(0)
S150、将所述子图邻接矩阵A和所述向量表示h(0)输入门控图神经网络GGNN中,持续更新子图中的事件表示,输出子图事件表示h(t)
S160、获得第i个上下文事件与第j个候选事件的相关性分数sij;以及
S170、根据相关性分数sij最高的候选事件节点确定候选事件。
优选地,所述步骤S100中,旅游事件图谱用G表示,G={V,E},其中V={v1,v2,v3,...,vp}表示节点的集合,E={l1,l2,l3,...,lq}表示边的集合;
每一个li是一条带权重的有向边,用vi→vj来表示,每条边上的权重通过统计边vi→vj的频数以及所有从vi出发的边的频数来确定,具体计算方式如下:
其中,count(vi,vj)表示事件(vi,vj)出现在所有事件链中的频数,count(vi,vk)表示以vi为头节点的事件出现在所有事件链中的频数,经过计算构建出旅游事件图谱G。
优选地,所述步骤S130中,所述子图邻接矩阵A为:
优选地,所述步骤S150中,子图事件表示h(t)为:
h(t)=(1-z(t))⊙h(t-1)+z(t)⊙c(t)) (3)
其中,z(t)=σ(Wza(t)+Uzh(t-1));
c(t)=tanh(Wa(t)+U(z(t)⊙h(t-1)));
a(t)=ATh(t-1)+b
r(t)=σ(Wra(t)+Urh(t-1))。
其中,h(t-1)为上一时刻隐藏层状态的输出,z(t)为控制更新的门控,c(t)为当前时刻的细胞状态,a(t)为图中的不同节点之间信息传递,r(t)为控制重置的门控,Ur和Wr为可学习的参数,σ为sigmoid函数,tanh为激活函数。
优选地,所述步骤S160中,g是评分函数,相关性分数sij为:
其中,为第i个上下文事件,/>为第j个候选事件;
g是评分函数,采用曼哈顿相似度计算方法:
权重αij
其中,
其中,uij和ukj为注意力打分函数,Wh和Wc为可学习的参数,bu为偏置项。
优选地,所述步骤S170之后包括以下步骤:
S180、根据上下文和后续事件的关联度分数计算损失函数;
S190、使用优化算法对loss极小化,不断迭代训练得到最终模型。
优选地,所述步骤S180中,损失函数包括一个边缘损失和一个正则项,损失函数为:
其中,sIj是第I个事件上下文与相应的第j个后续候选事件之间的关联度分数,y是正确后续事件的索引,所以sIy是第I个事件上下文与正确的后续候选事件之间的关联度分数,margin是边缘损失函数的参数,Θ表示模型参数集合,λ是L2正则化的参数。
本发明的实施例还提供一种基于事件图谱的行程预测系统,用于实现上述的基于事件图谱的行程预测方法,所述基于事件图谱的行程预测系统包括:
事件图谱模块,根据网络旅游文本信息生成事件节点以及连接事件节点的有向边,并统计每条有向边的频数,获得旅游事件图谱G;
有权有向图模块,对所述旅游事件图谱G中的所有事件节点编号后,带权重的节点序列输入到网络建模工具networkx中,构建有权有向图;
节点向量模块,将所述有权有向图输入到图神经网络模型Node2vec中,生成旅游事件图谱G中每个节点的向量表示;
子图邻接矩阵模块,根据所述有权有向图构建每个事件链涉及到的子图,所述子图包括事件上下文和候选事件节点,获得对应的子图邻接矩阵A;
图神经网络模块,分批次将样本输入图神经网络模型中,根据所述节点的向量表示获得所述节点对应的上下文及候选事件的向量表示h(0)
子图事件表示模块,将所述子图邻接矩阵A和所述向量表示h(0)输入门控图神经网络GGNN中,持续更新子图中的事件表示,输出子图事件表示h(t)
相关性分数模块,获得第i个上下文事件与第j个候选事件的相关性分数sij;以及
候选事件模块,根据相关性分数sij最高的候选事件节点确定候选事件。
本发明的实施例还提供一种基于事件图谱的行程预测设备,包括:
处理器;
存储器,其中存储有所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行上述基于事件图谱的行程预测方法的步骤。
本发明的实施例还提供一种计算机可读存储介质,用于存储程序,所述程序被执行时实现上述基于事件图谱的行程预测方法的步骤。
本发明的目的在于提供基于事件图谱的行程预测方法、系统、设备及存储介质,能够对旅游领域数据进行信息抽取和融合,形成事件链条,构建旅游事件图谱,学习旅游领域行程事理逻辑,进行行程预测,性能有较大的提升,大大节省人力成本,提高预测的准确率。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显。
图1是本发明的基于事件图谱的行程预测方法的流程图;
图2是本发明的基于事件图谱的行程预测系统的模块示意图;
图3是本发明的基于事件图谱的行程预测设备的结构示意图;以及
图4是本发明一实施例的计算机可读存储介质的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的实施方式。相反,提供这些实施方式使得本发明将全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的结构,因而将省略对它们的重复描述。
图1是本发明的基于事件图谱的行程预测方法的流程图。如图1所示,本发明的实施例提供一种基于事件图谱的行程预测方法,包括以下步骤:
S100、根据网络旅游文本信息生成事件节点以及连接事件节点的有向边,并统计每条有向边的频数,获得旅游事件图谱G。
S110、对旅游事件图谱G中的所有事件节点编号后,将带权重的节点序列输入到网络建模工具networkx中,构建有权有向图。
S120、将有权有向图输入到图神经网络模型Node2vec中,生成旅游事件图谱G中每个节点的向量表示。
S130、根据有权有向图构建每个事件链涉及到的子图,子图包括事件上下文和候选事件节点,获得对应的子图邻接矩阵A。
S140、分批次将样本输入图神经网络模型中,根据节点的向量表示获得节点对应的上下文及候选事件的向量表示h(0)
S150、将子图邻接矩阵A和向量表示h(0)输入门控图神经网络GGNN中,持续更新子图中的事件表示,输出子图事件表示h(t)
S160、获得第i个上下文事件与第j个候选事件的相关性分数sij。以及
S170、根据相关性分数sij最高的候选事件节点确定候选事件。
本发明隶属人工智能范畴,属于自然语言处理与事件图谱领域,主要运用了网络节点表示学习(node2vec)和门控图神经网络(GGNN)和信息抽取等技术。本发明利用事件图谱构建技术、Node2vec以及门控图神经网络(GGNN)等技术,对旅游领域数据进行信息抽取和融合,形成事件链条,构建旅游事件图谱。在此基础上,学习旅游领域行程事理逻辑,进行行程预测。为后续的玩法库扩充、意图识别、产品推荐等任务建立基础。
本实施例中的网络建模工具networkx在2002年5月产生,是一个用Python语言开发的图论与复杂网络建模工具,内置了常用的图与复杂网络分析算法,可以方便的进行复杂网络数据分析、仿真建模等工作。networkx支持创建简单无向图、有向图和多重图;内置许多标准的图论算法,节点可为任意数据;支持任意的边值维度,功能丰富,简单易用。
本实施例中的Node2vec算法(可扩展的网络特征学习)是在DeepWalk算法的基础上更进一步,通过调整随机游走权重的方法使graph embedding的结果在网络的同质性(homophily)和结构对等性(structural equivalence)中进行权衡。
本实施例中的GGNN(门控图神经网络)是一种基于GRU的经典的空间域messagepassing的模型。
在一个优选的实施例中,步骤S100中,旅游事件图谱用G表示,G={V,E},其中V={v1,v2,v3,...,vp}表示节点的集合,E={l1,l2,l3,...,lq}表示边的集合;
每一个li是一条带权重的有向边,用vi→vi来表示,每条边上的权重通过统计边vi→vj的频数以及所有从vi出发的边的频数来确定,具体计算方式如下:
其中,count(vi,vj)表示事件(vi,vj)出现在所有事件链中的频数,count(vi,vk)表示以vi为头节点的事件出现在所有事件链中的频数,经过计算构建出旅游事件图谱G。
在一个优选的实施例中,步骤S130中,子图邻接矩阵A为:
在一个优选的实施例中,步骤S150中,子图事件表示h(t)为:
h(t)=(1-z(t))⊙h(t-1)+z(t)⊙c(t)) (3)
其中,z(t)=σ(Wza(t)+Uzh(t-1));
c(t)=tanh(Wa(t)+U(z(t)⊙h(t-1)));
a(t)=ATh(t-1)+b
r(t)=σ(Wra(t)+Urh(t-1))。
其中,h(t-1)为上一时刻隐藏层状态的输出,z(t)为控制更新的门控,c(t)为当前时刻的细胞状态,a(t)为图中的不同节点之间信息传递,r(t)为控制重置的门控,Ur和Wr为可学习的参数,σ为sigmoid函数,tanh为激活函数。
在一个优选的实施例中,步骤S160中,g是评分函数,相关性分数sij为:
其中,为第i个上下文事件,/>为第j个候选事件;
g是评分函数,采用曼哈顿相似度计算方法:
权重αij
其中,
其中,uij和ukj为注意力打分函数,Wh和Wc为可学习的参数,bu为偏置项。
在一个优选的实施例中,步骤S170之后包括以下步骤:
S180、根据上下文和后续事件的关联度分数计算损失函数;
S190、使用优化算法对loss极小化,不断迭代训练得到最终模型。
步骤S180和S190可以在训练过程中通过迭代来优化模型,使得模型更精确。
在一个优选的实施例中,步骤S180中,损失函数包括一个边缘损失和一个正则项,损失函数为:
其中,sIj是第I个事件上下文与相应的第j个后续候选事件之间的关联度分数,y是正确后续事件的索引,所以sIy是第I个事件上下文与正确的后续候选事件之间的关联度分数,margin是边缘损失函数的参数,Θ表示模型参数集合,λ是L2正则化的参数。
本发明提出了一种旅游场景下基于事件图谱的行程预测方法,该方法包括旅游事件链条抽取模块、事件概率图构建模块、事件网络节点表示学习及预测四部分。发明的事件链抽取部分采用了信息抽取和融合技术,事件概率图构建部分采用了统计的方法,事件网络节点表示学习部分采用了门控图神经网络(GGNN)技术,行程事件预测部分综合了上下文事件和候选事件信息,计算评分。
本发明的具体实现如下:
旅游事件链条抽取
该模块的数据源是各旅游网站的游记和攻略数据,首先写爬虫,采集马蜂窝、途牛以及携程等旅游网站的游记数据,然后再爬取穷游和马蜂窝的攻略数据。然后对这些文本数据进行信息抽取,主要抽取文本中的事件链条,如:(Tom,游玩,丽江古城),(Tom,游玩,玉龙雪山),(Tom,游玩,冰川公园)等。接着对抽取的事件链进行质量检测,删除有明显的错误或冲突的数据,再和预设数据库景点poi对齐。最后将这一部分对齐后的数据与预设数据库已有的行程数据融合,得到所有的事件链S={s1,s2,s3,...,sn}。其中si={e1,e2,e3,...,em},ei表示事件节点,包含了(主,谓,宾)。S用于后续的事件图谱构建和行程事件分析。
事件概率图构建
本发明中的旅游事件图谱用G表示,G={V,E},其中V={v1,v2,v3,...,vp}表示节点的集合,E={l1,l2,l3,...,lq}表示边的集合。每一个li是一条带权重的有向边,用vi→vj来表示,每条边上的权重通过统计边vi→vj的频数以及所有从vi出发的边的频数来确定,具体计算方式如下:
其中count(vi,vj)表示事件(vi,vj)出现在所有事件链中的频数,count(vi,vk)表示以vi为头节点的事件出现在所有事件链中的频数。经过计算,最终构建出旅游事件图谱G。
事件网络节点表示学习
图神经网络(GNN)最早于2005年被提出。之后相关研究者对其技术进行了一系列改进,2015年Li等人提出了GGNN(Gated graph sequence neural networks)模型,将门控循环单元(GRU)应用到GNN上。但是GGNN更多的是应用于几十上百个节点的小规模图上,针对这种规模的小兔,每次可以对整个图进行处理。而本文上述构建的旅游事件图谱规模为百万级别,所以并不能适应本文的图结构。为了解决这个问题,本文采用了Li等人的‘分治’思想,每次仅仅处理当前实例涉及到的一个子图(包括一条上下文和候选事件节点,以及他们之间的边)。通过事件网络节点表示学习模块所示,其中包含了选子图部分、基于Node2vec初始事件节点的表示学习部分以及基于GGNN来更新子图中的事件表示部分。
先从事件图谱中挑出当前事件实例涉及到的子图,其中ec表示子图中包含的当前事件实例的上下文节点,e1、e2表示子图中包含的当前事件实例的候选节点。以A表示相应的子图邻接矩阵,该矩阵决定了子图中的事件如何交互作用。具体如下面的公式2所示:
基于Node2vecde初始事件节点的表示学习部分,该部分通过学习事件图谱中各个节点的结构信息得到每个事件e的向量表示集合h(0),h(0)包含了上下文事件和候选事件。Node2vec为一个顶点的网络邻节点定义了一个灵活的概念。通过选择一个合适的概念,可以学到网络表示,它们可以基于现有的网络角色或者属于的社群来进行组织。通过开发一个有偏的随机游走(biased random walks)的族谱,它可以有效探索一个给定顶点的邻居分布。node2vec的主要过程是并行化的,它可以扩展到带有数百万节点的大网络上,只需要几个小时的计算量。所以本文选用Node2vec在整个大规模的图谱数据上进行学习,获取初始事件的表示结果h(0)
基于GGNN来更新子图中的事件表示部分,这部分主要是用来学习事件之间的交互作用并更新每个子图上的事件表示。每次输入到GGNN的为两个矩阵,分别是h(0)和A。其中h(0)包含了上下文加所有候选事件的向量表示,A是对应的子图邻接矩阵。GGNN模型运作方式类似广泛应用的GRU模型,如公式3所示。不同的是每个循环GGNN都会更新子图中所有节点的事件表示,每次循环节点之间的信息传递给一度相邻节点。多个循环得以让各个节点的信息在子图结构上充分流动交互。最终模型的输出为h(t),包含了学习到的子图中的事件表示。
a(t)=ATh(t-1)+b
z(t)=σ(Wza(t)+Uzh(t-1))
r(t)=σ(Wra(t)+Urh(t-1))
c(t)=tanh(Wa(t)+U(z(t)⊙h(t-1)))
h(t)=(1-z(t))⊙h(t-1)+z(t)⊙c(t)) (3)
行程事件预测
上述的事件网络节点表示学习模块得到了事件表示h(t),在获得每个事件的隐藏状态后,使用这些隐藏状态向量对事件对关系进行建模,通过计算上下文事件与候选事件的相关性分数,挑选出正确的候选事件,作为最终的预测结果。第i个上下文事件与第j个候选事件的相关性分数计算公式为:
其中表示GGNN模型的上下文输出,/>表示GGNN模型的后续候选事件输出,g是评分函数,这里采用的是曼哈顿相似度计算方法,如公式(5)所示,αij表示
通过注意力计算出的后续事件候选者与每个上下文事件的相对重要性,如公式(6)所示。
其中
本发明提出了构建旅游领域事件图谱并基于事件图谱进行行程预测的方法,更好的利用了事件节点之间结构上的稠密连接信息。在旅游场景下,本文提出的方法,通过Node2vec和GGNN将旅游行程节点网络中的全局特征和局部特征相结合,相对于传统的基于统计和RNN等方法而言,性能有较大的提升。该方法可通过行程分析预测,增加产品丰富度,扩充全球玩法库,用于辅助业务铺货以及未来对全球用户的玩法偏好研究等,大大节省人力成本,满足工业化要求。
本发明中获得旅游事件图谱G的步骤首先数据集构建,具体步骤如下:
(11)采集外网站点游记、攻略数据;
(12)对采集的文本数据进行分词、词性标注、句法分析及命名实体识别,抽取文本中的景点poi和目的地poi。
(13)整理预设数据库目的地poi和景点poi数据
(14)先根据相似度对齐目的地poi,然后根据每个文本中的目的地poi来缩小景点poi的对齐范围,最后将抽取到的poi与预设数据库poi对齐。
(15)得到行程poi链条,然后设定规则对poi链条进行验证,如:对于一个一日游的游记,文本中描述“我今天去了哈尔滨的冰雪大世界,虽然也去玉龙雪山看过雪,但这感觉完全是不一样的”。这里虽然会抽到“冰雪大世界”和“玉龙雪山”,但是游玩的天数是一天,距离过于遥远,明显这里的“冰雪大世界”->“玉龙雪山”的poi串是不合理的,需要删除。
(16)将抽到的poi串和预设数据库的行程poi串进行融合,对比去除重复的,合并为一个全量的事件链。
(17)统计所有事件对的频数,根据公式(1)计算各事件节点之间的概率,即:事件图谱中各条边上的权重,得到旅游事件图谱G。
然后通过旅游事件图谱G进行训练模型,具体步骤如下:
(21)根据事件图谱中的节点名称生成索引id,根据索引字典将节点文本信息转化成相应的节点id序列;
(22)将带权重的节点序列输入到networkx中,构建有权有向图;
(23)将(22)生成的全部图输入到Node2vec模型中,学习图信息,生成事件图谱中节点的向量表示;
(24)从全量图中构建每个事件链涉及到的子图,包括事件上下文和候选事件节点,得到对应的子图邻接矩阵A,如公式(2)所示;
(25)设置batch_size大小为1000,每次将一个batch的样本输入到模型中,根据上述(3)中得到的结果获取其对应的上下文及候选事件的向量表示h(0),embedding的维度设置为128维;
(26)将A和h(0)输入到GGNN模型中,不断更新子图中的事件表示,最终输出学习到的子图事件表示h(t)
(27)计算第i个上下文事件与第j个候选事件的相关性分数sij,计算方法如公式(4)所示;
(28)引入注意力机制,计算上下文事件对于选择正确的后续事件的不同权重αij,如公式(6)所示。
(29)根据相应的最大相关性分数确定正确的候选事件。
(30)根据上下文和后续事件的关联度分数计算损失,损失函数包括一个边缘损失和一个正则项,损失函数L(Θ)为:
其中sIj是第I个事件上下文与相应的第j个后续候选事件之间的关联度分数,y是正确后续事件的索引,所以sIy是第I个事件上下文与正确的后续候选事件之间的关联度分数,margin是边缘损失函数的参数。Θ表示模型参数集合,λ是L2正则化的参数;
(31)使用Adam(Adaptive Moment Estimation)优化算法对loss极小化,不断迭代训练得到最终模型。
实施本发明的基于事件图谱的行程预测方法进行行程预测模型的运行,具体步骤如下:接收到一组行程的上下文事件链和候选事件节点,输入模型中,即执行上述步骤(21)至步骤(29),经过上述模型的计算,得到候选事件节点与上下文事件的相关性分数,评分最大者为正确的候选事件。
本发明能够对旅游领域数据进行信息抽取和融合,形成事件链条,构建旅游事件图谱,学习旅游领域行程事理逻辑,进行行程预测,性能有较大的提升,大大节省人力成本,提高预测的准确率。
图2是本发明的基于事件图谱的行程预测系统的模块示意图。如图2所示,本发明的实施例还提供一种基于事件图谱的行程预测系统,用于实现上述的基于事件图谱的行程预测方法,基于事件图谱的行程预测系统5包括:
事件图谱模块51,根据网络旅游文本信息生成事件节点以及连接事件节点的有向边,并统计每条有向边的频数,获得旅游事件图谱G。
有权有向图模块52,对旅游事件图谱G中的所有事件节点编号后,带权重的节点序列输入到网络建模工具networkx中,构建有权有向图。
节点向量模块53,将有权有向图输入到图神经网络模型Node2vec中,生成旅游事件图谱G中每个节点的向量表示。
子图邻接矩阵模块54,根据有权有向图构建每个事件链涉及到的子图,子图包括事件上下文和候选事件节点,获得对应的子图邻接矩阵A。
图神经网络模块55,分批次将样本输入图神经网络模型中,根据节点的向量表示获得节点对应的上下文及候选事件的向量表示h(0)
子图事件表示模块56,将子图邻接矩阵A和向量表示h(0)输入门控图神经网络GGNN中,持续更新子图中的事件表示,输出子图事件表示h(t)
相关性分数模块57,获得第i个上下文事件与第j个候选事件的相关性分数sij。以及
候选事件模块58,根据相关性分数sij最高的候选事件节点确定候选事件。
本发明能够对旅游领域数据进行信息抽取和融合,形成事件链条,构建旅游事件图谱,学习旅游领域行程事理逻辑,进行行程预测,性能有较大的提升,大大节省人力成本,提高预测的准确率。
本发明实施例还提供一种基于事件图谱的行程预测设备,包括处理器。存储器,其中存储有处理器的可执行指令。其中,处理器配置为经由执行可执行指令来执行的基于事件图谱的行程预测方法的步骤。
如上,该实施例能够对旅游领域数据进行信息抽取和融合,形成事件链条,构建旅游事件图谱,学习旅游领域行程事理逻辑,进行行程预测,性能有较大的提升,大大节省人力成本,提高预测的准确率。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“平台”。
图3是本发明的基于事件图谱的行程预测设备的结构示意图。下面参照图3来描述根据本发明的这种实施方式的电子设备600。图3显示的电子设备600仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图3所示,电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于:至少一个处理单元610、至少一个存储单元620、连接不同平台组件(包括存储单元620和处理单元610)的总线630、显示单元640等。
其中,存储单元存储有程序代码,程序代码可以被处理单元610执行,使得处理单元610执行本说明书上述电子处方流转处理方法部分中描述的根据本发明各种示例性实施方式的步骤。例如,处理单元610可以执行如图1中所示的步骤。
存储单元620可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202,还可以进一步包括只读存储单元(ROM)6203。
存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204,这样的程序模块6205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线630可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备600也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备600交互的设备通信,和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且,电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器660可以通过总线630与电子设备600的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备600使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储平台等。
本发明实施例还提供一种计算机可读存储介质,用于存储程序,程序被执行时实现的基于事件图谱的行程预测方法的步骤。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在终端设备上运行时,程序代码用于使终端设备执行本说明书上述电子处方流转处理方法部分中描述的根据本发明各种示例性实施方式的步骤。
如上所示,该实施例的计算机可读存储介质的程序在执行时,通过能够对旅游领域数据进行信息抽取和融合,形成事件链条,构建旅游事件图谱,学习旅游领域行程事理逻辑,进行行程预测,性能有较大的提升,大大节省人力成本,提高预测的准确率。
图4是本发明的计算机可读存储介质的结构示意图。参考图4所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品800,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
综上,本发明的目的在于提供基于事件图谱的行程预测方法、系统、设备及存储介质,能够对旅游领域数据进行信息抽取和融合,形成事件链条,构建旅游事件图谱,学习旅游领域行程事理逻辑,进行行程预测,性能有较大的提升,大大节省人力成本,提高预测的准确率。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (10)

1.一种基于事件图谱的行程预测方法,其特征在于,包括以下步骤:
S100、根据网络旅游文本信息生成事件节点以及连接事件节点的有向边,并统计每条有向边的频数,获得旅游事件图谱G;
S110、对所述旅游事件图谱G中的所有事件节点编号后,将带权重的节点序列输入到网络建模工具networkx中,构建有权有向图;
S120、将所述有权有向图输入到图神经网络模型Node2vec中,生成旅游事件图谱G中每个节点的向量表示;
S130、根据所述有权有向图构建每个事件链涉及到的子图,所述子图包括事件上下文和候选事件节点,获得对应的子图邻接矩阵A;
S140、分批次将样本输入图神经网络模型中,根据所述节点的向量表示获得所述节点对应的上下文及候选事件的向量表示h(0)
S150、将所述子图邻接矩阵A和所述向量表示h(0)输入门控图神经网络GGNN中,持续更新子图中的事件表示,输出子图事件表示h(t)
S160、获得第i个上下文事件与第j个候选事件的相关性分数sij;以及
S170、根据相关性分数sij最高的候选事件节点确定候选事件。
2.根据权利要求1所述的基于事件图谱的行程预测方法,其特征在于:所述步骤S100中,旅游事件图谱用G表示,G={V,E},其中V={v1,v2,v3,...,vp}表示节点的集合,E={l1,l2,l3,...,lq}表示边的集合;
每一个li是一条带权重的有向边,用vi→vj来表示,每条边上的权重通过统计边vi→vj的频数以及所有从vi出发的边的频数来确定,具体计算方式如下:
其中,count(vi,vj)表示事件(vi,vj)出现在所有事件链中的频数,count(vi,vk)表示以vi为头节点的事件出现在所有事件链中的频数,经过计算构建出旅游事件图谱G。
3.根据权利要求2所述的基于事件图谱的行程预测方法,其特征在于:所述步骤S130中,所述子图邻接矩阵A为:
4.根据权利要求3所述的基于事件图谱的行程预测方法,其特征在于:所述步骤S150中,子图事件表示h(t)为:
h(t)=(1-z(t))⊙h(t-1)+z(t)⊙c(t)) (3)
其中,z(t)=σ(Wza(t)+Uzh(t-1));
c(t)=tanh(Wa(t)+U(z(t)⊙h(t-1)));
a(t)=ATh(t-1)+b
r(t)=σ(Wra(t)+Urh(t-1))
其中,h(t-1)为上一时刻隐藏层状态的输出,z(t)为控制更新的门控,c(t)为当前时刻的细胞状态,a(t)为图中的不同节点之间信息传递,r(t)为控制重置的门控,Ur和Wr为可学习的参数,σ为sigmoid函数,tanh为激活函数。
5.根据权利要求1所述的基于事件图谱的行程预测方法,其特征在于:
所述步骤S160中,g是评分函数,相关性分数sij为:
其中,为第i个上下文事件,/>为第j个候选事件;
g是评分函数,采用曼哈顿相似度计算方法:
权重αij
其中,
其中,uij和ukj为注意力打分函数,Wh和Wc为可学习的参数,bu为偏置项。
6.根据权利要求1所述的基于事件图谱的行程预测方法,其特征在于:所述步骤S170之后包括以下步骤:
S180、根据上下文和后续事件的关联度分数计算损失函数;
S190、使用优化算法对loSS极小化,不断迭代训练得到最终模型。
7.根据权利要求6所述的基于事件图谱的行程预测方法,其特征在于:所述步骤S180中,损失函数包括一个边缘损失和一个正则项,损失函数为:
其中,sIj是第1个事件上下文与相应的第j个后续候选事件之间的关联度分数,y是正确后续事件的索引,所以sIy是第I个事件上下文与正确的后续候选事件之间的关联度分数,margin是边缘损失函数的参数,Θ表示模型参数集合,λ是L2正则化的参数。
8.一种基于事件图谱的行程预测系统,用于实现权利要求1所述的基于事件图谱的行程预测方法,其特征在于,包括:
事件图谱模块,根据网络旅游文本信息生成事件节点以及连接事件节点的有向边,并统计每条有向边的频数,获得旅游事件图谱G;
有权有向图模块,对所述旅游事件图谱G中的所有事件节点编号后,带权重的节点序列输入到网络建模工具networkx中,构建有权有向图;
节点向量模块,将所述有权有向图输入到图神经网络模型Node2vec中,生成旅游事件图谱G中每个节点的向量表示;
子图邻接矩阵模块,根据所述有权有向图构建每个事件链涉及到的子图,所述子图包括事件上下文和候选事件节点,获得对应的子图邻接矩阵A;
图神经网络模块,分批次将样本输入图神经网络模型中,根据所述节点的向量表示获得所述节点对应的上下文及候选事件的向量表示h(0)
子图事件表示模块,将所述子图邻接矩阵A和所述向量表示h(0)输入门控图神经网络GGNN中,持续更新子图中的事件表示,输出子图事件表示h(t)
相关性分数模块,获得第i个上下文事件与第j个候选事件的相关性分数sij;以及
候选事件模块,根据相关性分数sij最高的候选事件节点确定候选事件。
9.一种基于事件图谱的行程预测设备,其特征在于,包括:
处理器;
存储器,其中存储有所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至7中任意一项所述基于事件图谱的行程预测方法的步骤。
10.一种计算机可读存储介质,用于存储程序,其特征在于,所述程序被执行时实现权利要求1至7中任意一项所述基于事件图谱的行程预测方法的步骤。
CN202110180596.8A 2021-02-08 2021-02-08 基于事件图谱的行程预测方法、系统、设备及存储介质 Active CN112905801B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110180596.8A CN112905801B (zh) 2021-02-08 2021-02-08 基于事件图谱的行程预测方法、系统、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110180596.8A CN112905801B (zh) 2021-02-08 2021-02-08 基于事件图谱的行程预测方法、系统、设备及存储介质

Publications (2)

Publication Number Publication Date
CN112905801A CN112905801A (zh) 2021-06-04
CN112905801B true CN112905801B (zh) 2023-07-25

Family

ID=76123215

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110180596.8A Active CN112905801B (zh) 2021-02-08 2021-02-08 基于事件图谱的行程预测方法、系统、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112905801B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113283589B (zh) * 2021-06-07 2022-07-19 支付宝(杭州)信息技术有限公司 事件预测系统的更新方法及装置
CN113377422B (zh) * 2021-06-09 2024-04-05 大连海事大学 一种基于深度学习识别自我承认技术债务方法
CN113486754B (zh) * 2021-06-29 2024-01-09 中国科学院自动化研究所 基于视频的事件演化预测方法、系统
CN113742463B (zh) * 2021-07-27 2023-11-21 上海携旅信息技术有限公司 旅游场景下的对话预测方法、装置、电子设备、存储介质
CN113610315B (zh) * 2021-08-16 2023-10-13 傲林科技有限公司 一种基于事件网的预测方法、装置及电子设备
CN114398500B (zh) * 2022-01-29 2022-09-09 哈尔滨工业大学 一种基于图增强预训练模型的事件预测方法
CN114625972B (zh) * 2022-05-12 2022-07-15 中航信移动科技有限公司 一种信息推送方法、设备及介质
CN114707004B (zh) * 2022-05-24 2022-08-16 国网浙江省电力有限公司信息通信分公司 基于图像模型和语言模型的事理关系抽取处理方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111784081A (zh) * 2020-07-30 2020-10-16 南昌航空大学 一种采用知识图谱嵌入和时间卷积网络的社交网络链路预测方法
CN112328801A (zh) * 2020-09-28 2021-02-05 西南电子技术研究所(中国电子科技集团公司第十研究所) 事件知识图谱预测群体性事件的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11537719B2 (en) * 2018-05-18 2022-12-27 Deepmind Technologies Limited Deep neural network system for similarity-based graph representations

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111784081A (zh) * 2020-07-30 2020-10-16 南昌航空大学 一种采用知识图谱嵌入和时间卷积网络的社交网络链路预测方法
CN112328801A (zh) * 2020-09-28 2021-02-05 西南电子技术研究所(中国电子科技集团公司第十研究所) 事件知识图谱预测群体性事件的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
旅游知识图谱特征学习的景点推荐;贾中浩;古天龙;宾辰忠;常亮;张伟涛;朱桂明;;智能系统学报(03);全文 *

Also Published As

Publication number Publication date
CN112905801A (zh) 2021-06-04

Similar Documents

Publication Publication Date Title
CN112905801B (zh) 基于事件图谱的行程预测方法、系统、设备及存储介质
Ma et al. SceneNet: Remote sensing scene classification deep learning network using multi-objective neural evolution architecture search
CN110084296B (zh) 一种基于特定语义的图表示学习框架及其多标签分类方法
WO2024032096A1 (zh) 反应物分子的预测方法、训练方法、装置以及电子设备
CN109743196B (zh) 一种基于跨双层网络随机游走的网络表征方法
Zhang et al. A new type of dual-scale neighborhood based on vectorization for cellular automata models
CN112396185A (zh) 一种事实验证方法、系统、计算机设备和存储介质
Zhang et al. Learn to abstract via concept graph for weakly-supervised few-shot learning
Singh et al. Edge proposal sets for link prediction
CN115271273A (zh) 基于改进鲸鱼优化算法的旅行商问题求解方法及系统
CN114897085A (zh) 一种基于封闭子图链路预测的聚类方法及计算机设备
Zhang et al. W-TextCNN: A TextCNN model with weighted word embeddings for Chinese address pattern classification
Anh et al. Effect of gradient descent optimizers and dropout technique on deep learning LSTM performance in rainfall-runoff modeling
CN113158030B (zh) 异地兴趣点的推荐方法、装置、电子设备及存储介质
CN113326884A (zh) 大规模异构图节点表示的高效学习方法及装置
CN117524353A (zh) 一种基于多维度分子信息的分子大模型、构建方法及应用
WO2023174064A1 (zh) 自动搜索方法、自动搜索的性能预测模型训练方法及装置
CN116993043A (zh) 一种电力设备故障溯源方法及装置
CN112529057A (zh) 一种基于图卷积网络的图相似性计算方法及装置
CN116208399A (zh) 一种基于元图的网络恶意行为检测方法及设备
Li et al. ANN: a heuristic search algorithm based on artificial neural networks
CN116226404A (zh) 一种针对肠-脑轴的知识图谱构建方法及知识图谱系统
Yan et al. ASMEvoNAS: Adaptive segmented multi-objective evolutionary network architecture search
Chang et al. Enhanced road information representation in graph recurrent network for traffic speed prediction
CN115344794A (zh) 一种基于知识图谱语义嵌入的旅游景点推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant