CN111858962B - 数据处理方法、装置及计算机可读存储介质 - Google Patents

数据处理方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN111858962B
CN111858962B CN202010734367.1A CN202010734367A CN111858962B CN 111858962 B CN111858962 B CN 111858962B CN 202010734367 A CN202010734367 A CN 202010734367A CN 111858962 B CN111858962 B CN 111858962B
Authority
CN
China
Prior art keywords
game
knowledge
attribute
subsystem
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010734367.1A
Other languages
English (en)
Other versions
CN111858962A (zh
Inventor
张涵宇
谢思发
江小琴
程序
李雪莲
刘文强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Chengdu Co Ltd
Original Assignee
Tencent Technology Chengdu Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Chengdu Co Ltd filed Critical Tencent Technology Chengdu Co Ltd
Priority to CN202010734367.1A priority Critical patent/CN111858962B/zh
Publication of CN111858962A publication Critical patent/CN111858962A/zh
Application granted granted Critical
Publication of CN111858962B publication Critical patent/CN111858962B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种数据处理方法、装置及计算机可读存储介质,属于互联网技术领域。所述方法包括:获取游戏垂直知识图谱的本体模型,其中,本体模型指示游戏垂直知识图谱中的游戏实体具有多个属性子系统,多个属性子系统与游戏实体的多类功能属性一一对应,每个属性子系统包括对应的功能属性的游戏知识;获取游戏领域中游戏实体的数据;对获取的游戏实体的数据进行知识抽取得到游戏知识;在游戏知识的属性属于多类功能属性时,将游戏知识添加至游戏知识的属性所属的功能属性对应的属性子系统,以得到更新后的游戏垂直知识图谱。本申请解决了较难对游戏领域的知识进行有效地获取和应用的问题。本申请用于构建游戏垂直知识图谱。

Description

数据处理方法、装置及计算机可读存储介质
技术领域
本申请涉及互联网技术领域,特别涉及一种数据处理方法、装置及计算机可读存储介质。
背景技术
随着互联网技术的发展,网络数据内容爆炸式增长,给人们有效获取信息和知识提出了挑战。知识图谱(Knowledge Graph)具有强大的语义处理能力和对信息的互联组织能力,可以有助于互联网中信息的智能化应用。
知识图谱本质上是描述真实世界客观存在的知识,以及知识之间的关联关系的语义网络。知识图谱通常分为通用知识图谱和垂直知识图谱。通用知识图谱不面向特定领域,更多地强调覆盖的知识的广度,通用知识图谱仅覆盖多个领域的常识性知识。垂直知识图谱则面向特定领域,更多地强调覆盖的知识的深度,垂直知识图谱覆盖该特定领域中较为详尽的知识。
目前游戏行业受到广泛关注,游戏的种类繁多,游戏的知识量巨大。相关技术中,基于通用知识图谱对游戏领域的知识进行获取和应用。由于通用知识图谱对各个领域的知识覆盖率均较低,故相关技术中较难对游戏领域的知识进行有效地获取和应用。
发明内容
本申请提供了一种数据处理方法、装置及计算机可读存储介质,可以解决函数的使用局限性较高的问题。所述技术方案如下:
一方面,提供了一种数据处理方法,所述方法包括:
获取游戏垂直知识图谱的本体模型,其中,所述本体模型指示所述游戏垂直知识图谱中的游戏实体具有多个属性子系统,所述多个属性子系统与所述游戏实体的多类功能属性一一对应,每个所述属性子系统包括对应的所述功能属性的游戏知识;
获取游戏领域中游戏实体的数据;
对获取的游戏实体的数据进行知识抽取得到游戏知识;
在所述游戏知识的属性属于所述多类功能属性时,将所述游戏知识添加至所述游戏知识的属性所属的功能属性对应的属性子系统,以得到更新后的所述游戏垂直知识图谱。
可选地,所述获取游戏领域中游戏实体的数据,包括:
获取所述游戏实体的数据中属性属于所述多类功能属性的数据。
可选地,所述游戏实体的数据包括结构化数据、半结构化数据和非结构化数据中的至少一种。
可选地,所述对获取的游戏实体的数据进行知识抽取得到游戏知识,包括:
采用多个不同的知识抽取工具,对获取的游戏实体的数据进行知识抽取得到所述游戏知识。
另一方面,提供了一种数据处理装置,所述数据处理装置包括:
第一获取模块,用于获取游戏垂直知识图谱的本体模型,其中,所述本体模型指示所述游戏垂直知识图谱中的游戏实体具有多个属性子系统,所述多个属性子系统与所述游戏实体的多类功能属性一一对应,每个所述属性子系统包括对应的所述功能属性的游戏知识;
第二获取模块,用于获取游戏领域中游戏实体的数据;
知识抽取模块,用于对获取的游戏实体的数据进行知识抽取得到游戏知识;
知识添加模块,在所述游戏知识的属性属于所述多类功能属性时,将所述游戏知识添加至所述游戏知识的属性所属的功能属性对应的属性子系统,以得到更新后的所述游戏垂直知识图谱。
再一方面,提供了一种数据处理装置,所述数据处理装置包括:处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述的数据处理方法。
又一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述的数据处理方法。
本申请提供的技术方案带来的有益效果至少包括:
本申请提供的数据处理方法中,可以生成游戏垂直知识图谱,也即是仅针对游戏领域的垂直知识图谱,游戏垂直知识图谱可以覆盖游戏领域的较多知识,保证对游戏领域的知识更加有效地获取和应用。并且该游戏垂直知识图谱中游戏实体具有与多类功能属性一一对应的多个属性子系统,且在根据获取的游戏实体的数据得到目标游戏知识后,可以直接将该目标游戏知识添加至对应的属性子系统。如此对某一属性子系统的更新或修改不会影响其他属性子系统中的知识,保证了游戏垂直知识图谱的创建灵活性较高。
附图说明
图1是本申请实施例提供的一种数据处理方法的流程图;
图2是本申请实施例提供的另一种数据处理方法的流程图;
图3是本申请实施例提供的一种游戏实体具有的属性子系统的示意图;
图4是本申请实施例提供的一种众包系统中游戏问卷的展示页面示意图;
图5是本申请实施例提供的一种基于远程监督技术进行知识抽取的过程示意图;
图6是本申请实施例提供的一种利用游戏实体的图片进行游戏实体的对齐的过程示意图;
图7是本申请实施例提供的一种游戏垂直知识图谱的结构示意图;
图8是本申请实施例提供的一种基于游戏垂直知识图谱得到的游戏的基本信息的示意图;
图9是本申请实施例提供的一种数据处理装置的结构示意图;
图10是本申请实施例提供的另一种数据处理装置的结构示意图;
图11是本申请实施例提供的一种服务器的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
随着互联网技术以及人工智能(Artificial Intelligence,AI)技术的发展和应用,知识图谱作为AI的关键技术之一已被广泛应用。知识图谱是显示知识的发展进程与结构关系的一系列不同的图形,知识图谱用可视化技术描述知识资源及其载体,并可以挖掘、分析、构建、绘制和显示知识及知识之间的相互关系。目前越来越多的游戏被开发出来,在游戏中进行广告推荐、新游监控、游戏分析以及用户拉新等方面至关重要,而在这些方面中需要用到丰富的游戏知识,进而利用知识图谱较为详尽地了解各个游戏的知识,以及不同游戏之间的相关性非常必要。因此,如何实现针对游戏领域的垂直知识图谱的构建,成为了目前技术人员亟需考虑的问题。
本申请以下实施例提供了一种数据处理方法及装置,可以实现对游戏垂直知识图谱的构建,保证对游戏领域的知识进行有效地获取和应用。
图1是本申请实施例提供的一种数据处理方法的流程图。如图1所示,该方法可以包括:
步骤101、获取游戏垂直知识图谱的本体模型,其中,本体模型指示游戏垂直知识图谱中的游戏实体具有多个属性子系统,该多个属性子系统与游戏实体的多类功能属性一一对应,每个属性子系统包括对应的功能属性的游戏知识。
步骤102、获取游戏领域中游戏实体的数据。
步骤103、对获取的游戏实体的数据进行知识抽取得到游戏知识。
步骤104、在该游戏知识的属性属于该多类功能属性时,将该游戏知识添加至该游戏知识的属性所属的功能属性对应的属性子系统,以得到更新后的游戏垂直知识图谱。
综上所述,本申请实施例提供的数据处理方法中,可以生成游戏垂直知识图谱,也即是仅针对游戏领域的垂直知识图谱,游戏垂直知识图谱可以覆盖游戏领域的较多知识,保证对游戏领域的知识更加有效地获取和应用。并且该游戏垂直知识图谱中游戏实体具有与多类功能属性一一对应的多个属性子系统,且在根据获取的游戏实体的数据得到游戏知识后,可以直接将该游戏知识添加至对应的属性子系统。如此对某一属性子系统的更新或修改不会影响其他属性子系统中的知识,保证了游戏垂直知识图谱的创建灵活性较高。
图2是本申请实施例提供的另一种数据处理方法的流程图。该方法可以用于服务器,如图2所示,该方法可以包括:
步骤201、获取游戏垂直知识图谱的本体模型,其中,本体模型指示游戏垂直知识图谱中的游戏实体具有多个属性子系统,该多个属性子系统与游戏实体的多类功能属性一一对应,每个属性子系统包括对应的功能属性的游戏知识。
需要说明的是,本体可以被看成为概念(concept)或者模式(schema)。在目前的信息科学领域中,本体可以被简化成是一种描述术语及术语间关系(如描述苹果、香蕉、水果之间的关系)的概念模型,这个模型用以约束知识图谱中数据的组织方式。
本申请实施例中,游戏垂直知识图谱的本体模型可以利用多个属性子系统来对一个游戏实体进行描述,进而该本体模型可以指示游戏垂直知识图谱中的游戏实体具有该多个属性子系统。如可以根据游戏实体的多类功能属性确定该多个属性子系统,该多个属性子系统与该多类功能属性一一对应,游戏实体的一类功能属性可以指示游戏具有的一类功能。游戏垂直知识图谱中游戏实体的每个属性子系统可以包括对应的功能属性的游戏知识。
示例地,图3是本申请实施例提供的一种游戏实体具有的属性子系统的示意图。如图3所示,游戏实体可以具有24个属性子系统,该24个属性子系统可以分别为玩家对战(Player versus player,PVP)子系统、第一战斗子系统、第二战斗子系统、社交子系统、音效子系统、剧情子系统、任务子系统、交易子系统、帮派子系统、升级子系统、推广子系统、成就子系统、天气子系统、玩法子系统、动作子系统、奖励子系统、角色子系统、搜集子系统、商业化子系统、控制子系统、经济子系统、排行榜子系统、新手子系统和画面子系统。例如,游戏实体的PVP子系统可以对应游戏实体的PVP功能属性,该PVP功能属性可以指示游戏实体具有PVP功能;社交子系统对应游戏实体的社交功能属性,该社交功能属性可以指示游戏实体具有社交功能;对于游戏实体的其他属性子系统与游戏实体功能属性及具有的功能的对应关系以此类推,本申请实施例不再赘述。需要说明的是,本申请实施例以该多类属性子系统包括图3所示的24个子系统为例,该多类属性子系统的个数也可以为其他个数,该多类属性子系统也可以仅包括该24个子系统中的部分子系统,或者该多类属性子系统也可以包括与该24个子系统不同的其他子系统,本申请实施例不做限定。
可选地,游戏实体的每类功能属性可以包括多个属性,游戏实体的属性子系统可以包括对应的一类功能属性中该多个属性的游戏知识。示例地,请继续参考图3,该玩法子系统对应的功能属性可以包括:主品类属性、次品类属性、玩法耗时属性、注意力消耗程度属性、上手难度属性以及游戏内容数量属性。游戏实体的其他功能属性也可以包括多个属性,对于每类功能属性包括的具体属性可以根据该类功能属性指示的功能对应更改,本申请实施例对于每类功能属性包括的具体属性不做限定。可选地,本申请实施例中该24个子系统对应的功能属性可以包括工作人员预先设定的300多种属性,该24个子系统对应的功能属性包括的属性个数大于300。
可选地,本申请实施例中该多类功能属性可以为多种类型的游戏实体共有的功能属性,每类功能属性包括的属性也可以为多种类型的游戏实体共有的属性,因此该本体模型可以适用于多种类型的游戏实体,本申请实施例的本体模型的通用性较强。可选地,本申请实施例中游戏垂直知识图谱的本体模型可以与其他领域的垂直知识图谱具有相同的架构,如此可以对多个领域的知识图谱进行整合,该游戏垂直知识图谱的兼容性较高。
步骤202、获取游戏领域中游戏实体的数据。
服务器可以获取游戏领域中的游戏数据,该游戏数据包括与游戏实体相关的数据,本申请实施例将其直接称为游戏实体的数据。服务器可以一次获取到的多个游戏实体的数据,或者也可以仅获取到一个游戏实体的数据,本申请实施例不做限定。
本申请实施例中,服务器可以获取多种模态的游戏数据,也即该游戏实体的数据包括多种模态的数据。该多种模态可以包括:图片、视频、音频和文本中的至少两种模态。需要说明的是,相关技术中仅能获取文本模态的数据,因此获取的数据量较少,根据该数据构建的知识图谱的知识覆盖率较低。而本申请实施例中可以获取多种模态的数据,故获取的数据较多,进而根据该较多的数据可以构建知识覆盖率较广的游戏垂直知识图谱。
可选地,服务器可以根据游戏垂直知识图谱的本体模型,确定游戏领域中待获取的游戏实体的数据。如服务器可以直接获取游戏实体的数据中属性属于上述多类功能属性的数据。示例地,服务器可以根据设定的各类功能属性包括的属性,从数据源中获取该属性的数据。
本申请实施例中,服务器获取的数据可以包括结构化数据、半结构化数据和非结构化数据中的至少一种结构的数据。示例地,结构化数据可以包括MySQL(StructuredQuery Language,结构化查询语言)数据库中的数据,MySQL数据库为一种关系型数据库管理系统。结构化数据也可以包括其他由工作人员手动优化后的数据库中的数据。半结构化数据可以包括各个搜索引擎中的数据、各个游戏发行平台中的游戏基础数据以及各个游戏库中的游戏数据。如Infobox(information box)中的数据为半结构化,半结构化数据经过简单的处理转换可以得到结构化数据,该infobox一个新型的基于高校的本地化分类信息平台。各个平台中游戏实体的标签、发行时间、版本号、游戏名以及评分等均可以为半结构化数据,在不同数据源对于半结构化数据同一游戏实体的同一属性的数据的表示方式可以不同。非结构化数据可以包括新闻文本、评论、图片、视频以及音频等,对非结构化数据需要进行复杂的分析处理才能得到所需的知识。
在一种数据获取方式中,服务器可以获取众包系统中输入的数据。服务器通过众包系统中获取的数据均为结构化数据。可选地,本申请实施例中可以通过众包系统获取满足众包条件的游戏实体的数据。该众包条件可以包括游戏实体的玩家数量高于数量阈值,游戏实体的玩家信息完善度高于完善度阈值,以及针对游戏实体的评论量高于阈值中的至少一个条件。可选地,该众包条件还可以包括其他条件,满足该众包条件的游戏实体可以具有丰富的玩家相关信息,本申请实施例不做限定。
示例地,该众包系统可以展示游戏问卷,该游戏问卷可以包含与本体模型的多个属性子系统对应的该多类功能属性相关的多个问题,以及每个问题的多个选项。图4是本申请实施例提供的一种众包系统中游戏问卷的展示页面示意图。如图4所示,针对本体模型中的动作子系统该游戏问卷可以包括:动作特效属性相关的问题及对应的四个选项,与动作设计属性相关的问题及对应的四个选项,以及与其他角色或物品的随机交互属性相关的问题,其选项图4并未示意。可选地,如图4所示,该游戏问卷的展示页面中针对每个问题(特征注释处的描述即为问题)还显示有代表游戏,选项的选择规则,以及针对该问题的所选选项的保存控件。
可选地,针对每个游戏实体,均可以由选定的专家人员通过众包系统对该游戏实体的游戏问卷进行填写。服务器可以根据专家人员在众包系统上输入的针对每个游戏实体的游戏问卷的答案,获取该每个游戏实体中各个属性的数据。可选地,针对每个游戏实体均可以选定多个专家人员对游戏问卷进行填写,此时可以对各个专家人员填写的答案进行加权来获得最终的游戏实体的数据。可选地,通过众包系统获取的数据可以主要用于游戏的拉新业务。
在另一种数据获取方式中,服务器可以通过爬虫工具在互联网中爬取游戏领域中的游戏数据。爬虫工具爬取的数据可以包括:结构化数据、半结构化数据和非结构化数据。示例地,爬虫工具可以爬取各个游戏发行平台上的游戏实体的基础数据(如游戏的介绍信息),且可以爬取各类网页中的游戏相关的新闻、评论、图片以及视频等数据。可选地,爬虫工具从不同渠道爬取的数据可以用于确定不同属性的游戏知识。例如,爬虫工具爬取的游戏实体的基础数据可以用于确定游戏实体的基础属性的游戏知识,如该基础属性包括游戏实体的开发商、适用系统以及版本号等。各类网页中的游戏相关的新闻、评论、图片以及视频等数据可以用确定游戏实体的其他属性的游戏知识,如该其他属性包括游戏实体的题材、音效以及画风等。游戏实体的周边信息,如游戏的直播量以及下载量等,可以用于进行新游戏发现以及对游戏进行热度分析等。
本申请实施例中以服务器结合上述两种数据获取方式获取游戏实体的数据为例,本申请实施例中对目前存在的所有游戏实体均采用爬虫工具爬取游戏数据,且对于部分游戏实体还采用众包系统获取数据。可选地,也可以任选其中一种数据获取方式获取游戏实体的数据,本申请实施例不做限定。
可选地,服务器可以周期性地获取游戏实体的数据。如可以周期性地获取游戏实体的目标属性的数据。示例地,在不同时间该目标属性的值可以不同,该目标属性具有发展趋势。例如,该目标属性可以为游戏实体的表现数值属性,游戏实体的目标属性可以包括游戏实体的下载量以及直播热度等属性。可选地,服务器获取游戏实体的目标属性的数据的周期可以为一天,此时服务器每天获取的游戏实体的该目标属性的数据可以称为该数据的每日切片。
步骤203、对获取的游戏实体的数据进行知识抽取得到游戏知识。
本申请实施例中,对于不同模态的数据可以采用不同的知识抽取方式进行抽取。如对于文本模态的数据采用自然语言处理(Nature Language processing,NLP)算法进行处理,以得到游戏知识。对于图片模态的文件可以采用深度学习算法进行特征提取,进而得到游戏知识。对于音频模态的文件以及视频模态的文件也可以采用对应的知识抽取方式进行抽取,本申请实施例不做限定。以下均以游戏实体的数据为文本模态的数据为例进行解释说明。
知识抽取技术包括从自然语言文本中抽取指定类型的实体、关系、事件等事实信息,并形成结构化数据输出的文本处理技术。示例地,知识抽取可以从游戏实体的数据中抽取三元组,每个三元组可以表示一个游戏知识。如对数据进行抽取得到的三元组可以包括:(实体-关系-实体)三元组和(实体-关系-属性)三元组中的至少一种三元组。
需要说明的是,不同的数据所适用的知识抽取工具不同,为了保证对获取的数据进行有效的知识抽取,本申请实施例中服务器采用多个不同的知识抽取工具,对获取的游戏实体的每个数据进行知识抽取得到游戏知识。每个知识抽取工具为采用对应的知识抽取方法进行知识抽取的工具,不同的数据适用的知识抽取方法可能不同。可选地,对于某一数据该多个不同知识抽取工具中可以仅有部分知识抽取工具抽取到游戏知识,或者每个知识抽取工具均可以对该数据进行抽取得到游戏知识。
下面对不同结构的数据适用的知识抽取方法进行介绍。
示例地,对于结构化数据,服务器可以采用D2R(Relational Database to RDF)转换方法进行知识抽取。该D2R转换方法也即是将关系数据库(Relational Database)转换到资源描述框架(Resource Description Framework,RDF)的映射方法。
对于半结构化数据,服务器可以采用封装器方法进行知识抽取。封装器方法可以根据设定的映射方式,将数据中的字段映射(mapping)到游戏垂直知识图谱规定的统一字段上,对获取的数据进行有目的性的抽取。例如,可以将数据中的“游戏名”映射为游戏垂直知识图谱规定的字段“游戏名称”,将数据中的“上线时间”映射为游戏垂直知识图谱规定的字段“发布时间”。
对于非结构化数据,如以文本模态的非结构化数据为例。非结构化数据适用的知识抽取工具较多,如基于开放信息提取(Open information extraction,OIE)技术的Textrunner系统和Reverb系统等,该Textrunner系统和Reverb系统均为一种开放信息提取工具。又如利用远程监督(Distant Supervision)技术的神经关系提取(Neural RelationExtraction,NRE)系统。
下面结合附图对于基于远程监督技术的知识抽取过程进行介绍:
远程监督技术中定义了“如果两个实体存在某种关系,那么任何包含这对实体的句子都很有可能表达相同的关系”的一个假设。知识图谱可以具有对应的实体库,基于远程监督技术的知识抽取过程中,可以先采用实体库中的实体对文本数据进行实体标记,确定文本数据中一句话或者一段话中的两个实体。接着可以采用知识抽取模型对将标记有两个实体的句子或段落进行知识抽取得到三元组,且知识抽取模型还可以输出每个三元组的准确率。确定的该标记有两个实体的句子或段落还可以作为训练集中的训练数据对知识抽取模型进行训练。可选地,知识抽取模型可以结合脉冲耦合神经网络(pulse ConvolutionalNeural Networks,PCNN)工具和注意力(Attention,ATT)工具进行知识抽取,或者知识抽取模型可以结合PCNN工具、ATT工具和状中结构(adverbial,ADV)的语法结构进行知识抽取,或者知识抽取模型可以采用deepdive知识抽取工具工具进行知识抽取。
图5是本申请实施例提供的一种基于远程监督技术进行知识抽取的过程示意图。图5所示的知识抽取过程为基于远程监督技术对文字段落X进行的知识抽取,图5中的箭头指示各个步骤的执行顺序。本申请实施例的游戏垂直知识图谱具有对应的实体库,该实体库可以包括多个游戏实体,每个游戏实体可以具有多个下属实体。如图5所示该多个下属实体可以包括多个角色实体以及符文实体,该多个角色实体可以包括角色实体“夏侯淳”和“貂蝉”,该多个符文实体可以包括符文实体“宿命”、“调和”和“鹰眼”。服务器可以根据该实体对文字段落X中的实体进行标注,如对该文字段落X中的“夏侯淳”、“宿命”、“调和”和“鹰眼”进行标注,进而确定文字段落X中包含两个实体的句子。接着可以将该句子输入知识抽取模型,得到表B中的三个三元组,以及每个三元组的准确率(如表B中的score)。每个三元组包括一个第一实体(如表B中的entity1)、一个第二实体(如表B中的entity2)以及第一实体与第二实体的关系(如表B中的relation)。表B中的该三个三元组也即是三元组(夏侯淳-符文-宿命)、(夏侯淳-符文-鹰眼)以及(夏侯淳-符文-调和)。
在上述知识抽取过程中如果某一个三元组的两个实体同时存在于一个句子中,那么这个句子就会被标记为这个三元组里的一个待选关系。该两个实体可能会对应有多个被标记的句子,该多个句子构成该两个实体的句子集,但在这句子集里的某些句子可能有错误标记的情况。本申请实施例可以采用PCNN对每个句子进行特征提取,然后基于每个句子与三元组中两个实体的正确关系的相似度,采用注意力模型(attention model)对该句子集中各个句子进行加权,最后得到该两个实体之间的关系的向量表示,基于此向量表示确定两个实体之间的关系,以实现对数据的准确的知识抽取。
可选地,本申请实施例中对知识抽取模型进行训练所采用的训练集可以基于纽约时报数据库(New York Time Database,NYT)和Freebase数据库获得。该FreeBase是一个创作共享类网站,其中的数据均为结构化数据。训练集中的训练数据可以包括两个实体,该两个实体之间的关系,以及包括该两个实体及之间的关系的句子或段落。
示例地,假设训练集包括训练数据:
“1.m.0ccvx m.05gf08 queens belle_harbor/location/location/containssen.charles e.schumer called on federal safety officials yesterday to reopentheir investigation into the fatal crash of a passenger jet in belle_harbor,queens,because equipment failure,not pilot error,might have been thecause.###END###。”
该训练数据中“queens belle”和“harbor”为两个实体,“/location/location/contains”指该两个实体之间的关系为包含关系,“sen.”与“###END###”之间的部分为该两个实体及之间的关系的句子。需要说明的是,上述训练数据仅用于对训练集中训练数据的格式进行说明。
可选地,通过知识抽取模型进行知识抽取的测试数据的格式与上述训练数据的格式相同。如测试数据包括实体对(entity pair)和该实体对所在的句子。在进行知识抽取时服务器可以预测该实体对之间的关系,进而对该预测的关系的准确率进行计算,以确定该实体对之间的关系。
步骤204、对知识抽取得到的游戏知识进行知识融合,得到待添加至游戏垂直知识图谱的辅助游戏实体的辅助属性的游戏知识。
知识融合(knowledge fusion)指的是将对数据抽取得到的知识进行融合,以获得待添加至知识图谱的知识。由于服务器获取的数据量较为庞大,服务器根据获取的数据进行抽取得到的游戏知识也较为繁杂,该游戏知识中可能存在同一游戏实体的同一属性的多个知识,故需要对抽取得到的游戏知识进行知识融合,以确定待添加至游戏垂直知识图谱的辅助游戏实体的辅助属性的游戏知识。服务器抽取得到的游戏知识所属的游戏实体的属性包括该辅助游戏实体的辅助属性,该辅助游戏实体为抽取得到的游戏知识所属的任一游戏实体,该辅助属性为辅助游戏实体中抽取得到的游戏知识的任一属性。需要说明的是,对同一游戏实体在不同游戏平台获取的数据抽取得到的游戏知识进行融合之后,可以确定该游戏实体在各个游戏平台的整体状况,例如可以确定游戏实体的整体下载量、直播量和新闻等。
在知识融合中,需要进行实体对齐、属性对齐、规则化处理以及冲突消解这些处理过程。游戏知识会存在多种类型的冲突问题,如会存在一个实体名称对应多个实体、实体的属性名不一致、实体属性缺失、实体属性值不一致以及实体属性值一对多映射等冲突问题。在进行知识融合时需要对这些冲突问题进行消解。
知识融合中的实体对齐,旨在发现具有不同标识但代表真实世界中同一对象的实体,并将这些实体合并为具有全局唯一标识的实体对象。示例地,服务器可以定义相似度度量,采用聚类的方法进行实体匹配。如服务器可以将字符作为衡量两个事物是否为同一实体的相似度度量,也即服务器可以根据实体的描述字符的相似度来度量两个实体是否指示同一对象。服务器也可以将实体的属性作为衡量两个事物是否指示同一对象的相似度度量,如服务器可以确定具有相同属性且该属性的值也相同的实体指示同一对象。服务器也可以将实体在图谱中的结构作为衡量两个实体是否指示同一对象的相似度度量,如服务器可以确定具有相同的相邻实体的实体指示同一对象。
本申请实施例中服务器可以获取多种模态的数据,故在一种可选的实体对齐方式中,可以利用游戏实体的不同模态的数据来进行实体对齐。如可以利用游戏实体的图片模态的数据来进行游戏实体的对齐。示例地,图6是本申请实施例提供的一种利用游戏实体的图片进行游戏实体的对齐的过程示意图。图6中的箭头指示各个步骤的执行顺序。如图6所示,服务器可以在数据源中先获取多个游戏实体的图片,如游戏封面(cover)。之后服务器可以对获取的图片进行图片特征提取,如可以利用密集卷积网络(DenseNet)提取获取的各个游戏封面的特征,将游戏封面转换成1024维的图片特征。之后,服务器可以基于提取的图片特征计算各个图片的相似度,如可以利用余弦相似度对不同游戏实体的图片特征进行相似度计算。当计算得到的两个游戏封面的相似度大于相似度阈值时,可以确定该两个游戏封面所属的游戏实体指示同一游戏对象。如该相似度阈值为0.95,如此可以减少召回率(recall)且对实体对齐的准确率也并无影响。可选地,本申请实施例可以采用矩阵相乘的方法进行相似度计算,如此可以将获取的各个游戏封面一同进行计算,减少计算相似度的时间。示例地,图6中游戏1与游戏2的名称不同,但游戏1和游戏2的游戏封面的相似度大于相似度阈值;游戏3与游戏4的名称不同,但游戏3和游戏4的游戏封面的相似度大于相似度阈值。如游戏1和游戏2的游戏封面均为p1,游戏3和游戏4的游戏封面均为p2,故可以确定该游戏1和游戏2指示同一游戏对象,该游戏3和游戏4指示同一游戏对象。通过图6的过程实现了游戏1和游戏2的实体对齐,以及游戏3和游戏4的实体对齐。
在另一种可选的实体对齐方式中,可以针对每个游戏实体的实体名提取出词干,进而生成该游戏实体的实体名的同义词库,以根据该同义词库将与该游戏实体指示同一游戏对象的不同游戏实体链接在一起。如可以将指示该游戏对象的任一游戏实体的实体名确定为该游戏对象的全局唯一标识符。示例地,同一游戏对象在各大网站的名称不同,有的名称为中文,有的名称为英文,有的名称中既有中文又有英文,还有的名称会加一些其他字符,如《》、空格、-、“”等符号,本申请实施例中用实体名的同义词库进行指示同一游戏对象的不同游戏实体的链接时可以进行下述步骤:
步骤s1、对获取的游戏名称进行切割,以得到多个分词。如一款游戏叫“猎血与酒The Witcher 3:Wild Hunt-Blood and Wine”,该游戏名称中既有中文又有英文,服务器可以采用jieba分词工具将游戏名称切割成"猎血与酒"与”The Witcher 3:Wild Hunt-Bloodand Wine”这两个分词。
步骤s2、去除游戏名称中的其他字符。如“《》”、空格、“:”及下滑线等符号。
步骤s3、提取名称词干。如去掉游戏名称中的“游戏”、“公司”、“工作室”等词语。
步骤s4、采用经过上述步骤s1、s2和s3后得到的名称词干在实体名的同义词库中进行匹配,以查找包括该名称词干的实体名,进而查找该游戏对象的全局唯一标识符。若并未查找到包括该名称词干的实体名,则执行步骤s5。
步骤s5、将经过上述步骤s1、s2和s3后得到的游戏实体的名称词干及其同义词存入到实体名的同义词库。该名称词干及其同义词即为多个实体名,可以构成该游戏实体的实体名列表。且可以将该实体名列表中的一个名称作为该游戏实体的标识,该标识可以用于将指示同一游戏对象的游戏实体链接在一起。
知识融合中的属性对齐,主要包括实体属性和属性值的整合。示例地,可以通过属性的同义词,属性两端的实体类型(也即是具有该属性指示的关系的两个实体的类型),以及该属性的数据对应的知识抽取方式等进行实体属性的整合。例如,对于“巫师3published2017年1月2日”和“巫师3发布于2017年1月2日”,其中“published”和“发布于”是同义词,故可以确定该两句话指示游戏的同一属性。
知识融合中的规则化处理,即为将不同表示方式的游戏知识采用一种统一的方式进行表示。如日期在不同平台的表达方式多种多样,比如2019年春,2019-03-11,2019年3月11号等,可以将这些不同表示方式的日期转换为同一种表达方式。
知识融合中的冲突消解,是指消除同一游戏实体的游戏知识由于来源不同导致的属性冲突的问题。若融合来自不同知识源的游戏知识时出现属性冲突,则还可以考虑知识源的可靠性(也可称为置信度)以及不同信息在各知识源中出现的频度等因素。
如某属性的游戏知识包括多种不同的知识且不同知识之间相悖,此时将来源于可靠性较高的知识源的游戏知识作为该属性的正确的游戏知识。或者,将各知识源中出现的频度最高的游戏知识作为该属性的正确的游戏知识。示例地,从游戏发行平台A获取的某游戏的发行时间是2015年7月15日,从游戏发行平台B获取的该游戏的发行时间是2016年8月15日。若游戏发行平台A中游戏的发行时间的历史准确率高于游戏发行平台B,则确定该游戏的发行时间是2015年7月15日。又示例地,存在12个游戏发行平台,从其中7个游戏发行平台获取的某游戏的发行商为公司C,从另外5个游戏发行平台获取的该游戏的发行商为公司D,则可以确定该游戏的发行商为公司C。
需要说明的是,对于游戏实体的不同属性,服务器进行知识融合所采用的方法不同。如服务器将同一游戏实体的同一属性的游戏知识进行合并,以将合并后的游戏知识均确定为该属性的待添加至游戏垂直知识图谱的知识。或者服务器也可以在该每个属性的多个游戏知识中筛选部分游戏知识,如上述通过置信度筛选的方式,将其确定为该属性的待添加至游戏垂直知识图谱的知识。可选地,对于来源于置信度较低的知识源的某属性的游戏知识服务器可以直接删除,或者也可以将其作为该属性的补充知识,仅供用户参考。
示例地,对于游戏实体的游戏标签的知识可以采用合并的方式确定待添加至游戏垂直知识图谱的知识。手游的发行时间可以筛选所有发行时间中最小的时间作为发行时间。对于端游的端游发行时间可以筛选置信度最高的知识源中得到的发行时间。对于游戏的开发商和发行商可以筛选置信度最高的知识源中得到的开发商和发行商。对于游戏实体的描述信息可以采用描述语句最长的描述信息。对于游戏的发行平台可以采用合并各个游戏知识指示的发行平台的方式进行确定。
本申请实施例中,服务器对获取游戏实体的数据进行知识抽取及知识融合后,得到的辅助游戏实体的辅助属性可以包括:游戏实体的开发商属性,发行时间属性,公司基础信息属性(包括公司简介、公司人数以及公司收入等)、著名游戏人属性(包括姓名、国际以及职务等),以及游戏表现数值属性(包括下载量以及直播热度等)。
步骤205、在辅助游戏实体的辅助属性属于该本体模型知识的该多类功能属性时,将辅助游戏实体的辅助属性的游戏知识,添加至该辅助游戏实体的辅助属性所属的功能属性对应的属性子系统。
服务器在确定游戏知识所属的辅助游戏实体的辅助属性后,便可以将每个辅助游戏实体的辅助属性的游戏知识,添加至对应的属性子系统中,以得到更新后的游戏垂直知识图谱。需要说明的是,图7是本申请实施例提供的一种游戏垂直知识图谱的结构示意图。如图7所示,本申请实施例中每个游戏实体均为游戏垂直知识图谱中的一个节点(由图7中的一个圆圈表示),游戏垂直知识图谱中还可以包括游戏实体之间的关系(由图7中的两个圆圈之间的带箭头的连线表示,图7未对两个实体之间的具体关系进行示意)。游戏垂直知识图谱还可以包括多个公司实体,以及公司实体与各个游戏实体之间的关系。该游戏垂直知识图谱中每个游戏实体可以具有图3所示的多个属性子系统,每个属性子系统中包括对应的游戏实体的功能属性的游戏知识。
服务器或者终端可以基于本申请实施例中构建的游戏垂直知识图谱,获取并应用游戏的知识。如服务器或终端可以根据搜索条件从游戏垂直知识图谱中,获取满足该搜索条件的游戏知识。该搜索条件可以为游戏实体的一个名称,游戏实体的名称和某些属性,或者游戏实体的其他信息。服务器或终端可以根据搜索条件在游戏垂直知识图谱中先确定对应的游戏实体,在该游戏实体的各个属性子系统中确定搜索条件指示的属性子系统,接着在该属性子系统中获取搜索条件指示的游戏知识,进而还可以显示获取的游戏知识。
图8是本申请实施例提供的一种基于游戏垂直知识图谱得到的游戏的基本信息的示意图。终端可以根据某游戏的搜索条件在游戏垂直知识图谱中获取该游戏的基本信息,并显示获取的基本信息,如可以显示图8的信息页面。游戏的该基本信息也属于游戏知识。示例地,如图8所示,游戏的基本信息中的游戏称呼和游戏标签均可以有多个。该多个游戏称呼可以为服务器在针对该游戏进行实体对齐时,确定的指示该游戏的多个游戏实体的名称。该多个游戏标签可以为服务器在针对该游戏进行实体对齐时,确定的该游戏的各个游戏实体的标签。本申请实施例中服务器可以将多个信息来源中获取的属于同一游戏的信息进行融合,且可以将该信息来源作为该游戏的一项属性存入游戏垂直知识图谱,进而可以通过游戏垂直知识图谱获取该游戏实体的知识的信息来源。图8中游戏的游戏称呼、游戏标签以及信息来源均可以直接通过合并的方式进行知识融合。图8中游戏的其他属性(如游戏品类、开发商、发行商、玩家数量、适用平台、适用地区、画风、类型、主题、版本、游戏大小以及适用系统等属性)的知识均可以通过信息来源的置信度进行知识融合。
本申请实施例中服务器可以通过图谱流式构建系统对数据进行知识抽取和知识融合,且服务器可以将融合后的游戏知识存入neo4j图数据库中的对应位置,以实现将游戏知识添加至游戏垂直知识图谱中对应的属性子系统。
可选地,本申请实施例中服务器可以对周期性获取的游戏实体的目标属性的数据进行知识抽取,得到游戏实体的目标属性的游戏知识。服务器可以根据该目标属性的游戏知识,确定游戏实体的目标属性的发展趋势,且生成该目标属性的发展趋势信息,该发展趋势信息用于指示目标属性的发展趋势。进而,服务器可以将该目标属性的发展趋势信息添加至游戏垂直知识图谱中游戏实体的目标属性子系统,目标属性子系统对应的一类功能属性包括目标属性。可选地,该发展趋势信息可以通过折线图、曲线图、表格或者直方图的方式表示。
需要说明的是,本申请实施例中游戏垂直知识图谱还可以包括游戏实体的目标属性的发展趋势信息,故根据该游戏垂直知识图谱可以获取较多的游戏实体的知识,丰富了游戏垂直知识图谱对游戏知识的覆盖范围。
本申请实施例中,若服务器获取到的游戏知识的属性(如辅助游戏实体的辅助属性)不属于本体模型指示的多个属性子系统对应的多类功能属性时,服务器可以直接删除该游戏知识。或者,可以将该游戏知识存储在一存储空间,以便于后续如有需要使再进行使用。
在本申请一可选实施例中,服务器可以对游戏垂直知识图谱的本体模型进行更新。如在辅助游戏实体的辅助属性不属于该多类功能属性时,服务器可以对游戏垂直知识图谱的本体模型进行更新。如在游戏垂直知识图谱的本体模型中添加辅助属性子系统,该辅助游戏实体的辅助属性的游戏知识属于辅助属性子系统对应的一类功能属性。进而,服务器可以将该辅助游戏实体的辅助属性的游戏知识,添加至该辅助属性子系统。如此,可进一步保证游戏垂直知识图谱对游戏知识的覆盖较为全面。
本申请实施例中游戏实体具有多个属性子系统,服务器可以将确定的游戏知识直接添加至对应的属性子系统,故对游戏垂直知识图谱的修改和更新较为简单,保证了游戏垂直知识图谱的构建的简易性。并且对每个属性子系统中的知识的更新和修改均不会对其他属性子系统产生影响,故可以保证游戏垂直知识图谱对各个游戏实体的通用性。
可选地,本申请实施例中服务器可以周期性地对游戏垂直知识图谱进行更新,如该周期可以为一周或一个月或者其他周期。在进行更新时服务器可以再次执行上述步骤201至步骤205。在对游戏垂直知识图谱进行更新时,可以在游戏垂直知识图谱中添加原本没有的游戏实体,游戏实体的部分属性,以及实体之间的关系等。
综上所述,本申请实施例提供的数据处理方法中,可以生成游戏垂直知识图谱,也即是仅针对游戏领域的垂直知识图谱,游戏垂直知识图谱可以覆盖游戏领域的较多知识,保证对游戏领域的知识更加有效地获取和应用。并且该游戏垂直知识图谱中游戏实体具有与多类功能属性一一对应的多个属性子系统,且在根据获取的游戏实体的数据得到游戏知识后,可以直接将该游戏知识添加至对应的属性子系统。如此对某一属性子系统的更新或修改不会影响其他属性子系统中的知识,保证了游戏垂直知识图谱的创建灵活性较高。
图9是本申请实施例提供的一种数据处理装置的结构示意图。如图9所示,该数据处理装置70可以包括:
第一获取模块701,用于获取游戏垂直知识图谱的本体模型,其中,本体模型指示游戏垂直知识图谱中的游戏实体具有多个属性子系统,该多个属性子系统与游戏实体的多类功能属性一一对应,每个属性子系统包括对应的功能属性的游戏知识。
第二获取模块702,用于获取游戏领域中游戏实体的数据。
知识抽取模块703,用于对获取的游戏实体的数据进行知识抽取得到游戏知识。
知识添加模块704,在该游戏知识的属性属于多类功能属性时,将该游戏知识添加至该游戏知识的属性所属的功能属性对应的属性子系统,以得到更新后的游戏垂直知识图谱。
综上所述,本申请实施例提供的数据处理装置,可以生成游戏垂直知识图谱,也即是仅针对游戏领域的垂直知识图谱,游戏垂直知识图谱可以覆盖游戏领域的较多知识,保证对游戏领域的知识更加有效地获取和应用。并且该游戏垂直知识图谱中游戏实体具有与多类功能属性一一对应的多个属性子系统,且在根据获取的游戏实体的数据得到游戏知识后,可以直接将该游戏知识添加至对应的属性子系统。如此对某一属性子系统的更新或修改不会影响其他属性子系统中的知识,保证了游戏垂直知识图谱的创建灵活性较高。
可选地,第二获取模块702还用于,获取游戏实体的数据中属性属于多类功能属性的数据。
可选地,游戏实体的数据包括多种模态的数据,多种模态包括:图片、视频、音频和文本中的至少两种模态。
可选地,第二获取模块702还用于,周期性地获取游戏实体的数据;
数据处理装置70还包括:确定模块,用于在对获取的游戏实体的数据进行知识抽取得到游戏知识之后,根据游戏知识确定游戏实体的目标属性的发展趋势信息,发展趋势信息用于指示目标属性的发展趋势,游戏知识包括目标属性的知识;
将目标属性的发展趋势信息添加至游戏垂直知识图谱中游戏实体的目标属性子系统,目标属性子系统对应的一类功能属性包括目标属性。
可选地,知识抽取模块还用于:采用多个不同的知识抽取工具,对获取的游戏实体的数据进行知识抽取得到游戏知识。
可选地,游戏实体的数据包括:爬虫工具在互联网中爬取到的数据,以及众包系统中输入的数据中的至少一种。
可选地,数据处理装置70还可以包括:系统添加子模块,用于在游戏知识不属于多类功能属性时,在游戏垂直知识图谱的本体模型中添加辅助属性子系统,游戏知识属于辅助属性子系统对应的一类功能属性;
知识添加子模块704还用于:将游戏知识添加至辅助属性子系统。
图10是本申请实施例提供的另一种数据处理装置的结构框图。如图10所示,该数据处理装置可以包括数据层901、图谱层902和应用层903。
数据层901用于获取数据,该数据可以为人的相关信息,游戏的相关信息或公司的相关信息。如图10所示,数据层901可以基于爬虫工具,数据解析系统以及众包系统实现。爬虫工具可以爬取各个数据平台(如图10中示出的网站a,网站b和网站c)的数据,如可以爬取各个数据平台中的视频、新闻、直播数据和评论等游戏周边信息。该数据解析系统可以对爬虫工具对爬取的数据进行解析。众包系统可以包括问卷系统和投票系统。可以通过人工填写该问卷系统的问卷,或者对投票系统中的事项进行投票,以得到结构化数据。关于爬虫工具爬取数据以及通过众包系统获取数据的方式可以参考对图2的解释中的相关介绍,本申请实施例不做赘述。
图谱层902用于根据数据层901获取的数据构建游戏垂直知识图谱,且更新该游戏垂直知识图谱。如图10所示,该图谱层可以包括图谱概念层9021、数据获取模块9022、知识抽取模块9023、知识融合模块9024、图谱实体层9025以及更新迭代模块9026。该图谱概念层9021用于定义游戏垂直知识图谱的本体模型,游戏垂直知识图谱的构建方式等。数据获取模块9022可以基于数据层901获取数据,获取的数据可以包括结构化数据、非结构化数据和半结构化数据。知识抽取模块9023用于对数据获取模块9022获取的数据进行知识抽取,以得到游戏知识。该知识抽取模块9023进行知识抽取采用的方法可以包括D2R转换方法、封装器方法和基于远程监督技术进行的知识抽取方法。可选地,远程监督技术可以用于知识抽取模块9023进行实体识别、概念识别、关系抽取(如不同实体间的关系抽取)以及概念链接。知识融合模块9024可以用于对知识抽取模块9023抽取的游戏知识进行错误检验、规则化处理、实体对齐、属性对齐以及冲突消解,进而实现对抽取的游戏知识的融合。图谱实体层9025可以用于存储游戏垂直知识图谱中的游戏知识。更新迭代模块9026可以用于对构建的游戏垂直知识图谱进行更新,如对游戏垂直知识图谱中的知识进行新增或修改等。更新迭代模块9026可以触发游戏垂直知识图谱的异步周期更新,如可以触发游戏垂直知识图谱以一天为周期进行更新(也即是日更),或者触发游戏垂直知识图谱以一月为周期进行更新(也即是月更)。更新迭代模块9026可以触发游戏垂直知识图谱的知识补全,如对游戏垂直知识图谱中的实体进行补全,对游戏垂直知识图谱中实体的属性类别进行补全,对实体间的关系或属性间的关系进行补全。更新迭代模块9026可以触发游戏垂直知识图谱的主动更新和纠错。需要说明的是,游戏垂直知识图谱的每次更新,均会基于最新的图谱框架进行迭代,也即是在最新的游戏垂直知识图谱的基础上进行更新。可选地,该框架迭代的过程可以用于如直播过程等数据实时更新的场景下。
应用层903可以在外部设备的触发下,基于图谱层902构建的游戏垂直知识谱图实现数据检索、相似度计算、游戏预测、用户预测以及数据推理等功能。例如,外部设备(如终端)可以触发应用层基于游戏垂直知识谱图查询某游戏的基本信息,进而外部设备可以显示查询得到的该基本信息,如可以显示图8所示的页面。
综上所述,本申请实施例提供的数据处理装置,可以生成游戏垂直知识图谱,也即是仅针对游戏领域的垂直知识图谱,游戏垂直知识图谱可以覆盖游戏领域的较多知识,保证对游戏领域的知识更加有效地获取和应用。并且该游戏垂直知识图谱中游戏实体具有与多类功能属性一一对应的多个属性子系统,且在根据获取的游戏实体的数据得到游戏知识后,可以直接将该游戏知识添加至对应的属性子系统。如此对某一属性子系统的更新或修改不会影响其他属性子系统中的知识,保证了游戏垂直知识图谱的创建灵活性较高。
在示例性实施例中,还提供了一种数据处理装置,该装置可以包括处理器和存储器,所述存储器中存储有至少一条指令。所述至少一条指令经配置以由一个或者一个以上处理器执行,以实现上述任一种数据处理方法。
图11是本申请实施例提供的一种服务器的结构示意图。该服务器可以为上述实施例中所述的数据处理装置。如图11所示,服务器80包括中央处理单元(CPU)801、包括随机存取存储器(RAM)802和只读存储器(ROM)803的系统存储器804,以及连接系统存储器804和中央处理单元801的系统总线805。服务器800还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)806,和用于存储操作系统813、应用程序814和其他程序模块815的大容量存储设备807。
基本输入/输出系统806包括有用于显示信息的显示器808和用于用户输入信息的诸如鼠标、键盘之类的输入设备809。其中显示器808和输入设备809都通过连接到系统总线805的输入输出控制器810连接到中央处理单元801。基本输入/输出系统806还可以包括输入输出控制器810以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器810还提供输出到显示屏、打印机或其他类型的输出设备。
大容量存储设备807通过连接到系统总线805的大容量存储控制器(未示出)连接到中央处理单元801。大容量存储设备807及其相关联的计算机可读介质为服务器800提供非易失性存储。也就是说,大容量存储设备807可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。
不失一般性,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储设备,CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器804和大容量存储设备807可以统称为存储器。上述存储器还包括一个或者一个以上的程序,一个或者一个以上程序存储于存储器中,被配置由CPU执行。
根据本申请的各种实施例,服务器80还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器80可以通过连接在系统总线805上的网络接口单元811连接到网络812,或者说,也可以使用网络接口单元811来连接到其他类型的网络或远程计算机系统(未示出)。
在示例性实施例中,还提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行上述任一种数据处理方法。
需要说明的是:上述实施例提供的知识图谱构建系统在生成目标函数时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
需要说明的是:本申请实施例提供的方法实施例能够与相应的装置实施例相互参考,本申请实施例对此不做限定。本申请实施例提供的方法实施例步骤的先后顺序能够进行适当调整,步骤也能够根据情况进行相应增减,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化的方法,都应涵盖在本申请的保护范围之内,因此不再赘述。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种数据处理方法,其特征在于,所述方法包括:
获取游戏垂直知识图谱的本体模型,其中,所述本体模型指示所述游戏垂直知识图谱中的游戏实体具有多个属性子系统,所述游戏实体指示一个具体的游戏,所述多个属性子系统用于对所述游戏实体进行描述,所述多个属性子系统与所述游戏实体的多类功能属性一一对应,每个所述属性子系统包括对应的所述功能属性的游戏知识,所述多个属性子系统包括玩家对战PVP子系统、第一战斗子系统、社交子系统、音效子系统、剧情子系统、任务子系统、交易子系统、帮派子系统、升级子系统、推广子系统、成就子系统、天气子系统、玩法子系统、动作子系统、奖励子系统、角色子系统、搜集子系统、商业化子系统、控制子系统、经济子系统、排行榜子系统、新手子系统和画面子系统,所述玩法子系统对应的功能属性包括主品类属性、次品类属性、玩法耗时属性、注意力消耗程度属性、上手难度属性以及游戏内容数量属性;
获取游戏领域中游戏实体的数据;
对获取的游戏实体的数据进行知识抽取得到游戏知识;
对抽取得到的游戏知识进行知识融合,所述知识融合包括如下处理过程:实体对齐、属性对齐、规则化处理和冲突消解;
在融合后的游戏知识的属性属于所述多类功能属性时,将所述融合后的游戏知识添加至所述游戏知识的属性所属的功能属性对应的属性子系统,以得到更新后的所述游戏垂直知识图谱;
其中,所述实体对齐是指将具有不同标识但代表同一对象的实体合并为具有全局唯一标识的实体对象,所述属性对齐是指对实体属性和属性值进行整合,所述规则化处理是指将不同表示方式的游戏知识采用统一的方式进行表示,所述冲突消解是指消除同一游戏实体的游戏知识由于来源不同导致的属性冲突。
2.根据权利要求1所述的方法,其特征在于,所述游戏实体的数据包括多种模态的数据,所述多种模态包括:图片、视频、音频和文本中的至少两种模态。
3.根据权利要求1所述的方法,其特征在于,所述获取游戏领域中游戏实体的数据,包括:
周期性地获取所述游戏实体的数据;
在所述对获取的游戏实体的数据进行知识抽取得到游戏知识之后,所述方法还包括:
根据所述游戏知识确定所述游戏实体的目标属性的发展趋势信息,所述发展趋势信息用于指示所述目标属性的发展趋势,所述游戏知识包括所述目标属性的知识;
将所述目标属性的发展趋势信息添加至所述游戏垂直知识图谱中所述游戏实体的目标属性子系统,所述目标属性子系统对应的一类功能属性包括所述目标属性。
4.根据权利要求1所述的方法,其特征在于,所述游戏实体的数据包括:爬虫工具在互联网中爬取到的数据,以及众包系统中输入的数据中的至少一种。
5.根据权利要求4所述的方法,其特征在于,所述游戏实体的数据包括:所述众包系统中输入的满足众包条件的数据;
其中,所述众包条件包括下述条件中的至少一个:游戏实体的玩家数量高于数量阈值,游戏实体的玩家信息完善度高于完善度阈值,针对游戏实体的评论量高于阈值。
6.根据权利要求1至5任一所述的方法,其特征在于,所述方法还包括:
更新所述游戏垂直知识图谱的本体模型。
7.根据权利要求6所述的方法,其特征在于,所述更新所述游戏垂直知识图谱的本体模型,包括:
在所述游戏知识不属于所述多类功能属性时,在所述游戏垂直知识图谱的本体模型中添加辅助属性子系统,所述游戏知识属于所述辅助属性子系统对应的一类功能属性;
所述方法还包括:
将所述游戏知识添加至所述辅助属性子系统。
8.一种数据处理装置,其特征在于,所述数据处理装置包括:
第一获取模块,用于获取游戏垂直知识图谱的本体模型,其中,所述本体模型指示所述游戏垂直知识图谱中的游戏实体具有多个属性子系统,所述游戏实体指示一个具体的游戏,所述多个属性子系统用于对所述游戏实体进行描述,所述多个属性子系统与所述游戏实体的多类功能属性一一对应,每个所述属性子系统包括对应的所述功能属性的游戏知识,所述多个属性子系统包括玩家对战PVP子系统、第一战斗子系统、社交子系统、音效子系统、剧情子系统、任务子系统、交易子系统、帮派子系统、升级子系统、推广子系统、成就子系统、天气子系统、玩法子系统、动作子系统、奖励子系统、角色子系统、搜集子系统、商业化子系统、控制子系统、经济子系统、排行榜子系统、新手子系统和画面子系统,所述玩法子系统对应的功能属性包括主品类属性、次品类属性、玩法耗时属性、注意力消耗程度属性、上手难度属性以及游戏内容数量属性;
第二获取模块,用于获取游戏领域中游戏实体的数据;
知识抽取模块,用于对获取的游戏实体的数据进行知识抽取得到游戏知识;
知识融合模块,用于对抽取得到的游戏知识进行知识融合,所述知识融合包括如下处理过程:实体对齐、属性对齐、规则化处理和冲突消解;
知识添加模块,用于在融合后的游戏知识的属性属于所述多类功能属性时,将所述融合后的游戏知识添加至所述游戏知识的属性所属的功能属性对应的属性子系统,以得到更新后的所述游戏垂直知识图谱;
其中,所述实体对齐是指将具有不同标识但代表同一对象的实体合并为具有全局唯一标识的实体对象,所述属性对齐是指对实体属性和属性值进行整合,所述规则化处理是指将不同表示方式的游戏知识采用统一的方式进行表示,所述冲突消解是指消除同一游戏实体的游戏知识由于来源不同导致的属性冲突。
9.一种数据处理装置,其特征在于,所述数据处理装置包括:处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现如权利要求1至7任一所述的数据处理方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现如权利要求1至7任一所述的数据处理方法。
CN202010734367.1A 2020-07-27 2020-07-27 数据处理方法、装置及计算机可读存储介质 Active CN111858962B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010734367.1A CN111858962B (zh) 2020-07-27 2020-07-27 数据处理方法、装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010734367.1A CN111858962B (zh) 2020-07-27 2020-07-27 数据处理方法、装置及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN111858962A CN111858962A (zh) 2020-10-30
CN111858962B true CN111858962B (zh) 2023-04-07

Family

ID=72947547

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010734367.1A Active CN111858962B (zh) 2020-07-27 2020-07-27 数据处理方法、装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN111858962B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112426726A (zh) * 2020-12-09 2021-03-02 网易(杭州)网络有限公司 游戏事件抽取方法、装置、存储介质及服务器
CN112966099A (zh) * 2021-02-26 2021-06-15 北京金堤征信服务有限公司 关系图谱展示方法、装置及计算机可读存储介质
CN113254665A (zh) * 2021-06-01 2021-08-13 北京爱奇艺科技有限公司 一种知识图谱扩充方法、装置、电子设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003275461A (ja) * 2003-03-24 2003-09-30 Namco Ltd ゲームシステム及び情報記憶媒体
CN105354597A (zh) * 2015-11-10 2016-02-24 网易(杭州)网络有限公司 一种游戏物品的分类方法及装置
CN107844536A (zh) * 2017-10-18 2018-03-27 西安万像电子科技有限公司 应用程序选择的方法、装置和系统
CN109635120A (zh) * 2018-10-30 2019-04-16 百度在线网络技术(北京)有限公司 知识图谱的构建方法、装置和存储介质
CN110215703A (zh) * 2019-06-28 2019-09-10 香港乐蜜有限公司 游戏应用的选择方法、装置及系统
CN110532399A (zh) * 2019-08-07 2019-12-03 广州多益网络股份有限公司 面向游戏问答系统的知识图谱更新方法、系统及装置
CN111111214A (zh) * 2019-12-25 2020-05-08 上海米哈游天命科技有限公司 一种游戏存档的处理方法、装置及系统

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4125762B2 (ja) * 2006-07-06 2008-07-30 株式会社スクウェア・エニックス オンラインビデオゲーム制御サーバ
US20090017886A1 (en) * 2007-07-11 2009-01-15 Dr. Elliot McGucken System and method for creating exalted video games and virtual realities wherein ideas have consequences
CN105956052A (zh) * 2016-04-27 2016-09-21 青岛海尔软件有限公司 一种基于垂直领域的知识图谱的构建方法
CN107145559B (zh) * 2017-05-02 2019-11-29 吉林大学 基于语义技术和游戏化的智能课堂知识管理平台及方法
CN108345647B (zh) * 2018-01-18 2021-12-03 北京邮电大学 基于Web的领域知识图谱构建系统及方法
CN108376160B (zh) * 2018-02-12 2022-02-18 北京大学 一种中文知识图谱构建方法和系统
CN110019842A (zh) * 2018-09-30 2019-07-16 北京国双科技有限公司 一种建立知识图谱的方法及装置
CN109597855A (zh) * 2018-11-29 2019-04-09 北京邮电大学 基于大数据驱动的领域知识图谱构建方法及系统
CN110472107B (zh) * 2019-08-22 2024-01-30 腾讯科技(深圳)有限公司 多模态知识图谱构建方法、装置、服务器以及存储介质
CN110597992B (zh) * 2019-09-10 2023-08-29 腾讯科技(深圳)有限公司 基于知识图谱的语义推理方法及装置、电子设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003275461A (ja) * 2003-03-24 2003-09-30 Namco Ltd ゲームシステム及び情報記憶媒体
CN105354597A (zh) * 2015-11-10 2016-02-24 网易(杭州)网络有限公司 一种游戏物品的分类方法及装置
CN107844536A (zh) * 2017-10-18 2018-03-27 西安万像电子科技有限公司 应用程序选择的方法、装置和系统
CN109635120A (zh) * 2018-10-30 2019-04-16 百度在线网络技术(北京)有限公司 知识图谱的构建方法、装置和存储介质
CN110215703A (zh) * 2019-06-28 2019-09-10 香港乐蜜有限公司 游戏应用的选择方法、装置及系统
CN110532399A (zh) * 2019-08-07 2019-12-03 广州多益网络股份有限公司 面向游戏问答系统的知识图谱更新方法、系统及装置
CN111111214A (zh) * 2019-12-25 2020-05-08 上海米哈游天命科技有限公司 一种游戏存档的处理方法、装置及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Stephanie Heintz 等.The Game Genre Map: A Revised Game Classification.《CHI PLAY '15: Proceedings of the 2015 Annual Symposium on Computer-Human Interaction in Play》.2015,175-184. *
王晓宇.动作类游戏引擎中运动系统的设计与实现.《中国优秀硕士学位论文全文数据库信息科技辑》.2011,(第undefined期),I138-1078. *

Also Published As

Publication number Publication date
CN111858962A (zh) 2020-10-30

Similar Documents

Publication Publication Date Title
Gatt et al. Survey of the state of the art in natural language generation: Core tasks, applications and evaluation
CN111858962B (zh) 数据处理方法、装置及计算机可读存储介质
US9652719B2 (en) Authoring system for bayesian networks automatically extracted from text
US20150006528A1 (en) Hierarchical data structure of documents
CN110443571A (zh) 基于知识图谱进行简历评估的方法、装置及设备
CN109947952B (zh) 基于英语知识图谱的检索方法、装置、设备及存储介质
CN104978314A (zh) 媒体内容推荐方法及装置
CN112925901B (zh) 一种辅助在线问卷评估的评估资源推荐方法及其应用
CN112148890A (zh) 基于网络群体智能的教学知识点图谱系统
CN112149400A (zh) 一种数据处理方法、装置、设备及存储介质
Wu et al. A novel community answer matching approach based on phrase fusion heterogeneous information network
Nguyen et al. Seagull: A bird’s-eye view of the evolution of technical games research
CN112069329A (zh) 文本语料的处理方法、装置、设备及存储介质
CN111563097A (zh) 一种无监督式的题目聚合方法、装置、电子设备及存储介质
CN114511085A (zh) 实体属性值的识别方法、装置、设备、介质及程序产品
Simperl et al. Combining human and computation intelligence: the case of data interlinking tools
Wu et al. PaintKG: the painting knowledge graph using bilstm-crf
CN115248855A (zh) 文本处理方法及装置、电子设备、计算机可读存储介质
Wang Math-KG: Construction and Applications of Mathematical Knowledge Graph
Han Research on personalized recommendation method of educational resources based on learner behavior analysis
Drury A Text Mining System for Evaluating the Stock Market's Response To News
Tan et al. The applications of machine learning in computational thinking assessments: a scoping review
Matwin et al. Generative Methods for Social Media Analysis
CN113407704A (zh) 文本匹配方法、装置、设备及计算机可读存储介质
Ayaz et al. Novel Mania: A semantic search engine for Urdu

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant