CN111538843B - 游戏领域的知识图谱关系匹配方法、模型构建方法及装置 - Google Patents
游戏领域的知识图谱关系匹配方法、模型构建方法及装置 Download PDFInfo
- Publication number
- CN111538843B CN111538843B CN202010191888.7A CN202010191888A CN111538843B CN 111538843 B CN111538843 B CN 111538843B CN 202010191888 A CN202010191888 A CN 202010191888A CN 111538843 B CN111538843 B CN 111538843B
- Authority
- CN
- China
- Prior art keywords
- relation
- matching
- relationship
- game field
- field
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种游戏领域的知识图谱关系匹配模型构建方法,包括:获取开放领域的关系匹配数据集;基于TFIDF文本相似度的方法,从所述开放领域的关系匹配数据集中获取适用于所述游戏领域的关系匹配数据集;采集开放领域的自由文本,并对所述开放领域的自由文本进行预训练,构建语言模型;其中,所述语言模型为知识图谱关系匹配所需的模型结构;根据所述游戏领域的关系匹配数据集,对所述语言模型进行增量训练,以构建所述游戏领域的知识图谱关系匹配模型。采用本发明实施例,通过数据迁移的方法构建游戏领域的知识图谱关系匹配模型,解决了游戏领域数据不足的问题,提高了对游戏领域的知识图谱关系匹配的精准性和高效性。
Description
技术领域
本发明涉及语言处理技术领域,尤其涉及一种游戏领域的知识图谱关系匹配方法、模型构建方法及装置。
背景技术
知识图谱以三元组的形式存储知识,一条知识被表示成“主体,关系,客体”的形式,其中主体和客体通常为命名实体,而关系通常为属性。知识图谱用于问答系统的原理为:解析输入问题中的主体和关系,与知识图谱的知识进行匹配,返回知识图谱中对应的客体作为答案。从输入问题中识别出知识图谱对应的关系的任务称为关系匹配。
现有技术中,通常采用基于语义解析或基于机器学习的方法实现关系匹配任务。基于语义解析的方法通过解析问题的句子结构,抽取出表示关系的词汇,再通过预先构建好的匹配库将词汇与知识图谱的关系匹配;基于机器学习的方法通过训练语料将问句和知识图谱关系都转成某种向量化表达形式,计算相似度找出和问句表述最相似的知识图谱关系。
然而,在实施本发明过程中,发明人发现现有技术至少存在如下问题:游戏领域构造的世界与现实世界存在不同,有的基于现实世界,有的基于虚构的异世界,因而针对游戏领域的问答系统,往往没有足够的数据积累,无法为机器学习提供大量有效的训练语料。而采用语义解析的方法需要耗费大量的人力进行数据标注或总结规则,人工干预过多,并且对问句形式要求严格,需投入的人工和时间成本较大。
发明内容
本发明实施例的目的是提供一种游戏领域的知识图谱关系匹配方法、模型构建方法及装置,其通过数据迁移的方法构建游戏领域的知识图谱关系匹配模型,解决了游戏领域数据不足的问题,提高了对游戏领域的知识图谱关系匹配的精准性和高效性。
为实现上述目的,本发明实施例提供了一种游戏领域的知识图谱关系匹配模型构建方法,包括:
获取开放领域的关系匹配数据集;
基于TFIDF文本相似度的方法,从所述开放领域的关系匹配数据集中获取适用于所述游戏领域的关系匹配数据集;
采集开放领域的自由文本,并对所述开放领域的自由文本进行预训练,构建语言模型;其中,所述语言模型为知识图谱关系匹配所需的模型结构;
根据所述游戏领域的关系匹配数据集,对所述语言模型进行增量训练,以构建所述游戏领域的知识图谱关系匹配模型。
作为上述方案的改进,所述获取开放领域的关系匹配数据集,包括:
采集开放领域的知识图谱和问答数据集;其中,所述问答数据集中包括至少一个问答对;
将所述问答数据集中的问答对和所述知识图谱中的三元组进行对齐操作,为每一问答对匹配对应的目标三元组;
将所述问答对的问题与对应目标三元组的关系构造“问题-关系”的关系匹配数据,以形成所述开放领域的关系匹配数据集。
作为上述方案的改进,所述将所述问答数据集中的问答对和所述知识图谱中的三元组进行对齐操作,为每一问答对匹配对应的目标三元组,包括:
对所述开放领域的知识图谱中三元组的客体建立反向索引;
针对每一问答对,从所述开放领域的知识图谱中检索出客体为所述问答对的答案的备选三元组;
计算每一所述备选三元组中的主体与关系在所述问答对的问题中的相似度,并获取相似度最高的备选三元组作为所述问答对的目标三元组。
作为上述方案的改进,采用基于lcs字符匹配的相似度算法,计算每一所述备选三元组中的主体与关系在所述问答对的问题中的相似度。
作为上述方案的改进,所述基于TFIDF文本相似度的方法,从所述开放领域的关系匹配数据集中获取适用于所述游戏领域的关系匹配数据集,包括:
分别采集开放领域的自由文本集合和所述游戏领域的自由文本集合;
依次获取所述开放领域的关系匹配数据集中的关系匹配数据,作为待定关系匹配数据;
计算所述待定关系匹配数据中的问题在所述开放领域的自由文本集合中的TFIDF值,作为开放领域分布量;
计算所述待定关系匹配数据中的问题在所述游戏领域的自由文本集合中的TFIDF值,作为游戏领域分布量;
当所述待定关系匹配数据的开放领域分布量与游戏领域分布量的差值小于第一预设阈值时,将所述待定关系匹配数据作为目标关系匹配数据,并加入所述游戏领域的关系匹配数据集。
作为上述方案的改进,所述当所述待定关系匹配数据的开放领域分布量与游戏领域分布量的差值小于第一预设阈值时,将所述待定关系匹配数据作为目标关系匹配数据,并加入所述游戏领域的关系匹配数据集之后,包括:
计算所述游戏领域的关系匹配数据集中每一目标关系匹配数据的关系与预设的游戏领域知识图谱中的关系的相似度;
根据相似度大于第二预设阈值的游戏领域知识图谱的关系,扩增与其对应的目标关系匹配数据,以扩增后的关系匹配数据集作为所述游戏领域的关系匹配数据集。
作为上述方案的改进,所述采集开放领域的自由文本,并对所述开放领域的自由文本进行预训练,构建语言模型,包括:
采集开放领域的自由文本,并采用transformer架构预训练得到第一语言模型;
在所述第一语言模型中增加双向LSTM层和attention层,并最后连接sigmoid函数,以形成所述语言模型。
本发明实施例还提供了一种游戏领域的知识图谱关系匹配模型构建装置,包括:
第一数据集获取模块,用于获取开放领域的关系匹配数据集;
第二数据集获取模块,用于基于TFIDF文本相似度的方法,从所述开放领域的关系匹配数据集中获取适用于所述游戏领域的关系匹配数据集;
语言模型构建模块,用于采集开放领域的自由文本,并对所述开放领域的自由文本进行预训练,构建语言模型;其中,所述语言模型为知识图谱关系匹配所需的模型结构;
关系匹配模型构建模块,用于根据所述游戏领域的关系匹配数据集,对所述语言模型进行增量训练,以构建所述游戏领域的知识图谱关系匹配模型。
本发明实施例还提供了一种游戏领域的知识图谱关系匹配方法,通过如上任一项所述的游戏领域的知识图谱关系匹配模型构建方法所构建的知识图谱关系匹配模型进行关系匹配,包括:
识别输入问题中的实体;
在游戏领域知识图谱中,获取包括所述输入问题的实体的所有三元组中的关系,作为候选关系;
将所述输入问题和所述候选关系作为所述游戏领域的知识图谱关系匹配模型的输入量,根据所述游戏领域的知识图谱关系匹配模型的计算结果,返回所述输入问题对应的目标关系。
本发明实施例还提供了一种游戏领域的知识图谱关系匹配装置,用于实现如上所述的游戏领域的知识图谱关系匹配方法,包括:
问题实体识别模块,用于识别输入问题中的实体;
候选关系获取模块,用于在游戏领域知识图谱中,获取包括所述输入问题的实体的所有三元组中的关系,作为候选关系;
目标关系输出模块,用于将所述输入问题和所述候选关系作为所述游戏领域的知识图谱关系匹配模型的输入量,根据所述游戏领域的知识图谱关系匹配模型的计算结果,返回所述输入问题对应的目标关系。
与现有技术相比,本发明公开的一种游戏领域的知识图谱关系匹配模型构建方法、装置,基于TFIDF文本相似度的方法,从采集到的开放领域的关系匹配数据集中获取并进一步扩增,得到适用于所述游戏领域的关系匹配数据集。利用开放领域数据资源丰富的特点,通过数据迁移和数据扩增的方法,解决了游戏领域的关系匹配数据资源缺乏的问题。接着,采用开放领域的自由文本预训练出语言模型并进行微调,再根据获取到的游戏领域的关系匹配数据集,对预训练的语言模型进行增量训练,从而构建一个游戏领域的知识图谱关系匹配模型,用于完成游戏领域的关系匹配任务。借助通用的语言模型进行微调和训练,解决自然语言中表述多样性导致关系匹配困难的问题。且不需要大量的人工标注,有效地节省了人力和时间资源。本发明公开的一种游戏领域的知识图谱关系匹配方法、装置,在采用所构建的游戏领域的知识图谱关系匹配模型进行关系匹配任务时,先对输入问题的实体进行识别,再根据实体找出该游戏领域知识图谱中和该实体相关的三元组关系,作为候选关系。最后将输入问题和所有候选关系输入预先构建的知识图谱关系匹配模型,返回所述输入问题对应的目标关系,能够有效地减少关系匹配任务的计算量,提供了关系匹配效率。同时预先排除了干扰项,提高了关系匹配的准确性。
附图说明
图1是本发明实施例一提供的一种游戏领域的知识图谱关系匹配模型构建方法的步骤流程示意图;
图2是本发明实施例一中游戏领域的知识图谱关系匹配模型构建方法的步骤S11的流程示意图;
图3是本发明实施例一中游戏领域的知识图谱关系匹配模型构建方法的步骤S12的流程示意图;
图4是本发明实施例一中的语言模型的结构示意图;
图5是本发明实施例二提供的一种游戏领域的知识图谱关系匹配模型构建装置的结构示意图;
图6是本发明实施例三提供的一种游戏领域的知识图谱关系匹配方法的步骤流程示意图;
图7是本发明实施例四提供的一种游戏领域的知识图谱关系匹配装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,是本发明实施例一提供的一种游戏领域的知识图谱关系匹配模型构建方法的步骤流程示意图。本发明实施例所述的游戏领域的知识图谱关系匹配模型构建方法,通过步骤S11至S14执行:
S11、获取开放领域的关系匹配数据集。
知识图谱以三元组的形式存储知识,也即“主体,关系,客体”的形式,其中主体和客体通常为命名实体,而关系通常为属性。知识图谱问答数据由问题和对应的答案组成,问题中包括头实体和关系,答案中包括尾实体。从问题中识别出对应知识图谱的关系的过程称为关系匹配。开放领域的关系匹配数据集(Q-R)即为开放领域中,由问答数据的问题Q和对应的知识图谱的关系R匹配而成的数据集合。由于开放领域具有较完善的数据积累,通过获取开放领域的关系匹配数据集,为后续构造游戏领域的知识图谱关系匹配模型提供数据基础。
优选地,参见图2,是本发明实施例一中游戏领域的知识图谱关系匹配模型构建方法的步骤S11的流程示意图。步骤S11通过步骤S111至S113执行:
S111、采集开放领域的知识图谱和问答数据集;其中,所述问答数据集中包括至少一个问答对。
收集开放领域的知识图谱和大量问答数据集。所述知识图谱为“主体,关系,客体”的三元组格式,作为举例,所述开放领域的知识图谱包括:
<中国, 首都, 北京>
<切诺比核电站, 地点, 乌克兰普里皮亚季>
所述问答数据集包括若干个问答对(QA对),所述问答对由包括“头实体”和“关系”的问题Q,及包括“尾实体”的答案A构成。作为举例,所述开放领域的问答数据集包括:
Q:切诺比核电站在哪?
A:乌克兰普里皮亚季
S112、将所述问答数据集中的问答对和所述知识图谱中的三元组进行对齐操作,为每一问答对匹配对应的目标三元组。
S113、将所述问答对的问题与对应目标三元组的关系构造“问题-关系”的关系匹配数据,以形成所述开放领域的关系匹配数据集。
将收集的开放领域的知识图谱和问答数据集进行对齐,从而形成所述开放领域的关系匹配数据集Q-R。
具体地,步骤S112通过步骤S1121至S1123执行:
S1121、对所述开放领域的知识图谱中三元组的客体建立反向索引;
S1122、针对每一问答对,从所述开放领域的知识图谱中检索出客体为所述问答对的答案的备选三元组;
S1123、计算每一所述备选三元组中的主体与关系在所述问答对的问题中的相似度,并获取相似度最高的备选三元组作为所述问答对的目标三元组。
具体地,对开放领域的知识图谱中的每一个三元组“主体,关系,客体”的客体建立反向索引,遍历所述问答数据集中的每一问答对(QA对),从开放领域知识图谱中检索出客体为所述问答对的答案的备选三元组。接着,计算每一备选三元组的“主体”和“关系”,在所述问答对的“问题”中的相似度,并获取相似度最高的备选三元组作为该问答对的目标三元组,从而完成开放领域知识图谱的三元组和问答数据集的问答对的对齐操作。
作为举例,针对开放领域的问答数据集中的某一条QA对:
Q:故宫在哪?
A:北京
从开放领域的知识图谱中检索到客体为北京的三元组,则作为该QA对的备选三元组,如:<故宫, 地点, 北京>和<中国, 首都, 北京>等
通过分别计算上述多个备选三元组中的主体与关系如“故宫和地点”、“中国和首都”等与该QA对的问题Q的相似度,得到<故宫, 地点, 北京>的相似度最高,从而将备选三元组<故宫, 地点, 北京>作为该QA对的目标三元组。
对齐后的数据格式形如:
Q:故宫在哪?
T:<故宫, 地点, 北京>
A: 北京
将问题Q中的头实体使用特定字符串进行掩盖,并构造关系匹配数据(Q-R),其中,R表示关系,“@(entity)”为实体掩码。
Q:@(entity)在哪?
R:地点
对收集到的问答数据集中的每一QA对匹配相应的知识图谱三元组,从而构建若干个关系匹配数据,形成所述开放领域的关系匹配数据集。
需要说明的是,当问答数据集中的某一QA对没有检索到对应的备选三元组时,则将该条QA对的数据丢弃,从而保证最终形成的关系匹配数据集的准确性与简洁性。
可以理解地,上述所涉及到的场景和数据仅作为举例,根据实际情况将采集的知识图谱的三元组与问答数据集的QA对进行对齐,均不影响本发明取得的有益效果。
作为优选的实施方式,采用基于lcs字符匹配的相似度算法,计算每一所述备选三元组中的主体与关系在所述问答对的问题中的相似度sim(Q,T)。两个字符串的最长公共子序列长度用lcs_length( )表示,字符串长度用len( )表示。相似度sim(Q,T)的计算方法如下:
其中,Q为所述问答对中的问题,T为对应的备选三元组,备选三元组中的主体、关系、客体分别为h、r、t。
作为举例,对以下QA对中的问题Q和备选三元组T,
Q:切诺比核电站在哪?
T:<切诺比核电站, 地点, 乌克兰普里皮亚季>
相似度sim(Q,T)=(6+0)/(8+2)=0.6
通过基于lcs字符匹配的相似度算法,计算问答对中的问题与备选三元组的相似度,计算过程简单快捷,操作方便。
S12、基于TFIDF文本相似度的方法,从所述开放领域的关系匹配数据集中获取适用于所述游戏领域的关系匹配数据集。
需要说明的是,本实施例中的游戏领域为某一具体游戏的领域数据,在游戏领域中,游戏领域的数据资源较少,且其设定的世界观与现实世界存在一定的差异性,许多开放领域的数据不能完全使用。因此,在获取到开放领域的关系匹配数据集后,通过TFIDF文本相似度的方法,比较每一开放领域的关系匹配数据在开放领域的文本语料和在游戏领域的文本语料中的分布差异,当计算得到任一开放领域的关系匹配数据在开放领域和在游戏领域的文本语料中的分布差异较小时,表明该开放领域的关系匹配数据适用于所述游戏领域,将其作为游戏领域的关系匹配数据,以此筛选出所述游戏领域的关系匹配数据集。
作为优选的实施方式,参见图3,是本发明实施例一中游戏领域的知识图谱关系匹配模型构建方法的步骤S12的流程示意图。步骤S12通过步骤S121至S125执行:
S121、分别采集开放领域的自由文本集合和所述游戏领域的自由文本集合。
分别在开放领域和所述游戏领域中采集一定量的自由文本,记开放领域的自由文本集合为A,所述游戏领域的自由文本集合为B。
S122、依次获取所述开放领域的关系匹配数据集中的关系匹配数据,作为待定关系匹配数据。
S123、计算所述待定关系匹配数据中的问题在所述开放领域的自由文本集合中的TFIDF值,作为开放领域分布量。
S124、计算所述待定关系匹配数据中的问题在所述游戏领域的自由文本集合中的TFIDF值,作为游戏领域分布量。
S125、当所述待定关系匹配数据的开放领域分布量与游戏领域分布量的差值小于第一预设阈值时,将所述待定关系匹配数据作为目标关系匹配数据,并加入所述游戏领域的关系匹配数据集。
当问题Q在文本集合A和B中的TFIDF值之差小于第一预设阈值/>时,表明问题Q在文本集合A和B中的分布量相近,该待定关系匹配数据在开放领域和所述游戏领域中具有相似的适用性,将所述待定关系匹配数据作为目标关系匹配数据,并加入所述游戏领域的关系匹配数据集中。接着,在开放领域关系匹配数据集中获取下一个关系匹配数据,作为待定关系匹配数据进行TFIDF文本相似度计算。
优选地,待定关系匹配数据中的问题Q在文本集合A和B中的TFIDF值的计算方法如下:
S101、将所述待定关系匹配数据中的问题进行分词预处理;
其中,m表示问题Q进行分词处理后的词汇数量。
逆文档频是词语的普遍重要性的度量,其值越高说明该词语在文本集合中越典型。通过词语i的词频和逆文档频的乘积,计算词汇i的TFIDF值,从而进一步计算得到待定关系匹配数据的问题Q的TFIDF值,以衡量问题Q在两个自由文本集合中的分布量。
采用本发明实施例的技术手段,能够更准确地从开放领域的关系匹配数据集中筛选出合适的游戏领域的关系匹配数据。
进一步地,参见图3,在所述开放领域的关系匹配数据集中筛选出所述游戏领域的关系匹配数据集后,为了增加在所述游戏领域中的覆盖度,需要对所述游戏领域的关系匹配数据集进行扩增处理,以使所述游戏领域的关系匹配数据集更加具有游戏专用性。具体的,步骤S12还包括步骤S126至S127:
S126、计算所述游戏领域的关系匹配数据集中每一目标关系匹配数据的关系与预设的游戏领域知识图谱中的关系的相似度。
S127、根据相似度大于第二预设阈值的游戏领域知识图谱的关系,扩增与其对应的目标关系匹配数据,以扩增后的关系匹配数据集作为所述游戏领域的关系匹配数据集。
通过获取所述游戏领域的知识图谱,计算所述游戏领域的关系匹配数据集中每一目标关系匹配数据(Q-R)的关系R,与所述游戏领域知识图谱中所有三元组中的“关系”之间的相似度。当某一关系匹配数据的关系R与某一游戏领域知识图谱的“关系”的相似度达到第二预设阈值,则根据该游戏领域知识图谱的“关系”,对该关系匹配数据的关系R进行扩增。
可以理解的,所述第二预设阈值为预先设置的数值,可以根据实际应用情况具体设置,在此不做具体限定。相似度的算法可以是基于lcs字符匹配的相似度算法,也可以是最小编辑距离的相似度算法,或其他语义相似度算法,不影响本发明取得的有益效果。
作为举例,对以下目标关系匹配数据(Q-R):
Q:@(entity)在哪?
R:地点
Q1:@(entity)在哪?
R1:捕捉地点
Q2:@(entity)在哪?
R2:任务地点
采用本发明实施例的技术手段,对所述游戏领域的关系匹配数据集进行扩增,得到扩增后的游戏领域的关系匹配数据集S,使得数据集S中的关系匹配数据更加具有游戏专业性,适用性更高。
S13、采集开放领域的自由文本,并对所述开放领域的自由文本进行预训练,构建语言模型;其中,所述语言模型为知识图谱关系匹配所需的模型结构。
具体地,参见图4,是本发明实施例一中的语言模型的结构示意图。所述语言模型的构建方法如下:
S131、根据开放领域的自由文本,采用transformer架构预训练得到第一语言模型M1;
S132、在所述第一语言模型M1中增加双向LSTM层和attention层,并最后连接sigmoid函数,以形成所述语言模型M2。
第一语言模型M1假定的任务是预测句子中的掩码词语。在采集开放领域的自有文本后,需要对文本语料进行分词等预处理。针对自由文本中的每句话,随机挑选2-3个词语进行掩盖,训练第一语言模型M1预测掩盖的词语。由于该模型是字向量级别的预训练模型,添加了掩码的文本要按字符切分。
原始自由文本:“语言模型预测下一个词语的出现概率。”
预处理文本后:“语 言 模 型 [mask] [mask]下 一 个 词 语 的 [mask][mask]概 率 。”
则掩盖的词语为:[“预”, ”测”, “出”, “现”]
在本发明实施例中,上述第一语言模型M1的训练过程仅为一种优选的实施方式。预训练第一语言模型M1的目的是得到一个学习自然语言表述和特征的模型,该语言模型的训练不限于当前任务,可以由其他自然语言处理任务得到,均不影响本发明取得的有益效果。
采用本发明实施例的技术手段,预训练的第一语言模型在一定程度上学习了自然语言的表达规律,比一般的机器学习方法具有更好的效果和鲁棒性。
接着,在预训练出第一语言模型M1后,参见图4,在模型M1的基础上,增加一个双向LSTM层和attention层,最后通过一个sigmoid函数输出“问题”和“关系”的相似概率(或称为相似度),即为语言模型M2。
关系匹配任务本质上是一个相似度计算任务:给定“问题”和“关系”,计算其相似度,排序得出与该“问题”最相似的“关系”。因此,通过增加双向LSTM层,用于学习输入的“问题”所表述的上下文信息,增加attention层,用于提高“问题”中重要词汇的权重。
S14、根据所述游戏领域的关系匹配数据集,对所述语言模型进行增量训练,以构建所述游戏领域的知识图谱关系匹配模型。
最后,将筛选和扩增后得到的游戏领域的关系匹配数据集S输入到所述语言模型M2中进行训练,从而构建得到所述游戏领域的知识图谱关系匹配模型M,其中,所述游戏领域的知识图谱关系匹配模型用于计算输入的问题与关系的相似度,并返回与所述问题最相似的关系,从而完成所述游戏领域的问答系统的知识图谱关系匹配任务。
作为优选的实施方式,对所述语言模型M2中进行训练的过程包括增量训练任务(或称语言模型的下游任务)。输入语言模型M2的游戏领域的关系匹配数据集S中的每一关系匹配数据为正例。另外,还需要输入负例数据集合对语言模型M2进行训练,以增加知识图谱关系匹配模型M对数据集以及样本分布的拟合度,提高准确率。
所述负例数据集合的获取方法如下:
S141、获取关系集合;其中,所述关系集合为游戏领域知识图谱中的关系或开放领域知识图谱中的关系的集合;
S142、计算所述游戏领域的关系匹配数据集S中每一关系与所述关系集合中每一关系的相似度;其中,相似度算法采用最小编辑距离计算。
S143、选取所述关系集合中,相似度大于第三预设阈值的N个关系构成所述负例数据集合。
需要说明的是,为了增加语言模型的辨别能力,负例的构造需要与正例有一定的相似度,但为了避免新构造的负例在逻辑上也是正确的,导致引入误差,所述第三预设阈值不能取太大,因此,可以根据实际情况设置一个合适大小的阈值,在此不做具体限定。
作为举例,对于数据集S中的以下游戏领域的关系匹配数据:
Q1:@(entity)在哪?
R1:捕捉地点
对该关系匹配数据构建N=6个负例,构造负例后的负例数据集合如下:
1@(entity)在哪?捕捉地点
0@(entity)在哪?捕捉方式
0@(entity)在哪?捕获要点
0@(entity)在哪?捕获时间
......
其中,1表示正例,0表示负例
通过将游戏领域的关系匹配数据集S中的每一关系匹配数据作为正例输入模型M2进行学习训练,再根据正例构造相应的负例输入模型M2进行学习训练,从而增加语言模型的辨别能力,最终构造一个准确性高,数据资源充足的知识图谱关系模型匹配模型M,以完成关系匹配任务。
通过所述游戏领域的知识图谱关系模型匹配模型M完成关系匹配任务的步骤为:将输入问题与游戏领域知识图谱中的所有关系作为所述知识图谱关系模型匹配模型M的输入量;根据所述知识图谱关系模型匹配模型M的计算结果,得到所述输入问题对应的目标关系。
进一步地,游戏领域的问答系统即根据所述输入问题对应的目标关系所在三元组,得到该三元组中的客体即为所述输入问题的答案。
本发明实施例一提供了一种游戏领域的知识图谱关系匹配模型构建方法,基于TFIDF文本相似度的方法,从采集到的开放领域的关系匹配数据集中获取并进一步扩增,得到适用于所述游戏领域的关系匹配数据集。利用开放领域数据资源丰富的特点,通过数据迁移和数据扩增的方法,解决了游戏领域的关系匹配数据资源缺乏的问题。接着,采用开放领域的自由文本预训练出语言模型并进行微调,再根据获取到的游戏领域的关系匹配数据集,对预训练的语言模型进行增量训练,从而构建一个游戏领域的知识图谱关系匹配模型,用于完成游戏领域的关系匹配任务。借助通用的语言模型进行微调和训练,解决自然语言中表述多样性导致关系匹配困难的问题。且不需要大量的人工标注,有效地节省了人力和时间资源。
参见图5,是本发明实施例二提供的一种游戏领域的知识图谱关系匹配模型构建装置的结构示意图。本发明实施例提供的一种游戏领域的知识图谱关系匹配模型构建装置20,包括:第一数据集获取模块21、第二数据集获取模块22、语言模型构建模块23和关系匹配模型构建模块24;其中,
所述第一数据集获取模块21,用于获取开放领域的关系匹配数据集;
所述第二数据集获取模块22,用于基于TFIDF文本相似度的方法,从所述开放领域的关系匹配数据集中获取适用于所述游戏领域的关系匹配数据集;
所述语言模型构建模块23,用于采集开放领域的自由文本,并对所述开放领域的自由文本进行预训练,构建语言模型;其中,所述语言模型为知识图谱关系匹配所需的模型结构;
所述关系匹配模型构建模块24,用于根据所述游戏领域的关系匹配数据集,对所述语言模型进行增量训练,以构建所述游戏领域的知识图谱关系匹配模型。
需要说明的是,本发明实施例二提供的一种游戏领域的知识图谱关系匹配模型构建装置用于执行上述实施例一的一种游戏领域的知识图谱关系匹配模型构建方法的所有流程步骤,两者的工作原理和有益效果一一对应,因而不再赘述。
本发明实施例二提供了一种游戏领域的知识图谱关系匹配模型构建装置,从开放领域获取开放领域的关系匹配数据集。基于TFIDF文本相似度的方法,从采集到的开放领域的关系匹配数据集中获取并进一步扩增,得到适用于所述游戏领域的关系匹配数据集。利用开放领域数据资源丰富的特点,通过数据迁移和数据扩增的方法,解决了游戏领域的关系匹配数据资源缺乏的问题。接着,采用开放领域的自由文本预训练出语言模型并进行微调,再根据获取到的游戏领域的关系匹配数据集,对预训练的语言模型进行增量训练,从而构建一个游戏领域的知识图谱关系匹配模型,用于完成游戏领域的关系匹配任务。借助通用的语言模型进行微调和训练,解决自然语言中表述多样性导致关系匹配困难的问题。且不需要大量的人工标注,有效地节省了人力和时间资源。
参见图6,是本发明实施例三提供的一种游戏领域的知识图谱关系匹配方法的步骤流程示意图。本发明实施例三提供的一种游戏领域的知识图谱关系匹配方法,是通过实施例一所述的游戏领域的知识图谱关系匹配模型构建方法所构建的知识图谱关系匹配模型M进行关系匹配任务。
在预先构建好所述游戏领域的知识图谱关系匹配模型M后,通过步骤S31至S33执行关系匹配的任务:
S31、识别输入问题中的实体;
S32、在游戏领域知识图谱中,获取包括所述输入问题的实体的所有三元组中的关系,作为候选关系;
S33、将所述输入问题和所述候选关系作为所述游戏领域的知识图谱关系匹配模型的输入量,根据所述游戏领域的知识图谱关系匹配模型的计算结果,返回所述输入问题对应的目标关系。
在本发明实施例中,输入问题包括“实体”和“关系”,根据输入问题从知识图谱中识别出对应的关系的任务称为关系匹配。所述游戏领域的问答系统所需要完成的关系匹配任务就是采用所构建的知识图谱关系匹配模型M进行的。然而,若将输入问题和所述游戏领域的知识图谱中的所有关系输入知识图谱关系匹配模型M进行相似度计算,最后返回输入问题对应的目标关系,这个过程十分耗时,且计算量大。
因此,在进行关系匹配之前,先对输入问题的实体进行识别,再根据实体在该游戏领域知识图谱中找出和该实体相关的三元组关系,作为候选关系。最后将输入问题和所有候选关系输入预先构建的知识图谱关系匹配模型M,计算相似度并返回相似度最高的目标关系,从而完成关系匹配的任务。
作为举例,对于输入问题为“切诺比核电站在哪?”,识别输入问题中的实体为“切诺比核电站”,接着,遍历该游戏领域知识图谱的所有三元组,得到包括“切诺比核电站”的三元组,包括<切诺比核电站,地点,乌克兰普里皮亚季>,<切诺比核电站,建造日期,xxx>,<切诺比核电站,使用年限,xxx>,则其中的“地点”,“建造日期”和“使用年限”即为所述候选关系。将该输入问题“切诺比核电站在哪?”和所有候选关系“地点”、“建造日期”、“使用年限”作为知识图谱关系匹配模型M的输入量,最终返回“地点”这一目标关系。
采用上述关系匹配方法,在该游戏领域的问答系统中,根据用户的输入问题获取所述输入问题的目标关系,进而得到该输入问题对应的游戏领域知识图谱的三元组<切诺比核电站,地点,乌克兰普里皮亚季>,从而将“乌克兰普里皮亚季”作为该输入问题的答案返回用户。
本发明实施例三提供的一种游戏领域的知识图谱关系匹配方法,先对输入问题的实体进行识别,再根据实体找出该游戏领域知识图谱中和该实体相关的三元组关系,作为候选关系。最后将输入问题和所有候选关系输入预先构建的知识图谱关系匹配模型,返回所述输入问题对应的目标关系,能够有效地减少关系匹配任务的计算量,提供了关系匹配效率。同时预先排除了干扰项,提高了关系匹配的准确性。
参见图7,是本发明实施例四提供的一种游戏领域的知识图谱关系匹配装置的结构示意图。本发明实施例四提供的一种游戏领域的知识图谱关系匹配装置40,包括:问题实体识别模块41、候选关系获取模块42和目标关系输出模块43,其中,
所述问题实体识别模块41,用于识别输入问题中的实体;
所述候选关系获取模块42,用于在游戏领域知识图谱中,获取包括所述输入问题的实体的所有三元组中的关系,作为候选关系;
所述目标关系输出模块43,用于将所述输入问题和所述候选关系作为所述游戏领域的知识图谱关系匹配模型的输入量,根据所述游戏领域的知识图谱关系匹配模型的计算结果,返回所述输入问题对应的目标关系。
需要说明的是,本发明实施例四提供的一种游戏领域的知识图谱关系匹配装置用于执行上述实施例三的一种游戏领域的知识图谱关系匹配方法的所有流程步骤,两者的工作原理和有益效果一一对应,因而不再赘述。
本发明实施例四提供的一种游戏领域的知识图谱关系匹配装置,先对输入问题的实体进行识别,再根据实体找出该游戏领域知识图谱中和该实体相关的三元组关系,作为候选关系。最后将输入问题和所有候选关系输入预先构建的知识图谱关系匹配模型,返回所述输入问题对应的目标关系,能够有效地减少关系匹配任务的计算量,提供了关系匹配效率。同时预先排除了干扰项,提高了关系匹配的准确性。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (9)
1.一种游戏领域的知识图谱关系匹配模型构建方法,其特征在于,包括:
获取开放领域的关系匹配数据集;
基于TFIDF文本相似度的方法,从所述开放领域的关系匹配数据集中获取适用于所述游戏领域的关系匹配数据集;
采集开放领域的自由文本,并对所述开放领域的自由文本进行预训练,构建语言模型;其中,所述语言模型为知识图谱关系匹配所需的模型结构;
根据所述游戏领域的关系匹配数据集,对所述语言模型进行增量训练,以构建所述游戏领域的知识图谱关系匹配模型;
所述基于TFIDF文本相似度的方法,从所述开放领域的关系匹配数据集中获取适用于所述游戏领域的关系匹配数据集,包括:
分别采集开放领域的自由文本集合和所述游戏领域的自由文本集合;
依次获取所述开放领域的关系匹配数据集中的关系匹配数据,作为待定关系匹配数据;
计算所述待定关系匹配数据中的问题在所述开放领域的自由文本集合中的TFIDF值,作为开放领域分布量;
计算所述待定关系匹配数据中的问题在所述游戏领域的自由文本集合中的TFIDF值,作为游戏领域分布量;
当所述待定关系匹配数据的开放领域分布量与游戏领域分布量的差值小于第一预设阈值时,将所述待定关系匹配数据作为目标关系匹配数据,并加入所述游戏领域的关系匹配数据集。
2.如权利要求1所述的游戏领域的知识图谱关系匹配模型构建方法,其特征在于,所述获取开放领域的关系匹配数据集,包括:
采集开放领域的知识图谱和问答数据集;其中,所述问答数据集中包括至少一个问答对;
将所述问答数据集中的问答对和所述知识图谱中的三元组进行对齐操作,为每一问答对匹配对应的目标三元组;
将所述问答对的问题与对应目标三元组的关系构造“问题-关系”的关系匹配数据,以形成所述开放领域的关系匹配数据集。
3.如权利要求2所述的游戏领域的知识图谱关系匹配模型构建方法,其特征在于,所述将所述问答数据集中的问答对和所述知识图谱中的三元组进行对齐操作,为每一问答对匹配对应的目标三元组,包括:
对所述开放领域的知识图谱中三元组的客体建立反向索引;
针对每一问答对,从所述开放领域的知识图谱中检索出客体为所述问答对的答案的备选三元组;
计算每一所述备选三元组中的主体与关系在所述问答对的问题中的相似度,并获取相似度最高的备选三元组作为所述问答对的目标三元组。
4.如权利要求3所述的游戏领域的知识图谱关系匹配模型构建方法,其特征在于,采用基于lcs字符匹配的相似度算法,计算每一所述备选三元组中的主体与关系在所述问答对的问题中的相似度。
5.如权利要求1所述的游戏领域的知识图谱关系匹配模型构建方法,其特征在于,所述当所述待定关系匹配数据的开放领域分布量与游戏领域分布量的差值小于第一预设阈值时,将所述待定关系匹配数据作为目标关系匹配数据,并加入所述游戏领域的关系匹配数据集之后,包括:
计算所述游戏领域的关系匹配数据集中每一目标关系匹配数据的关系与预设的游戏领域知识图谱中的关系的相似度;
根据相似度大于第二预设阈值的游戏领域知识图谱的关系,扩增与其对应的目标关系匹配数据,以扩增后的关系匹配数据集作为所述游戏领域的关系匹配数据集。
6.如权利要求1所述的游戏领域的知识图谱关系匹配模型构建方法,其特征在于,所述采集开放领域的自由文本,并对所述开放领域的自由文本进行预训练,构建语言模型,包括:
采集开放领域的自由文本,并采用transformer架构预训练得到第一语言模型;
在所述第一语言模型中增加双向LSTM层和attention层,并最后连接sigmoid函数,以形成所述语言模型。
7.一种游戏领域的知识图谱关系匹配模型构建装置,其特征在于,包括:
第一数据集获取模块,用于获取开放领域的关系匹配数据集;
第二数据集获取模块,用于基于TFIDF文本相似度的方法,从所述开放领域的关系匹配数据集中获取适用于所述游戏领域的关系匹配数据集;
语言模型构建模块,用于采集开放领域的自由文本,并对所述开放领域的自由文本进行预训练,构建语言模型;其中,所述语言模型为知识图谱关系匹配所需的模型结构;
关系匹配模型构建模块,用于根据所述游戏领域的关系匹配数据集,对所述语言模型进行增量训练,以构建所述游戏领域的知识图谱关系匹配模型;
所述第二数据集获取模块具体用于:
分别采集开放领域的自由文本集合和所述游戏领域的自由文本集合;
依次获取所述开放领域的关系匹配数据集中的关系匹配数据,作为待定关系匹配数据;
计算所述待定关系匹配数据中的问题在所述开放领域的自由文本集合中的TFIDF值,作为开放领域分布量;
计算所述待定关系匹配数据中的问题在所述游戏领域的自由文本集合中的TFIDF值,作为游戏领域分布量;
当所述待定关系匹配数据的开放领域分布量与游戏领域分布量的差值小于第一预设阈值时,将所述待定关系匹配数据作为目标关系匹配数据,并加入所述游戏领域的关系匹配数据集。
8.一种游戏领域的知识图谱关系匹配方法,其特征在于,通过如权利要求1-6任一项所述的游戏领域的知识图谱关系匹配模型构建方法所构建的知识图谱关系匹配模型进行关系匹配,包括:
识别输入问题中的实体;
在游戏领域知识图谱中,获取包括所述输入问题的实体的所有三元组中的关系,作为候选关系;
将所述输入问题和所述候选关系作为所述游戏领域的知识图谱关系匹配模型的输入量,根据所述游戏领域的知识图谱关系匹配模型的计算结果,返回所述输入问题对应的目标关系。
9.一种游戏领域的知识图谱关系匹配装置,其特征在于,用于实现如权利要求8所述的游戏领域的知识图谱关系匹配方法,包括:
问题实体识别模块,用于识别输入问题中的实体;
候选关系获取模块,用于在游戏领域知识图谱中,获取包括所述输入问题的实体的所有三元组中的关系,作为候选关系;
目标关系输出模块,用于将所述输入问题和所述候选关系作为所述游戏领域的知识图谱关系匹配模型的输入量,根据所述游戏领域的知识图谱关系匹配模型的计算结果,返回所述输入问题对应的目标关系。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010191888.7A CN111538843B (zh) | 2020-03-18 | 2020-03-18 | 游戏领域的知识图谱关系匹配方法、模型构建方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010191888.7A CN111538843B (zh) | 2020-03-18 | 2020-03-18 | 游戏领域的知识图谱关系匹配方法、模型构建方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111538843A CN111538843A (zh) | 2020-08-14 |
CN111538843B true CN111538843B (zh) | 2023-06-16 |
Family
ID=71952074
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010191888.7A Active CN111538843B (zh) | 2020-03-18 | 2020-03-18 | 游戏领域的知识图谱关系匹配方法、模型构建方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111538843B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109062894A (zh) * | 2018-07-19 | 2018-12-21 | 南京源成语义软件科技有限公司 | 中文自然语言实体语义关系的自动辨识算法 |
CN110532397A (zh) * | 2019-07-19 | 2019-12-03 | 平安科技(深圳)有限公司 | 基于人工智能的问答方法、装置、计算机设备及存储介质 |
CN110532399A (zh) * | 2019-08-07 | 2019-12-03 | 广州多益网络股份有限公司 | 面向游戏问答系统的知识图谱更新方法、系统及装置 |
-
2020
- 2020-03-18 CN CN202010191888.7A patent/CN111538843B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109062894A (zh) * | 2018-07-19 | 2018-12-21 | 南京源成语义软件科技有限公司 | 中文自然语言实体语义关系的自动辨识算法 |
CN110532397A (zh) * | 2019-07-19 | 2019-12-03 | 平安科技(深圳)有限公司 | 基于人工智能的问答方法、装置、计算机设备及存储介质 |
CN110532399A (zh) * | 2019-08-07 | 2019-12-03 | 广州多益网络股份有限公司 | 面向游戏问答系统的知识图谱更新方法、系统及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111538843A (zh) | 2020-08-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110765257B (zh) | 一种知识图谱驱动型的法律智能咨询系统 | |
CN108804521B (zh) | 一种基于知识图谱的问答方法及农业百科问答系统 | |
CN110348008A (zh) | 基于预训练模型和微调技术的医疗文本命名实体识别方法 | |
CN109783631B (zh) | 社区问答数据的校验方法、装置、计算机设备和存储介质 | |
CN108717433A (zh) | 一种面向程序设计领域问答系统的知识库构建方法及装置 | |
CN108121702A (zh) | 数学主观题评阅方法及系统 | |
CN113742733B (zh) | 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置 | |
CN111723870B (zh) | 基于人工智能的数据集获取方法、装置、设备和介质 | |
CN112711693B (zh) | 一种基于多特征融合的诉讼线索挖掘方法及系统 | |
CN112051986A (zh) | 基于开源知识的代码搜索推荐装置及方法 | |
CN111125443A (zh) | 一种基于自动去重的试题题库在线更新方法 | |
CN116862318B (zh) | 基于文本语义特征提取的新能源项目评价方法和装置 | |
CN111339258B (zh) | 基于知识图谱的大学计算机基础习题推荐方法 | |
CN115905187B (zh) | 一种面向云计算工程技术人员认证的智能化命题系统 | |
CN110362828B (zh) | 网络资讯风险识别方法及系统 | |
CN111538843B (zh) | 游戏领域的知识图谱关系匹配方法、模型构建方法及装置 | |
CN116976321A (zh) | 文本处理方法、装置、计算机设备、存储介质和程序产品 | |
CN111104503A (zh) | 一种建筑工程质量验收规范问答系统及其构建方法 | |
CN115757815A (zh) | 知识图谱的构建方法、装置及存储介质 | |
CN112732908B (zh) | 试题新颖度评估方法、装置、电子设备和存储介质 | |
CN109189915A (zh) | 一种基于深度相关匹配模型的信息检索方法 | |
CN111460206B (zh) | 图像处理方法、装置、电子设备和计算机可读存储介质 | |
CN116415047B (zh) | 一种基于国家形象资源推荐的资源筛选方法及系统 | |
CN117952091A (zh) | 一种基于自动分类的文本审查方法 | |
Banu S | Graph-Based Rumor Detection on social media Using Posts and Reactions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |