CN112395425A - 一种数据处理方法、装置、计算机设备以及可读存储介质 - Google Patents

一种数据处理方法、装置、计算机设备以及可读存储介质 Download PDF

Info

Publication number
CN112395425A
CN112395425A CN202011163706.1A CN202011163706A CN112395425A CN 112395425 A CN112395425 A CN 112395425A CN 202011163706 A CN202011163706 A CN 202011163706A CN 112395425 A CN112395425 A CN 112395425A
Authority
CN
China
Prior art keywords
knowledge
description information
template
extraction
confidence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011163706.1A
Other languages
English (en)
Inventor
陈沛
吴旭辉
荆宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202011163706.1A priority Critical patent/CN112395425A/zh
Publication of CN112395425A publication Critical patent/CN112395425A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例公开了一种数据处理方法、装置、计算机设备以及可读存储介质,该数据处理方法包括:获取知识种子集合,知识种子集合包括文本的知识描述信息;将知识描述信息和语料集合中的文本数据进行匹配,得到知识抽取模板;根据知识抽取模板,从语料集合中抽取候选知识描述信息;确定知识抽取模板的模板置信度,根据模板置信度确定候选知识描述信息的知识置信度;根据知识置信度和候选知识描述信息更新知识种子集合;当更新后的知识种子集合满足收敛条件时,根据更新后的知识种子集合更新知识图谱。采用本申请,可以从互联网海量的文本数据中高效的抽取更多的知识描述信息,为知识图谱持续提供覆盖面广、准确率高的来源数据。

Description

一种数据处理方法、装置、计算机设备以及可读存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据处理方法、装置、计算机 设备以及可读存储介质。
背景技术
知识图谱(Knowledge Graph)是一种用图数据结构表示的大型语义网络, 由节点与边共同描述了客观世界的事物及其关系。目前,随着智能信息服务应 用的不断发展,知识图谱已被广泛应用于智能搜索、智能问答、个性化推荐、 情报分析、反欺诈等领域。
目前行业内主流知识图谱的数据都来源于互联网,基于规则抽取是方法是 目前从互联网数据中获取知识描述信息的主要方式。比如,通过匹配特定格式 文本进行SPO抽取、又例如通过制定前端DOM树对应解析规则对非结构化数 据来源网页进行抽取。但是互联网文本数据具有异构多元、质量不一的特性, 能够包含知识描述信息的文本表示情况过多,人为配置规则很难覆盖到语料集 合中的所有文本表示情况,导致抽取到的知识描述信息不够全面。
发明内容
本申请实施例提供一种数据处理方法、装置、计算机设备以及可读存储介 质,可以高效的抽取到更为全面的知识描述信息。
本申请实施例一方面提供一种基于知识图谱的数据处理方法,包括:
获取知识种子集合,知识种子集合包括文本的知识描述信息;
将知识描述信息和语料集合中的文本数据进行匹配,得到知识抽取模板;
根据知识抽取模板,从语料集合中抽取候选知识描述信息;
确定知识抽取模板的模板置信度,根据模板置信度确定候选知识描述信息 的知识置信度;
根据知识置信度和候选知识描述信息更新知识种子集合;
当更新后的知识种子集合满足收敛条件时,根据更新后的知识种子集合更 新知识图谱。
本申请实施例一方面提供了一种基于知识图谱的数据处理装置,包括:
获取模块,用于获取知识种子集合,知识种子集合包括文本的知识描述信 息;
模板生成模块,用于将知识描述信息和语料集合中的文本数据进行匹配, 得到知识抽取模板;
知识抽取模块,用于根据知识抽取模板,从语料集合中抽取候选知识描述 信息;
第一确定模块,用于确定知识抽取模板的模板置信度;
第二确定模块,用于根据模板置信度确定候选知识描述信息的知识置信度;
第一更新模块,用于根据知识置信度和候选知识描述信息更新知识种子集 合;
第二更新模块,用于根据更新后的知识种子集合更新知识图谱。
其中,模板生成模块,包括:
查询单元,用于遍历语料集合中的文本数据,将语料集合中包含知识描述 信息的段落,作为目标段落语料;
基础生成单元,用于根据目标段落语料和知识描述信息生成基础抽取模板;
泛化生成单元,用于根据基础抽取模板生成S个泛化抽取模板;S为正整数;
槽位填充单元,用于对S个泛化抽取模板分别进行槽位填充,得到知识抽 取模板。
其中,基础生成单元,包括:
字符获取子单元,用于获取知识描述信息对应的文本关系字符;
字符替换子单元,用于在目标段落语料中用文本关系字符替换知识描述信 息,得到基础抽取模板。
其中,泛化生成单元,包括:
窗口获取子单元,用于通过滑动字符窗口在基础抽取模板中获取文本关系 字符以及与文本关系字符相邻的字符;相邻的字符为字符窗口所覆盖的字符;
泛化模板生成子单元,用于根据文本关系字符和相邻的字符生成S个泛化 抽取模板;每个泛化抽取模板均包括文本关系字符以及相邻的字符中的至少一 个字符。
其中,S个泛化抽取模板包括泛化抽取模板Li,i为小于或等于S的正整数;
槽位填充单元,包括:
模板分词子单元,用于对泛化抽取模板Li进行分词,得到文本关系字符以 及关联分词,将与文本关系字符相关联的知识描述信息和关联分词确定为待替 换分词;
位置确定子单元,根据待替换分词记录文本关系字符在泛化抽取模板Li中 的排序位置,作为抽取位置索引;
词表获取子单元,用于获取槽位词表,槽位词表包括槽位分词、文本分词 以及槽位分词和文本分词的映射关系;
分词查找子单元,用于若在槽位词表中查找到与待替换分词相同的文本分 词,则将与待替换分词相同的文本分词具有映射关系的槽位分词,作为目标槽 位分词;
分词替换子单元,用于根据目标槽位分词对泛化抽取模板进行分词替换, 得到槽位替换模板;
抽取模板生成子单元,用于根据槽位替换模板和抽取位置索引,生成泛化 抽取模板Li对应的知识抽取模板。
其中,知识抽取模块,包括:
文本填充单元,用于对语料集合中的文本数据进行槽位填充,得到替换文 本数据;
文本匹配单元,用于将知识抽取模板与替换文本数据进行匹配;
知识获取单元,用于若知识抽取模板与替换文本数据匹配成功,则获取抽 取位置索引,根据抽取位置索引在替换文本数据中获取候选知识描述信息。
其中,第一确定模块,包括:
合法性确定单元,用于根据候选知识描述信息和知识种子集合验证候选知 识描述信息的知识合法性;
当前置信度计算单元,用于根据知识合法性确定知识抽取模板的当前置信 度;
置信度获取单元,用于在历史置信度中获取每个历史置信度的生成时间戳, 将最大的生成时间戳对应的历史置信度,作为相关历史置信度;
模板置信度计算单元,用于根据相关历史置信度和当前置信度确定知识抽 取模板的模板置信度。
其中,知识抽取模板包括知识抽取模板Hg,g为小于或等于知识抽取模板 的总数量的正整数;
合法性确定单元,包括:
待匹配信息查找子单元,用于在知识种子集合中查找与候选知识描述信息 描述相同实体的知识描述信息,作为待匹配知识描述信息;
合法性判断子单元,用于根据候选知识描述信息和待匹配知识描述信息, 确定候选知识描述信息的知识合法性;
当前置信度计算单元,包括:
统计子单元,用于在通过知识抽取模板Hg抽取出的候选知识描述信息中, 统计知识合法性为合法的候选知识描述信息的数量,作为合法参数;
统计子单元,还用于在通过知识抽取模板Hg抽取出的候选知识描述信息中, 统计知识合法性为非法的知识描述信息的数量,作为非法参数;
当前置信度确定子单元,用于根据合法参数和不合法参数确定知识抽取模 板Hg的当前置信度。
其中,候选知识描述信息包括候选知识描述信息Kj,j为正整数;
第二确定模板,包括:
目标模板确定单元,用于将可抽取出知识描述信息Kj的知识抽取模板,作 为目标知识抽取模板;
目标置信度确定单元,用于将目标知识抽取模板的模板置信度,作为目标 模板置信度;
知识置信度计算单元,用于根据目标置信度确定目标知识描述信息Kj的知 识置信度。
其中,第一更新模块,包括:
可信知识确定单元,用于当目标知识描述信息的知识置信度大于可信置信 度阈值时,将目标知识描述信息作为可信知识描述信息;
种子集合更新单元,用于将可信知识描述信息加入知识种子集合。
其中,第二更新模块,包括:
知识排序单元,用于对更新后的知识种子集合中的候选知识描述信息按照 知识置信度从高到低进行排序,将前L个知识描述信息作为待存储知识描述信 息;L为正整数;
知识添加单元,用于将待存储知识描述信息加入知识图谱。
其中,上述数据处理装置,还包括:
判断模块,用于确定更新后的知识种子集合是否满足收敛条件。
其中,判断模块,包括:
第一判断单元,用于若知识种子集合和更新后的知识种子集合相同,确定 更新后的知识种子集合满足收敛条件;
第二判断单元,用于根据知识抽取模板的历史置信度和模板置信度,确定 更新后的知识种子集合满足收敛条件。
其中,第二判断单元,包括:
历史置信度获取子单元,用于获取知识抽取模板对应的M个历史置信度, M为正整数;
计算判断子单元,用于若模板置信度与M个历史置信度中的每个历史置信 度的差值的绝对值均小于收敛阈值,确定更新后的知识种子集合满足收敛条件。
其中,获取模块,具体用于获取第x轮迭代中的知识种子集合;
上述数据处理装置,还包括:
迭代模块,用于当更新后的知识种子集合未满足收敛条件时,将更新后的 知识种子集合作为第x+1轮迭代中的知识种子集合,根据第x+1轮迭代中的知 识种子集合继续获取第x+1轮迭代中的知识抽取模板和候选知识描述信息,根 据第x+1轮迭代中的知识抽取模板和候选知识描述信息,对第x+1轮迭代中的 知识种子集合进行迭代更新。
本申请实施例一方面提供了一种计算机设备,包括:处理器、存储器、网 络接口;
上述处理器与上述存储器、上述网络接口相连,其中,上述网络接口用于 提供数据通信功能,上述存储器用于存储计算机程序,上述处理器用于调用上 述计算机程序,以执行本申请实施例中的方法。
本申请实施例一方面提供了一种计算机可读存储介质,上述计算机可读存 储介质存储有计算机程序,上述计算机程序包括程序指令,上述程序指令被处 理器执行时,以执行本申请实施例中的方法。
本申请实施例一方面提供了一种计算机程序产品或计算机程序,该计算机 程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储 介质中,计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理 器执行该计算机指令,使得该计算机设备执行本申请实施例中的方法。
本申请实施例提出用知识种子集合中的知识描述信息与语料集合中的文本 数据匹配来得到知识抽取模板,然后用知识抽取模板在语料集合中抽取知识描 述信息,根据抽取的知识描述信息的知识合法性计算知识抽取模板的模板置信 度,再根据模板置信度计算知识描述信息的置信度,将高置信度的知识描述信 息加入知识种子集合中,以便得到新的种子集合对语料进行知识描述信息的抽 取。通过不断自动迭代上述过程,最终不断扩展知识种子集合与知识抽取模板, 达到挖掘语料中蕴含的所有相关意图的知识描述信息与抽取模板的结果。本申 请实施例最初基于可信的、少量的知识描述信息以及自动挖掘出的知识抽取模 板,可以从语料集合中迭代挖掘出更多新的知识描述信息,即可以从互联网海量的文本数据中高效的抽取更多、更全面的知识描述信息,为知识图谱持续提 供覆盖面广、准确率高的来源数据。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施 例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述 中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付 出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种网络架构图;
图2a是本申请实施例提供的一种数据交互的场景示意图;
图2b是本申请实施例提供的一种迭代抽取的场景示意图;
图3a是本申请实施例提供的一种数据处理方法的流程图;
图3b是本申请实施例提供的一种知识抽取方法的流程示意图;
图4是本申请实施例提供的一种知识抽取模板生成的过程示意图;
图5是本申请实施例提供的一种字符窗口覆盖基础抽取模板的示意图;
图6是本申请实施例提供的一种抽取知识描述信息的过程示意图;
图7是本申请实施例提供的一种计算模板置信度的流程示意图;
图8是本申请实施例提供的一种知识置信度的计算过程示意图;
图9是本申请实施例提供的一种数据处理装置的结构示意图;
图10是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清 楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是 全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造 性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制 的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳 结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一 个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的 方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实 现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科, 涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术 一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技 术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工 智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有 效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学 于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语 言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本 处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
本申请实施例提供的方案涉及人工智能的自然语言处理技术以及深度学习 等技术,具体通过如下实施例进行说明,请参见图1,图1是本申请实施例提供 的一种网络架构图。如图1所示,该网络架构可以包括业务服务器1000以及后 台服务器集群,其中,上述后台服务器集群可以包括多个每个后台服务器,如 图1所示,具体可以包括后台服务器100a、后台服务器100b、后台服务器100c、...、 后台服务器100n。如图1所示,后台服务器100a、后台服务器100b、后台服务 器100c、...、后台服务器100n可以分别与上述业务服务器1000进行网络连接, 以便于每个后台服务器可以通过该网络连接与业务服务器1000进行数据交互。
如图1所示,业务服务器1000中存储有知识图谱。业务服务器1000可以 接收来自每个后台业务服务器的业务数据,根据业务数据进行知识抽取得到新 的可信的知识描述信息,然后根据新的可信的知识描述信息更新知识图谱。其 中,业务数据可以包括用于知识抽取的语料集合,以及用于知识抽取的知识种 子集合。其中,语料集合可以包含可能具有知识描述信息的文本数据;知识种 子集合可以包含少量的、可信的知识描述信息。知识描述信息可以是对知识的 一种描述,或者说是对知识的一组约定,一种计算机可以接受的用于描述知识 的数据结构,比如主语-谓语-宾语(Subject-Predication-Object,SPO)三元组。
本申请中每个后台服务器均与用户终端相对应,可以响应用户终端针对业 务服务器1000中的知识图谱的知识抽取指令,向业务服务器1000发起知识抽 取的业务请求。当业务服务器1000接收到某个后台服务器的业务请求,会获取 该后台服务器传来的业务数据,来进行知识抽取并更新知识图谱。在业务服务 器1000进行知识抽取的过程中,可以将抽取结果发送给对它发起业务请求的后 台服务器。本申请中每个后台服务器均可以在任意时刻访问业务服务器1000中 的知识图谱,同时也可以获取该知识图谱中的知识描述信息。
可以理解的是,本申请实施例提供的方法可以由计算机设备执行,计算机 设备可以为上述的业务服务器1000。其中,业务服务器1000可以是独立的物理 服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以 是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中 间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云 计算服务的云服务器。
其中,后台服务器以及业务服务器可以通过有线或无线通信方式进行直接 或间接地连接,本申请在此不做限制。
为便于理解,请参见图2a,图2a是本申请实施例提供的一种数据交互的场 景示意图。如图2a所示的后台服务器可以为上述图1所示的后台服务器集群中 的后台服务器100a,业务服务器可以为上述图1所示的业务服务器1000。此外, 如图2a所示的用户终端可以理解为该后台服务器100a对应的用户终端。如图 2a所示,后台服务器可以响应对应的用户终端传来的知识抽取指令,向业务服 务器发起知识抽取的业务请求,将用于本次知识抽取的业务数据发送给业务服 务器。业务服务器在接收到业务数据后,会从业务数据中获取语料集合和知识 种子集合,然后根据知识种子集合对语料集合进行知识抽取,得到候选知识描 述信息,然后根据候选知识描述信息更新知识种子集合。业务服务器会确定更 新后的知识种子集合的收敛情况,如果不收敛,会将更新后的知识种子集合作 为新一轮知识抽取中的知识种子集合,继续与语料集合进行知识抽取;如果更 新后的知识种子集合收敛,会根据更新后的知识种子集合更新知识图谱,即不 再继续挖掘新的知识描述信息。
其中,如图2a所示,用户终端发送的知识抽取指令可以包括知识种子集合 的生成指令,该生成指令决定了业务服务器获取到知识种子集合的方式。其中, 业务服务器获取到的知识种子集合的方式,可以是根据已存储在知识图谱中的 知识描述信息生成的,也可以是人工创建的知识描述信息。如图2a所示,后台 服务器会根据该生成指令来传送业务数据,如果该生成指令为第一生成指令, 后台服务器会根据知识抽取指令将本次知识抽取用到的语料集合传给业务服务 器;如果该生成指令为第二生成指令,后台服务器会从用户终端获取知识种子 集合,同语料集合一起传给业务服务器。
其中,本申请实施例中的知识描述信息可以是SPO三元组,其中S(Subject) 表示知识的主语,P(Predicate)表示知识的谓词,是用来描述实体特征或者实 体之间关系的词项,O(Object)表示知识的宾语。“小张-妻子-小朱”便是一 组SPO三元组,小张是主语,妻子是谓词,宾语是小朱。知识图谱是由一些相 互连接的实体和它们的属性或者关系构成的,也就是说其中包含了多组知识描 述信息。知识抽取的目的便是从语料集合中抽取新的知识描述信息,将更多的 实体和它们的属性或者关系加入其中,使得知识图谱越来越完善。
其中,本申请实施例中的知识种子集合中包含的可以是多组描述不同实体, 但指定意图相同的知识描述信息。此时通过多轮知识抽取得到的候选知识描述 信息,也同样是描述该指定意图的知识描述信息。为便于理解,本申请实施例 以用来描述实体和实体之间关系的SPO三元组为例,如图2a所示,知识抽取之 前,业务服务器获取的知识种子集合可以是{小明-妻子-小月,小强-妻子-小兰}, 此时的知识种子集合中,两组SPO三元组均描述的是妻子这一关系。可以理解 的是,用该知识种子集合去同语料匹配,得到的知识描述信息也是描述妻子这 一关系的SPO三元组。
其中,知识抽取可以是用知识种子集合中的知识描述信息与语料集合匹配 得到知识抽取模板,然后通过知识抽取模板对语句集合中的文本数据进行抽取, 得到候选知识描述信息,从中选择可信的候选知识描述信息加入知识种子集合, 得到更新后的知识种子集合。如果更新后的知识种子集合不收敛,业务服务器 会使用更新后的知识种子集合继续进行知识抽取。业务服务器会不断的迭代上 述过程,直到迭代稳定后选取新的可信的知识描述信息,更新知识图谱。
进一步的,为便于理解,请一并参见图2b,图2b是本申请实施例提供的一 种迭代抽取的场景示意图。图2b展示了业务服务器从第x轮迭代到第x+1轮迭 代过程中,知识种子集合的更新变化。如图2b所示,第x轮迭代时,知识种子 集合中包括知识描述信息a,将其与语料集合S一起进行上述知识抽取的过程, 可以得到知识抽取模板集合{A1,A2},候选知识集合{a,b,c,d,e}。其中,知识抽 取模板集合中包含了所有知识种子集合与语料集合匹配得来的知识抽取模板, 知识抽取模板是一种文本语言表达的范式,比如知识抽取模板A1可以是 ″[D:person]的妻子是[D:person]_1,2″。其中,[D:person]表示人物槽位,可以匹 配表示人物的文本语料;该知识抽取模板A1中的数字1、2是抽取位置索引, 同一个模板中可以存在多个槽位,抽取位置索引用来描述需要抽取的文本语料 的位置。当知识抽取模板匹配到同样语言范式的段落语料时,就会根据抽取位 置索引抽取出对应槽位的文本语料生成知识描述信息。比如当抽取模板A1与 ″小明的妻子是小月″匹配时,业务服务器会根据抽取位置索引将第一个槽位 对应的小明和第二个槽位对应的小月抽取出来,得到候选知识描述信息″小明- 妻子-小月″。其中,候选知识集合中包含的便是由知识抽取模板集合中所有模 板抽取出来的候选知识描述信息。
如图2b所示,业务服务器会对知识抽取模板做置信度计算,得到模板置信 度。其中,模板置信度是指该知识抽取模板的可信程度。然后,根据模板置信 度,可以计算抽取出来的候选知识描述信息的知识置信度。有了候选知识描述 信息的知识置信度,就可以从中选中知识置信度高的候选知识描述信息,加入 到原来的知识种子集合中,得到更新后的知识种子集合{a,b,c}。
如图2b所示,在第x轮迭代中,知识抽取前使用的知识种子集合为{a},知 识抽取后得到的更新后的知识种子集合为{a,b,c},二者存在差异,说明知识种子 集合未满足收敛条件,需要继续迭代。在第x+1轮迭代中,使用的知识种子集 合为{a,b,c}(即第x轮迭代中所生成的更新后的知识种子集合),将该知识种子 集合为{a,b,c}同语料集合S一起继续进行上述知识抽取的过程,可以得到知识抽 取模板集合{A1,A2,B1,C1,C2,C3},候选知识集合{a,b,c,d,e,f,g,h,i,j}。然后计算知 识抽取模板集合中的知识抽取模板的模板置信度,再根据模板置信度计算候选 知识集合中的候选知识描述信息的置信度,从候选知识集合中选中知识置信度 高的候选知识描述信息,加入到原来的知识种子集合{a,b,c}中,得到更新后的知 识种子集合{a,b,c,i,g}。
如图2b所示,将第x轮迭代中更新后的知识种子集合{a,b,c}作为第x+1轮 迭代中使用的知识种子集合,业务服务器在进行第x+1轮迭代时,可使用的知 识描述信息,对比第x轮迭代时,增加了候选知识描述信息b和候选知识描述 信息c,因此得到的知识抽取模板也比第x轮迭代多,新得到的知识抽取模板又 可以抽取到新的候选知识描述信息,第x+1轮迭代得到的候选知识描述信息自 然多于第x轮迭代得到的候选知识描述信息,最后得到的更新后的知识种子集 合{a,b,c,i,g}中,增加了高置信度的候选知识描述信息i和候选知识描述信息g。 将更新后的知识种子集合{a,b,c,i,g}与第x+1轮迭代使用的知识种子集合{a,b,c} 对比可知,仍未满足收敛条件,则将第x+1轮迭代更新后得到的知识种子集合 作为第x+2轮迭代中使用的知识种子集合,继续从语料集合S中抽取新的候选 知识描述信息。如果没有满足收敛条件,业务服务器会一直重复上述迭代过程, 可以不断的扩展知识抽取模板集合、候选知识集合以及知识种子集合。
在第k轮迭代中,使用的知识种子集合同更新后的知识种子集合相同,则 可以认为满足收敛条件,停止迭代。可以理解的是,为了更可能保证挖掘到语 料集合中的所有知识描述信息,可以设定在连续m轮迭代时,知识种子集合都 保持不变,则可以认为满足收敛条件,停止迭代。
进一步地,为便于理解,请参见图3a,图3a是本申请实施例提供的一种数 据处理方法的流程示意图。该方法可以由业务服务器(如上述图1所对应实施 例中的业务服务器1000)执行,本申请实施例以该方法由上述业务服务器执行 为例进行说明。如图3a所示,该流程可以包括:
S101:获取知识种子集合,所述知识种子集合包括文本的知识描述信息。
具体的,知识种子集合是指知识抽取流程中依赖的已有的可信的知识描述 信息的集合。本申请实施例中知识抽取是个不断循环迭代的过程,在第一轮迭 代时,知识种子集合可以从多个来源构造获取:例如知识图谱中已经存在的、 头部的、准确的知识描述信息,或者是人工构建维护的一批可靠的知识描述信 息的集合。第一轮知识抽取结束后,对知识种子集合进行更新,将抽取出的部 分知识描述信息加入到已有的知识种子集合中,得到更新后的知识种子集合, 作为第二轮知识抽取时使用的知识种子集合。在之后的迭代中,每一轮获取的 知识种子集合,都是上一轮知识抽取中更新后的知识种子集合。如此循环迭代, 就可以不断扩展已有的知识种子集合,最终挖掘出语料中指定意图的所有隐藏知识。
具体的,指定意图指的是某一特定的关系或者某一特定的属性。也就是说, 知识种子集合中的知识描述信息可以是包含同一指定意图的知识描述信息。为 便于理解,本申请实施例以用来描述实体和实体之间关系的SPO三元组为例进 行说明。比如通过本申请实施例抽取语料中蕴含的所有人物出生日期知识,则 知识种子集合中的知识描述信息也应该是描述的出生日期。创建针对出生日期 的知识种子集合,可以是用户手动的去加入多组谓词为出生日期的SPO三元组; 也可以是将知识图谱中关于出生日期的SPO集合导出作为知识种子集合。知识 种子集合可以是{小张-出生日期-1961年9月27日,小成-出生日期-1954年4 月7日,…}。
S102:将所述知识描述信息和语料集合中的文本数据进行匹配,得到知识 抽取模板。
具体的,本申请实施例中提及的语料就是来自于互联网的一般性文本数据。 其中,文本数据可以包括结构化数据、半结构化数据和非结构化数据。互联网 中,存在着海量的非结构化数据,是组成语料集合的主语文本数据。其中,非 结构数据既可以使用百科类网站或垂类网址的简介内容,也可以直接使用一般 的信息流文章,以及线上query日志甚至其他的描述型文本类数据。语料集合可 以是后台服务器生成的,然后业务服务器可以直接从后台服务器中获取。
具体的,如果可以从某段语料中挖掘出可靠的知识描述信息,进而可以进 一步认为任何符合该段语料语言范式的文本,都能找到相应的知识描述信息, 这种文本中包含的语言范式,就称为模板。以知识描述信息为SPO三元组为例, 当某段语料中同时包含某对Subject(主语)与Object(宾语)时,则认为该段 语料可能蕴含该Subject(主语)和Object(宾语)关于Predicate(谓词)的关 系,进而进一步认为任何符合该段语料语言范式的文本,都能找到相应的SPO 三元组。
具体的,本申请实施例用知识种子集合与语料集合进行匹配,便是为了获 得能够获取知识描述信息的模板。知识种子集合中包括多个知识描述信息,以 其中一个知识描述信息为例,业务服务器会将包含该知识描述信息中实体数据 的段落,作为目标段落语料,然后获取知识描述信息对应的文本关系字符,在 目标段落语料中用文本关系字符替换该知识描述信息中实体文本数据,得到基 础抽取模板。比如说,知识描述信息为SPO三元组:小张-出生日期-1961年9 月27日。在语料集合中查找包含该知识描述信息中实体数据的段落,作为目标 段落,对SPO三元组来说,则是获取包含Subject与Object的段落,Subject与Object便是该知识描述信息对应的文本关系字符。该SPO三元组的Subject是小 张,Object是1961年9月27日。如果语料集合中的文本数据包含的某段语料为 “小张1961年9月27日出生于香港,籍贯广东新会”。则我们将该段语料作 为目标段落语料,用文本关系字符去代替实体文本数据,得到的基础抽取模板 可以为“Subject-Object出生于香港,籍贯广东新会”。
在一个语料集合中,可能有多个段落的文本数据包含该知识描述信息,所 以一个知识描述信息可以得到多个基础抽取模板;该语料集合中可能不存在包 含该知识描述信息的文本数据,则该知识描述信息就没有对应的基础抽取模板。 可以理解的是,知识种子集合中的每个知识描述信息都将与语料集合中文本数 据进行匹配。
可选的,如果只将语料与知识描述信息的直接匹配结果作为模板,难免特 异性较为严重,与语料的匹配结果较少,会导致后续抽取效果不佳。因此在得 到基础抽取模板后,可以对每个基础抽取模板通过窗口滑动、槽位替换等方法 进行泛化,以进一步扩展抽取模板的数量与通用性。具体的,以一个基础抽取 模板为例,窗口滑动可以是创建字符窗口,在目标段落语料中滑动,直至覆盖 该文本关系字符以及与所述文本关系字符相邻的n个字符。其中,n是一个正整 数,具体的值可以根据不同的知识抽取情况来决定。可以理解的是,相邻可以 指该文本关系字符前面的字符,也可以指该文本关系字符后面的字符,也可以是包含前面与后面的字符,在此不做限定。业务服务器通过滑动字符窗口在基 础抽取模板中获取文本关系字符以及与文本关系字符相邻的字符。其中,相邻 的字符为字符窗口所覆盖的字符。
然后业务服务器根据文本关系字符同与文本关系字符相邻的字符一起生成 S个泛化抽取模板。每个泛化抽取模板均包括文本关系字符以及相邻的字符中的 至少一个字符。具体的,业务服务器会获取被字符窗口覆盖的字符中,与文本 关系字符相邻的i个字符,同文本关系字符一起生成S个泛化抽取模板。其中, i为小于被字符窗口覆盖的非文本关系字符的字符的总个数n。具体的,业务服 务器会从i=1开始,从被字符窗口覆盖的字符中,获取与文本关系字符相邻的i 个字符,同文本关系字符生成泛化抽取模板,然后将i的值加1,重复前述生成 泛化抽取模板的步骤,直到i的值大于n时,停止重复过程。例如,业务服务器 从被字符窗口覆盖的字符中,获取与文本关系字符相邻的一个字符生成泛化抽 取模板,然后从被字符窗口覆盖的字符中获取与文本关系字符相邻的2个语料 字符生成泛化抽取模板,以此类推,最后从被字符窗口覆盖的字符中获取与文本 关系字符相邻的生成泛化抽取模板,一共得到S个泛化抽取模板,停止生成泛 化抽取模板。
然后需要对每一个泛化抽取模板做槽位填充。也就是通过对泛化抽取模板 进行分词与词性分析,将匹配结果的部分特性词替换为对应的概念词。如′香 港著名男演员′可以替换为′[D:location]_著名_[D:gender]_演员′。其中[D:location] 表示地区槽位,[D:gender]表示性别槽位,槽位替换后的模板可以匹配其他地区 或者性别的文本语料,例如′美国著名女演员′等。
可以理解的是,用语料集合与知识种子集合进行匹配以后,能得到特异性 较强的基础抽取模板,对每个基础抽取模板进行窗口滑动以后,又能得到S个 泛化抽取模板,对每个泛化抽取模板进行槽位填充以后得到的知识抽取模板, 能够匹配的文本范围更加大了,因此,采用本申请实施例提供的方法,最后能 得到多个匹配范围较广的知识抽取模板,知识抽取的覆盖率增加了。
S103:根据所述知识抽取模板,从所述语料集合中抽取候选知识描述信息。
具体的,语料集合可以是上述用于构建知识抽取模板时使用的语料集合。 在构建了知识抽取模板以后,就可以通过知识抽取模板去语料集合中抽取新的 知识描述信息。其中,业务服务器会将知识抽取模板与语料集合中的文本数据, 直接进行字符串匹配即可。如果匹配成功,则将对应文本关系字符位置的数据 作为抽取到的知识描述信息的实体,根据知识种子集合中知识描述信息包含的 指定意图,便可以得到一组新的知识描述信息。比如,知识种子集合中的知识 描述信息为″小明-出生日期-1998年8月19日″,则指定意图为抽取人物的出 生日期。一个知识抽取模板可能在语料集合中抽取出多组知识描述信息,将每 一个知识抽取模板与语料集合进行匹配之后,可以得到本轮知识抽取(如上述 图2b所示的第x轮迭代的知识抽取)抽出的候选知识描述信息。比如,语料集 合为{小明的妻子是小兰,小月的丈夫是小华,巧的是,小兰的姐姐就是小月}。 知识抽取模板包含″[D:person]的妻子是[D:person]_1,2″和″[D:person]的丈夫 是[D:person]_2,1″,将两个知识抽取模板均与该语料集合进行匹配,″[D:person] 的妻子是[D:person]_1,2″得到的候选知识描述信息为″小明-妻子-小兰″, ″[D:person]的丈夫是[D:person]_2,1″得到的候选知识描述信息为″小华-妻子- 小月″,则,本轮抽取得到的候选知识描述信息集合为{小明-妻子-小兰,小华- 妻子-小月}。如果不同的知识抽取模板抽取到了同一个候选知识描述信息,业务 服务器只会存储一次该候选知识描述信息,但是会记录能够抽取出该候选知识 描述信息的知识抽取模板。
可以理解的是,由于语言文学的多样性,根据模板抽取出来的知识描述信 息不一定是正确的,因此将抽取出来的知识描述信息作为候选知识描述信息, 需要进行进一步处理判断它们的可靠性。
S104:确定所述知识抽取模板的模板置信度,根据所述模板置信度确定所 述候选知识描述信息的知识置信度。
具体的,置信度指的就是可信程度,置信度越高说明越可信。由于知识描 述信息是由知识抽取模板与语料集合直接匹配得到,所以知识抽取模板的可信 程度,也就是置信度对最终的抽取结果准确率以及后续迭代效果至关重要。因 为整个知识抽取包括多轮抽取,每一轮迭代每个知识抽取模板都可以得到一个 当前置信度。其中,确定当前置信度包括,获取该知识抽取模板抽取出的候选 知识描述信息,判断这些候选知识描述信息的合法性,然后根据合法的候选知 识描述信息的个数和非法的候选知识描述信息的个数,来计算该知识抽取模板 的当前置信度。然后,根据当前置信度就可以更新知识抽取模板的模板置信度 了。
比如,更新本轮迭代后知识抽取模板A(如上述图2b所示的第x+1轮迭代 后得到的知识抽取模板A1)的模板置信度,先确定知识抽取模板A的当前置信 度,然后获取上一轮迭代后该知识抽取模板(如上述图2b所示的第x轮迭代后 得到的知识抽取模板A1)的模板置信度,作为知识抽取模板A的历史置信度, 然后根据知识抽取模板A的当前置信度和历史置信度,得到本轮迭代后知识抽 取模板A的模板置信度。
具体的,采用某个知识抽取模板的与语料集合进行匹配时,抽出的候选知 识描述信息中,可能有与知识种子集合中的知识描述信息描述相同实体的候选 知识描述信息,就可以根据知识种子集合中的知识描述信息判断该候选知识描 述信息的合法性。也就是说,对于一个候选知识描述信息,如果没有在知识种 子集合中找到与其描述相同实体的知识描述信息,将该候选知识描述信息的知 识合法性确定为未知,该候选知识描述信息不会参与到后续的模板置信度计算 过程中;如果在知识种子集合中找到与其描述相同实体的知识描述信息,将知 识种子集合中与候选知识描述信息描述相同实体的知识描述信息,作为待匹配 知识描述信息,如果该候选知识描述信息与待匹配知识描述信息相同,则将该 候选知识描述信息的知识合法性确定为合法;如果该候选知识描述信息与待匹 配知识描述信息不相同,则将该候选知识描述信息的知识合法性确定为非法。 比如,知识种子集合为{小明-生日-9月2日,小华-生日-9月9日},抽取到的候 选知识描述信息M1为小王-生日-9月5日,知识种子集合中的知识描述信息描述 的实体有小明和小华,均不是抽取到的候选知识描述信息描述的实体小王,则 将该候选知识描述信息的知识合法性确定为未知;抽取到的候选知识描述信息 M2为小明-生日-9月5日,描述的是小明的生日,能在知识种子集合中找到同 样描述小明生日的知识描述信息,获取知识种子集合中同样描述小明生日的知识描述信息小明-生日-9月2日,作为待匹配知识描述信息,比对二者可以发现, 二者描述的知识不一样,候选知识描述信息M2给出小明的生日是9月5日,待 匹配知识描述信息给出小明的生日是9月2日,说明抽取到的候选知识描述信 息M2是错误的,将其知识合法性确定为非法。如果比对二者,发现二者描述的 知识一样,则将候选知识描述信息的知识合法性确定为合法。
在确定了知识抽取模板抽选出来的所有候选知识描述信息的知识合法性 后,就可以计算本轮迭代该知识抽取模板的当前置信度。然后获取该知识抽取 模块上一轮的模板置信度,同当前置信度一起确定该知识抽取模板本轮的模板 置信度。计算了本轮知识抽取中所有的知识抽取模板的模板置信度后,便可以 确定每个候选知识描述信息的知识置信度。具体的,同一个候选知识描述信息, 可能由多个不同的知识抽取模板同语料集合匹配得到。因此确定一个候选知识 描述信息的知识置信度,首先需要获取能够从语料中抽取出该候选知识描述信 息的知识抽取模板。然后根据这些知识抽取模板本轮迭代的模板置信度,来确 定该候选知识描述信息的知识置信度。可以理解的是,每轮迭代知识抽取模板的模板置信度都会更新,因此每轮迭代候选知识描述信息的知识置信度同样也 会更新。
S105:根据所述知识置信度和所述候选知识描述信息更新所述知识种子集 合。
具体的,通过知识置信度,可以确定候选知识描述信息的可信情况,从候 选知识描述信息中选择部分置信度高的候选知识描述信息,加入到知识种子集 合中。更新后的知识种子集合如果没有满足收敛条件,业务服务器会开启下一 轮知识抽取,即再次执行步骤S101到S105。其中,下一轮知识抽取中的步骤 S101,使用的知识种子集合便是本轮知识抽取的更新后的知识种子集合。也就 是说,在没有满足收敛条件时,业务服务器会循环执行步骤S101到S105,不断 的更新知识种子集合,加入新的知识描述信息,与语料匹配时就可能得到新的 知识抽取模板,然后从语料集合中挖掘新的候选知识描述信息。就这样循环迭代,最终不断扩展知识种子集合与包含知识抽取模板的模板集合,达到挖掘语 料中蕴含的所有描述相关意图的知识描述信息与知识抽取模板的结果。
可选的,可以设置一个可信置信度阈值,当候选知识描述信息的知识置信 度大于该可信置信度阈值时,将所述目标知识描述信息作为可信知识描述信息, 将可信知识描述信息加入知识种子集合中。更新后的知识种子集合如果没有收 敛,则将更新后的知识种子集合作为下一轮迭代时所使用的知识种子集合。
S106:当更新后的知识种子集合满足收敛条件时,根据所述更新后的知识 种子集合更新知识图谱。
具体的,更新后的知识种子集合满足收敛条件是指重复迭代执行S101到 S105后,在语料集合中挖掘不到新的候选知识描述信息,知识种子集合自然也 不会再加入新的知识描述信息了。此时可以停止迭代,在知识种子集合中将通 过上述与知识抽取模板匹配得来的候选知识描述信息,选择部分可靠的候选知 识描述信息作为待存储的知识描述信息,加入知识图谱。
具体的,判断更新后的知识种子集合是否满足收敛条件,可以将知识种子 集合和更新后的知识种子集合对比,若二者相同,则可以认为更新后的知识种 子集合满足条件。
具体的,本申请还提供了另一种收敛检测方式:判断更新后的知识种子集 合是否满足收敛条件,可以获取所述知识抽取模板对应的M个历史置信度,所 述M为正整数;若所述模板置信度与所述M个历史置信度中的每个历史置信度 的差值的绝对值均小于收敛阈值,确定所述更新后的知识种子集合满足收敛条 件。
可选的,当更新后的知识种子集合满足收敛条件时,可以将高置信度的知 识抽取模板保存下来,加入模板库中。模板库用于存储能够直接与文本数据匹 配得到可靠的知识描述信息的抽取模板。每次知识抽取,除了能够得到可信的 知识描述信息以后,还可以得到可信的知识抽取模板,将其加入模块库中,在 以后还需要抽取知识描述信息时,可以直接调用其与语料进行匹配。
为了更清楚的说明本申请实施例提供的知识抽取方法的迭代过程,请一并 参见图3b,图3b是本申请实施例提供的一种知识抽取方法的流程示意图。为便 于理解,以抽取的知识描述信息为SPO三元组进行说明。如图3b所示,首先将 已有的、可信的、少量的初始SPO知识作为种子集与语料挖掘出抽取模板,再 将模板与语料简单匹配得到新的粗选SPO三元组,挖掘结果的准确率可以计算 出抽取模板的置信度,同时抽取模板的置信度又可以推导出抽取SPO三元组置 信度。高置信度的SPO知识继续加入补充种子集,得到的SPO集合作为下一轮 迭代的SPO种子集。上述过程的具体实现可以参见图3a对应实施例中步骤S01-S105的描述,这里不再赘述。
如图3b所示,下一轮迭代就能利用新引入的SPO三元组挖掘新的模板,从 而重复上述流程进一步挖掘可靠SPO知识,就这样循环迭代,最终不断扩展可 信SPO集合与模板集合,达到挖掘语料中蕴含的所有相关意图的SPO知识与抽 取模板的结果。等到SPO种子集满足收敛条件时,从SPO集合中选取头部的、 置信度高的SPO三元组加入知识图谱,从模板集合中选取头部的、置信度高的 抽取模板存进模板库中,再做其它知识抽取时可以直接调用。
可以理解的是,本申请实施例提供的方法不仅可以应用在SPO三元组知识 抽取中,在其他知识抽取场景均适用,如知识图谱的概念词抽取、知识图谱的 上下位词抽取、知识图谱的事件词抽取等。
通过本申请实施例提出用知识种子集合中的知识描述信息与语料集合中的 文本数据匹配来得到知识抽取模板,然后用知识抽取模板在语料集合中抽取知 识描述信息,根据抽取的知识描述信息的知识合法性计算知识抽取模板的模板 置信度,再根据模板置信度计算知识描述信息的置信度,将高置信度的知识描 述信息加入知识种子集合中,以便得到新的种子集合对语料进行知识描述信息 的抽取。不断自动迭代上述过程,最终不断扩展知识种子集合与包含知识抽取 模板的模板集合,达到挖掘语料中蕴含的所有相关意图的知识描述信息与抽取 模板的结果。本申请实施例最初基于可信的、少量的知识描述信息以及自动挖 掘出的知识抽取模板,可以从语料集合中迭代挖掘出更多新的知识描述信息,即可以从互联网海量的文本数据中高效的抽取更多、更全面的知识描述信息, 为知识图谱持续提供覆盖面广、准确率高的来源数据。
进一步的,请参见图4,图4是本申请实施例提供的一种知识抽取模板生成 的过程示意图。图4具体是对上述图3a对应实施例中的S102进行的详细描述。 业务服务器会先遍历语料集合中的文本数据,将所述语料集合中包含所述知识 描述信息的段落,作为目标段落语料;然后根据目标段落语料和知识描述信息 生成基础抽取模板;再根据每个基础抽取模板生成泛化抽取模板;最后对每个 泛化抽取模板分别进行槽位填充,得到知识抽取模板。为便于理解,本申请实 施例中知识种子集合中的知识描述信息是描述人物出生日期知识的SPO三元 组。如图4所示,知识种子集合中包含多组可靠的知识描述信息,比如小张-出生日期-1961年9月27日,小成-出生日期-1954年4月7日等等,语料集合中 包含了多个非结构化文本段落。首先,业务服务器会遍历语料集合中的文本数 据,将所述语料集合中包含所述知识描述信息的段落,作为目标段落语料。比 如,用“小张-出生日期-1961年9月27日”这组SPO三元组与语料集合匹配, 去寻找目标段落语料。对应该SPO三元组来说,主语Subject是小张,宾语Object 是1961年9月27日,因此在查询时,将包含小张和1961年9月27日的文本 段落,作为目标段落语料。在如图4所示的语料集合中,“小张1961年9月27 日出生于香港,籍贯广东新会”便包含了该SPO三元组的实体数据,于是将此 作为一个目标段落语料。当然,目标段落语料的数量没有限制,也就是说只要 包含该实体数据的段落都可以作为目标段落语料,在获取到一个目标段落语料 之后,该SPO三元组与语料集合的匹配并不会停止,只有当遍历完整个语料集 合才会停止匹配。
如图4所示,在获取到目标段落语料以后,业务服务器会获取知识描述信 息对应的文本关系字符;在目标段落语料中用文本关系字符替换知识描述信息, 得到基础抽取模板。。这里的文本关系字符指的是该实体数据对应知识描述信 息中的知识属性。对于SPO三元组来说,文本关系字符有Subject(主语)和 Object(宾语),用Subject(主语)替换小张,Object(宾语)替换1961年9 月27日,就可以生成一个基础抽取模板“Subject_Object出生于香港,籍贯广东 新会”。通过知识匹配和文本关系字符替换,可以生成多个基础抽取模板。
然后,对每个基础抽取模板进行窗口滑动,得到S个泛化抽取模板。为了 更清楚的阐述泛化基础抽取模板的过程,请一并参见图5,图5是本申请实施例 提供的一种字符窗口覆盖基础抽取模板的示意图。首先需要通过字符窗口获取 文本关系字符相邻的字符,如图5所示,以SPO三元组为例来说,有两个文本 关系字符,S字符401和P字符402,因此需要对应两个字符窗口,比如字符窗 口41和字符窗口42。可以理解的是,将两个字符窗口分别在目标段落语料上滑 动,直至覆盖到与文本关系字符相邻的n个字符。这里所说的字符窗口需要覆 盖到与文本关系字符相邻的n个字符,指的是需要覆盖到每个文本关系字符前 面的n个字符和后面的n个字符。
如图5所示,在字符窗口41覆盖S字符401相邻的1个字符和字符窗口42 覆盖P字符402相邻的1个字符后,实际上字符窗口除掉文本关系字符,一共 覆盖了4个普通字符X,将其作为待选择字符。其中,X字符可以为任一字符。 然后从这些待选择字符中选取i个字符同文本关系字符一起组成泛化抽取模板。 这里的i可以依次为1、2、3、4。比如当i为1时,可以得到的泛化抽取模板为: XS、P;SX、P;S、XP;S、PX。其中,″XS、P″为一组知识抽取模板,说明匹配的字符之间还有未知字符,模板并不是连续的字符串,比如,用″XS、P″ 去匹配XSAAP,可以匹配成功的。当i为2时,可以得到的泛化抽取模板为: XSX、P;XS、XP;XS、PX;SXXP;SX、PX;S、XPX;S、PXX,以此类推。 可以理解的是,在生成的泛化抽取模板中,除掉文本关系字符得到的字符串中, 总有一端是与文本关系字符相邻的。比如XXSXPXXX,去掉S和P能得到XX、 X、XXX,可以看出三个字符串都有一个X字符是与S或者P相邻的。
假设S个泛化抽取模板包括泛化抽取模板Li,i为小于或等于S的正整数。 对抽取模板Li进行槽位填充,即,对泛化抽取模板Li进行分词,得到文本关系 字符以及关联分词,将与文本关系字符相关联的知识描述信息和关联分词确定 为待替换分词;根据待替换分词记录文本关系字符在泛化抽取模板Li中的排序 位置,作为抽取位置索引;获取槽位词表,槽位词表包括槽位分词、文本分词 以及槽位分词和文本分词的映射关系;若在槽位词表中查找到与待替换分词相 同的文本分词,则将与待替换分词相同的文本分词具有映射关系的槽位分词, 作为目标槽位分词;根据目标槽位分词对泛化抽取模板进行分词替换,得到槽 位替换模板;根据槽位替换模板和抽取位置索引,生成所述泛化抽取模板Li对 应的知识抽取模板。如图4所示,对基础生成模板“Subject_Object出生于香港, 籍贯广东新会”做模板泛化的时候,获取文本关系字符相邻的n个字符时,由 于只有Object后面有字符,因此对其做窗口滑动时,实际获取的就是Object后 面的n个字符,若n的值为5,则泛化可以得到5个泛化抽取模板。对每一个基 础抽取模板进行泛化以后,得到多个泛化抽取模板,然后对每个泛化抽取模板 做槽位填充,得到知识抽取模板。如图4所示的泛化抽取模板“Subject_Object 出生于香港”,首先对其进行分词处理,可以得到“Subject”、“Objec”、“出 生于”、“香港”。其中,“出生于”、“香港”就是关联分词。此时业务服 务器会获取文本关系字符在这些词组中的位置,Subject位于第一位,Objec位于 第二位,记录为抽取位置索引_1,2。对于文本关系字符,需要获取其在基础生成 模板时替换的实体数据,也就是“小张”和“1961年9月27日”。因此需要做 词性分析并做槽位替换的实际词组有“小张”、“1961年9月27日”、“出生 于”、“香港”,业务服务器可以获取槽位词表,然后在槽位词表查询词组中 的的分词是否具有对应槽位分词,如果有,就将该分词替换为槽位分词;如果 没有,保留原有的分词不变。其中,槽位分词可以是分词工具原有的槽位概念, 也可以通过自定义槽位以及对应的文本集合生成。对该泛化抽取模板做槽位替 换以后,再根据抽取位置索引,就可以得到一个知识抽取模板“[D:person]_[D:date] 出生于[D:location]_1,2”。
可选的是,在业务服务器对基础抽取模板进行泛化扩展后,虽然可以得到 数量较多的泛化抽取模板,但是这些泛化抽取模板的质量不一,有些泛化抽取 模板的可信度很低,这时可以人工设置后验规则,对泛化抽取模板进行初次过 滤。对于过滤掉的泛化抽取模板,不再参与后续的过程。其中,后验规则可以 是一些格式验证,和一些易于验证模板可信度低的规则,比如说,当得到的泛 化抽取模板中,文本关系字符之间的未知字符数过多,超出正常情况,可以将 这样的泛化抽取模板去掉。
进一步的,请参见图6,图6是本申请实施例提供的一种抽取知识描述信息 的过程示意图。图6具体是对上述图3a对应实施例中的S103进行的详细描述。 为便于理解,本申请实施例以上述图4所示的实施例中得到的知识抽取模板组 成的集合为例,与语料集合匹配来抽取SPO三元组为例进行说明。其中,语料 集合可以是上述图4所示的语料集合。如图6所示,知识抽取模板集合中的知 识抽取模板是通过槽位填充得到的模板。为了更加简便的用多组模板与语料集 合进行匹配,可以在一开始先对语料集合中的文本数据进行语料槽位填充,方 法同上述图4中对泛化抽取模板做槽位填充一样,都是先对文本数据进行分词 与词性分析处理,然后获取槽位词表中的槽位分词对可以替换的分词进行替换。 之后,就可以依次用知识抽取模板集合中的知识抽取模板与填充后的语句集合 去进行匹配。其中,匹配可以是直接将模板与语料进行字符串匹配。对于匹配 成功的文本语句,会根据知识抽取模板的抽取位置索引去获取对应槽位原有的 分词数据。如图6所示,用“[D:person]_[D:date]出生于[D:location]_1,2”与语料 集合中某段文本语句成功匹配,根据其抽取位置索引“_1,2”,业务服务器会获 取第一个槽位分词对应的原有分词“小李”作为抽取的知识描述信息的Subject, 获取第二个槽位分词对应原有分词“1940年”作为抽取的知识描述信息的Objec, 因此,得到的一组知识描述信息为“小李-出生日期-1940年”。
对于抽取到的知识描述信息的可靠性是未知的,因此将抽取到的知识描述 信息作为候选知识描述信息,依次对其进行置信度打分,最后根据置信度来选 择高可靠性的候选知识描述信息加入知识图谱。由于候选知识描述信息是通过 知识抽取模板与语料集合中的文本数据直接匹配到的,所以候选知识描述信息 的可靠性与知识抽取模板的可靠性是非常相关的。因此,可以先计算知识抽取 模板的置信度。
进一步的,请参见图7,图7是本申请实施例提供的一种计算模板置信度的 流程示意图。图7具体是对上述图3a对应实施例中的S104中计算一个知识抽 取模板的模板置信度进行的详细描述。以知识抽取模板包括的知识抽取模板70 为例,如图7所示,该流程可以包括:
S701:将候选知识描述信息集合与知识种子集合进行模糊匹配。
具体的,获取知识抽取模板70抽取出来的候选知识描述信息组成的候选知 识描述信息集合71,然后与知识种子集合72进行模糊匹配,在知识种子集合 72中查找与候选知识描述信息描述相同实体的知识描述信息。如图7所示,其 中,候选知识描述信息的集合71包含候选知识描述信息711、候选知识描述信 息712、候选知识描述信息713等等;知识种子集合72包含的知识描述信息有 知识描述信息721、知识描述信息722、知识描述信息723。对二者进行模糊匹 配,即对于候选知识描述信息集合71中的每一个候选知识描述信息,都在知识 种子集合72进行一次模糊匹配,查找与其描述相同实体的知识描述信息,作为 待匹配知识描述信息。比如,候选知识描述信息711和知识描述信息721都是 描述的小明的出生日期,因此将知识描述信息721作为候选知识描述信息711 的待匹配知识描述信息。
S702:对候选知识描述信息的知识合法性进行验证。
具体的,将候选知识描述信息与对应的待匹配知识描述信息比对,如果完 全一致,说明该候选知识描述信息的知识合法性为合法;如果不一致,说明该 候选知识描述信息的知识合法性为非法;如果该候选知识描述信息没有对应的 待匹配知识描述信息,将其知识合法性确定为未知。如图7所示,对比知识描 述信息721和候选知识描述信息711可知,两者描述的知识完全一致,因此将 候选知识描述信息711的知识合法性确定为合法。同理可知,知识描述信息723 为候选知识描述信息712的待匹配知识描述信息,对比二者,知识描述信息723 中小张的出生日期为1961年9月21日,候选知识描述信息712中小张的出生日期为1970年5月1日,描述的知识存在不一致,因此将候选知识描述信息712 的知识合法性确定为非法。由于并没有在知识种子集合72中找到与候选知识描 述信息713描述相同实体的知识描述信息,因此将候选知识描述信息713的知 识合法性确定为未知。其余的候选知识描述信息的知识合法性的确定与上述三 者中的其中一个一样,这里不再赘述。
S703-S704:统计合法性验证的结果,根据结果来计算它本轮抽取的置信度, 记为当前置信度,最后获取该知识抽取模板的上一轮的模板置信度作为历史置 信度,根据当前置信度和历史置信度来得到它本轮迭代后的模板置信度。
具体的,在对所有的候选知识描述信息的合法性做了确定以后,将知识合 法性为合法的候选知识描述信息的个数,作为合法参数,记为p,将知识合法性 为非法的候选知识描述信息的个数作为非法参数,记为n,然后根据p和n来计 算该模板的当前置信度。当前置信度的计算方法,可以如公式(1)所示:
Figure BDA0002745122990000241
采取如上所述的通过与知识种子集比较确定模板抽取出的候选知识描述信 息的合法性,来计算模板当前置信度,是为了实现自动判断是否正确,从而避 免人工标注准确性引入的额外工作影响迭代效率。
本申请实施例中提到的知识抽取是一个循环迭代的过程,每一轮知识描述 信息抽取后,都可以计算得到一个当前置信度,为了综合多轮迭代模板的置信 度,为每个知识抽取模板设定了一个模板置信度,每轮抽取完知识描述信息以 后,都会根据当前置信度与上一轮计算得到的该知识抽取模板的模板置信度来 更新该模板置信度,该模板置信度的更新公式如下:
Conf(P)u=α*Conf(P)o+(1-α)*Conf(P)n
公式(2)
其中,Conf(P)o为相关历史置信度,也就是上一轮对于该知识抽取模板的模 板置信度进行更新的结果,Conf(P)n为当前置信度,α为学习率,Conf(P)u为模板置 信度,也就是本轮对于该知识抽取模板的模板置信度进行更新的结果。
其中,业务服务器会记录每轮迭代每个知识抽取模板的模板置信度,在本 轮迭代时,之前记录的模板置信度可以统称为该知识抽取模板的历史置信度。 业务服务器会在历史置信度中获取每个历史置信度的生成时间戳,将最大的生 成时间戳对应的历史置信度,作为相关历史置信度。
如图7所示,在计算得到本轮知识抽取时该知识抽取模板70的当前置信度 以后,业务服务器会获取该知识抽取模板70上一轮知识抽取得到的模板置信度, 作为历史置信度,然后根据公式(2)得到本轮知识抽取该模板的模板置信度。
可选的,同一组候选知识描述信息虽然可以由不同的知识抽取模板得到, 但是其知识合法性的验证结果是唯一的,因此只需要对一组候选知识描述信息 做一次知识合法性验证即可。也就是说,在获取到某个知识抽取模板抽取出来 的候选知识描述信息,对其进行知识合法性验证时,如果在之前对别的知识抽 取模板做模板置信度计算时就已经验证过该候选知识描述信息的知识合法性, 可以直接获取结果,不需要再做模糊匹配了。
可选的,采用本申请实施例得到的知识抽取模板数量过多,为了减轻计算 量,可以在计算的过程中加入模板过滤的步骤,去掉一些不合理或者可信度极 低的知识抽取模板。比如,在用知识抽取模板抽取完候选知识描述信息时,对 于抽取数量极低的知识抽取模板,可以过滤掉,不再参与本轮知识抽取的模板 置信度计算。比如,在对知识抽取模板做了当前置信度计算后,将当前置信度 极低的知识抽取模板过滤掉,不再参与本轮知识抽取的模板置信度计算。
进一步的,请参见图8,图8是本申请实施例提供的一种知识置信度的计算 过程示意图。图8具体是对上述图3a对应实施例中的S104进行的详细描述。 因为候选知识描述信息是通过上述知识抽取模板抽取得到的,因此可以根据知 识抽取模板的模板可信度来计算候选知识描述信息的知识置信度。候选知识描 述信息可以包括知识描述信息K,计算知识描述信息K的知识置信度,可以将 可抽取出所述知识描述信息K的知识抽取模板,作为目标知识抽取模板;将目 标知识抽取模板的模板置信度,作为目标模板置信度;根据目标置信度确定目 标知识描述信息K的知识置信度。如图8所示,计算知识描述信息K的知识置 信度,获取到了i个抽取出它的抽取模板。其中,i为大于或等于1的正整数。 然后,获取这i个抽取模板对应的模板置信度,然后计算知识描述信息K的知 识置信度。知识置信度的计算公式可以如公式(3)所示:
Conf(T)=1-Π(1-Conf(Pi)
公式(3)
其中,Pi为第i个抽取出该知识描述信息K的抽取模板的模板置信度。由于 每轮迭代都会更新优化模板置信度,因此每轮迭代都会触发知识置信度的更新。
进一步地,请参见图9,图9是本申请实施例提供的一种基于知识图谱的数 据处理装置的结构示意图。上述数据处理装置可以是运行于计算机设备中的一 个计算机程序(包括程序代码),例如该数据处理装置为一个应用软件;该装 置可以用于执行本申请实施例提供的方法中的相应步骤。如图9所示,该数据 处理装置2可以包括:获取模块21、模板生成模块22、知识抽取模块23、第一 确定模块24、第二确定模块25、第一更新模块26、第二更新模块27。
获取模块21,用于获取知识种子集合,知识种子集合包括文本的知识描述 信息;
模板生成模块22,用于将知识描述信息和语料集合中的文本数据进行匹配, 得到知识抽取模板;
知识抽取模块23,用于根据知识抽取模板,从语料集合中抽取候选知识描 述信息;
第一确定模块24,用于确定知识抽取模板的模板置信度;
第二确定模块25,用于根据模板置信度确定候选知识描述信息的知识置信 度;
第一更新模块26,用于根据知识置信度和候选知识描述信息更新知识种子 集合;
第二更新模块,用于根据更新后的知识种子集合更新知识图谱。
其中,获取模块21、模板生成模块22、知识抽取模块23、第一确定模块 24、第二确定模块25、第一更新模块26以及第二更新模块27的具体实现方式, 可以参见上述图3a所对应实施例中步骤S101-S106的描述,这里将不再进行赘 述。
请参见图9,模板生成模块22可以包括:查询单元221、基础生成单元222、 泛化生成单元223以及槽位填充单元224。
查询单元221,用于遍历语料集合中的文本数据,将语料集合中包含知识描 述信息的段落,作为目标段落语料;
基础生成单元222,用于根据目标段落语料和知识描述信息生成基础抽取模 板;
泛化生成单元223,用于根据基础抽取模板生成S个泛化抽取模板;S为正 整数;
槽位填充单元224,用于对S个泛化抽取模板分别进行槽位填充,得到知识 抽取模板。
其中,查询单元221、基础生成单元222、泛化生成单元223以及槽位填充 单元224的具体实现方式,可以参见上述图3a所对应实施例中步骤S102的描 述,这里将不再进行赘述。
请参见图9,基础生成单元222可以包括:字符获取子单元2221以及字符 替换子单元2222。
字符获取子单元2221,用于获取知识描述信息对应的文本关系字符;
字符替换子单元2222,用于在目标段落语料中用文本关系字符替换知识描 述信息,得到基础抽取模板。
其中,字符获取子单元2221以及字符替换子单元2222的具体实现方式, 可以参见上述图3a所对应实施例中步骤S102的描述,这里将不再进行赘述。
请参见图9,泛化生成单元223可以包括:窗口获取子单元2231以及泛化 模板生成子单元2232。
窗口获取子单元2231,用于通过滑动字符窗口在基础抽取模板中获取文本 关系字符以及与文本关系字符相邻的字符;相邻的字符为字符窗口所覆盖的字 符;
泛化模板生成子单元2232,用于根据文本关系字符和相邻的字符生成S个 泛化抽取模板;每个泛化抽取模板均包括文本关系字符以及相邻的字符中的至 少一个字符。
其中,窗口获取子单元2231以及泛化模板生成子单元2232的具体实现方 式,可以参见上述图3a所对应实施例中步骤S102的描述,这里将不再进行赘 述。
其中,S个泛化抽取模板包括泛化抽取模板Li,i为小于或等于S的正整数;
请参见图9,槽位填充单元224可以包括:模板分词子单元2241、位置确 定子单元2242、词表获取子单元2243、分词查找子单元2244、分词替换子单元 2245以及抽取模板生成子单元2246。
模板分词子单元2241,用于对泛化抽取模板Li进行分词,得到文本关系字 符以及关联分词,将与文本关系字符相关联的知识描述信息和关联分词确定为 待替换分词;
位置确定子单元2242,根据待替换分词记录文本关系字符在泛化抽取模板 Li中的排序位置,作为抽取位置索引;
词表获取子单元2243,用于获取槽位词表,槽位词表包括槽位分词、文本 分词以及槽位分词和文本分词的映射关系;
分词查找子单元2244,用于若在槽位词表中查找到与待替换分词相同的文 本分词,则将与待替换分词相同的文本分词具有映射关系的槽位分词,作为目 标槽位分词;
分词替换子单元2245,用于根据目标槽位分词对泛化抽取模板进行分词替 换,得到槽位替换模板;
抽取模板生成子单元2246,用于根据槽位替换模板和抽取位置索引,生成 泛化抽取模板Li对应的知识抽取模板。
其中,模板分词子单元2241、位置确定子单元2242、词表获取子单元2243、 分词查找子单元2244、分词替换子单元2245以及抽取模板生成子单元2246的 具体实现方式,可以参见上述图4所对应实施例中对步骤S102的详细描述,这 里将不再进行赘述。
请参见图9,知识抽取模板23可以包括:文本填充单元231、文本匹配单 元232以及知识获取单元233。
文本填充单元231,用于对语料集合中的文本数据进行槽位填充,得到替换 文本数据;
文本匹配单元232,用于将知识抽取模板与替换文本数据进行匹配;
知识获取单元233,用于若知识抽取模板与替换文本数据匹配成功,则获取 抽取位置索引,根据抽取位置索引在替换文本数据中获取候选知识描述信息。
其中,文本填充单元231、文本匹配单元232以及知识获取单元233的具体 实现方式,可以参见上述图3a所对应实施例中步骤S103的描述,这里将不再 进行赘述。
请参见图9,第一确定模块24可以包括:合法性确定单元241、当前置信 度计算单元242、置信度获取单元243以及模板置信度计算单元244。
合法性确定单元241,用于根据候选知识描述信息和知识种子集合验证候选 知识描述信息的知识合法性;
当前置信度计算单元242,用于根据知识合法性确定知识抽取模板的当前置 信度;
置信度获取单元243,用于在历史置信度中获取每个历史置信度的生成时间 戳,将最大的生成时间戳对应的历史置信度,作为相关历史置信度;
模板置信度计算单元244,用于根据相关历史置信度和当前置信度确定知识 抽取模板的模板置信度。
其中,合法性确定单元241、当前置信度计算单元242、置信度获取单元243 以及模板置信度计算单元244的具体实现方式,可以参见上述图3a所对应实施 例中步骤S104的描述,这里将不再进行赘述。
请参见图9,合法性确定单元241可以包括:待匹配信息查找子单元2411 以及合法性判断子单元2412。
待匹配信息查找子单元2411,用于在知识种子集合中查找与候选知识描述 信息描述相同实体的知识描述信息,作为待匹配知识描述信息;
合法性判断子单元2412,用于根据候选知识描述信息和待匹配知识描述信 息,确定候选知识描述信息的知识合法性。
其中,待匹配信息查找子单元2411以及合法性判断子单元2412的具体实 现方式,可以参见上述图7所对应实施例中步骤S701-S702的描述,这里将不 再进行赘述。
其中,知识抽取模板包括知识抽取模板Hg,g为小于或等于知识抽取模板 的总数量的正整数;
请参见图9,当前置信度计算单元242可以包括:统计子单元2421以及当 前置信度确定子单元2422。
统计子单元2421,用于在通过知识抽取模板Hg抽取出的候选知识描述信息 中,统计知识合法性为合法的候选知识描述信息的数量,作为合法参数;
统计子单元2421,还用于在通过知识抽取模板Hg抽取出的候选知识描述信 息中,统计知识合法性为非法的知识描述信息的数量,作为非法参数;
当前置信度确定子单元2422,用于根据合法参数和不合法参数确定知识抽 取模板Hg的当前置信度。
其中,统计子单元2421以及当前置信度确定子单元2422的具体实现方式, 可以参见上述图7所对应实施例中步骤S703-S704的描述,这里将不再进行赘 述。
其中,候选知识描述信息包括候选知识描述信息Kj,j为正整数;
请参见图9,第二确定模板25可以包括:目标模板确定单元251、目标置 信度确定单元252以及知识置信度计算单元253。
目标模板确定单元251,用于将可抽取出知识描述信息Kj的知识抽取模板, 作为目标知识抽取模板;
目标置信度确定单元252,用于将目标知识抽取模板的模板置信度,作为目 标模板置信度;
知识置信度计算单元253,用于根据目标置信度确定目标知识描述信息Kj的知识置信度。
其中,目标模板确定单元251、目标置信度确定单元252以及知识置信度计 算单元253的具体实现方式,可以参见上述图7所对应实施例中步骤S703-S704 的描述,这里将不再进行赘述。
请参见图9,第一更新模块26,包括:可信知识确定单元261以及种子集 合更新单元262。
可信知识确定单元261,用于当目标知识描述信息的知识置信度大于可信置 信度阈值时,将目标知识描述信息作为可信知识描述信息;
种子集合更新单元262,用于将可信知识描述信息加入知识种子集合。
其中,可信知识确定单元261以及种子集合更新单元262的具体实现方式, 可以参见上述图3a所对应实施例中步骤S105的描述,这里将不再进行赘述。
请参见图9,第二更新模块29可以包括:知识排序单元291以及知识添加 单元292。
知识排序单元291,用于对更新后的知识种子集合中的候选知识描述信息按 照知识置信度从高到底进行排序,将前L个知识描述信息作为待存储知识描述 信息;L为正整数;
知识添加单元292,用于将待存储知识描述信息加入知识图谱。
其中,知识排序单元291以及知识添加单元292的具体实现方式,可以参 见上述图3a所对应实施例中步骤S106的描述,这里将不再进行赘述。
请参见图9,该数据处理装置2还可以包括:判断模块27。
判断模块27,用于确定更新后的知识种子集合是否满足收敛条件。
其中,判断模块27的具体实现方式,可以参见上述图3a所对应实施例中 步骤S106的描述,这里将不再进行赘述。
请参见图9,判断模块27可以包括:第一判断单元271以及第二判断单元 272。
第一判断单元271,用于若知识种子集合和更新后的知识种子集合相同,确 定更新后的知识种子集合满足收敛条件;
第二判断单元272,用于根据知识抽取模板的历史置信度和模板置信度,确 定更新后的知识种子集合满足收敛条件。
其中,第一判断单元271以及第二判断单元272的具体实现方式,可以参 见上述图3a所对应实施例中步骤S106的描述,这里将不再进行赘述。
请参见图9,第二判断单元272可以包括历史置信度获取子单元2721以及 计算判断子单元2722。
历史置信度获取子单元2721,用于获取知识抽取模板对应的M个历史置信 度,M为正整数;
计算判断子单元2722,用于若模板置信度与M个历史置信度中的每个历史 置信度的差值的绝对值均小于收敛阈值,确定更新后的知识种子集合满足收敛 条件。
其中,历史置信度获取子单元2721以及计算判断子单元2722的具体实现 方式,可以参见上述图3a所对应实施例中步骤S106的描述,这里将不再进行 赘述。
其中,获取模块,具体用于获取第x轮迭代中的知识种子集合;
请参见图9,该数据处理装置2还可以包括:迭代模块28。
迭代模块28,用于当更新后的知识种子集合未满足收敛条件时,将更新后 的知识种子集合作为第x+1轮迭代中的知识种子集合,根据第x+1轮迭代中的 知识种子集合继续获取第x+1轮迭代中的知识抽取模板和候选知识描述信息, 根据第x+1轮迭代中的知识抽取模板和候选知识描述信息,对第x+1轮迭代中 的知识种子集合进行迭代更新。
其中,迭代模块28的具体实现方式,可以参见上述图2b对应实施例中对 第x+1轮迭代抽取的描述,这里将不再进行赘述。
在本申请实施例中,通过构建包含少量的、可信的知识描述信息的知识种 子集合,将知识种子集合同语料集合匹配生成知识抽取模板,再通过知识抽取 模板在语料集合中抽取新的知识抽取信息作为候选知识描述信息,确定知识抽 取模板和候选知识描述信息的置信度,选择高可信的候选知识描述信息加入知 识种子集合,继续重复上述过程,可以不断自动扩展知识种子集合与知识抽取 模板集合。直到知识种子集合满足收敛条件,停止迭代,此时能够得到可用语 料中指定意图的绝大部分知识描述信息,因此覆盖率非常高。
进一步地,请参见图10,图10是本申请实施例提供的一种计算机设备的结 构示意图。如图10所示,上述图9所对应实施例中的装置2可以应用于上述计 算机设备8000,上述计算机设备8000可以包括:处理器8001,网络接口8004 和存储器8005,此外,上述计算机设备8000还包括:用户接口8003,和至少 一个通信总线8002。其中,通信总线8002用于实现这些组件之间的连接通信。 网络接口8004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。 存储器8005可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatilememory),例如至少一个磁盘存储器。存储器8005可选的还可以是至少一个位 于远离前述处理器8001的存储装置。如图10所示,作为一种计算机可读存储 介质的存储器8005中可以包括操作系统、网络通信模块、用户接口模块以及设 备控制应用程序。
在图10所示的计算机设备8000中,网络接口8004可提供网络通讯功能; 而用户接口8003主要用于为用户提供输入的接口;而处理器8001可以用于调 用存储器8005中存储的设备控制应用程序,以实现:
获取知识种子集合,知识种子集合包括文本的知识描述信息;
将知识描述信息和语料集合中的文本数据进行匹配,得到知识抽取模板;
根据知识抽取模板,从语料集合中抽取候选知识描述信息;
确定知识抽取模板的模板置信度,根据模板置信度确定候选知识描述信息 的知识置信度;
根据知识置信度和候选知识描述信息更新知识种子集合;
当更新后的知识种子集合满足收敛条件时,根据更新后的知识种子集合更 新知识图谱。
应当理解,本申请实施例中所描述的计算机设备8000可执行前文图3a所 对应实施例中对该数据处理方法的描述,也可执行前文图9所对应实施例中对 该数据处理装置2的描述,在此不再赘述。另外,对采用相同方法的有益效果 描述,也不再进行赘述。
此外,这里需要指出的是:本申请实施例还提供了一种计算机可读存储介 质,且上述计算机可读存储介质中存储有前文提及的数据处理的计算机设备 8000所执行的计算机程序,且上述计算机程序包括程序指令,当上述处理器执 行上述程序指令时,能够执行前文图3a所对应实施例中对上述数据处理方法的 描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述, 也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的 技术细节,请参照本申请方法实施例的描述。
上述计算机可读存储介质可以是前述任一实施例提供的数据处理装置或者 上述计算机设备的内部存储单元,例如计算机设备的硬盘或内存。该计算机可 读存储介质也可以是该计算机设备的外部存储设备,例如该计算机设备上配备 的插接式硬盘,智能存储卡(smart media card,SMC),安全数字(secure digital, SD)卡,闪存卡(flash card)等。进一步地,该计算机可读存储介质还可以既 包括该计算机设备的内部存储单元也包括外部存储设备。该计算机可读存储介 质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机 可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之 权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (15)

1.一种基于知识图谱的数据处理方法,其特征在于,包括:
获取知识种子集合,所述知识种子集合包括文本的知识描述信息;
将所述知识描述信息和语料集合中的文本数据进行匹配,得到知识抽取模板;
根据所述知识抽取模板,从所述语料集合中抽取候选知识描述信息;
确定所述知识抽取模板的模板置信度,根据所述模板置信度确定所述候选知识描述信息的知识置信度;
根据所述知识置信度和所述候选知识描述信息更新所述知识种子集合;
当更新后的知识种子集合满足收敛条件时,根据所述更新后的知识种子集合更新知识图谱。
2.根据权利要求1所述的方法,其特征在于,所述将所述知识描述信息和语料集合中的文本数据进行匹配,得到知识抽取模板,包括:
遍历语料集合中的文本数据,将所述语料集合中包含所述知识描述信息的段落,作为目标段落语料;
根据所述目标段落语料和所述知识描述信息生成基础抽取模板;
根据所述基础抽取模板生成S个泛化抽取模板;S为正整数;
对所述S个泛化抽取模板分别进行槽位填充,得到知识抽取模板。
3.根据权利要求2所述的方法,其特征在于,所述根据所述目标段落语料和所述知识描述信息生成基础抽取模板,包括:
获取所述知识描述信息对应的文本关系字符;
在所述目标段落语料中用所述文本关系字符替换所述知识描述信息,得到基础抽取模板。
4.根据权利要求3所述的方法,其特征在于,所述根据所述基础抽取模板生成S个泛化抽取模板,包括:
通过滑动字符窗口在所述基础抽取模板中获取所述文本关系字符以及与所述文本关系字符相邻的字符;所述相邻的字符为所述字符窗口所覆盖的字符;
根据所述文本关系字符和所述相邻的字符生成S个泛化抽取模板;每个泛化抽取模板均包括所述文本关系字符以及所述相邻的字符中的至少一个字符。
5.根据权利要求4所述的方法,其特征在于,S个泛化抽取模板包括泛化抽取模板Li,i为小于或等于S的正整数;所述对所述S个泛化抽取模板分别进行槽位填充,得到知识抽取模板,包括:
对所述泛化抽取模板Li进行分词,得到所述文本关系字符以及关联分词,将与所述文本关系字符相关联的知识描述信息和所述关联分词确定为待替换分词;
根据所述待替换分词记录所述文本关系字符在所述泛化抽取模板Li中的排序位置,作为抽取位置索引;
获取槽位词表,所述槽位词表包括槽位分词、文本分词以及槽位分词和文本分词的映射关系;
若在所述槽位词表中查找到与所述待替换分词相同的文本分词,则将与所述待替换分词相同的文本分词具有映射关系的槽位分词,作为目标槽位分词;
根据所述目标槽位分词对所述泛化抽取模板进行分词替换,得到槽位替换模板;
根据所述槽位替换模板和所述抽取位置索引,生成所述泛化抽取模板Li对应的知识抽取模板。
6.根据权利要求5所述的方法,其特征在于,所述根据所述知识抽取模板,从所述语料集合中抽取候选知识描述信息,包括:
对所述语料集合中的文本数据进行槽位填充,得到替换文本数据;
将所述知识抽取模板与所述替换文本数据进行匹配;
若所述知识抽取模板与所述替换文本数据匹配成功,则获取所述抽取位置索引,根据所述抽取位置索引在所述替换文本数据中获取候选知识描述信息。
7.根据权利要求1所述的方法,其特征在于,所述确定所述知识抽取模板的模板置信度,包括:
根据所述候选知识描述信息和所述知识种子集合验证所述候选知识描述信息的知识合法性;
根据所述知识合法性确定所述知识抽取模板的当前置信度;
在所述历史置信度中获取每个历史置信度的生成时间戳,将最大的生成时间戳对应的历史置信度,作为相关历史置信度;
根据所述相关历史置信度和所述当前置信度确定所述知识抽取模板的模板置信度。
8.根据权利要求7所述的方法,其特征在于,所述知识抽取模板包括知识抽取模板Hg,g为小于或等于所述知识抽取模板的总数量的正整数;
所述根据所述候选知识描述信息和所述知识种子集合验证所述候选知识描述信息的知识合法性,包括:
在所述知识种子集合中查找与所述候选知识描述信息描述相同实体的知识描述信息,作为待匹配知识描述信息;
若所述候选知识描述信息与所述待匹配知识描述信息相同,则将所述候选知识描述信息的知识合法性确定为合法;
若所述候选知识描述信息与所述待匹配知识描述信息不相同,则将所述候选知识描述信息的知识合法性确定为非法;
则所述根据所述知识合法性确定所述知识抽取模板的当前置信度,包括:
在通过所述知识抽取模板Hg抽取出的候选知识描述信息中,统计所述知识合法性为合法的候选知识描述信息的数量,作为合法参数;
在通过所述知识抽取模板Hg抽取出的候选知识描述信息中,统计所述知识合法性为非法的知识描述信息的数量,作为非法参数;
根据所述合法参数和所述不合法参数确定所述知识抽取模板Hg的当前置信度。
9.根据权利要求1所述的方法,其特征在于,所述候选知识描述信息包括候选知识描述信息Kj,j为正整数;
所述根据所述模板置信度确定所述候选知识描述信息的知识置信度,包括:
将可抽取出所述知识描述信息Kj的知识抽取模板,作为目标知识抽取模板;
将所述目标知识抽取模板的模板置信度,作为目标模板置信度;
根据所述目标置信度确定所述目标知识描述信息Kj的知识置信度。
10.根据权利要求1所述的方法,其特征在于,所述根据所述知识置信度和所述候选知识描述信息更新所述知识种子集合,包括:
当所述候选知识描述信息的知识置信度大于所述可信置信度阈值时,将所述候选知识描述信息作为可信知识描述信息;
将所述可信知识描述信息加入所述知识种子集合。
11.根据权利要求1所述的方法,其特征在于,所述根据所述更新后的知识种子集合更新知识图谱,包括:
对所述更新后的知识种子集合中的所述候选知识描述信息按照所述知识置信度从高到低进行排序,将前L个知识描述信息作为待存储知识描述信息;所述L为正整数;
将所述待存储知识描述信息加入所述知识图谱。
12.根据权利要求1所述的方法,其特征在于,所述获取知识种子集合,包括:
获取第x轮迭代中的知识种子集合;
所述方法还包括:
当更新后的知识种子集合未满足收敛条件时,将所述更新后的知识种子集合作为第x+1轮迭代中的知识种子集合,根据第x+1轮迭代中的知识种子集合继续获取第x+1轮迭代中的知识抽取模板和候选知识描述信息,根据第x+1轮迭代中的知识抽取模板和候选知识描述信息,对第x+1轮迭代中的知识种子集合进行迭代更新。
13.一种基于知识图谱的数据处理装置,其特征在于,包括:
获取模块,用于获取知识种子集合,所述知识种子集合包括文本的知识描述信息;
模板生成模块,用于将所述知识描述信息和语料集合中的文本数据进行匹配,得到知识抽取模板;
知识抽取模块,用于根据所述知识抽取模板,从所述语料集合中抽取候选知识描述信息;
第一确定模块,用于确定所述知识抽取模板的模板置信度;
第二确定模块,用于根据所述模板置信度确定所述候选知识描述信息的知识置信度;
第一更新模块,用于根据所述知识置信度和所述候选知识描述信息更新知识种子集合;
第二更新模块,用于根据更新后的知识种子集合更新知识图谱。
14.一种计算机设备,其特征在于,包括:处理器、存储器以及网络接口;所述处理器与所述存储器、所述网络接口相连,其中,所述网络接口用于提供网络通信功能,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,以执行权利要求1-12任一项所述的方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,执行权利要求1-12任一项所述的方法。
CN202011163706.1A 2020-10-27 2020-10-27 一种数据处理方法、装置、计算机设备以及可读存储介质 Pending CN112395425A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011163706.1A CN112395425A (zh) 2020-10-27 2020-10-27 一种数据处理方法、装置、计算机设备以及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011163706.1A CN112395425A (zh) 2020-10-27 2020-10-27 一种数据处理方法、装置、计算机设备以及可读存储介质

Publications (1)

Publication Number Publication Date
CN112395425A true CN112395425A (zh) 2021-02-23

Family

ID=74597219

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011163706.1A Pending CN112395425A (zh) 2020-10-27 2020-10-27 一种数据处理方法、装置、计算机设备以及可读存储介质

Country Status (1)

Country Link
CN (1) CN112395425A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113032529A (zh) * 2021-04-26 2021-06-25 北京世纪好未来教育科技有限公司 英文短语识别方法、装置、介质和电子设备
CN113220973A (zh) * 2021-05-31 2021-08-06 北京海纳数聚科技有限公司 一种基于知识推理技术的舆情验真方法
CN114625850A (zh) * 2022-03-09 2022-06-14 上海弘玑信息技术有限公司 字段抽取引擎的生成方法及装置、电子设备、存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113032529A (zh) * 2021-04-26 2021-06-25 北京世纪好未来教育科技有限公司 英文短语识别方法、装置、介质和电子设备
CN113220973A (zh) * 2021-05-31 2021-08-06 北京海纳数聚科技有限公司 一种基于知识推理技术的舆情验真方法
CN113220973B (zh) * 2021-05-31 2023-10-24 北京海纳数聚科技有限公司 一种基于知识推理技术的舆情验真方法
CN114625850A (zh) * 2022-03-09 2022-06-14 上海弘玑信息技术有限公司 字段抽取引擎的生成方法及装置、电子设备、存储介质

Similar Documents

Publication Publication Date Title
CN109582799B (zh) 知识样本数据集的确定方法、装置及电子设备
CN111967242B (zh) 一种文本信息的抽取方法、装置及设备
CN111625659B (zh) 知识图谱处理方法、装置、服务器及存储介质
US9652719B2 (en) Authoring system for bayesian networks automatically extracted from text
CN111898364B (zh) 神经网络关系抽取方法、计算机设备及可读存储介质
CN112395425A (zh) 一种数据处理方法、装置、计算机设备以及可读存储介质
CN111488465A (zh) 一种知识图谱构建方法及相关装置
CN110442725B (zh) 实体关系抽取方法及装置
CN112149400B (zh) 一种数据处理方法、装置、设备及存储介质
CN112115232A (zh) 一种数据纠错方法、装置及服务器
CN111026815B (zh) 基于用户辅助修正下的实体对特定关系抽取方法
US11170169B2 (en) System and method for language-independent contextual embedding
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及系统
Kamalabalan et al. Tool support for traceability of software artefacts
CN111831624A (zh) 数据表创建方法、装置、计算机设备及存储介质
CN113535977A (zh) 一种知识图谱融合方法和装置及设备
CN107590119A (zh) 人物属性信息抽取方法及装置
CN112988982B (zh) 一种计算机比较空间的自主学习方法及系统
CN113254649A (zh) 敏感内容识别模型的训练方法、文本识别方法及相关装置
CN113032371A (zh) 数据库语法分析方法、装置和计算机设备
CN116738952A (zh) 一种基于领域知识图谱的情报报告生成方法
CN114398903A (zh) 意图识别方法、装置、电子设备及存储介质
CN111625579B (zh) 一种信息处理方法、装置及系统
KR20200101735A (ko) 임베딩 기반의 인과 관계 탐지 시스템과 방법 및 이를 실행하기 위한 프로그램이 기록된 기록매체
CN111476037B (zh) 文本处理方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40038252

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination