CN117891958A

CN117891958A - 一种基于知识图谱的标准数据处理方法

Info

Publication number: CN117891958A
Application number: CN202410289883.6A
Authority: CN
Inventors: 于钢; 孙宇宁; 王静雅; 王霞; 赵奇
Original assignee: China National Institute of Standardization
Current assignee: China National Institute of Standardization
Priority date: 2024-03-14
Filing date: 2024-03-14
Publication date: 2024-04-16
Anticipated expiration: 2044-03-14
Also published as: CN117891958B

Abstract

本发明公开了一种基于知识图谱的标准数据处理方法，该方法通过获得待标准化处理的源数据并进行分词处理，根据所述源数据的分词结果确定目标领域；进一步获取知识图谱中对应的三元组得到第一集合；采用自注意力机制的关系抽取模型，得到待标准化的第二集合；计算第二集合中的待标准化三元组与第一集合的中三元组的相似度，并根据计算结果建立所述源数据与所述标准化结果之间的映射关系，根据所述映射关系输出所述源数据的标准化结果，该方法能够提高数据标准化后的一致性和准确性，为科学研究、管理、分析等方面的工作提供有力支持。

Description

一种基于知识图谱的标准数据处理方法

技术领域

本发明属于数据信息标准化处理技术领域，具体涉及一种基于知识图谱的标准数据处理方法。

背景技术

目前，对非标准化数据进行标准化的方法包括：基于语料库的无监督方法（Unsupervised Corpus-based Similarity for Normalization），这种方法利用wordvector representation来计算non-standard token（非标准词汇）和词表里的properword（标准词汇）的语义相似度，然后，按照语义相似度的倒序排列形成词对列表，从而实现对非标准化词汇的标准化。还有采用重排序策略（Reranking for System Combination），这种方法结合了来自于不同系统的结果，对非标准化词汇进行重排序，在试验中，word级别和句子级别的优化策略都被利用上，以提高标准化的准确性。然而上述方法仅关注词汇方面的标准化处理，忽略了在语句和目标领域特定表达方式，以及上下文之间的逻辑和实体关系，存在诸多缺点，难以在实际应用领域进行数据标准化。

基于语料库的无监督方法存在语义理解的局限性，尽管这种方法使用wordvector representation来计算非标准词汇和标准词汇的语义相似度，但在某些情况下，词汇之间的复杂关系可能无法通过简单的语义相似度来衡量如，一些口语化或者方言词汇可能与标准词汇的语义相差甚远，但仍然可以表示相同的含义。另外，该方法的效果很大程度上依赖于所使用的语料库的质量和代表性。如果语料库不够大或者不够多样化，那么计算出的语义相似度可能会不准确，导致标准化的效果不佳。

而重排序策略依赖于多个不同的系统来生成结果，然后进行重排序。如果某个系统的性能不佳，那么它生成的结果可能会对整个重排序过程产生负面影响；由于需要结合多个系统的结果，并进行重排序，因此这种方法可能会比单一的系统更加复杂和计算密集；虽然重排序策略中使用了word级别和句子级别的优化策略，但在某些情况下，这些策略可能不足以完全解决标准化的问题，例如，对于一些语义复杂或者上下文依赖的词汇，单纯的优化策略可能无法准确地进行标准化。

因此，亟需一种切实可行的数据标准化方法，来提高目标领域数据标准化结果的准确度。

发明内容

针对现有技术存在的问题，本发明提出一种基于知识图谱的标准数据处理方法，根据目标领域待标准化的数据与目标领域知识图谱的映射关系，得到源数据的标准化结果，具体技术方案如下：

一种基于知识图谱的标准数据处理方法，所述方法包括：

获得待标准化处理的源数据并进行分词处理，根据所述源数据的分词结果确定目标领域。

进一步的，所述根据所述源数据的分词结果确定目标领域，具体包括：对分词结果进行预处理，剔除 XML 标签，根据常用词表和停用词表进一步去除常用词和停用词，并删除词频小于等于1的分词。

进一步的，所述剔除XML 标签时，采用Python的xml.etree.ElementTree或lxml库来解析所述源数据，所述XML标签包含源数据中的化学式、公式或角标符号。

将预处理后的分词构造分词共现矩阵，采用Ochiia系数法计算分词中主题词之间的距离：

其中，代表分词中/>和/>两词在同一句子中同时出现的频次，/>代表/>词出现的总频次，/>代表/>词出现的总频次。/>代表了两个分词之间的距离，该数值越高，说明词语之间的距离越近。

根据主题词之间的距离的计算结果将数值由高到低排序，选取前n个排序结果对应的2n个分词组成向量a；根据领域词汇表构建选取2n各个领域高频词汇，组成向量b；

运用相似度算法计算向量a和b的相似性：

其中，，/>分别表示向量/>和/>的第/>个元素值，则最大相似度/>对应的领域即为根据所述源数据的分词结果确定目标领域。

基于所述目标领域调用对应的知识图谱，获取知识图谱中对应的三元组得到第一集合。

根据所述源数据的分词结果，采用自注意力机制的关系抽取模型，抽取源数据中包含的关系、head实体、tail实体组成的三元组，得到待标准化的第二集合。

根据相似度算法计算所述第二集合中的待标准化三元组与所述第一集合的中三元组的相似度；将相似度最高且满足相似度阈值的计算结果所对应的所述第一集合的中三元组标记为所述第二集合中的待标准化三元组对应的标准化结果。

进一步的，所述知识图谱中对应的三元组由关系G、head实体H、tail实体T组成，表示为向量，所述待标准化的第二集合中的三元组表示为向量/>。

则，两个三元组向量A和B的语义相似度S计算公式如下：

当最大相似度Max S满足阈值：Max S≥0.8时，则将所述第一集合的中三元组标记为所述待标准化三元组对应的标准化结果。

当不满足阈值时，则保持第一集合中对应的三元组不变。

建立所述源数据与所述标准化结果之间的映射关系，根据所述映射关系输出所述源数据的标准化结果。

进一步的，计算所有待标准化的第二集合中的三元组与第一集合中三元组的相似度，获得所有标记结果，得到所述源数据与所述标准化结果之间的映射关系。

根据目标领域待标准化的数据与目标领域知识图谱的映射关系更新所述第一集合中的三元组，将更新后的三元组对应的分词对所述待标准化处理的源数据的分词进行覆盖，得到源数据的标准化结果。

进一步的，所述自注意力机制的三元组抽取模型的算法具体为：

将所述源数据的分词结果转换为特征向量，将所述特征向量/>输入到三元组抽取模型；

式中，、/>、/>为权重矩阵，/>为激活函数，/>为聚合运算。

每抽取一个关系则对应抽取head实体和tail实体组成的实体对，使用自注意力机制来增强所述实体对之间关联程度，同时增强关系和实体对之间的信息共享。

式中，是指输入的特征向量的信息向量。

使用平均池化泛化到整个源数据当中完成关系抽取：

其中和/>是权重矩阵，/>为关系的抽取结果，/>为整体的模拟实体信息向量，为运算函数。

三元组抽取模型包含两个全连接层，输入激活函数，得到head实体和tail实体的位置信息：

其中，、/>、/>和/>是权重矩阵，/>和/>分别为head实体和tail实体的抽取结果。

根据head实体和tail实体的抽取结果和关系抽取结果得到源数据中的三元组。

进一步的，所述自注意力机制的三元组抽取模型采用 LLaMA作为语言编码器。

本发明与现有技术相比，其有益效果是：

本发明的基于知识图谱的标准数据处理方法，采用三元组的相似关系获得非标准数据与标准数据间的映射关系，相比于简单的分词对比，该方法能够快速准确的处理目标领域的源数据，确保数据标准化后的一致性和准确性，减少数据中的错误和冗余，提高数据的质量提高数据的质量、可比性、可理解性和管理效率，促进数据共享和交换，保障数据的安全和保密，为企业的科学研究、管理、分析等方面的工作提供有力支持。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

本实施例提供一种基于知识图谱的标准数据处理方法，该方法包括：

需要说明的是，根据源数据的分词结果确定目标领域是根据特定的目标领域通常会有一些特定的专业术语或关键词。例如，医学领域的文本可能包含如“细胞”、“生物标记物”、“临床试验”等词汇，而科技领域的文本可能包含“人工智能”、“算法”、“机器学习”等词汇，通常来讲，源数据的字符数量越多，目标领域的确定越准确，一般要求源数据的字符不小于200个。所述根据所述源数据的分词结果确定目标领域，具体包括：对分词结果进行预处理，剔除 XML 标签，根据常用词表和停用词表进一步去除常用词和停用词，并删除词频小于等于1的分词；剔除XML 标签时，采用Python的xml.etree.ElementTree或lxml库来解析所述源数据，所述XML标签包含源数据中的化学式、公式或角标符号。

以某技术文件为例，去除XML 标签、含有数字的主题词等，基于常用词表对分词进行清洗处理后，共得到 3428 个分词，利用 VantegePoint 软件的模糊语义处理方法对分词进行初步合并，主要涉及词语单复数、不规则连字符使用等形式，共得到2445 个分词；删除词频为 1 的分词，需要注意的是，某些高频词由于出现次数过多而不具备代表性，也需要将其删除，在实际操作中，可以将5%设定为高频词的上限，超过5%的分词则认为不具备代表性；经过这些步骤处理后，得到最终分词共有 259 个。

运用相似度算法计算向量a和b的相似性：

其中，，/>分别表示向量/>和/>的第/>个元素值，则最大相似度/>对应的领域即为根据所述源数据的分词结果确定目标领域。根据上述方法，确认某技术文件的目标领域为：无人机动力控制，则在以下的步骤中，需要调取无人机动力控制对应的知识图谱；在开源社区GitHub、GitLab等开源平台上通过搜索关键词如“drone controlknowledge graph”或“unmanned aerial vehicle (UAV) power control ontology”，能够找到无人机动力控制对应的知识图谱；基于所述目标领域调用对应的知识图谱，获取知识图谱中对应的三元组得到第一集合，三元组包含关系、head实体、tail实体。

根据相似度算法计算所述第二集合中的待标准化三元组与所述第一集合的中三元组的相似度；将相似度最高且满足相似度阈值的计算结果所对应的所述第一集合的中三元组标记为所述待标准化三元组对应的标准化结果。

需要说明的是，所述知识图谱中对应的三元组由关系G、head实体H、tail实体T组成，表示为向量，所述待标准化的第二集合中的三元组表示为向量/>。

则，两个三元组向量A和B的语义相似度S计算公式如下：

当不满足阈值时，则保持第一集合中对应的三元组不变。

计算所有待标准化的第二集合中的三元组与第一集合中三元组的相似度，获得所有标记结果，得到所述源数据与所述标准化结果之间的映射关系。

需要说明的是，所述自注意力机制的三元组抽取模型的算法具体为：

式中，、/>、/>为权重矩阵，/>为激活函数，/>为聚合运算。

式中，是指输入的特征向量的信息向量。

使用平均池化泛化到整个源数据当中完成关系抽取：

其中和/>是权重矩阵，/>为关系的抽取结果，/>为整体的模拟实体信息向量，为运算函数。/>函数的数学表达式为：f(x) = max(0, x)，对于任何输入x，如果x大于0，则输出x；如果x小于或等于0，则输出0。这种特性使得/>函数在神经网络中能够有效地缓解梯度消失问题，并促进网络的稀疏性，减少参数之间的相互依存关系，从而有助于缓解模型的过拟合问题。

根据head实体和tail实体的抽取结果和关系抽取结果得到源数据中的三元组；自注意力机制的三元组抽取模型采用 LLaMA作为语言编码器。

在本实施例中，还进一步验证不同的分词工具对于自注意力机制的三元组抽取模型的算法的影响，分别通过 NLTK、spaCy和 StanfordNLP分词工具做对比。NLTK（NaturalLanguage Toolkit）是一个Python库，提供了大量自然语言处理工具和资源，包括分词、词性标注、命名实体识别、句法分析；NLTK收集了大量的公开数据集和常用模型，并且提供了全面、易用的接口。对于英文分词，NLTK可以直接使用空格或标点符号进行分词。spaCy也是一个Python库，提供了高效的自然语言处理工具，包括分词、词性标注、命名实体识别、依存句法分析等。spaCy的分词效果非常好，它使用了先进的算法和数据结构，可以快速准确地将文本切分成单词和短语。StanfordNLP支持Java和Python等多种编程语言，使用了基于规则和统计的方法，可以准确地识别出文本中的单词和短语。

采用三中工具，对应的WebNLG数据集的F1值均在90~90.2之间，因此说明本实施例的三元组抽取模型的效果并不依赖于特定的分词工具，同时也验证了本实施例基于知识图谱进行数据标准化处理方法的可行性。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于知识图谱的标准数据处理方法，其特征在于，所述方法包括：

获得待标准化处理的源数据并进行分词处理，根据所述源数据的分词结果确定目标领域；

基于所述目标领域调用对应的知识图谱，获取知识图谱中对应的三元组得到第一集合；

根据所述源数据的分词结果，采用自注意力机制的关系抽取模型，抽取源数据中包含的关系、head实体、tail实体组成的三元组，得到待标准化的第二集合；

根据相似度算法计算所述第二集合中的待标准化三元组与所述第一集合的中三元组的相似度；

将相似度最高且满足相似度阈值的计算结果所对应的所述第一集合的中三元组标记为所述第二集合中的待标准化三元组对应的标准化结果；

2.根据权利要求1所述的基于知识图谱的标准数据处理方法，其特征在于，所述根据所述源数据的分词结果确定目标领域，具体包括：对分词结果进行预处理，剔除 XML 标签，根据常用词表和停用词表进一步去除常用词和停用词，并删除词频小于等于1的分词；

；

其中，代表分词中/>和/>两词在同一句子中同时出现的频次，/>代表/>词出现的总频次，/>代表/>词出现的总频次；/>代表了两个分词之间的距离，该数值越高，说明词语之间的距离越近；

运用相似度算法计算向量a和b的相似性：

；

3.根据权利要求2所述的基于知识图谱的标准数据处理方法，其特征在于，所述剔除XML 标签时，采用Python的xml.etree.ElementTree或lxml库来解析所述源数据，所述XML标签包含源数据中的化学式、公式或角标符号。

4.根据权利要求1所述的基于知识图谱的标准数据处理方法，其特征在于，所述知识图谱中对应的三元组由关系G、head实体H、tail实体T组成，表示为向量，所述待标准化的第二集合中的三元组表示为向量/>；

则，两个三元组向量A和B的语义相似度S计算公式如下：

；

当最大相似度Max S满足阈值：Max S≥0.8时，则将所述第一集合的中三元组标记为所述待标准化三元组对应的标准化结果；

当不满足阈值时，则保持第一集合中对应的三元组不变；

计算所有待标准化的第二集合中的三元组与第一集合中三元组的相似度，获得所有标记结果，得到所述源数据与所述标准化结果之间的映射关系；

5.根据权利要求4所述的基于知识图谱的标准数据处理方法，其特征在于，所述自注意力机制的三元组抽取模型的算法具体为：

；

式中，、/>、/>为权重矩阵，/>为激活函数，/>为聚合运算；

每抽取一个关系则对应抽取head实体和tail实体组成的实体对，使用自注意力机制来增强所述实体对之间关联程度，同时增强关系和实体对之间的信息共享：

式中，/>是指输入的特征向量的信息向量；

使用平均池化泛化到整个源数据当中完成关系抽取：

其中 />和 />是权重矩阵，/>为关系的抽取结果， />为整体的模拟实体信息向量，/>为运算函数；

三元组抽取模型包含两个全连接层，输入激活函数，得到head实体和tail实体的位置信息；

；

其中，、/>、/> 和 />是权重矩阵，/>和/>分别为head实体和tail实体的抽取结果；

6.根据权利要求5所述的基于知识图谱的标准数据处理方法，其特征在于，所述自注意力机制的三元组抽取模型采用 LLaMA作为语言编码器。