CN117891958A - 一种基于知识图谱的标准数据处理方法 - Google Patents

一种基于知识图谱的标准数据处理方法 Download PDF

Info

Publication number
CN117891958A
CN117891958A CN202410289883.6A CN202410289883A CN117891958A CN 117891958 A CN117891958 A CN 117891958A CN 202410289883 A CN202410289883 A CN 202410289883A CN 117891958 A CN117891958 A CN 117891958A
Authority
CN
China
Prior art keywords
standardized
source data
word segmentation
triples
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410289883.6A
Other languages
English (en)
Other versions
CN117891958B (zh
Inventor
于钢
孙宇宁
王静雅
王霞
赵奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China National Institute of Standardization
Original Assignee
China National Institute of Standardization
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China National Institute of Standardization filed Critical China National Institute of Standardization
Priority to CN202410289883.6A priority Critical patent/CN117891958B/zh
Publication of CN117891958A publication Critical patent/CN117891958A/zh
Application granted granted Critical
Publication of CN117891958B publication Critical patent/CN117891958B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于知识图谱的标准数据处理方法,该方法通过获得待标准化处理的源数据并进行分词处理,根据所述源数据的分词结果确定目标领域;进一步获取知识图谱中对应的三元组得到第一集合;采用自注意力机制的关系抽取模型,得到待标准化的第二集合;计算第二集合中的待标准化三元组与第一集合的中三元组的相似度,并根据计算结果建立所述源数据与所述标准化结果之间的映射关系,根据所述映射关系输出所述源数据的标准化结果,该方法能够提高数据标准化后的一致性和准确性,为科学研究、管理、分析等方面的工作提供有力支持。

Description

一种基于知识图谱的标准数据处理方法
技术领域
本发明属于数据信息标准化处理技术领域,具体涉及一种基于知识图谱的标准数据处理方法。
背景技术
目前,对非标准化数据进行标准化的方法包括:基于语料库的无监督方法(Unsupervised Corpus-based Similarity for Normalization),这种方法利用wordvector representation来计算non-standard token(非标准词汇)和词表里的properword(标准词汇)的语义相似度,然后,按照语义相似度的倒序排列形成词对列表,从而实现对非标准化词汇的标准化。还有采用重排序策略(Reranking for System Combination),这种方法结合了来自于不同系统的结果,对非标准化词汇进行重排序,在试验中,word级别和句子级别的优化策略都被利用上,以提高标准化的准确性。然而上述方法仅关注词汇方面的标准化处理,忽略了在语句和目标领域特定表达方式,以及上下文之间的逻辑和实体关系,存在诸多缺点,难以在实际应用领域进行数据标准化。
基于语料库的无监督方法存在语义理解的局限性,尽管这种方法使用wordvector representation来计算非标准词汇和标准词汇的语义相似度,但在某些情况下,词汇之间的复杂关系可能无法通过简单的语义相似度来衡量如,一些口语化或者方言词汇可能与标准词汇的语义相差甚远,但仍然可以表示相同的含义。另外,该方法的效果很大程度上依赖于所使用的语料库的质量和代表性。如果语料库不够大或者不够多样化,那么计算出的语义相似度可能会不准确,导致标准化的效果不佳。
而重排序策略依赖于多个不同的系统来生成结果,然后进行重排序。如果某个系统的性能不佳,那么它生成的结果可能会对整个重排序过程产生负面影响;由于需要结合多个系统的结果,并进行重排序,因此这种方法可能会比单一的系统更加复杂和计算密集;虽然重排序策略中使用了word级别和句子级别的优化策略,但在某些情况下,这些策略可能不足以完全解决标准化的问题,例如,对于一些语义复杂或者上下文依赖的词汇,单纯的优化策略可能无法准确地进行标准化。
因此,亟需一种切实可行的数据标准化方法,来提高目标领域数据标准化结果的准确度。
发明内容
针对现有技术存在的问题,本发明提出一种基于知识图谱的标准数据处理方法,根据目标领域待标准化的数据与目标领域知识图谱的映射关系,得到源数据的标准化结果,具体技术方案如下:
一种基于知识图谱的标准数据处理方法,所述方法包括:
获得待标准化处理的源数据并进行分词处理,根据所述源数据的分词结果确定目标领域。
进一步的,所述根据所述源数据的分词结果确定目标领域,具体包括:对分词结果进行预处理,剔除 XML 标签,根据常用词表和停用词表进一步去除常用词和停用词,并删除词频小于等于1的分词。
进一步的,所述剔除XML 标签时,采用Python的xml.etree.ElementTree或lxml库来解析所述源数据,所述XML标签包含源数据中的化学式、公式或角标符号。
将预处理后的分词构造分词共现矩阵,采用Ochiia系数法计算分词中主题词之间的距离:
其中,代表分词中/>和/>两词在同一句子中同时出现的频次,/>代表/>词出现的总频次,/>代表/>词出现的总频次。/>代表了两个分词之间的距离,该数值越高,说明词语之间的距离越近。
根据主题词之间的距离的计算结果将数值由高到低排序,选取前n个排序结果对应的2n个分词组成向量a;根据领域词汇表构建选取2n各个领域高频词汇,组成向量b;
运用相似度算法计算向量a和b的相似性:
其中,,/>分别表示向量/>和/>的第/>个元素值,则最大相似度/>对应的领域即为根据所述源数据的分词结果确定目标领域。
基于所述目标领域调用对应的知识图谱,获取知识图谱中对应的三元组得到第一集合。
根据所述源数据的分词结果,采用自注意力机制的关系抽取模型,抽取源数据中包含的关系、head实体、tail实体组成的三元组,得到待标准化的第二集合。
根据相似度算法计算所述第二集合中的待标准化三元组与所述第一集合的中三元组的相似度;将相似度最高且满足相似度阈值的计算结果所对应的所述第一集合的中三元组标记为所述第二集合中的待标准化三元组对应的标准化结果。
进一步的,所述知识图谱中对应的三元组由关系G、head实体H、tail实体T组成,表示为向量,所述待标准化的第二集合中的三元组表示为向量/>
则,两个三元组向量A和B的语义相似度S计算公式如下:
当最大相似度Max S满足阈值:Max S≥0.8时,则将所述第一集合的中三元组标记为所述待标准化三元组对应的标准化结果。
当不满足阈值时,则保持第一集合中对应的三元组不变。
建立所述源数据与所述标准化结果之间的映射关系,根据所述映射关系输出所述源数据的标准化结果。
进一步的,计算所有待标准化的第二集合中的三元组与第一集合中三元组的相似度,获得所有标记结果,得到所述源数据与所述标准化结果之间的映射关系。
根据目标领域待标准化的数据与目标领域知识图谱的映射关系更新所述第一集合中的三元组,将更新后的三元组对应的分词对所述待标准化处理的源数据的分词进行覆盖,得到源数据的标准化结果。
进一步的,所述自注意力机制的三元组抽取模型的算法具体为:
将所述源数据的分词结果转换为特征向量,将所述特征向量/>输入到三元组抽取模型;
式中,、/>、/>为权重矩阵,/>为激活函数,/>为聚合运算。
每抽取一个关系则对应抽取head实体和tail实体组成的实体对,使用自注意力机制来增强所述实体对之间关联程度,同时增强关系和实体对之间的信息共享。
式中,是指输入的特征向量的信息向量。
使用平均池化泛化到整个源数据当中完成关系抽取:
其中和/>是权重矩阵,/>为关系的抽取结果,/>为整体的模拟实体信息向量,为运算函数。
三元组抽取模型包含两个全连接层,输入激活函数,得到head实体和tail实体的位置信息:
其中,、/>、/>和/>是权重矩阵,/>和/>分别为head实体和tail实体的抽取结果。
根据head实体和tail实体的抽取结果和关系抽取结果得到源数据中的三元组。
进一步的,所述自注意力机制的三元组抽取模型采用 LLaMA作为语言编码器。
本发明与现有技术相比,其有益效果是:
本发明的基于知识图谱的标准数据处理方法,采用三元组的相似关系获得非标准数据与标准数据间的映射关系,相比于简单的分词对比,该方法能够快速准确的处理目标领域的源数据,确保数据标准化后的一致性和准确性,减少数据中的错误和冗余,提高数据的质量提高数据的质量、可比性、可理解性和管理效率,促进数据共享和交换,保障数据的安全和保密,为企业的科学研究、管理、分析等方面的工作提供有力支持。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
本实施例提供一种基于知识图谱的标准数据处理方法,该方法包括:
获得待标准化处理的源数据并进行分词处理,根据所述源数据的分词结果确定目标领域。
需要说明的是,根据源数据的分词结果确定目标领域是根据特定的目标领域通常会有一些特定的专业术语或关键词。例如,医学领域的文本可能包含如“细胞”、“生物标记物”、“临床试验”等词汇,而科技领域的文本可能包含“人工智能”、“算法”、“机器学习”等词汇,通常来讲,源数据的字符数量越多,目标领域的确定越准确,一般要求源数据的字符不小于200个。所述根据所述源数据的分词结果确定目标领域,具体包括:对分词结果进行预处理,剔除 XML 标签,根据常用词表和停用词表进一步去除常用词和停用词,并删除词频小于等于1的分词;剔除XML 标签时,采用Python的xml.etree.ElementTree或lxml库来解析所述源数据,所述XML标签包含源数据中的化学式、公式或角标符号。
将预处理后的分词构造分词共现矩阵,采用Ochiia系数法计算分词中主题词之间的距离:
其中,代表分词中/>和/>两词在同一句子中同时出现的频次,/>代表/>词出现的总频次,/>代表/>词出现的总频次。/>代表了两个分词之间的距离,该数值越高,说明词语之间的距离越近。
以某技术文件为例,去除XML 标签、含有数字的主题词等,基于常用词表对分词进行清洗处理后,共得到 3428 个分词,利用 VantegePoint 软件的模糊语义处理方法对分词进行初步合并,主要涉及词语单复数、不规则连字符使用等形式,共得到2445 个分词;删除词频为 1 的分词,需要注意的是,某些高频词由于出现次数过多而不具备代表性,也需要将其删除,在实际操作中,可以将5%设定为高频词的上限,超过5%的分词则认为不具备代表性;经过这些步骤处理后,得到最终分词共有 259 个。
根据主题词之间的距离的计算结果将数值由高到低排序,选取前n个排序结果对应的2n个分词组成向量a;根据领域词汇表构建选取2n各个领域高频词汇,组成向量b;
运用相似度算法计算向量a和b的相似性:
其中,,/>分别表示向量/>和/>的第/>个元素值,则最大相似度/>对应的领域即为根据所述源数据的分词结果确定目标领域。根据上述方法,确认某技术文件的目标领域为:无人机动力控制,则在以下的步骤中,需要调取无人机动力控制对应的知识图谱;在开源社区GitHub、GitLab等开源平台上通过搜索关键词如“drone controlknowledge graph”或“unmanned aerial vehicle (UAV) power control ontology”,能够找到无人机动力控制对应的知识图谱;基于所述目标领域调用对应的知识图谱,获取知识图谱中对应的三元组得到第一集合,三元组包含关系、head实体、tail实体。
根据所述源数据的分词结果,采用自注意力机制的关系抽取模型,抽取源数据中包含的关系、head实体、tail实体组成的三元组,得到待标准化的第二集合。
根据相似度算法计算所述第二集合中的待标准化三元组与所述第一集合的中三元组的相似度;将相似度最高且满足相似度阈值的计算结果所对应的所述第一集合的中三元组标记为所述待标准化三元组对应的标准化结果。
需要说明的是,所述知识图谱中对应的三元组由关系G、head实体H、tail实体T组成,表示为向量,所述待标准化的第二集合中的三元组表示为向量/>
则,两个三元组向量A和B的语义相似度S计算公式如下:
当最大相似度Max S满足阈值:Max S≥0.8时,则将所述第一集合的中三元组标记为所述待标准化三元组对应的标准化结果。
当不满足阈值时,则保持第一集合中对应的三元组不变。
建立所述源数据与所述标准化结果之间的映射关系,根据所述映射关系输出所述源数据的标准化结果。
计算所有待标准化的第二集合中的三元组与第一集合中三元组的相似度,获得所有标记结果,得到所述源数据与所述标准化结果之间的映射关系。
根据目标领域待标准化的数据与目标领域知识图谱的映射关系更新所述第一集合中的三元组,将更新后的三元组对应的分词对所述待标准化处理的源数据的分词进行覆盖,得到源数据的标准化结果。
需要说明的是,所述自注意力机制的三元组抽取模型的算法具体为:
将所述源数据的分词结果转换为特征向量,将所述特征向量/>输入到三元组抽取模型;
式中,、/>、/>为权重矩阵,/>为激活函数,/>为聚合运算。
每抽取一个关系则对应抽取head实体和tail实体组成的实体对,使用自注意力机制来增强所述实体对之间关联程度,同时增强关系和实体对之间的信息共享。
式中,是指输入的特征向量的信息向量。
使用平均池化泛化到整个源数据当中完成关系抽取:
其中和/>是权重矩阵,/>为关系的抽取结果,/>为整体的模拟实体信息向量,为运算函数。/>函数的数学表达式为:f(x) = max(0, x),对于任何输入x,如果x大于0,则输出x;如果x小于或等于0,则输出0。这种特性使得/>函数在神经网络中能够有效地缓解梯度消失问题,并促进网络的稀疏性,减少参数之间的相互依存关系,从而有助于缓解模型的过拟合问题。
三元组抽取模型包含两个全连接层,输入激活函数,得到head实体和tail实体的位置信息:
其中,、/>、/>和/>是权重矩阵,/>和/>分别为head实体和tail实体的抽取结果。
根据head实体和tail实体的抽取结果和关系抽取结果得到源数据中的三元组;自注意力机制的三元组抽取模型采用 LLaMA作为语言编码器。
在本实施例中,还进一步验证不同的分词工具对于自注意力机制的三元组抽取模型的算法的影响,分别通过 NLTK、spaCy和 StanfordNLP分词工具做对比。NLTK(NaturalLanguage Toolkit)是一个Python库,提供了大量自然语言处理工具和资源,包括分词、词性标注、命名实体识别、句法分析;NLTK收集了大量的公开数据集和常用模型,并且提供了全面、易用的接口。对于英文分词,NLTK可以直接使用空格或标点符号进行分词。spaCy也是一个Python库,提供了高效的自然语言处理工具,包括分词、词性标注、命名实体识别、依存句法分析等。spaCy的分词效果非常好,它使用了先进的算法和数据结构,可以快速准确地将文本切分成单词和短语。StanfordNLP支持Java和Python等多种编程语言,使用了基于规则和统计的方法,可以准确地识别出文本中的单词和短语。
采用三中工具,对应的WebNLG数据集的F1值均在90~90.2之间,因此说明本实施例的三元组抽取模型的效果并不依赖于特定的分词工具,同时也验证了本实施例基于知识图谱进行数据标准化处理方法的可行性。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于知识图谱的标准数据处理方法,其特征在于,所述方法包括:
获得待标准化处理的源数据并进行分词处理,根据所述源数据的分词结果确定目标领域;
基于所述目标领域调用对应的知识图谱,获取知识图谱中对应的三元组得到第一集合;
根据所述源数据的分词结果,采用自注意力机制的关系抽取模型,抽取源数据中包含的关系、head实体、tail实体组成的三元组,得到待标准化的第二集合;
根据相似度算法计算所述第二集合中的待标准化三元组与所述第一集合的中三元组的相似度;
将相似度最高且满足相似度阈值的计算结果所对应的所述第一集合的中三元组标记为所述第二集合中的待标准化三元组对应的标准化结果;
建立所述源数据与所述标准化结果之间的映射关系,根据所述映射关系输出所述源数据的标准化结果。
2.根据权利要求1所述的基于知识图谱的标准数据处理方法,其特征在于,所述根据所述源数据的分词结果确定目标领域,具体包括:对分词结果进行预处理,剔除 XML 标签,根据常用词表和停用词表进一步去除常用词和停用词,并删除词频小于等于1的分词;
将预处理后的分词构造分词共现矩阵,采用Ochiia系数法计算分词中主题词之间的距离:
其中,代表分词中/>和/>两词在同一句子中同时出现的频次,/>代表/>词出现的总频次,/>代表/>词出现的总频次;/>代表了两个分词之间的距离,该数值越高,说明词语之间的距离越近;
根据主题词之间的距离的计算结果将数值由高到低排序,选取前n个排序结果对应的2n个分词组成向量a;根据领域词汇表构建选取2n各个领域高频词汇,组成向量b;
运用相似度算法计算向量a和b的相似性:
其中,,/>分别表示向量/>和/>的第/>个元素值,则最大相似度/>对应的领域即为根据所述源数据的分词结果确定目标领域。
3.根据权利要求2所述的基于知识图谱的标准数据处理方法,其特征在于,所述剔除XML 标签时,采用Python的xml.etree.ElementTree或lxml库来解析所述源数据,所述XML标签包含源数据中的化学式、公式或角标符号。
4.根据权利要求1所述的基于知识图谱的标准数据处理方法,其特征在于,所述知识图谱中对应的三元组由关系G、head实体H、tail实体T组成,表示为向量,所述待标准化的第二集合中的三元组表示为向量/>
则,两个三元组向量A和B的语义相似度S计算公式如下:
当最大相似度Max S满足阈值:Max S≥0.8时,则将所述第一集合的中三元组标记为所述待标准化三元组对应的标准化结果;
当不满足阈值时,则保持第一集合中对应的三元组不变;
计算所有待标准化的第二集合中的三元组与第一集合中三元组的相似度,获得所有标记结果,得到所述源数据与所述标准化结果之间的映射关系;
根据目标领域待标准化的数据与目标领域知识图谱的映射关系更新所述第一集合中的三元组,将更新后的三元组对应的分词对所述待标准化处理的源数据的分词进行覆盖,得到源数据的标准化结果。
5.根据权利要求4所述的基于知识图谱的标准数据处理方法,其特征在于,所述自注意力机制的三元组抽取模型的算法具体为:
将所述源数据的分词结果转换为特征向量,将所述特征向量/>输入到三元组抽取模型;
式中,、/>、/>为权重矩阵,/>为激活函数,/>为聚合运算;
每抽取一个关系则对应抽取head实体和tail实体组成的实体对,使用自注意力机制来增强所述实体对之间关联程度,同时增强关系和实体对之间的信息共享:
式中,/>是指输入的特征向量的信息向量;
使用平均池化泛化到整个源数据当中完成关系抽取:
其中 />和 />是权重矩阵,/>为关系的抽取结果, />为整体的模拟实体信息向量,/>为运算函数;
三元组抽取模型包含两个全连接层,输入激活函数,得到head实体和tail实体的位置信息;
其中,、/>、/> 和 />是权重矩阵,/>和/>分别为head实体和tail实体的抽取结果;
根据head实体和tail实体的抽取结果和关系抽取结果得到源数据中的三元组。
6.根据权利要求5所述的基于知识图谱的标准数据处理方法,其特征在于,所述自注意力机制的三元组抽取模型采用 LLaMA作为语言编码器。
CN202410289883.6A 2024-03-14 2024-03-14 一种基于知识图谱的标准数据处理方法 Active CN117891958B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410289883.6A CN117891958B (zh) 2024-03-14 2024-03-14 一种基于知识图谱的标准数据处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410289883.6A CN117891958B (zh) 2024-03-14 2024-03-14 一种基于知识图谱的标准数据处理方法

Publications (2)

Publication Number Publication Date
CN117891958A true CN117891958A (zh) 2024-04-16
CN117891958B CN117891958B (zh) 2024-05-24

Family

ID=90642728

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410289883.6A Active CN117891958B (zh) 2024-03-14 2024-03-14 一种基于知识图谱的标准数据处理方法

Country Status (1)

Country Link
CN (1) CN117891958B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118349632A (zh) * 2024-04-23 2024-07-16 中国标准化研究院 一种标准信息要素一致性检验方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090069874A (ko) * 2007-12-26 2009-07-01 한국과학기술정보연구원 지식맵 분석을 위한 키워드 선정 및 유사도계수 선정 방법및 그 시스템과 그 방법에 대한 컴퓨터 프로그램을 저장한기록매체
CN114757179A (zh) * 2022-04-13 2022-07-15 成都信息工程大学 一种实体关系联合抽取方法及装置
CN115169322A (zh) * 2022-07-19 2022-10-11 深圳市华云中盛科技股份有限公司 基于知识图谱的自然语言数据挖掘语句求解方法及装置
CN115809340A (zh) * 2022-08-29 2023-03-17 南京南瑞信息通信科技有限公司 一种知识图谱的实体更新方法及系统
CN117251685A (zh) * 2023-11-20 2023-12-19 中电科大数据研究院有限公司 一种基于知识图谱的标准化政务数据构建方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090069874A (ko) * 2007-12-26 2009-07-01 한국과학기술정보연구원 지식맵 분석을 위한 키워드 선정 및 유사도계수 선정 방법및 그 시스템과 그 방법에 대한 컴퓨터 프로그램을 저장한기록매체
CN114757179A (zh) * 2022-04-13 2022-07-15 成都信息工程大学 一种实体关系联合抽取方法及装置
CN115169322A (zh) * 2022-07-19 2022-10-11 深圳市华云中盛科技股份有限公司 基于知识图谱的自然语言数据挖掘语句求解方法及装置
CN115809340A (zh) * 2022-08-29 2023-03-17 南京南瑞信息通信科技有限公司 一种知识图谱的实体更新方法及系统
CN117251685A (zh) * 2023-11-20 2023-12-19 中电科大数据研究院有限公司 一种基于知识图谱的标准化政务数据构建方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
黄培馨;赵翔;方阳;朱慧明;肖卫东;: "融合对抗训练的端到端知识三元组联合抽取", 计算机研究与发展, no. 12, 15 December 2019 (2019-12-15) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118349632A (zh) * 2024-04-23 2024-07-16 中国标准化研究院 一种标准信息要素一致性检验方法
CN118349632B (zh) * 2024-04-23 2024-09-20 中国标准化研究院 一种标准信息要素一致性检验方法

Also Published As

Publication number Publication date
CN117891958B (zh) 2024-05-24

Similar Documents

Publication Publication Date Title
CN113011533B (zh) 文本分类方法、装置、计算机设备和存储介质
US11580415B2 (en) Hierarchical multi-task term embedding learning for synonym prediction
CN110321563B (zh) 基于混合监督模型的文本情感分析方法
CN111737496A (zh) 一种电力设备故障知识图谱构建方法
CN109508459B (zh) 一种从新闻中提取主题和关键信息的方法
CN111930942B (zh) 文本分类方法、语言模型训练方法、装置及设备
CN113255320A (zh) 基于句法树和图注意力机制的实体关系抽取方法及装置
CN117891958B (zh) 一种基于知识图谱的标准数据处理方法
CN112883193A (zh) 一种文本分类模型的训练方法、装置、设备以及可读介质
CN112052684A (zh) 电力计量的命名实体识别方法、装置、设备和存储介质
CN111274829A (zh) 一种利用跨语言信息的序列标注方法
CN114897167A (zh) 生物领域知识图谱构建方法及装置
CN114416979A (zh) 一种文本查询方法、设备和存储介质
CN111859938A (zh) 基于位置向量降噪和丰富语义的电子病历实体关系抽取方法
CN115759119A (zh) 一种金融文本情感分析方法、系统、介质和设备
CN115510230A (zh) 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法
WO2022242074A1 (zh) 一种多特征融合的中文医疗文本命名实体识别方法
CN111831624A (zh) 数据表创建方法、装置、计算机设备及存储介质
CN115169349A (zh) 基于albert的中文电子简历命名实体识别方法
CN111597807A (zh) 分词数据集生成方法、装置、设备及其存储介质
CN113065350A (zh) 一种基于注意力神经网络的生物医学文本词义消岐方法
CN110888944B (zh) 基于多卷积窗尺寸注意力卷积神经网络实体关系抽取方法
CN115936014B (zh) 一种医学实体对码方法、系统、计算机设备、存储介质
Ronghui et al. Application of Improved Convolutional Neural Network in Text Classification.
CN116680407A (zh) 一种知识图谱的构建方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant