CN117891958A - 一种基于知识图谱的标准数据处理方法 - Google Patents
一种基于知识图谱的标准数据处理方法 Download PDFInfo
- Publication number
- CN117891958A CN117891958A CN202410289883.6A CN202410289883A CN117891958A CN 117891958 A CN117891958 A CN 117891958A CN 202410289883 A CN202410289883 A CN 202410289883A CN 117891958 A CN117891958 A CN 117891958A
- Authority
- CN
- China
- Prior art keywords
- standardized
- source data
- word segmentation
- triples
- entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 12
- 230000011218 segmentation Effects 0.000 claims abstract description 58
- 238000000034 method Methods 0.000 claims abstract description 18
- 230000007246 mechanism Effects 0.000 claims abstract description 14
- 238000012545 processing Methods 0.000 claims abstract description 8
- 239000013598 vector Substances 0.000 claims description 38
- 238000000605 extraction Methods 0.000 claims description 32
- 238000013507 mapping Methods 0.000 claims description 13
- 238000004422 calculation algorithm Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 11
- 230000004913 activation Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000002708 enhancing effect Effects 0.000 claims description 5
- 235000002198 Annona diversifolia Nutrition 0.000 claims description 3
- 241000282842 Lama glama Species 0.000 claims description 3
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000004088 simulation Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 abstract description 4
- 238000011160 research Methods 0.000 abstract description 2
- 238000010606 normalization Methods 0.000 description 5
- 238000013459 approach Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000000090 biomarker Substances 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于知识图谱的标准数据处理方法,该方法通过获得待标准化处理的源数据并进行分词处理,根据所述源数据的分词结果确定目标领域;进一步获取知识图谱中对应的三元组得到第一集合;采用自注意力机制的关系抽取模型,得到待标准化的第二集合;计算第二集合中的待标准化三元组与第一集合的中三元组的相似度,并根据计算结果建立所述源数据与所述标准化结果之间的映射关系,根据所述映射关系输出所述源数据的标准化结果,该方法能够提高数据标准化后的一致性和准确性,为科学研究、管理、分析等方面的工作提供有力支持。
Description
技术领域
本发明属于数据信息标准化处理技术领域,具体涉及一种基于知识图谱的标准数据处理方法。
背景技术
目前,对非标准化数据进行标准化的方法包括:基于语料库的无监督方法(Unsupervised Corpus-based Similarity for Normalization),这种方法利用wordvector representation来计算non-standard token(非标准词汇)和词表里的properword(标准词汇)的语义相似度,然后,按照语义相似度的倒序排列形成词对列表,从而实现对非标准化词汇的标准化。还有采用重排序策略(Reranking for System Combination),这种方法结合了来自于不同系统的结果,对非标准化词汇进行重排序,在试验中,word级别和句子级别的优化策略都被利用上,以提高标准化的准确性。然而上述方法仅关注词汇方面的标准化处理,忽略了在语句和目标领域特定表达方式,以及上下文之间的逻辑和实体关系,存在诸多缺点,难以在实际应用领域进行数据标准化。
基于语料库的无监督方法存在语义理解的局限性,尽管这种方法使用wordvector representation来计算非标准词汇和标准词汇的语义相似度,但在某些情况下,词汇之间的复杂关系可能无法通过简单的语义相似度来衡量如,一些口语化或者方言词汇可能与标准词汇的语义相差甚远,但仍然可以表示相同的含义。另外,该方法的效果很大程度上依赖于所使用的语料库的质量和代表性。如果语料库不够大或者不够多样化,那么计算出的语义相似度可能会不准确,导致标准化的效果不佳。
而重排序策略依赖于多个不同的系统来生成结果,然后进行重排序。如果某个系统的性能不佳,那么它生成的结果可能会对整个重排序过程产生负面影响;由于需要结合多个系统的结果,并进行重排序,因此这种方法可能会比单一的系统更加复杂和计算密集;虽然重排序策略中使用了word级别和句子级别的优化策略,但在某些情况下,这些策略可能不足以完全解决标准化的问题,例如,对于一些语义复杂或者上下文依赖的词汇,单纯的优化策略可能无法准确地进行标准化。
因此,亟需一种切实可行的数据标准化方法,来提高目标领域数据标准化结果的准确度。
发明内容
针对现有技术存在的问题,本发明提出一种基于知识图谱的标准数据处理方法,根据目标领域待标准化的数据与目标领域知识图谱的映射关系,得到源数据的标准化结果,具体技术方案如下:
一种基于知识图谱的标准数据处理方法,所述方法包括:
获得待标准化处理的源数据并进行分词处理,根据所述源数据的分词结果确定目标领域。
进一步的,所述根据所述源数据的分词结果确定目标领域,具体包括:对分词结果进行预处理,剔除 XML 标签,根据常用词表和停用词表进一步去除常用词和停用词,并删除词频小于等于1的分词。
进一步的,所述剔除XML 标签时,采用Python的xml.etree.ElementTree或lxml库来解析所述源数据,所述XML标签包含源数据中的化学式、公式或角标符号。
将预处理后的分词构造分词共现矩阵,采用Ochiia系数法计算分词中主题词之间的距离:
其中,代表分词中/>和/>两词在同一句子中同时出现的频次,/>代表/>词出现的总频次,/>代表/>词出现的总频次。/>代表了两个分词之间的距离,该数值越高,说明词语之间的距离越近。
根据主题词之间的距离的计算结果将数值由高到低排序,选取前n个排序结果对应的2n个分词组成向量a;根据领域词汇表构建选取2n各个领域高频词汇,组成向量b;
运用相似度算法计算向量a和b的相似性:
其中,,/>分别表示向量/>和/>的第/>个元素值,则最大相似度/>对应的领域即为根据所述源数据的分词结果确定目标领域。
基于所述目标领域调用对应的知识图谱,获取知识图谱中对应的三元组得到第一集合。
根据所述源数据的分词结果,采用自注意力机制的关系抽取模型,抽取源数据中包含的关系、head实体、tail实体组成的三元组,得到待标准化的第二集合。
根据相似度算法计算所述第二集合中的待标准化三元组与所述第一集合的中三元组的相似度;将相似度最高且满足相似度阈值的计算结果所对应的所述第一集合的中三元组标记为所述第二集合中的待标准化三元组对应的标准化结果。
进一步的,所述知识图谱中对应的三元组由关系G、head实体H、tail实体T组成,表示为向量,所述待标准化的第二集合中的三元组表示为向量/>。
则,两个三元组向量A和B的语义相似度S计算公式如下:
当最大相似度Max S满足阈值:Max S≥0.8时,则将所述第一集合的中三元组标记为所述待标准化三元组对应的标准化结果。
当不满足阈值时,则保持第一集合中对应的三元组不变。
建立所述源数据与所述标准化结果之间的映射关系,根据所述映射关系输出所述源数据的标准化结果。
进一步的,计算所有待标准化的第二集合中的三元组与第一集合中三元组的相似度,获得所有标记结果,得到所述源数据与所述标准化结果之间的映射关系。
根据目标领域待标准化的数据与目标领域知识图谱的映射关系更新所述第一集合中的三元组,将更新后的三元组对应的分词对所述待标准化处理的源数据的分词进行覆盖,得到源数据的标准化结果。
进一步的,所述自注意力机制的三元组抽取模型的算法具体为:
将所述源数据的分词结果转换为特征向量,将所述特征向量/>输入到三元组抽取模型;
式中,、/>、/>为权重矩阵,/>为激活函数,/>为聚合运算。
每抽取一个关系则对应抽取head实体和tail实体组成的实体对,使用自注意力机制来增强所述实体对之间关联程度,同时增强关系和实体对之间的信息共享。
式中,是指输入的特征向量的信息向量。
使用平均池化泛化到整个源数据当中完成关系抽取:
其中和/>是权重矩阵,/>为关系的抽取结果,/>为整体的模拟实体信息向量,为运算函数。
三元组抽取模型包含两个全连接层,输入激活函数,得到head实体和tail实体的位置信息:
其中,、/>、/>和/>是权重矩阵,/>和/>分别为head实体和tail实体的抽取结果。
根据head实体和tail实体的抽取结果和关系抽取结果得到源数据中的三元组。
进一步的,所述自注意力机制的三元组抽取模型采用 LLaMA作为语言编码器。
本发明与现有技术相比,其有益效果是:
本发明的基于知识图谱的标准数据处理方法,采用三元组的相似关系获得非标准数据与标准数据间的映射关系,相比于简单的分词对比,该方法能够快速准确的处理目标领域的源数据,确保数据标准化后的一致性和准确性,减少数据中的错误和冗余,提高数据的质量提高数据的质量、可比性、可理解性和管理效率,促进数据共享和交换,保障数据的安全和保密,为企业的科学研究、管理、分析等方面的工作提供有力支持。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
本实施例提供一种基于知识图谱的标准数据处理方法,该方法包括:
获得待标准化处理的源数据并进行分词处理,根据所述源数据的分词结果确定目标领域。
需要说明的是,根据源数据的分词结果确定目标领域是根据特定的目标领域通常会有一些特定的专业术语或关键词。例如,医学领域的文本可能包含如“细胞”、“生物标记物”、“临床试验”等词汇,而科技领域的文本可能包含“人工智能”、“算法”、“机器学习”等词汇,通常来讲,源数据的字符数量越多,目标领域的确定越准确,一般要求源数据的字符不小于200个。所述根据所述源数据的分词结果确定目标领域,具体包括:对分词结果进行预处理,剔除 XML 标签,根据常用词表和停用词表进一步去除常用词和停用词,并删除词频小于等于1的分词;剔除XML 标签时,采用Python的xml.etree.ElementTree或lxml库来解析所述源数据,所述XML标签包含源数据中的化学式、公式或角标符号。
将预处理后的分词构造分词共现矩阵,采用Ochiia系数法计算分词中主题词之间的距离:
其中,代表分词中/>和/>两词在同一句子中同时出现的频次,/>代表/>词出现的总频次,/>代表/>词出现的总频次。/>代表了两个分词之间的距离,该数值越高,说明词语之间的距离越近。
以某技术文件为例,去除XML 标签、含有数字的主题词等,基于常用词表对分词进行清洗处理后,共得到 3428 个分词,利用 VantegePoint 软件的模糊语义处理方法对分词进行初步合并,主要涉及词语单复数、不规则连字符使用等形式,共得到2445 个分词;删除词频为 1 的分词,需要注意的是,某些高频词由于出现次数过多而不具备代表性,也需要将其删除,在实际操作中,可以将5%设定为高频词的上限,超过5%的分词则认为不具备代表性;经过这些步骤处理后,得到最终分词共有 259 个。
根据主题词之间的距离的计算结果将数值由高到低排序,选取前n个排序结果对应的2n个分词组成向量a;根据领域词汇表构建选取2n各个领域高频词汇,组成向量b;
运用相似度算法计算向量a和b的相似性:
其中,,/>分别表示向量/>和/>的第/>个元素值,则最大相似度/>对应的领域即为根据所述源数据的分词结果确定目标领域。根据上述方法,确认某技术文件的目标领域为:无人机动力控制,则在以下的步骤中,需要调取无人机动力控制对应的知识图谱;在开源社区GitHub、GitLab等开源平台上通过搜索关键词如“drone controlknowledge graph”或“unmanned aerial vehicle (UAV) power control ontology”,能够找到无人机动力控制对应的知识图谱;基于所述目标领域调用对应的知识图谱,获取知识图谱中对应的三元组得到第一集合,三元组包含关系、head实体、tail实体。
根据所述源数据的分词结果,采用自注意力机制的关系抽取模型,抽取源数据中包含的关系、head实体、tail实体组成的三元组,得到待标准化的第二集合。
根据相似度算法计算所述第二集合中的待标准化三元组与所述第一集合的中三元组的相似度;将相似度最高且满足相似度阈值的计算结果所对应的所述第一集合的中三元组标记为所述待标准化三元组对应的标准化结果。
需要说明的是,所述知识图谱中对应的三元组由关系G、head实体H、tail实体T组成,表示为向量,所述待标准化的第二集合中的三元组表示为向量/>。
则,两个三元组向量A和B的语义相似度S计算公式如下:
当最大相似度Max S满足阈值:Max S≥0.8时,则将所述第一集合的中三元组标记为所述待标准化三元组对应的标准化结果。
当不满足阈值时,则保持第一集合中对应的三元组不变。
建立所述源数据与所述标准化结果之间的映射关系,根据所述映射关系输出所述源数据的标准化结果。
计算所有待标准化的第二集合中的三元组与第一集合中三元组的相似度,获得所有标记结果,得到所述源数据与所述标准化结果之间的映射关系。
根据目标领域待标准化的数据与目标领域知识图谱的映射关系更新所述第一集合中的三元组,将更新后的三元组对应的分词对所述待标准化处理的源数据的分词进行覆盖,得到源数据的标准化结果。
需要说明的是,所述自注意力机制的三元组抽取模型的算法具体为:
将所述源数据的分词结果转换为特征向量,将所述特征向量/>输入到三元组抽取模型;
式中,、/>、/>为权重矩阵,/>为激活函数,/>为聚合运算。
每抽取一个关系则对应抽取head实体和tail实体组成的实体对,使用自注意力机制来增强所述实体对之间关联程度,同时增强关系和实体对之间的信息共享。
式中,是指输入的特征向量的信息向量。
使用平均池化泛化到整个源数据当中完成关系抽取:
其中和/>是权重矩阵,/>为关系的抽取结果,/>为整体的模拟实体信息向量,为运算函数。/>函数的数学表达式为:f(x) = max(0, x),对于任何输入x,如果x大于0,则输出x;如果x小于或等于0,则输出0。这种特性使得/>函数在神经网络中能够有效地缓解梯度消失问题,并促进网络的稀疏性,减少参数之间的相互依存关系,从而有助于缓解模型的过拟合问题。
三元组抽取模型包含两个全连接层,输入激活函数,得到head实体和tail实体的位置信息:
其中,、/>、/>和/>是权重矩阵,/>和/>分别为head实体和tail实体的抽取结果。
根据head实体和tail实体的抽取结果和关系抽取结果得到源数据中的三元组;自注意力机制的三元组抽取模型采用 LLaMA作为语言编码器。
在本实施例中,还进一步验证不同的分词工具对于自注意力机制的三元组抽取模型的算法的影响,分别通过 NLTK、spaCy和 StanfordNLP分词工具做对比。NLTK(NaturalLanguage Toolkit)是一个Python库,提供了大量自然语言处理工具和资源,包括分词、词性标注、命名实体识别、句法分析;NLTK收集了大量的公开数据集和常用模型,并且提供了全面、易用的接口。对于英文分词,NLTK可以直接使用空格或标点符号进行分词。spaCy也是一个Python库,提供了高效的自然语言处理工具,包括分词、词性标注、命名实体识别、依存句法分析等。spaCy的分词效果非常好,它使用了先进的算法和数据结构,可以快速准确地将文本切分成单词和短语。StanfordNLP支持Java和Python等多种编程语言,使用了基于规则和统计的方法,可以准确地识别出文本中的单词和短语。
采用三中工具,对应的WebNLG数据集的F1值均在90~90.2之间,因此说明本实施例的三元组抽取模型的效果并不依赖于特定的分词工具,同时也验证了本实施例基于知识图谱进行数据标准化处理方法的可行性。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种基于知识图谱的标准数据处理方法,其特征在于,所述方法包括:
获得待标准化处理的源数据并进行分词处理,根据所述源数据的分词结果确定目标领域;
基于所述目标领域调用对应的知识图谱,获取知识图谱中对应的三元组得到第一集合;
根据所述源数据的分词结果,采用自注意力机制的关系抽取模型,抽取源数据中包含的关系、head实体、tail实体组成的三元组,得到待标准化的第二集合;
根据相似度算法计算所述第二集合中的待标准化三元组与所述第一集合的中三元组的相似度;
将相似度最高且满足相似度阈值的计算结果所对应的所述第一集合的中三元组标记为所述第二集合中的待标准化三元组对应的标准化结果;
建立所述源数据与所述标准化结果之间的映射关系,根据所述映射关系输出所述源数据的标准化结果。
2.根据权利要求1所述的基于知识图谱的标准数据处理方法,其特征在于,所述根据所述源数据的分词结果确定目标领域,具体包括:对分词结果进行预处理,剔除 XML 标签,根据常用词表和停用词表进一步去除常用词和停用词,并删除词频小于等于1的分词;
将预处理后的分词构造分词共现矩阵,采用Ochiia系数法计算分词中主题词之间的距离:
;
其中,代表分词中/>和/>两词在同一句子中同时出现的频次,/>代表/>词出现的总频次,/>代表/>词出现的总频次;/>代表了两个分词之间的距离,该数值越高,说明词语之间的距离越近;
根据主题词之间的距离的计算结果将数值由高到低排序,选取前n个排序结果对应的2n个分词组成向量a;根据领域词汇表构建选取2n各个领域高频词汇,组成向量b;
运用相似度算法计算向量a和b的相似性:
;
其中,,/>分别表示向量/>和/>的第/>个元素值,则最大相似度/>对应的领域即为根据所述源数据的分词结果确定目标领域。
3.根据权利要求2所述的基于知识图谱的标准数据处理方法,其特征在于,所述剔除XML 标签时,采用Python的xml.etree.ElementTree或lxml库来解析所述源数据,所述XML标签包含源数据中的化学式、公式或角标符号。
4.根据权利要求1所述的基于知识图谱的标准数据处理方法,其特征在于,所述知识图谱中对应的三元组由关系G、head实体H、tail实体T组成,表示为向量,所述待标准化的第二集合中的三元组表示为向量/>;
则,两个三元组向量A和B的语义相似度S计算公式如下:
;
当最大相似度Max S满足阈值:Max S≥0.8时,则将所述第一集合的中三元组标记为所述待标准化三元组对应的标准化结果;
当不满足阈值时,则保持第一集合中对应的三元组不变;
计算所有待标准化的第二集合中的三元组与第一集合中三元组的相似度,获得所有标记结果,得到所述源数据与所述标准化结果之间的映射关系;
根据目标领域待标准化的数据与目标领域知识图谱的映射关系更新所述第一集合中的三元组,将更新后的三元组对应的分词对所述待标准化处理的源数据的分词进行覆盖,得到源数据的标准化结果。
5.根据权利要求4所述的基于知识图谱的标准数据处理方法,其特征在于,所述自注意力机制的三元组抽取模型的算法具体为:
将所述源数据的分词结果转换为特征向量,将所述特征向量/>输入到三元组抽取模型;
;
式中,、/>、/>为权重矩阵,/>为激活函数,/>为聚合运算;
每抽取一个关系则对应抽取head实体和tail实体组成的实体对,使用自注意力机制来增强所述实体对之间关联程度,同时增强关系和实体对之间的信息共享:
式中,/>是指输入的特征向量的信息向量;
使用平均池化泛化到整个源数据当中完成关系抽取:
其中 />和 />是权重矩阵,/>为关系的抽取结果, />为整体的模拟实体信息向量,/>为运算函数;
三元组抽取模型包含两个全连接层,输入激活函数,得到head实体和tail实体的位置信息;
;
;
其中,、/>、/> 和 />是权重矩阵,/>和/>分别为head实体和tail实体的抽取结果;
根据head实体和tail实体的抽取结果和关系抽取结果得到源数据中的三元组。
6.根据权利要求5所述的基于知识图谱的标准数据处理方法,其特征在于,所述自注意力机制的三元组抽取模型采用 LLaMA作为语言编码器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410289883.6A CN117891958B (zh) | 2024-03-14 | 2024-03-14 | 一种基于知识图谱的标准数据处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410289883.6A CN117891958B (zh) | 2024-03-14 | 2024-03-14 | 一种基于知识图谱的标准数据处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117891958A true CN117891958A (zh) | 2024-04-16 |
CN117891958B CN117891958B (zh) | 2024-05-24 |
Family
ID=90642728
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410289883.6A Active CN117891958B (zh) | 2024-03-14 | 2024-03-14 | 一种基于知识图谱的标准数据处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117891958B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118349632A (zh) * | 2024-04-23 | 2024-07-16 | 中国标准化研究院 | 一种标准信息要素一致性检验方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20090069874A (ko) * | 2007-12-26 | 2009-07-01 | 한국과학기술정보연구원 | 지식맵 분석을 위한 키워드 선정 및 유사도계수 선정 방법및 그 시스템과 그 방법에 대한 컴퓨터 프로그램을 저장한기록매체 |
CN114757179A (zh) * | 2022-04-13 | 2022-07-15 | 成都信息工程大学 | 一种实体关系联合抽取方法及装置 |
CN115169322A (zh) * | 2022-07-19 | 2022-10-11 | 深圳市华云中盛科技股份有限公司 | 基于知识图谱的自然语言数据挖掘语句求解方法及装置 |
CN115809340A (zh) * | 2022-08-29 | 2023-03-17 | 南京南瑞信息通信科技有限公司 | 一种知识图谱的实体更新方法及系统 |
CN117251685A (zh) * | 2023-11-20 | 2023-12-19 | 中电科大数据研究院有限公司 | 一种基于知识图谱的标准化政务数据构建方法和装置 |
-
2024
- 2024-03-14 CN CN202410289883.6A patent/CN117891958B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20090069874A (ko) * | 2007-12-26 | 2009-07-01 | 한국과학기술정보연구원 | 지식맵 분석을 위한 키워드 선정 및 유사도계수 선정 방법및 그 시스템과 그 방법에 대한 컴퓨터 프로그램을 저장한기록매체 |
CN114757179A (zh) * | 2022-04-13 | 2022-07-15 | 成都信息工程大学 | 一种实体关系联合抽取方法及装置 |
CN115169322A (zh) * | 2022-07-19 | 2022-10-11 | 深圳市华云中盛科技股份有限公司 | 基于知识图谱的自然语言数据挖掘语句求解方法及装置 |
CN115809340A (zh) * | 2022-08-29 | 2023-03-17 | 南京南瑞信息通信科技有限公司 | 一种知识图谱的实体更新方法及系统 |
CN117251685A (zh) * | 2023-11-20 | 2023-12-19 | 中电科大数据研究院有限公司 | 一种基于知识图谱的标准化政务数据构建方法和装置 |
Non-Patent Citations (1)
Title |
---|
黄培馨;赵翔;方阳;朱慧明;肖卫东;: "融合对抗训练的端到端知识三元组联合抽取", 计算机研究与发展, no. 12, 15 December 2019 (2019-12-15) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118349632A (zh) * | 2024-04-23 | 2024-07-16 | 中国标准化研究院 | 一种标准信息要素一致性检验方法 |
CN118349632B (zh) * | 2024-04-23 | 2024-09-20 | 中国标准化研究院 | 一种标准信息要素一致性检验方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117891958B (zh) | 2024-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113011533B (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
US11580415B2 (en) | Hierarchical multi-task term embedding learning for synonym prediction | |
CN110321563B (zh) | 基于混合监督模型的文本情感分析方法 | |
CN111737496A (zh) | 一种电力设备故障知识图谱构建方法 | |
CN109508459B (zh) | 一种从新闻中提取主题和关键信息的方法 | |
CN111930942B (zh) | 文本分类方法、语言模型训练方法、装置及设备 | |
CN113255320A (zh) | 基于句法树和图注意力机制的实体关系抽取方法及装置 | |
CN117891958B (zh) | 一种基于知识图谱的标准数据处理方法 | |
CN112883193A (zh) | 一种文本分类模型的训练方法、装置、设备以及可读介质 | |
CN112052684A (zh) | 电力计量的命名实体识别方法、装置、设备和存储介质 | |
CN111274829A (zh) | 一种利用跨语言信息的序列标注方法 | |
CN114897167A (zh) | 生物领域知识图谱构建方法及装置 | |
CN114416979A (zh) | 一种文本查询方法、设备和存储介质 | |
CN111859938A (zh) | 基于位置向量降噪和丰富语义的电子病历实体关系抽取方法 | |
CN115759119A (zh) | 一种金融文本情感分析方法、系统、介质和设备 | |
CN115510230A (zh) | 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法 | |
WO2022242074A1 (zh) | 一种多特征融合的中文医疗文本命名实体识别方法 | |
CN111831624A (zh) | 数据表创建方法、装置、计算机设备及存储介质 | |
CN115169349A (zh) | 基于albert的中文电子简历命名实体识别方法 | |
CN111597807A (zh) | 分词数据集生成方法、装置、设备及其存储介质 | |
CN113065350A (zh) | 一种基于注意力神经网络的生物医学文本词义消岐方法 | |
CN110888944B (zh) | 基于多卷积窗尺寸注意力卷积神经网络实体关系抽取方法 | |
CN115936014B (zh) | 一种医学实体对码方法、系统、计算机设备、存储介质 | |
Ronghui et al. | Application of Improved Convolutional Neural Network in Text Classification. | |
CN116680407A (zh) | 一种知识图谱的构建方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |