CN115080740A - 非结构化数据的分类方法、装置、可读介质及电子设备 - Google Patents

非结构化数据的分类方法、装置、可读介质及电子设备 Download PDF

Info

Publication number
CN115080740A
CN115080740A CN202210731301.6A CN202210731301A CN115080740A CN 115080740 A CN115080740 A CN 115080740A CN 202210731301 A CN202210731301 A CN 202210731301A CN 115080740 A CN115080740 A CN 115080740A
Authority
CN
China
Prior art keywords
data
nodes
graph
unstructured data
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210731301.6A
Other languages
English (en)
Inventor
谷红明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Corp Ltd
Original Assignee
China Telecom Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Telecom Corp Ltd filed Critical China Telecom Corp Ltd
Priority to CN202210731301.6A priority Critical patent/CN115080740A/zh
Publication of CN115080740A publication Critical patent/CN115080740A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请属于人工智能技术领域,具体涉及一种非结构化数据的分类方法、装置、可读介质及电子设备。该方法包括获取已标注领域的非结构化数据;对非结构化数据进行要素提取,得到多个要素节点;根据非结构化数据以及要素节点,构建数据节点与要素节点之间的图网络,数据节点与要素节点之间的图网络用于表示数据节点与要素之间的关联关系,以及要素与要素之间的关联关系;根据数据节点与要素节点之间的图网络构建图神经网络结构模型,并进行模型训练,利用训练好的模型对待分类非结构化数据进行分类,以得到分类结果。通过领域数据关键要素构建要素间的关联图,进而使用图神经网络表示技术捕捉数据间的关联表示,提升了分类的准确性与可解释性。

Description

非结构化数据的分类方法、装置、可读介质及电子设备
技术领域
本申请属于人工智能技术领域,具体涉及一种非结构化数据的分类方法、装置、可读介质及电子设备。
背景技术
随着业务的快速发展,系统中的非结构化数据呈现出海量增长的趋势。为了便于对这些数据进行管理,一般都需要对其进行分类。
在相关技术方案中,非结构化数据分类方法,多是使用神经网络或大规模预训练方式由数据中提取关键特征,然后使用交叉熵损失进行迭代训练。使用该方式存在如下问题,一方面神经网络的可解释性较差,另一方面基于神经网络的方法所需的数据量较大而专业领域的数据集往往数据量较小,进而使得模型的性能不尽如人意。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本申请的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本申请的目的在于提供一种非结构化数据的分类方法、装置、可读介质及电子设备,在一定程度上实现了提升了分类的准确性与可解释性。
本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
根据本申请实施例的一个方面,提供一种非结构化数据的分类方法,所述方法包括:
获取已标注领域的非结构化数据;
对所述非结构化数据进行要素提取,得到多个要素节点;
根据所述非结构化数据以及所述要素节点,构建数据节点与要素节点之间的图网络,所述数据节点与要素节点之间的图网络用于表示数据节点与要素之间的关联关系,以及要素与要素之间的关联关系;
根据所述数据节点与要素节点之间的图网络构建图神经网络结构模型,并进行模型训练,利用训练好的模型对待分类非结构化数据进行分类,以得到分类结果。
根据本申请实施例的一个方面,提供一种非结构化数据的分类装置,所述装置包括:
获取模块,用于获取已标注领域的非结构化数据;
提取模块,用于对所述非结构化数据进行要素提取,得到多个要素节点;
构建模块,用于根据所述非结构化数据以及所述要素节点,构建数据节点与要素节点之间的图网络,所述数据节点与要素节点之间的图网络用于表示数据节点与要素之间的关联关系,以及要素与要素之间的关联关系;
分类模块,用于根据所述数据节点与要素节点之间的图网络构建图神经网络结构模型,并进行模型训练,利用训练好的模型对待分类非结构化数据进行分类,以得到分类结果。
在本申请的一些实施例中,基于以上技术方案,所述构建模块还用于,将所述非结构化数据进行整体嵌入表示,得到数据节点向量;将所述要素节点进行嵌入表示,得到要素节点向量;根据所述数据节点向量以及所述要素节点向量,构建要素与数据异构图、要素与要素同构图,以得到所述数据节点与所述要素节点之间的图网络。
在本申请的一些实施例中,基于以上技术方案,所述构建模块还用于,将所述数据节点向量按照领域对提取的要素进行初步划分;以异构边的形式将不同类的要素节点与数据节点相连接,得到所述构建要素与数据异构图。
在本申请的一些实施例中,基于以上技术方案,所述构建模块还用于,计算不同要素节点之间的相似度;根据所述相似度与设定阈值的关系,确定要素节点之间是否存在要素边,以构建得到所述要素与要素同构图。
在本申请的一些实施例中,基于以上技术方案,所述分类模块还用于,将所述要素节点中的要素之间使用图卷积神经网络,得到图网络连接结构下的要素节点表示;通过图注意力机制计算不同要素节点对数据节点的注意力权重,以及不同数据对要素节点的注意力权重,以得到图网络连接结构下非结构化数据的整体表示,进而用于构建图神经网络结构模型。
在本申请的一些实施例中,基于以上技术方案,所述分类模块还用于,通过图注意力机制计算不同要素节点对数据节点的注意力权重,以及不同数据对要素节点的注意力权重,以得到图网络连接结构下非结构化数据的整体表示,满足公式:
Figure BDA0003713614200000031
Figure BDA0003713614200000032
其中,αKD表示数据节点对要素节点的注意力权重,αDK表示要素节点对数据节点的注意力权重,W表示第l层的权重参数矩阵,D_H表示数据节点表示,K_H表示要素节点表示,K表示要素节点数,D表示数据节点数。
在本申请的一些实施例中,基于以上技术方案,所述分类模块还用于,根据非结构化数据的整体表示获得数据节点预测概率;使用交叉熵损失进行模型训练,通过迭代优化模型中的所有参数直至收敛。
根据本申请实施例的一个方面,提供一种计算机可读介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如以上技术方案中的非结构化数据的分类方法。
根据本申请实施例的一个方面,提供一种电子设备,该电子设备包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器被配置为经由执行所述可执行指令来执行如以上技术方案中的非结构化数据的分类方法。
根据本申请实施例的一个方面,提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行如以上技术方案中的非结构化数据的分类方法。
在本申请实施例提供的技术方案中,对非结构化数据进行要素提取,根据非结构化数据以及要素节点,构建数据节点与要素节点之间的图网络。通过领域数据关键要素构建要素间的关联图,进而使用图神经网络表示技术捕捉文本间的关联表示,从而能够实现对领域专业非结构化数据集的有监督分类。另外,同时使用图神经网络的提升了分类的准确性与可解释性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示意性地示出了本申请一实施例提供的非结构化数据的分类方法步骤流程。
图2示意性地示出了本申请一实施例根据非结构化数据以及要素节点,构建数据节点与要素节点之间的图网络的方法步骤流程。
图3示意性地示出了本申请一实施例中非结构化数据-要素图网络构建示意图。
图4示意性地示出了应用本申请技术方案的示例性系统架构框图。
图5示意性地示出了本申请实施例提供的非结构化数据的分类装置的结构框图。
图6示意性示出了适于用来实现本申请实施例的电子设备的计算机系统结构框图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本申请将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本申请的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
下面结合具体实施方式对本申请提供的一种非结构化数据的分类方法、装置、可读介质及电子设备做出详细说明。
参见图1,图1示意性地示出了本申请一实施例提供的非结构化数据的分类方法步骤流程。该非结构化数据的分类方法可以由控制器来执行,主要可以包括如下步骤S101至步骤S104。
步骤S101,获取已标注领域的非结构化数据。
其中,非结构化数据以非结构化文本数据为例,先收集含有已标注专业领域的非结构化文本数据,这样从而便于后续的分类。
步骤S102,对非结构化数据进行要素提取,得到多个要素节点。
在获取得到非结构化数据之后,对非结构化数据进行要素提取,以得到多个要素节点。其中,在进行关键要素提取时,通过构建领域规则和使用双向长短期记忆网络(Bi-LSTM)并叠加条件随机场(CRF)算法完成非结构化数据中的关键要素提取。
步骤S103,根据非结构化数据以及要素节点,构建数据节点与要素节点之间的图网络,数据节点与要素节点之间的图网络用于表示数据节点与要素之间的关联关系,以及要素与要素之间的关联关系。
在得到要素节点之后,构建数据节点与要素节点之间的图网络。通过领域数据关键要素构建要素间的关联图,进而使用图神经网络表示技术捕捉文本间的关联表示,从而能够实现对领域专业非结构化数据集的有监督分类。
步骤S104,根据数据节点与要素节点之间的图网络构建图神经网络结构模型,并进行模型训练,利用训练好的模型对待分类非结构化数据进行分类,以得到分类结果。
在本申请实施例提供的技术方案中,对非结构化数据进行要素提取,根据非结构化数据以及要素节点,构建数据节点与要素节点之间的图网络。通过领域数据关键要素构建要素间的关联图,进而使用图神经网络表示技术捕捉文本间的关联表示,从而能够实现对领域专业非结构化数据集的有监督分类。另外,同时使用图神经网络的提升了分类的准确性与可解释性。
在本申请的一个实施例中,参见图2,图2示意性地出了本申请一实施例根据非结构化数据以及要素节点,构建数据节点与要素节点之间的图网络的方法步骤流程。根据非结构化数据以及要素节点,构建数据节点与要素节点之间的图网络,主要可以包括如下步骤S201至步骤S203。
步骤S201,将非结构化数据进行整体嵌入表示,得到数据节点向量。
在将非结构化数据进行整体嵌入表示时,先对文本数据进行文本分词,接着,使用词嵌入技术(例如:one-hot、word2vec等)对得到的分词进行词嵌入向量,然后根据词语的重要度权重(例如:使用TF-IDF)将词嵌入向量进行加权求和,最后,加权求和后的向量即为整体嵌入表示向量,即非结构化数据的整体表示向量。
步骤S202,将要素节点进行嵌入表示,得到要素节点向量。
在将要素节点进行嵌入表示时,通过使用大规模通用数据预训练(如:bert)的方法,得到关键要素的嵌入表示向量,即关键要素节点向量。具体流程为,先构建符合预训练模型的输入格式(例如:[cls]关键要素短句[sep])的输入文本;接着,将输入文本进行编码传入到预训练模型;然后选用预训练模型倒数第3层[cls]向量表示作为关键要素的嵌入向量表示。
步骤S203,根据数据节点向量以及要素节点向量,构建要素与数据异构图、要素与要素同构图,以得到数据节点与要素节点之间的图网络。
根据数据节点向量以及要素节点向量,构建要素与数据异构图、要素与要素同构图,即构建了非结构化数据与数据要素间的双层图网络,参见图3,图3示意性地出了本申请一实施例中非结构化数据-要素图网络构建示意图。
这样,根据数据节点向量以及要素节点向量,构建要素与数据异构图、要素与要素同构图,能够明晰地区分不同要素对非结构化数据分类的影响,从而有利于得到要素对非结构化数据分类的可视化展示,以提升分类模型的可解释性。
在本申请的一个实施例中,根据数据节点向量以及要素节点向量,构建要素与数据异构图,包括:
将数据节点向量按照领域对提取的要素进行初步划分;
以异构边的形式将不同类的要素节点与数据节点相连接,得到构建要素与数据异构图。
根据领域需要一般情况下必须对要素节点的类型进行划分,例如司法领域;时间,地点,人物,事件等,如果所属领域不需要关键要素进行进一步的划分,可以使用将关键要素节点直接与数据节点进行连接。
这样,将数据节点向量按照领域对提取的要素进行初步划分,以异构边的形式将不同类的要素节点与数据节点相连接,得到构建要素与数据异构图,如此,能够明晰地区分不同要素对非结构化数据分类的影响,从而有利于得到要素对非结构化数据分类的可视化展示提升分类模型的可解释性。
在本申请的一个实施例中,根据数据节点向量以及要素节点向量,构建要素与要素同构图,包括:
计算不同要素节点之间的相似度;
根据相似度与设定阈值的关系,确定要素节点之间是否存在要素边,以构建得到要素与要素同构图。
其中,使用余弦相似度的方法计算各要素节点间的相似度s,相似度的计算满足公式:
Figure BDA0003713614200000071
其中,s为相似度,ki_em表示第i个要素节点,kj_em表示第j个要素节点。
通过设定阈值t以确定要素节点间是否存在要素边连接K_e。
Figure BDA0003713614200000072
若相似度大于或等于阈值,则认为存在要素边,若相似度小于阈值,则认为不存在要素边。
这样,通过计算不同要素节点的相似度,并将相似度与阈值比较进而可以构建得到要素与要素同构图,从而有利于得到要素对非结构化数据分类的可视化展示,以提升分类模型的可解释性。另外,使用阈值调节要素间的连接将边权重进行了离散化处理,以降低模型对要素边权重的计算。
在本申请的一个实施例中,根据数据节点与要素节点之间的图网络构建图神经网络结构模型,包括:
将要素节点中的要素之间使用图卷积神经网络,得到图网络连接结构下的要素节点表示;
通过图注意力机制计算不同要素节点对数据节点的注意力权重,以及不同数据对要素节点的注意力权重,以得到图网络连接结构下非结构化数据的整体表示,进而用于构建图神经网络结构模型。
通过使用双向注意力计算,分别计算要素节点对数据节点的注意力权重以及数据节点对要素节点注意力权重,进而使得数据节点通过要素节点的桥梁关系得到了数据节点的图结构表示。
另外,通过构建了非结构化数据节点与关键要素节点间的双层图网络结构,通过叠加非结构化数据的语义嵌入表示以及关联图结构语义表示两方面的信息增加了图神经网络的全局表示能力提升了分类模型的准确性。
在本申请的一个实施例中,通过图注意力机制计算不同要素节点对数据节点的注意力权重,以及不同数据对要素节点的注意力权重,以得到图网络连接结构下非结构化数据的整体表示,满足公式:
Figure BDA0003713614200000081
Figure BDA0003713614200000082
其中,αKD表示数据节点对要素节点的注意力权重,αDK表示要素节点对数据节点的注意力权重,W表示第l层的权重参数矩阵,D_H表示数据节点表示,K_H表示要素节点表示,K表示要素节点数,D表示数据节点数。
在本申请的一个实施例中,进行模型训练,包括:
根据非结构化数据的整体表示获得数据节点预测概率;
使用交叉熵损失进行模型训练,通过迭代优化模型中的所有参数直至收敛。
对数据节点表示中使用softmax函数获得数据节点预测概率,使用交叉熵损失进行模型训练。进而得到最优的模型权重参数,从而有利于得到较准确的分类结果。
该方法可应用于通信、司法、金融等专业领域的文本分类、图片分类、语音识别等,一方面使用图神经网络与语义嵌入得到非结构化数据的综合嵌入表示提升了分类模型的预测性能,另一方面通过提取数据-要素间的注意力权重可以要素与数据间的关联性进行可视化,增强了模型的可解释性。
在本申请的一个实施例中,参见图4,图4示意性地示出了应用本申请技术方案的示例性系统架构框图。该系统包括非结构化数据处理层、关键要素处理层、图网络构建计算层以及参数优化层。
其中,非结构化数据处理层包括非结构化数据收集模块401与数据嵌入模块402,其中,非结构化数据收集模块401用于收集含有已标注的专业领域非结构化数据,数据嵌入模块402通过使用数据划分、one-hot/word2vec、CNN(卷积神经网络)等操作对收集的专业领域数据进行整体嵌入表示,得到非结构化数据的整体表示向量,并作为数据节点D的初始化节点表示D_em。
关键要素处理层包括关键要素提取模块403、关键要素嵌入模块404、关键要素相似度计算模块405,关键要素提取模块403通过构建领域规则和使用双向长短期记忆网络(Bi-LSTM)并叠加条件随机场(CRF)算法完成非结构化数据中的关键要素提取并记关键要素为K={k1,k2,k3...}。关键要素嵌入模块404通过使用大规模通用数据预训练(如:bert)的方法,得到关键要素的嵌入表示向量,并作为关键要素节点的初始化节点表示K_em={k1_em,k2_em,k3_em...}。关键要素相似度计算模块405使用余弦相似度的方法计算各要素节点间的相似度s
Figure BDA0003713614200000091
图网络构建计算层包括数据-要素异构图构建模块406、要素-要素同构图构建模块407、要素-要素图卷积计算模块408、数据-要素双向注意力计算模块409,数据-要素异构图构建模块406依据领域专业人员,对提取的要素进行初步划分,并以异构边的形式将不同类的要素节点与数据节点相连接,记异构边类型为e_type。要素-要素同构图构建模块407通过设定阈值t以确定要素节点间是否存在要素边连接K_e。
Figure BDA0003713614200000101
要素-要素图卷积计算模块408通过图卷积的方法得到图结构连接下的要素节点表示K_H。
K_Hl+1=σ(LK_HlWl)+K_em
L为要素子图的拉普拉斯矩阵,l表示图神经网络的隐藏层,σ表示激活函数,W为第l层的权重参数矩阵,K_em表示要素节点初始化表示向量。
数据-要素双向注意力计算模块409通过图注意力机制计算不同要素节点对数据节点的注意力权重αDK以及不同数据对要素节点的注意力权重αKD,从而得到非结构化数据的整体表示D_H。
Figure BDA0003713614200000102
Figure BDA0003713614200000103
其中,αKD表示数据节点对要素节点的注意力权重,αDK表示要素节点对数据节点的注意力权重,W表示第l层的权重参数矩阵,D_H表示数据节点表示,K_H表示要素节点表示,K表示要素节点数,D表示数据节点数。
参数优化层用于模型训练并进行权重参数更新,另外,模型训练对数据节点表示中使用softmax函数获得数据节点预测概率,使用交叉熵损失进行模型训练。进而得到最优的模型权重参数。
在本申请实施例提供的技术方案中,构建了非结构化数据与数据要素间的双层图网络,能够明晰地区分不同要素对非结构化数据分类的影响,通过提取模型的注意力参数可以得到要素对非结构化数据分类的可视化展示提升分类模型的可解释性。同时通过叠加非结构化数据的语义嵌入表示以及关联图结构语义表示两方面的信息增加了图神经网络的全局表示能力提升了分类模型的准确性。
应当注意,尽管在附图中以特定顺序描述了本申请中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
以下介绍本申请的装置实施例,可以用于执行本申请上述实施例中的非结构化数据的分类方法。图5示意性地示出了本申请实施例提供的非结构化数据的分类装置的结构框图。如图5所示,提供一种非结构化数据的分类装置,分类装置500包括:
获取模块501,用于获取已标注领域的非结构化数据;
提取模块502,用于对非结构化数据进行要素提取,得到多个要素节点;
构建模块503,用于根据非结构化数据以及要素节点,构建数据节点与要素节点之间的图网络,数据节点与要素节点之间的图网络用于表示数据节点与要素之间的关联关系,以及要素与要素之间的关联关系;
分类模块504,用于根据数据节点与要素节点之间的图网络构建图神经网络结构模型,并进行模型训练,利用训练好的模型对待分类非结构化数据进行分类,以得到分类结果。
在本申请的一些实施例中,基于以上技术方案,构建模块503还用于,将非结构化数据进行整体嵌入表示,得到数据节点向量;将要素节点进行嵌入表示,得到要素节点向量;根据数据节点向量以及要素节点向量,构建要素与数据异构图、要素与要素同构图,以得到数据节点与要素节点之间的图网络。
在本申请的一些实施例中,基于以上技术方案,构建模块503还用于,将数据节点向量按照领域对提取的要素进行初步划分;以异构边的形式将不同类的要素节点与数据节点相连接,得到构建要素与数据异构图。
在本申请的一些实施例中,基于以上技术方案,构建模块503还用于,计算不同要素节点之间的相似度;根据相似度与设定阈值的关系,确定要素节点之间是否存在要素边,以构建得到要素与要素同构图。
在本申请的一些实施例中,基于以上技术方案,分类模块504还用于,将要素节点中的要素之间使用图卷积神经网络,得到图网络连接结构下的要素节点表示;通过图注意力机制计算不同要素节点对数据节点的注意力权重,以及不同数据对要素节点的注意力权重,以得到图网络连接结构下非结构化数据的整体表示,进而用于构建图神经网络结构模型。
在本申请的一些实施例中,基于以上技术方案,分类模块504还用于,通过图注意力机制计算不同要素节点对数据节点的注意力权重,以及不同数据对要素节点的注意力权重,以得到图网络连接结构下非结构化数据的整体表示,满足公式:
Figure BDA0003713614200000121
Figure BDA0003713614200000122
其中,αKD表示数据节点对要素节点的注意力权重,αDK表示要素节点对数据节点的注意力权重,W表示第l层的权重参数矩阵,D_H表示数据节点表示,K_H表示要素节点表示,K表示要素节点数,D表示数据节点数。
在本申请的一些实施例中,基于以上技术方案,分类模块504还用于,根据非结构化数据的整体表示获得数据节点预测概率;使用交叉熵损失进行模型训练,通过迭代优化模型中的所有参数直至收敛。
本申请各实施例中提供的非结构化数据的分类装置的具体细节已经在对应的方法实施例中进行了详细的描述,此处不再赘述。
图6示意性地示出了用于实现本申请实施例的电子设备的计算机系统结构框图。
需要说明的是,图6示出的电子设备的计算机系统600仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图6所示,计算机系统600包括中央处理器601(Central Processing Unit,CPU),其可以根据存储在只读存储器602(Read-Only Memory,ROM)中的程序或者从存储部分608加载到随机访问存储器603(Random Access Memory,RAM)中的程序而执行各种适当的动作和处理。在随机访问存储器603中,还存储有系统操作所需的各种程序和数据。中央处理器601、在只读存储器602以及随机访问存储器603通过总线604彼此相连。输入/输出接口605(Input/Output接口,即I/O接口)也连接至总线604。
以下部件连接至输入/输出接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如局域网卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至输入/输出接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本申请的实施例,各个方法流程图中所描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理器601执行时,执行本申请的系统中限定的各种功能。
需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims (10)

1.一种非结构化数据的分类方法,其特征在于,所述方法包括:
获取已标注领域的非结构化数据;
对所述非结构化数据进行要素提取,得到多个要素节点;
根据所述非结构化数据以及所述要素节点,构建数据节点与要素节点之间的图网络,所述数据节点与要素节点之间的图网络用于表示数据节点与要素之间的关联关系,以及要素与要素之间的关联关系;
根据所述数据节点与要素节点之间的图网络构建图神经网络结构模型,并进行模型训练,利用训练好的模型对待分类非结构化数据进行分类,以得到分类结果。
2.根据权利要求1所述的非结构化数据的分类方法,其特征在于,所述根据所述非结构化数据以及所述要素节点,构建数据节点与要素节点之间的图网络,包括:
将所述非结构化数据进行整体嵌入表示,得到数据节点向量;
将所述要素节点进行嵌入表示,得到要素节点向量;
根据所述数据节点向量以及所述要素节点向量,构建要素与数据异构图、要素与要素同构图,以得到所述数据节点与所述要素节点之间的图网络。
3.根据权利要求2所述的非结构化数据的分类方法,其特征在于,所述根据所述数据节点向量以及所述要素节点向量,构建要素与数据异构图,包括:
将所述数据节点向量按照领域对提取的要素进行初步划分;
以异构边的形式将不同类的要素节点与数据节点相连接,得到所述构建要素与数据异构图。
4.根据权利要求2所述的非结构化数据的分类方法,其特征在于,所述根据所述数据节点向量以及所述要素节点向量,构建要素与要素同构图,包括:
计算不同要素节点之间的相似度;
根据所述相似度与设定阈值的关系,确定要素节点之间是否存在要素边,以构建得到所述要素与要素同构图。
5.根据权利要求1所述的非结构化数据的分类方法,其特征在于,所述根据所述数据节点与要素节点之间的图网络构建图神经网络结构模型,包括:
将所述要素节点中的要素之间使用图卷积神经网络,得到图网络连接结构下的要素节点表示;
通过图注意力机制计算不同要素节点对数据节点的注意力权重,以及不同数据对要素节点的注意力权重,以得到图网络连接结构下非结构化数据的整体表示,进而用于构建图神经网络结构模型。
6.根据权利要求5所述的非结构化数据的分类方法,其特征在于,所述通过图注意力机制计算不同要素节点对数据节点的注意力权重,以及不同数据对要素节点的注意力权重,以得到图网络连接结构下非结构化数据的整体表示,满足公式:
Figure FDA0003713614190000021
Figure FDA0003713614190000022
其中,αKD表示数据节点对要素节点的注意力权重,αDK表示要素节点对数据节点的注意力权重,W表示第l层的权重参数矩阵,D_H表示数据节点表示,K_H表示要素节点表示,K表示要素节点数,D表示数据节点数。
7.根据权利要求5所述的非结构化数据的分类方法,其特征在于,所述进行模型训练,包括:
根据非结构化数据的整体表示获得数据节点预测概率;
使用交叉熵损失进行模型训练,通过迭代优化模型中的所有参数直至收敛。
8.一种非结构化数据的分类装置,其特征在于,所述装置包括:
获取模块,用于获取已标注领域的非结构化数据;
提取模块,用于对所述非结构化数据进行要素提取,得到多个要素节点;
构建模块,用于根据所述非结构化数据以及所述要素节点,构建数据节点与要素节点之间的图网络,所述数据节点与要素节点之间的图网络用于表示数据节点与要素之间的关联关系,以及要素与要素之间的关联关系;
分类模块,用于根据所述数据节点与要素节点之间的图网络构建图神经网络结构模型,并进行模型训练,利用训练好的模型对待分类非结构化数据进行分类,以得到分类结果。
9.一种计算机可读介质,其特征在于,所述计算机可读介质上存储有计算机程序,该计算机程序被处理器执行时实现权利要求1至7中任意一项所述的非结构化数据的分类方法。
10.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至7中任意一项所述的非结构化数据的分类方法。
CN202210731301.6A 2022-06-24 2022-06-24 非结构化数据的分类方法、装置、可读介质及电子设备 Pending CN115080740A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210731301.6A CN115080740A (zh) 2022-06-24 2022-06-24 非结构化数据的分类方法、装置、可读介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210731301.6A CN115080740A (zh) 2022-06-24 2022-06-24 非结构化数据的分类方法、装置、可读介质及电子设备

Publications (1)

Publication Number Publication Date
CN115080740A true CN115080740A (zh) 2022-09-20

Family

ID=83255821

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210731301.6A Pending CN115080740A (zh) 2022-06-24 2022-06-24 非结构化数据的分类方法、装置、可读介质及电子设备

Country Status (1)

Country Link
CN (1) CN115080740A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1841372A (zh) * 2005-03-29 2006-10-04 国际商业机器公司 帮用户根据非结构化信息源形成结构化图表的方法和设备
CN112580328A (zh) * 2020-12-11 2021-03-30 上海明略人工智能(集团)有限公司 事件信息的抽取方法及装置、存储介质、电子设备
CN113362157A (zh) * 2021-05-27 2021-09-07 中国银联股份有限公司 异常节点识别方法、模型的训练方法、装置及存储介质
CN114398881A (zh) * 2022-01-04 2022-04-26 北京快确信息科技有限公司 基于图神经网络的交易信息识别方法、系统及介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1841372A (zh) * 2005-03-29 2006-10-04 国际商业机器公司 帮用户根据非结构化信息源形成结构化图表的方法和设备
CN112580328A (zh) * 2020-12-11 2021-03-30 上海明略人工智能(集团)有限公司 事件信息的抽取方法及装置、存储介质、电子设备
CN113362157A (zh) * 2021-05-27 2021-09-07 中国银联股份有限公司 异常节点识别方法、模型的训练方法、装置及存储介质
CN114398881A (zh) * 2022-01-04 2022-04-26 北京快确信息科技有限公司 基于图神经网络的交易信息识别方法、系统及介质

Similar Documents

Publication Publication Date Title
CN111737476B (zh) 文本处理方法、装置、计算机可读存储介质及电子设备
CN113822494B (zh) 风险预测方法、装置、设备及存储介质
CN111444340B (zh) 文本分类方法、装置、设备及存储介质
CN113505244B (zh) 基于深度学习的知识图谱构建方法、系统、设备及介质
CN110659723B (zh) 基于人工智能的数据处理方法、装置、介质及电子设备
CN110968701A (zh) 用于图神经网络的关系图谱建立方法以及装置、设备
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN111653274B (zh) 唤醒词识别的方法、装置及存储介质
CN114298050A (zh) 模型的训练方法、实体关系抽取方法、装置、介质、设备
WO2023159756A1 (zh) 价格数据的处理方法和装置、电子设备、存储介质
CN113920379B (zh) 一种基于知识辅助的零样本图像分类方法
CN115238909A (zh) 一种基于联邦学习的数据价值评估方法及其相关设备
CN117036834B (zh) 基于人工智能的数据分类方法、装置及电子设备
CN113837307A (zh) 数据相似度计算方法、装置、可读介质及电子设备
CN112926341A (zh) 文本数据处理方法、装置
CN113268985A (zh) 基于关系路径的远程监督关系抽取方法、装置及介质
CN110851600A (zh) 基于深度学习的文本数据处理方法及装置
CN114120074B (zh) 基于语义增强的图像识别模型的训练方法和训练装置
CN113761875B (zh) 事件抽取方法、装置、电子设备及存储介质
CN115080740A (zh) 非结构化数据的分类方法、装置、可读介质及电子设备
CN115186096A (zh) 针对特定类型分词的识别方法、装置、介质及电子设备
CN113190662A (zh) 基于篇章结构图网络的话题分割方法
CN111242520A (zh) 特征合成模型的生成方法、装置及电子设备
CN115114910B (zh) 文本处理方法、装置、设备、存储介质及产品
CN113537372B (zh) 一种地址识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination