CN115905456B - 一种数据识别方法、系统、设备及计算机可读存储介质 - Google Patents
一种数据识别方法、系统、设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN115905456B CN115905456B CN202310016221.7A CN202310016221A CN115905456B CN 115905456 B CN115905456 B CN 115905456B CN 202310016221 A CN202310016221 A CN 202310016221A CN 115905456 B CN115905456 B CN 115905456B
- Authority
- CN
- China
- Prior art keywords
- entity
- vectorization
- text data
- target
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 87
- 238000000605 extraction Methods 0.000 claims abstract description 32
- 238000004590 computer program Methods 0.000 claims description 54
- 239000013598 vector Substances 0.000 claims description 28
- 238000005065 mining Methods 0.000 claims description 15
- 238000011176 pooling Methods 0.000 claims description 7
- 230000010365 information processing Effects 0.000 abstract description 2
- 230000000875 corresponding effect Effects 0.000 description 57
- 238000004891 communication Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种数据识别方法、系统、设备及计算机可读存储介质,应用于信息处理技术领域,获取目标数量个文本数据;对于每个文本数据,均对文本数据进行实体识别,得到实体识别结果;提取文本数据的第一全局向量化特征;提取各个实体识别结果各自的实体向量化特征;基于实体向量化特征,确定所有的实体识别结果的第二全局向量化特征;将第一全局向量化特征与第二全局向量化特征进行连接,得到文本数据的目标向量化特征;基于目标向量化特征对文本数据进行聚类,得到聚类结果;基于聚类结果,生成对应的事件模式信息;基于事件模式信息对目标数据进行事件抽取,得到事件信息;基于事件信息对目标数据进行识别,可以高效率的得到识别结果。
Description
技术领域
本申请涉及信息处理技术领域,更具体地说,涉及一种数据识别方法、系统、设备及计算机可读存储介质。
背景技术
事件抽取是信息抽取领域的一个重要研究方向。事件抽取旨在将非结构的文本信息中描述的事件,按照人们的需求以结构化的形式识别、抽取、表现出来。事件作为信息的一种表现形式,通常事件的载体为句子,旨在将这些信息从非结构化文本中抽取出来并以结构化的方式表示。现有的事件抽取过程中需要依据事件模式来进行,而现有的事件模式是由用户人为构建的,效率低,影响事件抽取的效率,继而影响基于事件对数据进行识别的效率。
综上所述,如何提高数据识别效率是目前本领域技术人员亟待解决的问题。
发明内容
本申请的目的是提供一种数据识别方法,其能在一定程度上解决如何提高数据识别效率的技术问题。本申请还提供了一种数据识别系统、设备及计算机可读存储介质。
为了实现上述目的,本申请提供如下技术方案:
一种数据识别方法,包括:
获取目标数量个文本数据;
对于每个所述文本数据,均对所述文本数据进行实体识别,得到实体识别结果;提取所述文本数据的第一全局向量化特征;提取各个所述实体识别结果各自的实体向量化特征;基于所述实体向量化特征,确定所有的所述实体识别结果的第二全局向量化特征;将所述第一全局向量化特征与所述第二全局向量化特征进行连接,得到所述文本数据的目标向量化特征;
基于所述目标向量化特征对所述文本数据进行聚类,得到聚类结果;
基于所述聚类结果,生成对应的事件模式信息;
基于所述事件模式信息对目标数据进行事件抽取,得到事件信息;
基于所述事件信息对所述目标数据进行识别,得到识别结果。
优选的,所述对所述文本数据进行实体识别,得到实体识别结果,包括:
对所述文本数据进行实体识别,得到对应的实体信息;
确定所述实体信息在所述文本数据中的起始索引位置和结束索引位置;
确定所述实体信息的类型;
将所述文本数据作为key,将所述起始索引位置、所述结束索引位置、所述类型作为value,生成所述实体识别结果。
优选的,所述对所述文本数据进行实体识别,得到实体识别结果,包括:
通过BERT-BiLSTM-CRF工具对所述文本数据进行实体识别,得到所述实体识别结果。
优选的,所述提取各个所述实体识别结果各自的实体向量化特征,包括:
提取所述文本数据中每个字的字向量特征;
对于每个所述实体识别结果,根据所述起始索引位置和所述结束索引位置,在所述字向量特征中确定所述实体信息中各个字对应的所述字向量特征,并对所述实体信息中各个字对应的所述字向量特征进行最大池化操作,得到所述实体向量化特征。
优选的,所述基于所述实体向量化特征,确定所有的所述实体识别结果的第二全局向量化特征,包括:
将所有所述实体向量化特征的平均值作为所述第二全局向量化特征。
优选的,所述提取所述文本数据的第一全局向量化特征;提取各个所述实体识别结果各自的实体向量化特征,包括:
通过BERT模型提取所述文本数据的所述第一全局向量化特征,提取各个所述实体识别结果各自的所述实体向量化特征。
优选的,所述基于所述目标向量化特征对所述文本数据进行聚类,得到聚类结果,包括:
通过DBSCAN方法来基于所述目标向量化特征对所述文本数据进行聚类,得到所述聚类结果。
优选的,所述通过DBSCAN方法来基于所述目标向量化特征对所述文本数据进行聚类之前,还包括:
基于所述目标向量化特征的总数量及所述实体识别结果的总数量确定所述DBSCAN方法中的聚类密度半径和聚类簇最少数目。
优选的,所述基于所述目标向量化特征的总数量及所述实体识别结果的总数量确定所述DBSCAN方法中的聚类密度半径和聚类簇最少数目,包括:
通过运算公式,基于所述目标向量化特征的总数量及所述实体识别结果的总数量确定所述DBSCAN方法中的所述聚类密度半径和所述聚类簇最少数目;
所述运算公式包括:
优选的,所述基于所述聚类结果,生成对应的事件模式信息,包括:
对于每类所述聚类结果,将所述聚类结果对应的所述实体识别结果组合为数据项集;对所述数据项集进行频繁项集挖掘,得到最频繁的实体类型项集;基于所述实体类型项集生成所述事件模式信息。
优选的,所述对所述数据项集进行频繁项集挖掘,包括:
基于Apriori算法对所述数据项集进行频繁项集挖掘。
优选的,所述Apriori算法的支持度阈值在0.56至0.64之间。
一种数据识别系统,包括:
获取模块,用于获取目标数量个文本数据;
提取模块,用于对于每个所述文本数据,均对所述文本数据进行实体识别,得到实体识别结果;提取所述文本数据的第一全局向量化特征;提取各个所述实体识别结果各自的实体向量化特征;基于所述实体向量化特征,确定所有的所述实体识别结果的第二全局向量化特征;将所述第一全局向量化特征与所述第二全局向量化特征进行连接,得到所述文本数据的目标向量化特征;
聚类模块,用于基于所述目标向量化特征对所述文本数据进行聚类,得到聚类结果;
生成模块,用于基于所述聚类结果,生成对应的事件模式信息;
抽取模块,用于基于所述事件模式信息对目标数据进行事件抽取,得到事件信息;
识别模块,用于基于所述事件信息对所述目标数据进行识别,得到识别结果。
一种数据识别设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上任一所述数据识别方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现如上任一所述数据识别方法的步骤。
本申请提供的一种数据识别方法,获取目标数量个文本数据;对于每个文本数据,均对文本数据进行实体识别,得到实体识别结果;提取文本数据的第一全局向量化特征;提取各个实体识别结果各自的实体向量化特征;基于实体向量化特征,确定所有的实体识别结果的第二全局向量化特征;将第一全局向量化特征与第二全局向量化特征进行连接,得到文本数据的目标向量化特征;基于目标向量化特征对文本数据进行聚类,得到聚类结果;基于聚类结果,生成对应的事件模式信息;基于事件模式信息对目标数据进行事件抽取,得到事件信息;基于事件信息对目标数据进行识别,得到识别结果。本申请中,可以提取获取的各个文本数据的目标向量化特征,并基于目标向量化特征对文本数据进行聚类,得到聚类结果,以此来将相似的文本数据聚类在一起,最后再基于聚类结果,便可以自动生成相似的文本数据对应的事件模式信息,整个过程无需人工参与,效率高,继而可以高效率的基于事件模式信息对目标数据进行识别。本申请提供的一种数据识别系统、设备及计算机可读存储介质也解决了相应技术问题。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的一种数据识别方法的第一流程图;
图2为本申请实施例提供的一种数据识别方法的第二流程图;
图3为本申请实施例提供的一种数据识别系统的结构示意图;
图4为本申请实施例提供的一种数据识别设备的结构示意图;
图5为本申请实施例提供的一种数据识别设备的另一结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参阅图1,图1为本申请实施例提供的一种数据识别方法的第一流程图。
本申请实施例提供的一种数据识别方法,可以包括以下步骤:
步骤S101:获取目标数量个文本数据。
实际应用中,可以先获取用于生成事件模式信息的文本数据,文本数据的类型及数量等可以根据实际需要确定,比如文本数据可以为医学文本,则生成的事件模式信息可以为对应的医学事件模式信息,再比如文本数据可以为服务器诊断数据,则生成的事件模式信息可以为对应的服务器诊断事件模式信息等,本申请在此不做具体限定。
步骤S102:提取各个文本数据的目标向量化特征。
实际应用中,在获取目标数量个文本数据之后,便可以提取各个文本数据的目标向量化特征,以便基于目标向量化特征来生成文本数据对应的事件模式信息。
具体应用场景中,在提取各个文本数据的目标向量化特征的过程中,对于每个文本数据,均可以对文本数据进行实体识别,得到实体识别结果,基于实体识别结果提取文本数据的目标向量化特征。也即可以基于文本数据中的实体信息来生成文本数据对应的目标向量化特征,因为实体信息反映了文本数据中的有效信息,所以基于实体识别结果提取文本数据的目标向量化特征的话,可以使得目标向量化特征更好的反应文本数据中的有效信息,这样,后续基于目标向量化特征生成的事件模式信息能够与文本数据中的有效信息相对应,能够保证生成的事件模式信息的准确性。
具体应用场景中,在对文本数据进行实体识别,得到实体识别结果的过程中,可以对文本数据进行实体识别,得到对应的实体信息,比如采用现有的实体识别工具,例如BERT-BiLSTM-CRF工具等来对文本数据进行实体识别,得到对应的实体信息;确定实体信息在文本数据中的起始索引位置和结束索引位置;确定实体信息的类型;将文本数据作为key,将起始索引位置、结束索引位置、类型作为value,生成实体识别结果。为便于理解,假设文本数据用Document表示,则实体识别结果的形式可以如下:
{
Document 1: [{start: x, end: y, type: entity type},…, {start: x,end:y, type: entity type}],
……,
Document n: [{start: x, end: y, type: entity type},…, {start: x,end:y, type: entity type}]
};
其中,n表示文本数据的个数,start和end分别代表实体在文本数据中的起始和结束的索引位置,type记录了实体的类型。此外,具体应用场景中,为了便于保存实体识别结果,还可以借助字典来保存实体识别结果等,本申请在此不做具体限定。
步骤S103:基于目标向量化特征对文本数据进行聚类,得到聚类结果。
实际应用中,在提取各个文本数据的目标向量化特征之后,便可以基于目标向量化特征对文本数据进行聚类,得到相应的聚类结果。因为使用同一种方法将每个文本数据构建特征向量后,所有文本数据处于同一个向量空间,相似语义或者相似特征的文本数据的位置会相对邻近,而聚类即为采用一定的方法对这些向量进行划分,进而将较为邻近的向量聚为一类,所以相似的文本数据的向量化特征也比较相似,此时基于目标向量化特征对文本数据进行聚类的话,便可以将相似的文本数据聚类在一起。
需要说明的是,基于目标向量化特征对文本数据进行聚类得到聚类结果中所应用的聚类方法可以根据实际需要确定,比如可以采用DBSCAN(Density-Based SpatialClustering of Applications wit,聚类算法)基于目标向量化特征对文本数据进行聚类得到聚类结果等,本申请在此不做具体限定。
需要说明的是,DBSCAN方法是基于数据在向量空间的密度进行聚类的算法,其将聚类簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为聚类簇,并可在噪声的向量空间中发现任意形状的聚类。DBSCAN方法的描述如下:
输入: 包含n个对象的数据库,半径e,最少数目MinPts;
输出:所有生成的簇,达到密度要求。
1)Repeat;
2)从数据库中抽出一个未处理的点;
3)IF抽出的点是核心点,
THEN 找出所有从该点密度相连的对象,形成一个簇;
4)ELSE 抽出的点是边缘点(非核心对象),跳出本次循环,寻找下一个点;
5)UNTIL 所有的点都被处理。
在应用DBSCAN方法的过程中,DBSCAN方法的输入为三个参数:待聚类数据集,聚类密度半径e,聚类簇最少数目MinPts。且DBSCAN对于输入的参数很敏感,细微的不同都可能导致差别很大的结果,所以需尽可能确保DBSCAN方法的输入参数准确,而现有DBSCAN方法的应用过程中,参数的选择无规律可循,只能靠经验确定,为了解决此问题,本申请基于目标向量化特征的总数量及实体识别结果的总数量确定DBSCAN方法中的聚类密度半径和聚类簇最少数目,具体的,可以通过运算公式,基于目标向量化特征的总数量及实体识别结果的总数量确定DBSCAN方法中的聚类密度半径和聚类簇最少数目;
运算公式包括:
步骤S104:基于聚类结果,生成对应的事件模式信息。
实际应用中,在基于目标向量化特征对文本数据进行聚类,得到聚类结果之后,便可以基于聚类结果,生成对应的事件模式信息。
步骤S105:基于事件模式信息对目标数据进行事件抽取,得到事件信息。
步骤S106:基于事件信息对目标数据进行识别,得到识别结果。
实际应用中,在基于聚类结果,生成对应的事件模式信息之后,便可以基于事件模式信息对目标数据进行事件抽取,得到相应的事件信息,并基于事件信息对目标数据进行识别,得到识别结果,比如对事件信息进行解读来得到反映目标数据中核心信息的识别结果,比如目标数据为服务器诊断数据时,识别结果可以为服务器故障原因等,本申请在此不做具体限定。
本申请提供的一种数据识别方法,获取目标数量个文本数据;对于每个文本数据,均对文本数据进行实体识别,得到实体识别结果;提取文本数据的第一全局向量化特征;提取各个实体识别结果各自的实体向量化特征;基于实体向量化特征,确定所有的实体识别结果的第二全局向量化特征;将第一全局向量化特征与第二全局向量化特征进行连接,得到文本数据的目标向量化特征;基于目标向量化特征对文本数据进行聚类,得到聚类结果;基于聚类结果,生成对应的事件模式信息;基于事件模式信息对目标数据进行事件抽取,得到事件信息;基于事件信息对目标数据进行识别,得到识别结果。本申请中,可以提取获取的各个文本数据的目标向量化特征,并基于目标向量化特征对文本数据进行聚类,得到聚类结果,以此来将相似的文本数据聚类在一起,最后再基于聚类结果,便可以自动生成相似的文本数据对应的事件模式信息,整个过程无需人工参与,效率高,继而可以高效率的基于事件模式信息对目标数据进行识别。
请参阅图2,图2为本申请实施例提供的一种数据识别方法的第二流程图。
本申请实施例提供的一种数据识别方法,可以包括以下步骤:
步骤S201:获取目标数量个文本数据。
步骤S202:对于每个文本数据,均对文本数据进行实体识别,得到实体识别结果,提取文本数据的第一全局向量化特征;提取各个实体识别结果各自的实体向量化特征;基于实体向量化特征,确定所有的实体识别结果的第二全局向量化特征;将第一全局向量化特征与第二全局向量化特征进行连接,得到目标向量化特征。
实际应用中,在基于实体识别结果提取文本数据的目标向量化特征的过程中,可以提取文本数据的第一全局向量化特征,提取各个实体识别结果各自的实体向量化特征,基于实体向量化特征,确定所有的实体识别结果的第二全局向量化特征,将第一全局向量化特征与第二全局向量化特征进行连接,得到目标向量化特征。
具体应用场景中,在提取各个实体识别结果各自的实体向量化特征的过程中,可以提取文本数据中每个字的字向量特征;对于每个实体识别结果,根据起始索引位置和结束索引位置,在字向量特征中确定实体信息中各个字对应的字向量特征,并对实体信息中各个字对应的字向量特征进行最大池化操作,得到实体向量化特征。
具体应用场景中,在基于实体向量化特征,确定所有的实体识别结果的第二全局向量化特征的过程中,可以将所有实体向量化特征的平均值作为第二全局向量化特征。
为了便于理解,假设Document由长度为N的token序列{w1,w2,…,wN}组成,利用语
言预训练模型BERT来得到该Document的向量化特征为{eCLS,e1,e2,…,eN},其中,eCLS表示第
一全局向量化特征,eN表示该Document中第N个字的字向量特征,则对于每个实体,根据
start和end的索引位置,利用BERT提取特征,得到类型c的第i个实体的原始二维特征为,然后通过最大池化操作得到实体的特征为,之后将Document对应该类型所有实体进行平均得到实体信息
特征,如果该实体类型在本文档中无实体,则初始化为0向量。最后,连
接Document医疗文本特征与对应的k类实体信息特征作为每条数据的特征。
步骤S203:基于目标向量化特征对文本数据进行聚类,得到聚类结果。
步骤S204:对于每类聚类结果,在聚类结果对应的实体识别结果中确定出实体的组合模式,基于Apriori算法及组合模式生成事件模式信息。
实际应用中,在基于聚类结果,生成对应的事件模式信息的过程中,对于每类聚类结果,可以将聚类结果对应的实体识别结果组合为数据项集,对数据项集进行频繁项集挖掘,得到最频繁的实体类型项集,基于实体类型项集生成对应的事件模式信息。具体的,可以基于Apriori算法对数据项集进行频繁项集挖掘,且Apriori算法的支持度阈值可以在0.56至0.64之间,也即可以在[0.56,0.64]间选取数值作为Apriori算法的支持度阈值。
具体应用场景中,在基于聚类结果,生成对应的事件模式信息之后,便可以基于生成的事件模式信息进行事件抽取操作,需要说明的是,通常组成事件的各元素包括:事件触发词、事件论元、论元角色及事件类型。其具体意义如下:
事件触发词:触发事件的核心词,通常是动词或者名词;
事件论元:事件所包含的用户感兴趣的语义对象,通常是一个名词;
论元角色:论元在事件中所扮演的角色,即为事件的参与对象;
事件类型:事件所属的事件类型,事件触发词和事件论元角色共同决定了事件的类别。
事件抽取任务可分解为 4 个子任务:事件触发词识别、事件类型分类、论元识别和论元角色分类任务。其中,事件触发词识别和事件类型分类可合并成事件类别分类任务。事件论元识别和论元角色分类可合并成事件论元识别任务。相应的,在基于实体类型项集生成对应的事件模式信息的过程中,可以将实体类型项集作为事件论元的模板,并据此定义该类聚合结果中的文本数据所对应事件模式的论元模板,以此来生成相应的事件模式信息等。
事件类别分类是指将文本中的事件句检测出来并依据一定的特征判断其所属事件类别。事件类别是典型的分类问题。在事件类别分类任务中,一种是采用基于触发词来识别事件类别的方法。首先根据训练语料获取事件触发词和其对应的事件候选类别映射关系。然后利用这种映射关系识别出文档中的触发词和其对应的候选事件类别,以此确定候选事件。也可以使用文本的词法信息,上下文信息等特征,利用分类器对候选事件进行分类,从候选事件中提取出真正的事件。
对于事件论元识别任务,依据事件类型指定的事件论元模式,其描述该事件类型所包含的事件论元角色,通过特征提取进行多元分类等方法,从文本中获取事件的论元信息,通常看成序列标注问题,通过词法,结合上下文信息对句子中的逐个词进行分类标注,提取出符合要求的事件论元。综合来看,一个完整的事件定义,需要包括(1)事件类型,其中识别事件触发词是一种可能的方式,但非必要;(2)事件类型对应的事件论元模式,即所对应的事件论元角色。
步骤S205:基于事件模式信息对目标数据进行事件抽取,得到事件信息。
步骤S206:基于事件信息对目标数据进行识别,得到识别结果。
请参阅图3,图3为本申请实施例提供的一种数据识别系统的结构示意图。
本申请实施例提供的一种数据识别系统,可以包括:
获取模块101,用于获取目标数量个文本数据;
提取模块102,用于对于每个文本数据,均对文本数据进行实体识别,得到实体识别结果;提取文本数据的第一全局向量化特征;提取各个实体识别结果各自的实体向量化特征;基于实体向量化特征,确定所有的实体识别结果的第二全局向量化特征;将第一全局向量化特征与第二全局向量化特征进行连接,得到文本数据的目标向量化特征;
聚类模块103,用于基于目标向量化特征对文本数据进行聚类,得到聚类结果;
生成模块104,用于基于聚类结果,生成对应的事件模式信息;
抽取模块105,用于基于事件模式信息对目标数据进行事件抽取,得到事件信息;
识别模块106,用于基于事件信息对目标数据进行识别,得到识别结果。
本申请实施例提供的一种数据识别系统,提取模块可以用于:对文本数据进行实体识别,得到对应的实体信息;确定实体信息在文本数据中的起始索引位置和结束索引位置;确定实体信息的类型;将文本数据作为key,将起始索引位置、结束索引位置、类型作为value,生成实体识别结果。
本申请实施例提供的一种数据识别系统,提取模块可以用于:通过BERT-BiLSTM-CRF工具对文本数据进行实体识别,得到实体识别结果。
本申请实施例提供的一种数据识别系统,提取模块可以用于:提取文本数据中每个字的字向量特征;对于每个实体识别结果,根据起始索引位置和结束索引位置,在字向量特征中确定实体信息中各个字对应的字向量特征,并对实体信息中各个字对应的字向量特征进行最大池化操作,得到实体向量化特征。
本申请实施例提供的一种数据识别系统,提取模块可以用于:将所有实体向量化特征的平均值作为第二全局向量化特征。
本申请实施例提供的一种数据识别系统,提取模块可以用于:通过BERT模型提取文本数据的第一全局向量化特征,提取各个实体识别结果各自的实体向量化特征。
本申请实施例提供的一种数据识别系统,聚类模块可以包括:
聚类单元,用于通过DBSCAN方法来基于目标向量化特征对文本数据进行聚类,得到聚类结果。
本申请实施例提供的一种数据识别系统,还可以包括:
确定单元,用于聚类单元通过DBSCAN方法来基于目标向量化特征对文本数据进行聚类之前,基于目标向量化特征的总数量及实体识别结果的总数量确定DBSCAN方法中的聚类密度半径和聚类簇最少数目。
本申请实施例提供的一种数据识别系统,确定单元可以用于:通过运算公式,基于目标向量化特征的总数量及实体识别结果的总数量确定DBSCAN方法中的聚类密度半径和聚类簇最少数目;
运算公式包括:
本申请实施例提供的一种数据识别系统,生成模块可以包括:
生成单元,用于对于每类聚类结果,将聚类结果对应的实体识别结果组合为数据项集;对数据项集进行频繁项集挖掘,得到最频繁的实体类型项集;基于实体类型项集生成事件模式信息。
本申请实施例提供的一种数据识别系统,生成单元可以用于:基于Apriori算法对数据项集进行频繁项集挖掘。
本申请实施例提供的一种数据识别系统,Apriori算法的支持度阈值在0.56至0.64之间。
本申请还提供了一种数据识别设备及计算机可读存储介质,其均具有本申请实施例提供的一种数据识别方法具有的对应效果。请参阅图4,图4为本申请实施例提供的一种数据识别设备的结构示意图。
本申请实施例提供的一种数据识别设备,包括存储器201和处理器202,存储器201中存储有计算机程序,处理器202执行计算机程序时实现如下步骤:
获取目标数量个文本数据;
对于每个文本数据,均对文本数据进行实体识别,得到实体识别结果;提取文本数据的第一全局向量化特征;提取各个实体识别结果各自的实体向量化特征;基于实体向量化特征,确定所有的实体识别结果的第二全局向量化特征;将第一全局向量化特征与第二全局向量化特征进行连接,得到文本数据的目标向量化特征;
基于目标向量化特征对文本数据进行聚类,得到聚类结果;
基于聚类结果,生成对应的事件模式信息;
基于事件模式信息对目标数据进行事件抽取,得到事件信息;
基于事件信息对目标数据进行识别,得到识别结果。
本申请实施例提供的一数据识别设备,包括存储器201和处理器202,存储器201中存储有计算机程序,处理器202执行计算机程序时实现如下步骤:对文本数据进行实体识别,得到对应的实体信息;确定实体信息在文本数据中的起始索引位置和结束索引位置;确定实体信息的类型;将文本数据作为key,将起始索引位置、结束索引位置、类型作为value,生成实体识别结果。
本申请实施例提供的一种数据识别设备,包括存储器201和处理器202,存储器201中存储有计算机程序,处理器202执行计算机程序时实现如下步骤:通过BERT-BiLSTM-CRF工具对文本数据进行实体识别,得到实体识别结果。
本申请实施例提供的一种数据识别设备,包括存储器201和处理器202,存储器201中存储有计算机程序,处理器202执行计算机程序时实现如下步骤:提取文本数据中每个字的字向量特征;对于每个实体识别结果,根据起始索引位置和结束索引位置,在字向量特征中确定实体信息中各个字对应的字向量特征,并对实体信息中各个字对应的字向量特征进行最大池化操作,得到实体向量化特征。
本申请实施例提供的一种数据识别设备,包括存储器201和处理器202,存储器201中存储有计算机程序,处理器202执行计算机程序时实现如下步骤:将所有实体向量化特征的平均值作为第二全局向量化特征。
本申请实施例提供的一种数据识别设备,包括存储器201和处理器202,存储器201中存储有计算机程序,处理器202执行计算机程序时实现如下步骤:通过BERT模型提取文本数据的第一全局向量化特征,提取各个实体识别结果各自的实体向量化特征。
本申请实施例提供的一种数据识别设备,包括存储器201和处理器202,存储器201中存储有计算机程序,处理器202执行计算机程序时实现如下步骤:通过DBSCAN方法来基于目标向量化特征对文本数据进行聚类,得到聚类结果。
本申请实施例提供的一种数据识别设备,包括存储器201和处理器202,存储器201中存储有计算机程序,处理器202执行计算机程序时实现如下步骤:通过DBSCAN方法来基于目标向量化特征对文本数据进行聚类之前,基于目标向量化特征的总数量及实体识别结果的总数量确定DBSCAN方法中的聚类密度半径和聚类簇最少数目。
本申请实施例提供的一种数据识别设备,包括存储器201和处理器202,存储器201中存储有计算机程序,处理器202执行计算机程序时实现如下步骤:通过运算公式,基于目标向量化特征的总数量及实体识别结果的总数量确定DBSCAN方法中的聚类密度半径和聚类簇最少数目;
运算公式包括:
本申请实施例提供的一种数据识别设备,包括存储器201和处理器202,存储器201中存储有计算机程序,处理器202执行计算机程序时实现如下步骤:对于每类聚类结果,将聚类结果对应的实体识别结果组合为数据项集;对数据项集进行频繁项集挖掘,得到最频繁的实体类型项集;基于实体类型项集生成事件模式信息。
本申请实施例提供的一种数据识别设备,包括存储器201和处理器202,存储器201中存储有计算机程序,处理器202执行计算机程序时实现如下步骤:基于Apriori算法对数据项集进行频繁项集挖掘。
本申请实施例提供的一种数据识别设备,包括存储器201和处理器202,存储器201中存储有计算机程序,处理器202执行计算机程序时实现如下步骤:Apriori算法的支持度阈值在0.56至0.64之间。
请参阅图5,本申请实施例提供的另一种数据识别设备中还可以包括:与处理器202连接的输入端口203,用于传输外界输入的命令至处理器202;与处理器202连接的显示单元204,用于显示处理器202的处理结果至外界;与处理器202连接的通信模块205,用于实现数据识别设备与外界的通信。显示单元204可以为显示面板、激光扫描使显示器等;通信模块205所采用的通信方式包括但不局限于移动高清链接技术(HML)、通用串行总线(USB)、高清多媒体接口(HDMI)、无线连接:无线保真技术(WiFi)、蓝牙通信技术、低功耗蓝牙通信技术、基于IEEE802.11s的通信技术。
本申请实施例提供的一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序被处理器执行时实现如下步骤:
获取目标数量个文本数据;
对于每个文本数据,均对文本数据进行实体识别,得到实体识别结果;提取文本数据的第一全局向量化特征;提取各个实体识别结果各自的实体向量化特征;基于实体向量化特征,确定所有的实体识别结果的第二全局向量化特征;将第一全局向量化特征与第二全局向量化特征进行连接,得到文本数据的目标向量化特征;
基于目标向量化特征对文本数据进行聚类,得到聚类结果;
基于聚类结果,生成对应的事件模式信息;
基于事件模式信息对目标数据进行事件抽取,得到事件信息;
基于事件信息对目标数据进行识别,得到识别结果。
本申请实施例提供的一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序被处理器执行时实现如下步骤:对文本数据进行实体识别,得到对应的实体信息;确定实体信息在文本数据中的起始索引位置和结束索引位置;确定实体信息的类型;将文本数据作为key,将起始索引位置、结束索引位置、类型作为value,生成实体识别结果。
本申请实施例提供的一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序被处理器执行时实现如下步骤:通过BERT-BiLSTM-CRF工具对文本数据进行实体识别,得到实体识别结果。
本申请实施例提供的一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序被处理器执行时实现如下步骤:提取文本数据中每个字的字向量特征;对于每个实体识别结果,根据起始索引位置和结束索引位置,在字向量特征中确定实体信息中各个字对应的字向量特征,并对实体信息中各个字对应的字向量特征进行最大池化操作,得到实体向量化特征。
本申请实施例提供的一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序被处理器执行时实现如下步骤:将所有实体向量化特征的平均值作为第二全局向量化特征。
本申请实施例提供的一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序被处理器执行时实现如下步骤:通过BERT模型提取文本数据的第一全局向量化特征,提取各个实体识别结果各自的实体向量化特征。
本申请实施例提供的一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序被处理器执行时实现如下步骤:通过DBSCAN方法来基于目标向量化特征对文本数据进行聚类,得到聚类结果。
本申请实施例提供的一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序被处理器执行时实现如下步骤:通过DBSCAN方法来基于目标向量化特征对文本数据进行聚类之前,基于目标向量化特征的总数量及实体识别结果的总数量确定DBSCAN方法中的聚类密度半径和聚类簇最少数目。
本申请实施例提供的一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序被处理器执行时实现如下步骤:通过运算公式,基于目标向量化特征的总数量及实体识别结果的总数量确定DBSCAN方法中的聚类密度半径和聚类簇最少数目;
运算公式包括:
本申请实施例提供的一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序被处理器执行时实现如下步骤:对于每类聚类结果,将聚类结果对应的实体识别结果组合为数据项集;对数据项集进行频繁项集挖掘,得到最频繁的实体类型项集;基于实体类型项集生成事件模式信息。
本申请实施例提供的一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序被处理器执行时实现如下步骤:基于Apriori算法对数据项集进行频繁项集挖掘。
本申请实施例提供的一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序被处理器执行时实现如下步骤:Apriori算法的支持度阈值在0.56至0.64之间。
本申请所涉及的计算机可读存储介质包括随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质。
本申请实施例提供的数据识别系统、设备及计算机可读存储介质中相关部分的说明请参见本申请实施例提供的数据识别方法中对应部分的详细说明,在此不再赘述。另外,本申请实施例提供的上述技术方案中与现有技术中对应技术方案实现原理一致的部分并未详细说明,以免过多赘述。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (14)
1.一种数据识别方法,其特征在于,包括:
获取目标数量个文本数据;
对于每个所述文本数据,均对所述文本数据进行实体识别,得到实体识别结果;提取所述文本数据的第一全局向量化特征;提取各个所述实体识别结果各自的实体向量化特征;基于所述实体向量化特征,确定所有的所述实体识别结果的第二全局向量化特征;将所述第一全局向量化特征与所述第二全局向量化特征进行连接,得到所述文本数据的目标向量化特征;
基于所述目标向量化特征对所述文本数据进行聚类,得到聚类结果;
基于所述聚类结果,生成相似的所述文本数据对应的事件模式信息;
基于所述事件模式信息对目标数据进行事件抽取,得到事件信息;
基于所述事件信息对所述目标数据进行识别,得到识别结果;
其中,所述基于所述聚类结果,生成相似的所述文本数据对应的事件模式信息,包括:对于每类所述聚类结果,将所述聚类结果对应的所述实体识别结果组合为数据项集;对所述数据项集进行频繁项集挖掘,得到最频繁的实体类型项集;基于所述实体类型项集生成所述事件模式信息。
2.根据权利要求1所述的方法,其特征在于,所述对所述文本数据进行实体识别,得到实体识别结果,包括:
对所述文本数据进行实体识别,得到对应的实体信息;
确定所述实体信息在所述文本数据中的起始索引位置和结束索引位置;
确定所述实体信息的类型;
将所述文本数据作为key,将所述起始索引位置、所述结束索引位置、所述类型作为value,生成所述实体识别结果。
3.根据权利要求2所述的方法,其特征在于,所述对所述文本数据进行实体识别,得到实体识别结果,包括:
通过BERT-BiLSTM-CRF工具对所述文本数据进行实体识别,得到所述实体识别结果。
4.根据权利要求2所述的方法,其特征在于,所述提取各个所述实体识别结果各自的实体向量化特征,包括:
提取所述文本数据中每个字的字向量特征;
对于每个所述实体识别结果,根据所述起始索引位置和所述结束索引位置,在所述字向量特征中确定所述实体信息中各个字对应的所述字向量特征,并对所述实体信息中各个字对应的所述字向量特征进行最大池化操作,得到所述实体向量化特征。
5.根据权利要求1所述的方法,其特征在于,所述基于所述实体向量化特征,确定所有的所述实体识别结果的第二全局向量化特征,包括:
将所有所述实体向量化特征的平均值作为所述第二全局向量化特征。
6.根据权利要求1所述的方法,其特征在于,所述提取所述文本数据的第一全局向量化特征;提取各个所述实体识别结果各自的实体向量化特征,包括:
通过BERT模型提取所述文本数据的所述第一全局向量化特征,提取各个所述实体识别结果各自的所述实体向量化特征。
7.根据权利要求1所述的方法,其特征在于,所述基于所述目标向量化特征对所述文本数据进行聚类,得到聚类结果,包括:
通过DBSCAN方法来基于所述目标向量化特征对所述文本数据进行聚类,得到所述聚类结果。
8.根据权利要求7所述的方法,其特征在于,所述通过DBSCAN方法来基于所述目标向量化特征对所述文本数据进行聚类之前,还包括:
基于所述目标向量化特征的总数量及所述实体识别结果的总数量确定所述DBSCAN方法中的聚类密度半径和聚类簇最少数目。
10.根据权利要求1所述的方法,其特征在于,所述对所述数据项集进行频繁项集挖掘,包括:
基于Apriori算法对所述数据项集进行频繁项集挖掘。
11.根据权利要求10所述的方法,其特征在于,所述Apriori算法的支持度阈值在0.56至0.64之间。
12.一种数据识别系统,其特征在于,包括:
获取模块,用于获取目标数量个文本数据;
提取模块,用于对于每个所述文本数据,均对所述文本数据进行实体识别,得到实体识别结果;提取所述文本数据的第一全局向量化特征;提取各个所述实体识别结果各自的实体向量化特征;基于所述实体向量化特征,确定所有的所述实体识别结果的第二全局向量化特征;将所述第一全局向量化特征与所述第二全局向量化特征进行连接,得到所述文本数据的目标向量化特征;
聚类模块,用于基于所述目标向量化特征对所述文本数据进行聚类,得到聚类结果;
生成模块,用于基于所述聚类结果,生成相似的所述文本数据对应的事件模式信息;
抽取模块,用于基于所述事件模式信息对目标数据进行事件抽取,得到事件信息;
识别模块,用于基于所述事件信息对所述目标数据进行识别,得到识别结果;
其中,所述生成模块包括:
生成单元,用于对于每类所述聚类结果,将所述聚类结果对应的所述实体识别结果组合为数据项集;对所述数据项集进行频繁项集挖掘,得到最频繁的实体类型项集;基于所述实体类型项集生成所述事件模式信息。
13.一种数据识别设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至11任一项所述数据识别方法的步骤。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至11任一项所述数据识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310016221.7A CN115905456B (zh) | 2023-01-06 | 2023-01-06 | 一种数据识别方法、系统、设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310016221.7A CN115905456B (zh) | 2023-01-06 | 2023-01-06 | 一种数据识别方法、系统、设备及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115905456A CN115905456A (zh) | 2023-04-04 |
CN115905456B true CN115905456B (zh) | 2023-06-02 |
Family
ID=86476774
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310016221.7A Active CN115905456B (zh) | 2023-01-06 | 2023-01-06 | 一种数据识别方法、系统、设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115905456B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114969360A (zh) * | 2022-05-12 | 2022-08-30 | 中国电子科技集团公司第十研究所 | 文本信息处理方法、装置、设备及存储介质 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107203511B (zh) * | 2017-05-27 | 2020-07-17 | 中国矿业大学 | 一种基于神经网络概率消歧的网络文本命名实体识别方法 |
CN109000940B (zh) * | 2018-05-04 | 2020-05-19 | 中车青岛四方机车车辆股份有限公司 | 一种机车车辆异常轴温诊断方法及系统 |
CN110909548B (zh) * | 2019-10-10 | 2024-03-12 | 平安科技(深圳)有限公司 | 中文命名实体识别方法、装置及计算机可读存储介质 |
CN113886571A (zh) * | 2020-07-01 | 2022-01-04 | 北京三星通信技术研究有限公司 | 实体识别方法、装置、电子设备及计算机可读存储介质 |
CN113536784A (zh) * | 2021-01-05 | 2021-10-22 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、计算机设备和存储介质 |
CN115080709A (zh) * | 2021-03-15 | 2022-09-20 | 阿里巴巴新加坡控股有限公司 | 文本识别方法、装置、非易失性存储介质及计算机设备 |
CN113420595A (zh) * | 2021-05-21 | 2021-09-21 | 北京达佳互联信息技术有限公司 | 数据处理方法、装置、电子设备及存储介质 |
CN115510326A (zh) * | 2022-09-30 | 2022-12-23 | 上海瀛数信息科技有限公司 | 基于文本特征和情感倾向的网络论坛用户兴趣推荐算法 |
-
2023
- 2023-01-06 CN CN202310016221.7A patent/CN115905456B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114969360A (zh) * | 2022-05-12 | 2022-08-30 | 中国电子科技集团公司第十研究所 | 文本信息处理方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115905456A (zh) | 2023-04-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111353310B (zh) | 基于人工智能的命名实体识别方法、装置及电子设备 | |
JP6893233B2 (ja) | 画像に基づくデータ処理方法、装置、電子機器、コンピュータ可読記憶媒体およびコンピュータプログラム | |
RU2678716C1 (ru) | Использование автоэнкодеров для обучения классификаторов текстов на естественном языке | |
RU2628431C1 (ru) | Подбор параметров текстового классификатора на основе семантических признаков | |
US10210245B2 (en) | Natural language question answering method and apparatus | |
KR102310487B1 (ko) | 속성 단위 리뷰 분석 장치 및 방법 | |
US9183285B1 (en) | Data clustering system and methods | |
US20190228320A1 (en) | Method, system and terminal for normalizing entities in a knowledge base, and computer readable storage medium | |
CN110457708B (zh) | 基于人工智能的词汇挖掘方法、装置、服务器及存储介质 | |
CN109408811B (zh) | 一种数据处理方法及服务器 | |
CN116775847B (zh) | 一种基于知识图谱和大语言模型的问答方法和系统 | |
US8243988B1 (en) | Clustering images using an image region graph | |
CN110727839A (zh) | 自然语言查询的语义解析 | |
JP2011501275A (ja) | 異種データセットからの知識移転を伴うテキスト分類 | |
CN112632226B (zh) | 基于法律知识图谱的语义搜索方法、装置和电子设备 | |
CN113127605B (zh) | 一种目标识别模型的建立方法、系统、电子设备及介质 | |
EP3620994A1 (en) | Methods, apparatuses, devices, and computer-readable storage media for determining category of entity | |
US10223349B2 (en) | Inducing and applying a subject-targeted context free grammar | |
CN111274822A (zh) | 语义匹配方法、装置、设备及存储介质 | |
KR101545050B1 (ko) | 정답 유형 자동 분류 방법 및 장치, 이를 이용한 질의 응답 시스템 | |
CN114997288A (zh) | 一种设计资源关联方法 | |
CN116501875A (zh) | 一种基于自然语言和知识图谱的文档处理方法和系统 | |
CN114491079A (zh) | 知识图谱构建和查询方法、装置、设备和介质 | |
CN117290478A (zh) | 一种知识图谱问答方法、装置、设备和存储介质 | |
CN112800244A (zh) | 一种中医药及民族医药知识图谱的构建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |