CN113254635B - 数据处理方法、装置及存储介质 - Google Patents
数据处理方法、装置及存储介质 Download PDFInfo
- Publication number
- CN113254635B CN113254635B CN202110397661.2A CN202110397661A CN113254635B CN 113254635 B CN113254635 B CN 113254635B CN 202110397661 A CN202110397661 A CN 202110397661A CN 113254635 B CN113254635 B CN 113254635B
- Authority
- CN
- China
- Prior art keywords
- entity
- text
- target entity
- processed
- classification network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
Abstract
本申请实施例提出了一种数据处理方法、装置及存储介质,涉及计算机技术领域,该方法包括:获取待处理文本中的目标实体,所述目标实体为所述待处理文本中任一实体;调用第一分类网络对所述目标实体的第一类别信息和实体类型先验数据进行处理,以得到所述目标实体的第二类别信息,所述第一类别信息是通过调用第二分类网络对所述待处理文本和所述目标实体进行处理得到的;基于所述第二类别信息确定所述目标实体的分类结果,所述分类结果包括至少一个实体类型,可以利用实体类型先验数据,有效地提升对实体进行细粒度分类的准确度。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据处理方法、装置及存储介质。
背景技术
自然语言中的实体是指语句中出现的客观世界中存在的,并可相互区别的对象或概念。实体的实体类型识别就是给定一个实体及其所在的上下文,确定实体在该上下文中的类型,比如“苹果”作为一个实体可以是“水果”、“手机”、“公司”。实体类型识别是自然语言处理(Natural Language Processing,NLP)领域中一些复杂任务的基础,例如语义分析、问答系统、机器翻译、知识图谱构建等,因此一直以来都是NLP领域中的研究热点。
目前通常是基于实体和实体的上下文文本来确定实体的分类结果,一般准确度不高,特别是由于短文本存在文本信息不足、噪音等问题,导致准确度会更低。
发明内容
本申请实施例提供了一种数据处理方法、装置及存储介质,可以利用实体类型先验数据,有效地提升对实体进行细粒度分类的准确度。
一方面,本申请实施例提供了一种数据处理方法,所述方法包括:
获取待处理文本中的目标实体,所述目标实体为所述待处理文本中任一实体;
调用第一分类网络对所述目标实体的第一类别信息和实体类型先验数据进行处理,以得到所述目标实体的第二类别信息,所述第一类别信息是通过调用第二分类网络对所述待处理文本和所述目标实体进行处理得到的;
基于所述第二类别信息确定所述目标实体的分类结果,所述分类结果包括至少一个实体类型。
另一方面,本申请实施例提供了一种数据处理装置,所述装置包括:
获取模块,用于获取待处理文本中的目标实体,所述目标实体为所述待处理文本中任一实体;
处理模块,用于调用第一分类网络对所述目标实体的第一类别信息和实体类型先验数据进行处理,以得到所述目标实体的第二类别信息,所述第一类别信息是通过调用第二分类网络对所述待处理文本和所述目标实体进行处理得到的;
所述处理模块,还用于基于所述第二类别信息确定所述目标实体的分类结果,所述分类结果包括至少一个实体类型。
相应地,本申请实施例提供了一种计算机设备,该设备包括处理器、通信接口和存储器,所述处理器、所述通信接口和所述存储器相互连接,其中,所述存储器存储有可执行程序代码,所述处理器用于调用所述可执行程序代码,执行上述任一可能实现方式所述的数据处理方法。
相应地,本申请实施例提供了一种计算机可读存储介质,存储有计算机程序,所述处理器执行上述任一可能实现方式所述的数据处理方法所涉及的程序。
相应地,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述任一可能实现方式所述的数据处理方法。
本申请实施例中,通过调用第二分类网络对待处理文本和目标实体进行处理得到目标实体的第一类别信息,并将第一类别信息和实体类型先验数据作为第一分类网络的输入,得到目标实体的第二类别信息,最后基于第二类别信息确定目标实体的分类结果,可以利用实体类型先验数据,有效地提升对实体进行细粒度分类的准确度。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种数据处理系统的架构示意图;
图2为本申请实施例提供的一种数据处理方法的流程示意图;
图3为本申请实施例提供的另一种数据处理方法的流程示意图;
图4为本申请实施例提供的一种BiLSTM网络的架构示意图;
图5为本申请实施例提供的另一种数据处理方法的流程示意图;
图6是本申请实施例提供的一种数据处理装置的结构示意图;
图7是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请实施例中所涉及到的“第一”、“第二”等描述仅用于描述目的,而不能理解为指示或者暗示其相对重要性或者隐含指明所指示的技术特征的数量。因此,限定有“第一”、“第二”的技术特征可以明示或者隐含的包括至少一个该特征。
人工智能(Artificial Intelligence, AI)技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片云计算、云存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
自然语言处理(Nature Language processing, NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,本申请实施例通过第一分类网络和第二分类网络确定实体的实体类型的过程涉及人工智能的自然语言处理和机器学习等技术,具体通过如下实施例进行说明。
如果只是把实体分到粗粒度的类型体系中,如将“刘德华”确定为“人物”,可以看出粗粒度的类型体系往往不够具体且一般来说类型数目较少,因此对实体进行细粒度分类是非常必要的,细粒度分类是指更加细致的分类,比如将“刘德华”细分为“人物/歌手”、“人物/影视明星”等。
请参阅图1,图1是本申请实施例提供的一种数据处理系统的示意图。该数据处理系统具体可以包括终端设备101和服务器102,终端设备101与服务器102之间通过网络连接,比如,通过无线网络连接等。终端设备101也称为终端(Terminal)、用户设备(userequipment, UE)、接入终端、用户单元、移动设备、用户终端、无线通信设备、用户代理或用户装置。终端设备可以是智能电视、具有无线通信功能的手持设备(例如智能手机、平板电脑)、计算设备(例如个人电脑(personal computer, PC)、车载设备、可穿戴设备或者其他智能装置等,但并不局限于此。
服务器102可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
在一个实施例中,服务器102获取待处理文本中的目标实体,并通过调用第二分类网络对待处理文本和目标实体进行处理得到目标实体的第一类别信息,接着将第一类别信息和实体类型先验数据作为第一分类网络的输入,得到目标实体的第二类别信息,最后基于第二类别信息确定目标实体的分类结果,相比于仅仅利用实体和实体的上下文文本来确定实体在细粒度层面上的分类结果,导致分类准确度较低的方案,本申请可以利用实体类型先验数据来辅助细粒度分类,解决由于文本(特别是短文本)的文本信息不足、文本信息有噪音等问题导致的识别效果不佳的问题,有效地提升对实体进行细粒度分类的准确度。
在一个实施例中,可以将安装在终端设备101上的浏览客户端的浏览历史记录作为待处理文本,服务器102通过调用第一分类网络和第二分类网络对浏览历史记录和浏览历史记录中的实体进行识别,可以确定用户的兴趣标签,使得可以针对用户的兴趣标签进行个性化推荐。
在一个实施例中,服务器102可作为区块链上的节点,实体类型先验数据和分类结果可保存于区块链上。
可以理解的是,本申请实施例描述的系统的架构示意图是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着系统架构的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
如图2所示,是本申请实施例基于图1的数据处理系统提供的一种数据处理方法。以应用于图1中提及的服务器102为例。以下结合图2对本申请实施例的所述方法进行说明。
S201、获取待处理文本中的目标实体,所述目标实体为所述待处理文本中任一实体。
在一个实施例中,实体主要指的是文本中的原子信息元素,包括人物、组织/机构名、地理位置、事件/日期、字符值、金额值等,比如说“刘德华”、“北京”、“狮子”等等都是一个个具体的实体。待处理文本中可以包括一个或多个实体,目标实体为待处理文本中的任一实体。
在一个实施例中,待处理文本可以是长度小于预设字数(例如15个字符或15个汉字)的短文本,当然也可以是长文本,本申请不对待处理文本的长度进行限定。
S202、调用第一分类网络对所述目标实体的第一类别信息和实体类型先验数据进行处理,以得到所述目标实体的第二类别信息,所述第一类别信息是通过调用第二分类网络对所述待处理文本和所述目标实体进行处理得到的。
在一个实施例中,第一分类网络和第二分类网络均用于对目标实体进行分类。首先通过调用第二分类网络对待处理文本和目标实体进行处理得到第一类别信息,同时针对文本信息不足、文本信息有噪音的问题,融入目标实体的实体类型先验数据,将实体类型先验数据与第一类别信息一起作为第一分类网络的输入,从概率的角度来进一步辅助实体分类,以得到目标实体的第二类别信息。
其中,实体类型先验数据是根据先验信息确定的目标实体属于预定义的多个实体类型中每个实体类型的概率。
在一个实施例中,先验信息可以是:针对包括目标实体的多个文本,从预定义的多个实体类型中,对每个文本中目标实体的实体类型进行标注的标注结果。
其中,第一类别信息是利用第二分类网络预测的目标实体在预定义的多个实体类型中每个实体类型上的概率;第二类别信息是利用第一分类网络预测的目标实体在预定义的多个实体类型中每个实体类型上的概率,例如预定义三个实体类型:“人物”、“演员”、“歌手”,第二类别信息可以是[0.1,0.4,0.5],表示目标实体属于“人物”、“演员”、“歌手”的预测概率分别为0.1、0.4、0.5。
在一个实施例中,第一类别信息和第二类别信息中包括多个层级的实体类型,可以根据具体需求设定,同时第一类别信息包括的实体类型与第二类别信息包括的实体类型一致,其中,在层级结构中的级别越高,则说明实体类型对应的内容的范围越大,例如,第一层级可以包括三大类,包括实体类、数字类和时间类,针对实体类的第二层级可以包括人物、地名、机构名,针对人物的第三层级可以包括歌手、演员、律师等。
S203、基于所述第二类别信息确定所述目标实体的分类结果,所述分类结果包括至少一个实体类型。
具体地,第二类别信息为目标实体在预定义的多个实体类型中每个实体类型上的预测概率,因此在确定第二类别信息后,可以将第二类别信息中大于预设阈值对应的实体类型作为目标实体的分类结果。
在一个可行的实施例中,也可以选取预测概率排序靠前的若干个作为目标实体的分类结果。
在本申请实施例中,通过调用第二分类网络对待处理文本和目标实体进行处理得到目标实体的第一类别信息,并将第一类别信息和实体类型先验数据作为第一分类网络的输入,得到目标实体的第二类别信息,最后基于第二类别信息确定目标实体的分类结果,可以利用实体类型先验数据,解决由于文本(特别是短文本)的文本信息不足、文本信息有噪音等问题导致的识别效果不佳的问题,有效地提升对实体进行细粒度分类的准确度。
如图3所示,是本申请实施例基于图1的数据处理系统提供的另一种数据处理方法。以应用于图1中提及的服务器102为例。以下结合图3对本申请实施例的所述方法进行说明。
S301、获取待处理文本中的目标实体,所述目标实体为所述待处理文本中任一实体。
其中,S301的具体实现可以参见前述实施例中S201的相关描述,此处不再赘述。
302、通过调用第二分类网络对所述待处理文本和所述目标实体进行处理,以得到所述目标实体的第一类别信息。
具体地,调用第二分类网络对待处理文本进行处理,以得到待处理文本的关系编码表示,以及对目标实体进行处理,以得到目标实体的实体编码表示,对关系编码表示和实体编码表示进行拼接处理得到文本编码表示,调用第二分类网络对文本编码表示进行处理,以得到目标实体的第一类别信息。
在一个实施例中,在获取待处理文本的关系编码表示时,虽然待处理文本的词编
码表示能很好地捕捉到单个字的词义信息,但它无法捕捉句子的结构信息,为了有效捕捉
到待处理文本与目标实体的联系,同时增加更多的上下文语义,本申请引入相对位置编码
表示,并将各个字的词编码表示和相对位置编码表示输入第二分类网络,得到待处理文本
的关系编码表示。
进一步地,调用第二分类网络中的嵌入层对目标实体中各个字进行处理,得到各
个字的词编码表示,常用的词编码表示如Word2vec、Glove和FastText等,本申请对此不作
限定,为了有效捕获目标实体本身的特征,用目标实体中各个字的词编码表示的平均值来
作为目标实体的实体编码表示。将目标实体形式化的表示为,其中表
示第i个字的词编码表示,N表示目标实体长度。实体编码表示如下述公式(2)所示:
在一个实施例中,调用第二分类网络对待处理文本进行处理,以得到待处理文本的关系编码表示的具体实现方式可以包括:
(1)获取所述待处理文本中每个字的词编码表示和相对位置编码表示。
具体地,为了获取待处理文本中每个字的词编码表示和相对位置编码表示,将待
处理文本形式化的表示为:字序列,其中,表示第i个字,L表示文本长度;字序
列对应的相对位置信息表示为:,其中表示第i个字相对于目标实体的位置,
如目标实体的位置为5,则的相对位置信息为-4,相对位置信息可以体现待处理文本中
的每个字与目标实体的距离。通过将字序列和相对位置信息映射为一个随机初始化的向
量,从而获取待处理文本中各个字的相对位置编码表示和词编码表示,词编码表示形式化
的表示为,,其中,表示词编码表示的向量维度。相对位置编码
表示形式化的表示为,,其中,表示相对位置编码表示的向量维
度。
(2)调用第二分类网络对词编码表示和相对位置编码表示进行处理,以得到每个字的上下文编码表示。
在一个实施例中,将相对位置编码表示和词编码表示进行拼接,并调用第二分类网络对拼接后的词编码表示和相对位置编码表示进行处理,以得到每个字的上下文编码表示。
进一步地,由于拼接后的词编码表示和相对位置编码表示包含了待处理文本的上下文信息,因此可以利用循坏神经网络、卷积神经网络、基于变换器的双向编码表示(Bidirectional Encoder Representation from Transformers, BERT)模型、长短期记忆(Long Short-Term Memory, LSTM)网络等学习拼接处理后的词编码表示和相对位置编码表示涉及的信息,以得到每个字的上下文编码表示。
在一个可行的实施例中,为了充分学习到待处理文本的上下文信息,如图4所示,利用双向长短期记忆(Bi-directionalLong Short-Term Memory,BiLSTM)网络,将待处理文本中的各个字进行拼接处理后的词编码表示和相对位置编码表示按待处理文本中各个字的先后顺序正向输入BiLSTM网络,得到前向编码表示,前向编码表示即从待处理文本的左边第一个字向后遍历;同时将待处理文本中的各个字进行拼接处理后的词编码表示和相对位置编码表示按待处理文本中各个字的先后顺序反向输入BiLSTM网络,得到后向编码表示,后向编码表示即从待处理文本的右边第一个字向前遍历。将前向编码表示和后向编码表示拼接起来,则得到各个字的上下文编码表示。通过正、反双向的特征学习,使得每个时刻都能学习到合理的上下文特征。
则,各个字的上下文编码表示如下述公式(6)所示:
(3)基于注意力机制确定每个字的注意力权重系数。
(4)基于每个字的上下文编码表示和注意力权重系数确定待处理文本的关系编码表示。
S303、调用第一分类网络对所述目标实体的第一类别信息和实体类型先验数据进行处理,以得到所述目标实体的第二类别信息。
具体地,将实体类型先验数据与第一类别信息进行拼接,并作为第一分类网络的输入,从概率的角度来进一步辅助实体分类,以得到目标实体的第二类别信息。
在一个实施例中,可以通过以下方式获取实体类型先验数据,具体包括:
(1)获取包括目标实体的多个文本。
(2)对多个文本中每个文本的目标实体的实体类型进行标注,以得到标注结果。
(3)根据标注结果确定目标实体属于预定义的多个实体类型中每个实体类型的概率,并根据概率确定目标实体的实体类型先验数据。
具体地,实体类型先验数据表示在先验信息中,实体属于每个实体类型的概率,形
式化的表示为,表示实体属于实体类型的先验概率,表示实体类型数量。
目标实体的实体类型先验数据是通过统计包括目标实体的多个文本的实体类型确定的,如
针对10000份包括“刘德华”的文本,对文本中刘德华的实体类型进行标注,标注结果指示:
10000份确定的实体类型为人物,8000份确定的实体类型为演员,2000份确定的实体类型为
歌手,则“刘德华”这个目标实体属于预定义的多个实体类型(“人物”、“演员”、“歌手”)中每
个实体类型的概率为1、0.8、0.1,则根据该概率确定的目标实体(“刘德华”)的实体类型先
验数据为[1,0.8,0.2]。
S304、基于所述第二类别信息和所述类型嵌入数据确定所述目标实体的第三类别信息。
其中,虽然第一类别信息和第二类别信息中已经对目标实体的实体类型进行了细粒度的分类,但由于实体类型之间实际为一个层级结构,因此一个实体并不是单独只属于一个实体类型,比如“周杰伦凭借歌曲《青花瓷》获得第19届金曲奖最佳作曲人奖”中的目标实体“周杰伦”是一个“人物/歌手”类型,那一定也是“人物”类型。基于此,本申请利用类型嵌入数据来更好的对细粒度的实体类型进行分类。其中,类型嵌入数据用于描述预定义的多个实体类型之间的依赖关系。
其中,类型嵌入数据包括多个实体类型之间的依赖关系矩阵,可以将其形式化的
表示为,其中,表示一个实体属于实体类型i,那一定同时属于实
体类型j,例如目标实体的类别信息中包括的各个实体类型为“人物”、“演员”、“歌手”,则类
型嵌入数据为,其中第二行第一列为1,表示属于“演员”必定属于“人物”。第二类
别信息为目标实体在预定义的多个实体类型上的预测概率矩阵,假设第二类别信息中包括
的实体类型为“人物”、“演员”、“歌手”,预测概率矩阵为[0.1,0.4,0.5],表示属于“人物”、
“演员”、“歌手”的概率为0.1、0.4、0.5,由于“人物”比“演员”、“歌手”的层级更高,但此时概
率更低,这显然不符合逻辑,由此引入类型嵌入数据,将依赖关系矩阵和预测概率矩阵进行
相乘处理,得到调整后的预测概率矩阵,如下述公式(9)所示:
则调整后的预测概率矩阵为[1,0.4,0.5],然后将调整后的预测概率矩阵作为目标实体的第三类别信息,则第三类别信息为[1,0.4,0.5],利用类型嵌入数据进一步调整后,属于“人物”的概率为1,提升了分类的准确度。第三类别信息同样为目标实体针对预定义的多个实体类型的预测概率矩阵。
在一个实施例中,类型嵌入数据为预定义的多个实体类型之间的依赖关系矩阵,可以通过以下方式获取类型嵌入数据,具体包括:
(1)获取预定义的多个实体类型的层级结构,层级结构包括多个实体类型的层级划分。
(2)根据层级结构确定多个实体类型之间的依赖关系矩阵。
(3)将依赖关系矩阵作为类型嵌入数据。
在一个实施例中,在确定预定义的多个实体类型后,对多个实体类型进行层级划
分,以确定多个实体类型的层级结构,如预定义的多个实体类型为“游戏”、“动作游戏”、“网
络游戏”、“教育”、“理工学科”、“文学学科”、“中国语言文学”,则层级结构分别为“游戏”、
“游戏/动作游戏”、“游戏/网络游戏”、“教育”、“教育/理工学科”、“教育/文学学科”、“教育/
文学学科/中国语言文学”。则可以根据层级结构确定多个实体类型之间的依赖关系矩阵为,并将依赖关系矩阵作为类型嵌入数据。
S305、基于所述第三类别信息确定所述目标实体的分类结果。
具体地,将第三类别信息中大于预设阈值对应的实体类型作为目标实体的分类结果,如第三类别信息中包括的实体类型为“人物”、“演员”、“歌手”,第三类别信息为[1,0.4,0.5],预设阈值为0.4,则目标实体的实体类型为“人物”、“歌手”。
在一个实施例中,所述获取待处理文本中的目标实体之前,所述方法还包括:获取训练样本集,所述训练样本集中包括多个文本、各个文本中每个实体对应的类别标签以及实体类型先验数据;利用第一分类网络和第二分类网络对所述训练样本集中包括的每个文本和所述每个文本中任一实体进行处理,以得到所述任一实体的预测类别信息;基于所述任一实体的预测类别信息、类别标签和损失函数对所述第一分类网络和所述第二分类网络的网络参数进行调整,以完成对所述第一分类网络和所述第二分类网络的训练。
在一个实施例中,训练样本集可以是已经标注类别标签的公开数据集,也可以是自行对文本中的实体进行标注得到的,在对实体进行标注时可能有多个实体类型,例如,在文本中“刘德华”可能同时归类为"人物"、"歌手"、“演员”,则类别标签为[1,1,1]。在利用第一分类网络和第二分类网络对训练样本集中包括的每个文本和每个文本中任一实体进行处理时,首先将训练样本集中包括的每个文本和每个文本中任一实体输入第二分类网络,接着将第二分类网络的输出的第一类别信息和任一实体的实体类型先验数据输入第一分类网络,并利用类型嵌入数据对第一分类网络输出的第二类别信息进行调整得到第三类别信息,将输出的第三类别信息作为任一实体的预测类别信息,基于任一实体的预测类别信息、类别标签和损失函数对第一分类网络和第二分类网络的网络参数进行调整,以完成对第一分类网络和第二分类网络的训练。其中,损失函数如下述公式(10)所示:
在一个实施例中,通过将预测类别信息和类别标签输入损失函数可以得到损失值,通过将损失值反馈至第一分类网络和第二分类网络,使得第一分类网络和第二分类网络通过调整其网络参数来最小化损失函数的值,进而让预测类别信息和类别标签之间的差异不断减小。当网络参数的调整次数达到预设次数,或损失函数收敛时,则停止对第一分类网络和第二分类网络的训练。
在本申请实施例中,通过调用第二分类网络对待处理文本和目标实体进行处理得到目标实体的第一类别信息,并将第一类别信息和实体类型先验数据作为第一分类网络的输入,得到目标实体的第二类别信息,在得到第二类别信息的基础上,利用类型嵌入数据进一步对第二类别信息进行调整,得到目标实体的第三类别信息,可以利用实体类型先验数据,解决由于文本(特别是短文本)的文本信息不足、文本信息有噪音等问题导致的识别效果不佳的问题,同时类型嵌入数据的引入,可以进一步有效地提升对实体进行细粒度分类的准确度。
如图5所示,图5是本申请实施例提供的一种数据处理方法的流程示意图,获取待处理文本的句序列和相对位置信息,通过第二分类网络中的BiLSTM网络和注意力机制确定待处理文本的关系编码表示,同时第二分类网络中的嵌入层获取待处理文本中目标实体的实体编码表示,通过将关系编码表示和实体编码表示拼接作为第二分类网络中分类层的输入,得到第一分类信息,其中分类层为一个全连接层,进一步地,将第一分类信息同实体类型先验数据进行拼接,作为第一分类网络的输入,得到第二分类信息,最后利用类型嵌入数据对第二分类信息进行调整,以得到第三分类信息,并将第三分类信息中大于预设阈值的实体类型作为分类结果输出。
在本申请实施例中,通过调用第二分类网络对待处理文本和目标实体进行处理得到目标实体的第一类别信息,并将第一类别信息和实体类型先验数据作为第一分类网络的输入,得到目标实体的第二类别信息,在得到第二类别信息的基础上,利用类型嵌入数据进一步对第二类别信息进行调整,得到目标实体的第三类别信息,可以利用实体类型先验数据,解决由于文本(特别是短文本)的文本信息不足、文本信息有噪音等问题导致的识别效果不佳的问题,同时类型嵌入数据的引入,可以进一步有效地提升对实体进行细粒度分类的准确度。
如图6所示,图6是本申请实施例提供的一种数据处理装置的结构示意图,所述数据处理装置60包括:
获取模块601,用于获取待处理文本中的目标实体,所述目标实体为所述待处理文本中任一实体;
处理模块602,用于调用第一分类网络对所述目标实体的第一类别信息和实体类型先验数据进行处理,以得到所述目标实体的第二类别信息,所述第一类别信息是通过调用第二分类网络对所述待处理文本和所述目标实体进行处理得到的;
所述处理模块602,还用于基于所述第二类别信息确定所述目标实体的分类结果,所述分类结果包括至少一个实体类型。
在一个实施例中,所述处理模块602,具体用于:
获取类型嵌入数据,所述类型嵌入数据用于描述预定义的多个实体类型之间的依赖关系;
基于所述第二类别信息和所述类型嵌入数据确定所述目标实体的第三类别信息;
基于所述第三类别信息确定所述目标实体的分类结果。
在一个实施例中,所述处理模块602,具体用于:
利用所述依赖关系矩阵对所述预测概率矩阵进行调整,以得到调整后的预测概率矩阵;
根据所述调整后的预测概率矩阵确定所述目标实体的第三类别信息。
在一个实施例中,所述处理模块602,具体用于:
获取预定义的多个实体类型的层级结构,所述层级结构包括所述多个实体类型的层级划分;
根据所述层级结构确定所述多个实体类型之间的依赖关系矩阵;
将所述依赖关系矩阵作为类型嵌入数据。
在一个实施例中,所述处理模块602,具体用于:
获取包括目标实体的多个文本;
对所述多个文本中每个文本的目标实体的实体类型进行标注,以得到标注结果;
根据所述标注结果确定所述目标实体属于预定义的多个实体类型中每个实体类型的概率,并根据所述概率确定所述目标实体的实体类型先验数据。
在一个实施例中,所述处理模块602,具体用于:
调用第二分类网络对所述待处理文本进行处理,以得到所述待处理文本的关系编码表示,以及对所述目标实体进行处理,以得到所述目标实体的实体编码表示;
对所述关系编码表示和所述实体编码表示进行拼接处理得到文本编码表示;
调用所述第二分类网络对所述文本编码表示进行处理,以得到所述目标实体的第一类别信息。
在一个实施例中,所述处理模块602,具体用于:
获取所述待处理文本中每个字的词编码表示和相对位置编码表示;
调用第二分类网络对所述词编码表示和所述相对位置编码表示进行处理,以得到所述每个字的上下文编码表示;
基于注意力机制确定所述每个字的注意力权重系数;
基于所述每个字的上下文编码表示和注意力权重系数确定所述待处理文本的关系编码表示。
在一个实施例中,所述处理模块602,具体用于:
获取训练样本集,所述训练样本集中包括多个文本、各个文本中每个实体对应的类别标签以及实体类型先验数据;
利用第一分类网络和第二分类网络对所述训练样本集中包括的每个文本和所述每个文本中任一实体进行处理,以得到所述任一实体的预测类别信息;
基于所述任一实体的预测类别信息、类别标签和损失函数对所述第一分类网络和所述第二分类网络的网络参数进行调整,以完成对所述第一分类网络和所述第二分类网络的训练。
在本申请实施例中,通过调用第二分类网络对待处理文本和目标实体进行处理得到目标实体的第一类别信息,并将第一类别信息和实体类型先验数据作为第一分类网络的输入,得到目标实体的第二类别信息,在得到第二类别信息的基础上,利用类型嵌入数据进一步对第二类别信息进行调整,得到目标实体的第三类别信息,可以利用实体类型先验数据,解决由于文本(特别是短文本)的文本信息不足、文本信息有噪音等问题导致的识别效果不佳的问题,同时类型嵌入数据的引入,可以进一步有效地提升对实体进行细粒度分类的准确度。
如图7所示,图7是本申请实施例提供的一种计算机设备的结构示意图,该计算机设备70内部结构如图7所示,包括:一个或多个处理器701、存储器702、通信接口703。上述处理器701、存储器702和通信接口703可通过总线704或其他方式连接,本申请实施例以通过总线704连接为例。
其中,处理器701(或称CPU(Central Processing Unit, 中央处理器))是计算机设备70的计算核心以及控制核心,其可以解析计算机设备70内的各类指令以及处理计算机设备70的各类数据,例如:CPU可以用于解析用户向计算机设备70所发送的开关机指令,并控制计算机设备70进行开关机操作;再如:CPU可以在计算机设备70内部结构之间传输各类交互数据,等等。通信接口703可选的可以包括标准的有线接口、无线接口(如Wi-Fi、移动通信接口等),受处理器701的控制用于收发数据。存储器702(Memory)是计算机设备70中的记忆设备,用于存放程序和数据。可以理解的是,此处的存储器702既可以包括计算机设备70的内置存储器,当然也可以包括计算机设备70所支持的扩展存储器。存储器702提供存储空间,该存储空间存储了计算机设备70的操作系统,可包括但不限于:Windows系统、Linux系统等等,本申请对此并不作限定。
在一个实施例中,所述处理器701,具体用于:
获取待处理文本中的目标实体,所述目标实体为所述待处理文本中任一实体;
调用第一分类网络对所述目标实体的第一类别信息和实体类型先验数据进行处理,以得到所述目标实体的第二类别信息,所述第一类别信息是通过调用第二分类网络对所述待处理文本和所述目标实体进行处理得到的;
基于所述第二类别信息确定所述目标实体的分类结果,所述分类结果包括至少一个实体类型。
在一个实施例中,所述处理器701,具体用于:
获取类型嵌入数据,所述类型嵌入数据用于描述预定义的多个实体类型之间的依赖关系;
基于所述第二类别信息和所述类型嵌入数据确定所述目标实体的第三类别信息;
基于所述第三类别信息确定所述目标实体的分类结果。
在一个实施例中,所述处理器701,具体用于:
利用所述依赖关系矩阵对所述预测概率矩阵进行调整,以得到调整后的预测概率矩阵;
根据所述调整后的预测概率矩阵确定所述目标实体的第三类别信息。
在一个实施例中,所述处理器701,具体用于:
获取预定义的多个实体类型的层级结构,所述层级结构包括所述多个实体类型的层级划分;
根据所述层级结构确定所述多个实体类型之间的依赖关系矩阵;
将所述依赖关系矩阵作为类型嵌入数据。
在一个实施例中,所述处理器701,具体用于:
获取包括目标实体的多个文本;
对所述多个文本中每个文本的目标实体的实体类型进行标注,以得到标注结果;
根据所述标注结果确定所述目标实体属于预定义的多个实体类型中每个实体类型的概率,并根据所述概率确定所述目标实体的实体类型先验数据。
在一个实施例中,所述处理器701,具体用于:
调用第二分类网络对所述待处理文本进行处理,以得到所述待处理文本的关系编码表示,以及对所述目标实体进行处理,以得到所述目标实体的实体编码表示;
对所述关系编码表示和所述实体编码表示进行拼接处理得到文本编码表示;
调用所述第二分类网络对所述文本编码表示进行处理,以得到所述目标实体的第一类别信息。
在一个实施例中,所述处理器701,具体用于:
获取所述待处理文本中每个字的词编码表示和相对位置编码表示;
调用第二分类网络对所述词编码表示和所述相对位置编码表示进行处理,以得到所述每个字的上下文编码表示;
基于注意力机制确定所述每个字的注意力权重系数;
基于所述每个字的上下文编码表示和注意力权重系数确定所述待处理文本的关系编码表示。
在一个实施例中,所述处理器701,具体用于:
获取训练样本集,所述训练样本集中包括多个文本、各个文本中每个实体对应的类别标签以及实体类型先验数据;
利用第一分类网络和第二分类网络对所述训练样本集中包括的每个文本和所述每个文本中任一实体进行处理,以得到所述任一实体的预测类别信息;
基于所述任一实体的预测类别信息、类别标签和损失函数对所述第一分类网络和所述第二分类网络的网络参数进行调整,以完成对所述第一分类网络和所述第二分类网络的训练。
在本申请实施例中,通过调用第二分类网络对待处理文本和目标实体进行处理得到目标实体的第一类别信息,并将第一类别信息和实体类型先验数据作为第一分类网络的输入,得到目标实体的第二类别信息,在得到第二类别信息的基础上,利用类型嵌入数据进一步对第二类别信息进行调整,得到目标实体的第三类别信息,可以利用实体类型先验数据,解决由于文本(特别是短文本)的文本信息不足、文本信息有噪音等问题导致的识别效果不佳的问题,同时类型嵌入数据的引入,可以进一步有效地提升对实体进行细粒度分类的准确度。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述数据处理方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory, ROM)或随机存储记忆体(RandomAccess Memory, RAM)等。
本申请一个或多个实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法的实施例中所执行的步骤。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种数据处理方法,其特征在于,所述方法包括:
获取待处理文本中的目标实体,所述目标实体为所述待处理文本中任一实体;
调用第一分类网络对所述目标实体的第一类别信息和实体类型先验数据进行处理,以得到所述目标实体的第二类别信息,所述第二类别信息包括所述目标实体在多个层级的多个实体类型中每个实体类型上的概率,所述第一类别信息是通过调用第二分类网络对所述待处理文本和所述目标实体进行处理得到的;
基于所述第二类别信息确定所述目标实体的分类结果,所述分类结果包括至少一个实体类型;
其中,所述第一类别信息的具体获取方式包括:
调用第二分类网络对所述待处理文本进行处理,以得到所述待处理文本的关系编码表示,以及对所述目标实体进行处理,以得到所述目标实体的实体编码表示;
对所述关系编码表示和所述实体编码表示进行拼接处理得到文本编码表示;
调用所述第二分类网络对所述文本编码表示进行处理,以得到所述目标实体的第一类别信息,所述第一类别信息包括所述目标实体在多个层级的多个实体类型中每个实体类型上的概率。
2.根据权利要求1所述的方法,其特征在于,所述基于所述第二类别信息确定所述目标实体的分类结果,包括:
获取类型嵌入数据,所述类型嵌入数据用于描述预定义的多个实体类型之间的依赖关系;
基于所述第二类别信息和所述类型嵌入数据确定所述目标实体的第三类别信息;
基于所述第三类别信息确定所述目标实体的分类结果。
3.根据权利要求2所述的方法,其特征在于,所述类型嵌入数据包括所述多个实体类型之间的依赖关系矩阵,所述第二类别信息包括所述目标实体在所述多个实体类型上的预测概率矩阵,所述基于所述第二类别信息和所述类型嵌入数据确定所述目标实体的第三类别信息,包括:
利用所述依赖关系矩阵对所述预测概率矩阵进行调整,以得到调整后的预测概率矩阵;
根据所述调整后的预测概率矩阵确定所述目标实体的第三类别信息。
4.根据权利要求2或3所述的方法,其特征在于,所述获取类型嵌入数据之前,所述方法还包括:
获取预定义的多个实体类型的层级结构,所述层级结构包括所述多个实体类型的层级划分;
根据所述层级结构确定所述多个实体类型之间的依赖关系矩阵;
将所述依赖关系矩阵作为类型嵌入数据。
5.根据权利要求1~3中任一项所述的方法,其特征在于,所述调用第一分类网络对所述目标实体的第一类别信息和实体类型先验数据进行处理,以得到所述目标实体的第二类别信息之前,所述方法还包括:
获取包括目标实体的多个文本;
对所述多个文本中每个文本的目标实体的实体类型进行标注,以得到标注结果;
根据所述标注结果确定所述目标实体属于预定义的多个实体类型中每个实体类型的概率,并根据所述概率确定所述目标实体的实体类型先验数据。
6.根据权利要求1所述的方法,其特征在于,所述调用第二分类网络对所述待处理文本进行处理,以得到所述待处理文本的关系编码表示,包括:
获取所述待处理文本中每个字的词编码表示和相对位置编码表示;
调用第二分类网络对所述词编码表示和所述相对位置编码表示进行处理,以得到所述每个字的上下文编码表示;
基于注意力机制确定所述每个字的注意力权重系数;
基于所述每个字的上下文编码表示和注意力权重系数确定所述待处理文本的关系编码表示。
7.根据权利要求1所述的方法,其特征在于,所述获取待处理文本中的目标实体之前,所述方法还包括:
获取训练样本集,所述训练样本集中包括多个文本、各个文本中每个实体对应的类别标签以及实体类型先验数据;
利用第一分类网络和第二分类网络对所述训练样本集中包括的每个文本和所述每个文本中任一实体进行处理,以得到所述任一实体的预测类别信息;
基于所述任一实体的预测类别信息、类别标签和损失函数对所述第一分类网络和所述第二分类网络的网络参数进行调整,以完成对所述第一分类网络和所述第二分类网络的训练。
8.一种数据处理装置,其特征在于,所述装置包括:
获取模块,用于获取待处理文本中的目标实体,所述目标实体为所述待处理文本中任一实体;
处理模块,用于调用第一分类网络对所述目标实体的第一类别信息和实体类型先验数据进行处理,以得到所述目标实体的第二类别信息,所述第二类别信息包括所述目标实体在多个层级的多个实体类型中每个实体类型上的概率,所述第一类别信息是通过调用第二分类网络对所述待处理文本和所述目标实体进行处理得到的;
所述处理模块,还用于基于所述第二类别信息确定所述目标实体的分类结果,所述分类结果包括至少一个实体类型;
其中,所述处理模块,还用于调用第二分类网络对所述待处理文本进行处理,以得到所述待处理文本的关系编码表示,以及对所述目标实体进行处理,以得到所述目标实体的实体编码表示;对所述关系编码表示和所述实体编码表示进行拼接处理得到文本编码表示;调用所述第二分类网络对所述文本编码表示进行处理,以得到所述目标实体的第一类别信息,所述第一类别信息包括所述目标实体在多个层级的多个实体类型中每个实体类型上的概率。
9.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1~7任一项所述的数据处理方法。
10.一种计算机设备,其特征在于,所述计算机设备包括处理器、通信接口和存储器,所述处理器、所述通信接口和所述存储器相互连接,其中,所述存储器存储有可执行程序代码,所述处理器用于调用所述可执行程序代码,执行权利要求1~7任一项所述的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110397661.2A CN113254635B (zh) | 2021-04-14 | 2021-04-14 | 数据处理方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110397661.2A CN113254635B (zh) | 2021-04-14 | 2021-04-14 | 数据处理方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113254635A CN113254635A (zh) | 2021-08-13 |
CN113254635B true CN113254635B (zh) | 2021-11-05 |
Family
ID=77220694
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110397661.2A Active CN113254635B (zh) | 2021-04-14 | 2021-04-14 | 数据处理方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113254635B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108280062A (zh) * | 2018-01-19 | 2018-07-13 | 北京邮电大学 | 基于深度学习的实体和实体关系识别方法及装置 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5864839A (en) * | 1995-03-29 | 1999-01-26 | Tm Patents, L.P. | Parallel system and method for generating classification/regression tree |
CN110188191A (zh) * | 2019-04-08 | 2019-08-30 | 北京邮电大学 | 一种用于网络社区文本的实体关系图谱构建方法和系统 |
CN110276075A (zh) * | 2019-06-21 | 2019-09-24 | 腾讯科技(深圳)有限公司 | 模型训练方法、命名实体识别方法、装置、设备及介质 |
CN110781284A (zh) * | 2019-09-18 | 2020-02-11 | 平安科技(深圳)有限公司 | 基于知识图谱的问答方法、装置和存储介质 |
CN111460148A (zh) * | 2020-03-27 | 2020-07-28 | 深圳价值在线信息科技股份有限公司 | 文本分类方法、装置、终端设备及存储介质 |
CN111428506B (zh) * | 2020-03-31 | 2023-02-21 | 联想(北京)有限公司 | 实体分类方法、实体分类装置和电子设备 |
CN112328809A (zh) * | 2020-11-09 | 2021-02-05 | 北京小米松果电子有限公司 | 实体分类方法、装置及计算机可读存储介质 |
CN112434163A (zh) * | 2020-11-30 | 2021-03-02 | 北京沃东天骏信息技术有限公司 | 风险识别方法及模型构建方法、装置、电子设备和介质 |
CN112507135B (zh) * | 2020-12-17 | 2021-11-16 | 深圳市一号互联科技有限公司 | 知识图谱查询模板构建方法、装置、系统、以及存储介质 |
-
2021
- 2021-04-14 CN CN202110397661.2A patent/CN113254635B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108280062A (zh) * | 2018-01-19 | 2018-07-13 | 北京邮电大学 | 基于深度学习的实体和实体关系识别方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113254635A (zh) | 2021-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112685565B (zh) | 基于多模态信息融合的文本分类方法、及其相关设备 | |
CN111737476B (zh) | 文本处理方法、装置、计算机可读存储介质及电子设备 | |
CN112131366B (zh) | 训练文本分类模型及文本分类的方法、装置及存储介质 | |
CN112988979B (zh) | 实体识别方法、装置、计算机可读介质及电子设备 | |
CN113627447B (zh) | 标签识别方法、装置、计算机设备、存储介质及程序产品 | |
CN111831826B (zh) | 跨领域的文本分类模型的训练方法、分类方法以及装置 | |
CN116664719B (zh) | 一种图像重绘模型训练方法、图像重绘方法及装置 | |
CN110598070A (zh) | 应用类型识别方法及装置、服务器及存储介质 | |
CN111858898A (zh) | 基于人工智能的文本处理方法、装置及电子设备 | |
CN113887237A (zh) | 多意图文本的槽位预测方法、装置及计算机设备 | |
CN112528654A (zh) | 自然语言处理方法、装置及电子设备 | |
CN116661805B (zh) | 代码表示的生成方法和装置、存储介质及电子设备 | |
CN112131884A (zh) | 用于实体分类的方法和装置、用于实体呈现的方法和装置 | |
CN113254635B (zh) | 数据处理方法、装置及存储介质 | |
CN113392190B (zh) | 一种文本识别方法、相关设备及装置 | |
CN115129849A (zh) | 题目表示的获取方法、设备以及计算机可读存储介质 | |
CN114911940A (zh) | 文本情感识别方法及装置、电子设备、存储介质 | |
CN112417260B (zh) | 本地化推荐方法、装置及存储介质 | |
CN113741759A (zh) | 评论信息的展示方法、装置、计算机设备和存储介质 | |
CN113239215A (zh) | 多媒体资源的分类方法、装置、电子设备及存储介质 | |
CN112446738A (zh) | 广告数据处理方法、装置、介质以及电子设备 | |
CN110442767A (zh) | 一种确定内容互动平台标签的方法、装置及可读存储介质 | |
CN117649117B (zh) | 处置方案的确定方法、装置以及计算机设备 | |
CN116089602B (zh) | 信息处理方法、装置、电子设备、存储介质和程序产品 | |
CN117649117A (zh) | 处置方案的确定方法、装置以及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |