CN111460149B - 文本分类方法、相关设备及可读存储介质 - Google Patents
文本分类方法、相关设备及可读存储介质 Download PDFInfo
- Publication number
- CN111460149B CN111460149B CN202010230887.9A CN202010230887A CN111460149B CN 111460149 B CN111460149 B CN 111460149B CN 202010230887 A CN202010230887 A CN 202010230887A CN 111460149 B CN111460149 B CN 111460149B
- Authority
- CN
- China
- Prior art keywords
- text
- pair
- category
- determining
- semantic information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种文本分类方法、相关设备及可读存储介质,首先,获取待分类文本,及预置的待测类别对应的类别文本;再确定由每一类别文本和所述待分类文本组成的文本对的文本语义信息;然后,针对每一文本对,基于该文本对的文本语义信息,确定该文本对是否匹配;最后,将匹配的文本对中的类别文本对应的待测类别作为所述待分类文本的类别。基于上述方案,能够将海量的文本划分为不同的类别,得到文本类别的划分结果,基于文本类别的划分结果,可以将不同类别下的文本推荐到相应人员,从而帮助用户在海量文本中选择出有价值的文本。
Description
技术领域
本申请涉及自然语言处理技术领域,更具体的说,是涉及一种文本分类方法、相关设备及可读存储介质。
背景技术
近年来,随着互联网的高速发展,尤其是移动互联网时代的到来,当前已经进入大数据时代,每天都会产生海量的文本。用户面对海量的文本,需要通过浏览大量甚至所有的文本,以选择出有价值的文本,这给用户带来了极大的不便。
因此,如何使用户在海量文本中快速选择出有价值的文本,成为本领域技术人员亟待解决的技术问题。
发明内容
鉴于上述问题,本申请提出了一种文本分类方法、相关设备及可读存储介质。具体方案如下:
一种文本分类方法,包括:
获取待分类文本,及预置的待测类别对应的类别文本;
确定由每一类别文本和所述待分类文本组成的文本对的文本语义信息;
针对每一文本对,基于该文本对的文本语义信息,确定该文本对是否匹配;
将匹配的文本对中的类别文本对应的待测类别,作为所述待分类文本的类别。
可选地,获取预置的待测类别对应的类别文本,包括:
获取预置的待测类别的类别名称,作为预置的待测类别的类别文本;
或,获取预置的待测类别的定义,作为预置的待测类别的类别文本;
或,获取类别为所述预置的待测类别的文本,作为预置的待测类别的类别文本。
可选地,确定由任一类别文本和所述待分类文本组成的文本对的文本语义信息,基于该文本对的文本语义信息,确定该文本对是否匹配的过程,包括:
利用文本分类模型处理由任一类别和所述待分类文本组成的文本对,得到所述文本分类模型输出的所述文本对是否匹配的确定结果;
所述文本分类模型具备,确定由任一类别文本和所述待分类文本组成的文本对的文本语义信息,基于该文本对的文本语义信息,确定该文本对是否匹配的能力。
可选地,所述利用文本分类模型处理由任一类别和所述待分类文本组成的文本对,得到所述文本分类模型输出的所述文本对是否匹配的确定结果,包括:
利用文本分类模型的特征提取模块,对所述文本对进行特征向量提取,得到所述文本对的字特征向量、文本特征向量以及位置特征向量;
利用文本分类模型的语义信息确定模块,对所述文本对的字特征向量、文本特征向量以及位置特征向量进行编码,得到所述文本对的文本语义信息;
利用文本分类模型的分类模块,对所述文本对的文本语义信息进行判断,得到所述文本对是否匹配的确定结果。
可选地,所述利用文本分类模型的特征提取模块,对所述文本对进行特征向量提取,得到所述文本对的字特征向量的过程,包括:
确定所述文本对的第一字特征向量;
获取预先设定的知识图谱;
基于所述知识图谱,确定所述文本对的第二字特征向量;
将所述第一字特征向量与所述第二字特征向量进行组合,生成所述文本对的字特征向量。
可选地,所述基于所述知识图谱,确定所述文本对的第二字特征向量,包括:
确定所述文本对中包含的实体;
基于所述文本对中包含的实体以及所述知识图谱,确定所述文本对对应的图结构;
基于所述图结构,确定所述文本对中包含的实体的特征向量;
根据所述文本对中包含的实体的向量,确定所述文本对的第二字特征向量,其中,所述文本对中与所述实体对应的字的第二字特征向量为所述实体的特征向量,其余字的第二字特征向量为0。
可选地,所述确定所述文本对中包含的实体,包括:
将所述文本对输入实体识别模型,所述实体识别模型输出所述文本对中包含的实体;所述实体识别模型是以训练文本为训练样本,以训练文本的实体标注结果为样本标签,训练得到的。
可选地,所述基于所述文本对中包含的实体以及所述知识图谱,确定所述文本对对应的图结构,包括:
对文本对中包含的任一实体,确定所述知识图谱中与该实体匹配的链接实体;
根据所述知识图谱中与该链接实体对应的节点以及边,确定该链接实体对应的图结构,所有链接实体对应的图结构组成所述文本对对应的图结构。
一种文本分类装置,包括:
获取单元,用于获取待分类文本,及预置的待测类别对应的类别文本;
文本语义信息确定单元,用于确定由每一类别文本和所述待分类文本组成的文本对的文本语义信息;
确定单元,用于针对每一文本对,基于该文本对的文本语义信息,确定该文本对是否匹配;
类别确定单元,用于将匹配的文本对中的类别文本对应的待测类别,作为所述待分类文本的类别。
可选地,获取单元,包括:
第一获取单元,用于获取预置的待测类别的类别名称,作为预置的待测类别的类别文本;
或,第二获取单元,用于获取预置的待测类别的定义,作为预置的待测类别的类别文本;
或,第三获取单元,用于获取类别为所述预置的待测类别的文本,作为预置的待测类别的类别文本。
可选地,文本语义信息确定单元确定由任一类别文本和所述待分类文本组成的文本对的文本语义信息,确定单元基于该文本对的文本语义信息,确定该文本对是否匹配的过程,包括:
所述文本语义信息确定单元和所述确定单元利用文本分类模型处理由任一类别和所述待分类文本组成的文本对,得到所述文本分类模型输出的所述文本对是否匹配的确定结果;
所述文本分类模型具备,确定由任一类别文本和所述待分类文本组成的文本对的文本语义信息,基于该文本对的文本语义信息,确定该文本对是否匹配的能力。
可选地,所述文本语义信息确定单元和所述确定单元利用文本分类模型处理由任一类别和所述待分类文本组成的文本对,得到所述文本分类模型输出的所述文本对是否匹配的确定结果的过程,包括:
所述文本语义信息确定单元利用文本分类模型的特征提取模块,对所述文本对进行特征向量提取,得到所述文本对的字特征向量、文本特征向量以及位置特征向量;
所述文本语义信息确定单元利用文本分类模型的语义信息确定模块,对所述文本对的字特征向量、文本特征向量以及位置特征向量进行编码,得到所述文本对的文本语义信息;
所述确定单元利用文本分类模型的分类模块,对所述文本对的文本语义信息进行判断,得到所述文本对是否匹配的确定结果。
可选地,所述文本语义信息确定单元利用文本分类模型的特征提取模块,对所述文本对进行特征向量提取,得到所述文本对的字特征向量的过程,包括:
确定所述文本对的第一字特征向量;
获取预先设定的知识图谱;
基于所述知识图谱,确定所述文本对的第二字特征向量;
将所述第一字特征向量与所述第二字特征向量进行组合,生成所述文本对的字特征向量。
可选地,所述文本语义信息确定单元基于所述知识图谱,确定所述文本对的第二字特征向量,包括:
确定所述文本对中包含的实体;
基于所述文本对中包含的实体以及所述知识图谱,确定所述文本对对应的图结构;
基于所述图结构,确定所述文本对中包含的实体的特征向量;
根据所述文本对中包含的实体的向量,确定所述文本对的第二字特征向量,其中,所述文本对中与所述实体对应的字的第二字特征向量为所述实体的特征向量,其余字的第二字特征向量为0。
可选地,所述文本语义信息确定单元确定所述文本对中包含的实体,包括:
将所述文本对输入实体识别模型,所述实体识别模型输出所述文本对中包含的实体;所述实体识别模型是以训练文本为训练样本,以训练文本的实体标注结果为样本标签,训练得到的。
可选地,所述文本语义信息确定单元基于所述文本对中包含的实体以及所述知识图谱,确定所述文本对对应的图结构,包括:
对文本对中包含的任一实体,确定所述知识图谱中与该实体匹配的链接实体;
根据所述知识图谱中与该链接实体对应的节点以及边,确定该链接实体对应的图结构,所有链接实体对应的图结构组成所述文本对对应的图结构。
一种文本分类设备,包括存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如上所述的文本分类方法的各个步骤。
一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上所述的文本分类方法的各个步骤。
借由上述技术方案,本申请公开了一种文本分类方法、相关设备及可读存储介质,首先,获取待分类文本,及预置的待测类别对应的类别文本;再确定由每一类别文本和所述待分类文本组成的文本对的文本语义信息;然后,针对每一文本对,基于该文本对的文本语义信息,确定该文本对是否匹配;最后,将匹配的文本对中的类别文本对应的待测类别作为所述待分类文本的类别。基于上述方案,能够将海量的文本划分为不同的类别,得到文本类别的划分结果,基于文本类别的划分结果,可以将不同类别下的文本推荐到相应人员,从而帮助用户在海量文本中选择出有价值的文本。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本申请实施例公开的文本分类方法的流程示意图;
图2为本申请实施例公开的一种文本分类模型的结构示意图;
图3为本申请实施例公开的一种文本分类装置结构示意图;
图4为本申请实施例公开的一种文本分类设备的硬件结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
接下来,通过下述实施例对本申请提供的文本分类方法进行介绍。
参照图1,图1为本申请实施例公开的文本分类方法的流程示意图,该方法可以包括:
步骤S101:获取待分类文本,及预置的待测类别对应的类别文本。
在本申请中,待分类文本可以由采用任意一种书面语言(比如,中文、英文等)表现的文字组成的。待分类文本可以为一个句子,也可以为一个段落,或一个篇章,对此,本申请不进行任何限定。
需要说明的是,作为一种获取待分类文本的实施方式,在本申请中,可以获取待分类原始文本,将所述待分类原始文本,作为所述待分类文本;待分类原始文本可以为基于语音识别、图片识别、输入法识别等技术得到的文本,也可以为网页中发布的新闻文稿等文本,对此,本申请不进行任何限定。
但是,原始文本容易存在错误,比如语音识别技术容易受到语音提供者方言、口音的影响,导致基于语音识别技术得到的文本中出现错误,图片识别技术容易受到图片的拍摄或者扫描质量的影响,导致基于图片识别技术得到的文本中出现错误,由于新闻工作者校稿不细致,导致网页中发布的新闻文稿中出现错误。文本中存在错误,会导致文本分类准确率低下。
为解决上述问题,本申请中提出了又一种获取待分类文本的实施方式,在本申请中,可以对所述待分类原始文本进行纠错处理,纠错处理后的文本作为所述待分类文本。具体地,可以采用的纠错处理系统(比如,可以采用讯飞自主开发的飞鹰智能文本校对系统,),对待分类原始文本进行拼写纠错、语法纠错、标点纠错、敏感词检测等纠错处理。
在本申请中,预置的待测类别可以有一个也可以有多个,具体可根据应用场景预置。当预置的待测类别有多个时,待测类别之间可以预置层级关系,以获取不同分类粒度的文本分类结果。
为便于理解待测类别之间的层级关系,本申请中给出如下示例,该示例中,待测类别“经济、农业、谷物”之间具有层级关系:
在本申请中,待测类别对应的类别文本可以有多种形式,具体可以为待测类别的类别名称、待测类别的定义,或者,类别为所述待测类别的文本,则本申请中,获取预置的待测类别对应的类别文本的过程可以包括:获取预置的待测类别的类别名称,作为预置的待测类别的类别文本;或,获取预置的待测类别的定义,作为预置的待测类别的类别文本;或,获取类别为所述预置的待测类别的文本,作为预置的待测类别的类别文本。
为便于理解,本申请中给出待测类别对应的类别文本示例,该示例中,假设待测类别为“农业”,则待测类别对应的类别文本可以为“农业”、“农业是利用动植物的生长发育规律,通过人工培育来获得产品的产业。”、“以因特网为代表的计算机网络技术应用于农业领域,使农业生产活动与整个社会紧密联系在一起,可以充分利用社会资源解决生产过程中的困难,农业生产的社会化将进入一个新阶段。”。
步骤S102:确定由每一类别文本和所述待分类文本组成的文本对的文本语义信息。
在本申请中,当待测类别有多个时,待分类文本分别与每一类别文本组成文本对,得到多个文本对,对每个文本对来说,均需要确定其的文本语义信息。文本语义信息可以为用于指示文本对的语义的向量。需要说明的是,确定由每一类别文本和所述待分类文本组成的文本对的文本语义信息的具体实现方式将通过后续实施例详细说明。
步骤S103:针对每一文本对,基于该文本对的文本语义信息,确定该文本对是否匹配。
在本申请中,当文本对有多个时,对每个文本对来说,均需要基于该文本对的文本语义信息,确定该文本对是否匹配。可以采用并行处理的方式同时处理多个文本对,以提升处理效率。需要说明的是,确定文本对是否匹配的具体实现方式,将通过后续实施例详细说明。
步骤S104:将匹配的文本对中的类别文本对应的待测类别,作为所述待分类文本的类别。
在本申请中,如果匹配的文本对只有一个,则将该匹配的文本对中的类别文本对应的待测类别,作为待分类文本的类别。如果匹配的文本对有多个,则将所有匹配的文本对中,各个匹配的文本对中的类别文本对应的各个待测类别,作为待分类文本的类别。
本实施例公开了一种文本分类方法,首先,获取待分类文本,及预置的待测类别对应的类别文本;再确定由每一类别文本和所述待分类文本组成的文本对的文本语义信息;然后,针对每一文本对,基于该文本对的文本语义信息,确定该文本对是否匹配;最后,将匹配的文本对中的类别文本对应的待测类别作为所述待分类文本的类别。基于上述方案,能够将海量的文本划分为不同的类别,得到文本类别的划分结果,基于文本类别的划分结果,可以将不同类别下的文本推荐到相应人员,从而帮助用户在海量文本中选择出有价值的文本。
进一步的,基于本实施例公开的文本分类方法,可以实现为一个待分类文本划分多个类别。
在本申请中,上述步骤S102、S103可以基于神经网络结构实现,接下来,通过下述实施例进行详细介绍。
具体的,确定由任一类别文本和所述待分类文本组成的文本对的文本语义信息,基于该文本对的文本语义信息,确定该文本对是否匹配的过程,包括:利用文本分类模型处理由任一类别和所述待分类文本组成的文本对,得到所述文本分类模型输出的所述文本对是否匹配的确定结果;所述文本分类模型具备,确定由任一类别文本和所述待分类文本组成的文本对的文本语义信息,基于该文本对的文本语义信息,确定该文本对是否匹配的能力。
需要说明的是,文本分类模型在训练时,对于训练文本,从预置待测类别中选取与其对应的类别生成正样本,再从剩余待测类别中选取预设数量个类别生成负样本,文本分类模型的训练目标为正样本的输出趋近于1,负样本的输出趋近于0。
为便于理解正样本与负样本,本申请给出如下示例:
正样本:
<“外交”,“就在此前几天,**外长**10日在**首都**表示支持**核协议。”,label(1)>;
<“表态”,“就在此前几天,**外长**10日在**首都**表示支持**核协议。”,label(1)>;
<“支持”,“就在此前几天,**外长**10日在**首都**表示支持**核协议。”,label(1)>。
负样本:
<“经济”,“就在此前几天,**外长**10日在**首都**表示支持**核协议。”,label(0)>;
<“政治”,“就在此前几天,**外长**10日在**首都**表示支持**核协议。”,label(0)>;
<“农业”,“就在此前几天,**外长**10日在**首都**表示支持**核协议。”,label(0)>。
参照图2,图2为本申请实施例公开的一种文本分类模型的结构示意图,该文本分类模型可以包括:特征提取模块、语义信息确定模块以及分类模块。
基于图2所示的文本分类模型的结构,本申请中给出“利用文本分类模型处理由任一类别和所述待分类文本组成的文本对,得到所述文本分类模型输出的所述文本对是否匹配的确定结果”的具体实现过程,该过程包括如下步骤:
步骤S201:利用文本分类模型的特征提取模块,对所述文本对进行特征向量提取,得到所述文本对的字特征向量、文本特征向量以及位置特征向量。
在本申请中,字特征向量,用于指示文本对中的每个字的向量,文本特征向量,用于指示每个字是属于待分类文本还是类别文本,位置特征向量,用于指示每个字在文本对中的位置。
上述三个特征向量中,文本特征向量以及位置特征向量相对固定,对确定文本对是否匹配的影响相对于字特征向量来说,要小的多,因此,本申请中着重对获取文本对的字特征向量的实现方式进行详细介绍。具体如下:
作为一种获取文本对的字特征向量的可实施方式,在本申请中,文本分类模型的特征提取模块可以通过查询预设定的字向量表,将文本对中的每个字转换为一维向量,得到所述文本对的字特征向量。
需要说明的是,人工进行文本分类时,负责文本分类的工作人员是需要一定的知识储备的,比如,需要知道各个国家历史上以及当前的领导人姓名、一些公司名称等,为实现使文本分类模型具备类似的知识储备,本申请发明人发现,知识图谱能够描述真实世界中存在的各种实体或概念及其关系,因此,本申请发明人提出将知识图谱应用于本申请文本分类模型的特征提取模块。
基于以上,作为另一种获取文本对的字特征向量的可实施方式,在本申请中,利用文本分类模型的特征提取模块,对所述文本对进行特征向量提取,得到所述文本对的字特征向量的过程可以包括如下步骤:
步骤S2011:确定所述文本对的第一字特征向量。
在该步骤中,可以通过查询预设定的字向量表,将文本对中的每个字转换为一维向量,得到所述文本对的第一字特征向量。
步骤S2012:获取预先设定的知识图谱。
在该步骤中,预先设定的知识图谱可以为任一个或多个知识图谱,作为一种可实施方式,可以为与待测类别相关的知识图谱,比如,待测类别为“农业”、“经济”,则预先设定的知识图谱可以为农业领域、经济领域的知识图谱,作为另一种可实施方式,预先设定的知识图谱也可以文本分类的当前应用场景下所具备的知识图谱,对此,本申请不进行任何限定。
步骤S2013:基于所述知识图谱,确定所述文本对的第二字特征向量。
在该步骤中,可以从所述知识图谱对应的图数据中,提取所述文本对的知识图谱层面的字特征向量,作为第二字特征向量,具体实现方式将通过后续实施例详细说明。
步骤S2014:将所述第一字特征向量与所述第二字特征向量进行组合,生成所述文本对的字特征向量。
在该步骤中,将第一特征向量与第二特征向量进行组合,可以为将第一特征向量与第二特征向量进行拼接,也可以为将第一特征向量与第二特征向量进行融合,对此,本申请不进行任何限定。
步骤S202:利用文本分类模型的语义信息确定模块,对所述文本对的字特征向量、文本特征向量以及位置特征向量进行编码,得到所述文本对的文本语义信息。
在本申请中,语义信息确定模块可以基于BERT(Bidirectional EncoderRepresentations from Transformers,来自变换器的双向编码器表征量)模型、RoBERTa模型、RoBERTa-large中文预训练模型、RoBERTa-wwm-ext、RoBERTa-wwm-large-ext中的任意一个实现,对此,本申请不进行任何限定。
步骤S203:利用文本分类模型的分类模块,对所述文本对的文本语义信息进行判断,得到所述文本对是否匹配的确定结果。
在本申请中,分类模块可以基于各种二分类模型实现,对此,本申请不进行任何限定。
在本申请的另一个实施例中,对上述步骤S2013基于所述知识图谱,确定所述文本对的第二字特征向量的过程进行介绍。该过程可以包括以下步骤:
步骤S301:确定所述文本对中包含的实体。
在本申请中,可以将所述文本对输入实体识别模型,所述实体识别模型输出所述文本对中包含的实体;所述实体识别模型是以训练文本为训练样本,以训练文本的实体标注结果为样本标签,训练得到的。
需要说明的是,实体识别模型可以采用多种方式实现,为便于理解,本申请给出了两种实体识别模型的示例,具体如下:
第一种,该实体识别模型包括词嵌入模块、序列标注模块,其中序列标注模块可以基于Bi-LSTM(Bi-directional Long Short-TermMemory,双向长短期记忆网络)和CRF(Conditional Random Field,条件随机场)实现。
第二种,该实体识别模型包括特征提取模块、语义表示模块、序列标注模块,其中,语义表示模块可以基于BERT(Bidirectional Encoder Representations fromTransformers,来自变换器的双向编码器表征量)模型、RoBERTa模型、RoBERTa-large中文预训练模型、RoBERTa-wwm-ext、RoBERTa-wwm-large-ext中的任意一个实现,序列标注模块可以基于CRF实现。
步骤S302:基于所述文本对中包含的实体以及所述知识图谱,确定所述文本对对应的图结构。
在该步骤中,可以先对文本对中包含的任一实体,确定所述知识图谱中与该实体匹配的链接实体;再根据所述知识图谱中与该链接实体对应的节点以及边,确定该链接实体对应的图结构,所有链接实体对应的图结构组成所述文本对对应的图结构。
其中,本申请中还详细介绍了对文本对中包含的任一实体,确定所述知识图谱中与该实体匹配的链接实体的具体实现过程,该过程包括:确定所述知识图谱中与该实体匹配的候选实体;如果所述候选实体只有一个,则确定所述候选实体为与该实体匹配的链接实体;如果所述候选实体有多个,则从多个候选实体中选取一个候选实体为与该实体匹配的链接实体。
需要说明的是,在本申请中,如果候选实体有多个,可以基于链接实体消歧技术从多个候选实体中选取一个候选实体为与该实体匹配的链接实体。
在本申请中,提供了一种从多个候选实体中选取一个候选实体为与所述实体匹配的链接实体的实施方式,该方式具体包括:确定各个候选实体的描述文本,以及包含所述实体的短文本;将由每一候选实体的描述文本和所述包含所述实体的短文本组成的文本对输入链接实体确定模型,所述链接实体确定模型输出所述文本对是否匹配的结果;所述链接实体确定模型是以训练文本对为训练样本,以训练文本对是否匹配的结果为样本标签,训练得到的;确定匹配的文本对中,概率最大的文本对对应的候选实体为所述实体匹配的链接实体。
其中,候选实体的描述文本为知识图谱对应的知识库中与该候选实体相关的属性信息,包含所述实体的短文本可以为待分类文本中包含所述实体的一句话。
作为一种可实施方式,所述链接实体确定模型包括特征提取模块、语义表示模块、链接实体确定模块,其中,语义表示模块可以基于BERT(Bidirectional EncoderRepresentations from Transformers,来自变换器的双向编码器表征量)模型、RoBERTa模型、RoBERTa-large中文预训练模型、RoBERTa-wwm-ext、RoBERTa-wwm-large-ext中的任意一个实现。链接实体确定模块用于获取语义表示模块输出的文本对的文本语义信息、候选实体的描述文本的起始位置的语义信息、候选实体的描述文本的结束位置的语义信息,并基于上述信息得到文本对是否匹配的结果。
步骤S303:基于所述图结构,确定所述文本对中包含的实体的特征向量。
在本步骤中,可以采用GCN(Graph ConvolutionalNetwork,图卷积神经网络)对所述图结构进行处理,确定所述文本对中包含的实体的特征向量,具体过程可以如下:根据图结构中的节点和边,构建节点特征向量矩阵和邻接矩阵,利用所述节点特征向量矩阵和邻接矩阵,得到每个节点的特征向量;根据每个节点的特征向量得到待检测文本中包含的实体的特定向量。
步骤S304:根据所述文本对中包含的实体的向量,确定所述文本对的第二字特征向量,其中,所述文本对中与所述实体对应的字的第二字特征向量为所述实体的特征向量,其余字的第二字特征向量为0。
下面对本申请实施例公开的文本分类装置进行描述,下文描述的文本分类装置与上文描述的文本分类方法可相互对应参照。
参照图3,图3为本申请实施例公开的一种文本分类装置结构示意图。如图3所示,该文本分类装置可以包括:
获取单元11,用于获取待分类文本,及预置的待测类别对应的类别文本;
文本语义信息确定单元12,用于确定由每一类别文本和所述待分类文本组成的文本对的文本语义信息;
确定单元13,用于针对每一文本对,基于该文本对的文本语义信息,确定该文本对是否匹配;
类别确定单元14,用于将匹配的文本对中的类别文本对应的待测类别,作为所述待分类文本的类别。
可选地,获取单元,包括:
第一获取单元,用于获取预置的待测类别的类别名称,作为预置的待测类别的类别文本;
或,第二获取单元,用于获取预置的待测类别的定义,作为预置的待测类别的类别文本;
或,第三获取单元,用于获取类别为所述预置的待测类别的文本,作为预置的待测类别的类别文本。
可选地,文本语义信息确定单元确定由任一类别文本和所述待分类文本组成的文本对的文本语义信息,确定单元基于该文本对的文本语义信息,确定该文本对是否匹配的过程,包括:
所述文本语义信息确定单元和所述确定单元利用文本分类模型处理由任一类别和所述待分类文本组成的文本对,得到所述文本分类模型输出的所述文本对是否匹配的确定结果;
所述文本分类模型具备,确定由任一类别文本和所述待分类文本组成的文本对的文本语义信息,基于该文本对的文本语义信息,确定该文本对是否匹配的能力。
可选地,所述文本语义信息确定单元和所述确定单元利用文本分类模型处理由任一类别和所述待分类文本组成的文本对,得到所述文本分类模型输出的所述文本对是否匹配的确定结果的过程,包括:
所述文本语义信息确定单元利用文本分类模型的特征提取模块,对所述文本对进行特征向量提取,得到所述文本对的字特征向量、文本特征向量以及位置特征向量;
所述文本语义信息确定单元利用文本分类模型的语义信息确定模块,对所述文本对的字特征向量、文本特征向量以及位置特征向量进行编码,得到所述文本对的文本语义信息;
所述确定单元利用文本分类模型的分类模块,对所述文本对的文本语义信息进行判断,得到所述文本对是否匹配的确定结果。
可选地,所述文本语义信息确定单元利用文本分类模型的特征提取模块,对所述文本对进行特征向量提取,得到所述文本对的字特征向量的过程,包括:
确定所述文本对的第一字特征向量;
获取预先设定的知识图谱;
基于所述知识图谱,确定所述文本对的第二字特征向量;
将所述第一字特征向量与所述第二字特征向量进行组合,生成所述文本对的字特征向量。
可选地,所述文本语义信息确定单元基于所述知识图谱,确定所述文本对的第二字特征向量,包括:
确定所述文本对中包含的实体;
基于所述文本对中包含的实体以及所述知识图谱,确定所述文本对对应的图结构;
基于所述图结构,确定所述文本对中包含的实体的特征向量;
根据所述文本对中包含的实体的向量,确定所述文本对的第二字特征向量,其中,所述文本对中与所述实体对应的字的第二字特征向量为所述实体的特征向量,其余字的第二字特征向量为0。
可选地,所述文本语义信息确定单元确定所述文本对中包含的实体,包括:
将所述文本对输入实体识别模型,所述实体识别模型输出所述文本对中包含的实体;所述实体识别模型是以训练文本为训练样本,以训练文本的实体标注结果为样本标签,训练得到的。
可选地,所述文本语义信息确定单元基于所述文本对中包含的实体以及所述知识图谱,确定所述文本对对应的图结构,包括:
对文本对中包含的任一实体,确定所述知识图谱中与该实体匹配的链接实体;
根据所述知识图谱中与该链接实体对应的节点以及边,确定该链接实体对应的图结构,所有链接实体对应的图结构组成所述文本对对应的图结构。
参照图4,图4为本申请实施例提供的文本分类设备的硬件结构框图,参照图4,文本分类设备的硬件结构可以包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3和至少一个通信总线4;
在本申请实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;
处理器1可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
获取待分类文本,及预置的待测类别对应的类别文本;
确定由每一类别文本和所述待分类文本组成的文本对的文本语义信息;
针对每一文本对,基于该文本对的文本语义信息,确定该文本对是否匹配;
将匹配的文本对中的类别文本对应的待测类别,作为所述待分类文本的类别。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
本申请实施例还提供一种存储介质,该存储介质可存储有适于处理器执行的程序,所述程序用于:
获取待分类文本,及预置的待测类别对应的类别文本;
确定由每一类别文本和所述待分类文本组成的文本对的文本语义信息;
针对每一文本对,基于该文本对的文本语义信息,确定该文本对是否匹配;
将匹配的文本对中的类别文本对应的待测类别,作为所述待分类文本的类别。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间发生任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还发生另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (9)
1.一种文本分类方法,其特征在于,包括:
获取待分类文本,及预置的待测类别对应的类别文本;
确定由每一类别文本和所述待分类文本组成的文本对的文本语义信息;
针对每一文本对,基于该文本对的文本语义信息,确定该文本对是否匹配;
将匹配的文本对中的类别文本对应的待测类别,作为所述待分类文本的类别;
其中,确定由任一类别文本和所述待分类文本组成的文本对的文本语义信息,基于该文本对的文本语义信息,确定该文本对是否匹配的过程,包括:
利用文本分类模型的特征提取模块,对所述文本对进行特征向量提取,得到所述文本对的字特征向量、文本特征向量以及位置特征向量;
利用文本分类模型的语义信息确定模块,对所述文本对的字特征向量、文本特征向量以及位置特征向量进行编码,得到所述文本对的文本语义信息;
利用文本分类模型的分类模块,对所述文本对的文本语义信息进行判断,得到所述文本对是否匹配的确定结果;所述文本分类模型具备,确定由任一类别文本和所述待分类文本组成的文本对的文本语义信息,基于该文本对的文本语义信息,确定该文本对是否匹配的能力。
2.根据权利要求1所述的方法,其特征在于,获取预置的待测类别对应的类别文本,包括:
获取预置的待测类别的类别名称,作为预置的待测类别的类别文本;
或,获取预置的待测类别的定义,作为预置的待测类别的类别文本;
或,获取类别为所述预置的待测类别的文本,作为预置的待测类别的类别文本。
3.根据权利要求1所述的方法,其特征在于,所述利用文本分类模型的特征提取模块,对所述文本对进行特征向量提取,得到所述文本对的字特征向量的过程,包括:
确定所述文本对的第一字特征向量;
获取预先设定的知识图谱;
基于所述知识图谱,确定所述文本对的第二字特征向量;
将所述第一字特征向量与所述第二字特征向量进行组合,生成所述文本对的字特征向量。
4.根据权利要求3所述的方法,其特征在于,所述基于所述知识图谱,确定所述文本对的第二字特征向量,包括:
确定所述文本对中包含的实体;
基于所述文本对中包含的实体以及所述知识图谱,确定所述文本对对应的图结构;
基于所述图结构,确定所述文本对中包含的实体的特征向量;
根据所述文本对中包含的实体的向量,确定所述文本对的第二字特征向量,其中,所述文本对中与所述实体对应的字的第二字特征向量为所述实体的特征向量,其余字的第二字特征向量为0。
5.根据权利要求4所述的方法,其特征在于,所述确定所述文本对中包含的实体,包括:
将所述文本对输入实体识别模型,所述实体识别模型输出所述文本对中包含的实体;所述实体识别模型是以训练文本为训练样本,以训练文本的实体标注结果为样本标签,训练得到的。
6.根据权利要求4或5所述的方法,其特征在于,所述基于所述文本对中包含的实体以及所述知识图谱,确定所述文本对对应的图结构,包括:
对文本对中包含的任一实体,确定所述知识图谱中与该实体匹配的链接实体;
根据所述知识图谱中与该链接实体对应的节点以及边,确定该链接实体对应的图结构,所有链接实体对应的图结构组成所述文本对对应的图结构。
7.一种文本分类装置,其特征在于,包括:
获取单元,用于获取待分类文本,及预置的待测类别对应的类别文本;
文本语义信息确定单元,用于确定由每一类别文本和所述待分类文本组成的文本对的文本语义信息;
确定单元,用于针对每一文本对,基于该文本对的文本语义信息,确定该文本对是否匹配;
类别确定单元,用于将匹配的文本对中的类别文本对应的待测类别,作为所述待分类文本的类别;
其中,确定由任一类别文本和所述待分类文本组成的文本对的文本语义信息,基于该文本对的文本语义信息,确定该文本对是否匹配的过程,包括:
利用文本分类模型的特征提取模块,对所述文本对进行特征向量提取,得到所述文本对的字特征向量、文本特征向量以及位置特征向量;
利用文本分类模型的语义信息确定模块,对所述文本对的字特征向量、文本特征向量以及位置特征向量进行编码,得到所述文本对的文本语义信息;
利用文本分类模型的分类模块,对所述文本对的文本语义信息进行判断,得到所述文本对是否匹配的确定结果;所述文本分类模型具备,确定由任一类别文本和所述待分类文本组成的文本对的文本语义信息,基于该文本对的文本语义信息,确定该文本对是否匹配的能力。
8.一种文本分类设备,其特征在于,包括存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如权利要求1至6中任一项所述的文本分类方法的各个步骤。
9.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1至6中任一项所述的文本分类方法的各个步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010230887.9A CN111460149B (zh) | 2020-03-27 | 2020-03-27 | 文本分类方法、相关设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010230887.9A CN111460149B (zh) | 2020-03-27 | 2020-03-27 | 文本分类方法、相关设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111460149A CN111460149A (zh) | 2020-07-28 |
CN111460149B true CN111460149B (zh) | 2023-07-25 |
Family
ID=71681545
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010230887.9A Active CN111460149B (zh) | 2020-03-27 | 2020-03-27 | 文本分类方法、相关设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111460149B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111914559B (zh) * | 2020-07-31 | 2023-04-07 | 平安科技(深圳)有限公司 | 基于概率图模型的文本属性抽取方法、装置及计算机设备 |
CN112016601B (zh) * | 2020-08-17 | 2022-08-05 | 华东师范大学 | 基于知识图谱增强小样本视觉分类的网络模型构建方法 |
CN111814472B (zh) * | 2020-09-03 | 2021-04-06 | 平安国际智慧城市科技股份有限公司 | 文本识别方法、装置、设备及存储介质 |
CN113420785B (zh) * | 2021-05-31 | 2023-12-19 | 北京联合大学 | 书面语体类型的分类方法、装置、存储介质及电子设备 |
CN113536806B (zh) * | 2021-07-18 | 2023-09-08 | 北京奇艺世纪科技有限公司 | 一种文本分类方法及装置 |
CN113688621B (zh) * | 2021-09-01 | 2023-04-07 | 四川大学 | 一种长短不一的文本在不同粒度下的文本匹配方法及装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103218444A (zh) * | 2013-04-22 | 2013-07-24 | 中央民族大学 | 基于语义的藏文网页文本分类方法 |
CN106202380A (zh) * | 2016-07-08 | 2016-12-07 | 中国科学院上海高等研究院 | 一种分类语料库的构建方法、系统及具有该系统的服务器 |
WO2018032937A1 (zh) * | 2016-08-19 | 2018-02-22 | 中兴通讯股份有限公司 | 一种文本信息分类方法及其装置 |
CN108549723A (zh) * | 2018-04-28 | 2018-09-18 | 北京神州泰岳软件股份有限公司 | 一种文本概念分类方法、装置及服务器 |
CN109684627A (zh) * | 2018-11-16 | 2019-04-26 | 北京奇虎科技有限公司 | 一种文本分类方法及装置 |
CN110019779A (zh) * | 2017-09-13 | 2019-07-16 | 中移(杭州)信息技术有限公司 | 一种文本分类方法、模型训练方法及装置 |
CN110196907A (zh) * | 2019-04-15 | 2019-09-03 | 中国石油大学(华东) | 一种多层次文本聚类方法和装置 |
CN110516247A (zh) * | 2019-08-27 | 2019-11-29 | 湖北亿咖通科技有限公司 | 基于神经网络的命名实体识别方法及计算机存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8924391B2 (en) * | 2010-09-28 | 2014-12-30 | Microsoft Corporation | Text classification using concept kernel |
US20140074886A1 (en) * | 2012-09-12 | 2014-03-13 | Pingar Holdings Limited | Taxonomy Generator |
-
2020
- 2020-03-27 CN CN202010230887.9A patent/CN111460149B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103218444A (zh) * | 2013-04-22 | 2013-07-24 | 中央民族大学 | 基于语义的藏文网页文本分类方法 |
CN106202380A (zh) * | 2016-07-08 | 2016-12-07 | 中国科学院上海高等研究院 | 一种分类语料库的构建方法、系统及具有该系统的服务器 |
WO2018032937A1 (zh) * | 2016-08-19 | 2018-02-22 | 中兴通讯股份有限公司 | 一种文本信息分类方法及其装置 |
CN110019779A (zh) * | 2017-09-13 | 2019-07-16 | 中移(杭州)信息技术有限公司 | 一种文本分类方法、模型训练方法及装置 |
CN108549723A (zh) * | 2018-04-28 | 2018-09-18 | 北京神州泰岳软件股份有限公司 | 一种文本概念分类方法、装置及服务器 |
CN109684627A (zh) * | 2018-11-16 | 2019-04-26 | 北京奇虎科技有限公司 | 一种文本分类方法及装置 |
CN110196907A (zh) * | 2019-04-15 | 2019-09-03 | 中国石油大学(华东) | 一种多层次文本聚类方法和装置 |
CN110516247A (zh) * | 2019-08-27 | 2019-11-29 | 湖北亿咖通科技有限公司 | 基于神经网络的命名实体识别方法及计算机存储介质 |
Non-Patent Citations (3)
Title |
---|
Encoding word order in complex embeddings;Benyou Wang et al.;《arXiv》;20191227;第1-15页 * |
基于多维特征的题型自动分类技术及在智能题库中的应用;叶至伟;《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》;20200115;第I138-2669页 * |
面向社区问答的中文短文本分类算法研究;赵辉等;《现代情报》;20131015(第10期);第70-74页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111460149A (zh) | 2020-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111460149B (zh) | 文本分类方法、相关设备及可读存储介质 | |
CN108287858B (zh) | 自然语言的语义提取方法及装置 | |
CN107291783B (zh) | 一种语义匹配方法及智能设备 | |
Creutz et al. | Unsupervised morpheme segmentation and morphology induction from text corpora using Morfessor 1.0 | |
CN110727779A (zh) | 基于多模型融合的问答方法及系统 | |
CN106202380B (zh) | 一种分类语料库的构建方法、系统及具有该系统的服务器 | |
CN111401064B (zh) | 一种命名实体识别方法、装置及终端设备 | |
CN108399157B (zh) | 实体与属性关系的动态抽取方法、服务器及可读存储介质 | |
CN111599340A (zh) | 一种多音字读音预测方法、装置及计算机可读存储介质 | |
CN110941958B (zh) | 一种文本类目标注方法、装置、电子设备及存储介质 | |
CN111737464B (zh) | 文本分类方法、装置和电子设备 | |
CN111967264A (zh) | 一种命名实体识别方法 | |
CN116306974A (zh) | 问答系统的模型训练方法、装置、电子设备及存储介质 | |
CN110969005B (zh) | 一种确定实体语料之间的相似性的方法及装置 | |
CN111160026A (zh) | 一种模型训练方法、装置、实现文本处理的方法及装置 | |
CN104572632A (zh) | 一种确定具有专名译文的词汇的翻译方向的方法 | |
CN110232328A (zh) | 一种征信报告解析方法、装置及计算机可读存储介质 | |
CN115617841A (zh) | 一种数据查询语句的生成方法、系统、设备及存储介质 | |
CN115546815A (zh) | 一种表格识别方法、装置、设备及存储介质 | |
CN112036183B (zh) | 基于BiLSTM网络模型及CRF模型的分词方法、装置、计算机装置及计算机存储介质 | |
CN115836288A (zh) | 用于生成训练数据的方法以及装置 | |
CN111626059B (zh) | 一种信息处理方法及装置 | |
CN113342924A (zh) | 答案检索方法及装置、存储介质及电子设备 | |
CN112507060A (zh) | 一种领域语料库构建方法及系统 | |
CN111428475A (zh) | 分词词库的构建方法、分词方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |