CN114020921A - 文本处理方法、装置、设备及存储介质 - Google Patents

文本处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114020921A
CN114020921A CN202111550733.9A CN202111550733A CN114020921A CN 114020921 A CN114020921 A CN 114020921A CN 202111550733 A CN202111550733 A CN 202111550733A CN 114020921 A CN114020921 A CN 114020921A
Authority
CN
China
Prior art keywords
text
classified
theme
features
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111550733.9A
Other languages
English (en)
Inventor
不公告发明人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Shulian Cloud Computing Technology Co ltd
Original Assignee
Chengdu Shulian Cloud Computing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Shulian Cloud Computing Technology Co ltd filed Critical Chengdu Shulian Cloud Computing Technology Co ltd
Priority to CN202111550733.9A priority Critical patent/CN114020921A/zh
Publication of CN114020921A publication Critical patent/CN114020921A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种文本处理方法、装置、设备及存储介质,其中方法包括:对待分类文本进行文本特征提取,得到待分类文本对应的文本特征;基于文本特征对待分类文本进行文本主题特征提取,得到待分类文本对应的主题特征;将文本特征和主题特征进行拼接处理,并根据拼接处理结果对待分类文本进行文本主题预测,得到待分类文本对应的文本主题;基于文本主题对待分类文本进行文本分类,确定待分类文本所属类别。采用本申请实施例,简化文本审核流程,提高文本分类的准确率。

Description

文本处理方法、装置、设备及存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种文本处理方法、装置、设备及存储介质。
背景技术
在自然资源稀缺的背景下,传统能源行业面临了诸多挑战,例如:如何节省成本、如何提高产能、如何预防潜在问题等。为了预防潜在问题,通常需要对一些业务数据进行审核,以及时发现并解决问题。以油田安全生成和日常管理业务为例,通常需要对安全生成和日常管理的业务的相关文本进行审核。目前的文本审核仍然停留在人工对问题进行审核归类的阶段。由于待审核的问题文本具有体量大、类型复杂以及来源多样等特征,纯人工处理的方式存在人力成本高,效率等问题。因此,在文本审核领域中,如何进行高效的文本分类成为当今研究的热点问题之一。
发明内容
本申请实施例提供了一种文本处理方法,装置、设备及存储介质,提高文本分类的准确性。
一方面,本申请实施例提供了一种文本处理方法,包括:
对待分类文本进行文本特征提取,得到所述待分类文本对应的文本特征;
基于所述文本特征对所述待分类文本进行文本主题特征提取,得到所述待分类文本对应的主题特征;
将所述文本特征和所述主题特征进行拼接处理,并根据拼接处理结果对所述待分类文本进行文本主题预测,得到所述待分类文本对应的文本主题;
基于所述文本主题对所述待分类文本进行文本分类,确定所述待分类文本所属类别。
一方面,本申请实施例还提供了一种文本处理装置,包括:
提取单元,用于对待分类文本进行文本特征提取,得到所述待分类文本对应的文本特征;
所述提取单元,还用于基于所述文本特征对所述待分类文本进行文本主题特征提取,得到所述待分类文本对应的主题特征;
拼接单元,用于将所述文本特征和所述主题特征进行拼接处理;
预测单元,用于根据拼接处理结果对所述待分类文本进行文本主题预测,得到所述待分类文本对应的文本主题;
确定单元,用于基于所述文本主题对所述待分类文本进行文本分类,确定所述待分类文本所属类别。
一方面,本申请实施例提供了一种文本处理设备,包括:处理器,适用于实现一条或多条计算机程序;计算机存储介质,所述计算机存储介质存储有一条或多条计算机程序,所述一条或多条计算机程序适于由处理器加载并执行:
对待分类文本进行文本特征提取,得到所述待分类文本对应的文本特征;基于所述文本特征对所述待分类文本进行文本主题特征提取,得到所述待分类文本对应的主题特征;将所述文本特征和所述主题特征进行拼接处理,并根据拼接处理结果对所述待分类文本进行文本主题预测,得到所述待分类文本对应的文本主题;基于所述文本主题对所述待分类文本进行文本分类,确定所述待分类文本所属类别。
一方面,本申请实施例提供了一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序被处理器执行时,用于执行:
对待分类文本进行文本特征提取,得到所述待分类文本对应的文本特征;基于所述文本特征对所述待分类文本进行文本主题特征提取,得到所述待分类文本对应的主题特征;将所述文本特征和所述主题特征进行拼接处理,并根据拼接处理结果对所述待分类文本进行文本主题预测,得到所述待分类文本对应的文本主题;基于所述文本主题对所述待分类文本进行文本分类,确定所述待分类文本所属类别。
一方面,本申请实施例提供了一种计算机程序产品或计算机程序,所述计算机程序产品包括计算机程序,计算机程序存储在计算机存储介质中;文本处理设备的处理器从计算机存储介质中读取计算机程序,该处理器执行计算机程序,使得文本处理设备执行:
对待分类文本进行文本特征提取,得到所述待分类文本对应的文本特征;基于所述文本特征对所述待分类文本进行文本主题特征提取,得到所述待分类文本对应的主题特征;将所述文本特征和所述主题特征进行拼接处理,并根据拼接处理结果对所述待分类文本进行文本主题预测,得到所述待分类文本对应的文本主题;基于所述文本主题对所述待分类文本进行文本分类,确定所述待分类文本所属类别。
本申请实施例中,在对待分类文本进行分类时,首先提取该待分类文本的文本特征,然后基于文本特征对待分类文本进行文本主题特征提取,得到待分类文本对应的主题特征,最后将文本特征和主题特征进行拼接处理,根据拼接处理结果对待分类文本进行主题预测,从而基于预测出的文本主题确定出待分类文本对应的文本主题。应当理解的,文本特征可以用于反映待分类文本的语义特征,将文本特征和主题特征进行拼接融合,实现了有效地结合文本的语义信息并得到更优的主题表示,进而基于拼接处理结果进行主题预测时,可以提高主题预测的准确性,从而也可以提供基于文本主题进行文本分类的准确性。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种文本处理系统的结构示意图;
图2是本申请实施例提供的一种文本处理方法的流程示意图;
图3是本申请实施例提供的另一种文本处理方法的流程示意图;
图4是本申请实施提供的一种LDA主题模型生成文本的示意图;
图5是本申请实施例提供的一种文本分类模型的结构示意图;
图6是本申请实施例提供的一种文本处理装置的流程示意图;
图7是本申请实施例提供的一种文本处理设备的结构的示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
本申请实施例提供了一种文本处理方案,可以用于对待分类文本进行分类,具体实现中,首先提取出待分类文本的文本特征,然后基于文本特征提取出待分类文本的主题特征,进一步的,将文本特征和主题特征进行拼接处理,并根据拼接处理结果进行文本主题预测,从而确定出待分类文本对应的主题;最后基于待分类文本对应的主题对待分类文本进行分类处理,确定出待分类文本所属类型。
该文本处理方案可由文本处理设备执行,文本处理设备可以是终端,比如
智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、车载终端、智能家电、智能语音交互设备等;或者,文本处理设备还可以是一个服务器,比如独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。
或者,该文本处理方案还可以由文本处理设备和文本管理服务器共同执行的,比如文本处理设备获取待分类文本,并将所述待分类文本传输给文本管理服务器,由文本管理服务器执行文本特征提取、主题特征提取、文本主题预测以及确定待分类文本所属类别的步骤。再如,文本处理设备获取待分类文本,将所述待分类文本传输给文本管理服务器之后,由文本管理服务器执行文本特征提取、主题特征提取以及文本主题预测,并将预测到的文本主题返回给文本处理设备,由文本处理设备基于预测到的文本主题对待分类文本进行分类处理。应当理解的,上述只是本申请实施例列举的两种可行实施方式,在具体应用中,根据产品不同,以及应用场景不同,可以设置该文本处理方案具有由哪个设备执行。
在一个实施例中,如果该文本处理方法由文本处理设备和文本管理服务器共同执行,那么本申请实施例可以提供一种文本处理系统,参见图1,为本申请实施例提供的一种文本处理系统的结构示意图。在图1所述的文本处理系统中可以包括文本处理设备101以及文本管理服务器102,文本处理设备101和文本管理服务器102通过有线或者无线方式进行连接。
文本处理设备101获取待分类文本,并将该待分类文本传输给文本管理服务器102,文本管理服务器102接收到待分类文本后,对待分类文本进行文本特征提取得到待分类文本对应的文本特征,进一步的,再基于文本特征对待分类文本进行文本主题特征提取,得到待分类文本主题对应的主题特征。
然后,文本管理服务器102将文本特征和主题特征进行拼接处理,并根据拼接处理结果对待分类文本进行文本主题预测,得到待分类文本对应的文本主题。文本管理服务器102可以将待分类文本对应的文本主题返回给文本处理设备101,文本处理设备101基于文本主题对待分类文本进行文本分类,确定待分类文本所属类别。
或者,文本管理服务器102基于文本主题对待分类文本进行文本分类,确定待分类文本所属类别,然后通知文本处理设备101待分类文本所属类别。文本特征可以用于反映待分类文本的语义特征,将文本特征和主题特征进行拼接融合,实现了有效地结合文本的语义信息并得到更优的主题表示,进而基于拼接处理结果进行主题预测时,可以提高主题预测的准确性,从而也可以提供基于文本主题进行文本分类的准确性。
基于上述的文本处理方案以及文本处理系统,本申请实施例提供了一种文本处理方法,参见图2,为本申请实施例提供的一种文本处理方法的流程示意图。图2所述的文本处理方法可由文本处理设备执行,具体可由文本处理设备的处理器执行。图2所述的文本处理方法可包括如下步骤:
步骤S201、对待分类文本进行文本特征提取,得到待分类文本对应的文本特征。
其中,待分类文本通常是指与某个条例或者规范有关的,换句话说,待分类文本用于记录一些违反或者符合某个条例或者规范的内容,比如待分类文本可以是在石油工程中产生的一些短文本,这些短文本可以用于记录石油工程中安全生成和日常管理的文本,这类短文本可能与石油工程中的某个条例或者规范有关,比如一个短文本中记录的内容违反某个规范或者条例;或者,待分类文本还可以是任意类型的文本,比如待分类文本可以是用于记录某个应用程序运行日志的文本等等。
待分类文本对应的文本特征可以用于反映待分类文本的语义信息,一个文本的语义信息是对该文本进行后续处理的基础参考信息。对待分类文本进行文本特征提取可以是调用文本特征处理模型执行的。目前大多数的文本特征处理模型的建模方式都是基于递归神经网络(recurrent neural network,RNN),但是简单的RNN存在梯度消失/梯度爆炸问题,所以无法对较长的上下文依赖关系进行建模。与传统的RNN相比,LSTM提出了一种门控制机制,能更有效的提取特征和训练,解决了梯度消失和爆炸的问题。LSTM是一种特殊的RNN,两者的区别在于普通的RNN单个循环结构内部只有一个状态,而LSTM的单个循环结构(又称为细胞)内部有四个状态。相比与传统的RNN,LSTM循环结构之间保持一个持久的单元状态不断传递下去,用于决定哪些信息要遗忘或继续传递下去。但是由于LSTM在进行序列化处理时需要依赖于上一时刻的计算结果,因此存在并行计算效率低、模型运行速度慢的问题。
目前在自然语言处理各个业务全面开花的文本特征处理模型(也叫语言模型)如GPT模型、Transformer双向编码器(Bidirectional Encoder Representations fromTransformers,BERT)模型等,都是基于Transfomer模型,其中,BERT模型与其他语言表示模型不同,BERT旨在通过联合调节所有层中的上下文来预先训练深度双向表示。因此,预训练的BERT模型表示可以通过一个额外的输出层进行微调,适用于广泛任务的最先进模型的构建。基于BERT模型的优点,本申请实施例中用于提取文本提取的文本特征处理模型可以使用BERT模型。
步骤S202、基于文本特征对待分类文本进行文本主题特征提取,得到待分类文本对应的主题特征。
为了准确地对待分类文本进行分类处理,不仅需要依据待分类文本的语义信息,还需要挖掘待分类文本的主题特征。本申请实施例中,待分类文本对应的主题特征可以是基于文本特征进行特征提取得到的。具体实现中,待分类文本对应的主题特征是调用文本主题处理模型执行的,将步骤S201提取到的文本特征输入到文本主题处理模型中,以使文本主题处理模型通过文本特征进行文本主题进行提取处理,从而得到待分类文本对应的主题特征。
文本主题处理模型可以是一个隐含狄利克雷分布(Latent DirichletAllocation,LDA)主题模型,LDA主题模型是一种文档生成模型,该模型认为一个文本或者一篇文章是有很多个主题的,而每个主题又对应着不同的词。一个文本或者一篇文章的构造过程中,首先是以一定的概率选择某个主题,然后再在这个主题下以一定的概率选出某一个词,这样就生成了一个文本或者一篇文章的第一个词。不断重复这个过程,就可以生成一个文本或者一篇文章。LDA主题模型的使用是上述文档生成的逆过程,它将根据一个文本或者一篇文章,无寻找一个文本的主题,以及这些主题对应的词。
LDA主题模型是一个非监督的机器学习模型,并且使用了词袋模型。训练好的LDA主题模型可以基于待分类文本的文本特征进行文本主题特征提取,得到待分类文本对应的主题特征。
步骤S203、将文本特征和主题特征进行拼接处理,并根据拼接处理结果对待分类文本进行文本主题预测,得到待分类文本对应的文本主题。
可选的,步骤S203可以是调用文本分类模型执行的。具体实现中,文本分类模型可以包括全连接层和分类层,调用全连接层将文本特征和主题特征进行拼接,得到一个目标长度的拼接处理结果;进一步的,调用分类层采用分类函数基于拼接处理结果进行分类预测,得到待分类文本对应的文本主题分布,并根据文本主题分布确定待分类文本对应的文本主题。
其中,目标长度是和预先设置的文本主题数量相同的,比如预先设置了文本主题数量为5,那么目标长度就是5;输出的文本主题分布中可以包括多个文本主题中每个文本主题的概率,此处文本主题的数量与目标长度相同,假设表示为N,目标长度和文本主题的数量均为N,N为大于或等于1的正整数。文本主题分布包括:第i个文本主题对应的概率,i为大于或等于1且小于或等于N的正整数。
在一个实施例中,根据文本主题分布确定待分类文本对应的文本主题,可以包括:将文本主题分布中概率最大的文本主题确定为待分类文本对应的文本主题。例如,文本主题分布中包括第一文本主题和第二文本主题,第一文本主题对应的概率大于第二文本主题对应的概率,那么就将第一文本主题确定为待分类文本对应的文本主题。
在另一个实施例中,根据文本主题分布确定待分类文本对应的文本主题,可以包括:将文本主题分布中概率满足概率阈值的文本主题确定为待分类文本对应的文本主题。该概率阈值可以是预先设置的,概率阈值可以是一个具体值,某个概率满足概率阈值可以指某个概率大于或等于某个概率阈值;或者,概率阈值也可以是一个范围,某个概率满足概率阈值可以指某个概率落入了概率阈值所要求的范围内。可选的,如果满足概率阈值的概率有多个,可以将概率较大的文本主题确定为待分类文本对应的文本主题。或者也可以随机将任意一个概率满足概率阈值的文本主题确定为待分类文本对应的文本主题。此处,本申请实施例只是列举了两种可行的实施方式,具体应用时,由于产品形态不同,应用场景不同,可以依据产品形态和应用场景确定根据文本主题分布确定待分类文本对应的文本主题的实施方式,本申请实施例不做具体限定。
步骤S204、基于文本主题对待分类文本进行文本分类,确定待分类文本所属类别。
确定出待分类文本对应的文本主题后,可以进一步通过步骤S204基于文本主题对待分类文本进行文本分类,确定待分类文本所属类别。具体实现中,可以预先设置文本主题与审核规范之间的对应关系,确定了待分类文本对应的文本主题之后,获取预先设置的文本主题与审核规范之间的对应关系,基于该对应关系确定与待分类文本对应的文本主题相匹配的目标审核规范;将待分类文本归类为违反目标审核规范的文本。
举例来说,如果待分类文本是属于石油工程中的一个文本,通常在石油工程中,文本所属类别可以理解为确定该文本是违反哪个审核规范的文本。对应的审核规范和文本主题之间存在直接关系,例如审核规范《石油企业现场安全检查规范:井下作业》对应的文本主题为“承包商和/或供应商”,那么如果确定出待分类文本对应的文本主题是承包商和/或供应商,则基于上述的对应关系,可以确定该待分类文本所属类别为违反了《石油企业现场安全检查规范:井下作业》这一审核规范。
本申请实施例中,在对待分类文本进行分类时,首先提取该待分类文本的文本特征,然后基于文本特征对待分类文本进行文本主题特征提取,得到待分类文本对应的主题特征,最后将文本特征和主题特征进行拼接处理,根据拼接处理结果对待分类文本进行主题预测,从而基于预测出的文本主题确定出待分类文本对应的文本主题。应当理解的,文本特征可以用于反映待分类文本的语义特征,将文本特征和主题特征进行拼接融合,实现了有效地结合文本的语义信息并得到更优的主题表示,进而基于拼接处理结果进行主题预测时,可以提高主题预测的准确性,从而也可以提供基于文本主题进行文本分类的准确性。
基于上述的文本处理方法实施例,本申请实施例提供了另一种文本处理方法。参见图3,为本申请实施例提供的另一种文本处理方法的流程示意图。图3所述的文本处理方法可由文本处理设备执行,具体可由文本处理设备的处理器执行。图3所述的文本处理方法可包括如下步骤:
步骤S301、对待分类文本进行预处理,并调用文本特征处理模型对预处理后的待分类文本进行特征提取,得到待分类文本对应的文本特征。
可选的,对待分类文本进行预处理可以包括分词处理和去停用词处理,具体实现中,包括:对所述待分类文本进行分词处理,得到所述待分类文本对应的字词集,所述字词集中包括一个或多个字或者词;对所述字词集进行去停用词处理得到所述待分类文本包括的特征字词。其中,分词处理的目的就是将待分类文本中的汉字序列切分成单个独立的词,本申请实施例中可以采用Jieba作为分词工具,例如待分类文本表示为“征战四海只为今日一胜,我不会再败了”,采用Jieba分词工具对其进行分词后,得到字词集为(“征战”,“四海”,“只”,“为”,“今日”,“一胜”,“,”,“我”,“不会”,“再败”,“了”)。
停用词一般是指出现频率很高,但实际意义又不大的词,如常见的停用词可以包括“的”、“在”、“和”等等。可选的,本申请实施例可以根据经验预先设置一张停用词表,停用词表中包括多个停用词,对字词集进行去停用词处理得到待分类文本包括的特征字词,可以包括:从字词集中去除出现在停用词表中的字词,剩下的字词作为待分类文本包括的特征字词。
因为停用词一般是实际意义不大的词,如果将停用词也作为待分类文本的特征字词进行分析,增加文本特征提取时间,从而降低文本特征提取效率。对待分类文本进行去停用词之后,待分类文本包括的特征词数量得到大幅减少,可以减少文本特征提取时间,显著减低了文本特征处理模型的运算时间,从而可以提高文本特征提取效率。
在一个实施例中,对预处理后的待分类文本进行特征提取,得到待分类文本对应的文本特征,可以包括:s1:将待分类文本进行向量嵌入处理,得到待分类文本中每个特征字词对应的词向量;s2:将每个特征字词对应的词向量进行线性变换处理,并对线性变换处理后的每个词向量进行注意力权重运算,得到所述待分类文本的文本特征。
具体实现中,对预处理后的待分类文本进行特征提取是调用文本特征处理模型执行的。可选的,文本特征处理模型可以包括向量嵌入embedding层和Transformer编码器层,上述s1是调用文本特征处理模型中的embedding层执行的。具体地,每个特征字词的词向量中包含了每个特征字词的词向量、待分类文本的文本向量以及每个字词在待分类文本中位置向量。针对任意一个特征字词,假设词向量表示为
Figure 740020DEST_PATH_IMAGE001
,待分类文本的文本向量表示为
Figure 56732DEST_PATH_IMAGE002
,以及任意一个特征字词在待分类文本中位置向量表示为
Figure 247541DEST_PATH_IMAGE003
,那么经过embedding层对待分类文本进行向量嵌入处理后,该任意一个特征字词映射成的词向量表示为
Figure 675112DEST_PATH_IMAGE004
得到每个特征字词对应的词向量之后,通过上述步骤s2对每个特征字词对应的词向量进行线性变化处理,并对线性变换处理后的每个词向量进行注意力权重运算,得到待分类文本的文本特征。具体实现中,步骤s2可以是调用文本特征处理模型中的Transformer编码器层执行的。Transformer可以是一个双向的编码器,为了使文本特征处理模型学习到更多信息,Transformer编码器层将多头机制和前馈层通过残差网络结果连接,由多头机制对输入的向量进行多次线性变换处理得到不同的线性值,再对注意力权重进行运算,注意力权重运算公式如下:
MultiHeadQ,K,V)=Concathead 1 head 2 ,…,head h )W o (1)
head f =Attention
Figure 205450DEST_PATH_IMAGE005
(2)
其中,在公式(1)中,Q,K,V为输入的词向量矩阵,Attention表示注意力权重运算,Concat表示拼接处理,
Figure 755380DEST_PATH_IMAGE006
为第f个超参数头,f为大于或等于1且小于或等于h的整数,
Figure 371169DEST_PATH_IMAGE007
可以表示为
Figure 664747DEST_PATH_IMAGE008
Figure 548128DEST_PATH_IMAGE009
表示为权重矩阵,
Figure 3380DEST_PATH_IMAGE010
Figure 106465DEST_PATH_IMAGE011
以及
Figure 141417DEST_PATH_IMAGE012
分别为第f个超参数头对应的权重矩阵。通过上述公式(1)和公式(2)可以看出,将所述每个特征字词对应的词向量进行线性变换处理,并对线性变换处理后的每个词向量进行注意力权重运算的原理是:将Q,K,V通过相应的权重矩阵映射后进行Attention运算,重复h次后对计算结果进行拼接,便可以得到待分类文本的文本特征。待分类文本的文本特征反映了待分类文本的语义关系和语法结构。
步骤S302、调用文本主题处理模型基于文本特征对待分类文本进行文本主题特征提取,得到待分类文本对应的主题特征。
由前述可知,文本主题处理模型可以是一个LDA主题模型,在介绍步骤S302之前,首先介绍一下LDA主题模型的相关知识。LDA主题模型是一个“文档-主题-词”的三层贝叶斯概率生成模型,其通过模型文本的生成过程,将文本建模为混合主题上的概率分布,其LDA主题模型的建模过程可以如图4所示。在图4中,假设一个文本集包括m个文本,文本集表示为
Figure 708665DEST_PATH_IMAGE013
,其中,
Figure 272501DEST_PATH_IMAGE014
表示文本集中的第i个文本,i为大于或等于1为小于或等于m的整数;假设第i个文本中包括n个字词,那么第i个文本可以表示为
Figure 925199DEST_PATH_IMAGE015
,假设
Figure 498263DEST_PATH_IMAGE016
中每个分量表示文本集中每个文本对应的主题词向量,具体地比如
Figure 654438DEST_PATH_IMAGE017
表示第i个文本中每个字词对应的主题,
Figure 654755DEST_PATH_IMAGE018
给定的超参数。LDA主题模型生成第i个文本的过程为:
1)对于给定的第i个文本
Figure 732432DEST_PATH_IMAGE019
,根据
Figure 171504DEST_PATH_IMAGE020
服从参数为
Figure 385448DEST_PATH_IMAGE021
的Dirichlet分布
Figure 618983DEST_PATH_IMAGE022
确定一个主题分布
Figure 431561DEST_PATH_IMAGE023
,简单来说就是得到第i个文本的主题分布;
2)对于第i个文本中的第n个词
Figure 408744DEST_PATH_IMAGE024
,根据z服从
Figure 477194DEST_PATH_IMAGE025
的多项分布
Figure 881631DEST_PATH_IMAGE026
,为
Figure 668321DEST_PATH_IMAGE027
确定一个主题编号
Figure 386878DEST_PATH_IMAGE028
3)根据
Figure 637731DEST_PATH_IMAGE029
服从参数为
Figure 150752DEST_PATH_IMAGE030
的Dirichlet分布
Figure 487056DEST_PATH_IMAGE031
,确定一个主题-词分布矩阵
Figure 743725DEST_PATH_IMAGE032
和词分布
Figure 849084DEST_PATH_IMAGE033
4)根据词
Figure 533006DEST_PATH_IMAGE034
服从
Figure 91026DEST_PATH_IMAGE035
的多项分布
Figure 416965DEST_PATH_IMAGE036
生成词
Figure 813049DEST_PATH_IMAGE037
5)遍历第i个文本中所有词,重复执行步骤2)-4),可以生成第i个文本
Figure 730190DEST_PATH_IMAGE038
6)遍历所有文本,重复执行步骤1)-5),可以生成整个文本集D。
对LDA主题模型训练时,上述这个文本集可以是用于训练的样本文本集,在对LDA主题模型进行训练时,通过上述步骤1)-6)生成了整个文本集之后,随后通过对
Figure 978769DEST_PATH_IMAGE040
进行吉布斯采样(Gibbs Sampling)估算上述参数
Figure 639557DEST_PATH_IMAGE041
Figure 391612DEST_PATH_IMAGE042
,具体训练过程可以如下:
1)随机初始化,即对每个文本中的每个字词进行随机赋予一个主题;
2)重复扫描整个文本集,对于每一个特征词,按照吉布斯采样重新抽取它的主题;
3)重复以上采样过程,直到吉布斯采样收敛;
4)统计整个文本集的主题-词共现频率矩阵;
训练结束后,根据主题-词共现频率矩阵得到主题-词分布
Figure 745233DEST_PATH_IMAGE043
,统计每个文本包含的主题的频率分布,得到文本集的主题分布
Figure 481108DEST_PATH_IMAGE044
经过上述各个步骤对LDA主题模型进行训练结束后,认为此时LDA主题模型中的
Figure 148850DEST_PATH_IMAGE044
Figure 20991DEST_PATH_IMAGE043
是稳定的。
应当理解的,上述只是本申请实施例提出的一种LDA主题模型训练的方法,在实际应用中除了采用吉布斯采样计算主题分布,还可以用BERT模型输出的词向量作为LDA模型的输入,用BERT模型代替吉布斯采样算法计算主题分布。
本申请实施例中,调用训练完成的LDA主题模型基于文本特征对待分类文本进行文本主题特征提取,得到待分类文本对应的主题特征。具体实现中,获取所述文本特征包括的特征字词,并为所述每个特征字词分配一个文本主题编号;对所述每个特征字词的文本主题编号吉布斯采样处理,当吉布斯采样收敛时,统计所述待分类文本中的文本主题分布,并将所述文本主题分布确定为所述待分类文本的主题特征。
步骤S303、调用文本分类模型中的全连接层将文本特征和主题特征进行拼接处理,得到拼接处理结果;以及调用文本分类模型中的分类层采用分类函数基于拼接处理结果进行分类预测,得到待分类文本对应的文本主题分布。
在一个实施例中,文本主题处理模型和文本特征处理模型可以均部署在文本分类模型中,文本特征处理模型与文本主题处理模型相连接,这样一来,文本特征处理模型提取得到的文本特征可以传输给文本主题处理模型。可选的,文本特征处理模型提取到的文本特征(可以表示为Feature tensor)在传输给文本主题处理模型之前,可以先经过一个embedding层,embedding层可以通过one-hot编码映射为低维词向量。由前述可知,文本分类模型还包括全连接层和分类层,基于此,本申请实施例提供了一种文本分类模型,参见图5,为本申请实施例提供的一种文本分类模型的结构示意图。在图5中501表示文本特征处理模型,该文本特征处理模型可以是一个BERT模型,具体可包括embedding层和TransformerIncoder编码器层如图5中所述;BERT模型输出的文本特征经过一个embedding层处理为低维词向量后作为LDA主题模型的输入,LDA主题基于该输入进行文本主题特征提取后,输出待分类文本的主题特征(也可以表示为Feature tensor);最后BERT模型输出的文本特征Feature tensor和LDA主题模型输出的主题特征Feature tensor经过全连接层进行拼接融合,然后拼接处理结果经过分类层SoftMax层进行分类预测,最后输出待分类文本的文本主题,也就是输出了对待分类文本的主题分类Classifications。
输出待分类文本的文本主题,具体可以包括:先确定出主题分布,然后通过步骤S304根据主题分布确定待分类文本的文本主题。关于这一技术特征的技术实现可参见图2实施例中步骤S203的描述,在此不再赘述。
在一个实施例中,文本分类模型可以是基于语料集预先训练完成的,语料集可以包括多个训练文本和每个训练文本对应的主题标签。在训练时,可以将语料集输入到文本分类模型中,设置初始学习率LR,每次输入训练文本的批量大小,dropout率和Epoch训练次数,采用Adam优化器动态调整学习率加速模型收敛。训练时,根据模型预测结果获得混淆矩阵并计算F1-score和AUC指标,以作为检验模型效果的评估指标。其中,F1-score又可以称为F1分数,是统计学中用来衡量二分类模型精确度的一种指标,它同时兼顾了分类模型的精准率和召回率。F1分数可以看作是模型精准率和召回率的一种调和平均,其最大值为1,最小值为0。F1分数可以通过下述公式(3)表示:
Figure 483196DEST_PATH_IMAGE045
(3)
其中,precision表示精准率,其计算公式为
Figure 503105DEST_PATH_IMAGE046
,recall表示召回率,其计算方式为
Figure 443379DEST_PATH_IMAGE047
,TP(true positive)表示把正例正确地分类为正例,FN(false negative)表示把正例错误地分类为负例,TN(true negative)表示把负例正确地分类为负例,FP(false positive)表示把负例错误地分类为正例。在本申请实施例中,正例正确地分类为正例,以及将负例正确地分类为负例可以指:对于一个训练文本而言,预测出的文本主题和该训练文本对应的主题标签相同;正例错误地分类为负例,以及负例错误地分类为正例可以指:对于一个训练文本而言,预测出的文本主题与该训练文本对应的主题标签不相同。F1分数的值越大,表明模型的精准率和召回率越高,文本分类模型在进行文本分类时就越准确。AUC(Area under Curve)是衡量学习器优劣的一种指标,是指ROC曲线下的面积,取值在0-1之间,同理的,AUC的取值越大,说明文本分类模型训练的就越好。
由于交叉熵损失函数弥补了sigmoid型函数的导数形式易发生饱和的缺陷,同时引入Softmax作为预测结果,在分类任务上有很好的表现,所以本申请实施例中采用交叉熵损失函数cross-entropy error作为训练文本分类模型的损失函数。使用交叉熵损失函数对文本分类模型进行训练的原理可以是:调用文本分类模型中的文本特征处理模型对训练文本进行文本特征提取得到文本特征,然后调用文本主题处理模型基于文本特征进行文本主题特征提取得到主题特征;将文本特征和主题特征进行拼接,根据拼接处理结果预测训练文本的预测主题;基于训练文本的预测主题以及该训练文本的主题标签计算交叉熵损失函数的值;按照减小该交叉熵损失函数的值的方向调整文本分类模型的模型参数,直到文本分类模型达到收敛。
可选的,假设训练文本的数量为m个,基于训练文本的预测主题以及训练文本的主题标签计算交叉熵损失函数的值,可以通过如下公式(4)表示:
Figure 232344DEST_PATH_IMAGE048
(4)
在公式(4)中,
Figure 632494DEST_PATH_IMAGE049
表示第j个训练文本对应的主题标签,j的取值为1到m,
Figure 811803DEST_PATH_IMAGE050
表示第j个训练文本对应的预测主题。
对文本分类模型训练完成后,调用文本分类模型中的全连接层将文本特征和主题特征进行拼接处理,得到拼接处理结果;以及调用文本分类模型中的分类层采用分类函数基于拼接处理结果进行分类预测,得到待分类文本对应的文本主题分布。其中,文本特征处理模型提取到的文本特征,和文本主题处理模型提取到的主题特征,具有相同的维数,因此,将文本特征和主题特征进行拼接处理可以指将文本特征和主题特征直接进行相加。
步骤S304、根据文本主题分布确定待分类文本对应的文本主题,并基于文本主题对待分类文本进行文本分类,确定待分类文本所属类别。
在一个实施例中,步骤S304中包括的一些可行的实施方式已在图2实施例中步骤S203具体介绍,在此不再赘述。
本申请实施例中,将文本特征处理模型提出的文本特征融合了文本主题处理模型的主题信息,实现了有效地结合文本的语义信息并得到更优的主题向量。并且,为了排除干扰词的对准确性的影响,对待分类文本进行了去停用词处理。另外,使用交叉熵损失函数对文本分类模型进行训练,可提高文本分类模型的准确性。
基于上述的文本处理方法实施例,本申请实施例提供了一种文本处理装置,参见图6,为本申请实施例提供的一种文本处理装置的结构示意图。图6所述的文本处理装置可以运行如下单元:
提取单元601,用于对待分类文本进行文本特征提取,得到所述待分类文本对应的文本特征;
所述提取单元601,还用于基于所述文本特征对所述待分类文本进行文本主题特征提取,得到所述待分类文本对应的主题特征;
拼接单元602,用于将所述文本特征和所述主题特征进行拼接处理;
预测单元603,用于根据拼接处理结果对所述待分类文本进行文本主题预测,得到所述待分类文本对应的文本主题;
确定单元604,用于基于所述文本主题对所述待分类文本进行文本分类,确定所述待分类文本所属类别。
在一个实施例中,所述提取单元601在对所述待分类文本进行特征提取时,执行如下步骤:对所述待分类文本进行预处理,对预处理后的待分类文本进行特征提取;
对所述待分类文本进行预处理,包括:对所述待分类文本进行分词处理,得到所述待分类文本对应的字词集,所述字词集中包括一个或多个字或者词;对所述字词集进行去停用词处理得到所述待分类文本包括的特征字词。
在一个实施例中,所述提取单元601在对所述待分类文本进行特征提取,得到所述待分类文本对应的文本特征时,执行如下步骤:
将所述待分类文本进行向量嵌入处理,得到所述待分类文本中每个特征字词对应的词向量;
将所述每个特征字词对应的词向量进行线性变换处理,并对线性变换处理后的每个词向量进行注意力权重运算,得到所述待分类文本的文本特征。
在一个实施例中,所述提取单元601在基于所述文本特征对所述待分类文本进行文本主题特征提取时,执行如下步骤:
获取所述文本特征包括的特征字词,并为所述每个特征字词分配一个文本主题编号;
对所述每个特征字词的文本主题编号吉布斯采样处理,当吉布斯采样收敛时,统计所述待分类文本中的文本主题分布,并将所述文本主题分布确定为所述待分类文本的主题特征。
在一个实施例中,所述对所述待分类文本进行特征提取是调用文本特征处理模型执行的,所述基于所述文本特征对所述待分类文本进行文本主题特征提取是调用文本主题处理模型执行的;所述文本特征处理模型和所述文本主题处理模型均部署在文本分类模型中,所述文本特征处理模型与所述文本主题处理模型相连接;所述文本分类模型还包括全连接层和分类层;所述拼接单元602在将所述文本特征和所述主题特征进行拼接处理时,执行如下步骤:
调用所述全连接层将所述文本特征和所述主题特征进行拼接,得到目标长度的拼接处理结果;
所述预测单元603在根据拼接处理结果对所述待分类文本进行文本主题预测,得到所述待分类文本对应的文本主题时,执行如下步骤:
调用所述分类层采用分类函数基于所述拼接处理结果进行分类预测,得到所述待分类文本对应的文本主题分布,并根据所述文本主题分布确定所述待分类文本对应的文本主题。
在一个实施例中,所述文本主题处理模型是基于训练文本集训练得到的,所述训练文本集包括多个训练文本,每个训练文本包括一个或多个特征词;所述文本处理装置还包括训练单元605,所述训练单元605用于执行:对所述每个训练文本中的特征词随机赋予一个主题;扫描所述训练文本集,为所述每个训练文本中的每个特征词,按照吉布斯C采样反复重新抽取一个主题,直至吉布斯采样收敛;统计所述训练文本集的主题和词的共现频率矩阵,并根据所述主题和词的共现矩阵确定文本主题处理模型。
在一个实施例中,所述确定单元604在基于所述文本主题对所述待分类文本进行文本分类,确定所述待分类文本所属类别时,执行如下步骤:
获取文本主题与审核规范之间的对应关系;基于所述文本主题与审核规范之间的对应关系,确定与所述待分类文本对应的文本主题相匹配的目标审核规范;将所述待分类文本归类为违反所述目标审核规范的文本。
根据本申请的一个实施例,图2以及图3所示的文本处理方法所涉及各个步骤可以是由图6所示的文本处理装置中的各个单元来执行的。例如,图2所述的步骤S201和S202可由图6所示的文本处理装置中的提取单元601来执行,步骤S203可由图6所述的文本处理装置中的拼接单元602和预测单元603来执行,步骤S204可以由图6所述的文本处理装置中的确定单元604来执行;再如,图3中步骤S301和步骤S302可由图6所述的文本处理装置中的提取单元601来执行,步骤S303可由图6所述的文本处理装置中的拼接单元602和预测单元603来执行;步骤S304可由图6所述的文本处理装置中的确定单元604来执行。
根据本申请的另一个实施例,图6所示的文本处理装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本申请的其它实施例中,基于文本处理装置也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。
根据本申请的另一个实施例,可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图2以及图3所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图7中所示的文本处理装置,以及来实现本申请实施例文本处理方法。所述计算机程序可以记载于例如计算机可读存储介质上,并通过计算机可读存储介质装载于文本处理设备中,并在其中运行。
本申请实施例中,在对待分类文本进行分类时,首先提取该待分类文本的文本特征,然后基于文本特征对待分类文本进行文本主题特征提取,得到待分类文本对应的主题特征,最后将文本特征和主题特征进行拼接处理,根据拼接处理结果对待分类文本进行主题预测,从而基于预测出的文本主题确定出待分类文本对应的文本主题。应当理解的,文本特征可以用于反映待分类文本的语义特征,将文本特征和主题特征进行拼接融合,实现了有效地结合文本的语义信息并得到更优的主题表示,进而基于拼接处理结果进行主题预测时,可以提高主题预测的准确性,从而也可以提供基于文本主题进行文本分类的准确性。
基于上述文本处理方法的实施例以及文本处理装置的实施例,本申请实施例提供了一种文本处理设备,参见图7,为本申请实施例提供的一种文本处理设备的结构示意图。图7所述的文本处理设备可以包括处理器701、输入接口702、输出接口703以及计算机存储介质704。其中,处理器701、输入接口702、输出接口703以及计算机存储介质704可通过总线或其他方式连接。
计算机存储介质704可以存储在文本处理设备的存储器中,所述计算机存储介质704用于存储计算机程序,所述处理器701用于执行所述计算机存储介质704存储的计算机程序。处理器701(或称CPU(Central Processing Unit,中央处理器))是文本处理设备的计算核心以及控制核心,其适于实现一条或多条计算机程序,具体适于加载并执行:
对待分类文本进行文本特征提取,得到所述待分类文本对应的文本特征;基于所述文本特征对所述待分类文本进行文本主题特征提取,得到所述待分类文本对应的主题特征;将所述文本特征和所述主题特征进行拼接处理,并根据拼接处理结果对所述待分类文本进行文本主题预测,得到所述待分类文本对应的文本主题;基于所述文本主题对所述待分类文本进行文本分类,确定所述待分类文本所属类别。
本申请实施例中,在对待分类文本进行分类时,首先提取该待分类文本的文本特征,然后基于文本特征对待分类文本进行文本主题特征提取,得到待分类文本对应的主题特征,最后将文本特征和主题特征进行拼接处理,根据拼接处理结果对待分类文本进行主题预测,从而基于预测出的文本主题确定出待分类文本对应的文本主题。应当理解的,文本特征可以用于反映待分类文本的语义特征,将文本特征和主题特征进行拼接融合,实现了有效地结合文本的语义信息并得到更优的主题表示,进而基于拼接处理结果进行主题预测时,可以提高主题预测的准确性,从而也可以提供基于文本主题进行文本分类的准确性。
本申请实施例还提供了一种计算机存储介质(Memory),所述计算机存储介质是文本处理设备的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机存储介质既可以包括文本处理设备的内置存储介质,当然也可以包括文本处理设备所支持的扩展存储介质。计算机存储介质提供存储空间,该存储空间存储了文本处理设备的操作系统。并且,在该存储空间中还存放了适于被处理器701加载并执行的一条或多条的计算机程序。需要说明的是,此处的计算机存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器;可选的还可以是至少一个位于远离前述处理器的计算机存储介质。
在一个实施例中,所述计算机存储介质中存储的一条或多条计算机程序可由处理器701加载并执行:
对待分类文本进行文本特征提取,得到所述待分类文本对应的文本特征;基于所述文本特征对所述待分类文本进行文本主题特征提取,得到所述待分类文本对应的主题特征;将所述文本特征和所述主题特征进行拼接处理,并根据拼接处理结果对所述待分类文本进行文本主题预测,得到所述待分类文本对应的文本主题;基于所述文本主题对所述待分类文本进行文本分类,确定所述待分类文本所属类别。
在一个实施例中,所述处理器701在对所述待分类文本进行特征提取时,执行如下步骤:对所述待分类文本进行预处理,对预处理后的待分类文本进行特征提取;
所述对所述待分类文本进行预处理,包括:对所述待分类文本进行分词处理,得到所述待分类文本对应的字词集,所述字词集中包括一个或多个字或者词;对所述字词集进行去停用词处理得到所述待分类文本包括的特征字词。
在一个实施例中,所述处理器701在对所述待分类文本进行特征提取,得到所述待分类文本对应的文本特征时,执行如下步骤:
将所述待分类文本进行向量嵌入处理,得到所述待分类文本中每个特征字词对应的词向量;将所述每个特征字词对应的词向量进行线性变换处理,并对线性变换处理后的每个词向量进行注意力权重运算,得到所述待分类文本的文本特征。
在一个实施例中,所述处理器701在基于所述文本特征对所述待分类文本进行文本主题特征提取时,执行如下步骤:
获取所述文本特征包括的特征字词,并为所述每个特征字词分配一个文本主题编号;对所述每个特征字词的文本主题编号吉布斯采样处理,当吉布斯采样收敛时,统计所述待分类文本中的文本主题分布,并将所述文本主题分布确定为所述待分类文本的主题特征。
在一个实施例中,所述对所述待分类文本进行特征提取是调用文本特征处理模型执行的,所述基于所述文本特征对所述待分类文本进行文本主题特征提取是调用文本主题处理模型执行的;所述文本特征处理模型和所述文本主题处理模型均部署在文本分类模型中,所述文本特征处理模型与所述文本主题处理模型相连接;所述文本分类模型还包括全连接层和分类层;
所述处理器701在将所述文本特征和所述主题特征进行拼接处理,并根据拼接处理结果对所述待分类文本进行文本主题预测,得到所述待分类文本对应的文本主题时,执行如下步骤:
调用所述全连接层将所述文本特征和所述主题特征进行拼接,得到目标长度的拼接处理结果;
调用所述分类层采用分类函数基于所述拼接处理结果进行分类预测,得到所述待分类文本对应的文本主题分布,并根据所述文本主题分布确定所述待分类文本对应的文本主题。
在一个实施例中,文本主题处理模型是基于训练文本集训练得到的,所述训练文本集包括多个训练文本,每个训练文本包括一个或多个特征词;所述处理器701还用于:
对所述每个训练文本中的特征词随机赋予一个主题;扫描所述训练文本集,为所述每个训练文本中的每个特征词,按照吉布斯C采样反复重新抽取一个主题,直至吉布斯采样收敛;
统计所述训练文本集的主题和词的共现频率矩阵,并根据所述主题和词的共现矩阵确定文本主题处理模型。
在一个实施例中,所述处理器701在基于所述文本主题对所述待分类文本进行文本分类,确定所述待分类文本所属类别时,执行如下步骤:
获取文本主题与审核规范之间的对应关系;
基于所述文本主题与审核规范之间的对应关系,确定与所述待分类文本对应的文本主题相匹配的目标审核规范;
将所述待分类文本归类为违反所述目标审核规范的文本。
本申请实施例中,在对待分类文本进行分类时,首先提取该待分类文本的文本特征,然后基于文本特征对待分类文本进行文本主题特征提取,得到待分类文本对应的主题特征,最后将文本特征和主题特征进行拼接处理,根据拼接处理结果对待分类文本进行主题预测,从而基于预测出的文本主题确定出待分类文本对应的文本主题。应当理解的,文本特征可以用于反映待分类文本的语义特征,将文本特征和主题特征进行拼接融合,实现了有效地结合文本的语义信息并得到更优的主题表示,进而基于拼接处理结果进行主题预测时,可以提高主题预测的准确性,从而也可以提供基于文本主题进行文本分类的准确性。
本申请实施例提供了一种计算机程序产品或计算机程序,所述计算机程序产品包括计算机程序,所述计算机程序被处理器701执行时用于加载并执行:
对待分类文本进行文本特征提取,得到所述待分类文本对应的文本特征;基于所述文本特征对所述待分类文本进行文本主题特征提取,得到所述待分类文本对应的主题特征;将所述文本特征和所述主题特征进行拼接处理,并根据拼接处理结果对所述待分类文本进行文本主题预测,得到所述待分类文本对应的文本主题;基于所述文本主题对所述待分类文本进行文本分类,确定所述待分类文本所属类别。
本申请实施例中,在对待分类文本进行分类时,首先提取该待分类文本的文本特征,然后基于文本特征对待分类文本进行文本主题特征提取,得到待分类文本对应的主题特征,最后将文本特征和主题特征进行拼接处理,根据拼接处理结果对待分类文本进行主题预测,从而基于预测出的文本主题确定出待分类文本对应的文本主题。应当理解的,文本特征可以用于反映待分类文本的语义特征,将文本特征和主题特征进行拼接融合,实现了有效地结合文本的语义信息并得到更优的主题表示,进而基于拼接处理结果进行主题预测时,可以提高主题预测的准确性,从而也可以提供基于文本主题进行文本分类的准确性。

Claims (11)

1.一种文本处理方法,其特征在于,包括:
对待分类文本进行文本特征提取,得到所述待分类文本对应的文本特征;
基于所述文本特征对所述待分类文本进行文本主题特征提取,得到所述待分类文本对应的主题特征;
将所述文本特征和所述主题特征进行拼接处理,并根据拼接处理结果对所述待分类文本进行文本主题预测,得到所述待分类文本对应的文本主题;
基于所述文本主题对所述待分类文本进行文本分类,确定所述待分类文本所属类别。
2.如权利要求1所述的方法,其特征在于,所述对所述待分类文本进行特征提取,包括:
对所述待分类文本进行预处理,对预处理后的待分类文本进行特征提取;
所述对所述待分类文本进行预处理,包括:
对所述待分类文本进行分词处理,得到所述待分类文本对应的字词集,所述字词集中包括一个或多个字或者词;
对所述字词集进行去停用词处理得到所述待分类文本包括的特征字词。
3.如权利要求2所述的方法,其特征在于,所述对所述待分类文本进行特征提取,得到所述待分类文本对应的文本特征,包括:
将所述待分类文本进行向量嵌入处理,得到所述待分类文本中每个特征字词对应的词向量;
将所述每个特征字词对应的词向量进行线性变换处理,并对线性变换处理后的每个词向量进行注意力权重运算,得到所述待分类文本的文本特征。
4.如权利要求1所述的方法,其特征在于,所述基于所述文本特征对所述待分类文本进行文本主题特征提取,包括:
获取所述文本特征包括的特征字词,并为所述每个特征字词分配一个文本主题编号;
对所述每个特征字词的文本主题编号吉布斯采样处理,当吉布斯采样收敛时,统计所述待分类文本中的文本主题分布,并将所述文本主题分布确定为所述待分类文本的主题特征。
5.如权利要求1所述的方法,其特征在于,所述对所述待分类文本进行特征提取是调用文本特征处理模型执行的,所述基于所述文本特征对所述待分类文本进行文本主题特征提取是调用文本主题处理模型执行的;所述文本特征处理模型和所述文本主题处理模型均部署在文本分类模型中,所述文本特征处理模型与所述文本主题处理模型相连接;所述文本分类模型还包括全连接层和分类层,所述将所述文本特征和所述主题特征进行拼接处理,并根据拼接处理结果对所述待分类文本进行文本主题预测,得到所述待分类文本对应的文本主题,包括:
调用所述全连接层将所述文本特征和所述主题特征进行拼接,得到目标长度的拼接处理结果;
调用所述分类层采用分类函数基于所述拼接处理结果进行分类预测,得到所述待分类文本对应的文本主题分布,并根据所述文本主题分布确定所述待分类文本对应的文本主题。
6.如权利要求1所述的方法,其特征在于,所述文本主题处理模型是基于训练文本集训练得到的,所述训练文本集包括多个训练文本,每个训练文本包括一个或多个特征词,所述方法还包括:
对所述每个训练文本中的特征词随机赋予一个主题;
扫描所述训练文本集,为所述每个训练文本中的每个特征词,按照吉布斯C采样反复重新抽取一个主题,直至吉布斯采样收敛;
统计所述训练文本集的主题和词的共现频率矩阵,并根据所述主题和词的共现矩阵确定文本主题处理模型。
7.如权利要求1所述的方法,其特征在于,所述基于所述文本主题对所述待分类文本进行文本分类,确定所述待分类文本所属类别,包括:
获取文本主题与审核规范之间的对应关系;
基于所述文本主题与审核规范之间的对应关系,确定与所述待分类文本对应的文本主题相匹配的目标审核规范;
将所述待分类文本归类为违反所述目标审核规范的文本。
8.一种文本处理装置,其特征在于,包括:
提取单元,用于对待分类文本进行文本特征提取,得到所述待分类文本对应的文本特征;
所述提取单元,还用于基于所述文本特征对所述待分类文本进行文本主题特征提取,得到所述待分类文本对应的主题特征;
拼接单元,用于将所述文本特征和所述主题特征进行拼接处理;
预测单元,用于根据拼接处理结果对所述待分类文本进行文本主题预测,得到所述待分类文本对应的文本主题;
确定单元,用于基于所述文本主题对所述待分类文本进行文本分类,确定所述待分类文本所属类别。
9.一种文本处理设备,其特征在于,包括:
处理器,适用于实现一条或多条计算机程序;计算机存储介质,所述计算机存储介质存储有一条或多条计算机程序,所述一条或多条计算机程序适于由处理器加载并执行如权利要求1-7任一项所述的文本处理方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序被处理器执行时用于加载并执行如权利要求1-7任一项所述的文本处理方法。
11.一种计算机程序产品或计算机程序,所述计算机程序产品包括计算机程序,所述计算机程序存储在计算机存储介质中,所述计算机程序被处理器执行时用于加载并执行如权利要求1-7任一项所述的文本处理方法。
CN202111550733.9A 2021-12-17 2021-12-17 文本处理方法、装置、设备及存储介质 Pending CN114020921A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111550733.9A CN114020921A (zh) 2021-12-17 2021-12-17 文本处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111550733.9A CN114020921A (zh) 2021-12-17 2021-12-17 文本处理方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN114020921A true CN114020921A (zh) 2022-02-08

Family

ID=80068779

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111550733.9A Pending CN114020921A (zh) 2021-12-17 2021-12-17 文本处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114020921A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116911715A (zh) * 2023-09-12 2023-10-20 运易通科技有限公司 一种基于人工智能的物流识别分配机器人及其控制方法
CN116992026A (zh) * 2023-07-12 2023-11-03 华南师范大学 一种文本聚类方法、装置、电子设备及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116992026A (zh) * 2023-07-12 2023-11-03 华南师范大学 一种文本聚类方法、装置、电子设备及存储介质
CN116911715A (zh) * 2023-09-12 2023-10-20 运易通科技有限公司 一种基于人工智能的物流识别分配机器人及其控制方法
CN116911715B (zh) * 2023-09-12 2023-12-08 运易通科技有限公司 一种基于人工智能的物流识别分配机器人及其控制方法

Similar Documents

Publication Publication Date Title
US20230100376A1 (en) Text sentence processing method and apparatus, computer device, and storage medium
CN110704621B (zh) 文本处理方法、装置及存储介质和电子设备
US20210149994A1 (en) Device and method for machine reading comprehension question and answer
KR20220114495A (ko) 탐색, 검색 및 순위화를 위한 상호작용 계층 신경망
CN114020921A (zh) 文本处理方法、装置、设备及存储介质
WO2023137911A1 (zh) 基于小样本语料的意图分类方法、装置及计算机设备
KR102444457B1 (ko) 단어 그래프를 이용한 대화의 요약 생성 방법
Kamada et al. A structural learning method of restricted Boltzmann machine by neuron generation and annihilation algorithm
US11934441B2 (en) Generative ontology learning and natural language processing with predictive language models
US11669687B1 (en) Systems and methods for natural language processing (NLP) model robustness determination
CN114298287A (zh) 基于知识蒸馏的预测方法和装置、电子设备、存储介质
CN112036705A (zh) 一种质检结果数据获取方法、装置及设备
CN114443899A (zh) 视频分类方法、装置、设备及介质
Deibel et al. Style Change Detection on Real-World Data using an LSTM-powered Attribution Algorithm.
CN115687934A (zh) 意图识别方法、装置、计算机设备及存储介质
CN111259147A (zh) 基于自适应注意力机制的句子级情感预测方法及系统
Jeyakarthic et al. Optimal bidirectional long short term memory based sentiment analysis with sarcasm detection and classification on twitter data
Agarla et al. Semi-supervised cross-lingual speech emotion recognition
CN112597310A (zh) 领域和意图分层联合分类方法、装置、设备及存储介质
CN113095063A (zh) 一种基于遮蔽语言模型的两阶段情感迁移方法和系统
CN112528015B (zh) 在消息交互传播中进行谣言判别的方法及装置
CN114254622A (zh) 一种意图识别方法和装置
CN115017260A (zh) 一种基于子主题建模的关键词生成方法
CN114239555A (zh) 一种关键词提取模型的训练方法及相关装置
Purnamasari et al. Performance comparison of text-based sentiment analysis using recurrent neural network and convolutional neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination