CN110796160A - 一种文本分类方法、装置和存储介质 - Google Patents
一种文本分类方法、装置和存储介质 Download PDFInfo
- Publication number
- CN110796160A CN110796160A CN201910872891.2A CN201910872891A CN110796160A CN 110796160 A CN110796160 A CN 110796160A CN 201910872891 A CN201910872891 A CN 201910872891A CN 110796160 A CN110796160 A CN 110796160A
- Authority
- CN
- China
- Prior art keywords
- text
- word
- feature information
- information
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种文本分类方法、装置和存储介质;本发明实施例在获取待分类文本对后,该待分类文本对包括第一文本和第二文本,可以从该待分类文本对中选取该第一文本的第一关键词、该第二文本的第二关键词,然后对该待分类文本对中的文本进行特征提取,接着,根据该第一文本的词特征信息、该第二关键词的词特征信息,获取第一注意力特征信息,根据该第二文本的词特征信息、该第二关键词的词特征信息,获取第二注意力特征信息,再然后,基于该第一注意力特征信息、该第二注意力特征信息、该第一语义特征信息、以及该第二语义特征信息,对该待分类文本对进行分类,得到分类结果。该方案可以有效地提高文本分类的准确性。
Description
技术领域
本发明涉及通信技术领域,具体涉及一种文本分类方法、装置和存储介质。
背景技术
随着人工智能(Artificial Intelligence,AI)的发展,自然语言处理技术已经成为互联网应用中的一个重要的研究方向。在基于深度神经网络的自然语言处理系统(Natural Language Processing,NLP)方法中,文本对的分类问题是非常基础且重要的问题,被广泛应用在搜索、推荐、对话等领域。通常一对文本中的文本A指用户问题,文本B指待匹配的内容源,如问答库里的问题、网页的内容、产品的文本描述等等。文本对分类不仅要考虑单个文本的信息,更要考虑文本对之间的交互信息。目前,很多方法只是简单地将两边的文本进行特征组合,或者直接输入到带有自注意力机制的模型中进行分类,分类效果较差。
发明内容
本发明实施例提供一种文本分类方法、装置和存储介质,可以有效地提高文本分类的准确性。
本发明实施例提供一种文本分类方法,包括:
获取待分类文本对;
对所述待分类文本对中各个词进行特征提取,得到所述各个词的词特征信息以及所述待分类文本对的语义特征信息;
根据所述词特征信息,计算所述待分类文本对中关键词对所述各个词的注意力,得到注意力特征信息;
将所述注意力特征信息和所述语义特征信息进行融合,得到文本融合信息;
基于所述文本融合信息对所述待分类文本对进行文本分类,得到分类结果。
相应的,本发明实施例还提供一种文本分类装置,包括:
获取单元,用于获取待分类文本对,所述待分类文本对包括第一文本和第二文本;
选取单元,用于从所述待分类文本对中选取所述第一文本的第一关键词、所述第二文本的第二关键词;
提取单元,用于对所述待分类文本对中的文本进行特征提取,得到所述第一文本的词特征信息、第一语义特征信息,和第二文本的词特征信息、第二语义特征信息;
第一计算单元,用于根据所述第一文本的词特征信息、所述第二关键词的词特征信息,获取第一注意力特征信息,所述第一注意力特征信息为关注所述第二关键词与第一文本中各个词相关性的词特征信息;
第二计算单元,用于根据所述第二文本的词特征信息、所述第二关键词的词特征信息,获取第二注意力特征信息,所述第二注意力特征信息为关注所述第一关键词与第二文本中各个词相关性的词特征信息;
分类单元,用于基于所述第一注意力特征信息、所述第二注意力特征信息、所述第一语义特征信息、以及所述第二语义特征信息,对所述待分类文本对进行分类,得到分类结果。
可选的,在一些实施例中,所述第一计算单元可以包括第一计算子单元和第一调整子单元,如下:
所述第一计算子单元,用于根据所述第一文本的词特征信息、所述第二关键词的词特征信息,计算第二关键词与第一文本中各个词的第一相关性信息;
所述第一调整子单元,用于基于所述第一相关性信息对所述第一文本的词特征信息进行调整,得到第一注意力特征信息。
可选的,在一些实施例中,所述第一计算子单元,具体用于根据第一文本的词特征信息生成第一查询向量,并根据所述第二关键词的词特征信息生成第二键向量,根据所述第一查询向量和第二键向量,计算表征第二关键词与第一文本中各个词相关性的第一权重。
则此时,所述第一调整子单元,具体可以用于基于所述第一权重对所述第一文本的词特征信息进行调整,得到第一注意力特征信息。
可选的,在一些实施例中,所述第一调整子单元,具体用于根据第一文本的词特征信息生成第一值向量,基于所述第一权重,对所述第一值向量进行加权运算,得到第一注意力特征信息。
可选的,在一些实施例中,所述第二计算单元可以包括第二计算子单元和第二调整子单元,如下:
所述第二计算子单元,用于根据所述第二文本的词特征信息、所述第二关键词的词特征信息,计算第一关键词与第二文本中各个词的第二相关性信息;
所述第二调整子单元,用于基于所述第二相关性信息,对所述第二文本的词特征信息进行调整,得到第二注意力特征信息。
可选的,在一些实施例中,所述第二计算子单元,具体用于根据第二文本的词特征信息生成第二查询向量,并根据所述第一关键词的词特征信息生成第一键向量,根据所述第二查询向量和第一键向量,计算表征第一关键词与第二文本中各个词相关性的第二权重。
则此时,所述第二调整子单元,具体可以用于基于所述第二权重对所述第二文本的词特征信息进行调整,得到第二注意力特征信息。
可选的,在一些实施例中,所述第二调整子单元,具体用于根据第二文本的词特征信息生成第二值向量,基于所述第二权重,对所述第二值向量进行加权运算,得到第二注意力特征信息。
可选的,在一些实施例中,所述提取单元可以包括第一提取子单元、第二提取子单元和第三提取子单元,如下:
所述第一提取子单元,用于对所述第一文本中各个词进行词特征提取,得到第一文本的词特征信息;
所述第二提取子单元,用于对所述第二文本中各个词进行词特征提取,得到第二文本的词特征信息;
所述第三提取子单元,用于分别对所述第一文本和第二文本对进行语义特征提取,得到所述第一文本的第一语义特征信息、和第二文本的第二语义特征信息。
可选的,在一些实施例中,所述第一提取子单元,具体用于对所述第一文本中的每个词分别进行位置特征提取和词特征提取,得到第一文本的位置特征和词特征,对所述第一文本中的每个词进行标记,得到第一文本的标记特征,对所述第一文本的位置特征、词特征和标记特征进行特征融合,得到所述第一文本的词特征信息。
可选的,在一些实施例中,所述第二提取子单元,具体用于对所述第二文本中的每个词分别进行位置特征提取和词特征提取,得到第二文本的位置特征和词特征,对所述第二文本中的每个词进行标记,得到第二文本的标记特征,对所述第二文本的位置特征、词特征和标记特征进行合成,得到所述第二文本的词特征信息。
可选的,在一些实施例中,所述选取单元,具体用于对所述待分类文本对进行分词,得到待分类文本对的词集合,确定所述第一文本和第二文本各自所在的领域,基于所述领域对应的预设词典,从所述词集合中确定第一文本的第一关键词、第二文本的第二关键词。
可选的,在一些实施例中,所述分类单元可以包括融合子单元、第三计算子单元和分类子单元,如下:
所述融合子单元,用于将所述第一语义特征信息和所述第二语义特征信息进行融合,得到融合后语义特征信息;
所述第三计算子单元,用于根据所述第一文本信息、所述第二文本信息和所述融合后语义特征信息,计算第一文本和第二文本之间的匹配度;
所述分类子单元,用于基于所述匹配度对所述待分类文本对进行分类,得到分类结果。
可选的,在一些实施例中,所述第三计算子单元,具体用于将所述第一文本信息、所述第二文本信息和所述融合后语义特征信息进行特征扩充,得到文本扩充信息,根据所述文本扩充信息计算第一文本和第二文本之间的匹配度。
此外,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行本发明实施例提供的任一种文本分类方法中的步骤。
此外,本发明实施例还提供一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本发明实施例提供的任一种文本分类方法中的步骤。
本发明实施例在获取待分类文本对后,该待分类文本对包括第一文本和第二文本,可以从该待分类文本对中选取该第一文本的第一关键词、该第二文本的第二关键词,然后对该待分类文本对中的文本进行特征提取,得到该第一文本的词特征信息、第一语义特征信息,和第二文本的词特征信息、第二语义特征信息,接着,根据该第一文本的词特征信息、该第二关键词的词特征信息,获取第一注意力特征信息,根据该第二文本的词特征信息、该第二关键词的词特征信息,获取第二注意力特征信息,再然后,基于该第一注意力特征信息、该第二注意力特征信息、该第一语义特征信息、以及该第二语义特征信息,对该待分类文本对进行分类,得到分类结果。该方案可以有效地提高文本分类的准确性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是本发明实施例提供的文本分类方法的场景示意图;
图1b是本发明实施例提供的文本分类方法的流程图;
图1c是本发明实施例提供的特征提取示意图;
图1d是本发明实施例提供的注意力模块的结构示例图;
图1e是本发明实施例提供的编码器网络的结构示例图;
图1f是本发明实施例提供的解码器网络的结构示意图;
图1g是本发明实施例提供的训练后分类模型的结构示意图;
图2a是本发明实施例提供的文本分类方法的另一流程图;
图2b是本发明实施例提供的文本分类方法的结构示意图;
图3是本发明实施例提供的文本分类装置的结构示意图;
图4是本发明实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种文本分类方法、装置和存储介质。其中,该文本分类可以集成在电子设备中,该电子设备可以是计算机设备,可以是服务器,也可以是终端等设备。
文本分类指的是计算机通过算法对输入的文本按照一定的类目体系进行自动化归类的过程。例如,参见图1a,首先,该集成了文本分类装置的电子设备在获取待分类文本对后,该待分类文本对包括第一文本和第二文本,可以从该待分类文本对中选取该第一文本的第一关键词、该第二文本的第二关键词,然后对该待分类文本对中的文本进行特征提取,得到该第一文本的词特征信息、第一语义特征信息,和第二文本的词特征信息、第二语义特征信息,接着,根据该第一文本的词特征信息、该第二关键词的词特征信息,获取第一注意力特征信息,根据该第二文本的词特征信息、该第二关键词的词特征信息,获取第二注意力特征信息,再然后,基于该第一注意力特征信息、该第二注意力特征信息、该第一语义特征信息、以及该第二语义特征信息,对该待分类文本对进行分类,得到分类结果。
本申请实施例提供的文本分类方法涉及人工智能领域中的自然语言处理方向。本申请实施例可以通过语义理解技术,提取出待分类文本对的词特征信息和语义特征信息,进而对待分类的文本对进行分类。
其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。其中,人工智能软件技术主要包括计算机视觉技术、机器学习/深度学习等方向。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
由于该方案不仅考虑单个文本的特征信息,还考虑了文本对之间的交互信息,通过增强文本的关键词信息的影响来获取注意力特征信息,再文本对的特征信息和注意力信息来进行分类,可以有效地提高文本分类的准确性。
以下分别进行详细说明。需说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
本实施例将从文本分类装置的角度进行描述,该文本分类装置具体可以集成在电子设备中,该电子设备可以是计算机设备,可以是服务器,也可以是终端等设备;其中,该终端可以包括手机、平板电脑、笔记本电脑、以及个人计算(Personal Computer,PC)等设备。
一种文本分类方法,包括:获取待分类文本对,该待分类文本对包括第一文本和第二文本,对该第一文本和第二文本进行分词,并确定关键词,然后,提取第一文本和第二文本中的词特征信息和语义特征信息,接着,根据词特征信息,计算第二关键词与第一文本中各个词之间的相关性,得到第一相关信息;以及计算第一关键词与第二文本中各个词之间的相关性,得到第二相关信息,再然后,基于该第一相关信息、第二相关信息和语义特征信息对该待分类文本对进行分类,得到分类结果。
如图1b所示,该文本分类方法的具体流程可以如下:
101、获取待分类文本对。
其中,待分类文本对可以包括需要进行分类的两个文本,比如,第一文本和第二文本。比如,第一文本可以指的是用户问题,第二文本可以指的是待匹配的内容源,如问答库里的问题、网页的内容、产品的文本描述等等。其中,文本可以包括词、词组、句子、段落或者文章,等等。其中,文本的语言可以为任意语言,比如中文、英文、法文、德文和/或俄文等等,在此没有特别限定。
例如,具体可以从网络数据库中获取需要分类的文章或者资讯,还可以接收用户上传的文本,比如电子书或者电子类文本。
102、从该待分类文本对中选取该第一文本的第一关键词、该第二文本的第二关键词。
例如,具体可以对该待分类文本对进行分词,得到待分类文本对的词集合,确定该第一文本和第二文本各自所在的领域,基于该领域对应的预设词典,从该词集合中确定第一文本的第一关键词、第二文本的第二关键词。
例如,具体可以对该第一文本进行分词,得到第一文本的词集合,对该第二文本进行分词,得到第二文本的词集合,确定该第一文本所在的领域和第二文本所在的领域,基于该第一文本所在的领域对应的预设词典,从该第一文本的词集合中确定第一文本的第一关键词,基于该第二文本所在的领域对应的预设词典,从该第二文本的词集合中确定第二文本的第二关键词。
其中,对待分类文本对中的内容进行分词的方式可以有多种,比如,基于字符串匹配的分词方法、基于理解的分词方法和/或基于统计的分词方法,还可以借助分词工具来进行分词,提取出第一文本和第二文本中的词或词组,将提取出的词或词组进行排列组合,得到第一文本和第二文本对应的词集合。其中,分词后得到的词或词组的语言可以为任意语言,比如中文、英文、法文、德文和/或俄文等词或词组,在此没有特别限定。
其中,领域的预设词典的设定方式可以有很多种,比如,可以根据实际应用的需求训练领域模型获取领域的词典,也可以预先设置好存储在电子设备中。此外,预设词典可以内置于电子设备中,或者,也可以保存在存储器中并发送给电子设备,等等。比如,领域词典的生成方法可以通过获取目标领域的相关文本;根据该相关文本得到字符单元集合,该字符单元集合中包括多个字符单元,该字符单元由该相关文本中的连续字符进行组合而得到;获取每个字符单元的互相关度以得到该目标领域的原始词典;计算该原始词典中每个字符单元对该目标领域的贡献度以得到该目标领域的目标词典。
103、对待分类文本对中文本进行特征提取,得到第一文本的词特征信息、第一语义特征信息,和第二文本的词特征信息、第二语义特征信息。
例如,具体可以对该第一文本中各个词进行词特征提取,得到第一文本的词特征信息,对该第二文本中各个词进行词特征提取,得到第二文本的词特征信息,分别对该第一文本和第二文本对进行语义特征提取,得到该第一文本的第一语义特征信息、和第二文本的第二语义特征信息。
其中,特征提取的方式可以有很多种,比如,可以利用训练后分类模型的特征提取模块进行特征提取,也可以利用其他特征提取器进行特征提取,再输入到训练后分类模型中。例如,具体可以利用训练后分类模型对该第一文本中各个词进行词特征提取,得到第一文本的词特征信息;利用训练后分类模型对该第二文本中各个词进行词特征提取,得到第二文本的词特征信息;分别对该第一文本和第二文本对进行语义特征提取,得到该第一文本的第一语义特征信息和第二文本的第二语义特征信息。
其中,词特征信息可以包括待分类文本中通过多维的向量来表示文本中的每个词的语义信息。其中,向量的维度为文本对应的词集合的大小。其中,语义特征信息可以包括文本中词的语法、语义等信息。
比如,可以在文本对应的词集合中将每个词进行顺序编号,通过词嵌入算法对词集合中每个编号的词进行特征提取,比如,将文本对应的词集合作为一个整体,词集合中编号的词就变成了一个很长的向量,向量的维度就是该词集合的大小,譬如,将词集合划分N个格,编号的词对应格定义数字1,其他格定义数字0,就得到了该编号的词在词集合中的词向量。类似操作步骤对词集合中的每个词进行词嵌入,得到词集合中每个词对应的词向量,词向量为多维向量,比如,向量的维数可以为512维,也可以为256维等维数。将得到的文本对应词集合中各个词的词向量作为各个词对应的词特征信息,该词向量中包含表示该词在文本集合中语义信息。
比如,训练后分类模型可以是基于变压器的双向编码器表征(BidirectionalEncoder Representations from Transformers,BERT)模型,特征提取模块可以采用词嵌入算法。例如,可以分别将第一文本和第二文本中每个词进行顺序编号,通过训练后分类模型中的特征提取模块对待分类文本中每个编号的词进行特征提取,输入表示可以在一个词序列中表示单个文本句或一对文本(例如,[问题,答案])。对于给定的词,其输入表示是可以通过三部分嵌入(Embedding)求和组成。其中,嵌入的可视化表示可以如图1c所示,词嵌入(Token Embeddings)表示的是词特征;分割嵌入(Segment Embeddings)表示的是标记特征,用来区别两种文本的(比如,第一文本和第二文本),以便模型可以做以两个文本为输入的分类任务;位置嵌入(Position Embeddings)表示的是位置特征,是通过模型学习得到的。即“对该第一文本中各个词进行词特征提取,得到第一文本的词特征信息”可以包括:
对该第一文本中的每个词分别进行位置特征提取和词特征提取,得到第一文本的位置特征和词特征,对该第一文本中的每个词进行标记,得到第一文本的标记特征,对该第一文本的位置特征、词特征和标记特征进行特征融合,得到该第一文本的词特征信息。
例如,具体可以利用训练后分类模型的特征提取模块对该第一文本中的每个词进行位置特征提取,得到第一文本的位置特征,利用训练后分类模型的特征提取模块对该第一文本中的每个词进行词特征提取,得到第一文本的词特征,利用训练后分类模型的特征提取模块对该第一文本中的每个词进行标记,得到第一文本的标记特征,对该第一文本的位置特征、词特征和标记特征进行特征融合,得到该第一文本的词特征信息。其中,这里的特征融合可以是对第一文本的位置特征、词特征和标记特征这三个特征求和,也可以是其他融合方式,等等。
同理,“对该第二文本中各个词进行词特征提取,得到第二文本的词特征信息”可以包括:
对该第二文本中的每个词分别进行位置特征提取和词特征提取,得到第二文本的位置特征和词特征,对该第二文本中的每个词进行标记,得到第二文本的标记特征,对该第二文本的位置特征、词特征和标记特征进行特征融合,得到该第二文本的词特征信息。
例如,具体可以利用训练后分类模型的特征提取模块对该第二文本中的每个词进行位置特征提取,得到第二文本的位置特征,利用训练后分类模型的特征提取模块对该第二文本中的每个词进行词特征提取,得到第二文本的词特征,利用训练后分类模型的特征提取模块对该第二文本中的每个词进行标记,得到第二文本的标记特征,对该第二文本的位置特征、词特征和标记特征进行特征融合,得到该第二文本的词特征信息。其中,这里的特征融合可以是对第二文本的位置特征、词特征和标记特征这三个特征求和,也可以是其他融合方式,等等。
104、根据该第一文本的词特征信息、该第二关键词的词特征信息,获取第一注意力特征信息。
其中,第一注意力特征信息为关注该第二关键词与第一文本中各个词相关性的词特征信息。例如,具体可以根据该第一文本的词特征信息、该第二关键词的词特征信息,计算第二键词与第一文本中各个词的第一相关性信息,基于该第一相关性信息对该第一文本的词特征信息进行调整,得到第一注意力特征信息。
其中,第一相关性信息指的是第二键词对第一文本中各个词的影响,比如,第一相关性信息可以包括第一权重。例如,具体可以根据第一文本的词特征信息生成第一查询向量,并根据该第二关键词的词特征信息生成第二键向量,根据该第一查询向量和第二键向量,计算表征第二关键词与第一文本中各个词相关性的第一权重。则此时,该基于该相关性信息对该第一文本的词特征信息进行调整,得到第一注意力特征信息,可以包括:基于该第一权重对该第一文本的词特征信息进行调整,得到第一注意力特征信息。其中,当关键词为多个时,第一权重为第一权重集。
其中,对该第一文本的词特征信息进行调整的方式可以有很多种,比如,具体可以根据第一文本的词特征信息生成第一值向量,基于该第一权重,对该第一值向量进行加权运算,得到第一注意力特征信息。
其中,获取第一注意力特征信息可以采用训练后分类模型进行获取,训练后分类模型可以包括特征提取模块、编码器网络、解码器网络和分类模块。其中,编码器网络包括多个第一注意力模块、至少一个第一前馈神经网络和至少一个第一残差模块。比如,将第一文本的词特征信息和第二关键词的词特征信息分别输入至多个第一表示子空间,采用第一注意力模块在各个第一表示子空间中对第一文本中各个词的词特征信息和第二关键词的词特征信息进行特征提取。以在一个第一表示子空间中,第一注意力模块对第一文本中各个词的词特征信息和第二关键词的词特征信息进行提取为例来说明,第一注意力模块对第一文本中各个词的词特征信息和第二关键词的词特征信息进行降维,在降维后的词特征信息中生成查询向量、键向量和值向量,在第一文本的词集合中确定目标词,通过第二关键词的词特征信息对目标词计算自注意力向量,得到目标词的第一初始编码特征信息。
其中,目标词的自注意机制输出的第一初始编码特征信息可以通过放缩点积注意力(scaled dot-Product attention)进行计算,如下:
其中,qi为目标词的查询向量,KT为第二关键词的键向量,V为目标词的值向量,d为第二关键词的键向量的维数。其中,softmax是一个可以把连续的数输出成一个在0到1之间的数。它的输出,表征了不同类别间的相对概率。
通过计算公式,可以看出目标词的注意力向量即第一初始编码特征信息可以通过这三个向量进行计算得到,比如,如图1d所示,可以通过第二关键词的键向量与目标词的查询向量进行点积(即矩阵相乘(MatMul)),得到目标词的自注意向量集,即第一权重,将目标词的自注意力向量集中的值再次进行降维(即缩放(Scale)),降维的方式可以为除以第二关键词的键向量的平方根来实现。其中,掩码为可选的(Mask(opt.)),然后,通过函数(SoftMax)传递结果,对目标词的自注意向量集中的自注意向量与目标词对应的值向量相乘(即矩阵相乘(MatMul)),将相乘后的结果进行加权求和,得到目标词的自注意力输出,即目标词的初始上下文信息,重复通过上述步骤,完成对第一文本中剩余词的自注意力输出,最后得到第一文本中各个词在不同第一表示子空间中的第一初始编码特征信息。
然后,对各个第一表示子空间下的第一文本中各个词的第一初始编码特征信息进行加权,比如,对第一文本中每个词在不同的第一表示子空间下的第一初始编码特征信息进行拼接,对拼接后的每个词的第一初始编码特征信息进行加权,就得到融合所有第一表示子空间的每个词的融合后第一初始编码特征信息。接着,将得到每个词的融合后第一初始编码特征信息通过第一前馈神经网络输入到第一残差模块进行特征提取。比如,通过第一前馈神经将每个词的融合后第一初始编码特征信息输入到第一残差模块中进行求和与归一化,得到第一编码特征信息。
在此需要说明的是,训练后分类模型可以包括编码器网络,编码器网络可以包括第一注意力模块、第一前馈神经网络和第一残差模块,如图1e所示。在对第一文本中各个词的词特征信息进行编码得到第一文本中各个词的第一编码特征信息的过程中,可以通过多个编码器网络串联来得到。比如,第一编码器网络将第一文本中各个词的词特征信息进行解析,得到第一文本中各个词的第一层第一编码特征信息,第二编码器网络将第一文本中各个词的第一层第一编码特征信息重复第一编码器网络的解析或编码步骤,得到第二层第一编码特征信息,依次类推,通过多层编码器网络的解析得到第一文本中各个词最终的第一编码特征信息。其中,编码器网络的个数需要根据实际应用需求来进行设定。
在接收到最后一层编码器网络输出的第一编码特征信息后,对第一文本中每个词的第一编码特征信息进行特征提取,得到第一文本中各个词初始第一解码特征信息。比如,可以采用训练后分类模型的解码器网络对第一文本中各个词的第一编码特征信息进行特征提取。训练后分类模型的解码器网络包括至少一个注意力模块、至少一个第二前馈神经网络和至少一个第二残差模块。譬如,具体可以如下:
将第一文本中各个词的第一编码特征信息分别输入至多个第二表示子空间,通过第二注意力模块在各个第二表示子空间中对各个词的第一编码特征信息进行特征提取,以在一个第二表示子空间中第二注意力模块对各个词的第一编码特征信息进行特征提取为例来说明,在各个词的第一编码特征信息中提取键向量和值向量,解码器网络生成各个词在第二表示子空间下的中间向量,将中间向量作为查询向量。在第一文本中确定目标词,通过第二关键词对目标词计算自注意力进行解码。比如,可以通过第二关键词的键向量与目标词的查询向量进行点积,得到目标词的自注意向量集,将目标词的自注意力向量集中的值再次进行降维,降维的方式可以为除以第二关键词的键向量的平方根来实现。对目标词的自注意向量集中的自注意向量与目标词对应的值向量相乘,将相乘后的结果进行加权求和,得到第一文本中选定的目标词的自注意力输出,得到目标词的初始第一解码特征信息,重复通过上述步骤,完成对第一文本中剩余词的自注意力输出,最后得到第一文本中所有词在各个第二表示子空间中的初始第一解码特征信息。然后,对各个第二表示子空间下第一文本中各个词的初始第一解码特征信息进行加权,比如,对第一文本中各个词在不同的第二表示子空间下的初始第一解码特征信息进行拼接,对拼接后的各个词的初始第一解码特征信息进行加权,就得到融合所有第二表示子空间的各个词的融合后初始第一解码特征信息。接着,将得到的第一文本中各个词的融合后的初始第一解码特征信息通过第二前馈神经网络输入到第二残差模块进行特征提取。比如,通过第二前馈神经将各个词的融合后的初始第一解码特征信息输入到第二残差模块中进行求和与归一化,得到第一文本中各个词的第一解码特征信息。最后,将该第一解码特征信息经过线性变换后得到第一注意力特征信息。
在此需要说明的是,解码器网络中的第二注意力模块也可以称之为“解码-编码注意力层”,可以将“解码-编码注意力层”、第二前馈神经网络和第二残差模块组成训练后分类模型的解码器网络,如图1f所示。在对第一文本中各个词的第一编码特征信息进行解码得到各个词的第一解码特征信息的过程中,可以通过多个解码器网络串联来得到。比如,第一解码器网络将第一文本中各个词的第一编码特征信息进行特征提取,得到各个词的第一层第一解码特征信息,第二解码器网络将第一文本中各个词的第一层第一解码特征信息重复第一解码器网络的特征提取的步骤,得到第二层第一解码特征信息,依次类推,通过多层解码器网络的特征提取得到第一文本中各个词最终输出的第一解码特征信息。其中,解码器网络的个数根据实际应用需要来进行设定。
其中,编码特征信息可以为第一文本中各个词与第二关键词之间的相互作用信息,解码特征信息可以为第一文本中各个词与第二关键词之间相互作用之后得到的第一文本各个词在第一文本词集合中的相关语义、语法和逻辑等信息。
可选的,该训练后分类模型可以除了可以由运维人员预先进行设置之外,也可以由该文本分类装置自行训练来得到。即在采用训练后分类模型之前,该文本分类方法还可以包括:
(1)采集多个文本对样本作为训练数据集。
其中,该文本对样本包括已标注真实的分类结果。例如,具体可以采集多个文本对样本,比如从数据库或者网络等获取文本样本,然后对文本样本对进行特征提取,以得到输入至分类模型的词特征信息。
(2)根据所述训练数据集对预设分类模型进行训练,得到训练后分类模型。
例如,具体可以利用预设分类模型对所述文本对进行分类,得到预测的分类结果,获取所述文本对真实的分类结果,根据预测的分类结果与真实的分类结果对预设分类模型进行收敛,得到训练后分类模型。
例如,具体可以通过编码器网络对词特征信息进行编码,得到编码特征信息,然后,对编码特征信息进行解码,得到解码特征信息,再然后,将解码特征信息经过线性变换后得到注意力特征信息,根据词特征信息和注意力特征信息,对所述文本对进行分类,得到预测的分类结果。
例如,可以通过插值损失函数,根据预测的分类结果与真实的分类结果对预设分类模型进行收敛,得到训练后分类模型。如图1g所示。
可选的,为了提高上下文特征的精确性,除了采用插值损失函数之外,还可以采用其他的损失函数如交叉熵损失函数来进行收敛。
105、根据该第二文本的词特征信息、该第二关键词的词特征信息,获取第二注意力特征信息。
其中,第二注意力特征信息为关注该第一关键词与第二文本中各个词相关性的词特征信息。例如,具体可以根据该第二文本的词特征信息、该第一关键词的词特征信息,计算第一关键词与第二文本中各个词的第二相关性信息,基于该第二相关性信息对该第二文本的词特征信息进行调整,得到第二注意力特征信息。
其中,第二相关性信息指的是第一关键词对第二文本中各个词的影响,第二相关性信息可以包括第二权重。例如,具体可以根据第二文本的词特征信息生成第二查询向量,并根据该第一关键词的词特征信息生成第一键向量,根据该第二查询向量和第一键向量,计算表征第一关键词与第二文本中各个词相关性的第二权重。则此时,该基于该相关性信息对该第二文本的词特征信息进行调整,得到第二注意力特征信息,可以包括:基于该第二权重对该第二文本的词特征信息进行调整,得到第二注意力特征信息。
其中,对该第二文本的词特征信息进行调整的方式可以有很多种,比如,具体可以根据第二文本的词特征信息生成第二值向量,基于该第二权重,对该第二值向量进行加权运算,得到第二注意力特征信息。其中,当关键词为多个时,第二权重为第二权重集。
同理,获取第二注意力特征信息也可以通过采用训练后分类模型进行获取,比如,可以将第二文本的词特征信息和第一关键词的词特征信息分别输入至多个第一表示子空间,采用第一注意力模块在各个第一表示子空间中对第二文本中各个词的词特征信息和第一关键词的词特征信息进行特征提取。以在一个第一表示子空间中,第一注意力模块对第二文本中各个词的词特征信息和第一关键词的词特征信息进行提取为例来说明,第一注意力模块对第二文本中各个词的词特征信息和第一关键词的词特征信息进行降维,在降维后的词特征信息中生成查询向量、键向量和值向量,在第二文本的词集合中确定目标词,通过第一关键词的词特征信息对目标词计算自注意力向量,得到目标词的第二初始编码特征信息。
其中,目标词的自注意机制输出的第二初始编码特征信息可以通过放缩点积注意力(scaled dot-Product attention)进行计算,如下:
其中,qi为目标词的查询向量,KT为第一关键词的键向量,V为目标词的值向量,d为第一关键词的键向量的维数。
通过计算公式,可以看出目标词的注意力向量即第二初始编码特征信息可以通过这三个向量进行计算得到,比如,可以通过第一关键词的键向量与目标词的查询向量进行点积,得到目标词的自注意向量集,即第二权重,将目标词的自注意力向量集中的值再次进行降维,降维的方式可以为除以第一关键词的键向量的平方根来实现。对目标词的自注意向量集中的自注意向量与目标词对应的值向量相乘,将相乘后的结果进行加权求和,得到目标词的自注意力输出,即目标词的第二初始编码特征信息,重复通过上述步骤,完成对第二文本中剩余词的自注意力输出,最后得到第二文本中各个词在不同第一表示子空间中的第二初始编码特征信息。
然后,对各个第一表示子空间下的第二文本中各个词的第二初始编码特征信息进行加权,比如,对第一文本中每个词在不同的第一表示子空间下的第二初始编码特征信息进行拼接,对拼接后的每个词的第二初始编码特征信息进行加权,就得到融合所有第一表示子空间的每个词的融合后第二初始编码特征信息。接着,将得到每个词的融合后第二初始编码特征信息通过第一前馈神经网络输入到第一残差模块进行特征提取。比如,通过第一前馈神经将每个词的融合后第二初始编码特征信息输入到第一残差模块中进行求和与归一化,得到第二编码特征信息。
在此需要说明的是,训练后分类模型可以包括编码器网络,编码器网络可以包括第一注意力模块、第一前馈神经网络和第一残差模块。在对第二文本中各个词的词特征信息进行编码得到第二文本中各个词的第二编码特征信息的过程中,可以通过多个编码器网络串联来得到。比如,第一编码器网络将第二文本中各个词的词特征信息进行解析,得到第二文本中各个词的第一层第二编码特征信息,第二编码器网络将第二文本中各个词的第一层第二编码特征信息重复第一编码器网络的解析或编码步骤,得到第二层第二编码特征信息,依次类推,通过多层编码器网络的解析得到第二文本中各个词最终的第二编码特征信息。其中,编码器网络的个数需要根据实际应用需求来进行设定。
在接收到最后一层编码器网络输出的第二编码特征信息后,对第二文本中每个词的第二编码特征信息进行特征提取,得到第二文本中各个词初始第二解码特征信息。比如,可以采用训练后分类模型的解码器网络对第二文本中各个词的第二编码特征信息进行特征提取。训练后分类模型的解码器网络包括至少一个注意力模块、至少一个第二前馈神经网络和至少一个第二残差模块。譬如,具体可以如下:
将第二文本中各个词的第二编码特征信息分别输入至多个第二表示子空间,通过第二注意力模块在各个第二表示子空间中对各个词的第二编码特征信息进行特征提取,以在一个第二表示子空间中第二注意力模块对各个词的第二编码特征信息进行特征提取为例来说明,在各个词的第二编码特征信息中提取键向量和值向量,解码器网络生成各个词在第二表示子空间下的中间向量,将中间向量作为查询向量。在第二文本中确定目标词,通过第一关键词对目标词计算自注意力进行解码。比如,可以通过第一关键词的键向量与目标词的查询向量进行点积,得到目标词的自注意向量集,将目标词的自注意力向量集中的值再次进行降维,降维的方式可以为除以第一关键词的键向量的平方根来实现。对目标词的自注意向量集中的自注意向量与目标词对应的值向量相乘,将相乘后的结果进行加权求和,得到第二文本中选定的目标词的自注意力输出,得到目标词的初始第二解码特征信息,重复通过上述步骤,完成对第二文本中剩余词的自注意力输出,最后得到第二文本中所有词在各个第二表示子空间中的初始第二解码特征信息。然后,对各个第二表示子空间下第二文本中各个词的初始第二解码特征信息进行加权,比如,对第二文本中各个词在不同的第二表示子空间下的初始第二解码特征信息进行拼接,对拼接后的各个词的初始第二解码特征信息进行加权,就得到融合所有第二表示子空间的各个词的融合后初始第二解码特征信息。接着,将得到的第二文本中各个词的融合后的初始第二解码特征信息通过第二前馈神经网络输入到第二残差模块进行特征提取。比如,通过第二前馈神经将各个词的融合后的初始第二解码特征信息输入到第二残差模块中进行求和与归一化,得到第二文本中各个词的第二解码特征信息。将该第二解码特征信息经过线性变换后得到第二注意力特征信息。
在此需要说明的是,解码器网络中的第二注意力模块也可以称之为“解码-编码注意力层”,可以将“解码-编码注意力层”、第二前馈神经网络和第二残差模块组成训练后分类模型的解码器网络。在对第二文本中各个词的第二编码特征信息进行解码得到各个词的第二解码特征信息的过程中,可以通过多个解码器网络串联来得到。比如,第一解码器网络将第二文本中各个词的第二编码特征信息进行特征提取,得到各个词的第一层第二解码特征信息,第二解码器网络将第二文本中各个词的第一层第二解码特征信息重复第一解码器网络的特征提取的步骤,得到第二层第二解码特征信息,依次类推,通过多层解码器网络的特征提取得到第二文本中各个词最终输出的第二解码特征信息。其中,解码器网络的个数根据实际应用需要来进行设定。
106、基于该第一注意力特征信息、该第二注意力特征信息、该第一语义特征信息、以及该第二语义特征信息,对该待分类文本对进行分类,得到分类结果。
例如,具体可以将该第一语义特征信息和该第二语义特征信息进行融合,得到融合后语义特征信息,根据该第一文本信息、该第二文本信息和该融合后语义特征信息,计算第一文本和第二文本之间的匹配度,基于该匹配度对该待分类文本对进行分类,得到分类结果。
其中,融合后语义特征信息可以指的是第一文本和第二文本整体之间的语义层面的融合信息。
其中,计算第一文本和第二文本之间的匹配度的方式可以有很多种,比如,可以将该第一文本信息、该第二文本信息和该融合后语义特征信息进行特征扩充,得到文本扩充信息,根据该文本扩充信息计算第一文本和第二文本之间的匹配度。
其中,特征扩充可以的方式可以有很多种,比如,将第一文本信息、第二文本信息和融合后语义特征信息输入到融合(fusion)层,通过加、减、乘等操作,进行特征扩充,得到文本扩充信息。其中,fusion层可以只是进行简单特征扩充操作,比如只进行简单的向量拼接,而不进行额外的加减乘操作。
接着,将文本扩充信息送入分类层,这里的分类标签跟任务相关。对于文本匹配而言,分类是简单的二分类,即第一文本和第二文本是否相似,对于一些更复杂的任务,可以是多分类,比如第一文本和第二文本的匹配程度,可以划分多个等级,对应多个标签。
由上可知,本实施例在获取待分类文本对后,该待分类文本对包括第一文本和第二文本,可以从该待分类文本对中选取该第一文本的第一关键词、该第二文本的第二关键词,然后对该待分类文本对中的文本进行特征提取,得到该第一文本的词特征信息、第一语义特征信息,和第二文本的词特征信息、第二语义特征信息,接着,根据该第一文本的词特征信息、该第二关键词的词特征信息,获取第一注意力特征信息,根据该第二文本的词特征信息、该第二关键词的词特征信息,获取第二注意力特征信息,再然后,基于该第一注意力特征信息、该第二注意力特征信息、该第一语义特征信息、以及该第二语义特征信息,对该待分类文本对进行分类,得到分类结果。该方案可以有效地提高文本分类的准确性;由于该方案不仅考虑单个文本的特征信息,还考虑了文本对之间的交互信息,通过增强文本的关键词信息的影响来获取注意力特征信息,再文本对的特征信息和注意力信息来进行分类,可以有效地提高文本分类的准确性。
根据上一个实施例所描述的方法,以下将举例作进一步详细说明。
在本实施例中,将以该文本分类装置具体集成在电子设备中为例进行说明。
(一)首先,需要对分类模型进行训练,具体可以如下:
(1)采集多个文本对样本作为训练数据集。
其中,该文本对样本包括已标注真实的分类结果。例如,具体可以采集多个文本对样本,比如从数据库或者网络等获取文本样本,然后对文本样本对进行特征提取,以得到输入至分类模型的词特征信息。
(2)根据所述训练数据集对预设分类模型进行训练,得到训练后分类模型。
例如,具体可以利用预设分类模型对所述文本对进行分类,得到预测的分类结果,获取所述文本对真实的分类结果,根据预测的分类结果与真实的分类结果对预设分类模型进行收敛,得到训练后分类模型。
例如,具体可以通过编码器网络对词特征信息进行编码,得到编码特征信息,然后,对编码特征信息进行解码,得到解码特征信息,再然后,将解码特征信息经过线性变换后得到注意力特征信息,根据词特征信息和注意力特征信息,对所述文本对进行分类,得到预测的分类结果。
例如,可以通过插值损失函数,根据预测的分类结果与真实的分类结果对预设分类模型进行收敛,得到训练后分类模型。
可选的,为了提高上下文特征的精确性,除了采用插值损失函数之外,还可以采用其他的损失函数如交叉熵损失函数来进行收敛。
(二)通过训练好的分类模型,便可以对待分类文本对进行分类,具体可以参见图2a和2b。
如图2a所示,一种文本分类方法,具体流程可以如下:
201、电子设备获取待分类文本对。
其中,待分类文本对可以包括第一文本和第二文本。例如,电子设备可以从网络数据库中获取需要分类的文章或者资讯,还可以接收用户上传的文本,比如电子书或者电子类文本。比如,第一文本可以是“太阳离地球多远”,第二文本可以是“地球和太阳之间的距离是多少”。
202、电子设备从该待分类文本对中选取该第一文本的第一关键词、该第二文本的第二关键词。
例如,电子设备具体可以对该待分类文本对进行分词,得到待分类文本对的词集合,确定该第一文本和第二文本各自所在的领域,基于该领域对应的预设词典,从该词集合中确定第一文本的第一关键词、第二文本的第二关键词。
比如,第一文本的“太阳离地球多远”可以分为“太阳”、“离”、“地球”、和“多远”,从中可以确定关键词为“太阳”、“地球”和“多远”。第二文本的“地球和太阳之间的距离是多少”可以分为“地球”、“和”、“太阳”、“之间”“的”、“距离”、“是”、“多少”,从中可以确定关键词为“地球”、“太阳”、“距离”。
203、电子设备对待分类文本对中文本进行特征提取,得到第一文本的词特征信息、第一语义特征信息,和第二文本的词特征信息、第二语义特征信息。
例如,电子设备具体可以利用训练后分类模型的特征提取模块对该第一文本中的每个词进行位置特征提取,得到第一文本的位置特征,利用训练后分类模型的特征提取模块对该第一文本中的每个词进行词特征提取,得到第一文本的词特征,利用训练后分类模型的特征提取模块对该第一文本中的每个词进行标记,得到第一文本的标记特征,对该第一文本的位置特征、词特征和标记特征进行特征融合,得到该第一文本的词特征信息。比如,如图2b所示,第一文本的词特征可以为tokena1、tokena2……tokenai,第一文本的位置特征可以为posa1、posa2……posai,第一文本的标记特征可以为sega1、sega2……segai,第一文本的词特征信息可以为Token A1、Token A2……Token Ai。同时提取出第一文本的标签CLS,即第一语义特征信息。
例如,具体可以利用训练后分类模型的特征提取模块对该第二文本中的每个词进行位置特征提取,得到第二文本的位置特征,利用训练后分类模型的特征提取模块对该第二文本中的每个词进行词特征提取,得到第二文本的词特征,利用训练后分类模型的特征提取模块对该第二文本中的每个词进行标记,得到第二文本的标记特征,对该第二文本的位置特征、词特征和标记特征进行特征融合,得到该第二文本的词特征信息。其中,这里的特征融合可以是对第二文本的位置特征、词特征和标记特征这三个特征求和,也可以是其他融合方式,等等。比如,如图2b所示,第二文本的词特征可以为tokena1、tokena2……tokenai,第二文本的位置特征可以为pos b1、pos b2……pos bi,第二文本的标记特征可以为seg b1、seg b2……seg bi,第二文本的词特征信息可以为Token B1、Token B2……Token Bi。同时提取出第二文本的标签CLS,即第二语义特征信息。
204、电子设备根据该第一文本的词特征信息、该第二关键词的词特征信息,获取第一注意力特征信息。
例如,电子设备可以将提取到的特征信息输入关键词注意力(KeywordAttention)层,比如,具体可以根据第一文本的词特征信息生成第一查询向量,并根据该第二关键词的词特征信息生成第二键向量,根据该第一查询向量和第二键向量,计算表征第二关键词与第一文本中各个词相关性的第一权重。根据第一文本的词特征信息生成第一值向量,基于该第一权重,对该第一值向量进行加权运算,得到第一注意力特征信息。
比如,将第一文本的词特征信息和第二关键词的词特征信息分别输入至多个第一表示子空间,采用第一注意力模块在各个第一表示子空间中对第一文本中各个词的词特征信息和第二关键词的词特征信息进行特征提取。以在一个第一表示子空间中,第一注意力模块对第一文本中各个词的词特征信息和第二关键词的词特征信息进行提取为例来说明,第一注意力模块对第一文本中各个词的词特征信息和第二关键词的词特征信息进行降维,在降维后的词特征信息中生成查询向量、键向量和值向量,在第一文本的词集合中确定目标词,通过第二关键词的词特征信息对目标词计算自注意力向量,得到目标词的第一初始编码特征信息。
其中,目标词的自注意机制输出的第一初始编码特征信息可以通过放缩点积注意力(scaled dot-Product attention)进行计算,如下:
其中,qi为目标词的查询向量,KT为第二关键词的键向量,V为目标词的值向量,d为第二关键词的键向量的维数。
通过计算公式,可以看出目标词的注意力向量即第一初始编码特征信息可以通过这三个向量进行计算得到,比如,可以通过第二关键词的键向量与目标词的查询向量进行点积,得到目标词的自注意向量集,即第一权重。比如,当第一文本中的词w_A的查询向量q,跟第二关键词的键向量K作用时,只考虑第二文本里的关键词,比如,第二文本“地球和太阳之间的距离是多少”的关键词可以为“地球”、“太阳”、“距离”有3个,记做kw_B1~kw_B3,则此时
K=[h(kw_B1),..,h(kw_B3)]
即K跟Q作用后有3个权重(即第一权重集),代表了第二文本里的3个关键词对第一文本里当前词(即目标词)的影响。
将目标词的自注意力向量集中的值再次进行降维,降维的方式可以为除以第二关键词的键向量的平方根来实现。对目标词的自注意向量集中的自注意向量与目标词对应的值向量相乘,将相乘后的结果进行加权求和,得到目标词的自注意力输出,即目标词的初始上下文信息,重复通过上述步骤,完成对第一文本中剩余词的自注意力输出,最后得到第一文本中各个词在不同第一表示子空间中的第一初始编码特征信息。
然后,对各个第一表示子空间下的第一文本中各个词的第一初始编码特征信息进行加权,比如,对第一文本中每个词在不同的第一表示子空间下的第一初始编码特征信息进行拼接,对拼接后的每个词的第一初始编码特征信息进行加权,就得到融合所有第一表示子空间的每个词的融合后第一初始编码特征信息。接着,将得到每个词的融合后第一初始编码特征信息通过第一前馈神经网络输入到第一残差模块进行特征提取。比如,通过第一前馈神经将每个词的融合后第一初始编码特征信息输入到第一残差模块中进行求和与归一化,得到第一编码特征信息。
在接收到最后一层编码器网络输出的第一编码特征信息后,对第一文本中每个词的第一编码特征信息进行特征提取,得到第一文本中各个词初始第一解码特征信息。比如,可以采用训练后分类模型的解码器网络对第一文本中各个词的第一编码特征信息进行特征提取。训练后分类模型的解码器网络包括至少一个注意力模块、至少一个第二前馈神经网络和至少一个第二残差模块。譬如,具体可以如下:
将第一文本中各个词的第一编码特征信息分别输入至多个第二表示子空间,通过第二注意力模块在各个第二表示子空间中对各个词的第一编码特征信息进行特征提取,以在一个第二表示子空间中第二注意力模块对各个词的第一编码特征信息进行特征提取为例来说明,在各个词的第一编码特征信息中提取键向量和值向量,解码器网络生成各个词在第二表示子空间下的中间向量,将中间向量作为查询向量。在第一文本中确定目标词,通过第二关键词对目标词计算自注意力进行解码。比如,可以通过第二关键词的键向量与目标词的查询向量进行点积,得到目标词的自注意向量集,将目标词的自注意力向量集中的值再次进行降维,降维的方式可以为除以第二关键词的键向量的平方根来实现。对目标词的自注意向量集中的自注意向量与目标词对应的值向量相乘,将相乘后的结果进行加权求和,得到第一文本中选定的目标词的自注意力输出,得到目标词的初始第一解码特征信息,重复通过上述步骤,完成对第一文本中剩余词的自注意力输出,最后得到第一文本中所有词在各个第二表示子空间中的初始第一解码特征信息。然后,对各个第二表示子空间下第一文本中各个词的初始第一解码特征信息进行加权,比如,对第一文本中各个词在不同的第二表示子空间下的初始第一解码特征信息进行拼接,对拼接后的各个词的初始第一解码特征信息进行加权,就得到融合所有第二表示子空间的各个词的融合后初始第一解码特征信息。接着,将得到的第一文本中各个词的融合后的初始第一解码特征信息通过第二前馈神经网络输入到第二残差模块进行特征提取。比如,通过第二前馈神经将各个词的融合后的初始第一解码特征信息输入到第二残差模块中进行求和与归一化,得到第一文本中各个词的第一解码特征信息。最后,将该第一解码特征信息经过线性变换后得到第一注意力特征信息。
比如,如图2b所示,将经过关键词注意力层之后的第一文本的词特征信息记做[h(A1),…,h(Ai)],对应图里的Token_A1~Token_Ai,此时,可以将其映射到一个维度跟h(Ai)一致的向量h(A)上,代表第一文本这个句子跟第二文本的关键词融合之后的句向量。
205、电子设备根据该第二文本的词特征信息、该第二关键词的词特征信息,获取第二注意力特征信息。
比如,电子设备具体可以根据第二文本的词特征信息生成第二查询向量,并根据该第一关键词的词特征信息生成第一键向量,根据该第二查询向量和第一键向量,计算表征第一关键词与第二文本中各个词相关性的第二权重。根据第二文本的词特征信息生成第二值向量,基于该第二权重,对该第二值向量进行加权运算,得到第二注意力特征信息。
比如,可以将第二文本的词特征信息和第一关键词的词特征信息分别输入至多个第一表示子空间,采用第一注意力模块在各个第一表示子空间中对第二文本中各个词的词特征信息和第一关键词的词特征信息进行特征提取。以在一个第一表示子空间中,第一注意力模块对第二文本中各个词的词特征信息和第一关键词的词特征信息进行提取为例来说明,第一注意力模块对第二文本中各个词的词特征信息和第一关键词的词特征信息进行降维,在降维后的词特征信息中生成查询向量、键向量和值向量,在第二文本的词集合中确定目标词,通过第一关键词的词特征信息对目标词计算自注意力向量,得到目标词的第二初始编码特征信息。
其中,目标词的自注意机制输出的第二初始编码特征信息可以通过放缩点积注意力(scaled dot-Product attention)进行计算,如下:
其中,qi为目标词的查询向量,KT为第一关键词的键向量,V为目标词的值向量,d为第一关键词的键向量的维数。
通过计算公式,可以看出目标词的注意力向量即第二初始编码特征信息可以通过这三个向量进行计算得到,比如,可以通过第一关键词的键向量与目标词的查询向量进行点积,得到目标词的自注意向量集,即第二权重。比如,当第二文本中的词w_B的查询向量q,跟第二关键词的键向量K作用时,只考虑第一文本的关键词,比如,第一文本“太阳离地球多远”的关键词有三个,分别为“太阳”、“地球”和“多远”,记做kw_A1~kw_A3,则此时
K=[h(kw_A1),..,h(kw_A3)]
即K跟Q作用后有3个权重(即第二权重集),代表了第一文本里的3个关键词对第二文本里当前词(即目标词)的影响。
将目标词的自注意力向量集中的值再次进行降维,降维的方式可以为除以第一关键词的键向量的平方根来实现。对目标词的自注意向量集中的自注意向量与目标词对应的值向量相乘,将相乘后的结果进行加权求和,得到目标词的自注意力输出,即目标词的第二初始编码特征信息,重复通过上述步骤,完成对第二文本中剩余词的自注意力输出,最后得到第二文本中各个词在不同第一表示子空间中的第二初始编码特征信息。
然后,对各个第一表示子空间下的第二文本中各个词的第二初始编码特征信息进行加权,比如,对第一文本中每个词在不同的第一表示子空间下的第二初始编码特征信息进行拼接,对拼接后的每个词的第二初始编码特征信息进行加权,就得到融合所有第一表示子空间的每个词的融合后第二初始编码特征信息。接着,将得到每个词的融合后第二初始编码特征信息通过第一前馈神经网络输入到第一残差模块进行特征提取。比如,通过第一前馈神经将每个词的融合后第二初始编码特征信息输入到第一残差模块中进行求和与归一化,得到第二编码特征信息。
在接收到最后一层编码器网络输出的第二编码特征信息后,对第二文本中每个词的第二编码特征信息进行特征提取,得到第二文本中各个词初始第二解码特征信息。比如,可以采用训练后分类模型的解码器网络对第二文本中各个词的第二编码特征信息进行特征提取。训练后分类模型的解码器网络包括至少一个注意力模块、至少一个第二前馈神经网络和至少一个第二残差模块。譬如,具体可以如下:
将第二文本中各个词的第二编码特征信息分别输入至多个第二表示子空间,通过第二注意力模块在各个第二表示子空间中对各个词的第二编码特征信息进行特征提取,以在一个第二表示子空间中第二注意力模块对各个词的第二编码特征信息进行特征提取为例来说明,在各个词的第二编码特征信息中提取键向量和值向量,解码器网络生成各个词在第二表示子空间下的中间向量,将中间向量作为查询向量。在第二文本中确定目标词,通过第一关键词对目标词计算自注意力进行解码。比如,可以通过第一关键词的键向量与目标词的查询向量进行点积,得到目标词的自注意向量集,将目标词的自注意力向量集中的值再次进行降维,降维的方式可以为除以第一关键词的键向量的平方根来实现。对目标词的自注意向量集中的自注意向量与目标词对应的值向量相乘,将相乘后的结果进行加权求和,得到第二文本中选定的目标词的自注意力输出,得到目标词的初始第二解码特征信息,重复通过上述步骤,完成对第二文本中剩余词的自注意力输出,最后得到第二文本中所有词在各个第二表示子空间中的初始第二解码特征信息。然后,对各个第二表示子空间下第二文本中各个词的初始第二解码特征信息进行加权,比如,对第二文本中各个词在不同的第二表示子空间下的初始第二解码特征信息进行拼接,对拼接后的各个词的初始第二解码特征信息进行加权,就得到融合所有第二表示子空间的各个词的融合后初始第二解码特征信息。接着,将得到的第二文本中各个词的融合后的初始第二解码特征信息通过第二前馈神经网络输入到第二残差模块进行特征提取。比如,通过第二前馈神经将各个词的融合后的初始第二解码特征信息输入到第二残差模块中进行求和与归一化,得到第二文本中各个词的第二解码特征信息。将该第二解码特征信息经过线性变换后得到第二注意力特征信息。
比如,如图2b所示,将经过关键词注意力层之后的第二文本的词特征信息记做[h(B1),…,h(Bi)],对应图里的Token_B1~Token_Bi,此时,可以将其映射到一个维度跟h(Bi)一致的向量h(B)上,代表第二文本这个句子跟第一文本的关键词融合之后的句向量。
206、电子设备将该第一语义特征信息和该第二语义特征信息进行融合,得到融合后语义特征信息。
例如,电子设备具体可以将第一文本和第二文本整体之间的语义层面进行融合,得到融合后语义特征信息h(CLS)。
207、电子设备根据该第一文本信息、该第二文本信息和该融合后语义特征信息,计算第一文本和第二文本之间的匹配度。
例如,电子设备具体可以将该第一文本信息、该第二文本信息和该融合后语义特征信息输入到融合(fusion)层,进行简单的向量拼接,得到文本扩充信息H,H=[h(A);h(B);h(CLS)],根据该文本扩充信息计算第一文本和第二文本之间的匹配度。
接着,将文本扩充信息送入分类层,这里的分类标签跟任务相关。对于文本匹配而言,分类是简单的二分类,即第一文本和第二文本是否相似,对于一些更复杂的任务,可以是多分类,比如第一文本和第二文本的匹配程度,可以划分多个等级,对应多个标签。
208、电子设备基于该匹配度对该待分类文本对进行分类,得到分类结果。
例如,电子设备具体可以将文本扩充信息H输入到分类层,对第一文本和第二文本进行分类,比如,判断第一文本“太阳离地球多远”和第二文本“地球和太阳之间的距离是多少”是否相似。或者,也可以对第一文本和第二文本进行多分类,比如第一文本和第二文本的匹配程度,可以划分多个等级,对应多个标签。
虽然第一文本“太阳离地球多远”和第二文本“地球和太阳之间的距离是多少”句式并不相同,但他们的关键词都包含“地球”和“太阳”这俩个实体,同时还能抽取出“多远”和“距离”这俩语义相近的描述,由于训练后分类模型关注了关键词对对方的影响,因此,可以大大增强训练后分类模型分类的准确率。
由上可知,本实施例在获取待分类文本对后,该待分类文本对包括第一文本和第二文本,可以从该待分类文本对中选取该第一文本的第一关键词、该第二文本的第二关键词,然后对该待分类文本对中的文本进行特征提取,得到该第一文本的词特征信息、第一语义特征信息,和第二文本的词特征信息、第二语义特征信息,接着,根据该第一文本的词特征信息、该第二关键词的词特征信息,获取第一注意力特征信息,根据该第二文本的词特征信息、该第二关键词的词特征信息,获取第二注意力特征信息,再然后,基于该第一注意力特征信息、该第二注意力特征信息、该第一语义特征信息、以及该第二语义特征信息,对该待分类文本对进行分类,得到分类结果;由于该方案不仅考虑单个文本的特征信息,还考虑了文本对之间的交互信息,通过增强文本的关键词信息的影响来获取注意力特征信息,再文本对的特征信息和注意力信息来进行分类,所以,相对于仅仅将待分类文本对进行特征组合,或者直接输入到带有自注意力机制的模型中而言,可以有效地提高文本分类的准确性。
为了更好地实施以上方法,相应的,本发明实施例还提供一种文本分类装置,该文本分类装置具体可以集成在电子设备中,该电子设备可以是服务器,也可以是终端等设备。
例如,如图3所示,该文本分类装置可以包括获取单元301、选取单元302、提取单元303、第一计算单元304、第二计算单元305和分类单元306,如下:
(1)获取单元301;
获取单元301,用于获取待分类文本对。
其中,该待分类文本对可以包括第一文本和第二文本。例如,获取单元301具体可以从网络数据库中获取需要分类的文章或者资讯,还可以接收用户上传的文本,比如电子书或者电子类文本。
(2)选取单元302;
选取单元302,用于从该待分类文本对中选取该第一文本的第一关键词、该第二文本的第二关键词。
例如,选取单元302具体可以用于对该待分类文本对进行分词,得到待分类文本对的词集合,确定该第一文本和第二文本各自所在的领域,基于该领域对应的预设词典,从该词集合中确定第一文本的第一关键词、第二文本的第二关键词。
(3)提取单元303;
提取单元303,用于对该待分类文本对中的文本进行特征提取,得到该第一文本的词特征信息、第一语义特征信息,和第二文本的词特征信息、第二语义特征信息。
可选的,在一些实施例中,该提取单元可以包括第一提取子单元、第二提取子单元和第三提取子单元,如下:
第一提取子单元,用于对该第一文本中各个词进行词特征提取,得到第一文本的词特征信息;
第二提取子单元,用于对该第二文本中各个词进行词特征提取,得到第二文本的词特征信息;
第三提取子单元,用于分别对该第一文本和第二文本对进行语义特征提取,得到该第一文本的第一语义特征信息、和第二文本的第二语义特征信息。
可选的,在一些实施例中,该第一提取子单元,具体用于对该第一文本中的每个词分别进行位置特征提取和词特征提取,得到第一文本的位置特征和词特征,对该第一文本中的每个词进行标记,得到第一文本的标记特征,对该第一文本的位置特征、词特征和标记特征进行特征融合,得到该第一文本的词特征信息。
可选的,在一些实施例中,该第二提取子单元,具体用于对该第二文本中的每个词分别进行位置特征提取和词特征提取,得到第二文本的位置特征和词特征,对该第二文本中的每个词进行标记,得到第二文本的标记特征,对该第二文本的位置特征、词特征和标记特征进行合成,得到该第二文本的词特征信息。
(4)第一计算单元304;
第一计算单元304,用于根据该第一文本的词特征信息、该第二关键词的词特征信息,获取第一注意力特征信息。
其中,该第一注意力特征信息为关注该第二关键词与第一文本中各个词相关性的词特征信息。
可选的,在一些实施例中,该第一计算单元可以包括第一计算子单元和第一调整子单元,如下:
第一计算子单元,用于根据该第一文本的词特征信息、该第二关键词的词特征信息,计算第二关键词与第一文本中各个词的第一相关性信息;
第一调整子单元,用于基于该第一相关性信息对该第一文本的词特征信息进行调整,得到第一注意力特征信息。
可选的,在一些实施例中,该第一计算子单元,具体用于根据第一文本的词特征信息生成第一查询向量,并根据该第二关键词的词特征信息生成第二键向量,根据该第一查询向量和第二键向量,计算表征第二关键词与第一文本中各个词相关性的第一权重。
则此时,该第一调整子单元,具体可以用于基于该第一权重对该第一文本的词特征信息进行调整,得到第一注意力特征信息。
可选的,在一些实施例中,该第一调整子单元,具体用于根据第一文本的词特征信息生成第一值向量,基于该第一权重,对该第一值向量进行加权运算,得到第一注意力特征信息。
其中,根据该第一文本的词特征信息、该第二关键词的词特征信息,可以采用训练后分类模型获取第一注意力特征信息。具体实施可参见前面的方法实施例。
可选的,该训练后分类模型可以除了可以由运维人员预先进行设置之外,也可以由该文本分类装置自行训练来得到。即该分类模型还可以包括采集单元和训练单元,如下:
采集单元,用于采集多个文本对样本作为训练数据集。
其中,该文本对样本包括已标注真实的分类结果。例如,具体可以采集多个文本对样本,比如从数据库或者网络等获取文本样本,然后对文本样本对进行特征提取,以得到输入至分类模型的词特征信息。
训练单元,用于根据所述训练数据集对预设分类模型进行训练,得到训练后分类模型。
例如,具体可以利用预设分类模型对所述文本对进行分类,得到预测的分类结果,获取所述文本对真实的分类结果,根据预测的分类结果与真实的分类结果对预设分类模型进行收敛,得到训练后分类模型。
例如,具体可以通过编码器网络对词特征信息进行编码,得到编码特征信息,然后,对编码特征信息进行解码,得到解码特征信息,再然后,将解码特征信息经过线性变换后得到注意力特征信息,根据词特征信息和注意力特征信息,对所述文本对进行分类,得到预测的分类结果。
例如,可以通过插值损失函数,根据预测的分类结果与真实的分类结果对预设分类模型进行收敛,得到训练后分类模型。
可选的,为了提高上下文特征的精确性,除了采用插值损失函数之外,还可以采用其他的损失函数如交叉熵损失函数来进行收敛。
(5)第二计算单元305;
第二计算单元,用于根据该第二文本的词特征信息、该第二关键词的词特征信息,获取第二注意力特征信息。
其中,该第二注意力特征信息为关注该第一关键词与第二文本中各个词相关性的词特征信息。其中,根据该第二文本的词特征信息、该第二关键词的词特征信息,可以采用训练后分类模型获取第二注意力特征信息。具体实施可参见前面的方法实施例。
可选的,在一些实施例中,该第二计算单元可以包括第二计算子单元和第二调整子单元,如下:
第二计算子单元,用于根据该第二文本的词特征信息、该第二关键词的词特征信息,计算第一关键词与第二文本中各个词的第二相关性信息;
第二调整子单元,用于基于该第二相关性信息,对该第二文本的词特征信息进行调整,得到第二注意力特征信息。
可选的,在一些实施例中,该第二计算子单元,具体用于根据第二文本的词特征信息生成第二查询向量,并根据该第一关键词的词特征信息生成第一键向量,根据该第二查询向量和第一键向量,计算表征第一关键词与第二文本中各个词相关性的第二权重。
则此时,该第二调整子单元,具体可以用于基于该第二权重对该第二文本的词特征信息进行调整,得到第二注意力特征信息。
可选的,在一些实施例中,该第二调整子单元,具体用于根据第二文本的词特征信息生成第二值向量,基于该第二权重,对该第二值向量进行加权运算,得到第二注意力特征信息。
(6)分类单元306。
分类单元,用于基于该第一注意力特征信息、该第二注意力特征信息、该第一语义特征信息、以及该第二语义特征信息,对该待分类文本对进行分类,得到分类结果
可选的,在一些实施例中,该分类单元可以包括融合子单元、第三计算子单元和分类子单元,如下:
融合子单元,用于将该第一语义特征信息和该第二语义特征信息进行融合,得到融合后语义特征信息;
第三计算子单元,用于根据该第一文本信息、该第二文本信息和该融合后语义特征信息,计算第一文本和第二文本之间的匹配度;
分类子单元,用于基于该匹配度对该待分类文本对进行分类,得到分类结果。
可选的,在一些实施例中,该第三计算子单元,具体用于将该第一文本信息、该第二文本信息和该融合后语义特征信息进行特征扩充,得到文本扩充信息,根据该文本扩充信息计算第一文本和第二文本之间的匹配度。
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
由上可知,本实施例在获取单元301获取待分类文本对后,该待分类文本对包括第一文本和第二文本,可以由选取单元302从该待分类文本对中选取该第一文本的第一关键词、该第二文本的第二关键词,然后由提取单元303对该待分类文本对中的文本进行特征提取,得到该第一文本的词特征信息、第一语义特征信息,和第二文本的词特征信息、第二语义特征信息,接着,由第一计算单元304根据该第一文本的词特征信息、该第二关键词的词特征信息,获取第一注意力特征信息,由第二计算单元305根据该第二文本的词特征信息、该第二关键词的词特征信息,获取第二注意力特征信息,再然后,由分类单元306基于该第一注意力特征信息、该第二注意力特征信息、该第一语义特征信息、以及该第二语义特征信息,对该待分类文本对进行分类,得到分类结果;由于该方案不仅考虑单个文本的特征信息,还考虑了文本对之间的交互信息,通过增强文本的关键词信息的影响来获取注意力特征信息,再文本对的特征信息和注意力信息来进行分类,所以,相对于仅仅将待分类文本对进行特征组合,或者直接输入到带有自注意力机制的模型中而言,可以有效地提高文本分类的准确性。
此外,本发明实施例还提供一种电子设备,如图4所示,其示出了本发明实施例所涉及的电子设备的结构示意图,具体来讲:
该电子设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图4中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
电子设备还包括给各个部件供电的电源403,优选的,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该电子设备还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,电子设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,电子设备中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:
获取待分类文本对,该待分类文本对包括第一文本和第二文本,可以从该待分类文本对中选取该第一文本的第一关键词、该第二文本的第二关键词,然后对该待分类文本对中的文本进行特征提取,得到该第一文本的词特征信息、第一语义特征信息,和第二文本的词特征信息、第二语义特征信息,接着,根据该第一文本的词特征信息、该第二关键词的词特征信息,获取第一注意力特征信息,根据该第二文本的词特征信息、该第二关键词的词特征信息,获取第二注意力特征信息,再然后,基于该第一注意力特征信息、该第二注意力特征信息、该第一语义特征信息、以及该第二语义特征信息,对该待分类文本对进行分类,得到分类结果。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
由上可知,本实施例在获取待分类文本对后,该待分类文本对包括第一文本和第二文本,可以从该待分类文本对中选取该第一文本的第一关键词、该第二文本的第二关键词,然后对该待分类文本对中的文本进行特征提取,得到该第一文本的词特征信息、第一语义特征信息,和第二文本的词特征信息、第二语义特征信息,接着,根据该第一文本的词特征信息、该第二关键词的词特征信息,获取第一注意力特征信息,根据该第二文本的词特征信息、该第二关键词的词特征信息,获取第二注意力特征信息,再然后,基于该第一注意力特征信息、该第二注意力特征信息、该第一语义特征信息、以及该第二语义特征信息,对该待分类文本对进行分类,得到分类结果。该方案可以有效地提高文本分类的准确性;由于该方案不仅考虑单个文本的特征信息,还考虑了文本对之间的交互信息,通过增强文本的关键词信息的影响来获取注意力特征信息,再文本对的特征信息和注意力信息来进行分类,所以,相对于仅仅将待分类文本对进行特征组合,或者直接输入到带有自注意力机制的模型中而言,可以有效地提高文本分类的准确性。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本发明实施例还提供一种存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本发明实施例所提供的任一种文本分类方法中的步骤。例如,该指令可以执行如下步骤:
获取待分类文本对,该待分类文本对包括第一文本和第二文本,可以从该待分类文本对中选取该第一文本的第一关键词、该第二文本的第二关键词,然后对该待分类文本对中的文本进行特征提取,得到该第一文本的词特征信息、第一语义特征信息,和第二文本的词特征信息、第二语义特征信息,接着,根据该第一文本的词特征信息、该第二关键词的词特征信息,获取第一注意力特征信息,根据该第二文本的词特征信息、该第二关键词的词特征信息,获取第二注意力特征信息,再然后,基于该第一注意力特征信息、该第二注意力特征信息、该第一语义特征信息、以及该第二语义特征信息,对该待分类文本对进行分类,得到分类结果。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的指令,可以执行本发明实施例所提供的任一种文本分类方法中的步骤,因此,可以实现本发明实施例所提供的任一种文本分类方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本发明实施例所提供的一种文本分类方法、装置和存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (14)
1.一种文本分类方法,其特征在于,包括:
获取待分类文本对,所述待分类文本对包括第一文本和第二文本;
从所述待分类文本对中选取所述第一文本的第一关键词、所述第二文本的第二关键词;
对所述待分类文本对中的文本进行特征提取,得到所述第一文本的词特征信息、第一语义特征信息,和第二文本的词特征信息、第二语义特征信息;
根据所述第一文本的词特征信息、所述第二关键词的词特征信息,获取第一注意力特征信息,所述第一注意力特征信息为关注所述第二关键词与第一文本中各个词相关性的词特征信息;
根据所述第二文本的词特征信息、所述第二关键词的词特征信息,获取第二注意力特征信息,所述第二注意力特征信息为关注所述第一关键词与第二文本中各个词相关性的词特征信息;
基于所述第一注意力特征信息、所述第二注意力特征信息、所述第一语义特征信息、以及所述第二语义特征信息,对所述待分类文本对进行分类,得到分类结果。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一文本的词特征信息、所述第二关键词的词特征信息,获取第一注意力特征信息,包括:
根据所述第一文本的词特征信息、所述第二关键词的词特征信息,计算第二关键词与第一文本中各个词的第一相关性信息;
基于所述第一相关性信息对所述第一文本的词特征信息进行调整,得到第一注意力特征信息。
3.根据权利要求2所述的方法,其特征在于,所述第一相关性信息包括第一权重,所述根据所述第一文本的词特征信息、所述第二关键词的词特征信息,计算第二关键词与第一文本中各个词的第一相关性信息,包括:
根据第一文本的词特征信息生成第一查询向量,并根据所述第二关键词的词特征信息生成第二键向量;
根据所述第一查询向量和第二键向量,计算表征第二关键词与第一文本中各个词相关性的第一权重;
所述基于所述相关性信息对所述第一文本的词特征信息进行调整,得到第一注意力特征信息,包括:基于所述第一权重对所述第一文本的词特征信息进行调整,得到第一注意力特征信息。
4.根据权利要求3所述的方法,其特征在于,所述基于所述第一权重对所述第一文本的词特征信息进行调整,得到第一注意力特征信息,包括:
根据第一文本的词特征信息生成第一值向量;
基于所述第一权重,对所述第一值向量进行加权运算,得到第一注意力特征信息。
5.根据权利要求1所述的方法,其特征在于,所述根据所述第二文本的词特征信息、所述第二关键词的词特征信息,获取第二注意力特征信息,包括:
根据所述第二文本的词特征信息、所述第二关键词的词特征信息,计算第一关键词与第二文本中各个词的第二相关性信息;
基于所述第二相关性信息,对所述第二文本的词特征信息进行调整,得到第二注意力特征信息。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述对所述待分类文本对中的文本进行特征提取,得到所述第一文本的词特征信息、第一语义特征信息,和第二文本的词特征信息、第二语义特征信息,包括:
对所述第一文本中各个词进行词特征提取,得到第一文本的词特征信息;
对所述第二文本中各个词进行词特征提取,得到第二文本的词特征信息;
分别对所述第一文本和第二文本对进行语义特征提取,得到所述第一文本的第一语义特征信息、和第二文本的第二语义特征信息。
7.根据权利要求6所述的方法,其特征在于,所述对所述第一文本中各个词进行词特征提取,得到第一文本的词特征信息,包括:
对所述第一文本中的每个词分别进行位置特征提取和词特征提取,得到第一文本的位置特征和词特征;
对所述第一文本中的每个词进行标记,得到第一文本的标记特征;
对所述第一文本的位置特征、词特征和标记特征进行特征融合,得到所述第一文本的词特征信息。
8.根据权利要求6所述的方法,其特征在于,所述对所述第二文本中各个词进行词特征提取,得到第二文本的词特征信息,包括:
对所述第二文本中的每个词分别进行位置特征提取和词特征提取,得到第二文本的位置特征和词特征;
对所述第二文本中的每个词进行标记,得到第二文本的标记特征;
对所述第二文本的位置特征、词特征和标记特征进行合成,得到所述第二文本的词特征信息。
9.根据权利要求1至5任一项所述的方法,其特征在于,所述从所述待分类文本对中选取所述第一文本的第一关键词、所述第二文本的第二关键词,包括:
对所述待分类文本对进行分词,得到待分类文本对的词集合;
确定所述第一文本和第二文本各自所在的领域;
基于所述领域对应的预设词典,从所述词集合中确定第一文本的第一关键词、第二文本的第二关键词。
10.根据权利要求1至5任一项所述的方法,其特征在于,所述基于所述第一注意力特征信息、所述第二注意力特征信息、所述第一语义特征信息、以及所述第二语义特征信息,对所述待分类文本对进行分类,得到分类结果,包括:
将所述第一语义特征信息和所述第二语义特征信息进行融合,得到融合后语义特征信息;
根据所述第一文本信息、所述第二文本信息和所述融合后语义特征信息,计算第一文本和第二文本之间的匹配度;
基于所述匹配度对所述待分类文本对进行分类,得到分类结果。
11.根据权利要求10所述的方法,其特征在于,所述根据所述第一文本信息、所述第二文本信息和所述融合后语义特征信息,计算第一文本和第二文本之间的匹配度,包括:
将所述第一文本信息、所述第二文本信息和所述融合后语义特征信息进行特征扩充,得到文本扩充信息;
根据所述文本扩充信息计算第一文本和第二文本之间的匹配度。
12.一种文本分类装置,其特征在于,包括:
获取单元,用于获取待分类文本对,所述待分类文本对包括第一文本和第二文本;
选取单元,用于从所述待分类文本对中选取所述第一文本的第一关键词、所述第二文本的第二关键词;
提取单元,用于对所述待分类文本对中的文本进行特征提取,得到所述第一文本的词特征信息、第一语义特征信息,和第二文本的词特征信息、第二语义特征信息;
第一计算单元,用于根据所述第一文本的词特征信息、所述第二关键词的词特征信息,获取第一注意力特征信息,所述第一注意力特征信息为关注所述第二关键词与第一文本中各个词相关性的词特征信息;
第二计算单元,用于根据所述第二文本的词特征信息、所述第二关键词的词特征信息,获取第二注意力特征信息,所述第二注意力特征信息为关注所述第一关键词与第二文本中各个词相关性的词特征信息;
分类单元,用于基于所述第一注意力特征信息、所述第二注意力特征信息、所述第一语义特征信息、以及所述第二语义特征信息,对所述待分类文本对进行分类,得到分类结果。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至11中任一项所述的文本分类方法中的步骤。
14.一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现如权利要求1至11任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910872891.2A CN110796160A (zh) | 2019-09-16 | 2019-09-16 | 一种文本分类方法、装置和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910872891.2A CN110796160A (zh) | 2019-09-16 | 2019-09-16 | 一种文本分类方法、装置和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110796160A true CN110796160A (zh) | 2020-02-14 |
Family
ID=69427188
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910872891.2A Pending CN110796160A (zh) | 2019-09-16 | 2019-09-16 | 一种文本分类方法、装置和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110796160A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111460126A (zh) * | 2020-06-12 | 2020-07-28 | 支付宝(杭州)信息技术有限公司 | 一种用于人机对话系统的回复生成方法、装置及电子设备 |
CN111460783A (zh) * | 2020-03-30 | 2020-07-28 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、计算机设备及存储介质 |
CN112016245A (zh) * | 2020-08-13 | 2020-12-01 | 五邑大学 | 基于自注意力变形网络的磁暴预测方法、装置及存储介质 |
CN112069324A (zh) * | 2020-08-27 | 2020-12-11 | 北京灵汐科技有限公司 | 一种分类标签添加方法、装置、设备及存储介质 |
CN112989058A (zh) * | 2021-05-10 | 2021-06-18 | 腾讯科技(深圳)有限公司 | 信息分类方法、试题分类方法、设备、服务器和存储介质 |
CN113255780A (zh) * | 2021-05-28 | 2021-08-13 | 润联软件系统(深圳)有限公司 | 一种减速箱故障预测方法、装置、计算机设备及存储介质 |
CN113268597A (zh) * | 2021-05-25 | 2021-08-17 | 平安科技(深圳)有限公司 | 文本分类方法、装置、设备及存储介质 |
CN113672694A (zh) * | 2020-05-13 | 2021-11-19 | 武汉Tcl集团工业研究院有限公司 | 一种文本处理方法、终端以及存储介质 |
CN114282528A (zh) * | 2021-08-20 | 2022-04-05 | 腾讯科技(深圳)有限公司 | 一种关键词提取方法、装置、设备及存储介质 |
CN116226382A (zh) * | 2023-02-28 | 2023-06-06 | 北京数美时代科技有限公司 | 一种给定关键词的文本分类方法、装置、电子设备及介质 |
-
2019
- 2019-09-16 CN CN201910872891.2A patent/CN110796160A/zh active Pending
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111460783A (zh) * | 2020-03-30 | 2020-07-28 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、计算机设备及存储介质 |
CN111460783B (zh) * | 2020-03-30 | 2021-07-27 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、计算机设备及存储介质 |
CN113672694A (zh) * | 2020-05-13 | 2021-11-19 | 武汉Tcl集团工业研究院有限公司 | 一种文本处理方法、终端以及存储介质 |
CN111460126B (zh) * | 2020-06-12 | 2020-09-25 | 支付宝(杭州)信息技术有限公司 | 一种用于人机对话系统的回复生成方法、装置及电子设备 |
CN111460126A (zh) * | 2020-06-12 | 2020-07-28 | 支付宝(杭州)信息技术有限公司 | 一种用于人机对话系统的回复生成方法、装置及电子设备 |
CN112016245A (zh) * | 2020-08-13 | 2020-12-01 | 五邑大学 | 基于自注意力变形网络的磁暴预测方法、装置及存储介质 |
CN112069324A (zh) * | 2020-08-27 | 2020-12-11 | 北京灵汐科技有限公司 | 一种分类标签添加方法、装置、设备及存储介质 |
CN112989058B (zh) * | 2021-05-10 | 2021-09-07 | 腾讯科技(深圳)有限公司 | 信息分类方法、试题分类方法、设备、服务器和存储介质 |
CN112989058A (zh) * | 2021-05-10 | 2021-06-18 | 腾讯科技(深圳)有限公司 | 信息分类方法、试题分类方法、设备、服务器和存储介质 |
CN113268597A (zh) * | 2021-05-25 | 2021-08-17 | 平安科技(深圳)有限公司 | 文本分类方法、装置、设备及存储介质 |
CN113268597B (zh) * | 2021-05-25 | 2023-06-27 | 平安科技(深圳)有限公司 | 文本分类方法、装置、设备及存储介质 |
CN113255780A (zh) * | 2021-05-28 | 2021-08-13 | 润联软件系统(深圳)有限公司 | 一种减速箱故障预测方法、装置、计算机设备及存储介质 |
CN113255780B (zh) * | 2021-05-28 | 2024-05-03 | 润联智能科技股份有限公司 | 一种减速箱故障预测方法、装置、计算机设备及存储介质 |
CN114282528A (zh) * | 2021-08-20 | 2022-04-05 | 腾讯科技(深圳)有限公司 | 一种关键词提取方法、装置、设备及存储介质 |
CN116226382A (zh) * | 2023-02-28 | 2023-06-06 | 北京数美时代科技有限公司 | 一种给定关键词的文本分类方法、装置、电子设备及介质 |
CN116226382B (zh) * | 2023-02-28 | 2023-08-01 | 北京数美时代科技有限公司 | 一种给定关键词的文本分类方法、装置、电子设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110796160A (zh) | 一种文本分类方法、装置和存储介质 | |
Conneau et al. | Very deep convolutional networks for natural language processing | |
CN110580292B (zh) | 一种文本标签生成方法、装置和计算机可读存储介质 | |
CN111177394A (zh) | 基于句法注意力神经网络的知识图谱关系数据分类方法 | |
CN111291549B (zh) | 文本处理方法、装置、存储介质和电子设备 | |
CN113987169A (zh) | 基于语义块的文本摘要生成方法、装置、设备及存储介质 | |
CN114676234A (zh) | 一种模型训练方法及相关设备 | |
CN113128214A (zh) | 一种基于bert预训练模型的文本摘要生成方法 | |
CN112100375A (zh) | 文本信息生成方法、装置、存储介质及设备 | |
Huang et al. | C-Rnn: a fine-grained language model for image captioning | |
Khin et al. | Question answering based university chatbot using sequence to sequence model | |
CN114881042A (zh) | 基于图卷积网络融合句法依存与词性的中文情感分析方法 | |
Huang et al. | Attentive tensor product learning | |
Ansari et al. | Language Identification of Hindi-English tweets using code-mixed BERT | |
CN116628186A (zh) | 文本摘要生成方法及系统 | |
CN111597816A (zh) | 一种自注意力命名实体识别方法、装置、设备及存储介质 | |
Patil et al. | Performance analysis of image caption generation using deep learning techniques | |
CN113705315B (zh) | 视频处理方法、装置、设备及存储介质 | |
CN114444476A (zh) | 信息处理方法、装置和计算机可读存储介质 | |
CN117313728A (zh) | 实体识别方法、模型训练方法、装置、设备和存储介质 | |
CN116629211B (zh) | 基于人工智能的写作方法及系统 | |
Skobov et al. | Video-to-hamnosys automated annotation system | |
Vijayaraju | Image retrieval using image captioning | |
Singh et al. | Overview of neural machine translation for English-Hindi | |
Zheng | A Novel Computer-Aided Emotion Recognition of Text Method Based on WordEmbedding and Bi-LSTM |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40022084 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |