CN113822074B - 内容分类方法、装置、电子设备及存储介质 - Google Patents
内容分类方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN113822074B CN113822074B CN202110687914.XA CN202110687914A CN113822074B CN 113822074 B CN113822074 B CN 113822074B CN 202110687914 A CN202110687914 A CN 202110687914A CN 113822074 B CN113822074 B CN 113822074B
- Authority
- CN
- China
- Prior art keywords
- content
- feature
- semantic
- fusion
- information pairs
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 76
- 238000003860 storage Methods 0.000 title claims abstract description 19
- 230000004927 fusion Effects 0.000 claims abstract description 174
- 238000012545 processing Methods 0.000 claims abstract description 139
- 238000013145 classification model Methods 0.000 claims abstract description 138
- 239000013598 vector Substances 0.000 claims description 153
- 238000012549 training Methods 0.000 claims description 65
- 239000011159 matrix material Substances 0.000 claims description 44
- 230000011218 segmentation Effects 0.000 claims description 44
- 230000008569 process Effects 0.000 claims description 24
- 238000010276 construction Methods 0.000 claims description 20
- 238000007499 fusion processing Methods 0.000 claims description 15
- 238000010225 co-occurrence analysis Methods 0.000 claims description 11
- 238000010801 machine learning Methods 0.000 claims description 8
- 238000004140 cleaning Methods 0.000 claims description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 10
- 238000012360 testing method Methods 0.000 description 128
- 230000006870 function Effects 0.000 description 36
- 238000010586 diagram Methods 0.000 description 14
- 238000004458 analytical method Methods 0.000 description 12
- 238000012512 characterization method Methods 0.000 description 10
- 238000004590 computer program Methods 0.000 description 7
- 238000000605 extraction Methods 0.000 description 7
- 239000004816 latex Substances 0.000 description 7
- 229920000126 latex Polymers 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 238000013507 mapping Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000012163 sequencing technique Methods 0.000 description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 239000000654 additive Substances 0.000 description 2
- 230000000996 additive effect Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000011049 filling Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种内容分类方法、装置、电子设备及存储介质,涉及人工智能领域,该方法包括:采用内容分类模型,将内容集中每个内容分别与至少一组信息对中的预设内容标签及内容特征进行融合编码处理,得到每个内容对应的融合语义特征;基于每个内容对应的融合语义特征进行分类预测,得到每个内容对应的预测内容标签;根据每个内容对应的预测内容标签对内容分类模型中的参数进行调整,以获得训练后的内容分类模型;基于所述训练后的内容分类模型对待分类内容进行内容分类。本申请有效提升内容分类准确性。
Description
技术领域
本申请涉及人工智能领域,具体涉及一种内容分类方法、装置、电子设备及存储介质。
背景技术
内容分类即通过对待分类内容标定内容标签的分类处理过程。目前,相关技术中存在通过机器学习对待分类内容进行人工智能分类的方式,可以在一定程度上实现待分类内容的智能分类。
但是,相关技术中,在基于机器学习进行内容分类时,通常依赖于经验指导机器学习的分类,而且对于经验信息的学习效果有限,导致内容分类的准确性较低。
发明内容
本申请实施例提供一种内容分类方法及相关装置,可以提升内容分类时的分类准确性。
为解决上述技术问题,本申请实施例提供以下技术方案:
根据本申请的一个实施例,一种内容分类方法,该方法包括:获取内容集及信息集,所述内容集包括至少一个内容,所述信息集包括至少一组信息对,所述信息对包括预设内容标签和所述预设内容标签对应的内容特征;采用内容分类模型,将所述内容集中每个内容分别与所述至少一组信息对中的预设内容标签及内容特征进行融合编码处理,得到每个内容对应的融合语义特征;基于每个内容对应的所述融合语义特征进行分类预测,得到每个内容对应的预测内容标签;根据每个内容对应的预测内容标签对所述内容分类模型中的参数进行调整,以获得训练后的内容分类模型;基于所述训练后的内容分类模型对待分类内容进行内容分类。
根据本申请的一个实施例,一种内容分类装置,该装置包括:获取模块,用于获取内容集及信息集,所述内容集包括至少一个内容,所述信息集包括至少一组信息对,所述信息对包括预设内容标签和所述预设内容标签对应的内容特征;训练模块,用于采用内容分类模型,将所述内容集中每个内容分别与所述至少一组信息对中的预设内容标签及内容特征进行融合编码处理,得到每个内容对应的融合语义特征;预测模块,用于基于每个内容对应的所述融合语义特征进行分类预测,得到每个内容对应的预测内容标签;调整模块,用于根据每个内容对应的预测内容标签对所述内容分类模型中的参数进行调整,以获得训练后的内容分类模型;分类模块,用于基于所述训练后的内容分类模型对待分类内容进行内容分类。
在本申请的一些实施例中,所述训练模块,包括:第一编码单元,用于对所述内容集中每个内容分别进行特征编码处理,得到每个内容对应的第一语义特征;第二编码单元,用于对所述至少一组信息对中的预设内容标签及内容特征进行特征编码处理,以获得每个内容对应的第二语义特征;融合编码单元,用于将每个内容对应的所述第一语义特征及所述第二语义特征进行融合处理,得到每个内容对应的融合语义特征。
在本申请的一些实施例中,所述第一编码单元,包括:切词子单元,用于对所述内容集中每个内容分别进行切词处理,得到每个内容中的词;词向量构建子单元,用于构建每个内容中词的词向量,得到每个内容的词向量集;互融编码子单元,用于对每个内容的词向量集进行词向量互融编码处理,得到每个内容对应的第一语义特征。
在本申请的一些实施例中,所述内容分类模型中包括预训练模型,所述预训练模型中包括特征构建层以及互融编码层;所述词向量构建子单元,用于:在所述预训练模型中,将每个内容中的词输入所述特征构建层,以在所述特征构建层构建每个内容中的词的词向量,得到每个内容的词向量集;所述互融编码子单元,用于:将每个内容的词向量集分别输入所述互融编码层,以在所述互融编码层对每个内容的词向量集进行词向量互融编码处理,得到每个内容对应的第一语义特征。
在本申请的一些实施例中,所述内容分类模型中包括预训练模型,所述预训练模型中包括公式符号字典及词典,所述公式符号字典中公式符号的格式为目标格式;所述切词子单元,用于:对每个所述内容进行文本清洗处理,以将每个所述内容中的所有公式符号转化为所述目标格式的符号,得到每个所述内容对应的清洗后内容;将每个所述内容对应的清洗后内容输入所述预训练模型中,以遍历每个所述清洗后内容中的字符,并根据所述公式符号字典及所述词典对遍历的字符进行匹配切分,得到每个所述内容中的公式及词单元;将每个所述内容中切分到的所有所述公式及所述词单元,作为每个所述内容中的词。
在本申请的一些实施例中,所述第二编码单元,包括:分析子单元,用于对每组信息对中的预设内容标签及内容特征进行共现分析,以获得每组信息对在所述内容集中的共现频次;抽取子单元,用于从所述信息集中抽取共现频次符合目标条件的目标信息对,以将抽取的所述目标信息对作为所述内容集对应的共现特征;共现特征编码子单元,用于对所述共现特征进行特征编码处理,以获得每个内容对应的第二语义特征。
在本申请的一些实施例中,所述共现特征编码子单元,包括:排序子单元,用于将所述共现特征中的目标信息对进行排序,得到所述共现特征中目标信息对的排列顺序;匹配子单元,用于从所述共现特征中确定每个内容对应的目标信息对;独热编码子单元,用于根据所述共现特征中目标信息对的排列顺序,对每个内容对应的目标信息对进行独热编码处理,以生成每个内容对应的第二语义特征。
在本申请的一些实施例中,所述独热编码子单元,用于:生成每个内容对应的特征矩阵模板,所述特征矩阵模板中一列对应所述共现特征中的一组目标信息对,各列的列序与所述排列顺序一致,一行对应每个内容对应的一组目标信息对;确定所述特征矩阵模板中的目标元素,所述目标元素为相同目标信息对所对应的行与列交叉位置处的元素;将每个内容对应的所述特征矩阵模板中,所述目标元素的值设为第一元素值,所述目标元素以外的其它元素的值设为第二元素值,得到每个内容对应的编码特征矩阵;基于每个内容对应的所述编码特征矩阵生成每个内容对应的第二语义特征。
在本申请的一些实施例中,所述融合编码单元,包括:打分子单元,用于针对每个内容,分别基于每个内容对应的所述第二语义特征对所述第一语义特征中的子语义特征进行注意力打分,得到每个内容对应的第一语义特征中子语义特征的注意力分数;权重生成子单元,用于基于每个内容对应的第一语义特征中子语义特征的注意力分数,生成每个内容对应的注意力权重;权重融合子单元,用于对每个内容对应的第一语义特征及注意力权重进行点乘处理,以生成每个内容对应的融合语义特征。
在本申请的一些实施例中,所述权重融合子单元,用于:对每个内容对应的第一语义特征及注意力权重进行点乘处理,得到每个内容对应的初始融合特征;从每个内容对应的第一语义特征中获取目标子语义特征;对每个内容对应的初始融合特征及目标子语义特征进行求和,得到每个内容对应的语义特征和;对每个内容对应的语义特征和进行双曲正切运算处理,得到每个内容对应的融合语义特征。
在本申请的一些实施例中,所述分析子单元,包括:分词子单元,用于将所述内容集中所有内容进行分词处理,得到所述内容集中的词;遍历子单元,用于遍历所述内容集中的词,以确定每组信息对中的内容特征相匹配的词出现的频次,作为每组信息对在所述内容集中的共现频次。
在本申请的一些实施例中,所述抽取子单元,包括:目标抽取子单元,用于从所述信息集中,抽取共现频次高于预定频次的目标信息对;共现特征确定子单元,用于将所有抽取到的目标信息对作为所述内容集对应的共现特征。
在本申请的一些实施例中,所述分类模块,包括:待分类内容获取单元,用于获取待分类内容;待分类内容编码单元,用于采用所述训练后的内容分类模型,将所述待分类内容与所述至少一组信息对中的预设内容标签及内容特征进行融合编码处理,得到所述待分类内容对应的融合语义特征;待分类内容分类单元,用于基于所述待分类内容对应的融合语义特征进行分类预测,得到所述待分类内容对应的内容标签。
在本申请的一些实施例中,所述内容包括试题内容,所述预设内容标签包括预设知识点标签,所述待分类内容包括待分类试题内容,所述内容标签包括知识点标签。
根据本申请的另一实施例,一种电子设备可以包括:存储器,存储有计算机可读指令;处理器,读取存储器存储的计算机可读指令,以执行本申请实施例所述的方法。
根据本申请的另一实施例,一种存储介质,其上存储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行本申请实施例所述的方法。
根据本申请的另一实施例,一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例所述的各种可选实现方式中提供的方法。
本申请实施例中,首先,获取用于训练内容分类模型的内容集及信息集,内容集包括至少一个内容,信息集包括至少一组信息对,其中,通过设置信息对中包括预设内容标签和预设内容标签对应的内容特征。然后,在训练过程中,采用内容分类模型,将内容集中每个内容分别与至少一组信息对中的预设内容标签及内容特征进行融合编码处理,得到每个内容对应的融合语义特征,这样可以训练内容分类模型通过融合内容、内容特征以及预设内容标签,生成每个内容的融合语义特征,该融合语义特征有效提升每个内容的语义特征的类别表征程度。然后,通过提升了每个内容的类别表征程度的融合语义特征,可以训练内容分类模型进行准确分类预测,并根据预测得到的预测内容标签调整模型中的参数,得到训练后的内容分类模型,可以使得训练后的内容分类模型学习到提升分类准确性的模型参数。
进而,基于训练后的内容分类模型对待分类内容进行内容分类,可以有效提升内容分类的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了可以应用本申请实施例的系统的示意图。
图2示出了可以应用本申请实施例的另一个系统的示意图。
图3示出了根据本申请的一个实施例的内容分类方法的流程图。
图4示出了根据本申请的一个实施例的融合编码方法的流程图。
图5示出了根据本申请的一个实施例的第一语义特征编码流程图。
图6示出了根据本申请的一个实施例的第一语义特征编码流程图。
图7示出了根据本申请的一个实施例的特征融合处理流程图。
图8示出了应用本申请实施例的一种场景下内容分类流程图。
图9示出了应用本申请实施例的一种场景下的终端界面图。
图10示出了根据本申请的一个实施例的内容分类装置的框图。
图11示出了根据本申请的一个实施例的电子设备的框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在以下的说明中,本申请的具体实施例将参考由一部或多部计算机所执行的步骤及符号来说明,除非另有述明。因此,这些步骤及操作将有数次提到由计算机执行,本文所指的计算机执行包括了由代表了以一结构化型式中的数据的电子信号的计算机处理单元的操作。此操作转换该数据或将其维持在该计算机的内存系统中的位置处,其可重新配置或另外以本领域技术人员所熟知的方式来改变该计算机的运作。该数据所维持的数据结构为该内存的实体位置,其具有由该数据格式所定义的特定特性。但是,本申请原理以上述文字来说明,其并不代表为一种限制,本领域技术人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。
以下对可以应用本申请实施例的系统架构参考图1和图2进行描述,可以理解,也可以在图1和图2之外的其它系统架构中应用本申请的实施例。
图1示出了可以应用本申请实施例的系统100的示意图。如图1所示,系统100可以包括服务器101及终端102。服务器101及终端102可以通过无线通信方式进行直接或间接地连接,本申请在此不做特殊限制。一个示例中,服务器101可以接收终端102上的客户端发送的待分类内容,服务器101可以对该待分类内容进行分类,并将分类得到的内容标签返回给终端102。
服务器101及终端102之间可以通过目标协议链路传输数据,目标协议链路可以包括基于运输层协议的链路,例如传输控制协议(TCP,Transmission Control Protocol)链路或者用户数据报协议(UDP,User Datagram Protocol)链路传输以及其他运输层协议。
服务器101可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。
一种实施方式中,服务器101可以提供人工智能云服务,例如提供大型多人在线角色扮演游戏(MMORPG)的人工智能云服务。所谓人工智能云服务,一般也被称作是AIaaS(AIas a Service,中文为“AI即服务”)。这是目前主流的一种人工智能平台的服务方式,具体来说AIaaS平台会把几类常见的AI服务进行拆分,并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城:所有的开发者都可以通过API接口的方式来接入使用平台提供的一种或者是多种人工智能服务,部分资深的开发者还可以使用平台提供的AI框架和AI基础设施来部署和运维自已专属的云人工智能服务。例如,服务器101可以提供基于人工智能的内容分类服务。
终端102可以是边缘设备,例如手机、电脑、VR/AR设备、计算机等等。
本示例的一种实施方式中,服务器101可以获取内容集及信息集,内容集包括至少一个内容,信息集包括至少一组信息对,信息对包括预设内容标签和预设内容标签对应的内容特征;采用内容分类模型,将内容集中每个内容分别与至少一组信息对中的预设内容标签及内容特征进行融合编码处理,得到每个内容对应的融合语义特征;基于每个内容对应的所述融合语义特征进行分类预测,得到每个内容对应的预测内容标签;根据每个内容对应的预测内容标签对所述内容分类模型中的参数进行调整,以获得训练后的内容分类模型;基于训练后的内容分类模型对待分类内容进行内容分类。
图2示出了可以应用本申请实施例的另一种系统200的示意图。如图2所示,系统200可以是由客户端201、多个节点202通过网络通信的形式连接形成的分布式系统。一个示例中,每个节点202可以接收客户端201发送待分类内容,每个节点202可以对该待分类内容进行分类,并将分类得到的内容标签返回给客户端201。
以分布式系统为区块链系统为例,参见图2,图2是本申请实施例提供的分布式系统200应用于区块链系统的一个可选的结构示意图,由多个节点202和客户端201形成,节点之间形成组成的点对点(P2P,Peer To Peer)网络,P2P协议是一个运行在传输控制协议(TCP,Transmission Control Protocol)协议之上的应用层协议。在分布式系统中,任何机器如服务器、终端都可以加入而成为节点202(每个节点202可以是如图1中的服务器101),节点包括硬件层、中间层、操作系统层和应用层。
参见图2示出的区块链系统中各节点的功能,涉及的功能包括:
1)路由,节点具有的基本功能,用于支持节点之间的通信。
节点除具有路由功能外,还可以具有以下功能:
2)应用,用于部署在区块链中,根据实际业务需求而实现特定业务,记录实现功能相关的数据形成记录数据,在记录数据中携带数字签名以表示任务数据的来源,将记录数据发送到区块链系统中的其他节点,供其他节点在验证记录数据来源以及完整性成功时,将记录数据添加到临时区块中。
例如,应用实现的业务包括:
2.1)钱包。
2.2)共享账本,用于提供账目数据的存储、查询和修改等操作的功能,将对账目数据的操作的记录数据发送到区块链系统中的其他节点,其他节点验证有效后,作为承认账目数据有效的响应,将记录数据存入临时区块中,还可以向发起操作的节点发送确认。
2.3)智能合约,计算机化的协议,可以执行某个合约的条款,通过部署在共享账本上的用于在满足一定条件时而执行的代码实现,当然,智能合约还可以执行对接收的信息进行处理的合约。
3)区块链,包括一系列按照产生的先后时间顺序相互接续的区块(Block),新区块一旦加入到区块链中就不会再被移除,区块中记录了区块链系统中节点提交的记录数据。
本示例的一种实施方式中,每个节点202可以获取内容集及信息集,内容集包括至少一个内容,信息集包括至少一组信息对,信息对包括预设内容标签和预设内容标签对应的内容特征;采用内容分类模型,将内容集中每个内容分别与至少一组信息对中的预设内容标签及内容特征进行融合编码处理,得到每个内容对应的融合语义特征;基于每个内容对应的所述融合语义特征进行分类预测,得到每个内容对应的预测内容标签;根据每个内容对应的预测内容标签对所述内容分类模型中的参数进行调整,以获得训练后的内容分类模型;基于训练后的内容分类模型对待分类内容进行内容分类。
以下对本申请提供的内容分类方法的具体实施方式,参考图3至图9进行详细内容描述。
本申请提供的内容分类方法,以解决目前内容分类时存在依赖于经验指导机器学习的分类,对于经验信息的学习效果有限,导致内容分类的准确性较低的问题。
以下针对本申请实施例中的一些技术特征进行描述。
预设内容标签为预设的可以表征内容类别的标签,预设内容标签可以是预设知识点标签或者预设小说类型标签等。
内容特征是预先收集的内容片段,内容特征例如试题内容中的关键词或公式等内容片段。
信息对即预先组合的预设内容标签及内容特征,每个信息对中包括一个预设内容标签及一个内容特征。
共现关系即信息对中的预设内容标签及内容特征共同出现的关系,对于构建的信息对,可以将信息对中的预设内容标签及内容特征可以视为具有共现关系的两个特征,两个特征中一个出现即视为共现关系成立。
共现频次即共现关系成立的频次,信息对的两个特征中,其中一个特征出现在内容集中即视为共现关系成立,本申请一种实施例中,以信息对中内容特征在内容集中出现一次,视为信息对的共现关系成立一次。
共现特征即从信息集中抽取的目标信息对,目标信息对为与内容集具有强关联的信息对。
内容分类模型是基于机器学习的分类模型,内容分类模型中可以包括预训练模型,该预训练模型是用于进行特征编码的模型,预训练模型可以是bert模型。
以下针对本申请实施例中的具体实施方式进行描述。
图3示意性示出了根据本申请的一个实施例的内容分类方法的流程图。该内容分类方法的执行主体可以是任意的设备,例如图1所示的服务器101或终端102或者如图2所示的客户端201及节点202对应的设备。
如图3所示,该内容分类方法可以包括步骤S310至步骤S350。
步骤S310,获取内容集及信息集,内容集包括至少一个内容,信息集包括至少一组信息对,信息对包括预设内容标签和预设内容标签对应的内容特征;
步骤S320,采用内容分类模型,将内容集中每个内容分别与至少一组信息对中的预设内容标签及内容特征进行融合编码处理,得到每个内容对应的融合语义特征;
步骤S330,基于每个内容对应的融合语义特征进行分类预测,得到每个内容对应的预测内容标签;
步骤S340,根据每个内容对应的预测内容标签对内容分类模型中的参数进行调整,以获得训练后的内容分类模型;
步骤S350,基于训练后的内容分类模型对待分类内容进行内容分类。
下面描述进行内容分类时,所进行的各步骤的具体过程。
在步骤S310中,获取内容集及信息集,内容集包括至少一个内容,信息集包括至少一组信息对,信息对包括预设内容标签和预设内容标签对应的内容特征。
本示例的实施方式中,内容集及信息集即用于联合训练的内容分类模型的训练数据集。内容集中的内容即待分类内容对应的内容样本,内容可以是例如试题内容、作文内容或者视频描述内容等,其中,试题内容可以由试题的题干部分、答案部分以及解析部分组成。
信息集中的每组信息对中可以包括具有对应关系的一个预设内容标签和一个内容特征,其中,预设内容标签即预设的标定内容类别的标签样本,预设内容标签可以是例如预设知识点标签或者特定类别标签等,内容特征即内容中的特征项,特征项可以是例如中文词或者公式等等。
一个示例中,信息集中至少包括信息对A及信息对B,信息对A例如“作角平分线-尺规作图”,信息对B例如“作角平分线-三角形”,其中,作角平分线为预设内容标签,尺规作图及三角形为内容特征。
在步骤S320中,采用内容分类模型,将内容集中每个内容分别与至少一组信息对中的预设内容标签及内容特征进行融合编码处理,得到每个内容对应的融合语义特征。
本示例的实施方式中,内容分类模型即基于机器学习的分类模型,内容分类模型的训练时,通过将内容集中每个内容分别与至少一组信息对中的预设内容标签及内容特征进行融合编码处理,得到每个内容对应的融合语义特征,有效提升每个内容的语义特征的类别表征程度。
一种实施例中,参阅图4,步骤S320中,将内容集中每个内容分别与至少一组信息对中的预设内容标签及内容特征进行融合编码处理,得到每个内容对应的融合语义特征,包括:
步骤S321,对内容集中每个内容分别进行特征编码处理,得到每个内容对应的第一语义特征;步骤S322,对至少一组信息对中的预设内容标签及内容特征进行特征编码处理,以获得每个内容对应的第二语义特征;步骤S323,将每个内容对应的第一语义特征及第二语义特征进行融合处理,得到每个内容对应的融合语义特征。
特征编码处理即将文本形式的每个内容或至少一组信息对中的预设内容标签及内容特征进行编码,将每个内容及至少一组信息对中的预设内容标签及内容特征分别转化为可计算处理的、可表达每个内容及至少一组信息对中的预设内容标签及内容特征的语义信息的语义特征的过程。
本实施例中,将内容与至少一组信息对中的预设内容标签及内容特征分两路进行特征编码处理,对内容集中每个内容分别进行特征编码处理,可以得到每个内容对应的第一语义特征。例如对内容A进行特征编码处理,得到内容A对应的第一语义特征为U1;对内容B进行特征编码处理,得到内容B对应的第一语义特征为V1。
对至少一组信息对中的预设内容标签及内容特征进行特征编码处理,则是针对每个内容对至少一组信息对中的信息对进行对应的特征编码处理,获得每个内容对应的第二语义特征,每个内容与至少一组信息对中信息对的对应关系不同,通常每个内容对应的第二语义特征不同。例如,针对内容A对至少一组信息对中的预设内容标签及内容特征进行对应的特征编码处理,可以得到内容A对应的第二语义特征为U2;针对内容B对中的预设内容标签及内容特征进行对应的特征编码处理,可以得到内容A对应的第二语义特征为V2。
最后,将每个内容对应的第一语义特征及第二语义特征进行融合处理,例如,内容A对应的第一语义特征为U1,内容A对应的第二语义特征为U2,则将U1和U2融合处理,得到内容A对应的融合语义特征。
一种实施例中,参阅图5,步骤S321,对内容集中每个内容分别进行特征编码处理,得到每个内容对应的第一语义特征,包括:
步骤S3211,对内容集中每个内容分别进行切词处理,得到每个内容中的词;步骤S3212,构建每个内容中词的词向量,得到每个内容的词向量集;步骤S3213,对每个内容的词向量集进行词向量互融编码处理,得到每个内容对应的第一语义特征。
对内容进行切词处理即将文本进行分词处理,将长文本切分为组成长文本的每个词,其中,词可以包括中文词、英文词以及公式等等。此外,可以在内容中增加了一些有特殊作用的标志,本示例中在内容中的第一个句子的首位增加标志[CLS],分词处理后得到标志[CLS]作为内容中的第一个词。
构建每个内容中词的词向量可以是在词向量字典中查询到每个词的表示向量以及每个词在句子中位置对应的位置向量,将每个词对应的表示向量及位置向量相加,得到每个词对应的词向量,进而得到每个内容的词向量集。例如内容A的词向量集中包括内容A中每个词对应的词向量,内容中的词可以包括中文词、英文词以及公式等。
对每个内容的词向量集进行词向量互融编码处理,即针对每个内容的词向量集,将词向量集中的词向量进行至少一个轮次的互相融合编码处理,得到每个词向量对应的融合后词向量(即每个词对应的融合后词向量),每个词向量对应的融合后词向量(即每个词对应的融合后词向量)即第一语义特征中的一个子语义特征。例如,内容A的词向量集中包括词向量a1及词向量a2,则词向量互融编码处理可以是在a1中融合a2的部分信息,将a1编码为融合后词向量a11,在a2中融合a1的部分信息,将a2编码为融合后词向量a21,最后,编码得到的内容A对应的第一语义特征可以由a11及a21组成的新的词向量集表示。
一个示例中,将词向量集中的词向量进行至少一个轮次的互相融合编码处理,可以包括:
第一步,针对词向量集中每个词向量进行自注意力计算,得到每个词向量对应的三个子向量,三个子向量可以分别表示为Query、Key以及Value,自注意力计算即将词向量与随机初始化的注意力矩阵进行点乘,得到的点乘结果即词向量对应的三个子向量。
第二步,计算每个词向量对应的注意力分数,计算方式可以是将词向量对应的Query与词向量集中每个词向量对应的Key分别进行点乘,得到每个点乘结果对应一个注意力分数。例如,词向量集中包括词向量a1及词向量a2,词向量a1对应三个子向量Query1、Key1及Value1,词向量a2对应三个子向量Query2、Key2及Value2,则Query1与Key1的点乘结果QK11,Query1与Key2的点乘结果QK12,QK11及QK12为词向量a1对应的两个注意力分数,同理,可以计算出词向量a1对应的两个注意力分数。
第三步,将每个词向量对应的注意力分数进行相关性运算,得到每个词向量对应的相关性系数。例如,词向量a1对应的两个注意力分数为QK11及QK12,相关性运算即将QK11除以预定值(可以根据需求设定,例如可以是每个词向量的维度)得到相关性系数QK11-1,将QK12除以预定值得到相关性系数QK12-1,词向量a1对应的两个相关性系数即QK11-1及QK12-1。
第四步,基于每个词向量对应的相关性系数,对词向量集中的词向量进行词向量融合,得到每个词向量对应的融合后词向量。例如,词向量a1对应的两个相关性系数即QK11-1及QK12-1,相关信息系数QK11-1对应词向量a1本身,将QK11-1乘以Value1得到O1,相关信息系数QK12-1对应词向量a2,将QK12-1乘以Value2得到O2,然后,将O1与O2相加得到融合后词向量a11,同理,可以融合得到融合后词向量a21。
执行一次第一步至第四步完成一个轮次的互相融合编码处理,循环执行多次即可完成多轮次的互相融合编码处理,进而完成对每个内容的词向量集进行词向量互融编码处理。需要说明的是,在进行第二轮次的互相融合编码处理时,以第一轮次的处理结果作为第二轮次的初始处理数据,例如将第一轮次的a11及a21作为初始处理数据,进行第二轮次的互相融合编码处理,得到第二轮次的a11及a21。
一种实施例中,内容分类模型中包括预训练模型,预训练模型中包括特征构建层以及互融编码层。步骤S3212,构建每个内容中词的词向量,得到每个内容的词向量集的步骤,包括:
将每个内容中的词输入特征构建层,以在特征构建层构建每个内容中的词的词向量,得到每个内容的词向量集;对每个内容的词向量集进行词向量互融编码处理,得到每个内容对应的第一语义特征的步骤,包括:将每个内容的词向量集分别输入互融编码层,以在互融编码层对每个内容的词向量集进行词向量互融编码处理,得到每个内容对应的第一语义特征。
预训练模型可以是BERT模型,特征构建层可以包括输入层及特征映射层,互融编码层可以是包括至少一层Transformer层(例如图5所示的互融编码层包括6层Transformer层,可以理解,根据需求可以对Transformer层的层数进行对应设置)。
将内容集中每个内容分别输入预训练模型,可以基于预训练模型中的切词工具对输入的内容进行切词处理,得到输入的内容中的词。
将输入的内容中的词输入特征构建层,在特征构建层中的输入层,可以通过查询标识词典确定出每个词的标识(即ID,例如图5所示的标识[CLS]及tocken等),然后将每个词的标识输入特征映射层,在特征映射层可以从词向量字典中对每个标识进行查询得到对应的词向量(例如图5所示的词向量E[CLS],E1,E2…En等)。
最后,将输入的内容的词向量集输入互融编码层,在互融编码层对每个内容的词向量集进行词向量互融编码处理,即针对每个内容的词向量集,将词向量集中的词向量进行至少一个轮次的互相融合编码处理(其中,每一层Transformer层中可以进行一个轮次的互相融合编码处理),得到每个词向量对应的融合后词向量(即每个词对应的融合后词向量),每个词向量对应的融合后词向量(即每个词对应的融合后词向量)即第一语义特征中的一个子语义特征(例如图5所示的子语义特征h[CLS],h1,h2…,hn等,可以将第一语义特征整体记为H={h[CLS],h1,h2…,hn})。
一种实施例中,内容分类模型中包括预训练模型,预训练模型中包括公式符号字典及词典,公式符号字典中公式符号的格式为目标格式;步骤S3211,对内容集中每个内容分别进行切词处理,得到每个内容中的词,包括:
对每个内容进行文本清洗处理,以将每个内容中的所有公式符号转化为目标格式的符号,得到每个内容对应的清洗后内容;将每个内容对应的清洗后内容输入预训练模型中,以遍历每个清洗后内容中的字符,并根据公式符号字典及词典对遍历的字符进行匹配切分,得到每个内容中的公式及词单元;将每个内容中切分到的所有公式及所述词单元,作为每个内容中的词。
公式符号字典为设置的保存公式符号的字典,该公式符号字典中公式符号的格式为目标格式,该目标格式例如latex排版格式。词典为预设的保存词单元(词单元中字的数目可以是至少一个,子单元可以是中文或者)的词典。
对内容进行文本清洗处理,可以将内容中的所有公式符号转化为目标格式的符号,例如,将内容中的所有公式中非latex排版格式的符号转化为latex排版格式的符号,进而得到清洗后文本。
然后,遍历清洗后内容中的字符,当遇到中文字符时,则可以判断该字符是否在词典中,如果在则切分该遍历的字符得到一个词,如果不在则可以用未知字符的标志[UNK]替代;当遇到英文字符时,则运用正向最大匹配算法和公式符号字典进行切割,可以切分到英文词及公式,最终获得切好的词。
其中,运用正向最大匹配算法和公式符号字典进行切割,即对于遍历到的英文字符时,继续按照文本的正向顺序进行正向持续遍历,每遍历一次都在公式符号字典中进行匹配,直到遍历到中文字符或者公式符号字典中没有匹配的字符时,结束本次正向持续遍历,将第一个英文字符至结束之前的英文字符之间的所有字符切分为一个词。
一个示例中,可以修改BERT模型中的vocab.txt文件,在vocab.txt文件中增加公式符号字典,对vocab.txt文件中本身设置的词典进行补充,结合词典及公式符号字典有效保证切分的每个词的语义完整性。特别对于试题内容中的公式使用latex格式表示的,BERT模型自带的切词工具Tokenizer会自动将latex格式的字符做切分,这样就不能保证完整的公式语义了,以这种方式可以重写BERT模型的切词工具Tokenizer,结合词典及公式符号字典有效保证BERT模型中切分的每个词的语义完整性。
一种实施例中,参阅图6,步骤S322,对至少一组信息对中的预设内容标签及内容特征进行特征编码处理,以获得每个内容对应的第二语义特征,包括:
步骤S3221,对每组信息对中的预设内容标签及内容特征进行共现分析,以获得每组信息对在内容集中的共现频次;步骤S3222,从信息集中抽取共现频次符合目标条件的目标信息对,以将抽取的目标信息对作为内容集对应的共现特征;步骤S3223,对共现特征进行特征编码处理,以获得每个内容对应的第二语义特征。
对每组信息对中的预设内容标签及内容特征进行共现分析,即将每组信息对中的预设内容标签及内容特征视为具有共现关系的两个特征(即两个特征共同出现的关系),基于内容集对该共现关系进行的成立频次分析,获得每组信息对在内容集中的共现频次(即共现关系的成立频次)。
基于内容集对共现关系进行的成立频次分析,具体可以在某个信息对中内容特征在内容集中出现一次,则视为该某个信息对中预设内容标签及内容特征的共现关系成立一次,通过统计每组信息对中内容特征在内容集中出现的频次,即可以获得每组信息对在内容集中的共现频次。
目标条件即筛选与内容集具有强关联的信息对的条件,目标条件可以是共现频次高于预定频次或者共现频次最高的预定数量个信息对。抽取共现频次符合目标条件的目标信息对,可以进一步从信息集中筛选出与内容集具有强关联的目标信息对,目标信息对作为内容集对应的共现特征。
最后对共现特征进行特征编码处理,获得每个内容对应的第二语义特征,进行后续融合编码,可以进一步提升融合语义特征的语义类别表征程度。
一种实施例中,步骤S3221,对每组信息对中的预设内容标签及内容特征进行共现分析,以获得每组信息对在内容集中的共现频次,包括:
将内容集中所有内容进行分词处理,得到内容集中的词;遍历内容集中的词,以确定每组信息对中的内容特征相匹配的词出现的频次,作为每组信息对在内容集中的共现频次。
分别对每个内容进行分词处理,得到每个内容中的词,进而得到内容集中的词,例如对每个试题内容进行分词,得到每个试题内容中的词。其中,一个示例中,可以针对每个内容截取特定关键词所标记的关键部分内容,然后针对关键部分内容进行分词,得到每个内容中的词,例如,对试题内容,可以从试题内容的解析部分截取“此题考查”或“本题考查了”或“点睛”或“本题考查的是”或“此题主要考察了”等特定关键词后面的关键部分内容,然后进行分词。
然后,遍历内容集中的词,将每个遍历到的词与每组信息对中的内容特征进行比较,当内容特征与遍历到的词的相似度高于预定阈值,则确定两者相匹配,进而,遍历完内容集中所有词,可以统计到每组信息对中的内容特征相匹配的词出现的频次,得到每组信息对所对应的共现频次。例如,信息对A为“作角平分线-尺规作图”,若内容集中的词中尺规作图匹配的词(也即尺规作图)出现50次,则信息对A所对应的共现频次为50次。
一种实施例中,步骤S3222,从信息集中抽取共现频次符合目标条件的目标信息对,以将抽取的目标信息对作为内容集对应的共现特征,包括:
从信息集中,抽取共现频次高于预定频次的目标信息对;将所有抽取到的目标信息对作为内容集对应的共现特征。
共现频次高于预定频次的目标信息对,即共现关系成立次数高的目标信息对,例如,信息集中信息对A为“作角平分线-尺规作图”,信息对A所对应的共现频次为50次,信息对B为“作角平分线-三角形”,则信息对B所对应的共现频次为120次,预定频次为80次时,则抽取的目标信息对为信息对B“作角平分线-三角形”(即符合目标条件的目标信息对)。
一种实施例中,步骤S3223,对共现特征进行特征编码处理,以获得每个内容对应的第二语义特征,包括:
将共现特征中的目标信息对进行排序,得到共现特征中目标信息对的排列顺序;从共现特征中确定每个内容对应的目标信息对;根据共现特征中目标信息对的排列顺序,对每个内容对应的目标信息对进行独热编码处理,以生成每个内容对应的第二语义特征。
共现特征中的目标信息对即共现信息符合目标条件的目标信息对,共现特征中的目标信息对可以包括例如目标信息对G1、G2、...、G10,将共现特征中的目标信息对进行排序可以是随机排列,排列顺序例如G1、G2、...、G10或者G10、G9、...、G1等。
从共现特征中确定每个内容对应的目标信息对,可以对每个内容进行分词处理,得到每个内容中的词,然后,对每个内容中的词与共现特征中的目标信息对中的内容特征进行匹配,进而可以得到每个内容中的词所匹配的目标信息对。例如,内容A中的词匹配的目标信息对例如G1、G2,即内容A对应的目标信息对为G1、G2;内容B中的词匹配的目标信息对例如G5、G7,即内容B对应的目标信息对为G5、G7。
独热编码处理即一位有效编码(one-hot编码),基于共现特征包括的目标信息对的排列顺序,对每个内容对应的目标信息对可以分别进行独热编码处理,生成每个内容对应的第二语义特征。
独热编码处理的实施方式可以如下述实施例所述。
一种实施例中,根据所述共现特征中目标信息对的排列顺序,对每个内容对应的目标信息对进行独热编码处理,以生成每个内容对应的第二语义特征的步骤,包括:
生成每个内容对应的特征矩阵模板,特征矩阵模板中一列对应共现特征中的一组目标信息对,各列的列序与排列顺序一致,一行对应每个内容对应的一组目标信息对;确定特征矩阵模板中的目标元素,目标元素为相同目标信息对所对应的行与列交叉位置处的元素;将每个内容对应的特征矩阵模板中,目标元素的值设为第一元素值,目标元素以外的其它元素的值设为第二元素值,得到每个内容对应的编码特征矩阵;基于每个内容对应的编码特征矩阵生成每个内容对应的第二语义特征。
例如,共现特征中的目标信息对(G1、G2、...、G10)进行排序,得到排列顺序为G1、G2、...、G10,内容B对应的目标信息对为G5、G7。
生成内容B对应的特征矩阵模板可以如下表中的2*10的空白矩阵所示,特征矩阵模板中一列对应共现特征中的一组目标信息对(例如第1列对应G1),各列的列序与排列顺序一致(第1列至第10列依次按照G1、G2、...、G10的顺序排列),一行对应每个内容对应的一组目标信息对(例如第1行对应G5)。
G1 | G2 | G3 | G4 | G5 | G6 | G7 | G8 | G9 | G10 | |
G5 | ||||||||||
G7 |
然后,确定特征矩阵模板中的目标元素,目标元素为相同目标信息对所对应的行与列交叉位置处的元素,例如,下表中G5对应的行与列交叉位置处的元素*5*,以及G7对应的行与列交叉位置处的元素*7*。
G1 | G2 | G3 | G4 | G5 | G6 | G7 | G8 | G9 | G10 | |
G5 | *5* | |||||||||
G7 | *7* |
然后,将每个内容对应的特征矩阵模板中,目标元素的值设为第一元素值,目标元素以外的其它元素的值设为第二元素值,得到每个内容对应的编码特征矩阵,例如对于内容B,在内容B对应的特征矩阵模板中,目标元素的值设为第一元素值1,目标元素以外的其它元素的值设为第二元素值0,得到如下表所示的内容B对应的编码特征矩阵,该编码特征矩阵中每一行为内容对应的目标信息对的独热编码,例如G5的独热编码为0000100000。
G1 | G2 | G3 | G4 | G5 | G6 | G7 | G8 | G9 | G10 | |
G5 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 0 |
G7 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 0 | 0 | 0 |
最后,基于每个内容对应的编码特征矩阵生成每个内容对应的第二语义特征,获取每个内容对应的目标信息对的独热编码,然后串联得到每个内容对应的第二语义特征(可以根据需求设定该第二语义特征的维度,例如可以是900维)。例如基于内容B对应的编码特征矩阵,获取内容B对应的每个目标信息对的G5和G7的独热编码然后串联得到内容B对应的第一语义特征“00001000000000001000”。
进一步的,还可以将编码特征矩阵进行线性压缩处理,得到更低维度的第二语义特征(例如256维),例如,可以将编码特征矩阵经过一个隐藏层为256维的线性层得到更低维度的第二语义特征。
一种实施例中,参阅图7,步骤S323,将每个内容对应的第一语义特征及第二语义特征进行融合处理,得到每个内容对应的融合语义特征,包括:
步骤S3231,针对每个内容,分别基于每个内容对应的第二语义特征对第一语义特征中的子语义特征进行注意力打分,得到每个内容对应的第一语义特征中子语义特征的注意力分数;步骤S3232,基于每个内容对应的第一语义特征中子语义特征的注意力分数,生成每个内容对应的注意力权重;步骤S3233,对每个内容对应的第一语义特征及注意力权重进行点乘处理,以生成每个内容对应的融合语义特征。
针对每个内容,可以基于注意力打分函数,分别利用每个内容对应的第二语义特征对第一语义特征中的子语义特征进行注意力打分。
例如某个内容对应的第二语义特征为va,内容对应的第一语义特征中的子语义特征包括h[CLS],h1,h2…,hn;可以基于注意力打分函数利用Va对h[CLS],h1,h2…,hn进行打分,得到h[CLS],h1,h2…,hn中每个子语义特征对应的注意力分数。其中,注意力打分函数可以是基于加性模型的打分函数,基于加性模型的打分函数如下所示:
/>
其中,M∈R(d+da)*(N+1)为注意力分数集合,(d+da)*(N+1)为M对应的向量空间的维度大小;Wh∈Rd*d及Wv∈Rda*da为内容分类模型中的模型参数,d*d为Wh对应的向量空间的维度大小,da*da为Wv对应的向量空间的维度大小。
H为第一语义特征,即N+1个子语义特征h[CLS],h1,h2…,hn的集合;va即第二语义特征;即为N+1个子语义特征中每个子语义特征在计算时分配一个va。
基于每个内容对应的第一语义特征中子语义特征的注意力分数,生成每个内容对应的注意力权重,可以基于权重生成函数对每个内容对应的注意力分数进行运算处理,生成注意力权重。
权重生成函数例如α=softmax(ωTM),其中,ωT∈R(d+da)为内容分类模型中的模型参数,基于权重生成函数可以对注意力分数集合进行运算处理生成注意力权重α∈RN+1,d为α为维度大小。
最后,对每个内容对应的第一语义特征及注意力权重进行点乘处理,得到点乘结果r∈Rd,即r=HαT,其中αT为注意力权重α的转置,进而可以直接将点乘结果作为内容的融合语义特征,也可以按照下述实施例进一步进行融合处理,生成内容对应的融合语义特征。
一种实施例中,对每个内容对应的第一语义特征及注意力权重进行点乘处理,以生成每个内容对应的融合语义特征的步骤,包括:
对每个内容对应的第一语义特征及注意力权重进行点乘处理,得到每个内容对应的初始融合特征;从每个内容对应的第一语义特征中获取目标子语义特征;对每个内容对应的初始融合特征及目标子语义特征进行求和,得到每个内容对应的语义特征和;对每个内容对应的语义特征和进行双曲正切运算处理,得到每个内容对应的融合语义特征。
该实施例中,对某个内容对应的第一语义特征及注意力权重进行点乘处理,得到点乘结果r即初始融合特征,即r=HαT,其中αT为注意力权重α的转置。
然后,可以从该某个内容对应的第一语义特征中获取目标子语义特征,本示例中,该目标子语义特征为标志[CLS]对应的子语义特征h[CLS],在其它实施例中,可以选择其它子语义特征。
然后,将该某个内容对应的目标子语义特征h[CLS]及初始融合特征r进行求和,可以按照公式:Wpr+Wxh[CLS],对目标子语义特征h[CLS]及初始融合特征r进行求和,得到语义特征和(Wpr+Wxh[CLS]),其中,Wp及Wx为内容分类模型中的模型参数。
最后,可以按照双曲正切公式h*=tanh(Wpr+Wxh[CLS])对该某个内容对应的语义特征和进行双曲正切运算处理,得到该某个内容对应的融合语义特征h*,该融合语义特征中包括语义特征和中每个向量元素对应的双曲正切函数值。
在步骤S330中,基于每个内容对应的融合语义特征进行分类预测,得到每个内容对应的预测内容标签。
本示例的实施方式中,基于每个内容对应的融合语义特征,对内容分类模型中的参数进行调整,即采用内容分类模型根据每个内容对应的融合语义特征预测输出每个内容对应的预测内容标签及预测内容标签的置信度。一个示例中,可以将每个内容对应的融合语义特征输入内容分类模型中的全连接层以及分类器(例如sigmoid分类器),获得每个内容对应的预测内容标签及预测内容标签的置信度。
在步骤S340中,根据每个内容对应的预测内容标签对内容分类模型中的参数进行调整,以获得训练后的内容分类模型。
本示例的实施方式中,比较预测的预测内容标签与每个内容本身标定的内容标签得到预测误差,以及,如果预测误差大于预定误差阈值,则调整内容分类模型中的模型参数,直到内容分类模型的内容标签预测准确性高于预定准确性阈值,得到训练后的内容分类模型。
一个示例中,调整内容分类模型中的模型参数时,可以根据预设损失函数对预测输出的内容分类标签的置信度计算损失率,预设损失函数例如sigmoid entry loss,在得到损失率之后,可以计算梯度以对内容分类模型的模型参数进行优化调整,具体可以通过求偏导的方式根据损失率计算梯度。
计算梯度以对内容分类模型的模型参数进行优化调整时,可以判断梯度是否满足预设迭代条件,若是,则结束完成模型的训练,若否,则采用梯度与预设的学习率(例如0.000125)对内容分类模型的模型参数进行梯度下降。
如果计算得到的梯度未满足预设的迭代条件,如连续多个梯度之间的差异大于或等于预设的差异阈值,或者未到达迭代次数,则更新内容分类模型的模型参数,采用更新后的模型参数和预设的学习率进入下一轮迭代,反之,如果梯度满足预设的迭代条件,如连续多个梯度之间的差异小于或等于预设的差异阂值,或者到达迭代次数,则结束训练,完成模型参数的调整。
其中,在训练过程中可以采用SGD(stochastic gradient descent,随机梯度下降)、Adadelta和Adam(Adaptive Moment Estimation,自适应矩估计)等方法进行提梯度下降。可以采用以下损失函数计算损失率:MLE(Maximum Likelihood Estimation,极大似然估计方法),MRT(Minimum Risk Training,最少风险训练)和SST(Semi-supervisedTraining,半监督式训练),本发明实施例对提到下降方法和使用的损失函数不加以限制。其中,本示例中使用Adam(Adaptive Moment Estimation,自适应矩估计)进行提梯度下降,在预设损失函数sigmoid entry loss计算损失率,每次送入模型中训练数据量为32,学习率设置为0.000125。
在步骤S350中,基于训练后的内容分类模型对待分类内容进行内容分类。
待分类内容为需要进行分类的内容,采用训练后的内容分类模型,可以根据前述训练过程的实施步骤,对该待分类内容进行分类,得到该待分类内容的内容标签。
采用训练后的内容分类模型,可以将待分类内容与至少一组信息对中的预设内容标签及内容特征进行融合编码处理,得到待分类内容对应的融合语义特征,然后,基于待分类内容对应的融合语义特征进行分类预测,即可以得到待分类内容对应的内容标签。
其中,具体分类过程与前述实施例中内容分类模型训练时的处理步骤一致,将待分类内容视为内容集中的一个内容,采用训练后的内容分类模型,可以根据前述训练过程的实施步骤,对该待分类内容进行分类,得到该待分类内容的内容标签。
例如,将待分类内容与至少一组信息对中的预设内容标签及内容特征进行融合编码处理,得到待分类内容对应的融合语义特征,可以包括:对待分类内容进行特征编码处理,得到待分类内容对应的第一语义特征;对至少一组信息对中的预设内容标签及内容特征进行特征编码处理,以获得待分类内容对应的第二语义特征;将待分类内容对应的第一语义特征及第二语义特征进行融合处理,得到待分类内容对应的融合语义特征。
对至少一组信息对中的预设内容标签及内容特征进行特征编码处理,以获得待分类内容对应的第二语义特征,可以包括:对每组信息对中的预设内容标签及内容特征进行共现分析,以获得每组信息对在内容集中的共现频次;从信息集中抽取共现频次符合目标条件的目标信息对,以将抽取的目标信息对作为内容集对应的共现特征;对共现特征进行特征编码处理,以获得待分类内容对应的第二语义特征。需要说明的是,共现特征的抽取可以是在内容分类模型训练阶段抽取到的,对待分类内容进行分类时,直接对共现特征进行特征编码处理即可。
对共现特征进行特征编码处理,以获得待分类内容对应的第二语义特征,可以包括:将共现特征中的目标信息对进行排序,得到共现特征包括的目标信息对的排列顺序;从共现特征中确定待分类内容对应的目标信息对;根据共现特征包括的目标信息对的排列顺序,对待分类内容对应的目标信息对进行独热编码处理,以生成待分类内容对应的第二语义特征。
一种实施例中,内容包括试题内容,预设内容标签包括预设知识点标签,待分类内容包括待分类试题内容,内容标签包括知识点标签。
该实施例中,训练后的内容分类模型即用于标定试题内容的知识点标签的模型。通过获取待分类试题内容,采用训练后的内容分类模型,将待分类试题内容与至少一组信息对中的预设知识点标签及内容特征进行融合编码处理,得到待分类试题内容对应的融合语义特征,进而基于待分类试题内容对应的融合语义特征进行分类预测,可以得到待分类试题内容对应的知识点标签。
以这种方式,基于步骤S310至步骤S350,首先,获取用于训练内容分类模型的内容集及信息集,内容集包括至少一个内容,信息集包括至少一组信息对,其中,通过设置信息对中包括预设内容标签和预设内容标签对应的内容特征。然后,在训练过程中,采用内容分类模型,将内容集中每个内容分别与至少一组信息对中的预设内容标签及内容特征进行融合编码处理,得到每个内容对应的融合语义特征,这样可以训练内容分类模型通过融合内容、内容特征以及预设内容标签,生成每个内容的融合语义特征,该融合语义特征有效提升每个内容的语义特征的类别表征程度。然后,通过提升了每个内容的类别表征程度的融合语义特征,可以训练内容分类模型进行准确分类预测,并根据预测得到的预测内容标签调整模型中的参数,得到训练后的内容分类模型,可以使得训练后的内容分类模型学习到提升分类准确性的模型参数。进而,基于训练后的内容分类模型对待分类内容进行内容分类,可以有效提升内容分类的准确性。
根据上述实施例所描述的方法,以下将举例作进一步详细说明。
图8示出了应用本申请的实施例的一种场景下内容分类的流程图。该场景下以内容集为试题内容集,内容为试题内容,预设内容标签为预设知识点标签,待分类内容为待分类试题内容进行说明。
该场景下,应用本申请的实施例的一种场景下内容分类的流程包括步骤S410至步骤S430。
在步骤S410中,构建共现特征:
(1)获取试题内容集及信息集,内容集包括至少一个试题内容,信息集包括至少一组信息对,信息对包括预设知识点标签和预设知识点标签对应的内容特征。
一个示例中,信息集中至少包括信息对A及信息对B,信息对A例如“作角平分线-尺规作图”,信息对B例如“作角平分线-三角形”,其中,作角平分线为预设知识点标签,尺规作图及三角形为内容特征。
(2)对每组信息对中的预设知识点标签及内容特征进行共现分析,以获得每组信息对在试题内容集中的共现频次。
具体地,将试题内容集中所有试题内容进行分词处理,得到内容集中的词;遍历试题内容集中的词,以确定每组信息对中的内容特征相匹配的词出现的频次,得到每组信息对所对应的共现频次。
例如,共现分析预备工作(步骤a):
a)对于信息集中的每个信息对,可以初始化一个键(key)为预设知识点标签及内容特征组成的信息对,键对应的值为信息对出现频次的计数器(COUNTER)。
共现分析(步骤b-d):
b)对于内容集中的试题内容,首先,取出其中的一道试题内容,从试题内容的解析部分截取特定关键词所标记的关键部分内容,例如截取“此题考查”或“本题考查了”或“点睛”或“本题考查的是”或“此题主要考察了”等特定关键词后面的文本(text)。
c)用现有的分词工具对截取的文本(text)做分词处理,得到文本中的词,进而完成对取出的该道试题内容的分词处理,得到该道试题内容中的词。
d)遍历取出的该道试题内容中的每个词w,如果信息集中存在“知识点标签-w”,说明信息对“知识点标签-w”中内容特征w与遍历到的词w相匹配,每遍历到一个词w,则计数器中信息对“知识点标签-w”对应的值增加1,否则计数器中信息对“知识点标签-w”为1,进而确定信息对“知识点标签-w”中的内容特征w相匹配的词w出现的频次。
重复b)-d)直到整个试题内容集中的试题内容都执行一次,完成遍历试题内容集中的词,确定了每组信息对中的内容特征相匹配的词出现的频次,作为每组信息对所对应的共现频次。
(3)从信息集中抽取共现频次符合目标条件的目标信息对,以作为试题内容集对应的共现特征。
具体地,从信息集中,抽取共现频次高于预定频次的目标信息对;将所有抽取到的目标信息对作为试题内容集对应的共现特征。
例如,将信息对“知识点标签-w”对应频次大于预定频次m的所有信息对取出来构成共现特征(KEY-VOCAB)。
在步骤S420中,采用内容分类模型,将试题内容集中每个内容分别与共现特征进行融合编码处理,得到每个试题内容对应的融合语义特征,即对试题内容集中每个试题内容分别进行特征编码处理,得到每个试题内容对应的第一语义特征,对共现特征进行特征编码处理,以获得每个试题内容对应的第二语义特征;将每个试题内容对应的第一语义特征及第二语义特征进行融合处理,得到每个试题内容对应的融合语义特征。
其中,对试题内容集中每个试题内容分别进行特征编码处理,得到每个试题内容对应的第一语义特征,具体包括:
步骤S421,将试题内容集中每个试题内容(包括试题内容的题干部分、答案部分以及解析部分的三部分内容的组合)分别输入内容分类模型中的预训练模型,可以基于预训练模型中的切词工具对输入的试题内容进行切词处理,得到输入的试题内容中的词,将输入的试题内容中的词输入特征构建层,在特征构建层中的输入层,可以通过查询标识词典确定出每个词的标识(即ID,例如图5所示的标识[CLS]及tocken等)。
其中,该场景下,对预训练模型中的切词工具进行调整,修改BERT模型中切词工具对应的vocab.txt文件,在vocab.txt文件中增加公式符号字典,对vocab.txt文件中本身设置的词典进行补充,结合词典及公式符号字典有效保证切分的每个词的语义完整性。特别对于试题内容中的公式使用latex格式表示的,BERT模型自带的切词工具Tokenizer会自动将latex格式的字符做切分,这样就不能保证完整的公式语义了,以这种方式可以重写BERT模型的切词工具Tokenizer,结合词典及公式符号字典有效保证BERT模型中切分的每个词的语义完整性。
进而,预训练模型中包括公式符号字典及词典,公式符号字典中公式符号的格式为目标格式;基于预训练模型中的切词工具对输入的试题内容进行切词处理时,可以对每个试题内容进行文本清洗处理,以将每个试题内容中的所有公式符号转化为目标格式的符号,得到每个试题内容对应的清洗后试题内容;将每个试题内容对应的清洗后试题内容输入预训练模型中,以遍历每个清洗后试题内容中的字符,并根据公式符号字典及词典对遍历的字符进行匹配切分,得到每个试题内容中的公式及词单元;将每个试题内容中切分到的所有公式及词单元,作为每个试题内容中的词。
步骤S422,将每个词的标识输入特征映射层,在特征映射层可以从词向量字典中对每个标识进行查询得到对应的词向量(例如图5所示的词向量E[CLS],E1,E2…En等),得到输入的试题内容的词向量集。
步骤S423,将输入的试题内容的词向量集输入互融编码层(该场景下互融编码层包括6层Transformer层),在互融编码层对输入的试题内容的词向量集进行词向量互融编码处理,即针对输入的试题内容的词向量集,将词向量集中的词向量进行6个轮次的互相融合编码处理(其中,每一层Transformer层中可以进行一个轮次的互相融合编码处理),得到每个词向量对应的融合后词向量(即每个词对应的融合后词向量),每个词向量对应的融合后词向量(即每个词对应的融合后词向量)即第一语义特征中的一个子语义特征(例如图5所示的子语义特征h[CLS],h1,h2…,hn等,可以将第一语义特征整体记为H={h[CLS],h1,h2…,hn})。
其中,对共现特征进行特征编码处理,以获得每个试题内容对应的第二语义特征,具体包括:
步骤S424,将共现特征中的目标信息对进行排序,得到共现特征包括的目标信息对的排列顺序;从共现特征中确定每个试题内容(包括试题内容的题干部分、答案部分以及解析部分的三部分内容的组合)对应的目标信息对;根据所述共现特征中目标信息对的排列顺序,对每个内容对应的目标信息对进行独热编码处理(即一位有效编码(one-hot编码)),以生成每个内容对应的第二语义特征va。
生成每个试题内容对应的特征矩阵模板,特征矩阵模板中一列对应共现特征中的一组目标信息对,各列的列序与排列顺序一致,一行对应每个内容对应的一组目标信息对;确定特征矩阵模板中的目标元素,目标元素为相同目标信息对所对应的行与列交叉位置处的元素;将每个试题内容对应的特征矩阵模板中,目标元素的值设为第一元素值,目标元素以外的其它元素的值设为第二元素值,得到每个试题内容对应的编码特征矩阵;基于每个试题内容对应的编码特征矩阵生成每个试题内容对应的第二语义特征va。
其中,将每个试题内容对应的第一语义特征及第二语义特征进行融合处理,得到每个试题内容对应的融合语义特征,具体包括:
步骤S425,针对每个试题内容,分别基于每个试题内容对应的第二语义特征对第一语义特征中的子语义特征进行注意力打分,得到每个试题内容对应的第一语义特征中子语义特征的注意力分数。
试题内容对应的第二语义特征为va,试题内容对应的第一语义特征中的子语义特征包括h[CLS],h1,h2…,hn;可以基于注意力打分函数利用Va对h[CLS],h1,h2…,hn进行打分,得到h[CLS],h1,h2…,hn中每个子语义特征对应的注意力分数。其中,注意力打分函数可以是基于加性模型的打分函数,基于加性模型的打分函数如下所示:
其中,M∈R(d+da)*(N+1)为注意力分数集合,(d+da)*(N+1)为M对应的向量空间的维度大小;Wh∈Rd*d及Wv∈Rda*da为内容分类模型中的模型参数,d*d为Wh对应的向量空间的维度大小,da*da为Wv对应的向量空间的维度大小。H为第一语义特征,即N+1个子语义特征h[CLS],h1,h2…,hn的集合;va即第二语义特征;即为N+1个子语义特征中每个子语义特征在计算时分配一个va。
步骤S426,基于每个试题内容对应的第一语义特征中子语义特征的注意力分数,生成每个试题内容对应的注意力权重。
基于权重生成函数对每个试题内容对应的注意力分数进行运算处理,生成注意力权重,例如,权重生成函数为α=softmax(ωTM),其中,ωT∈R(d+da)为内容分类模型中的模型参数,基于权重生成函数可以对注意力分数集合进行运算处理生成注意力权重α∈RN+1,d为α为维度大小。
步骤S427,对每个试题内容对应的第一语义特征及注意力权重进行点乘处理,以生成每个试题内容对应的融合语义特征。
具体地,对每个试题内容对应的第一语义特征及注意力权重进行点乘处理,得到每个试题内容对应的初始融合特征;从每个试题内容对应的第一语义特征中获取目标子语义特征;对每个试题内容对应的初始融合特征及目标子语义特征进行求和,得到每个试题内容对应的语义特征和;对每个试题内容对应的语义特征和进行双曲正切运算处理,得到每个试题内容对应的融合语义特征。
该场景下,目标子语义特征为标志[CLS]对应的子语义特征h[CLS],目标子语义特征h[CLS]及初始融合特征r进行求和,可以按照公式:Wpr+Wxh[CLS],对目标子语义特征h[CLS]及初始融合特征r进行求和,得到语义特征和Wpr+Wxh[CLS],其中,Wp及Wx为内容分类模型中的模型参数。
最后,可以按照双曲正切公式h*=tanh(Wpr+Wxh[CLS])对该试题内容对应的语义特征和进行双曲正切运算处理,得到试题内容对应的融合语义特征h*,该融合语义特征h*中包括语义特征和Wpr+Wxh[CLS]中每个向量元素对应的双曲正切函数值。
在步骤S430中,基于每个试题内容对应的融合语义特征,对内容分类模型中的参数进行调整,以获得训练后的内容分类模型预测待分类试题内容的知识点标签。
具体地,将每个试题内容对应的融合语义特征输入内容分类模型中的全连接层以及分类器(例如sigmoid分类器),获得预测的每个试题内容对应的知识点标签及知识点标签的置信度。
然后,比较预测的知识点标签与试题内容本身标定的知识点标签得到预测误差,以及,如果预测误差大于预定误差阈值,则调整内容分类模型中的模型参数,直到内容分类模型的知识点标签预测准确性高于预定准确性阈值,得到训练后的内容分类模型。
调整内容分类模型中的模型参数时,可以根据预设损失函数sigmoid entry loss对预测输出的知识点标签的置信度计算损失率,在得到损失率之后,可以计算梯度以对内容分类模型的模型参数进行优化调整,具体可以通过Adam(Adaptive Moment Estimation,自适应矩估计)算法根据损失率计算梯度。
计算梯度以对内容分类模型的模型参数进行优化调整时,可以判断梯度是否满足预设迭代条件,若是,则结束完成模型的训练,若否,则采用梯度与预设的学习率(例如0.000125)对内容分类模型的模型参数进行梯度下降。
如果计算得到的梯度未满足预设的迭代条件,如连续多个梯度之间的差异大于或等于预设的差异阈值,或者未到达迭代次数,则更新内容分类模型的模型参数,采用更新后的模型参数和预设的学习率进入下一轮迭代,反之,如果梯度满足预设的迭代条件,如连续多个梯度之间的差异小于或等于预设的差异阂值,或者到达迭代次数,则结束训练,完成模型参数的调整。
最后,训练后的内容分类模型可以自动为待分类试题内容分类,标注待分类试题内容的知识点标签及知识点标签的置信度。
参阅图9所示终端界面,该终端界面为对待分类试题内容进行分类的提交界面图,如图9所示,用户可以根据需求对试题内容的学科在“请选择学科”图框进行选择或填写,本示例中选定一个学科为“初中数学”的待分类试题内容,该待分类试题内容题干部分、答案部分以及解析部分的三部分内容,分别在对应的显示框内显示。通过“请选择方法”图框中选择或填写“co-bert”即可以选定基于训练后的内容分类模型进行分类的方法。
最后,通过触发提交按钮,即可采用训练后的内容分类模型,可以将待分类试题内容与至少一组信息对中的预设知识点标签及内容特征进行融合编码处理,得到待分类试题内容对应的融合语义特征,然后,基于待分类试题内容对应的融合语义特征进行分类预测,即可以得到待分类试题内容对应的知识点标签。
以这种方式,该场景下,获取用于训练内容分类模型的内容集及信息集,内容集包括至少一个试题内容,信息集包括至少一组信息对,其中,通过设置信息对中包括预设知识点标签和预设知识点标签对应的内容特征。然后,在训练过程中,采用内容分类模型,将内容集中每个试题内容分别与至少一组信息对中的预设知识点标签及内容特征进行融合编码处理,得到每个试题内容对应的融合语义特征,这样可以训练内容分类模型通过融合内容、内容特征以及预设知识点标签,生成每个试题内容的融合语义特征,该融合语义特征有效提升每个试题内容的语义特征的类别表征程度。然后,通过提升了每个试题内容的类别表征程度的融合语义特征,可以训练内容分类模型进行准确分类预测,并根据预测得到的预测内容标签调整模型中的参数,得到训练后的内容分类模型,可以使得训练后的内容分类模型学习到提升分类准确性的模型参数。进而,基于训练后的内容分类模型对待分类试题内容进行内容分类,可以有效提升试题内容分类的准确性,提升试题内容的知识点标注准确性。
进一步的,通过利用试题内容中解析部分的知识点标签和词的共现关系,自动构建了一个共现特征,从而减少了教研工作量。内容分类模型中包括BERT模型,进而提出了融合共现特征的CO-BERT试题知识点自动标注模型,通过注意力机制进行试题内容以及共现特征的融合编码处理,一方面在BERT模型中增加了词共现特征,另外一方面减少了因为BERT模型只能支持句子长度500而导致重要信息被截取的问题,从而提升了内容分类模型的精度。
为便于更好的实施本申请实施例提供的内容分类方法,本申请实施例还提供一种基于上述内容分类方法的内容分类装置。其中名词的含义与上述内容分类方法中相同,具体实现细节可以参考方法实施例中的说明。图6示出了根据本申请的一个实施例的内容分类装置的框图。
如图10所示,内容分类装置500中可以包括获取模块510、训练模块520、预测模块530、调整模块540及分类模块550。
获取模块510可以用于获取内容集及信息集,所述内容集包括至少一个内容,所述信息集包括至少一组信息对,所述信息对包括预设内容标签和所述预设内容标签对应的内容特征;训练模块520可以用于采用内容分类模型,将所述内容集中每个内容分别与所述至少一组信息对中的预设内容标签及内容特征进行融合编码处理,得到每个内容对应的融合语义特征;预测模块530可以用于基于每个内容对应的所述融合语义特征进行分类预测,得到每个内容对应的预测内容标签;调整模块540可以用于根据每个内容对应的预测内容标签对所述内容分类模型中的参数进行调整,以获得训练后的内容分类模型;分类模块550可以用于基于所述训练后的内容分类模型对待分类内容进行内容分类。
在本申请的一些实施例中,所述训练模块,包括:第一编码单元,用于对所述内容集中每个内容分别进行特征编码处理,得到每个内容对应的第一语义特征;第二编码单元,用于对所述至少一组信息对中的预设内容标签及内容特征进行特征编码处理,以获得每个内容对应的第二语义特征;融合编码单元,用于将每个内容对应的所述第一语义特征及所述第二语义特征进行融合处理,得到每个内容对应的融合语义特征。
在本申请的一些实施例中,所述第一编码单元,包括:切词子单元,用于对所述内容集中每个内容分别进行切词处理,得到每个内容中的词;词向量构建子单元,用于构建每个内容中词的词向量,得到每个内容的词向量集;互融编码子单元,用于对每个内容的词向量集进行词向量互融编码处理,得到每个内容对应的第一语义特征。
在本申请的一些实施例中,所述内容分类模型中包括预训练模型,所述预训练模型中包括特征构建层以及互融编码层;所述词向量构建子单元,用于:在所述预训练模型中,将每个内容中的词输入所述特征构建层,以在所述特征构建层构建每个内容中的词的词向量,得到每个内容的词向量集;所述互融编码子单元,用于:将每个内容的词向量集分别输入所述互融编码层,以在所述互融编码层对每个内容的词向量集进行词向量互融编码处理,得到每个内容对应的第一语义特征。
在本申请的一些实施例中,所述内容分类模型中包括预训练模型,所述预训练模型中包括公式符号字典及词典,所述公式符号字典中公式符号的格式为目标格式;所述切词子单元,用于:对每个所述内容进行文本清洗处理,以将每个所述内容中的所有公式符号转化为所述目标格式的符号,得到每个所述内容对应的清洗后内容;将每个所述内容对应的清洗后内容输入所述预训练模型中,以遍历每个所述清洗后内容中的字符,并根据所述公式符号字典及所述词典对遍历的字符进行匹配切分,得到每个所述内容中的公式及词单元;将每个所述内容中切分到的所有所述公式及所述词单元,作为每个所述内容中的词。
在本申请的一些实施例中,所述第二编码单元,包括:分析子单元,用于对每组信息对中的预设内容标签及内容特征进行共现分析,以获得每组信息对在所述内容集中的共现频次;抽取子单元,用于从所述信息集中抽取共现频次符合目标条件的目标信息对,以将抽取的所述目标信息对作为所述内容集对应的共现特征;共现特征编码子单元,用于对所述共现特征进行特征编码处理,以获得每个内容对应的第二语义特征。
在本申请的一些实施例中,所述共现特征编码子单元,包括:排序子单元,用于将所述共现特征中的目标信息对进行排序,得到所述共现特征包括的目标信息对的排列顺序;匹配子单元,用于从所述共现特征中确定每个内容对应的目标信息对;独热编码子单元,用于根据所述共现特征包括的目标信息对的排列顺序,对每个内容对应的目标信息对进行独热编码处理,以生成每个内容对应的第二语义特征。
在本申请的一些实施例中,所述独热编码子单元,用于:生成每个内容对应的特征矩阵模板,所述特征矩阵模板中一列对应所述共现特征中的一组目标信息对,各列的列序与所述排列顺序一致,一行对应每个内容对应的一组目标信息对;确定所述特征矩阵模板中的目标元素,所述目标元素为相同目标信息对所对应的行与列交叉位置处的元素;将每个内容对应的所述特征矩阵模板中,所述目标元素的值设为第一元素值,所述目标元素以外的其它元素的值设为第二元素值,得到每个内容对应的编码特征矩阵;基于每个内容对应的所述编码特征矩阵生成每个内容对应的第二语义特征。
在本申请的一些实施例中,所述融合编码单元,包括:打分子单元,用于针对每个内容,分别基于每个内容对应的所述第二语义特征对所述第一语义特征中的子语义特征进行注意力打分,得到每个内容对应的第一语义特征中子语义特征的注意力分数;权重生成子单元,用于基于每个内容对应的第一语义特征中子语义特征的注意力分数,生成每个内容对应的注意力权重;权重融合子单元,用于对每个内容对应的第一语义特征及注意力权重进行点乘处理,以生成每个内容对应的融合语义特征。
在本申请的一些实施例中,所述权重融合子单元,用于:对每个内容对应的第一语义特征及注意力权重进行点乘处理,得到每个内容对应的初始融合特征;从每个内容对应的第一语义特征中获取目标子语义特征;对每个内容对应的初始融合特征及目标子语义特征进行求和,得到每个内容对应的语义特征和;对每个内容对应的语义特征和进行双曲正切运算处理,得到每个内容对应的融合语义特征。
在本申请的一些实施例中,所述分析子单元,包括:分词子单元,用于将所述内容集中所有内容进行分词处理,得到所述内容集中的词;遍历子单元,用于遍历所述内容集中的词,以确定每组信息对中的内容特征相匹配的词出现的频次,得到每组信息对在所述内容集中的共现频次。
在本申请的一些实施例中,所述抽取子单元,包括:目标抽取子单元,用于从所述信息集中,抽取共现频次高于预定频次的目标信息对;共现特征确定子单元,用于将所有抽取到的目标信息对作为所述内容集对应的共现特征。
在本申请的一些实施例中,所述分类模块,包括:待分类内容获取单元,用于获取待分类内容;待分类内容编码单元,用于采用所述训练后的内容分类模型,将所述待分类内容与所述至少一组信息对中的预设内容标签及内容特征进行融合编码处理,得到所述待分类内容对应的融合语义特征;待分类内容分类单元,用于基于所述待分类内容对应的融合语义特征进行分类预测,得到所述待分类内容对应的内容标签。
在本申请的一些实施例中,所述内容包括试题内容,所述预设内容标签包括预设知识点标签,所述待分类内容包括待分类试题内容,所述内容标签包括知识点标签。
以这种方式,基于内容分类装置500,可以获取用于训练内容分类模型的内容集及信息集,内容集包括至少一个内容,信息集包括至少一组信息对,其中,通过设置信息对中包括预设内容标签和预设内容标签对应的内容特征。然后,在训练过程中,采用内容分类模型,将内容集中每个内容分别与至少一组信息对中的预设内容标签及内容特征进行融合编码处理,得到每个内容对应的融合语义特征,这样可以训练内容分类模型通过融合内容、内容特征以及预设内容标签,生成每个内容的融合语义特征,该融合语义特征有效提升每个内容的语义特征的类别表征程度。然后,通过提升了每个内容的类别表征程度的融合语义特征,可以训练内容分类模型进行准确分类预测,并根据预测得到的预测内容标签调整模型中的参数,得到训练后的内容分类模型,可以使得训练后的内容分类模型学习到提升分类准确性的模型参数。进而,基于训练后的内容分类模型对待分类内容进行内容分类,可以有效提升内容分类的准确性。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
此外,本申请实施例还提供一种电子设备,该电子设备可以为终端或者服务器,如图11所示,其示出了本申请实施例所涉及的电子设备的结构示意图,具体来讲:
该电子设备可以包括一个或者一个以上处理核心的处理器601、一个或一个以上计算机可读存储介质的存储器602、电源603和输入单元604等部件。本领域技术人员可以理解,图11中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器601是该电子设备的控制中心,利用各种接口和线路连接整个计算机设备的各个部分,通过运行或执行存储在存储器602内的软件程序和/或模块,以及调用存储在存储器602内的数据,执行计算机设备的各种功能和处理数据,从而对电子设备进行整体监控。可选的,处理器601可包括一个或多个处理核心;优选的,处理器601可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户页面和应用程序等,调制解调处理器主要处理无线通讯。可以理解的是,上述调制解调处理器也可以不集成到处理器601中。
存储器602可用于存储软件程序以及模块,处理器601通过运行存储在存储器602的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器602可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器602可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器602还可以包括存储器控制器,以提供处理器601对存储器602的访问。
电子设备还包括给各个部件供电的电源603,优选的,电源603可以通过电源管理系统与处理器601逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源603还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该电子设备还可包括输入单元604,该输入单元604可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,电子设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,电子设备中的处理器601会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器602中,并由处理器601来运行存储在存储器602中的应用程序,从而实现各种功能,如处理器601可以执行下述步骤:
获取内容集及信息集,所述内容集包括至少一个内容,所述信息集包括至少一组信息对,所述信息对包括预设内容标签和所述预设内容标签对应的内容特征;采用内容分类模型,将所述内容集中每个内容分别与所述至少一组信息对中的预设内容标签及内容特征进行融合编码处理,得到每个内容对应的融合语义特征;基于每个内容对应的所述融合语义特征进行分类预测,得到每个内容对应的预测内容标签;根据每个内容对应的预测内容标签对所述内容分类模型中的参数进行调整,以获得训练后的内容分类模型;基于所述训练后的内容分类模型对待分类内容进行内容分类。
为此,本申请实施例还提供一种存储介质,其中存储有计算机程序,该计算机程序能够被处理器进行加载,以执行本申请实施例所提供的任一种方法中的步骤。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的计算机程序,可以执行本申请实施例所提供的任一种方法中的步骤,因此,可以实现本申请实施例所提供的方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请上述实施例中各种可选实现方式中提供的方法。
本领域技术人员在考虑说明书及实践这里公开的实施方式后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的实施例,而可以在不脱离其范围的情况下进行各种修改和改变。
Claims (14)
1.一种内容分类方法,其特征在于,包括:
获取内容集及信息集,所述内容集包括至少一个内容,所述信息集包括至少一组信息对,所述信息对包括预设内容标签和所述预设内容标签对应的内容特征;
采用内容分类模型,将所述内容集中每个内容分别与所述至少一组信息对中的预设内容标签及内容特征进行融合编码处理,得到每个内容对应的融合语义特征,包括:采用内容分类模型,对所述内容集中每个内容分别进行特征编码处理,得到每个内容对应的第一语义特征;对所述至少一组信息对中的预设内容标签及内容特征进行特征编码处理,以获得每个内容对应的第二语义特征;将每个内容对应的所述第一语义特征及所述第二语义特征进行融合处理,得到每个内容对应的融合语义特征;其中,所述内容分类模型是基于机器学习的分类模型;
基于每个内容对应的所述融合语义特征进行分类预测,得到每个内容对应的预测内容标签;
根据每个内容对应的预测内容标签对所述内容分类模型中的参数进行调整,以获得训练后的内容分类模型;
基于所述训练后的内容分类模型对待分类内容进行内容分类。
2.根据权利要求1所述的方法,其特征在于,所述对所述内容集中每个内容分别进行特征编码处理,得到每个内容对应的第一语义特征,包括:
对所述内容集中每个内容分别进行切词处理,得到每个内容中的词;
构建每个内容中词的词向量,得到每个内容的词向量集;
对每个内容的词向量集进行词向量互融编码处理,得到每个内容对应的第一语义特征。
3.根据权利要求2所述的方法,其特征在于,所述内容分类模型中包括预训练模型,所述预训练模型中包括特征构建层以及互融编码层;
所述构建每个内容中词的词向量,得到每个内容的词向量集,包括:
在所述预训练模型中,将每个内容中的词输入所述特征构建层,以在所述特征构建层构建每个内容中的词的词向量,得到每个内容的词向量集;
所述对每个内容的词向量集进行词向量互融编码处理,得到每个内容对应的第一语义特征,包括:
将每个内容的词向量集分别输入所述互融编码层,以在所述互融编码层对每个内容的词向量集进行词向量互融编码处理,得到每个内容对应的第一语义特征。
4.根据权利要求2所述的方法,其特征在于,所述内容分类模型中包括预训练模型,所述预训练模型中包括公式符号字典及词典,所述公式符号字典中公式符号的格式为目标格式;
所述对所述内容集中每个内容分别进行切词处理,得到每个内容中的词,包括:
对每个所述内容进行文本清洗处理,以将每个所述内容中的所有公式符号转化为所述目标格式的符号,得到每个所述内容对应的清洗后内容;
将每个所述内容对应的清洗后内容输入所述预训练模型中,以遍历每个所述清洗后内容中的字符,并根据所述公式符号字典及所述词典对遍历的字符进行匹配切分,得到每个所述内容中的公式及词单元;
将每个所述内容中切分到的所有所述公式及所述词单元,作为每个所述内容中的词。
5.根据权利要求1所述的方法,其特征在于,所述对所述至少一组信息对中的预设内容标签及内容特征进行特征编码处理,以获得每个内容对应的第二语义特征,包括:
对每组信息对中的预设内容标签及内容特征进行共现分析,以获得每组信息对在所述内容集中的共现频次;
从所述信息集中抽取共现频次符合目标条件的目标信息对,以将抽取的所述目标信息对作为所述内容集对应的共现特征;
对所述共现特征进行特征编码处理,以获得每个内容对应的第二语义特征。
6.根据权利要求5所述的方法,其特征在于,所述对所述共现特征进行特征编码处理,以获得每个内容对应的第二语义特征,包括:
将所述共现特征中的目标信息对进行排序,得到所述共现特征中目标信息对的排列顺序;
从所述共现特征中确定每个内容对应的目标信息对;
根据所述共现特征中目标信息对的排列顺序,对每个内容对应的目标信息对进行独热编码处理,以生成每个内容对应的第二语义特征。
7.根据权利要求6所述的方法,其特征在于,所述根据所述共现特征中目标信息对的排列顺序,对每个内容对应的目标信息对进行独热编码处理,以生成每个内容对应的第二语义特征,包括:
生成每个内容对应的特征矩阵模板,所述特征矩阵模板中一列对应所述共现特征中的一组目标信息对,各列的列序与所述排列顺序一致,一行对应每个内容对应的一组目标信息对;
确定所述特征矩阵模板中的目标元素,所述目标元素为相同目标信息对所对应的行与列交叉位置处的元素;
将每个内容对应的所述特征矩阵模板中,所述目标元素的值设为第一元素值,所述目标元素以外的其它元素的值设为第二元素值,得到每个内容对应的编码特征矩阵;
基于每个内容对应的所述编码特征矩阵生成每个内容对应的第二语义特征。
8.根据权利要求1所述的方法,其特征在于,所述将每个内容对应的所述第一语义特征及所述第二语义特征进行融合处理,得到每个内容对应的融合语义特征,包括:
针对每个内容,分别基于每个内容对应的所述第二语义特征对所述第一语义特征中的子语义特征进行注意力打分,得到每个内容对应的第一语义特征中子语义特征的注意力分数;
基于每个内容对应的第一语义特征中子语义特征的注意力分数,生成每个内容对应的注意力权重;
对每个内容对应的第一语义特征及注意力权重进行点乘处理,以生成每个内容对应的融合语义特征。
9.根据权利要求8所述的方法,其特征在于,所述对每个内容对应的第一语义特征及注意力权重进行点乘处理,以生成每个内容对应的融合语义特征,包括:
对每个内容对应的第一语义特征及注意力权重进行点乘处理,得到每个内容对应的初始融合特征;
从每个内容对应的第一语义特征中获取目标子语义特征;
对每个内容对应的初始融合特征及目标子语义特征进行求和,得到每个内容对应的语义特征和;
对每个内容对应的语义特征和进行双曲正切运算处理,得到每个内容对应的融合语义特征。
10.根据权利要求5所述的方法,其特征在于,所述对每组信息对中的预设内容标签及内容特征进行共现分析,以获得每组信息对在所述内容集中的共现频次,包括:
将所述内容集中所有内容进行分词处理,得到所述内容集中的词;
遍历所述内容集中的词,以确定每组信息对中的内容特征相匹配的词出现的频次,作为每组信息对在所述内容集中的共现频次。
11.根据权利要求1至10任一项所述的方法,其特征在于,所述基于所述训练后的内容分类模型对待分类内容进行内容分类,包括:
获取待分类内容;
采用所述训练后的内容分类模型,将所述待分类内容与所述至少一组信息对中的预设内容标签及内容特征进行融合编码处理,得到所述待分类内容对应的融合语义特征;
基于所述待分类内容对应的融合语义特征进行分类预测,得到所述待分类内容对应的内容标签。
12.一种内容分类装置,其特征在于,包括:
获取模块,用于获取内容集及信息集,所述内容集包括至少一个内容,所述信息集包括至少一组信息对,所述信息对包括预设内容标签和所述预设内容标签对应的内容特征;
训练模块,用于采用内容分类模型,将所述内容集中每个内容分别与所述至少一组信息对中的预设内容标签及内容特征进行融合编码处理,得到每个内容对应的融合语义特征,包括:采用内容分类模型,对所述内容集中每个内容分别进行特征编码处理,得到每个内容对应的第一语义特征;对所述至少一组信息对中的预设内容标签及内容特征进行特征编码处理,以获得每个内容对应的第二语义特征;将每个内容对应的所述第一语义特征及所述第二语义特征进行融合处理,得到每个内容对应的融合语义特征;其中,所述内容分类模型是基于机器学习的分类模型;
预测模块,用于基于每个内容对应的所述融合语义特征进行分类预测,得到每个内容对应的预测内容标签;
调整模块,用于根据每个内容对应的预测内容标签对所述内容分类模型中的参数进行调整,以获得训练后的内容分类模型;
分类模块,用于基于所述训练后的内容分类模型对待分类内容进行内容分类。
13.一种电子设备,其特征在于,包括:存储器,存储有计算机可读指令;处理器,读取存储器存储的计算机可读指令,以执行权利要求1至11任一项所述的方法。
14.一种存储介质,其特征在于,其上存储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行权利要求1至11任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110687914.XA CN113822074B (zh) | 2021-06-21 | 2021-06-21 | 内容分类方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110687914.XA CN113822074B (zh) | 2021-06-21 | 2021-06-21 | 内容分类方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113822074A CN113822074A (zh) | 2021-12-21 |
CN113822074B true CN113822074B (zh) | 2024-05-10 |
Family
ID=78923879
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110687914.XA Active CN113822074B (zh) | 2021-06-21 | 2021-06-21 | 内容分类方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113822074B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110580292A (zh) * | 2019-08-28 | 2019-12-17 | 腾讯科技(深圳)有限公司 | 一种文本标签生成方法、装置和计算机可读存储介质 |
CN110717039A (zh) * | 2019-09-17 | 2020-01-21 | 平安科技(深圳)有限公司 | 文本分类方法和装置、电子设备、计算机可读存储介质 |
CN111444340A (zh) * | 2020-03-10 | 2020-07-24 | 腾讯科技(深圳)有限公司 | 文本分类和推荐方法、装置、设备及存储介质 |
-
2021
- 2021-06-21 CN CN202110687914.XA patent/CN113822074B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110580292A (zh) * | 2019-08-28 | 2019-12-17 | 腾讯科技(深圳)有限公司 | 一种文本标签生成方法、装置和计算机可读存储介质 |
CN110717039A (zh) * | 2019-09-17 | 2020-01-21 | 平安科技(深圳)有限公司 | 文本分类方法和装置、电子设备、计算机可读存储介质 |
WO2021051560A1 (zh) * | 2019-09-17 | 2021-03-25 | 平安科技(深圳)有限公司 | 文本分类方法和装置、电子设备、计算机非易失性可读存储介质 |
CN111444340A (zh) * | 2020-03-10 | 2020-07-24 | 腾讯科技(深圳)有限公司 | 文本分类和推荐方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113822074A (zh) | 2021-12-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2023065545A1 (zh) | 风险预测方法、装置、设备及存储介质 | |
CN111444340A (zh) | 文本分类和推荐方法、装置、设备及存储介质 | |
CN111462282A (zh) | 一种场景图生成方法 | |
CN111159485B (zh) | 尾实体链接方法、装置、服务器及存储介质 | |
KR20200075114A (ko) | 이미지와 텍스트간 유사도 매칭 시스템 및 방법 | |
CN112396106A (zh) | 内容识别方法、内容识别模型训练方法及存储介质 | |
CN113761219A (zh) | 基于知识图谱的检索方法、装置、电子设备及存储介质 | |
CN113628059A (zh) | 一种基于多层图注意力网络的关联用户识别方法及装置 | |
WO2019160096A1 (ja) | 関係性推定モデル学習装置、方法、及びプログラム | |
CN110597956A (zh) | 一种搜索方法、装置及存储介质 | |
CN111324773A (zh) | 一种背景音乐构建方法、装置、电子设备和存储介质 | |
CN116402352A (zh) | 一种企业风险预测方法、装置、电子设备及介质 | |
CN113486173A (zh) | 文本标注神经网络模型及其标注方法 | |
CN109858031B (zh) | 神经网络模型训练、上下文预测方法及装置 | |
CN116775497B (zh) | 数据库测试用例生成需求描述编码方法 | |
CN113705402A (zh) | 视频行为预测方法、系统、电子设备及存储介质 | |
CN110347916B (zh) | 跨场景的项目推荐方法、装置、电子设备及存储介质 | |
CN109299291B (zh) | 一种基于卷积神经网络的问答社区标签推荐方法 | |
CN113822074B (zh) | 内容分类方法、装置、电子设备及存储介质 | |
CN115587192A (zh) | 关系信息抽取方法、设备及计算机可读存储介质 | |
CN114821188A (zh) | 图像处理方法、场景图生成模型的训练方法以及电子设备 | |
CN113886547A (zh) | 基于人工智能的客户实时对话转接方法、装置和电子设备 | |
CN111611981A (zh) | 信息识别方法和装置及信息识别神经网络训练方法和装置 | |
CN112528048B (zh) | 一种跨模态检索方法、装置、设备及介质 | |
CN114661888A (zh) | 一种主题模型的更新方法、系统及存储介质和服务器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |