CN113486183A - 基于支持向量机的文本分类方法、装置、电子设备及介质 - Google Patents
基于支持向量机的文本分类方法、装置、电子设备及介质 Download PDFInfo
- Publication number
- CN113486183A CN113486183A CN202111035894.4A CN202111035894A CN113486183A CN 113486183 A CN113486183 A CN 113486183A CN 202111035894 A CN202111035894 A CN 202111035894A CN 113486183 A CN113486183 A CN 113486183A
- Authority
- CN
- China
- Prior art keywords
- word
- vector
- word vector
- dimensional
- corpus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及人工智能技术领域,提供一种基于支持向量机的文本分类方法、装置、电子设备及介质,所述方法包括:获取语料集;将所述语料集输入至预设的词向量提取模型中,得到每个词的低维词向量;将每个词的低维词向量输入至自注意力层,计算每个词的低维词向量的加权词向量;将每个词的加权词向量输入至支持向量机层中进行高维映射,得到每个词的高维词向量;基于预设的多类SVM损失函数对多个词的高维词向量进行分类预测,得到分类结果。本申请通过支持向量机层提前将每个词的加权词向量同步到了高维空间,查询线性可分的分类超平面,加快了分类的过程,进而提高了文本分类的效率。
Description
技术领域
本申请涉及人工智能技术领域,具体涉及一种基于支持向量机的文本分类方法、装置、电子设备及介质。
背景技术
在进行知识问答体系搭建的过程中,涉及到文本分类,现有技术通过采用Transformer框架,以及MLM框架的模型进行文本分类。
然而,基于Transformer框架,以及MLM框架的模型进行文本分类过程中,训练过程消耗资源多,引起模型收敛速度慢,导致文本分类效率低。
因此,有必要提出一种快速准确的分类文本的方法。
发明内容
鉴于以上内容,有必要提出一种基于支持向量机的文本分类方法、装置、电子设备及介质,通过支持向量机层提前将每个词的加权词向量同步到了高维空间,查询线性可分的分类超平面,加快了分类的过程,进而提高了文本分类的效率。
本申请的第一方面提供一种基于支持向量机的文本分类方法,所述方法包括:
解析接收的文本分类请求,获取语料集,其中,所述语料集中包含有多种类别的语料集;
将所述语料集输入至预设的词向量提取模型中,得到每个词的低维词向量,其中,所述词向量提取模型中包含有Encode模型,及与所述Encode模型连接的Transform层;
将每个词的低维词向量输入至自注意力层,计算每个词的低维词向量的加权词向量;
将每个词的加权词向量输入至支持向量机层中进行高维映射,得到每个词的高维词向量;
基于预设的多类SVM损失函数对多个词的高维词向量进行分类预测,得到分类结果。
可选地,所述将每个词的加权词向量输入至支持向量机层中进行高维映射,得到每个词的高维词向量包括:
采用预设的核函数,在支持向量机层将每个词的加权词向量映射到高维空间进行线性变换,得到每个词的高维词向量。
可选地,所述将所述语料集输入至预设的词向量提取模型中,得到每个词的低维词向量包括:
对所述语料集中的每个语料进行文本预处理,得到目标语料;
对所述目标语料进行文本分割,得到多个词;
将所述多个词输入至Encode模型中进行编码,得到每个词的编码向量;
将每个词的编码向量及每个词的位置信息输入至Transform层,得到每个词的低维词向量。
可选地,所述计算每个词的低维词向量的加权词向量包括:
为所述每个词的低维词向量创建query词向量、key词向量和value词向量;
获取预先训练好的query词向量的注意力权重矩阵、key词向量的注意力权重矩阵和value词向量的注意力权重矩阵;
计算每个词的query词向量与query词向量的注意力权重矩阵的内积,得到每个词的目标query词向量;
计算每个词的key词向量与key词向量的注意力权重矩阵的内积,得到每个词的目标key词向量;
计算每个词的value词向量与value词向量的注意力权重矩阵的内积,得到每个词的目标value词向量;
将每个词的目标query词向量、目标key词向量及目标value词向量确定为每个词的加权词向量。
可选地,所述基于预设的多类SVM损失函数对多个词的高维词向量进行分类预测,得到分类结果包括:
基于预设的多类SVM损失函数计算任意一个类别的第一损失值;
计算多种类别的第一损失值的均值得到第二损失值;
基于所述第二损失值对所述多个词的高维词向量进行分类预测,得到分类结果。
可选地,所述预设的多类SVM损失函数采用如下公式表示:
可选地,所述解析接收的文本分类请求,获取语料集包括:
解析文本分类请求,获取对应的目标领域;
根据所述目标领域获取预设的多个数据源;
识别预设的每个数据源对应的接口及优先级别;
根据所述预设的多个数据源的优先级别将所述多个接口组成获取语料集环节的接口列表;
按照预设的获取方式从所述接口列表的队头开始调用对应的接口获取语料集。
本申请的第二方面提供一种基于支持向量机的文本分类装置,所述装置包括:
获取模块,用于解析接收的文本分类请求,获取语料集,其中,所述语料集中包含有多种类别的语料集;
第一输入模块,用于将所述语料集输入至预设的词向量提取模型中,得到每个词的低维词向量,其中,所述词向量提取模型中包含有Encode模型,及与所述Encode模型连接的Transform层;
计算模块,用于将每个词的低维词向量输入至自注意力层,计算每个词的低维词向量的加权词向量;
第二输入模块,用于将每个词的加权词向量输入至支持向量机层中进行高维映射,得到每个词的高维词向量;
分类预测模块,用于基于预设的多类SVM损失函数对多个词的高维词向量进行分类预测,得到分类结果。
本申请的第三方面提供一种电子设备,所述电子设备包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现所述的基于支持向量机的文本分类方法。
本申请的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述的基于支持向量机的文本分类方法。
综上所述,本申请所述的基于支持向量机的文本分类方法、装置、电子设备及介质,通过对获取的语料集的词向量进行加权求和,在后续的文本分类过程中,会考虑根据每个词的重要性进行计算,进而提高文本分类的准确率。对加权求和后的加权词向量采用预设的核函数,通过支持向量机层映射到高维空间,提前将每个词的加权词向量同步到了高维空间,在支持向量机层的希尔伯特空间内做分类工作,使得query词向量、key词向量和value词向量变换核分类的过程联系的更加紧密,可以加快分类的过程,进而提高了文本分类效率。在进行文本分类过程中,基于预设的多类SVM损失函数对多个词的高维词向量进行分类预测,得到分类结果,由于在预设的多类SVM损失函数中增加正则化损失,避免了分类的模糊性,进而提高了文本分类的准确率。
附图说明
图1是本申请实施例一提供的基于支持向量机的文本分类方法的流程图。
图2是本申请实施例二提供的基于支持向量机的文本分类装置的结构图。
图3是本申请实施例三提供的电子设备的结构示意图。
具体实施方式
为了能够更清楚地理解本申请的上述目的、特征和优点,下面结合附图和具体实施例对本申请进行详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请。
实施例一
图1是本申请实施例一提供的基于支持向量机的文本分类方法的流程图。
在本实施例中,所述基于支持向量机的文本分类方法可以应用于电子设备中,对于需要进行基于支持向量机的文本分类的电子设备,可以直接在电子设备上集成本申请的方法所提供的基于支持向量机的文本分类的功能,或者以软件开发工具包(SoftwareDevelopment Kit,SDK)的形式运行在电子设备中。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习、深度学习等几大方向。
如图1所示,所述基于支持向量机的文本分类方法具体包括以下步骤,根据不同的需求,该流程图中步骤的顺序可以改变,某些可以省略。
S11,解析接收的文本分类请求,获取语料集,其中,所述语料集中包含有多种类别的语料集。
本实施例中,在进行文本分类时,通过客户端发起文本分类请求至服务端,具体地,所述客户端可以是智能手机、IPAD或者其他现有智能设备,所述服务端可以为文本分类子系统。当文本分类子系统接收到文本分类请求时,对所述文本分类请求进行解析,获取语料集,其中,所述语料集中包含有多种类别的语料集,例如,针对寿险领域,包含有重疾险的语料、意外险的语料、财产险的语料等。
在一个可选的实施例中,所述解析接收的文本分类请求,获取语料集包括:
解析文本分类请求,获取对应的目标领域;
根据所述目标领域获取预设的多个数据源;
识别预设的每个数据源对应的接口及优先级别;
根据所述预设的多个数据源的优先级别将所述多个接口组成获取语料集环节的接口列表;
按照预设的获取方式从所述接口列表的队头开始调用对应的接口获取语料集。
本实施例中,可以预先设置多个数据源,不同的领域对应的数据源不同,例如,针对寿险领域,预设的数据源可以包括:保险数据网站、第三方平台、银行数据网站等与寿险有关联关系的其他数据源。
本实施例中,预设的每个数据源对应有优先级别,一方面,可以根据所述优先级别确定预设的多个数据源中语料集的获取顺序,另一方面,根据所述优先级别可以确定预设的多个数据源中语料集的重要程度,在获取到语料集之后,按照获取顺序存储语料集,便于后续查找或者管理所述语料集。
本实施例中,可以预先设置获取方式,具体地,所述预设的获取方式可以包括以下一种或者多种方式的组合:网络爬虫、外购数据及搜索获取。
本实施例中,通过从接口列表的队头开始依次调用对应接口获取语料集,避免出现接口遗漏导致语料集缺失的现象,确保了获取语料集的完整性。
S12,将所述语料集输入至预设的词向量提取模型中,得到每个词的低维词向量,其中,所述词向量提取模型中包含有Encode模型,及与所述Encode模型连接的Transform层。
本实施例中,获取预设的词向量提取模型,所述预设的词向量提取模型用以提取获取的语料集中每个词的词向量,其中,所述预设的词向量提取模型中包含有Encode模型,及与所述Encode模型连接的Transform层,所述Encode模型用以对语料集中的每个词进行编码,其中,所述编码就是将每个词转换成一个固定长度的向量,所述Transform层用以对每个词的编码进行向量转换,得到每个词的低维词向量,具体地,通过Encode模型得到每个词的位置信息和每个词的编码向量,并在Transform层对每个词的位置信息和每个词的编码向量进行关联得到每个词的低维词向量。
在一个可选的实施例中,所述将所述语料集输入至预设的词向量提取模型中,得到每个词的低维词向量包括:
对所述语料集中的每个语料进行文本预处理,得到目标语料;
对所述目标语料进行文本分割,得到多个词;
将所述多个词输入至Encode模型中进行编码,得到每个词的编码向量;
将每个词的编码向量及每个词的位置信息输入至Transform层,得到每个词的低维词向量。
本实施例中,文本预处理包括对每个语料进行数据清洗,具体地,所述数据清洗包括以下一种或者多种方式的组合:对缺失值清洗、格式内容清洗、逻辑错误清洗和非需求数据清洗。
本实施例中,通过对每个语料进行文本预处理,减少错误语料的干扰,确保了目标语料的准确率。
S13,将每个词的低维词向量输入至自注意力层,计算每个词的低维词向量的加权词向量。
本实施例中,注意力(Attention)机制被广泛应用到基于深度学习的自然语言处理(NLP)各个任务中,本实施例通过将自注意力层与所述Transform层连接,并对每个词的低维词向量进行注意力加权计算,得到每个词的低维词向量的加权词向量。
本实施例中,通过对每个词的低维词向量进行加权,在后续的文本分类过程中,会考虑根据每个词的重要性进行计算,进而提高文本分类的准确率。
在一个可选的实施例中,所述计算每个词的低维词向量的加权词向量包括:
为所述每个词的低维词向量创建query词向量、key词向量和value词向量;
获取预先训练好的query词向量的注意力权重矩阵、key词向量的注意力权重矩阵和value词向量的注意力权重矩阵;
计算每个词的query词向量与query词向量的注意力权重矩阵的内积,得到每个词的目标query词向量;
计算每个词的key词向量与key词向量的注意力权重矩阵的内积,得到每个词的目标key词向量;
计算每个词的value词向量与value词向量的注意力权重矩阵的内积,得到每个词的目标value词向量;
将每个词的目标query词向量、目标key词向量及目标value词向量确定为每个词的加权词向量。
本实施例中,自注意力机制的实质是一个寻址的过程,通过为每个词设置query词向量、key词向量及value词向量,通过分别计算每个词的query词向量、key词向量和value词向量与对应的词向量的注意力权重矩阵,确定每个词的加权词向量,得到的每个词的加权词向量的维度是固定,确保了后续输入至支持向量机层的多个词的词向量维度的一致性。
S14,将每个词的加权词向量输入至支持向量机层中进行高维映射,得到每个词的高维词向量。
本实施例中,支持向量机(support vector machine,简称为SVM)是在分类与回归分析中分析数据的监督式学习模型与相关的学习算法,所述支持向量机中包含有支持向量机层,通过将每个词的加权词向量输入至支持向量机层中进行高维映射,将每个词的加权词向量映射到希尔伯特空间,得到每个词的高维词向量,其中,所述支持向量机层与所述自注意力层相连接,所述希尔伯特空间由若干个独立坐标构成的抽象空间,指的是一个完备的内积空间,将每个词的加权词向量映射到希尔伯特空间进行内积计算,得到每个词的高维词向量。
本实施例中,通过基于自注意力机制在同维空间内计算内积,映射到高维空间内进行内积计算,得到每个词的高维词向量。
在一个可选的实施例中,所述将每个词的加权词向量输入至支持向量机层中进行高维映射,得到每个词的高维词向量包括:
采用预设的核函数,在支持向量机层将每个词的加权词向量映射到高维空间进行线性变换,得到每个词的高维词向量。
本实施例中,可以预先设置核函数,具体地,所述预设的核函数可以包括,但不限于以下一种或者多种方式的组合:多项式核函数、径向基函数核、拉普拉斯核函数、Sigmoid核函数等。
本实施例中,在进行文本分类时,现有文本分类通过对每个词的query词向量、key词向量和value词向量进行矩阵相乘的线性变换模式做映射,将映射的结果向量通过Softmax层做分类,而本实施例是采用预设的核函数,将每个词的加权词向量通过支持向量机层映射到高维空间,虽然同为基于query词向量、key词向量和value词向量做的线性变换,但是提前将每个词的加权词向量同步到了高维空间,在支持向量机层的希尔伯特空间内做分类工作,使得query词向量、key词向量和value词向量变换核分类的过程联系的更加紧密,并在希尔伯特空间进行内积计算,查询线性可分的分类超平面,可以加快分类的过程,进而提高了文本分类效率。
本实施例中,从业务角度考虑,通过核函数将每个词的加权词向量映射到高维空间,使得训练后的词向量之间的分层化的可解释性更强,例如,你,我,他,这类代词在希尔伯特空间内可能处于相似维度的向量空间内,而跑,走,躺这类动词可能处于另一个高维的向量空间,相比于现有的在同纬度的向量空间内做线性变换,不同维度的向量空间内的线性变换更不容易发生干扰,确保了高维词向量的准确率,进而提高了后续文本分类的准确率。
S15,基于预设的多类SVM损失函数对多个词的高维词向量进行分类预测,得到分类结果。
本实施例中,可以预先设置多类SVM损失函数,所述预设的多类SVM损失函数用以根据计算得到的损失值优化上述的Encode模型、与所述Encode模型连接的Transform层、与所述Transform层连接的自注意力层、及与所述自注意力层连接的支持向量机层,基于优化后的整体模型对所述多个词的高维词向量进行分类预测。
在一个可选的实施例中,所述基于预设的多类SVM损失函数对多个词的高维词向量进行分类预测,得到分类结果包括:
基于预设的多类SVM损失函数计算任意一个类别的第一损失值;
计算多种类别的第一损失值的均值得到第二损失值;
基于所述第二损失值对所述多个词的高维词向量进行分类预测,得到分类结果。
具体地,所述预设的多类SVM损失函数采用如下公式表示:
本实施例中,由于每种类别的语料集对应的权重集不是唯一的,可能存在多个相似的权重集,通过在预设的多类SVM损失函数中增加正则化损失,避免了分类的模糊性,进而提高了文本分类的准确率。
本实施例中,所述第一损失值指的是所述语料集中每种类别的损失值,第二损失值指的是所述语料集的整体损失值。
在解决文本分类的过程中,本实施例的实质是将原始的自注意力网络中的softmax层修改为SVM层,将自注意力层与SVM层结合,同时基于预设的多类SVM损失函数优化整体模型,提升整体模型的收敛效率,进而提高了文本分类效率。
综上所述,本实施例所述的基于支持向量机的文本分类方法,通过对获取的语料集的词向量进行加权求和,在后续的文本分类过程中,会考虑根据每个词的重要性进行计算,进而提高文本分类的准确率。对加权求和后的加权词向量采用预设的核函数,通过支持向量机层映射到高维空间,提前将每个词的加权词向量同步到了高维空间,在支持向量机层的希尔伯特空间内做分类工作,使得query词向量、key词向量和value词向量变换核分类的过程联系的更加紧密,并在希尔伯特空间进行内积计算,查询线性可分的分类超平面,可以加快分类的过程,进而提高了文本分类效率。在进行文本分类过程中,基于预设的多类SVM损失函数对多个词的高维词向量进行分类预测,得到分类结果,由于在预设的多类SVM损失函数中增加正则化损失,避免了分类的模糊性,进而提高了文本分类的准确率。
实施例二
图2是本申请实施例二提供的基于支持向量机的文本分类装置的结构图。
在一些实施例中,所述基于支持向量机的文本分类装置20可以包括多个由程序代码段所组成的功能模块。所述基于支持向量机的文本分类装置20中的各个程序段的程序代码可以存储于电子设备的存储器中,并由所述至少一个处理器所执行,以执行(详见图1描述)基于支持向量机的文本分类的功能。
本实施例中,所述基于支持向量机的文本分类装置20根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:获取模块201、第一输入模块202、计算模块203、第二输入模块204及分类预测模块205。本申请所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机可读指令段,其存储在存储器中。在本实施例中,关于各模块的功能将在后续的实施例中详述。
获取模块201,用于解析接收的文本分类请求,获取语料集,其中,所述语料集中包含有多种类别的语料集。
本实施例中,在进行文本分类时,通过客户端发起文本分类请求至服务端,具体地,所述客户端可以是智能手机、IPAD或者其他现有智能设备,所述服务端可以为文本分类子系统。当文本分类子系统接收到文本分类请求时,对所述文本分类请求进行解析,获取语料集,其中,所述语料集中包含有多种类别的语料集,例如,针对寿险领域,包含有重疾险的语料、意外险的语料、财产险的语料等。
在一个可选的实施例中,所述获取模块201解析接收的文本分类请求,获取语料集包括:
解析文本分类请求,获取对应的目标领域;
根据所述目标领域获取预设的多个数据源;
识别预设的每个数据源对应的接口及优先级别;
根据所述预设的多个数据源的优先级别将所述多个接口组成获取语料集环节的接口列表;
按照预设的获取方式从所述接口列表的队头开始调用对应的接口获取语料集。
本实施例中,可以预先设置多个数据源,不同的领域对应的数据源不同,例如,针对寿险领域,预设的数据源可以包括:保险数据网站、第三方平台、银行数据网站等与寿险有关联关系的其他数据源。
本实施例中,预设的每个数据源对应有优先级别,一方面,可以根据所述优先级别确定预设的多个数据源中语料集的获取顺序,另一方面,根据所述优先级别可以确定预设的多个数据源中语料集的重要程度,在获取到语料集之后,按照获取顺序存储语料集,便于后续查找或者管理所述语料集。
本实施例中,可以预先设置获取方式,具体地,所述预设的获取方式可以包括以下一种或者多种方式的组合:网络爬虫、外购数据及搜索获取。
本实施例中,通过从接口列表的队头开始依次调用对应接口获取语料集,避免出现接口遗漏导致语料集缺失的现象,确保了获取语料集的完整性。
第一输入模块202,用于将所述语料集输入至预设的词向量提取模型中,得到每个词的低维词向量,其中,所述词向量提取模型中包含有Encode模型,及与所述Encode模型连接的Transform层。
本实施例中,获取预设的词向量提取模型,所述预设的词向量提取模型用以提取获取的语料集中每个词的词向量,其中,所述预设的词向量提取模型中包含有Encode模型,及与所述Encode模型连接的Transform层,所述Encode模型用以对语料集中的每个词进行编码,其中,所述编码就是将每个词转换成一个固定长度的向量,所述Transform层用以对每个词的编码进行向量转换,得到每个词的低维词向量,具体地,通过Encode模型得到每个词的位置信息和每个词的编码向量,并在Transform层对每个词的位置信息和每个词的编码向量进行关联得到每个词的低维词向量。
在一个可选的实施例中,所述第一输入模块202将所述语料集输入至预设的词向量提取模型中,得到每个词的低维词向量包括:
对所述语料集中的每个语料进行文本预处理,得到目标语料;
对所述目标语料进行文本分割,得到多个词;
将所述多个词输入至Encode模型中进行编码,得到每个词的编码向量;
将每个词的编码向量及每个词的位置信息输入至Transform层,得到每个词的低维词向量。
本实施例中,文本预处理包括对每个语料进行数据清洗,具体地,所述数据清洗包括以下一种或者多种方式的组合:对缺失值清洗、格式内容清洗、逻辑错误清洗和非需求数据清洗。
本实施例中,通过对每个语料进行文本预处理,减少错误语料的干扰,确保了目标语料的准确率。
计算模块203,用于将每个词的低维词向量输入至自注意力层,计算每个词的低维词向量的加权词向量。
本实施例中,注意力(Attention)机制被广泛应用到基于深度学习的自然语言处理(NLP)各个任务中,本实施例通过将自注意力层与所述Transform层连接,并对每个词的低维词向量进行注意力加权计算,得到每个词的低维词向量的加权词向量。
本实施例中,通过对每个词的低维词向量进行加权,在后续的文本分类过程中,会考虑根据每个词的重要性进行计算,进而提高文本分类的准确率。
在一个可选的实施例中,所述计算模块203计算每个词的低维词向量的加权词向量包括:
为所述每个词的低维词向量创建query词向量、key词向量和value词向量;
获取预先训练好的query词向量的注意力权重矩阵、key词向量的注意力权重矩阵和value词向量的注意力权重矩阵;
计算每个词的query词向量与query词向量的注意力权重矩阵的内积,得到每个词的目标query词向量;
计算每个词的key词向量与key词向量的注意力权重矩阵的内积,得到每个词的目标key词向量;
计算每个词的value词向量与value词向量的注意力权重矩阵的内积,得到每个词的目标value词向量;
将每个词的目标query词向量、目标key词向量及目标value词向量确定为每个词的加权词向量。
本实施例中,自注意力机制的实质是一个寻址的过程,通过为每个词设置query词向量、key词向量及value词向量,通过分别计算每个词的query词向量、key词向量和value词向量与对应的词向量的注意力权重矩阵,确定每个词的加权词向量,得到的每个词的加权词向量的维度是固定,确保了后续输入至支持向量机层的多个词的词向量维度的一致性。
第二输入模块204,用于将每个词的加权词向量输入至支持向量机层中进行高维映射,得到每个词的高维词向量。
本实施例中,支持向量机(support vector machine,简称为SVM)是在分类与回归分析中分析数据的监督式学习模型与相关的学习算法,所述支持向量机中包含有支持向量机层,通过将每个词的加权词向量输入至支持向量机层中进行高维映射,将每个词的加权词向量映射到希尔伯特空间,得到每个词的高维词向量,其中,所述支持向量机层与所述自注意力层相连接,所述希尔伯特空间由若干个独立坐标构成的抽象空间,指的是一个完备的内积空间,将每个词的加权词向量映射到希尔伯特空间进行内积计算,得到每个词的高维词向量。
本实施例中,通过基于自注意力机制在同维空间内计算内积,映射到高维空间内进行内积计算,得到每个词的高维词向量。
在一个可选的实施例中,所述第二输入模块204将每个词的加权词向量输入至支持向量机层中进行高维映射,得到每个词的高维词向量包括:
采用预设的核函数,在支持向量机层将每个词的加权词向量映射到高维空间进行线性变换,得到每个词的高维词向量。
本实施例中,可以预先设置核函数,具体地,所述预设的核函数可以包括,但不限于以下一种或者多种方式的组合:多项式核函数、径向基函数核、拉普拉斯核函数、Sigmoid核函数等。
本实施例中,在进行文本分类时,现有文本分类通过对每个词的query词向量、key词向量和value词向量进行矩阵相乘的线性变换模式做映射,将映射的结果向量通过Softmax层做分类,而本实施例是采用预设的核函数,将每个词的加权词向量通过支持向量机层映射到高维空间,虽然同为基于query词向量、key词向量和value词向量做的线性变换,但是提前将每个词的加权词向量同步到了高维空间,在支持向量机层的希尔伯特空间内做分类工作,使得query词向量、key词向量和value词向量变换核分类的过程联系的更加紧密,并在希尔伯特空间进行内积计算,查询线性可分的分类超平面,可以加快分类的过程,进而提高了文本分类效率。
本实施例中,从业务角度考虑,通过核函数将每个词的加权词向量映射到高维空间,使得训练后的词向量之间的分层化的可解释性更强,例如,你,我,他,这类代词在希尔伯特空间内可能处于相似维度的向量空间内,而跑,走,躺这类动词可能处于另一个高维的向量空间,相比于现有的在同纬度的向量空间内做线性变换,不同维度的向量空间内的线性变换更不容易发生干扰,确保了高维词向量的准确率,进而提高了后续文本分类的准确率。
分类预测模块205,用于基于预设的多类SVM损失函数对多个词的高维词向量进行分类预测,得到分类结果。
本实施例中,可以预先设置多类SVM损失函数,所述预设的多类SVM损失函数用以根据计算得到的损失值优化上述的Encode模型、与所述Encode模型连接的Transform层、与所述Transform层连接的自注意力层、及与所述自注意力层连接的支持向量机层,基于优化后的整体模型对所述多个词的高维词向量进行分类预测。
在一个可选的实施例中,所述分类预测模块205基于预设的多类SVM损失函数对多个词的高维词向量进行分类预测,得到分类结果包括:
基于预设的多类SVM损失函数计算任意一个类别的第一损失值;
计算多种类别的第一损失值的均值得到第二损失值;
基于所述第二损失值对所述多个词的高维词向量进行分类预测,得到分类结果。
具体地,所述预设的多类SVM损失函数采用如下公式表示:
本实施例中,由于每种类别的语料集对应的权重集不是唯一的,可能存在多个相似的权重集,通过在预设的多类SVM损失函数中增加正则化损失,避免了分类的模糊性,进而提高了文本分类的准确率。
本实施例中,所述第一损失值指的是所述语料集中每种类别的损失值,第二损失值指的是所述语料集的整体损失值。
在解决文本分类的过程中,本实施例的实质是将原始的自注意力网络中的softmax层修改为SVM层,将自注意力层与SVM层结合,同时基于预设的多类SVM损失函数优化整体模型,提升整体模型的收敛效率,进而提高了文本分类效率。
综上所述,本实施例所述的基于支持向量机的文本分类装置,通过对获取的语料集的词向量进行加权求和,在后续的文本分类过程中,会考虑根据每个词的重要性进行计算,进而提高文本分类的准确率。对加权求和后的加权词向量采用预设的核函数,通过支持向量机层映射到高维空间,提前将每个词的加权词向量同步到了高维空间,在支持向量机层的希尔伯特空间内做分类工作,使得query词向量、key词向量和value词向量变换核分类的过程联系的更加紧密,并在希尔伯特空间进行内积计算,查询线性可分的分类超平面,可以加快分类的过程,进而提高了文本分类效率。在进行文本分类过程中,基于预设的多类SVM损失函数对多个词的高维词向量进行分类预测,得到分类结果,由于在预设的多类SVM损失函数中增加正则化损失,避免了分类的模糊性,进而提高了文本分类的准确率。
实施例三
参阅图3所示,为本申请实施例三提供的电子设备的结构示意图。在本申请较佳实施例中,所述电子设备3包括存储器31、至少一个处理器32、至少一条通信总线33及收发器34。
本领域技术人员应该了解,图3示出的电子设备的结构并不构成本申请实施例的限定,既可以是总线型结构,也可以是星形结构,所述电子设备3还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置。
在一些实施例中,所述电子设备3是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的电子设备,其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述电子设备3还可包括客户设备,所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、数码相机等。
需要说明的是,所述电子设备3仅为举例,其他现有的或今后可能出现的电子产品如可适应于本申请,也应包含在本申请的保护范围以内,并以引用方式包含于此。
在一些实施例中,所述存储器31用于存储程序代码和各种数据,例如安装在所述电子设备3中的基于支持向量机的文本分类装置20,并在电子设备3的运行过程中实现高速、自动地完成程序或数据的存取。所述存储器31包括只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
在一些实施例中,所述至少一个处理器32可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述至少一个处理器32是所述电子设备3的控制核心(Control Unit),利用各种接口和线路连接整个电子设备3的各个部件,通过运行或执行存储在所述存储器31内的程序或者模块,以及调用存储在所述存储器31内的数据,以执行电子设备3的各种功能和处理数据。
在一些实施例中,所述至少一条通信总线33被设置为实现所述存储器31以及所述至少一个处理器32等之间的连接通信。
尽管未示出,所述电子设备3还可以包括给各个部件供电的电源(比如电池),可选的,电源可以通过电源管理装置与所述至少一个处理器32逻辑相连,从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备3还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,电子设备,或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的部分。
在进一步的实施例中,结合图2,所述至少一个处理器32可执行所述电子设备3的操作装置以及安装的各类应用程序(如所述的基于支持向量机的文本分类装置20)、程序代码等,例如,上述的各个模块。
所述存储器31中存储有程序代码,且所述至少一个处理器32可调用所述存储器31中存储的程序代码以执行相关的功能。例如,图2中所述的各个模块是存储在所述存储器31中的程序代码,并由所述至少一个处理器32所执行,从而实现所述各个模块的功能以达到基于支持向量机的文本分类的目的。
示例性的,所述程序代码可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器31中,并由所述处理器32执行,以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段,该指令段用于描述所述程序代码在所述电子设备3中的执行过程。例如,所述程序代码可以被分割成获取模块201、第一输入模块202、计算模块203、第二输入模块204及分类预测模块205。
在本申请的一个实施例中,所述存储器31存储多个计算机可读指令,所述多个计算机可读指令被所述至少一个处理器32所执行以实现基于支持向量机的文本分类的功能。
具体地,所述至少一个处理器32对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,既可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或,单数不排除复数。本申请中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本申请的技术方案而非限制,尽管参照较佳实施例对本申请进行了详细说明,本领域的普通技术人员应当理解,可以对本申请的技术方案进行修改或等同替换,而不脱离本申请技术方案的精神和范围。
Claims (10)
1.一种基于支持向量机的文本分类方法,其特征在于,所述方法包括:
解析接收的文本分类请求,获取语料集,其中,所述语料集中包含有多种类别的语料集;
将所述语料集输入至预设的词向量提取模型中,得到每个词的低维词向量,其中,所述词向量提取模型中包含有Encode模型,及与所述Encode模型连接的Transform层;
将每个词的低维词向量输入至自注意力层,计算每个词的低维词向量的加权词向量;
将每个词的加权词向量输入至支持向量机层中进行高维映射,得到每个词的高维词向量;
基于预设的多类SVM损失函数对多个词的高维词向量进行分类预测,得到分类结果。
2.如权利要求1所述的基于支持向量机的文本分类方法,其特征在于,所述将每个词的加权词向量输入至支持向量机层中进行高维映射,得到每个词的高维词向量包括:
采用预设的核函数,在支持向量机层将每个词的加权词向量映射到高维空间进行线性变换,得到每个词的高维词向量。
3.如权利要求1所述的基于支持向量机的文本分类方法,其特征在于,所述将所述语料集输入至预设的词向量提取模型中,得到每个词的低维词向量包括:
对所述语料集中的每个语料进行文本预处理,得到目标语料;
对所述目标语料进行文本分割,得到多个词;
将所述多个词输入至Encode模型中进行编码,得到每个词的编码向量;
将每个词的编码向量及每个词的位置信息输入至Transform层,得到每个词的低维词向量。
4.如权利要求1所述的基于支持向量机的文本分类方法,其特征在于,所述计算每个词的低维词向量的加权词向量包括:
为所述每个词的低维词向量创建query词向量、key词向量和value词向量;
获取预先训练好的query词向量的注意力权重矩阵、key词向量的注意力权重矩阵和value词向量的注意力权重矩阵;
计算每个词的query词向量与query词向量的注意力权重矩阵的内积,得到每个词的目标query词向量;
计算每个词的key词向量与key词向量的注意力权重矩阵的内积,得到每个词的目标key词向量;
计算每个词的value词向量与value词向量的注意力权重矩阵的内积,得到每个词的目标value词向量;
将每个词的目标query词向量、目标key词向量及目标value词向量确定为每个词的加权词向量。
5.如权利要求1所述的基于支持向量机的文本分类方法,其特征在于,所述基于预设的多类SVM损失函数对多个词的高维词向量进行分类预测,得到分类结果包括:
基于预设的多类SVM损失函数计算任意一个类别的第一损失值;
计算多种类别的第一损失值的均值得到第二损失值;
基于所述第二损失值对所述多个词的高维词向量进行分类预测,得到分类结果。
7.如权利要求1所述的基于支持向量机的文本分类方法,其特征在于,所述解析接收的文本分类请求,获取语料集包括:
解析文本分类请求,获取对应的目标领域;
根据所述目标领域获取预设的多个数据源;
识别预设的每个数据源对应的接口及优先级别;
根据所述预设的多个数据源的优先级别将所述多个接口组成获取语料集环节的接口列表;
按照预设的获取方式从所述接口列表的队头开始调用对应的接口获取语料集。
8.一种基于支持向量机的文本分类装置,其特征在于,所述装置包括:
获取模块,用于解析接收的文本分类请求,获取语料集,其中,所述语料集中包含有多种类别的语料集;
第一输入模块,用于将所述语料集输入至预设的词向量提取模型中,得到每个词的低维词向量,其中,所述词向量提取模型中包含有Encode模型,及与所述Encode模型连接的Transform层;
计算模块,用于将每个词的低维词向量输入至自注意力层,计算每个词的低维词向量的加权词向量;
第二输入模块,用于将每个词的加权词向量输入至支持向量机层中进行高维映射,得到每个词的高维词向量;
分类预测模块,用于基于预设的多类SVM损失函数对多个词的高维词向量进行分类预测,得到分类结果。
9.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现如权利要求1至7中任意一项所述的基于支持向量机的文本分类方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的基于支持向量机的文本分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111035894.4A CN113486183B (zh) | 2021-09-06 | 2021-09-06 | 基于支持向量机的文本分类方法、装置、电子设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111035894.4A CN113486183B (zh) | 2021-09-06 | 2021-09-06 | 基于支持向量机的文本分类方法、装置、电子设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113486183A true CN113486183A (zh) | 2021-10-08 |
CN113486183B CN113486183B (zh) | 2021-11-30 |
Family
ID=77947182
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111035894.4A Active CN113486183B (zh) | 2021-09-06 | 2021-09-06 | 基于支持向量机的文本分类方法、装置、电子设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113486183B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105637886A (zh) * | 2014-09-25 | 2016-06-01 | 华为技术有限公司 | 用于向客户端提供图形用户界面的服务器,以及客户端 |
CN107101828A (zh) * | 2017-05-27 | 2017-08-29 | 辽宁大学 | 一种编码器健康度评价的轴承剩余寿命预测方法 |
CN108027834A (zh) * | 2015-09-21 | 2018-05-11 | 高通股份有限公司 | 用于通过文本的视频搜索的语义多感官嵌入 |
US10332508B1 (en) * | 2016-03-31 | 2019-06-25 | Amazon Technologies, Inc. | Confidence checking for speech processing and query answering |
CN113342940A (zh) * | 2021-06-24 | 2021-09-03 | 中国平安人寿保险股份有限公司 | 文本匹配分析方法、装置、电子设备及存储介质 |
-
2021
- 2021-09-06 CN CN202111035894.4A patent/CN113486183B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105637886A (zh) * | 2014-09-25 | 2016-06-01 | 华为技术有限公司 | 用于向客户端提供图形用户界面的服务器,以及客户端 |
CN108027834A (zh) * | 2015-09-21 | 2018-05-11 | 高通股份有限公司 | 用于通过文本的视频搜索的语义多感官嵌入 |
US10332508B1 (en) * | 2016-03-31 | 2019-06-25 | Amazon Technologies, Inc. | Confidence checking for speech processing and query answering |
CN107101828A (zh) * | 2017-05-27 | 2017-08-29 | 辽宁大学 | 一种编码器健康度评价的轴承剩余寿命预测方法 |
CN113342940A (zh) * | 2021-06-24 | 2021-09-03 | 中国平安人寿保险股份有限公司 | 文本匹配分析方法、装置、电子设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
GUIBIN CHEN ET AL.: "Learning a Dual-Language Vector Space for", 《IEEE ASE》 * |
Also Published As
Publication number | Publication date |
---|---|
CN113486183B (zh) | 2021-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112288075B (zh) | 一种数据处理方法及相关设备 | |
CN116415654A (zh) | 一种数据处理方法及相关设备 | |
CN113326380B (zh) | 基于深度神经网络的设备量测数据处理方法、系统及终端 | |
CN111898636B (zh) | 一种数据处理方法及装置 | |
CN113435582B (zh) | 基于句向量预训练模型的文本处理方法及相关设备 | |
CN113435998B (zh) | 贷款逾期预测方法、装置、电子设备及存储介质 | |
CN113807973B (zh) | 文本纠错方法、装置、电子设备及计算机可读存储介质 | |
CN112906385A (zh) | 文本摘要生成方法、计算机设备及存储介质 | |
Vlachos | An investigation of imitation learning algorithms for structured prediction | |
CN114663223A (zh) | 基于人工智能的信用风险评估方法、装置及相关设备 | |
CN114880449B (zh) | 智能问答的答复生成方法、装置、电子设备及存储介质 | |
CN113723513A (zh) | 多标签图像分类方法、装置及相关设备 | |
WO2023040145A1 (zh) | 基于人工智能的文本分类方法、装置、电子设备及介质 | |
US11797776B2 (en) | Utilizing machine learning models and in-domain and out-of-domain data distribution to predict a causality relationship between events expressed in natural language text | |
US11275893B1 (en) | Reference document generation using a federated learning system | |
CN114020892A (zh) | 基于人工智能的答案选取方法、装置、电子设备及介质 | |
Motz et al. | Benchmarking of hyperparameter optimization techniques for machine learning applications in production | |
CN113486183B (zh) | 基于支持向量机的文本分类方法、装置、电子设备及介质 | |
CN113570286B (zh) | 基于人工智能的资源分配方法、装置、电子设备及介质 | |
CN114398902A (zh) | 基于人工智能的中文语义提取方法及相关设备 | |
Chatterjee et al. | Automated question-answering for interactive decision support in operations & maintenance of wind turbines | |
CN114881313A (zh) | 基于人工智能的行为预测方法、装置及相关设备 | |
Barbierato et al. | Towards Green AI. A methodological survey of the scientific literature | |
CN113342940A (zh) | 文本匹配分析方法、装置、电子设备及存储介质 | |
Zheng | Optimization of computer programming based on mathematical models of artificial intelligence algorithms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |