CN111611386B - 文本分类方法和装置 - Google Patents
文本分类方法和装置 Download PDFInfo
- Publication number
- CN111611386B CN111611386B CN202010466025.6A CN202010466025A CN111611386B CN 111611386 B CN111611386 B CN 111611386B CN 202010466025 A CN202010466025 A CN 202010466025A CN 111611386 B CN111611386 B CN 111611386B
- Authority
- CN
- China
- Prior art keywords
- text
- classification
- classifier
- network
- probability value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000013145 classification model Methods 0.000 claims abstract description 60
- 238000000605 extraction Methods 0.000 claims abstract description 50
- 230000006870 function Effects 0.000 claims description 63
- 238000012549 training Methods 0.000 claims description 62
- 238000012545 processing Methods 0.000 claims description 46
- 239000013598 vector Substances 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 230000000306 recurrent effect Effects 0.000 claims description 4
- 230000007787 long-term memory Effects 0.000 claims description 2
- 238000003058 natural language processing Methods 0.000 abstract description 3
- 230000015654 memory Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提出一种文本分类方法和装置,涉及自然语言处理技术领域。该文本分类方法包括:获取待测文本;将待测文本输入预先训练的分类模型,分类模型包括特征提取网络和分类网络,分类网络包括多个分类器;利用特征提取网络从待测文本中提取得到多个文本特征信息;将多个文本特征信息一一对应输入分类网络的多个分类器进行分类处理,得到每个分类器的概率值;依据每个分类器的概率值得到待测文本的分类结果。本发明实施例提出的文本分类方法和装置具有准确率和效率高的优点。
Description
技术领域
本发明涉及自然语言处理技术领域,具体而言,涉及一种文本分类方法和装置。
背景技术
多标签文本分类是自然语言处理的核心研究领域,也是实现智能系统的关键技术。传统的多标签文本处理方法是对每一个标签做一个二分类器,然后将所有的二分类器进行融合,最终计算得出所有的类别标签。该方法在类别标签增多时,难以实现,且模型过多时,算法效率会严重下降。
发明内容
有鉴于此,本发明的目的在于提供一种文本分类方法和装置,其具有准确率和效率高的优点。
为了实现上述目的,本发明实施例采用的技术方案如下:
第一方面,实施例提供一种文本分类方法,所述方法包括:
获取待测文本;
将所述待测文本输入预先训练的分类模型,所述分类模型包括特征提取网络和分类网络,所述分类网络包括多个分类器;
利用所述特征提取网络从所述待测文本中提取得到多个文本特征信息;
将所述多个文本特征信息一一对应输入所述分类网络的多个分类器进行分类处理,得到每个所述分类器的概率值;
依据每个所述分类器的概率值得到所述待测文本的分类结果。
在可选的实施方式中,所述分类模型还包括全连接网络,所述将所述待测文本输入预先训练的分类模型的步骤,还包括:
将所述多个文本特征信息输入所述全连接网络,利用所述全连接网络将所述多个文本特征信息处理成多个一维向量;
将所述多个一维向量一一对应输入所述多个分类器进行分类处理,得到每个所述分类器的概率值。
在可选的实施方式中,所述分类模型是按照以下方式进行训练的:
获取训练样本;
将所述训练样本输入预先构建的分类模型;
利用所述特征提取网络从所述训练样本中提取得到多个训练文本特征信息;
将所述多个训练文本特征信息一一对应输入所述分类网络的多个分类器进行分类处理,得到每个所述分类器的概率值;其中,每个所述分类器预先对应设置有标签信息;
根据每个分类器的标签信息和输出的概率值,对所述特征提取网络和每个所述分类器的参数更新,得到训练后的分类模型。
在可选的实施方式中,所述根据每个分类器的标签信息和输出的概率值,对所述特征提取网络和每个所述分类器的参数更新,得到训练后的分类模型的步骤,包括:
将每个分类器的标签信息和输出的概率值进行计算,获得与每个分类器对应的交叉熵损失函数;
对多个所述交叉熵损失函数进行加权平均计算,获得目标损失函数;
依据所述目标损失函数对所述特征提取网络的参数和每个所述分类器的权重进行更新,直至所述目标损失函数满足预设收敛条件,得到所述训练后的分类模型。
在可选的实施方式中,所述对多个所述交叉熵损失函数进行加权平均计算,获得目标损失函数的步骤,包括:
利用公式Loss=1/N(w1﹡CrossEntropy1+w2﹡CrossEntropy2+…+wN﹡CrossEntropyN),对所述多个交叉熵损失函数进行加权平均计算,得到所述目标损失函数;其中,Loss表示所述目标损失函数,w表示预先设置的初始权重,CrossEntropy表示所述交叉熵损失函数,N表示所述分类器的数量。
在可选的实施方式中,所述特征提取网络包括用bert预训练网络、循环神经网络和长短期记忆网络中的一种。
在可选的实施方式中,所述分类器包括Sigmoid函数和归一化指数函数中的一种。
第二方面,实施例提供一种文本分类装置,所述装置包括:
获取模块,用于获取待测文本;
文本特征输入模块,用于将所述待测文本输入预先训练的分类模型,所述分类模型包括特征提取网络和分类网络,所述分类网络包括多个分类器;
第一处理模块,用于利用所述特征提取网络从所述待测文本中提取得到多个文本特征信息;
第二处理模块,用于将所述多个文本特征信息一一对应输入所述分类网络的多个分类器进行分类处理,得到每个所述分类器的概率值;
结果获得模块,用于依据每个所述分类器的概率值得到所述待测文本的分类结果。
在可选的实施方式中,所述分类模型还包括全连接网络,所述文本分类装置还包括:
第三处理模块,用于将所述多个文本特征信息输入所述全连接网络,利用所述全连接网络将所述多个文本特征信息处理成多个一维向量;
所述第二处理模块,用于将所述多个一维向量一一对应输入所述多个分类器进行分类处理,得到每个所述分类器的概率值。
在可选的实施方式中,所述文本分类装置还包括训练模块,用于训练所述分类模型;
所述训练模块包括:
样本获取单元,用于获取训练样本;
样本输入单元,用于将所述训练样本输入预先构建的分类模型;
第一执行单元,用于利用所述特征提取网络从所述训练样本中提取得到多个训练文本特征信息;
第二执行单元,用于将所述多个训练文本特征信息一一对应输入所述分类网络的多个分类器进行分类处理,得到每个所述分类器的概率值;其中,每个所述分类器预先对应设置有标签信息;
参数更新单元,用于根据每个分类器的标签信息和输出的概率值,对所述特征提取网络和每个所述分类器的参数更新,得到训练后的分类模型。
本发明实施例提供的文本分类方法和装置的有益效果为:该文本分类方法通过获取待测文本;将待测文本输入预先训练的分类模型,分类模型包括特征提取网络和分类网络,分类网络包括多个分类器;利用特征提取网络从待测文本中提取得到多个文本特征信息;将多个文本特征信息一一对应输入分类网络的多个分类器进行分类处理,得到每个分类器的概率值;依据每个分类器的概率值得到待测文本的分类结果。可见,通过设置多个分类器,经过一次分类模型的计算就能获得所有的文本特征信息对应的概率值,使得计算的时间减小,提高工作效率。并通过特征提取网络与分类网络的结合,使得文本分类方法准确率更高。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本发明实施例提供的一种电子设备的结构示意图;
图2示出了本发明实施例提供的一种文本分类方法的流程示意图;
图3示出了本发明实施例提供的文本分类方法的分类模型的网络结构示意图;
图4示出了本发明实施例提供的另一种文本分类方法的流程示意图;
图5示出了本发明实施例提供的一种文本分类装置的功能结构示意图;
图6示出了本发明实施例提供的另一种文本分类装置的功能结构示意图。
图标:100-电子设备;110-存储器;120-处理器;130-通信模块;140-文本分类装置;141-获取模块;142-文本特征输入模块;143-第一处理模块;144-第二处理模块;145-第三处理模块;146-结果获得模块;147-训练模块;1471-样本获取单元;1472-样本输入单元;1473-第一执行单元;1474-第二执行单元;1475-参数更新单元。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
请参照图1,图1示出了本发明实施例提供的电子设备100的结构示意图。电子设备100包括处理器120、存储器110及通信模块130,所述存储器110、处理器120以及通信模块130各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。
其中,存储器110用于存储程序或者数据。所述存储器110可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-Only Memory,PROM),可擦除只读存储器(ErasableProgrammable Read-Only Memory,EPROM),电可擦除只读存储器(Electric ErasableProgrammable Read-Only Memory,EEPROM)等。
处理器120用于读/写存储器110中存储的数据或程序,并执行相应地功能。例如,处理器120在接收到执行指令后,执行所述程序以实现文本分类方法。处理器120可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,文本分类方法的各步骤可以通过处理器120中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器120可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(NetworkProcessor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
通信模块130用于通过所述网络建立所述电子设备100与其它通信终端之间的通信连接,并用于通过所述网络收发数据。
应当理解的是,图1所示的结构仅为电子设备100的结构示意图,所述电子设备100还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。
电子设备100可以是通用计算机或特殊用途的计算机,两者都可以用于实现文本分类方法,也就是,文本分类方法的执行主体可以是同一个计算机,可以是不同的计算机。本发明实施例以一个计算机为执行主体为例进行说明。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器120执行时可实现文本分类方法。
请参照图2,图2示出了本发明实施例提供的文本分类方法的一种可实施的流程示意图。需要说明的是,本发明实施例提供的文本分类方法并不以图2以及以下的具体顺序为限制,应当理解,在其他实施例中,本发明实施例提供的文本分类方法其中部分步骤的顺序可以根据实际需要相互交换,或者其中的部分步骤也可以省略或删除。该文本分类方法可以应用在图1所示的电子设备100中,下面将对图2所示的具体流程进行详细阐述。
步骤S201,获取待测文本。
在本实施例中,待测文本可以是新闻和广告等获取到的数据,也就是,待测文本可以包括新闻数据和广告数据等。
步骤S202,将待测文本输入预先训练的分类模型,分类模型包括特征提取网络和分类网络,分类网络包括多个分类器。
在本实施例中,请参照图3,分类模型包括特征提取网络和分类网络,分类网络包括多个分类器。特征提取网络用于获得待测文本中每个词的向量数据,即将不带括号格式转变为数字格式。分类网络用于计算出每个分类器的概率值,下面通过步骤S203~S204进行详细介绍。
步骤S203,利用特征提取网络从待测文本中提取得到多个文本特征信息。
在本实施例中,特征提取网络可以包括bert(Bidirectional EncoderRepresentation from Transformers)预训练网络、循环神经网络(Recurrent NeuralNetwork,RNN)和长短期记忆网络(Long Short-Term Memory,LSTM)中的一种。在本实施例中以特征提取网络为bert预训练网络为例进行详细说明。
将待测文本通过bert预训练网络进行特征提取得到多个文本特征信息。例如,若待测文本为“a牌汽车的质量很好”,bert预训练网络会先将待测文本划分为“a牌”、“汽车”、“的”、“质量”及“很好”等多个待测标签信息,然后再将多个待测标签信息“a牌”、“汽车”、“的”、“质量”及“很好”由不带括号格式转换为数字格式,获得多个文本特征信息。
步骤S204,将多个文本特征信息一一对应输入分类网络的多个分类器进行分类处理,得到每个分类器的概率值。
在本实施例中,分类器可以包括Sigmoid函数(Sigmoid function)和归一化指数函数(Normalized exponential function,Softmax函数)中的一种。其中,Sigmoid函数一般用于处理二分类问题,Softmax函数一般用于处理多分类问题。
在本实施例中,以分类器为Sigmoid函数为例进行详细说明。每个Sigmoid函数会预先设置有标签信息,bert预训练网络与多个Sigmoid函数并联。将经过bert预训练网络进行提取而获得的多个文本特征信息一一对应输入到多个Sigmoid函数中,得到每个文本特征信息与每个Sigmoid函数中预先设置的标签信息是与否的概率值,即获得每个分类器的概率值。其中,概率值介于0到1之间。
在本实施例中,Sigmoid函数采用公式F(z)=1/(1+e^(-z))计算得到输入至该Sigmoid函数的文本特征信息与该Sigmoid函数的标签信息是与否的概率值。其中,F(z)用于表示概率值,z用于表示文本特征信息。
进一步地,在本实施例中,在多个文本特征信息输入多个分类器之前需对多个文本特征信息进行降维处理。故分类模型还包括全连接网络,多个文本特征信息通过全连接网络输入至多个分类器。
可以理解,将多个文本特征信息输入全连接网络,利用全连接网络将多个文本特征信息处理成多个一维向量;将多个一维向量一一对应输入多个分离器进行分类处理,得到每个分类器的概率值。
步骤S205,依据每个分类器的概率值得到待测文本的分类结果。
在本实施例中,依据每个分类器的概率值就能获得每个类别标签的权重,根据每个类别标签的权重就能判定该待测文本的分类结果。例如,若分类结果可以包括好评、中评和差评,若多个文本特征信息包括“a牌”、“汽车”、“的”、“质量”及“很好”,若第一Sigmoid函数预设的标签信息是“质量好”,第二Sigmoid函数预设的标签信息是“质量一般”,第三Sigmoid函数预设的标签信息是“质量差”。将前述多个文本特征信息一一对应输入至第一Sigmoid函数、第二Sigmoid函数和第三Sigmoid函数,获得文本特征信息为“质量”及“很好”与标签信息为“质量好”的概率值高于标签信息为“质量一般”和“质量差”的概率值,进而获得类别标签为好评的权重高于类别标签为中评和差评,故判定该待测文本的分类结果为好评。
在本实施例中,在使用分类模型前,需对预先构建的分类模型进行模型训练,训练完成后才能进行使用。请参照图4,为分类模型训练的一种可实施的流程示意图。包括以下步骤:
步骤S301,获取训练样本。
在本实施例中,训练样本可以是新闻和广告等获取到的数据,也就是,训练样本可以包括新闻数据和广告数据等。
步骤S302,将训练样本输入预先构建的分类模型。
在本实施例中,预先构建的分类模型包括特征提取网络和分类网络,分类网络包括多个分类器。
步骤S303,利用特征提取网络从训练样本中提取得到多个训练文本特征信息。
在本实施例中,训练样本通过特征提取网络先划分为多个训练标签信息,再将多个训练标签信息由不带括号格式转换为数字格式获得多个训练文本特征信息。
步骤S304,将多个训练文本特征信息一一对应输入分类网络的多个分类器进行分类处理,得到每个分类器的概率值;其中,每个分类器预先对应设置有标签信息。
在本实施例中,将多个训练文本特征信息一一对应输入多个分类器中,得到每个训练文本特征信息与每个分类器中预先设置的标签信息是与否的概率值。
进一步地,在本实施例中,由于分类模型还包括全连接网络,故分类模型在训练时,多个训练文本特征信息通过全连接网络输入至多个分离器中进行分类处理。
步骤S305,根据每个分类器的标签信息和输出的概率值,对特征提取网络和每个分类器的参数更新,得到训练后的分类模型。
在本实施例中,将每个分类器的标签信息和输出的概率值进行计算,获得与每个分类器对应的交叉熵损失函数;对多个交叉熵损失函数进行加权平均计算,获得目标损失函数;依据目标损失函数对特征提取网络的参数和每个分类器的权重进行更新,直至目标损失函数满足预设收敛条件,得到训练后的分类模型。
可以理解,利用公式Loss=1/N(w1﹡CrossEntropy1+w2﹡CrossEntropy2+…+wN﹡CrossEntropyN),对多个交叉熵损失函数进行加权平均计算,得到目标损失函数;其中,Loss表示目标损失函数,w表示预先设置的初始权重,CrossEntropy表示交叉熵损失函数,N表示分类器的数量。
其中,依据目标损失函数对特征提取网络的参数和每个分类器的权重进行更新的过程中会对特征提取网络的所有参数以及每个分类器的权重均会进行更新。且通过梯度下降算法将特征提取网络和分类网络中误差进行方向调节参数,当特征提取网络和分类网络中误差不再继续下降则表示目标损失函数已满足预设收敛条件。
为了执行上述实施例及各个可能的方式中的相应步骤,下面给出一种文本分类装置140的实现方式。进一步地,请参阅图5,图5为本发明实施例提供的一种文本分类装置140的功能模块图。需要说明的是,本实施例所提供的文本分类装置140,其基本原理及产生的技术效果和上述实施例相同,为简要描述,本实施例部分未提及之处,可参考上述的实施例中相应内容。该文本分类装置140包括:获取模块141、文本特征输入模块142、第一处理模块143、第二处理模块144和结果获得模块146。
获取模块141用于获取待测文本。
可以理解,获取模块141用于执行上述步骤S201的内容。
文本特征输入模块142用于将待测文本输入预先训练的分类模型,分类模型包括特征提取网络和分类网络,分类网络包括多个分类器。
可以理解,文本特征输入模块142用于执行上述步骤S202的内容。
第一处理模块143用于利用特征提取网络从待测文本中提取得到多个文本特征信息。
可以理解,第一处理模块143用于执行上述步骤S203的内容。
第二处理模块144用于将多个文本特征信息一一对应输入分类网络的多个分类器进行分类处理,得到每个分类器的概率值。
可以理解,第二处理模块144用于执行上述步骤S204的内容。
结果获得模块146用于依据每个分类器的概率值得到待测文本的分类结果。
可以理解,结果获得模块146用于执行上述步骤S205的内容。
进一步地,在本实施例中,文本分类装置140还包括第三处理模块145,第三处理模块145用于将多个文本特征信息输入全连接网络,利用全连接网络将多个文本特征信息处理成多个一维向量。
第二处理模块144用于将多个一维向量一一对应输入多个分类器进行分类处理,得到每个分类器的概率值。
进一步地,在本实施例中,文本分类装置140还包括训练模块147,训练模块147用于训练分类模型。
请参照图6,训练模块147包括:样本获取单元1471、样本输入单元1472、第一执行单元1473、第二执行单元1474和参数更新单元1475。
样本获取单元1471用于获取训练样本。
可以理解,样本获取单元1471用于执行上述步骤S301的内容。
样本输入单元1472用于将训练样本输入预先构建的分类模型。
可以理解,样本输入单元1472用于执行上述步骤S302的内容。
第一执行单元1473用于利用特征提取网络从训练样本中提取得到多个训练文本特征信息。
可以理解,第一执行单元1473用于执行上述步骤S303的内容。
第二执行单元1474用于将多个训练文本特征信息一一对应输入分类网络的多个分类器进行分类处理,得到每个分类器的概率值;其中,每个分类器预先对应设置有标签信息。
可以理解,第二执行单元1474用于执行上述步骤S304的内容。
参数更新单元1475用于根据每个分类器的标签信息和输出的概率值,对特征提取网络和每个分类器的参数更新,得到训练后的分类模型。
可以理解,参数更新单元1475用于执行上述步骤S305的内容。
可选地,上述模块可以软件或固件(Firmware)的形式存储于图1所示的存储器110中或固化于该电子设备100的操作系统(Operating System,OS)中,并可由图1中的处理器120执行。同时,执行上述模块所需的数据、程序的代码等可以存储在存储器110中。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
综上所述,本发明实施例提供了一种文本分类方法和装置,该文本分类方法通过获取待测文本;将待测文本输入预先训练的分类模型,分类模型包括特征提取网络和分类网络,分类网络包括多个分类器;利用特征提取网络从待测文本中提取得到多个文本特征信息;将多个文本特征信息一一对应输入分类网络的多个分类器进行分类处理,得到每个分类器的概率值;依据每个分类器的概率值得到待测文本的分类结果。可见,通过设置多个分类器,经过一次分类模型的计算就能获得所有的文本特征信息对应的概率值,使得计算的时间减小,提高工作效率。并通过特征提取网络与分类网络的结合,使得文本分类方法准确率更高。
同时,在进行分类模型训练时,通过一次模型训练就能计算出所有的参数,并能够根据训练样本的分布自动学习出没类数据的权重,对于类别增多时,该分类模型在不提高训练时间的情况下,仍能达到很好的时间效率。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种文本分类方法,其特征在于,所述方法包括:
获取待测文本;
将所述待测文本输入预先训练的分类模型,所述分类模型包括特征提取网络和分类网络,所述分类网络包括多个分类器,每个所述分类器中预先设置有标签信息;
利用所述特征提取网络从所述待测文本中提取得到多个文本特征信息;
将所述多个文本特征信息一一对应输入所述分类网络的多个分类器进行分类处理,得到每个所述分类器的概率值,其中,每个所述分类器的概率值包括每个所述分类器中预先设置的标签信息与每个文本特征信息是与否的概率值;
依据每个所述分类器的概率值得到所述待测文本的分类结果,所述待测文本的分类结果为具有最高概率值的所述分类器的标签信息。
2.根据权利要求1所述的文本分类方法,其特征在于,所述分类模型还包括全连接网络,所述将所述待测文本输入预先训练的分类模型的步骤,还包括:
将所述多个文本特征信息输入所述全连接网络,利用所述全连接网络将所述多个文本特征信息处理成多个一维向量;
将所述多个一维向量一一对应输入所述多个分类器进行分类处理,得到每个所述分类器的概率值。
3.根据权利要求1所述的文本分类方法,其特征在于,所述分类模型是按照以下方式进行训练的:
获取训练样本;
将所述训练样本输入预先构建的分类模型;
利用所述特征提取网络从所述训练样本中提取得到多个训练文本特征信息;
将所述多个训练文本特征信息一一对应输入所述分类网络的多个分类器进行分类处理,得到每个所述分类器的概率值;
根据每个分类器的标签信息和输出的概率值,对所述特征提取网络和每个所述分类器的参数更新,得到训练后的分类模型。
4.根据权利要求3所述的文本分类方法,其特征在于,所述根据每个分类器的标签信息和输出的概率值,对所述特征提取网络和每个所述分类器的参数更新,得到训练后的分类模型的步骤,包括:
将每个分类器的标签信息和输出的概率值进行计算,获得与每个分类器对应的交叉熵损失函数;
对多个所述交叉熵损失函数进行加权平均计算,获得目标损失函数;
依据所述目标损失函数对所述特征提取网络的参数和每个所述分类器的权重进行更新,直至所述目标损失函数满足预设收敛条件,得到所述训练后的分类模型。
5.根据权利要求4所述的文本分类方法,其特征在于,所述对多个所述交叉熵损失函数进行加权平均计算,获得目标损失函数的步骤,包括:
利用公式Loss=1/N(w1﹡CrossEntropy1+w2﹡CrossEntropy2+…+wN﹡CrossEntropyN),对多个所述交叉熵损失函数进行加权平均计算,得到所述目标损失函数;其中,Loss表示所述目标损失函数,w表示预先设置的初始权重,CrossEntropy表示所述交叉熵损失函数,N表示所述分类器的数量。
6.根据权利要求1所述的文本分类方法,其特征在于,所述特征提取网络包括bert预训练网络、循环神经网络和长短期记忆网络中的一种。
7.根据权利要求1所述的文本分类方法,其特征在于,所述分类器包括Sigmoid函数和归一化指数函数中的一种。
8.一种文本分类装置,其特征在于,所述装置包括:
获取模块,用于获取待测文本;
文本特征输入模块,用于将所述待测文本输入预先训练的分类模型,所述分类模型包括特征提取网络和分类网络,所述分类网络包括多个分类器,每个所述分类器中预先设置有标签信息;
第一处理模块,用于利用所述特征提取网络从所述待测文本中提取得到多个文本特征信息;
第二处理模块,用于将所述多个文本特征信息一一对应输入所述分类网络的多个分类器进行分类处理,得到每个所述分类器的概率值,其中,每个所述分类器的概率值表征每个所述分类器中预先设置的标签信息与每个文本特征信息是与否的概率值;
结果获得模块,用于依据每个所述分类器的概率值得到所述待测文本的分类结果,所述待测文本的分类结果为具有最高概率值的所述分类器的标签信息。
9.根据权利要求8所述的文本分类装置,其特征在于,所述分类模型还包括全连接网络,所述文本分类装置还包括:
第三处理模块,用于将所述多个文本特征信息输入所述全连接网络,利用所述全连接网络将所述多个文本特征信息处理成多个一维向量;
所述第二处理模块,用于将所述多个一维向量一一对应输入所述多个分类器进行分类处理,得到每个所述分类器的概率值。
10.根据权利要求8所述的文本分类装置,其特征在于,所述文本分类装置还包括训练模块,用于训练所述分类模型;
所述训练模块包括:
样本获取单元,用于获取训练样本;
样本输入单元,用于将所述训练样本输入预先构建的分类模型;
第一执行单元,用于利用所述特征提取网络从所述训练样本中提取得到多个训练文本特征信息;
第二执行单元,用于将所述多个训练文本特征信息一一对应输入所述分类网络的多个分类器进行分类处理,得到每个所述分类器的概率值;
参数更新单元,用于根据每个分类器的标签信息和输出的概率值,对所述特征提取网络和每个所述分类器的参数更新,得到训练后的分类模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010466025.6A CN111611386B (zh) | 2020-05-28 | 2020-05-28 | 文本分类方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010466025.6A CN111611386B (zh) | 2020-05-28 | 2020-05-28 | 文本分类方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111611386A CN111611386A (zh) | 2020-09-01 |
CN111611386B true CN111611386B (zh) | 2024-03-29 |
Family
ID=72196338
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010466025.6A Active CN111611386B (zh) | 2020-05-28 | 2020-05-28 | 文本分类方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111611386B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112329823B (zh) * | 2020-10-23 | 2022-02-01 | 北京中科智加科技有限公司 | 文本分类方法及装置、设备及介质 |
CN112329824A (zh) * | 2020-10-23 | 2021-02-05 | 北京中科智加科技有限公司 | 多模型融合训练方法、文本分类方法以及装置 |
CN112182229A (zh) * | 2020-11-05 | 2021-01-05 | 江西高创保安服务技术有限公司 | 一种文本分类模型构建方法、文本分类方法及装置 |
CN113806536B (zh) * | 2021-09-14 | 2024-04-16 | 广州华多网络科技有限公司 | 文本分类方法及其装置、设备、介质、产品 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109471938A (zh) * | 2018-10-11 | 2019-03-15 | 平安科技(深圳)有限公司 | 一种文本分类方法及终端 |
WO2019100724A1 (zh) * | 2017-11-24 | 2019-05-31 | 华为技术有限公司 | 训练多标签分类模型的方法和装置 |
CN109871444A (zh) * | 2019-01-16 | 2019-06-11 | 北京邮电大学 | 一种文本分类方法及系统 |
-
2020
- 2020-05-28 CN CN202010466025.6A patent/CN111611386B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019100724A1 (zh) * | 2017-11-24 | 2019-05-31 | 华为技术有限公司 | 训练多标签分类模型的方法和装置 |
CN109471938A (zh) * | 2018-10-11 | 2019-03-15 | 平安科技(深圳)有限公司 | 一种文本分类方法及终端 |
CN109871444A (zh) * | 2019-01-16 | 2019-06-11 | 北京邮电大学 | 一种文本分类方法及系统 |
Non-Patent Citations (2)
Title |
---|
姚佳奇 ; 徐正国 ; 燕继坤 ; 熊钢 ; 李智翔 ; .基于标签语义相似的动态多标签文本分类算法.计算机工程与应用.(19),全文. * |
李敏 ; 余正涛 ; .结合加权特征向量空间模型和RBPNN的文本分类方法.计算机系统应用.2012,(12),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111611386A (zh) | 2020-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111611386B (zh) | 文本分类方法和装置 | |
CN110347873B (zh) | 视频分类方法、装置、电子设备及存储介质 | |
CN110472675B (zh) | 图像分类方法、图像分类装置、存储介质与电子设备 | |
CN109635292B (zh) | 基于机器学习算法的工单质检方法和装置 | |
CN116639010A (zh) | 充电桩的智能控制系统及其方法 | |
WO2021208727A1 (zh) | 基于人工智能的文本错误检测方法、装置、计算机设备 | |
CN112784066B (zh) | 基于知识图谱的信息反馈方法、装置、终端和存储介质 | |
CN112182217B (zh) | 多标签文本类别的识别方法、装置、设备和存储介质 | |
CN112883990A (zh) | 数据分类方法及装置、计算机存储介质、电子设备 | |
CN114691525A (zh) | 测试用例的选择方法及装置 | |
CN114626380A (zh) | 实体识别的方法和装置、电子设备和存储介质 | |
CN111144575B (zh) | 舆情预警模型的训练方法、预警方法、装置、设备及介质 | |
CN111523322A (zh) | 需求文档质量评价模型训练方法及需求文档质量评价方法 | |
CN116956102A (zh) | 分类模型的训练方法、装置、设备、存储介质及程序产品 | |
CN116361454A (zh) | 一种基于Bloom分类法的课程教学案例自动评估方法 | |
CN112463964B (zh) | 文本分类及模型训练方法、装置、设备及存储介质 | |
CN114741697A (zh) | 恶意代码分类方法、装置、电子设备和介质 | |
CN114239750A (zh) | 告警数据处理方法、装置、存储介质和设备 | |
US20220004817A1 (en) | Data analysis system, learning device, method, and program | |
CN115017321A (zh) | 一种知识点预测方法、装置、存储介质以及计算机设备 | |
US20240233355A9 (en) | Model training apparatus, control method, and non-transitory computer-readable medium | |
US20240135696A1 (en) | Model training apparatus, control method, and non-transitory computer-readable medium | |
CN111538914A (zh) | 地址信息的处理方法和装置 | |
CN115879446B (zh) | 文本处理方法、深度学习模型训练方法、装置以及设备 | |
CN116996527B (zh) | 一种汇聚分流器数据同步的方法及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Country or region after: China Address after: Building 4, No. 15 Haidian Middle Street, Haidian District, Beijing, 100000, Floor 1-5, 1st Floor Applicant after: Beijing minglue Zhaohui Technology Co.,Ltd. Address before: Room 2020, 2nd floor, building 27, 25 North Third Ring Road West, Haidian District, Beijing Applicant before: BEIJING SUPERTOOL INTERNET TECHNOLOGY LTD. Country or region before: China |
|
GR01 | Patent grant | ||
GR01 | Patent grant |