CN115292498A - 一种文档分类方法、系统、计算机设备及存储介质 - Google Patents
一种文档分类方法、系统、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN115292498A CN115292498A CN202211000816.5A CN202211000816A CN115292498A CN 115292498 A CN115292498 A CN 115292498A CN 202211000816 A CN202211000816 A CN 202211000816A CN 115292498 A CN115292498 A CN 115292498A
- Authority
- CN
- China
- Prior art keywords
- document
- model
- training data
- document classification
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000003860 storage Methods 0.000 title claims abstract description 20
- 238000012549 training Methods 0.000 claims abstract description 133
- 239000013598 vector Substances 0.000 claims abstract description 116
- 238000013145 classification model Methods 0.000 claims abstract description 78
- 230000011218 segmentation Effects 0.000 claims abstract description 39
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 17
- 238000012544 monitoring process Methods 0.000 claims abstract description 8
- 238000012360 testing method Methods 0.000 claims description 54
- 238000012545 processing Methods 0.000 claims description 23
- 238000004590 computer program Methods 0.000 claims description 15
- 238000012937 correction Methods 0.000 claims description 12
- 238000004140 cleaning Methods 0.000 claims description 10
- 238000005457 optimization Methods 0.000 claims description 8
- 230000009467 reduction Effects 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 5
- 238000012935 Averaging Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 6
- 230000004044 response Effects 0.000 abstract description 6
- 238000013461 design Methods 0.000 abstract description 4
- 230000008901 benefit Effects 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 9
- 230000008520 organization Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000007635 classification algorithm Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种文档分类方法、系统、计算机设备及存储介质,方法包括:监测是否有新类别的目标文档输入至预先构建的文档分类模型;响应于有新类别的目标文档,利用预设的分词算法对目标文档进行分词处理且得到目标语料库,并生成词汇级向量;利用汉语言模型N‑Gram对目标语料库中的各单词进行片段切分得到字符级向量;将词汇级向量和字符级向量构成的特征向量作为新的训练数据并输入文档分类模型,进而利用新的训练数据对文档分类模型进行优化,并基于优化后的文档分类模型输出目标文档的分类结果。本发明提供的分类方法利用相对较少的训练数据却能达到较高准确率的文档分类效果,是一种增量自学习式架构设计,训练效率高、分类准确率高。
Description
技术领域
本发明涉及文档管理领域,尤其涉及一种文档分类方法、系统、计算机设备及存储介质。
背景技术
在如今快节奏的生活与工作中,纷繁杂乱的文档会花费人们大量时间,因此,为便于文档管理,需要依据文档内容进行分类。
现有技术提供了一种基于传统机器学习的文档分类方法,首先根据文档中出现的关键词制定分类规则,建立好分类规则后,输入文档后先对文档内容进行分词,然后依据分类规则进行关键词匹配,匹配到哪个分类的关键词就判定文档属于哪个分类。但是,这种文档分类方法的准确率不高,而且,当同一个词可以在多个分类中出现时,现有技术的分类方法的分类结果就会不准确。举例而言,表1为一篇证据清单文档,很显然,依据关键词“身份证”、“个人汽车消费抵押贷款合同”、“一般条款”可以将该文档中划分为证据清单类别,但是,可以理解的是,“身份证”、“XXXX贷款合同”、“一般条款”在另一个文档中例如购车合同就需要被划分成贷款合同类别。
表1:
现有技术中还提供了一种基于深度学习的文档分类方法,通过用卷积神经网络CNN、前馈神经网络、长短期记忆网络LSTM等深度学习模型来对数据进行训练,从而对数据进行特征抽取。然而,这种方法最大的问题就是:需要选用大量的训练数据、验证数据以及测试数据来训练和修正算法模型,决定文档分类精度的影响因素是数据量以及训练过程中的迭代次数。尤其是在初期业务系统数据量不多的情况下,训练得到的模型准确率比较低,难以达到上线使用的要求。
实际应用中,通常会将文档分类系统与某机构的文档库进行对接,这种情况下需要对文档库中的大量文档进行分类打标签,而这些同类别的文档其文档模板可能相同,且每个类别下的文档数量并不相同即每个类别下文档的数量分布不均匀,因此,如果将该机构的文档分类系统再对接新机构的文档库时,需要识别新类别的文档。有鉴于此,有必要提供一种新的文档分类方案,能够基于少量的文档进行分类模型的构建,且能保证文档分类的准确性。
发明内容
本发明要解决的技术问题是:能够基于少量的文档进行分类模型的构建,且能保证文档分类的准确性。
为解决上述技术问题,本发明提供了一种文档分类方法,包括:
监测是否有新类别的目标文档输入至预先构建的文档分类模型;
响应于有新类别的目标文档,利用预设的分词算法对目标文档进行分词处理且得到目标语料库,并生成对应于所述目标语料库的词汇级向量;
利用汉语言模型N-Gram对所述目标语料库中的各单词进行片段切分,得到各单词对应的字符级向量;
将所述词汇级向量和所述字符级向量构成的特征向量作为新的训练数据并输入所述文档分类模型,进而利用新的训练数据对所述文档分类模型进行优化,并基于优化后的文档分类模型输出目标文档的分类结果。
可选地,还包括:
在未监测到新类别的目标文档的情况下,直接利用预先构建的所述文档分类模型对所述目标文档进行识别,且输出分类结果。
可选地,预先构建文档分类模型的步骤包括:
构建训练数据和测试数据,并分别对训练数据和测试数据标注类别标签;
利用预设的分词算法对训练数据中的文档进行分词处理且得到训练语料库,并生成对应于所述训练语料库的词汇级向量;
利用汉语言模型N-Gram对所述训练语料库中的各单词进行片段切分,得到各单词对应的字符级向量;
将所述词汇级向量和所述字符级向量构成的特征向量作为训练数据,输入至基于Softmax分类器构建的文档分类模型中,通过Softmax分类器的输入层、隐含层并经输出层输出训练数据的分类结果;以及,
将所述测试数据输入至所构建的文档分类模型,并输出所述测试数据的测试分类结果;利用所述测试数据的类别标签对所述测试分类结果进行准确性测试。
可选地,所述生成对应于所述训练语料库的词汇级向量之前,还包括:
对训练语料库中的停用词进行数据清洗;
对数据清洗后的训练语料库进行降维处理。
可选地,还包括:
将测试分类结果与对应的类别标签不一致的测试数据作为修正训练数据;
将所述修正训练数据输入至所述文档分类模型,通过调整所述Softmax分类器的参数使得模型输出的分类结果为对应的类别标签为止完成修正处理。
可选地,所述将所述词汇级向量和所述字符级向量构成的特征向量作为训练数据,输入至基于Softmax分类器构建的文档分类模型中的步骤,包括:
将所述词汇级向量和所述字符级向量进行叠加,并对叠加后的向量求平均,进而得到作为训练数据的特征向量。
可选地,所述Softmax分类器的学习率设置为0.6~1.2;
特征向量维度设置为200~300;
模型训练时的循环迭代次数设置为300~500;
汉语言模型N-Gram为一元模型。
为解决上述技术问题,本发明提供了一种文档分类系统,包括:
新类别监测单元,用于检测是否有新类别的目标文档输入至预先构建的文档分类模型;
单词切分单元,用于响应于有新类别的目标文档,利用预设的分词算法对目标文档进行分词处理且得到目标语料库,并生成对应于所述目标语料库的词汇级向量;
字符切分单元,用于利用汉语言模型N-Gram对所述目标语料库中的各单词进行片段切分,得到各单词对应的字符级向量;
分类及模型优化单元,用于将所述词汇级向量和所述字符级向量构成的特征向量作为新的训练数据并输入所述文档分类模型,进而利用新的训练数据对所述文档分类模型进行优化,并基于优化后的文档分类模型输出目标文档的分类结果。
可选地,所述分类及模型优化单元还用于:
在未监测到新类别的目标文档的情况下,直接利用预先构建的所述文档分类模型对所述目标文档进行识别,且输出分类结果。
可选地,预先构建文档分类模型的方式包括:
构建训练数据和测试数据,并分别对训练数据和测试数据标注类别标签;
利用预设的分词算法对训练数据中的文档进行分词处理且得到训练语料库,并生成对应于所述训练语料库的词汇级向量;
利用汉语言模型N-Gram对所述训练语料库中的各单词进行片段切分,得到各单词对应的字符级向量;
将所述词汇级向量和所述字符级向量构成的特征向量作为训练数据,输入至基于Softmax分类器构建的文档分类模型中,通过Softmax分类器的输入层、隐含层并经输出层输出训练数据的分类结果;以及,
将所述测试数据输入至所构建的文档分类模型,并输出所述测试数据的测试分类结果;利用所述测试数据的类别标签对所述测试分类结果进行准确性测试。
可选地,所述单词切分单元,还用于:
在生成对应于所述训练语料库的词汇级向量之前,对训练语料库中的停用词进行数据清洗;以及,对数据清洗后的训练语料库进行降维处理。
可选地,所述分类及模型优化单元,还用于:
将测试分类结果与对应的类别标签不一致的测试数据作为修正训练数据;
将所述修正训练数据输入至所述文档分类模型,通过调整所述Softmax分类器的参数使得模型输出的分类结果为对应的类别标签为止完成修正处理。
可选地,所述Softmax分类器的学习率设置为0.6~1.2;
特征向量维度设置为200~300;
模型训练时的循环迭代次数设置为300~500;
汉语言模型N-Gram为一元模型。
为解决上述技术问题,本发明提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法。
为解决上述技术问题,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述方法。
与现有技术相比,上述方案中的一个或多个实施例可以具有如下优点或有益效果:
本发明提供的文档分类方法、系统、计算机设备及存储介质,利用相对较少的训练数据却能达到较高准确率的文档分类效果,也即本发明的分类算法对训练数据的数据量要求不高,所构建的文档分类模型可以根据文档类别的结构特点,仅需要属于该类别的几条代表性的训练数据即可实现模型构建,是一种增量自学习式架构设计,训练效率高、分类准确率高。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的文档分类方法的一种流程图;
图2为本发明提供的文档分类模型构建时的真假阳性比值曲线ROC;
图3为本发明提供的利用Softmax分类器构建文档分类模型的逻辑图;
图4本发明实施例提供的文档分类系统的一种结构图;
图5为本发明提供的一种计算机设备的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实际应用中,通常会将文档分类系统与某机构的文档库进行对接,这种情况下需要对文档库中的大量文档进行分类打标签,而这些同类别的文档其文档模板可能相同,且每个类别下的文档数量并不相同即每个类别下文档的数量分布不均匀,因此,如果将该机构的文档分类系统再对接新机构的文档库时,需要识别新类别的文档。有鉴于此,有必要提供一种新的文档分类方案,能够基于少量的文档进行分类模型的构建,且能保证文档分类的准确性。因此,为了能够基于少量的文档进行分类模型的构建,且能保证文档分类的准确性,本发明提供了一种文档分类方法、系统、计算机设备及存储介质。
实施例一
下面对本发明实施例提供的文档分类方法进行说明。
如图1所示,为本发明实施例提供的文档分类方法的一种流程图,该方法可以包括以下步骤:
步骤S101:监测是否有新类别的目标文档输入至预先构建的文档分类模型。
在未监测到新类别的目标文档的情况下,直接利用预先构建的所述文档分类模型对所述目标文档进行识别,且输出分类结果。此外,为保证本文档布局的清晰可读性更佳,将文档分类模型的构建部分放在本实施例的最后进行单独说明。
步骤S102:响应于有新类别的目标文档,利用预设的分词算法对目标文档进行分词处理且得到目标语料库,并生成对应于所述目标语料库的词汇级向量。
一种方式中,目标语料库可以基于开源的语料库,还可以增加一些法律合同相关的语料。需要说明的是,本发明不限定语料库的来源。
对于文档分词而言,词是最小的语义单元,能够很大程度上代表文本的语义信息。而中文词汇之间是没有分隔符作为间隔的,例如英文中的空格等,因此需要对文档内容进行分词。实际应用中,可以采用常用分词工具Python分词、Jieba分词。当然,上述列举的Python分词和Jieba分词仅为两种具体方式,不作为对本发明的限定。
步骤S103:利用汉语言模型N-Gram对所述目标语料库中的各单词进行片段切分,得到各单词对应的字符级向量。
可以理解的是,本发明利用字符级的汉语言模型N-Gram对目标语料库中的各单词进行片段切分,可以将目标语料库中的每个单词类当成一个原子,利用汉语言模型N-Gram会为每个单词生成一个字符级的向量。
举例而言:
例1:
单词为:“苹果”;
词向量为:[0,0,0,0,0,1,0,0,0...........]
例2:
单词为:我喜欢北京。我喜欢NLP。
词向量表示如下:
Counts | 我 | 喜欢 | 北京 | NLP |
我 | 0 | 2 | 0 | 0 |
喜欢 | 2 | 0 | 1 | 1 |
北京 | 0 | 1 | 0 | 0 |
NLP | 0 | 1 | 0 | 0 |
需要说明的是,忽略单词内部的形态特征会具有以下两方面的优点:
一方面,对于低频词生成的词向量效果会更好。因为低频次生成的词向量的N-Gram可以和其它词即非低频词共享,所谓的词与词的共享是指一个词对其他的词有约束即为共享。另一方面,对于训练词库之外的单词,仍然可以构建它们的词向量,构建文档分类模型时可以叠加它们的字符级n-gram向量。
例如:对于单词“apple”,假设n的取值为3,则它的trigram有:
"<a p","a p p","p p l","p l e","l e>"其中,<表示前缀,>表示后缀。于是,可以用上述五个trigram来表示“apple”这个单词,进一步,我们可以用这五个trigram的向量叠加来表示“apple”的词向量,进而可以将apple跟apples进行区分。
步骤S104:将所述词汇级向量和所述字符级向量构成的特征向量作为新的训练数据并输入所述文档分类模型,进而利用新的训练数据对所述文档分类模型进行优化,并基于优化后的文档分类模型输出目标文档的分类结果。
需要说明的是,向文档分类模型输入数据时,除了将词汇级向量输入进模型外,还需要将单词的字符级别的n-gram向量作为额外的特征一并输入。而在文档分类模型输出分类结果时,采用了分层的Softmax分类器逻辑回归,大大降低了模型的训练时间。参见图3,从隐含层输出到输出层输出,会发现它就是一个Softmax线性多类别分类器,分类器的输入是一个用来表征当前文档的向量;模型的前半部分,即从输入层输入到隐含层输出部分,目的在于生成用来表征文档的向量。叠加构成这篇文档的所有词及n-gram的词向量,然后取平均,叠加词向量可参考现有技术中的词袋法,即将文档看成一个由词构成的集合。
可以看出,本发明提供的是一种自动增量模型训练方法,即可以根据新增加的类别数据,自动重复文档分类模型的构建过程,不断生成新的模型,通过对目标文档的类别监测,使得模型能自动感知到是否有新的训练数据,如果发现有新的训练数据,模型则会用这批新的训练数据去训练优化模型,当模型训练完成后,会将所有已经训练过的训练数据的数据状态更新为已训练状态,并将优化后的新模型发布到正式环境使用,同时模型可以对输入模型的目标文档继续进行监听。
应用本发明提供的文档分类方法,利用相对较少的训练数据却能达到较高准确率的文档分类效果,也即本发明的分类算法对训练数据的数据量要求不高,所构建的文档分类模型可以根据文档类别的结构特点,仅需要属于该类别的几条代表性的训练数据即可实现模型构建,是一种增量自学习式架构设计,训练效率高、分类准确率高。举例而言,调整参数后可以只通过一个文档的前面100个关键的词就可以准确判断出文档的类型,同一类型或者基本相同的文档只需要一个即可实现较好的分类效果。
下面对本发明提及的文档分类模型的构建过程进行详细说明,具体可以包括以下步骤:
(1)构建训练数据和测试数据,并分别对训练数据和测试数据标注类别标签。例如,可以通过人工方式对原始文本进行标注,以确定文档属于哪个类别。
(2)利用预设的分词算法对训练数据中的文档进行分词处理且得到训练语料库,并生成对应于所述训练语料库的词汇级向量。
一种优选方式中,在生成对应于所述训练语料库的词汇级向量之前,还可以对训练语料库中的停用词进行数据清洗;以及,对数据清洗后的训练语料库进行降维处理。一方面,不论是中文词汇还是英文词汇,都包含了大量的无意义词汇,比如“的”,“一个”,“所以”,“the”,“a”,“is”……这些词几乎在任何一类文本中都会大量出现,因此对文本分类没有实际帮助,需要提前通过数据清洗停用词的方式来去除。另一方面,对于训练数据而言,通常会有几万个中文词汇,如果不进行降维处理而都保留,则必然会导致计算成本加大,进而影响文档分类模型的收敛快慢和应用该文档分类模型是的分类效率。
(3)利用汉语言模型N-Gram对所述训练语料库中的各单词进行片段切分,得到各单词对应的字符级向量。
(4)将所述词汇级向量和所述字符级向量构成的特征向量作为训练数据,输入至基于Softmax分类器构建的文档分类模型中,通过Softmax分类器的输入层、隐含层并经输出层输出训练数据的分类结果。
请参见图3,输入层:是多个经向量表示的单词。
输出层:文档分类的类别。其中,输出层每个节点:
具体执行过程如下,将输入层中的词和词组构成特征向量,再将特征向量通过线性变换映射到隐含层,隐含层通过求解单词的向量加权平均,然后根据每个类别的权重和模型参数构建Huffman树,将Huffman树作为输出,就得出对应的文档类别。算法模型充分利用了Softmax分类器的分类功能,遍历分类树的所有叶节点,找到概率最大的标签label(一个或者N个)。
一种优选方式中,在将所述词汇级向量和所述字符级向量构成的特征向量作为训练数据,输入至基于Softmax分类器构建的文档分类模型前,还可以将所述词汇级向量和所述字符级向量进行叠加,并对叠加后的向量求平均,进而得到作为训练数据的特征向量。
(5)将所述测试数据输入至所构建的文档分类模型,并输出所述测试数据的测试分类结果;利用所述测试数据的类别标签对所述测试分类结果进行准确性测试。需要说明的是,测试的目的是评判所构建的文档分类模型分类准确率性能的优劣,测试数据的处理方式和训练数据的处理方式类似,此处不再赘述。
进一步的,在测试分类结果与对应的类别标签不一致的情况下,还可以将测试分类结果与对应的类别标签不一致的测试数据作为修正训练数据;然后,将所述修正训练数据输入至所述文档分类模型,通过调整所述Softmax分类器的参数使得模型输出的分类结果为对应的类别标签为止完成修正处理。
本发明提供的文档分类模型是具有自学习功能的,当有新的类别数据时,或者该模型对某些训练数据识别准确率降低时,该模型会将准确率不达标的结果通知人工处理,以对该批训练数据的类型进行修正。举例而言,如果某篇文档的类别是A,模型的识别结果为B,则需要将与这篇类似的文章生成训练数据,并标注成A,继续训练模型以生成新的模型文件,训练结果实时输出,如果新的模型达到要求后将替换原模型并自动进行发布更新。
作为一种优选的实施例,可以按照如下参数进行文档分类模型构建,所述Softmax分类器的学习率设置为0.6~1.2;特征向量维度设置为200~300;模型训练时的循环迭代次数设置为300~500;汉语言模型N-Gram为一元模型。需要说明的是,上述列举的各参数的数值仅为本发明的一种优选实现方式,并不作为对本发明实施例的限定。举例而言,可以从文章标题开始选取前面100个字词去掉空格以及特殊字符,及n-gram向量叠加平均得到该篇文档的向量;然后使用文档向量做softmax多分类。这样可以大大提供算法模型的准确率,并且能极大缩小算法模型的文件大小,使模型的准确率基本维持在98%左右,而且算法模型大小在几百K左右。此外,N-Grams是依据马尔科夫假设的,即:一个词的出现仅与它之前的若干个词有关,表示如下:
p(w1...wn)=Πp(wi|wi-1...w1)≈Πp(wi|wi-1...wi-N+1)
其中,wi代表文档中的一个词做embedding结果。
可以看出,上述公式是计算每个词在其他词出现的条件下的概率然后求积。如果N-Gram为非一元模型即word_ngrams不为1,则这个计算量是比较大的,会影响效率;而在模型训练时将word_ngrams设置为1,一个词就可以不考虑跟其他词的关系,即只关注词汇自身,因此,可以大大提高训练速度,也能极大减小模型的大小。分层的Softmax分类器,是一种多线程的运行方式,也能最大限度的提高模型训练的速度。增大学习率,增大维度跟迭代的次数,能保证在少量的训练数据的情况下能通过自学习获得更高的准确率。并且,学习率调高,梯度下降的大,能很快达到收敛,也没有加入太多的依赖维度。
请参见图2,为本发明提供的文档分类模型构建时的真假阳性比值曲线ROC,可以看出,ROC值很快趋向于真阳性1,表明该文档分类模型将类别识别准确的速度很快。而且,还可以看出该文档分类模型识别一个类别的准确率在99.966%,准确率非常高。即便是在训练集数据量不大的情况下,也可以非常快速地进行模型训练,且保证使模型的准确率在98%以上。
实施例二
下面对本发明提供的文档分类系统进行说明。
如图4所示,为本发明实施例提供的文档分类系统的一种结构图,包括:
新类别监测单元210,用于检测是否有新类别的目标文档输入至预先构建的文档分类模型;
单词切分单元220,用于响应于有新类别的目标文档,利用预设的分词算法对目标文档进行分词处理且得到目标语料库,并生成对应于所述目标语料库的词汇级向量;
字符切分单元230,用于利用汉语言模型N-Gram对所述目标语料库中的各单词进行片段切分,得到各单词对应的字符级向量;
分类及模型优化单元240,用于将所述词汇级向量和所述字符级向量构成的特征向量作为新的训练数据并输入所述文档分类模型,进而利用新的训练数据对所述文档分类模型进行优化,并基于优化后的文档分类模型输出目标文档的分类结果。
一种情形下,所述分类及模型优化单元240还用于在未监测到新类别的目标文档的情况下,直接利用预先构建的所述文档分类模型对所述目标文档进行识别,且输出分类结果。
作为一种优选实现方式,预先构建文档分类模型的方式包括:构建训练数据和测试数据,并分别对训练数据和测试数据标注类别标签;利用预设的分词算法对训练数据中的文档进行分词处理且得到训练语料库,并生成对应于所述训练语料库的词汇级向量;利用汉语言模型N-Gram对所述训练语料库中的各单词进行片段切分,得到各单词对应的字符级向量;将所述词汇级向量和所述字符级向量构成的特征向量作为训练数据,输入至基于Softmax分类器构建的文档分类模型中,通过Softmax分类器的输入层、隐含层并经输出层输出训练数据的分类结果;以及,将所述测试数据输入至所构建的文档分类模型,并输出所述测试数据的测试分类结果;利用所述测试数据的类别标签对所述测试分类结果进行准确性测试。
一种情形下,所述单词切分单元220,还用于在生成对应于所述训练语料库的词汇级向量之前,对训练语料库中的停用词进行数据清洗;以及,对数据清洗后的训练语料库进行降维处理。
另一种情形下,所述分类及模型优化单元240,还用于将测试分类结果与对应的类别标签不一致的测试数据作为修正训练数据;将所述修正训练数据输入至所述文档分类模型,通过调整所述Softmax分类器的参数使得模型输出的分类结果为对应的类别标签为止完成修正处理。
一种优选实现方式中,所述Softmax分类器的学习率设置为0.6~1.2;特征向量维度设置为200~300;模型训练时的循环迭代次数设置为300~500;汉语言模型N-Gram为一元模型。
应用本发明提供的文档分类系统,利用相对较少的训练数据却能达到较高准确率的文档分类效果,也即本发明的分类算法对训练数据的数据量要求不高,所构建的文档分类模型可以根据文档类别的结构特点,仅需要属于该类别的几条代表性的训练数据即可实现模型构建,是一种增量自学习式架构设计,训练效率高、分类准确率高。
实施例三
为解决上述技术问题,本发明提供了一种计算机设备,如图5所示,包括存储器310、处理器320及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的方法。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可包括,但不仅限于处理器320、存储器310。本领域技术人员可以理解,图5仅仅是计算机设备的示例,并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述计算机设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器320可以是中央处理单元(Central Processing Unit,CPU),还可以是其它通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器310可以是所述计算机设备的内部存储单元,例如计算机设备的硬盘或内存。所述存储器310也可以是计算机设备的外部存储设备,例如所述计算机设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器310还可以既包括所述计算机设备的内部存储单元也包括外部存储设备。所述存储器310用于存储所述计算机程序以及所述计算机设备所需的其它程序和数据。所述存储器310还可以用于暂时地存储已经输出或者将要输出的数据。
实施例四
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质;也可以是单独存在、未装配入计算机设备中的计算机可读存储介质。所述计算机可读存储介质存储有一个或者一个以上计算机程序,所述程序被处理器执行时实现上述所述的方法。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器310、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
对于系统或装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
应当理解,在本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到所描述条件或事件”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到所描述条件或事件”或“响应于检测到所描述条件或事件”。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (10)
1.一种文档分类方法,其特征在于,包括:
监测是否有新类别的目标文档输入至预先构建的文档分类模型;
响应于有新类别的目标文档,利用预设的分词算法对目标文档进行分词处理且得到目标语料库,并生成对应于所述目标语料库的词汇级向量;
利用汉语言模型N-Gram对所述目标语料库中的各单词进行片段切分,得到各单词对应的字符级向量;
将所述词汇级向量和所述字符级向量构成的特征向量作为新的训练数据并输入所述文档分类模型,进而利用新的训练数据对所述文档分类模型进行优化,并基于优化后的文档分类模型输出目标文档的分类结果。
2.根据权利要求1所述的文档分类方法,其特征在于,还包括:
在未监测到新类别的目标文档的情况下,直接利用预先构建的所述文档分类模型对所述目标文档进行识别,且输出分类结果。
3.根据权利要求1所述的文档分类方法,其特征在于,预先构建文档分类模型的步骤包括:
构建训练数据和测试数据,并分别对训练数据和测试数据标注类别标签;
利用预设的分词算法对训练数据中的文档进行分词处理且得到训练语料库,并生成对应于所述训练语料库的词汇级向量;
利用汉语言模型N-Gram对所述训练语料库中的各单词进行片段切分,得到各单词对应的字符级向量;
将所述词汇级向量和所述字符级向量构成的特征向量作为训练数据,输入至基于Softmax分类器构建的文档分类模型中,通过Softmax分类器的输入层、隐含层并经输出层输出训练数据的分类结果;以及,
将所述测试数据输入至所构建的文档分类模型,并输出所述测试数据的测试分类结果;利用所述测试数据的类别标签对所述测试分类结果进行准确性测试。
4.根据权利要求3所述的文档分类方法,其特征在于,所述生成对应于所述训练语料库的词汇级向量之前,还包括:
对训练语料库中的停用词进行数据清洗;
对数据清洗后的训练语料库进行降维处理。
5.根据权利要求3所述的文档分类方法,其特征在于,还包括:
将测试分类结果与对应的类别标签不一致的测试数据作为修正训练数据;
将所述修正训练数据输入至所述文档分类模型,通过调整所述Softmax分类器的参数使得模型输出的分类结果为对应的类别标签为止完成修正处理。
6.根据权利要求3所述的文档分类方法,其特征在于,所述将所述词汇级向量和所述字符级向量构成的特征向量作为训练数据,输入至基于Softmax分类器构建的文档分类模型中的步骤,包括:
将所述词汇级向量和所述字符级向量进行叠加,并对叠加后的向量求平均,进而得到作为训练数据的特征向量。
7.根据权利要求4所述的文档分类方法,其特征在于,
所述Softmax分类器的学习率设置为0.6~1.2;
特征向量维度设置为200~300;
模型训练时的循环迭代次数设置为300~500;
汉语言模型N-Gram为一元模型。
8.一种文档分类系统,其特征在于,包括:
新类别监测单元,用于检测是否有新类别的目标文档输入至预先构建的文档分类模型;
单词切分单元,用于响应于有新类别的目标文档,利用预设的分词算法对目标文档进行分词处理且得到目标语料库,并生成对应于所述目标语料库的词汇级向量;
字符切分单元,用于利用汉语言模型N-Gram对所述目标语料库中的各单词进行片段切分,得到各单词对应的字符级向量;
分类及模型优化单元,用于将所述词汇级向量和所述字符级向量构成的特征向量作为新的训练数据并输入所述文档分类模型,进而利用新的训练数据对所述文档分类模型进行优化,并基于优化后的文档分类模型输出目标文档的分类结果。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211000816.5A CN115292498A (zh) | 2022-08-19 | 2022-08-19 | 一种文档分类方法、系统、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211000816.5A CN115292498A (zh) | 2022-08-19 | 2022-08-19 | 一种文档分类方法、系统、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115292498A true CN115292498A (zh) | 2022-11-04 |
Family
ID=83830045
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211000816.5A Pending CN115292498A (zh) | 2022-08-19 | 2022-08-19 | 一种文档分类方法、系统、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115292498A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107992633A (zh) * | 2018-01-09 | 2018-05-04 | 国网福建省电力有限公司 | 基于关键词特征的电子文档自动分类方法及系统 |
CN111949770A (zh) * | 2020-08-24 | 2020-11-17 | 国网浙江省电力有限公司信息通信分公司 | 一种文档分类方法及装置 |
WO2021057133A1 (zh) * | 2019-09-24 | 2021-04-01 | 北京国双科技有限公司 | 一种文档分类模型训练的方法和相关装置 |
CN113515629A (zh) * | 2021-06-02 | 2021-10-19 | 中国神华国际工程有限公司 | 一种文档分类方法、装置、计算机设备及存储介质 |
CN114691864A (zh) * | 2020-12-31 | 2022-07-01 | 北京金山数字娱乐科技有限公司 | 文本分类模型训练方法及装置、文本分类方法及装置 |
-
2022
- 2022-08-19 CN CN202211000816.5A patent/CN115292498A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107992633A (zh) * | 2018-01-09 | 2018-05-04 | 国网福建省电力有限公司 | 基于关键词特征的电子文档自动分类方法及系统 |
WO2021057133A1 (zh) * | 2019-09-24 | 2021-04-01 | 北京国双科技有限公司 | 一种文档分类模型训练的方法和相关装置 |
CN112632269A (zh) * | 2019-09-24 | 2021-04-09 | 北京国双科技有限公司 | 一种文档分类模型训练的方法和相关装置 |
CN111949770A (zh) * | 2020-08-24 | 2020-11-17 | 国网浙江省电力有限公司信息通信分公司 | 一种文档分类方法及装置 |
CN114691864A (zh) * | 2020-12-31 | 2022-07-01 | 北京金山数字娱乐科技有限公司 | 文本分类模型训练方法及装置、文本分类方法及装置 |
CN113515629A (zh) * | 2021-06-02 | 2021-10-19 | 中国神华国际工程有限公司 | 一种文档分类方法、装置、计算机设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107590177B (zh) | 一种结合监督学习的中文文本分类方法 | |
US11321671B2 (en) | Job skill taxonomy | |
CN106991085B (zh) | 一种实体的简称生成方法及装置 | |
CN111325029B (zh) | 一种基于深度学习集成模型的文本相似度计算方法 | |
CN109934251B (zh) | 一种用于小语种文本识别的方法、识别系统及存储介质 | |
KR20200127020A (ko) | 의미 텍스트 데이터를 태그와 매칭시키는 방법, 장치 및 명령을 저장하는 컴퓨터 판독 가능한 기억 매체 | |
Zhou et al. | Sentiment analysis of text based on CNN and bi-directional LSTM model | |
US11669740B2 (en) | Graph-based labeling rule augmentation for weakly supervised training of machine-learning-based named entity recognition | |
Romanov et al. | Application of natural language processing algorithms to the task of automatic classification of Russian scientific texts | |
Zhang et al. | Continuous word embeddings for detecting local text reuses at the semantic level | |
CN111191442A (zh) | 相似问题生成方法、装置、设备及介质 | |
Bortnikova et al. | Search Query Classification Using Machine Learning for Information Retrieval Systems in Intelligent Manufacturing. | |
Mitroi et al. | Sentiment analysis using topic-document embeddings | |
Vidyashree et al. | An improvised sentiment analysis model on twitter data using stochastic gradient descent (SGD) optimization algorithm in stochastic gate neural network (SGNN) | |
CN111523311B (zh) | 一种搜索意图识别方法及装置 | |
CN115329207B (zh) | 智能销售信息推荐方法及系统 | |
CN112613318B (zh) | 实体名称归一化系统及其方法、计算机可读介质 | |
Song et al. | Intension classification of user queries in intelligent customer service system | |
CN115269833A (zh) | 基于深度语义和多任务学习的事件信息抽取方法及系统 | |
CN115292498A (zh) | 一种文档分类方法、系统、计算机设备及存储介质 | |
Gillmann et al. | Quantification of Economic Uncertainty: a deep learning approach | |
Kavitha et al. | A review on machine learning techniques for text classification | |
CN113011689B (zh) | 软件开发工作量的评估方法、装置及计算设备 | |
CN107729509A (zh) | 基于隐性高维分布式特征表示的篇章相似度判定方法 | |
Al Mahmud et al. | A New Approach to Analysis of Public Sentiment on Padma Bridge in Bangla Text |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |