CN112579784A - 一种基于深度强化学习的云边协同文档分类系统及方法 - Google Patents
一种基于深度强化学习的云边协同文档分类系统及方法 Download PDFInfo
- Publication number
- CN112579784A CN112579784A CN202110222422.3A CN202110222422A CN112579784A CN 112579784 A CN112579784 A CN 112579784A CN 202110222422 A CN202110222422 A CN 202110222422A CN 112579784 A CN112579784 A CN 112579784A
- Authority
- CN
- China
- Prior art keywords
- document
- classification
- module
- label
- classified
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 21
- 230000002787 reinforcement Effects 0.000 title claims abstract description 10
- 238000004458 analytical method Methods 0.000 claims abstract description 26
- 238000011156 evaluation Methods 0.000 claims abstract description 10
- 238000013145 classification model Methods 0.000 claims description 22
- 238000000605 extraction Methods 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 12
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 2
- 238000003066 decision tree Methods 0.000 claims description 2
- 230000000306 recurrent effect Effects 0.000 claims description 2
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Medical Informatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于深度强化学习的云边协同文档分类系统及方法,方法包括:文档关键词分析模块、文档摘要分析模块根据所述待分类文档得到文档摘要、文档关键词;机器文档内容分类模块根据文档摘要、文档关键词和待分类文档得到第一分类标签;文档分类人员在人工分类模块上根据所述文档摘要、文档关键词和第一分类标签选择文档分类标签得到第二分类标签;文档分类效率评价模块根据统计的效率参数计算分类效率值,若分类效率值低于设定阈值则直接存储分类结果,否则将专家分类结果作为最终结果。本发明能够结合人工分类、专家分类来提高文本分类的准确率,降低专业性文档分类对分类人员的专业能力要求、提高分类人员的工作效率。
Description
技术领域
本发明涉及文本分类领域,特别是涉及一种基于深度强化学习的云边协同文档分类系统及方法。
背景技术
随着互联网技术在新信息、新能源、新材料等领域的全面应用,相关企事业单位的专业型文档呈爆炸式增长。这类专业性文档作为生产运维数据,对总结生产经验、研究行业发展等具有重要意义。专业型文档分类是基于业务理解,对单位内部专业型文档数据进行有序组织和处理,解决文档无序繁杂问题,便于后期复盘、查询和管理。因此针对这类包含生产、运维重要信息的文档,进行切实有效的自动归档分类,对企事业单位实现完全的信息化管理具有重要意义。
由于文本所存在的专业性领域对于数据管理的严谨性和高标准,传统的电子文档归类是由人工完成需要对全部文档的分类。这对人员的业务理解度和分类能力要求很高,耗时耗力。这类专业人员常为在某专业深耕多年的领域专家,他们业务繁忙且人数紧缺。要求专家花费大量的时间解决单位内部专业型文档数据分类问题是不现实的,且投入成本极高。因此,采用计算机预处理,通过提供机器辅助归档技术,并有选择地引入人工判读的混合模式,在保证归档分类效率的基础上,最大程度降低人工干预,减少人工分类工作量,帮助企事业单位从业务层面实现高效且精准的专业型文档分类工作的较好方案。
中国专利公开号为CN 106096063 A的专利,该发明提供一种用于大数据的并行半定义分类方法与系统,通过机器学习的方式在一定程度上解决了对分类标签库中标签不存在的问题,但仍存在先验信息较少时准确度不足、无法提供分类结果评级的问题;中国专利公开号为CN 107329999 A的专利,该发明提供文档分类方法及装置,通过对样本文档的处理能够在一定程度上实现在无需建立数据模型的前提下对文档进行归类,但由于样本文档数量级限制,仍存在准确度不足的问题。
发明内容
本发明主要解决的技术问题是机器学习在训练文本数量较少时文本分类准确率不足。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种基于深度强化学习的云边协同文档分类系统,包括:机器文档关键词分析模块,机器文档摘要分析模块,机器文档内容分类模块,人工分类模块,文档分类效率评价模块,专家文档分类模块,结果存储模块和机器在线学习模块;
所述机器文档关键词分析模块,用于利用训练好的关键词提取模型得到待分类文档的文档关键词;
所述机器文档摘要分析模块,用于利用训练好的摘要生成模型得到待分类文档的文档摘要;
所述机器文档内容分类模块,用于利用所述文档关键词和所述文档摘要得到待分类文档的第一分类标签;
所述人工分类模块,用于提供所述待分类文档的文档摘要、文档关键词和第一分类标签来辅助文档分类人员进行文档分类得到第二分类标签;
所述文档分类效率评价模块,用于记录文档分类人员在所述人工分类模块进行文档分类时的效率参数,并计算分类效率值;分类效率值超过设定阈值时,将第二分类标签作为最终分类标签,与待分类文档及文档摘要、文档关键词一起发送到结果存储模块;将分类效率值小于设定阈值的待分类文档及文档摘要、文档关键词和第一分类标签发到专家文档分类模块;
所述专家文档分类模块,用于将所述待分类文档的文档摘要、文档关键词和第一分类标签呈现给专家来进行文档分类得到第三分类标签;将第三分类标签作为最终分类标签,与专家进行过文档分类得到的已分类文档、文档摘要和文档关键词一起发送到结果存储模块;
所述结果存储模块,用于存储已分类的文档,文档摘要,文档关键词,第一分类标签,第二分类标签,第三分类标签,最终分类标签,效率参数和分类效率值;
所述机器在线学习模块,用于定期,或者当结果存储模块中新增的已分类文档及文档摘要、文档关键词和最终分类标签达到设定数量时使用已分类文档及文档摘要、文档关键词和最终分类标签作为训练集更新关键词提取模型、摘要生成模型和文档分类模型的参数;统计所有已分类文档中最终分类标签与第一分类标签相同的文档的比例作为文档分类模型的正确率,当正确率低于设定正确率时使用已分类文档及文档摘要、文档关键词和最终分类标签作为训练集更新关键词提取模型、摘要生成模型和文档分类模型的参数。
进一步的,所述效率参数包括文档分类时间、文档分类变更次数、模型最高分类标签概率和人工标签分类概率;
其中,模型最高分类标签概率,是计算机预处理模块处理当前文档对应于各个分类的概率最大值;人工标签分类概率= 1/分类标签总数。
进一步的,所述计算分类效率值,使用的计算方式如下:
若时间耗费比<0.3,则分类效率值=0.8;
否则,分类效率值=时间权值*exp(-文档分类变更次数)*模型最高分类标签概率*人工标签分类概率;
其中,时间耗费比=文档分类时间/文档分类平均时间,时间权值=exp(1-时间耗费比);exp(x)表示e的x次方;模型最高分类标签概率,是计算机预处理模块处理当前文档对应于各个分类的概率最大值;人工标签分类概率= 1/分类标签总数。
一种云边协同文档分类方法,基于上述云边协同文档分类系统,包括以下步骤:
S1,输入待分类文档到机器文档关键词分析模块、机器文档摘要分析模块;
S2,机器文档关键词分析模块、机器文档摘要分析模块根据所述待分类文档得到文档摘要、文档关键词;
S3,机器文档内容分类模块根据所述文档摘要、文档关键词和待分类文档得到第一分类标签;
S4,文档分类人员在人工分类模块上根据所述文档摘要、文档关键词和第一分类标签选择文档分类标签得到第二分类标签;
S5,文档分类效率评价模块根据统计的效率参数计算分类效率值,若分类效率值低于设定阈值则转入步骤S6,否则转入步骤S7;
S6,专家在专家文档分类模块中为所述待分类文档选择文档分类标签得到第三分类标签;
S7,结果存储模块存储已分类文档及文档摘要、文档关键词和最终分类标签;
S8,机器在线学习模块使用结果存储模块中的已分类文档及文档摘要、文档关键词和最终分类标签作为训练集对关键词提取模型、摘要生成模型和文档分类模型的参数进行训练;
所述最终分类标签是:若待分类文档只经过人工分类模块而未经过专家分类模块,则最终分类标签为第二分类标签;若待分类分档经过了专家分类模块,则最终分类标签为第三分类标签。
进一步的,所述对关键词提取模型、摘要生成模型和文档分类模型的参数进行训练,包括:对各条数据的样本惩罚因子的处理如下:
若文档未经过专家分类模块,即第三分类标签为空,且第二分类标签与第一分类标签不是完全一致,且效率参数中的时间耗费比<0.3,则将样本惩罚因子设为α;
若文档经过了专家分类模块,即第三分类标签不为空或最终分类标签与第三分类标签完全一致,且第三分类标签与第一分类标签不一致,则将样本惩罚因子设为β;
其他文档数据样本惩罚因子设为γ;
其中,1≤γ≤2,2γ≤α≤4γ,2α≤β≤4α。
本发明的有益效果是:本发明能够在提供自动化分类的基础上结合人工分类、专家分类来提高文本分类的准确率,降低专业性文档分类对分类人员的专业能力要求、提高分类人员的工作效率;使用机器在线学习模块能够提高文档分类系统文档分类模型的准确率,能够适应分类困难文档的特点,提高了文本分类系统的自我学习能力。
附图说明
图1是本发明一种基于深度强化学习的云边协同文档分类系统所示的示意图。
图2是本发明云边协同文档分类方法所示的流程图。
具体实施方式
下面结合附图对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
请参阅图1,本发明实施例包括:
一种基于深度强化学习的云边协同文档分类系统,包括:机器文档关键词分析模块,机器文档摘要分析模块,机器文档内容分类模块,人工分类模块,文档分类效率评价模块,专家文档分类模块,结果存储模块和机器在线学习模块;
所述机器文档关键词分析模块,用于利用训练好的关键词提取模型得到待分类文档的文档关键词;
所述机器文档摘要分析模块,用于利用训练好的摘要生成模型得到待分类文档的文档摘要;
所述机器文档内容分类模块,用于利用所述文档关键词和所述文档摘要得到待分类文档的第一分类标签;
所述人工分类模块,用于提供所述待分类文档的文档摘要、文档关键词和第一分类标签来辅助文档分类人员进行文档分类得到第二分类标签;
所述文档分类效率评价模块,用于记录文档分类人员在所述人工分类模块进行文档分类时的效率参数,并计算分类效率值;分类效率值超过设定阈值时,将第二分类标签作为最终分类标签,与待分类文档及文档摘要、文档关键词一起发送到结果存储模块;将分类效率值小于设定阈值的待分类文档及文档摘要、文档关键词和第一分类标签发到专家文档分类模块;
所述专家文档分类模块,用于将所述待分类文档的文档摘要、文档关键词和第一分类标签呈现给专家来进行文档分类得到第三分类标签;将第三分类标签作为最终分类标签,与专家进行过文档分类得到的已分类文档、文档摘要和文档关键词一起发送到结果存储模块;
所述结果存储模块,用于存储已分类的文档,文档摘要,文档关键词,第一分类标签,第二分类标签,第三分类标签,最终分类标签,效率参数和分类效率值;
所述机器在线学习模块,用于定期,或者当结果存储模块中新增的已分类文档及文档摘要、文档关键词和最终分类标签达到设定数量时使用已分类文档及文档摘要、文档关键词和最终分类标签作为训练集更新关键词提取模型、摘要生成模型和文档分类模型的参数;也可以统计所有已分类文档中最终分类标签与第一分类标签相同的文档的比例作为文档分类模型的正确率,当正确率低于设定正确率时使用已分类文档及文档摘要、文档关键词和最终分类标签作为训练集更新关键词提取模型、摘要生成模型和文档分类模型的参数;其中,所述机器文档内容分类模块采用训练好的文档分类模型对待分类文档进行分类得到的第一分类标签;文档分类模型可以选用SVM模型、KNN模型或决策树模型,也可以选择基于循环神经网络的分类模型。
所述效率参数包括文档分类时间、文档分类变更次数、模型最高分类标签概率和人工标签分类概率;
所述计算分类效率值,使用的计算方式如下:
若时间耗费比<0.3,则分类效率值=0.8;
否则,分类效率值=时间权值*exp(-文档分类变更次数)*模型最高分类标签概率*人工标签分类概率;
其中,时间耗费比=文档分类时间/文档分类平均时间,时间权值=exp(1-时间耗费比);exp(x)表示e的x次方;模型最高分类标签概率,是计算机预处理模块处理当前文档对应于各个分类的概率最大值;人工标签分类概率=1/分类标签总数。
本实施例中的设定阈值=0.283。
请参阅图2,在另一个实施例中,一种云边协同文档分类方法,基于上述云边协同文档分类系统,包括:
S1,输入待分类文档到机器文档关键词分析模块、机器文档摘要分析模块;
S2,机器文档关键词分析模块、机器文档摘要分析模块根据所述待分类文档得到文档摘要、文档关键词;
S3,机器文档内容分类模块根据所述文档摘要、文档关键词和待分类文档得到第一分类标签;
S4,文档分类人员在人工分类模块上根据所述文档摘要、文档关键词和第一分类标签选择文档分类标签得到第二分类标签;
S5,文档分类效率评价模块根据统计的效率参数计算分类效率值,若分类效率值低于设定阈值则转入步骤S6,否则转入步骤S7;
S6,专家在专家文档分类模块中为所述待分类文档选择文档分类标签得到第三分类标签;
S7,结果存储模块存储已分类文档及文档摘要、文档关键词和最终分类标签;
S8,机器在线学习模块使用结果存储模块中的已分类文档及文档摘要、文档关键词和最终分类标签作为训练集对关键词提取模型、摘要生成模型和文档分类模型的参数进行训练;
所述最终分类标签是:若待分类文档只经过人工分类模块而未经过专家分类模块,则最终分类标签为第二分类标签;若待分类分档经过了专家分类模块,则最终分类标签为第三分类标签。
所述结果存储模块,用于存储已分类的文档,文档摘要,文档关键词,第一分类标签,第二分类标签,第三分类标签,最终分类标签,效率参数和分类效率值。
所述机器在线学习模块在使用结果存储模块中的数据训练关键词提取模型、摘要生成模型和文档分类模型的参数时,对各条数据的样本惩罚因子有如下处理:
若文档未经过专家分类模块,即第三分类标签为空,且第二分类标签与第一分类标签不是完全一致,且效率参数中的时间耗费比<0.3,则将样本惩罚因子设为α;
若文档经过了专家分类模块,即第三分类标签不为空或最终分类标签与第三分类标签完全一致,且第三分类标签与第一分类标签不一致,则将样本惩罚因子设为β;
其他文档数据样本惩罚因子设为γ;
其中,1≤γ≤2,2γ≤α≤4γ,2α≤β≤4α。
在本实施例中,γ为1,α为2,β为4。
以上所述仅为本发明的实施例,并非因此限制专利保护范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (5)
1.一种基于深度强化学习的云边协同文档分类系统,其特征在于,包括:机器文档关键词分析模块,机器文档摘要分析模块,机器文档内容分类模块,人工分类模块,文档分类效率评价模块,专家文档分类模块,结果存储模块和机器在线学习模块;
所述机器文档关键词分析模块,用于利用训练好的关键词提取模型得到待分类文档的文档关键词;
所述机器文档摘要分析模块,用于利用训练好的摘要生成模型得到待分类文档的文档摘要;
所述机器文档内容分类模块,用于利用所述文档关键词和所述文档摘要得到待分类文档的第一分类标签;
所述人工分类模块,用于提供所述待分类文档的文档摘要、文档关键词和第一分类标签来辅助文档分类人员进行文档分类得到第二分类标签;
所述文档分类效率评价模块,用于记录文档分类人员在所述人工分类模块进行文档分类时的效率参数,并计算分类效率值;分类效率值超过设定阈值时,将第二分类标签作为最终分类标签,与待分类文档及文档摘要、文档关键词一起发送到结果存储模块;将分类效率值小于设定阈值的待分类文档及文档摘要、文档关键词和第一分类标签发到专家文档分类模块;
所述专家文档分类模块,用于将所述待分类文档的文档摘要、文档关键词和第一分类标签呈现给专家来进行文档分类得到第三分类标签;将第三分类标签作为最终分类标签,与专家进行过文档分类得到的已分类文档、文档摘要和文档关键词一起发送到结果存储模块;
所述结果存储模块,用于存储已分类的文档,文档摘要,文档关键词,第一分类标签,第二分类标签,第三分类标签,最终分类标签,效率参数和分类效率值;
所述机器在线学习模块,用于定期,或者当结果存储模块中新增的已分类文档及文档摘要、文档关键词和最终分类标签达到设定数量时使用已分类文档及文档摘要、文档关键词和最终分类标签作为训练集更新关键词提取模型、摘要生成模型和文档分类模型的参数;统计所有已分类文档中最终分类标签与第一分类标签相同的文档的比例作为文档分类模型的正确率,当正确率低于设定正确率时使用已分类文档及文档摘要、文档关键词和最终分类标签作为训练集更新关键词提取模型、摘要生成模型和文档分类模型的参数;
其中,所述机器文档内容分类模块采用训练好的文档分类模型对待分类文档进行分类得到的第一分类标签;文档分类模型为SVM模型、KNN模型、决策树模型或基于循环神经网络的分类模型。
2.如权利要求1所述的一种基于深度强化学习的云边协同文档分类系统,其特征在于,所述效率参数包括文档分类时间、文档分类变更次数、模型最高分类标签概率和人工标签分类概率;
其中,模型最高分类标签概率,是计算机预处理模块处理当前文档对应于各个分类的概率最大值;人工标签分类概率= 1/分类标签总数。
3.如权利要求2所述的一种基于深度强化学习的云边协同文档分类系统,其特征在于,所述计算分类效率值,使用的计算方式如下:
若时间耗费比<0.3,则分类效率值=0.8;
否则,分类效率值=时间权值*exp(-文档分类变更次数)*模型最高分类标签概率*人工标签分类概率;
其中,时间耗费比=文档分类时间/文档分类平均时间,时间权值=exp(1-时间耗费比);exp(x)表示e的x次方;模型最高分类标签概率,是计算机预处理模块处理当前文档对应于各个分类的概率最大值。
4.一种云边协同文档分类方法,其特征在于,基于所述权利要求1~3任一所述的云边协同文档分类系统,包括以下步骤:
S1,输入待分类文档到机器文档关键词分析模块、机器文档摘要分析模块;
S2,机器文档关键词分析模块、机器文档摘要分析模块根据所述待分类文档得到文档摘要、文档关键词;
S3,机器文档内容分类模块根据所述文档摘要、文档关键词和待分类文档得到第一分类标签;
S4,文档分类人员在人工分类模块上根据所述文档摘要、文档关键词和第一分类标签选择文档分类标签得到第二分类标签;
S5,文档分类效率评价模块根据统计的效率参数计算分类效率值,若分类效率值低于设定阈值则转入步骤S6,否则转入步骤S7;
S6,专家在专家文档分类模块中为所述待分类文档选择文档分类标签得到第三分类标签;
S7,结果存储模块存储已分类文档及文档摘要、文档关键词和最终分类标签;
S8,机器在线学习模块使用结果存储模块中的已分类文档及文档摘要、文档关键词和最终分类标签作为训练集对关键词提取模型、摘要生成模型和文档分类模型的参数进行训练;
所述最终分类标签是:若待分类文档只经过人工分类模块而未经过专家分类模块,则最终分类标签为第二分类标签;若待分类分档经过了专家分类模块,则最终分类标签为第三分类标签。
5.如权利要求4所述的一种云边协同文档分类方法,其特征在于,所述对关键词提取模型、摘要生成模型和文档分类模型的参数进行训练,包括:对各条数据的样本惩罚因子的处理如下:
若文档未经过专家分类模块,即第三分类标签为空,且第二分类标签与第一分类标签不是完全一致,且效率参数中的时间耗费比<0.3,则将样本惩罚因子设为α;
若文档经过了专家分类模块,即第三分类标签不为空或最终分类标签与第三分类标签完全一致,且第三分类标签与第一分类标签不一致,则将样本惩罚因子设为β;
其他文档数据样本惩罚因子设为γ;
其中,1≤γ≤2,2γ≤α≤4γ,2α≤β≤4α。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110222422.3A CN112579784B (zh) | 2021-03-01 | 2021-03-01 | 一种基于深度强化学习的云边协同文档分类系统及方法 |
US18/023,991 US20230401249A1 (en) | 2021-03-01 | 2022-02-25 | Document classification method and apparatus, and electronic device |
PCT/CN2022/078051 WO2022183991A1 (zh) | 2021-03-01 | 2022-02-25 | 文档分类方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110222422.3A CN112579784B (zh) | 2021-03-01 | 2021-03-01 | 一种基于深度强化学习的云边协同文档分类系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112579784A true CN112579784A (zh) | 2021-03-30 |
CN112579784B CN112579784B (zh) | 2021-06-01 |
Family
ID=75113983
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110222422.3A Active CN112579784B (zh) | 2021-03-01 | 2021-03-01 | 一种基于深度强化学习的云边协同文档分类系统及方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20230401249A1 (zh) |
CN (1) | CN112579784B (zh) |
WO (1) | WO2022183991A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022183991A1 (zh) * | 2021-03-01 | 2022-09-09 | 国家电网有限公司 | 文档分类方法、装置及电子设备 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230289522A1 (en) * | 2022-03-14 | 2023-09-14 | Nuix Limited | Deep Learning Systems and Methods to Disambiguate False Positives in Natural Language Processing Analytics |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108415959A (zh) * | 2018-02-06 | 2018-08-17 | 北京捷通华声科技股份有限公司 | 一种文本分类方法及装置 |
CN110866116A (zh) * | 2019-10-25 | 2020-03-06 | 远光软件股份有限公司 | 政策文档的处理方法、装置、存储介质及电子设备 |
US20200137224A1 (en) * | 2018-10-31 | 2020-04-30 | International Business Machines Corporation | Comprehensive log derivation using a cognitive system |
CN111198948A (zh) * | 2020-01-08 | 2020-05-26 | 深圳前海微众银行股份有限公司 | 文本分类校正方法、装置、设备及计算机可读存储介质 |
CN112395412A (zh) * | 2019-08-12 | 2021-02-23 | 北京国双科技有限公司 | 文本分类的方法、装置以及计算机可读介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106055538B (zh) * | 2016-05-26 | 2019-03-08 | 达而观信息科技(上海)有限公司 | 主题模型和语义分析相结合的文本标签自动抽取方法 |
US10963503B2 (en) * | 2017-06-06 | 2021-03-30 | SparkCognition, Inc. | Generation of document classifiers |
CN112579784B (zh) * | 2021-03-01 | 2021-06-01 | 江西师范大学 | 一种基于深度强化学习的云边协同文档分类系统及方法 |
-
2021
- 2021-03-01 CN CN202110222422.3A patent/CN112579784B/zh active Active
-
2022
- 2022-02-25 WO PCT/CN2022/078051 patent/WO2022183991A1/zh active Application Filing
- 2022-02-25 US US18/023,991 patent/US20230401249A1/en active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108415959A (zh) * | 2018-02-06 | 2018-08-17 | 北京捷通华声科技股份有限公司 | 一种文本分类方法及装置 |
US20200137224A1 (en) * | 2018-10-31 | 2020-04-30 | International Business Machines Corporation | Comprehensive log derivation using a cognitive system |
CN112395412A (zh) * | 2019-08-12 | 2021-02-23 | 北京国双科技有限公司 | 文本分类的方法、装置以及计算机可读介质 |
CN110866116A (zh) * | 2019-10-25 | 2020-03-06 | 远光软件股份有限公司 | 政策文档的处理方法、装置、存储介质及电子设备 |
CN111198948A (zh) * | 2020-01-08 | 2020-05-26 | 深圳前海微众银行股份有限公司 | 文本分类校正方法、装置、设备及计算机可读存储介质 |
Non-Patent Citations (3)
Title |
---|
PRATIKSHA R. DESHMUKH 等: "Support vector machine classifier for research discipline area selection", 《INTERNATIONAL CONFERENCE ON INTELLIGENT COMPUTING AND CONTROL SYSTEMS ICICCS 2017》 * |
邵诗韵 等: "基于条件随机场的电力工程标书文本实体识别方法", 《计算机与现代化》 * |
闫琰: "基于深度学习的文本表示与分类方法研究", 《中国博士学位论文全文数据库 信息科技辑》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022183991A1 (zh) * | 2021-03-01 | 2022-09-09 | 国家电网有限公司 | 文档分类方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
WO2022183991A1 (zh) | 2022-09-09 |
CN112579784B (zh) | 2021-06-01 |
US20230401249A1 (en) | 2023-12-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111241300B (zh) | 舆情预警以及风险传播分析方法、系统、设备及存储介质 | |
CN109857990B (zh) | 一种基于文档结构与深度学习的金融类公告信息抽取方法 | |
US11790262B2 (en) | Data transformations for robotic process automation | |
CN112035653B (zh) | 一种政策关键信息提取方法和装置、存储介质、电子设备 | |
CN105975984B (zh) | 基于证据理论的网络质量评价方法 | |
CN108182295A (zh) | 一种企业知识图谱属性抽取方法及系统 | |
CN108573031A (zh) | 一种基于内容的投诉分类方法和系统 | |
CN112579784B (zh) | 一种基于深度强化学习的云边协同文档分类系统及方法 | |
CN107967575A (zh) | 一种人工智能保险咨询服务人工智能平台系统 | |
CN108153729B (zh) | 一种面向金融领域的知识抽取方法 | |
CN103399891A (zh) | 网络内容自动推荐方法、装置和系统 | |
CN110472053A (zh) | 一种面向公共资源招投标公告数据的自动分类方法及其系统 | |
CN114462556B (zh) | 企业关联产业链分类方法、训练方法、装置、设备和介质 | |
CN113434688B (zh) | 用于舆情分类模型训练的数据处理方法和装置 | |
CN112395421B (zh) | 课程标签的生成方法、装置、计算机设备及介质 | |
TWI828928B (zh) | 高擴展性、多標籤的文本分類方法和裝置 | |
CN107169061A (zh) | 一种融合双信息源的文本多标签分类方法 | |
CN109933783A (zh) | 一种不良资产经营领域的合同要素化方法 | |
CN116205211A (zh) | 基于大规模预训练生成模型的文档级简历解析方法 | |
Ao | Sentiment analysis based on financial tweets and market information | |
CN113869054A (zh) | 一种基于深度学习的电力领域项目特征识别方法 | |
CN111626331B (zh) | 一种自动化行业分类装置及其工作方法 | |
CN113240562A (zh) | 一种基于nlp的产学研项目推荐匹配方法与系统 | |
CN116304011A (zh) | 一种区域产业链的生成方法、装置与存储介质 | |
CN115269816A (zh) | 基于信息处理方法的核心人员挖掘方法、装置和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |