CN114417866A - 文本密级判定方法、装置和电子设备 - Google Patents

文本密级判定方法、装置和电子设备 Download PDF

Info

Publication number
CN114417866A
CN114417866A CN202210084092.0A CN202210084092A CN114417866A CN 114417866 A CN114417866 A CN 114417866A CN 202210084092 A CN202210084092 A CN 202210084092A CN 114417866 A CN114417866 A CN 114417866A
Authority
CN
China
Prior art keywords
text
probability information
classifier
training
security level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210084092.0A
Other languages
English (en)
Inventor
罗立刚
张旸
郭哲聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Linkdoc Technology Beijing Co ltd
Original Assignee
Linkdoc Technology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Linkdoc Technology Beijing Co ltd filed Critical Linkdoc Technology Beijing Co ltd
Priority to CN202210084092.0A priority Critical patent/CN114417866A/zh
Publication of CN114417866A publication Critical patent/CN114417866A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种文本密级判定方法、装置和电子设备,该方法的一具体实施方式包括:获取待定级文本;将所述待定级文本所对应的向量、特征值输入预先训练好的分类器中,由所述分类器根据所述向量和所述特征值判定该待定级文本属于各个预设密级的概率信息;所述特征值包括所述待定级文本中满足预设条件的字符;根据各个所述概率信息,判定所述待定级文本的密级。该方法可以由分类器基于待定级文本的向量以及特征值输出该待定级文本属于各个预设密级的概率信息,提高了判定出的密级的准确度。

Description

文本密级判定方法、装置和电子设备
技术领域
本申请涉及信息处理领域,具体而言,涉及一种文本密级判定方法、装置和电子设备。
背景技术
涉密文本可以视为以文字形式记载商业、国家秘密等内容的资料,其牵涉到企业、国家的安全和利益。因此,需要判定涉密文本的密级,以合理划分其公开范围。
在相关技术中,通常由定密人员确定涉密文本的密级。这样,容易导致密级判定不准确、定密效率低下的情况。
发明内容
本申请实施例的目的在于提供一种文本密级判定方法、装置和电子设备,可以由分类器基于待定级文本的向量以及特征值输出该待定级文本属于各个预设密级的概率信息,提高了判定出的密级的准确度。
第一方面,本申请实施例提供了一种文本密级判定方法,该方法包括:获取待定级文本;将所述待定级文本所对应的向量、特征值输入预先训练好的分类器中,由所述分类器根据所述向量和所述特征值判定该待定级文本属于各个预设密级的概率信息;所述特征值包括所述待定级文本中满足预设条件的字符;根据各个所述概率信息,判定所述待定级文本的密级。这样,可以由分类器基于待定级文本的向量以及特征值输出该待定级文本属于各个预设密级的概率信息,提高了判定出的密级的准确度。
可选地,所述分类器包括第一子分类器和第二子分类器,所述第一子分类器根据所述向量判定所述待定级文本属于各个预设密级的粗略概率信息;所述第二子分类器根据各个所述粗略概率信息以及所述特征值判定各个所述概率信息。这样,通过两个子分类器确定出待定级文本的密级信息,准确度高。
可选地,所述第一子分类器基于以下步骤训练:获取第一训练样本集;所述第一训练样本集包括多个第一训练文本分别对应的第一样本向量以及属于各个所述预设密级的第一实际概率信息;针对每一个所述第一训练文本,将该第一训练文本对应的第一样本向量作为所述第一子分类器的输入,得到与该第一训练文本对应的第一预测概率信息;根据多个所述第一预测概率信息与所述第一实际概率信息之间的差异,向该差异满足第一差异条件的方向训练所述第一子分类器。这样,可以训练得到收敛的第一子分类器。
可选地,所述第二子分类器基于以下步骤训练:获取第二训练样本集;所述第二训练样本集包括多个第二训练文本分别对应的第二样本特征值、属于各个所述预设密级的第二实际概率信息以及所述第一子分类器针对该第二训练文本得到的样本粗略概率信息;针对每一个所述第二训练文本,将该第二训练文本对应的第二样本特征值、样本粗略密级信息作为所述第二子分类器的输入,得到与所述第二样本向量对应的第二预测概率信息;根据多个所述第二预测概率信息与所述第二实际概率信息之间的差异,向该差异满足第二差异条件的方向训练所述第二子分类器。这样,可以训练得到收敛的第二子分类器。
可选地,所述分类器基于以下步骤训练:获取第三训练样本集;所述第三训练样本集包括多个第三训练文本分别对应的第三样本向量、第三样本特征值以及属于各个所述预设密级的第三实际概率信息;针对每一个所述第三训练文本,将该第三训练文本对应的第三样本向量以及第三样本特征值作为所述分类器的输入,得到与该第三训练样本对应的第三预测概率信息;根据多个所述第三预测概率信息与所述第三实际概率信息之间的差异,向该差异满足第三差异条件的方向训练所述分类器。这样,可以训练得到收敛的分类器。
可选地,所述根据各个所述概率信息,判定所述待定级文本的密级,包括:将各个所述概率信息中,数值最大的概率信息所对应的密级判定为所述待定级文本的密级。这样,终端设备可以将数值最大的概率信息所对应的密级确定为待定级文本的密级,以使得判定出的密级的可信度较高。
可选地,所述待定级文本对应的向量基于以下步骤得到:将所述待定级文本进行分词处理,得到分词结果;在检测到所述分词结果中存在助词时,删除所述助词;向量化删除了所述助词之后的分词结果,得到所述待定级文本对应的向量。可以删除待定级文本中的助词,并能够向量化删除助词之后的分词结果,简化了向量化过程。
第二方面,本申请实施例提供了一种文本密级判定装置,该装置包括:获取模块,用于获取待定级文本;分类模块,用于将所述待定级文本所对应的向量、特征值输入预先训练好的分类器中,由所述分类器根据所述向量和所述特征值判定该待定级文本属于各个预设密级的概率信息;所述特征值包括所述待定级文本中满足预设条件的字符;判定模块,用于根据各个所述概率信息,判定所述待定级文本的密级。这样,可以由分类器基于待定级文本的向量以及特征值输出该待定级文本属于各个预设密级的概率信息,提高了判定出的密级的准确度。
第三方面,本申请实施例提供一种电子设备,包括处理器以及存储器,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,运行如上述第一方面提供的所述方法中的步骤。
第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时运行如上述第一方面提供的所述方法中的步骤。
本申请的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种文本密级判定方法的流程图;
图2为本申请实施例提供的一种文本密级判定装置的结构框图;
图3为本申请实施例提供的一种用于执行文本密级判定方法的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
应当说明的是,在不冲突的情况下,本申请中的实施例或者实施例中的技术特征可以进行结合。
相关技术中,存在密级判定不准确、定密效率低下的问题;为了解决该问题,本申请提供一种文本密级判定方法、装置和电子设备;进一步地,通过待定级文本所对应的向量以及特征值,确定出待定级文本的密级。其中,定级人员可以根据实际所需设置特征值所需满足的条件,以将待定级文本中满足该条件的字符确定为特征值,提高判定出的密级的准确性。另外,由于定级人员在定级过程中仅需设置特征值所需满足的条件,因此提高了定级效率。
在一些应用场景中,上述文本密级判定方法可以应用于终端设备或者服务器中,该终端设备或者服务器能够基于待定级文本所对应的向量以及特征值判定出其所属密级即可。示例性地,本申请以应用于终端设备为例行文。
以上相关技术中的方案所存在的缺陷,均是发明人在经过实践并仔细研究后得出的结果,因此,上述问题的发现过程以及下文中本发明实施例针对上述问题所提出的解决方案,都应该是发明人在本发明过程中对本发明做出的贡献。
请参考图1,其示出了本申请实施例提供的一种文本密级判定方法的流程图。如图1所示,该文本密级判定方法包括以下步骤101至步骤103。
步骤101,获取待定级文本;
上述待定级文本可以视为记录有涉密内容的文本。
在一些应用场景中,终端设备可以获取待定级文本。这里,终端设备可以从定密人员的输入信息中获取到待定级文本。也即,该待定级文本可以是定密人员输入到终端设备中的。终端设备也可以从保存有该待定级文本的存储器中获取。也即,定密人员可以将待定级文本统一存储在该存储器中,然后由终端设备响应于定密人员执行的获取操作从存储器中获取。上述获取操作例如可以为在存储器对待定级文本的点击、长按等操作。
步骤102,将所述待定级文本所对应的向量、特征值输入预先训练好的分类器中,由所述分类器根据所述向量和所述特征值判定该待定级文本属于各个预设密级的概率信息;所述特征值包括所述待定级文本中满足预设条件的字符;
上述待定级文本所对应的向量可以视为针对于组成该待定级文本的各个词语对应的向量。其例如可以通过词袋模型、独热编码方式对待定级文本进行处理得到。
上述特征值可以视为该待定级文本中满足预设条件的字符。这里,预设条件例如可以包括字符适用于正则表达式,或者包含定密人员设置的特定词等。这里,适用于正则表达式的字符例如可以包括识别出待定级文本中表征身份证号码、手机号码等的字符。
上述分类器可以视为能够通过特定算法将待定级文本基于预设密级进行分类的器件。上述特定算法例如可以包括朴素贝叶斯算法、梯度提升算法(eXtreme GradientBoosting,简称XGBoost算法)等。
上述预设密级例如可以包括公开等级、秘密等级、机密等级、绝密等级等。在一些应用场景中,终端设备可以预先设置多个预设密级,以能够在不同范围内公开,保证涉密文本的保密性。
终端设备在获取到待定级文本之后,可以确定出待定级文本所对应的向量以及特征值。在一些可选的实现方式中,所述待定级文本对应的向量可以基于以下步骤得到:
步骤A,将所述待定级文本进行分词处理,得到分词结果;
在一些应用场景中,终端设备可以将待定级文本进行分词处理。这里,终端设备例如可以通过字符串匹配分词算法、基于统计的机器学习算法等实质上可以将待定级文本划分为至少一个词语的方式对待定级文本进行分词处理,得到分词结果。
步骤B,在检测到所述分词结果中存在助词时,删除所述助词;
终端设备对待定级文本进行分词处理,得到组成待定级文本的多个词语(也即分词结果)之后,可以进一步检测多个词语中是否存在助词。这里,助词也即无切实意义的虚词,将其删除之后不会对待定级文本的语义造成影响。因此,终端设备在检测到分词结果中存在助词时,可以删除该助词。
步骤C,向量化删除了所述助词之后的分词结果,得到所述待定级文本对应的向量。
终端设备删除了分词结果中的助词之后,可以向量化剩下的词语,以得到待定级文本对应的向量。这里,终端设备例如可以通过上述的词袋模型、独热编码等实现向量化过程。
通过上述步骤A至步骤B,可以删除待定级文本中的助词,并能够向量化删除助词之后的分词结果,简化了向量化过程。
终端设备确定了待定级文本所对应的向量以及特征值之后,可以将该向量和特征值输入到分类器中,由该分类器基于诸如上述的特定算法输出该待定级文本属于各个预设密级的概率信息。这里的概率信息例如可以包括82%、90%、95%等数值信息。
步骤103,根据各个所述概率信息,判定所述待定级文本的密级。
终端设备可以获取分类器判定出的多个概率信息,并可以根据这些概率信息判定出待定级文本的密级。例如,终端设备可以根据设置的多个概率区间筛选出处于各个概率区间的概率信息,然后再根据处于各个概率区间的概率信息的个数进行判定。例如,定级人员在终端设备中设置了(60%,70%]、(70%,80%]、(80%,90%]、(90%,100%]等分别对应于公开等级、秘密等级、机密等级、绝密等级的概率区间。终端设备可以整理分类器输出的分别属于公开等级、秘密等级、机密等级、绝密等级的概率值10%、15%、85%、89%。其中,属于公开等级区间、秘密等级区间的概率值个数均为1,属于机密等级区间的概率值个数为2,属于绝密等级区间的概率值个数为0。此时,由于属于机密等级区间的概率值个数最多,所以可以判定该待定级文本的密级为机密等级。
在本实施例中,通过上述步骤101至步骤103,可以由分类器基于待定级文本的向量以及特征值输出该待定级文本属于各个预设密级的概率信息,提高了判定出的密级的准确度。
在一些可选的实现方式中,上述步骤103可以包括:将各个所述概率信息中,数值最大的概率信息所对应的密级判定为所述待定级文本的密级。
在一些应用场景中,终端设备在得到分类器输出的多个概率信息之后,可以根据各个概率信息所对应的数值大小确定出待定级文本的密级。具体的,终端设备可以将数值最大的概率信息所对应的密级确定为待定级文本的密级,以使得判定出的密级的可信度较高。
在一些可选的实现方式中,所述分类器包括第一子分类器和第二子分类器,所述第一子分类器根据所述向量判定所述待定级文本属于各个预设密级的粗略概率信息;所述第二子分类器根据各个所述粗略概率信息以及所述特征值判定各个所述概率信息。
在一些应用场景中,上述分类器可以由第一子分类器和第二子分类器组成,第一子分类器的输出为第二子分类器的输入。
终端设备可以将待定级文本的向量输入第一子分类器中,由第一子分类器输出该待定级文本属于各个预设密级的粗略概率信息。这里,第一子分类器例如可以通过朴素贝叶斯算法对待定级文本进行分类。具体的,第一子分类器可以通过朴素贝叶斯算法对待定级文本的向量进行分类,判定出该向量属于各个预设密级的概率信息,继而可以将该概率信息确定为该待定级文本属于各个预设密级的粗略概率信息。
第一子分类器输出了多个粗略概率信息之后,终端设备可以将这些粗略概率信息作为第二子分类器的输入,以通过第二子分类器对粗略概率信息进行优化。具体的,终端设备可以在第二子分类器的输入中添加待定级文本所对应的特征值达到优化粗略概率信息的目的,以得到更加准确的概率信息。
在一些可选的实现方式中,所述第一子分类器基于以下步骤训练:
步骤一,获取第一训练样本集;所述第一训练样本集包括多个第一训练文本分别对应的第一样本向量以及属于各个所述预设密级的第一实际概率信息;
在一些应用场景中,在训练第一子分类器时,可以先获取第一训练样本集。该第一训练样本集中可以包括多个第一训练文本。
各个第一训练文本可以分别被向量化为多个第一样本向量。第一训练文本所对应的第一样本向量例如也可以通过词袋模型得到。
各个第一训练文本属于各个预设密级的第一实际概率信息可以由定密人员制定。也即,定密人员可以预先根据每个第一训练文本的涉密程度确定出第一训练文本的第一实际概率信息。
步骤二,针对每一个所述第一训练文本,将该第一训练文本对应的第一样本向量作为所述第一子分类器的输入,得到与该第一训练文本对应的第一预测概率信息;
针对每一个第一训练样本,终端设备在获取到该第一训练样本所对应的第一样本向量之后,可以将该第一样本向量输入到第一子分类器中,由第一子分类器基于其预设算法(例如朴素贝叶斯算法)得到与该第一训练文本对应的第一预测概率信息。应当说明的是,第一训练文本所对应的第一预测概率信息为预测的该第一训练文本属于各个预设密级的概率信息。
步骤三,根据多个所述第一预测概率信息与所述第一实际概率信息之间的差异,向该差异满足第一差异条件的方向训练所述第一子分类器。
终端设备针对每一个第一训练文本得到与之对应的第一预测概率信息之后,可以确定第一预测概率信息与其对应的第一实际概率信息之间的差异。例如,终端设备在得到第一训练文本A、第一训练文本B、第一训练文本C之后,其针对每一个第一训练文本得到了与之对应的第一预测概率信息a、第一预测概率信息b、第一预测概率信息c。此时,终端设备可以分别确定第一预测概率信息a与第一实际概率信息a'、第一预测概率信息b与第一实际概率信息b'、第一预测概率信息c与第一实际概率信息c'之间的差异。这里,由于第一预测概率信息、第一实际概率信息为第一训练文本属于各个预设密级的概率信息。因此,在分别确定差异时,应当是确定第一预测概率信息、第一实际概率信息中对应于同一密级的概率信息之间的差异。
终端设备确定了多个第一预测概率信息与第一实际概率信息之间的差异之后,可以向该差异满足第一差异条件的方向训练第一子分类器,以训练得到收敛的第一子分类器。上述第一差异条件例如可以包括该差异在差异区间(2%,5%)、(3%,7%)内等实质上可以视为差异对判定结果影响不大的条件。
在一些可选的实现方式中,所述第二子分类器基于以下步骤训练:
步骤1,获取第二训练样本集;所述第二训练样本集包括多个第二训练文本分别对应的第二样本特征值、属于各个所述预设密级的第二实际概率信息以及所述第一子分类器针对该第二训练文本得到的样本粗略概率信息;
在一些应用场景中,在训练第二子分类器时,可以先获取第二训练样本集。该第二训练样本集中可以包括多个第二训练文本。这些第二训练文本中可以由多个字符构成。
终端设备可以基于预设规则得到各个第二训练文本分别对应的第二样本特征值。这里的预设规则例如可以为字符适用于正则表达式。
各个第二训练文本属于各个预设密级的第二实际概率信息可以由定密人员制定。也即,定密人员可以预先根据每个第二训练文本的涉密程度确定出第二训练文本的第二实际概率信息。
各个第二训练文本可以先输入到第一子分类器中,由第一子分类器输出各自分别对应的粗略概率信息。该粗略概率信息可以视为第二训练文本对应的样本粗略概率信息。
在一些应用场景中,终端设备也可以将对应于同一第二训练样本的第二样本特征值以及样本粗略概率信息拼接成一个特征向量之后,再将该特征向量作为第二子分类器的输入。这样,在输入时,不会出现第二样本特征值与样本粗略概率不对应的情况。
步骤2,针对每一个所述第二训练文本,将该第二训练文本对应的第二样本特征值、样本粗略密级信息作为所述第二子分类器的输入,得到与所述第二样本向量对应的第二预测概率信息;
针对每一个第二训练样本,终端设备在获取到该第二训练样本所对应的第二样本特征值之后,可以将该第二样本特征值以及样本粗略密级信息输入到第二子分类器中,由第二子分类器基于其预设算法(例如XGBoost算法)得到与该第二训练文本对应的第二预测概率信息。应当说明的是,第二训练文本所对应的第二预测概率信息为预测的该第二训练文本属于各个预设密级的概率信息。
步骤3,根据多个所述第二预测概率信息与所述第二实际概率信息之间的差异,向该差异满足第二差异条件的方向训练所述第二子分类器。
终端设备针对每一个第二训练文本得到与之对应的第二预测概率信息之后,可以确定第二预测概率信息与其对应的第二实际概率信息之间的差异。相类似地,由于第二预测概率信息、第二实际概率信息为第二训练文本属于各个预设密级的概率信息。因此,在分别确定差异时,应当是确定第二预测概率信息、第二实际概率信息中对应于同一密级的概率信息之间的差异。
终端设备确定了多个第二预测概率信息与第二实际概率信息之间的差异之后,可以向该差异满足第二差异条件的方向训练第二子分类器,以训练得到收敛的第二子分类器。上述第二差异条件例如可以包括该差异在差异区间(1%,3%)、(2%,4%)内等实质上可以视为差异对判定结果影响不大的条件。
在一些可选的实现方式中,分类器可以不包括任何子分类器。其可以直接将待定级文本所对应的向量以及特征值作为输入,输出该待定级文本属于各个预设密级的概率信息。
在一些可选的实现方式中,所述分类器基于以下步骤训练:
步骤a,获取第三训练样本集;所述第三训练样本集包括多个第三训练文本分别对应的第三样本向量、第三样本特征值以及属于各个所述预设密级的第三实际概率信息;
在一些应用场景中,在训练该分类器时,可以先获取第三训练样本集。该第三训练样本集中可以包括多个第三训练文本。这些第三训练文本中可以由多个字符构成。
各个第三训练文本可以分别被向量化为多个第三样本向量。第三训练文本所对应的第三样本向量例如也可以通过词袋模型得到。
终端设备可以基于预设规则得到各个第三训练文本分别对应的第三样本特征值。这里的预设规则例如可以为字符适用于正则表达式。
各个第三训练文本属于各个预设密级的第三实际概率信息可以由定密人员制定。也即,定密人员可以预先根据每个第三训练文本的涉密程度确定出第三训练文本的第三实际概率信息。
步骤b,针对每一个所述第三训练文本,将该第三训练文本对应的第三样本向量以及第三样本特征值作为所述分类器的输入,得到与该第三训练样本对应的第三预测概率信息;
针对每一个第三训练样本,终端设备在获取到该第三训练样本所对应的第三样本向量、第三样本特征值之后,可以将该第三样本向量、第三样本特征值输入到该分类器中,由该分类器基于其预设算法(例如XGBoost算法)得到与该第三训练文本对应的第三预测概率信息。应当说明的是,第三训练文本所对应的第三预测概率信息为预测的该第三训练文本属于各个预设密级的概率信息。
步骤c,根据多个所述第三预测概率信息与所述第三实际概率信息之间的差异,向该差异满足第三差异条件的方向训练所述分类器。
终端设备针对每一个第三训练文本得到与之对应的第三预测概率信息之后,可以确定第三预测概率信息与其对应的第三实际概率信息之间的差异。相类似地,由于第三预测概率信息、第三实际概率信息为第三训练文本属于各个预设密级的概率信息。因此,在分别确定差异时,应当是确定第三预测概率信息、第三实际概率信息中对应于同一密级的概率信息之间的差异。
终端设备确定了多个第三预测概率信息与第三实际概率信息之间的差异之后,可以向该差异满足第三差异条件的方向训练该分类器,以训练得到收敛的分类器。上述第第三差异条件例如可以包括该差异在差异区间(1%,3%)、(2%,4%)内等实质上可以视为差异对判定结果影响不大的条件。
请参考图2,其示出了本申请实施例提供的一种文本密级判定装置的结构框图,该文本密级判定装置可以是电子设备上的模块、程序段或代码。应理解,该装置与上述图1方法实施例对应,能够执行图1方法实施例涉及的各个步骤,该装置具体的功能可以参见上文中的描述,为避免重复,此处适当省略详细描述。
可选地,上述文本密级判定装置包括获取模块201、分类模块202以及判定模块203。其中,获取模块201,用于获取待定级文本;分类模块202,用于将所述待定级文本所对应的向量、特征值输入预先训练好的分类器中,由所述分类器根据所述向量和所述特征值判定该待定级文本属于各个预设密级的概率信息;所述特征值包括所述待定级文本中满足预设条件的字符;判定模块203,用于根据各个所述概率信息,判定所述待定级文本的密级。
可选地,所述分类器包括第一子分类器和第二子分类器,所述第一子分类器根据所述向量判定所述待定级文本属于各个预设密级的粗略概率信息;所述第二子分类器根据各个所述粗略概率信息以及所述特征值判定各个所述概率信息。
可选地,所述第一子分类器基于以下步骤训练:获取第一训练样本集;所述第一训练样本集包括多个第一训练文本分别对应的第一样本向量以及属于各个所述预设密级的第一实际概率信息;针对每一个所述第一训练文本,将该第一训练文本对应的第一样本向量作为所述第一子分类器的输入,得到与该第一训练文本对应的第一预测概率信息;根据多个所述第一预测概率信息与所述第一实际概率信息之间的差异,向该差异满足第一差异条件的方向训练所述第一子分类器。
可选地,所述第二子分类器基于以下步骤训练:获取第二训练样本集;所述第二训练样本集包括多个第二训练文本分别对应的第二样本特征值、属于各个所述预设密级的第二实际概率信息以及所述第一子分类器针对该第二训练文本得到的样本粗略概率信息;针对每一个所述第二训练文本,将该第二训练文本对应的第二样本特征值、样本粗略密级信息作为所述第二子分类器的输入,得到与所述第二样本向量对应的第二预测概率信息;根据多个所述第二预测概率信息与所述第二实际概率信息之间的差异,向该差异满足第二差异条件的方向训练所述第二子分类器。
可选地,所述分类器基于以下步骤训练:获取第三训练样本集;所述第三训练样本集包括多个第三训练文本分别对应的第三样本向量、第三样本特征值以及属于各个所述预设密级的第三实际概率信息;针对每一个所述第三训练文本,将该第三训练文本对应的第三样本向量以及第三样本特征值作为所述分类器的输入,得到与该第三训练样本对应的第三预测概率信息;根据多个所述第三预测概率信息与所述第三实际概率信息之间的差异,向该差异满足第三差异条件的方向训练所述分类器。
可选地,所述判定模块203进一步用于:将各个所述概率信息中,数值最大的概率信息所对应的密级判定为所述待定级文本的密级。
可选地,所述待定级文本对应的向量基于以下步骤得到:将所述待定级文本进行分词处理,得到分词结果;在检测到所述分词结果中存在助词时,删除所述助词;向量化删除了所述助词之后的分词结果,得到所述待定级文本对应的向量。
需要说明的是,本领域技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统或者装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再重复描述。
请参照图3,图3为本申请实施例提供的一种用于执行文本密级判定方法的电子设备的结构示意图,所述电子设备可以包括:至少一个处理器301,例如CPU,至少一个通信接口302,至少一个存储器303和至少一个通信总线304。其中,通信总线304用于实现这些组件直接的连接通信。其中,本申请实施例中设备的通信接口302用于与其他节点设备进行信令或数据的通信。存储器303可以是高速RAM存储器,也可以是非易失性的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器303可选的还可以是至少一个位于远离前述处理器的存储装置。存储器303中存储有计算机可读取指令,当所述计算机可读取指令由所述处理器301执行时,电子设备可以执行上述图1所示方法过程。
可以理解,图3所示的结构仅为示意,所述电子设备还可包括比图3中所示更多或者更少的组件,或者具有与图3所示不同的配置。图3中所示的各组件可以采用硬件、软件或其组合实现。
本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,可以执行如图1所示方法实施例中电子设备所执行的方法过程。
本申请实施例提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如,该方法可以包括:获取待定级文本;将所述待定级文本所对应的向量、特征值输入预先训练好的分类器中,由所述分类器根据所述向量和所述特征值判定该待定级文本属于各个预设密级的概率信息;所述特征值包括所述待定级文本中满足预设条件的字符;根据各个所述概率信息,判定所述待定级文本的密级。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
再者,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种文本密级判定方法,其特征在于,包括:
获取待定级文本;
将所述待定级文本所对应的向量、特征值输入预先训练好的分类器中,由所述分类器根据所述向量和所述特征值判定该待定级文本属于各个预设密级的概率信息;所述特征值包括所述待定级文本中满足预设条件的字符;
根据各个所述概率信息,判定所述待定级文本的密级。
2.根据权利要求1所述的方法,其特征在于,所述分类器包括第一子分类器和第二子分类器,所述第一子分类器根据所述向量判定所述待定级文本属于各个预设密级的粗略概率信息;所述第二子分类器根据各个所述粗略概率信息以及所述特征值判定各个所述概率信息。
3.根据权利要求2所述的方法,其特征在于,所述第一子分类器基于以下步骤训练:
获取第一训练样本集;所述第一训练样本集包括多个第一训练文本分别对应的第一样本向量以及属于各个所述预设密级的第一实际概率信息;
针对每一个所述第一训练文本,将该第一训练文本对应的第一样本向量作为所述第一子分类器的输入,得到与该第一训练文本对应的第一预测概率信息;
根据多个所述第一预测概率信息与所述第一实际概率信息之间的差异,向该差异满足第一差异条件的方向训练所述第一子分类器。
4.根据权利要求2所述的方法,其特征在于,所述第二子分类器基于以下步骤训练:
获取第二训练样本集;所述第二训练样本集包括多个第二训练文本分别对应的第二样本特征值、属于各个所述预设密级的第二实际概率信息以及所述第一子分类器针对该第二训练文本得到的样本粗略概率信息;
针对每一个所述第二训练文本,将该第二训练文本对应的第二样本特征值、样本粗略密级信息作为所述第二子分类器的输入,得到与所述第二样本向量对应的第二预测概率信息;
根据多个所述第二预测概率信息与所述第二实际概率信息之间的差异,向该差异满足第二差异条件的方向训练所述第二子分类器。
5.根据权利要求1所述的方法,其特征在于,所述分类器基于以下步骤训练:
获取第三训练样本集;所述第三训练样本集包括多个第三训练文本分别对应的第三样本向量、第三样本特征值以及属于各个所述预设密级的第三实际概率信息;
针对每一个所述第三训练文本,将该第三训练文本对应的第三样本向量以及第三样本特征值作为所述分类器的输入,得到与该第三训练样本对应的第三预测概率信息;
根据多个所述第三预测概率信息与所述第三实际概率信息之间的差异,向该差异满足第三差异条件的方向训练所述分类器。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述根据各个所述概率信息,判定所述待定级文本的密级,包括:
将各个所述概率信息中,数值最大的概率信息所对应的密级判定为所述待定级文本的密级。
7.根据权利要求1所述的方法,其特征在于,所述待定级文本对应的向量基于以下步骤得到:
将所述待定级文本进行分词处理,得到分词结果;
在检测到所述分词结果中存在助词时,删除所述助词;
向量化删除了所述助词之后的分词结果,得到所述待定级文本对应的向量。
8.一种文本密级判定装置,其特征在于,包括:
获取模块,用于获取待定级文本;
分类模块,用于将所述待定级文本所对应的向量、特征值输入预先训练好的分类器中,由所述分类器根据所述向量和所述特征值判定该待定级文本属于各个预设密级的概率信息;所述特征值包括所述待定级文本中满足预设条件的字符;
判定模块,用于根据各个所述概率信息,判定所述待定级文本的密级。
9.一种电子设备,其特征在于,包括处理器以及存储器,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,运行如权利要求1-7任一所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时运行如权利要求1-7任一所述的方法。
CN202210084092.0A 2022-01-21 2022-01-21 文本密级判定方法、装置和电子设备 Pending CN114417866A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210084092.0A CN114417866A (zh) 2022-01-21 2022-01-21 文本密级判定方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210084092.0A CN114417866A (zh) 2022-01-21 2022-01-21 文本密级判定方法、装置和电子设备

Publications (1)

Publication Number Publication Date
CN114417866A true CN114417866A (zh) 2022-04-29

Family

ID=81277298

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210084092.0A Pending CN114417866A (zh) 2022-01-21 2022-01-21 文本密级判定方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN114417866A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118445709A (zh) * 2024-07-08 2024-08-06 合肥龙客得云计算有限公司 一种文件密级标记的智能判定方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118445709A (zh) * 2024-07-08 2024-08-06 合肥龙客得云计算有限公司 一种文件密级标记的智能判定方法及系统

Similar Documents

Publication Publication Date Title
US8688690B2 (en) Method for calculating semantic similarities between messages and conversations based on enhanced entity extraction
CN109872162B (zh) 一种处理用户投诉信息的风控分类识别方法及系统
CN110580308B (zh) 信息审核方法及装置、电子设备、存储介质
CN112329836A (zh) 基于深度学习的文本分类方法、装置、服务器及存储介质
CN110909160A (zh) 正则表达式生成方法、服务器及计算机可读存储介质
CN107145516B (zh) 一种文本聚类方法及系统
KR20080075501A (ko) 정보 분류를 위한 방법, 컴퓨터 판독가능 매체, 및 시스템
CN110458296B (zh) 目标事件的标记方法和装置、存储介质及电子装置
CN111984792A (zh) 网站分类方法、装置、计算机设备及存储介质
CN114116973A (zh) 多文档的文本查重方法、电子设备及存储介质
CN107357895A (zh) 一种基于词袋模型的文本表示的处理方法
CN114691525A (zh) 测试用例的选择方法及装置
CN115953123A (zh) 机器人自动化流程的生成方法、装置、设备及存储介质
CN112579781B (zh) 文本归类方法、装置、电子设备及介质
CN114417866A (zh) 文本密级判定方法、装置和电子设备
CN114547301A (zh) 文档处理、识别模型训练方法、装置、设备及存储介质
CN113705201B (zh) 基于文本的事件概率预测评估算法、电子设备及存储介质
CN115080745A (zh) 基于人工智能的多场景文本分类方法、装置、设备及介质
CN115017256A (zh) 电力数据处理方法、装置、电子设备及存储介质
CN114117047A (zh) 一种基于c4.5算法对非法语音进行分类的方法及系统
CN115048345A (zh) 异常日志检测方法、装置、电子设备和存储介质
CN113901817A (zh) 文档分类方法、装置、计算机设备和存储介质
CN110941719A (zh) 数据分类方法、测试方法、装置及存储介质
CN113850085B (zh) 企业的等级评估方法、装置、电子设备及可读存储介质
CN104038391A (zh) 一种垃圾邮件检测的方法和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination