CN109460555A - 公文判定方法、装置及电子设备 - Google Patents
公文判定方法、装置及电子设备 Download PDFInfo
- Publication number
- CN109460555A CN109460555A CN201811372564.2A CN201811372564A CN109460555A CN 109460555 A CN109460555 A CN 109460555A CN 201811372564 A CN201811372564 A CN 201811372564A CN 109460555 A CN109460555 A CN 109460555A
- Authority
- CN
- China
- Prior art keywords
- document
- determined
- feature
- official
- term vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种公文判定方法、装置及电子设备,涉及计算机算法技术领域,该方法包括:获取待判定文档,并对待判定文档进行分词处理得到多个词汇;根据多个词汇与预先确定的公文文档集对应的特征词向量的匹配关系,及特征词向量对应的词权重向量,计算得到待判定文档的分数;其中,特征词向量及特征词向量对应的词权重向量为基于采集到的公文文档集和非公文文档集所确定的;当待判定文档的分数大于预设分数阈值时,将待判定文档确定为公文。本发明能够有效提升公文判定的准确率。
Description
技术领域
本发明涉及计算机算法技术领域,尤其是涉及一种公文判定方法、装置及电子设备。
背景技术
随着大数据时代的到来,各类文件充斥在互联网上,其中可能存在一些失泄密的文件,这些失泄密的文件主要来源类型为政府公文,为确保国家保密工作的安全,需要及时的从海量的文件中筛选出政府公文。
目前主要依据相关标准格式规定,诸如规定中对格式的要求可以分为版头、主体、版记、页码四个部分,对文件进行公文判定。但这样的方法不具备普适性,例如当出现部分公文的写作并未严格按照相关格式进行;或者出现上传在互联网上的政府公文转变为纯文本,许多原有的格式都已被覆盖等情况时,利用上述基于格式规定的公文判定方法并不能筛选出政府公文,使得公文判定的准确率较低。
发明内容
有鉴于此,本发明的目的在于提供一种公文判定方法、装置及电子设备,以提升公文判定的准确率。
第一方面,本发明实施例提供了一种公文判定方法,包括:获取待判定文档,并对待判定文档进行分词处理得到多个词汇;根据多个词汇与预先确定的公文文档集对应的特征词向量的匹配关系,及特征词向量对应的词权重向量,计算得到待判定文档的分数;其中,特征词向量及特征词向量对应的词权重向量为基于采集到的公文文档集和非公文文档集所确定的;当待判定文档的分数大于预设分数阈值时,将待判定文档确定为公文。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,在获取待判定文档之前,上述方法还包括:分别对公文文档集和非公文文档集进行分词处理,得到第一词集向量和第二词集向量;分别统计第一词集向量和第二词集向量中的每个词对应的文档频率,得到第一词集向量对应的第一文档频率向量及第二词集向量对应的第二文档频率向量;从第一词集向量中提取出多个特征词;根据多个特征词在第一文档频率向量中对应的文档频率和多个特征词在第二文档频率向量中对应的文档频率,计算得到每个特征词的词权重;从多个特征词中筛选出词权重处于第一预设权重取值范围之内的特征词;基于筛选出的特征词及特征词的词权重,得到公文文档集对应的特征词向量及特征词向量对应的词权重向量。
结合第一方面的第一种可能的实施方式,本发明实施例提供了第一方面的第二种可能的实施方式,上述方法还包括:逐一判断特征词向量中的各个特征词的词权重是否处于第二预设权重范围之内;如果是,对特征词的词权重进行降值处理,得到新的特征词向量及新的特征词向量对应的词权重向量;将新的特征词向量及新的特征词向量对应的词权重向量,作为公文文档集对应的特征词向量及特征词向量对应的词权重向量。
结合第一方面,本发明实施例提供了第一方面的第三种可能的实施方式,其中,上述根据多个词汇与预先确定的公文文档集对应的特征词向量的匹配关系,及特征词向量对应的词权重向量,计算得到待判定文档的分数的步骤,包括:逐一判断各个词汇是否存在于特征词向量中;如果是,根据特征词向量对应的词权重向量,确定词汇的词权重;如果否,将词汇的词权重确定为0;根据多个词汇的词权重,计算得到待判定文档的分数。
结合第一方面,本发明实施例提供了第一方面第四种可能的实施方式,其中,预设分数阈值通过以下方式进行确定:根据特征词向量与词权重向量,分别对公文文档集中各篇公文文档以及非公文文档集中的各篇非公文文档进行评分,得到公文文档集对应的第一分数集以及非公文文档集对应的第二分数集;根据第一分数集和第二分数集,确定分数阈值的取值范围;基于分数阈值的取值范围,计算得到F-Measure的多个值;将F-Measure的最大值对应的分数阈值确定为预设分数阈值。
结合第一方面的第一种可能的实施方式,本发明实施例提供了第一方面的第五种可能的实施方式,其中,每个特征词的词权重,通过以下公式计算得到:其中,weight(m,n)表示特征词的词权重;m表示特征词在第一文档频率向量中对应的文档频率;n表示特征词在第二文档频率向量中对应的文档频率;n≥0;λ为光滑因子。
结合第一方面的第三种可能的实施方式,本发明实施例提供了第一方面的第六种可能的实施方式,其中,待判定文档的分数,通过以下公式计算得到:其中,score表示待判定文档的分数;N表示待判定文档中词汇的数量;1≤i≤N;wi表示待判定文档中第i个词汇的词权重。
第二方面,本发明实施例提供了一种公文判定装置,包括:分词处理模块,用于获取待判定文档,并对待判定文档进行分词处理得到多个词汇;分数计算模块,用于根据多个词汇与预先确定的公文文档集对应的特征词向量的匹配关系,及特征词向量对应的词权重向量,计算得到待判定文档的分数;其中,特征词向量及特征词向量对应的词权重向量为基于采集到的公文文档集和非公文文档集所确定的;公文确定模块,用于当待判定文档的分数大于预设分数阈值时,将待判定文档确定为公文。
第三方面,本发明实施例提供了一种电子设备,包括存储器和处理器,存储器中存储有可在处理器上运行的计算机程序,处理器执行计算机程序时实现第一方面至第一方面的第六种可能的实施方式任一项所述的方法的步骤。
第四方面,本发明实施例提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行第一方面至第一方面的第六种可能的实施方式任一项所述的方法的步骤。
本发明实施例带来了以下有益效果:
本发明实施例提供了一种公文判定方法、装置及电子设备,首先获取待判定文档,并对待判定文档进行分词处理得到多个词汇;然后根据多个词汇与预先确定的公文文档集对应的特征词向量的匹配关系,及特征词向量对应的词权重向量,计算得到待判定文档的分数;其中,特征词向量及特征词向量对应的词权重向量为基于采集到的公文文档集和非公文文档集所确定的;当待判定文档的分数大于预设分数阈值时,将待判定文档确定为公文。本发明实施例提供的上述方式通过待判定文档与公文文档集的特征匹配度对待判定文档进行评分,相较于现有技术中根据相关标准规定对文档进行公文判定的方法,更加具有普适性,能够合理的筛选出公文文档,有效提升了公文判定的准确率。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种公文判定方法的流程图;
图2为本发明实施例提供的另一种公文判定方法的流程图;
图3为本发明实施例提供的一种公文判定装置的结构框图;
图4为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
随着大数据时代的到来,各类文件充斥在互联网上,其中可能存在一些失泄密的文件,这些失泄密的文件主要来源类型为政府公文,为确保国家保密工作的安全,需要及时的从海量的文件中筛选出政府公文。
目前主要依据相关标准格式规定,诸如规定中对格式的要求可以分为版头、主体、版记、页码四个部分,对文件进行公文判定。但这样的方法不具备普适性,例如当出现部分公文的写作并未严格按照相关格式进行;或者出现上传在互联网上的政府公文转变为纯文本,许多原有的格式都已被覆盖等情况时,利用上述基于格式规定的公文判定方法并不能筛选出政府公文,使得公文判定的准确率较低。
基于此,本发明实施例提供的一种公文判定方法、装置及电子设备,可以有效提升公文判定的准确率。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种公文判定方法进行详细介绍,参见图1所示的一种公文判定方法的流程图,该方法包括:
步骤S102,获取待判定文档,并对待判定文档进行分词处理得到多个词汇。
具体实施时,可通过分词器对待判定文档进行分词处理,此外,为提升后续公文判定的效率,实际应用时,在进行分词处理后,将词汇中的诸如语气词、助词和标点符号等停用词通过停用词表过滤掉,进而得到待判定文档中的多个词汇。
步骤S104,根据多个词汇与预先确定的公文文档集对应的特征词向量的匹配关系,及特征词向量对应的词权重向量,计算得到待判定文档的分数;其中,特征词向量及特征词向量对应的词权重向量为基于采集到的公文文档集和非公文文档集所确定的。
步骤S106,当待判定文档的分数大于预设分数阈值时,将待判定文档确定为公文。
具体的,依据预设分数阈值判断待判定文档的分数是否大于预设分数阈值;如果是,则确定待判定文档为公文;如果否,则确定待判定文档为非公文。
本发明实施例提供了一种公文判定方法,首先获取待判定文档,并对待判定文档进行分词处理得到多个词汇;然后根据多个词汇与预先确定的公文文档集对应的特征词向量的匹配关系,及特征词向量对应的词权重向量,计算得到待判定文档的分数;其中,特征词向量及特征词向量对应的词权重向量为基于采集到的公文文档集和非公文文档集所确定的;当待判定文档的分数大于预设分数阈值时,将待判定文档确定为公文。本发明实施例提供的上述方式通过待判定文档与公文文档集的特征匹配度对待判定文档进行评分,相较于现有技术中根据相关标准规定对文档进行公文判定的方法,更加具有普适性,能够合理的筛选出公文文档,有效提升了公文判定的准确率。
进一步,本发明实施例还提供了另一种公文判定方法,如图2所示,在图1的基础上还示意出了一种在获取待判定文档之前,预先确定公文文档集对应的特征词向量的匹配关系,及特征词向量对应的词权重向量的实施方式。具体的,参见图2,该方法包括:
步骤S202,分别对公文文档集和非公文文档集进行分词处理,得到第一词集向量和第二词集向量。
其中,公文文档集包括多个公文文档,非公文文档集包括多个非公文文档。具体的,可通过分词器对公文文档集和非公文文档集进行分词处理,此外,考虑到无论是公文文档还是非公文文档中都可能存在大量的停用词,诸如语气词、助词、标点符号等,这些停用词不能够体现公文文档集或者是非公文文档集的特征,实际应用时,可通过预设的停用词表将公文文档集及非公文文档集中的停用词过滤掉。基于此,将公文文档集经分词处理及停用词过滤后中的词汇组合即得到第一词集向量;将非公文文档集经分词处理及停用词过滤后中的词汇组合即得到第二词集向量。
步骤S204,分别统计第一词集向量和第二词集向量中的每个词对应的文档频率,得到第一词集向量对应的第一文档频率向量及第二词集向量对应的第二文档频率向量;
步骤S206,从第一词集向量中提取出多个特征词;
可根据诸如基于文档频率的特征选择方法、信息增益法、互信息法等特征选择方法从第一词集向量中提取特征词。具体的,以基于文档频率的特征选择方法为例进行详细说明,如下:首先将第一词集向量中的词按照其对应的文档频率由大到小进行排列,然后选取前K个词作为第一词集向量的特征词;其中,K的值可根据实际应用设定,在此不作限制。
步骤S208,根据多个特征词在第一文档频率向量中对应的文档频率和多个特征词在第二文档频率向量中对应的文档频率,计算得到每个特征词的词权重;
具体的,在一种可选的实施方式中,上述每个特征词的词权重,可通过以下公式计算得到:
其中,weight(m,n)表示特征词的词权重;m表示特征词在第一文档频率向量中对应的文档频率;n表示特征词在第二文档频率向量中对应的文档频率;n≥0;λ为光滑因子;光滑因子为大于0但接近于0的极小值,以保证当n为0时,分母部分不为0,该公式仍有意义。
步骤S210,从多个特征词中筛选出词权重处于第一预设权重取值范围之内的特征词;
基于上述词权重计算公式,当特征词的词权重大于1,也即m>n时,特征词在第一文档频率向量中对应的文档频率比其在第二文档频率向量中对应的文档频率高,表明该特征词更能体现出公文文档集的特征;此外,考虑到实际应用时,词权重大于1的多个特征词中存在个别特征词的影响过大,为了防止个别词的影响过大,需对词的权重大于α的值进行删除;其中,α大于1,α的取值可以按照经验值设定,在此不再进行限制。故从多个特征词中筛选出第一预设权重范围,也即词权重取值在1~α间的对应的特征词,通过这样的方式筛选出的特征词能够较好地代表公文文档集的特征,有助于提升后续公文判定的准确率。
步骤S212,基于筛选出的特征词及特征词的词权重,得到公文文档集对应的特征词向量及特征词向量对应的词权重向量。
将筛选出的特征词组合形成公文文档集对应的特征词向量;将特征词向量中的每个特征词对应的词权重组合形成与特征词向量具有一一对应关系的词权重向量。
步骤S214,获取待判定文档,并对待判定文档进行分词处理得到多个词汇。
步骤S216,根据多个词汇与预先确定的公文文档集对应的特征词向量的匹配关系,及特征词向量对应的词权重向量,计算得到待判定文档的分数;其中,特征词向量及特征词向量对应的词权重向量为基于采集到的公文文档集和非公文文档集所确定的。
步骤S218,当待判定文档的分数大于预设分数阈值时,将待判定文档确定为公文。
本发明实施例提供的另一种公文判定方法,首先对采集到的公文文档集和非公文文档集分别进行分词处理、统计每个词在其所处文档集中的文档频率、根据文档频率确定公文文档集对应的特征词向量及特征词向量对应的词权重向量;然后对待判定文档进行分词处理得到多个词汇;进而根据多个词汇与公文文档集对应的特征词向量之间的匹配关系,及及特征词向量对应的词权重向量为待判定文档进行评分,以分数的形式确定待判定文档与公文文档的相似程度,能够有效地提升公文判定的准确率。
进一步,考虑到第一预设权重范围,也即词权重处于1~α范围内的特征词中可能存在一些在公文文档中出现概率较小的词汇,如果这类词汇的词权重过大,会导致公文判定的结果产生误差,故在得到公文文档集对应的特征词向量及特征词向量对应的词权重向量后,上述方法还包括:
(1)逐一判断特征词向量中的各个特征词的词权重是否处于第二预设权重范围之内;如果是,执行(2);如果否,结束。
其中,第一预设权重范围包含第二预设权重范围,为便于理解,记第二预设权重范围为β~α;β>1,β的取值可根据实际应用设定,在此不进行限制。
(2)对特征词的词权重进行降值处理,得到新的特征词向量及新的特征词向量对应的词权重向量。
具体的,在一种可选的方式中,可通过以下公式对特征词的权重进行降值处理:
其中,Wnew为新的特征词向量中的特征词对应的词权重;Wold为降值处理前的特征词对应的词权重。
(3)将新的特征词向量及新的特征词向量对应的词权重向量,作为公文文档集对应的特征词向量及特征词向量对应的词权重向量。
进一步,本发明实施例还提供了一种计算待判定文档的分数的实施方式,也即上述步骤S104、步骤S216中根据多个词汇与预先确定的公文文档集对应的特征词向量的匹配关系,及特征词向量对应的词权重向量,计算得到待判定文档的分数,可参照如下步骤实施:
步骤(1),逐一判断各个词汇是否存在于特征词向量中;如果是,执行步骤(2);如果否,执行步骤(3)。
步骤(2),根据特征词向量对应的词权重向量,确定词汇的词权重。
当词汇存在于特征词向量中,从特征词向量对应的词权重向量中查找词汇所对应的词权重。
步骤(3),将词汇的词权重确定为0。
步骤(4)根据多个词汇的词权重,计算得到待判定文档的分数。
在具体实施时,待判定文档的分数可通过以下公式计算得到:
其中,score表示待判定文档的分数;N表示待判定文档中词汇的数量;1≤i≤N;wi表示待判定文档中第i个词汇的词权重。
进一步,为便于实施,本发明实施例还提供了一种预设分数阈值的确定方式,包括如下步骤:
(1)根据特征词向量与词权重向量,分别对公文文档集中各篇公文文档以及非公文文档集中的各篇非公文文档进行评分,得到公文文档集对应的第一分数集以及非公文文档集对应的第二分数集。
为便于理解,以对公文文档集中各篇公文文档进行评分得到公文文档集对应的第一分数集为例,对此评分过程进行详细说明,具体如下:
首先公文文档集中的各篇公文文档逐一进行分词以及停用词过滤处理,得到每篇公文文档中的多个词汇。
然后从多个词汇中提取出存在于前述特征词向量中的词汇,并根据前述词权重向量确定前述提取出的词汇的词权重;将每篇公文文档中不存在于前述特征词向量中的词汇的词权重确定为0。
进而根据公式计算得到每篇公文文档的分数;其中,s为公文文档的分数;m为公文文档中词汇的数量;1≤j≤m;wj表示公文文档中第j个词汇的词权重。
最后将各篇文公文档的分数进行整合形成公文文档集对应的第一分数集。
(2)根据第一分数集和第二分数集,确定分数阈值的取值范围;
具体的,可依据预设条件,确定分数阈值的取值范围。其中,预设条件为:第一分数集中的分数值尽可能大于分数阈值,且,第二分数集中的分数值尽可能小于分数阈值。
(3)基于分数阈值的取值范围,计算得到F-Measure的多个值。
其中,F-Measure是Precision(也即,精确率)和Recall(也即,召回率)的加权调和平均数,是一种评价标准,常用于信息检索分类中评价效果好坏。具体的F-Measure的计算公式如下:其中,F表示F-Measure;a为参数;P为精确率,R为召回率。实际应用时,分数阈值的选取影响P和R的值,故基于分数阈值的取值范围,可计算得到F-Measure的多个值。
(4)将F-Measure的最大值对应的分数阈值确定为预设分数阈值。
由于精确率和召回率这两种指标具有相互制约的关系,故需在该两种指标之间选取一个平衡点令F-Measure取最大值,此时信息检索分类的效果最佳。根据F-Measure的取值确定预设分数阈值,并将F-Measure的最大值对应的分数阈值确定为预设分数阈值,这样的方式能够有效地判断待判定文档是否为公文,可信度较高。
综上所述,本发明实施例提供给的上述方法解决了现有技术中,公文判定对规定格式的高度依赖特性,扩大了公文判定的适用范围,诸如只需输入纯文本内容便可进行判定,有效地提升了公文判定的准确率。
对应上述公文判定方法,本发明实施例还提供了一种公文判定装置,参见图3所示的一种公文判定装置的结构框图,该装置包括:
分词处理模块302,用于获取待判定文档,并对待判定文档进行分词处理得到多个词汇;
分数计算模块304,用于根据多个词汇与预先确定的公文文档集对应的特征词向量的匹配关系,及特征词向量对应的词权重向量,计算得到待判定文档的分数;其中,特征词向量及特征词向量对应的词权重向量为基于采集到的公文文档集和非公文文档集所确定的;
公文确定模块306,用于当待判定文档的分数大于预设分数阈值时,将待判定文档确定为公文。
本发明实施例提供了一种公文判定装置,首先获取待判定文档,并对待判定文档进行分词处理得到多个词汇;然后根据多个词汇与预先确定的公文文档集对应的特征词向量的匹配关系,及特征词向量对应的词权重向量,计算得到待判定文档的分数;其中,特征词向量及特征词向量对应的词权重向量为基于采集到的公文文档集和非公文文档集所确定的;当待判定文档的分数大于预设分数阈值时,将待判定文档确定为公文。本发明实施例通过待判定文档与公文文档集的特征匹配度对待判定文档进行评分,相较于现有技术中根据相关标准规定对文档进行公文判定的方法,更加具有普适性,能够合理的筛选出公文文档,有效提升了公文判定的准确率。
本实施例所提供的装置,其实现原理及产生的技术效果和前述实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
进一步,本实施例还提供了一种电子设备,包括存储器、处理器,存储器中存储有可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述公文判定方法的步骤。
参见图4所示的一种电子设备的结构示意图,示出了电子设备400,包括:处理器40,存储器41,总线42和通信接口43,处理器40、通信接口43和存储器41通过总线42连接;处理器40用于执行存41中存储的可执行模块,例如计算机程序。
其中,存储器41可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口43(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。
总线42可以是ISA总线、PCI总线或EISA总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器41用于存储程序401,处理器40在接收到执行指令后,执行程序401,前述本发明实施例任一实施例揭示的流过程定义的装置所执行的方法可以应用于处理器40中,或者由处理器40实现。
处理器40可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器40中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器40可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital SignalProcessing,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器41,处理器40读取存储器41中的信息,结合其硬件完成上述方法的步骤。
进一步,本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述任一项公文判定方法的步骤。具体实现可参见方法实施例,在此不再赘述。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种公文判定方法,其特征在于,包括:
获取待判定文档,并对所述待判定文档进行分词处理得到多个词汇;
根据多个所述词汇与预先确定的公文文档集对应的特征词向量的匹配关系,及所述特征词向量对应的词权重向量,计算得到所述待判定文档的分数;其中,所述特征词向量及所述特征词向量对应的词权重向量为基于采集到的公文文档集和非公文文档集所确定的;
当所述待判定文档的分数大于预设分数阈值时,将所述待判定文档确定为公文。
2.根据权利要求1所述的方法,其特征在于,在获取待判定文档之前,所述方法还包括:
分别对所述公文文档集和非公文文档集进行分词处理,得到第一词集向量和第二词集向量;
分别统计所述第一词集向量和所述第二词集向量中的每个词对应的文档频率,得到所述第一词集向量对应的第一文档频率向量及所述第二词集向量对应的第二文档频率向量;
从所述第一词集向量中提取出多个特征词;
根据多个所述特征词在所述第一文档频率向量中对应的文档频率和多个所述特征词在所述第二文档频率向量中对应的文档频率,计算得到每个所述特征词的词权重;
从多个所述特征词中筛选出所述词权重处于所述第一预设权重取值范围之内的特征词;
基于筛选出的所述特征词及所述特征词的词权重,得到所述公文文档集对应的特征词向量及所述特征词向量对应的词权重向量。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
逐一判断所述特征词向量中的各个所述特征词的词权重是否处于第二预设权重范围之内;
如果是,对所述特征词的词权重进行降值处理,得到新的特征词向量及所述新的特征词向量对应的词权重向量;
将所述新的特征词向量及所述新的特征词向量对应的词权重向量,作为所述公文文档集对应的特征词向量及所述特征词向量对应的词权重向量。
4.根据权利要求1所述的方法,其特征在于,所述根据多个所述词汇与预先确定的公文文档集对应的特征词向量的匹配关系,及所述特征词向量对应的词权重向量,计算得到所述待判定文档的分数的步骤,包括:
逐一判断各个所述词汇是否存在于所述特征词向量中;
如果是,根据所述特征词向量对应的词权重向量,确定所述词汇的词权重;
如果否,将所述词汇的词权重确定为0;
根据多个所述词汇的词权重,计算得到所述待判定文档的分数。
5.根据权利要求1所述的方法,其特征在于,所述预设分数阈值通过以下方式进行确定:
根据所述特征词向量与所述词权重向量,分别对所述公文文档集中各篇公文文档以及所述非公文文档集中的各篇非公文文档进行评分,得到所述公文文档集对应的第一分数集以及所述非公文文档集对应的第二分数集;
根据所述第一分数集和第二分数集,确定分数阈值的取值范围;
基于所述分数阈值的取值范围,计算得到F-Measure的多个值;
将F-Measure的最大值对应的分数阈值确定为所述预设分数阈值。
6.根据权利要求2所述的方法,其特征在于,每个所述特征词的词权重,通过以下公式计算得到:
其中,weight(m,n)表示所述特征词的词权重;m表示所述特征词在第一文档频率向量中对应的文档频率;n表示所述特征词在第二文档频率向量中对应的文档频率;n≥0;λ为光滑因子。
7.根据权利要求4所述的方法,其特征在于,所述待判定文档的分数,通过以下公式计算得到:
其中,score表示所述待判定文档的分数;N表示所述待判定文档中词汇的数量;1≤i≤N;wi表示所述待判定文档中第i个词汇的词权重。
8.一种公文判定装置,其特征在于,包括:
分词处理模块,用于获取待判定文档,并对所述待判定文档进行分词处理得到多个词汇;
分数计算模块,用于根据多个所述词汇与预先确定的公文文档集对应的特征词向量的匹配关系,及所述特征词向量对应的词权重向量,计算得到所述待判定文档的分数;其中,所述特征词向量及所述特征词向量对应的词权重向量为基于采集到的公文文档集和非公文文档集所确定的;
公文确定模块,用于当所述待判定文档的分数大于预设分数阈值时,将所述待判定文档确定为公文。
9.一种电子设备,其特征在于,包括存储器和处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述权利要求1至7任一项所述的方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行上述权利要求1至7任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811372564.2A CN109460555B (zh) | 2018-11-16 | 2018-11-16 | 公文判定方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811372564.2A CN109460555B (zh) | 2018-11-16 | 2018-11-16 | 公文判定方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109460555A true CN109460555A (zh) | 2019-03-12 |
CN109460555B CN109460555B (zh) | 2021-03-19 |
Family
ID=65610875
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811372564.2A Active CN109460555B (zh) | 2018-11-16 | 2018-11-16 | 公文判定方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109460555B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111062573A (zh) * | 2019-11-19 | 2020-04-24 | 平安金融管理学院(中国·深圳) | 员工绩效数据确定方法、装置、介质和计算机设备 |
CN111626057A (zh) * | 2020-07-28 | 2020-09-04 | 南京中孚信息技术有限公司 | 一种基于命名实体的公文判定方法及判定系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103324745A (zh) * | 2013-07-04 | 2013-09-25 | 微梦创科网络科技(中国)有限公司 | 基于贝叶斯模型的文本垃圾识别方法和系统 |
US8805840B1 (en) * | 2010-03-23 | 2014-08-12 | Firstrain, Inc. | Classification of documents |
CN104967558A (zh) * | 2015-06-10 | 2015-10-07 | 东软集团股份有限公司 | 一种垃圾邮件的检测方法及装置 |
CN106502984A (zh) * | 2016-10-19 | 2017-03-15 | 上海智臻智能网络科技股份有限公司 | 一种领域新词发现的方法及装置 |
-
2018
- 2018-11-16 CN CN201811372564.2A patent/CN109460555B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8805840B1 (en) * | 2010-03-23 | 2014-08-12 | Firstrain, Inc. | Classification of documents |
CN103324745A (zh) * | 2013-07-04 | 2013-09-25 | 微梦创科网络科技(中国)有限公司 | 基于贝叶斯模型的文本垃圾识别方法和系统 |
CN104967558A (zh) * | 2015-06-10 | 2015-10-07 | 东软集团股份有限公司 | 一种垃圾邮件的检测方法及装置 |
CN106502984A (zh) * | 2016-10-19 | 2017-03-15 | 上海智臻智能网络科技股份有限公司 | 一种领域新词发现的方法及装置 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111062573A (zh) * | 2019-11-19 | 2020-04-24 | 平安金融管理学院(中国·深圳) | 员工绩效数据确定方法、装置、介质和计算机设备 |
CN111626057A (zh) * | 2020-07-28 | 2020-09-04 | 南京中孚信息技术有限公司 | 一种基于命名实体的公文判定方法及判定系统 |
CN111626057B (zh) * | 2020-07-28 | 2020-10-30 | 南京中孚信息技术有限公司 | 一种基于命名实体的公文判定方法及判定系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109460555B (zh) | 2021-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI735543B (zh) | 網頁文本分類的方法和裝置,網頁文本識別的方法和裝置 | |
CN106874292B (zh) | 话题处理方法及装置 | |
CN104967558B (zh) | 一种垃圾邮件的检测方法及装置 | |
CN110287328B (zh) | 一种文本分类方法、装置、设备及计算机可读存储介质 | |
WO2016180270A1 (zh) | 网页分类方法和装置、计算设备以及机器可读存储介质 | |
CN110738039B (zh) | 一种案件辅助信息的提示方法、装置、存储介质和服务器 | |
CN105488023B (zh) | 一种文本相似度评估方法及装置 | |
CN108874921A (zh) | 提取文本特征词的方法、装置、终端设备及存储介质 | |
CN109885688A (zh) | 文本分类方法、装置、计算机可读存储介质和电子设备 | |
WO2022121163A1 (zh) | 用户行为倾向识别方法、装置、设备及存储介质 | |
CN110059156A (zh) | 基于关联词的协同检索方法、装置、设备及可读存储介质 | |
CN106095939B (zh) | 账户权限的获取方法和装置 | |
CN105956083A (zh) | 应用软件分类系统、应用软件分类方法及服务器 | |
CN108304509A (zh) | 一种基于文本多向量表示相互学习的垃圾评论过滤方法 | |
CN106960040A (zh) | 一种url的类别确定方法及装置 | |
CN108021545A (zh) | 一种司法文书的案由提取方法及装置 | |
CN107292302A (zh) | 检测图片中兴趣点的方法和系统 | |
CN109492110A (zh) | 文档分类方法及装置 | |
CN109460555A (zh) | 公文判定方法、装置及电子设备 | |
CN107526792A (zh) | 一种中文问句关键词快速提取方法 | |
CN108153899B (zh) | 一种智能化文本分类方法 | |
WO2019085332A1 (zh) | 金融数据分析方法、应用服务器及计算机可读存储介质 | |
CN108171570A (zh) | 一种数据筛选方法、装置及终端 | |
CN108875050B (zh) | 面向文本的数字取证分析方法、装置和计算机可读介质 | |
CN113807073B (zh) | 文本内容异常检测方法、装置以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |