CN106776695B - 实现文书档案价值自动鉴定的方法 - Google Patents

实现文书档案价值自动鉴定的方法 Download PDF

Info

Publication number
CN106776695B
CN106776695B CN201610997155.6A CN201610997155A CN106776695B CN 106776695 B CN106776695 B CN 106776695B CN 201610997155 A CN201610997155 A CN 201610997155A CN 106776695 B CN106776695 B CN 106776695B
Authority
CN
China
Prior art keywords
document
keyword
document file
word
title
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610997155.6A
Other languages
English (en)
Other versions
CN106776695A (zh
Inventor
张曙华
杨安荣
路斌
王国栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Xinlian Information Development Co ltd
Original Assignee
Shanghai Xinlian Information Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Xinlian Information Development Co Ltd filed Critical Shanghai Xinlian Information Development Co Ltd
Priority to CN201610997155.6A priority Critical patent/CN106776695B/zh
Publication of CN106776695A publication Critical patent/CN106776695A/zh
Application granted granted Critical
Publication of CN106776695B publication Critical patent/CN106776695B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种实现文书档案价值自动鉴定的方法,分别提取文书档案的标题和全文内容的关键字(词)内容;对照“受控词表”进行关键词分配,得到关键字(词)的集合;对上述关键词分配的结果进行计算判别,通过关键字(词)权重词频计算确定归档类别、通过自动标注分类计算确定保管期限,进而分别得到分别包含归档类别和保管期限的结论一、结论二;综合推荐归档类别和保管期限。本发明建立了以文书档案保管价值为主题的关键字(词)库,根据相关文件提取出标题和文书中的关键字(词),确定文书档案的归档类别,大批量文书档案价值的自动鉴定提供了手段,可实现多个文书档案保管价值鉴定的并发操作,提升了文书档案价值鉴定的效率。

Description

实现文书档案价值自动鉴定的方法
技术领域
本发明涉及中文电子文书的分析、处理领域,具体而言是一种实现文书档案价值自动鉴定的方法。
背景技术
文书档案是机关、团体、企事业单位对在行政管理事务活动中产生的由通用文书转化而来的档案的习惯称谓,是档案部门普遍要进行管理的档案。档案价值鉴定工作是一项俗称“两分清”的工作,即应分清哪些需要保存,哪些不需要保存,也即鉴别“存”与“毁”的工作。分清应该保存的文书档案具体保存多长时间,对应存文书档案划定保管期限。目前各机关单位均采用人工界定的方式进行文书档案保管期限划分。
由于文书档案门类较多,各门类对应的保管期限又不尽一致。随着社会历史进程的变迁,一份文书档案的保管价值会随外界环境而发生变化。因此,文书档案价值的鉴定需要实现自动化,以应对不断变化的外界形势。
然而,目前实现文书档案价值鉴定的自动化较为困难,主要原因如下:
1、档案行业采用预归档方式较多,通常由业务部门文书人员手工操作完成。而文书人员流动较大,经常会出现归档范围出错和保管期限设置错误的现象,导致价值鉴定的工作经验无法长效积累。目前业内缺乏有代表性的经验值数据来支撑文书档案价值鉴定自动化工作的开展。
2、利用文书档案关键字(词)相似度度量的方法,实现对文书档案价值鉴定的自动化推荐,目前业内此项技术尚为空白。
关键字(词)是快速获取文件主题的重要方法,在信息检索和自然语言处理等领域均有重要应用。目前,中文文书关键字(词)的提取算法主要有:特征频率方法(TermFrequency:TF)、文档频率方法(Document Frequency:DF)、反文档频率方法(InverseDocument Frequency:IDF)、信息增益方法(Information Gain:IG)、互信息方法(MutualInformation:MI)、期望交叉熵(Expected Cross Entropy:ECE)及χ2统计量(Chi-square:CHI)等。
传统的方法仅依靠词汇的统计信息进行关键字(词)的提取,没有将文件所属行业的主题度关键字(词)的提取影响考虑在内。从档案行业的业务角度出发,目前业界尚未建立一个完整的以文书档案保管价值为主题的关键字(词)推荐标注体系,更没有形成一套文书档案保管价值“自动推荐”的解决方案。
推荐方法是整个推荐系统中最核心、最关键的部分,很大程度上决定了推荐系统性能的优劣。目前,主要的推荐方法包括:基于内容推荐、协同过滤推荐、基于关联规则推荐、基于效用推荐、基于知识推荐和组合推荐。
应用最多的是内容推荐和协同过滤推荐的组合。最简单的做法就是分别用基于内容的方法和协同过滤推荐方法产生一个推荐预测结果,然后组合其结果。尽管从理论上有很多种推荐组合方法,但在某一具体问题中并不见得都有效,组合推荐一个最重要原则就是通过组合后要能避免或弥补各自推荐技术的弱点。综上,截至目前文书档案业界中并未发现解决此问题的成熟方案,而本发明为了解决这一问题,结合文书档案保管特色、利用基于关键字(词)的词法分析提供了一种文书档案价值鉴定的自动推荐法,实现了文书档案价值鉴定的自动化。
发明内容
本发明为解决上述问题,旨在提供一种实现文书档案价值自动鉴定的方法。
本发明提供一种实现文书档案价值自动鉴定的方法,包括如下步骤:
步骤一,分别提取文书档案的标题和全文内容的关键字(词)内容;
步骤二,分别对标题、全文内容的关键字(词)和标题的关键字(词)对照“受控词表”进行关键词分配,得到关键字(词)的集合;
步骤三,对上述关键词分配的结果进行计算判别,通过关键字(词)权重词频计算确定归档类别、通过自动标注分类计算确定保管期限,进而分别得到分别包含归档类别和保管期限的结论一、结论二;
步骤四,根据结论一、结论二的结果是否一致,综合推荐归档类别和保管期限。
作为优选,在所述步骤一中,利用马尔科夫模型通过词性标注过滤停用词。
作为优选,在所述步骤一中,若文书档案的标题为空,则提取首、尾段关键字(词)来代替标题关键字(词)来完成后续分类。
作为优选,在所述步骤二中,将标题和标题、全文内容的关键字(词)对照预设的已归档索引库,进行相关度矩阵计算,进而得到结论一;同时仅将标题的关键字(词)对照《文书档案保管期限表》,进行分类对应,进而得到结论二。
作为优选,在所述步骤三中,所述权重词频计算针对同一关键字(词)k与不同受控词表分类”c之间关键词权重P(k,g)的主次强弱关系,对主要关系给予较大的权值,次要关系给予较小的权值,即:
(1≤p≤g)P(k,c)=p。
作为优选,在所述步骤三中,所述自动标注分类计算TFIDF=TF(词频)*IDF(逆文档频率)的值,然后降序排列,取前列的关键字(词);然后对照期限分类库,完成保管期限的确定。
作为优选,在所述步骤四中,若推荐分类不符合业务需求,则修改当前文档关键字的分类,把当前文档的关键字加入到“受控词表”对应的条目中。
和现有技术相比,本发明具有如下技术优势:
1)本发明建立了以文书档案保管价值为主题的关键字(词)库,根据相关文件提取出标题和文书中的关键字(词),确定文书档案的归档类别;
2)本发明结合电子全文内容抽取和全文相似度比较技术,自动与文书档案已归档索引库进行全文内容相似度比对,提取出相似度较高的全文关键字(词),确定文书档案的保管期限;
3)本发明打破了传统的文书档案价值鉴定方式,将人工鉴定变为自动鉴定,节约人力,提升了文书档案保管期限划分的准确率,文书档案保管期限快速划分具备可行性;
4)本发明建立了以文书档案保管价值为主题的关键字(词)数据库,为深化文书档案保管业务(如已归档索引数据库的更新)与个性化推荐(如推荐相似内容)提供了数据支撑;
5)本发明为大批量文书档案价值的自动鉴定提供了手段,可实现多个文书档案保管价值鉴定的并发操作,提升了文书档案价值鉴定的效率。
附图说明
图1为本发明的实施例的流程说明图;
图2为档案文书分类类别结构图;
图3为“关键字(词)结构树”的结构图;
图4为关键词与分类一对一关系的结构图;
图5为关键词与分类一对多关系的结构图;
图6为关键词与分类多对多关系的结构图;
图7为本发明的实施例的流程说明图。
具体实施方式
在机关、团体、企事业单位的日常工作中,文书档案、历史档案的文书数据量庞大、种类繁多,如果按照传统的文书档案保管价值鉴定方法,针对文书档案、档案业务人员则需逐行查看每份档案内容,再对照《机关文件材料归档范围和文书档案保管期限规定》,对文书档案进行分类并界定保管期限,费时费力。而大部分文书档案分类依赖人员手动处理,没有统一的管理机制,造成大量的人力、时间及资金的浪费。
基于此种情况,我们提出了一种实现文书档案价值自动鉴定的方法,可以对文书档案进行自动归类,进行统一、有效的管理。本发明所要解决的核心问题是:
提供一套通过对文书档案进行关键字(词)相似度度量的方法,实现文书档案价值鉴定的自动分类与推荐。
下面结合实例对本发明的具体实施方法作进一步描述。而该实例用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
参见图1,本发明通过技术手段实现了文书档案的价值鉴定的自动推荐,主要步骤为:
步骤一,分别提取文书档案的标题和全文内容的关键字(词)内容;
本步骤为关键字的提取,对于后面的计算至关重要。一般而言,一篇文书档案由标题、章节、段落、句子、词等文本组成。文书档案自动分类的核心任务是提取文书档案的关键字(词),并根据关键字所处文档的不同部分赋予不同的权重,比对《文书档案保管期限》或者已归档的索引规则,计算并自动标注文档所属分类。
申请人通过对档案行业大量文书档案的自动分类标注处理经验得出:
1)绝大多数文书档案的标题名基本能够反映出该文档的主题内容;
2)对于标题名特征不是很明显的文书档案,采用标题、首尾段、中间内容等维度提取特征项信息计算分类标注。
参见图3,图3为“关键字(词)结构树”的结构图,关键词自动标注分为两个步骤:关键词抽取(keyword extraction)与关键词分配(keyword assignment)。其中关键词抽取,是从文档内容中寻找并提取关键词;
使用隐马尔科夫模型(HMM)对输入序列进行词性标注(part-of-speechtagging),并过滤掉助词、副词等停用词(stop words),只考虑剩下的有实际意义的词。所述词性标注的目标就是在产生中文分词那样的词序列的同时,给每个产生的词标注一个词性。
词性标注的处理参见下表所示:
Figure BDA0001150785390000041
Figure BDA0001150785390000051
表格中,(a)为原始中文句子,(b)为分词结果,(c)为词性分析结果
本实例处理一份标题为“关于XX县城镇环境噪声达标验收的通知”的文档。那么经过上述方法去除无用的停用词后,只留下名词“XX县”,“城镇”,“环境”,“噪声”,“通知”几个关键字(词)的集合。
步骤二,分别对标题、全文内容的关键字(词)和标题的关键字(词)对照“受控词表”进行关键词分配;
而关键词分配是从一个预先构建好的受控词表(controlled vocabulary)中推荐若干个词或者短语分配给文档作为关键词。
参见图4、图5和图6,关键字(词)的集合与“档案保管期限分类”之间的关系存有多种可能性。其中图4为一对一的关系,即一个关键字(词)只属于一个分类;图5为一对多的关系,即一个关键字(词)属于多个分类;而图6为多对多的关系,即一个关键字(词)属于多个分类,而一个分类也可以包含多个关键字(词)。
假设当前“档案保管期限分类”有如下分类与受控词表的对应关系:
Figure BDA0001150785390000052
上面所述的“AA县”,“BB局”,“春节”,“工作”,“请示”几个关键字(词)的集合分别属于
XX县-无分类
BB局-单位分类BB局
春节-无分类
工作-无分类
请示-{BB局{办公室2.7.1.1:[50]},BB局{办公室2.7.2.1:[40]}}
步骤三,经过上述步骤的处理,关键词与“受控词表分类”之间可能存在一对多或多对多的关系。
对上述关键词分配的结果进行计算判别,通过关键字(词)权重词频计算确定归档类别、通过自动标注分类计算确定保管期限,进而分别得到分别包含归档类别和保管期限的推荐结论;
每一组关系中必然存在主次强弱之分,为了表明同一主题词与不同“受控词表分类”之间的主次强弱关系,本文规定了对主要关系给予较大的权值,次要关系给予较小的权值,即:
(1≤p≤g)P(k,c)=p
其中,P(k,g)为主题词k与“受控词表分类”c的关系权重值,P值的大小与主题词k和“受控词表分类”c之间的主次强弱关系成正比。这样我们就可以在文本分类过程中,以不同“受控词表分类”的权值之和的大小来自动标注分类。比如根据上步关键字所属分类权重相加计算结果为:
BB局{办公室2.7.1.1:[50]}权重50
BB局{办公室2.7.2.1:[40]}权重40
因此可以通过这个权重值做出初步推荐,当前关键字所属分类推荐值应该为:
办公室[50]2.7.1.1永久
本文所用算法权值分配尺度规定如下:
1)当主题词可以直接由档案题名确定时,即某一个主题词特指为某分类,且只要该主题词出现,该档案文本就一定为这一分类时,P(k,g)=g;
2)若一个关键词和多个“受控词表分类”存在关系,根据主次强弱程度,分别给予相对应的权重值;对于比较专指或词的长度较长的词,给予较高的权重值。
其中,自动标注分类计算首先计算词频:
词频(TF)=某个词在文章中出现的次数
考虑到文章有长短之分,为了便于不同文章的比较,进行"词频"标准化:
Figure BDA0001150785390000071
逆文档频率(Inverse Document Frequency,缩写为IDF)用统计学语言表达,
就是在词频的基础上,要对每个词分配一个"重要性"权重。这个权重叫做"逆文档频率"(Inverse Document Frequency,缩写为IDF),它的大小与一个词的常见程度成反比。
逆文档频率计算为:
Figure BDA0001150785390000072
如果一个词越常见,那么分母就越大,逆文档频率就越小越接近0。分母之所以要加1,是为了避免分母为0(即所有受控词表都不包含该词)。log表示对得到的值取对数。
最后计算TF-IDF的值:
TF-IDF=词频(TF)X逆文档频率(IDF)
TF-IDF与一个词在文档中的出现次数成正比,与该词在整个受控词表的出现次数成反比。所以,自动提取关键词的算法就很清楚了,就是计算出文档的每个词的TF-IDF值,然后按降序排列,取排在最前面的几个词。
计算结果可能如下表:
Figure BDA0001150785390000073
由上表可见,函的TF-IDF值最大,那么此语句的主要关键词就是“请示”。
随后根据“档案保管期限分类库”中的关键字对照档案分类标注,自动根据关键字排序,推荐相应的分类及保管期限。
步骤四,根据结论的结果是否一致,综合推荐归档类别和保管期限。
综上可见,实施例的方法为两个途径展开。其中:
途径一:提取文书档案标题关键(字)词,对照《文书档案保管期限表》进行分类对应(《文书档案保管期限表》共计13类),初步确定该文件是否纳入文书档案归档范围和归档类别。之后通过计算权重词频(如来源、时间、内容和形式特征等属性)判别档案的重要性程度(重要或一般),推荐归档类别和保管期限,得出推荐结论一。
途径二:提取文书档案标题和全文内容关键(字)词,对照已归档索引库,通过相关度计算,从已归档索引库中获取相似矩阵(如最相似的三篇文章),进行标题和全文比对。
以下用D(Document)表示档案文本,特征项(Term,用t表示),指出现在文档D中且能够代表该文档内容的基本语言单位,主要是由关键词构成,文本可以用特征项集合表示为D(T1,T2,......Tn),其中Tk是特征项,要求满足1≤k≤n。假设一篇文档中有a、b、c、d四个特征项,那么这篇文档就可以表示:
D(a,b,c,d)
对于其它要与之比较的文本,也将遵从这个特征项顺序。对含有n个特征项的文本而言,通常会给每个特征项赋予一定的权重表示其重要程度,即:
D=D(T1,W1;T2,W2;......,Tn,Wn)
简记为:
D=D(W1,W2,......,Wn)
我们把它叫做文本D的权值向量表示,其中Wk是Tk的权重,1≤k≤n
假设a、b、c、d的权重分别为30,20,20,10,那么该文本的向量表示为
D(30,20,20,10)
在向量空间模型中,两个文本D1和D2之间的内容相关度Sim(D1,D2)常用向量之间夹角的余弦值表示,公式为:
Figure BDA0001150785390000081
其中,W1k、W2k分别表示文本D1和D2第k个特征项的权值1≤k≤n。
假设文本D1的特征项为a,b,c,d,权值分别为30,20,20,10,类目C1的特征项为a,c,d,e,权值分别为40,30,20,10,则D1的向量表示为:
D1(30,20,20,10,0)
C1的向量表示为:
C1(40,0,30,20,10)
根据上述公式计算推导出:
则根据上式计算出来的文本D1与类目C1相关度是0.86
之后通过计算权重词频(如来源、时间、内容和形式特征等属性)判别档案的重要性程度(重要或一般),推荐归档类别和保管期限,得出推荐结论二。
综合两个推荐结论,给出文书档案归档类别和保管期限的最终推荐结论。
而当推荐意见不一致,可以融入机器学习方式,灵活选择推荐标准和比对矩阵,主要体现在:
1)途径选择的原则:发现哪个途径最有效,则优先采取哪个途径的推荐方式;
2)相似矩阵的变换原则:针对不同类别文书档案进行相似矩阵成功率的记忆和转换。如发现对于某类文书档案选取两篇文章比对更有效,则以后针对此类文书档案相似矩阵自动转换为选取两篇文章。
3)充实已归档索引库:提取出的关键(字)词与已归档索引库中的数据进行比对,出现新的关键(字)词,则提示更新到已归档索引库中,最终形成一个不断更替的文书档案关键字(词)分类学习库。
本发明实现了文书档案价值鉴定的自动化推荐,可自动推荐文书档案归档类别和保管期限,改变传统人工鉴定的方式,有效提升了文书档案保管工作的效率和准确性。
上述仅为本发明的优选实施方式,应指出的是,对于本行业内的普通技术技术人员而言,在本发明的原理之下可以由一些改进和替换,该改进和替换也应视为本发明的保护范围。

Claims (3)

1.一种实现文书档案价值自动鉴定的方法,其特征在于:包括如下步骤:
步骤一,分别提取文书档案的标题和全文内容的关键字词内容;
步骤二,分别对标题、全文内容的关键字词和标题的关键字词对照“受控词表”进行关键词分配,得到关键字词的集合;
步骤三,对上述关键词分配的结果进行计算判别,通过关键字词权重词频计算确定归档类别,即针对同一关键字词与不同受控词表分类之间关键词权重的主次强弱关系,对主要关系给予较大的权值,次要关系给予较小的权值;
还通过自动标注分类计算确定保管期限,即计算关键字词的TF-IDF=词频TF*逆文档频率IDF的值,然后将TF-IDF值降序排列,并取TF-IDF值排在前列的若干关键字词;然后对照《文书档案保管期限表》确定保管期限;
分别得到分别包含归档类别和保管期限的结论一、结论二,即:将标题和标题、全文内容的关键字词对照预设的已归档索引库,进行相关度矩阵计算,进而得到结论一;同时仅将标题的关键字词对照《文书档案保管期限表》,进行分类对应,进而得到结论二;
步骤四,结论一、结论二的结果若一致,则确定归档类别和保管期限。
2.根据权利要求1所述的一种实现文书档案价值自动鉴定的方法,其特征在于:在所述步骤一中,利用马尔科夫模型通过词性标注过滤停用词。
3.根据权利要求1或2所述的一种实现文书档案价值自动鉴定的方法,其特征在于:在所述步骤一中,若文书档案的标题为空,则提取首、尾段关键字词来代替标题关键字词来完成后续分类。
CN201610997155.6A 2016-11-11 2016-11-11 实现文书档案价值自动鉴定的方法 Active CN106776695B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610997155.6A CN106776695B (zh) 2016-11-11 2016-11-11 实现文书档案价值自动鉴定的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610997155.6A CN106776695B (zh) 2016-11-11 2016-11-11 实现文书档案价值自动鉴定的方法

Publications (2)

Publication Number Publication Date
CN106776695A CN106776695A (zh) 2017-05-31
CN106776695B true CN106776695B (zh) 2020-12-04

Family

ID=58973490

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610997155.6A Active CN106776695B (zh) 2016-11-11 2016-11-11 实现文书档案价值自动鉴定的方法

Country Status (1)

Country Link
CN (1) CN106776695B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110209805B (zh) * 2018-04-26 2023-11-28 腾讯科技(深圳)有限公司 文本分类方法、装置、存储介质和计算机设备
CN111858499A (zh) * 2020-08-03 2020-10-30 王洋 基于黑白名单的档案鉴定方法、系统及装置
CN112100336A (zh) * 2020-09-27 2020-12-18 中国建设银行股份有限公司 一种档案的保存时间鉴定方法、装置及存储介质
CN112487302B (zh) * 2020-11-04 2022-11-11 国网江苏省电力有限公司 一种基于用户行为的档案资源精准推送方法
CN114173019B (zh) * 2021-12-23 2023-12-01 青岛黄海学院 一种多功能档案扫描装置及其工作方法
CN117556112B (zh) * 2024-01-11 2024-04-16 中国标准化研究院 电子档案信息智能管理系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102333077A (zh) * 2011-07-21 2012-01-25 上海互联网软件有限公司 电子公文办公系统的安全验证系统及方法
CN103020213A (zh) * 2012-12-07 2013-04-03 福建亿榕信息技术有限公司 具有明显类别划分的非结构化电子文档的检索方法和系统
CN103914047A (zh) * 2014-03-28 2014-07-09 北京市第一中级人民法院 智能化档案管理控制系统及方法
CN104361111A (zh) * 2014-11-28 2015-02-18 青岛大学 一种档案自动编研方法
CN105159936A (zh) * 2015-08-06 2015-12-16 广州供电局有限公司 文件分类装置及方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020049164A (ko) * 2000-12-19 2002-06-26 오길록 유전자 알고리즘을 이용한 카테고리 학습과 단어클러스터에 의한 문서 자동 분류 시스템 및 그 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102333077A (zh) * 2011-07-21 2012-01-25 上海互联网软件有限公司 电子公文办公系统的安全验证系统及方法
CN103020213A (zh) * 2012-12-07 2013-04-03 福建亿榕信息技术有限公司 具有明显类别划分的非结构化电子文档的检索方法和系统
CN103914047A (zh) * 2014-03-28 2014-07-09 北京市第一中级人民法院 智能化档案管理控制系统及方法
CN104361111A (zh) * 2014-11-28 2015-02-18 青岛大学 一种档案自动编研方法
CN105159936A (zh) * 2015-08-06 2015-12-16 广州供电局有限公司 文件分类装置及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
中国档案事业法规政策文本量化研究;胡蕾;《中国优秀硕士学位论文全文数据库 信息科技辑》;20140215;I144-9 *

Also Published As

Publication number Publication date
CN106776695A (zh) 2017-05-31

Similar Documents

Publication Publication Date Title
CN106776695B (zh) 实现文书档案价值自动鉴定的方法
Ko et al. Automatic text categorization by unsupervised learning
US8583419B2 (en) Latent metonymical analysis and indexing (LMAI)
CN109165294B (zh) 一种基于贝叶斯分类的短文本分类方法
CN110222160A (zh) 智能语义文档推荐方法、装置及计算机可读存储介质
CN104834651B (zh) 一种提供高频问题回答的方法和装置
CN111105209B (zh) 适用于人岗匹配推荐系统的职位简历匹配方法及装置
CN112632228A (zh) 一种基于文本挖掘的辅助评标方法及系统
CN111767716B (zh) 企业多级行业信息的确定方法、装置及计算机设备
US20070050356A1 (en) Query construction for semantic topic indexes derived by non-negative matrix factorization
CN112434151A (zh) 一种专利推荐方法、装置、计算机设备及存储介质
CN104077407A (zh) 一种智能数据搜索系统及方法
CN110955766A (zh) 一种自动扩充智能客服标准问题对的方法和系统
CA2956627A1 (en) System and engine for seeded clustering of news events
CN108228612B (zh) 一种提取网络事件关键词以及情绪倾向的方法及装置
CN113570380A (zh) 基于语义分析的业务投诉处理方法、装置、设备及计算机可读存储介质
Al Mostakim et al. Bangla content categorization using text based supervised learning methods
CN113918697A (zh) 一种智能问答系统的优化方法以及优化系统
CN102270201A (zh) 用于网络文件的多维索引的方法和设备
CN113591476A (zh) 一种基于机器学习的数据标签推荐方法
Santhosh Baboo et al. Comparison of machine learning techniques on Twitter emotions classification
Swami et al. Resume classifier and summarizer
CN111104422A (zh) 一种数据推荐模型的训练方法、装置、设备及存储介质
CN115952282A (zh) 基于nlp技术的银行客户投诉智能分流处置方法和系统
US11580499B2 (en) Method, system and computer-readable medium for information retrieval

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 200041, room 710, 302 Changping Road, Shanghai, Jingan District

Applicant after: Shanghai Xinlian Information Development Co.,Ltd.

Address before: 200041, room 710, 302 Changping Road, Shanghai, Jingan District

Applicant before: SHANGHAI ZHONGXIN INFORMATION DEVELOPMENT Co.,Ltd.

GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220622

Address after: 201700 room 179, area F, 1 / F, building 3, No. 8, zone 3, 8228 Beiqing Road, Qingpu District, Shanghai

Patentee after: GUANGDIAN INFORMATION DEVELOPMENT Co.,Ltd.

Address before: 200041 Room 302, No. 710, Changping Road, Jing'an District, Shanghai

Patentee before: Shanghai Xinlian Information Development Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220803

Address after: Floor 6, No. 26 and 28, JIANGCHANG Third Road, Jing'an District, Shanghai 200040

Patentee after: Shanghai Xinlian Information Development Co.,Ltd.

Address before: 201700 room 179, area F, 1 / F, building 3, No. 8, zone 3, 8228 Beiqing Road, Qingpu District, Shanghai

Patentee before: GUANGDIAN INFORMATION DEVELOPMENT Co.,Ltd.