CN103823838A - 一种多格式文档录入并比对的方法 - Google Patents

一种多格式文档录入并比对的方法 Download PDF

Info

Publication number
CN103823838A
CN103823838A CN201310696955.0A CN201310696955A CN103823838A CN 103823838 A CN103823838 A CN 103823838A CN 201310696955 A CN201310696955 A CN 201310696955A CN 103823838 A CN103823838 A CN 103823838A
Authority
CN
China
Prior art keywords
document
sentence
similarity
library
comparison
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310696955.0A
Other languages
English (en)
Other versions
CN103823838B (zh
Inventor
鞠非
华凯
吴国奇
刘建军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Jiangsu Electric Power Co Ltd
Changzhou Power Supply Co of Jiangsu Electric Power Co
Original Assignee
State Grid Corp of China SGCC
State Grid Jiangsu Electric Power Co Ltd
Changzhou Power Supply Co of Jiangsu Electric Power Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Jiangsu Electric Power Co Ltd, Changzhou Power Supply Co of Jiangsu Electric Power Co filed Critical State Grid Corp of China SGCC
Priority to CN201810549598.8A priority Critical patent/CN108959203A/zh
Priority to CN201810549597.3A priority patent/CN108804624A/zh
Priority to CN201310696955.0A priority patent/CN103823838B/zh
Priority to CN201810549599.2A priority patent/CN108984593A/zh
Publication of CN103823838A publication Critical patent/CN103823838A/zh
Application granted granted Critical
Publication of CN103823838B publication Critical patent/CN103823838B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Abstract

本发明涉及一种多格式文档录入并比对的方法,首先判断待录入文档是否为纸质文档,如果是纸质文档则通过前端设备将纸制文件自动扫描录入原始格式文档库中,如果是电子文档则直接录入原始格式文档库中,再将原始格式文档库中的所有文档转换为统一格式的文档,然后对文档进行关键属性标注和基础管理,最后通过Nakastu算法和分词系统进行基于内容的文档比对,并将根据比对相似程度进行文档关联且录入数据库中。本发明能将各类型和格式的文档自动录入、统一分类、智能管理和与已有文件的比对,提高文档利用效率,节省文档比对时间,提升文档管理效率。

Description

一种多格式文档录入并比对的方法
技术领域
本发明涉及文档处理管理领域,更具体的涉及一种将电子文档或纸质文档录入并进行比对的方法。 
背景技术
目前典型的文档比对技术应用有:(1)信息智能检索:搜索引擎对用户输入关键字的反应是列出所有与该关键字相匹配的信息。(2)自动问答系统:在这种系统中,问题是多种多样,且非常巨大的,有些问题是非常相似的,如果用人工来回答,将耗费大量的时间和人力,如果在这种系统中应用文本相似度技术,将相似度很高的问题归为一类,使系统对这类问题自动做出答复,将节省大量的时间。(3)文本查重:在某些领域,考虑到隐私性和独创性,要求文本不能重复出现,那么应用文本相似度技术,对这类文本进行相似度的计算,就可以看出哪些文本多次出现。由上述,文档比对技术越来越多地应用在各个领域。 
目前,对文档的比对分析管理研究主要集中在文本相似度计算,对于文本相似度计算侧重在字符串相似度,已经形成比较成熟的聚类算法,但是这些算法在比较的过程中没有考虑文本或者字符的语义,计算出来的相似度参考度不高,在实际应用过程中给用户提供参考价值不高。虽然通过分词来计算文本相似度,即通过中文分词算法按照语义角度进行分词,然后根据分词和比对算法结合计算文本之间的相似度,其重点是从词语级来比对文档之间相似度。但这些文档比对支持的文档都是单一的TXT文本或者Word文件,对于多格式文档的比对无法直接进行,需要事先由人工进行格式转换后才能比较,大大影响工作效率。 
发明内容
本发明要解决的技术问题是提供一种可以对多种格式的文档录入并进行比对的方法。 
实现本发明目的的技术方案是提供一种多格式文档录入并比对的方法,包括如下步骤: 
①判断需要录入的文档是否为纸制文档,如果为纸制文档则将需要录入的纸制文档按照先后次序叠放整齐后放置到扫描设备上,通过扫描设备将文档扫描成PDF格式的电子文档并存储到与扫描设备电连接的计算机的存储设备的原始格式文档库中;
如果是包括PDF、Word或TXT在内的多种格式的电子文档,则直接存储到计算机的存储设备的原始格式文档库中;
②通过计算机对原始格式文档库中的各个电子文档转换成统一格式的文档并存储到计算机的存储设备的统一格式文档库中,可以根据需要自行设定转换后的文件格式,优选的文件格式为Word格式或TXT文本形式,如果原始的电子文档的文件格式与设定转换后的文件格式一致则直接从原始格式文档库拷贝至统一格式文档库;
③对转换后统一格式成Word格式或TXT文本形式的各个电子文档的内容,通过分词系统将各个文档的内容提取为句子集合,并以与各个文档相对应的条目的形式存储到句子数据表中;
④对转换后统一格式成Word格式或TXT文本形式的各个电子文档进行包括类别、标题、来源、关键词、创建时间在内的关键属性的标注,并以与各个文档相对应的条目的形式存储到句子数据表中;
⑤选择最新录入统一格式文档库的一个文档或者统一格式文档库内某个文档作为待比对文档与统一格式文档库的其他所有文档进行比对,首先通过句子数据表根据文档的包括类别、标题、来源、关键词、创建时间在内的关键属性进行比对和匹配,从而从统一格式文档库中筛选出包括类别、标题、来源、关键词、创建时间在内的关键属性中的任一个属性与待比对文档的类别、标题、来源、关键词、创建时间5个关键属性的任一个属性匹配的所有文档;
⑥对由步骤⑤筛选出来的文档作为参考文档逐个与待比对文档通过句子数据表中由步骤③得到的与各个文档相对应的条目信息进行比对,2个文档比对时以句子为单位,根据Nakatsu算法逐项比对句子从而计算句子之间的相似度,再根据各个句子的相似度利用算术平均法计算2个文档整体的相似度;
⑦将由步骤⑥得到的待比对文档与任一个参考文档的整体的相似度记录至相应的数据库中。
步骤③中,通过分词系统将各个文档的内容提取为句子集合的具体过程是,将每个文档进行分解形成文档分解树,每个文档所对应的文档分解树包括n(n≥1)个句子,句子以矩阵形式存放,每个句子由行号、列号、长度、内容、相似度信息构成,则第n个句子的矩阵由行号n、列号n、长度n、内容n、相似度n构成。 
步骤⑥中,根据Nakatsu算法逐项比对句子从而计算句子之间的相似度的具体方法是:设待比对的两个句子是句子A和句子B,首先计算句子A和句子B的最长公共子序列,记作为名MaxLen(A,B),具体为设M=Len(A),N=Len(B),即M为字符串A的长度,N为字符串B的长度,为了不失一般性,假设M≤N; 
设A=a1a2……aM,表示A是由a1a2……aM这M个字符组成;
B=b1b2……bN,表示B是由b1b2……bN这N个字符组成;
则MaxLen(i,j)= MaxLen (a1a2……ai,b1b2……bj),其中1≤i≤M,1≤j≤N;
用L(k,i)表示所有与字符串a1a2……ai有长度为k的LCS(Longest Common Subsequence,最长公共子序列)字符串b1b2……bj中j的最小值,用公式表示就是:L(k,i)=Min{j} Where LCS(i,j)=k;
第一步,初始化数组LL()和P();
LL(0)=0
LL(i)=V    1≤i≤M
P(i)=V     1≤i≤M 
此时,LL(0)表示L(0,0);LL(1)表示L(1,0);LL(2)表示L(2,1);……
第二步,依次计算第一条对角线上的元素,用临时变量T计算L(1,1);T=F(L(0,0),L(1,0))=F(LL(0),LL(1))。注:F表示取最小值运算,将T的值赋给LL(1)。此时LL(1)表示LL(1,1),LL(2)表示L(2,1);重复上面的计算,直到计算完本条对角线,如果是第k行的第一个不为V的值,将该值赋给P(k);
第一条对角线计算完之后,此时,LL(0)表示L(0,1);LL(1)表示L(1,1);LL(2)表示L(2,2);……;
如果,这条对角线不是解,重复第二步,计算下一条对角线,直到遇到解为止。不过要注意的是:第i条对角线只有m-i+1个元素,所以只计算到LL(m-i+1)。
如果某条对角线的某个元素是V的话,则这条对角线之后的元素都是V,就不需要计算了。 
然后计算句子A和句子B之间编辑距离,用LD(A,B)表示,很显然,若LD(A,B)=0则表示句子A和句子B完全相同。 
    A=a1a2……aN,表示A是由a1a2……aN这N个字符组成,Len(A)=N; 
  B=b1b2……bM,表示B是由b1b2……bM这M个字符组成,Len(B)=M;
  定义LD(i,j)=LD(a1a2……ai,b1b2……bj),其中0≤i≤N,0≤j≤M;
初始化LD矩阵,根据LD(N,M)=LD(A,B),LD(0,0)=0,LD(0,j)=j,LD(i,0)=i分别计算LD矩阵初始值;
计算LD矩阵其它行,根据公式若ai=bj,则LD(i,j)=LD(i-1,j-1),若ai≠bj,则LD(i,j)=Min(LD(i-1,j-1),LD(i-1,j),LD(i,j-1))+1,最后计算得到LD(A,B)值;
计算句子A和句子B的相似度SIM(A,B)= LCS(A,B)/(LD(A,B)+LCS(A,B))。
步骤②中,PDF格式的电子文档的转换方法是首先提取PDF 文档中各页的内容流,然后将提取到的内容流进行解密,再用Filter解码算法对解密后的内容流进行解码,最后从解码后的内容流中提取文本内容及其相关信息并存储为设定的统一格式的文档。 
步骤①中,扫描设备优选扫描仪。 
本发明具有积极的效果:(1)本发明的一种多格式文档录入并比对的方法能够将纸质文档或者各类型的电子文档录入文档库并统一格式从而方便管理和进行比对,提高了文档利用效率,节省文档比对时间,提升文档管理效率。 
(2)本发明的一种多格式文档录入并比对的方法采用Nakatsu算法逐项比对句子从而计算句子之间的相似度,再根据各个句子的相似度利用算术平均法计算2个文档的整体的相似度,对于2个文档的相似度的计算较为精准,比对效果较好。 
(3)本发明的一种多格式文档录入并比对的方法通过分词系统将各个文档的内容提取为句子集合,将每个文档进行分解形成文档分解树,每个文档所对应的文档分解树包括n(n≥1)个句子,句子以矩阵形式存放,每个句子由行号、列号、长度、内容、相似度信息构成,则第n个句子的矩阵由行号n、列号n、长度n、内容n、相似度n构成,通过分词系统分解形成的各个文档的文档树较为细致详细,从而提高了后续的比对过程的精度,提升文档管理效率。 
附图说明
图1为本发明的一种多格式文档录入并比对的方法的流程框图; 
图2为本发明的步骤③中的分词系统的具体过程示意图。
具体实施方式
(实施例1) 
见图1,本实施例的一种多格式文档录入并比对的方法,包括如下步骤:
①判断需要录入的文档是否为纸制文档,如果为纸制文档则将需要录入的纸制文档按照先后次序叠放整齐后放置到扫描设备上,通过扫描设备将文档扫描成PDF格式的电子文档并存储到与扫描设备电连接的计算机的存储设备的原始格式文档库中,扫描设备优选扫描仪;
如果是包括PDF、Word或TXT在内的多种格式的电子文档,则直接存储到计算机的存储设备的原始格式文档库中;
②通过计算机对原始格式文档库中的各个电子文档转换成统一格式的文档并存储到计算机的存储设备的统一格式文档库中,可以根据需要自行设定转换后的文件格式,优选的文件格式为Word格式或TXT文本形式,如果原始的电子文档的文件格式与设定转换后的文件格式一致则直接从原始格式文档库拷贝至统一格式文档库,另外PDF格式的电子文档的转换方法是首先提取PDF 文档中各页的内容流,然后将提取到的内容流进行解密,再用Filter解码算法对解密后的内容流进行解码,最后从解码后的内容流中提取文本内容及其相关信息并存储为设定的统一格式的文档。
③对转换后统一格式成Word格式或TXT文本形式的各个电子文档的内容,通过分词系统将各个文档的内容提取为句子集合,并以与各个文档相对应的条目的形式存储到句子数据表中;分词系统是将一个汉字序列切分成一个一个单独的词,将连续的字序列按照一定的规范重新组合成词序列的过程,例如将“加大监管力度”通过分词系统分解为“加大”、“监管”和“力度”三个词; 
见图2,通过分词系统将各个文档的内容提取为句子集合的具体过程是,将每个文档进行分解形成文档分解树,每个文档所对应的文档分解树包括n(n≥1)个句子,句子以矩阵形式存放,每个句子由行号、列号、长度、内容、相似度信息构成,则第n个句子的矩阵由行号n、列号n、长度n、内容n、相似度n构成。
④对转换后统一格式成Word格式或TXT文本形式的各个电子文档由人工手动对每个文档进行包括类别、标题、来源、关键词、创建时间在内的关键属性的标注,并以与各个文档相对应的条目的形式存储到句子数据表中。 
⑤选择最新录入统一格式文档库的一个文档或者统一格式文档库内某个文档作为待比对文档与统一格式文档库的其他所有文档进行比对,首先通过句子数据表根据文档的包括类别、标题、来源、关键词、创建时间在内的关键属性进行比对和匹配,从而从统一格式文档库中筛选出包括类别、标题、来源、关键词、创建时间在内的关键属性中的任一个属性与待比对文档的类别、标题、来源、关键词、创建时间5个关键属性的任一个属性匹配的所有文档。 
⑥对由步骤⑤筛选出来的文档作为参考文档逐个与待比对文档通过句子数据表中由步骤③得到的与各个文档相对应的条目信息进行比对,2个文档比对时以句子为单位,根据Nakatsu算法逐项比对句子从而计算句子之间的相似度,再根据各个句子的相似度利用算术平均法计算2个文档(任一个参考文档与待比对文档)整体的相似度。 
根据Nakatsu算法逐项比对句子从而计算句子之间的相似度的具体方法是:设待比对的两个句子是句子A和句子B,首先计算句子A和句子B的最长公共子序列,记作为名MaxLen(A,B),具体为设M=Len(A),N=Len(B),即M为字符串A的长度,N为字符串B的长度,为了不失一般性,假设M≤N; 
设A=a1a2……aM,表示A是由a1a2……aM这M个字符组成;
B=b1b2……bN,表示B是由b1b2……bN这N个字符组成;
则MaxLen(i,j)= MaxLen (a1a2……ai,b1b2……bj),其中1≤i≤M,1≤j≤N;
用L(k,i)表示所有与字符串a1a2……ai有长度为k的LCS(Longest Common Subsequence,最长公共子序列)字符串b1b2……bj中j的最小值,用公式表示就是:L(k,i)=Min{j} Where LCS(i,j)=k;
第一步,初始化数组LL()和P();
LL(0)=0
LL(i)=V    1≤i≤M
P(i)=V     1≤i≤M 
此时,LL(0)表示L(0,0);LL(1)表示L(1,0);LL(2)表示L(2,1);……
第二步,依次计算第一条对角线上的元素,用临时变量T计算L(1,1);T=F(L(0,0),L(1,0))=F(LL(0),LL(1))。注:F表示取最小值运算,将T的值赋给LL(1)。此时LL(1)表示LL(1,1),LL(2)表示L(2,1);重复上面的计算,直到计算完本条对角线,如果是第k行的第一个不为V的值,将该值赋给P(k);
第一条对角线计算完之后,此时,LL(0)表示L(0,1);LL(1)表示L(1,1);LL(2)表示L(2,2);……;
如果,这条对角线不是解,重复第二步,计算下一条对角线,直到遇到解为止。不过要注意的是:第i条对角线只有m-i+1个元素,所以只计算到LL(m-i+1)。
如果某条对角线的某个元素是V的话,则这条对角线之后的元素都是V,就不需要计算了。 
然后计算句子A和句子B之间编辑距离,用LD(A,B)表示,很显然,若LD(A,B)=0则表示句子A和句子B完全相同。 
    A=a1a2……aN,表示A是由a1a2……aN这N个字符组成,Len(A)=N; 
  B=b1b2……bM,表示B是由b1b2……bM这M个字符组成,Len(B)=M;
  定义LD(i,j)=LD(a1a2……ai,b1b2……bj),其中0≤i≤N,0≤j≤M;
初始化LD矩阵,根据LD(N,M)=LD(A,B),LD(0,0)=0,LD(0,j)=j,LD(i,0)=i分别计算LD矩阵初始值;
计算LD矩阵其它行,根据公式若ai=bj,则LD(i,j)=LD(i-1,j-1),若ai≠bj,则LD(i,j)=Min(LD(i-1,j-1),LD(i-1,j),LD(i,j-1))+1,最后计算得到LD(A,B)值;
计算句子A和句子B的相似度SIM(A,B)= LCS(A,B)/(LD(A,B)+LCS(A,B))。
⑦将由步骤⑥得到的待比对文档与任一个参考文档的整体的相似度记录至相应的数据库中。 

Claims (5)

1.一种多格式文档录入并比对的方法,包括如下步骤:
①判断需要录入的文档是否为纸制文档,如果为纸制文档则将需要录入的纸制文档按照先后次序叠放整齐后放置到扫描设备上,通过扫描设备将文档扫描成PDF格式的电子文档并存储到与扫描设备电连接的计算机的存储设备的原始格式文档库中;
如果是包括PDF、Word或TXT在内的多种格式的电子文档,则直接存储到计算机的存储设备的原始格式文档库中;
②通过计算机对原始格式文档库中的各个电子文档转换成统一格式的文档并存储到计算机的存储设备的统一格式文档库中,可以根据需要自行设定转换后的文件格式,优选的文件格式为Word格式或TXT文本形式,如果原始的电子文档的文件格式与设定转换后的文件格式一致则直接从原始格式文档库拷贝至统一格式文档库;
③对转换后统一格式成Word格式或TXT文本形式的各个电子文档的内容,通过分词系统将各个文档的内容提取为句子集合,并以与各个文档相对应的条目的形式存储到句子数据表中;
④对转换后统一格式成Word格式或TXT文本形式的各个电子文档进行包括类别、标题、来源、关键词、创建时间在内的关键属性的标注,并以与各个文档相对应的条目的形式存储到句子数据表中;
⑤选择最新录入统一格式文档库的一个文档或者统一格式文档库内某个文档作为待比对文档与统一格式文档库的其他所有文档进行比对,首先通过句子数据表根据文档的包括类别、标题、来源、关键词、创建时间在内的关键属性进行比对和匹配,从而从统一格式文档库中筛选出包括类别、标题、来源、关键词、创建时间在内的关键属性中的任一个属性与待比对文档的类别、标题、来源、关键词、创建时间5个关键属性的任一个属性匹配的所有文档;
⑥对由步骤⑤筛选出来的文档作为参考文档逐个与待比对文档通过句子数据表中由步骤③得到的与各个文档相对应的条目信息进行比对,2个文档比对时以句子为单位,根据Nakatsu算法逐项比对句子从而计算句子之间的相似度,再根据各个句子的相似度利用算术平均法计算2个文档整体的相似度;
⑦将由步骤⑥得到的待比对文档与任一个参考文档的整体的相似度记录至相应的数据库中。
2.根据权利要求1所述的一种多格式文档录入并比对的方法,其特征在于:步骤③中,通过分词系统将各个文档的内容提取为句子集合的具体过程是,将每个文档进行分解形成文档分解树,每个文档所对应的文档分解树包括n(n≥1)个句子,句子以矩阵形式存放,每个句子由行号、列号、长度、内容、相似度信息构成,则第n个句子的矩阵由行号n、列号n、长度n、内容n、相似度n构成。
3.根据权利要求2所述的一种多格式文档录入并比对的方法,其特征在于:步骤⑥中,根据Nakatsu算法逐项比对句子从而计算句子之间的相似度的具体方法是:设待比对的两个句子是句子A和句子B,首先计算句子A和句子B的最长公共子序列,记作为名MaxLen(A,B),具体为设M=Len(A),N=Len(B),即M为字符串A的长度,N为字符串B的长度,为了不失一般性,假设M≤N;
设A=a1a2……aM,表示A是由a1a2……aM这M个字符组成;
B=b1b2……bN,表示B是由b1b2……bN这N个字符组成;
则MaxLen(i,j)= MaxLen (a1a2……ai,b1b2……bj),其中1≤i≤M,1≤j≤N;
用L(k,i)表示所有与字符串a1a2……ai有长度为k的LCS(Longest Common Subsequence,最长公共子序列)字符串b1b2……bj中j的最小值,用公式表示就是:L(k,i)=Min{j} Where LCS(i,j)=k;
第一步,初始化数组LL()和P();
LL(0)=0
LL(i)=V    1≤i≤M
P(i)=V     1≤i≤M 
此时,LL(0)表示L(0,0);LL(1)表示L(1,0);LL(2)表示L(2,1);……
第二步,依次计算第一条对角线上的元素,用临时变量T计算L(1,1);T=F(L(0,0),L(1,0))=F(LL(0),LL(1));
F表示取最小值运算,将T的值赋给LL(1);
此时LL(1)表示LL(1,1),LL(2)表示L(2,1);重复上面的计算,直到计算完本条对角线,如果是第k行的第一个不为V的值,将该值赋给P(k);
第一条对角线计算完之后,此时,LL(0)表示L(0,1);LL(1)表示L(1,1);LL(2)表示L(2,2);……;
如果,这条对角线不是解,重复第二步,计算下一条对角线,直到遇到解为止;
不过要注意的是:第i条对角线只有m-i+1个元素,所以只计算到LL(m-i+1);
如果某条对角线的某个元素是V的话,则这条对角线之后的元素都是V,就不需要计算了;
然后计算句子A和句子B之间编辑距离,用LD(A,B)表示,很显然,若LD(A,B)=0则表示句子A和句子B完全相同;
A=a1a2……aN,表示A是由a1a2……aN这N个字符组成,Len(A)=N;
  B=b1b2……bM,表示B是由b1b2……bM这M个字符组成,Len(B)=M;
  定义LD(i,j)=LD(a1a2……ai,b1b2……bj),其中0≤i≤N,0≤j≤M;
初始化LD矩阵,根据LD(N,M)=LD(A,B),LD(0,0)=0,LD(0,j)=j,LD(i,0)=i分别计算LD矩阵初始值;
计算LD矩阵其它行,根据公式若ai=bj,则LD(i,j)=LD(i-1,j-1),若ai≠bj,则LD(i,j)=Min(LD(i-1,j-1),LD(i-1,j),LD(i,j-1))+1,最后计算得到LD(A,B)值;
计算句子A和句子B的相似度SIM(A,B)= LCS(A,B)/(LD(A,B)+LCS(A,B))。
4.根据权利要求1所述的一种多格式文档录入并比对的方法,其特征在于:步骤②中,PDF格式的电子文档的转换方法是首先提取PDF 文档中各页的内容流,然后将提取到的内容流进行解密,再用Filter解码算法对解密后的内容流进行解码,最后从解码后的内容流中提取文本内容及其相关信息并存储为设定的统一格式的文档。
5.根据权利要求1所述的一种多格式文档录入并比对的方法,其特征在于:步骤①中,扫描设备优选扫描仪。
CN201310696955.0A 2013-12-18 2013-12-18 一种多格式文档录入并比对的方法 Active CN103823838B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201810549598.8A CN108959203A (zh) 2013-12-18 2013-12-18 一种文挡录入并比对的方法
CN201810549597.3A CN108804624A (zh) 2013-12-18 2013-12-18 文挡录入并比对的方法
CN201310696955.0A CN103823838B (zh) 2013-12-18 2013-12-18 一种多格式文档录入并比对的方法
CN201810549599.2A CN108984593A (zh) 2013-12-18 2013-12-18 多格式文挡录入并比对的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310696955.0A CN103823838B (zh) 2013-12-18 2013-12-18 一种多格式文档录入并比对的方法

Related Child Applications (3)

Application Number Title Priority Date Filing Date
CN201810549597.3A Division CN108804624A (zh) 2013-12-18 2013-12-18 文挡录入并比对的方法
CN201810549598.8A Division CN108959203A (zh) 2013-12-18 2013-12-18 一种文挡录入并比对的方法
CN201810549599.2A Division CN108984593A (zh) 2013-12-18 2013-12-18 多格式文挡录入并比对的方法

Publications (2)

Publication Number Publication Date
CN103823838A true CN103823838A (zh) 2014-05-28
CN103823838B CN103823838B (zh) 2018-07-20

Family

ID=50758902

Family Applications (4)

Application Number Title Priority Date Filing Date
CN201810549597.3A Pending CN108804624A (zh) 2013-12-18 2013-12-18 文挡录入并比对的方法
CN201310696955.0A Active CN103823838B (zh) 2013-12-18 2013-12-18 一种多格式文档录入并比对的方法
CN201810549599.2A Pending CN108984593A (zh) 2013-12-18 2013-12-18 多格式文挡录入并比对的方法
CN201810549598.8A Pending CN108959203A (zh) 2013-12-18 2013-12-18 一种文挡录入并比对的方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201810549597.3A Pending CN108804624A (zh) 2013-12-18 2013-12-18 文挡录入并比对的方法

Family Applications After (2)

Application Number Title Priority Date Filing Date
CN201810549599.2A Pending CN108984593A (zh) 2013-12-18 2013-12-18 多格式文挡录入并比对的方法
CN201810549598.8A Pending CN108959203A (zh) 2013-12-18 2013-12-18 一种文挡录入并比对的方法

Country Status (1)

Country Link
CN (4) CN108804624A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105701256A (zh) * 2016-03-23 2016-06-22 南京南瑞继保电气有限公司 一种通讯点表文件比较方法
CN105912883A (zh) * 2016-06-30 2016-08-31 广州市皓轩软件科技有限公司 一种针对icd起搏器的结构化数据提取方法
CN106033475A (zh) * 2016-05-18 2016-10-19 苏州奖多多科技有限公司 一种信息匹配方法、装置及电子设备
CN107169011A (zh) * 2017-03-31 2017-09-15 百度在线网络技术(北京)有限公司 基于人工智能的网页原创性识别方法、装置及存储介质
CN107368472A (zh) * 2017-07-26 2017-11-21 成都科来软件有限公司 一种可迭代优化的文档分析结果的保存方法
CN109062872A (zh) * 2018-07-13 2018-12-21 摩诃科技无锡有限公司 一种对不同格式报关文件进行统一处理的算法
CN111026718A (zh) * 2019-12-11 2020-04-17 广州地铁集团有限公司 轨道交通工程造价成果excel文件解析的技术方法
CN112487781A (zh) * 2020-12-10 2021-03-12 成都海光微电子技术有限公司 文件比对方法、装置、存储介质及设备

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271641B (zh) * 2018-11-20 2023-09-08 广西三方大供应链技术服务有限公司 一种文本相似度计算方法、装置及电子设备
CN110135264A (zh) * 2019-04-16 2019-08-16 深圳壹账通智能科技有限公司 数据录入方法、装置、计算机设备以及存储介质
CN112948574A (zh) * 2019-12-11 2021-06-11 上海交通大学 批量文件上传分类的系统及方法
CN110955638A (zh) * 2019-12-17 2020-04-03 江苏扬子易联智能软件有限公司 一种文件对比展示方法和系统
CN111382562B (zh) * 2020-03-05 2024-03-01 百度在线网络技术(北京)有限公司 文本相似度的确定方法、装置、电子设备及存储介质
CN111563372B (zh) * 2020-05-11 2021-04-13 世纪金榜集团股份有限公司 一种基于教辅书籍出版的排版文档内容自查重方法
CN114939532B (zh) * 2022-07-11 2022-11-08 河北汇金集团股份有限公司 乱序文档的分拣方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1495639A (zh) * 2002-09-13 2004-05-12 富士施乐株式会社 文本语句比较装置
CN1687926A (zh) * 2005-04-18 2005-10-26 福州大学 一种基于xml的pdf文档信息抽取系统的方法
CN102004779A (zh) * 2010-11-19 2011-04-06 百度在线网络技术(北京)有限公司 一种文档共享平台及文档处理方法
CN102799647A (zh) * 2012-06-30 2012-11-28 华为技术有限公司 网页去重方法和设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100412869C (zh) * 2006-04-13 2008-08-20 北大方正集团有限公司 一种改进的基于文档结构的文档相似性度量方法
CN101763343A (zh) * 2008-12-23 2010-06-30 上海晨鸟信息科技有限公司 一种支持格式比对和剽窃检查的文档编辑器原理与方法
CN101630321A (zh) * 2009-08-26 2010-01-20 中山大学 一种基于数据挖掘的在线文章筛选方法
CN101957809A (zh) * 2010-10-14 2011-01-26 传神联合(北京)信息技术有限公司 一种防抄袭方法
CN102622338B (zh) * 2012-02-24 2014-02-26 北京工业大学 一种短文本间语义距离的计算机辅助计算方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1495639A (zh) * 2002-09-13 2004-05-12 富士施乐株式会社 文本语句比较装置
CN1687926A (zh) * 2005-04-18 2005-10-26 福州大学 一种基于xml的pdf文档信息抽取系统的方法
CN102004779A (zh) * 2010-11-19 2011-04-06 百度在线网络技术(北京)有限公司 一种文档共享平台及文档处理方法
CN102799647A (zh) * 2012-06-30 2012-11-28 华为技术有限公司 网页去重方法和设备

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
NARAO NAKATSU等: "《A Longest Common Subsequence Algorithm Suitable for Similar Text Strings》", 《ACTA INFORMATICA》 *
万仓一黍: "《文本比较算法Ⅳ——Nakatsu算法》", 《HTTP://WWW.CNBLOGS.COM/GRENET/ARCHIVE/2010/06/07/1752751.HTM》 *
万仓一黍: "《线性空间求最长公共子序列的Nakatsu算法》", 《HTTP://WWW.CNBLOGS.COM/GRENET/ARCHIVE/2011/03/11/1964417.HTML》 *
李欣等: "《最长公共子序列问题的改进快速算法》", 《计算机应用研究》 *
钟诚等: "《PRAM和LARPBS模型上的近似串匹配并行算法》", 《软件学报》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105701256A (zh) * 2016-03-23 2016-06-22 南京南瑞继保电气有限公司 一种通讯点表文件比较方法
CN106033475A (zh) * 2016-05-18 2016-10-19 苏州奖多多科技有限公司 一种信息匹配方法、装置及电子设备
CN105912883A (zh) * 2016-06-30 2016-08-31 广州市皓轩软件科技有限公司 一种针对icd起搏器的结构化数据提取方法
CN107169011A (zh) * 2017-03-31 2017-09-15 百度在线网络技术(北京)有限公司 基于人工智能的网页原创性识别方法、装置及存储介质
CN107169011B (zh) * 2017-03-31 2021-06-11 百度在线网络技术(北京)有限公司 基于人工智能的网页原创性识别方法、装置及存储介质
CN107368472A (zh) * 2017-07-26 2017-11-21 成都科来软件有限公司 一种可迭代优化的文档分析结果的保存方法
CN107368472B (zh) * 2017-07-26 2021-01-05 成都科来软件有限公司 一种可迭代优化的文档分析结果的保存方法
CN109062872A (zh) * 2018-07-13 2018-12-21 摩诃科技无锡有限公司 一种对不同格式报关文件进行统一处理的算法
CN111026718A (zh) * 2019-12-11 2020-04-17 广州地铁集团有限公司 轨道交通工程造价成果excel文件解析的技术方法
CN112487781A (zh) * 2020-12-10 2021-03-12 成都海光微电子技术有限公司 文件比对方法、装置、存储介质及设备

Also Published As

Publication number Publication date
CN108984593A (zh) 2018-12-11
CN103823838B (zh) 2018-07-20
CN108959203A (zh) 2018-12-07
CN108804624A (zh) 2018-11-13

Similar Documents

Publication Publication Date Title
CN103823838A (zh) 一种多格式文档录入并比对的方法
US11907244B2 (en) Modifying field definitions to include post-processing instructions
CN111753099B (zh) 一种基于知识图谱增强档案实体关联度的方法及系统
CN108932294B (zh) 基于索引的简历数据处理方法、装置、设备及存储介质
CN107679144B (zh) 基于语义相似度的新闻语句聚类方法、装置及存储介质
CN104199965B (zh) 一种语义信息检索方法
CN101694670B (zh) 一种基于公共子串的中文Web文档在线聚类方法
CN101079024B (zh) 一种专业词表动态生成系统和方法
CN101794307A (zh) 基于互联网分词思想的车载导航poi搜索引擎
WO2020056977A1 (zh) 知识点推送方法、装置及计算机可读存储介质
CN113190687B (zh) 知识图谱的确定方法、装置、计算机设备及存储介质
CN102622346B (zh) 中文文献数据库的蛋白质知识挖掘和发现的方法、装置
WO2020155749A1 (zh) 构建个人知识图谱的方法、装置、计算机设备和存储介质
CN115563313A (zh) 基于知识图谱的文献书籍语义检索系统
US11301440B2 (en) Fuzzy search using field-level deletion neighborhoods
CN105404677A (zh) 一种基于树形结构的检索方法
CN115934926A (zh) 信息提取方法、装置、计算机设备、存储介质
US20140129543A1 (en) Search service including indexing text containing numbers in part using one or more number index structures
CN105426490A (zh) 一种基于树形结构的索引方法
CN111831624A (zh) 数据表创建方法、装置、计算机设备及存储介质
CN107657067B (zh) 一种基于余弦距离的前沿科技信息快速推送方法及系统
Tian A mathematical indexing method based on the hierarchical features of operators in formulae
TWI534640B (zh) Chinese network information monitoring and analysis system and its method
CN114078570A (zh) 一种化学分子结构检索系统
CN112214615A (zh) 基于知识图谱的政策文件处理方法、装置和存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: No. 27, front street, Changzhou Municipal Bureau, Jiangsu Province, Jiangsu

Applicant after: STATE GRID JIANGSU ELECTRIC POWER Co.,Ltd. CHANGZHOU POWER SUPPLY BRANCH

Applicant after: STATE GRID JIANGSU ELECTRIC POWER Co.,Ltd.

Applicant after: State Grid Corporation of China

Address before: No. 27, front street, Changzhou Municipal Bureau, Jiangsu Province, Jiangsu

Applicant before: STATE GRID CHANG ZHOU CURRENT SUPPLY COMPANY OF JIANGSU ELECTRIC POWER Co.

Applicant before: STATE GRID JIANGSU ELECTRIC POWER Co.

Applicant before: State Grid Corporation of China

Address after: No. 27, front street, Changzhou Municipal Bureau, Jiangsu Province, Jiangsu

Applicant after: STATE GRID CHANG ZHOU CURRENT SUPPLY COMPANY OF JIANGSU ELECTRIC POWER Co.

Applicant after: STATE GRID JIANGSU ELECTRIC POWER Co.

Applicant after: State Grid Corporation of China

Address before: No. 27, Tianning District Bureau, front street, Changzhou, Jiangsu Province

Applicant before: CHANG ZHOU CURRENT SUPPLY COMPANY OF JIANGSU ELECTRIC POWER Co.

Applicant before: JIANGSU ELECTRIC POWER Co.

Applicant before: State Grid Corporation of China

CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Ju Fei

Inventor after: Hua Kai

Inventor after: Gu Mei

Inventor after: Wu Guoqi

Inventor after: Tang Dan

Inventor before: Ju Fei

Inventor before: Hua Kai

Inventor before: Wu Guoqi

Inventor before: Liu Jianjun

GR01 Patent grant
GR01 Patent grant