CN103823838B - 一种多格式文档录入并比对的方法 - Google Patents

一种多格式文档录入并比对的方法 Download PDF

Info

Publication number
CN103823838B
CN103823838B CN201310696955.0A CN201310696955A CN103823838B CN 103823838 B CN103823838 B CN 103823838B CN 201310696955 A CN201310696955 A CN 201310696955A CN 103823838 B CN103823838 B CN 103823838B
Authority
CN
China
Prior art keywords
document
format
sentence
library
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310696955.0A
Other languages
English (en)
Other versions
CN103823838A (zh
Inventor
鞠非
华凯
顾梅
吴国奇
汤丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changzhou Power Supply Branch Jiangsu Electric Power Co Ltd
State Grid Corp of China SGCC
State Grid Jiangsu Electric Power Co Ltd
Original Assignee
Changzhou Power Supply Branch Jiangsu Electric Power Co Ltd
State Grid Corp of China SGCC
State Grid Jiangsu Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changzhou Power Supply Branch Jiangsu Electric Power Co Ltd, State Grid Corp of China SGCC, State Grid Jiangsu Electric Power Co Ltd filed Critical Changzhou Power Supply Branch Jiangsu Electric Power Co Ltd
Priority to CN201810549599.2A priority Critical patent/CN108984593A/zh
Priority to CN201310696955.0A priority patent/CN103823838B/zh
Priority to CN201810549597.3A priority patent/CN108804624A/zh
Priority to CN201810549598.8A priority patent/CN108959203A/zh
Publication of CN103823838A publication Critical patent/CN103823838A/zh
Application granted granted Critical
Publication of CN103823838B publication Critical patent/CN103823838B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种多格式文档录入并比对的方法,首先判断待录入文档是否为纸质文档,如果是纸质文档则通过前端设备将纸制文件自动扫描录入原始格式文档库中,如果是电子文档则直接录入原始格式文档库中,再将原始格式文档库中的所有文档转换为统一格式的文档,然后对文档进行关键属性标注和基础管理,最后通过Nakastu算法和分词系统进行基于内容的文档比对,并将根据比对相似程度进行文档关联且录入数据库中。本发明能将各类型和格式的文档自动录入、统一分类、智能管理和与已有文件的比对,提高文档利用效率,节省文档比对时间,提升文档管理效率。

Description

一种多格式文档录入并比对的方法
技术领域
本发明涉及文档处理管理领域,更具体的涉及一种将电子文档或纸质文档录入并进行比对的方法。
背景技术
目前典型的文档比对技术应用有:(1)信息智能检索:搜索引擎对用户输入关键字的反应是列出所有与该关键字相匹配的信息。(2)自动问答系统:在这种系统中,问题是多种多样,且非常巨大的,有些问题是非常相似的,如果用人工来回答,将耗费大量的时间和人力,如果在这种系统中应用文本相似度技术,将相似度很高的问题归为一类,使系统对这类问题自动做出答复,将节省大量的时间。(3)文本查重:在某些领域,考虑到隐私性和独创性,要求文本不能重复出现,那么应用文本相似度技术,对这类文本进行相似度的计算,就可以看出哪些文本多次出现。由上述,文档比对技术越来越多地应用在各个领域。
目前,对文档的比对分析管理研究主要集中在文本相似度计算,对于文本相似度计算侧重在字符串相似度,已经形成比较成熟的聚类算法,但是这些算法在比较的过程中没有考虑文本或者字符的语义,计算出来的相似度参考度不高,在实际应用过程中给用户提供参考价值不高。虽然通过分词来计算文本相似度,即通过中文分词算法按照语义角度进行分词,然后根据分词和比对算法结合计算文本之间的相似度,其重点是从词语级来比对文档之间相似度。但这些文档比对支持的文档都是单一的TXT文本或者Word文件,对于多格式文档的比对无法直接进行,需要事先由人工进行格式转换后才能比较,大大影响工作效率。
发明内容
本发明要解决的技术问题是提供一种可以对多种格式的文档录入并进行比对的方法。
实现本发明目的的技术方案是提供一种多格式文档录入并比对的方法,包括如下步骤:
①判断需要录入的文档是否为纸制文档,如果为纸制文档则将需要录入的纸制文档按照先后次序叠放整齐后放置到扫描设备上,通过扫描设备将文档扫描成PDF格式的电子文档并存储到与扫描设备电连接的计算机的存储设备的原始格式文档库中;
如果是包括PDF、Word或TXT在内的多种格式的电子文档,则直接存储到计算机的存储设备的原始格式文档库中;
②通过计算机对原始格式文档库中的各个电子文档转换成统一格式的文档并存储到计算机的存储设备的统一格式文档库中,可以根据需要自行设定转换后的文件格式,优选的文件格式为Word格式或TXT文本形式,如果原始的电子文档的文件格式与设定转换后的文件格式一致则直接从原始格式文档库拷贝至统一格式文档库;
③对转换后统一格式成Word格式或TXT文本形式的各个电子文档的内容,通过分词系统将各个文档的内容提取为句子集合,并以与各个文档相对应的条目的形式存储到句子数据表中;
④对转换后统一格式成Word格式或TXT文本形式的各个电子文档进行包括类别、标题、来源、关键词、创建时间在内的关键属性的标注,并以与各个文档相对应的条目的形式存储到句子数据表中;
⑤选择最新录入统一格式文档库的一个文档或者统一格式文档库内某个文档作为待比对文档与统一格式文档库的其他所有文档进行比对,首先通过句子数据表根据文档的包括类别、标题、来源、关键词、创建时间在内的关键属性进行比对和匹配,从而从统一格式文档库中筛选出包括类别、标题、来源、关键词、创建时间在内的关键属性中的任一个属性与待比对文档的类别、标题、来源、关键词、创建时间5个关键属性的任一个属性匹配的所有文档;
⑥对由步骤⑤筛选出来的文档作为参考文档逐个与待比对文档通过句子数据表中由步骤③得到的与各个文档相对应的条目信息进行比对,2个文档比对时以句子为单位,根据Nakatsu算法逐项比对句子从而计算句子之间的相似度,再根据各个句子的相似度利用算术平均法计算2个文档整体的相似度;
⑦将由步骤⑥得到的待比对文档与任一个参考文档的整体的相似度记录至相应的数据库中。
步骤③中,通过分词系统将各个文档的内容提取为句子集合的具体过程是,将每个文档进行分解形成文档分解树,每个文档所对应的文档分解树包括n(n≥1)个句子,句子以矩阵形式存放,每个句子由行号、列号、长度、内容、相似度信息构成,则第n个句子的矩阵由行号n、列号n、长度n、内容n、相似度n构成。
步骤⑥中,根据Nakatsu算法逐项比对句子从而计算句子之间的相似度的具体方法是:设待比对的两个句子是句子A和句子B,首先计算句子A和句子B的最长公共子序列,记作为名MaxLen(A,B),具体为设M=Len(A),N=Len(B),即M为字符串A的长度,N为字符串B的长度,为了不失一般性,假设M≤N;
设A=a1a2……aM,表示A是由a1a2……aM这M个字符组成;
B=b1b2……bN,表示B是由b1b2……bN这N个字符组成;
则MaxLen(i,j)= MaxLen (a1a2……ai,b1b2……bj),其中1≤i≤M,1≤j≤N;
用L(k,i)表示所有与字符串a1a2……ai有长度为k的LCS(Longest CommonSubsequence,最长公共子序列)字符串b1b2……bj中j的最小值,用公式表示就是:L(k,i)=Min{j} Where LCS(i,j)=k;
第一步,初始化数组LL()和P();
LL(0)=0
LL(i)=V    1≤i≤M
P(i)=V     1≤i≤M
此时,LL(0)表示L(0,0);LL(1)表示L(1,0);LL(2)表示L(2,1);……
第二步,依次计算第一条对角线上的元素,用临时变量T计算L(1,1);T=F(L(0,0),L(1,0))=F(LL(0),LL(1))。注:F表示取最小值运算,将T的值赋给LL(1)。此时LL(1)表示LL(1,1),LL(2)表示L(2,1);重复上面的计算,直到计算完本条对角线,如果是第k行的第一个不为V的值,将该值赋给P(k);
第一条对角线计算完之后,此时,LL(0)表示L(0,1);LL(1)表示L(1,1);LL(2)表示L(2,2);……;
如果,这条对角线不是解,重复第二步,计算下一条对角线,直到遇到解为止。不过要注意的是:第i条对角线只有m-i+1个元素,所以只计算到LL(m-i+1)。
如果某条对角线的某个元素是V的话,则这条对角线之后的元素都是V,就不需要计算了。
然后计算句子A和句子B之间编辑距离,用LD(A,B)表示,很显然,若LD(A,B)=0则表示句子A和句子B完全相同。
A=a1a2……aN,表示A是由a1a2……aN这N个字符组成,Len(A)=N;
B=b1b2……bM,表示B是由b1b2……bM这M个字符组成,Len(B)=M;
定义LD(i,j)=LD(a1a2……ai,b1b2……bj),其中0≤i≤N,0≤j≤M;
初始化LD矩阵,根据LD(N,M)=LD(A,B),LD(0,0)=0,LD(0,j)=j,LD(i,0)=i分别计算LD矩阵初始值;
计算LD矩阵其它行,根据公式若ai=bj,则LD(i,j)=LD(i-1,j-1),若ai≠bj,则LD(i,j)=Min(LD(i-1,j-1),LD(i-1,j),LD(i,j-1))+1,最后计算得到LD(A,B)值;
计算句子A和句子B的相似度SIM(A,B)= LCS(A,B)/(LD(A,B)+LCS(A,B))。
步骤②中,PDF格式的电子文档的转换方法是首先提取PDF 文档中各页的内容流,然后将提取到的内容流进行解密,再用Filter解码算法对解密后的内容流进行解码,最后从解码后的内容流中提取文本内容及其相关信息并存储为设定的统一格式的文档。
步骤①中,扫描设备优选扫描仪。
本发明具有积极的效果:(1)本发明的一种多格式文档录入并比对的方法能够将纸质文档或者各类型的电子文档录入文档库并统一格式从而方便管理和进行比对,提高了文档利用效率,节省文档比对时间,提升文档管理效率。
(2)本发明的一种多格式文档录入并比对的方法采用Nakatsu算法逐项比对句子从而计算句子之间的相似度,再根据各个句子的相似度利用算术平均法计算2个文档的整体的相似度,对于2个文档的相似度的计算较为精准,比对效果较好。
(3)本发明的一种多格式文档录入并比对的方法通过分词系统将各个文档的内容提取为句子集合,将每个文档进行分解形成文档分解树,每个文档所对应的文档分解树包括n(n≥1)个句子,句子以矩阵形式存放,每个句子由行号、列号、长度、内容、相似度信息构成,则第n个句子的矩阵由行号n、列号n、长度n、内容n、相似度n构成,通过分词系统分解形成的各个文档的文档树较为细致详细,从而提高了后续的比对过程的精度,提升文档管理效率。
附图说明
图1为本发明的一种多格式文档录入并比对的方法的流程框图;
图2为本发明的步骤③中的分词系统的具体过程示意图。
具体实施方式
(实施例1)
见图1,本实施例的一种多格式文档录入并比对的方法,包括如下步骤:
①判断需要录入的文档是否为纸制文档,如果为纸制文档则将需要录入的纸制文档按照先后次序叠放整齐后放置到扫描设备上,通过扫描设备将文档扫描成PDF格式的电子文档并存储到与扫描设备电连接的计算机的存储设备的原始格式文档库中,扫描设备优选扫描仪;
如果是包括PDF、Word或TXT在内的多种格式的电子文档,则直接存储到计算机的存储设备的原始格式文档库中;
②通过计算机对原始格式文档库中的各个电子文档转换成统一格式的文档并存储到计算机的存储设备的统一格式文档库中,可以根据需要自行设定转换后的文件格式,优选的文件格式为Word格式或TXT文本形式,如果原始的电子文档的文件格式与设定转换后的文件格式一致则直接从原始格式文档库拷贝至统一格式文档库,另外PDF格式的电子文档的转换方法是首先提取PDF 文档中各页的内容流,然后将提取到的内容流进行解密,再用Filter解码算法对解密后的内容流进行解码,最后从解码后的内容流中提取文本内容及其相关信息并存储为设定的统一格式的文档。
③对转换后统一格式成Word格式或TXT文本形式的各个电子文档的内容,通过分词系统将各个文档的内容提取为句子集合,并以与各个文档相对应的条目的形式存储到句子数据表中;分词系统是将一个汉字序列切分成一个一个单独的词,将连续的字序列按照一定的规范重新组合成词序列的过程,例如将“加大监管力度”通过分词系统分解为“加大”、“监管”和“力度”三个词;
见图2,通过分词系统将各个文档的内容提取为句子集合的具体过程是,将每个文档进行分解形成文档分解树,每个文档所对应的文档分解树包括n(n≥1)个句子,句子以矩阵形式存放,每个句子由行号、列号、长度、内容、相似度信息构成,则第n个句子的矩阵由行号n、列号n、长度n、内容n、相似度n构成。
④对转换后统一格式成Word格式或TXT文本形式的各个电子文档由人工手动对每个文档进行包括类别、标题、来源、关键词、创建时间在内的关键属性的标注,并以与各个文档相对应的条目的形式存储到句子数据表中。
⑤选择最新录入统一格式文档库的一个文档或者统一格式文档库内某个文档作为待比对文档与统一格式文档库的其他所有文档进行比对,首先通过句子数据表根据文档的包括类别、标题、来源、关键词、创建时间在内的关键属性进行比对和匹配,从而从统一格式文档库中筛选出包括类别、标题、来源、关键词、创建时间在内的关键属性中的任一个属性与待比对文档的类别、标题、来源、关键词、创建时间5个关键属性的任一个属性匹配的所有文档。
⑥对由步骤⑤筛选出来的文档作为参考文档逐个与待比对文档通过句子数据表中由步骤③得到的与各个文档相对应的条目信息进行比对,2个文档比对时以句子为单位,根据Nakatsu算法逐项比对句子从而计算句子之间的相似度,再根据各个句子的相似度利用算术平均法计算2个文档(任一个参考文档与待比对文档)整体的相似度。
根据Nakatsu算法逐项比对句子从而计算句子之间的相似度的具体方法是:设待比对的两个句子是句子A和句子B,首先计算句子A和句子B的最长公共子序列,记作为名MaxLen(A,B),具体为设M=Len(A),N=Len(B),即M为字符串A的长度,N为字符串B的长度,为了不失一般性,假设M≤N;
设A=a1a2……aM,表示A是由a1a2……aM这M个字符组成;
B=b1b2……bN,表示B是由b1b2……bN这N个字符组成;
则MaxLen(i,j)= MaxLen (a1a2……ai,b1b2……bj),其中1≤i≤M,1≤j≤N;
用L(k,i)表示所有与字符串a1a2……ai有长度为k的LCS(Longest CommonSubsequence,最长公共子序列)字符串b1b2……bj中j的最小值,用公式表示就是:L(k,i)=Min{j} Where LCS(i,j)=k;
第一步,初始化数组LL()和P();
LL(0)=0
LL(i)=V    1≤i≤M
P(i)=V     1≤i≤M
此时,LL(0)表示L(0,0);LL(1)表示L(1,0);LL(2)表示L(2,1);……
第二步,依次计算第一条对角线上的元素,用临时变量T计算L(1,1);T=F(L(0,0),L(1,0))=F(LL(0),LL(1))。注:F表示取最小值运算,将T的值赋给LL(1)。此时LL(1)表示LL(1,1),LL(2)表示L(2,1);重复上面的计算,直到计算完本条对角线,如果是第k行的第一个不为V的值,将该值赋给P(k);
第一条对角线计算完之后,此时,LL(0)表示L(0,1);LL(1)表示L(1,1);LL(2)表示L(2,2);……;
如果,这条对角线不是解,重复第二步,计算下一条对角线,直到遇到解为止。不过要注意的是:第i条对角线只有m-i+1个元素,所以只计算到LL(m-i+1)。
如果某条对角线的某个元素是V的话,则这条对角线之后的元素都是V,就不需要计算了。
然后计算句子A和句子B之间编辑距离,用LD(A,B)表示,很显然,若LD(A,B)=0则表示句子A和句子B完全相同。
A=a1a2……aN,表示A是由a1a2……aN这N个字符组成,Len(A)=N;
B=b1b2……bM,表示B是由b1b2……bM这M个字符组成,Len(B)=M;
定义LD(i,j)=LD(a1a2……ai,b1b2……bj),其中0≤i≤N,0≤j≤M;
初始化LD矩阵,根据LD(N,M)=LD(A,B),LD(0,0)=0,LD(0,j)=j,LD(i,0)=i分别计算LD矩阵初始值;
计算LD矩阵其它行,根据公式若ai=bj,则LD(i,j)=LD(i-1,j-1),若ai≠bj,则LD(i,j)=Min(LD(i-1,j-1),LD(i-1,j),LD(i,j-1))+1,最后计算得到LD(A,B)值;
计算句子A和句子B的相似度SIM(A,B)= LCS(A,B)/(LD(A,B)+LCS(A,B))。
⑦将由步骤⑥得到的待比对文档与任一个参考文档的整体的相似度记录至相应的数据库中。

Claims (1)

1.一种多格式文档录入并比对的方法,包括如下步骤:
①判断需要录入的文档是否为纸制文档,如果为纸制文档则将需要录入的纸制文档按照先后次序叠放整齐后放置到扫描设备上,通过扫描设备将文档扫描成PDF格式的电子文档并存储到与扫描设备电连接的计算机的存储设备的原始格式文档库中;
如果是包括PDF、Word或TXT在内的多种格式的电子文档,则直接存储到计算机的存储设备的原始格式文档库中;
②通过计算机对原始格式文档库中的各个电子文档转换成统一格式的文档并存储到计算机的存储设备的统一格式文档库中,可以根据需要自行设定转换后的文件格式,优选的文件格式为Word格式或TXT文本形式,如果原始的电子文档的文件格式与设定转换后的文件格式一致则直接从原始格式文档库拷贝至统一格式文档库;
③对转换后统一格式成Word格式或TXT文本形式的各个电子文档的内容,通过分词系统将各个文档的内容提取为句子集合,并以与各个文档相对应的条目的形式存储到句子数据表中;通过分词系统将各个文档的内容提取为句子集合的具体过程是,将每个文档进行分解形成文档分解树,每个文档所对应的文档分解树包括n(n≥1)个句子,句子以矩阵形式存放,每个句子由行号、列号、长度、内容、相似度信息构成,则第n个句子的矩阵由行号n、列号n、长度n、内容n、相似度n构成;
④对转换后统一格式成Word格式或TXT文本形式的各个电子文档进行包括类别、标题、来源、关键词、创建时间在内的关键属性的标注,并以与各个文档相对应的条目的形式存储到句子数据表中;
⑤选择最新录入统一格式文档库的一个文档或者统一格式文档库内某个文档作为待比对文档与统一格式文档库的其他所有文档进行比对,首先通过句子数据表根据文档的包括类别、标题、来源、关键词、创建时间在内的关键属性进行比对和匹配,从而从统一格式文档库中筛选出包括类别、标题、来源、关键词、创建时间在内的关键属性中的任一个属性与待比对文档的类别、标题、来源、关键词、创建时间5个关键属性的任一个属性匹配的所有文档;
⑥对由步骤⑤筛选出来的文档作为参考文档逐个与待比对文档通过句子数据表中由步骤③得到的与各个文档相对应的条目信息进行比对,2个文档比对时以句子为单位,根据Nakatsu算法逐项比对句子从而计算句子之间的相似度,再根据各个句子的相似度利用算术平均法计算2个文档整体的相似度;
⑦将由步骤⑥得到的待比对文档与任一个参考文档的整体的相似度记录至相应的数据库中。
CN201310696955.0A 2013-12-18 2013-12-18 一种多格式文档录入并比对的方法 Active CN103823838B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201810549599.2A CN108984593A (zh) 2013-12-18 2013-12-18 多格式文挡录入并比对的方法
CN201310696955.0A CN103823838B (zh) 2013-12-18 2013-12-18 一种多格式文档录入并比对的方法
CN201810549597.3A CN108804624A (zh) 2013-12-18 2013-12-18 文挡录入并比对的方法
CN201810549598.8A CN108959203A (zh) 2013-12-18 2013-12-18 一种文挡录入并比对的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310696955.0A CN103823838B (zh) 2013-12-18 2013-12-18 一种多格式文档录入并比对的方法

Related Child Applications (3)

Application Number Title Priority Date Filing Date
CN201810549598.8A Division CN108959203A (zh) 2013-12-18 2013-12-18 一种文挡录入并比对的方法
CN201810549597.3A Division CN108804624A (zh) 2013-12-18 2013-12-18 文挡录入并比对的方法
CN201810549599.2A Division CN108984593A (zh) 2013-12-18 2013-12-18 多格式文挡录入并比对的方法

Publications (2)

Publication Number Publication Date
CN103823838A CN103823838A (zh) 2014-05-28
CN103823838B true CN103823838B (zh) 2018-07-20

Family

ID=50758902

Family Applications (4)

Application Number Title Priority Date Filing Date
CN201810549597.3A Pending CN108804624A (zh) 2013-12-18 2013-12-18 文挡录入并比对的方法
CN201310696955.0A Active CN103823838B (zh) 2013-12-18 2013-12-18 一种多格式文档录入并比对的方法
CN201810549599.2A Pending CN108984593A (zh) 2013-12-18 2013-12-18 多格式文挡录入并比对的方法
CN201810549598.8A Pending CN108959203A (zh) 2013-12-18 2013-12-18 一种文挡录入并比对的方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201810549597.3A Pending CN108804624A (zh) 2013-12-18 2013-12-18 文挡录入并比对的方法

Family Applications After (2)

Application Number Title Priority Date Filing Date
CN201810549599.2A Pending CN108984593A (zh) 2013-12-18 2013-12-18 多格式文挡录入并比对的方法
CN201810549598.8A Pending CN108959203A (zh) 2013-12-18 2013-12-18 一种文挡录入并比对的方法

Country Status (1)

Country Link
CN (4) CN108804624A (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105701256A (zh) * 2016-03-23 2016-06-22 南京南瑞继保电气有限公司 一种通讯点表文件比较方法
CN106033475A (zh) * 2016-05-18 2016-10-19 苏州奖多多科技有限公司 一种信息匹配方法、装置及电子设备
CN105912883A (zh) * 2016-06-30 2016-08-31 广州市皓轩软件科技有限公司 一种针对icd起搏器的结构化数据提取方法
CN107169011B (zh) * 2017-03-31 2021-06-11 百度在线网络技术(北京)有限公司 基于人工智能的网页原创性识别方法、装置及存储介质
CN107368472B (zh) * 2017-07-26 2021-01-05 成都科来软件有限公司 一种可迭代优化的文档分析结果的保存方法
CN109062872B (zh) * 2018-07-13 2023-04-18 上海溱云科技有限公司 一种对不同格式报关文件进行统一处理的方法
CN109271641B (zh) * 2018-11-20 2023-09-08 广西三方大供应链技术服务有限公司 一种文本相似度计算方法、装置及电子设备
CN110135264A (zh) * 2019-04-16 2019-08-16 深圳壹账通智能科技有限公司 数据录入方法、装置、计算机设备以及存储介质
CN112948574A (zh) * 2019-12-11 2021-06-11 上海交通大学 批量文件上传分类的系统及方法
CN111026718A (zh) * 2019-12-11 2020-04-17 广州地铁集团有限公司 轨道交通工程造价成果excel文件解析的技术方法
CN110955638A (zh) * 2019-12-17 2020-04-03 江苏扬子易联智能软件有限公司 一种文件对比展示方法和系统
CN111382562B (zh) * 2020-03-05 2024-03-01 百度在线网络技术(北京)有限公司 文本相似度的确定方法、装置、电子设备及存储介质
CN111563372B (zh) * 2020-05-11 2021-04-13 世纪金榜集团股份有限公司 一种基于教辅书籍出版的排版文档内容自查重方法
CN112487781A (zh) * 2020-12-10 2021-03-12 成都海光微电子技术有限公司 文件比对方法、装置、存储介质及设备
CN114939532B (zh) * 2022-07-11 2022-11-08 河北汇金集团股份有限公司 乱序文档的分拣方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1495639A (zh) * 2002-09-13 2004-05-12 富士施乐株式会社 文本语句比较装置
CN1687926A (zh) * 2005-04-18 2005-10-26 福州大学 一种基于xml的pdf文档信息抽取系统的方法
CN102004779A (zh) * 2010-11-19 2011-04-06 百度在线网络技术(北京)有限公司 一种文档共享平台及文档处理方法
CN102799647A (zh) * 2012-06-30 2012-11-28 华为技术有限公司 网页去重方法和设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100412869C (zh) * 2006-04-13 2008-08-20 北大方正集团有限公司 一种改进的基于文档结构的文档相似性度量方法
CN101763343A (zh) * 2008-12-23 2010-06-30 上海晨鸟信息科技有限公司 一种支持格式比对和剽窃检查的文档编辑器原理与方法
CN101630321A (zh) * 2009-08-26 2010-01-20 中山大学 一种基于数据挖掘的在线文章筛选方法
CN101957809A (zh) * 2010-10-14 2011-01-26 传神联合(北京)信息技术有限公司 一种防抄袭方法
CN102622338B (zh) * 2012-02-24 2014-02-26 北京工业大学 一种短文本间语义距离的计算机辅助计算方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1495639A (zh) * 2002-09-13 2004-05-12 富士施乐株式会社 文本语句比较装置
CN1687926A (zh) * 2005-04-18 2005-10-26 福州大学 一种基于xml的pdf文档信息抽取系统的方法
CN102004779A (zh) * 2010-11-19 2011-04-06 百度在线网络技术(北京)有限公司 一种文档共享平台及文档处理方法
CN102799647A (zh) * 2012-06-30 2012-11-28 华为技术有限公司 网页去重方法和设备

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
《A Longest Common Subsequence Algorithm Suitable for Similar Text Strings》;Narao Nakatsu等;《Acta Informatica》;19820228;第18卷(第2期);第171-179页 *
《PRAM和LARPBS模型上的近似串匹配并行算法》;钟诚等;《软件学报》;20040229;第15卷(第2期);第161页 *
《文本比较算法Ⅳ——Nakatsu算法》;万仓一黍;《http://www.cnblogs.com/grenet/archive/2010/06/07/1752751.htm》;20100607;全文 *
《最长公共子序列问题的改进快速算法》;李欣等;《计算机应用研究》;20000229(第2期);第28-30页 *
《线性空间求最长公共子序列的Nakatsu算法》;万仓一黍;《http://www.cnblogs.com/grenet/archive/2011/03/11/1964417.html》;20110311;全文 *

Also Published As

Publication number Publication date
CN108959203A (zh) 2018-12-07
CN108984593A (zh) 2018-12-11
CN108804624A (zh) 2018-11-13
CN103823838A (zh) 2014-05-28

Similar Documents

Publication Publication Date Title
CN103823838B (zh) 一种多格式文档录入并比对的方法
US9495347B2 (en) Systems and methods for extracting table information from documents
CN109446513B (zh) 一种基于自然语言理解的文本中事件的抽取方法
Rao et al. PRIX: Indexing and querying XML using prufer sequences
US8315997B1 (en) Automatic identification of document versions
Zou et al. A novel spectral coding in a large graph database
US10579661B2 (en) System and method for machine learning and classifying data
CN103049568B (zh) 对海量文档库的文档分类的方法
WO2019227585A1 (zh) 基于索引的简历数据处理方法、装置、设备及存储介质
CN104572849A (zh) 基于文本语义挖掘的标准化自动建档方法
US9146988B2 (en) Hierarchal clustering method for large XML data
Zu et al. Resume information extraction with a novel text block segmentation algorithm
Hachey et al. Datasets for generic relation extraction
CN103473275A (zh) 一种采用多特征融合的图像自动标注方法和系统
CN101470752A (zh) 基于关键词解析调度的搜索引擎方法
US20130024403A1 (en) Automatically induced class based shrinkage features for text classification
CN102663108A (zh) 基于复杂网络模型并行化标签传播算法的药物社团发现方法
Consoli et al. A quartet method based on variable neighborhood search for biomedical literature extraction and clustering
Lin et al. Measuring tree similarity for natural language processing based information retrieval
CN103699568A (zh) 一种从维基中抽取领域术语间上下位关系的方法
Tian A mathematical indexing method based on the hierarchical features of operators in formulae
CN111091003A (zh) 一种基于知识图谱查询的并行抽取方法
TWI534640B (zh) Chinese network information monitoring and analysis system and its method
CN106227771B (zh) 一种基于社会化编程网站的领域专家发现方法
Luo et al. Biotable: A tool to extract semantic structure of table in biology literature

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: No. 27, front street, Changzhou Municipal Bureau, Jiangsu Province, Jiangsu

Applicant after: STATE GRID JIANGSU ELECTRIC POWER Co.,Ltd. CHANGZHOU POWER SUPPLY BRANCH

Applicant after: STATE GRID JIANGSU ELECTRIC POWER Co.,Ltd.

Applicant after: State Grid Corporation of China

Address before: No. 27, front street, Changzhou Municipal Bureau, Jiangsu Province, Jiangsu

Applicant before: STATE GRID CHANG ZHOU CURRENT SUPPLY COMPANY OF JIANGSU ELECTRIC POWER Co.

Applicant before: STATE GRID JIANGSU ELECTRIC POWER Co.

Applicant before: State Grid Corporation of China

Address after: No. 27, front street, Changzhou Municipal Bureau, Jiangsu Province, Jiangsu

Applicant after: STATE GRID CHANG ZHOU CURRENT SUPPLY COMPANY OF JIANGSU ELECTRIC POWER Co.

Applicant after: STATE GRID JIANGSU ELECTRIC POWER Co.

Applicant after: State Grid Corporation of China

Address before: No. 27, Tianning District Bureau, front street, Changzhou, Jiangsu Province

Applicant before: CHANG ZHOU CURRENT SUPPLY COMPANY OF JIANGSU ELECTRIC POWER Co.

Applicant before: JIANGSU ELECTRIC POWER Co.

Applicant before: State Grid Corporation of China

CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Ju Fei

Inventor after: Hua Kai

Inventor after: Gu Mei

Inventor after: Wu Guoqi

Inventor after: Tang Dan

Inventor before: Ju Fei

Inventor before: Hua Kai

Inventor before: Wu Guoqi

Inventor before: Liu Jianjun

GR01 Patent grant
GR01 Patent grant