CN108804624A - 文挡录入并比对的方法 - Google Patents

文挡录入并比对的方法 Download PDF

Info

Publication number
CN108804624A
CN108804624A CN201810549597.3A CN201810549597A CN108804624A CN 108804624 A CN108804624 A CN 108804624A CN 201810549597 A CN201810549597 A CN 201810549597A CN 108804624 A CN108804624 A CN 108804624A
Authority
CN
China
Prior art keywords
document
sentence
format
library
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810549597.3A
Other languages
English (en)
Inventor
鞠非
华凯
顾梅
吴国奇
汤丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changzhou Power Supply Branch Jiangsu Electric Power Co Ltd
State Grid Corp of China SGCC
State Grid Jiangsu Electric Power Co Ltd
Original Assignee
Changzhou Power Supply Branch Jiangsu Electric Power Co Ltd
State Grid Corp of China SGCC
State Grid Jiangsu Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changzhou Power Supply Branch Jiangsu Electric Power Co Ltd, State Grid Corp of China SGCC, State Grid Jiangsu Electric Power Co Ltd filed Critical Changzhou Power Supply Branch Jiangsu Electric Power Co Ltd
Priority to CN201810549597.3A priority Critical patent/CN108804624A/zh
Publication of CN108804624A publication Critical patent/CN108804624A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种文挡录入并比对的方法,首先判断待录入文档是否为纸质文档,如果是纸质文档则通过前端设备将纸制文件自动扫描录入原始格式文档库中,如果是电子文档则直接录入原始格式文档库中,再将原始格式文档库中的所有文档转换为统一格式的文档,然后对文档进行关键属性标注和基础管理,最后通过Nakastu算法和分词系统进行基于内容的文档比对,并将根据比对相似程度进行文档关联且录入数据库中。本发明能将各类型和格式的文档自动录入、统一分类、智能管理和与已有文件的比对,提高文档利用效率,节省文档比对时间,提升文档管理效率。

Description

文挡录入并比对的方法
本申请是申请号为:201310696955.0,发明创造名称为《一种多格式文档录入并比 对的方法》,申请日为:2013年12月18日的发明专利申请的分案申请。
技术领域
本发明涉及文档处理管理领域,更具体的涉及一种将电子文档或纸质文档录入并进行比对的方法。
背景技术
目前典型的文档比对技术应用有:(1)信息智能检索:搜索引擎对用户输入关键字的反应是列出所有与该关键字相匹配的信息。(2)自动问答系统:在这种系统中,问题是多种多样,且非常巨大的,有些问题是非常相似的,如果用人工来回答,将耗费大量的时间和人力,如果在这种系统中应用文本相似度技术,将相似度很高的问题归为一类,使系统对这类问题自动做出答复,将节省大量的时间。(3)文本查重:在某些领域,考虑到隐私性和独创性,要求文本不能重复出现,那么应用文本相似度技术,对这类文本进行相似度的计算,就可以看出哪些文本多次出现。由上述,文档比对技术越来越多地应用在各个领域。
目前,对文档的比对分析管理研究主要集中在文本相似度计算,对于文本相似度计算侧重在字符串相似度,已经形成比较成熟的聚类算法,但是这些算法在比较的过程中没有考虑文本或者字符的语义,计算出来的相似度参考度不高,在实际应用过程中给用户提供参考价值不高。虽然通过分词来计算文本相似度,即通过中文分词算法按照语义角度进行分词,然后根据分词和比对算法结合计算文本之间的相似度,其重点是从词语级来比对文档之间相似度。但这些文档比对支持的文档都是单一的TXT文本或者Word文件,对于多格式文档的比对无法直接进行,需要事先由人工进行格式转换后才能比较,大大影响工作效率。
发明内容
本发明要解决的技术问题是提供一种可以对多种格式的文档录入并进行比对的方法。
实现本发明目的的技术方案是提供一种文挡录入并比对的方法,包括如下步骤:
①判断需要录入的文档是否为纸制文档,如果为纸制文档则将需要录入的纸制文档按照先后次序叠放整齐后放置到扫描设备上,通过扫描设备将文档扫描成PDF格式的电子文档并存储到与扫描设备电连接的计算机的存储设备的原始格式文档库中;
如果是包括PDF、Word或TXT在内的多种格式的电子文档,则直接存储到计算机的存储设备的原始格式文档库中;
②通过计算机对原始格式文档库中的各个电子文档转换成统一格式的文档并存储到计算机的存储设备的统一格式文档库中,可以根据需要自行设定转换后的文件格式,优选的文件格式为Word格式或TXT文本形式,如果原始的电子文档的文件格式与设定转换后的文件格式一致则直接从原始格式文档库拷贝至统一格式文档库;
③对转换后统一格式成Word格式或TXT文本形式的各个电子文档的内容,通过分词系统将各个文档的内容提取为句子集合,并以与各个文档相对应的条目的形式存储到句子数据表中;
④对转换后统一格式成Word格式或TXT文本形式的各个电子文档进行包括类别、标题、来源、关键词、创建时间在内的关键属性的标注,并以与各个文档相对应的条目的形式存储到句子数据表中;
⑤选择最新录入统一格式文档库的一个文档或者统一格式文档库内某个文档作为待比对文档与统一格式文档库的其他所有文档进行比对,首先通过句子数据表根据文档的包括类别、标题、来源、关键词、创建时间在内的关键属性进行比对和匹配,从而从统一格式文档库中筛选出包括类别、标题、来源、关键词、创建时间在内的关键属性中的任一个属性与待比对文档的类别、标题、来源、关键词、创建时间5个关键属性的任一个属性匹配的所有文档;
⑥对由步骤⑤筛选出来的文档作为参考文档逐个与待比对文档通过句子数据表中由步骤③得到的与各个文档相对应的条目信息进行比对,2个文档比对时以句子为单位,根据Nakatsu算法逐项比对句子从而计算句子之间的相似度,再根据各个句子的相似度利用算术平均法计算2个文档整体的相似度;
⑦将由步骤⑥得到的待比对文档与任一个参考文档的整体的相似度记录至相应的数据库中。
步骤③中,通过分词系统将各个文档的内容提取为句子集合的具体过程是,将每个文档进行分解形成文档分解树,每个文档所对应的文档分解树包括n(n≥1)个句子,句子以矩阵形式存放,每个句子由行号、列号、长度、内容、相似度信息构成,则第n个句子的矩阵由行号n、列号n、长度n、内容n、相似度n构成。
步骤⑥中,根据Nakatsu算法逐项比对句子从而计算句子之间的相似度的具体方法是:设待比对的两个句子是句子A和句子B,首先计算句子A和句子B的最长公共子序列,记作为名MaxLen(A,B),具体为设M=Len(A),N=Len(B),即M为字符串A的长度,N为字符串B的长度,为了不失一般性,假设M≤N;
设A=a1a2……aM,表示A是由a1a2……aM这M个字符组成;
B=b1b2……bN,表示B是由b1b2……bN这N个字符组成;
则MaxLen(i,j)= MaxLen (a1a2……ai,b1b2……bj),其中1≤i≤M,1≤j≤N;
用L(k,i)表示所有与字符串a1a2……ai有长度为k的LCS(Longest CommonSubsequence,最长公共子序列)字符串b1b2……bj中j的最小值,用公式表示就是:L(k,i)=Min{j} Where LCS(i,j)=k;
第一步,初始化数组LL()和P();
LL(0)=0
LL(i)=V 1≤i≤M
P(i)=V 1≤i≤M
此时,LL(0)表示L(0,0);LL(1)表示L(1,0);LL(2)表示L(2,1);……
第二步,依次计算第一条对角线上的元素,用临时变量T计算L(1,1);T=F(L(0,0),L(1,0))=F(LL(0),LL(1))。注:F表示取最小值运算,将T的值赋给LL(1)。此时LL(1)表示LL(1,1),LL(2)表示L(2,1);重复上面的计算,直到计算完本条对角线,如果是第k行的第一个不为V的值,将该值赋给P(k);
第一条对角线计算完之后,此时,LL(0)表示L(0,1);LL(1)表示L(1,1);LL(2)表示L(2,2);……;
如果,这条对角线不是解,重复第二步,计算下一条对角线,直到遇到解为止。不过要注意的是:第i条对角线只有m-i+1个元素,所以只计算到LL(m-i+1)。
如果某条对角线的某个元素是V的话,则这条对角线之后的元素都是V,就不需要计算了。
然后计算句子A和句子B之间编辑距离,用LD(A,B)表示,很显然,若LD(A,B)=0则表示句子A和句子B完全相同。
A=a1a2……aN,表示A是由a1a2……aN这N个字符组成,Len(A)=N;
B=b1b2……bM,表示B是由b1b2……bM这M个字符组成,Len(B)=M;
定义LD(i,j)=LD(a1a2……ai,b1b2……bj),其中0≤i≤N,0≤j≤M;
初始化LD矩阵,根据LD(N,M)=LD(A,B),LD(0,0)=0,LD(0,j)=j,LD(i,0)=i分别计算LD矩阵初始值;
计算LD矩阵其它行,根据公式若ai=bj,则LD(i,j)=LD(i-1,j-1),若ai≠bj,则LD(i,j)=Min(LD(i-1,j-1),LD(i-1,j),LD(i,j-1))+1,最后计算得到LD(A,B)值;
计算句子A和句子B的相似度SIM(A,B)= LCS(A,B)/(LD(A,B)+LCS(A,B))。
步骤②中,PDF格式的电子文档的转换方法是首先提取PDF 文档中各页的内容流,然后将提取到的内容流进行解密,再用Filter解码算法对解密后的内容流进行解码,最后从解码后的内容流中提取文本内容及其相关信息并存储为设定的统一格式的文档。
步骤①中,扫描设备优选扫描仪。
本发明具有积极的效果:(1)本发明的一种文挡录入并比对的方法能够将纸质文档或者各类型的电子文档录入文档库并统一格式从而方便管理和进行比对,提高了文档利用效率,节省文档比对时间,提升文档管理效率。
(2)本发明的一种文挡录入并比对的方法采用Nakatsu算法逐项比对句子从而计算句子之间的相似度,再根据各个句子的相似度利用算术平均法计算2个文档的整体的相似度,对于2个文档的相似度的计算较为精准,比对效果较好。
(3)本发明的一种文挡录入并比对的方法通过分词系统将各个文档的内容提取为句子集合,将每个文档进行分解形成文档分解树,每个文档所对应的文档分解树包括n(n≥1)个句子,句子以矩阵形式存放,每个句子由行号、列号、长度、内容、相似度信息构成,则第n个句子的矩阵由行号n、列号n、长度n、内容n、相似度n构成,通过分词系统分解形成的各个文档的文档树较为细致详细,从而提高了后续的比对过程的精度,提升文档管理效率。
附图说明
图1为本发明的一种文挡录入并比对的方法的流程框图;
图2为本发明的步骤③中的分词系统的具体过程示意图。
具体实施方式
(实施例1)
见图1,本实施例的一种文挡录入并比对的方法,包括如下步骤:
①判断需要录入的文档是否为纸制文档,如果为纸制文档则将需要录入的纸制文档按照先后次序叠放整齐后放置到扫描设备上,通过扫描设备将文档扫描成PDF格式的电子文档并存储到与扫描设备电连接的计算机的存储设备的原始格式文档库中,扫描设备优选扫描仪;
如果是包括PDF、Word或TXT在内的多种格式的电子文档,则直接存储到计算机的存储设备的原始格式文档库中;
②通过计算机对原始格式文档库中的各个电子文档转换成统一格式的文档并存储到计算机的存储设备的统一格式文档库中,可以根据需要自行设定转换后的文件格式,优选的文件格式为Word格式或TXT文本形式,如果原始的电子文档的文件格式与设定转换后的文件格式一致则直接从原始格式文档库拷贝至统一格式文档库,另外PDF格式的电子文档的转换方法是首先提取PDF 文档中各页的内容流,然后将提取到的内容流进行解密,再用Filter解码算法对解密后的内容流进行解码,最后从解码后的内容流中提取文本内容及其相关信息并存储为设定的统一格式的文档。
③对转换后统一格式成Word格式或TXT文本形式的各个电子文档的内容,通过分词系统将各个文档的内容提取为句子集合,并以与各个文档相对应的条目的形式存储到句子数据表中;分词系统是将一个汉字序列切分成一个一个单独的词,将连续的字序列按照一定的规范重新组合成词序列的过程,例如将“加大监管力度”通过分词系统分解为“加大”、“监管”和“力度”三个词;
见图2,通过分词系统将各个文档的内容提取为句子集合的具体过程是,将每个文档进行分解形成文档分解树,每个文档所对应的文档分解树包括n(n≥1)个句子,句子以矩阵形式存放,每个句子由行号、列号、长度、内容、相似度信息构成,则第n个句子的矩阵由行号n、列号n、长度n、内容n、相似度n构成。
④对转换后统一格式成Word格式或TXT文本形式的各个电子文档由人工手动对每个文档进行包括类别、标题、来源、关键词、创建时间在内的关键属性的标注,并以与各个文档相对应的条目的形式存储到句子数据表中。
⑤选择最新录入统一格式文档库的一个文档或者统一格式文档库内某个文档作为待比对文档与统一格式文档库的其他所有文档进行比对,首先通过句子数据表根据文档的包括类别、标题、来源、关键词、创建时间在内的关键属性进行比对和匹配,从而从统一格式文档库中筛选出包括类别、标题、来源、关键词、创建时间在内的关键属性中的任一个属性与待比对文档的类别、标题、来源、关键词、创建时间5个关键属性的任一个属性匹配的所有文档。
⑥对由步骤⑤筛选出来的文档作为参考文档逐个与待比对文档通过句子数据表中由步骤③得到的与各个文档相对应的条目信息进行比对,2个文档比对时以句子为单位,根据Nakatsu算法逐项比对句子从而计算句子之间的相似度,再根据各个句子的相似度利用算术平均法计算2个文档(任一个参考文档与待比对文档)整体的相似度。
根据Nakatsu算法逐项比对句子从而计算句子之间的相似度的具体方法是:设待比对的两个句子是句子A和句子B,首先计算句子A和句子B的最长公共子序列,记作为名MaxLen(A,B),具体为设M=Len(A),N=Len(B),即M为字符串A的长度,N为字符串B的长度,为了不失一般性,假设M≤N;
设A=a1a2……aM,表示A是由a1a2……aM这M个字符组成;
B=b1b2……bN,表示B是由b1b2……bN这N个字符组成;
则MaxLen(i,j)= MaxLen (a1a2……ai,b1b2……bj),其中1≤i≤M,1≤j≤N;
用L(k,i)表示所有与字符串a1a2……ai有长度为k的LCS(Longest CommonSubsequence,最长公共子序列)字符串b1b2……bj中j的最小值,用公式表示就是:L(k,i)=Min{j} Where LCS(i,j)=k;
第一步,初始化数组LL()和P();
LL(0)=0
LL(i)=V 1≤i≤M
P(i)=V 1≤i≤M
此时,LL(0)表示L(0,0);LL(1)表示L(1,0);LL(2)表示L(2,1);……
第二步,依次计算第一条对角线上的元素,用临时变量T计算L(1,1);T=F(L(0,0),L(1,0))=F(LL(0),LL(1))。注:F表示取最小值运算,将T的值赋给LL(1)。此时LL(1)表示LL(1,1),LL(2)表示L(2,1);重复上面的计算,直到计算完本条对角线,如果是第k行的第一个不为V的值,将该值赋给P(k);
第一条对角线计算完之后,此时,LL(0)表示L(0,1);LL(1)表示L(1,1);LL(2)表示L(2,2);……;
如果,这条对角线不是解,重复第二步,计算下一条对角线,直到遇到解为止。不过要注意的是:第i条对角线只有m-i+1个元素,所以只计算到LL(m-i+1)。
如果某条对角线的某个元素是V的话,则这条对角线之后的元素都是V,就不需要计算了。
然后计算句子A和句子B之间编辑距离,用LD(A,B)表示,很显然,若LD(A,B)=0则表示句子A和句子B完全相同。
A=a1a2……aN,表示A是由a1a2……aN这N个字符组成,Len(A)=N;
B=b1b2……bM,表示B是由b1b2……bM这M个字符组成,Len(B)=M;
定义LD(i,j)=LD(a1a2……ai,b1b2……bj),其中0≤i≤N,0≤j≤M;
初始化LD矩阵,根据LD(N,M)=LD(A,B),LD(0,0)=0,LD(0,j)=j,LD(i,0)=i分别计算LD矩阵初始值;
计算LD矩阵其它行,根据公式若ai=bj,则LD(i,j)=LD(i-1,j-1),若ai≠bj,则LD(i,j)=Min(LD(i-1,j-1),LD(i-1,j),LD(i,j-1))+1,最后计算得到LD(A,B)值;
计算句子A和句子B的相似度SIM(A,B)= LCS(A,B)/(LD(A,B)+LCS(A,B))。
⑦将由步骤⑥得到的待比对文档与任一个参考文档的整体的相似度记录至相应的数据库中。

Claims (2)

1.一种文挡录入并比对的方法,包括如下步骤:
①判断需要录入的文档是否为纸制文档,如果为纸制文档则将需要录入的纸制文档按照先后次序叠放整齐后放置到扫描设备上,通过扫描设备将文档扫描成PDF格式的电子文档并存储到与扫描设备电连接的计算机的存储设备的原始格式文档库中;扫描设备优选扫描仪;
如果是包括PDF、Word或TXT在内的多种格式的电子文档,则直接存储到计算机的存储设备的原始格式文档库中;
②通过计算机对原始格式文档库中的各个电子文档转换成统一格式的文档并存储到计算机的存储设备的统一格式文档库中,可以根据需要自行设定转换后的文件格式,优选的文件格式为Word格式或TXT文本形式,如果原始的电子文档的文件格式与设定转换后的文件格式一致则直接从原始格式文档库拷贝至统一格式文档库;
③对转换后统一格式成Word格式或TXT文本形式的各个电子文档的内容,通过分词系统将各个文档的内容提取为句子集合,并以与各个文档相对应的条目的形式存储到句子数据表中;通过分词系统将各个文档的内容提取为句子集合的具体过程是,将每个文档进行分解形成文档分解树,每个文档所对应的文档分解树包括n(n≥1)个句子,句子以矩阵形式存放,每个句子由行号、列号、长度、内容、相似度信息构成,则第n个句子的矩阵由行号n、列号n、长度n、内容n、相似度n构成;
④对转换后统一格式成Word格式或TXT文本形式的各个电子文档进行包括类别、标题、来源、关键词、创建时间在内的关键属性的标注,并以与各个文档相对应的条目的形式存储到句子数据表中;
⑤选择最新录入统一格式文档库的一个文档或者统一格式文档库内某个文档作为待比对文档与统一格式文档库的其他所有文档进行比对,首先通过句子数据表根据文档的包括类别、标题、来源、关键词、创建时间在内的关键属性进行比对和匹配,从而从统一格式文档库中筛选出包括类别、标题、来源、关键词、创建时间在内的关键属性中的任一个属性与待比对文档的类别、标题、来源、关键词、创建时间5个关键属性的任一个属性匹配的所有文档;
⑥对由步骤⑤筛选出来的文档作为参考文档逐个与待比对文档通过句子数据表中由步骤③得到的与各个文档相对应的条目信息进行比对,2个文档比对时以句子为单位,根据Nakatsu算法逐项比对句子从而计算句子之间的相似度,再根据各个句子的相似度利用算术平均法计算2个文档整体的相似度;
⑦将由步骤⑥得到的待比对文档与任一个参考文档的整体的相似度记录至相应的数据库中。
2.根据权利要求2所述的文档录入并比对的方法,其特征在于:步骤⑥中,根据Nakatsu算法逐项比对句子从而计算句子之间的相似度的具体方法是:设待比对的两个句子是句子A和句子B,首先计算句子A和句子B的最长公共子序列,记作为名MaxLen(A,B),具体为设M=Len(A),N=Len(B),即M为字符串A的长度,N为字符串B的长度,为了不失一般性,假设M≤N;
设A=a1a2……aM,表示A是由a1a2……aM这M个字符组成;
B=b1b2……bN,表示B是由b1b2……bN这N个字符组成;
则MaxLen(i,j)= MaxLen (a1a2……ai,b1b2……bj),其中1≤i≤M,1≤j≤N;
用L(k,i)表示所有与字符串a1a2……ai有长度为k的LCS(Longest CommonSubsequence,最长公共子序列)字符串b1b2……bj中j的最小值,用公式表示就是:L(k,i)=Min{j} Where LCS(i,j)=k;
第一步,初始化数组LL()和P();
LL(0)=0
LL(i)=V 1≤i≤M
P(i)=V 1≤i≤M
此时,LL(0)表示L(0,0);LL(1)表示L(1,0);LL(2)表示L(2,1);……
第二步,依次计算第一条对角线上的元素,用临时变量T计算L(1,1);T=F(L(0,0),L(1,0))=F(LL(0),LL(1));
F表示取最小值运算,将T的值赋给LL(1);
此时LL(1)表示LL(1,1),LL(2)表示L(2,1);重复上面的计算,直到计算完本条对角线,如果是第k行的第一个不为V的值,将该值赋给P(k);
第一条对角线计算完之后,此时,LL(0)表示L(0,1);LL(1)表示L(1,1);LL(2)表示L(2,2);……;
如果,这条对角线不是解,重复第二步,计算下一条对角线,直到遇到解为止;
不过要注意的是:第i条对角线只有m-i+1个元素,所以只计算到LL(m-i+1);
如果某条对角线的某个元素是V的话,则这条对角线之后的元素都是V,就不需要计算了;
然后计算句子A和句子B之间编辑距离,用LD(A,B)表示,很显然,若LD(A,B)=0则表示句子A和句子B完全相同;
A=a1a2……aN,表示A是由a1a2……aN这N个字符组成,Len(A)=N;
B=b1b2……bM,表示B是由b1b2……bM这M个字符组成,Len(B)=M;
定义LD(i,j)=LD(a1a2……ai,b1b2……bj),其中0≤i≤N,0≤j≤M;
初始化LD矩阵,根据LD(N,M)=LD(A,B),LD(0,0)=0,LD(0,j)=j,LD(i,0)=i分别计算LD矩阵初始值;
计算LD矩阵其它行,根据公式若ai=bj,则LD(i,j)=LD(i-1,j-1),若ai≠bj,则LD(i,j)=Min(LD(i-1,j-1),LD(i-1,j),LD(i,j-1))+1,最后计算得到LD(A,B)值;
计算句子A和句子B的相似度SIM(A,B)= LCS(A,B)/(LD(A,B)+LCS(A,B))。
CN201810549597.3A 2013-12-18 2013-12-18 文挡录入并比对的方法 Pending CN108804624A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810549597.3A CN108804624A (zh) 2013-12-18 2013-12-18 文挡录入并比对的方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201310696955.0A CN103823838B (zh) 2013-12-18 2013-12-18 一种多格式文档录入并比对的方法
CN201810549597.3A CN108804624A (zh) 2013-12-18 2013-12-18 文挡录入并比对的方法

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201310696955.0A Division CN103823838B (zh) 2013-12-18 2013-12-18 一种多格式文档录入并比对的方法

Publications (1)

Publication Number Publication Date
CN108804624A true CN108804624A (zh) 2018-11-13

Family

ID=50758902

Family Applications (4)

Application Number Title Priority Date Filing Date
CN201810549599.2A Pending CN108984593A (zh) 2013-12-18 2013-12-18 多格式文挡录入并比对的方法
CN201810549597.3A Pending CN108804624A (zh) 2013-12-18 2013-12-18 文挡录入并比对的方法
CN201310696955.0A Active CN103823838B (zh) 2013-12-18 2013-12-18 一种多格式文档录入并比对的方法
CN201810549598.8A Pending CN108959203A (zh) 2013-12-18 2013-12-18 一种文挡录入并比对的方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201810549599.2A Pending CN108984593A (zh) 2013-12-18 2013-12-18 多格式文挡录入并比对的方法

Family Applications After (2)

Application Number Title Priority Date Filing Date
CN201310696955.0A Active CN103823838B (zh) 2013-12-18 2013-12-18 一种多格式文档录入并比对的方法
CN201810549598.8A Pending CN108959203A (zh) 2013-12-18 2013-12-18 一种文挡录入并比对的方法

Country Status (1)

Country Link
CN (4) CN108984593A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271641A (zh) * 2018-11-20 2019-01-25 武汉斗鱼网络科技有限公司 一种文本相似度计算方法、装置及电子设备
CN111382562A (zh) * 2020-03-05 2020-07-07 百度在线网络技术(北京)有限公司 文本相似度的确定方法、装置、电子设备及存储介质
CN111563372A (zh) * 2020-05-11 2020-08-21 世纪金榜集团股份有限公司 一种基于教辅书籍出版的排版文档内容自查重方法
CN112948574A (zh) * 2019-12-11 2021-06-11 上海交通大学 批量文件上传分类的系统及方法

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105701256A (zh) * 2016-03-23 2016-06-22 南京南瑞继保电气有限公司 一种通讯点表文件比较方法
CN106033475A (zh) * 2016-05-18 2016-10-19 苏州奖多多科技有限公司 一种信息匹配方法、装置及电子设备
CN105912883A (zh) * 2016-06-30 2016-08-31 广州市皓轩软件科技有限公司 一种针对icd起搏器的结构化数据提取方法
CN107169011B (zh) * 2017-03-31 2021-06-11 百度在线网络技术(北京)有限公司 基于人工智能的网页原创性识别方法、装置及存储介质
CN107368472B (zh) * 2017-07-26 2021-01-05 成都科来软件有限公司 一种可迭代优化的文档分析结果的保存方法
CN109062872B (zh) * 2018-07-13 2023-04-18 上海溱云科技有限公司 一种对不同格式报关文件进行统一处理的方法
CN110135264A (zh) * 2019-04-16 2019-08-16 深圳壹账通智能科技有限公司 数据录入方法、装置、计算机设备以及存储介质
CN111026718A (zh) * 2019-12-11 2020-04-17 广州地铁集团有限公司 轨道交通工程造价成果excel文件解析的技术方法
CN110955638A (zh) * 2019-12-17 2020-04-03 江苏扬子易联智能软件有限公司 一种文件对比展示方法和系统
CN112487781A (zh) * 2020-12-10 2021-03-12 成都海光微电子技术有限公司 文件比对方法、装置、存储介质及设备
CN114939532B (zh) * 2022-07-11 2022-11-08 河北汇金集团股份有限公司 乱序文档的分拣方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1687926A (zh) * 2005-04-18 2005-10-26 福州大学 一种基于xml的pdf文档信息抽取系统的方法
CN101630321A (zh) * 2009-08-26 2010-01-20 中山大学 一种基于数据挖掘的在线文章筛选方法
CN101763343A (zh) * 2008-12-23 2010-06-30 上海晨鸟信息科技有限公司 一种支持格式比对和剽窃检查的文档编辑器原理与方法
CN101957809A (zh) * 2010-10-14 2011-01-26 传神联合(北京)信息技术有限公司 一种防抄袭方法
CN102622338A (zh) * 2012-02-24 2012-08-01 北京工业大学 一种短文本间语义距离的计算机辅助计算方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4038717B2 (ja) * 2002-09-13 2008-01-30 富士ゼロックス株式会社 テキスト文比較装置
CN100412869C (zh) * 2006-04-13 2008-08-20 北大方正集团有限公司 一种改进的基于文档结构的文档相似性度量方法
CN102004779B (zh) * 2010-11-19 2012-11-28 百度在线网络技术(北京)有限公司 一种文档共享平台的文档处理方法及系统
CN102799647B (zh) * 2012-06-30 2015-01-21 华为技术有限公司 网页去重方法和设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1687926A (zh) * 2005-04-18 2005-10-26 福州大学 一种基于xml的pdf文档信息抽取系统的方法
CN101763343A (zh) * 2008-12-23 2010-06-30 上海晨鸟信息科技有限公司 一种支持格式比对和剽窃检查的文档编辑器原理与方法
CN101630321A (zh) * 2009-08-26 2010-01-20 中山大学 一种基于数据挖掘的在线文章筛选方法
CN101957809A (zh) * 2010-10-14 2011-01-26 传神联合(北京)信息技术有限公司 一种防抄袭方法
CN102622338A (zh) * 2012-02-24 2012-08-01 北京工业大学 一种短文本间语义距离的计算机辅助计算方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
WEIXIN_34417814: "文本比较算法Ⅷ——再议Nakatsu算法", 《HTTPS://BLOG.CSDN.NET/WEIXIN_34417814/ARTICLE/DETAILS/85478665》 *
王森,王宇: "基于文本结构树的论文复制检测算法", 《现代图书情报技术》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271641A (zh) * 2018-11-20 2019-01-25 武汉斗鱼网络科技有限公司 一种文本相似度计算方法、装置及电子设备
CN109271641B (zh) * 2018-11-20 2023-09-08 广西三方大供应链技术服务有限公司 一种文本相似度计算方法、装置及电子设备
CN112948574A (zh) * 2019-12-11 2021-06-11 上海交通大学 批量文件上传分类的系统及方法
CN111382562A (zh) * 2020-03-05 2020-07-07 百度在线网络技术(北京)有限公司 文本相似度的确定方法、装置、电子设备及存储介质
CN111382562B (zh) * 2020-03-05 2024-03-01 百度在线网络技术(北京)有限公司 文本相似度的确定方法、装置、电子设备及存储介质
CN111563372A (zh) * 2020-05-11 2020-08-21 世纪金榜集团股份有限公司 一种基于教辅书籍出版的排版文档内容自查重方法
CN111563372B (zh) * 2020-05-11 2021-04-13 世纪金榜集团股份有限公司 一种基于教辅书籍出版的排版文档内容自查重方法

Also Published As

Publication number Publication date
CN108959203A (zh) 2018-12-07
CN103823838B (zh) 2018-07-20
CN103823838A (zh) 2014-05-28
CN108984593A (zh) 2018-12-11

Similar Documents

Publication Publication Date Title
CN103823838B (zh) 一种多格式文档录入并比对的方法
US20220327137A1 (en) Modifying field definitions to include post-processing instructions
US9495347B2 (en) Systems and methods for extracting table information from documents
WO2019227585A1 (zh) 基于索引的简历数据处理方法、装置、设备及存储介质
WO2019227584A1 (zh) 简历数据信息解析处理方法、装置、设备及存储介质
US10146862B2 (en) Context-based metadata generation and automatic annotation of electronic media in a computer network
US10579661B2 (en) System and method for machine learning and classifying data
US8315997B1 (en) Automatic identification of document versions
US9268749B2 (en) Incremental computation of repeats
WO2017074174A1 (en) A system and method for processing big data using electronic document and electronic file-based system that operates on rdbms
US8515684B2 (en) System and method for identifying similar molecules
US20120197950A1 (en) Sentiment cube
US9959326B2 (en) Annotating schema elements based on associating data instances with knowledge base entities
US20130086035A1 (en) Method and apparatus for generating extended page snippet of search result
US20140195532A1 (en) Collecting digital assets to form a searchable repository
Zu et al. Resume information extraction with a novel text block segmentation algorithm
CN108846031B (zh) 一种面向电力行业的项目相似性对比方法
CN105404677A (zh) 一种基于树形结构的检索方法
US20130024403A1 (en) Automatically induced class based shrinkage features for text classification
Lin et al. Measuring tree similarity for natural language processing based information retrieval
CN105426490A (zh) 一种基于树形结构的索引方法
CN111091003A (zh) 一种基于知识图谱查询的并行抽取方法
CN107451168A (zh) 基于词汇统计的档案分类系统及方法
Tian A mathematical indexing method based on the hierarchical features of operators in formulae
TWI534640B (zh) Chinese network information monitoring and analysis system and its method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181113