CN108804624A - 文挡录入并比对的方法 - Google Patents
文挡录入并比对的方法 Download PDFInfo
- Publication number
- CN108804624A CN108804624A CN201810549597.3A CN201810549597A CN108804624A CN 108804624 A CN108804624 A CN 108804624A CN 201810549597 A CN201810549597 A CN 201810549597A CN 108804624 A CN108804624 A CN 108804624A
- Authority
- CN
- China
- Prior art keywords
- document
- sentence
- format
- library
- file
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000005192 partition Methods 0.000 claims abstract description 9
- 238000006243 chemical reaction Methods 0.000 claims description 10
- 238000000354 decomposition reaction Methods 0.000 claims description 8
- 230000014509 gene expression Effects 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 description 5
- 239000000203 mixture Substances 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种文挡录入并比对的方法,首先判断待录入文档是否为纸质文档,如果是纸质文档则通过前端设备将纸制文件自动扫描录入原始格式文档库中,如果是电子文档则直接录入原始格式文档库中,再将原始格式文档库中的所有文档转换为统一格式的文档,然后对文档进行关键属性标注和基础管理,最后通过Nakastu算法和分词系统进行基于内容的文档比对,并将根据比对相似程度进行文档关联且录入数据库中。本发明能将各类型和格式的文档自动录入、统一分类、智能管理和与已有文件的比对,提高文档利用效率,节省文档比对时间,提升文档管理效率。
Description
本申请是申请号为:201310696955.0,发明创造名称为《一种多格式文档录入并比
对的方法》,申请日为:2013年12月18日的发明专利申请的分案申请。
技术领域
本发明涉及文档处理管理领域,更具体的涉及一种将电子文档或纸质文档录入并进行比对的方法。
背景技术
目前典型的文档比对技术应用有:(1)信息智能检索:搜索引擎对用户输入关键字的反应是列出所有与该关键字相匹配的信息。(2)自动问答系统:在这种系统中,问题是多种多样,且非常巨大的,有些问题是非常相似的,如果用人工来回答,将耗费大量的时间和人力,如果在这种系统中应用文本相似度技术,将相似度很高的问题归为一类,使系统对这类问题自动做出答复,将节省大量的时间。(3)文本查重:在某些领域,考虑到隐私性和独创性,要求文本不能重复出现,那么应用文本相似度技术,对这类文本进行相似度的计算,就可以看出哪些文本多次出现。由上述,文档比对技术越来越多地应用在各个领域。
目前,对文档的比对分析管理研究主要集中在文本相似度计算,对于文本相似度计算侧重在字符串相似度,已经形成比较成熟的聚类算法,但是这些算法在比较的过程中没有考虑文本或者字符的语义,计算出来的相似度参考度不高,在实际应用过程中给用户提供参考价值不高。虽然通过分词来计算文本相似度,即通过中文分词算法按照语义角度进行分词,然后根据分词和比对算法结合计算文本之间的相似度,其重点是从词语级来比对文档之间相似度。但这些文档比对支持的文档都是单一的TXT文本或者Word文件,对于多格式文档的比对无法直接进行,需要事先由人工进行格式转换后才能比较,大大影响工作效率。
发明内容
本发明要解决的技术问题是提供一种可以对多种格式的文档录入并进行比对的方法。
实现本发明目的的技术方案是提供一种文挡录入并比对的方法,包括如下步骤:
①判断需要录入的文档是否为纸制文档,如果为纸制文档则将需要录入的纸制文档按照先后次序叠放整齐后放置到扫描设备上,通过扫描设备将文档扫描成PDF格式的电子文档并存储到与扫描设备电连接的计算机的存储设备的原始格式文档库中;
如果是包括PDF、Word或TXT在内的多种格式的电子文档,则直接存储到计算机的存储设备的原始格式文档库中;
②通过计算机对原始格式文档库中的各个电子文档转换成统一格式的文档并存储到计算机的存储设备的统一格式文档库中,可以根据需要自行设定转换后的文件格式,优选的文件格式为Word格式或TXT文本形式,如果原始的电子文档的文件格式与设定转换后的文件格式一致则直接从原始格式文档库拷贝至统一格式文档库;
③对转换后统一格式成Word格式或TXT文本形式的各个电子文档的内容,通过分词系统将各个文档的内容提取为句子集合,并以与各个文档相对应的条目的形式存储到句子数据表中;
④对转换后统一格式成Word格式或TXT文本形式的各个电子文档进行包括类别、标题、来源、关键词、创建时间在内的关键属性的标注,并以与各个文档相对应的条目的形式存储到句子数据表中;
⑤选择最新录入统一格式文档库的一个文档或者统一格式文档库内某个文档作为待比对文档与统一格式文档库的其他所有文档进行比对,首先通过句子数据表根据文档的包括类别、标题、来源、关键词、创建时间在内的关键属性进行比对和匹配,从而从统一格式文档库中筛选出包括类别、标题、来源、关键词、创建时间在内的关键属性中的任一个属性与待比对文档的类别、标题、来源、关键词、创建时间5个关键属性的任一个属性匹配的所有文档;
⑥对由步骤⑤筛选出来的文档作为参考文档逐个与待比对文档通过句子数据表中由步骤③得到的与各个文档相对应的条目信息进行比对,2个文档比对时以句子为单位,根据Nakatsu算法逐项比对句子从而计算句子之间的相似度,再根据各个句子的相似度利用算术平均法计算2个文档整体的相似度;
⑦将由步骤⑥得到的待比对文档与任一个参考文档的整体的相似度记录至相应的数据库中。
步骤③中,通过分词系统将各个文档的内容提取为句子集合的具体过程是,将每个文档进行分解形成文档分解树,每个文档所对应的文档分解树包括n(n≥1)个句子,句子以矩阵形式存放,每个句子由行号、列号、长度、内容、相似度信息构成,则第n个句子的矩阵由行号n、列号n、长度n、内容n、相似度n构成。
步骤⑥中,根据Nakatsu算法逐项比对句子从而计算句子之间的相似度的具体方法是:设待比对的两个句子是句子A和句子B,首先计算句子A和句子B的最长公共子序列,记作为名MaxLen(A,B),具体为设M=Len(A),N=Len(B),即M为字符串A的长度,N为字符串B的长度,为了不失一般性,假设M≤N;
设A=a1a2……aM,表示A是由a1a2……aM这M个字符组成;
B=b1b2……bN,表示B是由b1b2……bN这N个字符组成;
则MaxLen(i,j)= MaxLen (a1a2……ai,b1b2……bj),其中1≤i≤M,1≤j≤N;
用L(k,i)表示所有与字符串a1a2……ai有长度为k的LCS(Longest CommonSubsequence,最长公共子序列)字符串b1b2……bj中j的最小值,用公式表示就是:L(k,i)=Min{j} Where LCS(i,j)=k;
第一步,初始化数组LL()和P();
LL(0)=0
LL(i)=V 1≤i≤M
P(i)=V 1≤i≤M
此时,LL(0)表示L(0,0);LL(1)表示L(1,0);LL(2)表示L(2,1);……
第二步,依次计算第一条对角线上的元素,用临时变量T计算L(1,1);T=F(L(0,0),L(1,0))=F(LL(0),LL(1))。注:F表示取最小值运算,将T的值赋给LL(1)。此时LL(1)表示LL(1,1),LL(2)表示L(2,1);重复上面的计算,直到计算完本条对角线,如果是第k行的第一个不为V的值,将该值赋给P(k);
第一条对角线计算完之后,此时,LL(0)表示L(0,1);LL(1)表示L(1,1);LL(2)表示L(2,2);……;
如果,这条对角线不是解,重复第二步,计算下一条对角线,直到遇到解为止。不过要注意的是:第i条对角线只有m-i+1个元素,所以只计算到LL(m-i+1)。
如果某条对角线的某个元素是V的话,则这条对角线之后的元素都是V,就不需要计算了。
然后计算句子A和句子B之间编辑距离,用LD(A,B)表示,很显然,若LD(A,B)=0则表示句子A和句子B完全相同。
A=a1a2……aN,表示A是由a1a2……aN这N个字符组成,Len(A)=N;
B=b1b2……bM,表示B是由b1b2……bM这M个字符组成,Len(B)=M;
定义LD(i,j)=LD(a1a2……ai,b1b2……bj),其中0≤i≤N,0≤j≤M;
初始化LD矩阵,根据LD(N,M)=LD(A,B),LD(0,0)=0,LD(0,j)=j,LD(i,0)=i分别计算LD矩阵初始值;
计算LD矩阵其它行,根据公式若ai=bj,则LD(i,j)=LD(i-1,j-1),若ai≠bj,则LD(i,j)=Min(LD(i-1,j-1),LD(i-1,j),LD(i,j-1))+1,最后计算得到LD(A,B)值;
计算句子A和句子B的相似度SIM(A,B)= LCS(A,B)/(LD(A,B)+LCS(A,B))。
步骤②中,PDF格式的电子文档的转换方法是首先提取PDF 文档中各页的内容流,然后将提取到的内容流进行解密,再用Filter解码算法对解密后的内容流进行解码,最后从解码后的内容流中提取文本内容及其相关信息并存储为设定的统一格式的文档。
步骤①中,扫描设备优选扫描仪。
本发明具有积极的效果:(1)本发明的一种文挡录入并比对的方法能够将纸质文档或者各类型的电子文档录入文档库并统一格式从而方便管理和进行比对,提高了文档利用效率,节省文档比对时间,提升文档管理效率。
(2)本发明的一种文挡录入并比对的方法采用Nakatsu算法逐项比对句子从而计算句子之间的相似度,再根据各个句子的相似度利用算术平均法计算2个文档的整体的相似度,对于2个文档的相似度的计算较为精准,比对效果较好。
(3)本发明的一种文挡录入并比对的方法通过分词系统将各个文档的内容提取为句子集合,将每个文档进行分解形成文档分解树,每个文档所对应的文档分解树包括n(n≥1)个句子,句子以矩阵形式存放,每个句子由行号、列号、长度、内容、相似度信息构成,则第n个句子的矩阵由行号n、列号n、长度n、内容n、相似度n构成,通过分词系统分解形成的各个文档的文档树较为细致详细,从而提高了后续的比对过程的精度,提升文档管理效率。
附图说明
图1为本发明的一种文挡录入并比对的方法的流程框图;
图2为本发明的步骤③中的分词系统的具体过程示意图。
具体实施方式
(实施例1)
见图1,本实施例的一种文挡录入并比对的方法,包括如下步骤:
①判断需要录入的文档是否为纸制文档,如果为纸制文档则将需要录入的纸制文档按照先后次序叠放整齐后放置到扫描设备上,通过扫描设备将文档扫描成PDF格式的电子文档并存储到与扫描设备电连接的计算机的存储设备的原始格式文档库中,扫描设备优选扫描仪;
如果是包括PDF、Word或TXT在内的多种格式的电子文档,则直接存储到计算机的存储设备的原始格式文档库中;
②通过计算机对原始格式文档库中的各个电子文档转换成统一格式的文档并存储到计算机的存储设备的统一格式文档库中,可以根据需要自行设定转换后的文件格式,优选的文件格式为Word格式或TXT文本形式,如果原始的电子文档的文件格式与设定转换后的文件格式一致则直接从原始格式文档库拷贝至统一格式文档库,另外PDF格式的电子文档的转换方法是首先提取PDF 文档中各页的内容流,然后将提取到的内容流进行解密,再用Filter解码算法对解密后的内容流进行解码,最后从解码后的内容流中提取文本内容及其相关信息并存储为设定的统一格式的文档。
③对转换后统一格式成Word格式或TXT文本形式的各个电子文档的内容,通过分词系统将各个文档的内容提取为句子集合,并以与各个文档相对应的条目的形式存储到句子数据表中;分词系统是将一个汉字序列切分成一个一个单独的词,将连续的字序列按照一定的规范重新组合成词序列的过程,例如将“加大监管力度”通过分词系统分解为“加大”、“监管”和“力度”三个词;
见图2,通过分词系统将各个文档的内容提取为句子集合的具体过程是,将每个文档进行分解形成文档分解树,每个文档所对应的文档分解树包括n(n≥1)个句子,句子以矩阵形式存放,每个句子由行号、列号、长度、内容、相似度信息构成,则第n个句子的矩阵由行号n、列号n、长度n、内容n、相似度n构成。
④对转换后统一格式成Word格式或TXT文本形式的各个电子文档由人工手动对每个文档进行包括类别、标题、来源、关键词、创建时间在内的关键属性的标注,并以与各个文档相对应的条目的形式存储到句子数据表中。
⑤选择最新录入统一格式文档库的一个文档或者统一格式文档库内某个文档作为待比对文档与统一格式文档库的其他所有文档进行比对,首先通过句子数据表根据文档的包括类别、标题、来源、关键词、创建时间在内的关键属性进行比对和匹配,从而从统一格式文档库中筛选出包括类别、标题、来源、关键词、创建时间在内的关键属性中的任一个属性与待比对文档的类别、标题、来源、关键词、创建时间5个关键属性的任一个属性匹配的所有文档。
⑥对由步骤⑤筛选出来的文档作为参考文档逐个与待比对文档通过句子数据表中由步骤③得到的与各个文档相对应的条目信息进行比对,2个文档比对时以句子为单位,根据Nakatsu算法逐项比对句子从而计算句子之间的相似度,再根据各个句子的相似度利用算术平均法计算2个文档(任一个参考文档与待比对文档)整体的相似度。
根据Nakatsu算法逐项比对句子从而计算句子之间的相似度的具体方法是:设待比对的两个句子是句子A和句子B,首先计算句子A和句子B的最长公共子序列,记作为名MaxLen(A,B),具体为设M=Len(A),N=Len(B),即M为字符串A的长度,N为字符串B的长度,为了不失一般性,假设M≤N;
设A=a1a2……aM,表示A是由a1a2……aM这M个字符组成;
B=b1b2……bN,表示B是由b1b2……bN这N个字符组成;
则MaxLen(i,j)= MaxLen (a1a2……ai,b1b2……bj),其中1≤i≤M,1≤j≤N;
用L(k,i)表示所有与字符串a1a2……ai有长度为k的LCS(Longest CommonSubsequence,最长公共子序列)字符串b1b2……bj中j的最小值,用公式表示就是:L(k,i)=Min{j} Where LCS(i,j)=k;
第一步,初始化数组LL()和P();
LL(0)=0
LL(i)=V 1≤i≤M
P(i)=V 1≤i≤M
此时,LL(0)表示L(0,0);LL(1)表示L(1,0);LL(2)表示L(2,1);……
第二步,依次计算第一条对角线上的元素,用临时变量T计算L(1,1);T=F(L(0,0),L(1,0))=F(LL(0),LL(1))。注:F表示取最小值运算,将T的值赋给LL(1)。此时LL(1)表示LL(1,1),LL(2)表示L(2,1);重复上面的计算,直到计算完本条对角线,如果是第k行的第一个不为V的值,将该值赋给P(k);
第一条对角线计算完之后,此时,LL(0)表示L(0,1);LL(1)表示L(1,1);LL(2)表示L(2,2);……;
如果,这条对角线不是解,重复第二步,计算下一条对角线,直到遇到解为止。不过要注意的是:第i条对角线只有m-i+1个元素,所以只计算到LL(m-i+1)。
如果某条对角线的某个元素是V的话,则这条对角线之后的元素都是V,就不需要计算了。
然后计算句子A和句子B之间编辑距离,用LD(A,B)表示,很显然,若LD(A,B)=0则表示句子A和句子B完全相同。
A=a1a2……aN,表示A是由a1a2……aN这N个字符组成,Len(A)=N;
B=b1b2……bM,表示B是由b1b2……bM这M个字符组成,Len(B)=M;
定义LD(i,j)=LD(a1a2……ai,b1b2……bj),其中0≤i≤N,0≤j≤M;
初始化LD矩阵,根据LD(N,M)=LD(A,B),LD(0,0)=0,LD(0,j)=j,LD(i,0)=i分别计算LD矩阵初始值;
计算LD矩阵其它行,根据公式若ai=bj,则LD(i,j)=LD(i-1,j-1),若ai≠bj,则LD(i,j)=Min(LD(i-1,j-1),LD(i-1,j),LD(i,j-1))+1,最后计算得到LD(A,B)值;
计算句子A和句子B的相似度SIM(A,B)= LCS(A,B)/(LD(A,B)+LCS(A,B))。
⑦将由步骤⑥得到的待比对文档与任一个参考文档的整体的相似度记录至相应的数据库中。
Claims (2)
1.一种文挡录入并比对的方法,包括如下步骤:
①判断需要录入的文档是否为纸制文档,如果为纸制文档则将需要录入的纸制文档按照先后次序叠放整齐后放置到扫描设备上,通过扫描设备将文档扫描成PDF格式的电子文档并存储到与扫描设备电连接的计算机的存储设备的原始格式文档库中;扫描设备优选扫描仪;
如果是包括PDF、Word或TXT在内的多种格式的电子文档,则直接存储到计算机的存储设备的原始格式文档库中;
②通过计算机对原始格式文档库中的各个电子文档转换成统一格式的文档并存储到计算机的存储设备的统一格式文档库中,可以根据需要自行设定转换后的文件格式,优选的文件格式为Word格式或TXT文本形式,如果原始的电子文档的文件格式与设定转换后的文件格式一致则直接从原始格式文档库拷贝至统一格式文档库;
③对转换后统一格式成Word格式或TXT文本形式的各个电子文档的内容,通过分词系统将各个文档的内容提取为句子集合,并以与各个文档相对应的条目的形式存储到句子数据表中;通过分词系统将各个文档的内容提取为句子集合的具体过程是,将每个文档进行分解形成文档分解树,每个文档所对应的文档分解树包括n(n≥1)个句子,句子以矩阵形式存放,每个句子由行号、列号、长度、内容、相似度信息构成,则第n个句子的矩阵由行号n、列号n、长度n、内容n、相似度n构成;
④对转换后统一格式成Word格式或TXT文本形式的各个电子文档进行包括类别、标题、来源、关键词、创建时间在内的关键属性的标注,并以与各个文档相对应的条目的形式存储到句子数据表中;
⑤选择最新录入统一格式文档库的一个文档或者统一格式文档库内某个文档作为待比对文档与统一格式文档库的其他所有文档进行比对,首先通过句子数据表根据文档的包括类别、标题、来源、关键词、创建时间在内的关键属性进行比对和匹配,从而从统一格式文档库中筛选出包括类别、标题、来源、关键词、创建时间在内的关键属性中的任一个属性与待比对文档的类别、标题、来源、关键词、创建时间5个关键属性的任一个属性匹配的所有文档;
⑥对由步骤⑤筛选出来的文档作为参考文档逐个与待比对文档通过句子数据表中由步骤③得到的与各个文档相对应的条目信息进行比对,2个文档比对时以句子为单位,根据Nakatsu算法逐项比对句子从而计算句子之间的相似度,再根据各个句子的相似度利用算术平均法计算2个文档整体的相似度;
⑦将由步骤⑥得到的待比对文档与任一个参考文档的整体的相似度记录至相应的数据库中。
2.根据权利要求2所述的文档录入并比对的方法,其特征在于:步骤⑥中,根据Nakatsu算法逐项比对句子从而计算句子之间的相似度的具体方法是:设待比对的两个句子是句子A和句子B,首先计算句子A和句子B的最长公共子序列,记作为名MaxLen(A,B),具体为设M=Len(A),N=Len(B),即M为字符串A的长度,N为字符串B的长度,为了不失一般性,假设M≤N;
设A=a1a2……aM,表示A是由a1a2……aM这M个字符组成;
B=b1b2……bN,表示B是由b1b2……bN这N个字符组成;
则MaxLen(i,j)= MaxLen (a1a2……ai,b1b2……bj),其中1≤i≤M,1≤j≤N;
用L(k,i)表示所有与字符串a1a2……ai有长度为k的LCS(Longest CommonSubsequence,最长公共子序列)字符串b1b2……bj中j的最小值,用公式表示就是:L(k,i)=Min{j} Where LCS(i,j)=k;
第一步,初始化数组LL()和P();
LL(0)=0
LL(i)=V 1≤i≤M
P(i)=V 1≤i≤M
此时,LL(0)表示L(0,0);LL(1)表示L(1,0);LL(2)表示L(2,1);……
第二步,依次计算第一条对角线上的元素,用临时变量T计算L(1,1);T=F(L(0,0),L(1,0))=F(LL(0),LL(1));
F表示取最小值运算,将T的值赋给LL(1);
此时LL(1)表示LL(1,1),LL(2)表示L(2,1);重复上面的计算,直到计算完本条对角线,如果是第k行的第一个不为V的值,将该值赋给P(k);
第一条对角线计算完之后,此时,LL(0)表示L(0,1);LL(1)表示L(1,1);LL(2)表示L(2,2);……;
如果,这条对角线不是解,重复第二步,计算下一条对角线,直到遇到解为止;
不过要注意的是:第i条对角线只有m-i+1个元素,所以只计算到LL(m-i+1);
如果某条对角线的某个元素是V的话,则这条对角线之后的元素都是V,就不需要计算了;
然后计算句子A和句子B之间编辑距离,用LD(A,B)表示,很显然,若LD(A,B)=0则表示句子A和句子B完全相同;
A=a1a2……aN,表示A是由a1a2……aN这N个字符组成,Len(A)=N;
B=b1b2……bM,表示B是由b1b2……bM这M个字符组成,Len(B)=M;
定义LD(i,j)=LD(a1a2……ai,b1b2……bj),其中0≤i≤N,0≤j≤M;
初始化LD矩阵,根据LD(N,M)=LD(A,B),LD(0,0)=0,LD(0,j)=j,LD(i,0)=i分别计算LD矩阵初始值;
计算LD矩阵其它行,根据公式若ai=bj,则LD(i,j)=LD(i-1,j-1),若ai≠bj,则LD(i,j)=Min(LD(i-1,j-1),LD(i-1,j),LD(i,j-1))+1,最后计算得到LD(A,B)值;
计算句子A和句子B的相似度SIM(A,B)= LCS(A,B)/(LD(A,B)+LCS(A,B))。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810549597.3A CN108804624A (zh) | 2013-12-18 | 2013-12-18 | 文挡录入并比对的方法 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810549597.3A CN108804624A (zh) | 2013-12-18 | 2013-12-18 | 文挡录入并比对的方法 |
CN201310696955.0A CN103823838B (zh) | 2013-12-18 | 2013-12-18 | 一种多格式文档录入并比对的方法 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310696955.0A Division CN103823838B (zh) | 2013-12-18 | 2013-12-18 | 一种多格式文档录入并比对的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108804624A true CN108804624A (zh) | 2018-11-13 |
Family
ID=50758902
Family Applications (4)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810549597.3A Pending CN108804624A (zh) | 2013-12-18 | 2013-12-18 | 文挡录入并比对的方法 |
CN201810549599.2A Pending CN108984593A (zh) | 2013-12-18 | 2013-12-18 | 多格式文挡录入并比对的方法 |
CN201810549598.8A Pending CN108959203A (zh) | 2013-12-18 | 2013-12-18 | 一种文挡录入并比对的方法 |
CN201310696955.0A Active CN103823838B (zh) | 2013-12-18 | 2013-12-18 | 一种多格式文档录入并比对的方法 |
Family Applications After (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810549599.2A Pending CN108984593A (zh) | 2013-12-18 | 2013-12-18 | 多格式文挡录入并比对的方法 |
CN201810549598.8A Pending CN108959203A (zh) | 2013-12-18 | 2013-12-18 | 一种文挡录入并比对的方法 |
CN201310696955.0A Active CN103823838B (zh) | 2013-12-18 | 2013-12-18 | 一种多格式文档录入并比对的方法 |
Country Status (1)
Country | Link |
---|---|
CN (4) | CN108804624A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109271641A (zh) * | 2018-11-20 | 2019-01-25 | 武汉斗鱼网络科技有限公司 | 一种文本相似度计算方法、装置及电子设备 |
CN111382562A (zh) * | 2020-03-05 | 2020-07-07 | 百度在线网络技术(北京)有限公司 | 文本相似度的确定方法、装置、电子设备及存储介质 |
CN111563372A (zh) * | 2020-05-11 | 2020-08-21 | 世纪金榜集团股份有限公司 | 一种基于教辅书籍出版的排版文档内容自查重方法 |
CN112948574A (zh) * | 2019-12-11 | 2021-06-11 | 上海交通大学 | 批量文件上传分类的系统及方法 |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105701256A (zh) * | 2016-03-23 | 2016-06-22 | 南京南瑞继保电气有限公司 | 一种通讯点表文件比较方法 |
CN106033475A (zh) * | 2016-05-18 | 2016-10-19 | 苏州奖多多科技有限公司 | 一种信息匹配方法、装置及电子设备 |
CN105912883A (zh) * | 2016-06-30 | 2016-08-31 | 广州市皓轩软件科技有限公司 | 一种针对icd起搏器的结构化数据提取方法 |
CN107169011B (zh) * | 2017-03-31 | 2021-06-11 | 百度在线网络技术(北京)有限公司 | 基于人工智能的网页原创性识别方法、装置及存储介质 |
CN107368472B (zh) * | 2017-07-26 | 2021-01-05 | 成都科来软件有限公司 | 一种可迭代优化的文档分析结果的保存方法 |
CN109062872B (zh) * | 2018-07-13 | 2023-04-18 | 上海溱云科技有限公司 | 一种对不同格式报关文件进行统一处理的方法 |
CN110135264A (zh) * | 2019-04-16 | 2019-08-16 | 深圳壹账通智能科技有限公司 | 数据录入方法、装置、计算机设备以及存储介质 |
CN111026718A (zh) * | 2019-12-11 | 2020-04-17 | 广州地铁集团有限公司 | 轨道交通工程造价成果excel文件解析的技术方法 |
CN110955638A (zh) * | 2019-12-17 | 2020-04-03 | 江苏扬子易联智能软件有限公司 | 一种文件对比展示方法和系统 |
CN112487781A (zh) * | 2020-12-10 | 2021-03-12 | 成都海光微电子技术有限公司 | 文件比对方法、装置、存储介质及设备 |
CN114939532B (zh) * | 2022-07-11 | 2022-11-08 | 河北汇金集团股份有限公司 | 乱序文档的分拣方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1687926A (zh) * | 2005-04-18 | 2005-10-26 | 福州大学 | 一种基于xml的pdf文档信息抽取系统的方法 |
CN101630321A (zh) * | 2009-08-26 | 2010-01-20 | 中山大学 | 一种基于数据挖掘的在线文章筛选方法 |
CN101763343A (zh) * | 2008-12-23 | 2010-06-30 | 上海晨鸟信息科技有限公司 | 一种支持格式比对和剽窃检查的文档编辑器原理与方法 |
CN101957809A (zh) * | 2010-10-14 | 2011-01-26 | 传神联合(北京)信息技术有限公司 | 一种防抄袭方法 |
CN102622338A (zh) * | 2012-02-24 | 2012-08-01 | 北京工业大学 | 一种短文本间语义距离的计算机辅助计算方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4038717B2 (ja) * | 2002-09-13 | 2008-01-30 | 富士ゼロックス株式会社 | テキスト文比較装置 |
CN100412869C (zh) * | 2006-04-13 | 2008-08-20 | 北大方正集团有限公司 | 一种改进的基于文档结构的文档相似性度量方法 |
CN102004779B (zh) * | 2010-11-19 | 2012-11-28 | 百度在线网络技术(北京)有限公司 | 一种文档共享平台的文档处理方法及系统 |
CN102799647B (zh) * | 2012-06-30 | 2015-01-21 | 华为技术有限公司 | 网页去重方法和设备 |
-
2013
- 2013-12-18 CN CN201810549597.3A patent/CN108804624A/zh active Pending
- 2013-12-18 CN CN201810549599.2A patent/CN108984593A/zh active Pending
- 2013-12-18 CN CN201810549598.8A patent/CN108959203A/zh active Pending
- 2013-12-18 CN CN201310696955.0A patent/CN103823838B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1687926A (zh) * | 2005-04-18 | 2005-10-26 | 福州大学 | 一种基于xml的pdf文档信息抽取系统的方法 |
CN101763343A (zh) * | 2008-12-23 | 2010-06-30 | 上海晨鸟信息科技有限公司 | 一种支持格式比对和剽窃检查的文档编辑器原理与方法 |
CN101630321A (zh) * | 2009-08-26 | 2010-01-20 | 中山大学 | 一种基于数据挖掘的在线文章筛选方法 |
CN101957809A (zh) * | 2010-10-14 | 2011-01-26 | 传神联合(北京)信息技术有限公司 | 一种防抄袭方法 |
CN102622338A (zh) * | 2012-02-24 | 2012-08-01 | 北京工业大学 | 一种短文本间语义距离的计算机辅助计算方法 |
Non-Patent Citations (2)
Title |
---|
WEIXIN_34417814: "文本比较算法Ⅷ——再议Nakatsu算法", 《HTTPS://BLOG.CSDN.NET/WEIXIN_34417814/ARTICLE/DETAILS/85478665》 * |
王森,王宇: "基于文本结构树的论文复制检测算法", 《现代图书情报技术》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109271641A (zh) * | 2018-11-20 | 2019-01-25 | 武汉斗鱼网络科技有限公司 | 一种文本相似度计算方法、装置及电子设备 |
CN109271641B (zh) * | 2018-11-20 | 2023-09-08 | 广西三方大供应链技术服务有限公司 | 一种文本相似度计算方法、装置及电子设备 |
CN112948574A (zh) * | 2019-12-11 | 2021-06-11 | 上海交通大学 | 批量文件上传分类的系统及方法 |
CN111382562A (zh) * | 2020-03-05 | 2020-07-07 | 百度在线网络技术(北京)有限公司 | 文本相似度的确定方法、装置、电子设备及存储介质 |
CN111382562B (zh) * | 2020-03-05 | 2024-03-01 | 百度在线网络技术(北京)有限公司 | 文本相似度的确定方法、装置、电子设备及存储介质 |
CN111563372A (zh) * | 2020-05-11 | 2020-08-21 | 世纪金榜集团股份有限公司 | 一种基于教辅书籍出版的排版文档内容自查重方法 |
CN111563372B (zh) * | 2020-05-11 | 2021-04-13 | 世纪金榜集团股份有限公司 | 一种基于教辅书籍出版的排版文档内容自查重方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108984593A (zh) | 2018-12-11 |
CN103823838A (zh) | 2014-05-28 |
CN108959203A (zh) | 2018-12-07 |
CN103823838B (zh) | 2018-07-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103823838B (zh) | 一种多格式文档录入并比对的方法 | |
US11907244B2 (en) | Modifying field definitions to include post-processing instructions | |
WO2019227585A1 (zh) | 基于索引的简历数据处理方法、装置、设备及存储介质 | |
Ding et al. | Entity discovery and assignment for opinion mining applications | |
US10146862B2 (en) | Context-based metadata generation and automatic annotation of electronic media in a computer network | |
US20150026556A1 (en) | Systems and Methods for Extracting Table Information from Documents | |
US10579661B2 (en) | System and method for machine learning and classifying data | |
US8315997B1 (en) | Automatic identification of document versions | |
US20190332606A1 (en) | A system and method for processing big data using electronic document and electronic file-based system that operates on RDBMS | |
US8725781B2 (en) | Sentiment cube | |
US8515684B2 (en) | System and method for identifying similar molecules | |
CN104572849A (zh) | 基于文本语义挖掘的标准化自动建档方法 | |
US9959326B2 (en) | Annotating schema elements based on associating data instances with knowledge base entities | |
US20130086035A1 (en) | Method and apparatus for generating extended page snippet of search result | |
Zu et al. | Resume information extraction with a novel text block segmentation algorithm | |
CN105404677A (zh) | 一种基于树形结构的检索方法 | |
CN108846031B (zh) | 一种面向电力行业的项目相似性对比方法 | |
US20130024403A1 (en) | Automatically induced class based shrinkage features for text classification | |
CN105426490A (zh) | 一种基于树形结构的索引方法 | |
CN111091003A (zh) | 一种基于知识图谱查询的并行抽取方法 | |
CN107451168A (zh) | 基于词汇统计的档案分类系统及方法 | |
Tian | A mathematical indexing method based on the hierarchical features of operators in formulae | |
TWI534640B (zh) | Chinese network information monitoring and analysis system and its method | |
CN110674254B (zh) | 基于深度学习和统计提取模型的智能合同信息提取方法 | |
US20230376542A1 (en) | Identifying similar documents in a file repository using unique document signatures |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181113 |