CN103823838B - 一种多格式文档录入并比对的方法 - Google Patents
一种多格式文档录入并比对的方法 Download PDFInfo
- Publication number
- CN103823838B CN103823838B CN201310696955.0A CN201310696955A CN103823838B CN 103823838 B CN103823838 B CN 103823838B CN 201310696955 A CN201310696955 A CN 201310696955A CN 103823838 B CN103823838 B CN 103823838B
- Authority
- CN
- China
- Prior art keywords
- document
- format
- sentence
- library
- file
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
Claims (1)
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810549599.2A CN108984593A (zh) | 2013-12-18 | 2013-12-18 | 多格式文挡录入并比对的方法 |
CN201810549597.3A CN108804624A (zh) | 2013-12-18 | 2013-12-18 | 文挡录入并比对的方法 |
CN201310696955.0A CN103823838B (zh) | 2013-12-18 | 2013-12-18 | 一种多格式文档录入并比对的方法 |
CN201810549598.8A CN108959203A (zh) | 2013-12-18 | 2013-12-18 | 一种文挡录入并比对的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310696955.0A CN103823838B (zh) | 2013-12-18 | 2013-12-18 | 一种多格式文档录入并比对的方法 |
Related Child Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810549598.8A Division CN108959203A (zh) | 2013-12-18 | 2013-12-18 | 一种文挡录入并比对的方法 |
CN201810549599.2A Division CN108984593A (zh) | 2013-12-18 | 2013-12-18 | 多格式文挡录入并比对的方法 |
CN201810549597.3A Division CN108804624A (zh) | 2013-12-18 | 2013-12-18 | 文挡录入并比对的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103823838A CN103823838A (zh) | 2014-05-28 |
CN103823838B true CN103823838B (zh) | 2018-07-20 |
Family
ID=50758902
Family Applications (4)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310696955.0A Active CN103823838B (zh) | 2013-12-18 | 2013-12-18 | 一种多格式文档录入并比对的方法 |
CN201810549598.8A Pending CN108959203A (zh) | 2013-12-18 | 2013-12-18 | 一种文挡录入并比对的方法 |
CN201810549599.2A Pending CN108984593A (zh) | 2013-12-18 | 2013-12-18 | 多格式文挡录入并比对的方法 |
CN201810549597.3A Pending CN108804624A (zh) | 2013-12-18 | 2013-12-18 | 文挡录入并比对的方法 |
Family Applications After (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810549598.8A Pending CN108959203A (zh) | 2013-12-18 | 2013-12-18 | 一种文挡录入并比对的方法 |
CN201810549599.2A Pending CN108984593A (zh) | 2013-12-18 | 2013-12-18 | 多格式文挡录入并比对的方法 |
CN201810549597.3A Pending CN108804624A (zh) | 2013-12-18 | 2013-12-18 | 文挡录入并比对的方法 |
Country Status (1)
Country | Link |
---|---|
CN (4) | CN103823838B (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105701256A (zh) * | 2016-03-23 | 2016-06-22 | 南京南瑞继保电气有限公司 | 一种通讯点表文件比较方法 |
CN106033475A (zh) * | 2016-05-18 | 2016-10-19 | 苏州奖多多科技有限公司 | 一种信息匹配方法、装置及电子设备 |
CN105912883A (zh) * | 2016-06-30 | 2016-08-31 | 广州市皓轩软件科技有限公司 | 一种针对icd起搏器的结构化数据提取方法 |
CN107169011B (zh) * | 2017-03-31 | 2021-06-11 | 百度在线网络技术(北京)有限公司 | 基于人工智能的网页原创性识别方法、装置及存储介质 |
CN107368472B (zh) * | 2017-07-26 | 2021-01-05 | 成都科来软件有限公司 | 一种可迭代优化的文档分析结果的保存方法 |
CN109062872B (zh) * | 2018-07-13 | 2023-04-18 | 上海溱云科技有限公司 | 一种对不同格式报关文件进行统一处理的方法 |
CN109271641B (zh) * | 2018-11-20 | 2023-09-08 | 广西三方大供应链技术服务有限公司 | 一种文本相似度计算方法、装置及电子设备 |
CN110135264A (zh) * | 2019-04-16 | 2019-08-16 | 深圳壹账通智能科技有限公司 | 数据录入方法、装置、计算机设备以及存储介质 |
CN111026718A (zh) * | 2019-12-11 | 2020-04-17 | 广州地铁集团有限公司 | 轨道交通工程造价成果excel文件解析的技术方法 |
CN112948574A (zh) * | 2019-12-11 | 2021-06-11 | 上海交通大学 | 批量文件上传分类的系统及方法 |
CN110955638A (zh) * | 2019-12-17 | 2020-04-03 | 江苏扬子易联智能软件有限公司 | 一种文件对比展示方法和系统 |
CN111382562B (zh) * | 2020-03-05 | 2024-03-01 | 百度在线网络技术(北京)有限公司 | 文本相似度的确定方法、装置、电子设备及存储介质 |
CN111563372B (zh) * | 2020-05-11 | 2021-04-13 | 世纪金榜集团股份有限公司 | 一种基于教辅书籍出版的排版文档内容自查重方法 |
CN112487781A (zh) * | 2020-12-10 | 2021-03-12 | 成都海光微电子技术有限公司 | 文件比对方法、装置、存储介质及设备 |
CN114939532B (zh) * | 2022-07-11 | 2022-11-08 | 河北汇金集团股份有限公司 | 乱序文档的分拣方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1495639A (zh) * | 2002-09-13 | 2004-05-12 | 富士施乐株式会社 | 文本语句比较装置 |
CN1687926A (zh) * | 2005-04-18 | 2005-10-26 | 福州大学 | 一种基于xml的pdf文档信息抽取系统的方法 |
CN102004779A (zh) * | 2010-11-19 | 2011-04-06 | 百度在线网络技术(北京)有限公司 | 一种文档共享平台及文档处理方法 |
CN102799647A (zh) * | 2012-06-30 | 2012-11-28 | 华为技术有限公司 | 网页去重方法和设备 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100412869C (zh) * | 2006-04-13 | 2008-08-20 | 北大方正集团有限公司 | 一种改进的基于文档结构的文档相似性度量方法 |
CN101763343A (zh) * | 2008-12-23 | 2010-06-30 | 上海晨鸟信息科技有限公司 | 一种支持格式比对和剽窃检查的文档编辑器原理与方法 |
CN101630321A (zh) * | 2009-08-26 | 2010-01-20 | 中山大学 | 一种基于数据挖掘的在线文章筛选方法 |
CN101957809A (zh) * | 2010-10-14 | 2011-01-26 | 传神联合(北京)信息技术有限公司 | 一种防抄袭方法 |
CN102622338B (zh) * | 2012-02-24 | 2014-02-26 | 北京工业大学 | 一种短文本间语义距离的计算机辅助计算方法 |
-
2013
- 2013-12-18 CN CN201310696955.0A patent/CN103823838B/zh active Active
- 2013-12-18 CN CN201810549598.8A patent/CN108959203A/zh active Pending
- 2013-12-18 CN CN201810549599.2A patent/CN108984593A/zh active Pending
- 2013-12-18 CN CN201810549597.3A patent/CN108804624A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1495639A (zh) * | 2002-09-13 | 2004-05-12 | 富士施乐株式会社 | 文本语句比较装置 |
CN1687926A (zh) * | 2005-04-18 | 2005-10-26 | 福州大学 | 一种基于xml的pdf文档信息抽取系统的方法 |
CN102004779A (zh) * | 2010-11-19 | 2011-04-06 | 百度在线网络技术(北京)有限公司 | 一种文档共享平台及文档处理方法 |
CN102799647A (zh) * | 2012-06-30 | 2012-11-28 | 华为技术有限公司 | 网页去重方法和设备 |
Non-Patent Citations (5)
Title |
---|
《A Longest Common Subsequence Algorithm Suitable for Similar Text Strings》;Narao Nakatsu等;《Acta Informatica》;19820228;第18卷(第2期);第171-179页 * |
《PRAM和LARPBS模型上的近似串匹配并行算法》;钟诚等;《软件学报》;20040229;第15卷(第2期);第161页 * |
《文本比较算法Ⅳ——Nakatsu算法》;万仓一黍;《http://www.cnblogs.com/grenet/archive/2010/06/07/1752751.htm》;20100607;全文 * |
《最长公共子序列问题的改进快速算法》;李欣等;《计算机应用研究》;20000229(第2期);第28-30页 * |
《线性空间求最长公共子序列的Nakatsu算法》;万仓一黍;《http://www.cnblogs.com/grenet/archive/2011/03/11/1964417.html》;20110311;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN108959203A (zh) | 2018-12-07 |
CN108804624A (zh) | 2018-11-13 |
CN108984593A (zh) | 2018-12-11 |
CN103823838A (zh) | 2014-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103823838B (zh) | 一种多格式文档录入并比对的方法 | |
CN109446513B (zh) | 一种基于自然语言理解的文本中事件的抽取方法 | |
US9495347B2 (en) | Systems and methods for extracting table information from documents | |
Rao et al. | PRIX: Indexing and querying XML using prufer sequences | |
US8315997B1 (en) | Automatic identification of document versions | |
US10579661B2 (en) | System and method for machine learning and classifying data | |
CN103049568B (zh) | 对海量文档库的文档分类的方法 | |
WO2019227585A1 (zh) | 基于索引的简历数据处理方法、装置、设备及存储介质 | |
Zu et al. | Resume information extraction with a novel text block segmentation algorithm | |
CN103218423A (zh) | 数据查询方法及装置 | |
CN106372073A (zh) | 一种数学公式检索方法与装置 | |
CN105404677A (zh) | 一种基于树形结构的检索方法 | |
US20130024403A1 (en) | Automatically induced class based shrinkage features for text classification | |
CN102663108A (zh) | 基于复杂网络模型并行化标签传播算法的药物社团发现方法 | |
Consoli et al. | A quartet method based on variable neighborhood search for biomedical literature extraction and clustering | |
Lin et al. | Measuring tree similarity for natural language processing based information retrieval | |
Yin et al. | Content‐Based Image Retrial Based on Hadoop | |
Tian | A mathematical indexing method based on the hierarchical features of operators in formulae | |
CN105426490A (zh) | 一种基于树形结构的索引方法 | |
Makni et al. | Business process model matching: An approach based on semantics and structure | |
TWI534640B (zh) | Chinese network information monitoring and analysis system and its method | |
CN103577406B (zh) | 一种管理非结构化数据的方法及装置 | |
Luo et al. | Biotable: A tool to extract semantic structure of table in biology literature | |
Yuliana et al. | AFIS: aligning detail-pages for full schema induction | |
CN110674254B (zh) | 基于深度学习和统计提取模型的智能合同信息提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: No. 27, front street, Changzhou Municipal Bureau, Jiangsu Province, Jiangsu Applicant after: STATE GRID JIANGSU ELECTRIC POWER Co.,Ltd. CHANGZHOU POWER SUPPLY BRANCH Applicant after: STATE GRID JIANGSU ELECTRIC POWER Co.,Ltd. Applicant after: State Grid Corporation of China Address before: No. 27, front street, Changzhou Municipal Bureau, Jiangsu Province, Jiangsu Applicant before: STATE GRID CHANG ZHOU CURRENT SUPPLY COMPANY OF JIANGSU ELECTRIC POWER Co. Applicant before: STATE GRID JIANGSU ELECTRIC POWER Co. Applicant before: State Grid Corporation of China Address after: No. 27, front street, Changzhou Municipal Bureau, Jiangsu Province, Jiangsu Applicant after: STATE GRID CHANG ZHOU CURRENT SUPPLY COMPANY OF JIANGSU ELECTRIC POWER Co. Applicant after: STATE GRID JIANGSU ELECTRIC POWER Co. Applicant after: State Grid Corporation of China Address before: No. 27, Tianning District Bureau, front street, Changzhou, Jiangsu Province Applicant before: CHANG ZHOU CURRENT SUPPLY COMPANY OF JIANGSU ELECTRIC POWER Co. Applicant before: JIANGSU ELECTRIC POWER Co. Applicant before: State Grid Corporation of China |
|
CB03 | Change of inventor or designer information | ||
CB03 | Change of inventor or designer information |
Inventor after: Ju Fei Inventor after: Hua Kai Inventor after: Gu Mei Inventor after: Wu Guoqi Inventor after: Tang Dan Inventor before: Ju Fei Inventor before: Hua Kai Inventor before: Wu Guoqi Inventor before: Liu Jianjun |
|
GR01 | Patent grant | ||
GR01 | Patent grant |