CN103823838A - 一种多格式文档录入并比对的方法 - Google Patents
一种多格式文档录入并比对的方法 Download PDFInfo
- Publication number
- CN103823838A CN103823838A CN201310696955.0A CN201310696955A CN103823838A CN 103823838 A CN103823838 A CN 103823838A CN 201310696955 A CN201310696955 A CN 201310696955A CN 103823838 A CN103823838 A CN 103823838A
- Authority
- CN
- China
- Prior art keywords
- document
- sentence
- similarity
- library
- comparison
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
Abstract
Description
Claims (5)
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810549598.8A CN108959203A (zh) | 2013-12-18 | 2013-12-18 | 一种文挡录入并比对的方法 |
CN201810549597.3A CN108804624A (zh) | 2013-12-18 | 2013-12-18 | 文挡录入并比对的方法 |
CN201310696955.0A CN103823838B (zh) | 2013-12-18 | 2013-12-18 | 一种多格式文档录入并比对的方法 |
CN201810549599.2A CN108984593A (zh) | 2013-12-18 | 2013-12-18 | 多格式文挡录入并比对的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310696955.0A CN103823838B (zh) | 2013-12-18 | 2013-12-18 | 一种多格式文档录入并比对的方法 |
Related Child Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810549597.3A Division CN108804624A (zh) | 2013-12-18 | 2013-12-18 | 文挡录入并比对的方法 |
CN201810549598.8A Division CN108959203A (zh) | 2013-12-18 | 2013-12-18 | 一种文挡录入并比对的方法 |
CN201810549599.2A Division CN108984593A (zh) | 2013-12-18 | 2013-12-18 | 多格式文挡录入并比对的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103823838A true CN103823838A (zh) | 2014-05-28 |
CN103823838B CN103823838B (zh) | 2018-07-20 |
Family
ID=50758902
Family Applications (4)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810549597.3A Pending CN108804624A (zh) | 2013-12-18 | 2013-12-18 | 文挡录入并比对的方法 |
CN201310696955.0A Active CN103823838B (zh) | 2013-12-18 | 2013-12-18 | 一种多格式文档录入并比对的方法 |
CN201810549599.2A Pending CN108984593A (zh) | 2013-12-18 | 2013-12-18 | 多格式文挡录入并比对的方法 |
CN201810549598.8A Pending CN108959203A (zh) | 2013-12-18 | 2013-12-18 | 一种文挡录入并比对的方法 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810549597.3A Pending CN108804624A (zh) | 2013-12-18 | 2013-12-18 | 文挡录入并比对的方法 |
Family Applications After (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810549599.2A Pending CN108984593A (zh) | 2013-12-18 | 2013-12-18 | 多格式文挡录入并比对的方法 |
CN201810549598.8A Pending CN108959203A (zh) | 2013-12-18 | 2013-12-18 | 一种文挡录入并比对的方法 |
Country Status (1)
Country | Link |
---|---|
CN (4) | CN108804624A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105701256A (zh) * | 2016-03-23 | 2016-06-22 | 南京南瑞继保电气有限公司 | 一种通讯点表文件比较方法 |
CN105912883A (zh) * | 2016-06-30 | 2016-08-31 | 广州市皓轩软件科技有限公司 | 一种针对icd起搏器的结构化数据提取方法 |
CN106033475A (zh) * | 2016-05-18 | 2016-10-19 | 苏州奖多多科技有限公司 | 一种信息匹配方法、装置及电子设备 |
CN107169011A (zh) * | 2017-03-31 | 2017-09-15 | 百度在线网络技术(北京)有限公司 | 基于人工智能的网页原创性识别方法、装置及存储介质 |
CN107368472A (zh) * | 2017-07-26 | 2017-11-21 | 成都科来软件有限公司 | 一种可迭代优化的文档分析结果的保存方法 |
CN109062872A (zh) * | 2018-07-13 | 2018-12-21 | 摩诃科技无锡有限公司 | 一种对不同格式报关文件进行统一处理的算法 |
CN111026718A (zh) * | 2019-12-11 | 2020-04-17 | 广州地铁集团有限公司 | 轨道交通工程造价成果excel文件解析的技术方法 |
CN112487781A (zh) * | 2020-12-10 | 2021-03-12 | 成都海光微电子技术有限公司 | 文件比对方法、装置、存储介质及设备 |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109271641B (zh) * | 2018-11-20 | 2023-09-08 | 广西三方大供应链技术服务有限公司 | 一种文本相似度计算方法、装置及电子设备 |
CN110135264A (zh) * | 2019-04-16 | 2019-08-16 | 深圳壹账通智能科技有限公司 | 数据录入方法、装置、计算机设备以及存储介质 |
CN112948574A (zh) * | 2019-12-11 | 2021-06-11 | 上海交通大学 | 批量文件上传分类的系统及方法 |
CN110955638A (zh) * | 2019-12-17 | 2020-04-03 | 江苏扬子易联智能软件有限公司 | 一种文件对比展示方法和系统 |
CN111382562B (zh) * | 2020-03-05 | 2024-03-01 | 百度在线网络技术(北京)有限公司 | 文本相似度的确定方法、装置、电子设备及存储介质 |
CN111563372B (zh) * | 2020-05-11 | 2021-04-13 | 世纪金榜集团股份有限公司 | 一种基于教辅书籍出版的排版文档内容自查重方法 |
CN114939532B (zh) * | 2022-07-11 | 2022-11-08 | 河北汇金集团股份有限公司 | 乱序文档的分拣方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1495639A (zh) * | 2002-09-13 | 2004-05-12 | 富士施乐株式会社 | 文本语句比较装置 |
CN1687926A (zh) * | 2005-04-18 | 2005-10-26 | 福州大学 | 一种基于xml的pdf文档信息抽取系统的方法 |
CN102004779A (zh) * | 2010-11-19 | 2011-04-06 | 百度在线网络技术(北京)有限公司 | 一种文档共享平台及文档处理方法 |
CN102799647A (zh) * | 2012-06-30 | 2012-11-28 | 华为技术有限公司 | 网页去重方法和设备 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100412869C (zh) * | 2006-04-13 | 2008-08-20 | 北大方正集团有限公司 | 一种改进的基于文档结构的文档相似性度量方法 |
CN101763343A (zh) * | 2008-12-23 | 2010-06-30 | 上海晨鸟信息科技有限公司 | 一种支持格式比对和剽窃检查的文档编辑器原理与方法 |
CN101630321A (zh) * | 2009-08-26 | 2010-01-20 | 中山大学 | 一种基于数据挖掘的在线文章筛选方法 |
CN101957809A (zh) * | 2010-10-14 | 2011-01-26 | 传神联合(北京)信息技术有限公司 | 一种防抄袭方法 |
CN102622338B (zh) * | 2012-02-24 | 2014-02-26 | 北京工业大学 | 一种短文本间语义距离的计算机辅助计算方法 |
-
2013
- 2013-12-18 CN CN201810549597.3A patent/CN108804624A/zh active Pending
- 2013-12-18 CN CN201310696955.0A patent/CN103823838B/zh active Active
- 2013-12-18 CN CN201810549599.2A patent/CN108984593A/zh active Pending
- 2013-12-18 CN CN201810549598.8A patent/CN108959203A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1495639A (zh) * | 2002-09-13 | 2004-05-12 | 富士施乐株式会社 | 文本语句比较装置 |
CN1687926A (zh) * | 2005-04-18 | 2005-10-26 | 福州大学 | 一种基于xml的pdf文档信息抽取系统的方法 |
CN102004779A (zh) * | 2010-11-19 | 2011-04-06 | 百度在线网络技术(北京)有限公司 | 一种文档共享平台及文档处理方法 |
CN102799647A (zh) * | 2012-06-30 | 2012-11-28 | 华为技术有限公司 | 网页去重方法和设备 |
Non-Patent Citations (5)
Title |
---|
NARAO NAKATSU等: "《A Longest Common Subsequence Algorithm Suitable for Similar Text Strings》", 《ACTA INFORMATICA》 * |
万仓一黍: "《文本比较算法Ⅳ——Nakatsu算法》", 《HTTP://WWW.CNBLOGS.COM/GRENET/ARCHIVE/2010/06/07/1752751.HTM》 * |
万仓一黍: "《线性空间求最长公共子序列的Nakatsu算法》", 《HTTP://WWW.CNBLOGS.COM/GRENET/ARCHIVE/2011/03/11/1964417.HTML》 * |
李欣等: "《最长公共子序列问题的改进快速算法》", 《计算机应用研究》 * |
钟诚等: "《PRAM和LARPBS模型上的近似串匹配并行算法》", 《软件学报》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105701256A (zh) * | 2016-03-23 | 2016-06-22 | 南京南瑞继保电气有限公司 | 一种通讯点表文件比较方法 |
CN106033475A (zh) * | 2016-05-18 | 2016-10-19 | 苏州奖多多科技有限公司 | 一种信息匹配方法、装置及电子设备 |
CN105912883A (zh) * | 2016-06-30 | 2016-08-31 | 广州市皓轩软件科技有限公司 | 一种针对icd起搏器的结构化数据提取方法 |
CN107169011A (zh) * | 2017-03-31 | 2017-09-15 | 百度在线网络技术(北京)有限公司 | 基于人工智能的网页原创性识别方法、装置及存储介质 |
CN107169011B (zh) * | 2017-03-31 | 2021-06-11 | 百度在线网络技术(北京)有限公司 | 基于人工智能的网页原创性识别方法、装置及存储介质 |
CN107368472A (zh) * | 2017-07-26 | 2017-11-21 | 成都科来软件有限公司 | 一种可迭代优化的文档分析结果的保存方法 |
CN107368472B (zh) * | 2017-07-26 | 2021-01-05 | 成都科来软件有限公司 | 一种可迭代优化的文档分析结果的保存方法 |
CN109062872A (zh) * | 2018-07-13 | 2018-12-21 | 摩诃科技无锡有限公司 | 一种对不同格式报关文件进行统一处理的算法 |
CN111026718A (zh) * | 2019-12-11 | 2020-04-17 | 广州地铁集团有限公司 | 轨道交通工程造价成果excel文件解析的技术方法 |
CN112487781A (zh) * | 2020-12-10 | 2021-03-12 | 成都海光微电子技术有限公司 | 文件比对方法、装置、存储介质及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN108984593A (zh) | 2018-12-11 |
CN103823838B (zh) | 2018-07-20 |
CN108959203A (zh) | 2018-12-07 |
CN108804624A (zh) | 2018-11-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103823838A (zh) | 一种多格式文档录入并比对的方法 | |
US11907244B2 (en) | Modifying field definitions to include post-processing instructions | |
CN111753099B (zh) | 一种基于知识图谱增强档案实体关联度的方法及系统 | |
CN108932294B (zh) | 基于索引的简历数据处理方法、装置、设备及存储介质 | |
CN107679144B (zh) | 基于语义相似度的新闻语句聚类方法、装置及存储介质 | |
CN104199965B (zh) | 一种语义信息检索方法 | |
CN101694670B (zh) | 一种基于公共子串的中文Web文档在线聚类方法 | |
CN101079024B (zh) | 一种专业词表动态生成系统和方法 | |
CN101794307A (zh) | 基于互联网分词思想的车载导航poi搜索引擎 | |
WO2020056977A1 (zh) | 知识点推送方法、装置及计算机可读存储介质 | |
CN113190687B (zh) | 知识图谱的确定方法、装置、计算机设备及存储介质 | |
CN102622346B (zh) | 中文文献数据库的蛋白质知识挖掘和发现的方法、装置 | |
WO2020155749A1 (zh) | 构建个人知识图谱的方法、装置、计算机设备和存储介质 | |
CN115563313A (zh) | 基于知识图谱的文献书籍语义检索系统 | |
US11301440B2 (en) | Fuzzy search using field-level deletion neighborhoods | |
CN105404677A (zh) | 一种基于树形结构的检索方法 | |
CN115934926A (zh) | 信息提取方法、装置、计算机设备、存储介质 | |
US20140129543A1 (en) | Search service including indexing text containing numbers in part using one or more number index structures | |
CN105426490A (zh) | 一种基于树形结构的索引方法 | |
CN111831624A (zh) | 数据表创建方法、装置、计算机设备及存储介质 | |
CN107657067B (zh) | 一种基于余弦距离的前沿科技信息快速推送方法及系统 | |
Tian | A mathematical indexing method based on the hierarchical features of operators in formulae | |
TWI534640B (zh) | Chinese network information monitoring and analysis system and its method | |
CN114078570A (zh) | 一种化学分子结构检索系统 | |
CN112214615A (zh) | 基于知识图谱的政策文件处理方法、装置和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: No. 27, front street, Changzhou Municipal Bureau, Jiangsu Province, Jiangsu Applicant after: STATE GRID JIANGSU ELECTRIC POWER Co.,Ltd. CHANGZHOU POWER SUPPLY BRANCH Applicant after: STATE GRID JIANGSU ELECTRIC POWER Co.,Ltd. Applicant after: State Grid Corporation of China Address before: No. 27, front street, Changzhou Municipal Bureau, Jiangsu Province, Jiangsu Applicant before: STATE GRID CHANG ZHOU CURRENT SUPPLY COMPANY OF JIANGSU ELECTRIC POWER Co. Applicant before: STATE GRID JIANGSU ELECTRIC POWER Co. Applicant before: State Grid Corporation of China Address after: No. 27, front street, Changzhou Municipal Bureau, Jiangsu Province, Jiangsu Applicant after: STATE GRID CHANG ZHOU CURRENT SUPPLY COMPANY OF JIANGSU ELECTRIC POWER Co. Applicant after: STATE GRID JIANGSU ELECTRIC POWER Co. Applicant after: State Grid Corporation of China Address before: No. 27, Tianning District Bureau, front street, Changzhou, Jiangsu Province Applicant before: CHANG ZHOU CURRENT SUPPLY COMPANY OF JIANGSU ELECTRIC POWER Co. Applicant before: JIANGSU ELECTRIC POWER Co. Applicant before: State Grid Corporation of China |
|
CB03 | Change of inventor or designer information | ||
CB03 | Change of inventor or designer information |
Inventor after: Ju Fei Inventor after: Hua Kai Inventor after: Gu Mei Inventor after: Wu Guoqi Inventor after: Tang Dan Inventor before: Ju Fei Inventor before: Hua Kai Inventor before: Wu Guoqi Inventor before: Liu Jianjun |
|
GR01 | Patent grant | ||
GR01 | Patent grant |