CN104252446A - 计算装置、文件内容一致性验证系统及方法 - Google Patents
计算装置、文件内容一致性验证系统及方法 Download PDFInfo
- Publication number
- CN104252446A CN104252446A CN201310261348.1A CN201310261348A CN104252446A CN 104252446 A CN104252446 A CN 104252446A CN 201310261348 A CN201310261348 A CN 201310261348A CN 104252446 A CN104252446 A CN 104252446A
- Authority
- CN
- China
- Prior art keywords
- text
- word message
- content
- drawing files
- rule
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/26—Techniques for post-processing, e.g. correcting the recognition result
- G06V30/262—Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
- G06V30/268—Lexical context
Abstract
本发明提供一种文件内容一致性验证系统,应用于计算装置。该系统包一系列功能模块。利用这些功能模块,该系统设置从图档文件中提取文字信息的信息提取规则,并设置验证与图档文件相关联的文本文件的验证规则。该系统根据信息提取规则从图档文件中识别文字信息,对识别得到的文字信息进行容错处理,并从容错处理后得到的文字信息提炼得到关键文字信息。之后,该系统按照设置的验证规则在文本文件中查找与所述关键文字信息相匹配的内容,并根据匹配结果判断文本文件记载的内容与图档文件记载的内容是否一致。本发明还提供一种文件内容一致性验证方法。
Description
技术领域
本发明涉及一种错误检查系统及方法,尤其涉及一种验证相关联文件的内容一致性的系统及方法。
背景技术
一般,技术性或者专业性的文件如果仅仅包含文本内容,会显得内容苍白、表现力不强且不便于读者理解,因此此类文件往往会附带解释性/代表性的附图来辅助说明文本内容部分,以提高文件的可读性。一方面,由于文本内容的编辑与附图的制作可能有一定的时间差,可能会存在文本内容与附图内容不一致的问题,给读者带来了误解或困惑。另一方面,有时附图的内容可能是从文本内容提取的,由于人工操作会造成错漏现象,也可能导致文本内容和附图内容不一致。
发明内容
鉴于以上内容,有必要提供一种系统及方法,可以验证相关联的文本文件及图档文件的内容的一致性。
本发明提供一种计算装置,该计算装置包括存储器及处理器。存储器存储计算机程序化指令及容错词库。处理器运行所述计算机程序化指令,执行以下操作:设置从图档文件中提取文字信息的信息提取规则及验证与图档文件相关联的文本文件的验证规则,并将信息提取规则及验证规则存储至存储器;利用信息识别技术根据信息提取规则在图档文件指定的区域中识别文字信息;根据容错词库对识别得到的文字信息进行容错处理,并根据信息提取规则对容错处理后得到的文字信息进行提炼,得到关键文字信息;及按照设置的验证规则在文本文件中查找与所述关键文字信息相匹配的内容,并根据匹配结果判断文本文件记载的内容与图档文件记载的内容是否一致。
本发明提供一种文件内容一致性验证系统,应用于计算装置。该系统包括:规则设置模块,用于设置从图档文件中提取文字信息的信息提取规则,并设置验证与图档文件相关联的文本文件的验证规则;文字识别模块,用于利用信息识别技术根据信息提取规则在图档文件指定的区域中识别文字信息;文字提炼模块,用于对识别得到的文字信息进行容错处理,并根据信息提取规则对容错处理后得到的文字信息进行提炼,得到关键文字信息;及内容匹配模块,用于按照设置的验证规则在文本文件中查找与所述关键文字信息相匹配的内容,并根据匹配结果判断文本文件记载的内容与图档文件记载的内容是否一致。
本发明还提供一种文件内容一致性验证方法,应用于计算装置。该方法包括:(A)设置从图档文件中提取文字信息的信息提取规则,并设置验证与图档文件相关联的文本文件的验证规则;(B)利用信息识别技术根据信息提取规则在图档文件指定的区域中识别文字信息;(C)对识别得到的文字信息进行容错处理,并根据信息提取规则对容错处理后得到的文字信息进行提炼,得到关键文字信息;及(D)按照设置的验证规则在文本文件中查找与所述关键文字信息相匹配的内容,并根据匹配结果判断文本文件记载的内容与图档文件记载的内容是否一致。
相较于现有技术,本发明提供的文件内容一致性验证系统及方法,可以根据图档文件对相关联的文本文件记载的信息进行验证,找出相关联的文本文件及图档文件记载的内容不一致的位置,供用户参考修改。
附图说明
图1是本发明文件内容一致性验证系统较佳实施例的功能模块图。
图2是本发明文件内容一致性验证方法较佳实施例的流程图。
图3是一个图档文件的示意图。
主要元件符号说明
计算装置 | 100 |
文件内容一致性验证系统 | 10 |
规则设置模块 | 11 |
文字识别模块 | 12 |
文字提炼模块 | 13 |
内容匹配模块 | 14 |
存储器 | 20 |
文本文件 | 21 |
图档文件 | 22 |
规则 | 23 |
容错词库 | 24 |
处理器 | 30 |
显示器 | 40 |
如下具体实施方式将结合上述附图进一步说明本发明。
具体实施方式
如图1所示,是本发明文件内容一致性验证系统10较佳实施例的应用环境图。该系统10运行于计算装置100中。该计算装置100还包括通过数据总线相连的存储器20、处理器30及显示器40。计算装置100可以是电脑或其它具有数据处理能力的电子装置。
存储器20存储有一系列文本文件及图档文件,例如图1中所示的具有关联关系的文本文件21及图档文件22。在本实施例中,文本文件21可以为WORD文件、TXT文件等,图档文件可以为PDF文件、TIF文件等。文本文件21及图档文件22相关联是指文本文件21及图档文件22均是涉及相同的主题,文本文件21是以文字方式介绍该主题,图档文件22是以图示方式介绍该主题、或是对文本文件21中的文字内容进行辅助说明。例如,文本文件21可以是一件专利或专利申请的说明书,图档文件22可以是该专利或专利申请的说明书附图。
在本实施例中,该系统10包括规则设置模块11、文字识别模块12、文字提炼模块13及内容匹配模块14。利用这些功能模块,该系统10设置验证规则23,根据验证规则23提取图档文件中的文字信息,根据存储器20存储的容错词库24对提取的文字信息进行容错处理及提炼得到图档文件中的关键文字信息,再根据所述验证规则在与图档文件相关联的文本文件中查找与所述关键文字信息相匹配的内容,根据匹配结果判断相关联的文本文件21与图档文件22记载的内容是否一致。
模块11-14包括计算机程序化指令,这些计算机程序化指令存储在存储器20,处理器30执行这些计算机程序化指令,提供系统10的上述功能。显示器40显示所述匹配结果。以下结合图2说明模块11-14的具体功能。
如图2所示,是本发明文件内容一致性验证方法较佳实施例的应用环境图。本实施例以相关联的文本文件21及图档文件22为例说明。文本文件21为一件专利申请的说明书,图档文件22为该专利申请的说明书附图。
步骤S10,规则设置模块11接收用户设置的规则23。在本实施例中,规则23包括从图档文件22中提取文字信息的信息提取规则及对验证文本文件21内容一致性的验证规则。
信息提取规则包括在图档文件22中指定执行文字信息识别操作的区域。例如,假设图档文件22包括五幅图档,可以指定从所有五幅图档中识别文字信息,也可以指定从某一幅或其中几幅图档中识别文字信息。信息提取规则还包括从图档文件22中识别的文字信息的类型,例如是识别数字、中文字、英文字,还是其他类型的文字信息。
验证规则包括在文本文件21中执行内容一致性验证的区域。例如,若文本文件21为一件专利申请的说明书,则其包括【技术领域】、【背景技术】、【发明内容】、【附图简要说明】、【具体实施方式】等部分,在验证规则中可以指定文本文件21中进行文字信息匹配的区域为【具体实施方式】部分,或者是其他部分。此外,验证规则还可以包括在文本文件21中执行内容一致性验证操作中启用语义验证或禁用语义验证、忽略或不忽略英文大小写。
步骤S20,文字识别模块12利用信息识别技术根据信息提取规则在图档文件22指定的区域中识别文字信息。在本实施例中,所述信息识别技术为光学字符识别(optical character recognition,OCR)技术。例如,图3是一个图档文件22的示意图,文字识别模块12对图3所示的图档文件22执行文字信息识别可以得到文字信息“121i1417\n1318”。
步骤S30,文字提炼模块13根据容错词库24对文字识别模块12识别得到的文字信息进行容错处理,并根据信息提取规则设置的提取文字信息的类型对容错处理后得到的文字信息进行提炼,得到关键文字信息,例如关键字/词/句。容错词库24包括数字容错词库、中文容错词库、英文容错词库等。以数字容错词库为例,如下表所示:
原字词 | 替换字词 |
I | 1 |
o | 0 |
q | 9 |
z | 2 |
例如,文字识别模块12从图3识别的文字信息“12li1417\n1318”根据数字容错词库经过容错处理后被纠正为“12111417\n1318”。
之后,文字提炼模块13根据信息提取规则设置的提取文字信息的类型对容错处理后得到的文字信息进行提炼。在本实施中,文字提炼模块13利用正则表达式执行提炼操作。例如,若信息提取规则设置设置的提取文字信息的类型为数字,则文字提炼模块13利用正则表达式(\d+)从容错处理后得到的文字信息“12111417\n1318”提炼出一个一维数组{12,11,14,17,13,18},作为关键文字信息。
步骤S40,内容匹配模块14按照设置的验证规则在文本文件21查找与所述关键文字信息相匹配的内容,并根据匹配结果判断文本文件21记载的内容与图档文件22记载的内容是否一致。
例如,若验证规则指定文本文件21中进行文字信息匹配的区域为【具体实施方式】部分,则内容匹配模块14在【具体实施方式】部分查找上述一维数组{12,11,14,17,13,18}包括的每个元件标号,若在【具体实施方式】部分未查找到该数组中的包括的任意一个元件标号,则判断文本文件21记载的内容与图档文件22记载的内容不一致。内容匹配模块14还可以在文本文件21中标识内容不一致的位置,供用户参考修改。
如上文所述,验证规则可以设置启用语义验证,语义验证一般是实用于从图档文件22中识别的文字信息为中文或英文字词的情况,例如,若从图档文件22中识别出中文词“电脑”,则内容匹配模块14执行语义分析后产生匹配词语“电脑/计算机”,然后在文本文件21中相应部分查找该匹配词语,只要查找到“电脑”或“计算机”,就表明匹配成功。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (10)
1.一种文件内容一致性验证方法,应用于计算装置,其特征在于,该方法包括:
规则设置步骤:设置从图档文件中提取文字信息的信息提取规则,并设置验证与图档文件相关联的文本文件的验证规则;
文字识别步骤:利用信息识别技术根据信息提取规则在图档文件指定的区域中识别文字信息;
文字提炼步骤:对识别得到的文字信息进行容错处理,并根据信息提取规则对容错处理后得到的文字信息进行提炼,得到关键文字信息;及
内容匹配步骤:按照设置的验证规则在文本文件中查找与所述关键文字信息相匹配的内容,并根据匹配结果判断文本文件记载的内容与图档文件记载的内容是否一致。
2.如权利要求1所述的文件内容一致性验证方法,其特征在于,所述信息提取规则包括在图档文件中指定执行文字信息识别操作的区域,以及从图档文件中识别的文字信息的类型。
3.如权利要求1所述的文件内容一致性验证方法,其特征在于,所述验证规则包括以下选项之一或多个选项的组合:指定文本文件中查找匹配内容的区域;在查找匹配内容过程中启用/禁用语义验证;忽略/不忽略英文大小写。
4.如权利要求1所述的文件内容一致性验证方法,其特征在于,所述容错处理是根据容错词库执行的。
5.如权利要求2所述的文件内容一致性验证方法,其特征在于,所述对容错处理后得到的文字信息进行提炼是根据信息提取规则设置的文字信息的类型利用正则表达式执行的。
6.一种文件内容一致性验证系统,应用于计算装置,其特征在于,该系统包括:
规则设置模块,用于设置从图档文件中提取文字信息的信息提取规则,并设置验证与图档文件相关联的文本文件的验证规则;
文字识别模块,用于利用信息识别技术根据信息提取规则在图档文件指定的区域中识别文字信息;
文字提炼模块,用于对识别得到的文字信息进行容错处理,并根据信息提取规则对容错处理后得到的文字信息进行提炼,得到关键文字信息;及
内容匹配模块,用于按照设置的验证规则在文本文件中查找与所述关键文字信息相匹配的内容,并根据匹配结果判断文本文件记载的内容与图档文件记载的内容是否一致。
7.如权利要求6所述的文件内容一致性验证系统,其特征在于,所述信息提取规则包括在图档文件中指定执行文字信息识别操作的区域,以及从图档文件中识别的文字信息的类型。
8.如权利要求6所述的文件内容一致性验证系统,其特征在于,所述验证规则包括以下选项之一或多个选项的组合:指定文本文件中查找匹配内容的区域;在查找匹配内容过程中启用/禁用语义验证;忽略/不忽略英文大小写。
9.如权利要求7所述的文件内容一致性验证系统,其特征在于,所述对容错处理后得到的文字信息进行提炼是根据信息提取规则设置的文字信息的类型利用正则表达式执行的。
10.一种计算装置,其特征在于,该计算装置包括:
存储器,用于存储计算机程序化指令及容错词库;及
处理器,该处理器运行所述计算机程序化指令,执行以下操作:
设置从图档文件中提取文字信息的信息提取规则及验证与图档文件相关联的文本文件的验证规则,并将信息提取规则及验证规则存储至存储器;
利用信息识别技术根据信息提取规则在图档文件指定的区域中识别文字信息;
根据容错词库对识别得到的文字信息进行容错处理,并根据信息提取规则对容错处理后得到的文字信息进行提炼,得到关键文字信息;及
按照设置的验证规则在文本文件中查找与所述关键文字信息相匹配的内容,并根据匹配结果判断文本文件记载的内容与图档文件记载的内容是否一致。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310261348.1A CN104252446A (zh) | 2013-06-27 | 2013-06-27 | 计算装置、文件内容一致性验证系统及方法 |
US14/315,506 US20150003746A1 (en) | 2013-06-27 | 2014-06-26 | Computing device and file verifying method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310261348.1A CN104252446A (zh) | 2013-06-27 | 2013-06-27 | 计算装置、文件内容一致性验证系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104252446A true CN104252446A (zh) | 2014-12-31 |
Family
ID=52115666
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310261348.1A Pending CN104252446A (zh) | 2013-06-27 | 2013-06-27 | 计算装置、文件内容一致性验证系统及方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20150003746A1 (zh) |
CN (1) | CN104252446A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104915668A (zh) * | 2015-05-29 | 2015-09-16 | 深圳泓数科技有限公司 | 医学影像中的文字信息识别方法及装置 |
CN108763445A (zh) * | 2018-05-25 | 2018-11-06 | 厦门智融合科技有限公司 | 专利知识库的构建方法、装置、计算机设备和存储介质 |
CN110097010A (zh) * | 2019-05-06 | 2019-08-06 | 北京达佳互联信息技术有限公司 | 图文检测方法、装置、服务器及存储介质 |
CN110543812A (zh) * | 2019-07-19 | 2019-12-06 | 拉扎斯网络科技(上海)有限公司 | 信息提取方法及装置、电子设备及存储介质 |
CN110619103A (zh) * | 2019-09-18 | 2019-12-27 | 珠海格力电器股份有限公司 | 网页图文检测方法、装置及存储介质 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106502975A (zh) * | 2016-10-21 | 2017-03-15 | 长沙市麓智信息科技有限公司 | 专利撰写图文匹配系统及其匹配方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5850480A (en) * | 1996-05-30 | 1998-12-15 | Scan-Optics, Inc. | OCR error correction methods and apparatus utilizing contextual comparison |
CN101196994A (zh) * | 2007-12-26 | 2008-06-11 | 腾讯科技(深圳)有限公司 | 图片内容识别方法及识别系统 |
US20110019915A1 (en) * | 2008-09-16 | 2011-01-27 | Roman Kendyl A | Methods and data structures for multiple combined improved searchable formatted documents including citation and corpus generation |
CN102339289A (zh) * | 2010-07-21 | 2012-02-01 | 阿里巴巴集团控股有限公司 | 文字信息与图像信息的匹配识别方法及服务器 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5883986A (en) * | 1995-06-02 | 1999-03-16 | Xerox Corporation | Method and system for automatic transcription correction |
US6778683B1 (en) * | 1999-12-08 | 2004-08-17 | Federal Express Corporation | Method and apparatus for reading and decoding information |
US6668085B1 (en) * | 2000-08-01 | 2003-12-23 | Xerox Corporation | Character matching process for text converted from images |
US7738706B2 (en) * | 2000-09-22 | 2010-06-15 | Sri International | Method and apparatus for recognition of symbols in images of three-dimensional scenes |
CA2438951A1 (en) * | 2003-08-29 | 2005-02-28 | Bob Richards | Feeder system and method |
US7917286B2 (en) * | 2005-12-16 | 2011-03-29 | Google Inc. | Database assisted OCR for street scenes and other images |
US9256798B2 (en) * | 2013-01-31 | 2016-02-09 | Aurasma Limited | Document alteration based on native text analysis and OCR |
-
2013
- 2013-06-27 CN CN201310261348.1A patent/CN104252446A/zh active Pending
-
2014
- 2014-06-26 US US14/315,506 patent/US20150003746A1/en not_active Abandoned
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5850480A (en) * | 1996-05-30 | 1998-12-15 | Scan-Optics, Inc. | OCR error correction methods and apparatus utilizing contextual comparison |
CN101196994A (zh) * | 2007-12-26 | 2008-06-11 | 腾讯科技(深圳)有限公司 | 图片内容识别方法及识别系统 |
US20110019915A1 (en) * | 2008-09-16 | 2011-01-27 | Roman Kendyl A | Methods and data structures for multiple combined improved searchable formatted documents including citation and corpus generation |
CN102339289A (zh) * | 2010-07-21 | 2012-02-01 | 阿里巴巴集团控股有限公司 | 文字信息与图像信息的匹配识别方法及服务器 |
Non-Patent Citations (1)
Title |
---|
郭方方: "《PHP开发一站式学习 难点案例练习》", 31 March 2013 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104915668A (zh) * | 2015-05-29 | 2015-09-16 | 深圳泓数科技有限公司 | 医学影像中的文字信息识别方法及装置 |
CN104915668B (zh) * | 2015-05-29 | 2019-02-26 | 深圳市红源资产管理有限公司 | 医学影像中的文字信息识别方法及装置 |
CN108763445A (zh) * | 2018-05-25 | 2018-11-06 | 厦门智融合科技有限公司 | 专利知识库的构建方法、装置、计算机设备和存储介质 |
US11714787B2 (en) | 2018-05-25 | 2023-08-01 | ZFusion Technology Co., Ltd. Xiamen | Construction method, device, computing device, and storage medium for constructing patent knowledge database |
CN110097010A (zh) * | 2019-05-06 | 2019-08-06 | 北京达佳互联信息技术有限公司 | 图文检测方法、装置、服务器及存储介质 |
CN110543812A (zh) * | 2019-07-19 | 2019-12-06 | 拉扎斯网络科技(上海)有限公司 | 信息提取方法及装置、电子设备及存储介质 |
CN110619103A (zh) * | 2019-09-18 | 2019-12-27 | 珠海格力电器股份有限公司 | 网页图文检测方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US20150003746A1 (en) | 2015-01-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102171220B1 (ko) | 클레임 서류의 문자 인식 방법, 장치, 서버 및 저장매체 | |
US10049096B2 (en) | System and method of template creation for a data extraction tool | |
CN111177184A (zh) | 基于自然语言的结构化查询语言转换方法、及其相关设备 | |
CN104252446A (zh) | 计算装置、文件内容一致性验证系统及方法 | |
CN107688803B (zh) | 字符识别中识别结果的校验方法和装置 | |
CN108664595B (zh) | 领域知识库构建方法、装置、计算机设备和存储介质 | |
WO2009035863A2 (en) | Mining bilingual dictionaries from monolingual web pages | |
CN109189888B (zh) | 电子装置、侵权分析的方法及存储介质 | |
WO2021151270A1 (zh) | 图像结构化数据提取方法、装置、设备及存储介质 | |
KR101509727B1 (ko) | 자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법 | |
CN104008093A (zh) | 用于中文姓名音译的方法和系统 | |
CN111814465A (zh) | 基于机器学习的信息抽取方法、装置、计算机设备及介质 | |
CN111144102B (zh) | 用于识别语句中实体的方法、装置和电子设备 | |
CN111783471A (zh) | 自然语言的语义识别方法、装置、设备及存储介质 | |
CN114265919A (zh) | 一种实体提取方法、装置、电子设备及存储介质 | |
CN113850081A (zh) | 基于人工智能的文本处理方法、装置、设备及介质 | |
KR102166102B1 (ko) | 개인 정보 보호를 위한 장치 및 기록 매체 | |
CN112464927B (zh) | 一种信息提取方法、装置及系统 | |
CN113887202A (zh) | 文本纠错方法、装置、计算机设备及存储介质 | |
CN111339910B (zh) | 文本的处理、文本分类模型的训练方法及装置 | |
CN111046627A (zh) | 一种中文文字显示方法及系统 | |
US20150199582A1 (en) | Character recognition apparatus and method | |
RU2498401C2 (ru) | Способ обнаружения текстовых объектов | |
US20140207440A1 (en) | Language recognition based on vocabulary lists | |
CN115147846A (zh) | 多语言票据识别方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20141231 |
|
WD01 | Invention patent application deemed withdrawn after publication |