CN103678424A - 一种文档校对的方法和装置 - Google Patents

一种文档校对的方法和装置 Download PDF

Info

Publication number
CN103678424A
CN103678424A CN201210362895.4A CN201210362895A CN103678424A CN 103678424 A CN103678424 A CN 103678424A CN 201210362895 A CN201210362895 A CN 201210362895A CN 103678424 A CN103678424 A CN 103678424A
Authority
CN
China
Prior art keywords
vocabulary
proofreaded
document
correction
vocabularies
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201210362895.4A
Other languages
English (en)
Inventor
周志扬
朱建波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Original Assignee
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Founder Group Co Ltd, Beijing Founder Electronics Co Ltd filed Critical Peking University Founder Group Co Ltd
Priority to CN201210362895.4A priority Critical patent/CN103678424A/zh
Publication of CN103678424A publication Critical patent/CN103678424A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种文档校对的方法和装置,涉及文档校对自动化领域,解决了现有技术中对于文档的校对都是依赖于校对人员的手工操作,工作效率和准确率较低,影响生产出报的时效的问题。所述方法包括:在预设词库中,获取待校对词汇,所述预设词库中包含多个待校对词汇,以及每个待校对词汇唯一对应的目标词汇,然后在待校对文档中,查找与所述待校对词汇相同的词汇,当查找到与所述待校对词汇相同的词汇时,将所述待校对文档中的待校对词汇标注出来,并将与所述待校对词汇相对应的目标词汇在所述待校对文档中批注出来。本发明实例应用于文档校对的处理过程中。

Description

一种文档校对的方法和装置
技术领域
本发明涉及文档校对自动化领域,尤其涉及一种文档校对的方法和装置。
背景技术
目前对于报纸中文档的校对工作,主要是采用人工校对方法,文档从采编系统中打印出来之后,需要校对人员在纸面上进行校对,当遇到有疑问的词语,需要手动去查找字典,或者咨询经验丰富的校对人员,然后对错字错词进行批注修改,再手动把需要修改的内容输入采编系统中。
在实现上述文档校对的过程中,发明人发现现有技术中至少存在如下问题:对于文档的校对都是依赖于校对人员的手工操作,工作效率和准确率较低,影响生产出报的时效。
发明内容
本发明的实施例提供一种文档校对的方法和装置,提高了文档校对的速度和准确率。
为达到上述目的,本发明的实施例采用如下技术方案:
一种文档校对的方法,包括:
在预设词库中,获取待校对词汇,所述预设词库中包含多个待校对词汇,以及每个待校对词汇唯一对应的目标词汇;
在待校对文档中,查找与所述待校对词汇相同的词汇;
当查找到与所述待校对词汇相同的词汇时,将所述待校对文档中的待校对词汇标注出来;
将与所述待校对词汇相对应的目标词汇在所述待校对文档中批注出来。
一种文档校对的装置,包括:
获取单元,用于在预设词库中,获取待校对词汇,所述预设词库中包含多个待校对词汇,以及每个待校对词汇唯一对应的目标词汇;
查找单元,用于在待校对文档中,查找与所述待校对词汇相同的词汇;
处理单元,用于当查找到与所述待校对词汇相同的词汇时,将所述待校对文档中的待校对词汇标注出来;
批注单元,用于将与所述待校对词汇相对应的目标词汇在所述待校对文档中批注出来。
本发明实施例提供的一种文档校对的方法和装置,在预设词库中,获取待校对词汇,所述预设词库中包含多个待校对词汇,以及每个待校对词汇唯一对应的目标词汇,然后在待校对文档中,查找与所述待校对词汇相同的词汇,当查找到与所述待校对词汇相同的词汇时,将所述待校对文档中的待校对词汇标注出来,并将与所述待校对词汇相对应的目标词汇在所述待校对文档中批注出来。本发明实施例解决了现有技术中对于文档的校对都是依赖于校对人员的手工操作,工作效率和准确率较低,影响生产出报的时效的问题,提高了文档校对的速度和准确率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1提供的一种文档校对的方法的流程图;
图2为本发明实施例1提供的另一种文档校对的方法的流程图;
图3为本发明实施例2提供的一种文档校对的装置的结构图;
图4为本发明实施例2提供的另一种文档校对的装置的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
本发明实施例提供了一种文档校对的方法,如图1所示,所述方法包括如下步骤:
101、在预设词库中,获取待校对词汇,所述预设词库中包含多个待校对词汇,以及每个待校对词汇唯一对应的目标词汇。
对于所述预设词库中的待校对词汇均是先由校对人员提交想要共享的待校对词汇,然后由审核人员对提交的待校对词汇进行审核,对于审核通过的待校对词汇添加到所述预设词库中进行共享,另外,对于已经在所述预设词库中共享的某些待校对词汇,审核人员可以取消共享,将某些待校对词汇从词库中删除。
在对文档进行校对之前,从所述预设词库中依次获取需要校对的待校对词汇,在所述预设词库中每个待校对词汇都有唯一对应的目标词汇,所述目标词汇为用于替换对应的待校对词汇。
102、在待校对文档中,查找与所述待校对词汇相同的词汇;
103、当查找到与所述待校对词汇相同的词汇时,将所述待校对文档中的待校对词汇标注出来。
在标注所述待校对文档中的待校对词汇时,可以利用下划线、突出显示、加粗或者变换字体颜色将待校对词汇标注出来,在这里不做限定。
104、将与所述待校对词汇相对应的目标词汇在所述待校对文档中批注出来。
在所述待校对文档中将待校对词汇标注出来之后,将与所述待校对词汇相对应的目标词汇批注出来,以便进行自动修改或者用户选择性修改。
本发明实施例提供的一种文档校对的方法,在预设词库中,获取待校对词汇,所述预设词库中包含多个待校对词汇,以及每个待校对词汇唯一对应的目标词汇,然后在待校对文档中,查找与所述待校对词汇相同的词汇,当查找到与所述待校对词汇相同的词汇时,将所述待校对文档中的待校对词汇标注出来,并将与所述待校对词汇相对应的目标词汇在所述待校对文档中批注出来。本发明实施例解决了现有技术中对于文档的校对都是依赖于校对人员的手工操作,工作效率和准确率较低,影响生产出报的时效的问题,提高了文档校对的速度和准确率。
在具体应用时,所述预设词库为本地词库,或者是从服务器上下载得到的中心词库。
所述预设词库中的待校对词汇为语法错误词汇、用户自定义词汇、敏感词汇或政治词汇,还可以是其他需要校对的词汇。
可选的,如图2所示,本发明实施例的一种实现方式,在上述步骤104之后,将与所述待校对词汇相对应的目标词汇在所述待校对文档中批注出来之后,包括如下两个步骤中的任意一个:
105、接收用户对所述待校对词汇进行的修正。
用户可以根据标注出来的待校对词汇和对应的目标词汇,选择性的进行修改。例如,对于不想修改的待校对词汇可以撤销标注以及批注出来的对应的目标词汇,对于想修改的待校对词汇则替换为对应的目标词汇。
106、将所述待校对文档中标注的待校对词汇,修改为对应的目标词汇。
通过上述文档校对的方法,利用预设词库自动将待校对文档中的待校对词汇标注出来,提高了文档校对的速度,减少人工操作出现的失误,校对经验的共享,提高了校对的准确率。
实施例2
本发明实施例提供了一种文档校对的装置,如图3所示,所述装置包括获取单元31、查找单元32、处理单元33和批注单元34。
其中,获取单元31,用于在预设词库中,获取待校对词汇,所述预设词库中包含多个待校对词汇,以及每个待校对词汇唯一对应的目标词汇;
查找单元32,用于在待校对文档中,查找与所述待校对词汇相同的词汇;
处理单元33,用于当查找到与所述待校对词汇相同的词汇时,将所述待校对文档中的待校对词汇标注出来;
批注单元34,用于将与所述待校对词汇相对应的目标词汇在所述待校对文档中批注出来。
本发明实施例提供的一种文档校对的装置,在预设词库中,获取待校对词汇,所述预设词库中包含多个待校对词汇,以及每个待校对词汇唯一对应的目标词汇,然后在待校对文档中,查找与所述待校对词汇相同的词汇,当查找到与所述待校对词汇相同的词汇时,将所述待校对文档中的待校对词汇标注出来,并将与所述待校对词汇相对应的目标词汇在所述待校对文档中批注出来。本发明实施例解决了现有技术中对于文档的校对都是依赖于校对人员的手工操作,工作效率和准确率较低,影响生产出报的时效的问题,提高了文档校对的速度和准确率。
可选的,如图4所示,所述装置还包括:
接收单元35,用于接收用户对所述待校对词汇进行的修正。
所述处理单元,还用于将所述待校对文档中标注的待校对词汇,修改为对应的目标词汇。
所述装置的操作过程,参见上述文档校对的方法的处理过程。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘,硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (8)

1.一种文档校对的方法,其特征在于,包括:
在预设词库中,获取待校对词汇,所述预设词库中包含多个待校对词汇,以及每个待校对词汇唯一对应的目标词汇;
在待校对文档中,查找与所述待校对词汇相同的词汇;
当查找到与所述待校对词汇相同的词汇时,将所述待校对文档中的待校对词汇标注出来;
将与所述待校对词汇相对应的目标词汇在所述待校对文档中批注出来。
2.根据权利要求1所述的方法,其特征在于,所述预设词库为本地词库,或者从服务器上下载得到的中心词库。
3.根据权利要求1所述的方法,其特征在于,所述待校对词汇为语法错误词汇、用户自定义词汇、敏感词汇或政治词汇。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
接收用户对所述待校对词汇进行的修正。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述待校对文档中标注的待校对词汇,修改为对应的目标词汇。
6.一种文档校对的装置,其特征在于,包括:
获取单元,用于在预设词库中,获取待校对词汇,所述预设词库中包含多个待校对词汇,以及每个待校对词汇唯一对应的目标词汇;
查找单元,用于在待校对文档中,查找与所述待校对词汇相同的词汇;
处理单元,用于当查找到与所述待校对词汇相同的词汇时,将所述待校对文档中的待校对词汇标注出来;
批注单元,用于将与所述待校对词汇相对应的目标词汇在所述待校对文档中批注出来。
7.根据权利要求6所述的方法,其特征在于,所述装置还包括:
接收单元,用于接收用户对所述待校对词汇进行的修正。
8.根据权利要求6所述的方法,其特征在于,
所述处理单元,还用于将所述待校对文档中标注的待校对词汇,修改为对应的目标词汇。
CN201210362895.4A 2012-09-25 2012-09-25 一种文档校对的方法和装置 Pending CN103678424A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210362895.4A CN103678424A (zh) 2012-09-25 2012-09-25 一种文档校对的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210362895.4A CN103678424A (zh) 2012-09-25 2012-09-25 一种文档校对的方法和装置

Publications (1)

Publication Number Publication Date
CN103678424A true CN103678424A (zh) 2014-03-26

Family

ID=50316005

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210362895.4A Pending CN103678424A (zh) 2012-09-25 2012-09-25 一种文档校对的方法和装置

Country Status (1)

Country Link
CN (1) CN103678424A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016131278A1 (zh) * 2015-07-16 2016-08-25 中兴通讯股份有限公司 一种文档查错方法和装置
CN106921562A (zh) * 2017-03-06 2017-07-04 维沃移动通信有限公司 一种通信信息的注释方法、服务器及移动终端
CN111460792A (zh) * 2019-01-18 2020-07-28 北大方正信息产业集团有限公司 一种辅助编校方法与装置、存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1116342A (zh) * 1994-07-08 1996-02-07 唐武 一种中文自动校对方法及其系统
CN101727440A (zh) * 2008-10-24 2010-06-09 北大方正集团有限公司 一种敏感词校对的方法及系统
CN102043763A (zh) * 2009-10-23 2011-05-04 北大方正集团有限公司 一种自动校对姓名的方法及装置
US20110238411A1 (en) * 2010-03-29 2011-09-29 Kabushiki Kaisha Toshiba Document proofing support apparatus, method and program

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1116342A (zh) * 1994-07-08 1996-02-07 唐武 一种中文自动校对方法及其系统
CN101727440A (zh) * 2008-10-24 2010-06-09 北大方正集团有限公司 一种敏感词校对的方法及系统
CN102043763A (zh) * 2009-10-23 2011-05-04 北大方正集团有限公司 一种自动校对姓名的方法及装置
US20110238411A1 (en) * 2010-03-29 2011-09-29 Kabushiki Kaisha Toshiba Document proofing support apparatus, method and program

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016131278A1 (zh) * 2015-07-16 2016-08-25 中兴通讯股份有限公司 一种文档查错方法和装置
CN106921562A (zh) * 2017-03-06 2017-07-04 维沃移动通信有限公司 一种通信信息的注释方法、服务器及移动终端
CN111460792A (zh) * 2019-01-18 2020-07-28 北大方正信息产业集团有限公司 一种辅助编校方法与装置、存储介质
CN111460792B (zh) * 2019-01-18 2023-12-01 新方正控股发展有限责任公司 一种辅助编校方法与装置、存储介质

Similar Documents

Publication Publication Date Title
CN106126157B (zh) 基于医院信息系统的语音输入方法及装置
CN103049458B (zh) 一种修正用户词库的方法和系统
CN105653517A (zh) 一种识别率确定方法及装置
CN102346731A (zh) 一种文件处理方法及文件处理装置
CN103077022B (zh) 一种作业流程可视化的作业配置方法和装置
CN106155652A (zh) 一种多语言数据文件的生成方法和系统
US20150248382A1 (en) Apparatus and method for converting an electronic form
CN108132917B (zh) 一种文档纠错标记方法
CN102937949A (zh) 一种在富文本编辑器内实现英文拼写检查的方法及系统
CN103678424A (zh) 一种文档校对的方法和装置
US20170178528A1 (en) Method and System for Providing Automated Localized Feedback for an Extracted Component of an Electronic Document File
CN104516870A (zh) 一种译文检查方法及其系统
CN110390082A (zh) 一种通信矩阵对比方法及系统
CN110263740A (zh) 基于ocr技术的不同类型印刷体文档转录方法
JP2006268661A (ja) データインポート方法およびデータインポート装置
CN109871516A (zh) 一种双层pdf批量生成word的方法
CN107391377B (zh) 一种基于组合流程图测试软件集成的方法
CN103914447A (zh) 信息处理设备和信息处理方法
CN108984491A (zh) 一种文档格式转换的方法和装置
CN110516252B (zh) 数据标注方法、装置、计算机设备和存储介质
CN104462046A (zh) 对文档内容进行区别批注的方法和系统
CN104778282B (zh) 一种iptv机顶盒浏览器的网页容错方法及系统
CN108595584B (zh) 一种基于数字标记的汉字输出方法和系统
CN108897730B (zh) 一种pdf文本的处理方法以及装置
CN103377197A (zh) 富格式文档处理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20140326

RJ01 Rejection of invention patent application after publication