CN106601253B - 智能机器人文字播音朗读审核校对方法和系统 - Google Patents

智能机器人文字播音朗读审核校对方法和系统 Download PDF

Info

Publication number
CN106601253B
CN106601253B CN201611070158.1A CN201611070158A CN106601253B CN 106601253 B CN106601253 B CN 106601253B CN 201611070158 A CN201611070158 A CN 201611070158A CN 106601253 B CN106601253 B CN 106601253B
Authority
CN
China
Prior art keywords
correction
check
vocabulary
word
broadcast
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611070158.1A
Other languages
English (en)
Other versions
CN106601253A (zh
Inventor
肖娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201611070158.1A priority Critical patent/CN106601253B/zh
Publication of CN106601253A publication Critical patent/CN106601253A/zh
Application granted granted Critical
Publication of CN106601253B publication Critical patent/CN106601253B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明提供一种重要领域智能机器人文字播音朗读审核校对方法与系统,它包括在系统载入模块中预先建立的三个数据库模块:分别收集各类知识库和特殊符号的播音语料和朗读语料形成的播音语言模块和语音朗读识别模块,和收集系统词库数据库、差错类型数据库和科学实用词表形成的词表科学实用模块。播音校对时导入原稿,播音语言模块通过播放器对原稿进行播音,校对人员根据播音对校稿进行校对;语音朗读校对时导入校稿,校对人员通过麦克风向系统中朗读原稿,语音朗读识别模块对校稿进行校对;在上述校对时,同时使用词表科学实用模块对可疑处进行提醒,并将修改信息存储在科学实用词表。本发明的语音数据库中包含符号的语料,可进行文本的精准校对。

Description

智能机器人文字播音朗读审核校对方法和系统
技术领域
本发明涉及文字播音朗读审核校对领域,具体涉及一种嵌入式、独立式播音朗读校对系统和方法,可以按人工(智能机器人)的校对规律进行文字播音朗读校对。
背景技术
校对是保证录入文档内容准确性的重要一环,已有1400年的历史。随着互联网信息技术及产业化的快速发展,校对信息处理技术也不断发展。如果文稿校对不准确,一字之差就会造成读者的困惑或不满,严重时会造成重大事故。增强对校对工作的认识,提高校对工作的技巧,使校对更好地发挥消灭差错保证质量的作用。校对随着互联网技术和信息化的飞速发展,实际工作中有计算机软件可以完成初步的简单的审核校对,但是更加成熟的准确的高质量的,比较适用于嵌入式、独立式、人工智能机器人式文件播音朗读审核校对系统还基本处于空白和起步阶段。
目前主要的校对方式:交叉三校制。校对顺序是:1.一校(作者、责任编辑各校一次):侧重对原稿校对,力求校样与原稿的一致,纠正版式错误,对有疑问处做出标示。校后通读一遍。要求作者不能对原稿作大的改动。2.二校(责任编辑、执行编辑各校一次):校对时要确定一校校出错误已改正,纠正版式错误,并对文稿中的疑问予以处理,填补遗缺,统一体例。3.三校(执行编辑校一次):校对时要确定二校校出错误已改正,对校样进行综合检查,清理差错,确定版面格式。4.点校:对三校校出错误予以核对,并对文章、版式作最后通校,确保清样无差错。5.校对签名。校对者应在每次校样上签名,并标明校次,以防差错。6.责任编辑甩开原稿和三校样,对清样进行阅读,寻找差错。在读样后,进行总体扫描,检查有无错字、漏字、表格与插图是否合乎规范,字体、字号使用是否正确等。
现代的“三校一读”,校法和任务各不相同。一校、二校以对校为主,任务是消灭录排差错;三校以本校为主,任务是发现并质疑原稿错讹;一读是最后通读检查。磁盘书稿校对,由于原稿与校样合二为一,一校没有可资比照的原稿,则应采用本校法,通过是非判断发现录排差错和原稿错讹。一校改版后打出二校样,一校样就成为二校的比照物,所以二校时应先对红,然后再进行二校。三校样打出后,校法同二校。如前所述,三个校次是最低限度的校次,特殊的书稿,特殊的情况,相应增加校次。
目前的一些计算机校对系统,具有一下校对缺陷:一是误报率高。校对软件毕竟是一种计算机软件,它的纠错能力的大小完全取决于人们事先录入的资料信息,如果输入的资料信息不全或者存在错误,其纠错能力必定受到影响。二是不能准确校是非。校对软件与人类的大脑毕竟是不同的。校对软件是人们通过编程软件制作的,不具有人类的思维。其在校对文字、专业术语、量和单位、专业名词等方面还可以,但在校对敏感问题,诸如政治、宗教、保密、地图等方面是非问题上则存在明显的不足。三是具有局限性。除了不能准确校是非的局限性外,校对软件还存在很多局限性,如校对软件在检查图片、表格,期刊封面、扉页、版权页,文字注释、出处、参考文献,作者名、单位名称等方面存在局限性。四是通读不可缺。一般情况下,计算机校对软件在检查错别字等方面还可以,但在处理标点符号、同音字、形似字、多字、漏字、错字语句、修辞以及特殊用法时,则显得无能为力,通读可以很好地检查计算机校对软件不能发现和改正的高级错误。目前的中文自动校对方法多是字、词级别上的统计方法, 它们使用的语言模型比较简单, 利用的语言学知识也不丰富。市场上一些朗读软件并不是针对校对工作的实际需要来设计的,它们在多音字识别、另起段落、字体字号和段落样式、全体与对开字符的区别、图表、理工科符号和公式、脚注、着重点等特殊符号、页码、用词造句以及语法和逻辑错误等方面,大都无能为力,或者还根本就没有这些方面的功能。所以,单纯的朗读软件只能辅助于读校法。
人工三校和目前的计算机校对软件存在的技术问题:已有的播音或朗读软件不支持文章的全面朗读格式,只是单独的把人们的习惯性读语读出来,而重要领域的校对工作需要全面的校对,不可以有一点差错,原来的读校法由两人合作,一人朗读原稿,另一人核对校样,并改正校样上的错误。智能播音朗读校对系统替代了原来的两真人朗读播音校对,应用为一人、一智能机器人(系统),双方可以互换角色,即可以一智能机器人播音,另一真人校对,或一真人朗读校对,另一智能人逐光标逐字逐句逐格跟随,系统、读者将每个字、每个标点符号、换行朗读准确,速度缓慢,音调有节奏。标题、空格、每行另起等符号都分别交代。嵌入式、独立式、智能(机器人)终端作为信息传播的媒体,与人的关系越来越密切。
发明内容
本发明提供一种节省人力且校对精细准确的校对方法,尤其提供一种可以使用在重要领域进行智能文字播音朗读审核校对的校对系统和方法。
本发明的技术方案采用以下方法实现:
重要领域智能机器人文字播音朗读审核校对方法,在于:
预先建立以下三个数据库模块:
播音语言模块,所述播音语言模块为通过收集各类原始语言材料、汉语知识库的文字播音语料和特殊符号的播音语料形成的播音语料数据库;所述特殊符号包括文本中不属于文字字符的所有符号;
语音朗读识别模块,所述语音朗读识别模块为通过收集各类原始语言材料、汉语知识库的文字朗读语料和特殊符号的朗读语料形成的语音朗读数据库;所述特殊符号包括文本中不属于文字字符的所有符号;所述语音朗读识别模块中同时设置有对于校稿进行校对的内容;
词表科学实用模块,所述词表科学实用模块包括系统词库数据库、差错类型数据库和科学实用词表,所述系统词库数据库为全部知识库;所述差错类型数据库为正向的逻辑函数序列库;所述科学实用词表包括收集的修改信息;所述修改信息为通过将校对修改中属于差错类型数据库中的差错类型的可疑处与系统词典数据库进行对比,获取的正确信息;
进行播音校对时:
向系统中导入原稿,播音语言模块对原稿的内容进行播音,校对人员根据播音的内容对校稿进行校对;
进行语音朗读校对时:
向系统中导入校稿,校对人员向系统中朗读原稿,语音朗读识别模块根据存储的朗读语料对校对人员输入系统中的语音进行识别并解析出语音中的内容,根据该解析出的内容,对系统中的校稿进行校对;
词表科学实用模块能够单独对原稿或者校稿的可疑处进行提醒,使校对人员选择是否进行修改,并在修改过程中将修改信息添加到科学实用词表中;同时,在上述进行播音校对或者语音朗读校对的同时,能够使用词表科学实用模块对可疑处进行提醒,使校对人员选择是否进行修改,修改时将修改信息存储在科学实用词表,同时也能够选择不使用词表科学实用模块进行可疑处提醒,仅仅在对原稿或者校稿进行修改时,将修改信息存储在科学实用词表。
作为进一步的改进,所述通过播音语言模块进行播音校对时,播音语言模块能够选择逐字逐句逐符号逐格式的方式进行播音校对,或者忽略特殊符号,仅仅对文本内容进行播音校对;
所述通过语音朗读识别模块进行朗读校对时,校对人员能够选择逐字逐句逐符号逐格式的方式进行朗读校对,或者忽略特殊符号,仅仅对文本内容进行朗读校对。
作为另一改进,词表科学实用模块的系统词库数据库和科学实用词表进行建立时,对系统词库数据库进行类型分类或者添加不同类型的词库数据库,同时科学实用词表的修改信息在建立时,将不同校对文本类型分类后,将校对时的修改信息存储在相应的类型数据库中,建立词表科学实用模块的历史数据;
在进行校对时,对导入的作为校对文本的原稿或者校稿,先进行分类,建立与系统词库数据库和科学实用词表的关联,校对时,调用系统词库数据库中的一个或多个词库数据库,或者调用科学实用词表中的一个或者多个类型的数据库,对校对文本进行校对。
所述播音语言模块进行播音朗读时,能够选择全文朗读或单句朗读或从光标处朗读或只朗读选中文本模式。
作为更进一步的改进,所述对原稿或者校稿进行校对过程中,如果发现不属于差错类型数据库中的差错类型的可疑处,则提示未知错误或者不提示;如果提示未知错误,则校对人员能够选择对此可疑处进行修改,并将该错误类型写入错类型数据库中,或者忽略该可疑处。
作为再进一步的改进,所述对校稿进行校对的内容包括:(1)多、漏、错文字及标点、符号错误校对;标题、署名,文中人名、地名、数字、公式错误校对;(2)版面、格式,图表位置及表题、图题,字体、字号、字距和行距校对;(3)标题位置、层次及转行,注释、参考文献及序号校对,中英文目录及页码与文章的一致校对;(4)目录及对应的页码、刊眉、页码顺序、版权,封面、封二、封三、封底的文字、刊号、年月期号校对。
重要领域智能机器人文字播音朗读审核校对系统,包括系统载入模块,所述系统载入模块上连接有用户设备,
所述系统载入模块内设置有播音语言模块、语音朗读识别模块、词表科学实用模块,
所述用户设备包括用于通过播音语言模块对校稿进行播放的播放器,和校对人员向系统载入模块输入朗读语料的麦克风。
所述播音语言模块、语音朗读识别模块、词表科学实用模块均为可扩展的数据库模块。
所述系统载入模块包括服务器系统、便携式存储设备。
系统审核能够作为管理人员选项设置签批审核意见。
本发明的有益效果:(1)一人一机的单人校对或智能机器人的独立校对,不仅节省人力资源,还可保障重点领域、要求标准高、需要加强保密设置,不允许进行多人校对时的文字校对质量;(2)可设置多种校对方式,多角度、多方位校对可疑处;(3)校对的语音数据库中包含符号的语料,可进行文本的精准校对;(3)系统各模块为可扩展模块,也可扩展现实需要的模块,方便进行数据库的扩展,以获取更高的校对质量。
附图说明
图1为播音语言模块的数据库形成示意图。
图2为语音朗读识别模块的数据库形成示意图。
图3为词表科学实用模块的形成使用示意图。
图4为智能文字播音朗读校对系统用户接口设备的连接示意图。
图5为本发明系统的内部模块示意图。
图6为本发明的系统的接口设计示意图。
图7为智能文字播音朗读校对系统的运行设计示意图。
图8为智能文字播音朗读校对系统的数据结构设计示意图一。
图9为智能文字播音朗读校对系统的数据结构设计示意图二。
图10为智能文字播音朗读校对系统的出错处理示意图。
图11为智能文字播音朗读校对系统的维护设计模块示意图。
图12为智能文字播音朗读校对系统的体系结构示意图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细说明。
本发明提供一种重要领域智能文字播音朗读审核校对方法,通过设置一个智能机器人系统,完全替代校对中另一个人的眼、耳、嘴、大脑思维的功能,达到节省人力且精准校对的目的。
为了达到上述的目的,本发明需要预先建立以下三个数据库模块:
(1)播音语言模块:如图1所示,它为通过收集各类原始语言材料、汉语知识库的文字播音语料形成的语种与文字匹配的播音语料数据库;同时还包括特殊符号的播音语料形成的数据库。而特殊符号包括文本中不属于文字字符的所有符号;例如:字体格式(加粗、倾斜、倾斜加粗、上标、下标)、标点符号、字号、段落、颜色、换行、断句、空格等。
进行播音时,可根据需要设置为进行全文朗读、单句朗读、从光标处开始朗读、只朗读选中文本等模式,同时可通过调节音量、语速生成需要的声音文件,在播音进行校对时,播音语言模块可根据各种语言的语言规则(例如汉语言的声母、韵母的组合方式)进行判断,看是否有残留的可疑处,然后决定是否进行提示、报警和修改。
通过播音方式进行校对,与之前逐字核查找错检验校对质量的方法相比,大大减少了核查工作量,减轻了核查人员的疲劳程度,减少了人工作业,并且,可以通过设置提醒、报警方式,减少提醒、报警量,在低报警率下保证文字校对的质量,省时省力,大大提高文字校对精确度。
准确使用校对符号,消灭错字,补齐遗漏,纠正版式错误,严格执行校对程序进行校对。播音校对的第一种方法是收集所有可能的音节, 然后采取系统字典匹配的方式进行检查; 第二种是采用规则方法来进行拼写检查。本发明利用音节规则模型进行拼写检查精确校对各种中文、英文拼写、标点、数字、科技计量、重句、异形词、领导人姓名职务、领导人排序、政治性问题、目录、标题和图例公式序号等各种类型的错误。
(2)语音朗读识别模块,如图2所示,为通过收集各类原始语言材料、汉语知识库的文字朗读语料和特殊符号的朗读语料形成的语音朗读数据库;而上述中的特殊符号包括文本中不属于文字字符的所有符号;例如:字体格式(加粗、倾斜、倾斜加粗、上标、下标)、符号、字号、段落、颜色、换行、断句、空格等。
进行朗读校对时,由于是校对人员进行朗读,而智能(机器人)计算机进行校对,因此,首先要设置智能机器人需要校对的对象:1.检查多、漏、错文字及标点、符号错误;核对标题、署名,文中人名、地名、数字、公式。 2.检查版面、格式,图表位置及表题、图题,字体、字号、字距和行距。 3.检查标题位置、层次及转行,注释、参考文献及序号,核对中英文目录及页码与文章的一致。 4.检查目录及对应的页码、刊眉、页码顺序、版权,封面、封二、封三、封底的文字、刊号、年月期号。当然,上述机器校对的对象是可以扩展的。
本发明使用的方法,语言自然度较好,在选择生成朗读语料时,可根据爱好选择声音(如男声或女声)进行朗读,且朗读标点符号、断句的功能是多数朗读软件所不具备的,也可应用OCR文字识别为进行自动分词。本发明主要识别录入的文档的词汇,而以往的校对都是通过眼睛看屏幕来完成的。
(3)词表科学实用模块,如图3所示,词表科学实用模块主要用于收集同音字、形似字的修改信息,它包括系统词库数据库、差错类型数据库和科学实用词表。
系统词库数据库是可扩展的字、词典库,是全部知识库;科学实用词表是收集的文本进行校对过程中的修改信息形成的数据库,而修改信息为通过将校对修改中属于差错类型数据库中的差错类型的可疑处与系统词典数据库进行对比,获取的正确信息。差错类型数据库则是一种包含多种差错类型的逻辑库,为正向的逻辑函数序列库,该库中不包含修改信息,仅仅用于对查找出的可疑处进行正向分类;该库可扩展,即如果对原稿或者校稿进行校对过程中,发现不属于差错类型数据库中的差错类型的可疑处,则提示为未知错误或者不提示;而如果提示未知错误,则校对人员能够选择对此可疑处进行修改,并将该错误类型扩展入差错类型数据库中,或者忽略该可疑处。
在本发明中,系统词典系统词库数据库中的词典为全部词典,包括六部分内容:①低频词词库:这类词包括三、四字词和低频二字词,并且分别以第一个字和最后一个字建立了索引并排序;②高频词词库:高频词是一些使用频率非常高的二字词, 分别以第一个字和最后一个字建立了索引并排序;③二级字词库:由于二级字成词非常少, 所以系统将所有含二级字的词统一收入该词库中, 共一千多词,并按正序排序;④临时词库:用于存储生词, 并按词长组织;⑤学习词库:用于存储系统使用过程中用户加入的新词;⑥单字词词库:用于存储单字词。
词典结构为提高查找速度, 每部词典皆建立了索引。系统主词典为一级索引。每个中文词皆以首字和尾字为索引进行存储, 索引库为按中文词首字和尾字的内码排序;词库除按中文词的字数由小到大排序外, 对于相同字数的词, 还按其第二字的内码排序。由于进行校对时处理的文本不受领域限制,应用领域广泛,因此在构建词库时,将一个个词收集成库,并以此为依据进行校对。
尽管系统词库的词汇相当丰富,但由于使用对象不同,专业有别,对词库内容的需求也有所区别,为加大搜索速度,因此可根据实际情况将系统词库另行建立如下库:1)单词库。2)除常用词库中包含的词以外的所有词构成的词库。3)规则库。4)专业词库。5)临时词库,用以记录生词。在校对系统中常常用到提取生词,用于扩建用户词库的功能,它能起到补充、丰富词库的作用,从而确保系统校对的词汇校对出来,因此这时,可以利用该添加功能进行补充,及时把漏校的字、词(包括人名、地名)添进词库,以提高系统校对的准确率,提高系统查找库的速度,提高使用效率,并且各库间建立索引和关联,并在对词库进行维护的同时重建数据索引。由于数据量庞大,因此上述最重要的是大规模数据库的维护,与建立历史思维和未来发展思维逻辑联想记忆存储关联。
本发明利用计算机语音合成系统, 由计算机自动朗读电子文稿, 人边听边对照原稿检查,也可以实现智能机器人独立检查。这一方法可以省去双人合校中的人工朗读,但速度慢,不能检查同音字错误, 不检查原稿错误, 对于怀疑有错的地方不给提示,但是机算机合成语音的准确度和自然度高,因此,通过建立词表科学实用模块,使用多项辅助的知识检索核查功能进行校对,使语言模型同汉语完全吻合,避免校对系统把力量过多用在人比较擅长而机器能力较薄弱的高层次错误的检查上。
根据科学实用词表查找文字中的可疑字并进行提示时;其中,在根据所述修改信息建立科学实用词表后,科学实用词表对已输入计算机的汉语文章自动查错,将怀疑有错的地方标示出来,提供修改建议和修改手段,方便用户修改。还可以自动识别中西人名地名,在屏幕上标示出来,供用户核对;还能够使用成语语义分类词典供在线检索和提取,同时具有词库维护、自学习、打印校对结果等多种辅助功能。由于进行科学实用词表校对时,处理的是已输入计算机中的汉语文章,因此主要检查错字、漏字、多字等引起上下文不通的情况,也可用不同颜色自动标示文章中的人名、地名、数字、英文等,供用户核查。通过科学实用词表进行查错时,由于是由修改信息组成的数据库,因此错误的地方具有共性,并且数据量小,查错准、快,不仅能查错别字,还查漏字、多字、多词,能核对人名、地名;同时词库具有扩充、自学习、成语检索等多项功能,适合作者自写自校。并且可自动识别并标示出数字、人名、地名、企业名、标点符号、繁体异体字等供用户核查;具有自定义词库功能,用户可根据需要自行添加新词汇和正误对应词条。提供了语音校对,知识库查询,简繁转换,电子字典等辅助工具,供编辑、校对人员、办公人员根据自己工作需要选择适合自己的计算机校对软件。
上述词表科学实用模块中的各模块,可通过建立历史思维和未来发展思维逻辑联想记忆存储关联。所谓历史思维即对历史归纳和综合的能力,一定要过了一段时间后进行归纳,根据线索来总结;所谓未来发展思维即面向未来的创新能力思维;它们二者之间通过建立定义各种逻辑关系,如因果关系、层递关系、主次关系、总分关系、并列关系、转折关系、让步关系、列举(顺序)关系、目的关系、条件关系等;认识事物的过程则指由浅入深、由具体到抽象等逻辑顺序,并根据过程操作中的进行索引分析判断选择,建立记忆联想存储关联,可以等同于或高于人类思考的能力。
具体到本发明,词表科学实用模块系统词库数据库内的各词典进行存储时,可将系统词典进行分类或者分领域存储,同样,对科学实用词表内的修改内容进行存储时,也进行分类或者分领域存储,此为历史数据。而差错类型数据库对应于存储修改信息的科学实用词表,存储的每个修改信息均对应一种差错类型,在科学实用词表形成历史数据时,差错类型数据库也形成历史数据。在对一篇导入的文件进行校对时,可首先对文件进行分类或者分领域,建立与系统词库或者科学实用词表的关联,然后调用所属类型或者所属领域的系统词典或者科学实用词表进行校对,可提高校对效率。当然,有些文件的内容记载多个不同的领域,为了全面校对,也可根据校对文件的内容,划分为多个分类或者领域,调用多个或者全部的系统词典或者科学实用词表进行校对。
本发明通过建立上述三种模块,通过不同的方法对文本进行校对。
进行播音校对时,首先需要向系统中导入原稿,播音语言模块对原稿的内容进行解析,生成播音语料进行播音,在播音的同时,校对人员根据播音内容对校稿进行校对。通过播音语言模块进行播音校对时,播音语言模块能够选择逐字逐句逐符号逐格的方式进行播音校对,或者忽略特殊符号,仅仅对文本内容进行播音校对。
在播音校对的过程中,可以需要也可以不需要同步使用词表科学实用模块进行校对,不使用的话,则不对原稿中的错误进行校对。在校对时同步使用词表科学实用模块时,如果播音过程中通过音节、组词规则判断原稿中出现可疑字或者可疑词,则通过同步的科学实用词表对可疑处进行判断是否需要修改,如果科学实用词表中不具有该可疑词或者可疑字,则通过将可疑处与系统词典进行对比进行判断,是否是可疑处,如果是的话,进行提醒,提醒校对人员进行修改,并将修改信息更新入科学实用词表。同时,由校对人员根据播音进行校对时,可根据人眼观察对原稿中的错误进行修改将修改信息更新入科学实用词表,也可选择通过校对人员将校对人员在校稿上修改的修改信息更新入科学实用词表。而在校对过程中,也可以仅仅调用科学实用词表,而不使用科学实用词表进行可疑处提醒。
进行语音朗读校对时,首先向系统中导入校稿,校对人员根据原稿的内容向系统中朗读原稿,语音朗读识别模块根据存储的朗读语料对校对人员输入系统中的语音进行匹配识别并解析出语音中的内容,根据该解析出的内容,对系统中的校稿进行校对。通过语音朗读识别模块进行朗读校对时,校对人员能够选择逐字逐句逐符号逐格的方式进行朗读校对,或者忽略特殊符号、逐格,仅仅对文本内容进行朗读校对。
在朗读校对的过程中,可以同时需要也可以不需要使用词表科学实用模块进行校对。在校对时需要使用词表科学实用模块举例,如果校稿中遇到可疑字或者可疑词,通过科学实用词表进行判断是否需要修改,如果科学实用词表中不具有该可疑词或者可疑字,则通过与系统词典进行对比进行判断,是否是可疑处,如果是的话,进行提醒,提醒校对人员进行修改,并将修改信息更新入科学实用词表。而在校对过程中,也可以仅仅调用科学实用词表,而不使用科学实用词表进行可疑处提醒。
词表科学实用模块也可以单独对校稿或者原稿进行校对,此时,通过已经存储有现有其它文本(尤其是同领域文本)修改信息的科学实用词表,对校稿进行逐字校对,发现可疑处进行提示修改,同时,还可与系统词典进行对比寻找可疑处,对可疑处进行提醒,进而由校对人员选择是否进行修改,此时,将修改信息加入到科学实用词表中,丰富词表的内容。
本发明的一个突出优点为:可通过科学实用词表进行同音词、形似字的提醒、报警。这两种词的异常通过调用系统词库数据库、差错类型数据库来进行播音和朗读校对。
上述的三个模块是互补、独立、相辅相成的,以求在低提示率下尽可能多的发现残留错误。并且本发明的实施过程,可以通过计算机程序来指令相关的软件来完成。现有技术中,提高审核校对质量方法:(1)正确的校对操作方法是做好校对工作的基础;校对人员带着思考,沿着校样内容的脉络,逐字逐句地、连贯地、运用自如地认真校对;(2)学习字典词典辞典(含附录)及国家出版规范,掌握汉语知识与出版业务的基本知识;(3)善于总结经验。具备建立历史思维和未来发展思维逻辑联想记忆存储关联;(4)开拓知识面。而智能机器人装置设备由于数据库的存在和不断更新升级,具有(1)认真的工作态度;(2)广博的知识。(3)文字修养高,能够通过外部扩展添加积累并掌握汉字的音、形、义及汉语的表达方式,提高辨别各种异体字、自造字、错别字和形似字的能力,增强语言表达的逻辑性与准确性的能力。因此,可以更好的进行审核校对。如图7所示,为本发明的一种校对方法的流程。播音语言模块和朗读模块在校对时均需要向系统中导入文字信息,然后校对人员可以通过操纵承载系统的装置进行模式控制,例如可以进行开始、暂停、快放、慢放等操作。而进行校对时,播音语言模块通过智能机器人进行逐字逐句逐符号的播音,进行文字或者符号的校对;而朗读识别模块通过智能机器人进行逐字逐句逐符号的播音,进行文字或者符号的校对;在上述的播音语言校对或者朗读校对的过程中对文字编辑的校对修改信息在科学实用词表中存储起来,建立易错字音数据库。
如图8所示,为本发明的逻辑结构设计。三个模块的逻辑结构分别在数据结构名称、标识符、及每个数据项的记录文卷、系的标识符定义长度及它们之间的层次或表格的相互关系进行设计。
如图9所示,为本发明的物理结构设计。三个模块的物理结构在数据存储要求、数据访问方法、数据存取单位、数据存取物理关系及数据索引设备存储的区域,进行准确设计划分同时系统设计考虑数据保密工作条件的要求和限制使用方法,如实现文档安全保密,进行密码加解密功能。
本发明还提供一种重要领域智能机器人文字播音朗读审核校对系统,包括系统载入模块,系统载入模块上连接有用户装置设备,系统载入模块内设置有播音语言模块、语音朗读识别模块、词表科学实用模块,如图4所示,用户装置设备包括用于通过播音语言模块对校稿进行播放的播放器(如放音器),和校对人员向系统载入模块输入朗读语料的录入装置设备(如耳机麦克风)。
而如图5所示,系统内部设置三个模块进行校对,且播音语言模块、语音朗读识别模块、词表科学实用模块均为可扩展的数据库模块。
而如图6所示的,系统的外部接口设置有用户进行操作的用户界面和进行校对的软件接口,用户对系统的输入和系统向外的输出均需通过预设的用户传输协议进行传输。
系统载入模块包括服务器系统、便携式存储设备。可使校对系统分为APP版、单机版、多机版、杂志社版、专业版等多个不同版本。
并且根据业务的运营经验,为了同时兼顾界面应用层的灵活度、平台层和接口层的稳定性,系统从整体上划分为基础功能、核心功能和扩展功能,可以支撑产品的快速创新和深度运营能力,可以通过音量、音频、符号读法、英文读法、数字读法、格式读法等控制选项,对播音的内容进行编辑。根据需要,可以选择播音的发音风格,如:抑扬顿挫(适用小说、评述等)和平稳端庄(适用新闻、讲解等)、自动分词。
如图12所示,为本发明的系统的体系结构,首先,包括应用层、接口层、核心层、基础层,系统层内部为语音播放和一般应用;而接口层则是用于与应用层、核心层进行信息交互时的接口服务,例如语音合成服务,Active接口控件服务,版本支持服务,扩展服务等。核心层为与接口层进行信息交互的核心引擎:如中文引擎、英文引擎等引擎,然后基础层内设置与核心层各语种音形对应的各种形式的基础音库和行业语音音库,用于核心层引擎的调用。
作为一个实施例,本发明对下述段落:
“本发明适用于文字录入、数据加工校对系统,主要使用于重要领域对文件、公文、伦文等的播音朗读校对。
三、现有技术存在的问题
目前主要的校对方式:交叉三校制。”
进行校对时的方法可以为:
词表科学实用模块校对:通过词表科学实用模块单独进行校对,此时,通过对导入系统的全篇内容进行分词,然后调用科学实用词表模块,对全文内容进行自动校对,作为错误词“伦文”,如果科学实用词表中存储有将“伦文”修改为“论文”的修改记录,则对该可疑处进行提醒或者进行自动修改,如果没有,则不提醒。也可在科学实用词表校对之后或者未使用科学实用词表校对之前,通过调用系统词库进行校对,对可疑处进行提醒。
播音校对:将上述材料导入到系统中,通过对上述材料进行分析,进行逐字逐句逐符号逐格的播音,在特殊符号播音的情况下,根据不同的播音规则,播音的结果可能为“本发明适用于文字录入、顿(号)数据加工校对系统逗(号)主要使用于对文件顿(号)公文顿(号)伦文等播音朗读校对句(号)换行黑体三顿(号)黑体现有技术存在的问题正常目前主要的校对方式:交叉三校制句号”,此时,播音语言模块对原稿内容进行播音并校对,由于语调不同,根据汉语言朗读的音节词组规则,如果发现可疑字“伦文”的读音词组有异,则使用同步进行校对的词表科学实用模块,则将该可疑字与科学实用词表进行比对,如果科学实用词表中具有该修改信息,则选择是否进行修改,如果没有,则通过系统词典查找,判断是否是可疑词,如果是,选择是否让校对工作人员进行修改。同时,播音校对,对该错误词,校对人员通过观察校稿也可将该词进行修改,将修改信息存入到科学实用词表。
朗读校对:
将校对文件导入到系统中,系统根据朗读语料数据库对导入的文件生成朗读校对文件,校对人员向系统朗读原稿,系统根据获取的朗读音频,与语言朗读识别模块中的音频进行比对,同时,同步对导入的文件使用词表科学实用模块进行校对,如果系统根据朗读语料的对比,寻找到了可疑处,则提示是否进行修改。而此时,如果词表科学实用模块也发现了可疑之处,则可选择是否进行校对,如果没有发现可疑处,则对该可疑处的文本信息调用系统词库进行校对,查找是否有错误以及是否进行提醒,同时校对人员也可根据经验判断该可疑处入“伦文”是否有无,如果认为有误则可通过对承载有本发明系统的设备的操作进行修改,并将修改信息更新到科学实用词表。
图10则是本发明系统的一种对校对时对错误信息的处理方式。在校对时,如果出错,则输出出错信息,用户界面中以一览表的方式说明每种可能的出错或故障情况出现时,系统输出信息的形式、含意,对出错处理的对措采用后备技术如数据存储容灾系统、降效技术、恢复再启动技术,在上述出错输出信息时,有安全保密设计进行保障,系统的用户管理保证了只有授权的用户才能进入系统进行数据访问操作,而且对一些重要数据,系统设置为只有更高权限的人员方可读取访问或操作。
本发明的系统是需要进行定期维护的,如图11所示,在系统中需要设计系统检查和维护的监测点和专用模块进行系统维护。
本发明智能播音朗读校对系统和方法,运行环境可以嵌入到OFFICE、WPS、记事本、排版软件、微信、APP等文字处理器应用程序,可以单独使用,可以智能机器人使用。方便了校对者通过智能机器人播音朗读语音实现单人精准文字信息核对,是信息处理技术的关键,适用范围广,例如可适用于网络远程稿件的校对。
相对之前逐字核查找错检验校对质量的方法,本发明大大减少了核查工作量,减轻了核查人员的疲劳程度。因此,该系统和方法的提出对于发展智能校对技术的信息化,尤其应用于重要敏感信息、涉密信息领域,需要单人或极少数人完成的项目,提升社会的信息安全保障水平有着非常重要的意义。
以上所述的仅是本发明的优选实施方式,应当指出,对于本领域的技术人员来说,在不脱离本发明整体构思前提下,还可以作出若干改变和改进,这些也应该视为本发明的保护范围。

Claims (10)

1.智能机器人文字播音朗读审核校对方法,其特征在于:
预先建立以下三个数据库模块:
播音语言模块,所述播音语言模块为通过收集各类原始语言材料、汉语知识库的文字播音语料和特殊符号的播音语料形成的播音语料数据库;所述特殊符号包括文本中不属于文字字符的所有符号;
语音朗读识别模块,所述语音朗读识别模块为通过收集各类原始语言材料、汉语知识库的文字朗读语料和特殊符号的朗读语料形成的语音朗读数据库;所述特殊符号包括文本中不属于文字字符的所有符号;所述语音朗读识别模块中同时设置有对于校稿进行校对的内容;
词表科学实用模块,所述词表科学实用模块包括系统词库数据库、差错类型数据库和科学实用词表,所述系统词库数据库为全部知识库;所述差错类型数据库为正向的逻辑函数序列库;所述科学实用词表包括收集的修改信息;所述修改信息为通过将校对修改中属于差错类型数据库中的差错类型的可疑处与系统词典数据库进行对比,获取的正确信息;
进行播音校对时:
向系统中导入原稿,播音语言模块对原稿的内容进行播音,校对人员根据播音的内容对校稿进行校对;
进行语音朗读校对时:
向系统中导入校稿,校对人员向系统中朗读原稿,语音朗读识别模块根据存储的朗读语料对校对人员输入系统中的语音进行识别并解析出语音中的内容,根据该解析出的内容,对系统中的校稿进行校对;
词表科学实用模块能够单独对原稿或者校稿的可疑处进行提醒,使校对人员选择是否进行修改,并在修改过程中将修改信息添加到科学实用词表中;同时,在上述进行播音校对或者语音朗读校对的同时,能够使用词表科学实用模块对可疑处进行提醒,使校对人员选择是否进行修改,修改时将修改信息存储在科学实用词表,同时也能够选择不使用词表科学实用模块进行可疑处提醒,仅仅在对原稿或者校稿进行修改时,将修改信息存储在科学实用词表。
2.根据权利要求1所述的智能机器人文字播音朗读审核校对方法,其特征在于:
所述通过播音语言模块进行播音校对时,播音语言模块能够选择逐字逐句逐符号逐格式的方式进行播音校对,或者忽略特殊符号,仅仅对文本内容进行播音校对;
所述通过语音朗读识别模块进行朗读校对时,校对人员能够选择逐字逐句逐符号逐格式的方式进行朗读校对,或者忽略特殊符号,仅仅对文本内容进行朗读校对。
3.根据权利要求1所述的智能机器人文字播音朗读审核校对方法,其特征在于:
词表科学实用模块的系统词库数据库和科学实用词表进行建立时,对系统词库数据库进行类型分类或者添加不同类型的词库数据库,同时科学实用词表的修改信息在建立时,将不同校对文本类型分类后,将校对时的修改信息存储在相应的类型数据库中,建立词表科学实用模块的历史数据;
在进行校对时,对导入的作为校对文本的原稿或者校稿,先进行分类,建立与系统词库数据库和科学实用词表的关联,校对时,调用系统词库数据库中的一个或多个词库数据库,或者调用科学实用词表中的一个或者多个类型的数据库,对校对文本进行校对。
4.根据权利要求1所述的智能机器人文字播音朗读审核校对方法,其特征在于:所述播音语言模块进行播音朗读时,能够选择全文朗读或单句朗读或从光标处朗读或只朗读选中文本模式。
5.根据权利要求1所述的智能机器人文字播音朗读审核校对方法,其特征在于:所述对原稿或者校稿进行校对过程中,如果发现不属于差错类型数据库中的差错类型的可疑处,则提示未知错误或者不提示;如果提示未知错误,则校对人员能够选择对此可疑处进行修改,并将该差错类型写入差错类型数据库中,或者忽略该可疑处。
6.根据权利要求1所述的智能机器人文字播音朗读审核校对方法,其特征在于:所述对校稿进行校对的内容包括:(1)多、漏、错文字及标点、符号错误校对;标题、署名,文中人名、地名、数字、公式错误校对;(2)版面、格式,图表位置及表题、图题,字体、字号、字距和行距校对;(3)标题位置、层次及转行,注释、参考文献及序号校对,中英文目录及页码与文章的一致校对;(4)目录及对应的页码、刊眉、页码顺序、版权,封面、封二、封三、封底的文字、刊号、年月期号校对。
7.应用权利要求1~6任一项所述的智能机器人文字播音朗读审核校对方法的系统,其特征在于:包括系统载入模块,所述系统载入模块上连接有用户设备,
所述系统载入模块内设置有播音语言模块、语音朗读识别模块、词表科学实用模块,
所述用户设备包括用于通过播音语言模块对校稿进行播放的播放器,和校对人员向系统载入模块输入朗读语料的麦克风。
8.根据权利要求7所述的系统,其特征在于:所述播音语言模块、语音朗读识别模块、词表科学实用模块均为可扩展的数据库模块。
9.根据权利要求7所述的系统,其特征在于:所述系统载入模块包括服务器系统、便携式存储设备。
10.根据权利要求7所述的系统,其特征在于:系统审核能够作为管理人员选项设置签批审核意见。
CN201611070158.1A 2016-11-29 2016-11-29 智能机器人文字播音朗读审核校对方法和系统 Active CN106601253B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611070158.1A CN106601253B (zh) 2016-11-29 2016-11-29 智能机器人文字播音朗读审核校对方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611070158.1A CN106601253B (zh) 2016-11-29 2016-11-29 智能机器人文字播音朗读审核校对方法和系统

Publications (2)

Publication Number Publication Date
CN106601253A CN106601253A (zh) 2017-04-26
CN106601253B true CN106601253B (zh) 2017-12-12

Family

ID=58595379

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611070158.1A Active CN106601253B (zh) 2016-11-29 2016-11-29 智能机器人文字播音朗读审核校对方法和系统

Country Status (1)

Country Link
CN (1) CN106601253B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110391638A (zh) * 2018-04-23 2019-10-29 广东电网有限责任公司 一种基于智能语音系统的现场保护定值核对方法
CN109255113B (zh) * 2018-09-04 2022-10-11 郑州信大壹密科技有限公司 智能校对系统
CN109858014A (zh) * 2018-12-10 2019-06-07 西南石油大学 语言信息主动校对系统及其主动校对方法
CN112036187A (zh) * 2020-07-09 2020-12-04 上海极链网络科技有限公司 一种结合上下文语境的视频弹幕文本审核方法及系统
CN115082045B (zh) * 2022-08-22 2023-01-03 深圳译码阁科技有限公司 数据校对方法、装置、计算机设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1082218A (zh) * 1993-06-26 1994-02-16 李金龙 一种中文自动校对的方法
CN1089045A (zh) * 1992-12-30 1994-07-06 北京海淀施达测控技术公司 汉字文本的计算机语音监听及校对系统
CN1112251A (zh) * 1994-05-16 1995-11-22 北京超凡电子科技有限公司 原音校正文稿工具
CN102930866A (zh) * 2012-11-05 2013-02-13 广州市神骥营销策划有限公司 一种用于口语练习的学生朗读作业的评判方法
CN103714048A (zh) * 2012-09-29 2014-04-09 国际商业机器公司 用于校正文本的方法和系统
CN104484322A (zh) * 2010-09-24 2015-04-01 新加坡国立大学 用于自动化文本校正的方法和系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1089045A (zh) * 1992-12-30 1994-07-06 北京海淀施达测控技术公司 汉字文本的计算机语音监听及校对系统
CN1082218A (zh) * 1993-06-26 1994-02-16 李金龙 一种中文自动校对的方法
CN1112251A (zh) * 1994-05-16 1995-11-22 北京超凡电子科技有限公司 原音校正文稿工具
CN104484322A (zh) * 2010-09-24 2015-04-01 新加坡国立大学 用于自动化文本校正的方法和系统
CN103714048A (zh) * 2012-09-29 2014-04-09 国际商业机器公司 用于校正文本的方法和系统
CN102930866A (zh) * 2012-11-05 2013-02-13 广州市神骥营销策划有限公司 一种用于口语练习的学生朗读作业的评判方法

Also Published As

Publication number Publication date
CN106601253A (zh) 2017-04-26

Similar Documents

Publication Publication Date Title
McEnery Corpus linguistics
CN106601253B (zh) 智能机器人文字播音朗读审核校对方法和系统
Gries et al. Linguistic annotation in/for corpus linguistics
Aijmer et al. English corpus linguistics
Rozovskaya et al. Training paradigms for correcting errors in grammar and usage
Dash Corpus linguistics and language technology: With reference to Indian languages
Baker Glossary of corpus linguistics
CN111259631B (zh) 一种裁判文书结构化方法及装置
CN110188347A (zh) 一种面向文本的知识主题间认知关系抽取方法
CN112380868A (zh) 一种基于事件三元组的信访目的多分类装置及其方法
Kambarami et al. Computational modeling of agglutinative languages: the challenge for southern bantu languages
Sugisaki et al. Building a corpus from handwritten picture postcards: Transcription, annotation and part-of-speech tagging
CN111597302B (zh) 文本事件的获取方法、装置、电子设备及存储介质
CN103164398A (zh) 汉维电子辞典及其自动转译汉维语的方法
Guo et al. Construction of the dynamic word structural mode knowledge base for the international Chinese teaching
JP2017228307A (ja) 主語動詞の一致誤り検出装置及び一致誤り検出用プログラム
CN110765107A (zh) 基于数字化编码的题型识别方法及其系统
Marquilhas et al. Manuscripts and machines: the automatic replacement of spelling variants in a Portuguese historical corpus
KS et al. Automatic error detection and correction in malayalam
Darģis et al. The use of text alignment in semi-automatic error analysis: use case in the development of the corpus of the Latvian language learners
CN109325225B (zh) 一种通用的基于关联的词性标注方法
JP2007241900A (ja) ネーミングシステム及びネーミング自動化方法
Medrano Toward a Khipu Transcription" Insistence": a Corpus-Based Study of the Textos Andinos
Akbari et al. A linguistic analysis of errors in news agencies and websites of Iran
Xie et al. Review of copy detection techniques for monolingual natural-language documents

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant