CN109255113A

CN109255113A - 智能校对系统

Info

Publication number: CN109255113A
Application number: CN201811022154.5A
Authority: CN
Inventors: 鲁艳; 焦少波; 陈�光; 董安琪
Original assignee: Zhengzhou Xin Da Yi Mi Technology Co Ltd
Current assignee: Zhengzhou Xin Da Yi Mi Technology Co Ltd
Priority date: 2018-09-04
Filing date: 2018-09-04
Publication date: 2019-01-22
Anticipated expiration: 2038-09-04
Also published as: CN109255113B

Abstract

本发明公开了一种智能校对系统，建立文本校对模块、语音合成模块、语音识别模块、OCR识别模块四个模块，系统核心校对工作由文本校对模块完成；语音合成、语音识别模块、OCR识别模块负责将校对结果导出为语音、将语音识别为文本、将图文识别为文本，文本校对模块负责将识别后的文本进行校对工作。系统融合了自然语言处理、语音识别、语音合成、OCR识别等多种人工智能技术手段，在文本、语音、图片等不同形式输入下均可以完成校对工作，增加了人机交互过程，减少了工作人员工作量，并提高了校对效率及准确率。

Description

智能校对系统

技术领域

本发明涉及出版检校技术领域，具体涉及一种基于语音交互的智能校对方法及系统。

背景技术

在中文文字处理中，录入、编辑和排版都已经有相当成熟的电脑应用系统，但文本校对这一中间环节尚停留主要依靠人工处理阶段，并已成为新闻、出版、办公室文印等领域制约整个行业发展，影响工作效率的瓶颈。

校对是保证录入文档内容准确性的重要一环，已有1400年的历史。如果文稿校对不准确，一字之差就会造成读者的困惑或不满，严重时会造成重大事故。因此需增强对校对工作的认识，提高校对工作的技巧，使校对更好地发挥消灭差错保证质量的作用。近年来，国内外都在进行文本自动查错和纠错方面的研究，并取得了一定的成果，目前市场现有的文本校对软件可以完成初步的简单的审核校对，这些软件在校对文字、专业术语、单位和专业名词等方面还可以，但在校对敏感问题，如政治、宗教还有知识性错误、事实性错误、单句/篇章语法错误等都存在无法校对或者准确率不高等问题，导致不能准确的校对是非、校对的误报率较高等问题。

同时，虽然人工智能技术飞速发展，但市场上尚未出现专门针对校对市场的智能校对系统，目前的校对软件绝大部分为文本输入，少部分有图片识别的功能，对于多种格式的输入和输出具有一定的局限性，所以目前的校对市场仍以人工校对为主，对降低校对人员工作量方面效用不大，因此研究结合多种人工智能的技术手段，提高校对准确率，降低校对人员的庞大工作量的智能校对系统还是很有必要的。

发明内容

针对校对工作多，工作人员工作量大，为了有效降低校对工作错误率，提升校对准确率，本发明融合语音识别、语音合成、OCR识别等多种人工智能技术手段，合理利用计算机进行辅助工作，通过人机互动，减少了人工校对工作量，减轻校对人员的疲劳程度，提高工作效率和准确度。

本发明所采用的技术方案：一种智能校对系统，建立文本校对模块、语音合成模块、语音识别模块、OCR识别模块四个模块，系统核心校对工作由文本校对模块完成，语音识别模块在于工作人员朗读，计算机进行校对；语音合成模块计算机校对，朗读并提醒，工作人员判断,OCR识别模块在于将输入的图片转为文本；语音合成、语音识别模块、OCR识别模块负责将校对结果导出为语音、将语音识别为文本、将图文识别为文本，文本校对模块负责将识别后的文本进行校对工作。

文本校对模块实现方法包括以下步骤：

（1）首先对于用户输入的问句进行分词处理和词性标注；（2）通过将分词后的词语串采用N-gram语言模型进行建模；（3）采用N-gram方法以庞大的语料库做基础，进行错误字符的定位操作，检测到可能出错的位置；（4）将疑错窗口中的字符再通过词性的N-gram方法进行进一步检测，如果检测为不合理，则判定为错误，定义为出错字符串；（5）将出错字符串进行纠错处理，给出最近的相似词语，进行返回（6）组合成纠错后的语句返回给用户或者进行下一步处理。

语音合成模块包括训练阶段和合成阶段如下。

训练阶段主要包括预处理和隐马尔科夫模型训练。在预处理阶段，首先需要对音库中的语音数据进行分析，以提取出一些相应的语音参数(基频和谱参数)。根据提取得到的语音参数，利用隐马尔科夫模型的观测向量将语音参数分成谱和基频两个部分。其中，采用连续概率分布HMM对谱参数部分进行建模，而对基频部分则采用多空间概率分布HMM进行建模。对隐马尔科夫模型进行训练前，另外一个重要的工作就是设计上下文属性集和用于决策树聚类的问题集，即根据先验知识来选择一些对谱、基频和时长这些声学参数有一定影响的上下文属性，并设计与上下文属性相应的问题集以用于上下文相关模型聚类。

预处理完成后就是整个隐马尔科夫模型的训练过程，其训练步骤依次为模型的初始化、声韵母的HMM训练、扩展上下文相关模型的训练、聚类后模型的训练以及时长模型的训练，最后得到的训练结果包括谱、基频和时长参数的聚类隐马尔科夫模型以及各自的决策树。

合成阶段主要分为三个步骤，首先，输入的文本经过文本分析后转换成上下文相关的单元序列；然后，利用训练得到的决策树对每一个单元进行决策，得到对应的聚类状态模型，并形成聚类状态模型序列；最后，根据参数生成算法，利用参数的动态特性来生成目标的声学参数序列，并且通过STRAIGHT合成器得到最终的合成语音。

语音识别模块的搭建：语音识别模块的搭建需要基于人工智能及自然语言处理(NLP)等前沿学科知识，通过大规模的机器学习和自然语言数据统计，建立有效的自然语言统计模型，以支持智能语音校对。首先，语言特征提取工作将声音信号从时域转换到频域，为声学模型提供合适的特征向量；其次，声学模型中再根据声学特性计算每一个特征向量在声学特征上的得分；而语言模型则根据语言学相关的理论，计算该声音信号对应可能词组序列的概率；最后根据已有的字典，对词组序列进行解码，得到最后可能的文本表示。

OCR识别模块：第1步：需进行图像预处理，包含二值化、去噪、倾斜度矫正等；第2步：进行图像分割，将所要识别的文档分段、分行处理，按照版面做出来；第3步为字符识别，通过字符定位和字符切割，定位出字符串的边界；第4步分别对字符串进行单个切割，将切割过的字符提取特征向量并与特征模板库进行模板粗分类和模板细匹配，识别出字符；第5步将识别结果按照原来的版面排版，输出Word或pdf格式的文档。

所述语音合成模块为基于大量的语音数据和统计模型所建立的模块，满足已知文本生成语音的需求，打通人机交互闭环；该模块工作方式为计算机负责文本校对，并将校对后的样稿语音合成，并提醒工作人员；该模块的核心工作为语音合成，校对工作可以选择调用文本校对模块。语音合成模块在分词前会提前建立一个分词词库，将文本中与分词词库中相一致的词语切分出来实现词语的划分。

所述语言识别模块中，1.语言特征提取主要用于声音分析，其提取的目的是从语音波形中提取出岁时间变化的语音特征序列。2.声学模型是识别系统的底层模型，并且是语音识别系统中最关键的一部分。声学模型由获取的语音特征通过学习算法产生，在语音识别时将输入的语音特征与声学模型进行匹配与比较，得到最佳的识别结果。3.语言模型对中、大词汇量的语音识别系统特别重要。语言模型的作用是通过对大量文本信息进行训练，得到单个字或者词相互关联的概率。其主要为由识别语音命令构成的语法网络或由统计方法构成的语言模型。语言模型可以进行语法、语义分析，当分类发生错误时可以根据语言学模型、语法结构、语义学进行判断纠正，特别是一些同音字则必须通过上下文结构才能确定语义。4.字典为字或者词与音素的对应，包含模块所能处理的词汇集及其发音，其实际提供了声学模型建模单元与语言模型建模单元间的映射。5.语料库是实现语音识别系统的基础，语料库由语音文件和文本标注文件两部分组成。

OCR模块在获取版面信息时，首先要进行版面分析，把一整张图像拆分为行；便于后面逐行地处理；在图像没有明显倾斜扭曲时，使用笔画等宽算法把非笔迹的像素过滤掉，再使用投影直方图进行分行拆分；在行拆完成后，将其拆分为字符，即把每一行拆分到独立的字。

本发明的有益效果：系统融合了自然语言处理、语音识别、语音合成、OCR识别等多种人工智能技术手段，在文本、语音、图片等不同形式输入下均可以完成校对工作，增加了人机交互过程，减少了工作人员工作量，并提高了校对效率及准确率。

系统可以识别语音输入、图片输入、文本输入，计算机校对完成后，用户可以选择文本输出或者语音输出，语音合成模块将完成校对后的样稿进行语音合成，并在校对错误的地方给予工作人员弹窗提醒，由工作人员选择是否修改，如果修改则人工修改，并将修改信息并入自定义信息库，便于计算机自学习。

附图说明

图1是四个模块业务交互流程。

图2是文本校对模块工作过程。

图3是语音合成模块工作过程。

图4是语音识别模块工作过程。

图5是OCR识别模块工作过程。

具体实施方式

系统建立文本校对模块、语音合成模块、语音识别模块、OCR识别模块四个功能模块，其中语音合成、语音识别模块、OCR识别模块负责将校对结果导出为语音、将语音识别为文本、将图文识别为文本，文本校对模块负责将识别后的文本进行校对工作。系统核心校对工作均由文本校对模块完成，所采用的语音识别、语音合成、OCR识别等技术手段均为辅助技术手段。

OCR识别模块在于将输入的图片转为文本。

语音识别模块在于工作人员朗读，计算机进行校对。

语音合成模块计算机校对，朗读并提醒，工作人员判断。

文本校对模块：文本校对以自动分词为基础，结合统计和规则的方法，校对出不符合现代汉语词法规律和背景常识的词级及语义错误。该模块建立分词库，错误规则库、语料库、背景知识库、自定义信息库。

系统采用的语言模型是基于词的语言模型，需要首先进行文本的分词处理；在进行分词后对词语进行词性标注，如果其中包含错误的字，就会出现大量的散串，而后通过对于散串的处理，结合字典，进行词语纠正。

系统采用的查错策略是基于语料库的N-gram方法，对分词后的字符串进行统计分析来进行出错字符串的定位。通过N-gram模型，基于大规模的语料库进行统计，来查找到文本中的局部可能出现的错误。而后通过上下文依存句法的分析，得到可能出现的词语错误，然后进行校正。

文本校对模块实现方法包括以下步骤：

语音合成模块为基于大量的语音数据和统计模型所建立的模块，满足已知文本生成语音的需求，打通人机交互闭环。

该模块工作方式为计算机负责文本校对，并将校对后的样稿语音合成，并提醒工作人员。该模块的核心工作为语音合成，校对工作可以选择调用文本校对模块。

语音合成模块在分词前会提前建立一个分词词库，将文本中与分词词库中相一致的词语切分出来，从而实现词语的划分。基于隐马尔科夫模型HMM，而且整个训练过程基本上不依赖于发音人、发音风格以及情感等因素。在语音拼接时采用基于语音编码的拼接合成技术。

语音合成模块包括训练阶段和合成阶段如下。

基于隐马尔科夫模型HMM，整个训练过程基本上不依赖于发音人、发音风格以及情感等因素。在语音拼接时采用基于语音编码的拼接合成技术，实现语音输出的功能。

首先系统读取所要发音的校对文本，由于汉语的词语与词语之间没有如英文中单词之间的空白来分隔，因此要根据制定好的文本分析规则对文本进行分析，以便经过语音合成后输出的语音在词与词之间加入适当的停顿，模仿人在朗读文章时的效果。

其次为了使合成的语音具有较好的自然度，需要按照一定的韵律模型对发音的韵律进行分析、控制，以修饰原始的语音数据。

最后按照相对应的拼接算法讲不同的发音基本元素进行拼接合成，从而获得整个文本的发音文件，实现语音输出的功能。

语音识别模块：语音识别模块的搭建需要基于人工智能及自然语言处理(NLP)等前沿学科知识，通过大规模的机器学习和自然语言数据统计，建立有效的自然语言统计模型，以支持智能语音校对。

语音识别模块也是校对系统的智能辅助模块，其工作方式为：校对人员朗读校样，计算机识别语音信号，并完成校对工作。因此该模块的核心工作模块为：1.将语音信号转换成相对应的文本信息；2.调用文本校对模块，完成校对工作。

处理语音识别主要包括特征提取、声学模型、语言模型以及字典与解码四大部分，此外为了更有效地提取特征往往还需要对所采集到的声音信号进行滤波、分侦等音频数据预处理工作，将需要分析的音频信号从原始信号中合适地提取出来。

首先，特征提取工作将声音信号从时域转换到频域，为声学模型提供合适的特征向量；其次，声学模型中再根据声学特性计算每一个特征向量在声学特征上的得分；而语言模型则根据语言学相关的理论，计算该声音信号对应可能词组序列的概率；最后根据已有的字典，对词组序列进行解码，得到最后可能的文本表示。

其中：1.语言特征提取主要用于声音分析，其提取的目的是从语音波形中提取出岁时间变化的语音特征序列。2.声学模型是识别系统的底层模型，并且是语音识别系统中最关键的一部分。声学模型由获取的语音特征通过学习算法产生，在语音识别时将输入的语音特征与声学模型进行匹配与比较，得到最佳的识别结果。3.语言模型对中、大词汇量的语音识别系统特别重要。语言模型的作用是通过对大量文本信息进行训练，得到单个字或者词相互关联的概率。其主要为由识别语音命令构成的语法网络或由统计方法构成的语言模型。语言模型可以进行语法、语义分析，当分类发生错误时可以根据语言学模型、语法结构、语义学进行判断纠正，特别是一些同音字则必须通过上下文结构才能确定语义。4.字典为字或者词与音素的对应，包含模块所能处理的词汇集及其发音，其实际提供了声学模型建模单元与语言模型建模单元间的映射。5.语料库是实现语音识别系统的基础，语料库由语音文件和文本标注文件两部分组成。

OCR识别模块：OCR识别模块为系统辅助校对模块，主要用于对图像文件进行分析处理，获取文字及版面信息。第1步：需进行图像预处理，包含二值化、去噪、倾斜度矫正等；第2步：进行图像分割，将所要识别的文档分段、分行处理，按照版面做出来；第3步为字符识别，通过字符定位和字符切割，定位出字符串的边界；第4步分别对字符串进行单个切割，将切割过的字符提取特征向量并与特征模板库进行模板粗分类和模板细匹配，识别出字符；第5步将识别结果按照原来的版面排版，输出Word或pdf格式的文档。

另外，OCR模块在获取版面信息时，首先要进行版面分析，把一整张图像拆分为行；便于后面一行一行地处理。在图像没有明显倾斜扭曲时，使用笔画等宽算法(swt算法)把非笔迹的像素过滤掉，再使用投影直方图进行分行拆分；在行拆完成后，将其拆分为字符，就是把每一行拆分到独立的字，采用的拆分方法是连通域分析法。

Claims

1.一种智能校对系统，其特征在于，包括建立文本校对模块、语音合成模块、语音识别模块和OCR识别模块，系统核心校对工作由文本校对模块完成，语音识别模块在于工作人员朗读，计算机进行校对,OCR识别模块在于将输入的图片转为文本；语音合成模块计算机校对，朗读并提醒，工作人员判断；语音合成、语音识别模块、OCR识别模块负责将校对结果导出为语音、将语音识别为文本、将图文识别为文本，文本校对模块负责将识别后的文本进行校对工作；

所述文本校对模块实现方法包括以下步骤：（1）对于用户输入的问句进行分词处理和词性标注；（2）通过将分词后的词语串采用 N-gram 语言模型进行建模；（3）采用 N-gram方法以庞大的语料库做基础，进行错误字符的定位操作，检测到可能出错的位置；（4）将疑错窗口中的字符再通过词性的 N-gram 方法进行进一步检测，如果检测为不合理，则判定为错误，定义为出错字符串；（5）将出错字符串进行纠错处理，给出最近的相似词语，进行返回（6）组合成纠错后的语句返回给用户或者进行下一步处理；

所述语音合成模块包括训练阶段和合成阶段；所述训练阶段主要包括预处理和隐马尔科夫模型训练；在预处理阶段，首先需要对音库中的语音数据进行分析，以提取出一些相应的语音参数，根据提取得到的语音参数，利用隐马尔科夫模型的观测向量将语音参数分成谱和基频两个部分；整个隐马尔科夫模型的训练过程，其训练步骤依次为模型的初始化、声韵母的HMM训练、扩展上下文相关模型的训练、聚类后模型的训练以及时长模型的训练，最后得到的训练结果包括谱、基频和时长参数的聚类隐马尔科夫模型以及各自的决策树；所述合成阶段主要分为三个步骤，首先，输入的文本经过文本分析后转换成上下文相关的单元序列；然后，利用训练得到的决策树对每一个单元进行决策，得到对应的聚类状态模型，并形成聚类状态模型序列；最后，根据参数生成算法，利用参数的动态特性来生成目标的声学参数序列，并且通过 STRAIGHT合成器得到最终的合成语音；

所述语音识别模块的搭建：首先，特征提取工作将声音信号从时域转换到频域，为声学模型提供合适的特征向量；其次，声学模型中再根据声学特性计算每一个特征向量在声学特征上的得分；而语言模型则根据语言学相关的理论，计算该声音信号对应可能词组序列的概率；最后根据已有的字典，对词组序列进行解码，得到最后可能的文本表示；

所述OCR识别模块的实现步骤：（1）进行图像预处理，包含二值化、去噪、倾斜度矫正处理；（2）进行图像分割，将所要识别的文档分段、分行处理，按照版面做出来；（3）为字符识别，通过字符定位和字符切割，定位出字符串的边界，然后分别对字符串进行单个切割，将切割过的字符提取特征向量并与特征模板库进行模板粗分类和模板细匹配，识别出字符；（4）最后将识别结果按照原来的版面排版，输出Word或pdf格式的文档。

2.根据权利要求1所述的智能校对系统，其特征在于，语音合成模块的训练阶段中，在在预处理阶段采用连续概率分布HMM对谱参数部分进行建模，而对基频部分则采用多空间概率分布HMM进行建模。

3.根据权利要求1所述的智能校对系统，其特征在于，对隐马尔科夫模型进行训练前，设计上下文属性集和用于决策树聚类的问题集，即根据先验知识来选择一些对谱、基频和时长这些声学参数有一定影响的上下文属性，并设计与上下文属性相应的问题集以用于上下文相关模型聚类。

4.根据权利要求1所述的智能校对系统，其特征在于，对所述语言模型进行语法和语义分析，当分类发生错误时根据语言学模型、语法结构、语义学进行判断纠正。

5.根据权利要求4所述的智能校对系统，其特征在于，判断纠正是指对一些同音字通过上下文结构能确定语义。

6.根据权利要求1所述的智能校对系统，其特征在于，所述语音合成模块为基于大量的语音数据和统计模型所建立的模块，满足已知文本生成语音的需求，打通人机交互闭环；该模块工作方式为计算机负责文本校对，并将校对后的样稿语音合成，并提醒工作人员；该模块的核心工作为语音合成，校对工作可以选择调用文本校对模块。

7.根据权利要求1或6所述的智能校对系统，其特征在于，语音合成模块在分词前会提前建立一个分词词库，将文本中与分词词库中相一致的词语切分出来实现词语的划分。

8.根据权利要求1所述的智能校对系统，其特征在于，语音识别模块中，所述语言特征提取：主要用于声音分析，其提取的目的是从语音波形中提取出岁时间变化的语音特征序列；所述声学模型：是识别系统的底层模型，并且是语音识别系统中最关键的一部分；声学模型由获取的语音特征通过学习算法产生，在语音识别时将输入的语音特征与声学模型进行匹配与比较，得到最佳的识别结果；所述字典为字或者词与音素的对应，包含模块所能处理的词汇集及其发音，提供声学模型建模单元与语言模型建模单元间的映射。

9.根据权利要求1所述的智能校对系统，其特征在于，文本校对模块中，所述语言模型：通过对大量文本信息进行训练，得到单个字或者词相互关联的概率，其主要为由识别语音命令构成的语法网络或由统计方法构成的语言模型；所述语料库：是实现语音识别系统的基础，语料库由语音文件和文本标注文件两部分组成。

10.根据权利要求1所述的智能校对系统，其特征在于，OCR模块在获取版面信息时，首先要进行版面分析，把一整张图像拆分为行；便于后面逐行地处理；在图像没有明显倾斜扭曲时，使用笔画等宽算法把非笔迹的像素过滤掉，再使用投影直方图进行分行拆分；在行拆完成后，将其拆分为字符，即把每一行拆分到独立的字。