CN109255113A - 智能校对系统 - Google Patents

智能校对系统 Download PDF

Info

Publication number
CN109255113A
CN109255113A CN201811022154.5A CN201811022154A CN109255113A CN 109255113 A CN109255113 A CN 109255113A CN 201811022154 A CN201811022154 A CN 201811022154A CN 109255113 A CN109255113 A CN 109255113A
Authority
CN
China
Prior art keywords
text
module
model
voice
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811022154.5A
Other languages
English (en)
Other versions
CN109255113B (zh
Inventor
鲁艳
焦少波
陈�光
董安琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Xin Da Yi Mi Technology Co Ltd
Original Assignee
Zhengzhou Xin Da Yi Mi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Xin Da Yi Mi Technology Co Ltd filed Critical Zhengzhou Xin Da Yi Mi Technology Co Ltd
Priority to CN201811022154.5A priority Critical patent/CN109255113B/zh
Publication of CN109255113A publication Critical patent/CN109255113A/zh
Application granted granted Critical
Publication of CN109255113B publication Critical patent/CN109255113B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/189Automatic justification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Abstract

本发明公开了一种智能校对系统,建立文本校对模块、语音合成模块、语音识别模块、OCR识别模块四个模块,系统核心校对工作由文本校对模块完成;语音合成、语音识别模块、OCR识别模块负责将校对结果导出为语音、将语音识别为文本、将图文识别为文本,文本校对模块负责将识别后的文本进行校对工作。系统融合了自然语言处理、语音识别、语音合成、OCR识别等多种人工智能技术手段,在文本、语音、图片等不同形式输入下均可以完成校对工作,增加了人机交互过程,减少了工作人员工作量,并提高了校对效率及准确率。

Description

智能校对系统
技术领域
本发明涉及出版检校技术领域,具体涉及一种基于语音交互的智能校对方法及系统。
背景技术
在中文文字处理中,录入、编辑和排版都已经有相当成熟的电脑应用系统,但文本校对这一中间环节尚停留主要依靠人工处理阶段,并已成为新闻、出版、办公室文印等领域制约整个行业发展,影响工作效率的瓶颈。
校对是保证录入文档内容准确性的重要一环,已有1400年的历史。如果文稿校对不准确,一字之差就会造成读者的困惑或不满,严重时会造成重大事故。因此需增强对校对工作的认识,提高校对工作的技巧,使校对更好地发挥消灭差错保证质量的作用。近年来,国内外都在进行文本自动查错和纠错方面的研究,并取得了一定的成果,目前市场现有的文本校对软件可以完成初步的简单的审核校对,这些软件在校对文字、专业术语、单位和专业名词等方面还可以,但在校对敏感问题,如政治、宗教还有知识性错误、事实性错误、单句/篇章语法错误等都存在无法校对或者准确率不高等问题,导致不能准确的校对是非、校对的误报率较高等问题。
同时,虽然人工智能技术飞速发展,但市场上尚未出现专门针对校对市场的智能校对系统,目前的校对软件绝大部分为文本输入,少部分有图片识别的功能,对于多种格式的输入和输出具有一定的局限性,所以目前的校对市场仍以人工校对为主,对降低校对人员工作量方面效用不大,因此研究结合多种人工智能的技术手段,提高校对准确率,降低校对人员的庞大工作量的智能校对系统还是很有必要的。
发明内容
针对校对工作多,工作人员工作量大,为了有效降低校对工作错误率,提升校对准确率,本发明融合语音识别、语音合成、OCR识别等多种人工智能技术手段,合理利用计算机进行辅助工作,通过人机互动,减少了人工校对工作量,减轻校对人员的疲劳程度,提高工作效率和准确度。
本发明所采用的技术方案:一种智能校对系统,建立文本校对模块、语音合成模块、语音识别模块、OCR识别模块四个模块,系统核心校对工作由文本校对模块完成,语音识别模块在于工作人员朗读,计算机进行校对;语音合成模块计算机校对,朗读并提醒,工作人员判断,OCR识别模块在于将输入的图片转为文本;语音合成、语音识别模块、OCR识别模块负责将校对结果导出为语音、将语音识别为文本、将图文识别为文本,文本校对模块负责将识别后的文本进行校对工作。
文本校对模块实现方法包括以下步骤:
(1)首先对于用户输入的问句进行分词处理和词性标注;(2)通过将分词后的词语串采用N-gram语言模型进行建模;(3)采用N-gram方法以庞大的语料库做基础,进行错误字符的定位操作,检测到可能出错的位置;(4)将疑错窗口中的字符再通过词性的N-gram方法进行进一步检测,如果检测为不合理,则判定为错误,定义为出错字符串;(5)将出错字符串进行纠错处理,给出最近的相似词语,进行返回(6)组合成纠错后的语句返回给用户或者进行下一步处理。
语音合成模块包括训练阶段和合成阶段如下。
训练阶段主要包括预处理和隐马尔科夫模型训练。在预处理阶段,首先需要对音库中的语音数据进行分析,以提取出一些相应的语音参数(基频和谱参数)。根据提取得到的语音参数,利用隐马尔科夫模型的观测向量将语音参数分成谱和基频两个部分。其中,采用连续概率分布HMM对谱参数部分进行建模,而对基频部分则采用多空间概率分布HMM进行建模。对隐马尔科夫模型进行训练前,另外一个重要的工作就是设计上下文属性集和用于决策树聚类的问题集,即根据先验知识来选择一些对谱、基频和时长这些声学参数有一定影响的上下文属性,并设计与上下文属性相应的问题集以用于上下文相关模型聚类。
预处理完成后就是整个隐马尔科夫模型的训练过程,其训练步骤依次为模型的初始化、声韵母的HMM训练、扩展上下文相关模型的训练、聚类后模型的训练以及时长模型的训练,最后得到的训练结果包括谱、基频和时长参数的聚类隐马尔科夫模型以及各自的决策树。
合成阶段主要分为三个步骤,首先,输入的文本经过文本分析后转换成上下文相关的单元序列;然后,利用训练得到的决策树对每一个单元进行决策,得到对应的聚类状态模型,并形成聚类状态模型序列;最后,根据参数生成算法,利用参数的动态特性来生成目标的声学参数序列,并且通过STRAIGHT合成器得到最终的合成语音。
语音识别模块的搭建:语音识别模块的搭建需要基于人工智能及自然语言处理(NLP)等前沿学科知识,通过大规模的机器学习和自然语言数据统计,建立有效的自然语言统计模型,以支持智能语音校对。首先,语言特征提取工作将声音信号从时域转换到频域,为声学模型提供合适的特征向量;其次,声学模型中再根据声学特性计算每一个特征向量在声学特征上的得分;而语言模型则根据语言学相关的理论,计算该声音信号对应可能词组序列的概率;最后根据已有的字典,对词组序列进行解码,得到最后可能的文本表示。
OCR识别模块:第1步:需进行图像预处理,包含二值化、去噪、倾斜度矫正等;第2步:进行图像分割,将所要识别的文档分段、分行处理,按照版面做出来;第3步为字符识别,通过字符定位和字符切割,定位出字符串的边界;第4步分别对字符串进行单个切割,将切割过的字符提取特征向量并与特征模板库进行模板粗分类和模板细匹配,识别出字符;第5步将识别结果按照原来的版面排版,输出Word或pdf格式的文档。
所述语音合成模块为基于大量的语音数据和统计模型所建立的模块,满足已知文本生成语音的需求,打通人机交互闭环;该模块工作方式为计算机负责文本校对,并将校对后的样稿语音合成,并提醒工作人员;该模块的核心工作为语音合成,校对工作可以选择调用文本校对模块。语音合成模块在分词前会提前建立一个分词词库,将文本中与分词词库中相一致的词语切分出来实现词语的划分。
所述语言识别模块中,1.语言特征提取主要用于声音分析,其提取的目的是从语音波形中提取出岁时间变化的语音特征序列。2.声学模型是识别系统的底层模型,并且是语音识别系统中最关键的一部分。声学模型由获取的语音特征通过学习算法产生,在语音识别时将输入的语音特征与声学模型进行匹配与比较,得到最佳的识别结果。3.语言模型对中、大词汇量的语音识别系统特别重要。语言模型的作用是通过对大量文本信息进行训练,得到单个字或者词相互关联的概率。其主要为由识别语音命令构成的语法网络或由统计方法构成的语言模型。语言模型可以进行语法、语义分析,当分类发生错误时可以根据语言学模型、语法结构、语义学进行判断纠正,特别是一些同音字则必须通过上下文结构才能确定语义。4.字典为字或者词与音素的对应,包含模块所能处理的词汇集及其发音,其实际提供了声学模型建模单元与语言模型建模单元间的映射。5.语料库是实现语音识别系统的基础,语料库由语音文件和文本标注文件两部分组成。
OCR模块在获取版面信息时,首先要进行版面分析,把一整张图像拆分为行;便于后面逐行地处理;在图像没有明显倾斜扭曲时,使用笔画等宽算法把非笔迹的像素过滤掉,再使用投影直方图进行分行拆分;在行拆完成后,将其拆分为字符,即把每一行拆分到独立的字。
本发明的有益效果:系统融合了自然语言处理、语音识别、语音合成、OCR识别等多种人工智能技术手段,在文本、语音、图片等不同形式输入下均可以完成校对工作,增加了人机交互过程,减少了工作人员工作量,并提高了校对效率及准确率。
系统可以识别语音输入、图片输入、文本输入,计算机校对完成后,用户可以选择文本输出或者语音输出,语音合成模块将完成校对后的样稿进行语音合成,并在校对错误的地方给予工作人员弹窗提醒,由工作人员选择是否修改,如果修改则人工修改,并将修改信息并入自定义信息库,便于计算机自学习。
附图说明
图1是四个模块业务交互流程。
图2是文本校对模块工作过程。
图3是语音合成模块工作过程。
图4是语音识别模块工作过程。
图5是OCR识别模块工作过程。
具体实施方式
系统建立文本校对模块、语音合成模块、语音识别模块、OCR识别模块四个功能模块,其中语音合成、语音识别模块、OCR识别模块负责将校对结果导出为语音、将语音识别为文本、将图文识别为文本,文本校对模块负责将识别后的文本进行校对工作。系统核心校对工作均由文本校对模块完成,所采用的语音识别、语音合成、OCR识别等技术手段均为辅助技术手段。
系统可以识别语音输入、图片输入、文本输入,计算机校对完成后,用户可以选择文本输出或者语音输出,语音合成模块将完成校对后的样稿进行语音合成,并在校对错误的地方给予工作人员弹窗提醒,由工作人员选择是否修改,如果修改则人工修改,并将修改信息并入自定义信息库,便于计算机自学习。
OCR识别模块在于将输入的图片转为文本。
语音识别模块在于工作人员朗读,计算机进行校对。
语音合成模块计算机校对,朗读并提醒,工作人员判断。
文本校对模块:文本校对以自动分词为基础,结合统计和规则的方法,校对出不符合现代汉语词法规律和背景常识的词级及语义错误。该模块建立分词库,错误规则库、语料库、背景知识库、自定义信息库。
系统采用的语言模型是基于词的语言模型,需要首先进行文本的分词处理;在进行分词后对词语进行词性标注,如果其中包含错误的字,就会出现大量的散串,而后通过对于散串的处理,结合字典,进行词语纠正。
系统采用的查错策略是基于语料库的N-gram方法,对分词后的字符串进行统计分析来进行出错字符串的定位。通过N-gram模型,基于大规模的语料库进行统计,来查找到文本中的局部可能出现的错误。而后通过上下文依存句法的分析,得到可能出现的词语错误,然后进行校正。
文本校对模块实现方法包括以下步骤:
(1)首先对于用户输入的问句进行分词处理和词性标注;(2)通过将分词后的词语串采用N-gram语言模型进行建模;(3)采用N-gram方法以庞大的语料库做基础,进行错误字符的定位操作,检测到可能出错的位置;(4)将疑错窗口中的字符再通过词性的N-gram方法进行进一步检测,如果检测为不合理,则判定为错误,定义为出错字符串;(5)将出错字符串进行纠错处理,给出最近的相似词语,进行返回(6)组合成纠错后的语句返回给用户或者进行下一步处理。
语音合成模块为基于大量的语音数据和统计模型所建立的模块,满足已知文本生成语音的需求,打通人机交互闭环。
该模块工作方式为计算机负责文本校对,并将校对后的样稿语音合成,并提醒工作人员。该模块的核心工作为语音合成,校对工作可以选择调用文本校对模块。
语音合成模块在分词前会提前建立一个分词词库,将文本中与分词词库中相一致的词语切分出来,从而实现词语的划分。基于隐马尔科夫模型HMM,而且整个训练过程基本上不依赖于发音人、发音风格以及情感等因素。在语音拼接时采用基于语音编码的拼接合成技术。
语音合成模块包括训练阶段和合成阶段如下。
训练阶段主要包括预处理和隐马尔科夫模型训练。在预处理阶段,首先需要对音库中的语音数据进行分析,以提取出一些相应的语音参数(基频和谱参数)。根据提取得到的语音参数,利用隐马尔科夫模型的观测向量将语音参数分成谱和基频两个部分。其中,采用连续概率分布HMM对谱参数部分进行建模,而对基频部分则采用多空间概率分布HMM进行建模。对隐马尔科夫模型进行训练前,另外一个重要的工作就是设计上下文属性集和用于决策树聚类的问题集,即根据先验知识来选择一些对谱、基频和时长这些声学参数有一定影响的上下文属性,并设计与上下文属性相应的问题集以用于上下文相关模型聚类。
预处理完成后就是整个隐马尔科夫模型的训练过程,其训练步骤依次为模型的初始化、声韵母的HMM训练、扩展上下文相关模型的训练、聚类后模型的训练以及时长模型的训练,最后得到的训练结果包括谱、基频和时长参数的聚类隐马尔科夫模型以及各自的决策树。
基于隐马尔科夫模型HMM,整个训练过程基本上不依赖于发音人、发音风格以及情感等因素。在语音拼接时采用基于语音编码的拼接合成技术,实现语音输出的功能。
合成阶段主要分为三个步骤,首先,输入的文本经过文本分析后转换成上下文相关的单元序列;然后,利用训练得到的决策树对每一个单元进行决策,得到对应的聚类状态模型,并形成聚类状态模型序列;最后,根据参数生成算法,利用参数的动态特性来生成目标的声学参数序列,并且通过STRAIGHT合成器得到最终的合成语音。
首先系统读取所要发音的校对文本,由于汉语的词语与词语之间没有如英文中单词之间的空白来分隔,因此要根据制定好的文本分析规则对文本进行分析,以便经过语音合成后输出的语音在词与词之间加入适当的停顿,模仿人在朗读文章时的效果。
其次为了使合成的语音具有较好的自然度,需要按照一定的韵律模型对发音的韵律进行分析、控制,以修饰原始的语音数据。
最后按照相对应的拼接算法讲不同的发音基本元素进行拼接合成,从而获得整个文本的发音文件,实现语音输出的功能。
语音识别模块:语音识别模块的搭建需要基于人工智能及自然语言处理(NLP)等前沿学科知识,通过大规模的机器学习和自然语言数据统计,建立有效的自然语言统计模型,以支持智能语音校对。
语音识别模块也是校对系统的智能辅助模块,其工作方式为:校对人员朗读校样,计算机识别语音信号,并完成校对工作。因此该模块的核心工作模块为:1.将语音信号转换成相对应的文本信息;2.调用文本校对模块,完成校对工作。
处理语音识别主要包括特征提取、声学模型、语言模型以及字典与解码四大部分,此外为了更有效地提取特征往往还需要对所采集到的声音信号进行滤波、分侦等音频数据预处理工作,将需要分析的音频信号从原始信号中合适地提取出来。
首先,特征提取工作将声音信号从时域转换到频域,为声学模型提供合适的特征向量;其次,声学模型中再根据声学特性计算每一个特征向量在声学特征上的得分;而语言模型则根据语言学相关的理论,计算该声音信号对应可能词组序列的概率;最后根据已有的字典,对词组序列进行解码,得到最后可能的文本表示。
其中:1.语言特征提取主要用于声音分析,其提取的目的是从语音波形中提取出岁时间变化的语音特征序列。2.声学模型是识别系统的底层模型,并且是语音识别系统中最关键的一部分。声学模型由获取的语音特征通过学习算法产生,在语音识别时将输入的语音特征与声学模型进行匹配与比较,得到最佳的识别结果。3.语言模型对中、大词汇量的语音识别系统特别重要。语言模型的作用是通过对大量文本信息进行训练,得到单个字或者词相互关联的概率。其主要为由识别语音命令构成的语法网络或由统计方法构成的语言模型。语言模型可以进行语法、语义分析,当分类发生错误时可以根据语言学模型、语法结构、语义学进行判断纠正,特别是一些同音字则必须通过上下文结构才能确定语义。4.字典为字或者词与音素的对应,包含模块所能处理的词汇集及其发音,其实际提供了声学模型建模单元与语言模型建模单元间的映射。5.语料库是实现语音识别系统的基础,语料库由语音文件和文本标注文件两部分组成。
OCR识别模块:OCR识别模块为系统辅助校对模块,主要用于对图像文件进行分析处理,获取文字及版面信息。第1步:需进行图像预处理,包含二值化、去噪、倾斜度矫正等;第2步:进行图像分割,将所要识别的文档分段、分行处理,按照版面做出来;第3步为字符识别,通过字符定位和字符切割,定位出字符串的边界;第4步分别对字符串进行单个切割,将切割过的字符提取特征向量并与特征模板库进行模板粗分类和模板细匹配,识别出字符;第5步将识别结果按照原来的版面排版,输出Word或pdf格式的文档。
另外,OCR模块在获取版面信息时,首先要进行版面分析,把一整张图像拆分为行;便于后面一行一行地处理。在图像没有明显倾斜扭曲时,使用笔画等宽算法(swt算法)把非笔迹的像素过滤掉,再使用投影直方图进行分行拆分;在行拆完成后,将其拆分为字符,就是把每一行拆分到独立的字,采用的拆分方法是连通域分析法。

Claims (10)

1.一种智能校对系统,其特征在于,包括建立文本校对模块、语音合成模块、语音识别模块和OCR识别模块,系统核心校对工作由文本校对模块完成,语音识别模块在于工作人员朗读,计算机进行校对,OCR识别模块在于将输入的图片转为文本;语音合成模块计算机校对,朗读并提醒,工作人员判断;语音合成、语音识别模块、OCR识别模块负责将校对结果导出为语音、将语音识别为文本、将图文识别为文本,文本校对模块负责将识别后的文本进行校对工作;
所述文本校对模块实现方法包括以下步骤:(1)对于用户输入的问句进行分词处理和词性标注;(2) 通过将分词后的词语串采用 N-gram 语言模型进行建模;(3)采用 N-gram方法以庞大的语料库做基础,进行错误字符的定位操作,检测到可能出错的位置;(4)将疑错窗口中的字符再通过词性的 N-gram 方法进行进一步检测,如果检测为不合理,则判定为错误,定义为出错字符串;(5)将出错字符串进行纠错处理,给出最近的相似词语,进行返回(6)组合成纠错后的语句返回给用户或者进行下一步处理;
所述语音合成模块包括训练阶段和合成阶段;所述训练阶段主要包括预处理和隐马尔科夫模型训练;在预处理阶段,首先需要对音库中的语音数据进行分析,以提取出一些相应的语音参数,根据提取得到的语音参数,利用隐马尔科夫模型的观测向量将语音参数分成谱和基频两个部分;整个隐马尔科夫模型的训练过程,其训练步骤依次为模型的初始化、声韵母的HMM训练、扩展上下文相关模型的训练、聚类后模型的训练以及时长模型的训练,最后得到的训练结果包括谱、基频和时长参数的聚类隐马尔科夫模型以及各自的决策树;所述合成阶段主要分为三个步骤,首先,输入的文本经过文本分析后转换成上下文相关的单元序列;然后,利用训练得到的决策树对每一个单元进行决策,得到对应的聚类状态模型,并形成聚类状态模型序列;最后,根据参数生成算法,利用参数的动态特性来生成目标的声学参数序列,并且通过 STRAIGHT合成器得到最终的合成语音;
所述语音识别模块的搭建:首先,特征提取工作将声音信号从时域转换到频域,为声学模型提供合适的特征向量;其次,声学模型中再根据声学特性计算每一个特征向量在声学特征上的得分;而语言模型则根据语言学相关的理论,计算该声音信号对应可能词组序列的概率;最后根据已有的字典,对词组序列进行解码,得到最后可能的文本表示;
所述OCR识别模块的实现步骤:(1)进行图像预处理,包含二值化、去噪、倾斜度矫正处理;(2)进行图像分割,将所要识别的文档分段、分行处理,按照版面做出来;(3)为字符识别,通过字符定位和字符切割,定位出字符串的边界,然后分别对字符串进行单个切割,将切割过的字符提取特征向量并与特征模板库进行模板粗分类和模板细匹配,识别出字符;(4)最后将识别结果按照原来的版面排版,输出Word或pdf格式的文档。
2.根据权利要求1所述的智能校对系统,其特征在于,语音合成模块的训练阶段中,在在预处理阶段采用连续概率分布HMM对谱参数部分进行建模,而对基频部分则采用多空间概率分布HMM进行建模。
3.根据权利要求1所述的智能校对系统,其特征在于,对隐马尔科夫模型进行训练前,设计上下文属性集和用于决策树聚类的问题集,即根据先验知识来选择一些对谱、基频和时长这些声学参数有一定影响的上下文属性,并设计与上下文属性相应的问题集以用于上下文相关模型聚类。
4.根据权利要求1所述的智能校对系统,其特征在于,对所述语言模型进行语法和语义分析,当分类发生错误时根据语言学模型、语法结构、语义学进行判断纠正。
5.根据权利要求4所述的智能校对系统,其特征在于,判断纠正是指对一些同音字通过上下文结构能确定语义。
6.根据权利要求1所述的智能校对系统,其特征在于,所述语音合成模块为基于大量的语音数据和统计模型所建立的模块,满足已知文本生成语音的需求,打通人机交互闭环;该模块工作方式为计算机负责文本校对,并将校对后的样稿语音合成,并提醒工作人员;该模块的核心工作为语音合成,校对工作可以选择调用文本校对模块。
7.根据权利要求1或6所述的智能校对系统,其特征在于,语音合成模块在分词前会提前建立一个分词词库,将文本中与分词词库中相一致的词语切分出来实现词语的划分。
8.根据权利要求1所述的智能校对系统,其特征在于,语音识别模块中,所述语言特征提取:主要用于声音分析,其提取的目的是从语音波形中提取出岁时间变化的语音特征序列;所述声学模型:是识别系统的底层模型,并且是语音识别系统中最关键的一部分;声学模型由获取的语音特征通过学习算法产生,在语音识别时将输入的语音特征与声学模型进行匹配与比较,得到最佳的识别结果;所述字典为字或者词与音素的对应,包含模块所能处理的词汇集及其发音,提供声学模型建模单元与语言模型建模单元间的映射。
9.根据权利要求1所述的智能校对系统,其特征在于,文本校对模块中,所述语言模型:通过对大量文本信息进行训练,得到单个字或者词相互关联的概率,其主要为由识别语音命令构成的语法网络或由统计方法构成的语言模型;所述语料库:是实现语音识别系统的基础,语料库由语音文件和文本标注文件两部分组成。
10.根据权利要求1所述的智能校对系统,其特征在于,OCR模块在获取版面信息时,首先要进行版面分析,把一整张图像拆分为行;便于后面逐行地处理;在图像没有明显倾斜扭曲时,使用笔画等宽算法把非笔迹的像素过滤掉,再使用投影直方图进行分行拆分;在行拆完成后,将其拆分为字符,即把每一行拆分到独立的字。
CN201811022154.5A 2018-09-04 2018-09-04 智能校对系统 Active CN109255113B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811022154.5A CN109255113B (zh) 2018-09-04 2018-09-04 智能校对系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811022154.5A CN109255113B (zh) 2018-09-04 2018-09-04 智能校对系统

Publications (2)

Publication Number Publication Date
CN109255113A true CN109255113A (zh) 2019-01-22
CN109255113B CN109255113B (zh) 2022-10-11

Family

ID=65047164

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811022154.5A Active CN109255113B (zh) 2018-09-04 2018-09-04 智能校对系统

Country Status (1)

Country Link
CN (1) CN109255113B (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110134952A (zh) * 2019-04-29 2019-08-16 华南师范大学 一种错误文本拒识方法、装置及存储介质
CN110991279A (zh) * 2019-11-20 2020-04-10 北京灵伴未来科技有限公司 文档图像分析与识别方法及系统
CN111078979A (zh) * 2019-11-29 2020-04-28 上海观安信息技术股份有限公司 一种基于ocr和文本处理技术识别网贷网站的方法及系统
CN111178219A (zh) * 2019-12-24 2020-05-19 泰康保险集团股份有限公司 票据识别管理方法、装置、存储介质及电子设备
CN111199724A (zh) * 2019-12-31 2020-05-26 出门问问信息科技有限公司 一种信息处理方法、设备及计算机可读存储介质
CN111326160A (zh) * 2020-03-11 2020-06-23 南京奥拓电子科技有限公司 一种纠正噪音文本的语音识别方法、系统及存储介质
CN111382742A (zh) * 2020-03-15 2020-07-07 策拉人工智能科技(云南)有限公司 一种云财务平台集成ocr识别软件的方法
CN111597308A (zh) * 2020-05-19 2020-08-28 中国电子科技集团公司第二十八研究所 一种基于知识图谱的语音问答系统及其应用方法
CN111816165A (zh) * 2020-07-07 2020-10-23 北京声智科技有限公司 语音识别方法、装置及电子设备
CN111833878A (zh) * 2020-07-20 2020-10-27 中国人民武装警察部队工程大学 基于树莓派边缘计算的中文语音交互无感控制系统和方法
CN111859089A (zh) * 2019-04-30 2020-10-30 北京智慧星光信息技术有限公司 一种用于互联网信息的错词检测控制方法
CN112164403A (zh) * 2020-09-27 2021-01-01 江苏四象软件有限公司 一种基于人工智能的自然语言处理系统
CN112487768A (zh) * 2020-12-29 2021-03-12 龙马智芯(珠海横琴)科技有限公司 一种语音文本标注系统
CN113744714A (zh) * 2021-09-27 2021-12-03 深圳市木愚科技有限公司 语音合成方法、装置、计算机设备及存储介质
CN114724151A (zh) * 2022-04-22 2022-07-08 厦门大学 一种基于卷积神经网络的古筝简谱识别方法及系统
CN114970554A (zh) * 2022-08-02 2022-08-30 国网浙江省电力有限公司宁波供电公司 一种基于自然语言处理的文档校验方法
CN115204182A (zh) * 2022-09-09 2022-10-18 山东天成书业有限公司 一种待校对电子书数据的识别方法及系统
CN116186325A (zh) * 2023-04-26 2023-05-30 深圳市小彼恩文教科技有限公司 一种基于数据处理的点读笔信息识别与管理方法及系统
CN116912845A (zh) * 2023-06-16 2023-10-20 广东电网有限责任公司佛山供电局 一种基于nlp与ai的智能内容识别与分析方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008138356A2 (en) * 2007-05-15 2008-11-20 The Engineering Company For The Development Of Computer Systems ; (Rdi) System and method for arabic omni font written optica character recognition
US20170017854A1 (en) * 2015-07-17 2017-01-19 Huazhong University Of Science And Technology Arabic optical character recognition method using hidden markov models and decision trees
CN106601253A (zh) * 2016-11-29 2017-04-26 肖娟 重要领域智能机器人文字播音朗读审核校对方法和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008138356A2 (en) * 2007-05-15 2008-11-20 The Engineering Company For The Development Of Computer Systems ; (Rdi) System and method for arabic omni font written optica character recognition
US20170017854A1 (en) * 2015-07-17 2017-01-19 Huazhong University Of Science And Technology Arabic optical character recognition method using hidden markov models and decision trees
CN106601253A (zh) * 2016-11-29 2017-04-26 肖娟 重要领域智能机器人文字播音朗读审核校对方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
梅勇等: "一种基于马尔可夫模型的汉语语音识别后处理中的音字转换方法", 《中文信息学报》 *

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110134952B (zh) * 2019-04-29 2020-03-31 华南师范大学 一种错误文本拒识方法、装置及存储介质
CN110134952A (zh) * 2019-04-29 2019-08-16 华南师范大学 一种错误文本拒识方法、装置及存储介质
CN111859089A (zh) * 2019-04-30 2020-10-30 北京智慧星光信息技术有限公司 一种用于互联网信息的错词检测控制方法
CN111859089B (zh) * 2019-04-30 2024-02-06 北京智慧星光信息技术有限公司 一种用于互联网信息的错词检测控制方法
CN110991279A (zh) * 2019-11-20 2020-04-10 北京灵伴未来科技有限公司 文档图像分析与识别方法及系统
CN110991279B (zh) * 2019-11-20 2023-08-22 北京灵伴未来科技有限公司 文档图像分析与识别方法及系统
CN111078979A (zh) * 2019-11-29 2020-04-28 上海观安信息技术股份有限公司 一种基于ocr和文本处理技术识别网贷网站的方法及系统
CN111178219A (zh) * 2019-12-24 2020-05-19 泰康保险集团股份有限公司 票据识别管理方法、装置、存储介质及电子设备
CN111199724A (zh) * 2019-12-31 2020-05-26 出门问问信息科技有限公司 一种信息处理方法、设备及计算机可读存储介质
CN111326160A (zh) * 2020-03-11 2020-06-23 南京奥拓电子科技有限公司 一种纠正噪音文本的语音识别方法、系统及存储介质
CN111382742A (zh) * 2020-03-15 2020-07-07 策拉人工智能科技(云南)有限公司 一种云财务平台集成ocr识别软件的方法
CN111597308A (zh) * 2020-05-19 2020-08-28 中国电子科技集团公司第二十八研究所 一种基于知识图谱的语音问答系统及其应用方法
CN111816165A (zh) * 2020-07-07 2020-10-23 北京声智科技有限公司 语音识别方法、装置及电子设备
CN111833878A (zh) * 2020-07-20 2020-10-27 中国人民武装警察部队工程大学 基于树莓派边缘计算的中文语音交互无感控制系统和方法
CN112164403A (zh) * 2020-09-27 2021-01-01 江苏四象软件有限公司 一种基于人工智能的自然语言处理系统
CN112487768A (zh) * 2020-12-29 2021-03-12 龙马智芯(珠海横琴)科技有限公司 一种语音文本标注系统
CN113744714A (zh) * 2021-09-27 2021-12-03 深圳市木愚科技有限公司 语音合成方法、装置、计算机设备及存储介质
CN113744714B (zh) * 2021-09-27 2024-04-05 深圳市木愚科技有限公司 语音合成方法、装置、计算机设备及存储介质
CN114724151A (zh) * 2022-04-22 2022-07-08 厦门大学 一种基于卷积神经网络的古筝简谱识别方法及系统
CN114970554A (zh) * 2022-08-02 2022-08-30 国网浙江省电力有限公司宁波供电公司 一种基于自然语言处理的文档校验方法
CN114970554B (zh) * 2022-08-02 2022-10-21 国网浙江省电力有限公司宁波供电公司 一种基于自然语言处理的文档校验方法
CN115204182A (zh) * 2022-09-09 2022-10-18 山东天成书业有限公司 一种待校对电子书数据的识别方法及系统
CN116186325A (zh) * 2023-04-26 2023-05-30 深圳市小彼恩文教科技有限公司 一种基于数据处理的点读笔信息识别与管理方法及系统
CN116186325B (zh) * 2023-04-26 2023-06-30 深圳市小彼恩文教科技有限公司 一种基于数据处理的点读笔信息识别与管理方法及系统
CN116912845A (zh) * 2023-06-16 2023-10-20 广东电网有限责任公司佛山供电局 一种基于nlp与ai的智能内容识别与分析方法及装置
CN116912845B (zh) * 2023-06-16 2024-03-19 广东电网有限责任公司佛山供电局 一种基于nlp与ai的智能内容识别与分析方法及装置

Also Published As

Publication number Publication date
CN109255113B (zh) 2022-10-11

Similar Documents

Publication Publication Date Title
CN109255113A (zh) 智能校对系统
CN105869634B (zh) 一种基于领域的带反馈语音识别后文本纠错方法及系统
CN110517663B (zh) 一种语种识别方法及识别系统
US8131539B2 (en) Search-based word segmentation method and device for language without word boundary tag
US8185376B2 (en) Identifying language origin of words
CN111696557A (zh) 语音识别结果的校准方法、装置、设备及存储介质
CN110717018A (zh) 一种基于知识图谱的工业设备故障维修问答系统
CN101727902B (zh) 一种对语调进行评估的方法
CN1237259A (zh) 隐含式-马而科夫-发音模型在语音识别系统中的匹配方法
Maamouri et al. Diacritization: A challenge to Arabic treebank annotation and parsing
CN114153971A (zh) 一种含错中文文本纠错识别分类设备
CN109101538A (zh) 一种面向中文专利文本的实体抽取方法和系统
CN108536673B (zh) 新闻事件抽取方法及装置
Wightman Automatic detection of prosodic constituents for parsing
CN110852075A (zh) 自动添加标点符号的语音转写方法、装置及可读存储介质
CN110096715A (zh) 一种融合发音特征汉语-越南语统计机器翻译方法
CN112069816A (zh) 中文标点符号添加方法和系统及设备
Kawtrakul et al. Backward transliteration for Thai document retrieval
JP3441400B2 (ja) 言語変換規則作成装置、及びプログラム記録媒体
Liu et al. A maximum entropy based hierarchical model for automatic prosodic boundary labeling in mandarin
CN110674871B (zh) 面向翻译译文的自动评分方法及自动评分系统
CN110569510A (zh) 一种对用户请求数据的命名实体识别的方法
Hoste et al. Using rule-induction techniques to model pronunciation variation in Dutch
van den Bosch et al. Modularity in inductively-learned word pronunciation systems
Seresangtakul et al. Thai-Isarn dialect parallel corpus construction for machine translation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant