CN105956588A

CN105956588A - 智能扫描及朗读文字的方法及其机器人装置

Info

Publication number: CN105956588A
Application number: CN201610250797.XA
Authority: CN
Inventors: 易华鹏
Original assignee: Shenzhen Qianhai Yyd Robot Co Ltd
Current assignee: Shenzhen Qianhai Yyd Robot Co Ltd
Priority date: 2016-04-21
Filing date: 2016-04-21
Publication date: 2016-09-21

Abstract

本发明一种智能扫描及朗读的方法，至少包括以下步骤：获取待朗读的文字图像信息；预处理所述的文字图像信息；根据文字结构特征进行文字特征抽取；将抽取出的文字特征值与特征数据库的文字信息进行比对，获得的文字特征，识别文字图像信息中的文字；动态比对所识别的文字，根据字词数据库的信息对比所识别的文字，进行拼写检查，获得正确文字；将所获得的正确的文字文本转换为音韵序列并生成语音波形；播放所获得的语音波形。本发明还提供一种智能扫描及朗读的机器人装置，可以智能扫描文字，准确的进行文字识别，同时根据识别结果将文字内容朗读出来。适合众多领域的使用者应用。

Description

智能扫描及朗读文字的方法及其机器人装置

技术领域

本发明涉及机器人技术领域，尤其涉及一种智能扫描及朗读文字的方法及其机器人装置。

背景技术

随着机器人技术的迅速发展，机器人已被广泛的应用在各种高危险、高负担、高精细、反复性高的工作流程中。而近几年来，为了很大程度上提高生活的方便性，家用机器人也已经越来越多的出现在人们的视线中，家用机器人是指为人类服务的特种机器人，主要从事于家庭服务，维护、保养、修理、运输、清洗、监护等工作。目前随着新型教育方式的兴起，而家长在某些时候也力不从心，出现了主要针对儿童教育目的的家用机器人。目前一些普遍使用的用于辅助家长教育孩子的家用机器人主要侧重在可以朗读、唱歌以及讲故事等，但是这些教育资源都是一些已经准备好或者到网络上读取的音频文件，资源固化，功能单一，无法呈现太多活泼、多变化、生动的内容，因而教育资源受到限制，无法满足儿童的求知欲，进而限制了智能教育的发展。

因此，基于现有的家用智能机器人在儿童教育方面功能比较单一，资源获取受到极大的限制，不能灵活多变的改变教育资源，且受机器人系统内置资源或者网络资源限制的诸多问题，急需一种具有多变性以及灵活性的智能机器人。

发明内容

本发明目的是提供一种智能扫描及朗读文字的方法及其机器人装置，将智能机器人从有限资源中解脱出来，随时能根据使用者的需求提供语音服务。

本发明解决技术问题采用如下技术方案：一种智能扫描及朗读的方法，至少包括以下步骤：

获取待朗读的文字图像信息；

预处理所述的文字图像信息；

根据文字结构特征进行文字特征抽取；

将抽取出的的文字特征值与特征数据库的文字信息进行比对，获得的文字特征，识别文字图像信息中的文字；

动态比对所识别的文字，根据字词数据库的信息对比所识别的文字，进行拼写检查，获得正确文字；

将所获得的正确的文字文本转换为音韵序列并生成语音波形；

播放所获得的语音波形。

其中，所述的预处理所述的文字图像信息包括以下步骤：

对获取的文字图像信息二值化；

根据噪声特征对二值化的文字图像进行去噪；

检测并校正所述文字图像的方向。

其中，根据文字结构特征进行文字特征抽取的步骤中的文字特征包括字的笔画端点、交叉点数量、交叉点位置以及笔画段特征。

其中，动态比对所识别的文字获得文字文本的步骤包括：

根据识别的文字特征采用动态程序比对数学函数识别文字；

将识别后的文字与字词数据库的字群对比检查；

若文字文本正确，则获得文字文本；

若文字文本错误，则重新获取文字图像信息。

其中，将所获得的文字文本转换为音韵序列并生成语音波形是采用TTS技术，至少包括：

对获得的文字文本进行语言学分析，确定句子的低层结构和每个字的音素的组成；

把处理好的文本所对应的单字或短语从语音合成库中提取，把文字文本转化成语音波形。

一种智能扫描及朗读的机器人装置，包括机器人及数据库，至少还包括：

文字图像信息获取模块，用于获取待朗读的文字图像信息；

图像预处理模块，用于预处理文字图像信息获取模块获得的所述的文字图像信息；

特征抽取模块，用于根据数据库中的文字结构特征抽取图像预处理模块处理的图像中的文字特征；

文字识别模块，用于根据数据库中的信息比对所述特征抽取模块所获得的文字特征，并识别文字图像信息中的文字；

拼写检查模块，用于根据数据库的信息动态比对所述文字识别模块识别的文字，并获得正确的文字文本；

语音生成模块，用于将所述拼写检查模块获得的正确的文字文本转换为音韵序列并生成语音波形；

语音播放模块，用于播放语音生成模块所生成的语音波形。

其中，图像预处理模块至少包括：

二值化处理单元，用于对文字图像信息获取模块获取的文字图像信息二值化；

去噪单元，用于根据噪声特征对所述二值化处理单元处理的文字图像进行去噪；

文字检测单元，用于检测并校正所述去噪单元处理后的文字图像的方向。

其中，所述的数据库至少包括与所述特征抽取模块连接的文字特征数据库、与所述拼写检查模块连接的字词数据库以及与所述语音生成模块连接的语言分析数据库和语音合成数据库。

其中，所述的拼写检查模块，至少包括：

文字确定单元，用于根据所述文字识别模块识别的文字采用动态程序比对数学函数识别文字；

文字检查单元，用于将所述文字确定单元识别后的文字与字词数据库的字群对比检查；

文字文本单元，用于根据所述文字检查单元获得的文字得到正确的文字文本。

其中，所述语音生成模块，至少包括：

语言分析单元，用于对所述文字文本单元获得的文字文本进行语言学分析，确定句子的低层结构和每个字的音素的组成；

语音生成单元，用于把所述语言分析单元处理好的文本所对应的单字或短语从语音合成库中提取，把文字文本转化成语音波形。。

本发明具有如下有益效果：

1、本发明的智能机器人装置能够通过扫描文字，然后朗读出来，使家用机器人的儿童教育功能具有多变和灵活性，使得教育资源多态化、多变化，很大程度上减小了教育资源的限制，实现灵活多变的教育方式；

2、本发明的装置和方法也可使用到商务场景中，扫描商务文件的文字并朗读出来；

3、本发明还可以提供给特殊人群使用，使其可以在无需人为帮助的情况下方便的了解各种场合以及资料的内容。

附图说明

图1为本发明的智能扫描及朗读文字的方法流程图；

图2为本发明的智能扫描及朗读文字的机器人装置的结构框图；

图3为本发明的智能扫描及朗读文字的方法的具体实现流程图。

具体实施方式

下面结合实施例及附图对本发明的技术方案作进一步阐述。本发明提出一种智能扫描以及朗读文字的方法，参考图1所示，至少包括以下步骤：获取待朗读的文字图像信息；预处理所述的文字图像信息；根据文字结构特征进行文字特征抽取；将抽取出的的文字特征值与特征数据库的文字信息进行比对，获得的文字特征，识别文字图像信息中的文字；其中所述的文字特征包括字的笔画端点、交叉点数量、交叉点位置以及笔画段特征等，识别文字图像信息中的文字；

动态比对所识别的文字，根据字词数据库的信息对比所识别的文字，进行拼写检查，获得正确文字；将所获得的正确的文字文本转换为音韵序列并生成语音波形；播放所获得的语音波形。

在本发明中，所述的预处理所述的文字图像信息包括以下步骤：对获取的文字图像信息二值化；根据噪声特征对二值化的文字图像进行去噪；检测并校正所述文字图像的方向。

本发明所述的动态比对所识别的文字获得文字文本的步骤包括：根据识别的文字特征采用动态程序比对数学函数识别文字；将识别后的文字与字词数据库的字群对比检查；若文字文本正确，则获得文字文本；若文字文本错误，则返回重新获取文字图像信息。

在本发明的实施例中，将所获得的文字文本转换为音韵序列并生成语音波形是采用TTS技术，至少包括：对获得的文字文本进行语言学分析，确定句子的低层结构和每个字的音素的组成；把处理好的文本所对应的单字或短语从语音合成库中提取，把文字文本转化成语音波形。

在本发明中，还提供了一种智能扫描及朗读的机器人装置，参考图2所示，包括数据库以及机器人，还包括：文字图像信息获取模块，用于获取待朗读的文字图像信息；图像预处理模块，用于预处理文字图像信息获取模块获得的所述的文字图像信息；特征抽取模块，用于根据数据库中的文字结构特征抽取图像预处理模块处理的图像中的文字特征；文字识别模块，用于根据数据库中的信息比对所述特征抽取模块所获得的文字特征，并识别文字图像信息中的文字；拼写检查模块，用于根据数据库的信息动态比对所述文字识别模块识别的文字，并获得正确的文字文本；语音生成模块，用于将所述拼写检查模块获得的正确的文字文本转换为音韵序列并生成语音波形；以及语音播放模块，用于播放语音生成模块所生成的语音波形。其中文字图像信息获取模块可为摄像头，即可为机器人自带的摄像头，也可以为在机器人的手部单独安装的摄像头，在获取文字图像的时候，机器人根据使用者指令，用手部摄像头近距离获取；本发明的语音播放模块可以为机器人自带的扬声器。

在本发明的装置中，所述的图像预处理模块至少包括：二值化处理单元，用于对文字图像信息获取模块获取的文字图像信息二值化；去噪单元，用于根据噪声特征对所述二值化处理单元处理的文字图像进行去噪；以及文字检测单元，用于检测并校正所述去噪单元处理后的文字图像的方向。

在本发明的实施例中，所述的拼写检查模块，至少包括：文字确定单元，用于根据所述文字识别模块识别的文字采用动态程序比对数学函数识别文字；文字检查单元，用于将所述文字确定单元识别后的文字与字词数据库的字群对比检查；文字文本单元，用于根据所述文字检查单元获得的文字得到正确的文字文本。

在本发明的实施例中，所述语音生成模块，至少包括：语言分析单元，用于对所述文字文本单元获得的文字文本进行语言学分析，确定句子的低层结构和每个字的音素的组成；语音生成单元，用于把所述语言分析单元处理好的文本所对应的单字或短语从语音合成库中提取，把文字文本转化成可播放的语音波形。

在本发明的实施例中，机器人可包括控制部分，电源以及其他执行部分，这些部分的实现均可以采用现有技术来实现，因此不再进行赘述。而本发明中所述的数据库至少包括与所述特征抽取模块连接的文字特征数据库、与所述拼写检查模块连接的字词数据库以及与所述语音生成模块连接的语言分析数据库和语音合成数据库，这些数据库的建立也均可以采用现有的训练方式来做出，并且这些数据的具体信息可为多语言内容，来满足各语言的使用者使用，具体的过程在此不再赘述，而本发明的数据库可以与所述机器人的数据库一体设置。

下面结合图3再对本发明方法以及机器人装置的处理流程做进一步的说明，首先得到任意一篇待朗读的文本，由机器人结构中的摄像头拍摄获得文本图像信息，具体可通过摄像头来扫描文字，进而按照上述方法的步骤采用光学字符识别(OCR)系统结合数据库(图中所示的为文字特征数据库以及字词数据)的信息进行文本识别并获得文本文字，进一步再对文本文字进行检查(如逻辑关系，文字顺序等)，具体为先将获得的彩色图片进行二值化，使文本图像只包含黑色的前景信息和白色的背景信息，同时根据征噪声的特征对待识别图像进行去噪处理，并进行图像方向检测，校正图像方向；然后采用结构特征进行文字特征抽取，取得字的笔画端点、交叉点的数量及位置，并以笔画段为特征，配合特殊的比对方法，与文字特征数据库来进行比对。文字特征数据库内容包含所有欲识别的字集文字，根据与输入文字一样的特征抽取方法所得的特征群组。根据文字的特征值，选用动态程序比对(Dynamic Programming，DP)数学函数，识别出文字。再将比对后的识别文字与字词数据库中可能的相似候选字群中进行对比，根据前后的识别文字找出最合乎逻辑的词，也就是做一个拼写检查，最后得出文字文本。如果检查到所获得的文本文字错误则返回图像获取步骤，重新获得文本图像信息，在本实施例中，也可以提示文本错误，由使用者确定是否要重新获得文本图像。

如果所获得的文本文字正确，则按照上述方法中的步骤进行文本分析、音韵合成，再生成语音波形，最终由机器人的扬声器朗读给使用者。其中文本与音韵的转换是采用TTS技术先将文字序列转换成音韵序列，再由系统根据音韵序列生成语音波形，最后通过扬声器发出声音。而在转换过程中要对输入文本进行语言学分析，逐句进行词汇的、语法的和语义的分析，以确定句子的低层结构和每个字的音素的组成，包括文本的断句、字词切分、多音字的处理、数字的处理、缩略语的处理等，而后把处理好的文字文本所对应的单字或短语从数据库中的语音合成库中提取，把语言描述转化成语音波形。

综上，本发明的可以实现机器人装置可以智能扫描文字，准确的进行文字识别，同时根据识别结果将文字内容朗读出来。使家用机器人的儿童教育功能具有多变和灵活性，使得教育资源多态化、多变化，很大程度上减小了教育资源的限制，实现灵活多变的教育方式；另外本发明可以使用到商务场景中，扫描商务文件的文字并朗读出来；也给特殊人群(如视力不佳的老人或者具有其他视力以及阅读障碍的人)使用，使其可以在无需人为帮助的情况下方便的了解各种场合以及资料的内容。

以上实施例的先后顺序仅为便于描述，不代表实施例的优劣。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种智能扫描及朗读的方法，其特征在于，至少包括以下步骤：

获取待朗读的文字图像信息；

预处理所述的文字图像信息；

根据文字结构特征进行文字特征抽取；

播放所获得的语音波形。

2.根据权利要求1所述的智能扫描及朗读的方法，其特征在于；所述的预处理所述的文字图像信息包括以下步骤：

对获取的文字图像信息二值化；

根据噪声特征对二值化的文字图像进行去噪；

检测并校正所述文字图像的方向。

3.根据权利要求1所述的智能扫描及朗读的方法，其特征在于，根据文字结构特征进行文字特征抽取的步骤中的文字特征包括字的笔画端点、交叉点数量、交叉点位置以及笔画段特征。

4.根据权利要求1或3所述的智能扫描及朗读的方法，其特征在于，动态比对所识别的文字获得文字文本的步骤包括：

根据识别的文字特征采用动态程序比对数学函数识别文字；

将识别后的文字与字词数据库的字群对比检查；

若文字文本正确，则获得文字文本；

若文字文本错误，则重新获取文字图像信息。

5.根据权利要求1所述的智能扫描及朗读的方法，其特征在于，将所获得的文字文本转换为音韵序列并生成语音波形是采用TTS技术，至少包括：

6.一种智能扫描及朗读的机器人装置，包括机器人及数据库，其特征在于，至少还包括：

文字图像信息获取模块，用于获取待朗读的文字图像信息；

语音播放模块，用于播放语音生成模块所生成的语音波形。

7.根据权利要求6所述的智能扫描及朗读的方法，其特征在于；图像预处理模块至少包括：

8.根据权利要求6所述的智能扫描及朗读的方法，其特征在于，所述的数据库至少包括与所述特征抽取模块连接的文字特征数据库、与所述拼写检查模块连接的字词数据库以及与所述语音生成模块连接的语言分析数据库和语音合成数据库。

9.根据权利要求8所述的智能扫描及朗读的方法，其特征在于，所述的拼写检查模块，至少包括：

10.根据权利要求8所述的智能扫描及朗读的方法，其特征在于，所述语音生成模块，至少包括：

语音生成单元，用于把所述语言分析单元处理好的文本所对应的单字或短语从语音合成库中提取，把文字文本转化成语音波形。