CN105956588A - 智能扫描及朗读文字的方法及其机器人装置 - Google Patents
智能扫描及朗读文字的方法及其机器人装置 Download PDFInfo
- Publication number
- CN105956588A CN105956588A CN201610250797.XA CN201610250797A CN105956588A CN 105956588 A CN105956588 A CN 105956588A CN 201610250797 A CN201610250797 A CN 201610250797A CN 105956588 A CN105956588 A CN 105956588A
- Authority
- CN
- China
- Prior art keywords
- word
- text
- module
- character image
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000000605 extraction Methods 0.000 claims abstract description 20
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 238000004458 analytical method Methods 0.000 claims description 17
- 238000004519 manufacturing process Methods 0.000 claims description 13
- 239000000203 mixture Substances 0.000 claims description 12
- 230000015572 biosynthetic process Effects 0.000 claims description 9
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 9
- 238000003786 synthesis reaction Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 8
- 230000008859 change Effects 0.000 claims description 7
- 238000007620 mathematical function Methods 0.000 claims description 7
- 239000000284 extract Substances 0.000 claims description 6
- 238000007689 inspection Methods 0.000 claims description 6
- 238000001514 detection method Methods 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 claims description 4
- 230000033764 rhythmic process Effects 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 2
- 230000006870 function Effects 0.000 description 4
- 230000004899 motility Effects 0.000 description 3
- 208000022372 Reading disease Diseases 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 206010013932 dyslexia Diseases 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000008929 regeneration Effects 0.000 description 1
- 238000011069 regeneration method Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 208000011580 syndromic disease Diseases 0.000 description 1
- 230000035922 thirst Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/146—Aligning or centring of the image pick-up or image-field
- G06V30/1475—Inclination or skew detection or correction of characters or of image to be recognised
- G06V30/1478—Inclination or skew detection or correction of characters or of image to be recognised of characters or characters lines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明一种智能扫描及朗读的方法,至少包括以下步骤:获取待朗读的文字图像信息;预处理所述的文字图像信息;根据文字结构特征进行文字特征抽取;将抽取出的文字特征值与特征数据库的文字信息进行比对,获得的文字特征,识别文字图像信息中的文字;动态比对所识别的文字,根据字词数据库的信息对比所识别的文字,进行拼写检查,获得正确文字;将所获得的正确的文字文本转换为音韵序列并生成语音波形;播放所获得的语音波形。本发明还提供一种智能扫描及朗读的机器人装置,可以智能扫描文字,准确的进行文字识别,同时根据识别结果将文字内容朗读出来。适合众多领域的使用者应用。
Description
技术领域
本发明涉及机器人技术领域,尤其涉及一种智能扫描及朗读文字的方法及其机器人装置。
背景技术
随着机器人技术的迅速发展,机器人已被广泛的应用在各种高危险、高负担、高精细、反复性高的工作流程中。而近几年来,为了很大程度上提高生活的方便性,家用机器人也已经越来越多的出现在人们的视线中,家用机器人是指为人类服务的特种机器人,主要从事于家庭服务,维护、保养、修理、运输、清洗、监护等工作。目前随着新型教育方式的兴起,而家长在某些时候也力不从心,出现了主要针对儿童教育目的的家用机器人。目前一些普遍使用的用于辅助家长教育孩子的家用机器人主要侧重在可以朗读、唱歌以及讲故事等,但是这些教育资源都是一些已经准备好或者到网络上读取的音频文件,资源固化,功能单一,无法呈现太多活泼、多变化、生动的内容,因而教育资源受到限制,无法满足儿童的求知欲,进而限制了智能教育的发展。
因此,基于现有的家用智能机器人在儿童教育方面功能比较单一,资源获取受到极大的限制,不能灵活多变的改变教育资源,且受机器人系统内置资源或者网络资源限制的诸多问题,急需一种具有多变性以及灵活性的智能机器人。
发明内容
本发明目的是提供一种智能扫描及朗读文字的方法及其机器人装置,将智能机器人从有限资源中解脱出来,随时能根据使用者的需求提供语音服务。
本发明解决技术问题采用如下技术方案:一种智能扫描及朗读的方法,至少包括以下步骤:
获取待朗读的文字图像信息;
预处理所述的文字图像信息;
根据文字结构特征进行文字特征抽取;
将抽取出的的文字特征值与特征数据库的文字信息进行比对,获得的文字特征,识别文字图像信息中的文字;
动态比对所识别的文字,根据字词数据库的信息对比所识别的文字,进行拼写检查,获得正确文字;
将所获得的正确的文字文本转换为音韵序列并生成语音波形;
播放所获得的语音波形。
其中,所述的预处理所述的文字图像信息包括以下步骤:
对获取的文字图像信息二值化;
根据噪声特征对二值化的文字图像进行去噪;
检测并校正所述文字图像的方向。
其中,根据文字结构特征进行文字特征抽取的步骤中的文字特征包括字的笔画端点、交叉点数量、交叉点位置以及笔画段特征。
其中,动态比对所识别的文字获得文字文本的步骤包括:
根据识别的文字特征采用动态程序比对数学函数识别文字;
将识别后的文字与字词数据库的字群对比检查;
若文字文本正确,则获得文字文本;
若文字文本错误,则重新获取文字图像信息。
其中,将所获得的文字文本转换为音韵序列并生成语音波形是采用TTS技术,至少包括:
对获得的文字文本进行语言学分析,确定句子的低层结构和每个字的音素的组成;
把处理好的文本所对应的单字或短语从语音合成库中提取,把文字文本转化成语音波形。
一种智能扫描及朗读的机器人装置,包括机器人及数据库,至少还包括:
文字图像信息获取模块,用于获取待朗读的文字图像信息;
图像预处理模块,用于预处理文字图像信息获取模块获得的所述的文字图像信息;
特征抽取模块,用于根据数据库中的文字结构特征抽取图像预处理模块处理的图像中的文字特征;
文字识别模块,用于根据数据库中的信息比对所述特征抽取模块所获得的文字特征,并识别文字图像信息中的文字;
拼写检查模块,用于根据数据库的信息动态比对所述文字识别模块识别的文字,并获得正确的文字文本;
语音生成模块,用于将所述拼写检查模块获得的正确的文字文本转换为音韵序列并生成语音波形;
语音播放模块,用于播放语音生成模块所生成的语音波形。
其中,图像预处理模块至少包括:
二值化处理单元,用于对文字图像信息获取模块获取的文字图像信息二值化;
去噪单元,用于根据噪声特征对所述二值化处理单元处理的文字图像进行去噪;
文字检测单元,用于检测并校正所述去噪单元处理后的文字图像的方向。
其中,所述的数据库至少包括与所述特征抽取模块连接的文字特征数据库、与所述拼写检查模块连接的字词数据库以及与所述语音生成模块连接的语言分析数据库和语音合成数据库。
其中,所述的拼写检查模块,至少包括:
文字确定单元,用于根据所述文字识别模块识别的文字采用动态程序比对数学函数识别文字;
文字检查单元,用于将所述文字确定单元识别后的文字与字词数据库的字群对比检查;
文字文本单元,用于根据所述文字检查单元获得的文字得到正确的文字文本。
其中,所述语音生成模块,至少包括:
语言分析单元,用于对所述文字文本单元获得的文字文本进行语言学分析,确定句子的低层结构和每个字的音素的组成;
语音生成单元,用于把所述语言分析单元处理好的文本所对应的单字或短语从语音合成库中提取,把文字文本转化成语音波形。。
本发明具有如下有益效果:
1、本发明的智能机器人装置能够通过扫描文字,然后朗读出来,使家用机器人的儿童教育功能具有多变和灵活性,使得教育资源多态化、多变化,很大程度上减小了教育资源的限制,实现灵活多变的教育方式;
2、本发明的装置和方法也可使用到商务场景中,扫描商务文件的文字并朗读出来;
3、本发明还可以提供给特殊人群使用,使其可以在无需人为帮助的情况下方便的了解各种场合以及资料的内容。
附图说明
图1为本发明的智能扫描及朗读文字的方法流程图;
图2为本发明的智能扫描及朗读文字的机器人装置的结构框图;
图3为本发明的智能扫描及朗读文字的方法的具体实现流程图。
具体实施方式
下面结合实施例及附图对本发明的技术方案作进一步阐述。本发明提出一种智能扫描以及朗读文字的方法,参考图1所示,至少包括以下步骤:获取待朗读的文字图像信息;预处理所述的文字图像信息;根据文字结构特征进行文字特征抽取;将抽取出的的文字特征值与特征数据库的文字信息进行比对,获得的文字特征,识别文字图像信息中的文字;其中所述的文字特征包括字的笔画端点、交叉点数量、交叉点位置以及笔画段特征等,识别文字图像信息中的文字;
动态比对所识别的文字,根据字词数据库的信息对比所识别的文字,进行拼写检查,获得正确文字;将所获得的正确的文字文本转换为音韵序列并生成语音波形;播放所获得的语音波形。
在本发明中,所述的预处理所述的文字图像信息包括以下步骤:对获取的文字图像信息二值化;根据噪声特征对二值化的文字图像进行去噪;检测并校正所述文字图像的方向。
本发明所述的动态比对所识别的文字获得文字文本的步骤包括:根据识别的文字特征采用动态程序比对数学函数识别文字;将识别后的文字与字词数据库的字群对比检查;若文字文本正确,则获得文字文本;若文字文本错误,则返回重新获取文字图像信息。
在本发明的实施例中,将所获得的文字文本转换为音韵序列并生成语音波形是采用TTS技术,至少包括:对获得的文字文本进行语言学分析,确定句子的低层结构和每个字的音素的组成;把处理好的文本所对应的单字或短语从语音合成库中提取,把文字文本转化成语音波形。
在本发明中,还提供了一种智能扫描及朗读的机器人装置,参考图2所示,包括数据库以及机器人,还包括:文字图像信息获取模块,用于获取待朗读的文字图像信息;图像预处理模块,用于预处理文字图像信息获取模块获得的所述的文字图像信息;特征抽取模块,用于根据数据库中的文字结构特征抽取图像预处理模块处理的图像中的文字特征;文字识别模块,用于根据数据库中的信息比对所述特征抽取模块所获得的文字特征,并识别文字图像信息中的文字;拼写检查模块,用于根据数据库的信息动态比对所述文字识别模块识别的文字,并获得正确的文字文本;语音生成模块,用于将所述拼写检查模块获得的正确的文字文本转换为音韵序列并生成语音波形;以及语音播放模块,用于播放语音生成模块所生成的语音波形。其中文字图像信息获取模块可为摄像头,即可为机器人自带的摄像头,也可以为在机器人的手部单独安装的摄像头,在获取文字图像的时候,机器人根据使用者指令,用手部摄像头近距离获取;本发明的语音播放模块可以为机器人自带的扬声器。
在本发明的装置中,所述的图像预处理模块至少包括:二值化处理单元,用于对文字图像信息获取模块获取的文字图像信息二值化;去噪单元,用于根据噪声特征对所述二值化处理单元处理的文字图像进行去噪;以及文字检测单元,用于检测并校正所述去噪单元处理后的文字图像的方向。
在本发明的实施例中,所述的拼写检查模块,至少包括:文字确定单元,用于根据所述文字识别模块识别的文字采用动态程序比对数学函数识别文字;文字检查单元,用于将所述文字确定单元识别后的文字与字词数据库的字群对比检查;文字文本单元,用于根据所述文字检查单元获得的文字得到正确的文字文本。
在本发明的实施例中,所述语音生成模块,至少包括:语言分析单元,用于对所述文字文本单元获得的文字文本进行语言学分析,确定句子的低层结构和每个字的音素的组成;语音生成单元,用于把所述语言分析单元处理好的文本所对应的单字或短语从语音合成库中提取,把文字文本转化成可播放的语音波形。
在本发明的实施例中,机器人可包括控制部分,电源以及其他执行部分,这些部分的实现均可以采用现有技术来实现,因此不再进行赘述。而本发明中所述的数据库至少包括与所述特征抽取模块连接的文字特征数据库、与所述拼写检查模块连接的字词数据库以及与所述语音生成模块连接的语言分析数据库和语音合成数据库,这些数据库的建立也均可以采用现有的训练方式来做出,并且这些数据的具体信息可为多语言内容,来满足各语言的使用者使用,具体的过程在此不再赘述,而本发明的数据库可以与所述机器人的数据库一体设置。
下面结合图3再对本发明方法以及机器人装置的处理流程做进一步的说明,首先得到任意一篇待朗读的文本,由机器人结构中的摄像头拍摄获得文本图像信息,具体可通过摄像头来扫描文字,进而按照上述方法的步骤采用光学字符识别(OCR)系统结合数据库(图中所示的为文字特征数据库以及字词数据)的信息进行文本识别并获得文本文字,进一步再对文本文字进行检查(如逻辑关系,文字顺序等),具体为先将获得的彩色图片进行二值化,使文本图像只包含黑色的前景信息和白色的背景信息,同时根据征噪声的特征对待识别图像进行去噪处理,并进行图像方向检测,校正图像方向;然后采用结构特征进行文字特征抽取,取得字的笔画端点、交叉点的数量及位置,并以笔画段为特征,配合特殊的比对方法,与文字特征数据库来进行比对。文字特征数据库内容包含所有欲识别的字集文字,根据与输入文字一样的特征抽取方法所得的特征群组。根据文字的特征值,选用动态程序比对(Dynamic Programming,DP)数学函数,识别出文字。再将比对后的识别文字与字词数据库中可能的相似候选字群中进行对比,根据前后的识别文字找出最合乎逻辑的词,也就是做一个拼写检查,最后得出文字文本。如果检查到所获得的文本文字错误则返回图像获取步骤,重新获得文本图像信息,在本实施例中,也可以提示文本错误,由使用者确定是否要重新获得文本图像。
如果所获得的文本文字正确,则按照上述方法中的步骤进行文本分析、音韵合成,再生成语音波形,最终由机器人的扬声器朗读给使用者。其中文本与音韵的转换是采用TTS技术先将文字序列转换成音韵序列,再由系统根据音韵序列生成语音波形,最后通过扬声器发出声音。而在转换过程中要对输入文本进行语言学分析,逐句进行词汇的、语法的和语义的分析,以确定句子的低层结构和每个字的音素的组成,包括文本的断句、字词切分、多音字的处理、数字的处理、缩略语的处理等,而后把处理好的文字文本所对应的单字或短语从数据库中的语音合成库中提取,把语言描述转化成语音波形。
综上,本发明的可以实现机器人装置可以智能扫描文字,准确的进行文字识别,同时根据识别结果将文字内容朗读出来。使家用机器人的儿童教育功能具有多变和灵活性,使得教育资源多态化、多变化,很大程度上减小了教育资源的限制,实现灵活多变的教育方式;另外本发明可以使用到商务场景中,扫描商务文件的文字并朗读出来;也给特殊人群(如视力不佳的老人或者具有其他视力以及阅读障碍的人)使用,使其可以在无需人为帮助的情况下方便的了解各种场合以及资料的内容。
以上实施例的先后顺序仅为便于描述,不代表实施例的优劣。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种智能扫描及朗读的方法,其特征在于,至少包括以下步骤:
获取待朗读的文字图像信息;
预处理所述的文字图像信息;
根据文字结构特征进行文字特征抽取;
将抽取出的的文字特征值与特征数据库的文字信息进行比对,获得的文字特征,识别文字图像信息中的文字;
动态比对所识别的文字,根据字词数据库的信息对比所识别的文字,进行拼写检查,获得正确文字;
将所获得的正确的文字文本转换为音韵序列并生成语音波形;
播放所获得的语音波形。
2.根据权利要求1所述的智能扫描及朗读的方法,其特征在于;所述的预处理所述的文字图像信息包括以下步骤:
对获取的文字图像信息二值化;
根据噪声特征对二值化的文字图像进行去噪;
检测并校正所述文字图像的方向。
3.根据权利要求1所述的智能扫描及朗读的方法,其特征在于,根据文字结构特征进行文字特征抽取的步骤中的文字特征包括字的笔画端点、交叉点数量、交叉点位置以及笔画段特征。
4.根据权利要求1或3所述的智能扫描及朗读的方法,其特征在于,动态比对所识别的文字获得文字文本的步骤包括:
根据识别的文字特征采用动态程序比对数学函数识别文字;
将识别后的文字与字词数据库的字群对比检查;
若文字文本正确,则获得文字文本;
若文字文本错误,则重新获取文字图像信息。
5.根据权利要求1所述的智能扫描及朗读的方法,其特征在于,将所获得的文字文本转换为音韵序列并生成语音波形是采用TTS技术,至少包括:
对获得的文字文本进行语言学分析,确定句子的低层结构和每个字的音素的组成;
把处理好的文本所对应的单字或短语从语音合成库中提取,把文字文本转化成语音波形。
6.一种智能扫描及朗读的机器人装置,包括机器人及数据库,其特征在于,至少还包括:
文字图像信息获取模块,用于获取待朗读的文字图像信息;
图像预处理模块,用于预处理文字图像信息获取模块获得的所述的文字图像信息;
特征抽取模块,用于根据数据库中的文字结构特征抽取图像预处理模块处理的图像中的文字特征;
文字识别模块,用于根据数据库中的信息比对所述特征抽取模块所获得的文字特征,并识别文字图像信息中的文字;
拼写检查模块,用于根据数据库的信息动态比对所述文字识别模块识别的文字,并获得正确的文字文本;
语音生成模块,用于将所述拼写检查模块获得的正确的文字文本转换为音韵序列并生成语音波形;
语音播放模块,用于播放语音生成模块所生成的语音波形。
7.根据权利要求6所述的智能扫描及朗读的方法,其特征在于;图像预处理模块至少包括:
二值化处理单元,用于对文字图像信息获取模块获取的文字图像信息二值化;
去噪单元,用于根据噪声特征对所述二值化处理单元处理的文字图像进行去噪;
文字检测单元,用于检测并校正所述去噪单元处理后的文字图像的方向。
8.根据权利要求6所述的智能扫描及朗读的方法,其特征在于,所述的数据库至少包括与所述特征抽取模块连接的文字特征数据库、与所述拼写检查模块连接的字词数据库以及与所述语音生成模块连接的语言分析数据库和语音合成数据库。
9.根据权利要求8所述的智能扫描及朗读的方法,其特征在于,所述的拼写检查模块,至少包括:
文字确定单元,用于根据所述文字识别模块识别的文字采用动态程序比对数学函数识别文字;
文字检查单元,用于将所述文字确定单元识别后的文字与字词数据库的字群对比检查;
文字文本单元,用于根据所述文字检查单元获得的文字得到正确的文字文本。
10.根据权利要求8所述的智能扫描及朗读的方法,其特征在于,所述语音生成模块,至少包括:
语言分析单元,用于对所述文字文本单元获得的文字文本进行语言学分析,确定句子的低层结构和每个字的音素的组成;
语音生成单元,用于把所述语言分析单元处理好的文本所对应的单字或短语从语音合成库中提取,把文字文本转化成语音波形。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610250797.XA CN105956588A (zh) | 2016-04-21 | 2016-04-21 | 智能扫描及朗读文字的方法及其机器人装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610250797.XA CN105956588A (zh) | 2016-04-21 | 2016-04-21 | 智能扫描及朗读文字的方法及其机器人装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105956588A true CN105956588A (zh) | 2016-09-21 |
Family
ID=56917887
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610250797.XA Pending CN105956588A (zh) | 2016-04-21 | 2016-04-21 | 智能扫描及朗读文字的方法及其机器人装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105956588A (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106409290A (zh) * | 2016-09-29 | 2017-02-15 | 深圳市唯特视科技有限公司 | 一种基于图像分析的幼儿智能语音教育的方法 |
CN106652673A (zh) * | 2017-01-16 | 2017-05-10 | 华南理工大学 | 一种自动识别和朗读药品说明书的方法 |
CN107665468A (zh) * | 2017-09-28 | 2018-02-06 | 朱喜 | 点餐方法、装置、终端设备及系统 |
CN107798931A (zh) * | 2017-12-05 | 2018-03-13 | 上海电机学院 | 一种智能幼教学习系统及方法 |
CN107885430A (zh) * | 2017-11-07 | 2018-04-06 | 广东欧珀移动通信有限公司 | 一种音频播放方法、装置、存储介质及电子设备 |
CN108847066A (zh) * | 2018-05-31 | 2018-11-20 | 上海与德科技有限公司 | 一种教学内容提示方法、装置、服务器和存储介质 |
CN109036377A (zh) * | 2018-07-26 | 2018-12-18 | 中国银联股份有限公司 | 一种语音合成方法及装置 |
CN109325493A (zh) * | 2018-08-23 | 2019-02-12 | 厦门理工学院 | 一种基于人形机器人的文字识别方法及人形机器人 |
CN110490182A (zh) * | 2019-08-19 | 2019-11-22 | 广东小天才科技有限公司 | 一种点读数据的制作方法、系统、存储介质及电子设备 |
CN110727854A (zh) * | 2019-08-21 | 2020-01-24 | 北京奇艺世纪科技有限公司 | 数据处理方法、装置、电子设备及计算机可读存储介质 |
CN111429880A (zh) * | 2020-03-04 | 2020-07-17 | 苏州驰声信息科技有限公司 | 一种切割段落音频的方法、系统、装置、介质 |
CN111626038A (zh) * | 2019-01-10 | 2020-09-04 | 北京字节跳动网络技术有限公司 | 背诵文本的提示方法、装置、设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0778222A (ja) * | 1992-12-17 | 1995-03-20 | Xerox Corp | キーワードのモデル化方法及び非キーワードhmmの提供方法 |
CN1734467A (zh) * | 2004-12-24 | 2006-02-15 | 康佳集团股份有限公司 | 一种拍照录入文本的手机及其录入方法 |
CN101493996A (zh) * | 2009-01-15 | 2009-07-29 | 北方工业大学 | 一种智能阅读器及其实现方法 |
-
2016
- 2016-04-21 CN CN201610250797.XA patent/CN105956588A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0778222A (ja) * | 1992-12-17 | 1995-03-20 | Xerox Corp | キーワードのモデル化方法及び非キーワードhmmの提供方法 |
CN1734467A (zh) * | 2004-12-24 | 2006-02-15 | 康佳集团股份有限公司 | 一种拍照录入文本的手机及其录入方法 |
CN101493996A (zh) * | 2009-01-15 | 2009-07-29 | 北方工业大学 | 一种智能阅读器及其实现方法 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106409290A (zh) * | 2016-09-29 | 2017-02-15 | 深圳市唯特视科技有限公司 | 一种基于图像分析的幼儿智能语音教育的方法 |
CN106652673A (zh) * | 2017-01-16 | 2017-05-10 | 华南理工大学 | 一种自动识别和朗读药品说明书的方法 |
CN107665468A (zh) * | 2017-09-28 | 2018-02-06 | 朱喜 | 点餐方法、装置、终端设备及系统 |
CN107885430A (zh) * | 2017-11-07 | 2018-04-06 | 广东欧珀移动通信有限公司 | 一种音频播放方法、装置、存储介质及电子设备 |
CN107798931A (zh) * | 2017-12-05 | 2018-03-13 | 上海电机学院 | 一种智能幼教学习系统及方法 |
CN108847066A (zh) * | 2018-05-31 | 2018-11-20 | 上海与德科技有限公司 | 一种教学内容提示方法、装置、服务器和存储介质 |
CN109036377A (zh) * | 2018-07-26 | 2018-12-18 | 中国银联股份有限公司 | 一种语音合成方法及装置 |
CN109325493A (zh) * | 2018-08-23 | 2019-02-12 | 厦门理工学院 | 一种基于人形机器人的文字识别方法及人形机器人 |
CN111626038A (zh) * | 2019-01-10 | 2020-09-04 | 北京字节跳动网络技术有限公司 | 背诵文本的提示方法、装置、设备及存储介质 |
CN110490182A (zh) * | 2019-08-19 | 2019-11-22 | 广东小天才科技有限公司 | 一种点读数据的制作方法、系统、存储介质及电子设备 |
CN110727854A (zh) * | 2019-08-21 | 2020-01-24 | 北京奇艺世纪科技有限公司 | 数据处理方法、装置、电子设备及计算机可读存储介质 |
CN111429880A (zh) * | 2020-03-04 | 2020-07-17 | 苏州驰声信息科技有限公司 | 一种切割段落音频的方法、系统、装置、介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105956588A (zh) | 智能扫描及朗读文字的方法及其机器人装置 | |
WO2019085779A1 (zh) | 机器处理及文本纠错方法和装置、计算设备以及存储介质 | |
CN113822192A (zh) | 一种基于Transformer的多模态特征融合的在押人员情感识别方法、设备及介质 | |
WO2020232864A1 (zh) | 一种数据处理的方法及相关装置 | |
CN112349294B (zh) | 语音处理方法及装置、计算机可读介质、电子设备 | |
CN111916054B (zh) | 基于唇形的语音生成方法、装置和系统及存储介质 | |
CN109670559A (zh) | 手写汉字的识别方法、装置、设备和存储介质 | |
CN112417134A (zh) | 基于语音文本深度融合特征的摘要自动生成系统及方法 | |
CN117349427A (zh) | 一种面向舆情事件应对的人工智能多模态内容生成系统 | |
CN113923521B (zh) | 一种视频的脚本化方法 | |
Tymoshenko et al. | Real-Time Ukrainian Text Recognition and Voicing. | |
CN117152308B (zh) | 一种虚拟人动作表情优化方法与系统 | |
CN112084788A (zh) | 一种影像字幕隐式情感倾向自动标注方法及系统 | |
De Zoysa et al. | Project Bhashitha-Mobile based optical character recognition and text-to-speech system | |
CN116978367A (zh) | 语音识别方法、装置、电子设备和存储介质 | |
CN116257630A (zh) | 一种基于对比学习的方面级情感分析方法及装置 | |
Bin Munir et al. | A machine learning based sign language interpretation system for communication with deaf-mute people | |
CN108829675A (zh) | 文档表示方法及装置 | |
CN114357984A (zh) | 一种基于拼音的同音字变体处理方法 | |
CN114372140A (zh) | 分层会议摘要生成模型训练方法、生成方法及装置 | |
Brahme et al. | Effect of various visual speech units on language identification using visual speech recognition | |
Barakat et al. | Innovative Deep Learning-based Video Editing Tool | |
Xu et al. | Gabor based lipreading with a new audiovisual mandarin corpus | |
Hallyal et al. | Optimized recognition of CAPTCHA through attention models | |
Shanmugam et al. | Hardcopy Text Recognition and Vocalization for Visually Impaired and Illiterates in Bilingual Language |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160921 |