CN104599670B - 点读笔的语音识别方法 - Google Patents

点读笔的语音识别方法 Download PDF

Info

Publication number
CN104599670B
CN104599670B CN201510050221.4A CN201510050221A CN104599670B CN 104599670 B CN104599670 B CN 104599670B CN 201510050221 A CN201510050221 A CN 201510050221A CN 104599670 B CN104599670 B CN 104599670B
Authority
CN
China
Prior art keywords
individual character
pronunciation
special
word
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510050221.4A
Other languages
English (en)
Other versions
CN104599670A (zh
Inventor
高小青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Boao Zongheng Network Technology Co ltd
Guangzhou Zib Artificial Intelligence Technology Co ltd
Original Assignee
Taishun Futian Horticultural Toy Factory
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taishun Futian Horticultural Toy Factory filed Critical Taishun Futian Horticultural Toy Factory
Priority to CN201510050221.4A priority Critical patent/CN104599670B/zh
Publication of CN104599670A publication Critical patent/CN104599670A/zh
Application granted granted Critical
Publication of CN104599670B publication Critical patent/CN104599670B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明为了提高点读笔对于多音字的特殊发音的准确性,提供了一种点读笔的语音识别方法,包括:点读笔获取包括待读文字的图像,同时对包括待读文字的图像进行预处理,得到完整的第一单字图像;对所述第一单字图像进行文字识别,得到第一单字;从词典中查找所述第一单字的发音;点读笔继续获取包括待读文字的图像,同时对包括待读文字的图像进行预处理,得到完整的第二单字图像;对所述第二单字图像进行文字识别,得到第二单字;从词典中查找所述第一单字和第二单字是否构成特殊词组,所述特殊词组表示前两个字为所述第一单字和第二单字,且第二单字的发音非正常发音的词组。本方法能够对多音字在其所在的词语中自动发出具有正确的读音。

Description

点读笔的语音识别方法
技术领域
本发明涉及语音信号处理方法,更具体地,涉及一种点读笔的语音识别方法。
背景技术
目前市场上已有各种各样的点读笔,为人们的学习带来了极大的便利,辅助家长对孩子进行图书的点读、学习,但现有的点读笔其功能单调,不可实现语音识别的功能,本点读笔针对现有点读笔的不足,设计了一种可实现语音识别的点读笔,小朋友可以与点读笔进行语音对话和鹦鹉学舌,提高小朋友的语言表达能力和沟通能力。
然而,由于汉字是具有多音字的文字,现有的点读笔只能按照每个被识别出来的文字的标准发音(通常是字典或词典中,该字的第一个发音)而发音。这不利于使用者准确理解其含义,也不利于普通话的普及和儿童等使用者对文字发音的正确学习和掌握。
发明内容
本发明为了提高点读笔对于多音字的特殊发音(即除了词典或字典中的第一个被标出的读音之外的其他读音)的准确性,提供了一种点读笔的语音识别方法,包括:
(1)点读笔获取包括待读文字的图像,同时对包括待读文字的图像进行预处理,得到完整的第一单字图像;
(2)对所述第一单字图像进行文字识别,得到第一单字;
(3)从词典中查找所述第一单字的发音;
(4)点读笔继续获取包括待读文字的图像,同时对包括待读文字的图像进行预处理,得到完整的第二单字图像;
(5)对所述第二单字图像进行文字识别,得到第二单字;
(6)从词典中查找所述第一单字和第二单字是否构成特殊词组,所述特殊词组表示前两个字为所述第一单字和第二单字,且第二单字的发音非正常发音的词组。
进一步地,所述步骤(1)之前还包括步骤:根据词典训练单字与其读音之间的映射,并将这种映射中具有多个发音的单字进行标记。
进一步地,所述步骤(1)之前还包括根据所述标记生成正常发音规则和特殊发音规则。
进一步地,在步骤(3)和步骤(4)之间还包括:判断第一单字是否具有标记。
进一步地,如果所述第一单字具有标记,则在词典中查询以第一单字为首字的所有特殊词组。
进一步地,所述步骤(6)中,从词典中查找所述第一单字和第二单字是否构成特殊词组包括:判断第二单字是否为所述特殊词组的第二个字。
进一步地,所述步骤(6)还包括:如果不构成特殊词组,则根据正常发音规则发出第一单字和第二单字的语音,否则根据正常发音规则发出第一单字的语音,并根据特殊发音规则发出第二单字的语音。
进一步地,所述语音识别方法在步骤(6)之后,还包括:若第二单字的发音不正确,则重复步骤(4)到步骤(6)5次,则在最后一次重复步骤(6)时,强行根据正常发音规则发出第二单字的语音。
本发明的有益效果为:能够对多音字在其所在的词语中自动发出具有正确的读音,从而帮助点读笔的使用者正确理解待读取文字的含义,还有助于少年儿童纠正错误的发音习惯,更好地学习普通话。
附图说明
图1示出了根据本发明的优选实施例的方法流程框图。
具体实施方式
如图1所示,点读笔的语音识别方法包括如下步骤:
(1)根据词典训练单字与其读音之间的映射,并将这种映射中具有多个发音的单字进行标记,之后,根据所述标记生成正常发音规则和特殊发音规则。
所述映射建立在多音字词典上,包括三个步骤。首先是标注各个单字的发音。在该单字对应的发音中,如果该单字具有多种发音,则为该单字建立特殊发音规则并将该单字标记为特殊单字,否则为该单字建立正常发音规则且不把该单字标记为特殊单字。
正常发音规则中,对于各个单字,每个单字对应地只有一个读音。特殊发音规则中,每个单字对应地映射多个读音,且读音的次序按照字典中各个读音的排列顺序,并将位于第一位的记作第一发音,位于后面的其他发音记作非第一发音。
第二个步骤是根据各个单字与其发音的映射关系,在字典中进一步查找包括特殊单字的词语。这个或这些词语中,所述的特殊单字具有非第一发音。
第三个步骤是在第一步的映射中,为每个单字补充第二部中查找到的包括特殊单字的词语,并为该单字与这些词语以及这些词语中的各个单字的特殊读音(所述各个单字构成的该词语中,至少一个单字为特殊发音)之间也建立映射。
特殊在建立该特殊发音规则时,要对应地查找变音、变调是指在语声流中,按发音规则发生的声音的变化,这种变化有以下几种:
变调:每个单独的音节有确定的音调,但在词组中,由于相邻音节发音的影响,音调发生变化。如上声相连时,前面的上声近似阳平,三个上声相连时,前两个上声近似阳平。
弱化:弱化就是把语流中的某些音节读成轻声,如“你的”中的“的”,“杯子”中的“子”,“爸爸”中的第二个“爸”。
强化:强化就是把语流中的某些音节加强,读成重音。如“努力学习”中的“努力”。
儿化:汉语中的音节带有儿化韵尾,产生了儿化韵,如“花儿”。
(2)点读笔获取包括待读文字的图像,同时对包括待读文字的图像进行预处理,得到完整的第一单字图像。图像的获得可以依靠点读笔自身的连拍等方案来采集包括文字的图像。采集到的图像经过图像预处理单元去除图像中的干扰,以提高文字识别的准确度。例如,增强图像的对比度和/或亮度、弯曲或拉伸图像以调整图像的角度等。
(3)对所述第一单字图像进行文字识别,得到第一单字。该步骤采用现有的图像-文字识别器,通过硬件和/或软件的方式将图像中的文字识别到处理器的缓存中。
(4)从词典中查找所述第一单字的发音;具体来讲,将字典的至少一部分读取到处理单元中,将步骤(3)识别出来的文字与该部分字典作比较:如果没有找到,则继续将字典的其他部分中的至少一部分读入到处理单元的缓存中并再次作比较,直到在字典中找到该单字为止。若此时该单字为点读笔读取的第一个单字,则继续下面步骤,否则将该单字作为下面的“第二单字”加以对待。
重复上述步骤(2)到步骤(4),读取上述单字后续的一个第二单字,并判断该第二单字是否为具有特殊标记的特殊单字。如果是,则在该特殊单字的映射中查找所有包括该特殊单字的词语是否包括上述第一单字。如果包括,则该第一单字和第二单字分别按照映射中的各个单字的读音发出声音。否则,该第一单字和第二单字均按照各自映射中的第一发音而发出声音。
作为本发明的另一种可替换方案,在识别出第一单字和第二单字以后,如果它们不构成特殊词组,则根据正常发音规则发出第一单字和第二单字的语音,否则根据正常发音规则发出第一单字的语音,并根据特殊发音规则发出第二单字的语音。
优选地,对于某些由于发音变更的规定而改变了原有读音的单字,本发明也提供了更改字典的一种方案:若第二单字的发音不正确,则重复步骤(4)到步骤(6)5次,则在最后一次重复步骤(6)时,强行根据正常发音规则发出第二单字的语音,同时在与该第二单字映射的词语中查找包括该第一单字和第二单字的词语,并将第二单字在这些特殊发音词语中的非第一发音修改为第一发音。
本发明说明书中未作详细描述的内容属于本领域专业技术人员公知技术。
以上所述,仅是本发明的较佳实施例,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属本发明技术方案的保护范围。

Claims (6)

1.一种点读笔的语音识别方法,包括:首先,根据词典训练单字与其读音之间的映射,并将这种映射中具有多个发音的单字进行标记,之后,根据所述标记生成正常发音规则和特殊发音规则;所述映射建立在多音字词典上,包括三个步骤;首先是标注各个单字的发音;在该单字对应的发音中,如果该单字具有多种发音,则为该单字建立特殊发音规则并将该单字标记为特殊单字,否则为该单字建立正常发音规则且不把该单字标记为特殊单字;正常发音规则中,对于各个单字,每个单字对应地只有一个读音;特殊发音规则中,每个单字对应地映射多个读音,且读音的次序按照字典中各个读音的排列顺序,并将位于第一位的记作第一发音,位于后面的其他发音记作非第一发音;第二个步骤是根据各个单字与其发音的映射关系,在字典中进一步查找包括特殊单字的词语;这个或这些词语中,所述的特殊单字具有非第一发音;第三个步骤是在第一步的映射中,为每个单字补充第二部中查找到的包括特殊单字的词语,并为该单字与这些词语以及这些词语中的各个单字的特殊读音之间也建立映射,所述各个单字构成的该词语中,至少一个单字为特殊发音;其次,该方法还包括如下步骤:(1)点读笔获取包括待读文字的图像,同时对包括待读文字的图像进行预处理,得到完整的第一单字图像;(2)对所述第一单字图像进行文字识别,得到第一单字;(3)从词典中查找所述第一单字的发音;(4)点读笔继续获取包括待读文字的图像,同时对包括待读文字的图像进行预处理,得到完整的第二单字图像;(5)对所述第二单字图像进行文字识别,得到第二单字;(6)从词典中查找所述第一单字和第二单字是否构成特殊词组,所述特殊词组表示前两个字为所述第一单字和第二单字,且第二单字的发音非正常发音的词组。
2.根据权利要求1的点读笔的语音识别方法,其特征在于,在步骤(3)和步骤(4)之间还包括:判断第一单字是否具有标记。
3.根据权利要求2的点读笔的语音识别方法,其特征在于,如果所述第一单字具有标记,则在词典中查询以第一单字为首字的所有特殊词组。
4.根据权利要求3的点读笔的语音识别方法,其特征在于,所述步骤(6)中,从词典中查找所述第一单字和第二单字是否构成特殊词组包括:判断第二单字是否为所述特殊词组的第二个字。
5.根据权利要求1的点读笔的语音识别方法,其特征在于,所述步骤(6)还包括:如果不构成特殊词组,则根据正常发音规则发出第一单字和第二单字的语音,否则根据正常发音规则发出第一单字的语音,并根据特殊发音规则发出第二单字的语音。
6.根据权利要求1的点读笔的语音识别方法,其特征在于,所述语音识别方法在步骤(6)之后,还包括:若第二单字的发音不正确,则重复步骤(4)到步骤(6)5次,则在最后一次重复步骤(6)时,强行根据正常发音规则发出第二单字的语音。
CN201510050221.4A 2015-01-30 2015-01-30 点读笔的语音识别方法 Active CN104599670B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510050221.4A CN104599670B (zh) 2015-01-30 2015-01-30 点读笔的语音识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510050221.4A CN104599670B (zh) 2015-01-30 2015-01-30 点读笔的语音识别方法

Publications (2)

Publication Number Publication Date
CN104599670A CN104599670A (zh) 2015-05-06
CN104599670B true CN104599670B (zh) 2017-12-26

Family

ID=53125404

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510050221.4A Active CN104599670B (zh) 2015-01-30 2015-01-30 点读笔的语音识别方法

Country Status (1)

Country Link
CN (1) CN104599670B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106023683A (zh) * 2016-07-29 2016-10-12 北京志光伯元科技有限公司 一种点读笔及点读系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW338813B (en) * 1997-07-15 1998-08-21 Inventec Corp Automatic analysis and handling method for mandarin vocabulary with multiple pronunciation
CN1697019A (zh) * 2004-05-13 2005-11-16 深圳市移动核软件有限公司 使汉字自动发音的方法及使手机朗读短消息的方法
CN202058319U (zh) * 2011-04-28 2011-11-30 北京银盘电子技术有限公司 一种带语音识别功能的点读笔
CN103838866A (zh) * 2014-03-20 2014-06-04 广东小天才科技有限公司 一种文本转换方法及装置

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1172997A (zh) * 1997-07-31 1998-02-11 张博 印刷体文字阅读机
CN1105979C (zh) * 1997-08-15 2003-04-16 英业达股份有限公司 汉语多音字的自动分析及处理的方法
US6542867B1 (en) * 2000-03-28 2003-04-01 Matsushita Electric Industrial Co., Ltd. Speech duration processing method and apparatus for Chinese text-to-speech system
AU2003272871A1 (en) * 2002-10-18 2004-05-04 Beijing Kexin Technology Co., Ltd. Portable digital mobile communication apparatus, method for controlling speech and system
CN100378725C (zh) * 2003-09-04 2008-04-02 摩托罗拉公司 一种产生用于提供与文本对应的语音的信号的方法
WO2005116863A1 (en) * 2004-05-24 2005-12-08 Swinburne University Of Technology A character display system
US20090091530A1 (en) * 2006-03-10 2009-04-09 Kenji Yoshida System for input to information processing device
CN101009095A (zh) * 2007-01-24 2007-08-01 蒋清晓 全自动智能盲用阅读器
CN101271449B (zh) * 2007-03-19 2010-09-22 株式会社东芝 裁减词表和为汉字串注音的方法及装置
CN101324884B (zh) * 2008-07-29 2010-06-02 无敌科技(西安)有限公司 一种多音字发音方法
CN102033859B (zh) * 2009-09-28 2013-04-10 佳能株式会社 词典压缩和词处理方法及系统、文语转换系统、电子设备
CN201927201U (zh) * 2011-01-27 2011-08-10 安徽科大讯飞信息科技股份有限公司 一种识别笔
CN102651217A (zh) * 2011-02-25 2012-08-29 株式会社东芝 用于合成语音的方法、设备以及用于语音合成的声学模型训练方法
CN202078739U (zh) * 2011-03-25 2011-12-21 李军英 一种具有点读功能的智能玩具
CN203311662U (zh) * 2012-12-05 2013-11-27 方翔 识字朗读笔
CN104281847B (zh) * 2013-07-12 2017-10-03 步步高教育电子有限公司 一种点读方法、装置及设备
CN103761892B (zh) * 2014-01-20 2016-02-03 广东小天才科技有限公司 一种语音播放纸质书籍内容的方法及装置
CN104050838B (zh) * 2014-07-15 2016-06-08 北京网梯科技发展有限公司 一种能够识别与点读普通印刷物的点读系统、设备及方法
CN104157171B (zh) * 2014-08-13 2016-11-09 三星电子(中国)研发中心 一种点读系统及其方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW338813B (en) * 1997-07-15 1998-08-21 Inventec Corp Automatic analysis and handling method for mandarin vocabulary with multiple pronunciation
CN1697019A (zh) * 2004-05-13 2005-11-16 深圳市移动核软件有限公司 使汉字自动发音的方法及使手机朗读短消息的方法
CN202058319U (zh) * 2011-04-28 2011-11-30 北京银盘电子技术有限公司 一种带语音识别功能的点读笔
CN103838866A (zh) * 2014-03-20 2014-06-04 广东小天才科技有限公司 一种文本转换方法及装置

Also Published As

Publication number Publication date
CN104599670A (zh) 2015-05-06

Similar Documents

Publication Publication Date Title
CN105244022B (zh) 音视频字幕生成方法及装置
US10235991B2 (en) Hybrid phoneme, diphone, morpheme, and word-level deep neural networks
CN109461436A (zh) 一种语音识别发音错误的纠正方法及系统
KR101487005B1 (ko) 문장입력을 통해 발음교정을 실시하는 외국어 학습장치 및 그 학습방법
US9959270B2 (en) Method and apparatus to model and transfer the prosody of tags across languages
CN103810993B (zh) 一种文本注音方法及装置
CN104239579A (zh) 构建多语言音标数据库的方法、多语言注音的方法及装置
KR20140071070A (ko) 음소기호를 이용한 외국어 발음 학습방법 및 학습장치
CN107041159B (zh) 发音助手
Nikulásdóttir et al. An Icelandic pronunciation dictionary for TTS
CN104599670B (zh) 点读笔的语音识别方法
CN109448458A (zh) 一种英语口语训练装置、数据处理方法及存储介质
CN111898342A (zh) 一种基于编辑距离的中文发音校验方法
Duponceau English Phonology; Or, an Essay towards an Analysis and Description of the component sounds of the English Language
Tjalve et al. Pronunciation variation modelling using accent features
KR101487006B1 (ko) 연음법칙이 적용되는 발음의 발음교정을 실시하는 외국어 학습장치 및 그 학습방법
KR101487007B1 (ko) 사용자의 발음을 분석하여 교정해주는 외국어 학습장치 및 그 학습방법
CN108197122B (zh) 基于音节嵌入的藏汉人名音译方法
US20190189026A1 (en) Systems and Methods for Automatically Integrating a Machine Learning Component to Improve a Spoken Language Skill of a Speaker
CN108628847A (zh) 一种采用birch聚类算法翻译普通话和英语的同传箱
JP6879521B1 (ja) 多言語音声認識およびテーマ−意義素解析方法および装置
KR102605159B1 (ko) 음성 인식 서비스를 제공하는 서버, 방법 및 컴퓨터 프로그램
KR102165317B1 (ko) 규칙 및 조합 기반 새로운 단어의 식별가능성을 높이는 파닉스 학습 서비스 제공 방법
CN109671308B (zh) 一种发音口型矫正系统的生成方法
CN109686141B (zh) 一种语言学习的发音口型矫正系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20171108

Address after: Changle City Fuxing Village Tantou Town, Fujian city of Fuzhou province No. 176 350200

Applicant after: Wu Sijing

Address before: 610041 No. two, No. 1, Keyuan garden, hi tech Zone, Sichuan, Chengdu

Applicant before: CHENGDU XINGXUAN TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Gao Xiaoqing

Inventor before: Zhang Xin

TA01 Transfer of patent application right

Effective date of registration: 20171122

Address after: 325000 Taishun County, Wenzhou City, Zhejiang Province, Luoyang Jiao Yang Industrial Park D-3

Applicant after: Taishun Futian horticultural toy factory

Address before: Changle City Fuxing Village Tantou Town, Fujian city of Fuzhou province No. 176 350200

Applicant before: Wu Sijing

TA01 Transfer of patent application right
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20180503

Address after: 510030 Guangzhou, Guangdong, Yuexiu District Beijing Road No. 374, two 1101, 1102 rooms (for office use only).

Patentee after: GUANGZHOU ZIB ARTIFICIAL INTELLIGENCE TECHNOLOGY CO.,LTD.

Address before: 510000 B1B2, one, two, three and four floors of the podium building 231 and 233, science Avenue, Guangzhou, Guangdong.

Patentee before: BOAO ZONGHENG NETWORK TECHNOLOGY Co.,Ltd.

Effective date of registration: 20180503

Address after: 510000 B1B2, one, two, three and four floors of the podium building 231 and 233, science Avenue, Guangzhou, Guangdong.

Patentee after: BOAO ZONGHENG NETWORK TECHNOLOGY Co.,Ltd.

Address before: 325000 D-3, Luoyang Jiao Yang Industrial Park, Taishun, Wenzhou, Zhejiang

Patentee before: Taishun Futian horticultural toy factory