CN109448717A - 一种语音单词拼写识别方法、设备及存储介质 - Google Patents
一种语音单词拼写识别方法、设备及存储介质 Download PDFInfo
- Publication number
- CN109448717A CN109448717A CN201811501529.6A CN201811501529A CN109448717A CN 109448717 A CN109448717 A CN 109448717A CN 201811501529 A CN201811501529 A CN 201811501529A CN 109448717 A CN109448717 A CN 109448717A
- Authority
- CN
- China
- Prior art keywords
- word
- spelling
- letter
- recognition result
- original
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 230000006870 function Effects 0.000 claims description 15
- 235000004240 Triticum spelta Nutrition 0.000 claims description 11
- 238000004891 communication Methods 0.000 claims description 7
- 230000003993 interaction Effects 0.000 abstract description 5
- 230000008569 process Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 5
- 238000009434 installation Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 235000013399 edible fruits Nutrition 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Document Processing Apparatus (AREA)
- Character Discrimination (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种语音单词拼写识别方法、设备及存储介质,其中,所述语音单词拼写识别通过获取待输入的目标单词并输出语音拼写提示信息;之后接收用户输入的单词拼写信息,对所述单词拼写信息进行语音识别获取当前录入单词的原始识别结果;之后根据所述原始识别结果中每个字母的识别参数对所述原始识别结果与目标单词进行计算匹配,判断是否拼写正确并反馈拼写结果。通过获取用户录入单词的原始识别结果并结合该结果中每个字母的识别参数进行计算匹配,消除了由于单纯字母语音识别准确度不高导致的单词拼写判断偏差,确保用户在进行语音单词拼写时的判断精确性,有效提高了人机交互的智能化程度。
Description
技术领域
本发明涉及语音识别技术领域,具体涉及一种语音单词拼写识别方法、设备及存储介质。
背景技术
随着人工智能技术的不断发展,机器的功能越来越强,智能化程度越来越高,在英语教育领域,近期出现更多基于人工智能技术的教育方法,包括手机App、机器人、专业设备等。其中,纯语音的练习也占据越来越高的地位,在国内英语的教育改革中,口语和听力的比例也逐渐提高,重视培养能说能交流的英语人才。
在英语学习中,单词拼写和交互练习是刚需。但是,机器识别字母一直是人工智能领域的难题,主要的原因是字母的音频很短,在技术上称为“维度短”。同时,很多字母的发音很相近,例如,“E”、“D”、“B”、“T”、“P”、“Z”,进一步造成精准识别的难度上升。
现有的字母识别技术主要服务于电话自动客服系统,例如针对电话系统实现简单的A/B/C的语音识别,或者为了解决字母识别问题使用文字替代字母,如用“Alpha”替代“A”等等,但均无法针对超短音频或相近字母进行精确的语音识别,进而十分影响用户在进行语音单词拼写交互练习时的准确性。
因此,现有技术还有待于改进和发展。
发明内容
鉴于上述现有技术的不足之处,本发明的目的在于提供一种语音单词拼写识别方法、设备及存储介质,解决了目前由于无法准确识别字母语音,导致在人机交互单词拼写练习中拼写判断准确性低的问题。
为了达到上述目的,本发明采取了以下技术方案:
一种语音单词拼写识别方法,其包括如下步骤:
获取待输入的目标单词并输出语音拼写提示信息;
接收用户输入的单词拼写信息,对所述单词拼写信息进行语音识别获取当前录入单词的原始识别结果;
根据所述原始识别结果中每个字母的识别参数对所述原始识别结果与目标单词进行计算匹配,判断是否拼写正确并反馈拼写结果。
所述的语音单词拼写识别方法中,所述接收用户输入的单词拼写信息,对所述单词拼写信息进行语音识别获取当前录入单词的原始识别结果的步骤包括:
开启录音功能,录入用户输入的单词拼写信息;
判断所述单词拼写信息是否完成录入,若是,则对完整的单词拼写信息进行语音识别获取当前录入单词的原始识别结果。
所述的语音单词拼写识别方法中,所述接收用户输入的单词拼写信息,对所述单词拼写信息进行语音识别获取当前录入单词的原始识别结果的步骤包括:
开启录音功能,录入用户输入的单词语音信息;
对所述单词拼写信息进行实时语音识别,获取当前录入单词的原始识别结果,直到所述单词拼写信息完成录入。
所述的语音单词拼写识别方法中,所述根据所述原始识别结果中每个字母的识别参数对所述原始识别结果与目标单词进行计算匹配,判断是否拼写正确并反馈拼写结果的步骤包括:
判断所述目标单词中的字母是否按顺序包含于所述原始识别结果中;若是,则继续进行拼写判断,否则反馈拼写错误;
获取所述原始识别结果中每个字母的可信度以及每个字母的时间长度;
根据所述原始识别结果中每个字母的可信度、每个字母的时间长度以及目标单词的字母长度进行拼写判断,判断当前录入单词是否拼写正确。
所述的语音单词拼写识别方法中,所述判断所述目标单词中的字母是否按顺序包含于所述原始识别结果中的步骤具体包括:
将所述目标单词中的每个字母按顺序依次与原始识别结果中的字母进行匹配,当目标单词中第N位字母与原始识别结果中第M位字母相等时,则继续将目标单词中第N+1位字母与原始识别结果中第M+1位字母至末位字母进行依次匹配,直到目标单词中的末位字母匹配完成后输出判断结果。
所述的语音单词拼写识别方法中,所述根据所述原始识别结果中每个字母的可信度、每个字母的时间长度以及目标单词的字母长度进行拼写判断,判断当前录入单词是否拼写正确的步骤包括:
根据所述原始识别结果中每个字母的可信度和每个字母的时间长度分别计算所述原始识别结果的有效字符个数和所有字母的时间长度;
根据所述原始识别结果的有效字符个数和所有字母的时间长度计算原始识别结果中每个字母的平均时长;
计算所述原始识别结果中所有不在目标单词的字母的有效时长;
判断所述原始识别结果的有效字符个数、每个字母的平均时长、所有不在目标单词的字母的有效时长和/或目标单词的字母长度之间是否满足预设规则,若是则拼写正确。
所述的语音单词拼写识别方法中,所述判断所述原始识别结果的有效字符个数、每个字母的平均时长、所有不在目标单词的字母的有效时长和/或目标单词的字母长度之间是否满足预设规则,若是则拼写正确的步骤具体包括:
判断是否满足预设规则Cnt+∆a > C,若是则拼写正确,其中,Cnt为目标单词的字母长度,∆a为第一误差参数,C为原始识别结果的有效字符个数。
所述的语音单词拼写识别方法中,所述判断所述原始识别结果的有效字符个数、每个字母的平均时长、所有不在目标单词的字母的有效时长和/或目标单词的字母长度之间是否满足预设规则,若是则拼写正确的步骤具体包括:
判断是否满足预设规则Cnt+∆b> C且Avg > UT*α,若是则拼写正确,其中,Cnt为目标单词的字母长度,∆b为第二误差参数,C为原始识别结果的有效字符个数,Avg为原始识别结果中每个字母的平均时长,UT为原始识别结果中所有不在目标单词的字母的有效时长,α为平衡系数。
一种语音单词拼写识别设备,所述语音单词拼写识别设备包括处理器、存储器和通信总线;
所述通信总线用于实现处理器和存储器之间的连接通信;
所述处理器用于执行所述存储器中的语音单词拼写识别程序,以实现如权上一项所述的语音单词拼写识别方法。
一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上所述的语音单词拼写识别方法。
相较于现有技术,本发明提供的语音单词拼写识别方法、设备及存储介质中,所述语音单词拼写识别通过获取待输入的目标单词并输出语音拼写提示信息;之后接收用户输入的单词拼写信息,对所述单词拼写信息进行语音识别获取当前录入单词的原始识别结果;之后根据所述原始识别结果中每个字母的识别参数对所述原始识别结果与目标单词进行计算匹配,判断是否拼写正确并反馈拼写结果。通过获取用户录入单词的原始识别结果并结合该结果中每个字母的识别参数进行计算匹配,消除了由于单纯字母语音识别准确度不高导致的单词拼写判断偏差,确保用户在进行语音单词拼写时的判断精确性,有效提高了人机交互的智能化程度。
附图说明
图1为本发明提供的语音单词拼写识别方法的流程图。
图2为本发明提供的语音单词拼写识别方法第一实施例中步骤S20的流程图。
图3为本发明提供的语音单词拼写识别方法第二实施例中步骤S20的流程图。
图4为本发明提供的语音单词拼写识别方法中步骤S30的流程图。
图5为本发明提供的语音单词拼写识别方法应用实施例中步骤S31的流程图。
图6为本发明提供的语音单词拼写识别方法应用实施例中字母判断示意图。
图7为本发明提供的语音单词拼写识别方法中步骤S33的流程图。
图8为本发明语音单词拼写识别程序的较佳实施例的运行环境示意图。
图9为本发明安装语音单词拼写识别程序的系统较佳实施例的功能模块图。
具体实施方式
鉴于现有技术中单词拼写判断准确度低等缺点,本发明的目的在于提供一种语音单词拼写识别方法、设备及存储介质,通过获取用户录入单词的原始识别结果并结合该结果中每个字母的识别参数进行计算匹配,消除了由于单纯字母语音识别准确度不高导致的单词拼写判断偏差,确保用户在进行语音单词拼写时的判断精确性,有效提高了人机交互的智能化程度。
为使本发明的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
请参阅图1,本发明提供的语音单词拼写识别方法包括以下步骤:
S10、获取待输入的目标单词并输出语音拼写提示信息。
本实施例中,在开始单词拼写练习前,先根据用户输入的选择指令从预存数据中选择相应单词本,所述单词本包括多种类型,例如可按年级区分词汇(小学、初中、高中),或者按考试类型区分词汇(四六级、托福、雅思)等等,用户可根据自身学习情况选择相应的单词本进行单词拼写练习,确认选择某一单词本后则从该单词本中获取待输入的目标单词并输出语音拼写提示信息,提示用户开始进行语音拼写,其中目标单词的获取可在被选择的单词本中随机获取,也可根据每个单词本的单词练习进度按顺序获取,用户可根据实际学习需求进行灵活选择。
S20、接收用户输入的单词拼写信息,对所述单词拼写信息进行语音识别获取当前录入单词的原始识别结果。
当获取了目标单词并提示用户开始语音输入后,接收用户输入的单词拼写信息,并对所述单词拼写信息进行语音识别获取当前录入单词的原始识别结果,具体实施时,语音识别可采用现有的普通高斯混合(GMM)模型技术,包括声学特征提取(MFCC),声学模型训练和识别等等进行语音识别获取原始识别结果,由于识别的是单个字母的超短语音,单纯的声波到字母的映射准确度不高,因此对用户输入的单词拼写信息进行识别后得到的原始识别结果可能会有偏差,例如目标单词为“APPLE”,而对用户输入的单词拼写信息进行识别后的原始识别结果为“ANPPELLET”,造成原始识别结果偏差的主要原因是需要将所有可能的字母都判断出来,以免丢失,后续则基于该原始识别结果再进行进一步数据处理来消除该偏差提高拼写判断的准确性。本发明对录入单词拼写信息以及语音识别过程提供两种实施例,请参阅图2,其为本发明提供的语音单词拼写识别方法第一实施例中步骤S20的流程图。
如图2所示,所述步骤S20包括:
S20、开启录音功能,录入用户输入的单词拼写信息;
S21、判断所述单词拼写信息是否完成录入,若是,则对完整的单词拼写信息进行语音识别获取当前录入单词的原始识别结果。
本实施例中,在提示用户开始进行语音拼写后随即开启录音功能,录入用户输入的单词拼写信息,之后判断所述单词拼写信息是否完成录入,具体可根据所述单词拼写信息中的静音时长判断当前是否完成录入,例如当用户在输入单词拼写信息时,在输入完某一字母后的静音时长大于预设时长(例如3s),则判断当前单词拼写信息录入完成,之后对完整的单词拼写信息进行语音识别获取当前录入单词的原始识别结果,即本实施例是先对单词拼写信息进行完整获取后再进行语音识别,确保不会漏掉用户输入的单词拼写信息,保证语音输入的完整性。
请参阅图3,其为本发明提供的语音单词拼写识别方法第二实施例中步骤S20的流程图。如图3所示,所述步骤S20包括:
S23、开启录音功能,录入用户输入的单词语音信息;
S24、对所述单词拼写信息进行实时语音识别,获取当前录入单词的原始识别结果,直到所述单词拼写信息完成录入。
与第一实施例不相同的是,本实施例中在开启录音功能录入所述单词语音信息后,是实时地对所述单词拼写信息进行语音识别,即每当用户输入一个字母随机进行语音识别获取原始识别结果,直到所述单词拼写信息完成录入,是否完成录入的判断标准也可根据某一字母录入后的静音时长进行判断,本实施例中通过对每个字母进行实时语音识别,具有延时短的特点,可节约单词拼写信息录音与识别的时间,提高识别效率。
S30、根据所述原始识别结果中每个字母的识别参数对所述原始识别结果与目标单词进行计算匹配,判断是否拼写正确并反馈拼写结果。
在获取了用户输入的单词拼写信息的原始识别结果后,由于需要将所有可能的字母都识别出来以免遗漏,因此原始识别结果与用户实际进行拼写的单词会存在偏差导致拼写判断错误,因此本实施例中,在获取了原始识别结果后,进一步根据每个字母的识别参数对所述原始识别结果与目标单词进行计算匹配,判断是否拼写正确并反馈拼写结果,具体所述原始识别结果中每个字母均具有两个识别参数,范围在[0,1]的可信度以及每个字母的时间长度,根据原始识别结果中每个字母的识别参数进行计算匹配从而有效消除语音识别单个字母带来的偏差,确保语音单词拼写的判断准确性。其中所述可信度的计算以及时间长度的获取为现有语音识别技术,本发明对此不作详述。请参阅图4,其为本发明提供的语音单词拼写识别方法中步骤S30的流程图。
如图4所示,所述步骤S30包括:
S31、判断所述目标单词中的字母是否按顺序包含于所述原始识别结果中;若是,则继续进行拼写判断,否则反馈拼写错误;
S32、获取所述原始识别结果中每个字母的可信度以及每个字母的时间长度;
S33、根据所述原始识别结果中每个字母的可信度、每个字母的时间长度以及目标单词的字母长度进行拼写判断,判断当前录入单词是否拼写正确。
在获取了原始识别结果后,首先判断所述目标单词中的字母是否按顺序包含于所述原始识别结果中,由于原始识别结果中的误差主要是由于将所有可能的字母均识别出来,因此假设用户输入正确,则原始识别结果中应当按顺序包含有目标单词中的所有字母,若原始识别结果中直接缺少所述目标单词中的字母或者并未按目标单词中的字母顺序包含,则直接反馈拼写错误。
具体来说,所述步骤S31中,在进行判断时将所述目标单词中的每个字母按顺序依次与原始识别结果中的字母进行匹配,当目标单词中第N位字母与原始识别结果中第M位字母相等时,则继续将目标单词中第N+1位字母与原始识别结果中第M+1位字母至末位字母进行依次匹配,直到目标单词中的末位字母匹配完成后输出判断结果,其中N小于等于目标单词的字母长度,M小于等于原始识别结果的字母长度。
以下结合图5和图6,举具体地应用实施例对上述判断过程进行详细描述:
S1、设目标单词序列为L1,原始识别结果序列为L2;
S2、分别设置L1和L2的当前位置C1和C2;
S3、判断C1是否等于C2,若是,则执行步骤S4,否则执行步骤S6;
S4、C1向后移动一位;
S5、判断C1是否到达序列L1末尾,若是则判断成功,否则执行步骤S6;
S6、C2向后移动一位;
S7、判断C2是否到达序列L2末尾,若是则判断失败,否则跳转至步骤S3继续进行字母匹配。
本应用实施例中以目标单词“APPLE”为例进行解释说明,如图6所示,目标单词的当前位置C1为字母A,原始识别结果的当前位置C2为字母A,判断包含A;C1向后移动一位且未到达序列末尾,下一个字符为P,C2同样向后移动一位,原始结果从第2个字符N开始匹配,直到第3个字符为P,判断包含P;C1继续向后移动一位且未到达序列末尾,下一个字符为P,C2同样继续向后移动一位,原始结果从第4个字符开始匹配,第4个字符为P,判断包含P;C1继续向后移动一位且未到达序列末尾,下一个字符为L,C2同样继续向后移动一位,原始结果从第5个字符开始匹配,直到第6个字符为L,判断包含P;C1继续向后移动一位且到达序列末尾,下一个字符为E,C2同样继续向后移动一位,原始结果从第7个字符开始匹配,直到第8个字符为E,判断包含E,此时C1已到序列末尾,因此判断当前目标单词是按顺序包含于原始识别结果的。
当初始匹配成功后,由于原始识别结果中还多出了几个字符,因此需要进一步计算匹配以消除误差,具体为获取原始识别结果中每个字母的可信度以及每个字母的时间长度这两个识别参数,根据所述原始识别结果中每个字母的可信度、每个字母的时间长度以及目标单词的字母长度进行拼写判断,判断当前录入单词是否拼写正确,即综合原始识别结果中每个字母的可信度和时间长度尽可能消除由于相近字母识别或超短音频识别带了的识别偏差,确保用户在进行语音单词拼写时的判断精确性,提高单词拼写练习效果。具体地计算匹配过程请参阅图7,其为本发明提供的语音单词拼写识别方法中步骤S33的流程图。
如图7所示,所述步骤S33包括:
S331、根据所述原始识别结果中每个字母的可信度和每个字母的时间长度分别计算所述原始识别结果的有效字符个数和所有字母的时间长度;
S332、根据所述原始识别结果的有效字符个数和所有字母的时间长度计算原始识别结果中每个字母的平均时长;
S333、计算所述原始识别结果中所有不在目标单词的字母的有效时长;
S334、判断所述原始识别结果的有效字符个数、每个字母的平均时长、所有不在目标单词的字母的有效时长和/或目标单词的字母长度之间是否满足预设规则,若是则拼写正确。
本实施例中,在获取了原始识别结果的识别参数后,先根据所述原始识别结果中每个字母的可信度和每个字母的时间长度分别计算所述原始识别结果的有效字符个数和所有字母的时间长度,其中所述原始识别结果的有效字符个数为每个字母的可信度的累加,由于可信度是0到1之间的任意数,因此原始识别结果的有效字符个数通常小于原始识别结果序列的长度;所有字母的时间长度则为每个字母的时间长度的累加,其中每个字母的时间长度为去除静音和无效语音后的所有时长,为物理真实时长,静音部分是机器认为非人声的部分,无效部分是指找不到映射的语音。
之后根据所述有效字符个数和所有字母的时间长度计算原始识别结果中每个字母的平均时长,所述每个字母的平均时长Avg = L/C,其中L为原始识别结果的所有字母的时间长度,C为原始识别结果的有效字符个数。之后根据步骤S31中的顺序匹配结果,计算所述原始识别结果中所有不在目标单词的字母的有效时长,例如上述应用实施例中,不在目标单词的字母为N、E、L、T,则计算原始识别结果中第2、5、7、9位字母的有效时长,该有效时长的计算方式为所有不在目标单词中的字母时长和可信度的乘积的累加值。之后根据计算得到的参数,即原始识别结果的有效字符个数、每个字母的平均时长、所有不在目标单词的字母的有效时长和/或目标单词的字母长度,综合判断其是否满足预设条件,进而判断拼写是否正确,通过引入原始识别结果中的可信度以及时间长度进行计算有效字符个数以及平均时长等等参数,尽可能地消除原始识别结果中的误差提高判断结果的准确性。
具体来说,所述步骤S334中,本发明在判断是否满足预设规则时提供两种实施例,第一优选实施例中,通过判断是否满足预设规则Cnt+∆a > C,若是则拼写正确,其中,Cnt为目标单词的字母长度,∆a为第一误差参数,C为原始识别结果的有效字符个数,其中∆a为可调参数,优选为小于0.5。本实施例中,当Cnt+∆a > C时,代表原始识别结果的有效字符个数要小于目标单词的字母长度加上一个误差,即原始识别结果中的多余字母可信度太低,不足以作为拼写判断依据,可能是语音识别中带来的识别误差,此时判断拼写成功。
第二优选实施例中,通过判断是否满足预设规则Cnt+∆b> C且Avg > UT*α,若是则拼写正确,其中,Cnt为目标单词的字母长度,∆b为第二误差参数,C为原始识别结果的有效字符个数,Avg为原始识别结果中每个字母的平均时长,UT为原始识别结果中所有不在目标单词的字母的有效时长,α为平衡系数,其中∆b和α同样为可调参数,1>∆b>∆a,α的取值范围为[0,1]。当不满足第一优选实施例中的条件,但原始识别结果的有效字符个数与目标单词的字母长度之间的误差在第二误差参数内,且所有不在目标单词的多余字母的有效时长小于每个字母的平均时长,即在一定的可信度范围误差内,原始识别结果中多余字母的有效时长太短,可能为单个字符被识别成两个或者更多带来的识别误差,此时同样判断拼写成功。因此本发明通过对获取到的原始识别结果,结合该结果中每个字母的识别参数进行计算匹配,消除了由于单纯字母语音识别准确度不高导致的单词拼写判断偏差,有效提高了人机交互的智能化程度。
如图8所示,基于上述语音单词拼写识别方法,本发明还相应提供了一种语音单词拼写识别设备。所述语音单词拼写识别设备可以是桌上型计算机、笔记本、掌上电脑及教育机器人等计算设备。该语音单词拼写识别设备包括,但不仅限于,处理器10、存储器20、及显示器30。图8仅示出了语音单词拼写识别设备的部分组件,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
所述存储器20在一些实施例中可以是所述语音单词拼写识别设备的内部存储单元,例如该语音单词拼写识别设备的硬盘或内存。所述存储器20在另一些实施例中也可以是所述语音单词拼写识别设备的外部存储设备,例如所述语音单词拼写识别设备上配备的插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器20还可以既包括所述语音单词拼写识别设备的内部存储单元也包括外部存储设备。所述存储器20用于存储安装于所述语音单词拼写识别设备的应用软件及各类数据,例如所述安装语音单词拼写识别设备的程序代码等。所述存储器20还可以用于暂时地存储已经输出或者将要输出的数据。在一实施例中,存储器20上存储有语音单词拼写识别程序40,该语音单词拼写识别程序40可被处理器10所执行,从而实现本申请各实施例的语音单词拼写识别方法。
所述处理器10在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器或其他数据处理芯片,用于运行所述存储器20中存储的程序代码或处理数据,例如执行所述权限认证方法等。
所述显示器30在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。所述显示器30用于显示在所述语音单词拼写识别设备中处理的信息以及用于显示可视化的用户界面,例如显示目标单词以及反馈拼写判断结果等。所述语音单词拼写识别设备的部件10-30通过系统总线相互通信。
在一实施例中,当处理器10执行所述存储器20中语音单词拼写识别程序40时实现以下步骤:
获取待输入的目标单词并输出语音拼写提示信息;
接收用户输入的单词拼写信息,对所述单词拼写信息进行语音识别获取当前录入单词的原始识别结果;
根据所述原始识别结果中每个字母的识别参数对所述原始识别结果与目标单词进行计算匹配,判断是否拼写正确并反馈拼写结果。
进一步的,在所述语音单词拼写识别设备中,所述接收用户输入的单词拼写信息,对所述单词拼写信息进行语音识别获取当前录入单词的原始识别结果的步骤包括:
开启录音功能,录入用户输入的单词拼写信息;
判断所述单词拼写信息是否完成录入,若是,则对完整的单词拼写信息进行语音识别获取当前录入单词的原始识别结果。
所述接收用户输入的单词拼写信息,对所述单词拼写信息进行语音识别获取当前录入单词的原始识别结果的步骤包括:
开启录音功能,录入用户输入的单词语音信息;
对所述单词拼写信息进行实时语音识别,获取当前录入单词的原始识别结果,直到所述单词拼写信息完成录入。
所述根据所述原始识别结果中每个字母的识别参数对所述原始识别结果与目标单词进行计算匹配,判断是否拼写正确并反馈拼写结果的步骤包括:
判断所述目标单词中的字母是否按顺序包含于所述原始识别结果中;若是,则继续进行拼写判断,否则反馈拼写错误;
获取所述原始识别结果中每个字母的可信度以及每个字母的时间长度;
根据所述原始识别结果中每个字母的可信度、每个字母的时间长度以及目标单词的字母长度进行拼写判断,判断当前录入单词是否拼写正确。
所述判断所述目标单词中的字母是否按顺序包含于所述原始识别结果中的步骤具体包括:
将所述目标单词中的每个字母按顺序依次与原始识别结果中的字母进行匹配,当目标单词中第N位字母与原始识别结果中第M位字母相等时,则继续将目标单词中第N+1位字母与原始识别结果中第M+1位字母至末位字母进行依次匹配,直到目标单词中的末位字母匹配完成后输出判断结果。
所述根据所述原始识别结果中每个字母的可信度、每个字母的时间长度以及目标单词的字母长度进行拼写判断,判断当前录入单词是否拼写正确的步骤包括:
根据所述原始识别结果中每个字母的可信度和每个字母的时间长度分别计算所述原始识别结果的有效字符个数和所有字母的时间长度;
根据所述原始识别结果的有效字符个数和所有字母的时间长度计算原始识别结果中每个字母的平均时长;
计算所述原始识别结果中所有不在目标单词的字母的有效时长;
判断所述原始识别结果的有效字符个数、每个字母的平均时长、所有不在目标单词的字母的有效时长和/或目标单词的字母长度之间是否满足预设规则,若是则拼写正确。
所述判断所述原始识别结果的有效字符个数、每个字母的平均时长、所有不在目标单词的字母的有效时长和/或目标单词的字母长度之间是否满足预设规则,若是则拼写正确的步骤具体包括:
判断是否满足预设规则Cnt+∆a > C,若是则拼写正确,其中,Cnt为目标单词的字母长度,∆a为第一误差参数,C为原始识别结果的有效字符个数。
所述判断所述原始识别结果的有效字符个数、每个字母的平均时长、所有不在目标单词的字母的有效时长和/或目标单词的字母长度之间是否满足预设规则,若是则拼写正确的步骤具体包括:
判断是否满足预设规则Cnt+∆b> C且Avg > UT*α,若是则拼写正确,其中,Cnt为目标单词的字母长度,∆b为第二误差参数,C为原始识别结果的有效字符个数,Avg为原始识别结果中每个字母的平均时长,UT为原始识别结果中所有不在目标单词的字母的有效时长,α为平衡系数。
请参阅图9,其为本发明安装语音单词拼写识别程序的系统较佳实施例的功能模块图。在本实施例中,安装语音单词拼写识别程序的系统可以被分割成一个或多个模块,所述一个或者多个模块被存储于所述存储器20中,并由一个或多个处理器(本实施例为所述处理器10)所执行,以完成本发明。例如,在图9中,安装语音单词拼写识别程序的系统可以被分割成获取模块21、录入识别模块22和计算匹配模块23。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段,比程序更适合于描述所述语音单词拼写识别程序在所述语音单词拼写识别设备中的执行过程。以下描述将具体介绍所述模块21-23的功能。
获取模块21,用于获取待输入的目标单词并输出语音拼写提示信息;
录入识别模块22,用于接收用户输入的单词拼写信息,对所述单词拼写信息进行语音识别获取当前录入单词的原始识别结果;
计算匹配模块23,用于根据所述原始识别结果中每个字母的识别参数对所述原始识别结果与目标单词进行计算匹配,判断是否拼写正确并反馈拼写结果。
综上所述,本发明提供的语音单词拼写识别方法、设备及存储介质中,所述语音单词拼写识别通过获取待输入的目标单词并输出语音拼写提示信息;之后接收用户输入的单词拼写信息,对所述单词拼写信息进行语音识别获取当前录入单词的原始识别结果;之后根据所述原始识别结果中每个字母的识别参数对所述原始识别结果与目标单词进行计算匹配,判断是否拼写正确并反馈拼写结果。通过获取用户录入单词的原始识别结果并结合该结果中每个字母的识别参数进行计算匹配,消除了由于单纯字母语音识别准确度不高导致的单词拼写判断偏差,确保用户在进行语音单词拼写时的判断精确性,有效提高了人机交互的智能化程度。
当然,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关硬件(如处理器,控制器等)来完成,所述的程序可存储于一计算机可读取的存储介质中,该程序在执行时可包括如上述各方法实施例的流程。其中所述的存储介质可为存储器、磁碟、光盘等。
应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。
Claims (10)
1.一种语音单词拼写识别方法,其特征在于,包括如下步骤:
获取待输入的目标单词并输出语音拼写提示信息;
接收用户输入的单词拼写信息,对所述单词拼写信息进行语音识别获取当前录入单词的原始识别结果;
根据所述原始识别结果中每个字母的识别参数对所述原始识别结果与目标单词进行计算匹配,判断是否拼写正确并反馈拼写结果。
2.根据权利要求1所述的语音单词拼写识别方法,其特征在于,所述接收用户输入的单词拼写信息,对所述单词拼写信息进行语音识别获取当前录入单词的原始识别结果的步骤包括:
开启录音功能,录入用户输入的单词拼写信息;
判断所述单词拼写信息是否完成录入,若是,则对完整的单词拼写信息进行语音识别获取当前录入单词的原始识别结果。
3.根据权利要求1所述的语音单词拼写识别方法,其特征在于,所述接收用户输入的单词拼写信息,对所述单词拼写信息进行语音识别获取当前录入单词的原始识别结果的步骤包括:
开启录音功能,录入用户输入的单词语音信息;
对所述单词拼写信息进行实时语音识别,获取当前录入单词的原始识别结果,直到所述单词拼写信息完成录入。
4.根据权利要求1所述的语音单词拼写识别方法,其特征在于,所述根据所述原始识别结果中每个字母的识别参数对所述原始识别结果与目标单词进行计算匹配,判断是否拼写正确并反馈拼写结果的步骤包括:
判断所述目标单词中的字母是否按顺序包含于所述原始识别结果中;若是,则继续进行拼写判断,否则反馈拼写错误;
获取所述原始识别结果中每个字母的可信度以及每个字母的时间长度;
根据所述原始识别结果中每个字母的可信度、每个字母的时间长度以及目标单词的字母长度进行拼写判断,判断当前录入单词是否拼写正确。
5.根据权利要求4所述的语音单词拼写识别方法,其特征在于,所述判断所述目标单词中的字母是否按顺序包含于所述原始识别结果中的步骤具体包括:
将所述目标单词中的每个字母按顺序依次与原始识别结果中的字母进行匹配,当目标单词中第N位字母与原始识别结果中第M位字母相等时,则继续将目标单词中第N+1位字母与原始识别结果中第M+1位字母至末位字母进行依次匹配,直到目标单词中的末位字母匹配完成后输出判断结果。
6.根据权利要求4所述的语音单词拼写识别方法,其特征在于,所述根据所述原始识别结果中每个字母的可信度、每个字母的时间长度以及目标单词的字母长度进行拼写判断,判断当前录入单词是否拼写正确的步骤包括:
根据所述原始识别结果中每个字母的可信度和每个字母的时间长度分别计算所述原始识别结果的有效字符个数和所有字母的时间长度;
根据所述原始识别结果的有效字符个数和所有字母的时间长度计算原始识别结果中每个字母的平均时长;
计算所述原始识别结果中所有不在目标单词的字母的有效时长;
判断所述原始识别结果的有效字符个数、每个字母的平均时长、所有不在目标单词的字母的有效时长和/或目标单词的字母长度之间是否满足预设规则,若是则拼写正确。
7.根据权利要求6所述的语音单词拼写识别方法,其特征在于,所述判断所述原始识别结果的有效字符个数、每个字母的平均时长、所有不在目标单词的字母的有效时长和/或目标单词的字母长度之间是否满足预设规则,若是则拼写正确的步骤具体包括:
判断是否满足预设规则Cnt+∆a > C,若是则拼写正确,其中,Cnt为目标单词的字母长度,∆a为第一误差参数,C为原始识别结果的有效字符个数。
8.根据权利要求6所述的语音单词拼写识别方法,其特征在于,所述判断所述原始识别结果的有效字符个数、每个字母的平均时长、所有不在目标单词的字母的有效时长和/或目标单词的字母长度之间是否满足预设规则,若是则拼写正确的步骤具体包括:
判断是否满足预设规则Cnt+∆b> C且Avg > UT*α,若是则拼写正确,其中,Cnt为目标单词的字母长度,∆b为第二误差参数,C为原始识别结果的有效字符个数,Avg为原始识别结果中每个字母的平均时长,UT为原始识别结果中所有不在目标单词的字母的有效时长,α为平衡系数。
9.一种语音单词拼写识别设备,其特征在于,所述语音单词拼写识别设备包括处理器、存储器和通信总线;
所述通信总线用于实现处理器和存储器之间的连接通信;
所述处理器用于执行所述存储器中的语音单词拼写识别程序,以实现如权利要求1-8任意一项所述的语音单词拼写识别方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1-8任意一项所述的语音单词拼写识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811501529.6A CN109448717B (zh) | 2018-12-10 | 2018-12-10 | 一种语音单词拼写识别方法、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811501529.6A CN109448717B (zh) | 2018-12-10 | 2018-12-10 | 一种语音单词拼写识别方法、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109448717A true CN109448717A (zh) | 2019-03-08 |
CN109448717B CN109448717B (zh) | 2022-09-23 |
Family
ID=65557934
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811501529.6A Active CN109448717B (zh) | 2018-12-10 | 2018-12-10 | 一种语音单词拼写识别方法、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109448717B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111026839A (zh) * | 2019-04-23 | 2020-04-17 | 广东小天才科技有限公司 | 一种听写字掌握程度的检测方法及电子设备 |
CN111027793A (zh) * | 2019-03-27 | 2020-04-17 | 广东小天才科技有限公司 | 一种词语掌握程度的确定方法及系统、电子设备 |
CN111260965A (zh) * | 2020-01-17 | 2020-06-09 | 宇龙计算机通信科技(深圳)有限公司 | 词库生成方法及相关装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11338862A (ja) * | 1998-05-22 | 1999-12-10 | Sharp Corp | 電子辞書検索装置、電子辞書検索方法およびその方法を記録した記録媒体 |
CN101615180A (zh) * | 2008-06-27 | 2009-12-30 | 国际商业机器公司 | 汉语拼音识别方法和装置 |
CN103310790A (zh) * | 2012-03-08 | 2013-09-18 | 富泰华工业(深圳)有限公司 | 电子装置及语音识别方法 |
CN105824804A (zh) * | 2016-03-31 | 2016-08-03 | 长安大学 | 基于词库的英语拼写纠错工具和方法 |
WO2018074023A1 (ja) * | 2016-10-21 | 2018-04-26 | 犬養 俊輔 | 単語学習支援装置、単語学習支援プログラム、単語学習支援方法 |
CN108492652A (zh) * | 2018-03-29 | 2018-09-04 | 吴浩东 | 一种英文单词智能拼写记忆方法及其智能实现系统 |
-
2018
- 2018-12-10 CN CN201811501529.6A patent/CN109448717B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11338862A (ja) * | 1998-05-22 | 1999-12-10 | Sharp Corp | 電子辞書検索装置、電子辞書検索方法およびその方法を記録した記録媒体 |
CN101615180A (zh) * | 2008-06-27 | 2009-12-30 | 国际商业机器公司 | 汉语拼音识别方法和装置 |
CN103310790A (zh) * | 2012-03-08 | 2013-09-18 | 富泰华工业(深圳)有限公司 | 电子装置及语音识别方法 |
CN105824804A (zh) * | 2016-03-31 | 2016-08-03 | 长安大学 | 基于词库的英语拼写纠错工具和方法 |
WO2018074023A1 (ja) * | 2016-10-21 | 2018-04-26 | 犬養 俊輔 | 単語学習支援装置、単語学習支援プログラム、単語学習支援方法 |
CN108492652A (zh) * | 2018-03-29 | 2018-09-04 | 吴浩东 | 一种英文单词智能拼写记忆方法及其智能实现系统 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111027793A (zh) * | 2019-03-27 | 2020-04-17 | 广东小天才科技有限公司 | 一种词语掌握程度的确定方法及系统、电子设备 |
CN111026839A (zh) * | 2019-04-23 | 2020-04-17 | 广东小天才科技有限公司 | 一种听写字掌握程度的检测方法及电子设备 |
CN111026839B (zh) * | 2019-04-23 | 2023-09-26 | 广东小天才科技有限公司 | 一种听写字掌握程度的检测方法及电子设备 |
CN111260965A (zh) * | 2020-01-17 | 2020-06-09 | 宇龙计算机通信科技(深圳)有限公司 | 词库生成方法及相关装置 |
CN111260965B (zh) * | 2020-01-17 | 2021-11-16 | 宇龙计算机通信科技(深圳)有限公司 | 词库生成方法及相关装置 |
Also Published As
Publication number | Publication date |
---|---|
CN109448717B (zh) | 2022-09-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107622054B (zh) | 文本数据的纠错方法及装置 | |
CN109036464B (zh) | 发音检错方法、装置、设备及存储介质 | |
CN108288468B (zh) | 语音识别方法及装置 | |
CN111833853B (zh) | 语音处理方法及装置、电子设备、计算机可读存储介质 | |
US20170330479A1 (en) | Interactive Multisensory Learning Process and Tutorial Device | |
CN110085261A (zh) | 一种发音纠正方法、装置、设备以及计算机可读存储介质 | |
CN109448717A (zh) | 一种语音单词拼写识别方法、设备及存储介质 | |
CN105185379A (zh) | 声纹认证方法和装置 | |
CN107343223A (zh) | 视频片段的识别方法和装置 | |
US9620117B1 (en) | Learning from interactions for a spoken dialog system | |
CN109326162A (zh) | 一种口语练习自动评测方法及装置 | |
CN106202288B (zh) | 一种人机交互系统知识库的优化方法及系统 | |
CN108986564A (zh) | 一种基于智能交互的报读控制方法及电子设备 | |
CN109461459A (zh) | 语音评分方法、装置、计算机设备及存储介质 | |
CN107437417A (zh) | 基于循环神经网络语音识别中语音数据增强方法及装置 | |
US11410642B2 (en) | Method and system using phoneme embedding | |
CN109753583A (zh) | 一种搜题方法及电子设备 | |
CN104639742B (zh) | 移动终端辅助学习口语的方法及装置 | |
CN109524008A (zh) | 一种语音识别方法、装置及设备 | |
CN109614623A (zh) | 一种基于句法分析的作文处理方法及系统 | |
CN110148413B (zh) | 语音评测方法及相关装置 | |
CN108595531A (zh) | 拼写训练方法、系统、计算机设备和存储介质 | |
CN114885216A (zh) | 习题推送方法、系统、电子设备和存储介质 | |
CN104901807A (zh) | 一种可用于低端芯片的声纹密码方法 | |
CN110349567A (zh) | 语音信号的识别方法和装置、存储介质及电子装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20221025 Address after: 518057 Guangdong Province Nanshan District Yuehai Street High-tech Zone Community High-tech South Seven Road 16 Digital Technology Park B1 Second Floor A District 4 Patentee after: Shenzhen Xiaomo Intelligent Technology Co.,Ltd. Address before: 518057 Nanshan District, Shenzhen City, Guangdong Province, No. 4, Area A, Building B1, 2nd floor, High-tech Nanqidao Digital Technology Park Patentee before: SHENZHEN PILOT LABORATORIES Co.,Ltd. |
|
TR01 | Transfer of patent right |