CN109545184A - 一种基于语音校准的背诵检测方法及电子设备 - Google Patents

一种基于语音校准的背诵检测方法及电子设备 Download PDF

Info

Publication number
CN109545184A
CN109545184A CN201811545733.8A CN201811545733A CN109545184A CN 109545184 A CN109545184 A CN 109545184A CN 201811545733 A CN201811545733 A CN 201811545733A CN 109545184 A CN109545184 A CN 109545184A
Authority
CN
China
Prior art keywords
voice data
text information
pronunciation
calibration
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811545733.8A
Other languages
English (en)
Other versions
CN109545184B (zh
Inventor
崔颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Genius Technology Co Ltd
Original Assignee
Guangdong Genius Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Genius Technology Co Ltd filed Critical Guangdong Genius Technology Co Ltd
Priority to CN201811545733.8A priority Critical patent/CN109545184B/zh
Publication of CN109545184A publication Critical patent/CN109545184A/zh
Application granted granted Critical
Publication of CN109545184B publication Critical patent/CN109545184B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明实施例涉及电子设备技术领域,公开一种基于语音校准的背诵检测方法及电子设备,该方法包括:获取用户背诵标准文本信息时输入的语音数据,通过识别语音数据的发音特征来确定语音数据对应的地域信息,根据地域信息查找对应的语音模型,从而利用语音模型中方言发音与正确发音之间的映射关系,对语音数据进行校准得到校准语音数据,识别校准语音数据对应的校准文本信息,对比校准文本信息与标准文本信息获得错误文本信息,作为语音数据对应的背诵检测结果。可见,实施本发明实施例,电子设备可有效识别带有口音的语音数据,提升了用户进行背诵检测时的使用体验。

Description

一种基于语音校准的背诵检测方法及电子设备
技术领域
本发明涉及电子设备技术领域,具体涉及一种基于语音校准的背诵检测方法及电子设备。
背景技术
市面上家教机的功能越来越丰富,已有多款家教机具备背诵检测功能,可录制用户背诵时的音频并识别用户背诵的内容。然而,现有的背诵检测方法只能识别标准的普通话,若用户背诵的内容正确但发音带有口音,用户背诵的内容将被判定为错误。可见,现有的背诵检测功能无法正确识别带有口音的语音数据,限制了背诵功能的推广与应用。
发明内容
针对上述缺陷,本发明实施例公开了一种基于语音校准的背诵检测方法及电子设备,用于提高针对带有口音的语音数据的识别准确率,使得带有口音的用户也可使用背诵检测功能。
本发明实施例第一方面公开了一种基于语音校准的背诵检测方法,包括:
获取用户背诵标准文本信息时输入的语音数据,根据所述语音数据的发音特征识别所述语音数据对应的地域信息;
根据所述语音数据对应的地域信息查找对应的语音模型;不同的地域对应不同的语音模型,语音模型中包括方言发音与正确发音之间的映射关系;
根据所述对应的语音模型中方言发音与正确发音之间的映射关系,对所述语音数据进行校准,得到校准后的校准语音数据;
识别所述校准语音数据对应的校准文本信息,对比所述校准文本信息与所述标准文本信息,获得所述校准文本信息中与所述标准文本信息不匹配的错误文本信息,设为所述语音数据对应的背诵检测结果。
作为一种可选的实施方式,在本发明实施例第一方面中,在所述获取用户输入的语音数据,根据语音数据的发音特征识别语音数据对应的地域信息之前,所述方法还包括:
获取若干样本文本信息、所述样本文本信息对应的正确发音、所述样本文本信息对应的方言发音及所述方言发音对应的地域信息;
分析所述方言发音的发音特征及所述正确发音的发音特征,以建立所述方言发音与所述正确发音之间的映射关系;
根据所述方言发音的发音特征、所述方言发音与所述正确发音之间的映射关系及所述方言发音对应的地域信息建立所述语音模型。
作为一种可选的实施方式,在本发明实施例第一方面中,所述获取用户背诵标准文本信息时输入的语音数据,包括:
在检测到的所述用户超过预设时长未输入语音数据时,输出询问信息,所述询问信息用于询问所述用户是否需要对所述标准文本信息进行提示;
在检测到所述用户针对所述询问信息输入的提示指令后,输出所述标准文本信息。
作为一种可选的实施方式,在本发明实施例第一方面中,在所述获得所述校准文本信息中与所述标准文本信息不匹配的错误文本信息之后,所述方法还包括:
统计所述错误文本信息中重复出现次数达到预设次数的高频错误文本,输出所述高频错误文本及所述高频错误文本所在的句子。
作为一种可选的实施方式,在本发明实施例第一方面中,在所述输出所述高频错误文本及所述高频错误文本所在的句子之后,所述方法还包括:
根据若干所述高频错误文本所在的句子生成易错文本集合;
在检测到用户输入开启复习功能的指令时,输出所述易错文本集合,以供所述用户进行背诵练习。
本发明实施例第二方面公开一种电子设备,包括:
获取单元,用于获取用户背诵标准文本信息时输入的语音数据,根据所述语音数据的发音特征识别所述语音数据对应的地域信息;
查找单元,用于根据所述语音数据对应的地域信息查找对应的语音模型;不同的地域对应不同的语音模型,语音模型中包括方言发音与正确发音之间的映射关系;
校准单元,用于根据所述对应的语音模型中方言发音与正确发音之间的映射关系,对所述语音数据进行校准,得到校准后的校准语音数据;
背诵检测单元,用于识别所述校准语音数据对应的校准文本信息,对比所述校准文本信息与所述标准文本信息,获得所述校准文本信息中与所述标准文本信息不匹配的错误文本信息,设为所述语音数据对应的背诵检测结果。
作为一种可选的实施方式,在本发明实施例第二方面中,所述电子设备还包括:
样本获取单元,用于在所述获取单元获取用户输入的语音数据,根据语音数据的发音特征识别语音数据对应的地域信息之前,获取若干样本文本信息、所述样本文本信息对应的正确发音、所述样本文本信息对应的方言发音及所述方言发音对应的地域信息;
映射单元,用于分析得到所述方言发音的发音特征及所述正确发音的发音特征,并建立所述方言发音与所述正确发音之间的映射关系;
模型建立单元,用于根据所述方言发音的发音特征、所述方言发音与所述正确发音之间的映射关系及所述方言发音对应的地域信息建立所述语音模型。
作为一种可选的实施方式,在本发明实施例第二方面中,
所述获取单元,还用于在检测到的所述用户超过预设时长未输入语音数据时,输出询问信息,所述询问信息用于询问所述用户是否需要对所述标准文本信息进行提示;
以及,在检测到所述用户针对所述询问信息输入的提示指令后,输出所述标准文本信息。
作为一种可选的实施方式,在本发明实施例第二方面中,所述电子设备还包括:
统计单元,用于在所述获取单元获得所述校准文本信息中与所述标准文本信息不匹配的错误文本信息之后,统计所述错误文本信息中重复出现次数达到预设次数的高频错误文本,输出所述高频错误文本及所述高频错误文本所在的句子。
作为一种可选的实施方式,在本发明实施例第二方面中,所述电子设备还包括:
练习单元,用于在所述统计单元输出所述高频错误文本及所述高频错误文本所在的句子之后,获取若干所述高频错误文本所在的句子生成易错文本集合,以及在检测到用户输入开启复习功能的指令时,输出所述易错文本集合,以供所述用户进行背诵练习。
本发明实施例第三方面公开一种电子设备,包括:
存储有可执行程序代码的存储器;
与所述存储器耦合的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行本发明实施例第一方面公开的一种基于语音校准的背诵检测方法。
本发明实施例第四方面公开一种计算机可读存储介质,其存储计算机程序,其中,所述计算机程序使得计算机执行本发明实施例第一方面公开的一种基于语音校准的背诵检测方法。
本发明实施例第五方面公开一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得所述计算机执行第一方面的任意一种方法的部分或全部步骤。
本发明实施例第六方面公开一种应用发布平台,所述应用发布平台用于发布计算机程序产品,其中,当所述计算机程序产品在计算机上运行时,使得所述计算机执行第一方面的任意一种方法的部分或全部步骤。
与现有技术相比,本发明实施例具有以下有益效果:
本发明实施例中,电子设备通过获取用户的语音数据,通过分析语音数据的发音特征识别对应的地域信息,根据地域信息查找语音模型,从而根据语音模型中方言发音与正确发音之间的映射关系对语音数据进行校准,得到校准语音数据,通过识别校准语音数据对应的校准文本信息并对比标准文本信息,得到语音数据对应的背诵检测结果。可见,实施本发明实施例,可准确识别带有口音的语音数据对应的文本信息,从而使带有口音的用户也可使用背诵检测功能,提升了用户的使用体验。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于语音校准的背诵检测方法的流程示意图;
图2为本发明实施例提供的另一种基于语音校准的背诵检测方法的流程示意图;
图3为本发明实施例提供的一种电子设备的结构示意图;
图4是本发明实施例提供的另一种电子设备的结构示意图;
图5是本发明实施例提供的另一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明实施例的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例公开了一种基于语音校准的背诵检测方法及电子设备,可以简化电子设备的操作流程,提升用户使用体验。以下从电子设备角度出发,结合附图进行详细描述。
实施例一
请参阅图1,图1是本发明实施例公开的一种基于语音校准的背诵检测方法的流程示意图。如图1所示,该基于语音校准的背诵检测方法可以包括以下步骤。
101、获取用户背诵标准文本信息时输入的语音数据,根据语音数据的发音特征识别语音数据对应的地域信息。
本发明实施例中,电子设备可以包括但不仅限于家教机、智能手机以及平板电脑等电子设备,本发明实施例不作具体限定。
通常来说,电子设备只能识别出标准普通话发音,而部分用户在背诵时发音带有口音,电子设备以标准普通话的发音特征来识别用户所输入的语言数据,因此,用户识记正确但发音不准的字词无法被准确识别,例如湖南地区的用户通常会混淆n/l发音,从而电子设备在识别用户背诵的“了(lē)”时可能会识别为“呢(nē)”,并判定用户背诵错误。
作为一种可选的实施方式,获取用户背诵标准文本信息时输入的语音数据,根据语音数据的发音特征识别语音数据对应的地域信息,可以通过以下方式实现:用户打开电子设备的背诵检测功能,并在背诵检测功能的界面中选择所要进行背诵检测的文本信息,电子设备将在用户完成文本选择后开始录制用户通过语音输入设备输入的语音数据。接着,电子设备检测出语音数据中与标准文本信息对应的正确发音不匹配的方言发音,通过比对方言发音与正确发音可得到方言发音的发音特征,从而根据发音特征识别出语音数据对应的地域信息,如标准文本信息中第一个文字为“了(lē)”,但检测到语音数据中的方言发音为“(nē)”,此时可得知语音数据对应的发音特征为n/l的发音混淆,从而判断该语音数据有较大可能为湖南地区的用户所输入的。可见,通过识别语音数据的发音特征,可较为准确地识别出语音数据对应的地域信息。
102、根据语音数据对应的地域信息查找对应的语音模型;不同的地域对应不同的语音模型,语音模型中包括方言发音与正确发音之间的映射关系。
本发明实施例中,每种方言发音都有其独特的发音特征,通过对同一文本信息对应的正确发音和方言发音进行比对,可获得该方言发音的发音特征并与正确发音的发音特征建立映射关系。将映射关系与方言发音对应的地域信息进行关联存储建立语音模型,从而可根据步骤101识别得到的语言数据的地域信息,查找到与地域信息对应的语音模型。
作为一种可选的实施方式,在步骤101获取用户输入的语音数据,根据语音数据的发音特征识别语音数据对应的地域信息之前,获取若干样本文本信息、样本文本信息对应的正确发音、样本文本信息对应的方言发音及方言发音对应的地域信息;分析方言发音的发音特征及正确发音的发音特征,以建立方言发音与正确发音之间的映射关系;根据方言发音的发音特征、方言发音与正确发音之间的映射关系及方言发音对应的地域信息建立语音模型。具体地,在建立湖南地区的语音模型时,可选取数篇样本文本信息,并采集湖南地区的多个用户朗读样本文本信息时的语音数据,作为样本文本信息对应的方言发音,通过分析比对样本文本信息的方言发音与正确发音的发音特征,发现n的方言发音与l的正确发音存在映射关系,l的方言发音与n的正确发音存在映射关系,且h的方言发音与f的正确发音存在映射关系,f的方言发音与h的正确发音存在映射关系,将上述映射关系与地域信息进行关联存储,即可得到湖南地区的语音模型。可见,通过收集并分析地域信息对应的方言发音,即可建立不同地域所对应的语音模型。
103、根据对应的语音模型中方言发音与正确发音之间的映射关系,对语音数据进行校准,得到校准后的校准语音数据。
本发明实施例中,在步骤102获取到与地域信息对应的语音模型后,将根据语音模型中方言发音与正确发音之间的映射关系,对语音数据的发音特征进行校准,从而将带有方言发音特征的语音数据校准为正确发音对应的语音数据。
作为一种可选的实施方式,根据对应的语音模型中方言发音与正确发音之间的映射关系,对语音数据进行校准,得到校准后的校准语音数据,可以通过以下方式实现:在步骤102获取到湖南地区对应的语音模型的映射关系,可将方言发音中n的发音替换为l,l的发音替换为n;以及h的发音替换为f,f的发音替换为h,使得方言发音中与正确发音存在差异的发音被对应校准为正确发音,得到校准语音数据。
104、识别校准语音数据对应的校准文本信息,对比校准文本信息与标准文本信息,获得校准文本信息中与标准文本信息不匹配的错误文本信息,设为语音数据对应的背诵检测结果。
本发明实施例中,由于步骤103中已将方言发音对应的语音数据校准为校准语音数据,所以可以直接识别校准语音数据对应的文本信息得到校准文本信息。
作为一种可选的实施方式,识别校准语音数据对应的校准文本信息,对比校准文本信息与标准文本信息,获得校准文本信息中与标准文本信息不匹配的错误文本信息,设为语音数据对应的背诵检测结果,可以通过以下方式实现:通过语音识别技术识别校准语音数据得到校准文本信息,然后对比校准文本信息和标准文本信息的字数是否一致,在字数一致时对校准文本信息和标准文本信息的每个文字逐一对比,判断校准文本中每个文字的读音是否与标准文本信息中对应文字的读音相同,记录并统计读音与标准文本信息不匹配的文字,设为错误文本信息,将错误文本信息设为语音数据对应的背诵检测结果;若校准文本信息和标准文本信息的字数不一致,则获取校准文本信息中多个连续文字的读音作为检测子文本,在标准文本信息中查找与检测子文本的读音匹配的连续文字。如识别校准语音数据得到“准备好了”的校准文本信息,而标准文本信息则是“已经准备好了”,在字数不一致的情况下,通过将“准备”、“好了”设为检测子文本并在标准文本信息中识别,即可获知校准文本信息相对标准文本信息遗漏了“已经”,从而在背诵遗漏或者多背的情况下,也可以在标准文本信息中识别到对应的文本信息。将校准文本信息中与标准文本信息不匹配的错误文本信息,如背诵遗漏的“已经”设为该语音数据对应的背诵检测结果。可以看出,通过对比校准文本信息和标准文本信息,即可准确地识别背诵错误的文本信息。
可见,本发明实施例中,获取用户背诵标准文本信息时输入的语音数据,通过识别语音数据的发音特征来确定语音数据对应的地域信息,根据地域信息查找对应的语音模型,从而利用语音模型中方言发音与正确发音之间的映射关系,对语音数据进行校准得到校准语音数据,识别校准语音数据对应的校准文本信息,对比校准文本信息与标准文本信息获得错误文本信息,作为语音数据对应的背诵检测结果。通过上述方法可有效识别带有口音的语音数据,拓宽了背诵检测功能的使用场景。
实施例二
请参阅图2,图2为本发明另一实施例提供的基于语音校准的背诵检测方法的流程示意图。如图2所示,该基于语音校准的背诵检测方法可以包括以下步骤。
201、获取用户背诵标准文本信息时输入的语音数据,根据语音数据的发音特征识别语音数据对应的地域信息。
本发明实施例中,考虑到用户在背诵时可能因为对标准文本信息识记不熟练,而出现较长时间未输入语音数据,或者无法继续背诵的情况,从而影响语音数据的获取以及后续对语音数据的识别。
作为一种可选的实施方式,在检测到用户超过预设时长未输入语音数据时,输出询问信息,询问信息用于询问用户是否需要对标准文本信息进行提示,在检测到用户针对询问信息输入的提示指令后,输出标准文本信息,可以通过以下方式实现:在背诵检测功能中设置预设时长为10秒,当用户超过1秒未输入语音数据时,确定用户背诵困难,此时在电子设备的显示屏上输出询问信息,询问用户是否需要对正在背诵的文本信息进行提示,用户在需要提示时可长按提示按钮,在用户长按提示按钮期间,显示屏上将显示标准文本信息,在用户松开提示按钮后,显示屏上将停止显示标准文本信息,并提示用户从背诵中断处继续背诵。可见,通过向用户提供背诵提示,既帮助用户在背诵过程进行识记,还利于电子设备获取连贯的语音数据。
202、根据语音数据对应的地域信息查找对应的语音模型;不同的地域对应不同的语音模型,语音模型中包括方言发音与正确发音之间的映射关系。
本发明实施例中,每种方言发音都有其独特的发音特征,通过对同一文本信息对应的正确发音和方言发音进行比对,可获得该方言发音的发音特征并与正确发音的发音特征建立映射关系。
203、根据对应的语音模型中方言发音与正确发音之间的映射关系,对语音数据进行校准,得到校准后的校准语音数据。
本发明实施例中,在获取到与地域信息对应的语音模型后,将根据语音模型中方言发音与正确发音之间的映射关系,对语音数据的发音特征进行校准,从而将带有方言发音特征的语音数据校准为正确发音对应的语音数据。
204、识别校准语音数据对应的校准文本信息,对比校准文本信息与标准文本信息,获得校准文本信息中与标准文本信息不匹配的错误文本信息,设为语音数据对应的背诵检测结果。
本发明实施例中,由于方言发音对应的语音数据已在步骤203中被校准为校准语音数据,所以可以直接识别校准语音数据对应的文本信息得到校准文本信息,并检测校准文本信息与标准文本信息中不匹配的错误文本信息,设为语音数据对应的背诵检测结果。
205、统计错误文本信息中重复出现次数达到预设次数的高频错误文本,输出高频错误文本及高频错误文本所在的句子。
作为一种可选的实施方式,在步骤204获得校准文本信息中与标准文本信息不匹配的错误文本信息之后,统计错误文本信息中重复出现次数达到预设次数的高频错误文本,输出高频错误文本及高频错误文本所在的句子,可以通过以下方式实现:在背诵检测功能中设置预设次数为3次,当用户背诵《静夜思》中的“霜”字错误次数达到3次时,将“霜”字设为该用户的高频错误文本,并在用户背诵完成后将“霜”字与“疑是地上霜”输出在显示屏上,以提醒用户重点识记高频错误文本。可见,通过记录高频错误文本,可帮助用户查漏补缺,对易错的部分重点识记。
进一步地,在输出高频错误文本及高频错误文本所在的句子之后,根据若干高频错误文本所在的句子生成易错文本集合,在检测到用户输入开启复习功能的指令时,输出易错文本集合,以供用户进行背诵练习。具体地,电子设备还可设置练习功能,通过收集用户的多个高频错误文本,生成易错文本集合,从而用户除了在背诵完成后查看本次背诵错误的文本,还可在平时查看易错文本集合,方便了用户随时进行学习。
可见,本发明实施例中,通过为用户提供背诵提示,收集用户的高频错误文本,生成易错文本集合,可进一步提高用户的背诵和学习体验。
实施例三
请参阅图3,图3为本发明实施例公开的一种电子设备的结构示意图。如图3所示,该电子设备可以包括:
获取单元301,用于获取用户背诵标准文本信息时输入的语音数据,根据语音数据的发音特征识别语音数据对应的地域信息;
查找单元302,用于根据语音数据对应的地域信息查找对应的语音模型;不同的地域对应不同的语音模型,语音模型中包括方言发音与正确发音之间的映射关系;
校准单元303,用于根据对应的语音模型中方言发音与正确发音之间的映射关系,对语音数据进行校准,得到校准后的校准语音数据;
背诵检测单元304,用于识别校准语音数据对应的校准文本信息,对比校准文本信息与标准文本信息,获得校准文本信息中与标准文本信息不匹配的错误文本信息,设为语音数据对应的背诵检测结果;
样本获取单元305,用于在获取单元获取用户输入的语音数据,根据语音数据的发音特征识别语音数据对应的地域信息之前,获取若干样本文本信息、样本文本信息对应的正确发音、样本文本信息对应的方言发音及方言发音对应的地域信息;
映射单元306,用于分析得到方言发音的发音特征及正确发音的发音特征,并建立方言发音与正确发音之间的映射关系;
模型建立单元307,用于根据方言发音的发音特征、方言发音与正确发音之间的映射关系及方言发音对应的地域信息建立语音模型。
本发明实施例中,获取单元301在获取到语音数据后,根据语音数据识别其对应的地域信息,查找单元302查找与地域信息对应的语音模型,从而校准单元303根据语音模型对语音数据进行校准,得到校准语音数据,背诵检测单元304识别校准语音数据对应的校准文本信息,并与标准文本信息进行比对,将比对得到的错误文本信息设为语音数据对应的背诵检测结果。
其中,语音模型的建立是通过样本获取单元305获取样本数据,映射单元306对样本数据进行分析从而建立方言发音与正确发音之间的映射关系,模型建立单元307将上述映射关系及映射关系对应的地域信息关联存储,得到对应不同地域信息的语音模型。
作为一种可选的实施方式,获取单元301获取用户背诵标准文本信息时输入的语音数据,根据语音数据的发音特征识别语音数据对应的地域信息,可以通过以下方式实现:用户打开电子设备的背诵检测功能,并在背诵检测功能的界面中选择所要进行背诵检测的文本信息,获取单元301将在用户完成文本选择后开始录制用户通过语音输入设备输入的语音数据。接着,获取单元301检测出语音数据中与标准文本信息对应的正确发音不匹配的方言发音,通过比对方言发音与正确发音可得到方言发音的发音特征,从而根据发音特征识别出语音数据对应的地域信息,如标准文本信息中第一个文字为“了(lē)”,但检测到语音数据中的方言发音为“(nē)”,此时可得知语音数据对应的发音特征为n/l的发音混淆,从而判断该语音数据有较大可能为湖南地区的用户所输入的。可见,通过识别语音数据的发音特征,可较为准确地识别出语音数据对应的地域信息。
作为一种可选的实施方式,在获取单元301获取用户输入的语音数据,根据语音数据的发音特征识别语音数据对应的地域信息之前,样本获取单元305获取若干样本文本信息、样本文本信息对应的正确发音、样本文本信息对应的方言发音及方言发音对应的地域信息;映射单元306分析方言发音的发音特征及正确发音的发音特征,以建立方言发音与正确发音之间的映射关系;模型建立单元307根据方言发音的发音特征、方言发音与正确发音之间的映射关系及方言发音对应的地域信息建立语音模型。具体地,在建立湖南地区的语音模型时,可选取数篇样本文本信息,样本获取单元305采集湖南地区的多个用户朗读样本文本信息时的语音数据,作为样本文本信息对应的方言发音,映射单元306分析比对样本文本信息的方言发音与正确发音的发音特征,发现n的方言发音与l的正确发音存在映射关系,l的方言发音与n的正确发音存在映射关系,且h的方言发音与f的正确发音存在映射关系,f的方言发音与h的正确发音存在映射关系,模型建立单元307将上述映射关系与地域信息进行关联存储,即可得到湖南地区的语音模型。可见,通过收集并分析地域信息对应的方言发音,即可建立不同地域所对应的语音模型。
作为一种可选的实施方式,校准单元303根据对应的语音模型中方言发音与正确发音之间的映射关系,对语音数据进行校准,得到校准后的校准语音数据,可以通过以下方式实现:在查找单元302获取到湖南地区对应的语音模型的映射关系后,校准单元303可将方言发音中n的发音替换为l,l的发音替换为n;以及h的发音替换为f,f的发音替换为h,使得方言发音中与正确发音存在差异的发音被对应校准为正确发音,得到校准语音数据。
作为一种可选的实施方式,背诵检测单元304识别校准语音数据对应的校准文本信息,对比校准文本信息与标准文本信息,获得校准文本信息中与标准文本信息不匹配的错误文本信息,设为语音数据对应的背诵检测结果,可以通过以下方式实现:背诵检测单元304通过语音识别技术识别校准语音数据得到校准文本信息,然后对比校准文本信息和标准文本信息的字数是否一致,在字数一致时对校准文本信息和标准文本信息的每个文字逐一对比,判断校准文本中每个文字的读音是否与标准文本信息中对应文字的读音相同,记录并统计读音与标准文本信息不匹配的文字,设为错误文本信息,将错误文本信息设为语音数据对应的背诵检测结果;若校准文本信息和标准文本信息的字数不一致,则获取校准文本信息中多个连续文字的读音作为检测子文本,在标准文本信息中查找与检测子文本的读音匹配的连续文字。如背诵检测单元304识别校准语音数据得到“准备好了”的校准文本信息,而标准文本信息则是“已经准备好了”,在字数不一致的情况下,通过将“准备”、“好了”设为检测子文本并在标准文本信息中识别,即可获知校准文本信息相对标准文本信息遗漏了“已经”,从而在背诵遗漏或者多背的情况下,也可以在标准文本信息中识别到对应的文本信息。将校准文本信息中与标准文本信息不匹配的错误文本信息,如背诵遗漏的“已经”设为该语音数据对应的背诵检测结果。可以看出,通过对比校准文本信息和标准文本信息,即可准确地识别背诵错误的文本信息。
可见,本发明实施例中,获取单元301获取用户背诵标准文本信息时输入的语音数据,通过识别语音数据的发音特征来确定语音数据对应的地域信息,查找单元302根据地域信息查找对应的语音模型,从而校准单元303利用语音模型中方言发音与正确发音之间的映射关系,对语音数据进行校准得到校准语音数据,背诵检测单元304识别校准语音数据对应的校准文本信息,对比校准文本信息与标准文本信息获得错误文本信息,作为语音数据对应的背诵检测结果。通过上述方法可有效识别带有口音的语音数据,拓宽了背诵检测功能的使用场景。
实施例四
请参阅图4,图4为本发明另一实施例提供的一种电子设备的结构示意图;图4所示的电子设备是在图3所示的电子设备的基础上进行优化得到的,图4所示的电子设备还可以包括:
获取单元301,还用于在检测到的用户超过预设时长未输入语音数据时,输出询问信息,询问信息用于询问用户是否需要对标准文本信息进行提示;
以及,在检测到用户针对询问信息输入的提示指令后,输出标准文本信息。
统计单元401,用于在获取单元301获得校准文本信息中与标准文本信息不匹配的错误文本信息之后,统计错误文本信息中重复出现次数达到预设次数的高频错误文本,输出高频错误文本及高频错误文本所在的句子;
练习单元402,用于在统计单元输出高频错误文本及高频错误文本所在的句子之后,获取若干高频错误文本所在的句子生成易错文本集合,以及在检测到用户输入开启复习功能的指令时,输出易错文本集合,以供用户进行背诵练习。
本发明实施例中,获取单元301除了用于获取用户背诵时输入的语音数据,还可为用户提供背诵提示。统计单元401会将用户的高频错误文本进行收集,练习单元402获取若干高频错误文本生成易错文本集合,供用户进行背诵练习。
作为一种可选的实施方式,获取单元301在检测到用户超过预设时长未输入语音数据时,输出询问信息,询问信息用于询问用户是否需要对标准文本信息进行提示,在检测到用户针对询问信息输入的提示指令后,输出标准文本信息,可以通过以下方式实现:获取单元301设置预设时长为10秒,当用户超过1秒未输入语音数据时,确定用户背诵困难,此时获取单元301输出询问信息,询问用户是否需要对正在背诵的文本信息进行提示,用户在需要提示时可长按提示按钮,在用户长按提示按钮期间,获取单元301将在显示屏上显示标准文本信息,在用户松开提示按钮后,显示屏上将停止显示标准文本信息,并提示用户从背诵中断处继续背诵。可见,通过向用户提供背诵提示,既帮助用户在背诵过程进行识记,还利于电子设备获取连贯的语音数据。
作为一种可选的实施方式,在背诵检测单元304获得校准文本信息中与标准文本信息不匹配的错误文本信息之后,统计单元401统计错误文本信息中重复出现次数达到预设次数的高频错误文本,输出高频错误文本及高频错误文本所在的句子,可以通过以下方式实现:统计单元401设置预设次数为3次,当用户背诵《静夜思》中的“霜”字错误次数达到3次时,统计单元401将“霜”字设为该用户的高频错误文本,并在用户背诵完成后将“霜”字与“疑是地上霜”输出在显示屏上,以提醒用户重点识记高频错误文本。可见,通过记录高频错误文本,可帮助用户查漏补缺,对易错的部分重点识记。
进一步地,在统计单元401输出高频错误文本及高频错误文本所在的句子之后,练习单元402根据若干高频错误文本所在的句子生成易错文本集合,在检测到用户输入开启复习功能的指令时,输出易错文本集合,以供用户进行背诵练习。具体地,练习单元402通过收集用户的多个高频错误文本,生成易错文本集合,从而用户除了在背诵完成后查看本次背诵错误的文本,还可在平时查看易错文本集合,方便了用户随时进行学习。
可见,本发明实施例中,通过获取单元401为用户提供背诵提示,以及统计单元401收集用户的高频错误文本,练习单元402生成易错文本集合,可进一步提高用户的背诵和学习体验。
实施例五
请参阅图5,图5是本发明另一实施例公开的另一种电子设备的结构示意图。如图5所示,该可电子设备可以包括:
存储有可执行程序代码的存储器501;
与存储器501耦合的处理器502;
其中,处理器502调用存储器501中存储的可执行程序代码,执行图1和图2任意一种基于语音校准的背诵检测方法。
本发明实施例公开一种计算机可读存储介质,其存储计算机程序,其中,该计算机程序使得计算机执行图1和图2任意一种基于语音校准的背诵检测方法。
本发明实施例还公开一种计算机程序产品,其中,当计算机程序产品在计算机上运行时,使得计算机执行如以上各方法实施例中的方法的部分或全部步骤。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read-only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
以上对本发明实施例公开的一种基于语音校准的背诵检测方法及电子设备进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种基于语音校准的背诵检测方法,其特征在于,包括:
获取用户背诵标准文本信息时输入的语音数据,根据所述语音数据的发音特征识别所述语音数据对应的地域信息;
根据所述语音数据对应的地域信息查找对应的语音模型;不同的地域对应不同的语音模型,语音模型中包括方言发音与正确发音之间的映射关系;
根据所述对应的语音模型中方言发音与正确发音之间的映射关系,对所述语音数据进行校准,得到校准后的校准语音数据;
识别所述校准语音数据对应的校准文本信息,对比所述校准文本信息与所述标准文本信息,获得所述校准文本信息中与所述标准文本信息不匹配的错误文本信息,设为所述语音数据对应的背诵检测结果。
2.根据权利要求1所述的方法,其特征在于,在所述获取用户输入的语音数据,根据语音数据的发音特征识别语音数据对应的地域信息之前,所述方法还包括:
获取若干样本文本信息、所述样本文本信息对应的正确发音、所述样本文本信息对应的方言发音及所述方言发音对应的地域信息;
分析所述方言发音的发音特征及所述正确发音的发音特征,以建立所述方言发音与所述正确发音之间的映射关系;
根据所述方言发音的发音特征、所述方言发音与所述正确发音之间的映射关系及所述方言发音对应的地域信息建立所述语音模型。
3.根据权利要求2所述的方法,其特征在于,所述获取用户背诵标准文本信息时输入的语音数据,包括:
在检测到所述用户超过预设时长未输入语音数据时,输出询问信息,所述询问信息用于询问所述用户是否需要对所述标准文本信息进行提示;
在检测到所述用户针对所述询问信息输入的提示指令后,输出所述标准文本信息。
4.根据权利要求1~3任一项所述的方法,其特征在于,在所述获得所述校准文本信息中与所述标准文本信息不匹配的错误文本信息之后,所述方法还包括:
统计所述错误文本信息中重复出现次数达到预设次数的高频错误文本,输出所述高频错误文本及所述高频错误文本所在的句子。
5.根据权利要求4所述的方法,其特征在于,在所述输出所述高频错误文本及所述高频错误文本所在的句子之后,所述方法还包括:
根据若干所述高频错误文本所在的句子生成易错文本集合;
在检测到用户输入开启复习功能的指令时,输出所述易错文本集合,以供所述用户进行背诵练习。
6.一种电子设备,其特征在于,包括:
获取单元,用于获取用户背诵标准文本信息时输入的语音数据,根据所述语音数据的发音特征识别所述语音数据对应的地域信息;
查找单元,用于根据所述语音数据对应的地域信息查找对应的语音模型;不同的地域对应不同的语音模型,语音模型中包括方言发音与正确发音之间的映射关系;
校准单元,用于根据所述对应的语音模型中方言发音与正确发音之间的映射关系,对所述语音数据进行校准,得到校准后的校准语音数据;
背诵检测单元,用于识别所述校准语音数据对应的校准文本信息,对比所述校准文本信息与所述标准文本信息,获得所述校准文本信息中与所述标准文本信息不匹配的错误文本信息,设为所述语音数据对应的背诵检测结果。
7.根据权利要求6所述的电子设备,其特征在于,所述电子设备还包括:
样本获取单元,用于在所述获取单元获取用户输入的语音数据,根据语音数据的发音特征识别语音数据对应的地域信息之前,获取若干样本文本信息、所述样本文本信息对应的正确发音、所述样本文本信息对应的方言发音及所述方言发音对应的地域信息;
映射单元,用于分析得到所述方言发音的发音特征及所述正确发音的发音特征,并建立所述方言发音与所述正确发音之间的映射关系;
模型建立单元,用于根据所述方言发音的发音特征、所述方言发音与所述正确发音之间的映射关系及所述方言发音对应的地域信息建立所述语音模型。
8.根据权利要求6所述的电子设备,其特征在于,包括:
所述获取单元,还用于在检测到的所述用户超过预设时长未输入语音数据时,输出询问信息,所述询问信息用于询问所述用户是否需要对所述标准文本信息进行提示;
以及,在检测到所述用户针对所述询问信息输入的提示指令后,输出所述标准文本信息。
9.根据权利要求6~8任一项所述的电子设备,其特征在于,所述电子设备还包括:
统计单元,用于在所述获取单元获得所述校准文本信息中与所述标准文本信息不匹配的错误文本信息之后,统计所述错误文本信息中重复出现次数达到预设次数的高频错误文本,输出所述高频错误文本及所述高频错误文本所在的句子。
10.根据权利要求9所述的电子设备,其特征在于,所述电子设备还包括:
练习单元,用于在所述统计单元输出所述高频错误文本及所述高频错误文本所在的句子之后,获取若干所述高频错误文本所在的句子生成易错文本集合,以及在检测到用户输入开启复习功能的指令时,输出所述易错文本集合,以供所述用户进行背诵练习。
CN201811545733.8A 2018-12-17 2018-12-17 一种基于语音校准的背诵检测方法及电子设备 Active CN109545184B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811545733.8A CN109545184B (zh) 2018-12-17 2018-12-17 一种基于语音校准的背诵检测方法及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811545733.8A CN109545184B (zh) 2018-12-17 2018-12-17 一种基于语音校准的背诵检测方法及电子设备

Publications (2)

Publication Number Publication Date
CN109545184A true CN109545184A (zh) 2019-03-29
CN109545184B CN109545184B (zh) 2022-05-03

Family

ID=65855006

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811545733.8A Active CN109545184B (zh) 2018-12-17 2018-12-17 一种基于语音校准的背诵检测方法及电子设备

Country Status (1)

Country Link
CN (1) CN109545184B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110134952A (zh) * 2019-04-29 2019-08-16 华南师范大学 一种错误文本拒识方法、装置及存储介质
CN110415679A (zh) * 2019-07-25 2019-11-05 北京百度网讯科技有限公司 语音纠错方法、装置、设备和存储介质
CN110956958A (zh) * 2019-12-04 2020-04-03 深圳追一科技有限公司 搜索方法、装置、终端设备及存储介质
CN111028591A (zh) * 2019-04-25 2020-04-17 广东小天才科技有限公司 一种听写控制方法及学习设备
CN111081084A (zh) * 2019-07-11 2020-04-28 广东小天才科技有限公司 一种听写内容的播报方法及电子设备
CN111968645A (zh) * 2020-09-09 2020-11-20 重庆电子工程职业学院 一种个性化的语音控制系统
CN111986675A (zh) * 2020-08-20 2020-11-24 深圳Tcl新技术有限公司 语音对话方法、设备及计算机可读存储介质
CN112382275A (zh) * 2020-11-04 2021-02-19 北京百度网讯科技有限公司 语音识别方法、装置、电子设备和存储介质
CN113781998A (zh) * 2021-09-10 2021-12-10 未鲲(上海)科技服务有限公司 基于方言纠正模型的语音识别方法、装置、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103903611A (zh) * 2012-12-24 2014-07-02 联想(北京)有限公司 一种语音信息的识别方法和设备
CN104123858A (zh) * 2014-07-30 2014-10-29 广东小天才科技有限公司 一种读背课文时检错纠错的方法及装置
WO2015030471A1 (en) * 2013-08-26 2015-03-05 Seli Innovations Inc. Pronunciation correction apparatus and method thereof
CN105118354A (zh) * 2015-09-14 2015-12-02 百度在线网络技术(北京)有限公司 用于语言学习的数据处理方法和装置
CN108053823A (zh) * 2017-11-28 2018-05-18 广西职业技术学院 一种语音识别系统及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103903611A (zh) * 2012-12-24 2014-07-02 联想(北京)有限公司 一种语音信息的识别方法和设备
WO2015030471A1 (en) * 2013-08-26 2015-03-05 Seli Innovations Inc. Pronunciation correction apparatus and method thereof
CN104123858A (zh) * 2014-07-30 2014-10-29 广东小天才科技有限公司 一种读背课文时检错纠错的方法及装置
CN105118354A (zh) * 2015-09-14 2015-12-02 百度在线网络技术(北京)有限公司 用于语言学习的数据处理方法和装置
CN108053823A (zh) * 2017-11-28 2018-05-18 广西职业技术学院 一种语音识别系统及方法

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111028591A (zh) * 2019-04-25 2020-04-17 广东小天才科技有限公司 一种听写控制方法及学习设备
CN110134952B (zh) * 2019-04-29 2020-03-31 华南师范大学 一种错误文本拒识方法、装置及存储介质
CN110134952A (zh) * 2019-04-29 2019-08-16 华南师范大学 一种错误文本拒识方法、装置及存储介质
CN111081084B (zh) * 2019-07-11 2021-11-26 广东小天才科技有限公司 一种听写内容的播报方法及电子设备
CN111081084A (zh) * 2019-07-11 2020-04-28 广东小天才科技有限公司 一种听写内容的播报方法及电子设备
CN110415679A (zh) * 2019-07-25 2019-11-05 北京百度网讯科技有限公司 语音纠错方法、装置、设备和存储介质
US11328708B2 (en) 2019-07-25 2022-05-10 Beijing Baidu Netcom Science And Technology Co., Ltd. Speech error-correction method, device and storage medium
CN110415679B (zh) * 2019-07-25 2021-12-17 北京百度网讯科技有限公司 语音纠错方法、装置、设备和存储介质
CN110956958A (zh) * 2019-12-04 2020-04-03 深圳追一科技有限公司 搜索方法、装置、终端设备及存储介质
CN111986675A (zh) * 2020-08-20 2020-11-24 深圳Tcl新技术有限公司 语音对话方法、设备及计算机可读存储介质
CN111968645A (zh) * 2020-09-09 2020-11-20 重庆电子工程职业学院 一种个性化的语音控制系统
CN111968645B (zh) * 2020-09-09 2022-11-11 重庆电子工程职业学院 一种个性化的语音控制系统
CN112382275A (zh) * 2020-11-04 2021-02-19 北京百度网讯科技有限公司 语音识别方法、装置、电子设备和存储介质
CN112382275B (zh) * 2020-11-04 2023-08-15 北京百度网讯科技有限公司 语音识别方法、装置、电子设备和存储介质
CN113781998A (zh) * 2021-09-10 2021-12-10 未鲲(上海)科技服务有限公司 基于方言纠正模型的语音识别方法、装置、设备及介质

Also Published As

Publication number Publication date
CN109545184B (zh) 2022-05-03

Similar Documents

Publication Publication Date Title
CN109545184A (zh) 一种基于语音校准的背诵检测方法及电子设备
CN104252864B (zh) 实时语音分析方法和系统
CN109346059A (zh) 一种方言语音的识别方法及电子设备
CN109410664A (zh) 一种发音纠正方法及电子设备
CN107086040A (zh) 语音识别能力测试方法和装置
CN109271585B (zh) 一种信息推送方法及家教设备
CN107274916B (zh) 基于声纹信息对音频/视频文件进行操作的方法及装置
CN108154735A (zh) 英语口语测评方法及装置
CN108122561A (zh) 一种基于电子设备的口语语音测评方法及电子设备
CN104464757B (zh) 语音评测方法和语音评测装置
CN101740024A (zh) 基于广义流利的口语流利度自动评估方法
US20090239201A1 (en) Phonetic pronunciation training device, phonetic pronunciation training method and phonetic pronunciation training program
CN111144191A (zh) 字体识别方法、装置、电子设备及存储介质
CN109446315A (zh) 一种解题辅助方法及解题辅助客户端
CN106611604A (zh) 一种基于深度神经网络的自动语音叠音检测方法
CN111081080B (zh) 一种语音检测方法及学习设备
CN109462603A (zh) 基于盲检测的声纹认证方法、设备、存储介质及装置
CN103473959A (zh) 一种外语数字相关听写特别训练学习系统及方法
CN110797044A (zh) 音频数据处理方法、装置、计算机设备和存储介质
CN107240394A (zh) 一种动态自适应语音分析技术以用于人机口语考试的方法及系统
CN106356053A (zh) 语音输入法的识别准确率测试方法、装置和电子设备
CN114090463B (zh) 基于自然语言处理技术的可定制软件测试分析评价系统
CN104572617A (zh) 一种口语考试偏题检测方法及装置
Neumeyer et al. Webgrader: a multilingual pronunciation practice tool
US10008206B2 (en) Verifying a user

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant