CN110046354B - 诵读引导方法、装置、设备及存储介质 - Google Patents
诵读引导方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN110046354B CN110046354B CN201910333959.XA CN201910333959A CN110046354B CN 110046354 B CN110046354 B CN 110046354B CN 201910333959 A CN201910333959 A CN 201910333959A CN 110046354 B CN110046354 B CN 110046354B
- Authority
- CN
- China
- Prior art keywords
- standard
- recitation
- pronunciation
- data
- time sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000008859 change Effects 0.000 claims description 32
- 230000009471 action Effects 0.000 claims description 26
- 238000010835 comparative analysis Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 206010013932 dyslexia Diseases 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000000903 blocking effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B5/00—Electrically-operated educational appliances
- G09B5/04—Electrically-operated educational appliances with audible presentation of the material to be studied
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- Educational Technology (AREA)
- Educational Administration (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Television Signal Processing For Recording (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明适用计算机技术领域,提供了一种诵读引导方法、装置、设备及存储介质,首先对目标内容的用户诵读音频进行识别,得到相应的文本元素、时序信息及元素诵读发音,然后基于时序信息,将这些信息与标准信息进行对比分析,得到对比分析结果,进而根据与对比分析结果对应的诵读引导策略,执行对用户的诵读引导。这样,既可以采用计算机技术发现诵读问题,并针对该诵读问题对用户进行相应的诵读引导,增强了交互性,并提升了用户体验度。
Description
技术领域
本发明属于计算机技术领域,尤其涉及一种诵读引导方法、装置、设备及存储介质。
背景技术
目前,学生用户在进行课文诵读时,通常会出现发音不标准、因对内容不熟悉而导致背诵卡顿等现象。而市面上的学习机通常只能通过技术判断学生用户是否出现内容诵读出错的问题,而无法对所出现的发音不标准、背诵卡顿现象进行对应的诵读引导,导致用户体验不佳。
发明内容
本发明的目的在于提供一种诵读引导方法、装置、设备及存储介质,旨在解决现有技术所存在的、因无法发现诵读问题并进行相应的引导而导致用户体验不佳的问题。
一方面,本发明提供了一种诵读引导方法,包括:
获得用户对目标内容的诵读音频,以及与所述目标内容对应的参考数据,所述参考数据包括:标准文本元素集合、各所述标准文本元素所对应的标准时序信息,以及与所述标准文本元素对应的元素标准发音数据,所述标准时序信息指示所述标准文本元素的标准排列时序关系;
采用语音识别技术,对所述诵读音频进行识别,得到识别结果数据,所述识别结果数据包括:诵读文本元素集合、各所述诵读文本元素所对应的诵读时序信息,以及与所述诵读文本元素对应的元素诵读发音数据,所述诵读时序信息指示所述诵读文本元素的诵读排列时序关系;
基于所述标准文本元素在所述标准排列时序上与所述诵读文本元素在所述诵读排列时序上的对应关系,对所述参考数据与所述识别结果数据进行对比分析,得到用于指示所述诵读音频偏离标准的对比分析结果;
根据与所述对比分析结果对应的诵读引导策略,对所述用户进行诵读引导。
进一步的,获得用户对目标内容的诵读音频,以及与所述目标内容对应的参考数据,具体包括:
获得所述用户输入的、所述目标内容的标识;
根据所述标识,从预先建立的数据库中获得所述参考数据,以及,
录制所述用户对所述目标内容的所述诵读音频。
进一步的,基于所述标准文本元素在所述标准排列时序上与所述诵读文本元素在所述诵读排列时序上的对应关系,对所述参考数据与所述识别结果数据进行对比分析,得到用于指示所述诵读音频偏离标准的对比分析结果,具体包括如下项中的一种或多种的组合:
将所述元素标准发音数据与对应的所述元素诵读发音数据进行比对,得到用于指示文本元素的诵读发音偏离标准发音程度的第一子对比分析结果;
将所述标准时序信息与所述诵读时序信息进行比对,得到用于指示文本元素的诵读时序偏离标准时序程度的第二子对比分析结果。
进一步的,根据与所述对比分析结果对应的诵读引导策略,对所述用户进行诵读引导,具体包括如下项中的一种或多种的组合:
当所述第一子对比分析结果指示文本元素的诵读发音偏离标准发音程度满足第一诵读引导子策略要求时,根据所述第一诵读引导子策略,向用户播放对应的所述元素标准发音数据;
当所述第二子对比分析结果指示文本元素的诵读时序偏离标准时序程度满足第二诵读引导子策略要求时,根据所述第二诵读引导子策略,在所述目标内容中定位所述第二子对比分析结果所指示的、诵读时序偏离标准时序的位置,从所述目标内容中提取所述位置对应的部分内容,并向用户播放所述部分内容对应的、由所述元素标准发音数据组成的参考音频。
进一步的,所述参考数据还包括:与所述标准文本元素对应的元素标准口部特征变化数据,所述方法还包括:
获得所述用户对所述目标内容的诵读视频,所述诵读视频以所述用户的口部变化为对象,
当所述第一子对比分析结果指示文本元素的诵读发音偏离标准发音程度满足第一诵读引导子策略要求时,还执行如下步骤:
从所述诵读视频中,识别出与所述元素诵读发音数据对应的元素诵读口部特征变化数据;
获得与所述元素标准发音数据对应的所述元素标准口部特征变化数据;
根据所述元素诵读口部特征变化数据与对应的所述元素标准口部特征变化数据的当前口部特征差异,从预设的口部特征差异与发音纠正动作信息之间的对应关系中,获得与所述当前口部特征差异对应的当前发音纠正动作信息;
向所述用户输出所述当前发音纠正动作信息。
进一步的,所述元素标准口部特征变化数据包括:元素标准口部形状变化数据以及元素标准口部纹理变化数据;所述元素诵读口部特征变化数据包括:诵读口部形状变化数据以及诵读口部纹理变化数据。
进一步的,向所述用户输出所述当前发音纠正动作信息,具体为:
向所述用户以音频和/或视频方式输出所述当前发音纠正动作信息。
另一方面,本发明还提供了一种诵读引导装置,所述装置包括:
获取单元,用于获得用户对目标内容的诵读音频,以及与所述目标内容对应的参考数据,所述参考数据包括:标准文本元素集合、各所述标准文本元素所对应的标准时序信息,以及与所述标准文本元素对应的元素标准发音数据,所述标准时序信息指示所述标准文本元素的标准排列时序关系;
识别单元,用于采用语音识别技术,对所述诵读音频进行识别,得到识别结果数据,所述识别结果数据包括:诵读文本元素集合、各所述诵读文本元素所对应的诵读时序信息,以及与所述诵读文本元素对应的元素诵读发音数据,所述诵读时序信息指示所述诵读文本元素的诵读排列时序关系;
分析单元,用于基于所述标准文本元素在所述标准排列时序上与所述诵读文本元素在所述诵读排列时序上的对应关系,对所述参考数据与所述识别结果数据进行对比分析,得到用于指示所述诵读音频偏离标准的对比分析结果;以及,
引导单元,用于根据与所述对比分析结果对应的诵读引导策略,对所述用户进行诵读引导。
另一方面,本发明还提供了一种计算设备,包括存储器及处理器,所述处理器执行所述存储器中存储的计算机程序时实现如上述方法中的步骤。
另一方面,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述方法中的步骤。
本发明首先对目标内容的用户诵读音频进行识别,得到相应的文本元素、时序信息及元素诵读发音,然后基于时序信息,将这些信息与标准信息进行对比分析,得到对比分析结果,进而根据与对比分析结果对应的诵读引导策略,执行对用户的诵读引导。这样,既可以采用计算机技术发现诵读问题,并针对该诵读问题对用户进行相应的诵读引导,增强了交互性,并提升了用户体验度。
附图说明
图1是本发明实施例一提供的诵读引导方法的实现流程图;
图2是本发明实施例一中标准文本元素与诵读文本元素的排列时序示意图;
图3是本发明实施例二中步骤S101的细化流程图;
图4是本发明实施例四的诵读引导方法的附加流程图;
图5是本发明实施例五提供的诵读引导装置的结构示意图;
图6是本发明实施例六提供的计算设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
以下结合具体实施例对本发明的具体实现进行详细描述:
实施例一:
图1示出了本发明实施例一提供的诵读引导方法的实现流程,为了便于说明,仅示出了与本发明实施例相关的部分,详述如下:
本实施例的诵读引导方法是通过计算机技术实现的。具体可通过相应的智能设备来执行相应的处理,实现相应的流程,例如:智能手机、平板电脑、学习机、点读机等。
本实施例的方法主要包括:
在步骤S101中,获得用户对目标内容的诵读音频,以及与目标内容对应的参考数据,参考数据包括:标准文本元素集合、各所述标准文本元素所对应的标准时序信息,以及与标准文本元素对应的元素标准发音数据,标准时序信息指示标准文本元素的标准排列时序关系。
本实施例中,用户通常可定义为目标内容的诵读者,例如:学生、老师或语言工作者等。
目标内容可以是中文、英文或日文等语种内容,也可以是课文、段落、字词句等可以诵读的内容。
目标内容中通常对应文本元素集合,例如:目标内容为一段中文段落,那么文本元素可以是构成该中文段落的字、词或句等。标准文本元素是构成该目标内容的真实的字、词或句。
参考数据等均可以数据库形式存在。
元素标准发音数据即是文本元素对应的标准发音音频。标准发音音频可以是人声录制而成或计算机合成。相应的字、词或句的标准发音音频,按照一定时序组合,即构成目标内容的标准音频。
上述一定时序,即对应标准时序信息,类似于标准音频的播放时序。标准时序信息可以指示标准文本元素为播放而排列的先后顺序,还可以指示相应的播放速度。
在步骤S102中,采用语音识别技术,对诵读音频进行识别,得到识别结果数据,识别结果数据包括:诵读文本元素集合、各诵读文本元素所对应的诵读时序信息,以及与诵读文本元素对应的元素诵读发音数据,诵读时序信息指示诵读文本元素的诵读排列时序关系。
本实施例中,采用语音识别技术,可从诵读音频中识别出相应的诵读文本。诵读文本通常由诵读文本元素构成。同样,诵读文本元素是诵读的字、词或句。
元素诵读发音数据即是文本元素对应的诵读发音音频。诵读发音音频是用户人声录制而成的。相应的字、词或句的诵读发音音频,按照诵读排列时序组合,即构成诵读音频。
上述诵读排列时序,即对应诵读时序信息,类似于诵读音频的诵读或播放时序。诵读时序信息可以指示诵读文本元素诵读或播放排列的先后顺序,还可以指示相应的诵读或播放速度。
在步骤S103中,基于标准文本元素在标准排列时序上与诵读文本元素在诵读排列时序上的对应关系,对参考数据与识别结果数据进行对比分析,得到用于指示诵读音频偏离标准的对比分析结果。
本实施例中,标准文本元素按照标准时序信息所指示的标准排列时序排列,而诵读文本元素按照诵读时序信息所指示的诵读排列时序排列。各标准文本元素与各诵读文本元素可以在时序上完全对应一致,也可以部分对应,也可以完全不对应,图2示出了部分对应的情形。
具体可以从诵读文本元素的排列是否和标准文本元素的排列一致上进行对比分析,若不一致,则表示用户在诵读时出现了错误。同样,还可以从元素诵读发音数据所指示的用户对文本元素的发音是否偏离元素标准发音数据所指示的标准发音上进行对比分析,若偏离达到一定程度,则表示用户对某文本元素的发音不准确。另外,还可以从诵读文本元素是否在诵读排列时序上存在反复的情形、或者从诵读文本元素的诵读速度是否低于标准诵读速度等角度,进行分析,从而得到对比分析结果。对比分析结果可以对上述各种情形进行指示。
在步骤S104中,根据与对比分析结果对应的诵读引导策略,对用户进行诵读引导。
本实施例中,诵读引导策略可以是预先设置的,当经上述对比分析得出诵读音频在一定程度上偏离标准时,则表示用户诵读目标内容时,出现了需要引导进行纠正的问题,而诵读引导策略则是用于执行相应的引导操作的。
诵读引导策略可以是当用户对文本元素的发音偏离标准时,调取相应的元素标准发音数据进行播放,从而使用户能够反复跟随诵读,也可以是当用户诵读的内容与目标内容不一致时(即上述诵读文本元素的排列与标准文本元素的排列不一致时),将目标内容中发生不一致问题位置相对应的部分内容提示给用户进行反复诵读,增强用户对该部分内容的记忆,还可以是当用户诵读时在某一位置卡顿而出现诵读速度显著降低时(即上述诵读文本元素的诵读速度低于标准诵读速度时),同样将目标内容中发生诵读速度降低问题位置相对应的部分内容提示给用户进行反复诵读等。
另外,当用户诵读的内容与目标内容一致或不一致,本实施例的诵读引导方法均还可以根据内容匹配的程度对诵读效果进行评分,从而供用户知悉该诵读效果。
实施本实施例,既可以采用计算机技术发现诵读问题,并针对该诵读问题对用户进行相应的诵读引导,增强了交互性,并提升了用户体验度。
实施例二:
本实施例在其他实施例基础上,进一步提供了如下内容:
如图3所示,本实施例中,步骤S101具体可包括:
在步骤S301中,获得用户输入的、目标内容的标识。
在步骤S302中,根据标识,从预先建立的数据库中获得参考数据。
在步骤S303中,录制用户对目标内容的诵读音频。
本实施例中,在进行目标内容的诵读引导之前,需要获得用于对比分析的参考数据。参考数据可以通过检索获得,而检索所用的索引则是目标内容标识,例如:当目标内容是课文时,标识可以是课文名称;当目标内容是段落时,标识可以是段落单个关键词或关键词组合等。参考数据在保存时会建立相应的索引,标识与索引相对应,即可实现步骤S302参考数据的获得。
诵读音频一般是通过在用户诵读目标内容时录制获得的。诵读音频可以实时录制获得,以供用户进行实时诵读引导。诵读音频也可以从已存储的数据库中调用,以供用户进行回顾式引导。
实施例三:
本实施例在其他实施例基础上,进一步提供了如下内容:
本实施例中,步骤S103具体可包括如下项中的一种或多种的组合:
其一,将元素标准发音数据与对应的元素诵读发音数据进行比对,得到用于指示文本元素的诵读发音偏离标准发音程度的第一子对比分析结果。
本实施例中,上述标准文本元素在标准排列时序上与诵读文本元素在诵读排列时序上可形成如图2所示的对应关系,而标准文本元素与元素标准发音数据对应,诵读文本元素与元素诵读发音数据对应,这样,即可将元素标准发音数据与对应的元素诵读发音数据进行比对。
为了得到用于指示文本元素的诵读发音偏离标准发音程度的第一子对比分析结果,可从音频特征角度进行对比分析,元素标准发音数据在本实施例中,也可以是相应的元素标准发音特征数据,而不是元素标准发音音频。元素诵读发音数据通常是元素诵读发音音频,为了从音频特征角度进行对比分析,还需要对元素诵读发音数据进行特征提取处理,得到相应的元素诵读发音特征数据。元素标准发音特征数据与元素诵读发音特征数据可以是音频波形,通过将元素标准发音特征数据与元素诵读发音特征数据进行比对,从而可得到相应的、用于指示元素诵读发音特征数据偏离元素标准发音特征数据程度的对比分析结果,该对比分析结果即上述第一子对比分析结果。第一子对比分析结果是以数据差异度方式体现上述偏离程度的。
其二,将标准时序信息与诵读时序信息进行比对,得到用于指示文本元素的诵读时序偏离标准时序程度的第二子对比分析结果。
本实施例中,为了得到用于指示文本元素的诵读时序偏离标准时序程度的第二子对比分析结果,可根据标准时序信息及诵读时序信息,将标准文本元素的标准排列时序关系与诵读文本元素的诵读排列时序关系进行比对。如果用户诵读时出现了卡顿,例如:对某一位置的若干文本元素进行了反复诵读,或存在无实际意义拟声词“嗯、呃”等的介入,此时,诵读文本元素的反复诵读情况或无实际意义拟声词介入情况即会反映在诵读排列时序关系上,从而使得诵读排列时序关系相对于标准排列时序关系存在偏离。指示偏离程度的偏离计数值,可以在反复诵读次数或无实际意义拟声词介入时长统计基础上进行累计。当然,在进行诵读文本元素识别时,同时需要识别出上述无实际意义拟声词并将其排除在诵读文本元素之外。
相应的,本实施例中,步骤S104具体可包括如下项中的一种或多种的组合:
其一,当第一子对比分析结果指示文本元素的诵读发音偏离标准发音程度满足第一诵读引导子策略要求时,根据第一诵读引导子策略,向用户播放对应的元素标准发音数据。
本实施例中,第一子对比分析结果指示文本元素的诵读发音偏离标准发音程度满足第一诵读引导子策略要求,例如:上述数据差异度数值满足一阈值要求,即反映出某一文本元素的诵读发音出现问题而需要纠正,根据第一诵读引导子策略,则向用户播放与该文本元素对应的元素标准发音数据(音频)。例如:文本元素为“四”,标准发音为“si(第四声)”,而用户发音为“shi(第四声)”,则通过第一子对比分析结果指示用户发音出现问题,此时,则可将“四”的标准发音音频向用户播放,以引导用户对“四”进行纠正式诵读。
其二,当第二子对比分析结果指示文本元素的诵读时序偏离标准时序程度满足第二诵读引导子策略要求时,根据第二诵读引导子策略,在目标内容中定位第二子对比分析结果所指示的、诵读时序偏离标准时序的位置,从目标内容中提取位置对应的部分内容,并向用户播放部分内容对应的、由元素标准发音数据组成的参考音频。
本实施例中,第二子对比分析结果指示文本元素的诵读时序偏离标准时序程度满足第二诵读引导子策略要求,例如:上述偏离计数值满足一阈值要求,即反映出对某一位置的若干文本元素进行了反复诵读,或存在无实际意义拟声词“嗯、呃”等的介入,反映出该位置部分内容用户不熟悉,根据第二诵读引导子策略要求,则相应进行该位置的定位,并提取该部分内容,并向用户播放该部分内容所对应的参考音频。用户在聆听该参考音频后,可实现对该部分内容的跟随诵读,从而增强用户对该部分内容的熟悉程度。
实施例四:
本实施例在实施例三基础上,进一步提供了如下内容:
本实施例中,参考数据还包括:与标准文本元素对应的元素标准口部特征变化数据。元素标准口部特征变化数据可指示某一文本元素在诵读时应当对应的口部特征变化。口部特征可以是口部形状和/或纹理等。口部特征变化即是相应的口部形状变化和/或口部纹理变化。不论是口部形状变化还是口部纹理变化,都将反映到相应的口部特征变化数据上,那么,元素标准口部特征变化数据包括:元素标准口部形状变化数据和/或元素标准口部纹理变化数据。
本实施例的诵读引导方法相应还包括:
获得用户对目标内容的诵读视频,诵读视频以用户的口部变化为对象。也就是说,诵读视频中主要拍摄的对象为用户口部位置。用户在对目标内容进行诵读时,不仅需要进行音频的录制形成诵读音频,还需要对用户口部进行拍摄形成诵读视频。
那么,当第一子对比分析结果指示文本元素的诵读发音偏离标准发音程度满足第一诵读引导子策略要求时,本实施例的诵读引导方法还执行如图4所示的如下步骤:
在步骤S401中,从诵读视频中,识别出与元素诵读发音数据对应的元素诵读口部特征变化数据。
本实施例中,可采用对象识别算法,从组成诵读视频的视频帧中识别出口部对象,然后从视频帧中提取相应的口部特征数据,例如:形状数据、纹理数据等,接着,由各视频帧对应的口部特征数据,获得依据时序变化的元素诵读口部特征变化数据,该元素诵读口部特征变化数据反映了用户在诵读某文本元素时的口部形状变化和/或口部纹理变化。
在步骤S402中,获得与元素标准发音数据对应的元素标准口部特征变化数据。
本实施例中,元素标准口部特征变化数据反映了某文本元素在诵读时应当的口部形状变化和/或口部纹理变化。
在步骤S403中,根据元素诵读口部特征变化数据与对应的元素标准口部特征变化数据的当前口部特征差异,从预设的口部特征差异与发音纠正动作信息之间的对应关系中,获得与当前口部特征差异对应的当前发音纠正动作信息。
本实施例中,将元素诵读口部特征变化数据与对应的元素标准口部特征变化数据进行对比分析,得到相应的当前口部特征差异(数据),该当前口部特征差异反映了用户在诵读某文本元素时的诵读口部发音动作与标准口部发音动作之间的差异。
发音纠正动作信息表示在进行某文本元素发音时,用户需通过怎样的口部发音动作调整,才能提升该文本元素发音准确度,例如:发音纠正动作信息可为“嘴型更圆”、“嘴抿得更重”、“上下嘴唇更轻快地碰触”等。
那么,根据预设的口部特征差异与发音纠正动作信息之间的对应关系,则可以由当前口部特征差异匹配得到相应的当前发音纠正动作信息。
在步骤S404中,向用户输出当前发音纠正动作信息。
本实施例中,可向用户以音频和/或视频方式输出当前发音纠正动作信息。例如:可通过音频播放上述“嘴型更圆”、“嘴抿得更重”、“上下嘴唇更轻快地碰触”等信息,也可以通过视频或FLASH方式展示“嘴型更圆”、“嘴抿得更重”、“上下嘴唇更轻快地碰触”等的示范视频或动画。
这样,可在用户发音不准确时,通过分析获得发音纠正动作信息,从而以音频和/或视频方式,提示用户采取相应的发音纠正动作,从而进一步提升用户的体验度。
实施例五:
图5示出了本发明实施例五提供的诵读引导装置的结构,为了便于说明,仅示出了与本发明实施例相关的部分,其中包括:
获取单元501,用于获得用户对目标内容的诵读音频,以及与所述目标内容对应的参考数据,所述参考数据包括:标准文本元素集合、各所述标准文本元素所对应的标准时序信息,以及与所述标准文本元素对应的元素标准发音数据,所述标准时序信息指示所述标准文本元素的标准排列时序关系;
识别单元502,用于采用语音识别技术,对所述诵读音频进行识别,得到识别结果数据,所述识别结果数据包括:诵读文本元素集合、各所述诵读文本元素所对应的诵读时序信息,以及与所述诵读文本元素对应的元素诵读发音数据,所述诵读时序信息指示所述诵读文本元素的诵读排列时序关系;
分析单元503,用于基于所述标准文本元素在所述标准排列时序上与所述诵读文本元素在所述诵读排列时序上的对应关系,对所述参考数据与所述识别结果数据进行对比分析,得到用于指示所述诵读音频偏离标准的对比分析结果;以及,
引导单元504,用于根据与所述对比分析结果对应的诵读引导策略,对所述用户进行诵读引导。
在本发明实施例中,诵读引导装置的各单元可由相应的硬件或软件单元实现,各单元可以为独立的软、硬件单元,也可以集成为一个软、硬件单元,在此不用以限制本发明。
实施例六:
图6示出了本发明实施例六供的计算设备的结构,为了便于说明,仅示出了与本发明实施例相关的部分。
本发明实施例的计算设备包括处理器601及存储器602,处理器601执行存储器602中存储的计算机程序603时实现上述各个方法实施例中的步骤,例如图1所示的步骤S101至S104。或者,处理器601执行计算机程序603时实现上述各装置实施例中各单元的功能,例如图5所示单元501至504的功能。
本发明实施例的计算设备可以为处理芯片、芯片组、单计算机或计算机组网等。该计算设备中处理器601执行计算机程序603时实现上述各方法时实现的步骤,可参考前述方法实施例的描述,在此不再赘述。
实施例七:
在本发明实施例中,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤,例如,图1所示的步骤S101至S104。或者,该计算机程序被处理器执行时实现上述各装置实施例中各单元的功能,例如图5所示单元501至504的功能。
本发明实施例的计算机可读存储介质可以包括能够携带计算机程序代码的任何实体或装置、记录介质,例如,ROM/RAM、磁盘、光盘、闪存等存储器。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种诵读引导方法,其特征在于,包括:
获得用户对目标内容的诵读音频,以及与所述目标内容对应的参考数据,获得所述用户对所述目标内容的诵读视频,所述诵读视频以所述用户的口部变化为对象,所述参考数据包括:标准文本元素集合、各所述标准文本元素所对应的标准时序信息、与所述标准文本元素对应的元素标准口部特征变化数据,以及与所述标准文本元素对应的元素标准发音数据,所述标准时序信息指示所述标准文本元素为播放而排列的先后顺序;
采用语音识别技术,对所述诵读音频进行识别,得到识别结果数据,所述识别结果数据包括:诵读文本元素集合、各所述诵读文本元素所对应的诵读时序信息,以及与所述诵读文本元素对应的元素诵读发音数据,所述诵读时序信息指示所述诵读文本元素的诵读排列时序关系;
基于所述标准文本元素在标准排列时序上与所述诵读文本元素在诵读排列时序上的对应关系,对所述参考数据与所述识别结果数据进行对比分析,得到用于指示所述诵读音频偏离标准的对比分析结果,包括:将元素诵读发音特征数据与元素标准发音特征数据进行比对,得到用于指示文本元素的诵读发音偏离标准发音程度的第一子对比分析结果,其中,元素诵读发音特征数据通过对元素诵读发音数据进行特征提取处理得到;
根据与所述对比分析结果对应的诵读引导策略,对所述用户进行诵读引导,包括:当所述第一子对比分析结果指示文本元素的诵读发音偏离标准发音程度满足第一诵读引导子策略要求时,根据所述第一诵读引导子策略,向用户播放对应的所述元素标准发音数据;从所述诵读视频中,识别出与所述元素诵读发音数据对应的元素诵读口部特征变化数据;获得与所述元素标准发音数据对应的所述元素标准口部特征变化数据;根据所述元素诵读口部特征变化数据与对应的所述元素标准口部特征变化数据的当前口部特征差异,从预设的口部特征差异与发音纠正动作信息之间的对应关系中,获得与所述当前口部特征差异对应的当前发音纠正动作信息;向所述用户输出所述当前发音纠正动作信息。
2.如权利要求1所述的方法,其特征在于,获得用户对目标内容的诵读音频,以及与所述目标内容对应的参考数据,具体包括:
获得所述用户输入的、所述目标内容的标识;
根据所述标识,从预先建立的数据库中获得所述参考数据,以及,
录制所述用户对所述目标内容的所述诵读音频。
3.如权利要求1所述的方法,其特征在于,基于所述标准文本元素在所述标准排列时序上与所述诵读文本元素在所述诵读排列时序上的对应关系,对所述参考数据与所述识别结果数据进行对比分析,得到用于指示所述诵读音频偏离标准的对比分析结果,还包括:
将所述标准时序信息与所述诵读时序信息进行比对,得到用于指示文本元素的诵读时序偏离标准时序程度的第二子对比分析结果。
4.如权利要求3所述的方法,其特征在于,根据与所述对比分析结果对应的诵读引导策略,对所述用户进行诵读引导,还包括:
当所述第二子对比分析结果指示文本元素的诵读时序偏离标准时序程度满足第二诵读引导子策略要求时,根据所述第二诵读引导子策略,在所述目标内容中定位所述第二子对比分析结果所指示的、诵读时序偏离标准时序的位置,从所述目标内容中提取所述位置对应的部分内容,并向用户播放所述部分内容对应的、由所述元素标准发音数据组成的参考音频。
5.如权利要求1所述的方法,其特征在于,所述元素标准口部特征变化数据包括:元素标准口部形状变化数据以及元素标准口部纹理变化数据;所述元素诵读口部特征变化数据包括:诵读口部形状变化数据以及诵读口部纹理变化数据。
6.如权利要求1所述的方法,其特征在于,向所述用户输出所述当前发音纠正动作信息,具体为:
向所述用户以音频和/或视频方式输出所述当前发音纠正动作信息。
7.一种诵读引导装置,其特征在于,所述装置包括:
获取单元,用于获得用户对目标内容的诵读音频,以及与所述目标内容对应的参考数据,获得所述用户对所述目标内容的诵读视频,所述诵读视频以所述用户的口部变化为对象,所述参考数据包括:标准文本元素集合、各所述标准文本元素所对应的标准时序信息、与所述标准文本元素对应的元素标准口部特征变化数据,以及与所述标准文本元素对应的元素标准发音数据,所述标准时序信息指示所述标准文本元素为播放而排列的先后顺序;
识别单元,用于采用语音识别技术,对所述诵读音频进行识别,得到识别结果数据,所述识别结果数据包括:诵读文本元素集合、各所述诵读文本元素所对应的诵读时序信息,以及与所述诵读文本元素对应的元素诵读发音数据,所述诵读时序信息指示所述诵读文本元素的诵读排列时序关系;
分析单元,用于基于所述标准文本元素在标准排列时序上与所述诵读文本元素在诵读排列时序上的对应关系,对所述参考数据与所述识别结果数据进行对比分析,得到用于指示所述诵读音频偏离标准的对比分析结果,包括:将元素诵读发音特征数据与元素标准发音特征数据进行比对,得到用于指示文本元素的诵读发音偏离标准发音程度的第一子对比分析结果,其中,元素诵读发音特征数据通过对元素诵读发音数据进行特征提取处理得到;以及,
引导单元,用于根据与所述对比分析结果对应的诵读引导策略,对所述用户进行诵读引导,包括:当所述第一子对比分析结果指示文本元素的诵读发音偏离标准发音程度满足第一诵读引导子策略要求时,根据所述第一诵读引导子策略,向用户播放对应的所述元素标准发音数据;从所述诵读视频中,识别出与所述元素诵读发音数据对应的元素诵读口部特征变化数据;获得与所述元素标准发音数据对应的所述元素标准口部特征变化数据;根据所述元素诵读口部特征变化数据与对应的所述元素标准口部特征变化数据的当前口部特征差异,从预设的口部特征差异与发音纠正动作信息之间的对应关系中,获得与所述当前口部特征差异对应的当前发音纠正动作信息;向所述用户输出所述当前发音纠正动作信息。
8.一种计算设备,包括存储器及处理器,其特征在于,所述处理器执行所述存储器中存储的计算机程序时实现如权利要求1至6任一项所述方法中的步骤。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910333959.XA CN110046354B (zh) | 2019-04-24 | 2019-04-24 | 诵读引导方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910333959.XA CN110046354B (zh) | 2019-04-24 | 2019-04-24 | 诵读引导方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110046354A CN110046354A (zh) | 2019-07-23 |
CN110046354B true CN110046354B (zh) | 2023-05-23 |
Family
ID=67279010
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910333959.XA Active CN110046354B (zh) | 2019-04-24 | 2019-04-24 | 诵读引导方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110046354B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113793536A (zh) * | 2021-09-18 | 2021-12-14 | 珠海读书郎软件科技有限公司 | 一种辅助学生记忆课文内容的系统及方法 |
CN116631452B (zh) * | 2023-04-06 | 2024-01-02 | 深圳市亚通桥文化传播有限公司 | 一种基于人工智能的绘本录音播放阅读管理系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8972259B2 (en) * | 2010-09-09 | 2015-03-03 | Rosetta Stone, Ltd. | System and method for teaching non-lexical speech effects |
CN106157974A (zh) * | 2015-04-07 | 2016-11-23 | 富士通株式会社 | 文本背诵质量评估装置和方法 |
CN106297841A (zh) * | 2016-07-29 | 2017-01-04 | 广东小天才科技有限公司 | 一种音频跟读引导方法及装置 |
CN107424450A (zh) * | 2017-08-07 | 2017-12-01 | 英华达(南京)科技有限公司 | 发音纠正系统和方法 |
-
2019
- 2019-04-24 CN CN201910333959.XA patent/CN110046354B/zh active Active
Non-Patent Citations (1)
Title |
---|
张普 等.数字化汉语教学的研究与应用.语文出版社,2006,第542-547页. * |
Also Published As
Publication number | Publication date |
---|---|
CN110046354A (zh) | 2019-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110085261B (zh) | 一种发音纠正方法、装置、设备以及计算机可读存储介质 | |
US9953646B2 (en) | Method and system for dynamic speech recognition and tracking of prewritten script | |
US10585583B2 (en) | Method, device, and terminal apparatus for text input | |
CN109785846B (zh) | 单声道的语音数据的角色识别方法及装置 | |
CN109102824B (zh) | 基于人机交互的语音纠错方法和装置 | |
CN108305618B (zh) | 语音获取及搜索方法、智能笔、搜索终端及存储介质 | |
CN111081080B (zh) | 一种语音检测方法及学习设备 | |
CN111951825A (zh) | 一种发音测评方法、介质、装置和计算设备 | |
CN110046354B (zh) | 诵读引导方法、装置、设备及存储介质 | |
CN111610901B (zh) | 一种基于ai视觉下的英语课文辅助教学方法及系统 | |
CN111881297A (zh) | 语音识别文本的校正方法及装置 | |
CN111415537A (zh) | 一种基于符号标注的中小学生听词系统 | |
Martínez-Villaronga et al. | Language model adaptation for video lectures transcription | |
CN111951629A (zh) | 一种发音纠正系统、方法、介质和计算设备 | |
CN114357206A (zh) | 基于语义分析的教育类视频彩色字幕生成方法及系统 | |
Ghaemmaghami et al. | A study of speaker clustering for speaker attribution in large telephone conversation datasets | |
CN112967736A (zh) | 发音质量检测方法、系统、移动终端及存储介质 | |
CN111079489B (zh) | 一种内容识别方法及电子设备 | |
CN115083222B (zh) | 信息交互方法、装置、电子设备及存储介质 | |
CN117312588A (zh) | 一种面向叙述性媒体数据结构化内容处理方法、系统 | |
CN112309429A (zh) | 一种失爆检测方法、装置、设备及计算机可读存储介质 | |
CN115511672A (zh) | 一种评述儿童口算能力的方法 | |
CN114203158A (zh) | 一种儿童中文口语评测和检错纠错方法及装置 | |
CN111079725B (zh) | 一种用于区分英文和拼音的方法及电子设备 | |
CN110428668B (zh) | 一种数据提取方法、装置、计算机系统及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |