CN111583908A - 一种语音数据分析方法及系统 - Google Patents
一种语音数据分析方法及系统 Download PDFInfo
- Publication number
- CN111583908A CN111583908A CN202010374991.5A CN202010374991A CN111583908A CN 111583908 A CN111583908 A CN 111583908A CN 202010374991 A CN202010374991 A CN 202010374991A CN 111583908 A CN111583908 A CN 111583908A
- Authority
- CN
- China
- Prior art keywords
- phoneme
- score
- phoneme data
- data
- pronunciation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000007405 data analysis Methods 0.000 title claims abstract description 21
- 238000004364 calculation method Methods 0.000 claims description 15
- 238000002372 labelling Methods 0.000 claims description 8
- 230000033764 rhythmic process Effects 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 14
- 239000000284 extract Substances 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013077 scoring method Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 210000001747 pupil Anatomy 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本申请提供了一种语音数据分析方法及系统,所述方法包括:获取用户的语音学习信息及语音信息;根据语音学习信息提取语音信息中的重点词,并提取重点词中的音素数据;根据预设声学模型对音素数据进行一一评分,得到重点词中每个音素数据的音素得分,根据重点词中每个音素数据的音素得分得到重点词的重点词发音得分;或者判断重点词发音得分是否小于预设单词发音值,若是,则判断重点词中每个音素数据的音素是否小于预设音素发音值,将小于预设音素发音值的音素数据作为错音音素数据,并将错音音素数据和错音音素数据对应的重点词进行不同标签显示。其能提示用户发音错误的具体位置,有针对性地帮助用户纠正发音。
Description
技术领域
本申请涉及语音技术领域,尤其涉及一种语音数据分析方法及系统。
背景技术
随着科学技术的发展,基于互联网的语言学习应用在中小学的语言学习阶段也得到了快速的发展,越来越多的学生采用互联网的学习模式进行语言学习。而在语言发音学习的过程中,多数情况下是对学生的词句发音进行整体评价,并根据评价结果输出星级反馈等,这种评价体系无法使学生明确认知自身发音的具体问题,尤其是针对语音学习内容设定的重点词的发音具体问题。
发明内容
本申请提供了一种语音数据分析方法及系统,用以解决现有方法中无法明确得知语音学习中重点词错音具体位置的问题。
为了实现上述目的,本申请提供了以下技术方案:
一种语音数据分析方法,包括以下步骤:
获取用户输入的语音学习信息及语音信息,并根据所述语音学习信息提取所述语音信息中的重点词;
提取所述重点词中的音素数据,根据预设声学模型对所述音素数据进行一一评分,得到所述重点词中每个所述音素数据的音素得分;
根据所述重点词中每个所述音素数据的音素得分计算得到所述重点词的重点词发音得分;
判断所述重点词中是否存在所述音素得分小于预设音素发音值的错音音素数据,若存在,则将所述错音音素数据和所述错音音素数据对应的重点词进行不同标签显示;或者
判断所述重点词发音得分是否小于所述预设单词发音值,若是,则判断重点词中每个所述音素数据的所述音素是否小于预设音素发音值,将小于所述预设音素发音值的音素数据作为所述错音音素数据,并将所述错音音素数据和所述错音音素数据对应的重点词进行不同标签显示。
进一步的,所述语音学习信息提取所述语音信息中的重点词的步骤包括:
由所述语音学习信息中提取当前所学内容标签,将所述当前所学内容标签匹配重点词数据库,得到当前所学内容对应的所述重点词,所述当前所学内容为所述语音信息对应的学习内容;
其中,重点词数据库存储有当前所学内容标签对应的重点词,重点词由小学、初中或高中不同学习时段课标要求预先设定和/或对历史学习信息中的易错单词进行预先标注而形成。
进一步的,所述根据所述重点词中每个音素数据的音素得分得到所述重点词的重点词发音得分的步骤,包括:根据所述重点词中每个音素数据的音素得分,计算所述重点词中所有音素数据的音素得分的平均值,将该计算结果作为所述重点词的重点词发音得分。
进一步的,签显示包括颜色标签显示、下划线标签显示或线框标签显示;
所述将所述错音音素数据及所述错音音素数据对应的重点词进行不同标签显示包括;
根据所述错音音素数据的音素得分为所述错音音素数据打不同的颜色标签;
对所述错音音素数据对应的重点词进行下划线标签显示或线框标签显示。
在其中一个实施例中,上述方法还包括:根据所述重点词得分以及所述用户输入的语句发音的时间长度特征、流利度特征、完整度特征、音量特征、韵律特征中任意一种以上特征的组合计算所述重点词所在的语句信息的语句得分。
本申请还提供一种语音数据分析系统,包括:
获取模块,用于获取用户输入的语音学习信息及语音信息,并根据语音学习信息提取所述语音信息中的重点词;
音素评分模块,用于提取所述重点词中的音素数据,根据预设声学模型对所述音素数据进行一一评分,得到所述重点词中每个音素数据的音素得分;
重点词评分模块,用于根据所述重点词中每个音素数据的音素得分计算得到所述重点词的重点词发音得分;
判断显示模块,用于判断所述重点词中是否存在所述音素得分小于预设音素发音值的错音音素数据,若存在,则将所述错音音素数据和所述错音音素数据对应的重点词进行不同标签显示;或者判断所述重点词发音得分是否小于所述预设发单词音值,若是,则判断重点词中每个所述音素数据的所述音素是否小于预设音素发音值,将小于所述预设音素发音值的音素数据作为所述错音音素数据,并将所述错音音素数据和所述错音音素数据对应的重点词进行不同标签显示
进一步的,所述获取模块包括提取匹配单元:用于由所述语音学习信息中提取当前所学内容标签,将所述当前所学内容标签匹配重点词数据库,得到当前所学内容对应的所述重点词,所述当前所学内容为所述语音信息对应的学习内容;
其中,重点词数据库存储有当前所学内容标签对应的重点词,重点词由小学、初中或高中不同学习时段课标要求预先设定和/或对历史学习信息中的易错单词进行预先标注而形成。
进一步的,标签显示包括颜色标签显示、下划线标签显示或线框标签显示;所述判断显示模块包括:
音素标签单元,用于根据所述错音音素数据的音素得分为所述错音音素数据打不同的颜色标签;
重点词显示单元,用于对所述错音音素数据对应的重点词进行下划线标签显示或线框标签显示。
本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例提供的语音数据分析方法和系统。
本申请还提供了一种电子设备,包括:处理器、存储器,存储器用于存储程序,处理器用于运行程序,其中,程序运行时执行上述实施例提供的语音数据分析方法和系统。
本发明所提供的语音数据分析方法及系统,提取用户当前学习内容的重点词,根据预设声学模型对重点词的音素数据进行评分,得到重点词中每一音素数据的音素得分,并根据重点词中的每一音素得分得到该重点词的发音得分,然后对重点词的发音得分和音素得分与预设单词发音值和预设音素发音值进行比较,得到相应的错音音素数据及其对应的重点词,并将错音音素数据及其对应的重点词分别以不同的标签进行显示,提示用户发音错误的具体位置,可以有针对性地帮助用户发现自身发音的具体问题,从而有针对性地进行改正,同时对当前学习内容中的重点词进行发音评分,使得学习过程中具有侧重点,且减少了预设声学模型的计算量及计算过程。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一具体实施例的语音数据分析方法的流程示意图;
图2为本申请一具体实施例的语音数据分析系统的结构示意图;
图3为本申请实施例公开的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本申请一具体实施例的一种语音数据分析方法的流程示意图,如图1所示该方法包括:
S101:获取用户输入的语音学习信息及语音信息,并根据所述语音学习信息提取所述语音信息中的重点词;
其中,用户输入的语音学习信息包括账号信息、年级信息、教研版本信息、课程信息或读物名称信息以及所在页码信息等。根据用户输入的语音学习信息,获取用户当前所学课程信息,即用户当前学习内容。例如:若是教研课程,根据用户输入的账户信息、教研版本信息和年级信息及课程信息(如课程名称,或具体某一单元的某一课的课程),得到用户当前学习内容;具体如,用户输入账号信息后,进一步选择教研版本信息、班级信息、以及课程名称,后台根据用户输入的上述信息匹配语音数据库,得到用户当前学习内容(如:三年级一单元第一课)。又如:若是绘本读物,根据用户输入的账户信息和读物名称信息以及所在页码信息与语音数据库进行匹配,获取用户当前学习内容。
其中,根据语音学习信息提取语音信息中的重点词的步骤包括:由语音学习信息中提取当前所学内容标签,将当前所学内容标签匹配重点词数据库,得到当前所学内容对应的重点词,当前所学内容为所述语音信息对应的学习内容;其中,重点词数据库存储有当前所学内容标签对应的重点词,重点词由小学、初中或高中不同学习时段课标要求预先设定和/或对历史学习信息中的易错单词进行预先标注而形成。需要说明的是,重点词通常认为是当前课程中新加入的单词或容易出错的单词,即默认除了重点词外,当前课程中其他单词默已被用户掌握,这样可以有针对性进行重点学习,而非对课程内容中所有单词都进行重点学习,提高对重点词汇学习的效率。
具体地,预先对教研课程的每一课程内容打标签,比如,人教版、三年级、第一单元第一课,则将其打标签为“人教-3grad-1unit-1class”,进入从用户输入的语音学习信息中可提取相应的当前所学内容标签,进而将当前所学内容标签匹配重点词数据库,得到当前所学内容对应的重点词,比如:人教-3grad-1unit-1class,对应的重点词为:nice、shy、clever、quiet和naughty。
S102:提取所述重点词中的音素数据,根据预设声学模型对所述音素数据进行一一评分,得到所述重点词中每个音素数据的音素得分。
预设声学模型可以实现音素数据的对齐和打分,其中,预设声学模型为基于HMM(Hidden Markov Model,隐形马尔可夫模型)和DNN(Deep Neural Network,深度神经网络)构建的机器学习模型,其训练数据采用K-12阶段的学生用户的标准语音数据,采用学生用户的发音作为标准语音数据,可以尽可能地贴合小学生的发音,评分更准确。当然训练数据也可采用成人的标准语音数据,与社交场合更为贴近。
在其中一个可实施方式中,步骤102进一步包括:重点词的音素数据输入预设声学模型后,将重点词的音素数据与预设声学模型训练的与该重点词对应的标准音素数据进行比对,计算二者的相似比例,将该相似比例作为该音素数据的音素得分。具体地,音素得分采用GOP(Goodness of Pronunciation)算法计算得到,如:将用户输入的重点词的音素数据与该重点词的标准音素数据的文本信息(相当于已知文本数据)强制对齐,然后采用GOP算法计算用户输入的重点词中每一音素数据的似然分数值,并将该似然分数值作为发音好坏的评价标准,其中,似然分数值越大表明用户发音越接近标准音素数据。采用这种算法的好处是计算过程简单,计算量小。采用GOP算法计算发音得分是业内常见的算法,此处不再赘述。当然,也可设置相似度等级,判断用户输入的音素数据与标准音素数据相比,大致落入哪个相似度等级,然后按照相似度等级对其打分。
S103:根据所述重点词中每个音素数据的音素得分得到所述重点词的重点词发音得分。
根据重点词中每个音素数据的音素得分,计算重点词中所有音素数据的音素得分的平均值,将该计算结果作为重点词的重点词发音得分。或预先设置重点词的权重比值,根据重点词中所有音素数据的音素得分及每个音素数据对应的权重比值,计算该重点词中所有音素数据的音素得分的加权平均值,并将该计算结果作为重点词的重点词发音得分,比如:设置重点词中重音音素数据或易出错音素数据的权重比值大于其他音素数据的权重比值,这样得到的评分更能反映学生对该重点词的掌握度。根据重点词中每一音素数据的音素得分计算得到的重点词得分能够较为准备的反映重点词发音准确性。
S104:判断重点词发音得分是否小于预设单词发音值,若是,则判断重点词中每个音素数据的音素得分是否小于预设音素发音值,并将小于所述预设音素发音值的音素数据作为错音音素数据,将所述错音音素数据及所述错音音素数据对应的重点词进行显示。若重点词大于预设单词发音值,则说明该重点词整体发音处于正常范围,此时不再纠结具体音素发音的问题,给予一般性鼓励,比如给予“二颗星星”。若重点词大于预设单词发音值,且重点词中每个音素数据的音素得分大于预设音素发音值,说明当前重点词及其音素都发音正确,给予特别鼓励,比如给予“三颗星星”。
S104',判断重点词中是否存在音素得分小于预设音素发音值的错音音素数据,若存在,则将错音音素数据和错音音素数据对应的重点词进行不同标签显示。若重点词中不存在音素得分小于预设音素发音值的错音音素数据,则说明当前重点发音正确,给予鼓励,比如给予“星星”或“鲜花”鼓励。
上述步骤S104和步骤S104'表示两种不同的实施方式,一种是先判断是否存在错音音素数据,另一种是先判断重点词发音得分是否小于预设发音值。这两种方式分别应用在不同的场景中,在幼儿刚学习阶段,此时主要以提高用户的学习兴趣为主,让用户尽可能能够对面对的学习内容感兴趣,不易要求过于严格,此时采用步骤S104的方式,即该重点词整体发音处于正常范围,即视为答复成功。在进入正轨学习阶段,扎实的基本功十分重要,此时还采用步骤S104显然已不合适,此时采用步骤S104',需要重点词中每一音素数据都答复处于正常范围才视为合格。
在得到错音音素数据及其对应的重点词后,将二者进行不同标签显示,标签显示包括颜色标签显示、下划线标签显示或线框标签显示;比如为错音音素数据进行线框(包括圆框和方框)标签显示,亦或者根据错音音素数据的音素得分为其添加不同条数的下划线,然后为错音音素数据对应的重点词根据发音得分值区间打不同颜色标签显示;或者为错音音素数据打不同颜色标签,为对应的重点词以下划线或线框显示。二者可以是上述标签显示方式的任两种的组合和三种的组合,此处不再赘述。
优选地:根据错音音素数据的音素得分为错音音素数据打不同的颜色标签;对错音音素数据对应的重点词进行下划线标签显示或线框标签显示。此种方式显示更清晰不易混乱,能够起到很好的提示作用。
需要说明的是,上述音素得分和重点词发音得分既可采用百分制表示,也可表示十分制、八分制(优、良、中、差)或其他计分方式表示,且不同计分方式之间能够相互转换,以满足不同场景的需求。采用百分制表示时,预设单词发音值优选为60分,预设音素发音优选为60分,采用十分制表示,预设单词发音值优选为6分,预设音素发音优选为6分。
举例来说,根据错音音素数据的音素得分为错音音素数据打不同的颜色标签可以是:对音素得分设置得分区间,比如在十分制表示的音素得分模式中,将得分为0-2作为第一得分区间,将得分为2-4作为第二得分区间,将得分为4-5作为第三得分区间,将得分为5-6作为第四得分区间,判断音素得分落入的得分区间,根据落入的得分区间对错音音素数据打上不同颜色的标签,当音素得分落入第一得分区间时,该错音音素数据对应的字母以第一颜色显示,比如灰色,当音素得分落入第二得分区间时,该错音音素数据对应的字母以第二颜色显示,比如红色,当音素得分落入第三得分区间时,该错音音素数据对应的字母以第三颜色显示,比如橙色,当音素得分落入第四得分区间时,该错音音素数据对应的字母以第四颜色显示,比如黄色,当音素得分在正确得分范围时,将该音素数据对应的字母以第五颜色显示,比如绿色,通常正确得分范围内的音素数据不对其打颜色标签,以免与错音音素数据混淆。进一步地,错音音素数据在颜色显示的同时,其对应的字母还呈现一定比例的放大显示,从而以更醒目的方式提示用户,以使用户记忆深刻。
在其中一个可实施方式中,在错音音素数据及其对应的重点词进行不同标签显示之后,还包括:错音音素数据及其对应的重点词的发音以口型发音动画的形式进行展示,更具形象化,易被学生接受从而跟随口型发音动画进行学习。
综上所述,本发明所提供的语音数据分析方法,提取用户当前学习内容的重点词,根据预设声学模型对重点词的音素数据进行评分,得到重点词中每一音素数据的音素得分,并根据重点词中的每一音素得分得到该重点词的发音得分,然后对重点词的发音得分和音素得分与预设单词发音值和预设音素发音值进行比较,得到相应的错音音素数据及其对应的重点词,并将错音音素数据及其对应的重点词分别以不同的标签进行显示,提示用户发音错误的具体位置,可以有针对性地帮助用户发现自身发音的具体问题,从而有针对性地进行改正,提高学习效率,同时对当前学习内容中的重点词进行发音评分,使得学习过程中具有侧重点,且减少了预设声学模型的计算量及计算过程,且本申请中采用先判断是否存在错音音素数据或是先判断重点词发音得分两种方式,可以适用于不同的应用场景,充分满足学生学习过程中的需求。
在其中一个可实施方式中,该方法还进一步包括:根据所述重点词得分以及所述用户输入的语句发音的时间长度特征、流利度特征、完整度特征、音量特征、韵律特征中任意一种以上特征计算重点词所在的语句信息的语句得分。
在用户当前学习内容为语句信息时,根据重点词得分以及语句发音的时间长度特征、流利度特征、完整度特征、音量特征、韵律特征(音调特征)中任意一种以上特征计算该重点词所在语句信息的语句得分。举例来说:“It is dark at home”,其中“dark”是重点词,为其定义在该语句中的权重值为0.2,重点词得分为50,若其还使用了时间长度特征和流利度特征,且预定义了时间长度特征和流利度特征的权重值分别为0.3和0.5,时间长度特征对应的得分分值为80,流利度特征对应的得分分支为70,则计算得到该语句的整体得分为0.2*50+0.3*80+0.5*70=69。当然,一段语句中也可存在一个以上的重点词,比如上述例子中,“dark”和“home”均为重点词,且定义“dark”和“home”权重值均为0.1,然后利用上述加权方式计算语句得分。值得说明的是,重点词的权重值和上述使用的特征的权重值的总和为1。该方法综合考虑了重点词以及各种发音特征的重要性,使得用户语音信息中语句在该语音信息中的发音得分更为准确。
与上述本申请实施例提供的一种语音数据分析方法相对应,参考图2,示出了本发明实施例提供的一种语音数据分析系统结构示意图,包括:获取模块100,用于获取用户输入的语音学习信息及语音信息,并根据语音学习信息提取所述语音信息中的重点词。音素评分模块200,用于提取重点词中的音素数据,根据预设声学模型对所述音素数据进行一一评分,得到所述重点词中每个音素数据的音素得分。重点词评分模块300,用于根据所述重点词中每个音素数据的音素得分计算得到所述重点词的重点词发音得分。判断显示模块400,用于判断所述重点词中是否存在所述音素得分小于预设音素发音值的错音音素数据,若存在,则将所述错音音素数据和所述错音音素数据对应的重点词进行不同标签显示;或者判断所述重点词发音得分是否小于所述预设发单词音值,若是,则判断重点词中每个所述音素数据的所述音素是否小于预设音素发音值,将小于所述预设音素发音值的音素数据作为所述错音音素数据,并将所述错音音素数据和所述错音音素数据对应的重点词进行不同标签显示。
本发明所提供的语音数据分析系统,提取用户当前学习内容的重点词,根据预设声学模型对重点词的音素数据进行评分,得到重点词中每一音素数据的音素得分,并根据重点词中的每一音素得分得到该重点词的发音得分,然后对重点词的发音得分和音素得分与预设单词发音值和预设音素发音值进行比较,得到相应的错音音素数据及其对应的重点词,并将错音音素数据及其对应的重点词分别以不同的标签进行显示,提示用户发音错误的具体位置,从而可以有针对性地帮助用户发现自身发音的具体问题,从而有针对性地进行改正,同时对当前学习内容中的重点词进行发音评分,使得学习过程中具有侧重点,且减少了预设声学模型的计算量及计算过程。
在其中一个实施方式中,获取模块100包括提取匹配单元:用于由所述语音学习信息中提取当前所学内容标签,将所述当前所学内容标签匹配重点词数据库,得到当前所学内容对应的所述重点词,所述当前所学内容为所述语音信息对应的学习内容;其中,重点词数据库存储有当前所学内容标签对应的重点词,重点词由小学、初中或高中不同学习时段课标要求预先设定和/或对历史学习信息中的易错单词进行预先标注而形成。
在其中一个实施方式中,重点词评分模块300包括重点词评分单元,用于根据所述重点词中每个音素数据的音素得分,计算所述重点词中所有音素数据的音素得分的平均值,将该计算结果作为所述重点词的重点词发音得分。
在其中一个实施方式中,标签显示包括颜色标签显示、下划线标签显示或线框标签显示;判断显示模块400包括:音素标签单元,用于根据所述错音音素数据的音素得分为所述错音音素数据打不同的颜色标签。重点词显示单元,用于对所述错音音素数据对应的重点词进行下划线标签显示或线框标签显示。
在其中一个实施方式中,还包括语句得分模块,用于根据所述重点词得分以及所述用户输入的语句发音的时间长度特征、流利度特征、完整度特征、音量特征、韵律特征中任意一种以上特征的组合计算所述重点词所在的语句信息的语句得分。
本申请实施例还提供了一种计算机可读存储介质,计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例提供的语音数据分析方法及系统。
本申请实施例还提供了一种电子设备,参考图3,包括:处理器301、存储器302,存储器302用于存储程序,处理器301用于运行程序,其中,程序运行时执行上述实施例提供的语音数据分析方法及系统。
本申请实施例提供的计算机可读存储介质和电子设备,提取用户当前学习内容的重点词,根据预设声学模型对重点词的音素数据进行评分,得到重点词中每一音素数据的音素得分,并根据重点词中的每一音素得分得到该重点词的发音得分,然后对重点词的发音得分和音素得分与预设单词发音值和预设音素发音值进行比较,得到相应的错音音素数据及其对应的重点词,并将错音音素数据及其对应的重点词分别以不同的标签进行显示,提示用户发音错误的具体位置,从而可以有针对性地帮助用户发现自身发音的具体问题,从而有针对性地进行改正,同时对当前学习内容中的重点词进行发音评分,使得学习过程中具有侧重点,且减少了预设声学模型的计算量及计算过程。
本申请实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算设备可读取存储介质中。基于这样的理解,本申请实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一台计算设备(可以是个人计算机,服务器,移动计算设备或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的技术方案进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种语音数据分析方法,其特征在于,包括以下步骤:
获取用户输入的语音学习信息及语音信息,并根据所述语音学习信息提取所述语音信息中的重点词;
提取所述重点词中的音素数据,根据预设声学模型对所述音素数据进行一一评分,得到所述重点词中每个所述音素数据的音素得分;
根据所述重点词中每个所述音素数据的音素得分计算得到所述重点词的重点词发音得分;
判断所述重点词中是否存在所述音素得分小于预设音素发音值的错音音素数据,若存在,则将所述错音音素数据和所述错音音素数据对应的重点词进行不同标签显示;或者
判断所述重点词发音得分是否小于所述预设单词发音值,若是,则判断重点词中每个所述音素数据的所述音素是否小于预设音素发音值,将小于所述预设音素发音值的音素数据作为所述错音音素数据,并将所述错音音素数据和所述错音音素数据对应的重点词进行不同标签显示。
2.根据权利要求1所述的方法,其特征在于,所述根据所述语音学习信息提取所述语音信息中的重点词的步骤,包括:
由所述语音学习信息中提取当前所学内容标签,将所述当前所学内容标签匹配重点词数据库,得到当前所学内容对应的所述重点词,所述当前所学内容为所述语音信息对应的学习内容;
其中,重点词数据库存储有当前所学内容标签对应的重点词,重点词由小学、初中或高中不同学习时段课标要求预先设定和/或对历史学习信息中的易错单词进行预先标注而形成。
3.根据权利要求1所述的方法,其特征在于,所述根据所述重点词中每个音素数据的音素得分得到所述重点词的重点词发音得分的步骤,包括:
根据所述重点词中每个音素数据的音素得分,计算所述重点词中所有音素数据的音素得分的平均值,将该计算结果作为所述重点词的重点词发音得分。
4.根据权利要求1所述的方法,其特征在于,标签显示包括颜色标签显示、下划线标签显示或线框标签显示;
所述将所述错音音素数据及所述错音音素数据对应的重点词进行不同标签显示包括;
根据所述错音音素数据的音素得分为所述错音音素数据打不同的颜色标签;
对所述错音音素数据对应的重点词进行下划线标签显示或线框标签显示。
5.根据权利要求1所述的方法,其特征在于,还包括:根据所述重点词得分以及所述用户输入的语句发音的时间长度特征、流利度特征、完整度特征、音量特征、韵律特征中任意一种以上特征的组合计算所述重点词所在的语句信息的语句得分。
6.一种语音数据分析系统,其特征在于,包括:
获取模块,用于获取用户输入的语音学习信息及语音信息,并根据语音学习信息提取所述语音信息中的重点词;
音素评分模块,用于提取所述重点词中的音素数据,根据预设声学模型对所述音素数据进行一一评分,得到所述重点词中每个音素数据的音素得分;
重点词评分模块,用于根据所述重点词中每个音素数据的音素得分计算得到所述重点词的重点词发音得分;
判断显示模块,用于判断所述重点词中是否存在所述音素得分小于预设音素发音值的错音音素数据,若存在,则将所述错音音素数据和所述错音音素数据对应的重点词进行不同标签显示;或者判断所述重点词发音得分是否小于所述预设发单词音值,若是,则判断重点词中每个所述音素数据的所述音素是否小于预设音素发音值,将小于所述预设音素发音值的音素数据作为所述错音音素数据,并将所述错音音素数据和所述错音音素数据对应的重点词进行不同标签显示。
7.根据权利要求6所述的系统,其特征在于,所述获取模块包括提取匹配单元:用于由所述语音学习信息中提取当前所学内容标签,将所述当前所学内容标签匹配重点词数据库,得到当前所学内容对应的所述重点词,所述当前所学内容为所述语音信息对应的学习内容;
其中,重点词数据库存储有当前所学内容标签对应的重点词,重点词由小学、初中或高中不同学习时段课标要求预先设定和/或对历史学习信息中的易错单词进行预先标注而形成。
8.根据权利要求6所述的系统,其特征在于,标签显示包括颜色标签显示、下划线标签显示或线框标签显示;所述判断显示模块包括:
音素标签单元,用于根据所述错音音素数据的音素得分为所述错音音素数据打不同的颜色标签;
重点词显示单元,用于对所述错音音素数据对应的重点词进行下划线标签显示或线框标签显示。
9.一种计算机可读存储介质,计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例提供的语音数据分析方法和系统。
10.一种电子设备,包括:处理器、存储器,存储器用于存储程序,处理器用于运行程序,其中,程序运行时执行上述实施例提供的语音数据分析方法和系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010374991.5A CN111583908A (zh) | 2020-04-30 | 2020-04-30 | 一种语音数据分析方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010374991.5A CN111583908A (zh) | 2020-04-30 | 2020-04-30 | 一种语音数据分析方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111583908A true CN111583908A (zh) | 2020-08-25 |
Family
ID=72126213
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010374991.5A Withdrawn CN111583908A (zh) | 2020-04-30 | 2020-04-30 | 一种语音数据分析方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111583908A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112820294A (zh) * | 2021-01-06 | 2021-05-18 | 镁佳(北京)科技有限公司 | 语音识别方法、装置、存储介质及电子设备 |
CN112837401A (zh) * | 2021-01-27 | 2021-05-25 | 网易(杭州)网络有限公司 | 一种信息处理方法、装置、计算机设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140324433A1 (en) * | 2013-04-26 | 2014-10-30 | Wistron Corporation | Method and device for learning language and computer readable recording medium |
CN106897950A (zh) * | 2017-01-16 | 2017-06-27 | 北京师范大学 | 一种基于单词认知状态模型适应性学习系统及方法 |
CN108961856A (zh) * | 2018-07-19 | 2018-12-07 | 深圳乐几科技有限公司 | 口语学习方法和装置 |
CN109035896A (zh) * | 2018-08-13 | 2018-12-18 | 广东小天才科技有限公司 | 一种口语训练方法及学习设备 |
CN109036464A (zh) * | 2018-09-17 | 2018-12-18 | 腾讯科技(深圳)有限公司 | 发音检错方法、装置、设备及存储介质 |
CN109979484A (zh) * | 2019-04-03 | 2019-07-05 | 北京儒博科技有限公司 | 发音检错方法、装置、电子设备及存储介质 |
CN110136747A (zh) * | 2019-05-16 | 2019-08-16 | 上海流利说信息技术有限公司 | 一种评价语音音素正确性的方法、装置、设备及存储介质 |
-
2020
- 2020-04-30 CN CN202010374991.5A patent/CN111583908A/zh not_active Withdrawn
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140324433A1 (en) * | 2013-04-26 | 2014-10-30 | Wistron Corporation | Method and device for learning language and computer readable recording medium |
CN106897950A (zh) * | 2017-01-16 | 2017-06-27 | 北京师范大学 | 一种基于单词认知状态模型适应性学习系统及方法 |
CN108961856A (zh) * | 2018-07-19 | 2018-12-07 | 深圳乐几科技有限公司 | 口语学习方法和装置 |
CN109035896A (zh) * | 2018-08-13 | 2018-12-18 | 广东小天才科技有限公司 | 一种口语训练方法及学习设备 |
CN109036464A (zh) * | 2018-09-17 | 2018-12-18 | 腾讯科技(深圳)有限公司 | 发音检错方法、装置、设备及存储介质 |
CN109979484A (zh) * | 2019-04-03 | 2019-07-05 | 北京儒博科技有限公司 | 发音检错方法、装置、电子设备及存储介质 |
CN110136747A (zh) * | 2019-05-16 | 2019-08-16 | 上海流利说信息技术有限公司 | 一种评价语音音素正确性的方法、装置、设备及存储介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112820294A (zh) * | 2021-01-06 | 2021-05-18 | 镁佳(北京)科技有限公司 | 语音识别方法、装置、存储介质及电子设备 |
CN112837401A (zh) * | 2021-01-27 | 2021-05-25 | 网易(杭州)网络有限公司 | 一种信息处理方法、装置、计算机设备及存储介质 |
CN112837401B (zh) * | 2021-01-27 | 2024-04-09 | 网易(杭州)网络有限公司 | 一种信息处理方法、装置、计算机设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8272874B2 (en) | System and method for assisting language learning | |
US8033831B2 (en) | System and method for programmatically evaluating and aiding a person learning a new language | |
Saito | Identifying problematic segmental features to acquire comprehensible pronunciation in EFL settings: The case of Japanese learners of English | |
TWI336880B (en) | Voice processing methods and systems, and machine readable medium thereof | |
Tsubota et al. | Practical use of English pronunciation system for Japanese students in the CALL classroom | |
JP2009503563A (ja) | 話し言葉のコンピュータによる習熟度評価 | |
Jułkowska et al. | Effects of listener factors and stimulus properties on the intelligibility, comprehensibility and accentedness of L2 speech | |
Yenkimaleki et al. | Effects of attention to segmental vs. suprasegmental features on the speech intelligibility and comprehensibility of the EFL learners targeting the perception or production-focused practice | |
US8221126B2 (en) | System and method for performing programmatic language learning tests and evaluations | |
CN109147422B (zh) | 一种英语学习系统及其综合学习方法 | |
CN111583908A (zh) | 一种语音数据分析方法及系统 | |
Cucchiarini et al. | Error selection for ASR-based English pronunciation training in'My Pronunciation Coach' | |
Ford et al. | The effect of orthographic complexity on Spanish spelling in grades 1–3 | |
AU2018229559A1 (en) | A Method and System to Improve Reading | |
Isitqomah et al. | Attitudes toward English phonetics learning: a survey on Indonesian EFL learners | |
JP2001249679A (ja) | 外国語自律学習システム | |
Rini | IMPROVING THE STUDENTS’ MASTERY IN PRONOUNCING CONSONANTS/f/AND/v | |
WO2006057896A2 (en) | System and method for assisting language learning | |
KR100701270B1 (ko) | 외국어 강의 및 학습 평가 시스템과 그 시스템을 이용한외국어 강의 및 학습평가 방법 | |
Strik et al. | Speech technology for language tutoring | |
Bang et al. | An automatic feedback system for English speaking integrating pronunciation and prosody assessments | |
Filighera et al. | Towards A Vocalization Feedback Pipeline for Language Learners | |
Sparks et al. | Language aptitude: Insights from US high school students | |
Destiyana et al. | The Intelligibility of Indonesian Learners of English (ILE) in Understanding the Pronunciation of English Spoken by Thai Students | |
Annisa et al. | The English Pronunciation of Buginese Students in English Department of IAIN Palopo |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20200825 |
|
WW01 | Invention patent application withdrawn after publication |