CN115083437B - 一种确定学习者发音的不确定性的方法及装置 - Google Patents
一种确定学习者发音的不确定性的方法及装置 Download PDFInfo
- Publication number
- CN115083437B CN115083437B CN202210535600.2A CN202210535600A CN115083437B CN 115083437 B CN115083437 B CN 115083437B CN 202210535600 A CN202210535600 A CN 202210535600A CN 115083437 B CN115083437 B CN 115083437B
- Authority
- CN
- China
- Prior art keywords
- phoneme
- learner
- pronunciation
- original
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 239000011159 matrix material Substances 0.000 claims abstract description 93
- 238000011160 research Methods 0.000 abstract description 13
- 239000013598 vector Substances 0.000 abstract description 6
- 238000001303 quality assessment method Methods 0.000 abstract description 2
- 238000011156 evaluation Methods 0.000 description 14
- 238000000605 extraction Methods 0.000 description 12
- 238000004364 calculation method Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 6
- 230000009471 action Effects 0.000 description 5
- 238000011161 development Methods 0.000 description 5
- 230000015654 memory Effects 0.000 description 5
- 238000010276 construction Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 238000005215 recombination Methods 0.000 description 4
- 230000006798 recombination Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 239000006185 dispersion Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000012076 audiometry Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000001766 physiological effect Effects 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Evolutionary Computation (AREA)
- Computational Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Computing Systems (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明涉及发音质量评估技术领域,特别是指一种确定学习者发音的不确定性的方法及装置。方法包括:获取学习者的发音数据;基于所述学习者的发音数据,获取基准测听数据;基于所述学习者的发音数据以及所述基准测听数据,构建所述学习者的音素混淆矩阵,根据所述学习者的音素混淆矩阵,确定所述学习者的发音的不确定性。采用本发明,可以对学习者发音的不确定性进行量化,并且对不同音素发音的不确定性进行单一向量的对比研究。
Description
技术领域
本发明涉及发音质量评估技术领域,特别是指一种确定学习者发音的不确定性的方法及装置。
背景技术
随着全球化进程的加快,第二语言的学习需求也随之增长。伴随着言语交际高效性的需求,越来越多的学习者在第二语言发音准确度方面有更高的要求,希望自己的发音能尽可能达到母语者的发音水平。在第二语言语音教学与研究中,有效的评价指标可以更精确地描述学习者的发音偏误问题,揭示二语学习过程中发音偏误的发展规律,从而帮助二语学习者更准确地捕捉发音问题所在,为学习者纠音正音提供一定的参考。
作为最常用的评价指标之一,正确率被广泛应用于二语语音习得的研究中,直观地呈现出学习者不同音素的正确发音的比率,反映出不同音素习得的难易度。错误率包括整体发音错误率和不同错误发音的比率分布,其中整体错误率作为正确率的对立指标,在实际研究中与正确率指标起到类似的作用;不同错误发音的比率分布不仅呈现了目标发音的错误类型,还呈现出不同错误类型的差异性,对解释偏误出现的原因及指导发音人进行正音训练都有着重要的作用。混淆矩阵同时包含了目标发音的正确率及不同错误发音的比率分布,然而作为一个多维向量,混淆矩阵无法进行单个指标的对比。为了进一步考察学习者产出语音的区分度/相似度,梅丽(2009)等人在音素混淆矩阵的基础上考察了两两音素间的感知距离,以确定学习者产出的目标发音在感知上与哪些音素的距离比较小(容易混淆)。及转转(2020)等人同样在混淆矩阵的基础上,不仅考察了目标音素的发音正确率,同时对音素的精确性进行了量化研究,通过F-score对音素发音的正确率和精确性进行整合,最终得到不同音素的习得情况,研究者认为当一个音素真正被习得,不仅表现为较高的发音正确率,同时还要保持较高的精确度(不会和其它任何音素进行混淆)。
以上评价指标对目标音素整体的正误、目标音素的错误类型及分布、目标音素与其它音素之间的混淆关系等进行了不同层面的量化和评估。然而根据已有研究可以发现,有着同样正确率的两个音素,在错误表现上可能存在一定的差异,例如,Jouvet(2015)在考察以德语为目的语的法国学习者产出德语[e:]和[a:]时发现,两个音素的正确率都是83%,然而[e:]主要有[i:]、[E:]、[I]三个错误对象,对应的错误率分别为4%、2%和4%,而[a:]只有一个错误对象[a],错误率为16%。Jia(2006)对中国学习者的英语单元音产出情况进行考察时发现,随着学习者在目的语环境生活时间的加长,学习者在音素[Λ]上的产出正确率始终保持在50%左右,但是其偏误形式由多种偏误类型逐渐集中到[ɑ]一种主要偏误类型。目前已有的评价指标对这种不同错误类型的分布难以进行整体评估,已有的研究结果表明这种发音偏误的分布不仅与学习者母语音系的相似度有密切的关系,从发展的角度来看,也体现出学习者在不同学习阶段对音素范畴的构建与重组的规律。
二语学习者产出的语音与母语者的语音相比往往让听者难以理解,甚至出现误解的情况,其中很大方面的原因在于学习者的音素发音存在更多的不确定性。这种不确定性主要表现在:1.目标音素难以被正确产出;2.目标音素与其它音素产生混淆。现有的评价指标针对上述两个方面的问题对学习者的发音进行了多方面评估,然而现有的评估方法往往只针对于问题的某一个方面,忽略了对学习者发音时的不确定性的分析。
发明内容
本发明实施例提供了一种确定学习者发音的不确定性的方法及装置。所述技术方案如下:
一方面,提供了一种确定学习者发音的不确定性的方法,该方法由确定学习者发音的不确定性的装置实现,该方法包括:
获取学习者的发音数据;
基于所述学习者的发音数据,获取基准测听数据;
基于所述学习者的发音数据以及所述基准测听数据,构建所述学习者的音素混淆矩阵,根据所述学习者的音素混淆矩阵,确定所述学习者的发音的不确定性。
可选地,所述获取学习者的发音数据,包括:
获取学习者的发音音频;
确定所述发音音频中的原始音素以及原始音素的位置。
可选地,所述基于所述学习者的发音数据,获取基准测听数据,包括:
基于所述学习者的发音音频,确定所述发音音频中的基准音素以及基准音素的位置。
可选地,所述基于所述学习者的发音数据以及所述基准测听数据,构建所述学习者的音素混淆矩阵,根据所述学习者的音素混淆矩阵,确定所述学习者的发音的不确定性,包括:
基于所述学习者的发音数据以及所述基准测听数据,构建所述学习者的第一音素混淆矩阵,根据所述学习者的第一音素混淆矩阵,计算基准音素的熵,根据所述基准音素的熵,确定所述学习者的发音的不确定性;或者,
基于所述学习者的发音数据以及所述基准测听数据,构建所述学习者的第二音素混淆矩阵,根据所述学习者的第二音素混淆矩阵,计算基准音素的条件熵,根据所述基准音素的条件熵,确定所述学习者的发音的不确定性。
可选地,所述基于所述学习者的发音数据以及所述基准测听数据,构建所述学习者的第一音素混淆矩阵,包括:
将所述发音音频的原始音素与基准音素按照对应位置一一进行比较,统计同一基准音素对应的多个原始音素的种类以及每种原始音素出现的次数;
将原始音素的种类作为横向变量,将基准音素的种类作为纵向变量,基于多种基准音素对应的原始音素的种类以及出现的次数,构建二维的第一音素混淆矩阵。
可选地,所述根据所述学习者的第一音素混淆矩阵,计算基准音素的熵,包括:
根据所述学习者的第一音素混淆矩阵,采用下述公式(1),计算基准音素的熵:
其中,H(z)表示基准音素z的熵,n表示基准音素z对应的原始音素的种类数,i表示基准音素z对应的第i个原始音素,pi表示第i个原始音素对应的概率,所述n、pi由所述学习者的第一音素混淆矩阵中获取。
可选地,所述基于所述学习者的发音数据以及所述基准测听数据,构建所述学习者的第二音素混淆矩阵,包括:
将所述发音音频的原始音素与基准音素按照对应位置一一进行比较,统计同一基准音素对应的多个原始音素的种类以及每种原始音素出现的次数;
对同一基准音素对应的多个原始音素分别进行水平等级评价;
将原始音素的种类作为横向变量,将原始音素的水平等级作为纵向变量,基于不同水平等级对应的原始音素的种类以及出现的次数,构建多个二维的第二音素混淆矩阵。
可选地,所述根据所述学习者的音素混淆矩阵,计算音素的条件熵,包括:
根据所述学习者的第二音素混淆矩阵,采用下述公式(2),计算基准音素的条件熵:
其中,H′(z)表示基准音素z的条件熵,i表示基准音素z的第i种原始音素,表示基准音素z对应的原始音素的种类数,j表示处于第j个水平等级,y表示水平等级的总个数,p(i,j)表示第i个原始音素处于第j等级时的概率,p(i|j)表示在处于第j等级下第i个原始音素的概率,p(i,j)以及p(i|j)均由第二音素混淆矩阵中的数据计算得到。
另一方面,提供了一种确定学习者发音的不确定性的装置,该装置应用于确定学习者发音的不确定性的方法,该装置包括:
第一获取模块,用于获取学习者的发音数据;
第二获取模块,用于基于所述学习者的发音数据,获取基准测听数据;
确定模块,用于基于所述学习者的发音数据以及所述基准测听数据,构建所述学习者的音素混淆矩阵,根据所述学习者的音素混淆矩阵,确定所述学习者的发音的不确定性。
另一方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现上述确定学习者发音的不确定性的方法。
另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现上述确定学习者发音的不确定性的方法。
本发明实施例提供的技术方案带来的有益效果至少包括:
该计算方法以学习者产出音素的混淆矩阵为基础,可以对学习者发音的不确定性进行量化,并且对不同音素发音的不确定性进行单一向量的对比研究。同时,从发展的角度可以对学习者音素范畴的构建及重组的过程进行一定程度的解释。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种确定学习者发音的不确定性的方法流程图;
图2是本发明实施例提供的一种基于计算熵的确定学习者发音的不确定性的方法流程图;
图3是本发明实施例提供的一种基于计算条件熵的确定学习者发音的不确定性的方法流程图;
图4是本发明实施例提供的一种确定学习者发音的不确定性的装置框图;
图5是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明实施例提供了一种确定学习者发音的不确定性的方法,该方法可以由电子设备实现,该电子设备可以是终端或服务器。如图1所示的确定学习者发音的不确定性的方法流程图,该方法的处理流程可以包括如下的步骤:
S11、获取学习者的发音数据;
S12、基于学习者的发音数据,获取基准测听数据;
S13、基于学习者的发音数据以及基准测听数据,构建学习者的音素混淆矩阵,根据学习者的音素混淆矩阵,确定学习者的发音的不确定性。
可选地,获取学习者的发音数据,包括:
获取学习者的发音音频;
确定发音音频中的原始音素以及原始音素的位置。
可选地,基于学习者的发音数据,获取基准测听数据,包括:
基于学习者的发音音频,确定发音音频中的基准音素以及基准音素的位置。
可选地,基于学习者的发音数据以及基准测听数据,构建学习者的音素混淆矩阵,根据学习者的音素混淆矩阵,确定学习者的发音的不确定性,包括:
基于学习者的发音数据以及基准测听数据,构建学习者的第一音素混淆矩阵,根据学习者的第一音素混淆矩阵,计算基准音素的熵,根据基准音素的熵,确定学习者的发音的不确定性;或者,
基于学习者的发音数据以及基准测听数据,构建学习者的第二音素混淆矩阵,根据学习者的第二音素混淆矩阵,计算基准音素的条件熵,根据基准音素的条件熵,确定学习者的发音的不确定性。
可选地,基于学习者的发音数据以及基准测听数据,构建学习者的第一音素混淆矩阵,包括:
将发音音频的原始音素与基准音素按照对应位置一一进行比较,统计同一基准音素对应的多个原始音素的种类以及每种原始音素出现的次数;
将原始音素的种类作为横向变量,将基准音素的种类作为纵向变量,基于多种基准音素对应的原始音素的种类以及出现的次数,构建二维的第一音素混淆矩阵。
可选地,根据学习者的第一音素混淆矩阵,计算基准音素的熵,包括:
根据学习者的第一音素混淆矩阵,采用下述公式(1),计算基准音素的熵:
其中,H(z)表示基准音素z的熵,n表示基准音素z对应的原始音素的种类数,i表示基准音素z对应的第i个原始音素,pi表示第i个原始音素对应的概率,n、pi由学习者的第一音素混淆矩阵中获取。
可选地,基于学习者的发音数据以及基准测听数据,构建学习者的第二音素混淆矩阵,包括:
将发音音频的原始音素与基准音素按照对应位置一一进行比较,统计同一基准音素对应的多个原始音素的种类以及每种原始音素出现的次数;
对同一基准音素对应的多个原始音素分别进行水平等级评价;
将原始音素的种类作为横向变量,将原始音素的水平等级作为纵向变量,基于不同水平等级对应的原始音素的种类以及出现的次数,构建多个二维的第二音素混淆矩阵。
可选地,根据学习者的音素混淆矩阵,计算音素的条件熵,包括:
根据学习者的第二音素混淆矩阵,采用下述公式(2),计算基准音素的条件熵:
其中,Hρ(z)表示基准音素z的条件熵,i表示基准音素z的第i种原始音素,表示基准音素z对应的原始音素的种类数,j表示处于第j个水平等级,y表示水平等级的总个数,p(i,j)表示第i个原始音素处于第j等级时的概率,p(i|j)表示在处于第j等级下第i个原始音素的概率,p(i,j)以及p(i|j)均由第二音素混淆矩阵中的数据计算得到。
本发明实施例提供了一种基于计算熵的确定学习者发音的不确定性的方法,该方法可以由电子设备实现,该电子设备可以是终端或服务器。如图2所示的基于计算熵的确定学习者发音的不确定性的方法流程图,该方法的处理流程可以包括如下的步骤:
S21、获取学习者的发音音频。
一种可行的实施方式中,发音音频即为学习者读出的音频。举例来说,可以采用跟读方式获取学习者的发音音频,即给出基准文本,让学习者根据基准文本进行跟读,电子设备获取学习者跟读时的发音音频,例如,电子设备录制学习者跟读时的发音音频。
S22、确定发音音频中的原始音素以及原始音素的位置。
其中,音素是根据语音的自然属性划分出来的最小语音单位。从声学性质来看,音素是从音质角度划分出来的最小语音单位。示例性地,[ma]包括[m]和[a]两个音素。从生理性质来看,一个发音动作形成一个音素,相同发音动作发出的音就是同一音素,不同发音动作发出的音就是不同音素。示例性地,[ma-mi]中,两个[m]发音动作相同,是相同音素,[a]和[i]的发音动作不同,是不同音素。
一种可行的实施方式中,计算机设备在获取上述学习者的发音音频之后,获取该发音音频中各个音频帧分别对应的音频特征,以及获取基准文本包含的音素(可称为基准音素)。
可选地,在本申请实施例中,计算机设备在获取上述发音音频之后,对该发音音频进行分帧处理,得到发音音频的至少一个音频帧,进而对各个音频帧分别进行特征提取,得到各个音频帧分别对应的音频特征。可选地,电子设备采用预训练的音频特征提取网络,对各个音频帧分别进行特征提取,得到各个音频帧分别对应的音频特征。其中,预训练的音频特征提取网络是指预先训练得到的针对音频数据的特征提取网络,示例性地,该音频特征提取网络可以为Wav2vector。可选地,在训练过程中,可以利用大量无标签任务,基于对比损失对音频特征提取网络进行训练。根据提取到的提取到的音频特征,确定发音音频对应的原始音素,并记录原始音素的位置,便于后续将原始音素与基准音素进行对比。
需要说明的是,除了上述采用针对音频数据的特征提取网络确定原始音素外,也可以采用人工辨别的方式确定原始音素,本发明实施例了对此不作限定。
S23、基于学习者的发音音频,确定发音音频中的基准音素以及基准音素的位置。
一种可行的实施方式中,电子设备在获取上述基准文本之后,对该基准文本包含的音素进行特征提取,得到基准音素,其中,该基准音素中包括基准文本包含的各个基准音素分别对应的音素特征表示。可选地,电子设备采用预训练的音素特征提取网络,对基准文本包含的音素进行特征提取,得到音素特征。其中,预训练的音素特征提取网络是指预先训练得到的针对音素的特征提取网络。当然,基准音素也可以由人工直接辨认获取,本发明实施例对此不做限定。
S24、基于学习者的发音数据以及基准测听数据,构建学习者的第一音素混淆矩阵。
一种可行的实施方式中,该步骤S24可以具体包括以下步骤S241-S242:
S241、将发音音频的原始音素与基准音素按照位置一一对应,统计同一基准音素对应的多个原始音素的种类以及每种原始音素出现的次数。
举例来说,假设学习者阅读一段英文文本,按顺序提取学习者的发音音频中的各原始音素,并且,按顺序提取该英文文本(即基准文本)中的各基准音素,按照顺序将各原始音素与各基准音素进行一一对应,统计得到英文文本中包括A、B、C三种基准音素,而学习者的发音音频中包括a、b、c、d、e五种原始音素,并且,统计基准音素A对应原始音素a的次数、基准音素A对应原始音素b的次数、基准音素A对应原始音素c的次数、基准音素A对应原始音素d的次数、基准音素A对应原始音素e的次数、、基准音素B对应原始音素a的次数、基准音素B对应原始音素b的次数、……、基准音素C对应原始音素a的次数、基准音素C对应原始音素b的次数、……、基准音素C对应原始音素e的次数。
S242、将原始音素的种类作为横向变量,将基准音素的种类作为纵向变量,基于多种基准音素对应的原始音素的种类以及出现的次数,构建二维的第一音素混淆矩阵。
依旧以上述S241中的例子进行举例说明,分别计算各基准音素对应各原始音素的概率,计算的方式可以是,计算基准音素A对应原始音素a的概率=基准音素A对应原始音素a的次数÷基准音素A对应所有原始音素的次数。
最后,基于各基准音素对应各原始音素的概率构建二维的第一音素混淆矩阵,可以参照下述表1。
表1
a | b | c | d | e | sum | |
A | 67% | 0% | 17% | 17% | 0% | 100% |
B | 20% | 20% | 20% | 20% | 20% | 100% |
C | 0% | 0% | 100% | 0% | 0% | 100% |
S25、根据学习者的第一音素混淆矩阵,计算基准音素的熵。
其中,在信息论中,Shannon(1948)指出任何信息都存在冗余,信息冗余大小与信息中每个符号(数字、字母或单词)的出现概率或不确定性有关。通常,一个信源发送出什么符号是不确定的,衡量它可以根据其出现的概率,概率越大,出现机会越多,不确定性越小;反之不确定性就越大。在信源中,考虑的不是某一单个符号发生的不确定性,而是要考虑该信源所有可能发生情况的平均不确定性。假设信源符号有n种取值:u1…ui…un,对应概率为:p1…pi…pn,且各种符号的出现彼此独立,这时,信源的平均不确定性应当为单个符号不确定性-logpi的统计平均值,称为信息熵,即为本发明实施例中的熵。
一种可行的实施方式中,学习者可能将基准音素产出为哪一种语音类型具有不确定性,每种语音类型下的概率分布也不确定。举例来说,假设学习者在每个基准音素z上可能存在n种语音类型(即原始音素),分别为x1,x2…xi,…,xn,对应的概率分别为p1,p2…,pi,…,pn,根据学习者的第一音素混淆矩阵,采用下述公式(1),计算基准音素的熵:
其中,H(z)表示基准音素z的熵,n表示基准音素z对应的原始音素的种类数,i表示基准音素z对应的第i个原始音素,pi表示第i个原始音素对应的概率,n、p由学习者的第一音素混淆矩阵中获取。
以上述S242中的例子进行举例说明,根据公式(1),分别得到音素A、B、C的熵为:
H(A)=-[67%×log267%+17%×log217%+17%×log217%]≈1.25;
H(B)=-[20%×log220%+20%×log220%+20%×log220%+20%×log220%+20%×log220%]≈2.32;
H(C)=-100%×log2100%=0。
S26、根据基准音素的熵,确定学习者的发音的不确定性。
一种可行的实施方式中,当发音人产出的音素的分散度越高,熵越大,音素的不确定性就越大。
本发明将熵的计算方法引入到第二语言语音习得研究中,为二语学习者发音教学及计算机辅助发音评测提供了新的研究视角。该计算方法以学习者产出音素的混淆矩阵为基础,对学习者发音的不确定性进行量化,并且可以实现对不同音素发音的不确定性进行单一向量的对比研究。该评价指标为学习者产出的“洋腔洋调”的发音给听者造成的感知负担从客观层面提供了量化研究的可能性,即学习者产出的音素的熵值越大,说明该音素的错误的种类越多、错误分布越均衡,听音人越难以判断该发音应该是什么音。
相对于传统使用正确率或错误率的指标,熵这一指标可以进一步解释学习者音素发音的分布情况,如当两个A、B两音素的正确率同样为50%,A只有一种错误类型,对应概率为50%,B有两种错误类型,对应概率为20%和30%,根据熵的计算方法可以得到A、B的熵分别为1和1.5。单纯从正确率指标来评价,两音素的习得效果是相同的,使用熵这一指标可以看大错误种类越多、错误越分散的音的熵越大,该音素的不确定性也越高。
通过熵这一评价指标可以对二语学习者发音的不确定进行评估,这一指标也可以用于计算机辅助发音评测技术,在目前得到的“目标发音错发成什么”的混淆矩阵结果的基础上,通过使用熵这一计算方法,对发音的不确定性进行评估,可以进一步揭示学习者的发音偏误底层的分布规律。
本发明实施例提供了一种基于计算条件熵的确定学习者发音的不确定性的方法,该方法可以由电子设备实现,该电子设备可以是终端或服务器。如图3所示的基于计算条件熵的确定学习者发音的不确定性的方法流程图,该方法的处理流程可以包括如下的步骤:
S31、获取学习者的发音音频。
一种可行的实施方式中,具体处理方式可以参照上述步骤S21的处理方式,此处不做赘述。
S32、确定发音音频中的原始音素以及原始音素的位置。
一种可行的实施方式中,具体处理方式可以参照上述步骤S22的处理方式,此处不做赘述。
S33、基于学习者的发音音频,确定发音音频中的基准音素以及基准音素的位置。
一种可行的实施方式中,具体处理方式可以参照上述步骤S23的处理方式,此处不做赘述。
S34、基于学习者的发音数据以及基准测听数据,构建学习者的第二音素混淆矩阵。
一种可行的实施方式中,该步骤S34可以具体包括以下步骤S341-S343:
S341、将发音音频的原始音素与基准音素按照对应位置一一进行比较,统计同一基准音素对应的多个原始音素的种类以及每种原始音素出现的次数。
一种可行的实施方式中,举例来说,假设学习者阅读一段英文文本,按顺序提取学习者的发音音频中的各原始音素,并且,按顺序提取该英文文本(即基准文本)中的各基准音素,按照顺序将各原始音素与各基准音素进行一一对应,统计得到英文文本中包括A、B、C三种基准音素,而学习者的发音音频中包括r以及l两种原始音素,则统计基准音素A对应原始音素r的次数,基准音素A对应原始音素l的次数,基准音素B对应原始音素r的次数,基准音素B对应原始音素l的次数,基准音素C对应原始音素r的次数,基准音素C对应原始音素l的次数。
S342、对同一基准音素对应的多个原始音素分别进行水平等级评价。
一种可行的实施方式中,将原始音素提取后,可以由专业人员对原始音素的情况进行水平等级评价,也可以采用预先训练好的等级评价网络模型进行评价,本发明实施例对此不做限定。例如,可以将某基准音素对应的所有原始音素分为三个等级,分别为初级、中级以及高级。
S343、将原始音素的种类作为横向变量,将原始音素的水平等级作为纵向变量,基于不同水平等级对应的原始音素的种类以及出现的次数,构建多个二维的第二音素混淆矩阵。
一种可行的实施方式中,统计不同原始音素分别对应不同等级的次数,举例来说,统计原始音素r对应初级的次数、原始音素r对应中级的次数、原始音素r对应高级的次数、原始音素l对应初级的次数、原始音素l对应中级的次数、原始音素l对应高级的次数,基于上述统计数据构建一种基准音素的二维的第二音素混淆矩阵,每种基准音素对应一个第二音素混淆矩阵,可以参考下述表2。
表2
S35、根据学习者的第二音素混淆矩阵,计算基准音素的条件熵。
一种可行的实施方式中,学习者可能将基准音素产出为哪一种语音类型具有不确定性,每种语音类型下的概率分布也不确定。举例来说,假设学习者在每个基准音素z上可能存在n种语音类型(即原始音素),分别为x1,x2…xi,…,xn,对应的概率分别为p1,p2…,pi,…,pn,根据学习者的第二音素混淆矩阵,采用下述公式(2),计算基准音素的条件熵:
其中,Hρ(z)表示基准音素z的条件熵,i表示基准音素z的第i种原始音素,表示基准音素z对应的原始音素的种类数,j表示处于第j个水平等级,y表示水平等级的总个数,p(i,j)表示第i个原始音素处于第j等级时的概率,p(i|j)表示在处于第j等级下第i个原始音素的概率,p(i,j)以及p(i|j)均由第二音素混淆矩阵中的数据计算得到。
以S34中举的例子为例继续进行说明,基准音素A对应上述表2中的6个样本,则基准音素A、B、C对应18个样本,基于以上的18个样本,横向变量x(即原始音素)有两种状态,概率均值为0.5;纵向变量y(即水平等级)有三种状态,概率为0.33。通过朴素贝叶斯公式对条件概率进行计算:
p(x=0|y=0)=p(x=0,y=0)/p(y=0)=(1/18)/(6/18)=1/6
p(x=0|y=1)=p(x=0,y=1)/p(y=1)=(5/18)/(6/18)=5/6
p(x=0|y=2)=p(x=0,y=2)/p(y=2)=(3/18)/(6/18)=3/6
p(x=1|y=0)=p(x=1,y=0)/p(y=0)=(5/18)/(6/18)=5/6
p(x=1|y=1)=p(x=1,y=1)/p(y=1)=(1/18)/(6/18)=1/6
p(x=1|y=2)=p(x=1,y=2)/p(y=2)=(3/18)/(6/18)=3/6
根据上述公式(2)进行计算,则条件熵的计算结果为:
H(x|y)=-[(1/18)×log(1/6)+(5/18)×log(5/6)+(3/18)×log(3/6)+(5/18)×log(5/6)+(1/18)×log(1/6)+(3/18)×log(3/6)]=0.77
S36、根据基准音素的条件熵,确定学习者的发音的不确定性。
一种可行的实施方式中,当发音人产出的音素的分散度越高,条件熵越大,音素的不确定性就越大。
本发明实施例中,该计算方法以学习者产出音素的混淆矩阵为基础,可以对学习者发音的不确定性进行量化,并且对不同音素发音的不确定性进行单一向量的对比研究。同时,从发展的角度可以对学习者音素范畴的构建及重组的过程进行一定程度的解释。
图4是根据一示例性实施例示出的一种确定学习者发音的不确定性的装置框图。参照图4,该装置包括:
第一获取模块410,用于获取学习者的发音数据;
第二获取模块420,用于基于所述学习者的发音数据,获取基准测听数据;
确定模块430,用于基于所述学习者的发音数据以及所述基准测听数据,构建所述学习者的音素混淆矩阵,根据所述学习者的音素混淆矩阵,确定所述学习者的发音的不确定性。
可选地,所述第一获取模块410,用于:
获取学习者的发音音频;
确定所述发音音频中的原始音素以及原始音素的位置。
可选地,所述第二获取模块420,用于:
基于所述学习者的发音音频,确定所述发音音频中的基准音素以及基准音素的位置。
可选地,所述确定模块430,用于:
基于所述学习者的发音数据以及所述基准测听数据,构建所述学习者的第一音素混淆矩阵,根据所述学习者的第一音素混淆矩阵,计算基准音素的熵,根据所述基准音素的熵,确定所述学习者的发音的不确定性;或者,
基于所述学习者的发音数据以及所述基准测听数据,构建所述学习者的第二音素混淆矩阵,根据所述学习者的第二音素混淆矩阵,计算基准音素的条件熵,根据所述基准音素的条件熵,确定所述学习者的发音的不确定性。
可选地,所述确定模块430,用于:
将所述发音音频的原始音素与基准音素按照对应位置一一进行比较,统计同一基准音素对应的多个原始音素的种类以及每种原始音素出现的次数;
将原始音素的种类作为横向变量,将基准音素的种类作为纵向变量,基于多种基准音素对应的原始音素的种类以及出现的次数,构建二维的第一音素混淆矩阵。
可选地,所述确定模块430,用于:
根据所述学习者的第一音素混淆矩阵,采用下述公式(1),计算基准音素的熵:
其中,H(z)表示基准音素z的熵,n表示基准音素z对应的原始音素的种类数,i表示基准音素z对应的第i个原始音素,pi表示第i个原始音素对应的概率,所述n、pi由所述学习者的第一音素混淆矩阵中获取。
可选地,所述确定模块430,用于:
将所述发音音频的原始音素与基准音素按照对应位置一一进行比较,统计同一基准音素对应的多个原始音素的种类以及每种原始音素出现的次数;
对同一基准音素对应的多个原始音素分别进行水平等级评价;
将原始音素的种类作为横向变量,将原始音素的水平等级作为纵向变量,基于不同水平等级对应的原始音素的种类以及出现的次数,构建多个二维的第二音素混淆矩阵。
可选地,所述确定模块430,用于:
根据所述学习者的第二音素混淆矩阵,采用下述公式(2),计算基准音素的条件熵:
其中,H′(z)表示基准音素z的条件熵,i表示基准音素z的第i种原始音素,表示基准音素z对应的原始音素的种类数,j表示处于第j个水平等级,y表示水平等级的总个数,p(i,j)表示第i个原始音素处于第j等级时的概率,p(i|j)表示在处于第j等级下第i个原始音素的概率,p(i,j)以及p(i|j)均由第二音素混淆矩阵中的数据计算得到。
本发明实施例中,该计算方法以学习者产出音素的混淆矩阵为基础,可以对学习者发音的不确定性进行量化,并且对不同音素发音的不确定性进行单一向量的对比研究。同时,从发展的角度可以对学习者音素范畴的构建及重组的过程进行一定程度的解释。
图5是本发明实施例提供的一种电子设备500的结构示意图,该电子设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessing units,CPU)501和一个或一个以上的存储器502,其中,存储器502中存储有至少一条指令,至少一条指令由处理器501加载并执行以实现上述确定学习者发音的不确定性的方法的步骤。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括指令的存储器,上述指令可由终端中的处理器执行以完成上述确定学习者发音的不确定性的方法。例如,计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种确定学习者发音的不确定性的方法,其特征在于,所述方法包括:
获取学习者的发音数据;
基于所述学习者的发音数据,获取基准测听数据;
基于所述学习者的发音数据以及所述基准测听数据,构建所述学习者的音素混淆矩阵,根据所述学习者的音素混淆矩阵,确定所述学习者的发音的不确定性;
其中,所述基于所述学习者的发音数据以及所述基准测听数据,构建所述学习者的音素混淆矩阵,根据所述学习者的音素混淆矩阵,确定所述学习者的发音的不确定性,包括:
基于所述学习者的发音数据以及所述基准测听数据,构建所述学习者的第一音素混淆矩阵,根据所述学习者的第一音素混淆矩阵,计算基准音素的熵,根据所述基准音素的熵,确定所述学习者的发音的不确定性;或者,
基于所述学习者的发音数据以及所述基准测听数据,构建所述学习者的第二音素混淆矩阵,根据所述学习者的第二音素混淆矩阵,计算基准音素的条件熵,根据所述基准音素的条件熵,确定所述学习者的发音的不确定性;
其中,所述基于所述学习者的发音数据以及所述基准测听数据,构建所述学习者的第二音素混淆矩阵,包括:
将发音音频的原始音素与基准音素按照对应位置一一进行比较,统计同一基准音素对应的多个原始音素的种类以及每种原始音素出现的次数;
对同一基准音素对应的多个原始音素分别进行水平等级评价;
将原始音素的种类作为横向变量,将原始音素的水平等级作为纵向变量,基于不同水平等级对应的原始音素的种类以及出现的次数,构建多个二维的第二音素混淆矩阵。
2.根据权利要求1所述的方法,其特征在于,所述获取学习者的发音数据,包括:
获取学习者的发音音频;
确定所述发音音频中的原始音素以及原始音素的位置。
3.根据权利要求2所述的方法,其特征在于,所述基于所述学习者的发音数据,获取基准测听数据,包括:
基于所述学习者的发音音频,确定所述发音音频中的基准音素以及基准音素的位置。
4.根据权利要求1所述的方法,其特征在于,所述基于所述学习者的发音数据以及所述基准测听数据,构建所述学习者的第一音素混淆矩阵,包括:
将所述发音音频的原始音素与基准音素按照对应位置一一进行比较,统计同一基准音素对应的多个原始音素的种类以及每种原始音素出现的次数;
将原始音素的种类作为横向变量,将基准音素的种类作为纵向变量,基于多种基准音素对应的原始音素的种类以及出现的次数,构建二维的第一音素混淆矩阵。
7.一种确定学习者发音的不确定性的装置,其特征在于,所述确定学习者发音的不确定性的装置用于实现确定学习者发音的不确定性的方法,所述装置包括:
第一获取模块,用于获取学习者的发音数据;
第二获取模块,用于基于所述学习者的发音数据,获取基准测听数据;
确定模块,用于基于所述学习者的发音数据以及所述基准测听数据,构建所述学习者的音素混淆矩阵,根据所述学习者的音素混淆矩阵,确定所述学习者的发音的不确定性;
其中,所述确定模块,用于:
基于所述学习者的发音数据以及所述基准测听数据,构建所述学习者的第一音素混淆矩阵,根据所述学习者的第一音素混淆矩阵,计算基准音素的熵,根据所述基准音素的熵,确定所述学习者的发音的不确定性;或者,
基于所述学习者的发音数据以及所述基准测听数据,构建所述学习者的第二音素混淆矩阵,根据所述学习者的第二音素混淆矩阵,计算基准音素的条件熵,根据所述基准音素的条件熵,确定所述学习者的发音的不确定性;
其中,所述确定模块,用于:
将发音音频的原始音素与基准音素按照对应位置一一进行比较,统计同一基准音素对应的多个原始音素的种类以及每种原始音素出现的次数;
对同一基准音素对应的多个原始音素分别进行水平等级评价;
将原始音素的种类作为横向变量,将原始音素的水平等级作为纵向变量,基于不同水平等级对应的原始音素的种类以及出现的次数,构建多个二维的第二音素混淆矩阵。
8.根据权利要求7所述的装置,其特征在于,所述第一获取模块,用于:
获取学习者的发音音频;
确定所述发音音频中的原始音素以及原始音素的位置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210535600.2A CN115083437B (zh) | 2022-05-17 | 2022-05-17 | 一种确定学习者发音的不确定性的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210535600.2A CN115083437B (zh) | 2022-05-17 | 2022-05-17 | 一种确定学习者发音的不确定性的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115083437A CN115083437A (zh) | 2022-09-20 |
CN115083437B true CN115083437B (zh) | 2023-04-07 |
Family
ID=83247729
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210535600.2A Active CN115083437B (zh) | 2022-05-17 | 2022-05-17 | 一种确定学习者发音的不确定性的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115083437B (zh) |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8019602B2 (en) * | 2004-01-20 | 2011-09-13 | Microsoft Corporation | Automatic speech recognition learning using user corrections |
EP1975923B1 (en) * | 2007-03-28 | 2016-04-27 | Nuance Communications, Inc. | Multilingual non-native speech recognition |
US8880399B2 (en) * | 2010-09-27 | 2014-11-04 | Rosetta Stone, Ltd. | Utterance verification and pronunciation scoring by lattice transduction |
CN108399914B (zh) * | 2017-02-06 | 2021-06-22 | 北京搜狗科技发展有限公司 | 一种语音识别的方法和装置 |
CN111951825A (zh) * | 2019-05-16 | 2020-11-17 | 上海流利说信息技术有限公司 | 一种发音测评方法、介质、装置和计算设备 |
CN110085261B (zh) * | 2019-05-16 | 2021-08-24 | 上海流利说信息技术有限公司 | 一种发音纠正方法、装置、设备以及计算机可读存储介质 |
CN110797049B (zh) * | 2019-10-17 | 2022-06-07 | 科大讯飞股份有限公司 | 一种语音评测方法及相关装置 |
CN113744718A (zh) * | 2020-05-27 | 2021-12-03 | 海尔优家智能科技(北京)有限公司 | 语音文本的输出方法及装置、存储介质、电子装置 |
CN113936642A (zh) * | 2021-10-20 | 2022-01-14 | 科大讯飞股份有限公司 | 发音词典构建方法、语音识别方法及相关装置 |
-
2022
- 2022-05-17 CN CN202210535600.2A patent/CN115083437B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN115083437A (zh) | 2022-09-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110998716B (zh) | 经由教师-学生学习在话音识别中进行的域自适应 | |
CN110782921B (zh) | 语音测评方法和装置、存储介质及电子装置 | |
US6836760B1 (en) | Use of semantic inference and context-free grammar with speech recognition system | |
US9058811B2 (en) | Speech synthesis with fuzzy heteronym prediction using decision trees | |
EP1447792B1 (en) | Method and apparatus for modeling a speech recognition system and for predicting word error rates from text | |
KR102101044B1 (ko) | 텍스트 투 스피치 및 시맨틱스에 기초한 오디오 인적 상호 증명 기법 | |
CN108766415B (zh) | 一种语音测评方法 | |
JP2011242775A (ja) | 音声認識エラー予測値としての文法適合度評価のための方法およびシステム | |
CN110991195B (zh) | 机器翻译模型训练方法、装置及存储介质 | |
CN110782918B (zh) | 一种基于人工智能的语音韵律评估方法及装置 | |
CN111653274B (zh) | 唤醒词识别的方法、装置及存储介质 | |
CN111681143A (zh) | 基于课堂语音的多维度分析方法、装置、设备及存储介质 | |
CN113314100A (zh) | 口语测试的评估、结果显示方法、装置、设备及存储介质 | |
JP6810580B2 (ja) | 言語モデル学習装置およびそのプログラム | |
CN115083437B (zh) | 一种确定学习者发音的不确定性的方法及装置 | |
Shufang | Design of an automatic english pronunciation error correction system based on radio magnetic pronunciation recording devices | |
JPH1195795A (ja) | 音声品質評価方法および記録媒体 | |
Zheng | [Retracted] An Analysis and Research on Chinese College Students’ Psychological Barriers in Oral English Output from a Cross‐Cultural Perspective | |
CN115116443A (zh) | 语音识别模型的训练方法、装置、电子设备及存储介质 | |
Suriyasat et al. | A Comparison of Machine Learning and Neural Network Algorithms for an Automated Thai Essay Scoring | |
WO2018169772A2 (en) | Quality feedback on user-recorded keywords for automatic speech recognition systems | |
Fadhilah | Fuzzy petri nets as a classification method for automatic speech intelligibility detection of children with speech impairments/Fadhilah Rosdi | |
Mamedov et al. | Exploring Deep Learning Approaches to Cleft Lip and Palate Speech | |
Cai et al. | Research on English speaking assessment algorithms based on deep learning | |
Johnson et al. | An Analysis of Large Language Models for African American English Speaking Children’s Oral Language Assessment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |