CN110503941A - 语言能力评测方法、装置、系统、计算机设备及存储介质 - Google Patents
语言能力评测方法、装置、系统、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN110503941A CN110503941A CN201910775324.5A CN201910775324A CN110503941A CN 110503941 A CN110503941 A CN 110503941A CN 201910775324 A CN201910775324 A CN 201910775324A CN 110503941 A CN110503941 A CN 110503941A
- Authority
- CN
- China
- Prior art keywords
- audio file
- word
- accuracy rate
- pronunciation
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000001514 detection method Methods 0.000 claims abstract description 23
- 238000005194 fractionation Methods 0.000 claims abstract description 14
- 230000036651 mood Effects 0.000 claims description 16
- 238000012360 testing method Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 9
- 230000002996 emotional effect Effects 0.000 claims description 7
- 230000008451 emotion Effects 0.000 claims description 5
- 238000007689 inspection Methods 0.000 claims 2
- 238000013518 transcription Methods 0.000 abstract description 16
- 230000035897 transcription Effects 0.000 abstract description 16
- 238000012549 training Methods 0.000 abstract description 6
- 238000011156 evaluation Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000001427 coherent effect Effects 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 241000209140 Triticum Species 0.000 description 1
- 235000021307 Triticum Nutrition 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 229910002056 binary alloy Inorganic materials 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003999 initiator Substances 0.000 description 1
- 230000002045 lasting effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/11—File system administration, e.g. details of archiving or snapshots
- G06F16/116—Details of conversion of file system types or formats
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种语言能力评测方法、装置、系统、计算机设备及存储介质,其中方法包括:采集用户在练习目标语言的声音数据,得到第一音频文件和第二音频文件,其中,第一音频文件和第二音频文件为完全相同的音频文件;按照声音数据的语音顺序将第一音频文件转换成对应单词顺序的语音文本;结合语音文本对第二音频文件进行单词拆分,并对每个单词分别进行发音检测,得到每个单词的发音准确率;基于每个单词的发音准确率计算声音数据的发音准确率。本发明由于音频文件按顺序转写成文本文件,没有对语音识别结果进行修正,可以还原用户的原始声音数据,从而避免了真实数据存在失真和偏差的问题,完全适用于教育和培训等语言练习的应用场景。
Description
技术领域
本发明涉及教育领域,具体涉及一种语言能力评测方法、装置、系统、计算机设备及存储介质。
背景技术
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。
目前软件中评测语言能力,主要会用到基本的语音识别、语义理解等接口进行调用;通过实时分析,或者整段话的信息采集分析用户的语言能力与沟通能力,最终展示给用户直观的为原始数据(即分析结果而非有效信息或数据)。
语音识别技术,也被称为自动语音识别(Automatic Speech Recognition,简称为ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。
例如,美国公开专利US6173259B1中,公开了一种现有语音识别技术方案,通过对语音数据的收集、修正,输出结果,实现将语音转化成文本的形式,通过该技术可实现部分的语音修正功能,即用户转写后的语音需要连贯并且符合逻辑;然而,在一些实际的应用场景中,例如教育和培训领域,需要对用户的真实表现做到精准地分析,而现有技术中,语音转写时参考了数据库中大量数据,为了让用户最终转写后的结果是流畅通顺的,该技术做了语音结果修正,在一定程度上,结果并非是用户真实情况数据,与真实数据存在较大的失真与偏差。
发明内容
本发明要解决现有技术中由于语音撰写时参考了数据库大量数据以修正语音结果,导致撰写出的文本数据与真实情况数据存在较大的失真和偏差的问题,从而提供一种语言能力评测方法、装置、系统、计算机设备及存储介质。
本发明的一方面,提供了一种语言能力评测方法,包括:采集用户在练习目标语言的声音数据,得到第一音频文件和第二音频文件,其中,所述第一音频文件和所述第二音频文件为完全相同的音频文件;按照所述声音数据的语音顺序将所述第一音频文件转换成对应单词顺序的语音文本;结合所述语音文本对所述第二音频文件进行单词拆分,并对每个单词分别进行发音检测,得到每个单词的发音准确率;基于每个单词的发音准确率计算所述声音数据的发音准确率。
可选地,对每个单词分别进行发音检测,得到每个单词的发音准确率,包括:逐一标记所述第二音频文件中每个单词所在的音频区间;将每个单词拆分为多个语音片段,每个语音片段对应一个单音节;调用单音节评测接口,对每个单音节进行发音检测,识别出对应单词在当前发音情景下的发音准确率。
可选地,基于每个单词的发音准确率计算所述声音数据的发音准确率,包括:计算所有单词的平均发音准确率和平均音节准确率,其中,所述平均音节准确率为单词中每个音节的准确率的平均值;获取所述平均发音准确率的权重和所述平均音节准确率的权重;对所述平均发音准确率和所述平均音节准确率加权求和,得到所述声音数据的发音准确率。
可选地,在采集用户在练习目标语言的声音数据,得到第一音频文件和第二音频文件之后,还包括:利用所述第二音频文件检测所述用户的语速数据;和/或,利用所述第二音频文件检测所述用户的情绪数据。
可选地,利用所述第二音频文件检测所述用户的语速数据,包括:将所述第二音频文件与第一参考音频文件进行匹配,所述第一参考音频文件为用户练习文本对应的标准音频文件;统计所述第二音频文件中用户语速数据,所述语速数据包括:语速、停顿次数及连接单词词组。
可选地,利用所述第二音频文件检测所述用户的情绪数据,包括:将所述第二音频文件与第二参考音频文件进行匹配,逐句判断所述第二音频文件中每一句音频是否达到所述第二参考音频文件中对应的语句音频的情绪状态,其中,所述第二参考音频文件为预先选取的用户练习文本对应的具有最佳情绪表达的音频文件。
本发明的另一方面,提供了一种语言能力评测装置,包括:采集模块,用于采集用户在练习目标语言的声音数据,得到第一音频文件和第二音频文件,其中,所述第一音频文件和所述第二音频文件为完全相同的音频文件;识别模块,用于按照所述声音数据的语音顺序将所述第一音频文件转换成对应单词顺序的语音文本;拆分模块,用于结合所述语音文本对所述第二音频文件进行单词拆分,并对每个单词分别进行发音检测,得到每个单词的发音准确率;计算模块,用于基于每个单词的发音准确率计算所述声音数据的发音准确率。
本发明的另一方面,提供了一种语言能力评测系统,包括:终端设备,其上设置有麦克风用于采集用户在练习目标语言的声音数据,得到第一音频文件和第二音频文件,其中,所述第一音频文件和所述第二音频文件为完全相同的音频文件;语音识别服务器,用于按照所述声音数据的语音顺序将所述第一音频文件转换成对应单词顺序的语音文本;云端服务器,用于所述终端设备上传的所述语音文本和所述第二音频文件,结合所述语音文本对所述第二音频文件进行单词拆分,并对每个单词分别进行发音检测,得到每个单词的发音准确率;并基于每个单词的发音准确率计算所述声音数据的发音准确率。
本发明的另一方面,提供了一种计算机设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述方法的步骤。
本发明的另一方面,提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现所述方法的步骤。
根据本发明实施例,通过采集两份相同的音频文件,其中一份音频文件按照语音顺序转写成对应的文本文件,用以作为参考,对另一份音频文件进行单词拆分,然后进行单词的发音准确率检测,最终得到整个声音文件的评测结果。由于音频文件按顺序转写成文本文件,没有对语音识别结果进行修正,可以还原用户的原始声音数据,从而避免了真实数据存在失真和偏差的问题,完全适用于教育和培训等语言练习的应用场景。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中语言能力评测方法的流程图;
图2为本发明实施例中语言能力评测装置的示意图;
图3为本发明实施例中一种可选的语言能力评测系统的示意图;
图4为本发明实施例计算机设备的硬件结构示意图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
本发明实施例提供了一种语言能力评测方法,该方法适用于教育和培训领域,用于对用户在练习和学习语音时,进行评测。如图1所示,该方法包括:
步骤S101,采集用户在练习目标语言的声音数据,得到第一音频文件和第二音频文件,其中,所述第一音频文件和所述第二音频文件为完全相同的音频文件。
声音数据的采集可以通过终端设备上的麦克风(单个或者阵列)来采集,确定音频采用格式(如8k,16k)16bit的数据采样位深进行采集。可以根据用户练习的具体场景。例如,当用户练习阅读一篇文章时,麦克风直接开启状态进行收音。当于终端设备上的虚拟角色对话的场景时,麦克风的打开与关闭取决于用户当下状态:如果此刻是虚拟角色讲话(则用户麦克风权限为关闭状态,不收音);如果切换到了用户需要开始讲话的环节(则用户麦克风权限为开启状态,开始收音)。收音即开始对用户的声音开始做记录。
当麦克风为开启状态时,用户的声音数据开始记录成固定位深的音频数据,在此过程中会同时有两份音频文件,即第一音频文件和第二音频文件,二者完全一致,可以是两个完全相同的录音设备开始录音得到的音频文件。本发明实施例中目标语言可以是英语、法语、西班牙语等语言,本发明不做限定。
步骤S102,按照所述声音数据的语音顺序将所述第一音频文件转换成对应单词顺序的语音文本。
本发明实施例中,可以是在生成第一音频文件之后,按照语音数据的语音顺序将第一音频文件转换成语音文本,也可以是实时调用语音识别接口,即时对用户的语音数据进行转写成语音文本,使得语音文本中的单词顺序与语音顺序完全一致。
音频转写成语音文本可以是通过语音识别服务器来实现,具体可以是终端设备持续调用第三方语音转写API(该API已部署在语音识别服务器,用类似Docker方式实现),并实时获得实时语音转写后的文本数据,该文本会持续的做修正或调整(现有技术方案),并将一定程度展示给用户,辅助用户了解到目前练习的进展,以及获得声音上的实时反馈。确认音频采样格式(如8k,16k)16bit的数据采样位深。
可选地,本发明实施例中,练习情景下,用户在持续的根据提示或者脚本在发出声音数据,此时将有一个判定,确认用户是否完成了对话练习;主要逻辑是判定用户当下的声音是否还能转写成语音文本,以及此时的分贝比例是否低于用户正常说话的分贝量大小,在用户停止说话的预设时间后(例如1.5s,可以根据实际场景可作为可调参数),麦克风关闭,判定用户已经结束对话,音频收集的过程结束,此时生成一整段的音频文件,也即是第二音频文件,本地保存;对话结束时,根据实时语音转写得到的结果,亦得到一份完整的语音文本,本地记录并保存。
步骤S103,结合所述语音文本对所述第二音频文件进行单词拆分,并对每个单词分别进行发音检测,得到每个单词的发音准确率。
通过转写的语音文本作为参照,对第二音频文件进行单词拆分。例如,语音文本中有300个单词,在进行拆分时,按照单词的顺序依次确定每个单词在第二音频文件中的发音相应数量的音频段。然后对每个单词进行发音检测,计算出每个单词的发音准确率。
步骤S104,基于每个单词的发音准确率计算所述声音数据的发音准确率。
上述步骤S103和S104可以由云端服务器来执行。利用每个单词的发音准确率计算整个声音数据的发音准确率,具体可以是计算单词的发音准确率的平均值作为整个声音数据的发音准确率,也可以是利用词的发音准确率的平均值和单词中单音节的发音准确率的平均值来计算整个声音数据的发音准确率。
本发明实施例中,云端服务器在检测出发音准确率之后,向终端设备反馈检测结果,该检测结果中可以包括整体的发音准确率、具体单词的发音检测结果、以及正确的发音音频文件,用以告知用户哪个单词或者哪个音节发音出了问题,以及正确发音怎么读等详细信息。
根据本发明实施例,通过采集两份相同的音频文件,其中一份音频文件按照语音顺序转写成对应的文本文件,用以作为参考,对另一份音频文件进行单词拆分,然后进行单词的发音准确率检测,最终得到整个声音文件的评测结果。由于音频文件按顺序转写成文本文件,没有对语音识别结果进行修正,可以还原用户的原始声音数据,从而避免了真实数据存在失真和偏差的问题,完全适用于教育和培训等语言练习的应用场景。
作为本发明实施例的一种可选实施方式,上述步骤S103中,对每个单词分别进行发音检测,得到每个单词的发音准确率,具体可以包括:
S1031,逐一标记所述第二音频文件中每个单词所在的音频区间。
具体地,在拆分成单词之后,从音频文件确定出每个单词的起始发音时刻和终止发音时刻,构成该读单词的音频区间(比如第1.2342秒至1.9872秒),以此方式逐一开始标记第二音频文件中每个单词的音频区间。
S1032,将每个单词拆分为多个语音片段,每个语音片段对应一个单音节。
S1033,调用单音节评测接口,对每个单音节进行发音检测,识别出对应单词在当前发音情景下的发音准确率。单音节评测接口为相应的单音节发音检测模块设置的接口,该模块用于对单音节进行发音检测,通过每个单音节的发音检测结果,确定出该单词的发音准确率。具体地,可以检测得到的发音正确的单音节数量占单词的总单音节数量的比值,作为该单词的发音准确率;也可以是计算单词中每个单音节的发音准确率,然后进行加权求和得到该单词的发音准确率。
本发明实施例中,通过检测每个单词中单音节的发音,来确定出单词的发音准确率,可以精确地定位用户在单词发音中的问题所在,通过将每个单音节的检测结果反馈给用户,用以纠正用户的发音,能够起到自助学习的作用。
作为本发明实施例的一种可选实施方式,上述步骤S104,基于每个单词的发音准确率计算所述声音数据的发音准确率可以包括:计算所有单词的平均发音准确率和平均音节准确率,其中,所述平均音节准确率为单词中每个音节的准确率的平均值;获取所述平均发音准确率的权重和所述平均音节准确率的权重;对所述平均发音准确率和所述平均音节准确率加权求和,得到所述声音数据的发音准确率。
整体发音准确率Z通过加权求和得到,其中计算公式如下:
Z=A*m/(m+n)+B*n/(m+n)
其中,A表示平均发音准确率,B表示平均音节准确率,平均发音准确率与平均音节准确率的比例m:n。
本发明实施例中,云端服务器还可以用于检测第二音频文件的语速数据和情绪数据。具体地,在采集用户在练习目标语言的声音数据,得到第一音频文件和第二音频文件之后,还包括:利用所述第二音频文件检测所述用户的语速数据;和/或,利用所述第二音频文件检测所述用户的情绪数据。
对于语速数据和情绪数据的检测,可以根据需要进行选择。其中,语速数据用以体现用户在讲目标语言时的流利程度,情绪数据则可以体现用户在讲目标语音时候的情绪表达准确性。通过对语速数据或者情绪数据进行检测,可以练习和纠正用户在讲目标语言的时候的语速,以及语言表达的情绪。
具体地,利用所述第二音频文件检测所述用户的语速数据,包括:将所述第二音频文件与第一参考音频文件进行匹配,所述第一参考音频文件为用户练习文本对应的标准音频文件;统计所述第二音频文件中用户语速数据,所述语速数据包括:语速、停顿次数及连接单词词组。
将第二音频文件与第一参考音频文件进行匹配,第一参考音频文件可以是选择具有最佳语速的标准音频文件,通过匹配对比第二音频文件与第一参考音频文件的语速快慢,停顿次数,以及连接单词词组等,可以得到用户发出的该第二音频文件的语速数据。具体的,将音频文件与参照数据(最佳数据,与该课程其他用户数据)做匹配参照,最终用户该段语速流利度的数据将生成包括以下参数:整体语速快慢(用户念了多少个单词每分钟)、停顿次数、连接单词词组(比如Mm,and,well,so等多个连词)等多项数据。
本发明实施例中,通过将用户发出的音频文件与参考音频文件进行匹配比对,确定出用户的语速相对于参考音频文件的语速数据,然后反馈给用户,供用户进行纠正和训练使用。
另一方面,利用所述第二音频文件检测所述用户的情绪数据,包括:将所述第二音频文件与第二参考音频文件进行匹配,逐句判断所述第二音频文件中每一句音频是否达到所述第二参考音频文件中对应的语句音频的情绪状态,其中,所述第二参考音频文件为预先选取的用户练习文本对应的具有最佳情绪表达的音频文件。
将第二音频文件与第二参考音频文件进行匹配,以判断每句音频是否达到相应的情绪状态。其中,第二音频参考数据可以是选取的具有最佳情绪表达的音频文件。具体地,以参考音频文件作为匹配参照,逐句判断每句话是否达到相应的情绪状态,得到情绪数据。比如一个关于《I have a dream》的固定文稿的公开演讲,可以人为地预设多个最佳案例,同时用户也会各自通过评分选出多个最佳的公开演讲音频作为参考标准;逐句分析用户在该段语音文件中是否达到了该有的情绪状态(情绪状态的识别通过调用部署在云端的第三方服务商接口),例如在演讲的高潮慷慨激昂部分,应该是情绪态度是积极高亢的,而在部分环节应该是低沉的,用户的音频数据将返回精确值展现出:刚刚的哪个部分(哪句话)在情绪抒发上存在问题,并且如何提高(展示出最佳案例中的语句)。
本发明实施例还提供了一种语言能力评测装置,该装置可以用于执行本发明实施例的语言能力评测方法,具体地,如图2所示,该装置包括:
采集模块201,用于采集用户在练习目标语言的声音数据,得到第一音频文件和第二音频文件,其中,所述第一音频文件和所述第二音频文件为完全相同的音频文件。
识别模块202,用于按照所述声音数据的语音顺序将所述第一音频文件转换成对应单词顺序的语音文本。
拆分模块203,用于结合所述语音文本对所述第二音频文件进行单词拆分,并对每个单词分别进行发音检测,得到每个单词的发音准确率。
计算模块204,用于基于每个单词的发音准确率计算所述声音数据的发音准确率。
根据本发明实施例,通过采集两份相同的音频文件,其中一份音频文件按照语音顺序转写成对应的文本文件,用以作为参考,对另一份音频文件进行单词拆分,然后进行单词的发音准确率检测,最终得到整个声音文件的评测结果。由于音频文件按顺序转写成文本文件,没有对语音识别结果进行修正,可以还原用户的原始声音数据,从而避免了真实数据存在失真和偏差的问题,完全适用于教育和培训等语言练习的应用场景。
具体描述参见上述方法实施例,这里不再赘述。
本发明实施例的另一方面,还提供了一种语言能力评测系统,该系统可以用于实现本发明上述实施例的所述的语言能力评测方法,该系统包括:终端设备、语音识别服务器和云端服务器,其中:
终端设备,其上设置有麦克风用于采集用户在练习目标语言的声音数据,得到第一音频文件和第二音频文件,其中,所述第一音频文件和所述第二音频文件为完全相同的音频文件。终端设备可以是VR设备。
语音识别服务器,用于按照所述声音数据的语音顺序将所述第一音频文件转换成对应单词顺序的语音文本。
云端服务器,用于所述终端设备上传的所述语音文本和所述第二音频文件,结合所述语音文本对所述第二音频文件进行单词拆分,并对每个单词分别进行发音检测,得到每个单词的发音准确率;并基于每个单词的发音准确率计算所述声音数据的发音准确率。
具体描述参见上述方法实施例,这里不再赘述。
下面通过图3来介绍本发明实施例的语言能力评测系统的一种可选实施方式。如图3所示:
用户在进行语言评测的过程中,使用终端设备进行测试和训练。用户通过读终端设备上的参考脚本进行发音,终端设备检测用户是否讲话,当检测到用户讲话时,开启麦克风;未检测到讲话时则关闭麦克风。对于麦克风在开启状态下收集到的音频文件,可以通过复制的方式得到两份完全相同的音频文件,其中一份音频文件通过调用语音识别服务器进行语音识别生成文本格式的语音文本,并发送至云端服务器;另一份音频文件则发送至云端服务器用于发音准确度评测,检测出发音准确度,同时还对用户情绪数据评测得到情绪数据,对语速流利度评测得到语速流利度。
本实施例还提供一种计算机设备,如可以执行程序的台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。本实施例的计算机设备20至少包括但不限于:可通过系统总线相互通信连接的存储器21、处理器22,如图4所示。需要指出的是,图4仅示出了具有组件21-22的计算机设备20,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
本实施例中,存储器21(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器21可以是计算机设备20的内部存储单元,例如该计算机设备20的硬盘或内存。在另一些实施例中,存储器21也可以是计算机设备20的外部存储设备,例如该计算机设备20上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器21还可以既包括计算机设备20的内部存储单元也包括其外部存储设备。本实施例中,存储器21通常用于存储安装于计算机设备20的操作系统和各类应用软件,例如实施例所述的语言能力评测装置的程序代码等。此外,存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器22在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算机设备20的总体操作。本实施例中,处理器22用于运行存储器21中存储的程序代码或者处理数据,例如运行语言能力评测装置,以实现实施例的语言能力评测方法。
本实施例还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储语言能力评测装置,被处理器执行时实现实施例的语言能力评测方法。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本申请的保护范围之中。
Claims (10)
1.一种语言能力评测方法,其特征在于,包括:
采集用户在练习目标语言的声音数据,得到第一音频文件和第二音频文件,其中,所述第一音频文件和所述第二音频文件为完全相同的音频文件;
按照所述声音数据的语音顺序将所述第一音频文件转换成对应单词顺序的语音文本;
结合所述语音文本对所述第二音频文件进行单词拆分,并对每个单词分别进行发音检测,得到每个单词的发音准确率;
基于每个单词的发音准确率计算所述声音数据的发音准确率。
2.根据权利要求1所述的语言能力评测方法,其特征在于,对每个单词分别进行发音检测,得到每个单词的发音准确率,包括:
逐一标记所述第二音频文件中每个单词所在的音频区间;
将每个单词拆分为多个语音片段,每个语音片段对应一个单音节;
调用单音节评测接口,对每个单音节进行发音检测,识别出对应单词在当前发音情景下的发音准确率。
3.根据权利要求1所述的语言能力评测方法,其特征在于,基于每个单词的发音准确率计算所述声音数据的发音准确率,包括:
计算所有单词的平均发音准确率和平均音节准确率,其中,所述平均音节准确率为单词中每个音节的准确率的平均值;
获取所述平均发音准确率的权重和所述平均音节准确率的权重;
对所述平均发音准确率和所述平均音节准确率加权求和,得到所述声音数据的发音准确率。
4.根据权利要求1所述的语言能力评测方法,其特征在于,在采集用户在练习目标语言的声音数据,得到第一音频文件和第二音频文件之后,还包括:
利用所述第二音频文件检测所述用户的语速数据;和/或
利用所述第二音频文件检测所述用户的情绪数据。
5.根据权利要求4所述的语言能力评测方法,其特征在于,利用所述第二音频文件检测所述用户的语速数据,包括:
将所述第二音频文件与第一参考音频文件进行匹配,所述第一参考音频文件为用户练习文本对应的标准音频文件;
统计所述第二音频文件中用户语速数据,所述语速数据包括:语速、停顿次数及连接单词词组。
6.根据权利要求4所述的语言能力评测方法,其特征在于,利用所述第二音频文件检测所述用户的情绪数据,包括:
将所述第二音频文件与第二参考音频文件进行匹配,逐句判断所述第二音频文件中每一句音频是否达到所述第二参考音频文件中对应的语句音频的情绪状态,其中,所述第二参考音频文件为预先选取的用户练习文本对应的具有最佳情绪表达的音频文件。
7.一种语言能力评测装置,其特征在于,包括:
采集模块,用于采集用户在练习目标语言的声音数据,得到第一音频文件和第二音频文件,其中,所述第一音频文件和所述第二音频文件为完全相同的音频文件;
识别模块,用于按照所述声音数据的语音顺序将所述第一音频文件转换成对应单词顺序的语音文本;
拆分模块,用于结合所述语音文本对所述第二音频文件进行单词拆分,并对每个单词分别进行发音检测,得到每个单词的发音准确率;
计算模块,用于基于每个单词的发音准确率计算所述声音数据的发音准确率。
8.一种语言能力评测系统,其特征在于,包括:
终端设备,其上设置有麦克风用于采集用户在练习目标语言的声音数据,得到第一音频文件和第二音频文件,其中,所述第一音频文件和所述第二音频文件为完全相同的音频文件;
语音识别服务器,用于按照所述声音数据的语音顺序将所述第一音频文件转换成对应单词顺序的语音文本;
云端服务器,用于所述终端设备上传的所述语音文本和所述第二音频文件,结合所述语音文本对所述第二音频文件进行单词拆分,并对每个单词分别进行发音检测,得到每个单词的发音准确率;并基于每个单词的发音准确率计算所述声音数据的发音准确率。
9.一种计算机设备,其特征在于,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现权利要求1至6任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1至6任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910775324.5A CN110503941B (zh) | 2019-08-21 | 2019-08-21 | 语言能力评测方法、装置、系统、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910775324.5A CN110503941B (zh) | 2019-08-21 | 2019-08-21 | 语言能力评测方法、装置、系统、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110503941A true CN110503941A (zh) | 2019-11-26 |
CN110503941B CN110503941B (zh) | 2022-04-12 |
Family
ID=68588933
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910775324.5A Active CN110503941B (zh) | 2019-08-21 | 2019-08-21 | 语言能力评测方法、装置、系统、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110503941B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111462786A (zh) * | 2020-04-09 | 2020-07-28 | 深圳市友杰智新科技有限公司 | 播放声音的录取方法、装置、计算机设备和存储介质 |
CN111507581A (zh) * | 2020-03-26 | 2020-08-07 | 威比网络科技(上海)有限公司 | 基于语速的课程匹配方法、系统、设备及存储介质 |
CN112309391A (zh) * | 2020-03-06 | 2021-02-02 | 北京字节跳动网络技术有限公司 | 用于输出信息的方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105845134A (zh) * | 2016-06-14 | 2016-08-10 | 科大讯飞股份有限公司 | 自由朗读题型的口语评测方法及系统 |
CN108492819A (zh) * | 2018-03-30 | 2018-09-04 | 浙江吉利控股集团有限公司 | 语言练习方法、装置、智能车载终端及存储介质 |
CN109448730A (zh) * | 2018-11-27 | 2019-03-08 | 广州广电运通金融电子股份有限公司 | 一种自动语音质检方法、系统、装置及存储介质 |
CN109545244A (zh) * | 2019-01-29 | 2019-03-29 | 北京猎户星空科技有限公司 | 语音评测方法、装置、电子设备及存储介质 |
CN110136748A (zh) * | 2019-05-16 | 2019-08-16 | 上海流利说信息技术有限公司 | 一种节奏识别校正方法、装置、设备及存储介质 |
-
2019
- 2019-08-21 CN CN201910775324.5A patent/CN110503941B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105845134A (zh) * | 2016-06-14 | 2016-08-10 | 科大讯飞股份有限公司 | 自由朗读题型的口语评测方法及系统 |
CN108492819A (zh) * | 2018-03-30 | 2018-09-04 | 浙江吉利控股集团有限公司 | 语言练习方法、装置、智能车载终端及存储介质 |
CN109448730A (zh) * | 2018-11-27 | 2019-03-08 | 广州广电运通金融电子股份有限公司 | 一种自动语音质检方法、系统、装置及存储介质 |
CN109545244A (zh) * | 2019-01-29 | 2019-03-29 | 北京猎户星空科技有限公司 | 语音评测方法、装置、电子设备及存储介质 |
CN110136748A (zh) * | 2019-05-16 | 2019-08-16 | 上海流利说信息技术有限公司 | 一种节奏识别校正方法、装置、设备及存储介质 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112309391A (zh) * | 2020-03-06 | 2021-02-02 | 北京字节跳动网络技术有限公司 | 用于输出信息的方法和装置 |
CN111507581A (zh) * | 2020-03-26 | 2020-08-07 | 威比网络科技(上海)有限公司 | 基于语速的课程匹配方法、系统、设备及存储介质 |
CN111507581B (zh) * | 2020-03-26 | 2023-07-14 | 平安直通咨询有限公司 | 基于语速的课程匹配方法、系统、设备及存储介质 |
CN111462786A (zh) * | 2020-04-09 | 2020-07-28 | 深圳市友杰智新科技有限公司 | 播放声音的录取方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110503941B (zh) | 2022-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021128741A1 (zh) | 语音情绪波动分析方法、装置、计算机设备及存储介质 | |
CN108847215B (zh) | 基于用户音色进行语音合成的方法及装置 | |
AU2016216737B2 (en) | Voice Authentication and Speech Recognition System | |
Schuller et al. | Towards more reality in the recognition of emotional speech | |
CN109741732B (zh) | 命名实体识别方法、命名实体识别装置、设备及介质 | |
CN109686383B (zh) | 一种语音分析方法、装置及存储介质 | |
CN110148427A (zh) | 音频处理方法、装置、系统、存储介质、终端及服务器 | |
US10997965B2 (en) | Automated voice processing testing system and method | |
US8682678B2 (en) | Automatic realtime speech impairment correction | |
CN111193834B (zh) | 基于用户声音特征分析的人机交互方法、装置和电子设备 | |
CN110503941A (zh) | 语言能力评测方法、装置、系统、计算机设备及存储介质 | |
CN109410664A (zh) | 一种发音纠正方法及电子设备 | |
CN110010121B (zh) | 验证应答话术的方法、装置、计算机设备和存储介质 | |
CN112634866B (zh) | 语音合成模型训练和语音合成方法、装置、设备及介质 | |
CN112542158A (zh) | 语音分析方法、系统、电子设备及存储介质 | |
CN112908308B (zh) | 一种音频处理方法、装置、设备及介质 | |
CN110164448A (zh) | 语音处理方法及装置、存储介质、语音处理系统 | |
Yousfi et al. | Holy Qur'an speech recognition system Imaalah checking rule for warsh recitation | |
Sirikongtham et al. | Improving speech recognition using dynamic multi-pipeline API | |
CN113012684B (zh) | 一种基于语音分割的合成语音检测方法 | |
CN112837688B (zh) | 语音转写方法、装置、相关系统及设备 | |
CN113658599A (zh) | 基于语音识别的会议记录生成方法、装置、设备及介质 | |
CN112967736A (zh) | 发音质量检测方法、系统、移动终端及存储介质 | |
CN111933121A (zh) | 一种声学模型训练方法及装置 | |
CN112767961A (zh) | 一种基于云端计算的口音矫正方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |