CN110503941A

CN110503941A - 语言能力评测方法、装置、系统、计算机设备及存储介质

Info

Publication number: CN110503941A
Application number: CN201910775324.5A
Authority: CN
Inventors: 杨昊鹏
Original assignee: Beijing Yinxu Technology Co Ltd
Current assignee: Beijing Yinxu Technology Co Ltd
Priority date: 2019-08-21
Filing date: 2019-08-21
Publication date: 2019-11-26
Anticipated expiration: 2039-08-21
Also published as: CN110503941B

Abstract

本发明公开了一种语言能力评测方法、装置、系统、计算机设备及存储介质，其中方法包括：采集用户在练习目标语言的声音数据，得到第一音频文件和第二音频文件，其中，第一音频文件和第二音频文件为完全相同的音频文件；按照声音数据的语音顺序将第一音频文件转换成对应单词顺序的语音文本；结合语音文本对第二音频文件进行单词拆分，并对每个单词分别进行发音检测，得到每个单词的发音准确率；基于每个单词的发音准确率计算声音数据的发音准确率。本发明由于音频文件按顺序转写成文本文件，没有对语音识别结果进行修正，可以还原用户的原始声音数据，从而避免了真实数据存在失真和偏差的问题，完全适用于教育和培训等语言练习的应用场景。

Description

语言能力评测方法、装置、系统、计算机设备及存储介质

技术领域

本发明涉及教育领域，具体涉及一种语言能力评测方法、装置、系统、计算机设备及存储介质。

背景技术

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。

目前软件中评测语言能力，主要会用到基本的语音识别、语义理解等接口进行调用；通过实时分析，或者整段话的信息采集分析用户的语言能力与沟通能力，最终展示给用户直观的为原始数据(即分析结果而非有效信息或数据)。

语音识别技术，也被称为自动语音识别(Automatic Speech Recognition，简称为ASR)，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同，后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。

例如，美国公开专利US6173259B1中，公开了一种现有语音识别技术方案，通过对语音数据的收集、修正，输出结果，实现将语音转化成文本的形式，通过该技术可实现部分的语音修正功能，即用户转写后的语音需要连贯并且符合逻辑；然而，在一些实际的应用场景中，例如教育和培训领域，需要对用户的真实表现做到精准地分析，而现有技术中，语音转写时参考了数据库中大量数据，为了让用户最终转写后的结果是流畅通顺的，该技术做了语音结果修正，在一定程度上，结果并非是用户真实情况数据，与真实数据存在较大的失真与偏差。

发明内容

本发明要解决现有技术中由于语音撰写时参考了数据库大量数据以修正语音结果，导致撰写出的文本数据与真实情况数据存在较大的失真和偏差的问题，从而提供一种语言能力评测方法、装置、系统、计算机设备及存储介质。

本发明的一方面，提供了一种语言能力评测方法，包括：采集用户在练习目标语言的声音数据，得到第一音频文件和第二音频文件，其中，所述第一音频文件和所述第二音频文件为完全相同的音频文件；按照所述声音数据的语音顺序将所述第一音频文件转换成对应单词顺序的语音文本；结合所述语音文本对所述第二音频文件进行单词拆分，并对每个单词分别进行发音检测，得到每个单词的发音准确率；基于每个单词的发音准确率计算所述声音数据的发音准确率。

可选地，对每个单词分别进行发音检测，得到每个单词的发音准确率，包括：逐一标记所述第二音频文件中每个单词所在的音频区间；将每个单词拆分为多个语音片段，每个语音片段对应一个单音节；调用单音节评测接口，对每个单音节进行发音检测，识别出对应单词在当前发音情景下的发音准确率。

可选地，基于每个单词的发音准确率计算所述声音数据的发音准确率，包括：计算所有单词的平均发音准确率和平均音节准确率，其中，所述平均音节准确率为单词中每个音节的准确率的平均值；获取所述平均发音准确率的权重和所述平均音节准确率的权重；对所述平均发音准确率和所述平均音节准确率加权求和，得到所述声音数据的发音准确率。

可选地，在采集用户在练习目标语言的声音数据，得到第一音频文件和第二音频文件之后，还包括：利用所述第二音频文件检测所述用户的语速数据；和/或，利用所述第二音频文件检测所述用户的情绪数据。

可选地，利用所述第二音频文件检测所述用户的语速数据，包括：将所述第二音频文件与第一参考音频文件进行匹配，所述第一参考音频文件为用户练习文本对应的标准音频文件；统计所述第二音频文件中用户语速数据，所述语速数据包括：语速、停顿次数及连接单词词组。

可选地，利用所述第二音频文件检测所述用户的情绪数据，包括：将所述第二音频文件与第二参考音频文件进行匹配，逐句判断所述第二音频文件中每一句音频是否达到所述第二参考音频文件中对应的语句音频的情绪状态，其中，所述第二参考音频文件为预先选取的用户练习文本对应的具有最佳情绪表达的音频文件。

本发明的另一方面，提供了一种语言能力评测装置，包括：采集模块，用于采集用户在练习目标语言的声音数据，得到第一音频文件和第二音频文件，其中，所述第一音频文件和所述第二音频文件为完全相同的音频文件；识别模块，用于按照所述声音数据的语音顺序将所述第一音频文件转换成对应单词顺序的语音文本；拆分模块，用于结合所述语音文本对所述第二音频文件进行单词拆分，并对每个单词分别进行发音检测，得到每个单词的发音准确率；计算模块，用于基于每个单词的发音准确率计算所述声音数据的发音准确率。

本发明的另一方面，提供了一种语言能力评测系统，包括：终端设备，其上设置有麦克风用于采集用户在练习目标语言的声音数据，得到第一音频文件和第二音频文件，其中，所述第一音频文件和所述第二音频文件为完全相同的音频文件；语音识别服务器，用于按照所述声音数据的语音顺序将所述第一音频文件转换成对应单词顺序的语音文本；云端服务器，用于所述终端设备上传的所述语音文本和所述第二音频文件，结合所述语音文本对所述第二音频文件进行单词拆分，并对每个单词分别进行发音检测，得到每个单词的发音准确率；并基于每个单词的发音准确率计算所述声音数据的发音准确率。

本发明的另一方面，提供了一种计算机设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述方法的步骤。

本发明的另一方面，提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现所述方法的步骤。

根据本发明实施例，通过采集两份相同的音频文件，其中一份音频文件按照语音顺序转写成对应的文本文件，用以作为参考，对另一份音频文件进行单词拆分，然后进行单词的发音准确率检测，最终得到整个声音文件的评测结果。由于音频文件按顺序转写成文本文件，没有对语音识别结果进行修正，可以还原用户的原始声音数据，从而避免了真实数据存在失真和偏差的问题，完全适用于教育和培训等语言练习的应用场景。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中语言能力评测方法的流程图；

图2为本发明实施例中语言能力评测装置的示意图；

图3为本发明实施例中一种可选的语言能力评测系统的示意图；

图4为本发明实施例计算机设备的硬件结构示意图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

本发明实施例提供了一种语言能力评测方法，该方法适用于教育和培训领域，用于对用户在练习和学习语音时，进行评测。如图1所示，该方法包括：

步骤S101，采集用户在练习目标语言的声音数据，得到第一音频文件和第二音频文件，其中，所述第一音频文件和所述第二音频文件为完全相同的音频文件。

声音数据的采集可以通过终端设备上的麦克风(单个或者阵列)来采集，确定音频采用格式(如8k,16k)16bit的数据采样位深进行采集。可以根据用户练习的具体场景。例如，当用户练习阅读一篇文章时，麦克风直接开启状态进行收音。当于终端设备上的虚拟角色对话的场景时，麦克风的打开与关闭取决于用户当下状态：如果此刻是虚拟角色讲话(则用户麦克风权限为关闭状态，不收音)；如果切换到了用户需要开始讲话的环节(则用户麦克风权限为开启状态，开始收音)。收音即开始对用户的声音开始做记录。

当麦克风为开启状态时，用户的声音数据开始记录成固定位深的音频数据，在此过程中会同时有两份音频文件，即第一音频文件和第二音频文件，二者完全一致，可以是两个完全相同的录音设备开始录音得到的音频文件。本发明实施例中目标语言可以是英语、法语、西班牙语等语言，本发明不做限定。

步骤S102，按照所述声音数据的语音顺序将所述第一音频文件转换成对应单词顺序的语音文本。

本发明实施例中，可以是在生成第一音频文件之后，按照语音数据的语音顺序将第一音频文件转换成语音文本，也可以是实时调用语音识别接口，即时对用户的语音数据进行转写成语音文本，使得语音文本中的单词顺序与语音顺序完全一致。

音频转写成语音文本可以是通过语音识别服务器来实现，具体可以是终端设备持续调用第三方语音转写API(该API已部署在语音识别服务器，用类似Docker方式实现)，并实时获得实时语音转写后的文本数据，该文本会持续的做修正或调整(现有技术方案)，并将一定程度展示给用户，辅助用户了解到目前练习的进展，以及获得声音上的实时反馈。确认音频采样格式(如8k,16k)16bit的数据采样位深。

可选地，本发明实施例中，练习情景下，用户在持续的根据提示或者脚本在发出声音数据，此时将有一个判定，确认用户是否完成了对话练习；主要逻辑是判定用户当下的声音是否还能转写成语音文本，以及此时的分贝比例是否低于用户正常说话的分贝量大小，在用户停止说话的预设时间后(例如1.5s，可以根据实际场景可作为可调参数)，麦克风关闭，判定用户已经结束对话，音频收集的过程结束，此时生成一整段的音频文件，也即是第二音频文件，本地保存；对话结束时，根据实时语音转写得到的结果，亦得到一份完整的语音文本，本地记录并保存。

步骤S103，结合所述语音文本对所述第二音频文件进行单词拆分，并对每个单词分别进行发音检测，得到每个单词的发音准确率。

通过转写的语音文本作为参照，对第二音频文件进行单词拆分。例如，语音文本中有300个单词，在进行拆分时，按照单词的顺序依次确定每个单词在第二音频文件中的发音相应数量的音频段。然后对每个单词进行发音检测，计算出每个单词的发音准确率。

步骤S104，基于每个单词的发音准确率计算所述声音数据的发音准确率。

上述步骤S103和S104可以由云端服务器来执行。利用每个单词的发音准确率计算整个声音数据的发音准确率，具体可以是计算单词的发音准确率的平均值作为整个声音数据的发音准确率，也可以是利用词的发音准确率的平均值和单词中单音节的发音准确率的平均值来计算整个声音数据的发音准确率。

本发明实施例中，云端服务器在检测出发音准确率之后，向终端设备反馈检测结果，该检测结果中可以包括整体的发音准确率、具体单词的发音检测结果、以及正确的发音音频文件，用以告知用户哪个单词或者哪个音节发音出了问题，以及正确发音怎么读等详细信息。

作为本发明实施例的一种可选实施方式，上述步骤S103中，对每个单词分别进行发音检测，得到每个单词的发音准确率，具体可以包括：

S1031，逐一标记所述第二音频文件中每个单词所在的音频区间。

具体地，在拆分成单词之后，从音频文件确定出每个单词的起始发音时刻和终止发音时刻，构成该读单词的音频区间(比如第1.2342秒至1.9872秒)，以此方式逐一开始标记第二音频文件中每个单词的音频区间。

S1032，将每个单词拆分为多个语音片段，每个语音片段对应一个单音节。

S1033，调用单音节评测接口，对每个单音节进行发音检测，识别出对应单词在当前发音情景下的发音准确率。单音节评测接口为相应的单音节发音检测模块设置的接口，该模块用于对单音节进行发音检测，通过每个单音节的发音检测结果，确定出该单词的发音准确率。具体地，可以检测得到的发音正确的单音节数量占单词的总单音节数量的比值，作为该单词的发音准确率；也可以是计算单词中每个单音节的发音准确率，然后进行加权求和得到该单词的发音准确率。

本发明实施例中，通过检测每个单词中单音节的发音，来确定出单词的发音准确率，可以精确地定位用户在单词发音中的问题所在，通过将每个单音节的检测结果反馈给用户，用以纠正用户的发音，能够起到自助学习的作用。

作为本发明实施例的一种可选实施方式，上述步骤S104，基于每个单词的发音准确率计算所述声音数据的发音准确率可以包括：计算所有单词的平均发音准确率和平均音节准确率，其中，所述平均音节准确率为单词中每个音节的准确率的平均值；获取所述平均发音准确率的权重和所述平均音节准确率的权重；对所述平均发音准确率和所述平均音节准确率加权求和，得到所述声音数据的发音准确率。

整体发音准确率Z通过加权求和得到，其中计算公式如下：

Z＝A*m/(m+n)+B*n/(m+n)

其中，A表示平均发音准确率，B表示平均音节准确率，平均发音准确率与平均音节准确率的比例m:n。

本发明实施例中，云端服务器还可以用于检测第二音频文件的语速数据和情绪数据。具体地，在采集用户在练习目标语言的声音数据，得到第一音频文件和第二音频文件之后，还包括：利用所述第二音频文件检测所述用户的语速数据；和/或，利用所述第二音频文件检测所述用户的情绪数据。

对于语速数据和情绪数据的检测，可以根据需要进行选择。其中，语速数据用以体现用户在讲目标语言时的流利程度，情绪数据则可以体现用户在讲目标语音时候的情绪表达准确性。通过对语速数据或者情绪数据进行检测，可以练习和纠正用户在讲目标语言的时候的语速，以及语言表达的情绪。

具体地，利用所述第二音频文件检测所述用户的语速数据，包括：将所述第二音频文件与第一参考音频文件进行匹配，所述第一参考音频文件为用户练习文本对应的标准音频文件；统计所述第二音频文件中用户语速数据，所述语速数据包括：语速、停顿次数及连接单词词组。

将第二音频文件与第一参考音频文件进行匹配，第一参考音频文件可以是选择具有最佳语速的标准音频文件，通过匹配对比第二音频文件与第一参考音频文件的语速快慢，停顿次数，以及连接单词词组等，可以得到用户发出的该第二音频文件的语速数据。具体的，将音频文件与参照数据(最佳数据，与该课程其他用户数据)做匹配参照，最终用户该段语速流利度的数据将生成包括以下参数：整体语速快慢(用户念了多少个单词每分钟)、停顿次数、连接单词词组(比如Mm,and,well,so等多个连词)等多项数据。

本发明实施例中，通过将用户发出的音频文件与参考音频文件进行匹配比对，确定出用户的语速相对于参考音频文件的语速数据，然后反馈给用户，供用户进行纠正和训练使用。

另一方面，利用所述第二音频文件检测所述用户的情绪数据，包括：将所述第二音频文件与第二参考音频文件进行匹配，逐句判断所述第二音频文件中每一句音频是否达到所述第二参考音频文件中对应的语句音频的情绪状态，其中，所述第二参考音频文件为预先选取的用户练习文本对应的具有最佳情绪表达的音频文件。

将第二音频文件与第二参考音频文件进行匹配，以判断每句音频是否达到相应的情绪状态。其中，第二音频参考数据可以是选取的具有最佳情绪表达的音频文件。具体地，以参考音频文件作为匹配参照，逐句判断每句话是否达到相应的情绪状态，得到情绪数据。比如一个关于《I have a dream》的固定文稿的公开演讲，可以人为地预设多个最佳案例，同时用户也会各自通过评分选出多个最佳的公开演讲音频作为参考标准；逐句分析用户在该段语音文件中是否达到了该有的情绪状态(情绪状态的识别通过调用部署在云端的第三方服务商接口)，例如在演讲的高潮慷慨激昂部分，应该是情绪态度是积极高亢的，而在部分环节应该是低沉的，用户的音频数据将返回精确值展现出：刚刚的哪个部分(哪句话)在情绪抒发上存在问题，并且如何提高(展示出最佳案例中的语句)。

本发明实施例还提供了一种语言能力评测装置，该装置可以用于执行本发明实施例的语言能力评测方法，具体地，如图2所示，该装置包括：

采集模块201，用于采集用户在练习目标语言的声音数据，得到第一音频文件和第二音频文件，其中，所述第一音频文件和所述第二音频文件为完全相同的音频文件。

识别模块202，用于按照所述声音数据的语音顺序将所述第一音频文件转换成对应单词顺序的语音文本。

拆分模块203，用于结合所述语音文本对所述第二音频文件进行单词拆分，并对每个单词分别进行发音检测，得到每个单词的发音准确率。

计算模块204，用于基于每个单词的发音准确率计算所述声音数据的发音准确率。

具体描述参见上述方法实施例，这里不再赘述。

本发明实施例的另一方面，还提供了一种语言能力评测系统，该系统可以用于实现本发明上述实施例的所述的语言能力评测方法，该系统包括：终端设备、语音识别服务器和云端服务器，其中：

终端设备，其上设置有麦克风用于采集用户在练习目标语言的声音数据，得到第一音频文件和第二音频文件，其中，所述第一音频文件和所述第二音频文件为完全相同的音频文件。终端设备可以是VR设备。

语音识别服务器，用于按照所述声音数据的语音顺序将所述第一音频文件转换成对应单词顺序的语音文本。

云端服务器，用于所述终端设备上传的所述语音文本和所述第二音频文件，结合所述语音文本对所述第二音频文件进行单词拆分，并对每个单词分别进行发音检测，得到每个单词的发音准确率；并基于每个单词的发音准确率计算所述声音数据的发音准确率。

具体描述参见上述方法实施例，这里不再赘述。

下面通过图3来介绍本发明实施例的语言能力评测系统的一种可选实施方式。如图3所示：

用户在进行语言评测的过程中，使用终端设备进行测试和训练。用户通过读终端设备上的参考脚本进行发音，终端设备检测用户是否讲话，当检测到用户讲话时，开启麦克风；未检测到讲话时则关闭麦克风。对于麦克风在开启状态下收集到的音频文件，可以通过复制的方式得到两份完全相同的音频文件，其中一份音频文件通过调用语音识别服务器进行语音识别生成文本格式的语音文本，并发送至云端服务器；另一份音频文件则发送至云端服务器用于发音准确度评测，检测出发音准确度，同时还对用户情绪数据评测得到情绪数据，对语速流利度评测得到语速流利度。

本实施例还提供一种计算机设备，如可以执行程序的台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。本实施例的计算机设备20至少包括但不限于：可通过系统总线相互通信连接的存储器21、处理器22，如图4所示。需要指出的是，图4仅示出了具有组件21-22的计算机设备20，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

本实施例中，存储器21(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器21可以是计算机设备20的内部存储单元，例如该计算机设备20的硬盘或内存。在另一些实施例中，存储器21也可以是计算机设备20的外部存储设备，例如该计算机设备20上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，存储器21还可以既包括计算机设备20的内部存储单元也包括其外部存储设备。本实施例中，存储器21通常用于存储安装于计算机设备20的操作系统和各类应用软件，例如实施例所述的语言能力评测装置的程序代码等。此外，存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器22在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算机设备20的总体操作。本实施例中，处理器22用于运行存储器21中存储的程序代码或者处理数据，例如运行语言能力评测装置，以实现实施例的语言能力评测方法。

本实施例还提供一种计算机可读存储介质，如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等，其上存储有计算机程序，程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储语言能力评测装置，被处理器执行时实现实施例的语言能力评测方法。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本申请的保护范围之中。

Claims

1.一种语言能力评测方法，其特征在于，包括：

采集用户在练习目标语言的声音数据，得到第一音频文件和第二音频文件，其中，所述第一音频文件和所述第二音频文件为完全相同的音频文件；

按照所述声音数据的语音顺序将所述第一音频文件转换成对应单词顺序的语音文本；

结合所述语音文本对所述第二音频文件进行单词拆分，并对每个单词分别进行发音检测，得到每个单词的发音准确率；

基于每个单词的发音准确率计算所述声音数据的发音准确率。

2.根据权利要求1所述的语言能力评测方法，其特征在于，对每个单词分别进行发音检测，得到每个单词的发音准确率，包括：

逐一标记所述第二音频文件中每个单词所在的音频区间；

将每个单词拆分为多个语音片段，每个语音片段对应一个单音节；

调用单音节评测接口，对每个单音节进行发音检测，识别出对应单词在当前发音情景下的发音准确率。

3.根据权利要求1所述的语言能力评测方法，其特征在于，基于每个单词的发音准确率计算所述声音数据的发音准确率，包括：

计算所有单词的平均发音准确率和平均音节准确率，其中，所述平均音节准确率为单词中每个音节的准确率的平均值；

获取所述平均发音准确率的权重和所述平均音节准确率的权重；

对所述平均发音准确率和所述平均音节准确率加权求和，得到所述声音数据的发音准确率。

4.根据权利要求1所述的语言能力评测方法，其特征在于，在采集用户在练习目标语言的声音数据，得到第一音频文件和第二音频文件之后，还包括：

利用所述第二音频文件检测所述用户的语速数据；和/或

利用所述第二音频文件检测所述用户的情绪数据。

5.根据权利要求4所述的语言能力评测方法，其特征在于，利用所述第二音频文件检测所述用户的语速数据，包括：

将所述第二音频文件与第一参考音频文件进行匹配，所述第一参考音频文件为用户练习文本对应的标准音频文件；

统计所述第二音频文件中用户语速数据，所述语速数据包括：语速、停顿次数及连接单词词组。

6.根据权利要求4所述的语言能力评测方法，其特征在于，利用所述第二音频文件检测所述用户的情绪数据，包括：

将所述第二音频文件与第二参考音频文件进行匹配，逐句判断所述第二音频文件中每一句音频是否达到所述第二参考音频文件中对应的语句音频的情绪状态，其中，所述第二参考音频文件为预先选取的用户练习文本对应的具有最佳情绪表达的音频文件。

7.一种语言能力评测装置，其特征在于，包括：

采集模块，用于采集用户在练习目标语言的声音数据，得到第一音频文件和第二音频文件，其中，所述第一音频文件和所述第二音频文件为完全相同的音频文件；

识别模块，用于按照所述声音数据的语音顺序将所述第一音频文件转换成对应单词顺序的语音文本；

拆分模块，用于结合所述语音文本对所述第二音频文件进行单词拆分，并对每个单词分别进行发音检测，得到每个单词的发音准确率；

计算模块，用于基于每个单词的发音准确率计算所述声音数据的发音准确率。

8.一种语言能力评测系统，其特征在于，包括：

终端设备，其上设置有麦克风用于采集用户在练习目标语言的声音数据，得到第一音频文件和第二音频文件，其中，所述第一音频文件和所述第二音频文件为完全相同的音频文件；

语音识别服务器，用于按照所述声音数据的语音顺序将所述第一音频文件转换成对应单词顺序的语音文本；

9.一种计算机设备，其特征在于，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现权利要求1至6任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现权利要求1至6任一项所述方法的步骤。