CN109086387A

CN109086387A - 一种音频流评分方法、装置、设备及存储介质

Info

Publication number: CN109086387A
Application number: CN201810835555.6A
Authority: CN
Inventors: 刘骋
Original assignee: Shanghai Huizi Audiovisual Technology Co Ltd
Current assignee: Shanghai Huizi Audiovisual Technology Co Ltd
Priority date: 2018-07-26
Filing date: 2018-07-26
Publication date: 2018-12-25

Abstract

本发明实施例公开了一种音频流评分方法、装置、设备及存储介质。所述方法包括：获取待测音频流，提取所述待测音频流对应的特征数据；根据所述特征数据确定与所述待测音频流相匹配的待测文字序列；根据所述待测文字序列与标准文字序列之间的匹配度，对所述待测音频流进行评分。通过本发明实施例的技术方案，能够提高音频流的评分效率和准确率，节约人力资源。

Description

一种音频流评分方法、装置、设备及存储介质

技术领域

本发明实施例涉及信号处理技术，尤其涉及一种音频流评分方法、装置、设备及存储介质。

背景技术

学生是一个国家甚至一个民族兴起的重要力量，学校想要更好地教育学生，就需要时刻了解学生的发育和学习状态。

传统听觉测试方法中，学生通过播放的声音，复述播放的内容，老师再对学生复述的内容进行打分，由于主要采用人工打分的方式，老师需要听每个学生复述的内容，来进行评分，这种评分方式不仅效率低下，准确率低，而且浪费人力资源。

发明内容

本发明实施例提供一种音频流评分方法、装置、设备及存储介质，以实现提高音频流的评分效率和准确率，节约人力资源。

第一方面，本发明实施例提供了一种音频流评分方法，包括：

获取待测音频流，提取所述待测音频流对应的特征数据；

根据所述特征数据确定与所述待测音频流相匹配的待测文字序列；

根据所述待测文字序列与标准文字序列之间的匹配度，对所述待测音频流进行评分。

第二方面，本发明实施例还提供了一种音频流评分装置，该装置包括：

待测数据提取模块，用于获取待测音频流，提取所述待测音频流对应的特征数据；

待测序列确定模块，用于根据所述特征数据确定与所述待测音频流相匹配的待测文字序列；

序列匹配评分模块，用于根据所述待测文字序列与标准文字序列之间的匹配度，对所述待测音频流进行评分。

第三方面，本发明实施例还提供了一种计算机设备，该设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明实施例中任一所述的音频流评分方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明实施例中任一所述的音频流评分方法。

本发明实施例通过从待测音频流中提取对应的特征数据，再根据该特征数据确定待测音频流中的待测文字序列，最后根据该待测文字序列与标准文字序列之间的匹配度对该待测音频流进行评分，利用自动提取和比对音频流中的文字序列来给音频流评分，解决了现有技术中的听觉测试因采用人工打分的方式，而导致的评分方式不仅效率低下、准确率低、浪费人力资源的问题，实现了提高音频流的评分效率和准确率，节约人力资源的效果。

附图说明

图1是本发明实施例一提供的一种音频流评分方法的流程示意图；

图2是本发明实施例二提供的一种音频流评分装置的结构示意图；

图3是本发明实施例三提供的一种计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种音频流评分方法的流程示意图。该方法可适用于对音频流进行评分的情况，该方法可以由音频流评分装置来执行，该装置可由硬件和/或软件组成，并一般可集成在听觉测试系统服务器以及所有包含音频流评分功能的终端中。其中，听觉测试系统可包括服务器、教师端和学生端，具体可通过将教师端采集的教师语音信号或服务器中预设的标准语音信号发送给学生端，学生端将该语音信号播放给学生听，以使学生根据听到的语音信号的内容，对该内容进行复述，并将采集的学生语音信号提交给服务器，最终服务器根据该学生语音信号与教师语音信号或标准语音信号对学生语音信号进行评分，检查学生复述的是否正确，从而完成对学生的听觉测试。本实施例以听觉测试系统中的服务器为执行主体进行举例说明，具体包括如下：

S110、获取待测音频流，提取待测音频流对应的特征数据。

其中，待测音频流可以是听觉测试系统中学生端采集并发送给服务器的学生语音信号。特征数据可以为能够表征待测音频流中发音内容的数据，根据语言的不同而不同。例如，可利用音节、因素和/或声调来表征汉语发音内容。可选的，特征数据包括音节、音素和声调。

以汉语为例，每个字都是由一个音节组成，比如“九”的音节是jiu；一个音节包括一个或多个音素，比如“九”由两个音素组成分别是“j”和“iou”；一个音节可对应于一个声调，比如“九”的声调为上声(也即第三声)。因此，可通过分析提取音频流中所包含的音节、音素以及声调来获取音频流中的发音内容，从而利用该发音内容获取待测音频流中的语音内容与教师语音信号或标准语音信号中的语音内容是否一致，来对待测音频流进行评分。

可选的，提取待测音频流对应的特征数据，包括：按照预设算法获取待测音频流的音频信号特征；将音频信号特征输入至特征检测模型中，得到与待测音频流对应的特征数据。

其中，预设算法可以为频谱特征提取算法，例如MFCC(Mel-Frequency CepstralCoefficients，梅尔频率倒谱系数)算法，相应的，按照预设算法获取的音频信号特征为时间-音频特征。具体的，MFCC特征提取包含两个关键步骤：转化到梅尔频率，然后进行倒谱分析。示例性的，利用MFCC提取音频信号特征的具体步骤如下：1、将待测音频流分解为帧；2、对于每一帧，计算周期功率谱；3、将Mel滤波器应用到功率谱中，计算每个滤波器的能量和；4、计算能量的对数值；5、对每个对数能量进行离散余弦变换(DCT)；6、保留DCT的2-13个系数，其余系数舍去。这样，对于待测音频流中的每一帧即可得到2-13个梅尔频率倒谱系数，以表征待测音频流中每一帧的频谱特征。

本实施例中特征检测模型用于对输入的音频信号特征进行识别，输出与该音频信号特征对应的特征数据。具体的，特征检测模型可以是按照预设机器学习算法训练出来的模型。示例性的，将获取的音频信号特征输入至该特征检测模型中，其所输出的特征数据包括但不限于音频信号特征对应的音节、音素、声调等。

举一个具体例子，获取含有“七八九”发音的待测音频流，对待测音频流进行MFCC特征提取，得到时间-音频特征，再将该时间-音频特征输入至特征检测模型，即可输出“qibajiu”的音节信息，“qibajiou”的因素信息，以及“阴平、阴平、上声”的声调信息。

相应的，在获取待测音频流，提取待测音频流对应的特征数据之前，还包括：获取标注有特征数据的音频流样本；基于音频流样本对第一神经网络模型进行训练，得到特征检测模型。

其中，音频流样本可从预设测试题库中随机抽取，该预设测试题库可预先存储在听觉测试系统服务器中。具体的，可对每个音频流样本中包含的发音内容进行特征数据的标注，也即一个音频流样本对应于一个特征数据，标注方式可以为人工方式。例如，将含有“四五六”发音的音频流样本标注为：音频信息“siwuliu”，音素信息“siwuliou”，声调信息“去声、上声、去声”。

本实施例中第一神经网络模型可以是基于人工神经网络算法建立的训练模型，例如CNN卷积神经网络(Convolutional Neural Network，CNN)，CNN是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元。具体的，对第一神经网络模型进行训练的过程可以是调整各神经网络参数的过程，经过不断的训练，获得最优的神经网络参数，具有最优神经网络参数的第一神经网络模型即为最终要获得的模型。示例性的，在获得多个标注有特征数据的音频流样本后，使用多个音频流样本对第一神经网络模型进行训练，不断调整第一神经网络模型中的神经网络参数，使得第一神经网络模型具有对输入的待测音频流进行特征数据识别的能力，从而获得特征检测模型。

S120、根据特征数据确定与待测音频流相匹配的待测文字序列。

其中，待测文字序列可以为能够表征待测音频流中语音内容的数据，具体可以是按照时序进行排列的文字数据。例如，若特征数据包括音节信息“qibajiu”，因素信息“qibajiou”，以及声调信息“阴平、阴平、上声”，则根据该特征数据确定的文字序列即为“七八九”。具体的，可通过对特征数据中各数据进行文字识别，并按照各数据对应的起始时间戳和终止时间戳对识别出的文字进行排序，得到与该待测音频流相匹配的待测文字序列。举一个具体例子，从待测音频流中提取的特征数据中包含音节信息“qibajiu”、因素信息“qibajiou”以及声调信息“阴平、阴平、上声”，按照发音的起始时间戳以及终止时间戳对每个音节“qi”“ba”“jiu”进行分离，并分别识别为对应的文字“七”“八”“九”，然后根据每个文字在时间轴上的位置对所有识别出的文字进行排序，从而确定出文字序列“七八九”。

确定待测文字序列的目的在于，根据待测音频流中的发音内容获取语音内容，从而实现将音频流转化为文字序列，由于文字序列更容易比对，所以可以便于在后续步骤中利用文字序列的比对结果，对待测音频流进行评分。

可选的，根据特征数据确定与待测音频流相匹配的待测文字序列，包括：将特征数据输入至序列检测模型中，得到与待测音频流相匹配的待测文字序列。

其中，序列检测模型用于对输入的特征数据进行识别，输出与该特征数据相匹配的文字序列。具体的，序列检测模型可以是按照预设机器学习算法训练出来的模型。示例性的，将提取的特征数据输入至该序列检测模型中，其所输出的文字序列为与特征数据对应的文字序列。

举一个具体例子，将含有“七八九”发音的待测音频流，进行特征数据提取后，得到“qibajiu”的音节信息，“qibajiou”的因素信息，以及“阴平、阴平、上声”的声调信息，再将这些特征数据输入至序列检测模型，即可输出“七八九”的文字序列。

相应的，在根据特征数据确定与待测音频流相匹配的待测文字序列之前，还包括：获取标注有文字时序的特征数据样本；基于特征数据样本对第二神经网络模型进行训练，得到序列检测模型。

示例性的，特征数据样本可以是对从预设测试题库中随机抽取的音频流，进行特征数据提取后获得，其中，特征数据的提取方式包括但不限于人工方式。具体的，可对每个特征数据样本中包含的语音内容进行文字时序的标注，也即一个音频流样本对应于一个文字时序，标注方式可以为人工方式。例如，对含有“四五六”发音的音频流进行特征数据提取后，得到的一个特征数据样本：音频信息“siwuliu”、音素信息“siwuliou”以及声调信息“去声、上声、去声”，将该特征数据样本标注为“四五六”。

本实施例中第二神经网络模型可以是基于人工神经网络算法建立的训练模型，例如循环神经网络(Recurrent neural Network，RNN)，RNN是一种节点定向连接成环的人工神经网络，这种网络的内部状态可以展示动态时序行为。不同于CNN的是，RNN可以利用它内部的记忆来处理任意时序的输入序列，这让它可以更容易处理如不分段的语音识别、视频识别等。具体的，对第二神经网络模型进行训练的过程可以是调整各神经网络参数的过程，经过不断的训练，获得最优的神经网络参数，具有最优神经网络参数的第二神经网络模型即为最终要获得的模型。示例性的，在获得多个标注有文字时序的特征数据样本后，使用多个特征数据样本对第二神经网络模型进行训练，不断调整第二神经网络模型中的神经网络参数，使得第二神经网络模型具有对输入的特征数据进行文字序列识别的能力，从而获得序列检测模型。

S130、根据待测文字序列与标准文字序列之间的匹配度，对待测音频流进行评分。

其中，标准文字序列可以是听觉测试系统中与教师语音信号或标准语音信号匹配的文字序列，该标准文字序列可以是预存的，也可以是通过与待测文字序列同样的方式识别出来的，在此不作限定。具体的，可以将待测文字序列和标准文字序列中的文字以及文字之间的排序关系进行一一比对，以确定两个文字序列是否一致，从而根据两个文字序列之间的一致性程度，也即匹配度，对待测音频流进行评分。

本实施例中具体评分方式包括但不限于等级评分、分数制评分等方式。其中，对于等级评分，例如可以包括“达标”和“不达标”两种评分结果，又如可以包括“甲”、“乙”、“丙”、“丁”等不同等级的评分结果。示例性的，对听觉测试系统的一种应用场景为，识别学生说的数字串是否正确，也即复述时是否存在增读、漏读、重读、错读等情况，若识别出的数字串完全正确，则判定为“达标”，若识别出的数字串不正确，则判定为“不达标”。当然，也可以根据数字串的出错程度判定为相应的评分等级，在此不再赘述。

可选的，在根据待测文字序列与标准文字序列之间的匹配度，对待测音频流进行评分之前，还包括：获取标准音频流，提取标准音频流对应的特征数据；根据特征数据确定与标准音频流相匹配的文字序列，作为标准文字序列。

具体的，听觉测试系统中可通过将教师端采集的教师语音信号作为标准音频流，并提取相应的特征数据，从而确定标准文字序列，具体实现方式可与上述从待测音频流中获取待测文字序列的方式相同，在此不再赘述。

将教师端采集的教师语音信号作为标准音频流并进行识别的有益效果在于，听觉测试系统中用于测试学生听力的测试音频可由教师来确定，且教师仅需完成测试音频的录音即可，而无需给出与该段测试音频的内容相对应的文字信息，系统即可对学生针对该测试音频所复述的内容进行评分，也即对学生的听觉能力进行评分，增加了测试音频的多样性，能够为不同听觉发育情况的学生量身定制测试内容，提高了测试的准确性和针对性。

可选的，根据待测文字序列与标准文字序列之间的匹配度，对待测音频流进行评分，包括：将标准文字序列和待测文字序列输入至逻辑评分模型中，得到待测音频流的评分值。

其中，逻辑评分模型用于对输入的标准文字序列和待测文字序列进行比对，输出对应的评分结果。具体的，逻辑评分模型可以是按照预设机器学习算法训练出来的模型。示例性的，将标准文字序列和待测文字序列输入至该逻辑评分模型中，其所输出评分结果为与标准文字序列和待测文字序列之间的匹配程度相对应的评分值。其中，评分值可以为逻辑回归评分值。

举一个具体例子，将待测文字序列“七八九”以及标准文字序列“七八九”输入至逻辑评分模型中，即可输出评分值为“达标”；将待测文字序列“七九八”以及标准文字序列“七八九”输入至逻辑评分模型中，即可输出评分值为“不达标”。

相应的，在根据待测文字序列与标准文字序列之间的匹配度，对待测音频流进行评分之前，还包括：获取标准文字序列样本以及标注有评分值的待测文字序列样本；基于标准文字序列样本以及待测文字序列样本对第三神经网络模型进行训练，得到逻辑评分模型。

示例性的，标准文字序列样本可以是从预设测试题库中随机抽取的音频流，其所对应的正确的文字序列。待测文字序列样本可以是针对该标准文字序列样本而人为确定的或从历史测试记录中提取的几种文字序列，包括相同的文字序列以及各种典型错误情况下的文字序列。具体的，可对每个待测文字序列样本进行评分值的标注，也即一个待测文字序列样本对应有一个评分值，标注方式可以为人工方式。例如，将对应于标准文字序列“四五六”的待测文字序列样本“四五六”标注为“达标”；而将对应于标准文字序列“四五六”的待测文字序列样本“四六五”标注为“不达标”。

本实施例中第三神经网络模型可以是基于人工神经网络算法建立的训练模型，例如深度神经网络(Deep Neural Network，DNN)。具体的，对第三神经网络模型进行训练的过程可以是调整各神经网络参数的过程，经过不断的训练，获得最优的神经网络参数，具有最优神经网络参数的第三神经网络模型即为最终要获得的模型。示例性的，在获得多组标准文字序列样本以及与其对应的标注有评分值的待测文字序列样本后，使用多组样本对第三神经网络模型进行训练，不断调整第三神经网络模型中的神经网络参数，使得第三神经网络模型具有对输入的标准文字序列以及待测文字序列之间的匹配程度进行识别的能力，从而获得逻辑评分模型。

本实施例的技术方案，通过从待测音频流中提取对应的特征数据，再根据该特征数据确定待测音频流中的待测文字序列，最后根据该待测文字序列与标准文字序列之间的匹配度对该待测音频流进行评分，利用自动提取和比对音频流中的文字序列来给音频流评分，解决了现有技术中的听觉测试因采用人工打分的方式，而导致的评分方式不仅效率低下、准确率低、浪费人力资源的问题，实现了提高音频流的评分效率和准确率，节约人力资源的效果。

实施例二

图2为本发明实施例二提供的一种音频流评分装置的结构示意图。参考图2，音频流评分装置包括：待测数据提取模块210、待测序列确定模块220以及序列匹配评分模块230，下面对各模块进行具体说明。

待测数据提取模块210，用于获取待测音频流，提取所述待测音频流对应的特征数据；

待测序列确定模块220，用于根据所述特征数据确定与所述待测音频流相匹配的待测文字序列；

序列匹配评分模块230，用于根据所述待测文字序列与标准文字序列之间的匹配度，对所述待测音频流进行评分。

可选的，音频流评分装置还可以包括：

标准数据提取模块，用于在根据所述待测文字序列与标准文字序列之间的匹配度，对所述待测音频流进行评分之前，获取标准音频流，提取所述标准音频流对应的特征数据；

标准序列确定模块，用于根据所述特征数据确定与所述标准音频流相匹配的文字序列，作为标准文字序列。

可选的，待测数据提取模块210具体可以用于：

按照预设算法获取所述待测音频流的音频信号特征；

将所述音频信号特征输入至特征检测模型中，得到与所述待测音频流对应的特征数据。

相应的，音频流评分装置还可以包括：

音频样本获取模块，用于在获取待测音频流，提取所述待测音频流对应的特征数据之前，获取标注有特征数据的音频流样本；

第一模型训练模块，用于基于所述音频流样本对第一神经网络模型进行训练，得到所述特征检测模型。

可选的，待测序列确定模块220具体可以用于：

将所述特征数据输入至序列检测模型中，得到与所述待测音频流相匹配的待测文字序列。

相应的，音频流评分装置还可以包括：

数据样本获取模块，用于在根据所述特征数据确定与所述待测音频流相匹配的待测文字序列之前，获取标注有文字时序的特征数据样本；

第二模型训练模块，用于基于所述特征数据样本对第二神经网络模型进行训练，得到所述序列检测模型。

可选的，序列匹配评分模块230具体可以用于：

将所述标准文字序列和所述待测文字序列输入至逻辑评分模型中，得到所述待测音频流的评分值。

相应的，音频流评分装置还可以包括：

序列样本获取模块，用于在根据所述待测文字序列与标准文字序列之间的匹配度，对所述待测音频流进行评分之前，获取标准文字序列样本以及标注有评分值的待测文字序列样本；

第三模型训练模块，用于在基于所述标准文字序列样本以及待测文字序列样本对第三神经网络模型进行训练，得到所述逻辑评分模型。

可选的，特征数据可以包括音节、音素和声调。

上述产品可执行本发明任意实施例所提供的方法，具备执行方法相应的功能模块和有益效果。

实施例三

图3为本发明实施例三提供的一种计算机设备的结构示意图，如图3所示，本实施例提供的一种计算机设备，包括：处理器31和存储器32。该计算机设备中的处理器可以是一个或多个，图3中以一个处理器31为例，所述计算机设备中的处理器31和存储器32可以通过总线或其他方式连接，图3中以通过总线连接为例。

本实施例中计算机设备的处理器31中集成了上述实施例提供的音频流评分装置。此外，该计算机设备中的存储器32作为一种计算机可读存储介质，可用于存储一个或多个程序，所述程序可以是软件程序、计算机可执行程序以及模块，如本发明实施例中音频流评分方法对应的程序指令/模块(例如，附图2所示的音频流评分装置中的模块，包括：待测数据提取模块210、待测序列确定模块220以及序列匹配评分模块230)。处理器31通过运行存储在存储器32中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述方法实施例中音频流评分方法。

存储器32可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据设备的使用所创建的数据等。此外，存储器32可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器32可进一步包括相对于处理器31远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

并且，当上述计算机设备所包括一个或者多个程序被所述一个或者多个处理器31执行时，程序进行如下操作：

获取待测音频流，提取待测音频流对应的特征数据；根据特征数据确定与待测音频流相匹配的待测文字序列；根据待测文字序列与标准文字序列之间的匹配度，对待测音频流进行评分。

实施例四

本发明实施例四还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被音频流评分装置执行时实现如本发明实施例一提供的音频流评分方法，该方法包括：获取待测音频流，提取待测音频流对应的特征数据；根据特征数据确定与待测音频流相匹配的待测文字序列；根据待测文字序列与标准文字序列之间的匹配度，对待测音频流进行评分。

当然,本发明实施例所提供的一种计算机可读存储介质,其上存储的计算机程序被执行时不限于实现如上所述的方法操作,还可以实现本发明任意实施例所提供的音频流评分方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述音频流评分装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种音频流评分方法，其特征在于，包括：

获取待测音频流，提取所述待测音频流对应的特征数据；

2.根据权利要求1所述的方法，其特征在于，在根据所述待测文字序列与标准文字序列之间的匹配度，对所述待测音频流进行评分之前，还包括：

获取标准音频流，提取所述标准音频流对应的特征数据；

根据所述特征数据确定与所述标准音频流相匹配的文字序列，作为标准文字序列。

3.根据权利要求1或2所述的方法，其特征在于，所述提取所述待测音频流对应的特征数据，包括：

按照预设算法获取所述待测音频流的音频信号特征；

将所述音频信号特征输入至特征检测模型中，得到与所述待测音频流对应的特征数据；

相应的，在获取待测音频流，提取所述待测音频流对应的特征数据之前，还包括：

获取标注有特征数据的音频流样本；

基于所述音频流样本对第一神经网络模型进行训练，得到所述特征检测模型。

4.根据权利要求1或2所述的方法，其特征在于，所述根据所述特征数据确定与所述待测音频流相匹配的待测文字序列，包括：

将所述特征数据输入至序列检测模型中，得到与所述待测音频流相匹配的待测文字序列；

相应的，在根据所述特征数据确定与所述待测音频流相匹配的待测文字序列之前，还包括：

获取标注有文字时序的特征数据样本；

基于所述特征数据样本对第二神经网络模型进行训练，得到所述序列检测模型。

5.根据权利要求1或2所述的方法，其特征在于，所述根据所述待测文字序列与标准文字序列之间的匹配度，对所述待测音频流进行评分，包括：

将所述标准文字序列和所述待测文字序列输入至逻辑评分模型中，得到所述待测音频流的评分值；

相应的，在根据所述待测文字序列与标准文字序列之间的匹配度，对所述待测音频流进行评分之前，还包括：

获取标准文字序列样本以及标注有评分值的待测文字序列样本；

基于所述标准文字序列样本以及待测文字序列样本对第三神经网络模型进行训练，得到所述逻辑评分模型。

6.根据权利要求1所述的方法，其特征在于，所述特征数据包括音节、音素和声调。

7.一种音频流评分装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，还包括：

9.一种计算机设备，其特征在于，所述设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-6中任一所述的音频流评分方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6中任一所述的音频流评分方法。