CN110797010A

CN110797010A - 基于人工智能的问答评分方法、装置、设备及存储介质

Info

Publication number: CN110797010A
Application number: CN201911051629.8A
Authority: CN
Inventors: 黄江泉; 林炳怀; 方俊
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-10-31
Filing date: 2019-10-31
Publication date: 2020-02-14

Abstract

本发明提供了一种基于人工智能的问答评分方法、装置、设备及存储介质，涉及人工智能技术，方法包括：接收用户回答问题的音频内容，进行语音识别得到音频内容的音频特征和文本内容；基于音频特征、文本内容以及参考文本，从至少一个维度提取对应音频内容的发音质量特征，基于提取的发音质量特征确定表征音频内容的发音质量的发音评分；对文本内容以及参考文本进行相似度分析，确定表征音频内容的正确度的相似度评分，对文本内容进行语法检测，确定表征音频内容的语法质量的语法评分；将发音评分，相似度评分以及语法评分进行融合处理，确定对应音频内容的综合评分。通过本发明，能够解决仅使用关键词检测来评分所导致评分不准确和不全面的问题。

Description

基于人工智能的问答评分方法、装置、设备及存储介质

技术领域

本发明涉及人工智能技术，尤其涉及一种基于人工智能的问答评分方法、装置、设备及存储介质。

背景技术

人工智能(AI，Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统。

深度学习(DL，Deep Learning)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习和归纳学习等技术。

越来越多的人工智能产品具备问答评分的功能，问答评分可以应用于各种语音评分系统，例如，百科问答系统，语言教育应用的语言测试系统，口语考试系统等等，对于口语考试系统而言，越来越多的省市将英语口语考试加入到中考和高考的考试范围，口语考试规模的日益增大使得大量考生的口语数据需要进行评分，这就需要大量的口语考试老师。但由于口语考试老师的人数有限且评分成本高，人工评分也比较主观，两次评分间的随机性比较大，在长时间评分后，容易出现疲劳现象，影响评分的结果，英语口语考试智能测评系统是采用人机对话的方式，考生只需通过计算机和耳麦设备即可完成对口语试题的作答与全自动智能评分。

发明内容

本发明实施例提供一种基于人工智能的问答评分方法、装置及存储介质，能够解决仅使用关键词检测来评分所导致的评分不准确和不全面的问题。

本发明实施例的技术方案是这样实现的：

本发明实施例提供一种基于人工智能的问答评分方法，包括：

接收用户回答问题的音频内容，进行语音识别得到所述音频内容的音频特征和文本内容；

基于所述音频特征、所述文本内容以及参考文本，从至少一个维度提取对应所述音频内容的发音质量特征，并基于所提取的发音质量特征确定表征所述音频内容的发音质量的发音评分；

对所述文本内容以及所述参考文本进行相似度分析，以确定表征所述音频内容的正确度的相似度评分，

并对所述文本内容进行语法检测，以确定表征所述音频内容的语法质量的语法评分；

将所述发音评分，所述相似度评分以及所述语法评分进行融合处理，以确定对应所述音频内容的综合评分。

本发明实施例提供一种基于人工智能的问答评分装置，包括：

语音识别模块，用于接收用户回答问题的音频内容，进行语音识别得到所述音频内容的音频特征和文本内容；

发音评分模块，用于基于所述音频特征、所述文本内容以及参考文本，从至少一个维度提取对应所述音频内容的发音质量特征，并基于所提取的发音质量特征确定表征所述音频内容的发音质量的发音评分；

相似度与语法评分模块，用于对所述文本内容以及所述参考文本进行相似度分析，以确定表征所述音频内容的正确度的相似度评分，并对所述文本内容进行语法检测，以确定表征所述音频内容的语法质量的语法评分；

综合评分模块，用于将所述发音评分，所述相似度评分以及所述语法评分进行融合处理，以确定对应所述音频内容的综合评分。

在上述方案中，所述至少一个维度包括：准确度、完整度、流利度以及韵律度，所述发音评分模块，还用于：

获取对应所述问题的参考文本；

基于所述音频特征、所述文本内容以及所述参考文本，提取对应所述音频内容的准确度特征，以确定对应所述音频内容的准确度评分；

将所述文本内容与所述参考文本比对，提取对应所述音频内容的完整度特征，以确定对应所述音频内容的完整度评分；

从所述音频特征中提取流利度特征以及韵律度特征，以确定对应所述音频内容的流利度评分和韵律度评分；

基于所述准确度评分、所述完整度评分、所述流利度评分和所述韵律度评分，确定表征所述音频内容的发音质量的发音评分。

在上述方案中，所述发音评分模块，还用于：

基于所述文本内容以及所述参考文本，确定所述文本内容和所述参考文本之间的内容相似度；

基于所述参考文本，确定对应所述参考文本的参考音频特征；

将所述音频特征和所述参考音频特征比对，以确定对应所述音频内容的发音准确度；

基于所述内容相似度和所述发音准确度，提取对应所述音频内容的准确度特征，以确定对应所述音频内容的准确度评分。

在上述方案中，所述相似度与语法评分模块，还用于：

获取对应所述问题的参考文本；

从所述文本内容中提取对应所述文本内容的文本内容特征，并从所述参考文本中提取对应所述参考文本的参考文本特征。

根据所述文本内容特征以及所述参考文本特征，确定对应所述音频内容的表征内容正确度的相似度特征；

基于所述相似度特征，确定表征所述音频内容的正确度的相似度评分。

在上述方案中，所述相似度与语法评分模块，还用于：

确定对应所述文本内容特征的文本内容向量，并确定对应所述参考文本特征的参考文本向量；

基于所述文本内容向量以及所述参考文本向量，确定对应所述音频内容的表征内容正确度的相似度特征。

在上述方案中，所述相似度与语法评分模块，还用于：

从所述文本内容中提取对应所述文本内容的文本内容词向量，并预测对应所述文本内容词向量的目标词向量；

当所述文本内容词向量和所述目标词向量不一致时，确定检测到语法错误；

基于所述语法错误的出现次数，确定对应所述音频内容的语法评分。

在上述方案中，所述综合评分模块，还用于：

分别确定对应所述发音评分，所述相似度评分以及所述语法评分的权重；

根据对应的权重，对所述发音评分，所述相似度评分以及所述语法评分进行加权计算，得到对应所述音频内容的综合评分。

在上述方案中，所述装置还包括：

训练模块，用于：

基于问答语料库，构建训练样本集合；

确定所述训练样本集合，训练用于进行语音识别得到所述音频内容的音频特征和文本内容的语音识别模型；

确定所述训练样本集合，训练用于获取表征所述音频内容的发音质量的发音评分的发音质量评测模型；

确定所述训练样本集合，训练用于获取表征所述文本内容的正确度的相似度评分的语义相似度评测模型；

确定所述训练样本集合，训练用于获取表征所述音频内容的语法质量的语法评分的语法纠错模型。

在上述方案中，所述训练模块，还用于：

初始化所述语音识别模型，并初始化包括输入样本、输入样本音频特征、文本内容以及所述语音识别模型参数的损失函数；

在所述语音识别模型每次迭代训练过程中执行以下处理：

将所述训练样本集合包括的母语音频内容和非母语音频内容作为输入样本，基于所述语音识别模型对所述输入样本进行音频特征提取，得到所述输入样本音频特征；

确定所述语音识别模型对所述输入样本进行文本转换，得到所述文本内容；

将所述输入样本、所述输入样本音频特征和所述文本内容代入所述损失函数，以确定所述损失函数取得最小值时对应的语音识别模型参数；

根据所确定的语音识别模型参数更新所述语音识别模型。

在上述方案中，所述训练模块，还用于：

初始化所述发音质量评测模型，并初始化包括输入样本、输入样本音频评分以及所述发音质量评测模型参数的损失函数；

在所述发音质量评测模型每次迭代训练过程中执行以下处理：

将所述训练样本集合包括的具备评分的音频内容作为输入样本，基于所述发音质量评测模型对所述输入样本进行评分，得到所述输入样本音频评分；

将所述输入样本、所述输入样本音频评分代入所述损失函数，以确定所述损失函数取得最小值时对应的发音质量评测模型参数；

基于所确定的发音质量评测模型参数更新所述发音质量评测模型。

在上述方案中，所述训练模块，还用于：

初始化所述语义相似度评测模型，并初始化包括输入样本、语义相似度以及所述语义相似度评测模型参数的损失函数；

在所述语义相似度评测模型每次迭代训练过程中执行以下处理：

将所述训练样本集合包括的文本内容和参考文本作为输入样本，基于所述语义相似度评测模型对所述输入样本进行相似度预测，得到所述文本内容和所述参考文本之间的语义相似度；

将所述输入样本、所述语义相似度代入所述损失函数，以确定所述损失函数取得最小值时对应的语义相似度评测模型参数；

基于所确定的语义相似度评测模型参数更新所述语义相似度评测模型。

在上述方案中，所述训练模块，还用于：

初始化所述语法纠错模型，并初始化包括输入样本、语法错误程度以及所述语法纠错模型参数的损失函数；

在所述语法纠错模型每次迭代训练过程中执行以下处理：

将所述训练样本集合包括的文本内容作为输入样本，基于所述语法纠错模型对所述输入样本进行语法识别，得到所述语法错误程度；

将所述输入样本、所述语法错误程度代入所述损失函数，以确定所述损失函数取得最小值时对应的语法纠错模型参数；

基于所确定的语法纠错模型参数更新所述语法纠错模型。

本发明实施例提供一种基于人工智能的问答评分设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本发明实施例提供的基于人工智能的问答评分方法。

本发明实施例提供一种存储介质，存储有可执行指令，用于引起处理器执行时，实现本发明实施例提供的基于人工智能的问答评分方法。

本发明实施例具有以下有益效果：

通过本发明实施例提供的基于人工智能的问答评分方法，对用户回答问题的音频内容的发音、正确度以及与语法进行评分，并基于发音评分、正确度评分以及语法评分获得最终的综合评分，以形成多维度，更完善的评分体系。

附图说明

图1A是相关技术提供的语音问答的题型示意图；

图1B是相关技术提供的语音问答的题型的示意图；

图2是本发明实施例提供的基于人工智能的问答评分系统100的一个可选的架构示意图；

图3是本发明实施例提供的基于人工智能的问答评分的服务器200的结构示意图；

图4是本发明实施例提供的基于人工智能的问答评分装置255的结构示意图；

图5是本发明实施例提供的基于人工智能的问答评分方法的一个可选的流程示意图；

图6A-6D是本发明实施例提供的基于人工智能的问答评分方法的一个可选的流程示意图；

图7A是本发明实施例提供的表征发音质量的发音评分的接口测试页面和返回结果信息示意图；

图7B是本发明实施例提供的表征正确度的相似度评分的接口测试页面和返回结果信息示意图；

图7C是本发明实施例提供的发音评分、相似度评分以及语法评分的接口测试页面和返回结果信息示意图；

图8A是本发明实施例提供的发音质量评分流程图；

图8B是本发明实施例提供的相似度评分流程图；

图8C是本发明实施例提供的综合评分流程图；

图9是本发明实施例提供的基于人工智能的问答评分系统的处理器架构图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本发明实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的，不是旨在限制本发明。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

1)语音识别技术：自动语音识别(ASR，Automatic Speech Recognition)，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。

在相关技术的语音问答系统中，利用关键词匹配的方式来处理系统接收到的用户回答问题的音频内容，即在参考文本中预先定义了若干关键词，只要用户回答问题的音频内容的内容能匹配上这些关键词，即可输出较高的分数，如果关键词没有被命中，即使用户回答问题的音频内容的内容和参考文本语义相近，系统也只会输出较低的分数。

以下面的一道问答题为例，参见图1A，图1A是相关技术提供的语音问答的题型示意图，对话内容为：W：由于坏天气，我们昨天没有去美国(W:We didn’t go to Americayesterday because of the bad weather)，M：唉，真不幸，昨天下了很大的雨(M:Oh,badluck.It rained heavily yesterday)，Q：昨天是什么天气(Q:What was the weatherlike yesterday)，如果用户回答问题的音频内容为“昨天下雨了”(“It rained”)，“昨天下了很大的雨”(“It rained he avily”)，该用户回答问题的音频内容能得到较高的分数，即使用户回答问题的音频内容为“今天下雨了”(“It rained today”)或“昨天没有下雨”(“Itdidn’t rained yesterday”)，该用户回答问题的音频内容也能得到同样的分数，而这些用户回答问题的音频内容显然是错误的，另外，若用户回答问题的音频内容为“昨天下了倾盆大雨”(“It was pouring”)，这种用户回答问题的音频内容和参考文本同义，但是系统输出的分数会接近0，这显然非常不合理。

以下面一道问答题为例，参见图1B，图1B是相关技术提供的语音问答的题型示意图，相关技术中主要使用关键词匹配的方案来处理接收到的转述答案，首先对接收到的转述答案中的关键词进行匹配，再根据关键词的顺序来计算转述答案的连贯性，最后输出半开放转述题型的得分，这种评分方式存在和上述题型评分方式一样的问题，且没有考虑转述答案中的语法错误，若转述答案仅是对关键词进行拼凑，该转述答案同样能得到较高的分数。

问答评分系统可以应用在多个场景中，以中考口语考试为例，口语考试的主要题型有三类：短文(段落)朗读，问答(听后回答)和半开放题型(听后转述/看图转述等)，在短文朗读题型中，考生被要求大声读一段文本，用于测试考生对语音、句子重音、连读、不完全爆破、意群和停顿、升降调的把握及流畅程度，由于该题型的文本固定。因此相对于其他题型。更适合于使用机器进行自动批量评分。

相关技术中已经有系统能对短文朗读题型进行机器评分，主要是输出总分或者分准确度、完整度和流利度三个维度输出，并没有输出考察句子重音、意群和停顿、升降调的韵律度分数，评分的完整性有所缺失。而相关技术中能对问答题型和半开放题型进行机器评分的系统，主要使用关键词检测的方法来实现，会存在前述的问题。

相关技术中的考试系统对于问答题型和半开放转述题型，大都采用上述关键词检测的方法来评分，这种方法会对含有关键词的错误回答给出过高的分数，而对不包含关键词的正确答案给出过低的分数，同时不能发现回答中的语法等错误并扣除相应分数，使得最终给出的分数不符合评分规则。

为了解决这个问题，本发明实施例提出使用基于深度学习的语义相似度模型，来判断应试者的答案与参考文本的相似度，计算语义相似度得分；使用基于深度学习的语法纠错模型，检查答案中的语法错误，计算语法正确性得分；使用基于深度学习的发音评测模型，计算回答的发音准确度和流利度得分。综合前述所有分数，得到针对各个回答的最终得分。本发明实施例提供了一种在问答评分系统中，对用户回答的音频内容进行自动打分的方法，首先使用基于大量母语者和非母语者语料训练得到的自动语音识别模型，对应试者回答的音频内容进行语音识别，得到应试者回答的文本内容及相关的音频特征；将前述的文本内容和音频特征分别经过使用基于深度学习的发音评测模型进行发音准确度、完整度、流利度和韵律度打分，语义相似度模型进行语义相似度打分，和语法纠错模型对回答中的语法错误进行识别并给出语法打分，综合各个分数后可得到针对语音回答的最终得分。由于评分过程中考虑了发音准确度、流利度和回答与参考文本的相似度及语法正确性，使得最终的分数更加贴近评分规则，符合评分系统使用方的预期。本发明实施例提供的技术方案完全避免了前述的问题，可以准确完整的对目前各种考试中的常见题型进行准确、完整的机器自动评分，评分速度快且准确性高，与人工评分的相关度高。

本发明实施例提供一种基于人工智能的问答评分方法、装置、设备和存储介质，能够解决解决仅使用关键词检测来评分所导致的评分不准确和不全面的问题，下面说明本发明实施例提供的基于人工智能的问答评分设备的示例性应用，本发明实施例提供的设备可以实施为笔记本电脑，平板电脑，台式计算机，机顶盒，移动设备(例如，移动电话，便携式音乐播放器，个人数字助理，专用消息设备，便携式游戏设备)等各种类型的用户终端，也可以实施为服务器。下面，将说明设备实施为服务器时的示例性应用。

参见图2，图2是本发明实施例提供的基于人工智能的问答评分系统100的一个可选的架构示意图，终端400通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合。服务器200接收终端400发送的用户回答问题的音频内容，并对音频内容进行语音识别处理得到音频特征和由音频内容转化得到的文本内容，服务器200还可以接收到由终端400发送的参考文本，或者从数据库500中读取参考文本，基于音频特征、文本内容以及参考文本对用户回答问题的音频内容进行评分，并将各个维度的评分返回给终端400，并在终端400的显示界面进行展示。

参见图3，图3是本发明实施例提供的基于人工智能的问答评分服务器200的结构示意图，图3所示的服务器200包括：至少一个处理器210、存储器250、至少一个网络接口220和用户接口230。服务器200中的各个组件通过总线系统240耦合在一起。可理解，总线系统240用于实现这些组件之间的连接通信。总线系统240除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图3中将各种总线都标为总线系统240。

处理器210可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口230包括使得能够呈现媒体内容的一个或多个输出装置231，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口230还包括一个或多个输入装置232，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器250可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器250可选地包括在物理位置上远离处理器210的一个或多个存储设备。

存储器250包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Me mory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memor y)。本发明实施例描述的存储器250旨在包括任意适合类型的存储器。

在一些实施例中，存储器250能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统251，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块252，用于经由一个或多个(有线或无线)网络接口220到达其他计算设备，示例性的网络接口220包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

呈现模块253，用于经由一个或多个与用户接口230相关联的输出装置231(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作外围设备和显示内容和信息的用户接口)；

输入处理模块254，用于对一个或多个来自一个或多个输入装置232之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本发明实施例提供的人工智能的问答评分装置可以采用软件方式实现，图3示出了存储在存储器250中的基于人工智能的问答评分装置255，其可以是程序和插件等形式的软件，包括以下软件模块：语音识别模块2551、发音评分模块2552、相似度与语法评分模块2553、综合评分模块2554和训练模块255，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分，将在下文中说明各个模块的功能。

在另一些实施例中，本发明实施例提供的人工智能的问答评分装置可以采用硬件方式实现，作为示例，本发明实施例提供的人工智能的问答评分装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本发明实施例提供的基于人工智能的问答评分方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，ProgrammableLogic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(F PGA，Field-Programmable Gate Array)或其他电子元件。

参见图4，图4是本发明实施例提供的基于人工智能的问答评分装置255的结构示意图。在基于人工智能的问答评分装置255的架构中，包括：训练模块2555和用于支撑评分的模块，训练模块2555分别负责训练语音识别模型、发音评分模型、相似度与语法评分模型，在进行问答评分时，所使用的模块是语音识别模块2551、发音评分模块2552、相似度与语法评分模块2553，语音识别模块具备经过训练的语音识别模型，发音评分模块包括发音评测模块以及对应的评分模块，而发音评分模块中具备发音评分模型，可以输出不同维度的评分，相似度评分模块中包括相似度评测模块和对应的评分模块，相似度评分模块中包括语义相似度评分模型，语法评分模块中包括语法纠错模块以及对应的评分模块，语法评分模块中具备语法评分模型。语音识别模块2551将音频特征和文本内容输出到各个评分模块中，由各个评分模块输出各个维度的评分，并通过综合评分模块2554得到综合评分。

本发明实施例提供的基于人工智能的问答评分方法可以应用在本地客户端上，以客户端的形式安装在终端设备上，与集成客户端的基本功能整合为一体，使客户端具备本地问答评分的功能，其也可以作为相关客户端的插件，根据需要下载到客户端后进行本地使用，以上这种部署方式中，问答评分系统可以直接在本地完成所有评分过程，不需要接入外部网络，可保证数据的绝对安全；该问答评分方法也可以应用在云端，使用评分方法的问答系统通过网络调用云端的评分接口，将用户的回答发送给云端的服务器设备，服务器设备通过网络返回相应的评分信息。

本发明实施例提供的基于人工智能的问答评分方法可以应用于各种语音问答评分场景，例如，脑筋急转弯的问答系统，由语音机器人给出问题，用户回答并获得评分；例如各种语言教育客户端，由语音机器人给出问题，用户可以对自己的语音水平进行评测，百科知识问答系统，同样由语音机器人给出问题，由用户回答并获得评分。

下面将结合本发明实施例提供的服务器的示例性应用和实施，说明本发明实施例提供的基于人工智能的问答评分方法。分两个阶段说明本发明实施例提供的基于人工智能的问答评分方法，第一阶段为相关模型训练阶段，第二阶段为进行问答评分阶段。

接下来对相关模型训练阶段进行详细说明。

参见图5，图5是本发明实施例提供的基于人工智能的问答评分方法的一个可选的流程示意图，将结合图5示出的步骤101-105进行说明。

在步骤101中，基于问答语料库，构建训练样本集合。

这里的问答语料库可以是公共的问答语料库，也可以是私有语料库，语料库中包括母语语料以及非母语语料，语料库中包括不同问答场景下会可能使用到的语料资源。

在步骤102中，确定训练样本集合，训练用于进行语音识别得到音频内容的音频特征和文本内容的语音识别模型。

在一些实施例中，步骤102中确定训练样本集合，训练用于进行语音识别得到音频内容的音频特征和文本内容的语音识别模型，可以通过下述技术方案实现，初始化语音识别模型，并初始化包括输入样本、输入样本音频特征、文本内容以及语音识别模型参数的损失函数；在语音识别模型每次迭代训练过程中执行以下处理：将训练样本集合包括的母语音频内容和非母语音频内容作为输入样本，基于语音识别模型对输入样本进行音频特征提取，得到输入样本音频特征；确定语音识别模型对输入样本进行文本转换，得到文本内容；将输入样本、输入样本音频特征和文本内容代入损失函数，以确定损失函数取得最小值时对应的语音识别模型参数；根据所确定的语音识别模型参数更新语音识别模型。

在一些实施例中，语音识别模型中包括前端处理，特征提取，模型训练，解码四个模块，其中前端处理包括了，语音转码模块，高通滤波模块，端点检测模块等模块，输入的语音数据流经过前端处理(语音格式转码，高通，端点检测)，语音格式转码是将输入的语音数据转成特定格式的语音，端点检测是检测出转码后语音中的有效语音，这样对解码速度和识别率上都会改善，经过前端处理之后的得到的分段语音数据送入特征提取模块，进行声学特征提取。最后解码模块对提取的特征数据进行解码，解码过程中利用发音字典，声学模型，语言模型等信息构建搜索空间，在搜索空间内寻找匹配概率最大的最优路径，便得到最优的识别结果。

在步骤103中，确定训练样本集合，训练用于获取表征音频内容的发音质量的发音评分的发音质量评测模型。

在一些实施例中，步骤103中确定训练样本集合，训练用于获取表征音频内容的发音质量的发音评分的发音质量评测模型，可以具体通过如下技术方案实现，初始化发音质量评测模型，并初始化包括输入样本、输入样本音频评分以及发音质量评测模型参数的损失函数；在发音质量评测模型每次迭代训练过程中执行以下处理：将训练样本集合包括的具备评分的音频内容作为输入样本，基于发音质量评测模型对输入样本进行评分，得到输入样本音频评分；将输入样本、输入样本音频评分代入损失函数，以确定损失函数取得最小值时对应的发音质量评测模型参数；基于所确定的发音质量评测模型参数更新发音质量评测模型。

这里的发音质量包括发音准确度，完整度，流利度以及韵律度，因此，需要根据准确度，完整度，流利度以及韵律度这四个维度从构建的训练样本集合中确定训练样本集合，训练样本集合中包括不同韵律度的音频数据，不同流利度的音频数据，不同完整度的音频数据，这里的完整度指的是音频内容的完整度，在一些模型中，完整度还可以用于表征某个最小基本单元对应的音标或者拼音是否完整发出，这里的准确度则是用于表征最小基本单元是否读音准确。

在步骤104中，确定训练样本集合，训练用于获取表征文本内容的正确度的相似度评分的语义相似度评测模型。

在一些实施例中，步骤104中确定训练样本集合，训练用于获取表征文本内容的正确度的相似度评分的语义相似度评测模型，可以具体通过下述技术方案实现，初始化语义相似度评测模型，并初始化包括输入样本、语义相似度以及语义相似度评测模型参数的损失函数；在语义相似度评测模型每次迭代训练过程中执行以下处理：将训练样本集合包括的文本内容和参考文本作为输入样本，基于语义相似度评测模型对输入样本进行相似度预测，得到文本内容和参考文本之间的语义相似度；将输入样本、语义相似度代入损失函数，以确定损失函数取得最小值时对应的语义相似度评测模型参数；基于所确定的语义相似度评测模型参数更新语义相似度评测模型。

在一些实施例中，为了使用基于深度学习的模型处理单词，因此，以数字的形式表示文本，以便模型在计算中使用，用向量代表单词，同时向量还可以捕捉语义信息以及语法信息，并且，通过大量的文本数据进行预训练学习词嵌入，而不是从小数据集上从零开始训练。

在步骤105中，确定训练样本集合，训练用于获取表征音频内容的语法质量的语法评分的语法纠错模型。

在一些实施例中，步骤105中确定训练样本集合，训练用于获取表征音频内容的语法质量的语法评分的语法纠错模型，可以具体通过下述技术方案实现，初始化语法纠错模型，并初始化包括输入样本、语法错误程度以及语法纠错模型参数的损失函数；在语法纠错模型每次迭代训练过程中执行以下处理：将训练样本集合包括的文本内容作为输入样本，基于语法纠错模型对输入样本进行语法识别，得到语法错误程度；将输入样本、语法错误程度代入损失函数，以确定损失函数取得最小值时对应的语法纠错模型参数；基于所确定的语法纠错模型参数更新语法纠错模型。

接下来对问答评分阶段进行详细说明。

参见图6A，图6A是本发明实施例提供的基于人工智能的问答评分方法的一个可选的流程示意图，将结合图6A示出的步骤201-204进行说明。

在步骤201中，接收用户回答问题的音频内容，进行语音识别得到音频内容的音频特征和文本内容。

在步骤202中，基于音频特征、文本内容以及参考文本，从至少一个维度提取对应音频内容的发音质量特征，并基于所提取的发音质量特征确定表征音频内容的发音质量的发音评分。

参见图6B，基于图6A，至少一个维度包括：准确度、完整度、流利度以及韵律度，步骤202中基于音频特征、文本内容以及参考文本，从至少一个维度提取对应音频内容的发音质量特征，并基于所提取的发音质量特征确定表征音频内容的发音质量的发音评分，可以通过下述步骤2021-2025具体实现。

在步骤2021中，获取对应问题的参考文本。

在步骤2022中，基于音频特征、文本内容以及参考文本，提取对应音频内容的准确度特征，以确定对应音频内容的准确度评分。

在一些实施例中，步骤2022中，基于音频特征、文本内容以及参考文本，提取对应音频内容的准确度特征，以确定对应音频内容的准确度评分，可以通过下述技术方案具体实现，基于文本内容以及参考文本，确定文本内容和参考文本之间的内容相似度，基于参考文本，确定对应参考文本的参考音频特征，将音频特征和参考音频特征比对，以确定对应音频内容的发音准确度，基于内容相似度和发音准确度，提取对应音频内容的准确度特征，以确定对应音频内容的准确度评分。

这里的发音质量包括发音准确度，完整度，流利度以及韵律度，对于发音准确度而言，发音准确度包括对于音频数据中的最小单元的发音准确度进行评价，对最小单元的发音准确度进行评价的基础是最小单元和参考文本中的最小单元一一对应，因此，对发音准确度的评价不局限于对音频特征进行准确度评价，还需要将文本内容与参考文本进行比对评价。

在步骤2023中，将文本内容与参考文本比对，提取对应音频内容的完整度特征，以确定对应音频内容的完整度评分。

在步骤2024中，从音频特征中提取流利度特征以及韵律度特征，以确定对应音频内容的流利度评分和韵律度评分。

在步骤2025中，基于准确度评分、完整度评分、流利度评分和韵律度评分，确定表征音频内容的发音质量的发音评分。

这里的准确度评分，完整度评分、流利度评分以及韵律度评分会被分配不同的权重，根据对应各个维度的不同权重，获得表征整体发音质量的发音评分。

在步骤203中，对文本内容以及参考文本进行相似度分析，以确定表征音频内容的正确度的相似度评分，并对文本内容进行语法检测，以确定表征音频内容的语法质量的语法评分。

参见图6C，基于图6A，步骤203中，对文本内容以及参考文本进行相似度分析，以确定表征音频内容的正确度的相似度评分，可以通过下述步骤2031-2034具体实现。

在步骤2031中，获取对应问题的参考文本。

在步骤2032中，从文本内容中提取对应文本内容的文本内容特征，并从参考文本中提取对应参考文本的参考文本特征。

在步骤2033中，根据文本内容特征以及参考文本特征，确定对应音频内容的表征内容正确度的相似度特征。

在一些实施例中，步骤2033中根据文本内容特征以及参考文本特征，确定对应音频内容的表征内容正确度的相似度特征，可以具体通过如下技术方案实现，确定对应文本内容特征的文本内容向量，并确定对应参考文本特征的参考文本向量；基于文本内容向量以及参考文本向量，确定对应音频内容的表征内容正确度的相似度特征。

在步骤2034中，基于相似度特征，确定表征音频内容的正确度的相似度评分。

参见图6D，基于图6A，步骤203中，对文本内容进行语法检测，以确定表征音频内容的语法质量的语法评分，可以通过下述步骤2035-2037具体实现。

在步骤2035中，从文本内容中提取对应文本内容的文本内容词向量，并预测对应文本内容词向量的目标词向量。

在步骤2036中，当文本内容词向量和目标词向量不一致时，确定检测到语法错误。

在步骤2037中，基于语法错误的出现次数，确定对应音频内容的语法评分。

在一些实施例中，对于某一类错误，通过基于深度学习的模型学习文本内容中的目标词上下文的向量表示，然后通过上下文的向量预测该目标词。如果预测结果不同于原始目标词，原词被标记为错误。

在步骤204中，将发音评分，相似度评分以及语法评分进行融合处理，以确定对应音频内容的综合评分。

在一些实施例中，步骤204中将发音评分，相似度评分以及语法评分进行融合处理，以确定对应音频内容的综合评分，具体通过下述技术方案实现，分别确定对应发音评分，相似度评分以及语法评分的权重；根据对应的权重，对发音评分，相似度评分以及语法评分进行加权计算，得到对应音频内容的综合评分。

下面，将说明本发明实施例在一个实际的应用场景中的示例性应用。

本发明实施例提供的基于人工智能的问答评分方法可以应用于口语考试系统中，用于在考生答题完成后，对考生的回答进行自动评分，评分过程既可以将整个评分模块部署在本地，作为考试系统的一个插件，考试系统可以直接在本地完成所有评分过程，不需要接入外部网络，可保证数据的绝对安全；也可以把评分模块部署在云端，考试系统通过网络调用云端的评分接口，将考生的回答发送给评分模块，评分模块通过网络返回相应的评分信息。

参见图7A-7C，图7A是本发明实施例提供的表征发音质量的发音评分的接口测试页面和返回结果信息示意图，图7B是本发明实施例提供的表征正确度的相似度评分的接口测试页面和返回结果信息示意图，图7C是本发明实施例提供的发音评分、相似度评分以及语法评分的接口测试页面和返回结果信息示意图，作为返回结果的一种形式。

发音评分中返回了发音准确度(pronunciation)，发音完整度(integrity)，发音流利度(fluency)和发音韵律度(prosody)评分结果，还提供了每个单词在音频内容中的起始时间信息。相似度评分中返回了语义相似度(similarity)评分结果。在一些场景下，需要返回包括发音评分、相似度评分以及语法评分的综合评分，返回了包括发音准确度(pronunciation)，发音完整度(integrity)，发音流利度(fluency)，发音韵律度(prosody)的发音评分，语义相似度(kpS core)和流畅度(coherence)评分，语法评分(gec_score)，最后的总分(final_score)等信息。

根据具体产品形态的不同，比如在作为考试系统的插件在本地部署，在云端部署或者在考试练习系统应用客户端中集成，其具体返回结果和展示形态可以变化，这里不再一一列举。

下面详细说明本发明实施例中针对不同评分维度的评分流程，参见图8A-8C，图8A是本发明实施例提供的发音质量评分流程图；图8B是本发明实施例提供的相似度评分流程图；图8C是本发明实施例提供的综合评分流程图。

对于发音质量评分，需要将考生回答的音频内容和与问题相关的参考文本输入给语音识别系统，语音识别系统使用了经过大量语音数据训练过的深度模型，可以准确提取考生回答问题的音频特征，将这些音频特征和由音频内容转化得到的文本内容输入到发音评测模块，发音评测模块使用的深度模型，经过大量人工评分的音频数据训练得到，和人工评分的相关度非常高，发音评测模块最终可以输出发音准确度、完整度、流利度和韵律度这四个维度的评分结果，将这四个维度的分数输入评分模块，从而计算出针对发音质量的发音评分，以作为文本朗读题型分数。

对于相似度评分，需要将考生回答的音频内容和与问题相关的参考文本输入给语音识别系统，基于参考文本，建立语音识别系统，从而提高从音频内容中生成的识别得到文本内容的准确度，将语音识别系统输出的识别得到的文本内容和参考文本一起输入到语义相似度评测模块，语义相似度评测模块使用了转换器的双向编码器表示(BERT，Bidirectional Encoder Representations from Transformers)的相似度预测模型，可以输出识别得到的文本内容和参考文本间的语义相似度，将文本内容和参考文本间的语义相似度信息输入到评分模块中，得到最终的表征正确度的相似度评分，以作为问答题型分数。

在一些场景下，所需要涉及到的评分维度较多，例如对于口语考试中的转述题型，不仅需要考虑发音评分，还需要考虑正确度相关的相似度评分以及语法评分，首先将回答问题的音频内容和参考文本输入到语音识别系统中，得到由音频内容得到的文本内容和对应于音频内容的音频特征。将音频特征输入到发音评测模块中，此发音评测模块与上述发音评测模块相同，将发音评测模块输出的准确度、完整度、流利度和韵律度分数输入到评分模块中，得到发音评分。将识别得到的文本内容和参考文本输入到语义相似度评测模块中，这里的语义相似度评测模块与上述语义相似度评测模块相同，将语义相似度评测模块输出的相似度信息输入到对应的评分模块，得到相似度和连贯性的评分结果。将识别得到的文本内容输入到语法纠错模块中，语法纠错模块使用了基于转换器的语法纠错深度学习模型，可以得到识别得到的文本内容中的语法错误信息，将前述语法错误信息输入到对应的评分模块中，评分模块会根据语法错误的严重程度，语法错误的个数等计算最终的语法评分结果。最后把发音评分结果、相似度/连贯性评分结果和语法评分结果一起输入到综合评分模块中，汇总得到综合评分，以作为转述题型分数。

由于语义相似度评测模块和语法纠错模块中使用了参数很大的深度学习模型，为了保证自动评分的速度，提高系统的吞吐量，所以系统采用了中央处理器和图形处理器的混合架构，参见图9，图9是本发明实施例提供的基于人工智能的问答评分系统的处理器架构图。以口语考试为例，在口语考试系统中，当模型参数大于对应中央处理器的模型参数阈值时或者模型处理时间大于对应中央处理器的模型计算时间阈值时，利用图形处理器进行对应模块部署，以减少模块推导计算所耗费的时间，增加了吞吐量；当模型参数不大于对应中央处理器的模型参数阈值时且模型处理时间不大于对应中央处理器的模型计算时间阈值时，使用中央处理器部署，以减少系统部署所需的处理器成本，例如，通过图形处理器部署语义相似度模块和语法纠错模块，用中央处理器部署其余模块。

下面继续说明本发明实施例提供的基于人工智能的问答评分装置255的实施为软件模块的示例性结构，在一些实施例中，如图3所示，存储在存储器250的基于人工智能的问答评分装置255中的软件模块可以包括：语音识别模块2551，用于接收用户回答问题的音频内容，进行语音识别得到音频内容的音频特征和文本内容；发音评分模块2552，用于基于音频特征、文本内容以及参考文本，从至少一个维度提取对应音频内容的发音质量特征，并基于所提取的发音质量特征确定表征音频内容的发音质量的发音评分；相似度与语法评分模块2553，用于对文本内容以及参考文本进行相似度分析，以确定表征音频内容的正确度的相似度评分，并对文本内容进行语法检测，以确定表征音频内容的语法质量的语法评分；综合评分模块2554，用于将发音评分，相似度评分以及语法评分进行融合处理，以确定对应音频内容的综合评分。

在一些实施例中，至少一个维度包括：准确度、完整度、流利度以及韵律度，发音评分模块2552，还用于：获取对应问题的参考文本；基于音频特征、文本内容以及参考文本，提取对应音频内容的准确度特征，以确定对应音频内容的准确度评分；将文本内容与参考文本比对，提取对应音频内容的完整度特征，以确定对应音频内容的完整度评分；从音频特征中提取流利度特征以及韵律度特征，以确定对应音频内容的流利度评分和韵律度评分；基于准确度评分、完整度评分、流利度评分和韵律度评分，确定表征音频内容的发音质量的发音评分。

在一些实施例中，发音评分模块2552，还用于：基于文本内容以及参考文本，确定文本内容和参考文本之间的内容相似度；基于参考文本，确定对应参考文本的参考音频特征；将音频特征和参考音频特征比对，以确定对应音频内容的发音准确度；基于内容相似度和发音准确度，提取对应音频内容的准确度特征，以确定对应音频内容的准确度评分。

在一些实施例中，相似度与语法评分模块2553，还用于：获取对应问题的参考文本；从文本内容中提取对应文本内容的文本内容特征，并从参考文本中提取对应参考文本的参考文本特征；根据文本内容特征以及参考文本特征，确定对应音频内容的表征内容正确度的相似度特征；基于相似度特征，确定表征音频内容的正确度的相似度评分。

在一些实施例中，相似度与语法评分模块2553，还用于：确定对应文本内容特征的文本内容向量，并确定对应参考文本特征的参考文本向量；基于文本内容向量以及参考文本向量，确定对应音频内容的表征内容正确度的相似度特征。

在一些实施例中，相似度与语法评分模块2553，还用于：从文本内容中提取对应文本内容的文本内容词向量，并预测对应文本内容词向量的目标词向量；当文本内容词向量和目标词向量不一致时，确定检测到语法错误；基于语法错误的出现次数，确定对应音频内容的语法评分。

在一些实施例中，综合评分模块2554，还用于：分别确定对应发音评分，相似度评分以及语法评分的权重；根据对应的权重，对发音评分，相似度评分以及语法评分进行加权计算，得到对应音频内容的综合评分。

在一些实施例中，人工智能的问答评分装置还包括：训练模块2555，用于：基于问答语料库，构建训练样本集合；确定训练样本集合，训练用于进行语音识别得到音频内容的音频特征和文本内容的语音识别模型；确定训练样本集合，训练用于获取表征音频内容的发音质量的发音评分的发音质量评测模型；确定训练样本集合，训练用于获取表征文本内容的正确度的相似度评分的语义相似度评测模型；确定训练样本集合，训练用于获取表征音频内容的语法质量的语法评分的语法纠错模型。

在一些实施例中，训练模块2555，还用于：初始化语音识别模型，并初始化包括输入样本、输入样本音频特征、文本内容以及语音识别模型参数的损失函数；在语音识别模型每次迭代训练过程中执行以下处理：将训练样本集合包括的母语音频内容和非母语音频内容作为输入样本，基于语音识别模型对输入样本进行音频特征提取，得到输入样本音频特征；确定语音识别模型对输入样本进行文本转换，得到文本内容；将输入样本、输入样本音频特征和文本内容代入损失函数，以确定损失函数取得最小值时对应的语音识别模型参数；根据所确定的语音识别模型参数更新语音识别模型。

在一些实施例中，训练模块2555，还用于：初始化发音质量评测模型，并初始化包括输入样本、输入样本音频评分以及发音质量评测模型参数的损失函数；在发音质量评测模型每次迭代训练过程中执行以下处理：将训练样本集合包括的具备评分的音频内容作为输入样本，基于发音质量评测模型对输入样本进行评分，得到输入样本音频评分；将输入样本、输入样本音频评分代入损失函数，以确定损失函数取得最小值时对应的发音质量评测模型参数；基于所确定的发音质量评测模型参数更新发音质量评测模型。

在一些实施例中，训练模块2555，还用于：初始化语义相似度评测模型，并初始化包括输入样本、语义相似度以及语义相似度评测模型参数的损失函数；在语义相似度评测模型每次迭代训练过程中执行以下处理：将训练样本集合包括的文本内容和参考文本作为输入样本，基于语义相似度评测模型对输入样本进行相似度预测，得到文本内容和参考文本之间的语义相似度；将输入样本、语义相似度代入损失函数，以确定损失函数取得最小值时对应的语义相似度评测模型参数；基于所确定的语义相似度评测模型参数更新语义相似度评测模型。

在一些实施例中，训练模块2555，还用于：初始化语法纠错模型，并初始化包括输入样本、语法错误程度以及语法纠错模型参数的损失函数；在语法纠错模型每次迭代训练过程中执行以下处理：将训练样本集合包括的文本内容作为输入样本，基于语法纠错模型对输入样本进行语法识别，得到语法错误程度；将输入样本、语法错误程度代入损失函数，以确定损失函数取得最小值时对应的语法纠错模型参数；基于所确定的语法纠错模型参数更新语法纠错模型。

本发明实施例提供一种存储有可执行指令的存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本发明实施例提供的基于人工智能的问答评分方法，例如，如图5和图6A-6D示出的基于人工智能的问答评分方法。

在一些实施例中，存储介质可以是FRAM、ROM、PROM、EPROM、EE PROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(H TML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

综上所述，通过本发明实施例提供的基于人工智能的问答评分方法，对用户回答问题的音频内容的发音、正确度以及与语法进行评分，并基于发音评分、正确度评分以及语法评分获得最终的综合评分，以形成多维度，更完善的评分体系。

以上所述，仅为本发明的实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本发明的保护范围之内。

Claims

1.一种基于人工智能的问答评分方法，其特征在于，所述方法包括：

对所述文本内容以及所述参考文本进行相似度分析，以确定表征所述音频内容的正确度的相似度评分，并

对所述文本内容进行语法检测，以确定表征所述音频内容的语法质量的语法评分；

2.根据权利要求1所述的方法，其特征在于，所述至少一个维度包括：准确度、完整度、流利度以及韵律度，所述基于所述音频特征、所述文本内容以及参考文本，从至少一个维度提取对应所述音频内容的发音质量特征，并基于所提取的发音质量特征确定表征所述音频内容的发音质量的发音评分，包括：

获取对应所述问题的参考文本；

3.根据权利要求2所述的方法，其特征在于，所述基于所述音频特征、所述文本内容以及所述参考文本，提取对应所述音频内容的准确度特征，以确定对应所述音频内容的准确度评分，包括：

4.根据权利要求1所述的方法，其特征在于，所述对所述文本内容以及所述参考文本进行相似度分析，以确定表征所述音频内容的正确度的相似度评分，包括：

获取对应所述问题的参考文本；

从所述文本内容中提取对应所述文本内容的文本内容特征，并从所述参考文本中提取对应所述参考文本的参考文本特征；

5.根据权利要求4所述的方法，其特征在于，所述根据所述文本内容特征以及所述参考文本特征，获取对应所述音频内容的表征内容正确度的相似度特征，包括：

6.根据权利要求1所述的方法，其特征在于，所述对所述文本内容进行语法检测，以确定表征所述音频内容的语法质量的语法评分，包括：

7.根据权利要求1所述的方法，其特征在于，所述将所述发音评分，所述相似度评分以及所述语法评分进行融合处理，以确定对应所述音频内容的综合评分，包括：

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

基于问答语料库，构建训练样本集合；

9.根据权利要求8所述的方法，其特征在于，所述基于所述训练样本集合，训练用于进行语音识别得到所述音频内容的音频特征和文本内容的语音识别模型，包括：

在所述语音识别模型每次迭代训练过程中执行以下处理：

根据所确定的语音识别模型参数更新所述语音识别模型。

10.根据权利要求8所述的方法，其特征在于，所述确定所述训练样本集合，训练用于获取表征所述音频内容的发音质量的发音评分的发音质量评测模型，包括：

11.根据权利要求8所述的方法，其特征在于，所述根据所述训练样本集合，训练用于获取表征所述文本内容的正确度的相似度评分的语义相似度评测模型，包括：

12.根据权利要求8所述的方法，其特征在于，所述基于所述训练样本集合，训练用于获取表征所述音频内容的语法质量的语法评分的语法纠错模型，包括：

在所述语法纠错模型每次迭代训练过程中执行以下处理：

基于所确定的语法纠错模型参数更新所述语法纠错模型。

13.一种基于人工智能的问答评分装置，其特征在于，包括：

相似度与语法评分模块，用于对所述文本内容以及所述参考文本进行相似度分析，以确定表征所述音频内容的正确度的相似度评分，

14.一种基于人工智能的问答评分设备，其特征在于，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至12任一项所述的基于人工智能的问答评分方法。

15.一种存储介质，其特征在于，存储有可执行指令，用于引起处理器执行时，实现权利要求1至12任一项所述的基于人工智能的问答评分方法。