CN109101518A

CN109101518A - 语音转录文本质量评估方法、装置、终端及可读存储介质

Info

Publication number: CN109101518A
Application number: CN201810486906.7A
Authority: CN
Inventors: 张强; 宋博川; 吴鹏; 柴博; 盛妍; 朱龙珠; 林国强; 陈其鹏
Original assignee: State Grid Corp of China SGCC; State Grid Zhejiang Electric Power Co Ltd; Global Energy Interconnection Research Institute
Current assignee: State Grid Corp of China SGCC; State Grid Zhejiang Electric Power Co Ltd; Global Energy Interconnection Research Institute
Priority date: 2018-05-21
Filing date: 2018-05-21
Publication date: 2018-12-28
Anticipated expiration: 2038-05-21
Also published as: CN109101518B

Abstract

本发明提供了一种语音转录文本质量评估方法、装置、终端及可读存储介质，其中，该方法包括如下步骤：根据LDA主题模型获取待测试语音转录文档集中主题在每一个待测试语音转录文本中的主题概率分布；将主题概率分布进行聚类得到质量评估结果。上述方法先根据LDA主题模型得到主题概率分布，之后根据主题概率分布进行聚类得到聚类结果，并将聚类结果与质量评估结果对应，根据质量评估结果可直观得出转录文本的质量，这样便无需人工进行质量核对，提高了质量评估效率。

Description

语音转录文本质量评估方法、装置、终端及可读存储介质

技术领域

本发明涉及语音转录文本领域，具体涉及一种语音转录文本质量评估方法、装置、终端及可读存储介质。

背景技术

国家电网有限公司经营范围覆盖27省公司及全部地市，国网客服中心每天产生10万到15万条通话记录，通话的语音转录文本可以通过大量的文本分析挖掘用户的诉求和意图，同时发掘重大事件等信息，具备重要价值。但是，现有的语音转录文本工具经常出现转录文本信息错误，编码错误，转录文本存在较为严重的质量问题，为后期的样本生成和语义理解增加了难度，需要人工对这些转录文本进行质量评估，故存在人工工作量大和质量评估效率低的缺陷。

发明内容

因此，本发明要解决的技术问题在于克服现有技术中的语音转录文本质量评估效率低的缺陷。

为此，本发明提供如下技术方案：

本发明第一方面，提供一种语音转录文本质量评估方法，包括如下步骤：根据LDA主题模型获取待测试语音转录文档集中主题在每一个待测试语音转录文本中的主题概率分布；将所述主题概率分布进行聚类得到质量评估结果。

可选地，通过如下公式得到主题概率分布，

p(z|α)＝∫p(z|θ)Dir(θ|α)dθ

其中，θ为服从多项式分布的参数；α为主题的狄里克雷先验分布的超参数，由不同的α可以产生不同的主题混合分布；z为文档的每个主题。

可选地，根据LDA主题模型获取待测试语音转录文档集中主题在每一个待测试语音转录文本中的主题概率分布的步骤之前，还包括：根据训练语音转录文档集对LDA主题模型进行模型参数优化。

可选地，根据训练语音转录文档集对LDA主题模型进行模型参数优化的步骤中，包括：根据LDA主题模型获取训练语音转录文档集中主题在每一个训练语音转录文本中的训练主题概率分布和训练词在主题上的分布；将所述训练主题概率分布进行聚类得到聚类结果；根据所述聚类结果和所述训练词在主题上的分布进行模型参数优化。

可选地，通过如下公式得到训练词在主题上的分布，

p(w|z)＝p(w|z，β)＝∫p(w|z，φ)Dir(φ|β)dφ

其中，为主题的词项分布；β为主题中词项的先验分布的超参数；w 为具体的词；z为文档的每个主题。

可选地，根据LDA主题模型获取待测试语音转录文档集中主题在每一个待测试语音转录文本中的主题概率分布的步骤之前，还包括：对待测试语音转录文档集中待测试语音转录文本进行预处理。

可选地，通过如下公式对所述主题概率分布进行聚类，

其中，A和B分别表示两个文本的主题向量；A·B为向量的点积； ||A||||B||为向量的叉积。

本发明第二方面，提供一种语音转录文本质量评估装置，包括：第一获取模块，用于根据LDA主题模型获取待测试语音转录文档集中主题在每一个待测试语音转录文本中的主题概率分布；第一处理模块，用于将所述主题概率分布进行聚类得到质量评估结果。

可选地，还包括：第二处理模块，用于根据训练语音转录文档集对LDA 主题模型进行模型参数优化。

可选地，所述第二处理模块包括：第一获取单元，用于根据LDA主题模型获取训练语音转录文档集中主题在每一个训练语音转录文本中的训练主题概率分布和训练词在主题上的分布；第一处理单元，用于将所述训练主题概率分布进行聚类得到聚类结果；第二处理单元，用于根据所述聚类结果和所述训练词在主题上的分布进行模型参数优化。

可选地，还包括：第三处理模块，用于对待测试语音转录文档集中待测试语音转录文本进行预处理。

本发明第三方面，提供一种终端，包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行本发明第一方面中任一所述的语音转录文本质量评估方法。

本发明第四方面，提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行本发明第一方面中任一所述的语音转录文本质量评估方法。

本发明技术方案，具有如下优点：

本发明提供的语音转录文本质量评估方法，包括如下步骤：根据LDA 主题模型获取待测试语音转录文档集中主题在每一个待测试语音转录文本中的主题概率分布；将所述主题概率分布进行聚类得到质量评估结果。上述方法先根据LDA主题模型得到主题概率分布，之后根据主题概率分布进行聚类得到聚类结果，并将聚类结果与质量评估结果对应，根据质量评估结果可直观得出转录文本的质量，这样便无需人工进行质量核对，减少了人工工作量，提高了质量评估效率。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中语音转录文本质量评估方法的一个具体示例的流程图；

图2为本发明实施例中语音转录文本质量评估方法的另一个具体示例的流程图；

图3为本发明实施例中语音转录文本质量评估方法的另一个具体示例的流程图；

图4为本发明实施例中语音转录文本质量评估方法的另一个具体示例的流程图；

图5为本发明实施例中语音转录文本质量评估方法的LDA图模型；

图6为本发明实施例中语音转录文本质量评估装置的一个具体示例的框图；

图7为本发明实施例中终端的结构示意图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、 “右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，还可以是两个元件内部的连通，可以是无线连接，也可以是有线连接。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

本实施例提供一种语音转录文本质量评估方法，用于对语音转录文本进行质量检查，提高质量评估效率，如图1所示，包括如下步骤：

为了提高待测试语音转录文本的准确率和效率，如图2所示，在根据 LDA主题模型获取待测试语音转录文档集中主题在每一个待测试语音转录文本中的概率分布的步骤之前，还包括步骤S1：

S1：对待测试语音转录文档集中待测试语音转录文本进行预处理。

在本实施例中，待测试语音包括多个未加工的国网客服通话语音，待测试语音转录文档集包括多个国网客服通话语音转录文本。为了得到统一编码格式的文本样本，需要对上述待测试语音转录文本进行预处理，预处理的具体过程如下：(1)未加工语音转录文本语料解析：将原有格式解析，提取并进行分析；(2)转换为文本格式文件：将语音转录文本解析后提取客服坐席对话并转换纯文本；(3)文本编码转换：将文本进行统一编码转换为UTF8，方便后续主题分布计算，当然，在其它实施例中，编码格式还可以为GB2312或GBK，根据需要合理设置即可；(4)去停用词：对于一个给定的目的，任何一类的词语都可以被选作停用词，通常意义上，停用词大致分为两类。一类是人类语言中包含的通用功能词，如“这里”、“哪里”、“在”等，这些功能词极其普遍，与其他词相比，功能词没有什么实际含义；(5)中文分词：将一个汉字序列切分成一个一个单独的词。

S2：根据LDA主题模型获取待测试语音转录文档集中主题在每一个待测试语音转录文本中的主题概率分布。

LDA主题模型是一种非监督机器学习技术，可以用来识别大规模文档集或语料库中潜藏的主题信息。它采用了词袋的方法，这种方法将每一篇文档视为一个词频向量，从而将文本信息转化为了易于建模的数字信息。 LDA主题模型也称为一个三层贝叶斯概率模型，包含词、主题和文档三层结构。生成模型是指一篇文章的每个词都是通过“以一定概率选择了某个主题，并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布，主题到词服从多项式分布。每一篇文档代表了一些主题所构成的一个概率分布，而每一个主题又代表了很多单词所构成的一个概率分布。

主题为待测试语音转录文本的主要内容，一个待测试语音转录文本可包含一个或者多个主题，如一次客服通话记录，用户可能在询问电价、也可能会询问购电流程或者投诉之类，我们则假定用户和坐席的通话至少包含一个主题。

LDA主题模型的模型结构如图5所示，其中K代表主题数，D代表文档数，α→θ→z表示生成从先验狄利克雷分布α中生成文档对应的主题分布θ，再从θ中生成对应的主题z；β→φ表示生成主题的单词分布，最后生成这篇文档的单词。

基本假设：文档是有限多个主题的混合，主题的混合分布服从多项式分布；而词是基于其在主题上的分布生成的，同样服从多项式分布。要实现用有限参数在同一种机制下产生所有文档的主题分布，需要采用狄利克雷(Dirichlet)分布作为多项式分布的先验，二者之间的共轭性质使得先验分布与后验分布的函数形式能够保持一致。

对文档集D中的每篇文本d_i，从以α为超参数的(对称)狄利克雷分布中选择一个多项式分布参数θ：即

对每个主题z，从以β为超参数的狄利克雷分布中选择一个多项式分布参数。

从以θ为参数的多项式分布中选择一个主题z∈{1，...，K}：

基本假设语音转录文档是有限多个主题的混合，主题的混合分布服从多项式分布；而词是基于其在主题上的分布生成的，同样服从多项式分布。要实现有限参数在同一种机制下产生所有文档的主题分布，需要采用狄里克雷(Dirichlet)分布作为多项式分布的先验，二者之间的共轭性质使得先验分布与后验分布的函数形式可以保持一致。具体而言，则由不同的α可以产生不同的主题的混合分布，即通过如下公式得到主题概率分布，

p(z|α)＝∫p(z|θ)Dir(θ|α)dθ

S3：将主题概率分布进行聚类得到质量评估结果。

将得到的语音转录文本的主题分布进行无监督聚类，得到各个语音转录文本之间的相似度和聚类结果。

在文本的数据分析和数据挖掘以及搜索引擎中，通常需要知道文本间差异的大小，进而评价文本的相似性和类别。常见的比如数据分析中比如相关分析，数据挖掘中的分类聚类(K-Means等)算法。

相似度就是比较两个事物的相似性。一般通过计算事物的特征之间的距离，如果距离小，那么相似度大；如果距离大，那么相似度小。比如两种水果，将从颜色，大小，维生素含量等特征进行比较相似性。在本实施例中，通过计算语音转录文本的主题概率分布的余弦相似度来比较文本之间的相似度，即通过如下公式对主题概率分布进行聚类，

通过相似度对待测试语音转录文档集中的待测试语音转录文本的主题结果进行聚类，在本实施例中，聚类簇数依据语音转录文本质量评估评分等级标准设置，聚类结果按照聚类簇划分。之后再根据聚类结果里的主题词分布判断得到质量评估结果，在本实施例中，将聚类结果与质量评估结果建立一一对应关系，针对客服语音转录文本存在的转录错误，结合客服实际需求建立了语音转录文本质量评估体系。在本实施例中，聚类结果设置为10个簇，如表1所示，对应关系具体为第一簇的评分等级设置为10 分，第二簇的评分等级设置为9分，依次类推，在此不在赘述。

表1 语音转录文本质量评估评分等级

评分等级	评分说明
		10分	文档完全正确、可读。
9分	可能有小错误，但不影响阅读，每个句子都能被完全理解。
		8分	某句话中存在比较严重的错误，需要结合上下文才能理解。
7分	存在严重的错误导致某句话不能被理解。
		6分	在前面的基础上，错误导致关键信息缺失，例如电话、户号和地址等。
5分	联系整篇文档，可以理解文章的主题信息，例如热点一二级分类。
		4分	不能理解文章主题，例如热点一二级分类。
3分	在4的基础上，大部分内容难以理解。
		2分	只有一两句长句可以理解。
1分	正篇文档都难以理解，甚至只有语气词。

上述语音转录文本质量评估方法，将待测试语音转录文档集中的待测试语音转录文本进行预处理得到格式统一的本文，之后根据LDA主题模型得到主题概率分布，最后根据主题概率分布进行聚类得到聚类结果，并将聚类结果与质量评估结果对应，根据质量评估结果可直观得出转录文本的质量，这样便无需人工进行质量核对，提高了质量评估效率。

在上述语音转录文本质量评估方法的基础上，为了更好地对语音转录文本进行质量评估，提高LDA模型质量评估的准确性，为后续工作的开展奠定良好的基础，如图3所示，还包括：

S4：根据训练语音转录文档集对LDA主题模型进行模型参数优化。

在本实施例中，如图4所示，步骤S4具体包括步骤S41-S43：

S41：根据LDA主题模型获取训练语音转录文档集中主题在每一个训练语音转录文本中的训练主题概率分布和训练词在主题上的分布。

获取训练主题概率分布的具体过程与待测试语音转录文本中的主题概率分布的具体过程类似，在此不再一一赘述。

在本实施例中，对训练语音转录文本d_i中的词项w_i，j，j∈(1，...，N_i)，从以 φ_z为参数的多项式分布中选择词w_ij：

通过如下公式得到训练词在主题上的分布，

p(w|z)＝p(w|z，β)＝∫p(w|z，φ)Dir(φ|β)dφ

其中，为主题的词项分布；β为主题中词项的先验分布的超参数；w 为具体的词，也是唯一可观测的变量；z为文档的每个主题。

S42：将训练主题概率分布进行聚类得到聚类结果。上述对训练主题概率分布的聚类与待测试语音转录文档集中的主题概率分布的聚类类似，在此不再赘述。

S43：根据聚类结果和训练词在主题上的分布进行模型参数优化。在本实施例中，具体参数优化过程为：(1)主题建模过程：调整主题模型的α参数、β参数以及主题模型的迭代次数来优化文本质量的主题模型分布；(2) 聚类过程：修改聚类的对象间距离或采用不同的聚类算法来优化聚类结果。

通过对语料进行主题模型训练，然后在训练集验证模型质量评估准确性，以达到对语音转录文本的质量评估，为后续工作的开展奠定良好的基础。

本实施例还提供一种语音转录文本质量评估装置，如图6所示，包括：第二处理模块61，用于根据训练语音转录文档集对LDA主题模型进行模型参数优化；第三处理模块62，用于对待测试语音转录文档集中待测试语音转录文本进行预处理；第一获取模块63，用于根据LDA主题模型获取待测试语音转录文档集中主题在每一个待测试语音转录文本中的主题概率分布；第一处理模块64，用于将主题概率分布进行聚类得到质量评估结果。

在本实施例中，第二处理模块61包括：第一获取单元611，用于根据 LDA主题模型获取训练语音转录文档集中主题在每一个训练语音转录文本中的训练主题概率分布和训练词在主题上的分布；第一处理单元612，用于将训练主题概率分布进行聚类得到聚类结果；第二处理单元613，用于根据聚类结果和训练词在主题上的分布进行模型参数优化。

上述各个模块的更进一步的功能描述与上述实施例相同，在此不再赘述。

上述基于语音转录文本质量评估装置具有质量评估效率高的优点。

本实施例还提供一种终端，如图7所示，包括：至少一个处理器701，例如CPU(Central Processing Unit，中央处理器)，至少一个通信接口703，存储器704，至少一个通信总线702。其中，通信总线702用于实现这些组件之间的连接通信。其中，通信接口703可以包括显示屏(Display)、键盘 (Keyboard)，可选通信接口703还可以包括标准的有线接口、无线接口。存储器704可以是高速RAM存储器(Ramdom Access Memory，易挥发性随机存取存储器)，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器704可选的还可以是至少一个位于远离前述处理器701的存储装置。其中处理器701可以结合图6描述的语音转录文本质量评估装置，存储器704中存储一组程序代码，且处理器701调用存储器704中存储的程序代码，以用于执行一种语音转录文本质量评估方法，即用于执行如图1-图4实施例中的语音转录文本质量评估方法。

其中，通信总线702可以是外设部件互连标准(peripheral componentinterconnect，简称PCI)总线或扩展工业标准结构(extended industry standardarchitecture，简称EISA)总线等。通信总线702可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

其中，存储器704可以包括易失性存储器(英文：volatile memory)，例如随机存取存储器(英文：random-access memory，缩写：RAM)；存储器也可以包括非易失性存储器(英文：non-volatile memory)，例如快闪存储器(英文：flash memory)，硬盘(英文：harddisk drive，缩写：HDD) 或固态硬盘(英文：solid-state drive，缩写：SSD)；存储器704还可以包括上述种类的存储器的组合。

其中，处理器701可以是中央处理器(英文：central processing unit，缩写：CPU)，网络处理器(英文：network processor，缩写：NP)或者CPU 和NP的组合。

其中，处理器701还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文：application-specific integrated circuit，缩写：ASIC)，可编程逻辑器件(英文：programmable logic device，缩写：PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(英文：complex programmable logic device，缩写：CPLD)，现场可编程逻辑门阵列(英文：field-programmable gate array，缩写：FPGA)，通用阵列逻辑(英文：generic arraylogic，缩写： GAL)或其任意组合。

可选地，存储器704还用于存储程序指令。处理器701可以调用程序指令，实现如本申请图1-图4实施例中所示的语音转录文本质量评估方法。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的语音转录文本质量评估方法。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(Random Access Memory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid-State Drive，SSD)等；所述存储介质还可以包括上述种类的存储器的组合。

本领域内的技术人员应明白，本发明的实施例可提供为方法、装置、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种语音转录文本质量评估方法，其特征在于，包括如下步骤：

根据LDA主题模型获取待测试语音转录文档集中主题在每一个待测试语音转录文本中的主题概率分布；

将所述主题概率分布进行聚类得到质量评估结果。

2.根据权利要求1所述的语音转录文本质量评估方法，其特征在于，

通过如下公式得到主题概率分布，

p(z|α)＝∫p(z|θ)Dir(θ|α)dθ

3.根据权利要求1所述的语音转录文本质量评估方法，其特征在于，根据LDA主题模型获取待测试语音转录文档集中主题在每一个待测试语音转录文本中的主题概率分布的步骤之前，还包括：

根据训练语音转录文档集对LDA主题模型进行模型参数优化。

4.根据权利要求3所述的语音转录文本质量评估方法，其特征在于，根据训练语音转录文档集对LDA主题模型进行模型参数优化的步骤中，包括：

根据LDA主题模型获取训练语音转录文档集中主题在每一个训练语音转录文本中的训练主题概率分布和训练词在主题上的分布；

将所述训练主题概率分布进行聚类得到聚类结果；

根据所述聚类结果和所述训练词在主题上的分布进行模型参数优化。

5.根据权利要求4所述的语音转录文本质量评估方法，其特征在于，通过如下公式得到训练词在主题上的分布，

p(w|z)＝p(w|z，β)＝∫p(w|z，φ)Dir(φ|β)dφ

其中，为主题的词项分布；β为主题中词项的先验分布的超参数；w为具体的词；z为文档的每个主题。

6.根据权利要求1-5任一所述的语音转录文本质量评估方法，其特征在于，根据LDA主题模型获取待测试语音转录文档集中主题在每一个待测试语音转录文本中的主题概率分布的步骤之前，还包括：

对待测试语音转录文档集中待测试语音转录文本进行预处理。

7.根据权利要求1-6任一所述的语音转录文本质量评估方法，其特征在于，通过如下公式对所述主题概率分布进行聚类，

其中，A和B分别表示两个文本的主题向量；A·B为向量的点积；||A|| ||B||为向量的叉积。

8.一种语音转录文本质量评估装置，其特征在于，包括：

第一获取模块，用于根据LDA主题模型获取待测试语音转录文档集中主题在每一个待测试语音转录文本中的主题概率分布；

第一处理模块，用于将所述主题概率分布进行聚类得到质量评估结果。

9.根据权利要求8所述的语音转录文本质量评估装置，其特征在于，还包括：

第二处理模块，用于根据训练语音转录文档集对LDA主题模型进行模型参数优化。

10.根据权利要求9所述的语音转录文本质量评估装置，其特征在于，所述第二处理模块包括：

第一获取单元，用于根据LDA主题模型获取训练语音转录文档集中主题在每一个训练语音转录文本中的训练主题概率分布和训练词在主题上的分布；

第一处理单元，用于将所述训练主题概率分布进行聚类得到聚类结果；

第二处理单元，用于根据所述聚类结果和所述训练词在主题上的分布进行模型参数优化。

11.根据权利要求8-10任一所述的语音转录文本质量评估装置，其特征在于，还包括：

第三处理模块，用于对待测试语音转录文档集中待测试语音转录文本进行预处理。

12.一种终端，其特征在于，包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行上述权利要求1-7中任一所述的语音转录文本质量评估方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行上述权利要求1-7中任一所述的语音转录文本质量评估方法。