CN109101518A - 语音转录文本质量评估方法、装置、终端及可读存储介质 - Google Patents

语音转录文本质量评估方法、装置、终端及可读存储介质 Download PDF

Info

Publication number
CN109101518A
CN109101518A CN201810486906.7A CN201810486906A CN109101518A CN 109101518 A CN109101518 A CN 109101518A CN 201810486906 A CN201810486906 A CN 201810486906A CN 109101518 A CN109101518 A CN 109101518A
Authority
CN
China
Prior art keywords
theme
phonetic transcription
distribution
tested
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810486906.7A
Other languages
English (en)
Other versions
CN109101518B (zh
Inventor
张强
宋博川
吴鹏
柴博
盛妍
朱龙珠
林国强
陈其鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Zhejiang Electric Power Co Ltd
Global Energy Interconnection Research Institute
Original Assignee
State Grid Corp of China SGCC
State Grid Zhejiang Electric Power Co Ltd
Global Energy Interconnection Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Zhejiang Electric Power Co Ltd, Global Energy Interconnection Research Institute filed Critical State Grid Corp of China SGCC
Priority to CN201810486906.7A priority Critical patent/CN109101518B/zh
Publication of CN109101518A publication Critical patent/CN109101518A/zh
Application granted granted Critical
Publication of CN109101518B publication Critical patent/CN109101518B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种语音转录文本质量评估方法、装置、终端及可读存储介质,其中,该方法包括如下步骤:根据LDA主题模型获取待测试语音转录文档集中主题在每一个待测试语音转录文本中的主题概率分布;将主题概率分布进行聚类得到质量评估结果。上述方法先根据LDA主题模型得到主题概率分布,之后根据主题概率分布进行聚类得到聚类结果,并将聚类结果与质量评估结果对应,根据质量评估结果可直观得出转录文本的质量,这样便无需人工进行质量核对,提高了质量评估效率。

Description

语音转录文本质量评估方法、装置、终端及可读存储介质
技术领域
本发明涉及语音转录文本领域,具体涉及一种语音转录文本质量评估 方法、装置、终端及可读存储介质。
背景技术
国家电网有限公司经营范围覆盖27省公司及全部地市,国网客服中心 每天产生10万到15万条通话记录,通话的语音转录文本可以通过大量的 文本分析挖掘用户的诉求和意图,同时发掘重大事件等信息,具备重要价 值。但是,现有的语音转录文本工具经常出现转录文本信息错误,编码错 误,转录文本存在较为严重的质量问题,为后期的样本生成和语义理解增 加了难度,需要人工对这些转录文本进行质量评估,故存在人工工作量大和质量评估效率低的缺陷。
发明内容
因此,本发明要解决的技术问题在于克服现有技术中的语音转录文本 质量评估效率低的缺陷。
为此,本发明提供如下技术方案:
本发明第一方面,提供一种语音转录文本质量评估方法,包括如下步 骤:根据LDA主题模型获取待测试语音转录文档集中主题在每一个待测试 语音转录文本中的主题概率分布;将所述主题概率分布进行聚类得到质量 评估结果。
可选地,通过如下公式得到主题概率分布,
p(z|α)=∫p(z|θ)Dir(θ|α)dθ
其中,θ为服从多项式分布的参数;α为主题的狄里克雷先验分布的超 参数,由不同的α可以产生不同的主题混合分布;z为文档的每个主题。
可选地,根据LDA主题模型获取待测试语音转录文档集中主题在每一 个待测试语音转录文本中的主题概率分布的步骤之前,还包括:根据训练 语音转录文档集对LDA主题模型进行模型参数优化。
可选地,根据训练语音转录文档集对LDA主题模型进行模型参数优化 的步骤中,包括:根据LDA主题模型获取训练语音转录文档集中主题在每 一个训练语音转录文本中的训练主题概率分布和训练词在主题上的分布; 将所述训练主题概率分布进行聚类得到聚类结果;根据所述聚类结果和所 述训练词在主题上的分布进行模型参数优化。
可选地,通过如下公式得到训练词在主题上的分布,
p(w|z)=p(w|z,β)=∫p(w|z,φ)Dir(φ|β)dφ
其中,为主题的词项分布;β为主题中词项的先验分布的超参数;w 为具体的词;z为文档的每个主题。
可选地,根据LDA主题模型获取待测试语音转录文档集中主题在每一 个待测试语音转录文本中的主题概率分布的步骤之前,还包括:对待测试 语音转录文档集中待测试语音转录文本进行预处理。
可选地,通过如下公式对所述主题概率分布进行聚类,
其中,A和B分别表示两个文本的主题向量;A·B为向量的点积; ||A||||B||为向量的叉积。
本发明第二方面,提供一种语音转录文本质量评估装置,包括:第一 获取模块,用于根据LDA主题模型获取待测试语音转录文档集中主题在每 一个待测试语音转录文本中的主题概率分布;第一处理模块,用于将所述 主题概率分布进行聚类得到质量评估结果。
可选地,还包括:第二处理模块,用于根据训练语音转录文档集对LDA 主题模型进行模型参数优化。
可选地,所述第二处理模块包括:第一获取单元,用于根据LDA主题 模型获取训练语音转录文档集中主题在每一个训练语音转录文本中的训练 主题概率分布和训练词在主题上的分布;第一处理单元,用于将所述训练 主题概率分布进行聚类得到聚类结果;第二处理单元,用于根据所述聚类 结果和所述训练词在主题上的分布进行模型参数优化。
可选地,还包括:第三处理模块,用于对待测试语音转录文档集中待 测试语音转录文本进行预处理。
本发明第三方面,提供一种终端,包括:至少一个处理器,以及与所 述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述 至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使 所述至少一个处理器执行本发明第一方面中任一所述的语音转录文本质量 评估方法。
本发明第四方面,提供一种计算机可读存储介质,所述计算机可读存 储介质存储有计算机指令,所述计算机指令用于使所述计算机执行本发明 第一方面中任一所述的语音转录文本质量评估方法。
本发明技术方案,具有如下优点:
本发明提供的语音转录文本质量评估方法,包括如下步骤:根据LDA 主题模型获取待测试语音转录文档集中主题在每一个待测试语音转录文本 中的主题概率分布;将所述主题概率分布进行聚类得到质量评估结果。上 述方法先根据LDA主题模型得到主题概率分布,之后根据主题概率分布进 行聚类得到聚类结果,并将聚类结果与质量评估结果对应,根据质量评估 结果可直观得出转录文本的质量,这样便无需人工进行质量核对,减少了 人工工作量,提高了质量评估效率。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下 面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍, 显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普 通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获 得其他的附图。
图1为本发明实施例中语音转录文本质量评估方法的一个具体示例的 流程图;
图2为本发明实施例中语音转录文本质量评估方法的另一个具体示例 的流程图;
图3为本发明实施例中语音转录文本质量评估方法的另一个具体示例 的流程图;
图4为本发明实施例中语音转录文本质量评估方法的另一个具体示例 的流程图;
图5为本发明实施例中语音转录文本质量评估方法的LDA图模型;
图6为本发明实施例中语音转录文本质量评估装置的一个具体示例的 框图;
图7为本发明实施例中终端的结构示意图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然, 所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发 明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得 的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、 “右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所 示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示 或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作, 因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用 于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术 语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以 是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以 是直接相连,也可以通过中间媒介间接相连,还可以是两个元件内部的连 通,可以是无线连接,也可以是有线连接。对于本领域的普通技术人员而 言,可以具体情况理解上述术语在本发明中的具体含义。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼 此之间未构成冲突就可以相互结合。
本实施例提供一种语音转录文本质量评估方法,用于对语音转录文本 进行质量检查,提高质量评估效率,如图1所示,包括如下步骤:
为了提高待测试语音转录文本的准确率和效率,如图2所示,在根据 LDA主题模型获取待测试语音转录文档集中主题在每一个待测试语音转录 文本中的概率分布的步骤之前,还包括步骤S1:
S1:对待测试语音转录文档集中待测试语音转录文本进行预处理。
在本实施例中,待测试语音包括多个未加工的国网客服通话语音,待 测试语音转录文档集包括多个国网客服通话语音转录文本。为了得到统一 编码格式的文本样本,需要对上述待测试语音转录文本进行预处理,预处 理的具体过程如下:(1)未加工语音转录文本语料解析:将原有格式解析, 提取并进行分析;(2)转换为文本格式文件:将语音转录文本解析后提取 客服坐席对话并转换纯文本;(3)文本编码转换:将文本进行统一编码转 换为UTF8,方便后续主题分布计算,当然,在其它实施例中,编码格式还 可以为GB2312或GBK,根据需要合理设置即可;(4)去停用词:对于一 个给定的目的,任何一类的词语都可以被选作停用词,通常意义上,停用 词大致分为两类。一类是人类语言中包含的通用功能词,如“这里”、“哪 里”、“在”等,这些功能词极其普遍,与其他词相比,功能词没有什么实 际含义;(5)中文分词:将一个汉字序列切分成一个一个单独的词。
S2:根据LDA主题模型获取待测试语音转录文档集中主题在每一个待 测试语音转录文本中的主题概率分布。
LDA主题模型是一种非监督机器学习技术,可以用来识别大规模文档 集或语料库中潜藏的主题信息。它采用了词袋的方法,这种方法将每一篇 文档视为一个词频向量,从而将文本信息转化为了易于建模的数字信息。 LDA主题模型也称为一个三层贝叶斯概率模型,包含词、主题和文档三层 结构。生成模型是指一篇文章的每个词都是通过“以一定概率选择了某个 主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到。文 档到主题服从多项式分布,主题到词服从多项式分布。每一篇文档代表了 一些主题所构成的一个概率分布,而每一个主题又代表了很多单词所构成 的一个概率分布。
主题为待测试语音转录文本的主要内容,一个待测试语音转录文本可 包含一个或者多个主题,如一次客服通话记录,用户可能在询问电价、也 可能会询问购电流程或者投诉之类,我们则假定用户和坐席的通话至少包 含一个主题。
LDA主题模型的模型结构如图5所示,其中K代表主题数,D代表文 档数,α→θ→z表示生成从先验狄利克雷分布α中生成文档对应的主题分 布θ,再从θ中生成对应的主题z;β→φ表示生成主题的单词分布,最后 生成这篇文档的单词。
基本假设:文档是有限多个主题的混合,主题的混合分布服从多项式 分布;而词是基于其在主题上的分布生成的,同样服从多项式分布。要实 现用有限参数在同一种机制下产生所有文档的主题分布,需要采用狄利克 雷(Dirichlet)分布作为多项式分布的先验,二者之间的共轭性质使得先验分 布与后验分布的函数形式能够保持一致。
对文档集D中的每篇文本di,从以α为超参数的(对称)狄利克雷分布中 选择一个多项式分布参数θ:即
对每个主题z,从以β为超参数的狄利克雷分布中选择一个多项式分布 参数。
从以θ为参数的多项式分布中选择一个主题z∈{1,...,K}:
基本假设语音转录文档是有限多个主题的混合,主题的混合分布服从 多项式分布;而词是基于其在主题上的分布生成的,同样服从多项式分布。 要实现有限参数在同一种机制下产生所有文档的主题分布,需要采用狄里 克雷(Dirichlet)分布作为多项式分布的先验,二者之间的共轭性质使得先验 分布与后验分布的函数形式可以保持一致。具体而言,则由不同的α可以 产生不同的主题的混合分布,即通过如下公式得到主题概率分布,
p(z|α)=∫p(z|θ)Dir(θ|α)dθ
其中,θ为服从多项式分布的参数;α为主题的狄里克雷先验分布的超 参数,由不同的α可以产生不同的主题混合分布;z为文档的每个主题。
S3:将主题概率分布进行聚类得到质量评估结果。
将得到的语音转录文本的主题分布进行无监督聚类,得到各个语音转 录文本之间的相似度和聚类结果。
在文本的数据分析和数据挖掘以及搜索引擎中,通常需要知道文本间 差异的大小,进而评价文本的相似性和类别。常见的比如数据分析中比如 相关分析,数据挖掘中的分类聚类(K-Means等)算法。
相似度就是比较两个事物的相似性。一般通过计算事物的特征之间的 距离,如果距离小,那么相似度大;如果距离大,那么相似度小。比如两 种水果,将从颜色,大小,维生素含量等特征进行比较相似性。在本实施 例中,通过计算语音转录文本的主题概率分布的余弦相似度来比较文本之 间的相似度,即通过如下公式对主题概率分布进行聚类,
其中,A和B分别表示两个文本的主题向量;A·B为向量的点积; ||A||||B||为向量的叉积。
通过相似度对待测试语音转录文档集中的待测试语音转录文本的主题 结果进行聚类,在本实施例中,聚类簇数依据语音转录文本质量评估评分 等级标准设置,聚类结果按照聚类簇划分。之后再根据聚类结果里的主题 词分布判断得到质量评估结果,在本实施例中,将聚类结果与质量评估结 果建立一一对应关系,针对客服语音转录文本存在的转录错误,结合客服 实际需求建立了语音转录文本质量评估体系。在本实施例中,聚类结果设置为10个簇,如表1所示,对应关系具体为第一簇的评分等级设置为10 分,第二簇的评分等级设置为9分,依次类推,在此不在赘述。
表1 语音转录文本质量评估评分等级
评分等级 评分说明
10分 文档完全正确、可读。
9分 可能有小错误,但不影响阅读,每个句子都能被完全理解。
8分 某句话中存在比较严重的错误,需要结合上下文才能理解。
7分 存在严重的错误导致某句话不能被理解。
6分 在前面的基础上,错误导致关键信息缺失,例如电话、户号和地址等。
5分 联系整篇文档,可以理解文章的主题信息,例如热点一二级分类。
4分 不能理解文章主题,例如热点一二级分类。
3分 在4的基础上,大部分内容难以理解。
2分 只有一两句长句可以理解。
1分 正篇文档都难以理解,甚至只有语气词。
上述语音转录文本质量评估方法,将待测试语音转录文档集中的待测 试语音转录文本进行预处理得到格式统一的本文,之后根据LDA主题模型 得到主题概率分布,最后根据主题概率分布进行聚类得到聚类结果,并将 聚类结果与质量评估结果对应,根据质量评估结果可直观得出转录文本的 质量,这样便无需人工进行质量核对,提高了质量评估效率。
在上述语音转录文本质量评估方法的基础上,为了更好地对语音转录 文本进行质量评估,提高LDA模型质量评估的准确性,为后续工作的开展 奠定良好的基础,如图3所示,还包括:
S4:根据训练语音转录文档集对LDA主题模型进行模型参数优化。
在本实施例中,如图4所示,步骤S4具体包括步骤S41-S43:
S41:根据LDA主题模型获取训练语音转录文档集中主题在每一个训 练语音转录文本中的训练主题概率分布和训练词在主题上的分布。
获取训练主题概率分布的具体过程与待测试语音转录文本中的主题概 率分布的具体过程类似,在此不再一一赘述。
在本实施例中,对训练语音转录文本di中的词项wi,j,j∈(1,...,Ni),从以 φz为参数的多项式分布中选择词wij
通过如下公式得到训练词在主题上的分布,
p(w|z)=p(w|z,β)=∫p(w|z,φ)Dir(φ|β)dφ
其中,为主题的词项分布;β为主题中词项的先验分布的超参数;w 为具体的词,也是唯一可观测的变量;z为文档的每个主题。
S42:将训练主题概率分布进行聚类得到聚类结果。上述对训练主题概 率分布的聚类与待测试语音转录文档集中的主题概率分布的聚类类似,在 此不再赘述。
S43:根据聚类结果和训练词在主题上的分布进行模型参数优化。在本 实施例中,具体参数优化过程为:(1)主题建模过程:调整主题模型的α参 数、β参数以及主题模型的迭代次数来优化文本质量的主题模型分布;(2) 聚类过程:修改聚类的对象间距离或采用不同的聚类算法来优化聚类结果。
通过对语料进行主题模型训练,然后在训练集验证模型质量评估准确 性,以达到对语音转录文本的质量评估,为后续工作的开展奠定良好的基 础。
本实施例还提供一种语音转录文本质量评估装置,如图6所示,包括: 第二处理模块61,用于根据训练语音转录文档集对LDA主题模型进行模型 参数优化;第三处理模块62,用于对待测试语音转录文档集中待测试语音 转录文本进行预处理;第一获取模块63,用于根据LDA主题模型获取待测 试语音转录文档集中主题在每一个待测试语音转录文本中的主题概率分布; 第一处理模块64,用于将主题概率分布进行聚类得到质量评估结果。
在本实施例中,第二处理模块61包括:第一获取单元611,用于根据 LDA主题模型获取训练语音转录文档集中主题在每一个训练语音转录文本 中的训练主题概率分布和训练词在主题上的分布;第一处理单元612,用于 将训练主题概率分布进行聚类得到聚类结果;第二处理单元613,用于根据 聚类结果和训练词在主题上的分布进行模型参数优化。
上述各个模块的更进一步的功能描述与上述实施例相同,在此不再赘 述。
上述基于语音转录文本质量评估装置具有质量评估效率高的优点。
本实施例还提供一种终端,如图7所示,包括:至少一个处理器701, 例如CPU(Central Processing Unit,中央处理器),至少一个通信接口703, 存储器704,至少一个通信总线702。其中,通信总线702用于实现这些组 件之间的连接通信。其中,通信接口703可以包括显示屏(Display)、键盘 (Keyboard),可选通信接口703还可以包括标准的有线接口、无线接口。 存储器704可以是高速RAM存储器(Ramdom Access Memory,易挥发性 随机存取存储器),也可以是非不稳定的存储器(non-volatile memory),例 如至少一个磁盘存储器。存储器704可选的还可以是至少一个位于远离前 述处理器701的存储装置。其中处理器701可以结合图6描述的语音转录 文本质量评估装置,存储器704中存储一组程序代码,且处理器701调用 存储器704中存储的程序代码,以用于执行一种语音转录文本质量评估方 法,即用于执行如图1-图4实施例中的语音转录文本质量评估方法。
其中,通信总线702可以是外设部件互连标准(peripheral componentinterconnect,简称PCI)总线或扩展工业标准结构(extended industry standardarchitecture,简称EISA)总线等。通信总线702可以分为地址总线、数据 总线、控制总线等。为便于表示,图7中仅用一条粗线表示,但并不表示 仅有一根总线或一种类型的总线。
其中,存储器704可以包括易失性存储器(英文:volatile memory), 例如随机存取存储器(英文:random-access memory,缩写:RAM);存储 器也可以包括非易失性存储器(英文:non-volatile memory),例如快闪存 储器(英文:flash memory),硬盘(英文:harddisk drive,缩写:HDD) 或固态硬盘(英文:solid-state drive,缩写:SSD);存储器704还可以包括 上述种类的存储器的组合。
其中,处理器701可以是中央处理器(英文:central processing unit, 缩写:CPU),网络处理器(英文:network processor,缩写:NP)或者CPU 和NP的组合。
其中,处理器701还可以进一步包括硬件芯片。上述硬件芯片可以是 专用集成电路(英文:application-specific integrated circuit,缩写:ASIC), 可编程逻辑器件(英文:programmable logic device,缩写:PLD)或其组合。 上述PLD可以是复杂可编程逻辑器件(英文:complex programmable logic device,缩写:CPLD),现场可编程逻辑门阵列(英文:field-programmable gate array,缩写:FPGA),通用阵列逻辑(英文:generic arraylogic,缩写: GAL)或其任意组合。
可选地,存储器704还用于存储程序指令。处理器701可以调用程序 指令,实现如本申请图1-图4实施例中所示的语音转录文本质量评估方法。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质 上存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实 施例中的语音转录文本质量评估方法。其中,所述存储介质可为磁碟、光 盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive, 缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可 以包括上述种类的存储器的组合。
本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、 或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施 例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个 或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不 限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的 形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序 产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流 程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中 的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专 用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个 机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产 生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方 框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理 设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存 储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个 流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上, 使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现 的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流 程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能 的步骤。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方 式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可 以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予 以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保 护范围之中。

Claims (13)

1.一种语音转录文本质量评估方法,其特征在于,包括如下步骤:
根据LDA主题模型获取待测试语音转录文档集中主题在每一个待测试语音转录文本中的主题概率分布;
将所述主题概率分布进行聚类得到质量评估结果。
2.根据权利要求1所述的语音转录文本质量评估方法,其特征在于,
通过如下公式得到主题概率分布,
p(z|α)=∫p(z|θ)Dir(θ|α)dθ
其中,θ为服从多项式分布的参数;α为主题的狄里克雷先验分布的超参数,由不同的α可以产生不同的主题混合分布;z为文档的每个主题。
3.根据权利要求1所述的语音转录文本质量评估方法,其特征在于,根据LDA主题模型获取待测试语音转录文档集中主题在每一个待测试语音转录文本中的主题概率分布的步骤之前,还包括:
根据训练语音转录文档集对LDA主题模型进行模型参数优化。
4.根据权利要求3所述的语音转录文本质量评估方法,其特征在于,根据训练语音转录文档集对LDA主题模型进行模型参数优化的步骤中,包括:
根据LDA主题模型获取训练语音转录文档集中主题在每一个训练语音转录文本中的训练主题概率分布和训练词在主题上的分布;
将所述训练主题概率分布进行聚类得到聚类结果;
根据所述聚类结果和所述训练词在主题上的分布进行模型参数优化。
5.根据权利要求4所述的语音转录文本质量评估方法,其特征在于,通过如下公式得到训练词在主题上的分布,
p(w|z)=p(w|z,β)=∫p(w|z,φ)Dir(φ|β)dφ
其中,为主题的词项分布;β为主题中词项的先验分布的超参数;w为具体的词;z为文档的每个主题。
6.根据权利要求1-5任一所述的语音转录文本质量评估方法,其特征在于,根据LDA主题模型获取待测试语音转录文档集中主题在每一个待测试语音转录文本中的主题概率分布的步骤之前,还包括:
对待测试语音转录文档集中待测试语音转录文本进行预处理。
7.根据权利要求1-6任一所述的语音转录文本质量评估方法,其特征在于,通过如下公式对所述主题概率分布进行聚类,
其中,A和B分别表示两个文本的主题向量;A·B为向量的点积;||A|| ||B||为向量的叉积。
8.一种语音转录文本质量评估装置,其特征在于,包括:
第一获取模块,用于根据LDA主题模型获取待测试语音转录文档集中主题在每一个待测试语音转录文本中的主题概率分布;
第一处理模块,用于将所述主题概率分布进行聚类得到质量评估结果。
9.根据权利要求8所述的语音转录文本质量评估装置,其特征在于,还包括:
第二处理模块,用于根据训练语音转录文档集对LDA主题模型进行模型参数优化。
10.根据权利要求9所述的语音转录文本质量评估装置,其特征在于,所述第二处理模块包括:
第一获取单元,用于根据LDA主题模型获取训练语音转录文档集中主题在每一个训练语音转录文本中的训练主题概率分布和训练词在主题上的分布;
第一处理单元,用于将所述训练主题概率分布进行聚类得到聚类结果;
第二处理单元,用于根据所述聚类结果和所述训练词在主题上的分布进行模型参数优化。
11.根据权利要求8-10任一所述的语音转录文本质量评估装置,其特征在于,还包括:
第三处理模块,用于对待测试语音转录文档集中待测试语音转录文本进行预处理。
12.一种终端,其特征在于,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行上述权利要求1-7中任一所述的语音转录文本质量评估方法。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行上述权利要求1-7中任一所述的语音转录文本质量评估方法。
CN201810486906.7A 2018-05-21 2018-05-21 语音转录文本质量评估方法、装置、终端及可读存储介质 Active CN109101518B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810486906.7A CN109101518B (zh) 2018-05-21 2018-05-21 语音转录文本质量评估方法、装置、终端及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810486906.7A CN109101518B (zh) 2018-05-21 2018-05-21 语音转录文本质量评估方法、装置、终端及可读存储介质

Publications (2)

Publication Number Publication Date
CN109101518A true CN109101518A (zh) 2018-12-28
CN109101518B CN109101518B (zh) 2022-03-22

Family

ID=64796474

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810486906.7A Active CN109101518B (zh) 2018-05-21 2018-05-21 语音转录文本质量评估方法、装置、终端及可读存储介质

Country Status (1)

Country Link
CN (1) CN109101518B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109815491A (zh) * 2019-01-08 2019-05-28 平安科技(深圳)有限公司 答题评分方法、装置、计算机设备及存储介质
CN110853679A (zh) * 2019-10-23 2020-02-28 百度在线网络技术(北京)有限公司 语音合成的评估方法、装置、电子设备及可读存储介质
CN111611792A (zh) * 2020-05-21 2020-09-01 全球能源互联网研究院有限公司 一种语音转录文本的实体纠错方法及系统
CN112966509A (zh) * 2021-04-16 2021-06-15 重庆度小满优扬科技有限公司 文本质量评估方法、装置、存储介质及计算机设备
CN113127639A (zh) * 2020-01-14 2021-07-16 北京京东振世信息技术有限公司 一种异常会话文本检测方法和装置
CN113378977A (zh) * 2021-06-30 2021-09-10 中国农业银行股份有限公司 一种录音数据的处理方法和装置
CN115938347A (zh) * 2023-03-13 2023-04-07 中国民用航空飞行学院 基于语音识别的飞行学员通话规范性评分方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120095952A1 (en) * 2010-10-19 2012-04-19 Xerox Corporation Collapsed gibbs sampler for sparse topic models and discrete matrix factorization
CN105335349A (zh) * 2015-08-26 2016-02-17 天津大学 一种基于时间窗口的lda微博主题趋势检测方法及装置
CN106844424A (zh) * 2016-12-09 2017-06-13 宁波大学 一种基于lda的文本分类方法
CN107590172A (zh) * 2017-07-17 2018-01-16 北京捷通华声科技股份有限公司 一种大规模语音数据的核心内容挖掘方法及设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120095952A1 (en) * 2010-10-19 2012-04-19 Xerox Corporation Collapsed gibbs sampler for sparse topic models and discrete matrix factorization
CN105335349A (zh) * 2015-08-26 2016-02-17 天津大学 一种基于时间窗口的lda微博主题趋势检测方法及装置
CN106844424A (zh) * 2016-12-09 2017-06-13 宁波大学 一种基于lda的文本分类方法
CN107590172A (zh) * 2017-07-17 2018-01-16 北京捷通华声科技股份有限公司 一种大规模语音数据的核心内容挖掘方法及设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘江华: "一种基于kmeans聚类算法和LDA主题模型的文本检索方法及有效性验证", 《情报科学》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109815491B (zh) * 2019-01-08 2023-08-08 平安科技(深圳)有限公司 答题评分方法、装置、计算机设备及存储介质
CN109815491A (zh) * 2019-01-08 2019-05-28 平安科技(深圳)有限公司 答题评分方法、装置、计算机设备及存储介质
CN110853679B (zh) * 2019-10-23 2022-06-28 百度在线网络技术(北京)有限公司 语音合成的评估方法、装置、电子设备及可读存储介质
CN110853679A (zh) * 2019-10-23 2020-02-28 百度在线网络技术(北京)有限公司 语音合成的评估方法、装置、电子设备及可读存储介质
CN113127639B (zh) * 2020-01-14 2023-11-03 北京京东振世信息技术有限公司 一种异常会话文本检测方法和装置
CN113127639A (zh) * 2020-01-14 2021-07-16 北京京东振世信息技术有限公司 一种异常会话文本检测方法和装置
CN111611792B (zh) * 2020-05-21 2023-05-23 全球能源互联网研究院有限公司 一种语音转录文本的实体纠错方法及系统
CN111611792A (zh) * 2020-05-21 2020-09-01 全球能源互联网研究院有限公司 一种语音转录文本的实体纠错方法及系统
CN112966509A (zh) * 2021-04-16 2021-06-15 重庆度小满优扬科技有限公司 文本质量评估方法、装置、存储介质及计算机设备
CN113378977A (zh) * 2021-06-30 2021-09-10 中国农业银行股份有限公司 一种录音数据的处理方法和装置
CN113378977B (zh) * 2021-06-30 2023-11-21 中国农业银行股份有限公司 一种录音数据的处理方法和装置
CN115938347A (zh) * 2023-03-13 2023-04-07 中国民用航空飞行学院 基于语音识别的飞行学员通话规范性评分方法及系统
CN115938347B (zh) * 2023-03-13 2023-05-23 中国民用航空飞行学院 基于语音识别的飞行学员通话规范性评分方法及系统

Also Published As

Publication number Publication date
CN109101518B (zh) 2022-03-22

Similar Documents

Publication Publication Date Title
CN109101518A (zh) 语音转录文本质量评估方法、装置、终端及可读存储介质
Jose et al. A survey of current datasets for code-switching research
CN110209764B (zh) 语料标注集的生成方法及装置、电子设备、存储介质
CN104408078B (zh) 一种基于关键词的中英双语平行语料库构建方法
CN100371927C (zh) 使用机器翻译技术标识释义的方法和系统
US20210173829A1 (en) Natural Language Processing Engine For Translating Questions Into Executable Database Queries
US9594742B2 (en) Method and apparatus for matching misspellings caused by phonetic variations
Chan et al. Reproducible extraction of cross-lingual topics (rectr)
CN103678684A (zh) 一种基于导航信息检索的中文分词方法
Khasawneh et al. Sentiment analysis of Arabic social media content: a comparative study
CN110597979A (zh) 一种基于自注意力的生成式文本摘要方法
CN110929520B (zh) 非命名实体对象抽取方法、装置、电子设备及存储介质
Al-Kabi et al. Evaluating social context in arabic opinion mining.
CN110019820B (zh) 一种病历中主诉与现病史症状时间一致性检测方法
CN111078893A (zh) 一种大规模高效获取识别对话意图用语料的方法
CN112183102A (zh) 基于注意力机制与图注意力网络的命名实体识别方法
CN110633456A (zh) 语种识别方法、装置、服务器及存储介质
CN116402166B (zh) 一种预测模型的训练方法、装置、电子设备及存储介质
Moran et al. Investigating the relatedness of the endangered Dogon languages
CN110888940B (zh) 文本信息提取方法、装置、计算机设备及存储介质
CN114842982B (zh) 一种面向医疗信息系统的知识表达方法、装置及系统
CN103164395A (zh) 汉柯电子辞典及其自动转译汉柯语的方法
Arora et al. Jambu: A historical linguistic database for South Asian languages
Lamb et al. Developing embedding models for Scottish Gaelic
CN112632985A (zh) 语料的处理方法、装置、存储介质及处理器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant