CN111078831B

CN111078831B - 一种课文朗读音频内容转文本的优化方法

Info

Publication number: CN111078831B
Application number: CN201911077213.3A
Authority: CN
Inventors: 吴杰; 丁宁
Original assignee: Guangzhou Lizhi Network Technology Co ltd
Current assignee: Guangzhou Lizhi Network Technology Co ltd
Priority date: 2019-11-06
Filing date: 2019-11-06
Publication date: 2023-05-30
Anticipated expiration: 2039-11-06
Also published as: CN111078831A

Abstract

本发明公开了一种课文朗读音频内容转文本的优化方法，包括以下步骤：步骤1)，课文数据库搭建及训练；步骤2)，将待转换文本的音频文件的标题进行中英文识别；步骤3)，根据标题语种搜索数据库中所有语种相同的数据data，在数据data中查找与标题嵌入欧式距离最小的标题嵌入；步骤4)，定期增量爬取新的中英文课文加入课文数据库。其可减少计算资源的消耗以及缩短语音转文本转换时间。

Description

一种课文朗读音频内容转文本的优化方法

技术领域

本发明涉及计算机技术领域，尤其涉及一种课文朗读音频内容转文本的优化方法。

背景技术

随着互联网行业的快速发展，以及移动互联网的功能百花齐放，越来越多的朗读者，选择各大音频平台将自己的声音记录分享给其他人来收听，在这些朗读者中，有一个特殊的群体，就是小学生朗读者。老师会以作业的形式，安排小学生进行相关朗读，小学生将相关的朗读结果上传到音频平台，供老师查阅，以及自身朗读能力的提高。对于音频平台，会将相关的内容分享给其他人进行收听，其中最重要的一部分就是音频内容转化为文本，然后基于文本内容构建相关内容特征，结合其他用户的用户画像进行推荐。

现阶段，对于小学生朗读的文本来说，一般是通过语音识别技术来进行的，非常消耗计算资源，而且随着朗读内容的时长越长，转换时间也越长，非常消耗系统计算资源。

发明内容

本发明旨在至少在一定程度上解决现有相关技术中存在的问题之一，为此，本发明的目的在于提出一种课文朗读音频内容转文本的优化方法，其可减少计算资源的消耗以及缩短语音转文本转换时间。

上述目的是通过如下技术方案来实现的：

一种课文朗读音频内容转文本的优化方法，包括以下步骤：

步骤1)，课文数据库搭建及训练；

步骤2)，将待转换文本的音频文件的标题进行中英文识别；

步骤3)，根据标题语种搜索数据库中所有语种相同的数据data，在数据data中查找与标题嵌入欧式距离最小的标题嵌入；

步骤4)，定期增量爬取新的中英文课文加入课文数据库。

在一些实施方式中，课文数据库搭建及训练的步骤具体为：

步骤1.1)，使用所有中文课文标题及文本，训练中文bert模型，中文bert模型将每个中文单词转化为ne维向量，使用所有英文课文标题及文本，训练英文bert模型，英文bert模型将每个英文单词转化为nc维向量；

步骤1.2)，对于课文数据库中每个英文课文标题中每个单词，使用步骤1.1)中使用英文文本训练的bert模型提取词向量；

步骤1.3)，嵌入向量word_matrix＝[[x₁₀,x₁₁,…,x_1ne],[x₂₀,x₂₁,…,x_2ne],..,[x_len0,x_len1,…,x_lenne]]；

步骤1.4)，把每个英文课文标题文本输入自动编码器的编码器网络；

步骤1.5)，把步骤1.3)中的嵌入向量word_matrix经过解码器层重构卷积神经网络特征，把重构的卷积神经网络特征与输入编码器的卷积神经网络特征对比，计算欧式距离作为损失，使用反向传导神经网络优化编码器和解码器权重；

步骤1.6)，针对英文课文文本、中文标题、中文课文文本分别重复步骤1.2)、步骤1.3)、步骤1.4)，分别训练CAE-eText,CAE-cTitle,CAE-cText模型；

步骤1.7)，使用步骤1.1)至步骤1.6)中的词向量提取及文本特征提取模型把课文数据库中的所有课文标题及内容提取出特征向量。

在一些实施方式中，步骤1.2)的步骤包括：

单词序列word_seq＝[w₁,w₂,…,w_n]，n为序列长度，设置词向量序列长度为len,如果n的长度大于len,则提取序列前len个向量，如果n小于len，则在序列结尾补充0向量，使序列长度为len，词向量序列word_嵌入＝[e₀,e₁,…,e_len]，其中，en＝[x₀,x₁,…,x_ne]，x_n为词嵌入中第n个特征，把每个词向量序列堆叠成一个二维矩阵，每个英文课文文本转化为一个len*ne的二维矩阵。

在一些实施方式中，步骤1.4)的步骤包括：

编码器网络为卷积神经网络网络，英文课文文本经编码器网络转化为n维度的嵌入；

卷积神经网络过滤器计算方法：

卷积神经网络层单个过滤器输出：a＝[[z₀,1],[z₀,2],[z₀,k],[z₁,0],…,[z₁,k],…,[z_k,k]]；

卷积神经网络层嵌入：嵌入＝[a₀,a₁…,a_f]。

在一些实施方式中，步骤1.5)的步骤具体为：

训练后的网络为CAE-eTitle；

卷积神经网络解码器的计算方法：

z_dem,n为重构后的矩阵第m行第n列的值。

在一些实施方式中，步骤2)的步骤包括：

如果是中文则使用步骤1.1)中训练的中文bert模型提取特征矩阵，如果是英文则使用步骤1.1)中训练的英文bert模型提取特征矩阵；

把提取出的标题矩阵按照步骤1.2)和步骤1.3)中的步骤，输入CAE-eTitle或CAE-cTitle编码成标题特征嵌入。

在一些实施方式中，步骤3)的步骤包括：

如果title嵌入距离小于阈值，则直接返回该title对应的课文文本作为该音频的文本；

如果title嵌入距离大于阈值，则使用CAE-eText或CAE-cText对音频开头、中间、结尾的三段片段路径语音识别转化的文本提取特征向量，对三个特征向量相加取平均值，在数据data中所有的课文文本嵌入中查找与嵌入平均值欧式距离最小的嵌入作为嵌入最小值，如果欧式距离小于阈值，则使用该课文作为该音频的文本，如果欧氏距离大于阈值，则判断数据库中无此课文，使用语音识别把完整的音频转化为文本。

在一些实施方式中，步骤4)的步骤包括：

每月使用新数据调整中英文bert及CAE-eTitle,CAE-eText,CAE-cTitle,CAE-cText。

与现有技术相比，本发明的至少包括以下有益效果：

1、本发明的课文朗读音频内容转文本的优化方法，其可减少计算资源的消耗以及缩短语音转文本转换时间。

附图说明

图1是本发明实施例中优化方法的流程示意图。

具体实施方式

以下实施例对本发明进行说明，但本发明并不受这些实施例所限制。对本发明的具体实施方式进行修改或者对部分技术特征进行等同替换，而不脱离本发明方案的精神，其均应涵盖在本发明请求保护的技术方案范围当中。

实施例一：如图1所示，本实施例提供一种课文朗读音频内容转文本的优化方法，包括以下步骤：

步骤1)，课文数据库搭建及训练；

步骤2)，将待转换文本的音频文件的标题进行中英文识别；

步骤4)，定期增量爬取新的中英文课文加入课文数据库。

本实施例的优化方法，通过大数据及人工智能技术，针对语音转化文本的过程，能大量减少计算资源的消耗，以及缩短语音转文本转换时间。

使用的特征：

课本朗读节目的标题，课本朗读节目开头部分的10秒音频，课本朗读节目中间部分的10秒音频，课本朗读节目结尾部分的10秒音频、课本文本数据系统中的课本标题和课本文本。

课文数据库构建：

网上爬取中小学生语文和英语课本的所有课文标题、文本、作者。课文数据库字段：课文语言(中文还是英文)、课文作者、课文标题、课文标题嵌入、课文内容嵌入。

使用的模型：

使用Bert实现词向量提取。使用卷积神经网络-auto_解码器实现文本特征提取。

在本实施例中，课文数据库搭建及训练的步骤具体为：

步骤1.1)，使用所有中文课文标题及文本，训练中文bert模型，Bidirectional编码器RepresentationsfromTransformers是一种预训练语言标识的新方法，中文bert模型将每个中文单词转化为ne维向量，ne的长度根据模型效果调整，使用所有英文课文标题及文本，训练英文bert模型，BidirectionalEncoderRepresentationfromTransformers，英文bert模型将每个英文单词转化为nc维向量，nc的大小跟随模型效果调整；

步骤1.2)，对于课文数据库中每个英文课文标题中每个单词，使用步骤1.1)中使用英文文本训练的bert模型提取词向量，对于中文标题或文本，使用开源切词器切词；

单词序列word_seq＝[w₁,w₂,…,w_n]，n为序列长度，设置词向量序列长度为len,len根据算法具体效果进行调整，如果n的长度大于len,则提取序列前len个向量，如果n小于len，则在序列结尾补充0向量，使序列长度为len，词向量序列word_嵌入＝[e₀,e₁,…,e_len]，其中，en＝[x₀,x₁,…,x_ne]，xn为词嵌入中第n个特征，把每个词向量序列堆叠成一个二维矩阵，每个英文课文文本转化为一个len*ne的二维矩阵；

步骤1.4)，把每个英文课文标题文本输入自动编码器的编码器网络，编码器网络为卷积神经网络网络，卷积神经网络网络的卷积核数量、大小根据模型效果调整，英文课文文本经编码器网络转化为n维度的嵌入；

卷积神经网络过滤器计算方法：

卷积神经网络层嵌入：嵌入＝[a₀,a₁…,a_f]；其中a代表单个滤波器，f表示一共有f层。

步骤1.5)，把步骤1.3)中的嵌入向量经过解码器层重构卷积神经网络特征，把重构的卷积神经网络特征与输入编码器的卷积神经网络特征对比，计算欧式距离作为损失，使用反向传导神经网络优化编码器和解码器权重；

训练后的网络为CAE-eTitle；

卷积神经网络解码器的计算方法：

z_dem,n为重构后的矩阵第m行第n列的值。

步骤1.7)，使用步骤1.1)至步骤1.6)中的词向量提取及文本特征提取模型把课文数据库中的所有课文标题及内容提取出特征向量；

提取特征向量后把标题特征向量写入数据库中的标题字段，内容特征向量写入内容字段。

优选的，步骤2)的步骤包括：

更优选的，步骤3)的步骤包括：

具体地，步骤4)的步骤包括：

本实施例的一种课文朗读音频内容转文本的优化方法，通过沟通小学生课文库，通过大数据数据挖掘以及人工智能算法，高效完成课文语音转换文本的操作。

以上所述的仅是本发明的一些实施方式。对于本领域的普通技术人员来说，在不脱离本发明创造构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种课文朗读音频内容转文本的优化方法，其特征在于，包括以下步骤：

步骤1)，课文数据库搭建及训练；

步骤2)，将待转换文本的音频文件的标题进行中英文识别；

步骤4)，定期增量爬取新的中英文课文加入课文数据库；

课文数据库搭建及训练的步骤包括：

步骤2)的步骤包括：

把提取出的标题矩阵按照步骤1.2)和步骤1.3)中的步骤，输入CAE-eTitle或CAE-cTitle编码成标题特征嵌入；

步骤3)的步骤包括：

2.根据权利要求1所述的一种课文朗读音频内容转文本的优化方法，其特征在于，步骤1.2)的步骤包括：

3.根据权利要求2所述的一种课文朗读音频内容转文本的优化方法，其特征在于，步骤1.4)的步骤包括：

卷积神经网络过滤器计算方法：

卷积神经网络层嵌入：嵌入＝[a₀,a₁…,a_f]。

4.根据权利要求3所述的一种课文朗读音频内容转文本的优化方法，其特征在于，步骤1.5)的步骤具体为：

训练后的网络为CAE-eTitle；

卷积神经网络解码器的计算方法：

z_dem,n为重构后的矩阵第m行第n列的值。

5.根据权利要求1所述的一种课文朗读音频内容转文本的优化方法，其特征在于，步骤4)的步骤包括：每月使用新数据调整中英文bert及CAE-eTitle,CAE-eText,CAE-cTitle,CAE-cText。