CN111078831B - 一种课文朗读音频内容转文本的优化方法 - Google Patents
一种课文朗读音频内容转文本的优化方法 Download PDFInfo
- Publication number
- CN111078831B CN111078831B CN201911077213.3A CN201911077213A CN111078831B CN 111078831 B CN111078831 B CN 111078831B CN 201911077213 A CN201911077213 A CN 201911077213A CN 111078831 B CN111078831 B CN 111078831B
- Authority
- CN
- China
- Prior art keywords
- text
- english
- embedding
- word
- title
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Electrically Operated Instructional Devices (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明公开了一种课文朗读音频内容转文本的优化方法,包括以下步骤:步骤1),课文数据库搭建及训练;步骤2),将待转换文本的音频文件的标题进行中英文识别;步骤3),根据标题语种搜索数据库中所有语种相同的数据data,在数据data中查找与标题嵌入欧式距离最小的标题嵌入;步骤4),定期增量爬取新的中英文课文加入课文数据库。其可减少计算资源的消耗以及缩短语音转文本转换时间。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种课文朗读音频内容转文本的优化方法。
背景技术
随着互联网行业的快速发展,以及移动互联网的功能百花齐放,越来越多的朗读者,选择各大音频平台将自己的声音记录分享给其他人来收听,在这些朗读者中,有一个特殊的群体,就是小学生朗读者。老师会以作业的形式,安排小学生进行相关朗读,小学生将相关的朗读结果上传到音频平台,供老师查阅,以及自身朗读能力的提高。对于音频平台,会将相关的内容分享给其他人进行收听,其中最重要的一部分就是音频内容转化为文本,然后基于文本内容构建相关内容特征,结合其他用户的用户画像进行推荐。
现阶段,对于小学生朗读的文本来说,一般是通过语音识别技术来进行的,非常消耗计算资源,而且随着朗读内容的时长越长,转换时间也越长,非常消耗系统计算资源。
发明内容
本发明旨在至少在一定程度上解决现有相关技术中存在的问题之一,为此,本发明的目的在于提出一种课文朗读音频内容转文本的优化方法,其可减少计算资源的消耗以及缩短语音转文本转换时间。
上述目的是通过如下技术方案来实现的:
一种课文朗读音频内容转文本的优化方法,包括以下步骤:
步骤1),课文数据库搭建及训练;
步骤2),将待转换文本的音频文件的标题进行中英文识别;
步骤3),根据标题语种搜索数据库中所有语种相同的数据data,在数据data中查找与标题嵌入欧式距离最小的标题嵌入;
步骤4),定期增量爬取新的中英文课文加入课文数据库。
在一些实施方式中,课文数据库搭建及训练的步骤具体为:
步骤1.1),使用所有中文课文标题及文本,训练中文bert模型,中文bert模型将每个中文单词转化为ne维向量,使用所有英文课文标题及文本,训练英文bert模型,英文bert模型将每个英文单词转化为nc维向量;
步骤1.2),对于课文数据库中每个英文课文标题中每个单词,使用步骤1.1)中使用英文文本训练的bert模型提取词向量;
步骤1.3),嵌入向量word_matrix=[[x10,x11,…,x1ne],[x20,x21,…,x2ne],..,[xlen0,xlen1,…,xlenne]];
步骤1.4),把每个英文课文标题文本输入自动编码器的编码器网络;
步骤1.5),把步骤1.3)中的嵌入向量word_matrix经过解码器层重构卷积神经网络特征,把重构的卷积神经网络特征与输入编码器的卷积神经网络特征对比,计算欧式距离作为损失,使用反向传导神经网络优化编码器和解码器权重;
步骤1.6),针对英文课文文本、中文标题、中文课文文本分别重复步骤1.2)、步骤1.3)、步骤1.4),分别训练CAE-eText,CAE-cTitle,CAE-cText模型;
步骤1.7),使用步骤1.1)至步骤1.6)中的词向量提取及文本特征提取模型把课文数据库中的所有课文标题及内容提取出特征向量。
在一些实施方式中,步骤1.2)的步骤包括:
单词序列word_seq=[w1,w2,…,wn],n为序列长度,设置词向量序列长度为len,如果n的长度大于len,则提取序列前len个向量,如果n小于len,则在序列结尾补充0向量,使序列长度为len,词向量序列word_嵌入=[e0,e1,…,elen],其中,en=[x0,x1,…,xne],xn为词嵌入中第n个特征,把每个词向量序列堆叠成一个二维矩阵,每个英文课文文本转化为一个len*ne的二维矩阵。
在一些实施方式中,步骤1.4)的步骤包括:
编码器网络为卷积神经网络网络,英文课文文本经编码器网络转化为n维度的嵌入;
卷积神经网络过滤器计算方法:
卷积神经网络层单个过滤器输出:a=[[z0,1],[z0,2],[z0,k],[z1,0],…,[z1,k],…,[zk,k]];
卷积神经网络层嵌入:嵌入=[a0,a1…,af]。
在一些实施方式中,步骤1.5)的步骤具体为:
训练后的网络为CAE-eTitle;
卷积神经网络解码器的计算方法:
z_dem,n为重构后的矩阵第m行第n列的值。
在一些实施方式中,步骤2)的步骤包括:
如果是中文则使用步骤1.1)中训练的中文bert模型提取特征矩阵,如果是英文则使用步骤1.1)中训练的英文bert模型提取特征矩阵;
把提取出的标题矩阵按照步骤1.2)和步骤1.3)中的步骤,输入CAE-eTitle或CAE-cTitle编码成标题特征嵌入。
在一些实施方式中,步骤3)的步骤包括:
如果title嵌入距离小于阈值,则直接返回该title对应的课文文本作为该音频的文本;
如果title嵌入距离大于阈值,则使用CAE-eText或CAE-cText对音频开头、中间、结尾的三段片段路径语音识别转化的文本提取特征向量,对三个特征向量相加取平均值,在数据data中所有的课文文本嵌入中查找与嵌入平均值欧式距离最小的嵌入作为嵌入最小值,如果欧式距离小于阈值,则使用该课文作为该音频的文本,如果欧氏距离大于阈值,则判断数据库中无此课文,使用语音识别把完整的音频转化为文本。
在一些实施方式中,步骤4)的步骤包括:
每月使用新数据调整中英文bert及CAE-eTitle,CAE-eText,CAE-cTitle,CAE-cText。
与现有技术相比,本发明的至少包括以下有益效果:
1、本发明的课文朗读音频内容转文本的优化方法,其可减少计算资源的消耗以及缩短语音转文本转换时间。
附图说明
图1是本发明实施例中优化方法的流程示意图。
具体实施方式
以下实施例对本发明进行说明,但本发明并不受这些实施例所限制。对本发明的具体实施方式进行修改或者对部分技术特征进行等同替换,而不脱离本发明方案的精神,其均应涵盖在本发明请求保护的技术方案范围当中。
实施例一:如图1所示,本实施例提供一种课文朗读音频内容转文本的优化方法,包括以下步骤:
步骤1),课文数据库搭建及训练;
步骤2),将待转换文本的音频文件的标题进行中英文识别;
步骤3),根据标题语种搜索数据库中所有语种相同的数据data,在数据data中查找与标题嵌入欧式距离最小的标题嵌入;
步骤4),定期增量爬取新的中英文课文加入课文数据库。
本实施例的优化方法,通过大数据及人工智能技术,针对语音转化文本的过程,能大量减少计算资源的消耗,以及缩短语音转文本转换时间。
使用的特征:
课本朗读节目的标题,课本朗读节目开头部分的10秒音频,课本朗读节目中间部分的10秒音频,课本朗读节目结尾部分的10秒音频、课本文本数据系统中的课本标题和课本文本。
课文数据库构建:
网上爬取中小学生语文和英语课本的所有课文标题、文本、作者。课文数据库字段:课文语言(中文还是英文)、课文作者、课文标题、课文标题嵌入、课文内容嵌入。
使用的模型:
使用Bert实现词向量提取。使用卷积神经网络-auto_解码器实现文本特征提取。
在本实施例中,课文数据库搭建及训练的步骤具体为:
步骤1.1),使用所有中文课文标题及文本,训练中文bert模型,Bidirectional编码器RepresentationsfromTransformers是一种预训练语言标识的新方法,中文bert模型将每个中文单词转化为ne维向量,ne的长度根据模型效果调整,使用所有英文课文标题及文本,训练英文bert模型,BidirectionalEncoderRepresentationfromTransformers,英文bert模型将每个英文单词转化为nc维向量,nc的大小跟随模型效果调整;
步骤1.2),对于课文数据库中每个英文课文标题中每个单词,使用步骤1.1)中使用英文文本训练的bert模型提取词向量,对于中文标题或文本,使用开源切词器切词;
单词序列word_seq=[w1,w2,…,wn],n为序列长度,设置词向量序列长度为len,len根据算法具体效果进行调整,如果n的长度大于len,则提取序列前len个向量,如果n小于len,则在序列结尾补充0向量,使序列长度为len,词向量序列word_嵌入=[e0,e1,…,elen],其中,en=[x0,x1,…,xne],xn为词嵌入中第n个特征,把每个词向量序列堆叠成一个二维矩阵,每个英文课文文本转化为一个len*ne的二维矩阵;
步骤1.3),嵌入向量word_matrix=[[x10,x11,…,x1ne],[x20,x21,…,x2ne],..,[xlen0,xlen1,…,xlenne]];
步骤1.4),把每个英文课文标题文本输入自动编码器的编码器网络,编码器网络为卷积神经网络网络,卷积神经网络网络的卷积核数量、大小根据模型效果调整,英文课文文本经编码器网络转化为n维度的嵌入;
卷积神经网络过滤器计算方法:
卷积神经网络层单个过滤器输出:a=[[z0,1],[z0,2],[z0,k],[z1,0],…,[z1,k],…,[zk,k]];
卷积神经网络层嵌入:嵌入=[a0,a1…,af];其中a代表单个滤波器,f表示一共有f层。
步骤1.5),把步骤1.3)中的嵌入向量经过解码器层重构卷积神经网络特征,把重构的卷积神经网络特征与输入编码器的卷积神经网络特征对比,计算欧式距离作为损失,使用反向传导神经网络优化编码器和解码器权重;
训练后的网络为CAE-eTitle;
卷积神经网络解码器的计算方法:
z_dem,n为重构后的矩阵第m行第n列的值。
步骤1.6),针对英文课文文本、中文标题、中文课文文本分别重复步骤1.2)、步骤1.3)、步骤1.4),分别训练CAE-eText,CAE-cTitle,CAE-cText模型;
步骤1.7),使用步骤1.1)至步骤1.6)中的词向量提取及文本特征提取模型把课文数据库中的所有课文标题及内容提取出特征向量;
提取特征向量后把标题特征向量写入数据库中的标题字段,内容特征向量写入内容字段。
优选的,步骤2)的步骤包括:
如果是中文则使用步骤1.1)中训练的中文bert模型提取特征矩阵,如果是英文则使用步骤1.1)中训练的英文bert模型提取特征矩阵;
把提取出的标题矩阵按照步骤1.2)和步骤1.3)中的步骤,输入CAE-eTitle或CAE-cTitle编码成标题特征嵌入。
更优选的,步骤3)的步骤包括:
如果title嵌入距离小于阈值,则直接返回该title对应的课文文本作为该音频的文本;
如果title嵌入距离大于阈值,则使用CAE-eText或CAE-cText对音频开头、中间、结尾的三段片段路径语音识别转化的文本提取特征向量,对三个特征向量相加取平均值,在数据data中所有的课文文本嵌入中查找与嵌入平均值欧式距离最小的嵌入作为嵌入最小值,如果欧式距离小于阈值,则使用该课文作为该音频的文本,如果欧氏距离大于阈值,则判断数据库中无此课文,使用语音识别把完整的音频转化为文本。
具体地,步骤4)的步骤包括:
每月使用新数据调整中英文bert及CAE-eTitle,CAE-eText,CAE-cTitle,CAE-cText。
本实施例的一种课文朗读音频内容转文本的优化方法,通过沟通小学生课文库,通过大数据数据挖掘以及人工智能算法,高效完成课文语音转换文本的操作。
以上所述的仅是本发明的一些实施方式。对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
Claims (5)
1.一种课文朗读音频内容转文本的优化方法,其特征在于,包括以下步骤:
步骤1),课文数据库搭建及训练;
步骤2),将待转换文本的音频文件的标题进行中英文识别;
步骤3),根据标题语种搜索数据库中所有语种相同的数据data,在数据data中查找与标题嵌入欧式距离最小的标题嵌入;
步骤4),定期增量爬取新的中英文课文加入课文数据库;
课文数据库搭建及训练的步骤包括:
步骤1.1),使用所有中文课文标题及文本,训练中文bert模型,中文bert模型将每个中文单词转化为ne维向量,使用所有英文课文标题及文本,训练英文bert模型,英文bert模型将每个英文单词转化为nc维向量;
步骤1.2),对于课文数据库中每个英文课文标题中每个单词,使用步骤1.1)中使用英文文本训练的bert模型提取词向量;
步骤1.3),嵌入向量word_matrix=[[x10,x11,…,x1ne],[x20,x21,…,x2ne],..,[xlen0,xlen1,…,xlenne]];
步骤1.4),把每个英文课文标题文本输入自动编码器的编码器网络;
步骤1.5),把步骤1.3)中的嵌入向量word_matrix经过解码器层重构卷积神经网络特征,把重构的卷积神经网络特征与输入编码器的卷积神经网络特征对比,计算欧式距离作为损失,使用反向传导神经网络优化编码器和解码器权重;
步骤1.6),针对英文课文文本、中文标题、中文课文文本分别重复步骤1.2)、步骤1.3)、步骤1.4),分别训练CAE-eText,CAE-cTitle,CAE-cText模型;
步骤1.7),使用步骤1.1)至步骤1.6)中的词向量提取及文本特征提取模型把课文数据库中的所有课文标题及内容提取出特征向量;
步骤2)的步骤包括:
如果是中文则使用步骤1.1)中训练的中文bert模型提取特征矩阵,如果是英文则使用步骤1.1)中训练的英文bert模型提取特征矩阵;
把提取出的标题矩阵按照步骤1.2)和步骤1.3)中的步骤,输入CAE-eTitle或CAE-cTitle编码成标题特征嵌入;
步骤3)的步骤包括:
如果title嵌入距离小于阈值,则直接返回该title对应的课文文本作为该音频的文本;
如果title嵌入距离大于阈值,则使用CAE-eText或CAE-cText对音频开头、中间、结尾的三段片段路径语音识别转化的文本提取特征向量,对三个特征向量相加取平均值,在数据data中所有的课文文本嵌入中查找与嵌入平均值欧式距离最小的嵌入作为嵌入最小值,如果欧式距离小于阈值,则使用该课文作为该音频的文本,如果欧氏距离大于阈值,则判断数据库中无此课文,使用语音识别把完整的音频转化为文本。
2.根据权利要求1所述的一种课文朗读音频内容转文本的优化方法,其特征在于,步骤1.2)的步骤包括:
单词序列word_seq=[w1,w2,…,wn],n为序列长度,设置词向量序列长度为len,如果n的长度大于len,则提取序列前len个向量,如果n小于len,则在序列结尾补充0向量,使序列长度为len,词向量序列word_嵌入=[e0,e1,…,elen],其中,en=[x0,x1,…,xne],xn为词嵌入中第n个特征,把每个词向量序列堆叠成一个二维矩阵,每个英文课文文本转化为一个len*ne的二维矩阵。
5.根据权利要求1所述的一种课文朗读音频内容转文本的优化方法,其特征在于,步骤4)的步骤包括:每月使用新数据调整中英文bert及CAE-eTitle,CAE-eText,CAE-cTitle,CAE-cText。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911077213.3A CN111078831B (zh) | 2019-11-06 | 2019-11-06 | 一种课文朗读音频内容转文本的优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911077213.3A CN111078831B (zh) | 2019-11-06 | 2019-11-06 | 一种课文朗读音频内容转文本的优化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111078831A CN111078831A (zh) | 2020-04-28 |
CN111078831B true CN111078831B (zh) | 2023-05-30 |
Family
ID=70310688
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911077213.3A Active CN111078831B (zh) | 2019-11-06 | 2019-11-06 | 一种课文朗读音频内容转文本的优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111078831B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111753137B (zh) * | 2020-06-29 | 2022-05-03 | 四川长虹电器股份有限公司 | 一种基于语音特征的视频搜索方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105893553A (zh) * | 2016-03-31 | 2016-08-24 | 广东小天才科技有限公司 | 一种学习内容推送的方法及系统 |
CN110245334A (zh) * | 2019-06-25 | 2019-09-17 | 北京百度网讯科技有限公司 | 用于输出信息的方法和装置 |
-
2019
- 2019-11-06 CN CN201911077213.3A patent/CN111078831B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105893553A (zh) * | 2016-03-31 | 2016-08-24 | 广东小天才科技有限公司 | 一种学习内容推送的方法及系统 |
CN110245334A (zh) * | 2019-06-25 | 2019-09-17 | 北京百度网讯科技有限公司 | 用于输出信息的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111078831A (zh) | 2020-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210390271A1 (en) | Neural machine translation systems | |
CN113158665B (zh) | 一种基于文本摘要生成与双向语料改善对话文本生成的方法 | |
JP7087938B2 (ja) | 質問生成装置、質問生成方法及びプログラム | |
CN111125333B (zh) | 一种基于表示学习与多层覆盖机制的生成式知识问答方法 | |
US20240320441A1 (en) | Natural Language Processing Dialog Methods and Systems for Virtual Scenes | |
EP4235485A1 (en) | Method for converting text data into acoustic feature, electronic device, and storage medium | |
CN114328817A (zh) | 一种文本处理方法和装置 | |
CN112699218A (zh) | 模型建立方法及系统及段落标签获得方法及介质 | |
CN115203388A (zh) | 机器阅读理解方法、装置、计算机设备和存储介质 | |
CN111078831B (zh) | 一种课文朗读音频内容转文本的优化方法 | |
CN113743095B (zh) | 基于词格和相对位置嵌入的中文问题生成统一预训练方法 | |
CN111984783B (zh) | 文本生成模型的训练方法、文本生成方法及相关设备 | |
CN117932066A (zh) | 一种基于预训练的“提取-生成”式答案生成模型及方法 | |
CN113392656A (zh) | 一种融合推敲网络和字符编码的神经机器翻译方法 | |
CN117271740A (zh) | 一种基于句粒度提示的大语言模型时序知识问答方法 | |
CN111767744A (zh) | 文本风格迁移系统的训练方法及装置 | |
CN115376547B (zh) | 发音评测方法、装置、计算机设备和存储介质 | |
Lin et al. | Chinese story generation with FastText transformer network | |
CN115831115A (zh) | 一种课堂纪要生成方法及系统 | |
KR102348689B1 (ko) | 감정점수를 활용한 시퀀스-투-시퀀스 기반의 텍스트 요약 | |
CN115374784A (zh) | 一种多模态信息选择性融合的中文命名实体识别方法 | |
CN114328853A (zh) | 一种基于Unilm优化语言模型的中文问题生成方法 | |
CN113553837A (zh) | 阅读理解模型的训练方法和装置、文本分析的方法和装置 | |
CN118070754B (zh) | 神经网络文本序列生成方法、终端设备和存储介质 | |
CN117035064B (zh) | 一种检索增强语言模型的联合训练方法及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |