CN111105785B - 一种文本韵律边界识别的方法及装置 - Google Patents
一种文本韵律边界识别的方法及装置 Download PDFInfo
- Publication number
- CN111105785B CN111105785B CN201911304110.6A CN201911304110A CN111105785B CN 111105785 B CN111105785 B CN 111105785B CN 201911304110 A CN201911304110 A CN 201911304110A CN 111105785 B CN111105785 B CN 111105785B
- Authority
- CN
- China
- Prior art keywords
- text
- audio
- alignment
- audio frame
- ordered
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 21
- 238000007781 pre-processing Methods 0.000 claims abstract description 31
- 238000012549 training Methods 0.000 claims abstract description 22
- 238000013507 mapping Methods 0.000 claims abstract description 21
- 238000012545 processing Methods 0.000 claims abstract description 3
- 238000001914 filtration Methods 0.000 claims description 7
- 230000011218 segmentation Effects 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 5
- 238000001514 detection method Methods 0.000 claims description 5
- 238000009432 framing Methods 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 230000033764 rhythmic process Effects 0.000 claims 2
- 238000004140 cleaning Methods 0.000 claims 1
- 238000004458 analytical method Methods 0.000 description 8
- 238000002372 labelling Methods 0.000 description 4
- 230000008451 emotion Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000006698 induction Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
- G10L15/05—Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种文本韵律边界识别的方法及装置,属于语音处理技术领域,对标准语音数据集的录音和文本信息进行对齐训练,得到音频帧和音素的对齐模型;将待标注文本和录音预处理后输入对齐模型,得到音频帧和音素的对齐映射关系;根据音频帧和音素的对齐映射关系,推导得出未对齐的音频帧区间;按照韵律结构层级和文本间停顿时长的对应关系,设置不同层级的停顿阈值,计算上述音频帧区间的时长,通过比较该时长与停顿阈值的大小关系判断出文本韵律边界。本发明建立音素与音频帧的对齐关系,通过统计对齐结果,能更直观的观察到不同等级的韵律边界与停顿时长的关系。
Description
技术领域
本发明涉及语音合成技术领域,特别是指一种文本韵律边界识别的方法及装置。
背景技术
目前对文本韵律边界识别的主要方法如下:
(1)基于手工定制规则的方法。在少量语料上,语言专家通过对常用助词组成韵律短语的各种情况进行分类,标注人员通过制定的韵律边界规则,手动标注文本的韵律边界;
(2)基于句法分析的方法。构造一个可靠的句法分析器,从语法结构和韵律结构的关系入手来寻找两者之间的对应关系,从而自动标注文本的韵律边界;
(3)基于机器学习算法的方法。使用诸如分类与回归树(CART),决策树(DT),基于转换的学习方法(TBL),最大熵模型(MEM)等手段,通过分词边界的上下文信息,计算该边界作为韵律边界的概率,以概率大小来判定是否为韵律边界。
通过现有韵律边界预测的研究成果分析,可以知道人们对韵律边界的研究,主要从文本分析的角度出发,应用统计或基于知识推理的方法,目前这些方法存在如下不足:
(1)基于专家经验的规则归纳方法存在的缺点:归纳规则具有明显的条件性,扩展困难;人工标注工作量大,标注结果存在一定的因人而异的现象,结果不稳定。
(2)基于句法分析的方法存在的缺点:句法特征十分复杂,可靠的句法分析器很难训练;对输入文本的规范性要求较高,文本结构的好坏直接影响到韵律边界判定的准确性;虽然韵律结构和语法结构有很大的正相关性,但句法结构不是决定韵律结构的唯一因素,说话场景、说话人的语言能力、说话风格、情绪都是影响韵律结构的重要因素。
(3)基于机器学习算法存在的缺点:在输入特征上的选择具有局限性,通常只停留在词面、词性等较浅层上的语法信息,不足以描述韵律映射关系;基于机器学习算法的方式的学习效果很大程度取决于训练语料的质量,一般生成的模型有较大局限性。
发明内容
本发明提出一种文本韵律边界识别的方法及装置,利用音频和文本的对齐信息去标注文本韵律边界,为构造大规模标注文本韵律边界的语料库提供了一种高效、准确的方法。
本发明的技术方案是这样实现的:
一种文本韵律边界识别的方法,具体包括以下步骤:
S1,对标准语音数据集的录音和文本信息进行对齐训练,得到音频帧和音素的对齐模型;
S2,将待标注文本和录音预处理后输入对齐模型,得到音频帧和音素的对齐映射关系;
S3,根据音频帧和音素的对齐映射关系,推导得出未对齐的音频帧区间;
S4,按照韵律结构层级和文本间停顿时长的对应关系,设置不同层级的停顿阈值,计算上述音频帧区间的时长,通过比较该时长与停顿阈值的大小关系判断出文本韵律边界。
作为本发明的一个优选实施例,步骤S1具体包括以下步骤:
S101,对标准语音数据集的录音和文本信息进行预处理,得到除去无效帧的音频帧集,将文本信息转化为音素,按文本内字符顺序构建有次序的音素集;
S102,对音频帧集中的有效音频帧进行声学特征提取,按音频帧顺序构建有次序的音频集;
S103,对有次序的音素集和音频集进行对齐训练,得到音频帧和音素的对齐模型。
作为本发明的一个优选实施例,步骤S2具体包括以下步骤:
S201,将待标注文本和录音进行预处理,得到除去无效帧的音频帧集,将待标注文本转化为音素,按文本内字符顺序构建有次序的待标注音素集;
S202,对音频帧集中的有效音频帧进行声学特征提取,按音频帧顺序构建有次序的音频集;
S203,将待标注音素集和音频集输入对齐模型,得到音频帧和音素的对齐映射关系。
作为本发明的一个优选实施例,步骤S1中,通过最大期望算法,对标准语音数据集的录音和文本信息进行对齐训练,得到音频帧和音素的对齐模型。
一种文本韵律边界识别的装置,具体包括
模型训练模块,对标准语音数据集的录音和文本信息进行对齐训练,得到音频帧和音素的对齐参数;
对齐模型模块,根据对齐参数建立对齐模型,将待标注文本和录音输入对齐模型,得到音频帧和音素的对齐映射关系;
字典,记录有效音频中音素和音频区间的对应关系,以及这些音频区间下界端点位置的音素符号及索引,构建音素符号和音频区间的映射字典、音素索引与有效音频中无音素对应关系的音频区间的映射字典;
韵律层级模块,按照韵律结构层级和文本间停顿时长的对应关系,设置不同层级的停顿阈值;
边界确定模块,根据无量纲参数和停顿阈值的关系判断出文本韵律边界。
作为本发明的一个优选实施例,还包括
预处理模块,对标准语音数据集的录音和文本信息/待标注的录音和文本信息进行预处理,得到有次序的音素集和音频集,输出至模型训练模块/对齐模型模块。
作为本发明的一个优选实施例,预处理模块包括
录音预处理子模块,对录音进行过滤和分帧操作,获得有效音频帧集,对有效音频帧进行特征提取和排序,得到有次序的音频集;
文本预处理子模块,对文本进行清洗和切词处理,将文本转化成音素,按文本内字符顺序构建有次序的音素集。
作为本发明的一个优选实施例,录音预处理子模块包括
有效音频筛选子模块,对原始录音进行过滤操作,通过话音激活检测,除去话音前后的无效语音帧以及各种背景噪音信号得到音频帧集;
音频次序排列子模块,对音频帧集中的有效音频帧进行声学特征提取,按音频帧的顺序,填入相应的MFCC或FBANK信息,构成有次序的音频集。
作为本发明的一个优选实施例,边界确定模块,根据无量纲参数和停顿阈值的关系判断出文本韵律边界具体指的是
边界确定模块,根据无量纲参数和停顿阈值的关系在文本对应的位置处插入韵律边界标志符。
本发明的有益效果在于:
(1)建立音素与音频帧的对齐关系,通过统计对齐结果,能更直观的观察到不同等级的韵律边界与停顿时长的关系,提供了一种从统计学的角度划分韵律边界等级的思路。
(2)借助录音的韵律边界切分模型能够利用说话人的语言能力、说话风格、情绪等影响韵律结构的因素,使得文本的韵律边界切分结果更贴近实际场景,更加准确;
(3)重复利用文本录音信息,不再只从文本角度进行分析,降低了对句法结构分析精度的依赖,使得模型的建立更加容易。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种文本韵律边界识别的方法的流程图;
图2为本发明一种文本韵律边界识别的装置的原理框图;
图3为本发明一种文本韵律边界识别的方法一个实施例的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明提出了一种文本韵律边界识别的方法,具体包括以下步骤:
S1,对标准语音数据集的录音和文本信息进行对齐训练,得到音频帧和音素的对齐模型;
步骤S1具体包括以下步骤:
S101,对标准语音数据集的录音和文本信息进行预处理,得到除去无效帧的音频帧集,将文本信息转化为音素,按文本内字符顺序构建有次序的音素集;对原始录音进行过滤操作,通过话音激活检测(VAD),除去话音前后的无效语音帧以及各种背景噪音信号得到音频帧集;对文本进行简单清洗处理后,通过事先准备好的词典,将文本转化成音素,按文本内字符顺序构建有次序的音素集。
S102,对音频帧集中的有效音频帧进行声学特征提取,按音频帧顺序构建有次序的音频集;按音频帧顺序填入相应的MFCC或FBANK信息,构成有次序的音频集。
S103,对有次序的音素集和音频集进行对齐训练,得到音频帧和音素的对齐模型。通过最大期望(EM)算法,对上述步骤生成的有次序音素集和有次序音频集进行对齐训练,可以得到音频帧和音素的对齐模型。
S2,将待标注文本和录音预处理后输入对齐模型,得到音频帧和音素的对齐映射关系;
步骤S2具体包括以下步骤:
S201,将待标注文本和录音进行预处理,得到除去无效帧的音频帧集,将待标注文本转化为音素,按文本内字符顺序构建有次序的待标注音素集;
S202,对音频帧集中的有效音频帧进行声学特征提取,按音频帧顺序构建有次序的音频集;
S203,将待标注音素集和音频集输入对齐模型,得到音频帧和音素的对齐映射关系。
S3,根据音频帧和音素的对齐映射关系,推导得出未对齐的音频帧区间;
S4,按照韵律结构层级和文本间停顿时长的对应关系,设置不同层级的停顿阈值,计算上述音频帧区间的时长,通过比较该时长与停顿阈值的大小关系判断出文本韵律边界。
如图2所示,本发明还提出了一种文本韵律边界识别的装置,具体包括
模型训练模块,对标准语音数据集的录音和文本信息进行对齐训练,得到音频帧和音素的对齐参数;
对齐模型模块,根据对齐参数建立对齐模型,将待标注文本和录音输入对齐模型,得到音频帧和音素的对齐映射关系;
字典,记录有效音频中音素和音频区间的对应关系,以及这些音频区间下界端点位置的音素符号及索引,构建音素符号和音频区间的映射字典、音素索引与有效音频中无音素对应关系的音频区间的映射字典;
韵律层级模块,按照韵律结构层级和文本间停顿时长的对应关系,设置不同层级的停顿阈值;
边界确定模块,根据无量纲参数和停顿阈值的关系判断出文本韵律边界。
作为本发明的一个优选实施例,本发明还包括预处理模块,对标准语音数据集的录音和文本信息/待标注的录音和文本信息进行预处理,得到有次序的音素集和音频集,输出至模型训练模块/对齐模型模块。
作为本发明的一个优选实施例,预处理模块包括
录音预处理子模块,对录音进行过滤和分帧操作,获得有效音频帧集,对有效音频帧进行特征提取和排序,得到有次序的音频集;
文本预处理子模块,对文本进行清洗和切词处理,将文本转化成音素,按文本内字符顺序构建有次序的音素集。
作为本发明的一个优选实施例,录音预处理子模块包括
有效音频筛选子模块,对原始录音进行过滤操作,通过话音激活检测,除去话音前后的无效语音帧以及各种背景噪音信号得到音频帧集;
音频次序排列子模块,对音频帧集中的有效音频帧进行声学特征提取,按音频帧的顺序,填入相应的MFCC或FBANK信息,构成有次序的音频集。
作为本发明的一个优选实施例,边界确定模块,根据无量纲参数和停顿阈值的关系判断出文本韵律边界具体指的是
边界确定模块,根据无量纲参数和停顿阈值的关系在文本对应的位置处插入韵律边界标志符。
如图3所示,结合语音识别工具箱kaldi,举例说明一种本发明的具体实现手段。
(1)首先取数据集中的录音和文本进行预处理,生成kaldi训练需要的大量标注数据,基于kald工具包自带的DNN-HMM模型,得到相应的音频帧和音素对齐模型F2P;
(2)抽取数据集中的一段文本,记为S_in和其对应的录音,记为F;
(3)对录音F进行话音激活检测、分帧、加窗、快速傅立叶、mel频谱规整、取对数和离散余弦变换等音频处理操作后可得对应的MFCC特征(39维)序列,将声学特征序列转化成kaldi能识别的格式fr,以fr为值构造音频帧列表Fr=[fr1,fr2,...,frm];
(4)通过提前准备好的词典,将S_in中的字符拆分成音素,以音素所在位置pos为key,音素转化成kaldi能识别的格式p后作为value,构造音素字典P={pos1:p1,pos2:p2,...,posn:pn};
(5)通过对齐模型F2P确定音频帧fe和有效音素p的对应关系,并以音素p为key,音频帧fr为value,构造字典D1={p1:fr1,p1:fri,p2:fri+5,...,pn:frm};
(6)计算音频帧中与有效音素对齐以外的帧数目,并除以Fr总的帧数,得到无量纲参量L,与音素起始位置一起存入字典D2={pi:L1,pj:L2,...,pk:Ls};
(7)参考长句的停顿与韵律边界的判定准则,结合具体实验数据分析,将韵律层级根据停顿时间长度分为三级:一级停顿包括主谓之间;二级停顿包括偏正结构的不同修饰词之间;三级停顿包括述宾之间、带“的”或“地”的短语和词组。根据L与等级阈值的关系,在文本对应的位置p处插入韵律边界标志符,即可得到带有韵律边界的标注文本S_out。
本发明的有益效果在于:
(1)建立音素与音频帧的对齐关系,通过统计对齐结果,能更直观的观察到不同等级的韵律边界与停顿时长的关系,提供了一种从统计学的角度划分韵律边界等级的思路。
(2)借助录音的韵律边界切分模型能够利用说话人的语言能力、说话风格、情绪等影响韵律结构的因素,使得文本的韵律边界切分结果更贴近实际场景,更加准确;
(3)重复利用文本录音信息,不再只从文本角度进行分析,降低了对句法结构分析精度的依赖,使得模型的建立更加容易。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种文本韵律边界识别的方法,其特征在于,具体包括以下步骤:
S1,对标准语音数据集的录音和文本信息进行对齐训练,得到音频帧和音素的对齐模型;
S2,将待标注文本和录音预处理后输入对齐模型,得到音频帧和音素的对齐映射关系;
S3,根据音频帧和音素的对齐映射关系,推导得出未对齐的音频帧区间;
S4,按照韵律结构层级和文本间停顿时长的对应关系,设置不同层级的停顿阈值,计算上述音频帧区间的时长,通过比较该时长与停顿阈值的大小关系判断出文本韵律边界;
其中,步骤S1具体包括以下步骤:
S101,对标准语音数据集的录音和文本信息进行预处理,得到除去无效帧的音频帧集,将文本信息转化为音素,按文本内字符顺序构建有次序的音素集;
S102,对音频帧集中的有效音频帧进行声学特征提取,按音频帧顺序构建有次序的音频集;
S103,对有次序的音素集和音频集进行对齐训练,得到音频帧和音素的对齐模型。
2.根据权利要求1所述的一种文本韵律边界识别的方法,其特征在于,步骤S2具体包括以下步骤:
S201,将待标注文本和录音进行预处理,得到除去无效帧的音频帧集,将待标注文本转化为音素,按文本内字符顺序构建有次序的待标注音素集;
S202,对音频帧集中的有效音频帧进行声学特征提取,按音频帧顺序构建有次序的音频集;
S203,将待标注音素集和音频集输入对齐模型,得到音频帧和音素的对齐映射关系。
3.根据权利要求1-2任一项所述的一种文本韵律边界识别的方法,其特征在于,步骤S1中,通过最大期望算法,对标准语音数据集的录音和文本信息进行对齐训练,得到音频帧和音素的对齐模型。
4.一种文本韵律边界识别的装置,其特征在于,具体包括
模型训练模块,对标准语音数据集的录音和文本信息进行对齐训练,得到音频帧和音素的对齐参数;
对齐模型模块,根据对齐参数建立对齐模型,将待标注文本和录音输入对齐模型,得到音频帧和音素的对齐映射关系;
字典,记录有效音频中音素和音频区间的对应关系,以及这些音频区间下界端点位置的音素符号及索引,构建音素符号和音频区间的映射字典、音素索引与有效音频中无音素对应关系的音频区间的映射字典;
韵律层级模块,按照韵律结构层级和文本间停顿时长的对应关系,设置不同层级的停顿阈值;
边界确定模块,根据无量纲参数和停顿阈值的关系判断出文本韵律边界;
其中,所述模型训练模块,具体用于:对标准语音数据集的录音和文本信息进行预处理,得到除去无效帧的音频帧集,将文本信息转化为音素,按文本内字符顺序构建有次序的音素集;对音频帧集中的有效音频帧进行声学特征提取,按音频帧顺序构建有次序的音频集;对有次序的音素集和音频集进行对齐训练,得到音频帧和音素的对齐参数。
5.根据权利要求4所述的一种文本韵律边界识别的装置,其特征在于,还包括
预处理模块,对标准语音数据集的录音和文本信息进行预处理,得到有次序的音素集并输出至模型训练模块,对待标注的录音和文本信息进行预处理,得到有次序的音频集并输出至对齐模型模块。
6.根据权利要求5所述的一种文本韵律边界识别的装置,其特征在于,预处理模块包括
录音预处理子模块,对录音进行过滤和分帧操作,获得有效音频帧集,对有效音频帧进行特征提取和排序,得到有次序的音频集;
文本预处理子模块,对文本进行清洗切词处理,将文本转化成音素,按文本内字符顺序构建有次序的音素集。
7.根据权利要求6所述的一种文本韵律边界识别的装置,其特征在于,录音预处理子模块包括
有效音频筛选子模块,对原始录音进行过滤操作,通过话音激活检测,除去话音前后的无效语音帧以及各种背景噪音信号得到音频帧集;
音频次序排列子模块,对音频帧集中的有效音频帧进行声学特征提取,按音频帧的顺序,填入相应的MFCC或FBANK信息,构成有次序的音频集。
8.根据权利要求4所述的一种文本韵律边界识别的装置,其特征在于,边界确定模块,根据无量纲参数和停顿阈值的关系判断出文本韵律边界具体指的是
边界确定模块,根据无量纲参数和停顿阈值的关系在文本对应的位置处插入韵律边界标志符。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911304110.6A CN111105785B (zh) | 2019-12-17 | 2019-12-17 | 一种文本韵律边界识别的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911304110.6A CN111105785B (zh) | 2019-12-17 | 2019-12-17 | 一种文本韵律边界识别的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111105785A CN111105785A (zh) | 2020-05-05 |
CN111105785B true CN111105785B (zh) | 2023-06-16 |
Family
ID=70422488
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911304110.6A Active CN111105785B (zh) | 2019-12-17 | 2019-12-17 | 一种文本韵律边界识别的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111105785B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111312231B (zh) * | 2020-05-14 | 2020-09-04 | 腾讯科技(深圳)有限公司 | 音频检测方法、装置、电子设备及可读存储介质 |
CN111862939B (zh) * | 2020-05-25 | 2024-06-14 | 北京捷通华声科技股份有限公司 | 一种韵律短语标注方法和装置 |
CN111640418B (zh) * | 2020-05-29 | 2024-04-16 | 数据堂(北京)智能科技有限公司 | 一种韵律短语识别方法、装置及电子设备 |
CN111798868B (zh) | 2020-09-07 | 2020-12-08 | 北京世纪好未来教育科技有限公司 | 语音强制对齐模型评价方法、装置、电子设备及存储介质 |
CN112257407B (zh) * | 2020-10-20 | 2024-05-14 | 网易(杭州)网络有限公司 | 音频中的文本对齐方法、装置、电子设备及可读存储介质 |
CN113593522B (zh) * | 2021-06-28 | 2023-08-18 | 北京天行汇通信息技术有限公司 | 一种语音数据标注方法和装置 |
CN114360504A (zh) * | 2021-11-26 | 2022-04-15 | 腾讯科技(深圳)有限公司 | 音频处理方法、装置、设备、程序产品及存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101894552B (zh) * | 2010-07-16 | 2012-09-26 | 安徽科大讯飞信息科技股份有限公司 | 基于语谱切分的唱歌评测系统 |
CN106971743B (zh) * | 2016-01-14 | 2020-07-24 | 广州酷狗计算机科技有限公司 | 用户演唱数据处理方法和装置 |
CN106683667A (zh) * | 2017-01-13 | 2017-05-17 | 深圳爱拼信息科技有限公司 | 一种自动韵律提取方法、系统及其在自然语言处理任务中的应用 |
US10354660B2 (en) * | 2017-04-28 | 2019-07-16 | Cisco Technology, Inc. | Audio frame labeling to achieve unequal error protection for audio frames of unequal importance |
CN108766437B (zh) * | 2018-05-31 | 2020-06-23 | 平安科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及存储介质 |
CN109326281B (zh) * | 2018-08-28 | 2020-01-07 | 北京海天瑞声科技股份有限公司 | 韵律标注方法、装置和设备 |
-
2019
- 2019-12-17 CN CN201911304110.6A patent/CN111105785B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111105785A (zh) | 2020-05-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111105785B (zh) | 一种文本韵律边界识别的方法及装置 | |
CN109410914B (zh) | 一种赣方言语音和方言点识别方法 | |
CN107945805B (zh) | 一种智能化跨语言语音识别转化方法 | |
CN110364171B (zh) | 一种语音识别方法、语音识别系统及存储介质 | |
CN101930735B (zh) | 语音情感识别设备和进行语音情感识别的方法 | |
TWI396184B (zh) | 一種語音辨認所有語言及用語音輸入單字的方法 | |
CN111968679B (zh) | 情感识别方法、装置、电子设备及存储介质 | |
CN102779508B (zh) | 语音库生成设备及其方法、语音合成系统及其方法 | |
CN112002308A (zh) | 一种语音识别方法及装置 | |
CN107886968B (zh) | 语音评测方法及系统 | |
CN112349289B (zh) | 一种语音识别方法、装置、设备以及存储介质 | |
KR101014086B1 (ko) | 음성 처리 장치 및 방법, 및 기록 매체 | |
CN110019741B (zh) | 问答系统答案匹配方法、装置、设备及可读存储介质 | |
CN112397054A (zh) | 一种电力调度语音识别方法 | |
CN110428853A (zh) | 语音活性检测方法、语音活性检测装置以及电子设备 | |
Kumar et al. | Machine learning based speech emotions recognition system | |
CN112735404A (zh) | 一种语音反讽检测方法、系统、终端设备和存储介质 | |
CN114530141A (zh) | 一种特定场景下的中英文混合的离线语音关键词识别方法及其系统实现 | |
KR20090060631A (ko) | 타 언어권 화자음성에 대한 음성인식 시스템의 성능 향상을위한 비직접적 데이터 기반 발음변이 모델링 시스템 및방법 | |
CN108364655A (zh) | 语音处理方法、介质、装置和计算设备 | |
CN107123419A (zh) | Sphinx语速识别中背景降噪的优化方法 | |
JP2000172294A (ja) | 音声認識方法、その装置及びプログラム記録媒体 | |
CN112231440A (zh) | 一种基于人工智能的语音搜索方法 | |
CN111402887A (zh) | 一种语音转义文字的方法及装置 | |
Woods et al. | A robust ensemble model for spoken language recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |