CN111105785A - 一种文本韵律边界识别的方法及装置 - Google Patents

一种文本韵律边界识别的方法及装置 Download PDF

Info

Publication number
CN111105785A
CN111105785A CN201911304110.6A CN201911304110A CN111105785A CN 111105785 A CN111105785 A CN 111105785A CN 201911304110 A CN201911304110 A CN 201911304110A CN 111105785 A CN111105785 A CN 111105785A
Authority
CN
China
Prior art keywords
audio
text
phoneme
alignment
recording
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911304110.6A
Other languages
English (en)
Other versions
CN111105785B (zh
Inventor
徐波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Duoyi Network Co ltd
GUANGDONG LIWEI NETWORK TECHNOLOGY CO LTD
Guangzhou Duoyi Network Co ltd
Original Assignee
Duoyi Network Co ltd
GUANGDONG LIWEI NETWORK TECHNOLOGY CO LTD
Guangzhou Duoyi Network Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Duoyi Network Co ltd, GUANGDONG LIWEI NETWORK TECHNOLOGY CO LTD, Guangzhou Duoyi Network Co ltd filed Critical Duoyi Network Co ltd
Priority to CN201911304110.6A priority Critical patent/CN111105785B/zh
Publication of CN111105785A publication Critical patent/CN111105785A/zh
Application granted granted Critical
Publication of CN111105785B publication Critical patent/CN111105785B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种文本韵律边界识别的方法及装置,属于语音处理技术领域,对标准语音数据集的录音和文本信息进行对齐训练,得到音频帧和音素的对齐模型;将待标注文本和录音预处理后输入对齐模型,得到音频帧和音素的对齐映射关系;根据音频帧和音素的对齐映射关系,推导得出未对齐的音频帧区间;按照韵律结构层级和文本间停顿时长的对应关系,设置不同层级的停顿阈值,计算上述音频帧区间的时长,通过比较该时长与停顿阈值的大小关系判断出文本韵律边界。本发明建立音素与音频帧的对齐关系,通过统计对齐结果,能更直观的观察到不同等级的韵律边界与停顿时长的关系。

Description

一种文本韵律边界识别的方法及装置
技术领域
本发明涉及语音合成技术领域,特别是指一种文本韵律边界识别的方法及装置。
背景技术
目前对文本韵律边界识别的主要方法如下:
(1)基于手工定制规则的方法。在少量语料上,语言专家通过对常用助词组成韵律短语的各种情况进行分类,标注人员通过制定的韵律边界规则,手动标注文本的韵律边界;
(2)基于句法分析的方法。构造一个可靠的句法分析器,从语法结构和韵律结构的关系入手来寻找两者之间的对应关系,从而自动标注文本的韵律边界;
(3)基于机器学习算法的方法。使用诸如分类与回归树(CART),决策树(DT),基于转换的学习方法(TBL),最大熵模型(MEM)等手段,通过分词边界的上下文信息,计算该边界作为韵律边界的概率,以概率大小来判定是否为韵律边界。
通过现有韵律边界预测的研究成果分析,可以知道人们对韵律边界的研究,主要从文本分析的角度出发,应用统计或基于知识推理的方法,目前这些方法存在如下不足:
(1)基于专家经验的规则归纳方法存在的缺点:归纳规则具有明显的条件性,扩展困难;人工标注工作量大,标注结果存在一定的因人而异的现象,结果不稳定。
(2)基于句法分析的方法存在的缺点:句法特征十分复杂,可靠的句法分析器很难训练;对输入文本的规范性要求较高,文本结构的好坏直接影响到韵律边界判定的准确性;虽然韵律结构和语法结构有很大的正相关性,但句法结构不是决定韵律结构的唯一因素,说话场景、说话人的语言能力、说话风格、情绪都是影响韵律结构的重要因素。
(3)基于机器学习算法存在的缺点:在输入特征上的选择具有局限性,通常只停留在词面、词性等较浅层上的语法信息,不足以描述韵律映射关系;基于机器学习算法的方式的学习效果很大程度取决于训练语料的质量,一般生成的模型有较大局限性。
发明内容
本发明提出一种文本韵律边界识别的方法及装置,利用音频和文本的对齐信息去标注文本韵律边界,为构造大规模标注文本韵律边界的语料库提供了一种高效、准确的方法。
本发明的技术方案是这样实现的:
一种文本韵律边界识别的方法,具体包括以下步骤:
S1,对标准语音数据集的录音和文本信息进行对齐训练,得到音频帧和音素的对齐模型;
S2,将待标注文本和录音预处理后输入对齐模型,得到音频帧和音素的对齐映射关系;
S3,根据音频帧和音素的对齐映射关系,推导得出未对齐的音频帧区间;
S4,按照韵律结构层级和文本间停顿时长的对应关系,设置不同层级的停顿阈值,计算上述音频帧区间的时长,通过比较该时长与停顿阈值的大小关系判断出文本韵律边界。
作为本发明的一个优选实施例,步骤S1具体包括以下步骤:
S101,对标准语音数据集的录音和文本信息进行预处理,得到除去无效帧的音频帧集,将文本信息转化为音素,按文本内字符顺序构建有次序的音素集;
S102,对音频帧集中的有效音频帧进行声学特征提取,按音频帧顺序构建有次序的音频集;
S103,对有次序的音素集和音频集进行对齐训练,得到音频帧和音素的对齐模型。
作为本发明的一个优选实施例,步骤S2具体包括以下步骤:
S201,将待标注文本和录音进行预处理,得到除去无效帧的音频帧集,将待标注文本转化为音素,按文本内字符顺序构建有次序的待标注音素集;
S202,对音频帧集中的有效音频帧进行声学特征提取,按音频帧顺序构建有次序的音频集;
S203,将待标注音素集和音频集输入对齐模型,得到音频帧和音素的对齐映射关系。
作为本发明的一个优选实施例,步骤S1中,通过最大期望算法,对标准语音数据集的录音和文本信息进行对齐训练,得到音频帧和音素的对齐模型。
一种文本韵律边界识别的装置,具体包括
模型训练模块,对标准语音数据集的录音和文本信息进行对齐训练,得到音频帧和音素的对齐参数;
对齐模型模块,根据对齐参数建立对齐模型,将待标注文本和录音输入对齐模型,得到音频帧和音素的对齐映射关系;
字典,记录有效音频中音素和音频区间的对应关系,以及这些音频区间下界端点位置的音素符号及索引,构建音素符号和音频区间的映射字典、音素索引与有效音频中无音素对应关系的音频区间的映射字典;
韵律层级模块,按照韵律结构层级和文本间停顿时长的对应关系,设置不同层级的停顿阈值;
边界确定模块,根据无量纲参数和停顿阈值的关系判断出文本韵律边界。
作为本发明的一个优选实施例,还包括
预处理模块,对标准语音数据集的录音和文本信息/待标注的录音和文本信息进行预处理,得到有次序的音素集和音频集,输出至模型训练模块/对齐模型模块。
作为本发明的一个优选实施例,预处理模块包括
录音预处理子模块,对录音进行过滤和分帧操作,获得有效音频帧集,对有效音频帧进行特征提取和排序,得到有次序的音频集;
文本预处理子模块,对文本进行清洗和切词处理,将文本转化成音素,按文本内字符顺序构建有次序的音素集。
作为本发明的一个优选实施例,录音预处理子模块包括
有效音频筛选子模块,对原始录音进行过滤操作,通过话音激活检测,除去话音前后的无效语音帧以及各种背景噪音信号得到音频帧集;
音频次序排列子模块,对音频帧集中的有效音频帧进行声学特征提取,按音频帧的顺序,填入相应的MFCC或FBANK信息,构成有次序的音频集。
作为本发明的一个优选实施例,边界确定模块,根据无量纲参数和停顿阈值的关系判断出文本韵律边界具体指的是
边界确定模块,根据无量纲参数和停顿阈值的关系在文本对应的位置处插入韵律边界标志符。
本发明的有益效果在于:
(1)建立音素与音频帧的对齐关系,通过统计对齐结果,能更直观的观察到不同等级的韵律边界与停顿时长的关系,提供了一种从统计学的角度划分韵律边界等级的思路。
(2)借助录音的韵律边界切分模型能够利用说话人的语言能力、说话风格、情绪等影响韵律结构的因素,使得文本的韵律边界切分结果更贴近实际场景,更加准确;
(3)重复利用文本录音信息,不再只从文本角度进行分析,降低了对句法结构分析精度的依赖,使得模型的建立更加容易。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种文本韵律边界识别的方法的流程图;
图2为本发明一种文本韵律边界识别的装置的原理框图;
图3为本发明一种文本韵律边界识别的方法一个实施例的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明提出了一种文本韵律边界识别的方法,具体包括以下步骤:
S1,对标准语音数据集的录音和文本信息进行对齐训练,得到音频帧和音素的对齐模型;
步骤S1具体包括以下步骤:
S101,对标准语音数据集的录音和文本信息进行预处理,得到除去无效帧的音频帧集,将文本信息转化为音素,按文本内字符顺序构建有次序的音素集;对原始录音进行过滤操作,通过话音激活检测(VAD),除去话音前后的无效语音帧以及各种背景噪音信号得到音频帧集;对文本进行简单清洗处理后,通过事先准备好的词典,将文本转化成音素,按文本内字符顺序构建有次序的音素集。
S102,对音频帧集中的有效音频帧进行声学特征提取,按音频帧顺序构建有次序的音频集;按音频帧顺序填入相应的MFCC或FBANK信息,构成有次序的音频集。
S103,对有次序的音素集和音频集进行对齐训练,得到音频帧和音素的对齐模型。通过最大期望(EM)算法,对上述步骤生成的有次序音素集和有次序音频集进行对齐训练,可以得到音频帧和音素的对齐模型。
S2,将待标注文本和录音预处理后输入对齐模型,得到音频帧和音素的对齐映射关系;
步骤S2具体包括以下步骤:
S201,将待标注文本和录音进行预处理,得到除去无效帧的音频帧集,将待标注文本转化为音素,按文本内字符顺序构建有次序的待标注音素集;
S202,对音频帧集中的有效音频帧进行声学特征提取,按音频帧顺序构建有次序的音频集;
S203,将待标注音素集和音频集输入对齐模型,得到音频帧和音素的对齐映射关系。
S3,根据音频帧和音素的对齐映射关系,推导得出未对齐的音频帧区间;
S4,按照韵律结构层级和文本间停顿时长的对应关系,设置不同层级的停顿阈值,计算上述音频帧区间的时长,通过比较该时长与停顿阈值的大小关系判断出文本韵律边界。
如图2所示,本发明还提出了一种文本韵律边界识别的装置,具体包括
模型训练模块,对标准语音数据集的录音和文本信息进行对齐训练,得到音频帧和音素的对齐参数;
对齐模型模块,根据对齐参数建立对齐模型,将待标注文本和录音输入对齐模型,得到音频帧和音素的对齐映射关系;
字典,记录有效音频中音素和音频区间的对应关系,以及这些音频区间下界端点位置的音素符号及索引,构建音素符号和音频区间的映射字典、音素索引与有效音频中无音素对应关系的音频区间的映射字典;
韵律层级模块,按照韵律结构层级和文本间停顿时长的对应关系,设置不同层级的停顿阈值;
边界确定模块,根据无量纲参数和停顿阈值的关系判断出文本韵律边界。
作为本发明的一个优选实施例,本发明还包括预处理模块,对标准语音数据集的录音和文本信息/待标注的录音和文本信息进行预处理,得到有次序的音素集和音频集,输出至模型训练模块/对齐模型模块。
作为本发明的一个优选实施例,预处理模块包括
录音预处理子模块,对录音进行过滤和分帧操作,获得有效音频帧集,对有效音频帧进行特征提取和排序,得到有次序的音频集;
文本预处理子模块,对文本进行清洗和切词处理,将文本转化成音素,按文本内字符顺序构建有次序的音素集。
作为本发明的一个优选实施例,录音预处理子模块包括
有效音频筛选子模块,对原始录音进行过滤操作,通过话音激活检测,除去话音前后的无效语音帧以及各种背景噪音信号得到音频帧集;
音频次序排列子模块,对音频帧集中的有效音频帧进行声学特征提取,按音频帧的顺序,填入相应的MFCC或FBANK信息,构成有次序的音频集。
作为本发明的一个优选实施例,边界确定模块,根据无量纲参数和停顿阈值的关系判断出文本韵律边界具体指的是
边界确定模块,根据无量纲参数和停顿阈值的关系在文本对应的位置处插入韵律边界标志符。
如图3所示,结合语音识别工具箱kaldi,举例说明一种本发明的具体实现手段。
(1)首先取数据集中的录音和文本进行预处理,生成kaldi训练需要的大量标注数据,基于kald工具包自带的DNN-HMM模型,得到相应的音频帧和音素对齐模型F2P;
(2)抽取数据集中的一段文本,记为S_in和其对应的录音,记为F;
(3)对录音F进行话音激活检测、分帧、加窗、快速傅立叶、mel频谱规整、取对数和离散余弦变换等音频处理操作后可得对应的MFCC特征(39维)序列,将声学特征序列转化成kaldi能识别的格式fr,以fr为值构造音频帧列表Fr=[fr1,fr2,...,frm];
(4)通过提前准备好的词典,将S_in中的字符拆分成音素,以音素所在位置pos为key,音素转化成kaldi能识别的格式p后作为value,构造音素字典P={pos1:p1,pos2:p2,...,posn:pn};
(5)通过对齐模型F2P确定音频帧fe和有效音素p的对应关系,并以音素p为key,音频帧fr为value,构造字典D1={p1:fr1,p1:fri,p2:fri+5,...,pn:frm};
(6)计算音频帧中与有效音素对齐以外的帧数目,并除以Fr总的帧数,得到无量纲参量L,与音素起始位置一起存入字典D2={pi:L1,pj:L2,...,pk:Ls};
(7)参考长句的停顿与韵律边界的判定准则,结合具体实验数据分析,将韵律层级根据停顿时间长度分为三级:一级停顿包括主谓之间;二级停顿包括偏正结构的不同修饰词之间;三级停顿包括述宾之间、带“的”或“地”的短语和词组。根据L与等级阈值的关系,在文本对应的位置p处插入韵律边界标志符,即可得到带有韵律边界的标注文本S_out。
本发明的有益效果在于:
(1)建立音素与音频帧的对齐关系,通过统计对齐结果,能更直观的观察到不同等级的韵律边界与停顿时长的关系,提供了一种从统计学的角度划分韵律边界等级的思路。
(2)借助录音的韵律边界切分模型能够利用说话人的语言能力、说话风格、情绪等影响韵律结构的因素,使得文本的韵律边界切分结果更贴近实际场景,更加准确;
(3)重复利用文本录音信息,不再只从文本角度进行分析,降低了对句法结构分析精度的依赖,使得模型的建立更加容易。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种文本韵律边界识别的方法,其特征在于,具体包括以下步骤:
S1,对标准语音数据集的录音和文本信息进行对齐训练,得到音频帧和音素的对齐模型;
S2,将待标注文本和录音预处理后输入对齐模型,得到音频帧和音素的对齐映射关系;
S3,根据音频帧和音素的对齐映射关系,推导得出未对齐的音频帧区间;
S4,按照韵律结构层级和文本间停顿时长的对应关系,设置不同层级的停顿阈值,计算上述音频帧区间的时长,通过比较该时长与停顿阈值的大小关系判断出文本韵律边界。
2.根据权利要求1所述的一种文本韵律边界识别的方法,其特征在于,步骤S1具体包括以下步骤:
S101,对标准语音数据集的录音和文本信息进行预处理,得到除去无效帧的音频帧集,将文本信息转化为音素,按文本内字符顺序构建有次序的音素集;
S102,对音频帧集中的有效音频帧进行声学特征提取,按音频帧顺序构建有次序的音频集;
S103,对有次序的音素集和音频集进行对齐训练,得到音频帧和音素的对齐模型。
3.根据权利要求1所述的一种文本韵律边界识别的方法,其特征在于,步骤S2具体包括以下步骤:
S201,将待标注文本和录音进行预处理,得到除去无效帧的音频帧集,将待标注文本转化为音素,按文本内字符顺序构建有次序的待标注音素集;
S202,对音频帧集中的有效音频帧进行声学特征提取,按音频帧顺序构建有次序的音频集;
S203,将待标注音素集和音频集输入对齐模型,得到音频帧和音素的对齐映射关系。
4.根据权利要求1-3任一项所述的一种文本韵律边界识别的方法,其特征在于,步骤S1中,通过最大期望算法,对标准语音数据集的录音和文本信息进行对齐训练,得到音频帧和音素的对齐模型。
5.一种文本韵律边界识别的装置,其特征在于,具体包括
模型训练模块,对标准语音数据集的录音和文本信息进行对齐训练,得到音频帧和音素的对齐参数;
对齐模型模块,根据对齐参数建立对齐模型,将待标注文本和录音输入对齐模型,得到音频帧和音素的对齐映射关系;
字典,记录有效音频中音素和音频区间的对应关系,以及这些音频区间下界端点位置的音素符号及索引,构建音素符号和音频区间的映射字典、音素索引与有效音频中无音素对应关系的音频区间的映射字典;
韵律层级模块,按照韵律结构层级和文本间停顿时长的对应关系,设置不同层级的停顿阈值;
边界确定模块,根据无量纲参数和停顿阈值的关系判断出文本韵律边界。
6.根据权利要求5所述的一种文本韵律边界识别的装置,其特征在于,还包括
预处理模块,对标准语音数据集的录音和文本信息/待标注的录音和文本信息进行预处理,得到有次序的音素集和音频集,输出至模型训练模块/对齐模型模块。
7.根据权利要求6所述的一种文本韵律边界识别的装置,其特征在于,预处理模块包括
录音预处理子模块,对录音进行过滤和分帧操作,获得有效音频帧集,对有效音频帧进行特征提取和排序,得到有次序的音频集;
文本预处理子模块,对文本进行清洗切词处理,将文本转化成音素,按文本内字符顺序构建有次序的音素集。
8.根据权利要求7所述的一种文本韵律边界识别的装置,其特征在于,录音预处理子模块包括
有效音频筛选子模块,对原始录音进行过滤操作,通过话音激活检测,除去话音前后的无效语音帧以及各种背景噪音信号得到音频帧集;
音频次序排列子模块,对音频帧集中的有效音频帧进行声学特征提取,按音频帧的顺序,填入相应的MFCC或FBANK信息,构成有次序的音频集。
9.根据权利要求5所述的一种文本韵律边界识别的装置,其特征在于,边界确定模块,根据无量纲参数和停顿阈值的关系判断出文本韵律边界具体指的是
边界确定模块,根据无量纲参数和停顿阈值的关系在文本对应的位置处插入韵律边界标志符。
CN201911304110.6A 2019-12-17 2019-12-17 一种文本韵律边界识别的方法及装置 Active CN111105785B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911304110.6A CN111105785B (zh) 2019-12-17 2019-12-17 一种文本韵律边界识别的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911304110.6A CN111105785B (zh) 2019-12-17 2019-12-17 一种文本韵律边界识别的方法及装置

Publications (2)

Publication Number Publication Date
CN111105785A true CN111105785A (zh) 2020-05-05
CN111105785B CN111105785B (zh) 2023-06-16

Family

ID=70422488

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911304110.6A Active CN111105785B (zh) 2019-12-17 2019-12-17 一种文本韵律边界识别的方法及装置

Country Status (1)

Country Link
CN (1) CN111105785B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111312231A (zh) * 2020-05-14 2020-06-19 腾讯科技(深圳)有限公司 音频检测方法、装置、电子设备及可读存储介质
CN111640418A (zh) * 2020-05-29 2020-09-08 数据堂(北京)智能科技有限公司 一种韵律短语识别方法、装置及电子设备
CN111862939A (zh) * 2020-05-25 2020-10-30 北京捷通华声科技股份有限公司 一种韵律短语标注方法和装置
CN112257407A (zh) * 2020-10-20 2021-01-22 网易(杭州)网络有限公司 音频中的文本对齐方法、装置、电子设备及可读存储介质
CN113593522A (zh) * 2021-06-28 2021-11-02 北京天行汇通信息技术有限公司 一种语音数据标注方法和装置
WO2023093295A1 (zh) * 2021-11-26 2023-06-01 腾讯科技(深圳)有限公司 基于人工智能的音频处理方法、装置、电子设备、计算机程序产品及计算机可读存储介质
US11749257B2 (en) 2020-09-07 2023-09-05 Beijing Century Tal Education Technology Co., Ltd. Method for evaluating a speech forced alignment model, electronic device, and storage medium

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101894552A (zh) * 2010-07-16 2010-11-24 安徽科大讯飞信息科技股份有限公司 基于语谱切分的唱歌评测系统
CN106683667A (zh) * 2017-01-13 2017-05-17 深圳爱拼信息科技有限公司 一种自动韵律提取方法、系统及其在自然语言处理任务中的应用
CN106971743A (zh) * 2016-01-14 2017-07-21 广州酷狗计算机科技有限公司 用户演唱数据处理方法和装置
US20180315431A1 (en) * 2017-04-28 2018-11-01 Cisco Technology, Inc. Audio frame labeling to achieve unequal error protection for audio frames of unequal importance
CN108766437A (zh) * 2018-05-31 2018-11-06 平安科技(深圳)有限公司 语音识别方法、装置、计算机设备及存储介质
CN109326281A (zh) * 2018-08-28 2019-02-12 北京海天瑞声科技股份有限公司 韵律标注方法、装置和设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101894552A (zh) * 2010-07-16 2010-11-24 安徽科大讯飞信息科技股份有限公司 基于语谱切分的唱歌评测系统
CN106971743A (zh) * 2016-01-14 2017-07-21 广州酷狗计算机科技有限公司 用户演唱数据处理方法和装置
CN106683667A (zh) * 2017-01-13 2017-05-17 深圳爱拼信息科技有限公司 一种自动韵律提取方法、系统及其在自然语言处理任务中的应用
US20180315431A1 (en) * 2017-04-28 2018-11-01 Cisco Technology, Inc. Audio frame labeling to achieve unequal error protection for audio frames of unequal importance
CN108766437A (zh) * 2018-05-31 2018-11-06 平安科技(深圳)有限公司 语音识别方法、装置、计算机设备及存储介质
CN109326281A (zh) * 2018-08-28 2019-02-12 北京海天瑞声科技股份有限公司 韵律标注方法、装置和设备

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111312231A (zh) * 2020-05-14 2020-06-19 腾讯科技(深圳)有限公司 音频检测方法、装置、电子设备及可读存储介质
CN111312231B (zh) * 2020-05-14 2020-09-04 腾讯科技(深圳)有限公司 音频检测方法、装置、电子设备及可读存储介质
CN111862939A (zh) * 2020-05-25 2020-10-30 北京捷通华声科技股份有限公司 一种韵律短语标注方法和装置
CN111640418A (zh) * 2020-05-29 2020-09-08 数据堂(北京)智能科技有限公司 一种韵律短语识别方法、装置及电子设备
CN111640418B (zh) * 2020-05-29 2024-04-16 数据堂(北京)智能科技有限公司 一种韵律短语识别方法、装置及电子设备
US11749257B2 (en) 2020-09-07 2023-09-05 Beijing Century Tal Education Technology Co., Ltd. Method for evaluating a speech forced alignment model, electronic device, and storage medium
CN112257407A (zh) * 2020-10-20 2021-01-22 网易(杭州)网络有限公司 音频中的文本对齐方法、装置、电子设备及可读存储介质
CN112257407B (zh) * 2020-10-20 2024-05-14 网易(杭州)网络有限公司 音频中的文本对齐方法、装置、电子设备及可读存储介质
CN113593522A (zh) * 2021-06-28 2021-11-02 北京天行汇通信息技术有限公司 一种语音数据标注方法和装置
CN113593522B (zh) * 2021-06-28 2023-08-18 北京天行汇通信息技术有限公司 一种语音数据标注方法和装置
WO2023093295A1 (zh) * 2021-11-26 2023-06-01 腾讯科技(深圳)有限公司 基于人工智能的音频处理方法、装置、电子设备、计算机程序产品及计算机可读存储介质

Also Published As

Publication number Publication date
CN111105785B (zh) 2023-06-16

Similar Documents

Publication Publication Date Title
CN111105785B (zh) 一种文本韵律边界识别的方法及装置
CN109410914B (zh) 一种赣方言语音和方言点识别方法
CN109255113B (zh) 智能校对系统
CN107945805B (zh) 一种智能化跨语言语音识别转化方法
CN101930735B (zh) 语音情感识别设备和进行语音情感识别的方法
CN111968679B (zh) 情感识别方法、装置、电子设备及存储介质
Chang et al. Large vocabulary Mandarin speech recognition with different approaches in modeling tones
TWI396184B (zh) 一種語音辨認所有語言及用語音輸入單字的方法
CN111341305A (zh) 一种音频数据标注方法、装置及系统
CN107886968B (zh) 语音评测方法及系统
KR101014086B1 (ko) 음성 처리 장치 및 방법, 및 기록 매체
CN112614514B (zh) 有效语音片段检测方法、相关设备及可读存储介质
CN106653002A (zh) 一种文字直播方法及平台
CN112397054A (zh) 一种电力调度语音识别方法
US8219386B2 (en) Arabic poetry meter identification system and method
CN110853669B (zh) 音频识别方法、装置及设备
CN111489743A (zh) 一种基于智能语音技术的运营管理分析系统
Kanabur et al. An extensive review of feature extraction techniques, challenges and trends in automatic speech recognition
CN107123419A (zh) Sphinx语速识别中背景降噪的优化方法
JP3660512B2 (ja) 音声認識方法、その装置及びプログラム記録媒体
CN112231440A (zh) 一种基于人工智能的语音搜索方法
CN112466287A (zh) 一种语音分割方法、装置以及计算机可读存储介质
CN112309398A (zh) 工作时长监控方法、装置、电子设备和存储介质
JP3735209B2 (ja) 話者認識装置及び方法
CN114155882B (zh) 一种基于语音识别的“路怒”情绪判断方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant