CN115017883A - 基于预训练融合语音特征的文本标点恢复方法 - Google Patents
基于预训练融合语音特征的文本标点恢复方法 Download PDFInfo
- Publication number
- CN115017883A CN115017883A CN202111557681.8A CN202111557681A CN115017883A CN 115017883 A CN115017883 A CN 115017883A CN 202111557681 A CN202111557681 A CN 202111557681A CN 115017883 A CN115017883 A CN 115017883A
- Authority
- CN
- China
- Prior art keywords
- text
- audio
- word
- punctuation
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 46
- 238000011084 recovery Methods 0.000 title claims abstract description 25
- 238000000034 method Methods 0.000 title claims abstract description 23
- 230000004927 fusion Effects 0.000 title claims abstract description 19
- 238000012360 testing method Methods 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 4
- 238000012795 verification Methods 0.000 claims description 4
- 210000001072 colon Anatomy 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 abstract description 8
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000002474 experimental method Methods 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 238000002679 ablation Methods 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 239000004606 Fillers/Extenders Substances 0.000 description 1
- 238000012952 Resampling Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及基于预训练融合语音特征的文本标点恢复方法,属于人工智能领域,本发明使用预训练语言模型获取到原始文本更丰富的信息特征,使用注意力机制对文本进行无视序列长度的语义对齐,将每个词编码成为包含全局语义的隐向量;此基础上将文本信息特征与其对应的原始音频特征在时间上进行对齐,在嵌入空间上进行融合,得到混合了语义信息与音频信息的融合特征,将更多文本无法有效包含的说话人声调、音高、停顿以及静默时间等特征信息提供给模型。
Description
技术领域:
本发明涉及基于预训练融合语音特征的文本标点恢复方法,属于人工智能技术领域。
背景技术:
目前主流自动语音识别系统(ASR System)通常会直接将输入语音转录为无标点的文本序列,该文本序列在难以阅读的同时会对下游自然语言处理任务造成不可忽视的性能损失。标点恢复工作早期仅对序列断句位置做出预测,无法高效准确的确定序列边界处具体的标点符号,故也被称作序列边界检测工作。由于序列标注任务输入输出序列等长的特性,目前标点恢复工作更多的关注更有效的提取文本语义特征,但完全丢弃文本对应的原始音频序列,仅凭借文本中包含的语义信息来推断其正确的标点符号。然而,音频中包含更丰富的说话人感情、语气等特征信息,这类信息相对于文本语音来讲对标点符号起到更加重要的作用。
发明内容:
本发明提出了基于预训练融合语音特征的文本标点恢复方法,该方法使用大型预训练语言模型作为文本特征提取器,给予模型理解文本的能力,令模型学习到更多关于句法结构的知识;并在上述基础上融合原始语音的音频特征信息,提供给模型更多关于说话人语气、声调、停顿时间等仅包含在原始语音中的信息,令模型能够对含有歧义的文本序列进行准确的标点恢复。
本发明的技术方案是:基于预训练融合语音特征的文本标点恢复方法,所述方法的具体步骤如下:
Step1、收集包含对应语音的带有完整高质量标点符号的英文文本作为训练语料和测试语料;
Step2、对数据集的文本进行预处理,构造“文本-标签”平行数据对;
Step3、对音频进行预处理,构造符合训练要求的音频文件;
Step4、在步骤Step2的基础上构建字母粒度的词表,选取特征空间;
Step5、对文本、音频在时域空间上进行毫秒级的帧对齐,获取文本中每个单词对应的时间片段;
Step6、使用预训练语言模型对文本进行特征提取、使用滤波器对对应的音频片段进行特征提取,压缩音频特征长度为1,并在特征空间上与文本特征进行拼接;
Step7、训练分类器,并在测试语料上进行标点恢复实验验证。
作为本发明的进一步方案,所述Step2中,对开源语音识别数据集进行了文本预处理,包括:去除特殊专有词汇,将所有字母更换为小写字母,词量统计,标点符号数量占比统计;重映射特殊的标点符号:引号、冒号、分号替换为逗号,叹号替换为句号,删除其余所有的标点符号;还原缩写单词为原单词;将文本与标点符号分离,构造单词序列-标签序列平行语料。
作为本发明的进一步方案,所述Step3中,借助于计算机自动文本处理工具sox 对音频文件进行重采样为比特率为16kHz的wav格式文件。
作为本发明的进一步方案,所述Step5中,借助于aeneas方法,对音频与其对应的文本进行毫秒级别的对齐,得到文本中每个单词对应的音频时间片段,用于方便后续处理中对于该单词对应的音频特征提取。
作为本发明的进一步方案,所述Step6中,使用预训练语言模型BERT的分词器将文本转为词表id,对于词表中未登录词汇使用<UNK>代替;词语id序列被输入进预训练语言模型BERT进行文本特征的提取,每个序列构成一个768维的矩阵,得到文本与音频对应的特征ftext、faudio:
ftext=BERT(X)
其中:X为输入的文本序列{X|X=x1,...,xi};此时序列中每个特征矩阵长度不同,对 faudio的每个序列片段采用均值或方差的方式将长度压缩为1,得到长度为1、维度分别为80和512的音频特征矩阵:
faudio=feature_extractor(A)
f′audio=feature_conpress(faudio)
其中:A为经过对齐的对应输入文本序列X的音频帧片段{A|A=audio1,...,audioi};此时,文本特征ftext与音频特征f′audio只在词嵌入维度上不同,其余维度保持相同,在词嵌入维度上进行拼接得到混合特征融合后词嵌入维度等于两种特征词嵌入维度的和:
作为本发明的进一步方案,在得到的混合特征的特征空间中,构造并训练一个文本分类器,对原始文本{X|x=x1,…,xi}的每个单词推测一个标点符号并作为输出。
本发明的有益效果是:本方法提出基于预训练融合语音特征的文本标点恢复,使用预训练语言模型获取到原始文本更丰富的信息特征,其中的注意力机制帮助模型准确定位影响句中标点符号的核心词;在此基础上将文本信息特征与其对应的原始音频特征进行融合,将更多文本无法有效包含的说话人声调、音高、停顿以及静默时间等特征信息提供给模型。在纯文本数据集IWSLT上的实验相较于传统基于循环神经网络(RNN)进行文本特征提取的模型有近10%的可见性能提升。在音频-文本平行数据集LibriTTS上的音频特征融合实验相较于依赖纯文本特征的模型得到10%-20%的性能提升。
附图说明:
图1是本发明提出的基于预训练融合语音特征的文本标点恢复方法的模型结构图。
具体实现方式:
实施例1:如图1所示,基于预训练融合语音特征的文本标点恢复方法,所述方法的具体步骤如下:
Step1、收集包含对应语音的带有完整高质量标点符号的英文文本作为训练语料和测试语料;具体的,同时使用开源数据集IWSLT2(International Workshop on SpokenLanguage Translation)其数据主要来源于TED演讲、LibriTTS数据集进行实验。其中IWSLT 2012包含142k平行句对,作为训练集;IWSLT 2011作为测试集,该种实验设置被普遍用于纯文本的标点恢复任务实验。LibriTTS包含33k带标点句子及其对应的人工转录语音音频;方便测试提出的融合语音特征的模型性能。实验所采用的数据集详细数据统计如表1所示。
表1为数据集设置
Step2、对数据集的文本进行预处理,构造“文本-标签”平行数据对;
作为本发明的进一步方案,所述Step2中,对开源语音识别数据集进行了文本预处理,包括:去除特殊专有词汇,将所有字母更换为小写字母,词量统计,标点符号数量占比统计;重映射特殊的标点符号:引号、冒号、分号替换为逗号,叹号替换为句号,删除其余所有的标点符号;还原缩写单词为原单词;将文本与标点符号分离,构造单词序列-标签序列平行语料。
经过处理后的输入序列为不带有标点的以空格作为分隔符的纯文本序列以及文本对应的原始音频文件路径,输出序列为对应每个单词后应该添加的标点标签,以空格作为分隔符。仅考虑以下三种标点符号:逗号、句号以及问号。与之相对应的,输出序列有四类:“,COMMA”、“.PERIOD”、“问号QUESRIONMARK”、“_SPACE”,其中“_SPACE”代表标签对应输入序列中该位置单词后无标点。经过上述处理,模型输入和输出序列如下:
-原序列:it can be a very complicated thing,the ocean.
-输入序列:it can be a very complicated thing the ocean
-音频路径:path/to/the/audio/16kHz-audio-file.wav
-输出序列:_SPACE_SPACE_SPACE_SPACE_SPACE_SPACE,COMMA _SPACE.PERIOD
Step3、对于音频,将文本对应的所有音频使借助于计算机自动文本处理工具sox对音频文件进行重采样为比特率为16kHz的wav格式文件;
Step4、在步骤Step2的基础上构建字母粒度的词表,选取特征空间;
Step5、借助于aeneas方法,对音频与其对应的文本进行毫秒级别的对齐,得到文本中每个单词对应的音频时间片段,用于方便后续处理中对于该单词对应的音频特征提取。
Step6、使用预训练语言模型对文本进行特征提取、使用滤波器对对应的音频片段进行特征提取,压缩音频特征长度为1,并在特征空间上与文本特征进行拼接;
具体Step6包括:
Step6.1、使用预训练语言模型对文本进行特征提取包括:
BERT是一种基于自注意力机制(self-attention)的预训练语言模型,使用多层Transformer编码器框架,利用屏蔽语言模型(Masked Language Model,MLM)任务学习句子之间的关系,具有较强的表达能力。Transformer编码器先将词转化为词嵌入,并加入相对位置信息,之后经过注意力机制计算得分,寻找句中核心词,注意力机制可以表述为:
其中,Q代表查询序列;K,V为文本向量键值对;dk为注意力头维度;
BERT预训练模型使用多头注意力机制并行计算多个注意力得分,加速注意力计算速度同时提升模型泛化性能,多头注意力机制表示为:
Multihead(Q,K,V)=
Concat(head1,head2,...,headk)Wo
headi=Attention(QWi Q,KWi K,VWi V)
其中,Wi Q,Wi K,Wi V,Wo均为模型参数。最后模型输入一个两层的前馈网络全连接层,表示为:FFN(x)=max(0,xW1+b1)W2+b2;其中,W1,b1,W2,b2为模型参数。
作为本发明的进一步方案,所述Step6中,对于模型输入的文本序列{X|x=x1,…,xi} 首先经过处理将大写字母全部替换为小写,使用预训练语言模型BERT的分词器(tokenizer)将文本转为词表id,对于词表中未登录词汇使用<UNK>代替;词语id序列被输入进预训练语言模型BERT进行文本特征的提取,每个序列构成一个768维的矩阵ftext=BERT(X);BERT中的自注意力机制能够对全局信息进行有效处理,词间距离缩小为1,更容易获取文本内部的依赖关系,寻找定位序列中的核心词汇,表现出相较于循环神经网络(RNN)更强的表达能力与效果。
Step6.2、文本与音频对齐和使用滤波器对对应的音频片段进行特征提取包括:
对于文本序列对应的原音频,首先将音频与文本使用aeneas进行强制文本对齐,该操作允许我们能够获取到文本序列中每个单词对应的音频帧的大致对齐。即对于序列{X|x=x1,…,xi}可以得到{A|a=a1,…,ai}个音频帧片段,其中ai为xi对应的音频帧,长度取决于xi的持续时间。例如:
文本序列:his tender heir might bear his memory
音频对齐:16.080-16.880 His
16.880-17.120 tender
17.120-17.840 heir
17.840-18.520 might
18.520-19.040 bear
19.040-19.360 his
19.360-19.920 memory
对于A,将其中的每一个音频片段分别进行特征提取,得到序列由于音频对齐片段时长不同,此时序列faudio中每个特征矩阵长度不同,对faudio的每个序列片段采用均值或方差的方式将长度压缩为 1,得到长度为1、维度分别为80和512的音频特征矩阵
faudio=feature_extractor(A)
f′audio=feature_conpress(faudio)
Step6.3、文本特征与音频特征的融合:
将融合后的混合特征fcon输入一个线性分类层,最终经由一个softmax层输出该文本序列{X|x=x1,…,xi}中每个单词对应的不同标点符号概率,取概率最大值即得到该单词对应的标点符号标签。
Step7、训练分类器,并在测试语料上进行标点恢复实验验证。
针对提出的以上方法,在英文数据集LibriTTS上进行了实验验证:
使用提出的方法构造标点恢复模型。
使用LibriTTS训练集、交叉熵损失函数对构造的模型进行训练。
使用LibriTTS开发集对训练完成的模型进行参数调整。
在LibriTTS的测试集上对调整完成的模型进行测试,对比基线模型。
本实验使用Hugging Face中基于Pytorch的预训练语言模型BERT-base-uncased作为文本特征提取器,Wav2vec1.0和python-speech-feature分别作为音频特征提取器。并使用均值算法作为音频特征长度压缩的算法。
表2为对比基线模型的标点恢复实验结果,其中:
1)Punctuator2:使用RNN(循环神经网络)提取文本特征,对特征计算注意力得分,使用线性层推测与输入序列等长的标点符号序列。
2)BERT&wav2vec:本发明工作,使用预训练语言模型BERT提取文本特征,预训练音频模型wav2vec提取高维卷积音频特征,拼接后使用线性层推测与输入序列等长的标点符号序列。
3)BERT&MFCC:本发明工作,使用预训练语言模型BERT提取文本特征, python-speech-features提取人工设计的音频梅尔倒频谱(MFCC)特征,拼接后使用线性层推测与输入序列等长的标点符号序列。表3展示了使用不同算法进行标点恢复的消融实验。
表2为对比音频特征融合的标点恢复模型效果
表3为使用不同算法进行标点恢复的消融实验结果
上表可以得出,在所有融入了语音信息特征的实验中,模型预测性能均得到了明显可见的提升,相较于使用RNN提取纯文本特征的标点恢复模型性能提升在30%左右;其中采用MFCC特征并使用均值进行长度压缩的模型在所有标点整体指标上达到最优效果。在融入语音特征之后,模型能够获取到更多包含在原始语音中丰富的说话人声调、音高、情绪以及停顿等信息,通过更加具有明确指向性的信息来推断句子的断句以及断句处的标点符号。在融入对应文本的语音信息特征之后,各项指标均得到不同程度的提升。其中,对于问号的推测性能提升较为明显,这是由于疑问句相较于陈述句等句式其语气有着更加突出的特征,而文本中无法包含“语气”特征,在添加了音频信息特征之后,模型能够更有效的掌握“疑问语气”,从而将依靠纯文本特征错误预测的句号纠正为问号。对于逗号的推测在融入语音信息之后同样有提升,在日常语音中,逗号、句号都表现为“一段时间的静默”,而自动语音识别(ASR)系统在对原始语音进行转录时,通常会直接将静默时间丢弃,以达到转录文本的流畅通顺,给下游的标点恢复模型分辨逗号句号带来一定的挑战。在融入原始语音信息之后,模型能够更有效的获取到当前静默的时间信息,从而将错误预测的句号纠正为逗号。
结果表明,基于BERT预训练能够更好的学习到语义表征来提升标点预测性能;同时,将文本对应的原始音频与文本特征在高阶特征层次上的深度融合,能使模型学习到说话人语气、声调、音高以及停顿等音频特征,相较于基线模型都有较大性能提升。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (6)
1.基于预训练融合音频特征的文本标点恢复方法,其特征在于:所述方法的具体步骤如下:
Step1、收集包含对应语音的带有完整高质量标点符号的英文文本作为训练语料和测试语料;
Step2、对数据集的文本进行预处理,构造“文本-标签”平行数据对;
Step3、对音频进行预处理,构造符合训练要求的音频文件;
Step4、在步骤Step2的基础上构建字母粒度的词表,选取特征空间;
Step5、对文本、音频在时域空间上进行毫秒级的帧对齐,获取文本中每个单词对应的时间片段;
Step6、使用预训练语言模型对文本进行特征提取、使用滤波器对对应的音频片段进行特征提取,压缩音频特征长度为1,并在特征空间上与文本特征进行拼接;
Step7、训练分类器,并在测试语料上进行标点恢复实验验证。
2.根据权利要求1所述的基于预训练融合音频特征的文本标点恢复方法,其特征在于:所述Step2中,对开源语音识别数据集进行了文本预处理,包括:去除特殊专有词汇,将所有字母更换为小写字母,词量统计,标点符号数量占比统计;重映射特殊的标点符号:引号、冒号、分号替换为逗号,叹号替换为句号,删除其余所有的标点符号;还原缩写单词为原单词;将文本与标点符号分离,构造单词序列-标签序列平行语料。
3.根据权利要求1所述的基于预训练融合音频特征的文本标点恢复方法,其特征在于:所述Step3中,借助于计算机自动文本处理工具sox对音频文件进行重采样为比特率为16kHz的wav格式文件。
4.根据权利要求1所述的基于预训练融合音频特征的文本标点恢复方法,其特征在于:所述Step5中,借助于aeneas方法,对音频与其对应的文本进行毫秒级别的对齐,得到文本中每个单词对应的音频时间片段,用于方便后续处理中对于该单词对应的音频特征提取。
5.根据权利要求1所述的基于预训练融合音频特征的文本标点恢复方法,其特征在于:所述Step6中,使用预训练语言模型BERT的分词器将文本转为词表id,对于词表中未登录词汇使用<UNK>代替;词语id序列被输入进预训练语言模型BERT进行文本特征的提取,每个序列构成一个768维的矩阵,得到文本与音频对应的特征ftext、faudio:
ftext=BERT(X)
其中:X为输入的文本序列{X|X=x1,...,xi};此时序列中每个特征矩阵长度不同,对faudio的每个序列片段采用均值或方差的方式将长度压缩为1,得到长度为1、维度分别为80和512的音频特征矩阵:
faudio=feature_extractor(A)
f′audio=feature_conpress(faudio)
其中:A为经过对齐的对应输入文本序列X的音频帧片段{A|A=audio1,...,audioi};此时,文本特征ftext与音频特征f′audio只在词嵌入维度上不同,其余维度保持相同,在词嵌入维度上进行拼接得到混合特征融合后词嵌入维度等于两种特征词嵌入维度的和:
6.根据权利要求5所述的基于预训练融合音频特征的文本标点恢复方法,其特征在于:在得到的混合特征的特征空间中,构造并训练一个文本分类器,对原始文本{X|x=x1,…,xi}的每个单词推测一个标点符号并作为输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111557681.8A CN115017883B (zh) | 2021-12-20 | 2021-12-20 | 基于预训练融合语音特征的文本标点恢复方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111557681.8A CN115017883B (zh) | 2021-12-20 | 2021-12-20 | 基于预训练融合语音特征的文本标点恢复方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115017883A true CN115017883A (zh) | 2022-09-06 |
CN115017883B CN115017883B (zh) | 2023-03-07 |
Family
ID=83064780
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111557681.8A Active CN115017883B (zh) | 2021-12-20 | 2021-12-20 | 基于预训练融合语音特征的文本标点恢复方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115017883B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200364576A1 (en) * | 2019-05-14 | 2020-11-19 | Adobe Inc. | Utilizing deep recurrent neural networks with layer-wise attention for punctuation restoration |
CN112016320A (zh) * | 2020-09-14 | 2020-12-01 | 深圳市北科瑞声科技股份有限公司 | 基于数据增强的英文标点符号添加方法和系统及设备 |
CN112069816A (zh) * | 2020-09-14 | 2020-12-11 | 深圳市北科瑞声科技股份有限公司 | 中文标点符号添加方法和系统及设备 |
CN112541324A (zh) * | 2019-09-04 | 2021-03-23 | 北京声智科技有限公司 | 一种标点符号添加方法、装置及电子设备 |
CN113158808A (zh) * | 2021-03-24 | 2021-07-23 | 华南理工大学 | 中文古籍字符识别、组段与版面重建方法、介质和设备 |
CN113743133A (zh) * | 2021-08-20 | 2021-12-03 | 昆明理工大学 | 融合词粒度概率映射信息的汉越跨语言摘要方法 |
-
2021
- 2021-12-20 CN CN202111557681.8A patent/CN115017883B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200364576A1 (en) * | 2019-05-14 | 2020-11-19 | Adobe Inc. | Utilizing deep recurrent neural networks with layer-wise attention for punctuation restoration |
CN112541324A (zh) * | 2019-09-04 | 2021-03-23 | 北京声智科技有限公司 | 一种标点符号添加方法、装置及电子设备 |
CN112016320A (zh) * | 2020-09-14 | 2020-12-01 | 深圳市北科瑞声科技股份有限公司 | 基于数据增强的英文标点符号添加方法和系统及设备 |
CN112069816A (zh) * | 2020-09-14 | 2020-12-11 | 深圳市北科瑞声科技股份有限公司 | 中文标点符号添加方法和系统及设备 |
CN113158808A (zh) * | 2021-03-24 | 2021-07-23 | 华南理工大学 | 中文古籍字符识别、组段与版面重建方法、介质和设备 |
CN113743133A (zh) * | 2021-08-20 | 2021-12-03 | 昆明理工大学 | 融合词粒度概率映射信息的汉越跨语言摘要方法 |
Non-Patent Citations (2)
Title |
---|
XIAO CHEN 等: "Experimental comparison of text information based punctuation recovery algorithms in real data", 《IEEE》 * |
刘新: "基于深度学习的中文语音转录标点预测研究", 《中国优秀硕士学位论文全文数据库》 * |
Also Published As
Publication number | Publication date |
---|---|
CN115017883B (zh) | 2023-03-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107741928B (zh) | 一种基于领域识别的对语音识别后文本纠错的方法 | |
CN109410914B (zh) | 一种赣方言语音和方言点识别方法 | |
Collobert et al. | Wav2letter: an end-to-end convnet-based speech recognition system | |
CN109255113B (zh) | 智能校对系统 | |
CN110517663B (zh) | 一种语种识别方法及识别系统 | |
CN111783477B (zh) | 一种语音翻译方法及系统 | |
KR101424193B1 (ko) | 타 언어권 화자음성에 대한 음성인식 시스템의 성능 향상을위한 비직접적 데이터 기반 발음변이 모델링 시스템 및방법 | |
CN113539268A (zh) | 一种端到端语音转文本罕见词优化方法 | |
CN113257221B (zh) | 一种基于前端设计的语音模型训练方法及语音合成方法 | |
Mametani et al. | Investigating context features hidden in end-to-end tts | |
Azim et al. | Large vocabulary Arabic continuous speech recognition using tied states acoustic models | |
CN115017883B (zh) | 基于预训练融合语音特征的文本标点恢复方法 | |
Röpke et al. | Training a Speech-to-Text Model for Dutch on the Corpus Gesproken Nederlands. | |
CN112989839A (zh) | 一种基于关键词特征嵌入语言模型的意图识别方法及系统 | |
Baranwal et al. | Improved Mispronunciation detection system using a hybrid CTC-ATT based approach for L2 English speakers | |
Tasnia et al. | An overview of bengali speech recognition: Methods, challenges, and future direction | |
Zhang et al. | Reliable accent-specific unit generation with discriminative dynamic Gaussian mixture selection for multi-accent Chinese speech recognition | |
Rebai et al. | Linto platform: A smart open voice assistant for business environments | |
Yeh et al. | Speech recognition with word fragment detection using prosody features for spontaneous speech | |
CN112270923A (zh) | 一种基于神经网络的语义识别系统 | |
Gody et al. | Automatic Speech Annotation Using HMM based on Best Tree Encoding (BTE) Feature | |
CN116386637B (zh) | 雷达飞行指挥语音指令生成方法及系统 | |
Zeng et al. | Research and implementation of an improved cgru model for speech emotion recognition | |
Kumar et al. | Spoken Language Translation using Conformer model | |
Khassanov | Language model domain adaptation for automatic speech recognition systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |