CN112183086A - 基于意群标注的英语发音连读标记模型 - Google Patents

基于意群标注的英语发音连读标记模型 Download PDF

Info

Publication number
CN112183086A
CN112183086A CN202011011686.6A CN202011011686A CN112183086A CN 112183086 A CN112183086 A CN 112183086A CN 202011011686 A CN202011011686 A CN 202011011686A CN 112183086 A CN112183086 A CN 112183086A
Authority
CN
China
Prior art keywords
labeling
continuous reading
word
model
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011011686.6A
Other languages
English (en)
Inventor
徐书尧
秦龙
陈进
陆勇毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Singsound Intelligent Technology Co ltd
Original Assignee
Beijing Singsound Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Singsound Intelligent Technology Co ltd filed Critical Beijing Singsound Intelligent Technology Co ltd
Priority to CN202011011686.6A priority Critical patent/CN112183086A/zh
Publication of CN112183086A publication Critical patent/CN112183086A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/06Foreign languages

Abstract

本发明涉及英语发音标注模型技术领域,尤其是一种基于意群标注的英语发音连读标记模型,包括文本预处理、意群标注模型以及连读标注模块,所述的文本预处理为将输入的文本进行分句与分词预处理,将预处理后的文本输入意群标注模型,意群标注模型输出意群信息与文本至连读标注模块进行连读分析,连读标注模块完成连读标注后输出标记结果,本发明能够高效地并行运算。

Description

基于意群标注的英语发音连读标记模型
技术领域
本发明涉及英语发音标注模型技术领域,具体领域为一种基于意群标注的英语发音连读标记模型。
背景技术
单词间的连读、变音是英语口语中的一种常见现象。口语学习中,在文本上显式地标出需要连读变音的位置能够帮助学生更好地掌握地道的发音,并且可以提高学生对于连读的听力理解能力。因此,连读、变音的标注对于英语口语的学习具有促进作用。
常见的连读、变音包括:失去爆破音、相同或相似音的失去、轻辅音[h]连读、连读发生音变成为复合辅音等。以上连读与变音应当发生在语义紧密的词之间,也就是同一个意群内,不同的意群间的连读显得不自然,如Is it a hat or a cat中ora间的连读。因此语句中意群的划分是标注连读发音的前提。
常规的序列标注模型,如条件随机场(CRF)、循环神经网络RNN以及变体如GRU、LSTM等被成功地运用于意群的标注。然而常规的循环神经网络序列标注模型,在计算t时刻时需要依赖t-1时刻的运算结果,也就是需要依次计算,这样的按序列依次运算的方式不利于并行化计算。基于Self-attention的Transformer结构虽然可以并行化,但却需要序列长度平方级的计算与空间复杂度。
发明内容
针对现有技术存在的不足,本发明的目的在于提供一种基于意群标注的英语发音连读标记模型。
为实现上述目的,本发明提供如下技术方案:一种基于意群标注的英语发音连读标记模型,包括文本预处理、意群标注模型以及连读标注模块,所述的文本预处理为将输入的文本进行分句与分词预处理,将预处理后的文本输入意群标注模型,意群标注模型输出意群信息与文本至连读标注模块进行连读分析,连读标注模块完成连读标注后输出标记结果,
所述的意群标注模型包括字母级别的卷积神经网络编码器、词嵌入层、序列标注模型和CRF层,预处理后的文本通过卷积神经网络编码器进行每个词字母编码后与该词的词向量拼接后输入到序列标注模型进行运算处理,并将运算结果输入到CRF层中解码得到意群标注序列,
所述的连读标注模块以句子与意群信息作为输入,根据连读规则在意群内标注连读与变音。
优选的,所述的意群标注模型还包括词嵌入层,字母级别的卷积神经网络编码器和词嵌入层分别对预处理后的文本进行计算处理,并将两者的计算结果拼接后进行一次线性变化后输入序列标注模块。
优选的,字母级别的卷积神经网络编码器对输入的文本单词以字母序列的形式输入到字母嵌入层,对字母嵌入表示进行卷积运算,运算的结果做最大池化后输出。
优选的,所述的序列标注模型由分组卷积神经网络与Position-Wise Feed-Forward Networks两个子结构构成,分组卷积神经网络与Position-Wise Feed-ForwardNetworks两个子结构间以残差连接并插入Layer-Normalization。
优选的,所述的分组卷积神经网络由两层分组卷积层构成,两层间使用的激活函数为ReLU,
设定第一层分组卷积层的分组数G等于输入通道数C1,中间通道数C2为4C1,输出通道数为C1,即,
输入
Figure BDA0002697762660000021
输入到第一层分组卷积层,其中L为序列长度,dmodel为模型隐状态大小,
y=max(GroupedConv(x,K1,C1,C2,G),0)
其中
Figure BDA0002697762660000031
C1=G=dmodel,K1为卷积核的大小。
第二层分组卷积层的输入通道数为C2,输出通道数为C1,卷积核大小为K2,分组数G;
z=GroupedConv(y,K2,C2,C1,G)
其中
Figure BDA0002697762660000032
优选的,Position-Wise Feed-Forward Networks的计算公式为:
FFN(x)=max(0,xW1+b1)W2+b2
其中
Figure BDA0002697762660000033
优选的,定义CRF层的目标函数为
Figure BDA0002697762660000034
其中A为标签转移矩阵,Ai,j表示标签i转移到标签j的分数,θ为模型中所有的参数,输入的句子x,句子长度为T,[fθ]i,t表示神经网络在t个词输出标签i的分数;
Figure BDA0002697762660000035
是句子x的真实标签序列,需要优化的目标函数为:
Figure BDA0002697762660000036
在推理时,采用Viterbi算法求解最大化
Figure BDA0002697762660000037
的标签序列
Figure BDA0002697762660000038
优选的,所述的连读标注模块设定规则为:
a.失去爆破音,当前一词以爆破音[p]、[b]、[t]、[d]、[k]、[g]结尾,后一词以辅音开头,则爆破音失爆;
b.相同或相似音的失去,相同或相似的两个音素以及发音部位相同的音素相邻时,前一个音素不读出声;
c.轻辅音[h]的连读,如果前一个单词以辅音音素结尾,后一个单词的读音以轻辅音音素[h]开头,语速较快时,直接穿透[h]与后面的元音音素发生连读,即辅音[h]不发音;
d.连读发生音变成为复合辅音;
e.词末连接音[r]+元音,单词末尾的r或re,在英式读音中,不发音;在美式读音中,发[r],在连贯话语中,如果后面紧跟一个以元音开头的词,而且两个词属于同一个意群时,发生连读,英音中原本不发音的r或re,此时发[r]音;
f.前一个词是以辅音结尾,后一个词是以/w/或/j/,应当连读。
优选的,输入文本经过字母级别编码后与相应的词嵌入表示拼接,输入到序列标注层,经过N次计算后输出,再经过一次线性变化后投影到标签空间中作为CRF层的发射分数,结合CRF层的转移分数解码出最优的标签序列。
与现有技术相比,本发明的有益效果是:采用了一种基于分组卷积神经网络与Position-Wise Feed-Forward Networks作为基本建模单元的模型结构。该结构在意群标注任务上不止性能优秀,并且能够高效地并行运算。本发明的另一个关键技术点是基于意群标注模型的连读标记,即先利用序列标注模型对输入文本的意群划分进行预测,然后在意群内进行连读标记。
附图说明
图1为本发明的整体流程图;
图2为本发明的意群标注模型结构;
图3为本发明的分组卷积神经网络;
图4为本发明的字母级编码器结构。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明提供一种技术方案:一种基于意群标注的英语发音连读标记模型,包括文本预处理、意群标注模型以及连读标注模块,所述的文本预处理为将输入的文本进行分句与分词预处理,将预处理后的文本输入意群标注模型,意群标注模型输出意群信息与文本至连读标注模块进行连读分析,连读标注模块完成连读标注后输出标记结果,
所述的意群标注模型包括字母级别的卷积神经网络编码器、序列标注模型和CRF层,预处理后的文本通过卷积神经网络编码器进行每个词字母编码后与该词的词向量拼接后输入到序列标注模型进行运算处理,并将运算结果输入到CRF层中解码得到意群标注序列,
所述的连读标注模块以句子与意群信息作为输入,根据连读规则在意群内标注连读与变音。
如同2所示,所述的意群标注模型还包括词嵌入层,字母级别的卷积神经网络编码器和词嵌入层分别对预处理后的文本进行计算处理,并将两者的计算结果拼接后进行一次线性变化后输入序列标注模块,序列标注模块对输入进行N次计算后输出,经过一次线性变化后投影到标签空间中作为CRF层的发射分数,结合CRF层的转移分数解码出最优的标签序列。
如图4所示,字母级别的卷积神经网络编码器对输入的文本单词以字母序列的形式输入到字母嵌入层,对字母嵌入表示进行卷积运算,运算的结果做最大池化后输出。
所述的序列标注模型由分组卷积神经网络与Position-Wise Feed-ForwardNetworks两个子结构构成,分组卷积神经网络与Position-Wise Feed-Forward Networks两个子结构间以残差连接并插入Layer-Normalization。
如图3所示,卷积核大小为3,其中图3中不同的灰度代表不同的分组,所述的分组卷积神经网络由两层分组卷积层构成,两层间使用的激活函数为ReLU,
设定第一层分组卷积层的分组数G等于输入通道数C1,中间通道数C2为4C1,输出通道数为C1,即,
输入
Figure BDA0002697762660000061
输入到第一层分组卷积层,其中L为序列长度,dmodel为模型隐状态大小,
y=max(GroupedConv(x,K1,C1,C2,G),0)
其中
Figure BDA0002697762660000062
C1=G=dmodel,K1为卷积核的大小。
第二层分组卷积层的输入通道数为C2,输出通道数为C1,卷积核大小为K2,分组数G;
z=GroupedConv(y,K2,C2,C1,G)
其中
Figure BDA0002697762660000063
Position-Wise Feed-Forward Networks的计算公式为:
FFN(x)=max(0,xW1+b1)W2+b2
其中
Figure BDA0002697762660000064
定义CRF层的目标函数为
Figure BDA0002697762660000065
其中A为标签转移矩阵,Ai,j表示标签i转移到标签j的分数,θ为模型中所有的参数,输入的句子x,句子长度为T,[fθ]i,t表示神经网络在t个词输出标签i的分数;
Figure BDA0002697762660000066
是句子x的真实标签序列,需要优化的目标函数为:
Figure BDA0002697762660000067
在推理时,采用Viterbi算法求解最大化
Figure BDA0002697762660000068
的标签序列
Figure BDA0002697762660000069
所述的连读标注模块设定规则为:
a.失去爆破音,当前一词以爆破音[p]、[b]、[t]、[d]、[k]、[g]结尾,后一词以辅音开头,则爆破音失爆;
b.相同或相似音的失去,相同或相似的两个音素以及发音部位相同的音素相邻时,前一个音素不读出声;
c.轻辅音[h]的连读,如果前一个单词以辅音音素结尾,后一个单词的读音以轻辅音音素[h]开头,语速较快时,直接穿透[h]与后面的元音音素发生连读,即辅音[h]不发音;
d.连读发生音变成为复合辅音;
e.词末连接音[r]+元音,单词末尾的r或re,在英式读音中,不发音;在美式读音中,发[r],在连贯话语中,如果后面紧跟一个以元音开头的词,而且两个词属于同一个意群时,发生连读,英音中原本不发音的r或re,此时发[r]音;
f.前一个词是以辅音结尾,后一个词是以/w/或/j/,应当连读。
通过本技术方案,实验中采用大小100的GloveWordVector作为词嵌入层的初始化,字母的嵌入表示大小为30,字母级别的CNN通道数为30,卷积核大小为3。可调节的超参数包括dmodel,K1,K2,G,C1,C2,N,实验中优化的最优参数为dmodel=G=C1=200,K1=K2=5,C2=800,N=3。采用了Dropout作为正则化策略,Dropout概率为0.3。SGD作为优化算法,学习率为0.01,momentum=0.9,学习率每3epoch乘以0.9。一共训练100epochs,最佳模型根据在开发集上的综合F1选择。
在标准语义分割数据集上的结果如下表1所示;
表1.实验结果
在标准语义分割数据集上的结果如下表1所示:
Figure BDA0002697762660000071
Figure BDA0002697762660000081
CNN-BiLSTM-CRF表示基于LSTM的模型,该模型除了用双向的LSTM代替ConvFFN外与CNN-ConvFFN-CRF的设置相同。如表1所示,提出的CNN-ConvFFN-CRF的F1优于基于LSTM的模型。ConvFFN-CRF表示去除字母级别编码器的模型,同CNN-ConvFFN-CRF相比,F1降低了0.5。CNN-ConvFFN为去除CRF的模型,F1显著低于CNN-ConvFFN-CRF。因此字母级别编码器与CRF都能显著提升意群标注的性能。
方案中的超参数如N,G,K1,K2,dmodel,C1,C2,Dropout的概率,学习率,学习率衰减策略、优化算法、激活函数的选择等都可调节;
方案中的嵌入层初始化可以替换为Word2Vector,FastText等静态的预训练策略也可以替换为ELMo、BERT等动态的预训练策略;
字母级别编码器除了可以采用卷积神经网络,也可以采用循环神经网络以及变体代替。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (9)

1.一种基于意群标注的英语发音连读标记模型,其特征在于:包括文本预处理、意群标注模型以及连读标注模块,所述的文本预处理为将输入的文本进行分句与分词预处理,将预处理后的文本输入意群标注模型,意群标注模型输出意群信息与文本至连读标注模块进行连读分析,连读标注模块完成连读标注后输出标记结果,
所述的意群标注模型包括字母级别的卷积神经网络编码器、词嵌入层、序列标注模型和条件随机场层(CRF层),预处理后的文本通过卷积神经网络编码器进行每个词字母编码后与该词的词向量拼接后输入到序列标注模型进行运算处理,并将运算结果输入到条件随机场层中解码得到意群标注序列,
所述的连读标注模块以句子与意群信息作为输入,根据连读规则在意群内标注连读与变音。
2.根据权利要求1所述的基于意群标注的英语发音连读标记模型,其特征在于:所述的意群标注模型还包括词嵌入层,字母级别的卷积神经网络编码器和词嵌入层分别对预处理后的文本进行计算处理,并将两者的计算结果拼接后进行一次线性变化后输入序列标注模块。
3.根据权利要求2所述的基于意群标注的英语发音连读标记模型,其特征在于:字母级别的卷积神经网络编码器对输入的文本单词以字母序列的形式输入到字母嵌入层,对字母嵌入表示进行卷积运算,运算的结果做最大池化后输出。
4.根据权利要求2所述的基于意群标注的英语发音连读标记模型,其特征在于:所述的序列标注模型由分组卷积神经网络与Position-Wise Feed-Forward Networks两个子结构构成,分组卷积神经网络与Position-Wise Feed-Forward Networks两个子结构间以残差连接并插入Layer-Normalization。
5.根据权利要求4所述的基于意群标注的英语发音连读标记模型,其特征在于:所述的分组卷积神经网络由两层分组卷积层构成,两层卷积层间插入ReLU作为激活函数,
设定第一层分组卷积层的分组数G等于输入通道数C1,中间通道数C2为4C1,输出通道数为C1,即,
输入
Figure FDA0002697762650000021
输入到第一层分组卷积层,其中L为序列长度,dmodel为模型隐状态大小,
y=max(GroupedConv(x,K1,C1,C2,G),0)
其中
Figure FDA0002697762650000022
C1=G=dmodel,K1为卷积核的大小。
第二层分组卷积层的输入通道数为C2,输出通道数为C1,卷积核大小为K2,分组数G;
z=GroupedConv(y,K2,C2,C1,G)
其中
Figure FDA0002697762650000023
6.根据权利要求4所述的基于意群标注的英语发音连读标记模型,其特征在于:Position-Wise Feed-Forward Networks的计算公式为:
FFN(x)=max(0,xW1+b1)W2+b2
其中
Figure FDA0002697762650000024
7.根据权利要求4所述的基于意群标注的英语发音连读标记模型,其特征在于:定义CRF层的目标函数为
Figure FDA0002697762650000025
其中A为标签转移矩阵,Ai,j表示标签i转移到标签j的分数,θ为模型中所有的参数,输入的句子x,句子长度为T,[fθ]i,t表示神经网络在t个词输出标签i的分数;
Figure FDA0002697762650000026
是句子x的真实标签序列,需要优化的目标函数为:
Figure FDA0002697762650000027
在推理时,采用Viterbi算法求解最大化
Figure FDA0002697762650000031
的标签序列
Figure FDA0002697762650000032
8.根据权利要求1所述的基于意群标注的英语发音连读标记模型,其特征在于:所述的连读标注模块设定规则为:
a.失去爆破音,当前一词以爆破音[p]、[b]、[t]、[d]、[k]、[g]结尾,后一词以辅音开头,则爆破音失爆;
b.相同或相似音的失去,相同或相似的两个音素以及发音部位相同的音素相邻时,前一个音素不读出声;
c.轻辅音[h]的连读,如果前一个单词以辅音音素结尾,后一个单词的读音以轻辅音音素[h]开头,语速较快时,直接穿透[h]与后面的元音音素发生连读,即辅音[h]不发音;
d.连读发生音变成为复合辅音;
e.词末连接音[r]+元音,单词末尾的r或re,在英式读音中,不发音;在美式读音中,发[r],在连贯话语中,如果后面紧跟一个以元音开头的词,而且两个词属于同一个意群时,发生连读,英音中原本不发音的r或re,此时发[r]音;
f.前一个词是以辅音结尾,后一个词是以/w/或/j/,应当连读。
9.根据权利要求2所述的基于意群标注的英语发音连读标记模型,其特征在于:输入文本经过字母级别编码后与相应的词嵌入表示拼接,输入到序列标注层,经过N次计算后输出,再经过一次线性变化后投影到标签空间中作为CRF层的发射分数,结合CRF层的转移分数解码出最优的标签序列。
CN202011011686.6A 2020-09-23 2020-09-23 基于意群标注的英语发音连读标记模型 Pending CN112183086A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011011686.6A CN112183086A (zh) 2020-09-23 2020-09-23 基于意群标注的英语发音连读标记模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011011686.6A CN112183086A (zh) 2020-09-23 2020-09-23 基于意群标注的英语发音连读标记模型

Publications (1)

Publication Number Publication Date
CN112183086A true CN112183086A (zh) 2021-01-05

Family

ID=73956936

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011011686.6A Pending CN112183086A (zh) 2020-09-23 2020-09-23 基于意群标注的英语发音连读标记模型

Country Status (1)

Country Link
CN (1) CN112183086A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113066510A (zh) * 2021-04-26 2021-07-02 中国科学院声学研究所 一种元音弱读检测方法及装置

Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030001668A (ko) * 2001-06-26 2003-01-08 엘지전자 주식회사 연속 음성인식기의 성능 개선 방법
US7181391B1 (en) * 2000-09-30 2007-02-20 Intel Corporation Method, apparatus, and system for bottom-up tone integration to Chinese continuous speech recognition system
CN104464751A (zh) * 2014-11-21 2015-03-25 科大讯飞股份有限公司 发音韵律问题的检测方法及装置
CN106569998A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN106601228A (zh) * 2016-12-09 2017-04-26 百度在线网络技术(北京)有限公司 基于人工智能韵律预测的样本标注方法及装置
CN106683667A (zh) * 2017-01-13 2017-05-17 深圳爱拼信息科技有限公司 一种自动韵律提取方法、系统及其在自然语言处理任务中的应用
CN108537228A (zh) * 2018-03-26 2018-09-14 校宝在线(杭州)科技股份有限公司 一种基于书写特征的英语水平评测方法
CN109658918A (zh) * 2018-12-03 2019-04-19 广东外语外贸大学 一种智能英语口语复述题评分方法和系统
CN109766523A (zh) * 2017-11-09 2019-05-17 普天信息技术有限公司 词性标注方法和标注系统
CN109902175A (zh) * 2019-02-20 2019-06-18 上海方立数码科技有限公司 一种基于神经网络结构模型的文本分类方法及分类系统
KR20190080234A (ko) * 2017-12-28 2019-07-08 포항공과대학교 산학협력단 컨벌루션 신경망 기반 영문 텍스트 정형화 방법
JP2019139089A (ja) * 2018-02-13 2019-08-22 株式会社フュートレック 音声秘匿装置および音声秘匿プログラム
CN110347978A (zh) * 2019-07-02 2019-10-18 深圳市数字星河科技有限公司 一种电子书辅助阅读的方法
CN110489750A (zh) * 2019-08-12 2019-11-22 昆明理工大学 基于双向lstm-crf的缅甸语分词及词性标注方法及装置
CN110502741A (zh) * 2019-07-11 2019-11-26 平安科技(深圳)有限公司 中文文本的识别方法及装置
CN110750965A (zh) * 2019-09-16 2020-02-04 平安科技(深圳)有限公司 英文文本序列标注方法、系统及计算机设备
CN111339750A (zh) * 2020-02-24 2020-06-26 网经科技(苏州)有限公司 去除停用语并预测句子边界的口语文本处理方法
CN111369974A (zh) * 2020-03-11 2020-07-03 北京声智科技有限公司 一种方言发音标注方法、语言识别方法及相关装置

Patent Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7181391B1 (en) * 2000-09-30 2007-02-20 Intel Corporation Method, apparatus, and system for bottom-up tone integration to Chinese continuous speech recognition system
KR20030001668A (ko) * 2001-06-26 2003-01-08 엘지전자 주식회사 연속 음성인식기의 성능 개선 방법
CN104464751A (zh) * 2014-11-21 2015-03-25 科大讯飞股份有限公司 发音韵律问题的检测方法及装置
CN106569998A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN106601228A (zh) * 2016-12-09 2017-04-26 百度在线网络技术(北京)有限公司 基于人工智能韵律预测的样本标注方法及装置
CN106683667A (zh) * 2017-01-13 2017-05-17 深圳爱拼信息科技有限公司 一种自动韵律提取方法、系统及其在自然语言处理任务中的应用
CN109766523A (zh) * 2017-11-09 2019-05-17 普天信息技术有限公司 词性标注方法和标注系统
KR20190080234A (ko) * 2017-12-28 2019-07-08 포항공과대학교 산학협력단 컨벌루션 신경망 기반 영문 텍스트 정형화 방법
JP2019139089A (ja) * 2018-02-13 2019-08-22 株式会社フュートレック 音声秘匿装置および音声秘匿プログラム
CN108537228A (zh) * 2018-03-26 2018-09-14 校宝在线(杭州)科技股份有限公司 一种基于书写特征的英语水平评测方法
CN109658918A (zh) * 2018-12-03 2019-04-19 广东外语外贸大学 一种智能英语口语复述题评分方法和系统
CN109902175A (zh) * 2019-02-20 2019-06-18 上海方立数码科技有限公司 一种基于神经网络结构模型的文本分类方法及分类系统
CN110347978A (zh) * 2019-07-02 2019-10-18 深圳市数字星河科技有限公司 一种电子书辅助阅读的方法
CN110502741A (zh) * 2019-07-11 2019-11-26 平安科技(深圳)有限公司 中文文本的识别方法及装置
CN110489750A (zh) * 2019-08-12 2019-11-22 昆明理工大学 基于双向lstm-crf的缅甸语分词及词性标注方法及装置
CN110750965A (zh) * 2019-09-16 2020-02-04 平安科技(深圳)有限公司 英文文本序列标注方法、系统及计算机设备
CN111339750A (zh) * 2020-02-24 2020-06-26 网经科技(苏州)有限公司 去除停用语并预测句子边界的口语文本处理方法
CN111369974A (zh) * 2020-03-11 2020-07-03 北京声智科技有限公司 一种方言发音标注方法、语言识别方法及相关装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李志彤;易军凯;: "中文文本的意群分类算法", 计算机工程, no. 08, 31 August 2013 (2013-08-31) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113066510A (zh) * 2021-04-26 2021-07-02 中国科学院声学研究所 一种元音弱读检测方法及装置
CN113066510B (zh) * 2021-04-26 2022-08-12 中国科学院声学研究所 一种元音弱读检测方法及装置

Similar Documents

Publication Publication Date Title
CN111145728B (zh) 语音识别模型训练方法、系统、移动终端及存储介质
Collobert et al. Wav2letter: an end-to-end convnet-based speech recognition system
US5930754A (en) Method, device and article of manufacture for neural-network based orthography-phonetics transformation
CN113158665B (zh) 一种基于文本摘要生成与双向语料改善对话文本生成的方法
CN111199727B (zh) 语音识别模型训练方法、系统、移动终端及存储介质
CN111611377A (zh) 基于知识蒸馏的多层神经网络语言模型训练方法与装置
CN114023316B (zh) 基于TCN-Transformer-CTC的端到端中文语音识别方法
CN107408111A (zh) 端对端语音识别
CN112037773B (zh) 一种n最优口语语义识别方法、装置及电子设备
CN112163092B (zh) 实体及关系抽取方法及系统、装置、介质
Zhu et al. Phone-to-audio alignment without text: A semi-supervised approach
CN112084841A (zh) 跨模态的图像多风格字幕生成方法及系统
CN110459208A (zh) 一种基于知识迁移的序列到序列语音识别模型训练方法
Tretyak et al. Combination of abstractive and extractive approaches for summarization of long scientific texts
CN112883726A (zh) 基于音节切分和词切分联合学习的多任务泰语分词方法
CN112183086A (zh) 基于意群标注的英语发音连读标记模型
CN111951792B (zh) 一种基于分组卷积神经网络的标点标注模型
Audhkhasi et al. Recent progress in deep end-to-end models for spoken language processing
CN115374784A (zh) 一种多模态信息选择性融合的中文命名实体识别方法
CN113870835A (zh) 基于人工智能的语音合成方法、装置、设备及存储介质
Zhou et al. Improved CTC-attention based end-to-end speech recognition on air traffic control
CN114446324A (zh) 一种基于声学和文本特征的多模态情感识别方法
CN110619118B (zh) 一种文本自动生成方法
Yang et al. Multi-level modeling units for end-to-end Mandarin speech recognition
CN112542160B (zh) 声学模型的建模单元的编码方法、声学模型的训练方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Room 155, bungalow 17, No. 12, Jiancai Chengzhong Road, Xisanqi, Haidian District, Beijing 100096

Applicant after: BEIJING SINGSOUND INTELLIGENT TECHNOLOGY Co.,Ltd.

Address before: 1027 bungalows, building 10, Beijing Xijiao farm, Shangzhuang village, Shangzhuang Township, Haidian District, Beijing

Applicant before: BEIJING SINGSOUND INTELLIGENT TECHNOLOGY Co.,Ltd.

CB02 Change of applicant information