CN114595687A - 基于BiLSTM的老挝语文本正则化方法 - Google Patents

基于BiLSTM的老挝语文本正则化方法 Download PDF

Info

Publication number
CN114595687A
CN114595687A CN202111557674.8A CN202111557674A CN114595687A CN 114595687 A CN114595687 A CN 114595687A CN 202111557674 A CN202111557674 A CN 202111557674A CN 114595687 A CN114595687 A CN 114595687A
Authority
CN
China
Prior art keywords
laos
text
bilstm
sequence
regularization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111557674.8A
Other languages
English (en)
Other versions
CN114595687B (zh
Inventor
余正涛
姜林
王剑
高盛祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202111557674.8A priority Critical patent/CN114595687B/zh
Publication of CN114595687A publication Critical patent/CN114595687A/zh
Application granted granted Critical
Publication of CN114595687B publication Critical patent/CN114595687B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及基于BiLSTM的老挝语文本正则化方法,属于自然语言处理领域。针对通用语言不可读词需要依据上下文语境推测结果,老挝语存在自己的语法结构、表达方式,以及老挝语文本正则化数据稀缺的问题,本发明提出了一种基于BiLSTM的老挝语文本正则化方法,主要包括对老挝语文本正则化数据预处理、基于自注意力机制的BiLSTM网络文本正则化处理两个部分构成。本发明所提的方法是将文本正则化任务当作序列标注任务完成,在BiLSTM神经网络中输入标注好的文本序列,根据上下文预测正确结果,增加自注意力机制加深模型对序列语义的理解。

Description

基于BiLSTM的老挝语文本正则化方法
技术领域
本发明涉及基于BiLSTM的老挝语文本正则化方法,属于自然语言处理技术领域。
背景技术
文本正则化作为语音合成的上游任务,正则化后的序列作为语音合成的输入,致使文本预处理过程显得尤为重要。该任务通常需要大量的非规范词和正则化词的数据对来训练模型。其中富资源语言的文本正则化任务已经成熟,英语、中文、俄语等富资源语言的训练数据已经达到上亿规模,但是稀缺资源语言的文本正则化任务少有学者研究。
该任务最早可以追溯到文本到语音的合成系统MITalk,完全基于规则的正则化方式,但是基于匹配的方式难以胜任一词多义的情况,Sproat等人总结了文本正则化的难点和挑战,例如符号“%”读作百分数,货币符号“$15”读作“十五美元”,“2021”既可以读作数字“两千零一十九”或者年份“二零一九年”,“9:10”读作时间“九点十分”或比分“九比十”,“4/5”既可以表示分数,又可以表示日期,同样还可以表示比分,不同语境对不可读词的含义的确定起着至关重要的作用,而大部分不可读词表达的意思模棱两可,因此上下文是文本正则化任务中判断这类词含义的决定因素,完全基于规则的方式不足以胜任该任务,而神经网络能够通过大量的训练数据学习到不可读词与上下文语境间的关系,预测出符合语境的正则化后的词。
发明内容
本发明提供了基于BiLSTM的老挝语文本正则化方法,首次提出了老挝语文本正则化任务,解决了低资源下老挝语文本正则化面临的特定语法结构、一词多义的问题,为下游老挝语语音合成任务提供了可用的老挝语文本。
本发明的技术方案是:基于BiLSTM的老挝语文本正则化方法,所述方法的具体步骤如下:
Step1、老挝语文本正则化数据预处理:将老挝语文本数据进行数据清洗、编码转换、语料标注、长度比过滤、分词;
Step2、基于BiLSTM神经网络的文本正则化处理:采用序列标注的思想,将BiLSTM作为编码器,结合不可读词的上下文文本向量,并将线性层和softmax作为解码器,预测不可读词可能的标签,并在BiLSTM后接自注意力机制加深序列词间关注度,使模型更好的理解上下文语义预测标签。
作为本发明的进一步方案,所述Step1的具体步骤如下:
Step1.1、老挝语文本数据清洗:去除老挝语文本中的乱码字符,规范标点符号表示方法;
Step1.2、老挝语编码转换:老挝语Lao字体统一编码转换变成Unicode字体;
Step1.3、句子长度过滤:保留老挝语句子长度小于250字符的句子,用于提升模型训练效率;
Step1.4、语料标注:对老挝语文本正则化语料标注,具体包括:文本序列中的需要正则化的字符被使用“▁”标记,每次只标记单个字符,标记后的文本序列被分为多个序列,每个序列中只有一个字符被“▁”标记,标记后的字符由专业的语言专家标注对应老挝语文本,每个标注后的老挝语字符进行分类,并对每个标注后的老挝语字符进行分类,所有标注后的老挝语文本构成标签词典,标签词典大小为112;
Step1.5、老挝语文本分词:对标记后的老挝语文本单个字符进行分词处理,分词前去掉被“▁”标记的字符。
作为本发明的进一步方案,所述Step2的具体步骤为:
Step2.1、首先将文本正则化任务当作序列标注任务完成,在BiLSTM中,文本序列经过词嵌入表示为:
Figure BDA0003419590360000021
Figure BDA0003419590360000022
为分词编码后的字符,h=12…l,l为输入序列句子长度,n为词嵌入维度;前向隐藏层和后向隐藏层的输出维度均为n维,定义为
Figure BDA0003419590360000023
Figure BDA0003419590360000024
BiLSTM输出表示为:
Figure BDA0003419590360000025
Step2.2、BiLSTM后接自注意力机制,使用自注意力机制关注序列词间的深层关系,使模型更好的理解输入序列的上下文语义信息;将自注意力机制的输出送入线性层,该线性层输出维度为正则化标签数,经过softmax计算每个标签的得分。
作为本发明的进一步方案,所述Step2.2的具体步骤为:
Step2.2.1、用attn(q,K,V)表示自注意力机制,q,K,V分别表示query,key,value,将BiLSTM的输出分别作为q,K,V;下式中,ki∈K和vi∈V,|q|=|K|=|V|;自注意力机制原理如下:
Figure BDA0003419590360000031
Figure BDA0003419590360000032
其中WK,Wq和WV为随机初始化权重,并在迭代中学习更新,Z为注意力头个数;BiLSTM输出序列的隐态表征表示为
Figure BDA0003419590360000033
其中
Figure BDA0003419590360000034
自注意力机制输出
Figure BDA0003419590360000035
其中
Figure BDA0003419590360000036
Step2.2.2、自注意力机制最后计算得出结合句子文本向量表征向量c,该序列表征作为编码器的输出,送入到线性层分类,然后通过softmax层计算每个分类得分。
本发明的有益效果是:本发明解决了老挝语文本正则化数据稀缺的问题,本发明包括对老挝语文本正则化数据预处理、基于自注意力机制的BiLSTM网络文本正则化处理两个部分;本发明所提的方法将文本正则化任务当作序列标注任务完成,在BiLSTM神经网络中输入标注好的文本序列,根据上下文预测正确结果,增加自注意力机制加深模型对序列语义的理解,在老挝语文本正则化任务中表现较为优异,为下游老挝语语音合成任务提供了可用的老挝语文本。
附图说明
图1为本发明中的双向长短期记忆网络BiLSTM原理图;
图2为本发明中的自注意力机制原理图;
图3为本发明中的方法流程框图;
具体实施方式
实施例1:如图1-图3所示,基于BiLSTM的老挝语文本正则化方法,所述方法的具体步骤如下:
Step1、老挝语文本正则化数据预处理:将老挝语文本数据进行数据清洗、编码转换、语料标注、长度比过滤、分词;
Step2、基于BiLSTM神经网络的文本正则化处理:采用序列标注的思想,将BiLSTM作为编码器,结合不可读词的上下文文本向量,并将线性层和softmax作为解码器,预测不可读词可能的标签,并在BiLSTM后接自注意力机制加深序列词间关注度,使模型更好的理解上下文语义预测标签。
作为本发明的进一步方案,所述Step1的具体步骤如下:
Step1.1、老挝语文本数据清洗:去除老挝语文本中的乱码字符,规范标点符号表示方法;
Step1.2、老挝语编码转换:老挝语Lao字体统一编码转换变成Unicode字体;
Step1.3、句子长度过滤:保留老挝语句子长度小于250字符的句子,用于提升模型训练效率;
Step1.4、语料标注:对老挝语文本正则化语料标注,具体包括:文本序列中的需要正则化的字符被使用“▁”标记,每次只标记单个字符,标记后的文本序列被分为多个序列,每个序列中只有一个字符被“▁”标记,标记后的字符由专业的语言专家标注对应老挝语文本,每个标注后的老挝语字符进行分类,并对每个标注后的老挝语字符进行分类,所有标注后的老挝语文本构成标签词典,标签词典大小为112;
Step1.5、老挝语文本分词:对标记后的老挝语文本单个字符进行分词处理,分词前去掉被“▁”标记的字符。
作为本发明的进一步方案,所述Step2的具体步骤为:
Step2.1、首先将文本正则化任务当作序列标注任务完成,在BiLSTM中,文本序列经过词嵌入表示为:
Figure BDA0003419590360000041
Figure BDA0003419590360000042
为分词编码后的字符,h=12…l,l为输入序列句子长度,n为词嵌入维度;前向隐藏层和后向隐藏层的输出维度均为n维,定义为
Figure BDA0003419590360000043
Figure BDA0003419590360000044
BiLSTM输出表示为:
Figure BDA0003419590360000045
Step2.2、BiLSTM后接自注意力机制,使用自注意力机制关注序列词间的深层关系,使模型更好的理解输入序列的上下文语义信息;将自注意力机制的输出送入线性层,该线性层输出维度为正则化标签数,经过softmax计算每个标签的得分。
作为本发明的进一步方案,所述Step2.2的具体步骤为:
Step2.2.1、用attn(q,K,V)表示自注意力机制,q,K,V分别表示query,key,value,将BiLSTM的输出分别作为q,K,V;下式中,ki∈K和vi∈V,|q|=|K|=|V|;自注意力机制原理如下:
Figure BDA0003419590360000051
Figure BDA0003419590360000052
其中WK,Wq和WV为随机初始化权重,并在迭代中学习更新,Z为注意力头个数;BiLSTM输出序列的隐态表征表示为
Figure BDA0003419590360000053
其中
Figure BDA0003419590360000054
自注意力机制输出
Figure BDA0003419590360000055
其中
Figure BDA0003419590360000056
Step2.2.2、自注意力机制最后计算得出结合句子文本向量表征向量c,该序列表征作为编码器的输出,送入到线性层分类,然后通过softmax层计算每个分类得分。
为了说明本发明的效果,本发明进行了如下实验:实验测试在老挝语上完成文本正则化任务,标注数据格式为一段序列只标注一个需要正则化的词,并对该词标注正则化后的老挝语文本。本发明总共使用了36k的数据对,训练集和数据集大小分别为32.2k和3.8k。该数据集为内部数据集,文本来自cri网页爬取获得,数据标注工作由老挝语为母语的语言学家完成。使用字符准确率(character accuracy)来评级本发明的效果。本发明在基于长短期记忆网络BiLSTM完成文本正则化任务的模型作为基准模型。使用参数β1=0.9,β2=0.999,ε=10-6的Adam优化器,学习率为,所有实验均在一张NVIDIA Tesla T4上完成训练。
表1:训练数据部分数据类别
Figure BDA0003419590360000057
训练数据包含32.2k个分类标签,全为新闻语料,该语料中,包含12类标签,表1列出部分例子,其中数字、日期和时间类别占比大部分,其余英文缩写、度量单位、货币单位等类别占比少数。
为了验证本发明提出的发明方法的效果,设计以下对比实验进行分析。在该数据集上进行了3组实验。
实验一:对比五种模型在测试集上的模型准确率。模型1:RNN序列生成模型。基于序列生成的RNN神经网络模型做编码器,Sproat等人使用该方法在富资源上完成了文本正则化任务;模型2:BiLSTM模型。基于序列标注的LSTM神经网络模型做编码器,该方法来自Park等人在中文多音字预测任务中提出的方法;模型3:本发明BiLSTM+Self-attn模型。基于自注意力机制的BiLSTM做编码器;模型4:XLM模型。基于老挝语字符粒度的XLM-Reberta预训练语言模型做编码器;模型5:BiLSTM+XLM模型。基于交叉注意力机制融合BiLSTM和XLM-Roberta预训练语言模型做编码器。上述5种模型在数据集上的实验结果见表2。
表2:五种不同模型文本正则化准确率
Figure BDA0003419590360000061
由表可以分析出基于序列生成的RNN神经网络模型在该数据集表现较差,基于序列标注的BiLSTM神经网络的模型在预测结果上能获取相对较好的结果。这是因为该方法结合了上下文文本向量,而模型3加入了自注意力机制,加深序列中各个字符间的关系,使得模型更好的理解语义信息,预测结果能到达较好的效果。但是基于老挝语字符粒度的XLM-Roberta预训练语言模型没能达到理想的效果,甚至效果极差,其存在以下几点原因:第一,用于训练出该预训练语言模型的原数据集没有注重数字和字符,导致预训练语言模型在该任务中的表现堪忧;第二,XLM-Roberta预训练语言模型是在上百种语言上联合训练的跨语言模型,在多语言任务上可能表现更好,而在老挝语单语言上,模型参数存在偏置,导致模型性能反而下降。模型5进一步证明了基于预训练语言模型的方式难以在文本正则化任务中承担任务。结果上本发明的基于自注意力机制的BiLSTM模型方法效果更好。
实验二:本发明基于自注意力机制的BiLSTM方法在测试集上的部分类别的模型准确率。在整体的数据集上,对每个分类组进行了准确率测试。表3为表1中各类在测试集上的占比和准确率。该结果有助于确定从神经网络中哪些类别更容易预测。
表3:训练数据部分数据准确率
Figure BDA0003419590360000071
模型在测试集上的表现上,对不同类别的预测准确率有较大偏差,相对于比较复杂日期、时间、比分等几个类别效果较差,基于特定符号的类别,模型更容易预测,特别对于“%”这类没有歧义的符号预测极为准确。原因在于该实验数据集较少,难以在少量数据集下学习到复杂的文本规范变换,而特定的符号转换不需要复杂变换,故而模型预测更加容易。
实验三:对比实验。为了进一步体现出本发明在该数据集下的性能,本发明对比了Sproat等人提出的基于RNN神经网络完成序列生成任务的模型和Park等人提出的基于BiLSTM神经网络完成序列生成任务的模型,Sproat等人的工作是在英文和俄语的文本正则化,将需要正则化的标签单独取出,输入词典为构成所有需要正则化的字符,输出词典为构成所有正则化字符对应标签的字符。Park等人的方法为表2的BiLSTM模型方法。表4展示了上述两种模型在稀缺资源老挝语文本正则化任务中各个类别的准确率。
表4:基于神经网络模型的序列生成和序列标注任务方法在部分数据准确率
Figure BDA0003419590360000072
Figure BDA0003419590360000081
表3的准确率与表4对比,表明了本发明在老挝语文本正则化任务中的性能要优于Sproat等人和Park等人的方法。
为了体现本发明的效果,我们将结果文本正则化结果可视化,表5展示了基于自注意力机制的BiLSTM神经网络模型在文本正则化任务中的序列结果,并将几种类别的正则化结果放在该表中。
表5:五种不同数据类别文本正则化结果
Figure BDA0003419590360000082
从表5可以看到,第一段序列标记为范围类别,“-”被预测为
Figure BDA0003419590360000084
包括第二、三序列被标记为数字类别,该类别复杂繁琐,容易在对“.”和“,”的预测上出错,第二段序列只展示了“2”预测正确的结果,这个点在这里表示科学计数法的点,故而“2”被预测为“两千”,这点和中文的读法相似。序列三为正确预测的“.”作为科学计数法使用,因为此时“.”不发音,将其预测为“none”,第四段序列为“%”预测为
Figure BDA0003419590360000083
在百分号上的预测完全准确。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (4)

1.基于BiLSTM的老挝语文本正则化方法,其特征在于:所述方法的具体步骤如下:
Step1、老挝语文本正则化数据预处理:将老挝语文本数据进行数据清洗、编码转换、语料标注、长度比过滤、分词;
Step2、基于BiLSTM神经网络的文本正则化处理:采用序列标注的思想,将BiLSTM作为编码器,结合不可读词的上下文文本向量,并将线性层和softmax作为解码器,预测不可读词可能的标签,并在BiLSTM后接自注意力机制加深序列词间关注度,使模型更好的理解上下文语义预测标签。
2.根据权利要求1所述的基于BiLSTM的老挝语文本正则化方法,其特征在于:所述Step1的具体步骤如下:
Step1.1、老挝语文本数据清洗:去除老挝语文本中的乱码字符,规范标点符号表示方法;
Step1.2、老挝语编码转换:老挝语Lao字体统一编码转换变成Unicode字体;
Step1.3、句子长度过滤:保留老挝语句子长度小于250字符的句子,用于提升模型训练效率;
Step1.4、语料标注:对老挝语文本正则化语料标注,具体包括:文本序列中的需要正则化的字符被使用“▁”标记,每次只标记单个字符,标记后的文本序列被分为多个序列,每个序列中只有一个字符被“▁”标记,标记后的字符由专业的语言专家标注对应老挝语文本,每个标注后的老挝语字符进行分类,并对每个标注后的老挝语字符进行分类,所有标注后的老挝语文本构成标签词典,标签词典大小为112;
Step1.5、老挝语文本分词:对标记后的老挝语文本单个字符进行分词处理,分词前去掉被“▁”标记的字符。
3.根据权利要求1所述的基于BiLSTM的老挝语文本正则化方法,其特征在于:所述Step2的具体步骤为:
Step2.1、首先将文本正则化任务当作序列标注任务完成,在BiLSTM中,文本序列经过词嵌入表示为:
Figure FDA0003419590350000011
Figure FDA0003419590350000012
为分词编码后的字符,h=12…l,l为输入序列句子长度,n为词嵌入维度;前向隐藏层和后向隐藏层的输出维度均为n维,定义为
Figure FDA0003419590350000021
Figure FDA0003419590350000022
BiLSTM输出表示为:
Figure FDA0003419590350000023
Step2.2、BiLSTM后接自注意力机制,使用自注意力机制关注序列词间的深层关系,使模型更好的理解输入序列的上下文语义信息;将自注意力机制的输出送入线性层,该线性层输出维度为正则化标签数,经过softmax计算每个标签的得分。
4.根据权利要求3所述的基于BiLSTM的老挝语文本正则化方法,其特征在于:所述Step2.2的具体步骤为:
Step2.2.1、用attn(q,K,V)表示自注意力机制,q,K,V分别表示query,key,value,将BiLSTM的输出分别作为q,K,V;下式中,ki∈K和vi∈V,|q|=|K|=|V|;自注意力机制原理如下:
Figure FDA0003419590350000024
Figure FDA0003419590350000025
其中WK,Wq和WV为随机初始化权重,并在迭代中学习更新,Z为注意力头个数;BiLSTM输出序列的隐态表征表示为
Figure FDA0003419590350000026
其中
Figure FDA0003419590350000027
自注意力机制输出
Figure FDA0003419590350000028
其中
Figure FDA0003419590350000029
Step2.2.2、自注意力机制最后计算得出结合句子文本向量表征向量c,该序列表征作为编码器的输出,送入到线性层分类,然后通过softmax层计算每个分类得分。
CN202111557674.8A 2021-12-20 2021-12-20 基于BiLSTM的老挝语文本正则化方法 Active CN114595687B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111557674.8A CN114595687B (zh) 2021-12-20 2021-12-20 基于BiLSTM的老挝语文本正则化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111557674.8A CN114595687B (zh) 2021-12-20 2021-12-20 基于BiLSTM的老挝语文本正则化方法

Publications (2)

Publication Number Publication Date
CN114595687A true CN114595687A (zh) 2022-06-07
CN114595687B CN114595687B (zh) 2024-04-19

Family

ID=81803788

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111557674.8A Active CN114595687B (zh) 2021-12-20 2021-12-20 基于BiLSTM的老挝语文本正则化方法

Country Status (1)

Country Link
CN (1) CN114595687B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116136955A (zh) * 2023-04-21 2023-05-19 合肥智能语音创新发展有限公司 文本转写方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190080225A1 (en) * 2017-09-11 2019-03-14 Tata Consultancy Services Limited Bilstm-siamese network based classifier for identifying target class of queries and providing responses thereof
CN109543009A (zh) * 2018-10-17 2019-03-29 龙马智芯(珠海横琴)科技有限公司 文本相似度评估系统及文本相似度评估方法
CN110083824A (zh) * 2019-03-18 2019-08-02 昆明理工大学 一种基于多模型组合神经网络的老挝语分词方法
CN110222349A (zh) * 2019-06-13 2019-09-10 成都信息工程大学 一种深度动态上下文词语表示的模型及方法、计算机
CN110717334A (zh) * 2019-09-10 2020-01-21 上海理工大学 基于bert模型和双通道注意力的文本情感分析方法
CN113627150A (zh) * 2021-07-01 2021-11-09 昆明理工大学 基于语言相似性的迁移学习平行句对抽取方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190080225A1 (en) * 2017-09-11 2019-03-14 Tata Consultancy Services Limited Bilstm-siamese network based classifier for identifying target class of queries and providing responses thereof
CN109543009A (zh) * 2018-10-17 2019-03-29 龙马智芯(珠海横琴)科技有限公司 文本相似度评估系统及文本相似度评估方法
CN110083824A (zh) * 2019-03-18 2019-08-02 昆明理工大学 一种基于多模型组合神经网络的老挝语分词方法
CN110222349A (zh) * 2019-06-13 2019-09-10 成都信息工程大学 一种深度动态上下文词语表示的模型及方法、计算机
CN110717334A (zh) * 2019-09-10 2020-01-21 上海理工大学 基于bert模型和双通道注意力的文本情感分析方法
CN113627150A (zh) * 2021-07-01 2021-11-09 昆明理工大学 基于语言相似性的迁移学习平行句对抽取方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
MARYEM 等: "a cnn-bilstm model for document-level sentiment analysis", MACHINE LEARNING & KNOWLEDGE EXTRACTION, 25 July 2019 (2019-07-25), pages 832 - 847 *
朱向前;: "基于混合注意力机制和CTC语音识别模型技术研究", 电视技术, vol. 43, no. 22, 15 December 2019 (2019-12-15), pages 1 - 4 *
王剑等: "基于BiLSTM的低资源老挝语文本正则化任务", 计算机工程与科学, vol. 45, no. 7, 14 July 2023 (2023-07-14), pages 1292 - 1299 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116136955A (zh) * 2023-04-21 2023-05-19 合肥智能语音创新发展有限公司 文本转写方法、装置、电子设备及存储介质
CN116136955B (zh) * 2023-04-21 2023-08-04 合肥智能语音创新发展有限公司 文本转写方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN114595687B (zh) 2024-04-19

Similar Documents

Publication Publication Date Title
CN111931506B (zh) 一种基于图信息增强的实体关系抽取方法
CN106599032B (zh) 一种结合稀疏编码和结构感知机的文本事件抽取方法
CN111209401A (zh) 网络舆情文本信息情感极性分类处理系统及方法
CN113642330A (zh) 基于目录主题分类的轨道交通规范实体识别方法
CN110276069B (zh) 一种中国盲文错误自动检测方法、系统及存储介质
CN101539907A (zh) 词性标注模型训练装置、词性标注系统及其方法
Siddique et al. English to bangla machine translation using recurrent neural network
CN112926345A (zh) 基于数据增强训练的多特征融合神经机器翻译检错方法
CN110717341A (zh) 一种以泰语为枢轴的老-汉双语语料库构建方法及装置
CN114780582A (zh) 基于表格问答的自然答案生成系统及其方法
CN113723103A (zh) 融合多源知识的中文医学命名实体和词性联合学习方法
CN113627150A (zh) 基于语言相似性的迁移学习平行句对抽取方法及装置
CN114757184A (zh) 实现航空领域知识问答的方法和系统
CN114595687B (zh) 基于BiLSTM的老挝语文本正则化方法
CN114064901A (zh) 一种基于知识图谱词义消歧的书评文本分类方法
CN112507717A (zh) 融合实体关键字特征的医疗领域实体分类方法
CN114880994B (zh) 一种直白文本到反讽文本的文本风格转换方法及装置
CN115630140A (zh) 一种基于文本特征融合的英语阅读材料难度判断的方法
CN115238093A (zh) 一种模型训练的方法、装置、电子设备及存储介质
Singh et al. Deep Learning based Abstractive Summarization for English Language.
Huang et al. Improving Braille–Chinese translation with jointly trained and pre-trained language models
CN116720502B (zh) 基于机器阅读理解与模板规则的航空文档信息抽取方法
Maalej et al. Parsing Arabic using deep learning technology.
Alissa et al. Text simplification using transformer and BERT
Siram et al. Parts of Speech Tagging of the Nyishi Language Using Hmm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant