CN114595687B - 基于BiLSTM的老挝语文本正则化方法 - Google Patents
基于BiLSTM的老挝语文本正则化方法 Download PDFInfo
- Publication number
- CN114595687B CN114595687B CN202111557674.8A CN202111557674A CN114595687B CN 114595687 B CN114595687 B CN 114595687B CN 202111557674 A CN202111557674 A CN 202111557674A CN 114595687 B CN114595687 B CN 114595687B
- Authority
- CN
- China
- Prior art keywords
- laos
- text
- bilstm
- sequence
- marked
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000002372 labelling Methods 0.000 claims abstract description 20
- 238000013528 artificial neural network Methods 0.000 claims abstract description 9
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 238000012545 processing Methods 0.000 claims abstract description 4
- 238000012549 training Methods 0.000 claims description 13
- 230000011218 segmentation Effects 0.000 claims description 12
- 239000013598 vector Substances 0.000 claims description 10
- 238000004140 cleaning Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000002474 experimental method Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 8
- 238000003062 neural network model Methods 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 230000015572 biosynthetic process Effects 0.000 description 5
- 238000003786 synthesis reaction Methods 0.000 description 5
- 238000013459 approach Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000000844 transformation Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- AZFKQCNGMSSWDS-UHFFFAOYSA-N MCPA-thioethyl Chemical compound CCSC(=O)COC1=CC=C(Cl)C=C1C AZFKQCNGMSSWDS-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及基于BiLSTM的老挝语文本正则化方法,属于自然语言处理领域。针对通用语言不可读词需要依据上下文语境推测结果,老挝语存在自己的语法结构、表达方式,以及老挝语文本正则化数据稀缺的问题,本发明提出了一种基于BiLSTM的老挝语文本正则化方法,主要包括对老挝语文本正则化数据预处理、基于自注意力机制的BiLSTM网络文本正则化处理两个部分构成。本发明所提的方法是将文本正则化任务当作序列标注任务完成,在BiLSTM神经网络中输入标注好的文本序列,根据上下文预测正确结果,增加自注意力机制加深模型对序列语义的理解。
Description
技术领域
本发明涉及基于BiLSTM的老挝语文本正则化方法,属于自然语言处理技术领域。
背景技术
文本正则化作为语音合成的上游任务,正则化后的序列作为语音合成的输入,致使文本预处理过程显得尤为重要。该任务通常需要大量的非规范词和正则化词的数据对来训练模型。其中富资源语言的文本正则化任务已经成熟,英语、中文、俄语等富资源语言的训练数据已经达到上亿规模,但是稀缺资源语言的文本正则化任务少有学者研究。
该任务最早可以追溯到文本到语音的合成系统MITalk,完全基于规则的正则化方式,但是基于匹配的方式难以胜任一词多义的情况,Sproat等人总结了文本正则化的难点和挑战,例如符号“%”读作百分数,货币符号“$15”读作“十五美元”,“2021”既可以读作数字“两千零一十九”或者年份“二零一九年”,“9:10”读作时间“九点十分”或比分“九比十”,“4/5”既可以表示分数,又可以表示日期,同样还可以表示比分,不同语境对不可读词的含义的确定起着至关重要的作用,而大部分不可读词表达的意思模棱两可,因此上下文是文本正则化任务中判断这类词含义的决定因素,完全基于规则的方式不足以胜任该任务,而神经网络能够通过大量的训练数据学习到不可读词与上下文语境间的关系,预测出符合语境的正则化后的词。
发明内容
本发明提供了基于BiLSTM的老挝语文本正则化方法,首次提出了老挝语文本正则化任务,解决了低资源下老挝语文本正则化面临的特定语法结构、一词多义的问题,为下游老挝语语音合成任务提供了可用的老挝语文本。
本发明的技术方案是:基于BiLSTM的老挝语文本正则化方法,所述方法的具体步骤如下:
Step1、老挝语文本正则化数据预处理:将老挝语文本数据进行数据清洗、编码转换、语料标注、长度比过滤、分词;
Step2、基于BiLSTM神经网络的文本正则化处理:采用序列标注的思想,将BiLSTM作为编码器,结合不可读词的上下文文本向量,并将线性层和softmax作为解码器,预测不可读词可能的标签,并在BiLSTM后接自注意力机制加深序列词间关注度,使模型更好的理解上下文语义预测标签。
作为本发明的进一步方案,所述Step1的具体步骤如下:
Step1.1、老挝语文本数据清洗:去除老挝语文本中的乱码字符,规范标点符号表示方法;
Step1.2、老挝语编码转换:老挝语Lao字体统一编码转换变成Unicode字体;
Step1.3、句子长度过滤:保留老挝语句子长度小于250字符的句子,用于提升模型训练效率;
Step1.4、语料标注:对老挝语文本正则化语料标注,具体包括:文本序列中的需要正则化的字符被使用“▁”标记,每次只标记单个字符,标记后的文本序列被分为多个序列,每个序列中只有一个字符被“▁”标记,标记后的字符由专业的语言专家标注对应老挝语文本,每个标注后的老挝语字符进行分类,并对每个标注后的老挝语字符进行分类,所有标注后的老挝语文本构成标签词典,标签词典大小为112;
Step1.5、老挝语文本分词:对标记后的老挝语文本单个字符进行分词处理,分词前去掉被“▁”标记的字符。
作为本发明的进一步方案,所述Step2的具体步骤为:
Step2.1、首先将文本正则化任务当作序列标注任务完成,在BiLSTM中,文本序列经过词嵌入表示为: 为分词编码后的字符,h=12…l,l为输入序列句子长度,n为词嵌入维度;前向隐藏层和后向隐藏层的输出维度均为n维,定义为/>和/>BiLSTM输出表示为:/>
Step2.2、BiLSTM后接自注意力机制,使用自注意力机制关注序列词间的深层关系,使模型更好的理解输入序列的上下文语义信息;将自注意力机制的输出送入线性层,该线性层输出维度为正则化标签数,经过softmax计算每个标签的得分。
作为本发明的进一步方案,所述Step2.2的具体步骤为:
Step2.2.1、用attn(q,K,V)表示自注意力机制,q,K,V分别表示query,key,value,将BiLSTM的输出分别作为q,K,V;下式中,ki∈K和vi∈V,|q|=|K|=|V|;自注意力机制原理如下:
其中WK,Wq和WV为随机初始化权重,并在迭代中学习更新,Z为注意力头个数;BiLSTM输出序列的隐态表征表示为其中/>自注意力机制输出其中/>
Step2.2.2、自注意力机制最后计算得出结合句子文本向量表征向量c,该序列表征作为编码器的输出,送入到线性层分类,然后通过softmax层计算每个分类得分。
本发明的有益效果是:本发明解决了老挝语文本正则化数据稀缺的问题,本发明包括对老挝语文本正则化数据预处理、基于自注意力机制的BiLSTM网络文本正则化处理两个部分;本发明所提的方法将文本正则化任务当作序列标注任务完成,在BiLSTM神经网络中输入标注好的文本序列,根据上下文预测正确结果,增加自注意力机制加深模型对序列语义的理解,在老挝语文本正则化任务中表现较为优异,为下游老挝语语音合成任务提供了可用的老挝语文本。
附图说明
图1为本发明中的双向长短期记忆网络BiLSTM原理图;
图2为本发明中的自注意力机制原理图;
图3为本发明中的方法流程框图;
具体实施方式
实施例1:如图1-图3所示,基于BiLSTM的老挝语文本正则化方法,所述方法的具体步骤如下:
Step1、老挝语文本正则化数据预处理:将老挝语文本数据进行数据清洗、编码转换、语料标注、长度比过滤、分词;
Step2、基于BiLSTM神经网络的文本正则化处理:采用序列标注的思想,将BiLSTM作为编码器,结合不可读词的上下文文本向量,并将线性层和softmax作为解码器,预测不可读词可能的标签,并在BiLSTM后接自注意力机制加深序列词间关注度,使模型更好的理解上下文语义预测标签。
作为本发明的进一步方案,所述Step1的具体步骤如下:
Step1.1、老挝语文本数据清洗:去除老挝语文本中的乱码字符,规范标点符号表示方法;
Step1.2、老挝语编码转换:老挝语Lao字体统一编码转换变成Unicode字体;
Step1.3、句子长度过滤:保留老挝语句子长度小于250字符的句子,用于提升模型训练效率;
Step1.4、语料标注:对老挝语文本正则化语料标注,具体包括:文本序列中的需要正则化的字符被使用“▁”标记,每次只标记单个字符,标记后的文本序列被分为多个序列,每个序列中只有一个字符被“▁”标记,标记后的字符由专业的语言专家标注对应老挝语文本,每个标注后的老挝语字符进行分类,并对每个标注后的老挝语字符进行分类,所有标注后的老挝语文本构成标签词典,标签词典大小为112;
Step1.5、老挝语文本分词:对标记后的老挝语文本单个字符进行分词处理,分词前去掉被“▁”标记的字符。
作为本发明的进一步方案,所述Step2的具体步骤为:
Step2.1、首先将文本正则化任务当作序列标注任务完成,在BiLSTM中,文本序列经过词嵌入表示为: 为分词编码后的字符,h=12…l,l为输入序列句子长度,n为词嵌入维度;前向隐藏层和后向隐藏层的输出维度均为n维,定义为/>和/>BiLSTM输出表示为:/>
Step2.2、BiLSTM后接自注意力机制,使用自注意力机制关注序列词间的深层关系,使模型更好的理解输入序列的上下文语义信息;将自注意力机制的输出送入线性层,该线性层输出维度为正则化标签数,经过softmax计算每个标签的得分。
作为本发明的进一步方案,所述Step2.2的具体步骤为:
Step2.2.1、用attn(q,K,V)表示自注意力机制,q,K,V分别表示query,key,value,将BiLSTM的输出分别作为q,K,V;下式中,ki∈K和vi∈V,|q|=|K|=|V|;自注意力机制原理如下:
其中WK,Wq和WV为随机初始化权重,并在迭代中学习更新,Z为注意力头个数;BiLSTM输出序列的隐态表征表示为其中/>自注意力机制输出其中/>
Step2.2.2、自注意力机制最后计算得出结合句子文本向量表征向量c,该序列表征作为编码器的输出,送入到线性层分类,然后通过softmax层计算每个分类得分。
为了说明本发明的效果,本发明进行了如下实验:实验测试在老挝语上完成文本正则化任务,标注数据格式为一段序列只标注一个需要正则化的词,并对该词标注正则化后的老挝语文本。本发明总共使用了36k的数据对,训练集和数据集大小分别为32.2k和3.8k。该数据集为内部数据集,文本来自cri网页爬取获得,数据标注工作由老挝语为母语的语言学家完成。使用字符准确率(character accuracy)来评级本发明的效果。本发明在基于长短期记忆网络BiLSTM完成文本正则化任务的模型作为基准模型。使用参数β1=0.9,β2=0.999,ε=10-6的Adam优化器,学习率为,所有实验均在一张NVIDIA Tesla T4上完成训练。
表1:训练数据部分数据类别
训练数据包含32.2k个分类标签,全为新闻语料,该语料中,包含12类标签,表1列出部分例子,其中数字、日期和时间类别占比大部分,其余英文缩写、度量单位、货币单位等类别占比少数。
为了验证本发明提出的发明方法的效果,设计以下对比实验进行分析。在该数据集上进行了3组实验。
实验一:对比五种模型在测试集上的模型准确率。模型1:RNN序列生成模型。基于序列生成的RNN神经网络模型做编码器,Sproat等人使用该方法在富资源上完成了文本正则化任务;模型2:BiLSTM模型。基于序列标注的LSTM神经网络模型做编码器,该方法来自Park等人在中文多音字预测任务中提出的方法;模型3:本发明BiLSTM+Self-attn模型。基于自注意力机制的BiLSTM做编码器;模型4:XLM模型。基于老挝语字符粒度的XLM-Reberta预训练语言模型做编码器;模型5:BiLSTM+XLM模型。基于交叉注意力机制融合BiLSTM和XLM-Roberta预训练语言模型做编码器。上述5种模型在数据集上的实验结果见表2。
表2:五种不同模型文本正则化准确率
由表可以分析出基于序列生成的RNN神经网络模型在该数据集表现较差,基于序列标注的BiLSTM神经网络的模型在预测结果上能获取相对较好的结果。这是因为该方法结合了上下文文本向量,而模型3加入了自注意力机制,加深序列中各个字符间的关系,使得模型更好的理解语义信息,预测结果能到达较好的效果。但是基于老挝语字符粒度的XLM-Roberta预训练语言模型没能达到理想的效果,甚至效果极差,其存在以下几点原因:第一,用于训练出该预训练语言模型的原数据集没有注重数字和字符,导致预训练语言模型在该任务中的表现堪忧;第二,XLM-Roberta预训练语言模型是在上百种语言上联合训练的跨语言模型,在多语言任务上可能表现更好,而在老挝语单语言上,模型参数存在偏置,导致模型性能反而下降。模型5进一步证明了基于预训练语言模型的方式难以在文本正则化任务中承担任务。结果上本发明的基于自注意力机制的BiLSTM模型方法效果更好。
实验二:本发明基于自注意力机制的BiLSTM方法在测试集上的部分类别的模型准确率。在整体的数据集上,对每个分类组进行了准确率测试。表3为表1中各类在测试集上的占比和准确率。该结果有助于确定从神经网络中哪些类别更容易预测。
表3:训练数据部分数据准确率
模型在测试集上的表现上,对不同类别的预测准确率有较大偏差,相对于比较复杂日期、时间、比分等几个类别效果较差,基于特定符号的类别,模型更容易预测,特别对于“%”这类没有歧义的符号预测极为准确。原因在于该实验数据集较少,难以在少量数据集下学习到复杂的文本规范变换,而特定的符号转换不需要复杂变换,故而模型预测更加容易。
实验三:对比实验。为了进一步体现出本发明在该数据集下的性能,本发明对比了Sproat等人提出的基于RNN神经网络完成序列生成任务的模型和Park等人提出的基于BiLSTM神经网络完成序列生成任务的模型,Sproat等人的工作是在英文和俄语的文本正则化,将需要正则化的标签单独取出,输入词典为构成所有需要正则化的字符,输出词典为构成所有正则化字符对应标签的字符。Park等人的方法为表2的BiLSTM模型方法。表4展示了上述两种模型在稀缺资源老挝语文本正则化任务中各个类别的准确率。
表4:基于神经网络模型的序列生成和序列标注任务方法在部分数据准确率
表3的准确率与表4对比,表明了本发明在老挝语文本正则化任务中的性能要优于Sproat等人和Park等人的方法。
为了体现本发明的效果,我们将结果文本正则化结果可视化,表5展示了基于自注意力机制的BiLSTM神经网络模型在文本正则化任务中的序列结果,并将几种类别的正则化结果放在该表中。
表5:五种不同数据类别文本正则化结果
从表5可以看到,第一段序列标记为范围类别,“-”被预测为包括第二、三序列被标记为数字类别,该类别复杂繁琐,容易在对“.”和“,”的预测上出错,第二段序列只展示了“2”预测正确的结果,这个点在这里表示科学计数法的点,故而“2”被预测为“两千”,这点和中文的读法相似。序列三为正确预测的“.”作为科学计数法使用,因为此时“.”不发音,将其预测为“none”,第四段序列为“%”预测为/>在百分号上的预测完全准确。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (2)
1.基于BiLSTM的老挝语文本正则化方法,其特征在于:所述方法的具体步骤如下:
Step1、老挝语文本正则化数据预处理:将老挝语文本数据进行数据清洗、编码转换、语料标注、长度比过滤、分词;
Step2、基于BiLSTM神经网络的文本正则化处理:采用序列标注的思想,将BiLSTM作为编码器,结合不可读词的上下文文本向量,并将线性层和softmax作为解码器,预测不可读词可能的标签,并在BiLSTM后接自注意力机制加深序列词间关注度,使模型更好的理解上下文语义预测标签;
所述Step2的具体步骤为:
Step2.1、首先将文本正则化任务当作序列标注任务完成,在BiLSTM中,文本序列经过词嵌入表示为: 为分词编码后的字符,h=12…l,l为输入序列句子长度,n为词嵌入维度;前向隐藏层和后向隐藏层的输出维度均为n维,定义为/>和/>BiLSTM输出表示为:
Step2.2、BiLSTM后接自注意力机制,使用自注意力机制关注序列词间的深层关系,使模型更好的理解输入序列的上下文语义信息;将自注意力机制的输出送入线性层,该线性层输出维度为正则化标签数,经过softmax计算每个标签的得分;
所述Step2.2的具体步骤为:
Step2.2.1、用attn(q,K,V)表示自注意力机制,q,K,V分别表示query,key,value,将BiLSTM的输出分别作为q,K,V;下式中,ki∈K和vi∈V,|q|=|K|=|V|;
自注意力机制原理如下:
其中WK,Wq和WV为随机初始化权重,并在迭代中学习更新,Z为注意力头个数;BiLSTM输出序列的隐态表征表示为其中x∈R2n,自注意力机制输出/>其中c∈R2n;
Step2.2.2、自注意力机制最后计算得出结合句子文本向量表征向量c,该序列表征向量c作为编码器的输出,送入到线性层分类,然后通过softmax层计算每个分类得分。
2.根据权利要求1所述的基于BiLSTM的老挝语文本正则化方法,其特征在于:所述Step1的具体步骤如下:
Step1.1、老挝语文本数据清洗:去除老挝语文本中的乱码字符,规范标点符号表示方法;
Step1.2、老挝语编码转换:老挝语Lao字体统一编码转换变成Unicode字体;
Step1.3、句子长度过滤:保留老挝语句子长度小于250字符的句子,用于提升模型训练效率;
Step1.4、语料标注:对老挝语文本正则化语料标注,具体包括:文本序列中的需要正则化的字符被使用“▁”标记,每次只标记单个字符,标记后的文本序列被分为多个序列,每个序列中只有一个字符被“▁”标记,标记后的字符由专业的语言专家标注对应老挝语文本,每个标注后的老挝语字符进行分类,并对每个标注后的老挝语字符进行分类,所有标注后的老挝语文本构成标签词典,标签词典大小为112;
Step1.5、老挝语文本分词:对标记后的老挝语文本单个字符进行分词处理,分词前去掉被“▁”标记的字符。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111557674.8A CN114595687B (zh) | 2021-12-20 | 2021-12-20 | 基于BiLSTM的老挝语文本正则化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111557674.8A CN114595687B (zh) | 2021-12-20 | 2021-12-20 | 基于BiLSTM的老挝语文本正则化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114595687A CN114595687A (zh) | 2022-06-07 |
CN114595687B true CN114595687B (zh) | 2024-04-19 |
Family
ID=81803788
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111557674.8A Active CN114595687B (zh) | 2021-12-20 | 2021-12-20 | 基于BiLSTM的老挝语文本正则化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114595687B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116136955B (zh) * | 2023-04-21 | 2023-08-04 | 合肥智能语音创新发展有限公司 | 文本转写方法、装置、电子设备及存储介质 |
CN118333067B (zh) * | 2024-06-13 | 2024-08-16 | 小语智能信息科技(云南)有限公司 | 基于编码转写增强词嵌入迁移的老-中神经机器翻译方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109543009A (zh) * | 2018-10-17 | 2019-03-29 | 龙马智芯(珠海横琴)科技有限公司 | 文本相似度评估系统及文本相似度评估方法 |
CN110083824A (zh) * | 2019-03-18 | 2019-08-02 | 昆明理工大学 | 一种基于多模型组合神经网络的老挝语分词方法 |
CN110222349A (zh) * | 2019-06-13 | 2019-09-10 | 成都信息工程大学 | 一种深度动态上下文词语表示的模型及方法、计算机 |
CN110717334A (zh) * | 2019-09-10 | 2020-01-21 | 上海理工大学 | 基于bert模型和双通道注意力的文本情感分析方法 |
CN113627150A (zh) * | 2021-07-01 | 2021-11-09 | 昆明理工大学 | 基于语言相似性的迁移学习平行句对抽取方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3454260A1 (en) * | 2017-09-11 | 2019-03-13 | Tata Consultancy Services Limited | Bilstm-siamese network based classifier for identifying target class of queries and providing responses thereof |
-
2021
- 2021-12-20 CN CN202111557674.8A patent/CN114595687B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109543009A (zh) * | 2018-10-17 | 2019-03-29 | 龙马智芯(珠海横琴)科技有限公司 | 文本相似度评估系统及文本相似度评估方法 |
CN110083824A (zh) * | 2019-03-18 | 2019-08-02 | 昆明理工大学 | 一种基于多模型组合神经网络的老挝语分词方法 |
CN110222349A (zh) * | 2019-06-13 | 2019-09-10 | 成都信息工程大学 | 一种深度动态上下文词语表示的模型及方法、计算机 |
CN110717334A (zh) * | 2019-09-10 | 2020-01-21 | 上海理工大学 | 基于bert模型和双通道注意力的文本情感分析方法 |
CN113627150A (zh) * | 2021-07-01 | 2021-11-09 | 昆明理工大学 | 基于语言相似性的迁移学习平行句对抽取方法及装置 |
Non-Patent Citations (3)
Title |
---|
a cnn-bilstm model for document-level sentiment analysis;Maryem 等;machine learning & knowledge extraction;20190725;832-847 * |
基于BiLSTM的低资源老挝语文本正则化任务;王剑等;计算机工程与科学;20230714;第45卷(第7期);1292-1299 * |
基于混合注意力机制和CTC语音识别模型技术研究;朱向前;;电视技术;20191215;第43卷(第22期);1-4+15 * |
Also Published As
Publication number | Publication date |
---|---|
CN114595687A (zh) | 2022-06-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113642330B (zh) | 基于目录主题分类的轨道交通规范实体识别方法 | |
CN110222188B (zh) | 一种多任务学习的公司公告处理方法及服务端 | |
CN111209401A (zh) | 网络舆情文本信息情感极性分类处理系统及方法 | |
CN110909736B (zh) | 一种基于长短期记忆模型与目标检测算法的图像描述方法 | |
CN114595687B (zh) | 基于BiLSTM的老挝语文本正则化方法 | |
CN112115238A (zh) | 一种基于bert和知识库的问答方法和系统 | |
CN110297889B (zh) | 一种基于特征融合的企业情感倾向分析方法 | |
CN113569562B (zh) | 一种降低端到端语音翻译跨模态跨语言障碍的方法及系统 | |
CN113743099A (zh) | 基于自注意力机制方面术语提取系统、方法、介质、终端 | |
CN113723103A (zh) | 融合多源知识的中文医学命名实体和词性联合学习方法 | |
CN114780582A (zh) | 基于表格问答的自然答案生成系统及其方法 | |
CN115098673A (zh) | 基于变体注意力及层次结构的业务文书信息抽取方法 | |
Singh et al. | Deep Learning based Abstractive Summarization for English Language. | |
CN117556789A (zh) | 基于多层次语义挖掘的学生评语生成方法 | |
CN117454898A (zh) | 一种根据输入文本实现法人实体标准化输出的方法及装置 | |
CN116611428A (zh) | 基于编辑对齐算法的非自回归解码越南语文本正则化方法 | |
CN114818711B (zh) | 基于神经网络的多信息融合命名实体识别方法 | |
CN114880994B (zh) | 一种直白文本到反讽文本的文本风格转换方法及装置 | |
CN116521857A (zh) | 基于图形增强的问题驱动抽象式多文本答案摘要方法与装置 | |
CN115759102A (zh) | 一种中国诗酒文化命名实体识别方法 | |
CN115952284A (zh) | 一种融合密度聚类与ernie的医疗文本关系抽取方法 | |
CN115630140A (zh) | 一种基于文本特征融合的英语阅读材料难度判断的方法 | |
CN112287072A (zh) | 一种多维互联网文本风险数据识别方法 | |
CN116720502B (zh) | 基于机器阅读理解与模板规则的航空文档信息抽取方法 | |
Garkal et al. | HMER-Image to LaTeX: A Variational Dropout Approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |