CN110083824A - 一种基于多模型组合神经网络的老挝语分词方法 - Google Patents

一种基于多模型组合神经网络的老挝语分词方法 Download PDF

Info

Publication number
CN110083824A
CN110083824A CN201910201435.5A CN201910201435A CN110083824A CN 110083824 A CN110083824 A CN 110083824A CN 201910201435 A CN201910201435 A CN 201910201435A CN 110083824 A CN110083824 A CN 110083824A
Authority
CN
China
Prior art keywords
laotian
word
vector
syllable
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910201435.5A
Other languages
English (en)
Inventor
周兰江
谭琪辉
张建安
周枫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN201910201435.5A priority Critical patent/CN110083824A/zh
Publication of CN110083824A publication Critical patent/CN110083824A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于多模型组合神经网络的老挝语分词方法,属于自然语言处理和机器学习技术领域。本发明基于双向长短期记忆(Bi‑LSTM)神经网络结合attention模型和CRF模型,首先在待分词的老挝语料上进行字向量训练;然后引入去噪机制对输入的字嵌入量进行过滤调整;将过滤后的字嵌入向量输入Bi‑LSTM神经网络进行编码并输出音节序列,根据老挝语音节拼写规则将音节序列表示成特征词向量;引入attention模型对Bi‑LSTM网络的输入输出之间的相关性进行重要度计算,获取有效的老挝语词向量特征;最后由CRF层解码输出概率最大的标签序列,使用4词位标注集表达文本的词位信息。利用改进的attention‑Bi‑LSTM‑CRF神经网络建立的老挝语分词模型,可有效对老挝语进行分词。

Description

一种基于多模型组合神经网络的老挝语分词方法
技术领域
本发明涉及一种基于多模型组合神经网络的老挝语分词方法,属于自然语言处理和机器学习技术领域。
背景技术
所谓分词是指将未加工的自然语言文本分割成单词的顺序,分词作为信息处理任务中的一项基础工作,是自动问答、机器翻译、文本校对、摘要生成等任务的前提。在英语中,单词之间以空格作为的自然分隔符,但在老挝语中没有明显的分割标识,它和汉语句子在结构上相似,具有字符连续书写的特点。从深度学习角度来看,分词任务可转化成序列标注任务。序列标注任务指将观察序列中的每个元素在固定标签集合中为之赋予一个指定标签的过。目前,常用的解决序列标记任务的模型有隐马尔可夫模型、条件随机场模型和最大熵模型。然而,这些传统的模型需要使用大量的语言学知识来手工构造特征,因此不具有广泛的适用性。
发明内容
本发明要解决的技术问题是提供一种基于多模型组合神经网络的老挝语分词方法,用于将老挝语句子分割成词语序列,提高分词精度。
本发明采用的技术方案是:一种基于多模型组合神经网络的老挝语分词方法,包括如下步骤:
Step1、将老挝语分词语料预处理后进行数据集划分,随机抽取90%作为训练集,10%数据作为测试集;
Step2、将待分词的老挝语料上进行文本向量化,将文本中的每一个字映射成一个固定长度的短向量,以作为当前字的特征向量表示;
Step3、引入去噪机制对输入的字嵌入量进行过滤调整;
Step4、Bi-LSTM模型对过滤后的字向量片段进行编码并输出具有上下文语义特征的老挝语音节序列;根据老挝语音节拼写规则将音节序列表示成特征词向量;
Step5、引入attention模型对Bi-LSTM网络的输入输出之间的相关性进行重要度计算,获取有效的老挝语词向量特征;
Step6、将词向量特征输入CRF层,经过softmax变换,加入标签转移概率矩阵,选择词性概率分布中概率最大的标签序列作为输出,生成音节的标注标签序列,最后使用4词位标注集得到老挝语句子预测分词结果。
具体地,所述步骤Step2中字向量训练是将字符向量化,向量之间的映射关系反映出字符间的语义相关性,选择字符向量维度为128维,由Word2Vec生成字嵌入向量,对字嵌入向量使用Dropout方法。
具体地,所述步骤Step3中去噪机制实际为一个神经网络层,通过函数kt=ft⊙xt对字嵌入量进行筛选,得到字向量输出kt,其中⊙表示逐点乘积操作,ft定义为ft=f(wfxt+bf),f函数为f(x)=|sin x|,wf表示当前层的权值矩阵,bf表示偏置向量,Step2中的xt作为函数的向量参数,利用固定上下文窗口内的字表示当前字,对固定窗口内的信息进行调整,使得固定窗口内的字嵌入以一定概率出现,减少无效信息向量的出现。
具体地,所述步骤Step4中Bi-LSTM是递归神经网络,通过LSTM网络前向和后向进行传播,将输入序列中每一个点的完整的过去和未来的上下文信息提供给输出层。
具体地,所述步骤Step4中老挝语音节拼写规则是由辅音加声调、辅音与元音相拼、辅音与元音相拼加声调、辅音与元音相拼加死闭音节、辅音与元音相拼加活闭音节以及辅音与元音相拼加活闭音节及加声调的拼写规则构成,通过与老挝语音节拼写规则表比对,将音节序列组成一个一个的特征词向量。
具体地,所述步骤Step5中由所述步骤4中Bi-LSTM的输入字嵌入量与输出特征词向量来作为attention层的输入,首先用矩阵T来计算当前老挝词与输入文本中所有老挝词的相似性,然后根据重要度对每个向量赋予不同权重,其中重要度是指注意力权重系数aij,矩阵T的第i行第j列,最后输出权重语义向量。
具体地,所述步骤Step6中利用CRF模型对应窗口序列内的每个音节,分别输出4类标签概率,并用转移概率矩阵Aij表示各音节标签概率间互相转化的概率,使用softmax函数来对标签概率的得分进行计算,针对每个音节的标签值,利用4词位标注集即{BMES}标注集,分别表示其在老挝词中的开始位置、中间位置、结束位置,单个音节则为一个独立词。
本发明的有益效果是:
1、该基于attention-Bi-LSTM-CRF神经网络模型的老挝语分词方法中,采用Bi-LSTM模型可以通过神经网络结构自动地获取老挝语文本特征,无论从获取速度还是效果上,都比传统深度学习模型优越。双向神经网络对句子进行分词时要好于单向神经网络,双向神经网络可以获得上下文语义的特征。
2、该基于attention-Bi-LSTM-CRF神经网络模型的老挝语分词方法中,能对老挝语语句上下文依赖信息进行建模,同时融合CRF模型考虑了句子字符前后的标签信息,对老挝语句子信息进行了推理,有效提高了分词效果。
3、该基于attention-Bi-LSTM-CRF神经网络模型的老挝语分词方法中,融合去噪机制对字嵌入向量进行过滤,去除无效信息量;引入attention模型以计算Bi-LSTM网络的输入和输出之间相关性的重要性,在获取文本整体特征时,相比其他老挝语分词算法效果更好,泛化能力更强。
附图说明
图1为本发明中的总体流程图;
图2为Bi-LSTM网络结构图和本发明中用于提取老挝语重要特征词向量的attention模型基本结构图;
图3为老挝语音节拼写规则表。
具体实施方式
为了更详细的描述本发明和便于本领域人员的理解,下面结合附图以及实施例对本发明作进一步的说明。
实施例1:如图1-图3所示,一种基于多模型组合神经网络的老挝语分词方法,包括如下步骤:
Step1、将老挝语分词语料预处理后进行数据集划分,将90%作为训练集,10%数据作为测试集;
Step2、将待分词的老挝语料上进行字符向量化,将老挝语句中的每一个字映射成一个固定长度的短向量,以作为当前字的特征向量表示;
Step3、引入去噪机制对输入的字嵌入量进行过滤调整;
Step4、Bi-LSTM模型对过滤后的字向量片段进行编码并输出具有上下文语义特征的老挝语音节序列;根据老挝语音节拼写规则将音节序列表示成特征词向量;
Step5、引入attention模型对Bi-LSTM网络的输入输出之间的相关性进行重要度计算,获取有效的老挝语词向量特征;
Step6、将词向量特征输入CRF层,经过softmax变换,CRF模型加入标签转移概率矩阵,选择词性概率分布中概率最大的标签序列作为输出,生成音节的标注标签序列,最后使用4词位标注集得到老挝语句子预测分词结果。
进一步地,所述步骤Step1中,语料通过老挝语留学生手动标注获取,50000个老挝语词语,将90%作为训练集,10%数据作为测试集,其中测试集数据是不包含任何切分信息的老挝语语料。
进一步地,所述步骤Step2中,使用word2vec模型把测试集数据预先处理成字嵌入向量,t时刻输入字符ct,窗口大小为m,字符序列在字嵌入层分别对应5个维度为d的子向量,每个子向量串联在一起,形成一个长向量其中向量空间H1=m×d。
进一步地,所述步骤Step3中去噪机制实际为一个神经网络层,通过函数kt=ft⊙xt对字嵌入量进行筛选,得到字向量输出kt,其中⊙表示逐点乘积操作,ft定义为ft=f(wfxt+bf),f函数为f(x)=|sinx|,wf表示当前层的权值矩阵,bf表示偏置向量,Step2中的xt作为函数的向量参数,利用固定上下文窗口内的字表示当前字,对固定窗口内的信息进行调整,使得固定窗口内的字嵌入以一定概率出现,减少无效信息向量的出现。在模型训练过程中对字嵌入向量使用Dropout方法以降低错误率,防止过拟合问题。
进一步地,所述步骤Step4中,将Step3中的字向量输出kt作为Bi-LSTM网络的输入,该网络模型已通过训练集语料进行训练,通过Bi-LSTM网络变换后会得到一个输出序列ht,如图2所示。将输出的音节序列与老挝语音节拼写规则表比对将其表示成特征词向量,老挝语音节拼写规则如图3所示。
进一步地,所述步骤Step5中,根据所述步骤4中Bi-LSTM的输入字嵌入量与输出特征词向量来作为attention层的输入,用矩阵T来计算当前目标词与输入文本中所有词的相似性,其中重要度是指注意力权重系数aij(矩阵T的第i行第j列),它表示第i个目标输出与第j个输入的相似性。如图2所示,步骤4中的输出ht与注意力权重系数atj计算得到时间序列ut,然后ut与ht合并通过tanh函数得到et,然后输出更为有效的词向量特征。
进一步地,所述步骤Step6中,利用CRF模型对应窗口序列内的每个音节,分别输出4类标签概率,并用转移概率矩阵Aij表示各音节标签概率间互相转化的概率。使用softmax函数来对标签概率的得分进行计算,针对每个音节的标签值,使用4词位标注集{BMES},得到老挝语句子预测分词结果。
图3为老挝语拼音规则表,因为它是类似汉语拼音规则表一样的,不是单独的词,所以没有对应的中文解释,因此不增加对应的中文译文。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (7)

1.一种基于多模型组合神经网络的老挝语分词方法,其特征在于:包括如下步骤:
Step1、将老挝语分词语料预处理后进行数据集划分,随机抽取90%作为训练集,10%数据作为测试集;
Step2、将待分词的老挝语料上进行文本向量化,将文本中的每一个字映射成一个固定长度的短向量,以作为当前字的特征向量表示;
Step3、引入去噪机制对输入的字嵌入量进行过滤调整;
Step4、Bi-LSTM模型对过滤后的字向量片段进行编码并输出具有上下文语义特征的老挝语音节序列;根据老挝语音节拼写规则将音节序列表示成特征词向量;
Step5、引入attention模型对Bi-LSTM网络的输入输出之间的相关性进行重要度计算,获取有效的老挝语词向量特征;
Step6、将词向量特征输入CRF层,经过softmax变换,加入标签转移概率矩阵,选择词性概率分布中概率最大的标签序列作为输出,生成音节的标注标签序列,最后使用4词位标注集得到老挝语句子预测分词结果。
2.根据权利要求1所述的基于多模型组合神经网络的老挝语分词方法,其特征在于:所述步骤Step2中字向量训练是将字符向量化,向量之间的映射关系反映出字符间的语义相关性,选择字符向量维度为128维,由Word2Vec生成字嵌入向量,对字嵌入向量使用Dropout方法。
3.根据权利要求1所述的基于多模型组合神经网络的老挝语分词方法,其特征在于:所述步骤Step3中去噪机制实际为一个神经网络层,通过函数kt=ft⊙xt对字嵌入量进行筛选,得到字向量输出kt,其中⊙表示逐点乘积操作,ft定义为ft=f(wfxt+bf),f函数为f(x)=|sinx|,wf表示当前层的权值矩阵,bf表示偏置向量,Step2中的xt作为函数的向量参数,利用固定上下文窗口内的字表示当前字,对固定窗口内的信息进行调整,使得固定窗口内的字嵌入以一定概率出现,减少无效信息向量的出现。
4.根据权利要求1所述的基于多模型组合神经网络的老挝语分词方法,其特征在于:所述步骤Step4中Bi-LSTM是递归神经网络,通过LSTM网络前向和后向进行传播,将输入序列中每一个点的完整的过去和未来的上下文信息提供给输出层。
5.根据权利要求1所述的基于多模型组合神经网络的老挝语分词方法,其特征在于:所述步骤Step4中老挝语音节拼写规则是由辅音加声调、辅音与元音相拼、辅音与元音相拼加声调、辅音与元音相拼加死闭音节、辅音与元音相拼加活闭音节以及辅音与元音相拼加活闭音节及加声调的拼写规则构成,通过与老挝语音节拼写规则表比对,将音节序列组成一个一个的特征词向量。
6.根据权利要求1所述的基于多模型组合神经网络的老挝语分词方法,其特征在于:所述步骤Step5中由所述步骤4中Bi-LSTM的输入字嵌入量与输出特征词向量来作为attention层的输入,首先用矩阵T来计算当前老挝词与输入文本中所有老挝词的相似性,然后根据重要度对每个向量赋予不同权重,其中重要度是指注意力权重系数aij,矩阵T的第i行第j列,最后输出权重语义向量。
7.根据权利要求1所述的基于多模型组合神经网络的老挝语分词方法,其特征在于:所述步骤Step6中利用CRF模型对应窗口序列内的每个音节,分别输出4类标签概率,并用转移概率矩阵Aij表示各音节标签概率间互相转化的概率,使用softmax函数来对标签概率的得分进行计算,针对每个音节的标签值,利用4词位标注集即{BMES}标注集,分别表示其在老挝词中的开始位置、中间位置、结束位置,单个音节则为一个独立词。
CN201910201435.5A 2019-03-18 2019-03-18 一种基于多模型组合神经网络的老挝语分词方法 Pending CN110083824A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910201435.5A CN110083824A (zh) 2019-03-18 2019-03-18 一种基于多模型组合神经网络的老挝语分词方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910201435.5A CN110083824A (zh) 2019-03-18 2019-03-18 一种基于多模型组合神经网络的老挝语分词方法

Publications (1)

Publication Number Publication Date
CN110083824A true CN110083824A (zh) 2019-08-02

Family

ID=67412536

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910201435.5A Pending CN110083824A (zh) 2019-03-18 2019-03-18 一种基于多模型组合神经网络的老挝语分词方法

Country Status (1)

Country Link
CN (1) CN110083824A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111079433A (zh) * 2019-11-29 2020-04-28 北京奇艺世纪科技有限公司 一种事件抽取方法、装置及电子设备
CN111291576A (zh) * 2020-03-06 2020-06-16 腾讯科技(深圳)有限公司 神经网络内部表示信息量确定方法、装置、设备、介质
CN111581972A (zh) * 2020-03-27 2020-08-25 平安科技(深圳)有限公司 文本中症状和部位对应关系识别方法、装置、设备及介质
CN112052670A (zh) * 2020-08-28 2020-12-08 丰图科技(深圳)有限公司 地址文本分词方法、装置、计算机设备和存储介质
CN114595687A (zh) * 2021-12-20 2022-06-07 昆明理工大学 基于BiLSTM的老挝语文本正则化方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109255120A (zh) * 2018-07-23 2019-01-22 昆明理工大学 一种老挝语分词方法
CN109299357A (zh) * 2018-08-31 2019-02-01 昆明理工大学 一种老挝语文本主题分类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109255120A (zh) * 2018-07-23 2019-01-22 昆明理工大学 一种老挝语分词方法
CN109299357A (zh) * 2018-08-31 2019-02-01 昆明理工大学 一种老挝语文本主题分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
黄丹丹 等: "融合attention机制的BI-LSTM-CRF中文分词模型", 《软件》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111079433A (zh) * 2019-11-29 2020-04-28 北京奇艺世纪科技有限公司 一种事件抽取方法、装置及电子设备
CN111079433B (zh) * 2019-11-29 2023-10-27 北京奇艺世纪科技有限公司 一种事件抽取方法、装置及电子设备
CN111291576A (zh) * 2020-03-06 2020-06-16 腾讯科技(深圳)有限公司 神经网络内部表示信息量确定方法、装置、设备、介质
CN111291576B (zh) * 2020-03-06 2022-07-01 腾讯科技(深圳)有限公司 神经网络内部表示信息量确定方法、装置、设备、介质
CN111581972A (zh) * 2020-03-27 2020-08-25 平安科技(深圳)有限公司 文本中症状和部位对应关系识别方法、装置、设备及介质
CN112052670A (zh) * 2020-08-28 2020-12-08 丰图科技(深圳)有限公司 地址文本分词方法、装置、计算机设备和存储介质
CN112052670B (zh) * 2020-08-28 2024-04-02 丰图科技(深圳)有限公司 地址文本分词方法、装置、计算机设备和存储介质
CN114595687A (zh) * 2021-12-20 2022-06-07 昆明理工大学 基于BiLSTM的老挝语文本正则化方法
CN114595687B (zh) * 2021-12-20 2024-04-19 昆明理工大学 基于BiLSTM的老挝语文本正则化方法

Similar Documents

Publication Publication Date Title
CN110717334B (zh) 基于bert模型和双通道注意力的文本情感分析方法
CN109522411B (zh) 一种基于神经网络的写作辅助方法
Yao et al. An improved LSTM structure for natural language processing
CN108763284B (zh) 一种基于深度学习和主题模型的问答系统实现方法
CN107357789B (zh) 融合多语编码信息的神经机器翻译方法
CN110083824A (zh) 一种基于多模型组合神经网络的老挝语分词方法
CN109871535A (zh) 一种基于深度神经网络的法语命名实体识别方法
CN108549658B (zh) 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统
CN106980609A (zh) 一种基于词向量表示的条件随机场的命名实体识别方法
CN110083710A (zh) 一种基于循环神经网络与潜变量结构的词语定义生成方法
CN108153864A (zh) 基于神经网络生成文本摘要的方法
Zhang et al. Dense video captioning using graph-based sentence summarization
CN111125333B (zh) 一种基于表示学习与多层覆盖机制的生成式知识问答方法
CN111078866A (zh) 一种基于序列到序列模型的中文文本摘要生成方法
CN114756681B (zh) 一种基于多注意力融合的评教文本细粒度建议挖掘方法
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN113822054A (zh) 基于数据增强的中文语法纠错方法及装置
Wang et al. Self-information loss compensation learning for machine-generated text detection
Szűcs et al. Seq2seq deep learning method for summary generation by lstm with two-way encoder and beam search decoder
CN116432605B (zh) 融入先验知识的作文评语生成方法及装置
Göker et al. Neural text normalization for turkish social media
Wu et al. Image to modern chinese poetry creation via a constrained topic-aware model
Liu et al. Generating Chinese poetry from images via concrete and abstract information
CN112163414B (zh) 一种基于Word2Vec、LSTM和注意力机制的中文歌词生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190802

RJ01 Rejection of invention patent application after publication