CN111428509B

CN111428509B - 一种基于拉丁字母的维吾尔语处理方法和系统

Info

Publication number: CN111428509B
Application number: CN202010147929.2A
Authority: CN
Inventors: 钱泓锦; 黄真; 窦志成; 刘占亮
Original assignee: Beijing Yilanqunzhi Data Technology Co ltd
Current assignee: Beijing Yilanqunzhi Data Technology Co ltd
Priority date: 2020-03-05
Filing date: 2020-03-05
Publication date: 2020-12-22
Anticipated expiration: 2040-03-05
Also published as: CN111428509A

Abstract

本发明提供了一种基于拉丁字母的维吾尔语处理方法和系统，解决现有语言模型训练缺乏有效数据样本无法形成维吾尔词汇特征准确表达的技术问题。方法包括：建立维吾尔语料的字母索引，根据所述字母索引形成所述维吾尔语料的基本向量，利用所述基本向量形成维吾尔语的语句训练集；通过所述语句训练集对循环神经网络进行训练形成维吾尔语句模型；根据所述维吾尔语句模型获取维吾尔词汇的语义隐性特征向量形成词向量。有利于形成与实际语义处理任务相适应的向量维度空间，为具体语义处理任务提供良好的样本衡量基础。避免了现有循环神经网络结构针对单词级别的维吾尔隐性相关性缺乏有效识别的严重缺陷。

Description

一种基于拉丁字母的维吾尔语处理方法和系统

技术领域

本发明涉及自然语言识别技术领域，具体涉及一种基于拉丁字母的维吾尔语处理方法和系统。

背景技术

现有技术中，通常采用训练语言模型对人类自然语言进行语义处理，良好的语言模型对自然语言的处理精度能有大幅提升。使用bytes-pair-encoding算法会出现形成的语料字典存在技术性低词频缺失。使用Word2Vec算法为每个单词生成了一个指定维度的静态词向量，通过维度的丰富性体现每个单词的隐含特征，但受词库容量影响易出现OOV(Out-of-vocabulary)问题。这类模型促进了自然语言语义处理任务的发展，但缺点是忽略单词上下文和无法处理单词的歧义。目前较通用的训练语言模型利用预设基础向量的大量语料对循环神经网络例如LSTM(Long-Short Term Memory，长短期记忆人工神经网络)结构进行训练形成语言模型，而后为每一个单词根据前后文生成隐性词向量。并利用训练好的语言模型生成包含隐性单词含义间张量的词向量。

采用上述语言模型进行维吾尔语料训练存在明显系统性缺陷，由于维吾尔语属于黏着语，语义的细微变化会表现在书写形式的变化上，而维吾尔语词汇的字母组成会根据实际的语境表达差别产生书写形式差别，例如维吾尔语的32个独立字母会产生126种适应语境的独立书写方式，这就导致语义相同的语句在不同语境下书写形式会产生巨大差别。因此

印欧语系表音语料训练形成的语言模型不能适应阿尔泰语系表音语言的语义表达，无法形成有效的隐性关联特征向量(字词向量)以体现维吾尔语义的正确内涵关联。

发明内容

鉴于上述问题，本发明实施例提供一种基于拉丁字母的维吾尔语处理方法和系统，解决现有语言模型训练缺乏有效数据样本无法形成维吾尔词汇特征准确表达的技术问题。

本发明实施例的基于拉丁字母的维吾尔语处理方法，包括：

建立维吾尔语料的字母索引，根据所述字母索引形成所述维吾尔语料的基本向量，利用所述基本向量形成维吾尔语的语句训练集；

通过所述语句训练集对循环神经网络进行训练形成维吾尔语句模型；

根据所述维吾尔语句模型获取维吾尔词汇的语义隐性特征向量形成词向量。

本发明一实施例中，还包括：

结合维吾尔词汇的所述语义隐性特征向量和所述基本向量形成所述维吾尔词汇的词向量。

本发明一实施例中，所述所述建立维吾尔语料的字母索引，根据所述字母索引形成所述维吾尔语料的基本向量，利用所述基本向量形成维吾尔语的语句训练集包括：

确定维吾尔语独立字母的对应拉丁字母形成独立编码序列；

确定所述维吾尔语独立字母在各语境下书写形式的形式编码序列；

根据所述形式编码序列和所述独立编码序列形成所述维吾尔语料中单词的字母表达编码；

根据所述字母表达编码形成所述维吾尔语料中单词的基本向量；

利用所述单词的基本向量形成所述维吾尔语料的基本向量。

本发明一实施例中，通过所述语句训练集对循环神经网络进行训练形成维吾尔语句模型包括：

在所述维吾尔语句模型中建立至少一层双向循环神经网络结构；

形成输入数据在所述循环神经网络结构的前向传播迭代和后向传播迭代；

在满足所述循环神经网络结构的预设迭代计数或满足输出结果概率分布范围时停止模型训练，保存所述维吾尔语句模型的优化参数集合。

本发明一实施例中，所述根据所述维吾尔语句模型获取维吾尔词汇的语义隐性特征向量形成词向量包括：

将维吾尔文本的基本向量序列输入所述维吾尔语句模型；

所述维吾尔语句模型输出每一个维吾尔字符的上下文相关性的前向语义隐性特征向量和所述每一个维吾尔字符的上下文相关性的后向语义隐性特征向量；

连接所述前向语义隐性特征向量和所述后向语义隐性特征向量形成所述维吾尔字符的语义隐性特征向量作为所述词向量。

本发明实施例的基于拉丁字母的维吾尔语处理系统，包括：

存储器，用于存储上述基于拉丁字母的维吾尔语处理方法中处理步骤对应的程序代码；

处理器，用于执行所述程序代码。

本发明实施例的基于拉丁字母的维吾尔语处理系统，包括：

训练集建立装置，用于建立维吾尔语料的字母索引，根据所述字母索引形成所述维吾尔语料的基本向量，利用所述基本向量形成维吾尔语的语句训练集；

模型训练装置，用于通过所述语句训练集对循环神经网络进行训练形成维吾尔语句模型；

特征提取装置，用于根据所述维吾尔语句模型获取维吾尔词汇的语义隐性特征向量形成词向量。

本发明一实施例中，还包括：

特征增强装置，用于结合维吾尔词汇的所述语义隐性特征向量和所述基本向量形成所述维吾尔词汇的词向量。

本发明实施例的基于拉丁字母的维吾尔语处理方法针对维吾尔的潜在语义内涵利用语言形成的书写结构的映射逻辑建立基本维度向量，利用维吾尔语句的语境多样性训练循环神经网络获得词语在复杂维度隐含语义特征及语义相关性特征中适当向量表达的确定循环神经网络(即维吾尔语句模型)的结构参数。进一步，利用形成的维吾尔语句模型有效处理维吾尔词汇形成对应隐性上下文维度的向量表达。有利于形成与实际语义处理任务相适应的向量维度空间，为具体语义处理任务提供良好的样本衡量基础。避免了现有循环神经网络结构针对字符级别的维吾尔隐性相关性缺乏有效识别的严重缺陷。

附图说明

图1所示为本发明一实施例基于拉丁字母的维吾尔语处理方法的流程示意图。

图2所示为本发明一实施例基于拉丁字母的维吾尔语处理方法中形成语句训练集的方法流程示意图。

图3所示为本发明一实施例基于拉丁字母的维吾尔语处理方法中进行训练的方法流程示意图。

图4所示为本发明一实施例基于拉丁字母的维吾尔语处理方法中获取维吾尔词汇的语义隐性特征向量的方法流程示意图。

图5所示为本发明一实施例基于拉丁字母的维吾尔语处理系统的架构示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚、明白，以下结合附图及具体实施方式对本发明作进一步说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明一实施例基于拉丁字母的维吾尔语处理方法如图1所示。在图1中，本实施例包括：

步骤100：建立维吾尔语料的字母索引，根据字母索引形成维吾尔语料的基本向量，利用基本向量形成维吾尔语的语句训练集。

维吾尔语料采用维吾尔词汇作为语料元素。本领域技术人员可以理解，维吾尔语料需要通过适当的文本数据清洗获得，文本数据清洗包括但不限于分词和断句，还包括标点符号全半角、表情符号、停用词的清洗等。分词可以基于字符串的、基于统计的处理过程。维吾尔语出版物、维吾尔语料来源首选辞典和维吾尔语维基百科数据，辞典来源具有分词度量优先权。

本领域技术人员可以理解，维吾尔语包括拉丁字母、阿拉伯字母和西里尔字母的书写形式，维吾尔语中的独立字母可以形成词汇的字母索引要素。独立字母的书写形式反映了词汇的语境特征，而词汇书写形式特征反映了形成维吾尔语词汇过程中的语义内涵，。

本技术方案发现词汇的独立字母编码序列-词汇的书写形式编码索引-词汇语境特征-语义内涵之间具有明确的抽象量化过程。本领域技术人员可以理解，利用编码序列可以形成词汇的向量值序列，对于词汇尺度差异可以采用向量矩阵进行必要的标准化。同时，可以对个别维吾尔语料的特殊属性分配固定向量值。维吾尔语料的差异性向量矩阵集合形成语句训练集。利用拉丁字母例如英文字母都可以首先采用标准编码形式，例如ASCII(American Standard Code for Information Interchange，美国信息交换标准代码)码进行编码，并将编码作向量矩阵处理。对编码中采用的特殊字母可以采用扩展编码，例如土耳其字母、常见标点符号和数字等可以分配固定编码。

步骤200：通过语句训练集对循环神经网络进行训练形成维吾尔语句模型。

利用语句训练集中的海量维吾尔语料序列对循环神经网络进行训练，通过循环神经网络的迭代训练获得循环神经网络针对维吾尔语句的优化参数，形成映射广泛维吾尔语料隐性关联属性的循环神经网络结构，使得各语境的词汇在维吾尔语句模型中获得丰富的上下文相关特征。

步骤300：根据维吾尔语句模型获取维吾尔词汇的语义隐性特征向量形成词向量。

本领域技术人员可以理解，维吾尔词汇的基本向量作为维吾尔语句模型输入，通过维吾尔语句模型获得维吾尔词汇在相关上下文的所有隐性特征的维度向量。

如图1所示，在本发明一实施例中，还包括：

步骤400：结合维吾尔词汇的语义隐性特征向量和基本向量形成维吾尔词汇的词向量。

本发明实施例的基于拉丁字母的维吾尔语处理方法获得的语义隐性特征向量和基本向量分别反映了维吾尔词汇宏观语义维度和微观语义维度，经有效权重拟合可以形成各维吾尔词汇在不同语义任务时的良好向量维度范围。

在本发明一实施例中，可以利用语义隐性特征向量和基本向量形成的向量矩阵进行克罗内克积运算，获得两个矩阵的张量积，以展现在确定语境下的维吾尔词汇的特定上下文语义隐性特征，这一点对古维吾尔语尤为重要。古维吾尔语包含突厥文，隐性语义更会存在语义歧义。

本发明实施例的基于拉丁字母的维吾尔语处理方法通过隐性向量表达和基本向量表达的加权拟合，形成与实际语义处理任务相适应的向量维度空间，为具体语义处理任务提供良好的样本衡量基础。避免了现有循环神经网络结构针对字符级别的维吾尔隐性相关性缺乏有效识别的严重缺陷。

本发明一实施例基于拉丁字母的维吾尔语处理方法中形成语句训练集如图2所示。在图2中，语句训练集的形成包括：

步骤110：确定维吾尔语独立字母的对应拉丁字母形成独立编码序列。

本领域技术人员可以理解，至少存在一种独立字母与拉丁字母对应转化关系。在本发明中针对独立字母可以采用下表中的对应关系：

拉丁字母包括小写的部分英语字母和特殊字母(利用土耳其语字母)，独立字母中的小写英语字母和数字采用六位编码，特殊字母、标点符号和维吾尔语料中的特定注记符号采用ASCII编码范围内其他字符的码序，替换其他字符。对于维吾尔语料中额外的外来词汇采用特定的编码码序作为NULL占位符号。

步骤120：确定维吾尔语独立字母在各语境下书写形式的形式编码序列。

维吾尔语独立字母可以存在与语境相关的四种书写形式，包括前缀时、后缀时、单词中元音连接时和终止时。采用两位二进制编码可以形成形式编码码序

步骤130：根据形式编码序列和独立编码序列形成维吾尔语料中单词的字母表达编码。

语料中的单词中的每个字母由低位的六位独立编码和一个确定的高位的两位编码连接形成八位编码序列。

利用高位编码的变化可以将维吾尔语独立字母的语境下书写形式产生较大的编码差异，提高书写形式的量化差异。例如“e”对应的维吾尔字母的编码为000101，在语料中作为单词的后缀时书写状态为10，则当前书写字母的字母表达编码为10000101。

步骤140：根据字母表达编码形成维吾尔语料中单词的基本向量。

本发明一实施例中，利用字母表达编码形成向量表达值，例如“e”的字母表达编码为10000101，对应第三象限(高位10)中，向量长度为5(低位000101)单位二维向量，根据字母在单词中位置确定二维向量起点距原点的单位距离。

本发明一实施例中，将单词中个字母的二维向量叠加形成单词的基本向量。

本发明一实施例中，采用零矩阵填充的方式形成单词的基本向量。例如将单词顺序字母的顺序字母表达编码形成二维向量序列，顺序替换32ⅹ8零矩阵中的行，形成涵盖最大长度词汇的基本向量。

步骤150：利用单词的基本向量形成维吾尔语料的基本向量。

单词的基本向量连接形成矩阵序列形成确定维吾尔语料的基本向量。

本发明实施例基于拉丁字母的维吾尔语处理方法将维吾尔字符的字形结构特征通过字母索引形成维吾尔语料的基本向量，字母索引采用表征维吾尔语义的书写结构特征描述形成，利用字母索引完成维吾尔语义的隐性映射。字母索引的固定长度优化为字母索引的向量矩阵化为和矩阵运算提供了便利性，进而形成的维吾尔语料有利于实现关联时序反馈因素的并行处理。

本发明一实施例基于拉丁字母的维吾尔语处理方法中进行训练如图3所示。在图3中，进行训练的过程包括：

步骤210：在维吾尔语句模型中建立至少一层双向循环神经网络结构。

本领域技术人员可以理解，维吾尔语句模型可以采用英语语料的语句模型网络结构，包括顺序设置的：

输入层，用于输入完成分词和基本向量化的语句；

嵌入层，用于将语句中的每一个词映射成固定长度的向量；

至少一层双向循环神经网络层，用于对词向量的前向和后向传播计算，得到更高维度的语句向量；

输出层，用于输出语句的各维度的向量分布概率。

本发明实施例基于拉丁字母的维吾尔语处理方法利用现有的双向LSTM模型形成维吾尔语句模型可以有效减少模型重构难度。

步骤220：形成输入数据在循环神经网络结构的前向传播迭代和后向传播迭代。

本领域技术人员可以理解，在循环神经网络结构的前向传播算法确定的基础上，通过梯度下降法迭代更新推导反向传播算法。利用最小化交叉熵损失指标优化反向传播算法的传播效果。

步骤230：在满足循环神经网络结构的预设迭代计数或满足输出结果概率分布范围时停止模型训练，保存维吾尔语句模型的优化参数集合。

输入层的数据会经过向前和向后两个方向迭代推算直至输出复合预设概率分布，使得维吾尔语句模型的输入输出形成编码器(Encoder)-解码器(Decoder)结构，实现Encoder将字符编码为上下文隐藏状态的向量概率分布，Decoder将隐藏状态的确定向量概率分布转化为字符数量长度的张量，解码生成对应字符。

本发明实施例基于拉丁字母的维吾尔语处理方法利用循环神经网络结构进行输入数据的双向传播迭代获得语句前后文的隐含状态的向量概率分布输出，使得维吾尔语句模型的优化参数集合高度匹配训练集维吾尔语句中中远端信息间的隐性特征的向量概率分布，使得维吾尔语句模型能够更多地输出词语的上下文隐性特征的向量概率分布。

本发明一实施例基于拉丁字母的维吾尔语处理方法中获取维吾尔词汇的语义隐性特征向量如图4所示。在图4中，获取语义隐性特征向量的过程包括：

步骤310：将维吾尔文本的基本向量序列输入维吾尔语句模型。

如上述实施例中描述的维吾尔文本的基本向量序列包括每一个维吾尔字符的字形结构的基本向量的矩阵表达。维吾尔语句模型的输入层形成基本向量序列的并行输入。

步骤320：维吾尔语句模型输出每一个维吾尔字符的上下文相关性的前向语义隐性特征向量和每一个维吾尔字符的上下文相关性的后向语义隐性特征向量。

具体的，对于维吾尔文本的基本向量序列中的确定维吾尔字符，根据字母索引形成的基本向量可以确定在基本向量序列中的起始位置和终止位置，利用维吾尔语句模型可以获得确定维吾尔字符与后一个维吾尔字符的前向语义隐性特征向量和与前一个维吾尔字符的后向语义隐性特征向量。

步骤330：连接前向语义隐性特征向量和后向语义隐性特征向量形成维吾尔字符的语义隐性特征向量作为词向量。

连接可以采用向量拼接的方式。例如：

维吾尔字符的隐性特征向量H_covert＝[前向语义隐性特征向量H_forward，后向语义隐性特征向量H_backward]。

本发明实施例基于拉丁字母的维吾尔语处理方法利用训练好的维吾尔语句模型对输入文本进行上下文的隐性特征的有效量化，通过双向计算获得每个单词的上文和下文相关性的隐性特征向量表达，使得确定词汇隐性含义表达可以获得丰富准确的向量维度。

本发明一实施例基于拉丁字母的维吾尔语处理方法中形成词向量的过程采用拼接方式形成如下向量矩阵表达：

维吾尔字符的词向量H＝[维吾尔字符的基本向量H_index，维吾尔字符的隐性特征向量H_covert]。

本发明实施例基于拉丁字母的维吾尔语处理方法将维吾尔字符的基本向量作为词向量的加权权重，着重体现词向量中的原始字符内涵，进而使词向量中隐性含义特征中针对维吾尔字符的基本含义的特征维度得到加强，这样有利于对词汇的古文含义的充分显现。

本发明一实施例基于拉丁字母的维吾尔语处理系统，包括：

处理器，用于执行上述基于拉丁字母的维吾尔语处理方法中处理步骤对应的程序代码。

处理器可以采用DSP(Digital Signal Processing)数字信号处理器、FPGA(Field-Programmable Gate Array)现场可编程门阵列、MCU(Microcontroller Unit)系统板、SoC(system on a chip)系统板或包括I/O的PLC(Programmable Logic Controller)最小系统。

本发明一实施例基于拉丁字母的维吾尔语处理系统如图5所示。在图5中，本实施例包括：

训练集建立装置10，用于建立维吾尔语料的字母索引，根据字母索引形成维吾尔语料的基本向量，利用基本向量形成维吾尔的语句训练集；

模型训练装置20，用于通过语句训练集对循环神经网络进行训练形成维吾尔语句模型；

特征提取装置30，用于根据维吾尔语句模型获取维吾尔字符的语义隐性特征向量；

如图5所示，本发明一实施例中，还包括：

特征增强装置40，用于结合维吾尔字符的语义隐性特征向量和基本向量形成维吾尔字符的词向量。

如图5所示，本发明一实施例中，训练集建立装置10包括：

初始编码形成模块11，用于确定维吾尔语独立字母的对应拉丁字母形成独立编码序列；

状态编码形成模块12，用于确定维吾尔语独立字母在各语境下书写形式的形式编码序列；

表达编码形成模块13，用于根据形式编码序列和独立编码序列形成维吾尔语料中单词的字母表达编码；

词向量形成模块14，用于根据字母表达编码形成维吾尔语料中单词的基本向量；

语料向量形成模块15，用于利用单词的基本向量形成维吾尔语料的基本向量。

如图5所示，本发明一实施例中，模型训练装置20包括：

结构设置模块21，用于在维吾尔语句模型中建立至少一层双向循环神经网络结构；

双向训练模块22，用于形成输入数据在循环神经网络结构的前向传播迭代和后向传播迭代；

结构优化模块23，用于在满足循环神经网络结构的预设迭代计数或满足输出结果概率分布范围时停止模型训练，保存维吾尔语句模型的优化参数集合。

如图5所示，本发明一实施例中，特征提取装置30包括：

数据输入模块31，用于将维吾尔文本的基本向量序列输入维吾尔语句模型；

双向特征提取模块32，用于维吾尔语句模型输出每一个维吾尔字符的上下文相关性的前向语义隐性特征向量和每一个维吾尔字符的上下文相关性的后向语义隐性特征向量；

特征连接模块33，用于连接前向语义隐性特征向量和后向语义隐性特征向量形成维吾尔字符的语义隐性特征向量。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于拉丁字母的维吾尔语处理方法，其特征在于，包括：

根据所述维吾尔语句模型获取维吾尔词汇的语义隐性特征向量形成词向量；

所述建立维吾尔语料的字母索引，根据所述字母索引形成所述维吾尔语料的基本向量，利用所述基本向量形成维吾尔语的语句训练集包括：

确定维吾尔语独立字母的对应拉丁字母形成独立编码序列；

利用所述单词的基本向量形成所述维吾尔语料的基本向量。

2.如权利要求1所述的基于拉丁字母的维吾尔语处理方法，其特征在于，还包括：

3.如权利要求1所述的基于拉丁字母的维吾尔语处理方法，其特征在于，通过所述语句训练集对循环神经网络进行训练形成维吾尔语句模型包括：

4.如权利要求3所述的基于拉丁字母的维吾尔语处理方法，其特征在于，所述根据所述维吾尔语句模型获取维吾尔词汇的语义隐性特征向量形成词向量包括：

将维吾尔文本的基本向量序列输入所述维吾尔语句模型；

5.一种基于拉丁字母的维吾尔语处理系统，其特征在于，包括：

存储器，用于存储如权利要求1至4任一所述的基于拉丁字母的维吾尔语处理方法中处理步骤对应的程序代码；

处理器，用于执行所述程序代码。

6.一种基于拉丁字母的维吾尔语处理系统，其特征在于，包括：

特征提取装置，用于根据所述维吾尔语句模型获取维吾尔词汇的语义隐性特征向量形成词向量；

所述训练集建立装置包括：

初始编码形成模块，用于确定维吾尔语独立字母的对应拉丁字母形成独立编码序列；

状态编码形成模块，用于确定所述维吾尔语独立字母在各语境下书写形式的形式编码序列；

表达编码形成模块，用于根据所述形式编码序列和所述独立编码序列形成所述维吾尔语料中单词的字母表达编码；

词向量形成模块，用于根据所述字母表达编码形成所述维吾尔语料中单词的基本向量；

语料向量形成模块，用于利用所述单词的基本向量形成所述维吾尔语料的基本向量。

7.如权利要求6所述的基于拉丁字母的维吾尔语处理系统，其特征在于，还包括：