CN111488423A

CN111488423A - 一种基于索引数据的自然语言处理方法和系统

Info

Publication number: CN111488423A
Application number: CN202010147917.XA
Authority: CN
Inventors: 刘占亮; 钱泓锦; 窦志成; 刘家俊
Original assignee: Beijing Yilanqunzhi Data Technology Co ltd
Current assignee: Beijing Yilanqunzhi Data Technology Co ltd
Priority date: 2020-03-05
Filing date: 2020-03-05
Publication date: 2020-08-04
Anticipated expiration: 2040-03-05
Also published as: CN111488423B

Abstract

本发明提供了一种基于索引数据的自然语言处理方法和系统，解决现有语言模型训练缺乏有效数据样本无法形成中文词汇特征准确表达的技术问题。方法包括：建立汉语语料的字形索引，根据字形索引形成汉语语料的基本向量，利用基本向量形成汉语的语句训练集；通过语句训练集对循环神经网络进行训练形成汉语语句模型；根据汉语语句模型获取汉语字符的语义隐性特征向量形成词向量。有利于形成与实际语义处理任务相适应的向量维度空间，为具体语义处理任务提供良好的样本衡量基础。避免了现有循环神经网络结构针对字符级别的汉语隐性相关性缺乏有效识别的严重缺陷。

Description

一种基于索引数据的自然语言处理方法和系统

技术领域

本发明涉及自然语言识别技术领域，具体涉及一种基于索引数据的自然语言处理方法和系统。

背景技术

现有技术中，通常采用训练语言模型对人类自然语言进行语义处理，良好的语言模型对自然语言的处理精度能有大幅提升。早期的语言模型使用TF-IDF算法利用语料词频形成字词的数值形式实现字词的数学量化，缺点是受词库影响易出现OOV(Out-of-vocabulary)问题。随后形成的Word2Vec算法形成基于大规模文本的训练语言模型，为每个单词生成了一个指定维度的静态词向量，通过维度的丰富性体现每个单词的隐含特征，这类模型促进了自然语言语义处理任务的发展，但缺点是忽略单词上下文和无法处理单词的歧义。目前较通用的训练语言模型利用预设基础向量的大量语料对循环神经网络例如LSTM(Long-Short Term Memory，长短期记忆人工神经网络)结构进行语言模型的训练形成语言模型，而后为每一个单词根据前后文生成隐性词向量。更进一步，训练形成双向语言模型，并利用训练好的双向语言模型生成包含双向隐性单词含义间张度的词向量。

采用上述语言模型进行中文语料训练存在明显系统性缺陷，针对印欧语系表音语言的训练形成的语言模型不能适应象形文字语系表意语言的语义表达，无法形成有效的隐性关联特征向量(字词向量)以体现例如中文语义的内涵关联。

发明内容

鉴于上述问题，本发明实施例提供一种基于索引数据的自然语言处理方法和系统，解决现有语言模型训练缺乏有效数据样本无法形成中文词汇特征准确表达的技术问题。

本发明实施例的基于索引数据的自然语言处理方法，包括：

建立汉语语料的字形索引，根据字形索引形成所述汉语语料的基本向量，利用所述基本向量形成汉语的语句训练集；

通过所述语句训练集对循环神经网络进行训练形成汉语语句模型；

根据所述汉语语句模型获取汉语字符的语义隐性特征向量形成词向量。

本发明一实施例中，还包括：

结合汉语所述字符的所述语义隐性特征向量和所述基本向量形成汉语字符的词向量。

本发明一实施例中，所述建立汉语语料的字形索引，根据字形索引形成所述汉语语料的基本向量，利用所述基本向量形成汉语的语句训练集包括：

确定汉字字符的笔划顺序并形成所述汉字字符的初始四角号码；

按所述笔划顺序形成所述汉字字符的顺序减笔划循环，循环次数不超过3次或在最后一次循环中保留一个笔划，在每次循环中形成剩余字形结构的顺序过渡四角号码；

按所述笔划顺序形成所述汉字字符的逆序减笔划循环，循环次数不超过4次或在最后一次循环中保留一个笔划，在每次循环中形成剩余字形结构的逆序过渡四角号码；

将所述顺序过渡四角号码、所述初始四角号码和所述逆序过渡四角号码依次形成所述汉字字符对应的四角号码字形索引；

根据所述四角号码字形索引形成所述汉语语料的基本向量。

本发明一实施例中，所述通过所述语句训练集对循环神经网络进行训练形成汉语语句模型包括：

在所述汉语语句模型中建立至少一层双向循环神经网络结构；

形成输入数据在所述循环神经网络结构的前向传播迭代和后向传播迭代；

在满足所述循环神经网络结构的预设迭代计数或满足输出结果概率分布范围时停止模型训练，保存所述汉语语句模型的优化参数集合。

本发明一实施例中，所述根据所述汉语语句模型获取汉语字符的语义隐性特征向量形成词向量包括：

将中文文本的基本向量序列输入所述汉语语句模型；

所述汉语语句模型输出每一个汉语字符的上下文相关性的前向语义隐性特征向量和所述每一个汉语字符的上下文相关性的后向语义隐性特征向量；

连接所述前向语义隐性特征向量和所述后向语义隐性特征向量形成所述汉语字符的语义隐性特征向量作为所述词向量。

本发明实施例的基于索引数据的自然语言处理系统，包括：

存储器，用于存储上述基于索引数据的自然语言处理方法中处理步骤对应的程序代码；

处理器，用于执行所述程序代码。

本发明实施例的基于索引数据的自然语言处理系统，包括：

训练集建立装置，用于建立汉语语料的字形索引，根据字形索引形成所述汉语语料的基本向量，利用所述基本向量形成汉语的语句训练集；

模型训练装置，用于通过所述语句训练集对循环神经网络进行训练形成汉语语句模型；

特征提取装置，用于根据所述汉语语句模型获取汉语字符的语义隐性特征向量形成词向量。

本发明一实施例中，还包括：

特征增强装置，用于结合汉语所述字符的所述语义隐性特征向量和所述基本向量形成汉语字符的词向量。

本发明实施例的基于索引数据的自然语言处理方法和系统针对汉语的潜在语义内涵利用语言形成的象形结构的映射逻辑建立基本维度向量，利用汉语语句的语境多样性训练循环神经网络获得词语在复杂维度隐含语义特征及语义相关性特征中适当向量表达的确定循环神经网络的结构参数。进一步，利用形成的汉语语句模型有效处理汉语每一字词形成对应隐性上下文维度的向量表达。有利于形成与实际语义处理任务相适应的向量维度空间，为具体语义处理任务提供良好的样本衡量基础。避免了现有循环神经网络结构针对字符级别的汉语隐性相关性缺乏有效识别的严重缺陷。

附图说明

图1所示为本发明一实施例基于索引数据的自然语言处理方法的流程示意图。

图2所示为本发明一实施例基于索引数据的自然语言处理方法中形成语句训练集的方法流程示意图。

图3所示为本发明一实施例基于索引数据的自然语言处理方法中进行训练的方法流程示意图。

图4所示为本发明一实施例基于索引数据的自然语言处理方法中获取汉语字符的语义隐性特征向量的方法流程示意图。

图5所示为本发明一实施例基于索引数据的自然语言处理系统的架构示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚、明白，以下结合附图及具体实施方式对本发明作进一步说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明一实施例基于索引数据的自然语言处理方法如图1所示。在图1中，本实施例包括：

步骤100：建立汉语语料的字形索引，根据字形索引形成汉语语料的基本向量，利用基本向量形成汉语的语句训练集。

汉语语料采用汉语词汇作为语料元素。本领域技术人员可以理解，汉语语料需要通过适当的文本数据清洗获得，文本数据清洗包括但不限于分词和断句，还包括标点符号全半角、表情符号、停用词的清洗等。分词可以基于字符串的、基于统计的处理过程。对于每一汉语语句中的词汇可以包括单字词汇和多字词汇。汉语语料来源首选辞典和中文维基百科数据，辞典来源具有分词度量优先权。

本领域技术人员可以理解，汉字检索可以形成字形索引要素。字形索引反映了汉字字形的结构特征，而汉字字形的结构特征反映了利用象形、指事、形声、会意、转注、假借等造字方法形成汉字过程中的语义内涵，而汉字词汇在单字词汇基础上逐渐形成语义内涵更丰富的双字、多字词汇。根据字形检索方法的差异存在部首检索、五笔字型检索和四角号码检索等字形索引类型。

本技术方案发现编码序列-字形索引-结构特征-语义内涵之间具有明确的抽象量化过程。本领域技术人员可以理解，利用编码序列可以形成单字、双字、多字词汇的向量值序列，对于词汇尺度差异可以采用向量矩阵进行必要的标准化。同时，可以对个别汉语语料的特殊属性分配固定向量值。汉语语料的差异性向量矩阵集合形成语句训练集。例如“春”字的四角号码字形索引为50608，五笔字型字形索引为DWJF，都可以首先采用ASCII(American Standard Code for Information Interchange，美国信息交换标准代码)码进行编码，并将编码作向量矩阵处理。例如英文字母、常见标点符号和数字等可以分配固定向量值。

步骤200：通过语句训练集对循环神经网络进行训练形成汉语语句模型。

利用语句训练集中的海量汉语语料序列对循环神经网络进行训练，通过循环神经网络的迭代训练获得循环神经网络针对汉语语句的优化参数，形成映射广泛汉语语料隐性关联属性的循环神经网络结构，使得各尺度的词汇在汉语语句模型中获得丰富的上下文相关特征。

步骤300：根据汉语语句模型获取汉语字符的语义隐性特征向量形成词向量。

本领域技术人员可以理解，汉语字符是借用英语指代针对汉语单字。以汉语字符的基本向量作为汉语语句模型输入，通过汉语语句模型获得汉语字符在相关上下文的所有隐性特征的维度向量。

本发明实施例的基于索引数据的自然语言处理方法针对汉语的潜在语义内涵利用语言形成的象形结构的映射逻辑建立基本维度向量，利用汉语语句的语境多样性训练循环神经网络获得词语在复杂维度隐含语义特征及语义相关性特征中适当向量表达的确定循环神经网络(即汉语语句模型)的结构参数。进一步，利用形成的汉语语句模型有效处理汉语每一字词形成对应隐性上下文维度的向量表达。通过隐性向量表达和基本向量表达的加权拟合，形成与实际语义处理任务相适应的向量维度空间，为具体语义处理任务提供良好的样本衡量基础。避免了现有循环神经网络结构针对字符级别的汉语隐性相关性缺乏有效识别的严重缺陷。

如图1所示，在本发明一实施例中，还包括：

步骤400：结合汉语字符的语义隐性特征向量和基本向量形成汉语字符的词向量。

语义隐性特征向量和基本向量分别反映了汉语字符宏观语义维度和微观语义维度，经有效权重拟合可以形成各汉语字符在不同语义任务时的良好向量维度范围。

在本发明一实施例中，可以利用语义隐性特征向量和基本向量形成的向量矩阵进行克罗内克积运算，获得两个矩阵的张量积，以展现在确定语境下的汉语字符的特定上下文语义隐性特征，这一点对古汉语的文言文尤为重要。文言文中单字往往为词汇，隐性语义更接近字形特征。

本发明一实施例基于索引数据的自然语言处理方法中形成语句训练集如图2所示。在图2中，语句训练集的形成包括：

步骤110：确定汉字字符的笔划顺序并形成汉字字符的初始四角号码。

汉字字符(即单一汉字)的笔划顺序是形成字形结构特征长期完善过程的阶段性结果。本领域技术人员可以理解，单一汉字存在标准的四角号码编码索引，可以作为初始四角号码，长度为5个数字。

步骤120：按笔划顺序形成汉字字符的顺序减笔划循环，循环次数不超过3次或在最后一次循环中保留一个笔划，在每次循环中形成剩余字形结构的顺序过渡四角号码。

按顺序减笔划循环可以有效剥离字形结构笔划起始位置的局部顺序结构，在每次循环中形成的顺序过渡四角号码体现了字形结构笔划起始位置的局部渐进差异。笔划起始位置的渐进差异从一个结构方向隐性披露了采用的造字方法的造字特征。

步骤130：按笔划顺序形成汉字字符的逆序减笔划循环，循环次数不超过4次或在最后一次循环中保留一个笔划，在每次循环中形成剩余字形结构的逆序过渡四角号码。

按逆序减笔划循环可以有效剥离字形结构笔划终止位置的局部逆序结构，在每次循环中形成的逆序过渡四角号码体现了字形结构笔划终止位置的局部渐进差异。笔划终止位置的渐进差异从另一个结构方向隐性披露了采用的造字方法的造字特征。

步骤140：将顺序过渡四角号码、初始四角号码和逆序过渡四角号码依次形成汉字字符对应的四角号码字形索引。

通过顺序过渡四角号码、初始四角号码和逆序过渡四角号码形成5ⅹ8位十进制数字的四角号码字形索引对应一个确定的汉语字符。

在本发明一实施例中，8组四角号码COD的排列顺序是：

COD_{逆序第三次}COD_{逆序第二次}COD_{逆序第一次}COD_初始COD_{逆序第一次}COD_{逆序第二次}COD_{逆序第三次}COD_{逆序第四次}。循环次数不足的四角号码采用预设四角号码替换。

步骤150：根据四角号码字形索引形成汉语语料的基本向量。

汉语语料有汉语字符组成，汉语字符对应5ⅹ8位十进制数字的四角号码字形索引，每一位十进制数字可以转换为二进制数字，十个二进制数字构成一个五列八行的二进制矩阵，二进制矩阵的序列形成汉语语料的基本向量。

本发明实施例基于索引数据的自然语言处理方法将汉语字符的字形结构特征通过字形索引形成汉语语料的基本向量，字形索引采用表征汉语语义的字形结构特征的完整描述和从字形结构特征的两个相对方向的局部渐变描述形成，利用字形索引完成汉语语义的隐性映射。字形索引的固定长度优化为字形索引的向量矩阵化为和矩阵运算提供了便利性，进而形成的汉语语料有利于实现关联时序反馈因素的并行处理。

本发明一实施例基于索引数据的自然语言处理方法中进行训练如图3所示。在图3中，进行训练的过程包括：

步骤210：在汉语语句模型中建立至少一层双向循环神经网络结构。

本领域技术人员可以理解，汉语语句模型可以采用英语预料的语句模型网络结构，包括顺序设置的：

输入层，用于输入完成分词和基本向量化的语句；

嵌入层，用于将语句中的每一个词映射成固定长度的向量；

至少一层双向循环神经网络层，用于对词向量的前向和后向传播计算，得到更高维度的语句向量；

输出层，用于输出语句的各维度的向量分布概率。

本发明实施例基于索引数据的自然语言处理方法利用现有的双向LSTM模型形成汉语语句模型可以有效减少模型重构难度。

步骤220：形成输入数据在循环神经网络结构的前向传播迭代和后向传播迭代。

本领域技术人员可以理解，在循环神经网络结构的前向传播算法确定的基础上，通过梯度下降法迭代更新推导反向传播算法。利用最小化交叉熵损失指标优化反向传播算法的传播效果。

步骤230：在满足循环神经网络结构的预设迭代计数或满足输出结果概率分布范围时停止模型训练，保存汉语语句模型的优化参数集合。

输入层的数据会经过向前和向后两个方向迭代推算直至输出复合预设概率分布，使得汉语语句模型的输入输出形成编码器(Encoder)-解码器(Decoder)结构，实现Encoder将字符编码为上下文隐藏状态的向量概率分布，Decoder将隐藏状态的确定向量概率分布转化为字符数量长度的张量，解码生成对应字符。

本发明实施例基于索引数据的自然语言处理方法利用循环神经网络结构进行输入数据的双向传播迭代获得语句前后文的隐含状态的向量概率分布输出，使得汉语语句模型的优化参数集合高度匹配训练集汉语语句中中远端信息间的隐性特征的向量概率分布，使得汉语语句模型能够更多地输出词语的上下文隐性特征的向量概率分布。

本发明一实施例基于索引数据的自然语言处理方法中获取汉语字符的语义隐性特征向量如图4所示。在图4中，获取语义隐性特征向量的过程包括：

步骤310：将中文文本的基本向量序列输入汉语语句模型。

如上述实施例中描述的中文文本的基本向量序列包括每一个汉语字符的字形结构的基本向量的矩阵表达。汉语语句模型的输入层形成基本向量序列的并行输入。

步骤320：汉语语句模型输出每一个汉语字符的上下文相关性的前向语义隐性特征向量和每一个汉语字符的上下文相关性的后向语义隐性特征向量。

具体的，对于中文文本的基本向量序列中的确定汉语字符，根据字形索引形成的基本向量可以确定在基本向量序列中的起始位置和终止位置，利用汉语语句模型可以获得确定汉语字符与后一个汉语字符的前向语义隐性特征向量和与前一个汉语字符的后向语义隐性特征向量。

步骤330：连接前向语义隐性特征向量和后向语义隐性特征向量形成汉语字符的语义隐性特征向量作为词向量。

连接可以采用向量拼接的方式。例如：

汉语字符的隐性特征向量H_covert＝[前向语义隐性特征向量H_forward，后向语义隐性特征向量H_backward]。

本发明实施例基于索引数据的自然语言处理方法利用训练好的汉语语句模型对输入文本进行上下文的隐性特征的有效量化，通过双向计算获得每个汉字字符的上文和下文相关性的隐性特征向量表达，使得确定汉字字符隐性含义表达可以获得丰富准确的向量维度。

本发明一实施例基于索引数据的自然语言处理方法中形成词向量的过程采用拼接方式形成如下向量矩阵表达：

汉语字符的词向量H＝[汉语字符的基本向量H_index，汉语字符的隐性特征向量H_covert]。

本发明实施例基于索引数据的自然语言处理方法将汉语字符的基本向量作为词向量的加权权重，着重体现词向量中的原始字符内涵，进而使词向量中隐性含义特征中针对汉语字符的基本含义的特征维度得到加强，这样有利于对单字词汇的古文含义的充分显现。

本发明一实施例基于索引数据的自然语言处理系统，包括：

处理器，用于执行上述基于索引数据的自然语言处理方法中处理步骤对应的程序代码。

处理器可以采用DSP(Digital Signal Processing)数字信号处理器、FPGA(Field-Programmable Gate Array)现场可编程门阵列、MCU(Microcontroller Unit)系统板、SoC(system on a chip)系统板或包括I/O的PLC(Programmable Logic Controller)最小系统。

本发明一实施例基于索引数据的自然语言处理系统如图5所示。在图5中，本实施例包括：

训练集建立装置10，用于建立汉语语料的字形索引，根据字形索引形成汉语语料的基本向量，利用基本向量形成汉语的语句训练集；

模型训练装置20，用于通过语句训练集对循环神经网络进行训练形成汉语语句模型；

特征提取装置30，用于根据汉语语句模型获取汉语字符的语义隐性特征向量；

如图5所示，本发明一实施例中，还包括：

特征增强装置40，用于结合汉语字符的语义隐性特征向量和基本向量形成汉语字符的词向量。

如图5所示，本发明一实施例中，训练集建立装置10包括：

初始索引形成模块11，用于确定汉字字符的笔划顺序并形成汉字字符的初始四角号码；

顺序索引形成模块12，用于按笔划顺序形成汉字字符的顺序减笔划循环，循环次数不超过3次或在最后一次循环中保留一个笔划，在每次循环中形成剩余字形结构的顺序过渡四角号码；

逆序索引形成模块13，用于按笔划顺序形成汉字字符的逆序减笔划循环，循环次数不超过4次或在最后一次循环中保留一个笔划，在每次循环中形成剩余字形结构的逆序过渡四角号码；

索引连接模块14，用于将顺序过渡四角号码、初始四角号码和逆序过渡四角号码依次形成汉字字符对应的四角号码字形索引；

语料向量形成模块15，用于根据四角号码字形索引形成汉语语料的基本向量。

如图5所示，本发明一实施例中，模型训练装置20包括：

结构设置模块21，用于在汉语语句模型中建立至少一层双向循环神经网络结构；

结构设置模块22，用于形成输入数据在循环神经网络结构的前向传播迭代和后向传播迭代；

结构训练模块23，用于在满足循环神经网络结构的预设迭代计数或满足输出结果概率分布范围时停止模型训练，保存汉语语句模型的优化参数集合。

如图5所示，本发明一实施例中，特征提取装置30包括：

数据输入模块31，用于将中文文本的基本向量序列输入汉语语句模型；

双向特征提取模块32，用于汉语语句模型输出每一个汉语字符的上下文相关性的前向语义隐性特征向量和每一个汉语字符的上下文相关性的后向语义隐性特征向量；

特征连接模块33，用于连接前向语义隐性特征向量和后向语义隐性特征向量形成汉语字符的语义隐性特征向量。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于索引数据的自然语言处理方法，其特征在于，包括：

2.如权利要求1所述的基于索引数据的自然语言处理方法，其特征在于，还包括：

3.如权利要求1或2所述的基于索引数据的自然语言处理方法，其特征在于，所述建立汉语语料的字形索引，根据字形索引形成所述汉语语料的基本向量，利用所述基本向量形成汉语的语句训练集包括：

根据所述四角号码字形索引形成所述汉语语料的基本向量。

4.如权利要求3所述的基于索引数据的自然语言处理方法，其特征在于，所述通过所述语句训练集对循环神经网络进行训练形成汉语语句模型包括：

5.如权利要求4所述的基于索引数据的自然语言处理方法，其特征在于，所述根据所述汉语语句模型获取汉语字符的语义隐性特征向量形成词向量包括：

将中文文本的基本向量序列输入所述汉语语句模型；

6.一种基于索引数据的自然语言处理系统，其特征在于，包括：

存储器，用于存储如权利要求1至5任一所述的基于索引数据的自然语言处理方法中处理步骤对应的程序代码；

处理器，用于执行所述程序代码。

7.一种基于索引数据的自然语言处理系统，其特征在于，包括：

8.如权利要求7所述的基于索引数据的自然语言处理系统，其特征在于，还包括：