CN112487762B

CN112487762B - 一种基于汉字音意结构汉字编码的自然语言处理方法

Info

Publication number: CN112487762B
Application number: CN202011385160.4A
Authority: CN
Inventors: 杜爽
Original assignee: Suzhou Yingte Leizhen Intelligent Technology Co ltd
Current assignee: Suzhou Yingte Leizhen Intelligent Technology Co ltd
Priority date: 2020-12-01
Filing date: 2020-12-01
Publication date: 2024-04-02
Anticipated expiration: 2040-12-01
Also published as: CN112487762A

Abstract

本发明公开了一种基于汉字音意结构汉字编码的自然语言处理方法，包括如下步骤：步骤一，汉字编码的转换以及UTF‑8到新编码转化；步骤二，自然语言处理以及深度学习训练；步骤三，语法器、分类器、语言模型生成。该方法可以降低现有自然语言处理方法的难度，提供一种基于汉字特征的、包含汉字音意结构特征编码的自然分析处理方法，使得自然语言分析技术，从汉字本身出发，进行属性分析，特征提取，减少暴力训练的语料需求量，提高语言模型的训练效率，提升分析结果的准确率。

Description

一种基于汉字音意结构汉字编码的自然语言处理方法

技术领域

本发明涉及人工智能汉字处理技术领域，更具体的说，涉及一种基于汉字音意结构汉字编码的自然语言处理方法。

背景技术

目前，深度学习是一种基于特征学习的机器学习方法，国际国内的自然语言处理技术(NLP)都是通过提取原始数据的数字编码的特征来进行的。

英语是构成每个单词的英文字母编码的罗列，所以编码体现了字母的排列顺序，如：study 7374756479(编码直接反应字母构成)，有助于对单词的特征提取，能够体现英语的词根等特性，从而有助于基于英语单词结构分类的特征提取，模型微调过程可实现快速收敛。

汉语处理基于每个汉字的UTF-8编码进行的，如(图1所示UTF-8编码的规则，偏旁+整个字的笔画，偏旁氵的汉字到火的过度只是单纯的编码+1，无法表现出汉字特征)：灯706F 00E7 81AF(无结构规律)，这种编码是按照(偏旁+整个字的笔画)进行的连续数字编码，该编码无明显语义特征，需要海量的语料数据进行暴力学习训练。这也是为什么很多语言模型欧美体系取得很好效果，汉语效果却不行的原因。

汉字，是中文的记录符号，也在日文、朝鲜文等文字中使用。与英文、俄文、印地文、阿拉伯文等表音的字母文字不同，汉字是典型的意音文字。与拼音文字单词的单音或多音表义不同，汉字一般单字单音表义。

汉字由象形文字(表形文字)演变成兼表音义的意音文字，但总的体系仍属表意文字。所以，汉字具有集形象、声音和辞义三者于一体的特性。本身具有很强的语义信息。这一特性在世界文字中是独一无二的，因此它具有独特的魅力。

如果想让计算机处理汉字信息，尤其是在深度学习对文本的分析中，能够像人学习汉字一样，对汉字的发音、表意、结构进行全面分析，并提取语义特征的话，就需要有效利用中文字符内部的语义信息，形成一种能够暴露汉字的音、意结构属性特征，并特征码对齐的汉字编码方式，这将极大的减小n-gram汉语语言模型训练所需的资源，通过极少的语料，迅速提取汉字间关联性特征，分析文本中汉字与整句构成及语义的关联关系，从而分析出句型的构成。

发明内容

本发明的目的是提供了一种基于汉字音意结构汉字编码的自然语言处理方法，该方法可以降低现有自然语言处理方法的难度，提供一种基于汉字特征的、包含汉字音意结构特征编码的自然分析处理方法，使得自然语言分析技术，从汉字本身出发，进行属性分析，特征提取，减少暴力训练的语料需求量，提高语言模型的训练效率，提升分析结果的准确率。

为了实现上述目的，本发明采用的技术方案如下：

一种基于汉字音意结构汉字编码的自然语言处理方法，其特征在于：包括如下步骤：

步骤一，汉字编码的转换以及UTF-8到新编码转化；

步骤二，自然语言处理以及深度学习训练；

步骤三，语法器、分类器、语言模型生成。

进一步，所述的汉字编码的转换中将汉字编码分为音码和结构码两部分，所述的音码为15位二进制数，所述的结构码为26位二进制数。

进一步，所述的音码包括声母、介母、韵母和声调，其中声母为5位二进制数，介母为2位二进制数，韵母为5位二进制数，声调为3位二进制数。

进一步，所述的结构码包括结构编码和结构部件编码，所述的结构编码为2位二进制数，所述的结构部件编码包括分别为12位二进制数的音旁和意旁。

进一步，所述的音旁和意旁其中一项不存在时，该独体字编码由12位0编码和该独体字的音旁或意旁组成。

与已有技术相比，本发明的有益效果如下：

1.去除字库汉字数限制，由于新的编码完全是串行数字化信息，不管汉字库中存不存在的汉字，都能从音形方面表现出该汉字的特征。对于生僻字、缺损字的特征不依存于字库，可以很好的编码记录。

2.有利于减少语言模型参数集，以往的自然语言处理程序的训练对象是特征不明显的汉字UTF8编码数据，需要大量的语料才能暴力的将以汉字为单元的数据通过大量的语言模型参数运算，提取出特征，对于语料的变更，模型修改量巨大，同时算力需求也巨大，就算是常用汉字4000个，也需要以4000为基数，级数级的汉语词汇分类器来进行信息处理，新编码则在部件及拼音层次对汉字进行了详细编码标注，使得汉字组词及词性判断上的分类模型的分支减少，语言模型的参数集也相应的减少。

3.提高特征提取的有效性及提取效率，基于部件及发音的汉字标注可以让语言模型快速对汉字及汉语词汇进行特征提取，降低语料需求量，提高提取效率，对于二义性汉字，多音字有更加优秀的分类。

4.有助于原始语言模型的简化，特征抽取单元的维度降低，使得生成的语言模型大幅的简化，降低了硬件需求，提高处理速度。

5.基于较少的样本数据也能快速实现特征提取函数的快速收敛，相比较传统的语料数据，新的编码更能体现汉语的原始特征，汉语信息的维度降低，使得较少的样本数据也能快速的被提取出特征，让特征提取函数达到快速收敛效果。

附图说明

图1为UTF-8编码的规则示意图(部分)；

图2为本发明基于汉字音形结构汉字编码的计算机汉字信息处理方法流程图图；

图3为本发明实施例中自然语言处理示意图；

图4为本发明音码和结构码编码表(部分)；

具体实施方式

为了使发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体图示，进一步阐述本发明。

如图2所示，一种基于汉字音意结构汉字编码的自然语言处理方法，包括如下步骤：步骤一，汉字编码的转换以及UTF-8到新编码转化；步骤二，自然语言处理以及深度学习训练；步骤三，语法器、分类器、语言模型生成。

具体的，如图3所示，编码“哪里有卫生间”，将这六个字分别进行音码和结构码编码，得到共六组41位二进制数，其中各部分编码对应表如图4所示，音码中，声母：00001～10111、介母：01～11、韵母：00001～11000、声调：000～100，结构码中，结构编码00～11，分别对应左右(含左中右)、上下(含上中下)、独体和包围；

接着对汉字的UTF-8码与新的编码做编码对照表，在语料进行深度学习自然语言处理训练前将汉字编码由UTF-8码转换成新的编码，再进行语言模型训练；

在自然语言处理的n-gram语言模型处理中，通过词向量，就是词频(TermFrequency)，即某个词语出现的频率，来进行关键词提取，从而确定整个文本的主要语义。中文词汇大概有40多万个，作为一般大学本科生，汉字4千。词汇合计2-3万左右，这是正常水准。这样构建的词向量数据是非常庞大的，对于算力要求巨大，以谷歌的硬件水平也仅仅做到4元gram模型(1万词所有可能的n-gram的个数为10000^4＝10¹⁶个)。

本发明将汉字按照音意分解为两个部件，这样2元以上的模型就能够表现汉字之间的关系，由于部件相对与汉字数量减少，所构成的4元模型的数据数量也大幅降低，从而降低算力要求。其中4元模型公式如下：

例如：“猫跳上椅子”现有计算方法都是在“猫、跳上、椅子“这样的词汇之间计算联合概率，按照新的编码体系，则在计算“犭、苗、足、兆、上、木、奇、子”之间的关系，在抽象过程中，通过算法指向“犭、足、木”的一种近似关系，那么“狗跳上椅子、猪跳过栏子”都会形成相应的关联关系。

利用贝叶斯定理，将上述的条件概率值(一个句子出现的概率都转变为右边条件概率值相乘了)统计出来，公式如下：

即可完成相应的语义分析。

以上显示和描述了本发明的基本原理和主要特征以及本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于汉字音意结构汉字编码的自然语言处理方法，其特征在于：包括如下步骤：

步骤一，在进行深度学习自然语言处理前将语料中的汉字由UTF-8编码转换为汉字音意结构汉字编码；

步骤二，利用汉字音意结构汉字编码后的语料进行语言模型训练；

步骤三，语言模型生成；

所述汉字音意结构汉字编码分为音码和结构码两部分，所述的音码为15位二进制数，所述的结构码为26位二进制数，所述的音码包括声母、介母、韵母和声调，其中声母为5位二进制数，介母为2位二进制数，韵母为5位二进制数，声调为3位二进制数，所述的结构码包括结构编码和结构部件编码，所述的结构编码为2位二进制数，所述的结构部件编码包括分别为12位二进制数的音旁和意旁，所述的音旁和意旁其中一项不存在时，独体字编码由12位0编码和独体字的存在的音旁或意旁对应的12位二进制数组成。