CN113033188A

CN113033188A - 一种基于神经网络的藏文语法纠错方法

Info

Publication number: CN113033188A
Application number: CN202110293441.5A
Authority: CN
Inventors: 华果才让
Original assignee: Individual
Current assignee: Individual
Priority date: 2021-03-19
Filing date: 2021-03-19
Publication date: 2021-06-25
Anticipated expiration: 2041-03-19
Also published as: CN113033188B

Abstract

本发明公开了一种基于神经网络的藏文语法纠错方法，获取待纠错样本，并对所述待纠错样本进行切词和语义判断，并构建对应的纠错词集；基于所述纠错词集，按照设定的取样方式对切词得到的纠错藏文进行修改；基于获取的神经网络，在所述神经网络的输出层后添加一个自注意力机制层，得到改进的神经网络；基于大数据网络，获取多个训练集和测试集，并利用所述训练集和所述测试集对所述改进的神经网络进行训练和测试，直至满足要求；将修改得到的修改藏文输入改进的神经网络中，并输出对应的损失值；将当前所述损失值与所述待纠错样本对应的样本损失值进行比较，得到满足要求的纠错文本，能够快速的对藏文进行纠错。

Description

一种基于神经网络的藏文语法纠错方法

技术领域

本发明涉及语言处理技术领域，尤其涉及一种基于神经网络的藏文语法纠错方法。

背景技术

目前虽然存在很多种语法纠错方法，但是大多是针对语种使用较为广泛的汉语、英语等通用语种的语法纠错方法，但是在藏文上，相关的语法纠错方法仍较为稀缺。

发明内容

本发明的目的在于提供一种基于神经网络的藏文语法纠错方法，能够快速的对藏文语法进行纠错。

为实现上述目的，本发明提供了一种基于神经网络的藏文语法纠错方法，包括以下步骤：

获取待纠错样本，并对所述待纠错样本进行切词和语义判断，并构建对应的纠错词集；

基于所述纠错词集，按照设定的取样方式对切词得到的纠错藏文进行修改；

将修改得到的修改藏文输入改进的神经网络中，并输出对应的损失值；

将当前所述损失值与所述待纠错样本对应的样本损失值进行比较，得到满足要求的纠错文本。

其中，将修改后的所述纠错藏文输入改进的神经网络中，并输出对应的损失值之前，所述方法还包括：

基于获取的神经网络，在所述神经网络的输出层后添加一个自注意力机制层，得到改进的神经网络；

基于大数据网络，获取多个训练集和测试集，并利用所述训练集和所述测试集对所述改进的神经网络进行训练和测试，直至满足要求。

其中，获取待纠错样本，并对所述待纠错样本进行切词和语义判断，并构建对应的纠错词集，包括：

利用爬虫技术获取待纠错样本，并基于设定的切词规则对所述待纠错样本进行切词，得到多个纠错藏文；

基于评判准则对得到的多个所述纠错样本进行语义判断和错别字判断，并基于判断结果，构建对应的语义纠错词集和错别字纠错词集，其中，所述评判准则为基于词库、《三十颂》和《字性组织法》。

其中，基于所述纠错词集，按照设定的取样方式对切词得到的纠错藏文进行修改，包括：

基于所述错别字纠错词集，将符合要求的对应的藏文替换字符对所述纠错藏文进行替换；

基于所述语义纠错词集，按照随机抽取不放回的形式，利用所述语义纠错词集中的语义纠错样本对所述纠错样本进行修改。

其中，基于所述错别字纠错词集，将符合要求的对应的藏文替换字符对所述纠错藏文进行替换之后，所述方法还包括：

对进行错别字替换后的所述纠错藏文再次进行语义判断，若不满足所述评判准则，则对所述纠错藏文进行修改，若满足所述评判准则，则完成纠错。

其中，将修改得到的修改藏文输入改进的神经网络中，并输出对应的损失值，包括：

将修改得到的修改藏文的每一个字符位置进行编码，并将编码后的所述修改藏文输入所述改进的神经网络中，并利用所述自注意力机制对所述修改藏文的每一个字符进行检测；

基于设定的损失函数公式计算出每一个所述修改藏文对应的损失值。

本发明的一种基于神经网络的藏文语法纠错方法，获取待纠错样本，并对所述待纠错样本进行切词和语义判断，并构建对应的纠错词集；基于所述纠错词集，按照设定的取样方式对切词得到的纠错藏文进行修改；基于获取的神经网络，在所述神经网络的输出层后添加一个自注意力机制层，得到改进的神经网络；基于大数据网络，获取多个训练集和测试集，并利用所述训练集和所述测试集对所述改进的神经网络进行训练和测试，直至满足要求；将修改得到的修改藏文输入改进的神经网络中，并输出对应的损失值；将当前所述损失值与所述待纠错样本对应的样本损失值进行比较，得到满足要求的纠错文本，能够快速的对藏文进行纠错。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的一种基于神经网络的藏文语法纠错方法的步骤示意图。

图2是本发明提供的藏文组成示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

请参阅图1，本发明提供一种基于神经网络的藏文语法纠错方法，包括以下步骤：

S101、获取待纠错样本，并对所述待纠错样本进行切词和语义判断，并构建对应的纠错词集。

具体的，利用现有的爬虫技术从网络上获取待纠错样本，也可以将纸质版文本进行扫描，将扫描得到的电子文档传输至上位机中，然后利用所述爬虫技术获取对应的所述待纠错样本。然后，基于设定的切词规则对所述待纠错样本进行切词，得到多个纠错藏文；其中，设定的所述切词规则是根据藏文的拼写格式设定，根据所述待纠错样本中的音节区分符号，进行音节的区分，根据所述待纠错样本中的词尾符号，进行词尾断句，因此，在进行切词之前，需要对所述待纠错样本进行特征提取，并根据提取出来的两种特征，分别对分别音节区分符号和词尾符号进行标记，其中，所述音节区分符号为：“.”；所述词尾符号为：“|”。

如图2所示的一个典型的藏文音节，由基字、下加字、上加字、前加字、元音、第一后加字和第二后加字组成，藏文每个音节会有一个基字，基字是拼读的基础。音节中带附标(元音符号或上下加字)的字母是基字；无带附标字母时，双字母音节前字母是基字；四字母时第二个字母是基字；三字母音节通常中间字母是基字。因此，在判断是否是错别字时，这几部分是检测关键和基础。

基于评判准则对得到的多个所述纠错样本进行语义判断和错别字判断，并基于判断结果，构建对应的语义纠错词集和错别字纠错词集，其中，所述评判准则为基于词库、《三十颂》和《字性组织法》，上部语法《三十颂》有8个格，这8个格主要解决一个问题，就是一个句子是如何形成的，语法的作用和逻辑是怎样的，下部语法《字性组织法》主要讲字性、句子结构以及动词的时态变化。藏文的字性跟藏语的发音有着密切的关系，字性决定文字发音，藏文的字性有7种，分别是：阳性字、阴性字、中性字、准阴性字、极阴性字、纯阴性字、无性字。

具体的判断方法为：首先，利用所述评判准则区分是因为错别字还是词汇错误导致的语义错误，具体的评判准则则是根据对应的词库、《三十颂》和《字性组织法》进行判断，其中，所述词库为基于大数据下构建的所有的藏文词汇，并将同义词等具有关联的词汇进行分类或者建立拓扑关系，首先，利用所述词库判断所述纠错样本中的每一个藏文字符是否符合要求，若出现错别字，则基于所述错别字，从所述词库中挑选形相近、义相近以及音相近的词汇，得到对应的错别字纠错词集；若没有错别字，则利用《三十颂》和《字性组织法》对所述纠错样本进行语义判断，并对不满足语义要求的词汇进行标注，然后，将标注的词汇作为特征点，在所述词库中选择出满足阈值要求的所有词汇，并构建对应的语义纠错词集，具体方法为：

若没有错别字，则利用《三十颂》和《字性组织法》对所述纠错样本进行语义判断，并对不满足语义要求的词汇进行标注，将标注的词汇作为特征点，基于音、形和语义三个方面，将所述词库中的所有词汇与标注词汇进行相似度计算，将任一个相似度满足设定的所述阈值的对应的词汇，归纳至构建的所述语义纠错词集中，从两方面进行检查，增加了对藏文的识别效率，并且还构建了对应的词集，减少后续纠错时替换词汇选择的时间，提高效率，便于实现快速的语义纠错。

S102、基于所述纠错词集，按照设定的取样方式对切词得到的纠错藏文进行修改。

具体的，基于所述错别字纠错词集，将符合要求的对应的藏文替换字符对所述纠错藏文进行替换，具体的替换流程为，基于当前所述纠错藏文的语义信息及对应的字符规范，利用所述错别字纠错词集中的对应的藏文替换字符对所述纠错藏文中的错别字进行整体替换，并且在替换后，须对进行错别字替换后的所述纠错藏文再次进行语义判断，若不满足所述评判准则，则对所述纠错藏文进行修改，若满足所述评判准则，则完成纠错。

基于所述语义纠错词集，按照随机抽取不放回的形式，利用所述语义纠错词集中的语义纠错样本对所述纠错样本进行修改，具体为：

当不满足所述评判准则时，按照随机抽取不放回的形式抽取所述语义纠错词集中的多个语义纠错样本，利用所述语义纠错样本将对应的字符进行修改和替换，可以得到多个修改后的修改藏文。

S103、将修改得到的修改藏文输入改进的神经网络中，并输出对应的损失值。

具体的，首先，基于获取的神经网络，在所述神经网络的输出层后添加一个自注意力机制层，得到改进的神经网络；可以采用LSTM神经网络作为基础架构，在所述LSTM神经网络的输出层后或者全连接层后，输出层之前，增加一个自注意力机制层，对所述LSTM神经网络进行改进；利用所述自注意力机制的性能，对每一个所述修改藏文中的每一个字符进行检测。

然后，基于大数据网络，获取多个训练集和测试集，并利用所述训练集和所述测试集对所述改进的神经网络进行训练和测试，直至满足要求，满足的要求为输出的数据符合所述训练集和所述测试集的原始数据或者偏离较小。

接着，将修改得到的修改藏文的每一个字符位置进行编码，编码的目的是便于在输出结果时，能够快速准确的找到对应的字符，可以根据每一个字符所处的位置，基于位置顺序依次进行数字编号，或者采用其他的符号进行编码，然后，将编码后的所述修改藏文输入所述改进的神经网络中，并利用所述自注意力机制对所述修改藏文的每一个字符进行检测；并在监测完成后，基于设定的损失函数公式计算出每一个所述修改藏文对应的损失值，其中，所述损失函数公式为：

其中，V表示所有词构建的所述词库，w表示词库V中的词。y＝1表示正常样本，x表示正确的藏文字符，y＝0表示不符合所述评判准则的样本，及纠错藏文，

表示生成的第k个修改藏文中的字符。

S104、将当前所述损失值与所述待纠错样本对应的样本损失值进行比较，得到满足要求的纠错文本。

具体的，在将所述修改藏文全部计算完成后，将所述待纠错样本输入搜索改进的神经网络中，得到对应的样本损失值，然后，将当前所述损失值与所述待纠错样本对应的样本损失值进行比较，若当前所述损失值小于所述样本损失值，则表明所述损失值对应的所述修改藏文为满足要求的纠错文本，并利用所述修改藏文对所述纠错藏文进行整体替换，直至所有的所述待纠错样本中的所述纠错藏文全部替换完成，完成藏文语法纠错，由于事先识别出了错别字等情况，减少了后续的设计网络识别时间，并且构建了对应的纠错词集来减少语法修改时间，提高了对藏文语义的纠错速度。

以上所揭露的仅为本发明一种较佳实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种基于神经网络的藏文语法纠错方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于神经网络的藏文语法纠错方法，其特征在于，将修改后的所述纠错藏文输入改进的神经网络中，并输出对应的损失值之前，所述方法还包括：

3.如权利要求1所述的基于神经网络的藏文语法纠错方法，其特征在于，获取待纠错样本，并对所述待纠错样本进行切词和语义判断，并构建对应的纠错词集，包括：

4.如权利要求3所述的基于神经网络的藏文语法纠错方法，其特征在于，基于所述纠错词集，按照设定的取样方式对切词得到的纠错藏文进行修改，包括：

5.如权利要求4所述的基于神经网络的藏文语法纠错方法，其特征在于，基于所述错别字纠错词集，将符合要求的对应的藏文替换字符对所述纠错藏文进行替换之后，所述方法还包括：

6.如权利要求2所述的基于神经网络的藏文语法纠错方法，其特征在于，将修改得到的修改藏文输入改进的神经网络中，并输出对应的损失值，包括：