CN111767717A

CN111767717A - 印尼语的语法纠错方法、装置、设备及存储介质

Info

Publication number: CN111767717A
Application number: CN202010402292.7A
Authority: CN
Inventors: 林楠铠; 蒋盛益
Original assignee: Guangdong University of Foreign Studies
Current assignee: Guangdong University of Foreign Studies
Priority date: 2020-05-13
Filing date: 2020-05-13
Publication date: 2020-10-13
Anticipated expiration: 2040-05-13
Also published as: CN111767717B

Abstract

本发明公开了一种印尼语的语法纠错方法，包括：获取当前印尼语句中目标单词的词性，并根据所述目标单词的词性确定对应印尼语混淆集；其中，所述每一个词性对应设置有一个印尼语混淆集；将所述印尼语混淆集中的单词分别代替所述目标单词组成若干个测试印尼语句；根据预设的语法纠错模型计算所述当前印尼语句以及所述测试印尼语句的损失值；根据损失值修正所述目标单词。本发明实施例还公开了一种印尼语的语法纠错装置、设备及存储介质，有效避免了对大规模训练语料的依赖，即无需大量的训练语句同样可以实现对印尼语的纠错。

Description

印尼语的语法纠错方法、装置、设备及存储介质

技术领域

本发明涉及印度尼西亚语法的技术领域，尤其涉及一种印尼语的语法纠错方法、装置、设备及存储介质。

背景技术

虽然汉语、英语等通用语种的语法纠错方法已较为成熟，但是在印度尼西亚语上，相关的语法纠错方法仍较为稀缺。Haryanto Atmowardoyo[21]采用定性数据分析技术的内容分析描述性研究方法对印度尼西亚语二外学习者的语法错误情况进行分析。除此之外，还有Fahda等人[22]构建了一个包含38个规则的规则匹配器与隐马尔可夫概率模型对印度尼西亚语文本进行拼写错误与语法错误的纠错。在现有技术中很少有印度尼西亚语语法检错纠错相关研究。

发明内容

本发明实施例提供一种印尼语的语法纠错方法、装置、设备及存储介质，能有效避免了对大规模训练语料的依赖，即无需大量的训练语句同样可以实现对印尼语的纠错。

本发明一实施例提供一种印尼语的语法纠错方法，包括：

获取当前印尼语句中目标单词的词性，并根据所述目标单词的词性确定对应印尼语混淆集；其中，所述每一个词性对应设置有一个印尼语混淆集；

将所述印尼语混淆集中的单词分别代替所述目标单词组成若干个测试印尼语句；

根据预设的语法纠错模型计算所述当前印尼语句以及所述测试印尼语句的损失值；

根据损失值修正所述目标单词。

作为上述方案的改进，所述目标单词的词性，具体包括：

冠词、系动词、情态动词、反身代词、指示代词、疑问代词、不定代词、关系代词、介词及连词。

作为上述方案的改进，所述根据预设的语法纠错模型计算所述当前印尼语句以及所述测试印尼语句的损失值，具体包括：

将所述当前印尼语句以及所述测试印尼语句通过embedding层进行编码；

将编码后的前印尼语句以及编码后的测试印尼语句输入至预设的Bi-LSTM模型，计算出所述当前印尼语句以及所述测试印尼语句的损失值。

作为上述方案的改进，所述将编码后的当前印尼语句以及编码后的测试印尼语句输入至预设的Bi-LSTM模型，计算出所述当前印尼语句以及所述测试印尼语句的损失值，具体包括：

将编码后的当前印尼语句分别输入至正向LSTM层以及反向LSTM层，得到编码后的当前印尼语句对应的正向特征信息以及反向特征信息；

将编码后的测试印尼语句分别输入至正向LSTM层以及反向LSTM层，得到编码后的测试印尼语句对应的正向特征信息以及反向特征信息；

分别拼接编码后的当前印尼语句以及编码后的测试印尼语句对应的正向特征信息以及反向特征信息输入至下一层，并在输出层通过预设的损失函数计算所述当前印尼语句以及所述测试印尼语句的损失值。

作为上述方案的改进，所述预设的损失函数为NCE函数：

作为上述方案的改进，所述根据损失值修正所述目标单词，具体包括：

判断是否存在至少一个所述测试印尼语句的损失值小于所述当前印尼语句的损失值；

响应于判断结果为存在至少一个所述测试印尼语句的损失值小于所述当前印尼语句的损失值，则根据最小的测试印尼语句的损失值对应单词修正所述目标单词。

作为上述方案的改进，所述根据损失值修正所述目标单词，还包括：

响应于判断结果为不存在至少一个所述测试印尼语句的损失值小于所述当前印尼语句的损失值，则不对所述目标单词进行修正。

本发明另一实施例对应提供了一种印尼语的语法纠错装置，包括：

获取模块，用于获取当前印尼语句中目标单词的词性，并根据所述目标单词的词性确定对应印尼语混淆集；其中，所述每一个词性对应设置有一个印尼语混淆集；

生成模块，用于将所述印尼语混淆集中的单词分别代替所述目标单词组成若干个测试印尼语句；

计算模块，用于根据预设的语法纠错模型计算所述当前印尼语句以及所述测试印尼语句的损失值；

修正模块，用于根据损失值修正所述目标单词。

本发明另一实施例提供了一种印尼语的语法纠错设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现上述发明实施例所述的印尼语的语法纠错方法。

本发明另一实施例提供了一种存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述发明实施例所述的印尼语的语法纠错方法。

与现有技术相比，本发明实施例公开的印尼语的语法纠错方法、装置、设备及存储介质，通过目标单词的词性确定对应的混淆集，将混淆集中的单词代替目标单词以形成多个印尼语句，分别对当前印尼语句以及代替目标单词以形成多个印尼语句进行损失值计算，从而根据损失值判断是否需要对印尼语进行修正，避免了对大规模训练语料的依赖，即无需大量的训练语句同样可以实现对印尼语的纠错。

附图说明

图1是本发明一实施例提供的一种印尼语的语法纠错方法的流程示意图；

图2是本发明一实施例提供的一种印尼语的语法纠错方法的具体流程示意图；

图3是本发明一实施例提供的一种印尼语的语法纠错装置的结构示意图；

图4是本发明一实施例提供的一种印尼语的语法纠错设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，是本发明一实施例提供的一种印尼语的语法纠错方法的流程示意图。

本发明一实施例提供一种印尼语的语法纠错方法，包括：

S10，获取当前印尼语句中目标单词的词性，并根据所述目标单词的词性确定对应印尼语混淆集。其中，所述每一个词性对应设置有一个印尼语混淆集。

S20，将所述印尼语混淆集中的单词分别代替所述目标单词组成若干个测试印尼语句。

S30，根据预设的语法纠错模型计算所述当前印尼语句以及所述测试印尼语句的损失值。

S40，根据损失值修正所述目标单词。

需要说明的是，所述目标单词的词性包括：冠词、系动词、情态动词、反身代词、指示代词、疑问代词、不定代词、关系代词、介词及连词。

在本实施例中，参见表1，构建了上述各个词性的混淆集。

表1

举例而言，获取当前印尼语句“Netanyahu adalah satu-satunya negarawansejati yang bisa menyatukan semua orang Israel untuk menghadapi tantanganmendatang.”，句子中的系动词“adalah”为目标单词。根据词性是系动词在上述表中可以获取其对应混淆集，即“ialah”、“merupakan”、“menjadi”、“berarti”，将句子中的“adalah”分别替换成“ialah”、“merupakan”、“menjadi”、“berarti”以形成四个新的印尼语句。再将当前印尼语句以及四个新的印尼语句输入至预设的语法纠错模型，并计算其损失值。

综上所述，本发明实施例公开的印尼语的语法纠错方法，通过目标单词的词性确定对应的混淆集，将混淆集中的单词代替目标单词以形成多个印尼语句，分别对当前印尼语句以及代替目标单词以形成多个印尼语句进行损失值计算，从而根据损失值判断是否需要对印尼语进行修正，避免了对大规模训练语料的依赖，即无需大量的训练语句同样可以实现对印尼语的纠错。

参见图2，在上述任一实施例中，优选地，所述根据预设的语法纠错模型计算所述当前印尼语句以及所述测试印尼语句的损失值，步骤S30具体包括：

S301，将所述当前印尼语句以及所述测试印尼语句通过embedding层进行编码。

S302，将编码后的前印尼语句以及编码后的测试印尼语句输入至预设的Bi-LSTM模型，计算出所述当前印尼语句以及所述测试印尼语句的损失值。

需要说明的是，embedding层编码可以为低维变换的char-embedding编码方法、低维变换的word-embedding编码方法，还可以为基于BERT的word-embedding编码方法。

其中，低维变换的embedding编码方法即将高维的one-hot编码映射到一个低维度空间的编码上。假定m个样本在原始样本的距离矩阵为D∈R^m*m,其第i行第j列的元素dist_ij为空间样本x_i到x_j的距离。Embedding编码的目标是获得样本在d'维空间的表示Z∈R^d*m,d'<<m，且任意两个样本在d'维空间中的欧式距离等于原始空间中的距离，即

||z_i-z_j||＝dist_ij

令B＝Z^TZ∈R^m*m，其中B为降维后的样本内积矩阵，对于B中任意元素，有

b_ij＝z_i ^Tz_j

对矩阵B做特征值分解，B＝V∧V^T，其中∧＝diag(λ₁,λ₂,λ₃,…,λ_d)为特征值g构成的对角矩阵，λ₁≥λ₂≥λ₃≥…≥λ_d，V为特征向量矩阵,假设其中有d^*个非零特征值，它们构成对角矩阵

则Z可以表示为

词汇级别的低维embedding即以词汇作为单位对文本进行编码，字符级别的低维embedding即以字符作为单位对文本进行编码。

BERT(Bidirectional Encoder Representations from Transformers)是一种基于双向编码器表征的语言模型，在BERT语言模型中输入表示可以在一个词序列中表示单个文本句，对于给定的词，其输入表示是可以通过三部分Embedding求和组成。通过BERT词向量模型编码的词向量模型由Token Embeddings、Segment Embeddings与PositionEmbeddings求和得到，Token Embedding表示一个词的词向量表示，Segment Embeddings表示一个词位于哪句话中，Position表示词的位置信息。在本实施例中，采用训练好的印度尼西亚语词向量模型进行编码。

作为上述方案的改进，所述将编码后的当前印尼语句以及编码后的测试印尼语句输入至预设的Bi-LSTM模型，计算出所述当前印尼语句以及所述测试印尼语句的损失值，步骤S302具体包括：

将编码后的当前印尼语句分别输入至正向LSTM层以及反向LSTM层，得到编码后的当前印尼语句对应的正向特征信息以及反向特征信息。

将编码后的测试印尼语句分别输入至正向LSTM层以及反向LSTM层，得到编码后的测试印尼语句对应的正向特征信息以及反向特征信息。

其中，所述预设的损失函数为NCE函数：

该损失函数计算上下文与目标单词之间的点积，采集每一个正样本的同时采集k个负样本。其中V表示所有词构建的词典，w表示词典V中的词。y＝1表示正样本，x表示正确的单词，公式的第一项表示最小化正样本的损失。y＝0表示负样本，

表示生成的第k个负样本的单词，公式第二项表示最大化负样本的损失。

具体地，分别拼接编码后的当前印尼语句以及编码后的测试印尼语句对应的正向特征信息以及反向特征信息输入至隐藏层或者输出层。

需要说明的是，本发明实施例不只可以采用Bi-LSTM模型模型还可以采用LSTM模型。其中，LSTM模型包括输入门、遗忘门、输出门，从输入门输入经过遗忘门通过输出门输出，若采用LSTM模型也是在输出门计算损失函数。

参见图2，在上述任一实施例中，优选地，所述根据损失值修正所述目标单词，步骤S40具体包括：

S401，判断是否存在至少一个所述测试印尼语句的损失值小于所述当前印尼语句的损失值。

S402，响应于判断结果为存在至少一个所述测试印尼语句的损失值小于所述当前印尼语句的损失值，则根据最小的测试印尼语句的损失值对应单词修正所述目标单词。

作为上述方案的改进，所述根据损失值修正所述目标单词，步骤S40还包括：

S403，响应于判断结果为不存在至少一个所述测试印尼语句的损失值小于所述当前印尼语句的损失值，则不对所述目标单词进行修正。

具体地，通过损失值对目标单词进行纠错，损失值最小的单词即为当前印尼语句中最合适的单词。

示例性地，将“ialah”、“merupakan”、“menjadi”、“berarti”，将句子中的“adalah”分别替换成“ialah”、“merupakan”、“menjadi”、“berarti”以形成四个新的印尼语句，将当前印尼语句以及四个新的印尼语句经过embedding层进行编码后输入到预设的Bi-LSTM模型，分别计算五个句子的损失值。判断四个新的印尼语句的损失值中是否存在至少一个损失值小于当前印尼语句的损失值，若存在，则说明目标单词在当前印尼语中是错误的，那么将目标单词修正为损失值最小的单词。若当前印尼语的损失值最小，则“adalah”在原句中不需要修正。

参见图3，是本发明一实施例提供的一种印尼语的语法纠错装置的结构示意图。

获取模块10，用于获取当前印尼语句中目标单词的词性，并根据所述目标单词的词性确定对应印尼语混淆集；其中，所述每一个词性对应设置有一个印尼语混淆集。

生成模块20，用于将所述印尼语混淆集中的单词分别代替所述目标单词组成若干个测试印尼语句。

计算模块30，用于根据预设的语法纠错模型计算所述当前印尼语句以及所述测试印尼语句的损失值。

修正模块40，用于根据损失值修正所述目标单词。

本发明实施例公开的印尼语的语法纠错装置，通过目标单词的词性确定对应的混淆集，将混淆集中的单词代替目标单词以形成多个印尼语句，分别对当前印尼语句以及代替目标单词以形成多个印尼语句进行损失值计算，从而根据损失值判断是否需要对印尼语进行修正，避免了对大规模训练语料的依赖，即无需大量的训练语句同样可以实现对印尼语的纠错。

参见图4，是本发明一实施例提供的印尼语的语法纠错设备的示意图。该实施例的印尼语的语法纠错设备包括：处理器11、存储器12以及存储在所述存储器12中并可在所述处理器11上运行的计算机程序。所述处理器11执行所述计算机程序时实现上述各个印尼语的语法纠错方法实施例中的步骤。或者，所述处理器11执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能。

示例性的，所述计算机程序可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器12中，并由所述处理器11执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述印尼语的语法纠错设备中的执行过程。

所述印尼语的语法纠错设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述印尼语的语法纠错设备可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，所述示意图仅仅是印尼语的语法纠错设备的示例，并不构成对印尼语的语法纠错设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述印尼语的语法纠错设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器11可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述印尼语的语法纠错设备的控制中心，利用各种接口和线路连接整个印尼语的语法纠错设备的各个部分。

所述存储器12可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述印尼语的语法纠错设备的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

其中，所述印尼语的语法纠错设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。

需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种印尼语的语法纠错方法，其特征在于，包括：

根据损失值修正所述目标单词。

2.如权利要求1所述的印尼语的语法纠错方法，其特征在于，所述目标单词的词性，具体包括：

3.如权利要求1所述的印尼语的语法纠错方法，其特征在于，所述根据预设的语法纠错模型计算所述当前印尼语句以及所述测试印尼语句的损失值，具体包括：

4.如权利要求1所述的印尼语的语法纠错方法，其特征在于，所述将编码后的当前印尼语句以及编码后的测试印尼语句输入至预设的Bi-LSTM模型，计算出所述当前印尼语句以及所述测试印尼语句的损失值，具体包括：

5.如权利要求4所述的印尼语的语法纠错方法，其特征在于，所述预设的损失函数为NCE函数：

其中，V表示所有词构建的词典，w表示词典V中的词。y＝1表示正样本，x表示正确的单词，y＝0表示负样本，

表示生成的第k个负样本的单词。

6.如权利要求1所述的印尼语的语法纠错方法，其特征在于，所述根据损失值修正所述目标单词，具体包括：

7.如权利要求6所述的印尼语的语法纠错方法，其特征在于，所述根据损失值修正所述目标单词，还包括：

8.一种印尼语的语法纠错装置，其特征在于，包括：

修正模块，用于根据损失值修正所述目标单词。

9.一种印尼语的语法纠错设备，其特征在于，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的印尼语的语法纠错方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至7中任意一项所述的印尼语的语法纠错方法。