CN112417851A

CN112417851A - 文本纠错分词方法、系统及电子设备

Info

Publication number: CN112417851A
Application number: CN202011344183.0A
Authority: CN
Inventors: 元方; 张凡超
Original assignee: Enc Data Service Co ltd
Current assignee: Enc Data Service Co ltd
Priority date: 2020-11-26
Filing date: 2020-11-26
Publication date: 2021-02-26
Anticipated expiration: 2040-11-26

Abstract

本发明提供一种文本纠错分词方法、系统及电子设备，通过建立拼音字符组与任务相关中文词的对应关系，并结合AC自动机可同时完成分词与纠错，准确率较高，计算复杂度较低。

Description

文本纠错分词方法、系统及电子设备

技术领域

本发明属于文本及自然语言处理技术领域，尤其涉及一种文本纠错分词方法、系统及电子设备。

背景技术

在进入人工智能等相关的自然语言处理任务之前，都有前置的文本处理，这过程称为前处理或者预处理.在中文文本场景，拼音输入法为使用量最多的输入法，当然还有手写或者五笔，但这些都属于小众的用户会使用。在文本输入后，会有各种原因导致文本的输入的错误，比如方言拼音与标准普通话拼音的差异，如n当作l,c当作ch,h当作f,en当作eng；另外中文中还存在多音字，这也会引入错误，理所当然的，预处理中需要把这些错误给纠正过来，这也是工业界统称的文本纠错任务，除此之外，还有一个至关重要的任务，那就是对文本进行分词.分词作为基础任务之一，因为在中文中，文本的语义信息都是有词组成而非单个的字。

目前针对上述两个前处理的任务，分词与纠错，工业界一般都是独立完成，它们一般都是采用不同的算法，对这两个问题分别单独处理，这样做的好处，当然是准确率高，但是计算复杂度提升了多个数量级。

发明内容

基于此，针对上述技术问题，提供一种文本纠错分词方法、系统及电子设备。

为解决上述技术问题，本发明采用如下技术方案：

一方面，本发明提供一种文本纠错分词方法，包括：

建立拼音字符组与任务相关中文词的对应关系，每个中文词对应的拼音字符组包括普通话拼音字符组、方言拼音字符组以及形近字拼音字符组；

根据所述对应关系中的拼音字符组构建AC自动机树Tree_A；

接收待纠错分词的文本；

将所述文本转换成拼音，去掉声调，形成拼音字符串；

应用Tree_A的AC自动机对所述拼音字符串进行多模态匹配，得到多个匹配成功的拼音字符组；

根据所述对应关系，将匹配成功的拼音字符组还原为相应的中文词。

另一方面，本发明提供一种文本纠错分词系统，包括存储模块，所述存储模块包括由处理器加载并执行的指令,所述指令在被执行时使所述处理器执行上述的一种文本纠错分词方法。

再一方面，本发明提供一种电子设备，该设备具有上述的一种文本纠错分词系统。

本发明通过建立拼音字符组与任务相关中文词的对应关系，并结合AC自动机可同时完成分词与纠错，准确率较高，计算复杂度较低。

附图说明

下面结合附图和具体实施方式本发明进行详细说明：

图1为本发明的流程图。

具体实施方式

如图1所示，本说明书实施例提供一种文本纠错分词方法，包括：

S101、建立拼音字符组与任务相关中文词的对应关系，每个中文词对应的拼音字符组包括普通话拼音字符组、方言拼音字符组以及形近字拼音字符组。具体过程如下：

a、通过分词器对预先收集的任务相关文本进行分词，并经校验改正、删除完全错误词后，生成中文词表。

本实施例中，利用jieba分词器的全模式分词，这样做的好处可以把所有可能的词都分出来，从而减少了分词错误的误差，但是无法确保没有错误，故需要进行校验，把错误的词进行改正，并且把完全错误的词直接删除，从而确保中文词表的精准。

b、对中文词表进行拼音化，得到拼音映射词表，拼音映射词表就是上述对应关系表现形式，拼音映射词表由key和value构成，key代表拼音字符组，value代表与key对应的中文词。

若一个中文词拼音化后有多个key，则多个key对应同一个value,如{feij：飞机，feiji：飞机，fj：飞机}。

若多个中文词拼音化后的key相同(如多个中文词实际音调不同，但是拼音化后的key是相同的)，则上述key对应多个value。

c、通过方言拼音扩充所述拼音映射词表：

构建方言拼音字符表，方言拼音字符表由key和value构成，key代表普通话拼音字符组，value代表相应的方言拼音字符组(平舌音、翘舌音的读法混淆，前后鼻音分辨不清等)，例如：{L:N,F:H,CH:C,ENG:EN,...}。

对方言拼音字符表与拼音映射词表进行匹配，若拼音映射词表中的一个key_m包含所述方言拼音字符表的key_n，则将key_n对应的value替换key_m的相应部分，形成拼音映射词表的新的key，新的key对应的value与key_m对应的value相同，如拼音映射词表中具有{feij：飞机}，方言拼音字符表中具有{f：h}，可以看到feij包含f，则最终扩充为{feiji：飞机，heiji：飞机}。

若上述新的key已经存在于拼音映射词表中，则对新的key的value进行数组追加，表现为{新的key:[value1,value2,...]}。

d、通过形近字(五笔输入笔画相似/书写输入形态相似等)拼音扩充拼音映射词表：

构建形近字拼音字符表,形近字拼音字符表由key和value构成,key代表正确的中文词的拼音字符组，value代表错误的中文词的拼音字符组。如如将日月与曰月字形相近，容易打错,在形近字拼音字符表中表现为{riyue：yueyue}，其中，key为riyue，value为yueyue。

对形近字拼音字符表与拼音映射词表进行匹配，若形近字拼音字符表的key_o匹配上拼音映射词表的key_q，则将key_o对应的value作为拼音映射词表的新的key，新的key对应的value与key_q对应的value相同。如形近字拼音字符表中有{riyue：yueyue}，拼音映射词表中有{riyue：日月}，则最终扩充为{riyue：日月，yueyue：日月}。

若新的key已经存在于拼音映射词表中，则对新的key的value进行数组追加。

S102、根据上述对应关系中的拼音字符组构建AC自动机树Tree_A。

S103、接收待纠错分词的文本。

S104、将文本转换成拼音，去掉声调，形成拼音字符串。

S105、应用Tree_A的AC自动机对拼音字符串进行多模态匹配，得到多个匹配成功的拼音字符组。

S106、根据上述对应关系，将匹配成功的拼音字符组还原为相应的中文词。

基于同一发明构思，本说明书实施例还提供一种文本纠错分词系统，包括存储模块，存储模块包括由处理器加载并执行的指令(程序代码),指令在被执行时使处理器执行本说明书上述一种文本纠错分词方法部分中描述的根据本发明各种示例性实施方式的步骤。

其中，存储模块可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)和/或高速缓存存储单元，还可以进一步包括只读存储单元(ROM)。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

基于同一发明构思，本说明书实施例还提供一种电子设备，该电子设备具有本说明书上述的一种文本纠错分词系统，此处不再具体赘述。

但是，本技术领域中的普通技术人员应当认识到，以上的实施例仅是用来说明本发明，而并非用作为对本发明的限定，只要在本发明的实质精神范围内，对以上所述实施例的变化、变型都将落在本发明的权利要求书范围内。

Claims

1.一种文本纠错分词方法，其特征在于，包括：

根据所述对应关系中的拼音字符组构建AC自动机树Tree_A；

接收待纠错分词的文本；

将所述文本转换成拼音，去掉声调，形成拼音字符串；

2.根据权利要求1所述的一种文本纠错分词方法，其特征在于，所述建立拼音字符组与任务相关中文词的对应关系，进一步包括：

a、通过分词器对预先收集的任务相关文本进行分词，并经校验改正、删除完全错误词后，生成中文词表；

b、对所述中文词表进行拼音化，得到拼音映射词表，所述拼音映射词表由key和value构成，所述key代表拼音字符组，所述value代表与所述key对应的中文词；

c、通过方言拼音扩充所述拼音映射词表：

构建方言拼音字符表，所述方言拼音字符表由key和value构成，所述key代表普通话拼音字符组，所述value代表相应的方言拼音字符组；

对所述方言拼音字符表与拼音映射词表进行匹配，若所述拼音映射词表中的一个key_m包含所述方言拼音字符表的key_n，则将所述key_n对应的value替换所述key_m的相应部分，形成所述拼音映射词表的新的key，所述新的key对应的value与key_m对应的value相同；

d、通过形近字拼音扩充所述拼音映射词表：

构建形近字拼音字符表,所述形近字拼音字符表由key和value构成,所述key代表正确的中文词的拼音字符组，所述value代表错误的中文词的拼音字符组；

对所述形近字拼音字符表与拼音映射词表进行匹配，若所述形近字拼音字符表的key_o匹配上所述拼音映射词表的key_q，则将所述key_o对应的value作为所述拼音映射词表的新的key，所述新的key对应的value与所述key_q对应的value相同。

3.根据权利要求2所述的一种文本纠错分词方法，其特征在于，所述步骤b进一步包括：

若一个中文词拼音化后有多个key，则所述多个key对应同一个value；

若多个中文词拼音化后的key相同，则所述key对应多个value。

4.根据权利要求3所述的一种文本纠错分词方法，其特征在于，所述步骤c进一步包括：

若所述新的key已经存在于所述拼音映射词表中，则对所述新的key的value进行数组追加。

5.根据权利要求4所述的一种文本纠错分词方法，其特征在于，所述步骤d进一步包括：

6.根据权利要求2或5所述的一种文本纠错分词方法，其特征在于，所述分词器采用jieba分词器。

7.一种文本纠错分词系统，其特征在于，包括存储模块，所述存储模块包括由处理器加载并执行的指令,所述指令在被执行时使所述处理器执行根据权利要求1-6任一项所述的一种文本纠错分词方法。

8.一种电子设备，其特征在于，具有根据权利要求7所述的一种文本纠错分词系统。