CN112417851A - 文本纠错分词方法、系统及电子设备 - Google Patents
文本纠错分词方法、系统及电子设备 Download PDFInfo
- Publication number
- CN112417851A CN112417851A CN202011344183.0A CN202011344183A CN112417851A CN 112417851 A CN112417851 A CN 112417851A CN 202011344183 A CN202011344183 A CN 202011344183A CN 112417851 A CN112417851 A CN 112417851A
- Authority
- CN
- China
- Prior art keywords
- pinyin
- word
- character
- key
- pinyin character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 29
- 238000012937 correction Methods 0.000 title claims abstract description 23
- 238000000034 method Methods 0.000 title claims abstract description 21
- 238000013507 mapping Methods 0.000 claims description 27
- 241001672694 Citrus reticulata Species 0.000 claims description 6
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 3
- 239000008542 feiji Substances 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种文本纠错分词方法、系统及电子设备,通过建立拼音字符组与任务相关中文词的对应关系,并结合AC自动机可同时完成分词与纠错,准确率较高,计算复杂度较低。
Description
技术领域
本发明属于文本及自然语言处理技术领域,尤其涉及一种文本纠错分词方法、系统及电子设备。
背景技术
在进入人工智能等相关的自然语言处理任务之前,都有前置的文本处理,这过程称为前处理或者预处理.在中文文本场景,拼音输入法为使用量最多的输入法,当然还有手写或者五笔,但这些都属于小众的用户会使用。在文本输入后,会有各种原因导致文本的输入的错误,比如方言拼音与标准普通话拼音的差异,如n当作l,c当作ch,h当作f,en当作eng;另外中文中还存在多音字,这也会引入错误,理所当然的,预处理中需要把这些错误给纠正过来,这也是工业界统称的文本纠错任务,除此之外,还有一个至关重要的任务,那就是对文本进行分词.分词作为基础任务之一,因为在中文中,文本的语义信息都是有词组成而非单个的字。
目前针对上述两个前处理的任务,分词与纠错,工业界一般都是独立完成,它们一般都是采用不同的算法,对这两个问题分别单独处理,这样做的好处,当然是准确率高,但是计算复杂度提升了多个数量级。
发明内容
基于此,针对上述技术问题,提供一种文本纠错分词方法、系统及电子设备。
为解决上述技术问题,本发明采用如下技术方案:
一方面,本发明提供一种文本纠错分词方法,包括:
建立拼音字符组与任务相关中文词的对应关系,每个中文词对应的拼音字符组包括普通话拼音字符组、方言拼音字符组以及形近字拼音字符组;
根据所述对应关系中的拼音字符组构建AC自动机树Tree_A;
接收待纠错分词的文本;
将所述文本转换成拼音,去掉声调,形成拼音字符串;
应用Tree_A的AC自动机对所述拼音字符串进行多模态匹配,得到多个匹配成功的拼音字符组;
根据所述对应关系,将匹配成功的拼音字符组还原为相应的中文词。
另一方面,本发明提供一种文本纠错分词系统,包括存储模块,所述存储模块包括由处理器加载并执行的指令,所述指令在被执行时使所述处理器执行上述的一种文本纠错分词方法。
再一方面,本发明提供一种电子设备,该设备具有上述的一种文本纠错分词系统。
本发明通过建立拼音字符组与任务相关中文词的对应关系,并结合AC自动机可同时完成分词与纠错,准确率较高,计算复杂度较低。
附图说明
下面结合附图和具体实施方式本发明进行详细说明:
图1为本发明的流程图。
具体实施方式
如图1所示,本说明书实施例提供一种文本纠错分词方法,包括:
S101、建立拼音字符组与任务相关中文词的对应关系,每个中文词对应的拼音字符组包括普通话拼音字符组、方言拼音字符组以及形近字拼音字符组。具体过程如下:
a、通过分词器对预先收集的任务相关文本进行分词,并经校验改正、删除完全错误词后,生成中文词表。
本实施例中,利用jieba分词器的全模式分词,这样做的好处可以把所有可能的词都分出来,从而减少了分词错误的误差,但是无法确保没有错误,故需要进行校验,把错误的词进行改正,并且把完全错误的词直接删除,从而确保中文词表的精准。
b、对中文词表进行拼音化,得到拼音映射词表,拼音映射词表就是上述对应关系表现形式,拼音映射词表由key和value构成,key代表拼音字符组,value代表与key对应的中文词。
若一个中文词拼音化后有多个key,则多个key对应同一个value,如{feij:飞机,feiji:飞机,fj:飞机}。
若多个中文词拼音化后的key相同(如多个中文词实际音调不同,但是拼音化后的key是相同的),则上述key对应多个value。
c、通过方言拼音扩充所述拼音映射词表:
构建方言拼音字符表,方言拼音字符表由key和value构成,key代表普通话拼音字符组,value代表相应的方言拼音字符组(平舌音、翘舌音的读法混淆,前后鼻音分辨不清等),例如:{L:N,F:H,CH:C,ENG:EN,...}。
对方言拼音字符表与拼音映射词表进行匹配,若拼音映射词表中的一个key_m包含所述方言拼音字符表的key_n,则将key_n对应的value替换key_m的相应部分,形成拼音映射词表的新的key,新的key对应的value与key_m对应的value相同,如拼音映射词表中具有{feij:飞机},方言拼音字符表中具有{f:h},可以看到feij包含f,则最终扩充为{feiji:飞机,heiji:飞机}。
若上述新的key已经存在于拼音映射词表中,则对新的key的value进行数组追加,表现为{新的key:[value1,value2,...]}。
d、通过形近字(五笔输入笔画相似/书写输入形态相似等)拼音扩充拼音映射词表:
构建形近字拼音字符表,形近字拼音字符表由key和value构成,key代表正确的中文词的拼音字符组,value代表错误的中文词的拼音字符组。如如将日月与曰月字形相近,容易打错,在形近字拼音字符表中表现为{riyue:yueyue},其中,key为riyue,value为yueyue。
对形近字拼音字符表与拼音映射词表进行匹配,若形近字拼音字符表的key_o匹配上拼音映射词表的key_q,则将key_o对应的value作为拼音映射词表的新的key,新的key对应的value与key_q对应的value相同。如形近字拼音字符表中有{riyue:yueyue},拼音映射词表中有{riyue:日月},则最终扩充为{riyue:日月,yueyue:日月}。
若新的key已经存在于拼音映射词表中,则对新的key的value进行数组追加。
S102、根据上述对应关系中的拼音字符组构建AC自动机树Tree_A。
S103、接收待纠错分词的文本。
S104、将文本转换成拼音,去掉声调,形成拼音字符串。
S105、应用Tree_A的AC自动机对拼音字符串进行多模态匹配,得到多个匹配成功的拼音字符组。
S106、根据上述对应关系,将匹配成功的拼音字符组还原为相应的中文词。
基于同一发明构思,本说明书实施例还提供一种文本纠错分词系统,包括存储模块,存储模块包括由处理器加载并执行的指令(程序代码),指令在被执行时使处理器执行本说明书上述一种文本纠错分词方法部分中描述的根据本发明各种示例性实施方式的步骤。
其中,存储模块可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)和/或高速缓存存储单元,还可以进一步包括只读存储单元(ROM)。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
基于同一发明构思,本说明书实施例还提供一种电子设备,该电子设备具有本说明书上述的一种文本纠错分词系统,此处不再具体赘述。
但是,本技术领域中的普通技术人员应当认识到,以上的实施例仅是用来说明本发明,而并非用作为对本发明的限定,只要在本发明的实质精神范围内,对以上所述实施例的变化、变型都将落在本发明的权利要求书范围内。
Claims (8)
1.一种文本纠错分词方法,其特征在于,包括:
建立拼音字符组与任务相关中文词的对应关系,每个中文词对应的拼音字符组包括普通话拼音字符组、方言拼音字符组以及形近字拼音字符组;
根据所述对应关系中的拼音字符组构建AC自动机树Tree_A;
接收待纠错分词的文本;
将所述文本转换成拼音,去掉声调,形成拼音字符串;
应用Tree_A的AC自动机对所述拼音字符串进行多模态匹配,得到多个匹配成功的拼音字符组;
根据所述对应关系,将匹配成功的拼音字符组还原为相应的中文词。
2.根据权利要求1所述的一种文本纠错分词方法,其特征在于,所述建立拼音字符组与任务相关中文词的对应关系,进一步包括:
a、通过分词器对预先收集的任务相关文本进行分词,并经校验改正、删除完全错误词后,生成中文词表;
b、对所述中文词表进行拼音化,得到拼音映射词表,所述拼音映射词表由key和value构成,所述key代表拼音字符组,所述value代表与所述key对应的中文词;
c、通过方言拼音扩充所述拼音映射词表:
构建方言拼音字符表,所述方言拼音字符表由key和value构成,所述key代表普通话拼音字符组,所述value代表相应的方言拼音字符组;
对所述方言拼音字符表与拼音映射词表进行匹配,若所述拼音映射词表中的一个key_m包含所述方言拼音字符表的key_n,则将所述key_n对应的value替换所述key_m的相应部分,形成所述拼音映射词表的新的key,所述新的key对应的value与key_m对应的value相同;
d、通过形近字拼音扩充所述拼音映射词表:
构建形近字拼音字符表,所述形近字拼音字符表由key和value构成,所述key代表正确的中文词的拼音字符组,所述value代表错误的中文词的拼音字符组;
对所述形近字拼音字符表与拼音映射词表进行匹配,若所述形近字拼音字符表的key_o匹配上所述拼音映射词表的key_q,则将所述key_o对应的value作为所述拼音映射词表的新的key,所述新的key对应的value与所述key_q对应的value相同。
3.根据权利要求2所述的一种文本纠错分词方法,其特征在于,所述步骤b进一步包括:
若一个中文词拼音化后有多个key,则所述多个key对应同一个value;
若多个中文词拼音化后的key相同,则所述key对应多个value。
4.根据权利要求3所述的一种文本纠错分词方法,其特征在于,所述步骤c进一步包括:
若所述新的key已经存在于所述拼音映射词表中,则对所述新的key的value进行数组追加。
5.根据权利要求4所述的一种文本纠错分词方法,其特征在于,所述步骤d进一步包括:
若所述新的key已经存在于所述拼音映射词表中,则对所述新的key的value进行数组追加。
6.根据权利要求2或5所述的一种文本纠错分词方法,其特征在于,所述分词器采用jieba分词器。
7.一种文本纠错分词系统,其特征在于,包括存储模块,所述存储模块包括由处理器加载并执行的指令,所述指令在被执行时使所述处理器执行根据权利要求1-6任一项所述的一种文本纠错分词方法。
8.一种电子设备,其特征在于,具有根据权利要求7所述的一种文本纠错分词系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011344183.0A CN112417851B (zh) | 2020-11-26 | 文本纠错分词方法、系统及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011344183.0A CN112417851B (zh) | 2020-11-26 | 文本纠错分词方法、系统及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112417851A true CN112417851A (zh) | 2021-02-26 |
CN112417851B CN112417851B (zh) | 2024-05-24 |
Family
ID=
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113781998A (zh) * | 2021-09-10 | 2021-12-10 | 未鲲(上海)科技服务有限公司 | 基于方言纠正模型的语音识别方法、装置、设备及介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5883986A (en) * | 1995-06-02 | 1999-03-16 | Xerox Corporation | Method and system for automatic transcription correction |
US7129932B1 (en) * | 2003-03-26 | 2006-10-31 | At&T Corp. | Keyboard for interacting on small devices |
CN107729316A (zh) * | 2017-10-12 | 2018-02-23 | 福建富士通信息软件有限公司 | 中文交互式问答文本中错别字的识别和纠错的方法及装置 |
CN107766327A (zh) * | 2017-10-23 | 2018-03-06 | 武汉楚鼎信息技术有限公司 | 一种命名实体识别过程中纠错的方法及系统 |
CN109522550A (zh) * | 2018-11-08 | 2019-03-26 | 和美(深圳)信息技术股份有限公司 | 文本信息纠错方法、装置、计算机设备和存储介质 |
CN110210029A (zh) * | 2019-05-30 | 2019-09-06 | 浙江远传信息技术股份有限公司 | 基于垂直领域的语音文本纠错方法、系统、设备及介质 |
CN111428474A (zh) * | 2020-03-11 | 2020-07-17 | 中国平安人寿保险股份有限公司 | 基于语言模型的纠错方法、装置、设备及存储介质 |
CN111444705A (zh) * | 2020-03-10 | 2020-07-24 | 中国平安人寿保险股份有限公司 | 纠错方法、装置、设备及可读存储介质 |
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5883986A (en) * | 1995-06-02 | 1999-03-16 | Xerox Corporation | Method and system for automatic transcription correction |
US7129932B1 (en) * | 2003-03-26 | 2006-10-31 | At&T Corp. | Keyboard for interacting on small devices |
CN107729316A (zh) * | 2017-10-12 | 2018-02-23 | 福建富士通信息软件有限公司 | 中文交互式问答文本中错别字的识别和纠错的方法及装置 |
CN107766327A (zh) * | 2017-10-23 | 2018-03-06 | 武汉楚鼎信息技术有限公司 | 一种命名实体识别过程中纠错的方法及系统 |
CN109522550A (zh) * | 2018-11-08 | 2019-03-26 | 和美(深圳)信息技术股份有限公司 | 文本信息纠错方法、装置、计算机设备和存储介质 |
CN110210029A (zh) * | 2019-05-30 | 2019-09-06 | 浙江远传信息技术股份有限公司 | 基于垂直领域的语音文本纠错方法、系统、设备及介质 |
CN111444705A (zh) * | 2020-03-10 | 2020-07-24 | 中国平安人寿保险股份有限公司 | 纠错方法、装置、设备及可读存储介质 |
CN111428474A (zh) * | 2020-03-11 | 2020-07-17 | 中国平安人寿保险股份有限公司 | 基于语言模型的纠错方法、装置、设备及存储介质 |
Non-Patent Citations (5)
Title |
---|
YONGQIANG ZHANG 等: "Serial concatenated convolutional code encoder in quantum-dot cellular automata", 《NANO COMMUNICATION NETWORKS》, vol. 22, 31 December 2019 (2019-12-31), pages 1 - 9 * |
吴淙: "中文文本校对关键技术研究与应用", 《 CNKI优秀硕士学位论文全文库》, no. 01, 15 January 2020 (2020-01-15), pages 138 - 856 * |
纪天啸: "基于知识迁移的查询纠错方法研究", 《CNKI优秀硕士学位论文全文库》, no. 07, 15 July 2019 (2019-07-15), pages 138 - 1533 * |
谭燕、元方: "基于数字化内容管理平台的线上编辑加工——以《环境工程微生物学》(第三版)的做法和体会为例", 《中国编辑》, no. 06, 10 November 2011 (2011-11-10), pages 75 - 78 * |
黄改娟 等: "基于动态文本窗口和权重动态分配的中文文本纠错方法", 《郑州大学学报(理学版)》, vol. 52, no. 03, 17 April 2020 (2020-04-17), pages 9 - 14 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113781998A (zh) * | 2021-09-10 | 2021-12-10 | 未鲲(上海)科技服务有限公司 | 基于方言纠正模型的语音识别方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106649783B (zh) | 一种同义词挖掘方法和装置 | |
US7636657B2 (en) | Method and apparatus for automatic grammar generation from data entries | |
US20120022850A1 (en) | Statistical machine translation processing | |
CN110795938B (zh) | 文本序列分词方法、装置及存储介质 | |
TWI567569B (zh) | Natural language processing systems, natural language processing methods, and natural language processing programs | |
CN111310440A (zh) | 文本的纠错方法、装置和系统 | |
CN113591457A (zh) | 文本纠错方法、装置、设备及存储介质 | |
US9015161B2 (en) | Mismatch detection system, method, and program | |
CN112420145A (zh) | 电子病历文书数据处理方法、装置及计算机可读存储介质 | |
CN112951233A (zh) | 语音问答方法、装置、电子设备及可读存储介质 | |
CN101576909A (zh) | 一种蒙古语数字化知识库系统构建方法 | |
CN114398943B (zh) | 样本增强方法及其装置 | |
CN113255331B (zh) | 文本纠错方法、装置及存储介质 | |
CN111401012A (zh) | 文本纠错方法、电子设备及计算机可读存储介质 | |
CN113360654B (zh) | 文本分类方法、装置、电子设备及可读存储介质 | |
CN112464927B (zh) | 一种信息提取方法、装置及系统 | |
CN111723583B (zh) | 基于意图角色的语句处理方法、装置、设备及存储介质 | |
CN109977430B (zh) | 一种文本翻译方法、装置及设备 | |
CN112417851B (zh) | 文本纠错分词方法、系统及电子设备 | |
CN109960812B (zh) | 语言处理方法及设备 | |
US11481547B2 (en) | Framework for chinese text error identification and correction | |
CN112417851A (zh) | 文本纠错分词方法、系统及电子设备 | |
Mukund et al. | NE tagging for Urdu based on bootstrap POS learning | |
CN111177370B (zh) | 一种自然语言处理的算法 | |
CN113743409A (zh) | 一种文本识别方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |