CN110866400A

CN110866400A - 一种自动化更新的词法分析系统

Info

Publication number: CN110866400A
Application number: CN201911060395.3A
Authority: CN
Inventors: 晏玉珽; 印忠文; 常兵; 曹扬
Original assignee: Division Big Data Research Institute Co Ltd
Current assignee: Division Big Data Research Institute Co Ltd
Priority date: 2019-11-01
Filing date: 2019-11-01
Publication date: 2020-03-06
Anticipated expiration: 2039-11-01
Also published as: CN110866400B

Abstract

本发明提供了一种自动化更新的词法分析系统，包括用户词库、系统控制模块和与系统控制模块连接的子模块控制模块；所述子模控制模块分别与数据获取及加工模块、用户词库更新模块连；所述数据获取及加工模块依次与新词发现模块、词法分析模块连接；所述用户词库分别与用户词库更新模块、词法分析模块、新词分析模块连接。本发明不仅解决现有词法分析系统普遍存在的领域自适应性问题，而且通过文本数据的自动化获取和词典的自动更新解决了如今互联网背景下用词习惯和新词术语日益更新给词法分析准确度带来的挑战，为中文自然语言处理语义理解、信息检索、机器翻译等上层任务提供了支撑。

Description

一种自动化更新的词法分析系统

技术领域

本发明涉及一种自动化更新的词法分析系统，属于文本词法分析技术领域。

背景技术

分词、词性标注和命名实体识别三项技术密切相关，相互交织，是中文自然语言处理的三项基础技术。词性标注、命名实体识别需要高质量的分词结果作为支撑，自动分词又需要命名实体识别技术的参与，很多命名实体识别方法也需要利用词性特征。作为中文词法分析层面的关键组成，分词、词性标注和命名实体识别的准确性不仅直接影响了信息检索、自动问答、信息抽取等自然语言上层任务的效果，当前知识图谱、搜索引擎等自然语言处理热门领域的技术研究也需要其作为强有力的支撑。

随着信息时代的飞速发展，现阶段新词出现和传播的速度越来越快，语言的使用习惯也在不断发生变化，这给分词、词性标注和命名实体识别三项技术的精度带来了巨大的挑战。现有的技术主要依赖已有用户词典和标注数据，利用词典匹配、统计学习和深度学习等方法实现分词、词性标注和命名实体识别三大任务。基于词典匹配的算法对用户词典的质量要求很高，现有的用户词典难以覆盖所有新词，这使得现有词法分析的准确率大幅度降低；基于统计学习和深度学习的方法依赖于标注语料的数量和质量，标注语料高昂的人力和时间成本使得现有高质量的标注语料很少，且覆盖领域单一，导致模型迁移难度大，在专业领域文本上的表现效果欠佳。

发明内容

为解决上述技术问题，本发明提供了一种自动化更新的词法分析系统，该自动化更新的词法分析系统通过六个模块串联成的闭环系统及该系统的自动化更新，解决了词法分析所依赖的高质量用户词库的构建问题，提升了词法分析任务的准确率和性能。

本发明通过以下技术方案得以实现。

本发明提供的一种自动化更新的词法分析系统，包括用户词库、系统控制模块和与系统控制模块连接的子模块控制模块；所述子模控制模块分别与数据获取及加工模块、用户词库更新模块连；所述数据获取及加工模块依次与新词发现模块、词法分析模块连接；所述用户词库分别与用户词库更新模块、词法分析模块、新词分析模块连接。

所述系统控制模块用于人工启动、关闭、重启系统，和检测系统BUG；

所述子模块控制模块用于执行条件设定和判断；

所述数据获取及加工模块用于获取文本数据并进行预处理，对预处理后的数据文本进行对齐；

所述新词发现模块用于发现新词，并进行新词候选词判断、新词候选词修正、新词词库更新和新词词库建立；

所述词法分析模块用于分词、词性标注、命名实体识别、实体词库更新、词法分析结构输出；

所述用户词库更新模块用于更新用户词库，包含通用词典、新词词典、实体词典。

本系统用户词库单次更新的步骤如下：

①执行子模块控制模块：设定数据获取及加工模块和用户词库更新模块执行条件；

②判断是否到达数据获取及加工模块执行条件，若到达数据获取及加工模块执行条件，则执行数据获取及加工模块，对文本数据进行获取及预处理，进入步骤③；若没有达到，不执行用户词库更新模块，结束操作；

③执行新词发现模块：结合用户词库对预处理后的文本数据进行新词发现，将新词发现的结果存入用户词库；

④执行词法分析模块：基于用户词库，对文本数据进行分词、词法分析和命名实体识别，将识别出的实体存入用户词库，并输出词法分析结果；

⑤判断是否达到用户词库更新模块执行条件，若到达用户词库更新模块执行条件，则执行用户词库更新模块，选择用户词库更新策略，筛选保留符合条件的词条，根据筛选结果更新用户词库；若没有达到，不执行用户词库更新模块，结束操作。

所述步骤②中，到达数据获取及加工模块执行条件的步骤如下：

(1)通过爬虫方式自动化获取文本数据；

(2)对文本数据进行预处理；

(3)将文本数据进行对齐处理。

所述文本数据包括通用文本数据和领域文本数据。

对通用文本数据进行清洗、融合，包括非文本字符过滤、换行、空格、特殊符号移除、中英文标点字符统一；对领域文本数据，根据领域文本书写成文特点，清洗文本数据、提取文本字符、过滤特殊符号。

将通用文本数据和领域文本数据进行对齐处理，包括格式、编码统一，中英文字符一致。

所述步骤③分为以下步骤：

(3.1)对对齐后的文本数据进行新词发现，通过用户词库对新词发现结果进行过滤，舍弃用户词库中存在的词，剩余词作为新词候选词；

(3.2)通过分词结果结合互信息熵、成词概率统计指标，对新词候选词进行判断和修正；

(3.3)基于保留和修订后的新词候选词条，更新用户词库，存储内容包括新词、词性、词频及词条进入词库时间。

所述步骤⑤分为以下步骤：

(5.1)基于用户词库对对齐后的文本数据进行分词；

(5.2)对分词后的结果进行词性标注；

(5.3)对词性标注后的结果进行命名实体识别；

(5.4)基于实体识别结果更新用户词库，存储内容包括实体、实体类别及词条入库时间；

(5.5)输出文本数据词法分析结果。

所述步骤⑤中，更新策略包括基于用户词库中词条时间衰减度、外部词库、特定场景规则。

本发明的有益效果在于：不仅解决现有词法分析系统普遍存在的领域自适应性问题，而且通过文本数据的自动化获取和词典的自动更新解决了如今互联网背景下用词习惯和新词术语日益更新给词法分析准确度带来的挑战，为中文自然语言处理语义理解、信息检索、机器翻译等上层任务提供了支撑。

附图说明

图1是本发明的模块连接图；

图2是本发明单次更新的流程图；

图3是本发明执行的流程图。

具体实施方式

下面进一步描述本发明的技术方案，但要求保护的范围并不局限于所述。

如图1所示，一种自动化更新的词法分析系统，包括用户词库、系统控制模块和与系统控制模块连接的子模块控制模块；所述子模控制模块分别与数据获取及加工模块、用户词库更新模块连；所述数据获取及加工模块依次与新词发现模块、词法分析模块连接；所述用户词库分别与用户词库更新模块、词法分析模块、新词分析模块连接。

所述子模块控制模块用于执行条件设定和判断；

如图2所示，本系统用户词库单次更新的步骤如下：

具体的，到达数据获取及加工模块执行条件的步骤如下：

(1)通过爬虫方式自动化获取文本数据；

(2)对文本数据进行预处理；

(3)将文本数据进行对齐处理；

优选的，文本数据包括通用文本数据和领域文本数据；

进一步地，对通用文本数据进行清洗、融合，包括非文本字符过滤、换行、空格、特殊符号移除、中英文标点字符统一；对领域文本数据，根据领域文本书写成文特点，清洗文本数据、提取文本字符、过滤特殊符号；

进一步地，将通用文本数据和领域文本数据进行对齐处理，包括格式、编码统一，中英文字符一致；

③执行新词发现模块：结合用户词库对预处理后的文本数据进行新词发现，将新词(如未登录的词、低频词)发现的结果存入用户词库，具体分为以下步骤：

(3.3)基于保留和修订后的新词候选词条，更新用户词库，存储内容包括新词、词性、词频及词条进入词库时间；

⑤判断是否达到用户词库更新模块执行条件，若到达用户词库更新模块执行条件，则执行用户词库更新模块，选择用户词库更新策略，筛选保留符合条件的词条，删除不符合条件的词条，然后根据筛选结果更新用户词库；若没有达到，不执行用户词库更新模块，结束操作，具体分为以下步骤：

(5.1)基于用户词库对对齐后的文本数据进行分词；

(5.2)对分词后的结果进行词性标注；

(5.3)对词性标注后的结果进行命名实体识别；

(5.5)输出文本数据词法分析结果。

所优选的，更新策略包括基于用户词库中词条时间衰减度、外部词库、特定场景规则。

进一步地，通过六个模块组成的闭环体系实现了系统的自动化更新，同时支持通过数据获取及加工模块、新词发现模块、词法分析模块三大模块串联，结合用户词库实现文本数据的词法分析。

具体的，本发明的整个系统执行流程如图3所示，先执行系统控制模块，检测是否有系统BUG或人工终止系统，有直接结束操作，若无，则执行子模块控制模块。

系统控制模块控制整个系统是否运作，在运作下的词法分析系统，会反复执行单次更新流程。

综上所述，本发明将系统控制、子模块控制、文本获取、文本数据预处理、新词发现、分词、词性标注、命名实体识别、词库更新九项技术整合一个闭环系统，既融合了词法分析三大基本任务之间的关系，又解决了高质量词库构建和维护的问题，避免了基于统计学习和深度学习技术构建模型需要的大规模高质量的标注语料数据，提升词法分析的效率和质量，为后续自然语言处理任务的建立和优化提供了支撑。

Claims

1.一种自动化更新的词法分析系统，其特征在于：包括用户词库、系统控制模块和与系统控制模块连接的子模块控制模块；所述子模控制模块分别与数据获取及加工模块、用户词库更新模块连；所述数据获取及加工模块依次与新词发现模块、词法分析模块连接；所述用户词库分别与用户词库更新模块、词法分析模块、新词分析模块连接。

2.如权利要求1所述的自动化更新的词法分析系统，其特征在于：

所述子模块控制模块用于执行条件设定和判断；

3.如权利要求1述的自动化更新的词法分析系统，其特征在于：本系统用户词库单次更新的步骤如下：

4.如权利要求3所述的自动化更新的词法分析系统，其特征在于：所述步骤②中，到达数据获取及加工模块执行条件的步骤如下：

(1)通过爬虫方式自动化获取文本数据；

(2)对文本数据进行预处理；

(3)将文本数据进行对齐处理。

5.如权利要求4所述的自动化更新的词法分析系统，其特征在于：所述文本数据包括通用文本数据和领域文本数据。

6.如权利要求5所述的自动化更新的词法分析系统，其特征在于：对通用文本数据进行清洗、融合，包括非文本字符过滤、换行、空格、特殊符号移除、中英文标点字符统一；对领域文本数据，根据领域文本书写成文特点，清洗文本数据、提取文本字符、过滤特殊符号。

7.如权利要求5所述的自动化更新的词法分析系统，其特征在于：将通用文本数据和领域文本数据进行对齐处理，包括格式、编码统一，中英文字符一致。

8.如权利要求3所述的自动化更新的词法分析系统，其特征在于：所述步骤③分为以下步骤：

9.如权利要求3所述的自动化更新的词法分析系统，其特征在于：所述步骤⑤分为以下步骤：

(5.1)基于用户词库对对齐后的文本数据进行分词；

(5.2)对分词后的结果进行词性标注；

(5.3)对词性标注后的结果进行命名实体识别；

(5.5)输出文本数据词法分析结果。

10.如权利要求3所述的自动化更新的词法分析系统，其特征在于：所述步骤⑤中，更新策略包括基于用户词库中词条时间衰减度、外部词库、特定场景规则。