CN110866400A - 一种自动化更新的词法分析系统 - Google Patents

一种自动化更新的词法分析系统 Download PDF

Info

Publication number
CN110866400A
CN110866400A CN201911060395.3A CN201911060395A CN110866400A CN 110866400 A CN110866400 A CN 110866400A CN 201911060395 A CN201911060395 A CN 201911060395A CN 110866400 A CN110866400 A CN 110866400A
Authority
CN
China
Prior art keywords
module
word
user
lexical analysis
text data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911060395.3A
Other languages
English (en)
Other versions
CN110866400B (zh
Inventor
晏玉珽
印忠文
常兵
曹扬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Division Big Data Research Institute Co Ltd
Original Assignee
Division Big Data Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Division Big Data Research Institute Co Ltd filed Critical Division Big Data Research Institute Co Ltd
Priority to CN201911060395.3A priority Critical patent/CN110866400B/zh
Publication of CN110866400A publication Critical patent/CN110866400A/zh
Application granted granted Critical
Publication of CN110866400B publication Critical patent/CN110866400B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供了一种自动化更新的词法分析系统,包括用户词库、系统控制模块和与系统控制模块连接的子模块控制模块;所述子模控制模块分别与数据获取及加工模块、用户词库更新模块连;所述数据获取及加工模块依次与新词发现模块、词法分析模块连接;所述用户词库分别与用户词库更新模块、词法分析模块、新词分析模块连接。本发明不仅解决现有词法分析系统普遍存在的领域自适应性问题,而且通过文本数据的自动化获取和词典的自动更新解决了如今互联网背景下用词习惯和新词术语日益更新给词法分析准确度带来的挑战,为中文自然语言处理语义理解、信息检索、机器翻译等上层任务提供了支撑。

Description

一种自动化更新的词法分析系统
技术领域
本发明涉及一种自动化更新的词法分析系统,属于文本词法分析技术领域。
背景技术
分词、词性标注和命名实体识别三项技术密切相关,相互交织,是中文自然语言处理的三项基础技术。词性标注、命名实体识别需要高质量的分词结果作为支撑,自动分词又需要命名实体识别技术的参与,很多命名实体识别方法也需要利用词性特征。作为中文词法分析层面的关键组成,分词、词性标注和命名实体识别的准确性不仅直接影响了信息检索、自动问答、信息抽取等自然语言上层任务的效果,当前知识图谱、搜索引擎等自然语言处理热门领域的技术研究也需要其作为强有力的支撑。
随着信息时代的飞速发展,现阶段新词出现和传播的速度越来越快,语言的使用习惯也在不断发生变化,这给分词、词性标注和命名实体识别三项技术的精度带来了巨大的挑战。现有的技术主要依赖已有用户词典和标注数据,利用词典匹配、统计学习和深度学习等方法实现分词、词性标注和命名实体识别三大任务。基于词典匹配的算法对用户词典的质量要求很高,现有的用户词典难以覆盖所有新词,这使得现有词法分析的准确率大幅度降低;基于统计学习和深度学习的方法依赖于标注语料的数量和质量,标注语料高昂的人力和时间成本使得现有高质量的标注语料很少,且覆盖领域单一,导致模型迁移难度大,在专业领域文本上的表现效果欠佳。
发明内容
为解决上述技术问题,本发明提供了一种自动化更新的词法分析系统,该自动化更新的词法分析系统通过六个模块串联成的闭环系统及该系统的自动化更新,解决了词法分析所依赖的高质量用户词库的构建问题,提升了词法分析任务的准确率和性能。
本发明通过以下技术方案得以实现。
本发明提供的一种自动化更新的词法分析系统,包括用户词库、系统控制模块和与系统控制模块连接的子模块控制模块;所述子模控制模块分别与数据获取及加工模块、用户词库更新模块连;所述数据获取及加工模块依次与新词发现模块、词法分析模块连接;所述用户词库分别与用户词库更新模块、词法分析模块、新词分析模块连接。
所述系统控制模块用于人工启动、关闭、重启系统,和检测系统BUG;
所述子模块控制模块用于执行条件设定和判断;
所述数据获取及加工模块用于获取文本数据并进行预处理,对预处理后的数据文本进行对齐;
所述新词发现模块用于发现新词,并进行新词候选词判断、新词候选词修正、新词词库更新和新词词库建立;
所述词法分析模块用于分词、词性标注、命名实体识别、实体词库更新、词法分析结构输出;
所述用户词库更新模块用于更新用户词库,包含通用词典、新词词典、实体词典。
本系统用户词库单次更新的步骤如下:
①执行子模块控制模块:设定数据获取及加工模块和用户词库更新模块执行条件;
②判断是否到达数据获取及加工模块执行条件,若到达数据获取及加工模块执行条件,则执行数据获取及加工模块,对文本数据进行获取及预处理,进入步骤③;若没有达到,不执行用户词库更新模块,结束操作;
③执行新词发现模块:结合用户词库对预处理后的文本数据进行新词发现,将新词发现的结果存入用户词库;
④执行词法分析模块:基于用户词库,对文本数据进行分词、词法分析和命名实体识别,将识别出的实体存入用户词库,并输出词法分析结果;
⑤判断是否达到用户词库更新模块执行条件,若到达用户词库更新模块执行条件,则执行用户词库更新模块,选择用户词库更新策略,筛选保留符合条件的词条,根据筛选结果更新用户词库;若没有达到,不执行用户词库更新模块,结束操作。
所述步骤②中,到达数据获取及加工模块执行条件的步骤如下:
(1)通过爬虫方式自动化获取文本数据;
(2)对文本数据进行预处理;
(3)将文本数据进行对齐处理。
所述文本数据包括通用文本数据和领域文本数据。
对通用文本数据进行清洗、融合,包括非文本字符过滤、换行、空格、特殊符号移除、中英文标点字符统一;对领域文本数据,根据领域文本书写成文特点,清洗文本数据、提取文本字符、过滤特殊符号。
将通用文本数据和领域文本数据进行对齐处理,包括格式、编码统一,中英文字符一致。
所述步骤③分为以下步骤:
(3.1)对对齐后的文本数据进行新词发现,通过用户词库对新词发现结果进行过滤,舍弃用户词库中存在的词,剩余词作为新词候选词;
(3.2)通过分词结果结合互信息熵、成词概率统计指标,对新词候选词进行判断和修正;
(3.3)基于保留和修订后的新词候选词条,更新用户词库,存储内容包括新词、词性、词频及词条进入词库时间。
所述步骤⑤分为以下步骤:
(5.1)基于用户词库对对齐后的文本数据进行分词;
(5.2)对分词后的结果进行词性标注;
(5.3)对词性标注后的结果进行命名实体识别;
(5.4)基于实体识别结果更新用户词库,存储内容包括实体、实体类别及词条入库时间;
(5.5)输出文本数据词法分析结果。
所述步骤⑤中,更新策略包括基于用户词库中词条时间衰减度、外部词库、特定场景规则。
本发明的有益效果在于:不仅解决现有词法分析系统普遍存在的领域自适应性问题,而且通过文本数据的自动化获取和词典的自动更新解决了如今互联网背景下用词习惯和新词术语日益更新给词法分析准确度带来的挑战,为中文自然语言处理语义理解、信息检索、机器翻译等上层任务提供了支撑。
附图说明
图1是本发明的模块连接图;
图2是本发明单次更新的流程图;
图3是本发明执行的流程图。
具体实施方式
下面进一步描述本发明的技术方案,但要求保护的范围并不局限于所述。
如图1所示,一种自动化更新的词法分析系统,包括用户词库、系统控制模块和与系统控制模块连接的子模块控制模块;所述子模控制模块分别与数据获取及加工模块、用户词库更新模块连;所述数据获取及加工模块依次与新词发现模块、词法分析模块连接;所述用户词库分别与用户词库更新模块、词法分析模块、新词分析模块连接。
所述系统控制模块用于人工启动、关闭、重启系统,和检测系统BUG;
所述子模块控制模块用于执行条件设定和判断;
所述数据获取及加工模块用于获取文本数据并进行预处理,对预处理后的数据文本进行对齐;
所述新词发现模块用于发现新词,并进行新词候选词判断、新词候选词修正、新词词库更新和新词词库建立;
所述词法分析模块用于分词、词性标注、命名实体识别、实体词库更新、词法分析结构输出;
所述用户词库更新模块用于更新用户词库,包含通用词典、新词词典、实体词典。
如图2所示,本系统用户词库单次更新的步骤如下:
①执行子模块控制模块:设定数据获取及加工模块和用户词库更新模块执行条件;
②判断是否到达数据获取及加工模块执行条件,若到达数据获取及加工模块执行条件,则执行数据获取及加工模块,对文本数据进行获取及预处理,进入步骤③;若没有达到,不执行用户词库更新模块,结束操作;
具体的,到达数据获取及加工模块执行条件的步骤如下:
(1)通过爬虫方式自动化获取文本数据;
(2)对文本数据进行预处理;
(3)将文本数据进行对齐处理;
优选的,文本数据包括通用文本数据和领域文本数据;
进一步地,对通用文本数据进行清洗、融合,包括非文本字符过滤、换行、空格、特殊符号移除、中英文标点字符统一;对领域文本数据,根据领域文本书写成文特点,清洗文本数据、提取文本字符、过滤特殊符号;
进一步地,将通用文本数据和领域文本数据进行对齐处理,包括格式、编码统一,中英文字符一致;
③执行新词发现模块:结合用户词库对预处理后的文本数据进行新词发现,将新词(如未登录的词、低频词)发现的结果存入用户词库,具体分为以下步骤:
(3.1)对对齐后的文本数据进行新词发现,通过用户词库对新词发现结果进行过滤,舍弃用户词库中存在的词,剩余词作为新词候选词;
(3.2)通过分词结果结合互信息熵、成词概率统计指标,对新词候选词进行判断和修正;
(3.3)基于保留和修订后的新词候选词条,更新用户词库,存储内容包括新词、词性、词频及词条进入词库时间;
④执行词法分析模块:基于用户词库,对文本数据进行分词、词法分析和命名实体识别,将识别出的实体存入用户词库,并输出词法分析结果;
⑤判断是否达到用户词库更新模块执行条件,若到达用户词库更新模块执行条件,则执行用户词库更新模块,选择用户词库更新策略,筛选保留符合条件的词条,删除不符合条件的词条,然后根据筛选结果更新用户词库;若没有达到,不执行用户词库更新模块,结束操作,具体分为以下步骤:
(5.1)基于用户词库对对齐后的文本数据进行分词;
(5.2)对分词后的结果进行词性标注;
(5.3)对词性标注后的结果进行命名实体识别;
(5.4)基于实体识别结果更新用户词库,存储内容包括实体、实体类别及词条入库时间;
(5.5)输出文本数据词法分析结果。
所优选的,更新策略包括基于用户词库中词条时间衰减度、外部词库、特定场景规则。
进一步地,通过六个模块组成的闭环体系实现了系统的自动化更新,同时支持通过数据获取及加工模块、新词发现模块、词法分析模块三大模块串联,结合用户词库实现文本数据的词法分析。
具体的,本发明的整个系统执行流程如图3所示,先执行系统控制模块,检测是否有系统BUG或人工终止系统,有直接结束操作,若无,则执行子模块控制模块。
系统控制模块控制整个系统是否运作,在运作下的词法分析系统,会反复执行单次更新流程。
综上所述,本发明将系统控制、子模块控制、文本获取、文本数据预处理、新词发现、分词、词性标注、命名实体识别、词库更新九项技术整合一个闭环系统,既融合了词法分析三大基本任务之间的关系,又解决了高质量词库构建和维护的问题,避免了基于统计学习和深度学习技术构建模型需要的大规模高质量的标注语料数据,提升词法分析的效率和质量,为后续自然语言处理任务的建立和优化提供了支撑。

Claims (10)

1.一种自动化更新的词法分析系统,其特征在于:包括用户词库、系统控制模块和与系统控制模块连接的子模块控制模块;所述子模控制模块分别与数据获取及加工模块、用户词库更新模块连;所述数据获取及加工模块依次与新词发现模块、词法分析模块连接;所述用户词库分别与用户词库更新模块、词法分析模块、新词分析模块连接。
2.如权利要求1所述的自动化更新的词法分析系统,其特征在于:
所述系统控制模块用于人工启动、关闭、重启系统,和检测系统BUG;
所述子模块控制模块用于执行条件设定和判断;
所述数据获取及加工模块用于获取文本数据并进行预处理,对预处理后的数据文本进行对齐;
所述新词发现模块用于发现新词,并进行新词候选词判断、新词候选词修正、新词词库更新和新词词库建立;
所述词法分析模块用于分词、词性标注、命名实体识别、实体词库更新、词法分析结构输出;
所述用户词库更新模块用于更新用户词库,包含通用词典、新词词典、实体词典。
3.如权利要求1述的自动化更新的词法分析系统,其特征在于:本系统用户词库单次更新的步骤如下:
①执行子模块控制模块:设定数据获取及加工模块和用户词库更新模块执行条件;
②判断是否到达数据获取及加工模块执行条件,若到达数据获取及加工模块执行条件,则执行数据获取及加工模块,对文本数据进行获取及预处理,进入步骤③;若没有达到,不执行用户词库更新模块,结束操作;
③执行新词发现模块:结合用户词库对预处理后的文本数据进行新词发现,将新词发现的结果存入用户词库;
④执行词法分析模块:基于用户词库,对文本数据进行分词、词法分析和命名实体识别,将识别出的实体存入用户词库,并输出词法分析结果;
⑤判断是否达到用户词库更新模块执行条件,若到达用户词库更新模块执行条件,则执行用户词库更新模块,选择用户词库更新策略,筛选保留符合条件的词条,根据筛选结果更新用户词库;若没有达到,不执行用户词库更新模块,结束操作。
4.如权利要求3所述的自动化更新的词法分析系统,其特征在于:所述步骤②中,到达数据获取及加工模块执行条件的步骤如下:
(1)通过爬虫方式自动化获取文本数据;
(2)对文本数据进行预处理;
(3)将文本数据进行对齐处理。
5.如权利要求4所述的自动化更新的词法分析系统,其特征在于:所述文本数据包括通用文本数据和领域文本数据。
6.如权利要求5所述的自动化更新的词法分析系统,其特征在于:对通用文本数据进行清洗、融合,包括非文本字符过滤、换行、空格、特殊符号移除、中英文标点字符统一;对领域文本数据,根据领域文本书写成文特点,清洗文本数据、提取文本字符、过滤特殊符号。
7.如权利要求5所述的自动化更新的词法分析系统,其特征在于:将通用文本数据和领域文本数据进行对齐处理,包括格式、编码统一,中英文字符一致。
8.如权利要求3所述的自动化更新的词法分析系统,其特征在于:所述步骤③分为以下步骤:
(3.1)对对齐后的文本数据进行新词发现,通过用户词库对新词发现结果进行过滤,舍弃用户词库中存在的词,剩余词作为新词候选词;
(3.2)通过分词结果结合互信息熵、成词概率统计指标,对新词候选词进行判断和修正;
(3.3)基于保留和修订后的新词候选词条,更新用户词库,存储内容包括新词、词性、词频及词条进入词库时间。
9.如权利要求3所述的自动化更新的词法分析系统,其特征在于:所述步骤⑤分为以下步骤:
(5.1)基于用户词库对对齐后的文本数据进行分词;
(5.2)对分词后的结果进行词性标注;
(5.3)对词性标注后的结果进行命名实体识别;
(5.4)基于实体识别结果更新用户词库,存储内容包括实体、实体类别及词条入库时间;
(5.5)输出文本数据词法分析结果。
10.如权利要求3所述的自动化更新的词法分析系统,其特征在于:所述步骤⑤中,更新策略包括基于用户词库中词条时间衰减度、外部词库、特定场景规则。
CN201911060395.3A 2019-11-01 2019-11-01 一种自动化更新的词法分析系统 Active CN110866400B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911060395.3A CN110866400B (zh) 2019-11-01 2019-11-01 一种自动化更新的词法分析系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911060395.3A CN110866400B (zh) 2019-11-01 2019-11-01 一种自动化更新的词法分析系统

Publications (2)

Publication Number Publication Date
CN110866400A true CN110866400A (zh) 2020-03-06
CN110866400B CN110866400B (zh) 2023-08-04

Family

ID=69653443

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911060395.3A Active CN110866400B (zh) 2019-11-01 2019-11-01 一种自动化更新的词法分析系统

Country Status (1)

Country Link
CN (1) CN110866400B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114822527A (zh) * 2021-10-11 2022-07-29 北京中电慧声科技有限公司 一种语音转文本的纠错方法、装置及电子设备和存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1154358A2 (en) * 2000-05-12 2001-11-14 Applied Psychology Research Limited Automatic text classification system
CN1641634A (zh) * 2004-01-15 2005-07-20 中国科学院计算技术研究所 一种中文新词语的检测方法及其检测系统
US20090281789A1 (en) * 2008-04-15 2009-11-12 Mobile Technologies, Llc System and methods for maintaining speech-to-speech translation in the field
CN102654873A (zh) * 2011-03-03 2012-09-05 苏州同程旅游网络科技有限公司 基于中文分词的旅游信息抽取与聚合方法
US20130166303A1 (en) * 2009-11-13 2013-06-27 Adobe Systems Incorporated Accessing media data using metadata repository
CN103440256A (zh) * 2013-07-26 2013-12-11 中国科学院深圳先进技术研究院 一种中文文字标签云自动生成方法及装置
CN104794154A (zh) * 2015-03-11 2015-07-22 南通天呈医流互联网技术有限公司 基于文本挖掘的医疗器械o2o服务质量评价模型
CN108363691A (zh) * 2018-02-09 2018-08-03 国网江苏省电力有限公司电力科学研究院 一种用于电力95598工单的领域术语识别系统及方法
CN108509425A (zh) * 2018-04-10 2018-09-07 中国人民解放军陆军工程大学 一种基于新颖度的中文新词发现方法
CN109408818A (zh) * 2018-10-12 2019-03-01 平安科技(深圳)有限公司 新词识别方法、装置、计算机设备及存储介质
WO2019051057A1 (en) * 2017-09-06 2019-03-14 Rosoka Software, Inc. LEXICAL DISCOVERY BY AUTOMATIC LEARNING

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1154358A2 (en) * 2000-05-12 2001-11-14 Applied Psychology Research Limited Automatic text classification system
CN1641634A (zh) * 2004-01-15 2005-07-20 中国科学院计算技术研究所 一种中文新词语的检测方法及其检测系统
US20090281789A1 (en) * 2008-04-15 2009-11-12 Mobile Technologies, Llc System and methods for maintaining speech-to-speech translation in the field
US20130166303A1 (en) * 2009-11-13 2013-06-27 Adobe Systems Incorporated Accessing media data using metadata repository
CN102654873A (zh) * 2011-03-03 2012-09-05 苏州同程旅游网络科技有限公司 基于中文分词的旅游信息抽取与聚合方法
CN103440256A (zh) * 2013-07-26 2013-12-11 中国科学院深圳先进技术研究院 一种中文文字标签云自动生成方法及装置
CN104794154A (zh) * 2015-03-11 2015-07-22 南通天呈医流互联网技术有限公司 基于文本挖掘的医疗器械o2o服务质量评价模型
WO2019051057A1 (en) * 2017-09-06 2019-03-14 Rosoka Software, Inc. LEXICAL DISCOVERY BY AUTOMATIC LEARNING
CN108363691A (zh) * 2018-02-09 2018-08-03 国网江苏省电力有限公司电力科学研究院 一种用于电力95598工单的领域术语识别系统及方法
CN108509425A (zh) * 2018-04-10 2018-09-07 中国人民解放军陆军工程大学 一种基于新颖度的中文新词发现方法
CN109408818A (zh) * 2018-10-12 2019-03-01 平安科技(深圳)有限公司 新词识别方法、装置、计算机设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
方高林;于浩;孟遥;邹纲;: "基于字单元分析的中文辅助阅读系统" *
方高林;于浩;孟遥;邹纲;: "基于字单元分析的中文辅助阅读系统", 中文信息学报, no. 02 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114822527A (zh) * 2021-10-11 2022-07-29 北京中电慧声科技有限公司 一种语音转文本的纠错方法、装置及电子设备和存储介质

Also Published As

Publication number Publication date
CN110866400B (zh) 2023-08-04

Similar Documents

Publication Publication Date Title
CN108304372B (zh) 实体提取方法和装置、计算机设备和存储介质
CN110765759B (zh) 意图识别方法及装置
CN110020422A (zh) 特征词的确定方法、装置和服务器
US11907671B2 (en) Role labeling method, electronic device and storage medium
CN1008016B (zh) 输入处理系统
CN110853625B (zh) 语音识别模型分词训练方法、系统、移动终端及存储介质
CN111858888B (zh) 一种值机场景的多轮对话系统
CN113704444B (zh) 基于自然语言处理的问答方法、系统、设备及存储介质
CN109408628B (zh) 一种解析句子语义结构的方法及相关设备
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及系统
CN113377897A (zh) 基于深度对抗学习的多语言医疗术语规范标准化系统及方法
CN114860942B (zh) 文本意图分类方法、装置、设备及存储介质
CN112380866A (zh) 一种文本话题标签生成方法、终端设备及存储介质
CN112395392A (zh) 一种意图识别方法及装置、可读存储介质
CN109948144A (zh) 一种基于课堂教学情境的教师话语智能处理的方法
CN110413972B (zh) 一种基于nlp技术的表名字段名智能补全方法
CN112417823A (zh) 一种中文文本语序调整和量词补全方法及系统
CN111553157A (zh) 一种基于实体替换的对话意图识别方法
CN113779987A (zh) 一种基于自注意力增强语义的事件共指消岐方法及系统
CN110866400A (zh) 一种自动化更新的词法分析系统
CN111737951B (zh) 一种文本语言关联关系标注方法和装置
CN109684357B (zh) 信息处理方法及装置、存储介质、终端
CN111401085A (zh) 基于混合策略的移动设备机器翻译系统
CN105631032A (zh) 基于抽象语义推荐的问答知识库建立方法、装置及系统
CN110309258A (zh) 一种输入检查方法、服务器和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant