CN109213846A - 一种自然语言处理系统 - Google Patents

一种自然语言处理系统 Download PDF

Info

Publication number
CN109213846A
CN109213846A CN201811069719.5A CN201811069719A CN109213846A CN 109213846 A CN109213846 A CN 109213846A CN 201811069719 A CN201811069719 A CN 201811069719A CN 109213846 A CN109213846 A CN 109213846A
Authority
CN
China
Prior art keywords
module
natural language
processing module
processing
word segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811069719.5A
Other languages
English (en)
Inventor
张巍
胡慧香
郭继红
张晓瑛
徐雅琴
边婧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanxi Vocational College Of Health And Health
Original Assignee
Shanxi Vocational College Of Health And Health
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanxi Vocational College Of Health And Health filed Critical Shanxi Vocational College Of Health And Health
Priority to CN201811069719.5A priority Critical patent/CN109213846A/zh
Publication of CN109213846A publication Critical patent/CN109213846A/zh
Pending legal-status Critical Current

Links

Abstract

本发明公开了一种自然语言处理系统,包括输入模块、语境处理模块、预处理模块、分词处理模块、后处理模块、参数标注模块、语法数据库、文法规则匹配模块、知识数据库、逻辑推理模型库和输出模块。本发明的自然语言处理系统通过联系上下文、扩充参数词典和规则集来提高对自然语言信息的理解能力,使系统有较好的领域扩展性。对于识别效果不好的语言信息只需按照其语法结构抽象出新的规则并添加到系统中,就能够改善对这类句子的识别效果,实现起来简单而有效。

Description

一种自然语言处理系统
技术领域
本发明属于计算机技术领域,具体地说,涉及一种自然语言处理系统。
背景技术
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。
自然语言的形式(字符串)与其意义之间是一种多对多的关系。其实这也正是自然语言的魅力所在。但从计算机处理的角度看,我们必须消除歧义,而且有人认为它正是自然语言理解中的中心问题,即要把带有潜在歧义的自然语言输入转换成某种无歧义的计算机内部表示。
歧义现象的广泛存在使得消除它们需要大量的知识和推理,这就给基于语言学的方法、基于知识的方法带来了巨大的困难,因而以这些方法为主流的自然语言处理研究几十年来一方面在理论和方法方面取得了很多成就,但在能处理大规模真实文本的系统研制方面,成绩并不显著。研制的一些系统大多数是小规模的、研究性的演示系统。
目前存在的问题有两个方面:一方面,迄今为止的语法都限于分析一个孤立的句子,上下文关系和谈话环境对本句的约束和影响还缺乏系统的研究,因此分析歧义、词语省略、代词所指、同一句话在不同场合或由不同的人说出来所具有的不同含义等问题,尚无明确规律可循,需要加强语用学的研究才能逐步解决。另一方面,人理解一个句子不是单凭语法,还运用了大量的有关知识,包括生活知识和专门知识,这些知识无法全部贮存在计算机里。因此一个书面理解系统只能建立在有限的词汇、句型和特定的主题范围内。
发明内容
本发明的目的在于提供一种提高处理质量的自然语言处理系统。
其技术方案如下:
一种自然语言处理系统,包括输入模块、语境处理模块、预处理模块、分词处理模块、后处理模块、参数标注模块、语法数据库、文法规则匹配模块、知识数据库、逻辑推理模型库和输出模块;
所述输入模块用于通过输入设备输入自然语言;
所述语境处理模块用于通过联系上下文,分析自然语言所处的语境;
所述预处理模块用于对自然语言的源文本进行标记、拆分以及干扰符号的删除,提高分词速度和准确率;
所述分词处理模块用于将自然语言的句子划分为词序列;
所述后处理模块用于对分词处理模块的分词结果进行优化;
所述参数标注模块用于对后处理模块的分词结果进行参数标注;
所述文法规则匹配模块根据语法数据库、知识数据库、逻辑推理模型库和参数标注模块标注后的分词结果进行匹配;
所述输出模块用于通过输出设备输出自然语言的处理结果的文字、图形和语音。
进一步,所述输入设备包括键盘、语音设备、图文扫描设备。
进一步,所述干扰符号包括无用的空格、回车和与输入介质相关的符号。
进一步,所述输出设备包括屏幕、麦克风、打字机。
本发明的有益效果:
本发明的自然语言处理系统通过联系上下文、扩充参数词典和规则集来提高对自然语言信息的理解能力,使系统有较好的领域扩展性。对于识别效果不好的语言信息只需按照其语法结构抽象出新的规则并添加到系统中,就能够改善对这类句子的识别效果,实现起来简单而有效。
附图说明
图1为本发明的自然语言处理系统的原理图。
具体实施方式
下面结合附图和具体实施方式对本发明的技术方案作进一步详细地说明。
参照图1,一种自然语言处理系统,包括输入模块、语境处理模块、预处理模块、分词处理模块、后处理模块、参数标注模块、语法数据库、文法规则匹配模块、知识数据库、逻辑推理模型库和输出模块;
所述输入模块用于通过输入设备输入自然语言;
所述语境处理模块用于通过联系上下文,分析自然语言所处的语境;
所述预处理模块用于对自然语言的源文本进行标记、拆分以及干扰符号的删除,提高分词速度和准确率;
所述分词处理模块用于将自然语言的句子划分为词序列;
所述后处理模块用于对分词处理模块的分词结果进行优化;比如表示“今天”可以说:今天,今日,今儿,今儿个等,这里采用同义词集生成的规范化映射表,可以将分词处理模块的分词结果中不规范的词全部替换为标准词,便于机器识别。
所述参数标注模块用于对后处理模块的分词结果进行参数标注;比如在查询天气时候可以问“今天北京天气怎么样”,这句话包含了两类参数,它们分别是时间参数“今天”和城市参数“北京”。
所述文法规则匹配模块根据语法数据库、知识数据库、逻辑推理模型库和参数标注模块标注后的分词结果进行匹配;由于参数对机器理解自然语言信息起到了较大的辅助作用,参数标注也就成为了分词结果进行文法规则匹配前的一个重要准备工作。参数标注与词性标注类似,不过标注的内容不是词性,而是词所包含的参数类型。比如“天安门”在进行参数标注时,将被标记两个参数:[地点]和[景点],分别对应“问路”和“旅游”两个领域的信息查询。
所述输出模块用于通过输出设备输出自然语言的处理结果的文字、图形和语音。
所述输入设备包括键盘、语音设备、图文扫描设备。
所述干扰符号包括无用的空格、回车和与输入介质相关的符号。
所述输出设备包括屏幕、麦克风、打字机。
本发明的自然语言处理系统在具体应用过程中,通过输入模块的输入设备输入自然语言“今儿个,北京天儿怎么样,想去天安门”;语境处理模块通过联系上下文,分析自然语言所处的语境,该句子的意思是想去天安门旅游,并不是问路,而是问天气;预处理模块对自然语言的源文本进行标记、拆分以及干扰符号的删除,提高分词速度和准确率;分词处理模块将自然语言的句子划分为词序列;后处理模块用于对分词处理模块的分词结果进行优化;参数标注模块对后处理模块的分词结果进行参数标注;所述文法规则匹配模块根据语法数据库、知识数据库、逻辑推理模型库和参数标注模块标注后的分词结果进行匹配;输出模块通过输出设备输出自然语言的处理结果的文字、图形和语音:“北京今天的天气怎么样,想去天安门旅游”。本发明所述系统的作用是把不规范的自然语言句子,经过此系统后,变为规范的自然语言句子,便于计算机进行处理。
以上所述,仅为本发明较佳的具体实施方式,本发明的保护范围不限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可显而易见地得到的技术方案的简单变化或等效替换均落入本发明的保护范围内。

Claims (4)

1.一种自然语言处理系统,其特征在于,包括输入模块、语境处理模块、预处理模块、分词处理模块、后处理模块、参数标注模块、语法数据库、文法规则匹配模块、知识数据库、逻辑推理模型库和输出模块;
所述输入模块用于通过输入设备输入自然语言;
所述语境处理模块用于通过联系上下文,分析自然语言所处的语境;
所述预处理模块用于对自然语言的源文本进行标记、拆分以及干扰符号的删除,提高分词速度和准确率;
所述分词处理模块用于将自然语言的句子划分为词序列;
所述后处理模块用于对分词处理模块的分词结果进行优化;
所述参数标注模块用于对后处理模块的分词结果进行参数标注;
所述文法规则匹配模块根据语法数据库、知识数据库、逻辑推理模型库和参数标注模块标注后的分词结果进行匹配;
所述输出模块用于通过输出设备输出自然语言的处理结果的文字、图形和语音。
2.根据权利要求1所述的自然语言处理系统,其特征在于,所述输入设备包括键盘、语音设备、图文扫描设备。
3.根据权利要求1所述的自然语言处理系统,其特征在于,所述干扰符号包括无用的空格、回车和与输入介质相关的符号。
4.根据权利要求1所述的自然语言处理系统,其特征在于,所述输出设备包括屏幕、麦克风、打字机。
CN201811069719.5A 2018-09-13 2018-09-13 一种自然语言处理系统 Pending CN109213846A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811069719.5A CN109213846A (zh) 2018-09-13 2018-09-13 一种自然语言处理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811069719.5A CN109213846A (zh) 2018-09-13 2018-09-13 一种自然语言处理系统

Publications (1)

Publication Number Publication Date
CN109213846A true CN109213846A (zh) 2019-01-15

Family

ID=64983442

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811069719.5A Pending CN109213846A (zh) 2018-09-13 2018-09-13 一种自然语言处理系统

Country Status (1)

Country Link
CN (1) CN109213846A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110568835A (zh) * 2019-07-30 2019-12-13 湖南海博瑞德电智控制技术有限公司 汽车电控系统空载测试方法和装置
CN110705296A (zh) * 2019-09-12 2020-01-17 华中科技大学 一种基于机器学习和深度学习的中文自然语言处理工具系统
CN112241630A (zh) * 2020-10-30 2021-01-19 深圳供电局有限公司 基于自然语言处理的变电可研规范词条分析方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100533431C (zh) * 2005-09-21 2009-08-26 富士通株式会社 一种基于语素标注的自然语言成分识别、校正装置及方法
CN102968409A (zh) * 2012-11-23 2013-03-13 海信集团有限公司 智能人机交互语义分析方法及交互系统
CN103631882A (zh) * 2013-11-14 2014-03-12 北京邮电大学 基于图挖掘技术的语义化业务生成系统和方法
CN104462064A (zh) * 2014-12-15 2015-03-25 陈包容 一种移动终端信息通讯提示输入内容的方法和系统
CN108446286A (zh) * 2017-02-16 2018-08-24 阿里巴巴集团控股有限公司 一种自然语言问句答案的生成方法、装置及服务器

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100533431C (zh) * 2005-09-21 2009-08-26 富士通株式会社 一种基于语素标注的自然语言成分识别、校正装置及方法
CN102968409A (zh) * 2012-11-23 2013-03-13 海信集团有限公司 智能人机交互语义分析方法及交互系统
CN103631882A (zh) * 2013-11-14 2014-03-12 北京邮电大学 基于图挖掘技术的语义化业务生成系统和方法
CN104462064A (zh) * 2014-12-15 2015-03-25 陈包容 一种移动终端信息通讯提示输入内容的方法和系统
CN108446286A (zh) * 2017-02-16 2018-08-24 阿里巴巴集团控股有限公司 一种自然语言问句答案的生成方法、装置及服务器

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110568835A (zh) * 2019-07-30 2019-12-13 湖南海博瑞德电智控制技术有限公司 汽车电控系统空载测试方法和装置
CN110705296A (zh) * 2019-09-12 2020-01-17 华中科技大学 一种基于机器学习和深度学习的中文自然语言处理工具系统
CN112241630A (zh) * 2020-10-30 2021-01-19 深圳供电局有限公司 基于自然语言处理的变电可研规范词条分析方法及系统

Similar Documents

Publication Publication Date Title
CN106777275B (zh) 基于多粒度语义块的实体属性和属性值提取方法
Salloum et al. A survey of lexical functional grammar in the Arabic context
Jiang et al. Generating Chinese couplets using a statistical MT approach
CN109726293A (zh) 一种因果事件图谱构建方法、系统、装置及存储介质
CN110717018A (zh) 一种基于知识图谱的工业设备故障维修问答系统
CN103116578A (zh) 一种融合句法树和统计机器翻译技术的翻译方法与装置
CN101599071A (zh) 对话文本主题的自动提取方法
CN103823857B (zh) 基于自然语言处理的空间信息检索方法
CN109213846A (zh) 一种自然语言处理系统
CN103020230A (zh) 一种语义模糊匹配方法
CN103314369B (zh) 机器翻译装置和方法
CN101196881A (zh) 文本中数字和特殊符号串的文字符号化处理方法及系统
CN105068990B (zh) 一种面向机器翻译的多策略英文长句分割方法
CN106257455A (zh) 一种基于依存关系模板抽取观点评价对象的Bootstrapping算法
CN110991179A (zh) 基于电力专业术语的语义分析方法
CN103885924A (zh) 一种领域自适应的公开课字幕自动生成系统及方法
CN113934909A (zh) 基于预训练语言结合深度学习模型的金融事件抽取方法
CN112307756A (zh) 基于Bi-LSTM和字词融合的汉语分词方法
CN111897958B (zh) 基于自然语言处理的古诗词分类方法
CN107256210A (zh) 基于深度语义分析的学生英语写作人工智能系统
CN110362803B (zh) 一种基于领域特征词法组合的文本模板生成方法
Yang et al. Analysis of AI MT based on fuzzy algorithm
CN113761919A (zh) 一种口语化短文本的实体属性提取方法及电子装置
Chen Research on nature language processing in the application of computer-assisted teaching
Wang Research on cultural translation based on neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190115