CN111597790B

CN111597790B - 一种基于人工智能的自然语言处理系统

Info

Publication number: CN111597790B
Application number: CN202010449550.7A
Authority: CN
Inventors: 师夏阳; 黄莉伟; 李璞; 李玉华; 陈明; 马军霞; 刘静静
Original assignee: Zhengzhou University of Light Industry
Current assignee: Zhengzhou University of Light Industry
Priority date: 2020-05-25
Filing date: 2020-05-25
Publication date: 2023-12-05
Anticipated expiration: 2040-05-25
Also published as: CN111597790A

Abstract

本发明公开了一种基于人工智能的自然语言处理系统，具体涉及自然语言处理领域，包括信息采集硬件设备和语言处理终端，信息采集硬件设备的内部设有信息采集模块和信息预处理模块，语言处理终端的内部设有语言处理模块和数据处理模块，语言处理模块由自然语言工具包构成，数据处理模块的内部设有深度神经网络。本发明通过基于人工智能的深度学习进行自然语言处理，利用检查和使用数据中的模式来改善程序的理解程度，通过变量赋值与算法优化构建神经网络，再通过神经网络预测和正确输出之间得差异做出记录，并且调谐输入的权重以提高其预测的准确性，待该自然语言处理随着使用时长得增加，使得自然语言处理智能化准确性逐渐提高。

Description

一种基于人工智能的自然语言处理系统

技术领域

本发明涉及自然语言处理技术领域，更具体地说，本发明具体为一种基于人工智能的自然语言处理系统。

背景技术

自然语言通常是指一种自然地随文化演化的语言，如英语、汉语、日语等，是人类交流和思维的主要工具，自然语言处理是计算机以一种聪明而有用的方式分析，理解和从人类语言中获取意义的一种方式，通过利用自然语言处理，开发者可以组织和构建知识来执行自动摘要，翻译，命名实体识别，关系提取，情感分析，语音识别和话题分割等任务。

在自然语言的处理研究中，一般对语义的处理只是在某范围内选定若干低级的原语，用这些原语的结构组织来解决高层次词条的语义，并且这些所需要原浯的语义必须清禁，这样可以解决一定范围的语义问题，实际仅仅是用一定范围的语法结构代替语义描述，并没有真正解决语义的表达问题，随着人工智能的研究取得一定进展计算机已从单纯的数值计算进人到知识处理阶段；从知识产业角度来看，自然语言处理软件占有重要的地位，专家系统、数据库、知识库，计算机辅助设计系统(CAD)、计算机辅助教学系统(Cal)、计算机辅助决策系统、办公室自动化管理系统、智能机器人等，全都需要自然语言做人机界面，长远看来，具有篇章理解能力的自然语言理解系统可用于机器自动翻译、情报检索、自动标引及自动文摘等领域，有着广阔的应用前景。

自然语言处理(NLP)是信息时代最重要的技术之一，理解复杂的语言也是人工智能的重要组成部分，自然语言处理的应用无处不在，因为人们用语言进行大部分沟通：网络搜索，广告，电子邮件，客户服务，语言翻译，发布学报告等等，目前，自然语言处理方法涉及更基于规则的方法，在这种方法中，简单的机器学习算法被告知要在文本中查找哪些单词和短语，并在这些短语出现时给出特定的响应，语言处理局限性较大，智能程度较低。

因此亟需提供一种基于人工智能的自然语言处理系统。

发明内容

为了克服现有技术的上述缺陷，本发明的实施例提供一种基于人工智能的自然语言处理系统，通过基于人工智能的深度学习进行自然语言处理，利用检查和使用数据中的模式来改善程序的理解程度，通过变量赋值与算法优化构建神经网络，再通过神经网络预测和正确输出之间得差异做出记录，并且调谐输入的权重以提高其预测的准确性，待该自然语言处理随着使用时长得增加，各层级被不断优化，使得自然语言处理智能化准确性逐渐提高；另外，本发明通过利用目前技术成熟的自然语言工具包，使用集词性标注、处理文本、分类和解析等模块的Python库作为该自然语言处理系统的语言处理模块，帮助系统对语言进行快速处理，为人工智能的深度神经网络提供大量语言特征信息，降低深度神经网络的运算量，有利于自然语言处理的快速运行，提高处理效率，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种基于人工智能的自然语言处理系统，包括信息采集硬件设备和语言处理终端，所述信息采集硬件设备的内部设有信息采集模块和信息预处理模块，所述语言处理终端的内部设有语言处理模块和数据处理模块，所述信息采集模块包括摄像头和麦克风，所述信息预处理模块包括PCB板、RAM模块、ROM模块和处理器，所述RAM模块、ROM模块和处理器集成于PCB板的表面，所述PCB板的输出端电性连接有数据传输模块，所述信息采集硬件设备的输出端通过数据传输模块与语言处理终端的输入端电信号连接，所述语言处理模块由自然语言工具包构成，所述数据处理模块的内部设有深度神经网络。

在一个优选地实施方式中，所述信息采集硬件设备用于文本信息和语音信息的提取以及文本信息和语音信息的数字化转换，所述PCB板的内部集成有模数转换模块和数模转换模块。

在一个优选地实施方式中，所述语言处理终端用于对信息采集硬件设备的数据进行词性标注、句法分析、自然语言生成、文本分类、信息检索、信息抽取、文字校对、问答系统分析、机器翻译、自动摘要和文字蕴涵分析处理，所述深度神经网络用于干预访问问答系统分析、机器翻译、自动摘要和文字蕴涵分析。

在一个优选地实施方式中，所述数据处理模块包括人为赋值调控和算法分析，所述人为赋值调控和算法分析构成深度神经网络的执行框架，所述人为赋值调控和算法分析包括概率论算法、统计学算法、逼近论算法、凸分析算法和算法复杂度理论以及模拟预测。

在一个优选地实施方式中，所述深度神经网络包括传统逻辑研究、认知模型和理论分析，所述深度神经网络用于执行学习简单特征、建立复杂特征和学习映射并输出。

在一个优选地实施方式中，所述传统逻辑研究由辅助机器学习模型构成，所述传统逻辑研究被配置为将第一分数分配给未被标记的观察，所述认知模型由目标机器学习模型构成，所述认知模型被配置为将第二分数给所述未被标记的观察，所述传统逻辑研究和认知模型来自不同的机器学习模型类别，所述认知模型是有限容量的机器学习模型，所述理论分析由比较部件构成，所述理论分析被配置为比较所述第一分数和所述第二分数，以确定认知模型已经返回假肯定或假否定的结果的概率，所述第一分数和第二分数的比较部件还被配置为执行包括以下操作的比较：确定所述第一分数和所述第二分数之间的差的幅度；在所述幅度为负时，确定目标机器学习模型已经返回假肯定；以及在所述幅度为正时，确定目标机器学习模型已经返回假否定。

在一个优选地实施方式中，所述数据处理模块的内部集成有问答系统分析、机器翻译、自动摘要和文字蕴涵分析算法，所述数据处理模块的输出端电性连接有结果输出，所述结果输出为I/O通信协议接口。

在一个优选地实施方式中，所述自然语言工具包的内部集成有词性标注、句法分析、自然语言生成、文本分类、信息检索、信息抽取和文字校对算法，所述自然语言工具包为基于Chainer框架创建的Python数据库。

本发明的技术效果和优点：

1、本发明通过基于人工智能的深度学习进行自然语言处理，利用检查和使用数据中的模式来改善程序的理解程度，通过变量赋值与算法优化构建神经网络，再通过神经网络预测和正确输出之间得差异做出记录，并且调谐输入的权重以提高其预测的准确性，待该自然语言处理随着使用时长得增加，各层级被不断优化，使得自然语言处理智能化准确性逐渐提高；

2、本发明通过利用目前技术成熟的自然语言工具包，使用集词性标注、处理文本、分类和解析等模块的Python库作为该自然语言处理系统的语言处理模块，帮助系统对语言进行快速处理，为人工智能的深度神经网络提供大量语言特征信息，降低深度神经网络的运算量，有利于自然语言处理的快速运行，提高处理效率；

3、本发明通过设置分体式机构，利用信息采集硬件设备进语音和文字两种方式的信息采集，扩大该自然语言处理系统的适用范围，扩大使用场景，且利用独立的语言处理终端作为语言处理和数据处理的运算机构，分体式布置有利于语言处理终端的一对多联接，降低信息采集硬件设备的数据处理运算量，简化硬件结构，适用于大量推广与普及。

附图说明

图1为本发明的整体结构示意图。

图2为本发明的信息采集硬件结构示意图。

图3为本发明的深度神经网络的组成以及执行结构示意图。

图4为本发明的数据处理模块与深度神经网络的协同作用示意图。

图5为本发明的自然语言工具包执行结构示意图。

图6为本发明的数据处理模块执行结构示意图。

附图标记为：1、信息采集硬件设备；2、语言处理终端；3、信息采集模块；4、信息预处理模块；5、语言处理模块；6、数据处理模块；7、结果输出；8、自然语言工具包；9、深度神经网络；11、摄像头；12、麦克风；13、PCB板；14、RAM模块；15、ROM模块；16、处理器；17、数据传输模块；61、人为赋值调控；62、算法分析；91、传统逻辑研究；92、认知模型；93、理论分析。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如附图1-6所示的一种基于人工智能的自然语言处理系统，包括信息采集硬件设备1和语言处理终端2，信息采集硬件设备1的内部设有信息采集模块3和信息预处理模块4，语言处理终端2的内部设有语言处理模块5和数据处理模块6，信息采集模块3包括摄像头11和麦克风12，信息预处理模块4包括PCB板13、RAM模块14、ROM模块15和处理器16，RAM模块14、ROM模块15和处理器16集成于PCB板13的表面，PCB板13的输出端电性连接有数据传输模块17，信息采集硬件设备1的输出端通过数据传输模块17与语言处理终端2的输入端电信号连接，语言处理模块5由自然语言工具包8构成，数据处理模块6的内部设有深度神经网络9。

实施方式具体为：通过基于人工智能的深度学习进行自然语言处理，利用检查和使用数据中的模式来改善程序的理解程度，通过变量赋值与算法优化构建神经网络，再通过神经网络预测和正确输出之间得差异做出记录，并且调谐输入的权重以提高其预测的准确性，待该自然语言处理随着使用时长得增加，各层级被不断优化，使得自然语言处理智能化准确性逐渐提高；另外，本发明通过利用目前技术成熟的自然语言工具包8，使用集词性标注、处理文本、分类和解析等模块的Python库作为该自然语言处理系统的语言处理模块，帮助系统对语言进行快速处理，为人工智能的深度神经网络9提供大量语言特征信息，降低深度神经网络的运算量，有利于自然语言处理的快速运行，提高处理效率。

其中，信息采集硬件设备1用于文本信息和语音信息的提取以及文本信息和语音信息的数字化转换，PCB板13的内部集成有模数转换模块和数模转换模块，用于将收录的文本和语音信息转换为机器可识别的二进制信息。

其中，语言处理终端2用于对信息采集硬件设备1的数据进行词性标注、句法分析、自然语言生成、文本分类、信息检索、信息抽取、文字校对、问答系统分析、机器翻译、自动摘要和文字蕴涵分析处理，深度神经网络9用于干预访问问答系统分析、机器翻译、自动摘要和文字蕴涵分析，实现对文本和语音的二进制信息进行分析处理。

其中，数据处理模块6包括人为赋值调控61和算法分析62，人为赋值调控61和算法分析62构成深度神经网络9的执行框架，人为赋值调控61和算法分析62包括概率论算法、统计学算法、逼近论算法、凸分析算法和算法复杂度理论以及模拟预测，用于架构深度神经网络9，通过深度神经网络9实现不断优化的处理系统。

其中，深度神经网络9包括传统逻辑研究91、认知模型92和理论分析93，深度神经网络9用于执行学习简单特征、建立复杂特征和学习映射并输出，实现深度神经网络9的执行步骤，利用传统逻辑研究91、认知模型92和理论分析93作为深度神经网络9的算法控制链，保证深度神经网络9的反馈优化操作。

其中，传统逻辑研究91由辅助机器学习模型构成，传统逻辑研究91被配置为将第一分数分配给未被标记的观察，认知模型92由目标机器学习模型构成，认知模型92被配置为将第二分数给未被标记的观察，传统逻辑研究91和认知模型92来自不同的机器学习模型类别，认知模型92是有限容量的机器学习模型，理论分析93由比较部件构成，理论分析93被配置为比较第一分数和第二分数，以确定认知模型92已经返回假肯定或假否定的结果的概率，第一分数和第二分数的比较部件还被配置为执行包括以下操作的比较：确定第一分数和第二分数之间的差的幅度；在幅度为负时，确定目标机器学习模型已经返回假肯定；以及在幅度为正时，确定目标机器学习模型已经返回假否定，实现自动机器学习。

其中，数据处理模块6的内部集成有问答系统分析、机器翻译、自动摘要和文字蕴涵分析算法，数据处理模块6的输出端电性连接有结果输出7，结果输出7为I/O通信协议接口，用于数据信息的智能分析，提取信息更深层次的信息内容。

其中，自然语言工具包8的内部集成有词性标注、句法分析、自然语言生成、文本分类、信息检索、信息抽取和文字校对算法，自然语言工具包8为基于Chainer框架创建的Python数据库，通过现有的Chainer框架协同深度神经网络9的执行。

本发明工作原理：

第一步：信息采集和预处理即通过信息采集硬件设备1内的摄像头11和麦克风12对待提取的语言信息进行采集，并通过信息采集硬件设备1内部集成的处理器16模块的模数转换和数模转换将采集的语音或文本信息收录并进行“模-数”转换，“模-数”转换分别包括：预滤波、采样和量化，之后将量化后的数字信号编码成二进制信息，并将数据信息用ROM模块15存储并通过数据传输模块传递利至语言处理终端；

第二步：语言处理终端2收到的数据信息，利用自然语言工具包8，分布进行处理文本、分类、标记化、词法分析、标记和解析，作为该自然语言处理系统的语言处理模块，帮助系统对语言进行快速处理，为人工智能的深度神经网络9提供大量语言特征信息；之后在数据处理模块6和数据处理模块深度神经网络9的协同下进行词性标注、命名实体识别器、共识解析系统和情感分析，并利用检查和使用数据中的模式来改善程序的理解程度，通过变量赋值与算法优化构建神经网络，再通过神经网络预测和正确输出之间得差异做出记录，并且调谐输入的权重以提高其预测的准确性；

第三步：将语言处理终端2处理后的结果信息尽心输出供各种设备进行分析使用即可。

最后应说明的几点是：首先，在本申请的描述中，需要说明的是，除非另有规定和限定，术语“安装”、“相连”、“连接”应做广义理解，可以是机械连接或电连接，也可以是两个元件内部的连通，可以是直接相连，“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变，则相对位置关系可能发生改变；

其次：本发明公开实施例附图中，只涉及到与本公开实施例涉及到的结构，其他结构可参考通常设计，在不冲突情况下，本发明同一实施例及不同实施例可以相互组合；

最后：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于人工智能的自然语言处理系统，其特征在于：包括信息采集硬件设备(1)和语言处理终端(2)，所述信息采集硬件设备(1)的内部设有信息采集模块(3)和信息预处理模块(4)，所述语言处理终端(2)的内部设有语言处理模块(5)和数据处理模块(6)，所述信息采集模块(3)包括摄像头(11)和麦克风(12)，所述信息预处理模块(4)包括PCB板(13)、RAM模块(14)、ROM模块(15)和处理器(16)，所述RAM模块(14)、ROM模块(15)和处理器(16)集成于PCB板(13)的表面所述PCB板(13)的输出端电性连接有数据传输模块(17)，所述信息采集硬件设备(1)的输出端通过数据传输模块(17)与语言处理终端(2)的输入端电信号连接，所述语言处理模块(5)由自然语言工具包(8)构成，所述数据处理模块(6)的内部设有深度神经网络(9)；

所述数据处理模块(6)包括人为赋值调控(61)和算法分析(62)，所述人为赋值调控(61)和算法分析(62)构成深度神经网络(9)的执行框架，所述人为赋值调控(61)和算法分析(62)包括概率论算法、统计学算法、逼近论算法、凸分析算法和算法复杂度理论以及模拟预测，所述数据处理模块(6)的内部集成有问答系统分析、机器翻译、自动摘要和文字蕴涵分析算法，所述数据处理模块(6)的输出端电性连接有结果输出(7)，所述结果输出(7)为I/O通信协议接口；

所述深度神经网络(9)包括传统逻辑研究(91)、认知模型(92)和理论分析(93)，所述深度神经网络(9)用于执行学习简单特征、建立复杂特征和学习映射并输出；

所述传统逻辑研究(91)由辅助机器学习模型构成，所述传统逻辑研究(91)被配置为将第一分数分配给未被标记的观察，所述认知模型(92)由目标机器学习模型构成，所述认知模型(92)被配置为将第二分数给所述未被标记的观察，所述传统逻辑研究(91)和认知模型(92)来自不同的机器学习模型类别，所述认知模型(92)是有限容量的机器学习模型，所述理论分析(93)由比较部件构成，所述理论分析(93)被配置为比较所述第一分数和所述第二分数，以确定认知模型(92)已经返回假肯定或假否定的结果的概率，所述第一分数和第二分数的比较部件还被配置为执行包括以下操作的比较：确定所述第一分数和所述第二分数之间的差的幅度；在所述幅度为负时，确定目标机器学习模型已经返回假肯定；以及在所述幅度为正时，确定目标机器学习模型已经返回假否定。

2.根据权利要求1所述的一种基于人工智能的自然语言处理系统，其特征在于：所述信息采集硬件设备(1)用于文本信息和语音信息的提取以及文本信息和语音信息的数字化转换，所述PCB板(13)的内部集成有模数转换模块和数模转换模块。

3.根据权利要求1所述的一种基于人工智能的自然语言处理系统，其特征在于：所述语言处理终端(2)用于对信息采集硬件设备(1)的数据进行词性标注、句法分析、自然语言生成、文本分类、信息检索、信息抽取、文字校对、问答系统分析、机器翻译、自动摘要和文字蕴涵分析处理，所述深度神经网络(9)用于干预访问问答系统分析、机器翻译、自动摘要和文字蕴涵分析。

4.根据权利要求3所述的一种基于人工智能的自然语言处理系统，其特征在于：所述自然语言工具包(8)的内部集成有词性标注、句法分析、自然语言生成、文本分类、信息检索、信息抽取和文字校对算法，所述自然语言工具包(8)为基于Chainer框架创建的Python数据库。