CN114722169A - 一种企业智能问答系统、控制方法、介质、设备及终端 - Google Patents

一种企业智能问答系统、控制方法、介质、设备及终端 Download PDF

Info

Publication number
CN114722169A
CN114722169A CN202210269671.2A CN202210269671A CN114722169A CN 114722169 A CN114722169 A CN 114722169A CN 202210269671 A CN202210269671 A CN 202210269671A CN 114722169 A CN114722169 A CN 114722169A
Authority
CN
China
Prior art keywords
question
data
information
answering system
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210269671.2A
Other languages
English (en)
Inventor
杨清海
曲芮莹
刘佳宜
李静磊
沈中
沈八中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202210269671.2A priority Critical patent/CN114722169A/zh
Publication of CN114722169A publication Critical patent/CN114722169A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于智能问答技术领域,公开了一种企业智能问答系统、控制方法、介质、设备及终端,所述企业智能问答系统基于Flask框架设计开发,前端使用HTML、JavaScript、Css工具完成系统界面的设计,使用Ajex通信技术进行前后端的交互,包括数据采集模块、知识图谱构建模块、用户输入模块、问句分类模块、实体识别模块、模板匹配模块和答案反馈模块。本发明通过自然语言处理的方法帮助企业从工业领域知识图谱中快速准确的获取目标信息,对于工厂以后的设备检修、故障处理、人员调度、设备采购都起到了至关重要的作用,具有实用性和有效性,同时还能够对企业的设备选型、设备检修、人员调度以及故障维修等问题提供回复。

Description

一种企业智能问答系统、控制方法、介质、设备及终端
技术领域
本发明属于智能问答技术领域,尤其涉及一种企业智能问答系统、控制方法、介质、设备及终端。
背景技术
目前,在工业生产中,企业对于高速、精准获得目标信息的需求愈加强烈,问答系统是一门集合自然语言处理、信息检索、信息挖掘的多学科技术,以提问的方式进行呈现,通过分析问句的含义,真正理解提问者的意图,直接为提问者提供想要的结果,而不是大量的访问链接。这种简单的方式,更加适合追求高效率工作的企业。在深度学习技术和大数据的驱动下,可以通过神经网络在大量数据中学习特征表示从而寻找规律,无需人工制定规则模板,提高了问答系统的准确率。问答系统的诞生是以海量数据为基础的,传统形式的知识库仅支持机械性的检索,无法满足精准快速的问答系统的需求,知识图谱能够将零碎的数据组织起来,更有利于知识的搜索和分析,在自然语言处理方面的应用十分广泛,将知识图谱应用于问答系统,能够提高问答系统的智能性。
在知识存储方面,将工业知识以知识图谱的形式进行存储,不仅能够提高信息查询效率,而且通过图数据库能够对数据和关系进行直观的展示,为知识的存储、分析和利用提供良好的解决方案。
在信息检索方面,使用自然语言技术搭建的以知识图谱为基础的智能化问答系统,能够对自然语义进行精准分析,从而为用户提供更加精确快速的查询结果。
在工业领域,智能化工厂4.0的概念成为社会讨论热点,越来越多的工厂使用智能机器人或者计算机视觉检测技术代替人工劳动力,工厂的生产数据、设备数据、故障数据也逐渐转为智能存储,这对传统数据库和信息检索渠道造成一定压力,一方面数据量的攀升导致检索速度急剧下降,另一方面由于数据种类繁多,难以建立不同数据之间的联系,无法直观的对数据进行展示。因此,建立基于知识图谱的工业问答系统具有现实性的意义,不仅能够快速准确的满足非技术人员的业务需求,也为大量零散的工业知识提供了形式灵活的存储空间。
通过上述分析,现有技术存在的问题及缺陷为:
(1)传统形式的知识库仅支持机械性的检索,无法满足精准快速的问答系统的需求。本发明所构建的问答系统能够通过神经网络模型获取用户输入的意图,通过完善查询模板,在知识图谱中进行查找,将正确答案直接反馈给用户,对知识图谱数据以图数据结构进行存储,查询速度更快。
(2)工业智能化改革导致数据量激增、数据专业性较高、信息检索效率低的问题。本发明将工业知识以知识图谱的形式进行存储,不仅能够提高信息查询效率,而且通过图数据库能够对数据进行直观展示,为知识的存储、分析和利用提供良好的解决方案。
(3)目前尚未出现成熟的工业问答系统。领域知识图谱的研究能够为传统行业带来便利,将成为未来的研究热点。根据前期的准备在企业进行实地调研的过程中发现,随着工厂智能化的发展,数据种类及数量大大增加,目前尚未存在成熟的工业领域知识图谱。对于知识图谱能够高效实现数据组织、存储和管理,所以基于工业领域的知识图谱具有一定的研究价值。
发明内容
针对现有技术存在的问题,本发明提供了一种企业智能问答系统、控制方法、介质、设备及终端,尤其涉及一种基于工业领域知识图谱的企业智能问答系统、控制方法、介质、设备及终端,旨在解决工业智能化改革导致的数据量激增、数据专业性较高、信息检索效率低的问题。
本发明是这样实现的,一种企业智能问答系统,所述企业智能问答系统基于Flask框架设计开发,后端使用Python编程语言,前端使用HTML、JavaScript、Css工具完成系统界面的设计,使用Ajex通信技术进行前后端的交互,包括以下功能模块:
数据采集模块,用于收集企业设备信息、故障信息、生产信息和人员信息,通过爬虫获取互联网上的工业信息,并对数据进行清洗和整理,保存在MySQL数据库中;
知识图谱构建模块,用于选择Neo4j作为存储知识图谱的数据库,读取MySQL中的数据,将MySQL数据库中指定类型的数据导入知识图谱;
用户输入模块,用于接收用户在网页输入的自然语言问题,同时将问句发送给问句分类模块;
问句分类模块,用于构建问句分类数据集,并提出基于数据增强的CNN-BiGRU(卷积神经网络-双向门控循环单元)问句分类模型,对输入的自然语言问句进行特征提取及分类,得到分类结果;
实体识别模块,用于构建实体识别数据集,使用BiLSTM-CRF(双向长短期记忆网络-条件随机场)深度神经网络识别问句中出现过的实体,并通过实体链接技术找到知识图谱中对应的节点名称;
模板匹配模块,用于通过问句分类结果匹配查询模板,利用实体链接后的节点名称完善查询语句,在Neo4j图数据库中进行查询,将答案返回;
答案反馈模块,用于将模板匹配模块返回的答案展示在网页。
本发明的另一目的在于提供一种应用所述的企业智能问答系统的企业智能问答系统的控制方法,所述企业智能问答系统的控制方法包括以下步骤:
步骤一,利用数据采集模块收集企业设备信息、故障信息、生产信息和人员信息,通过爬虫获取互联网上的工业信息,并对数据进行清洗和整理,保存在MySQL数据库中;
步骤二,利用知识图谱构建模块选择Neo4j作为存储知识图谱的数据库,读取MySQL中的数据,将MySQL数据库中指定类型的数据导入知识图谱;
步骤三,利用用户输入模块接收用户在网页输入的自然语言问题,同时将问句发送给问句分类模块;
步骤四,利用问句分类模块构建问句分类数据集,并提出基于数据增强的CNN-BiGRU问句分类模型,对输入的自然语言问句进行特征提取及分类,得到分类结果;
步骤五,利用实体识别模块构建实体识别数据集,使用BiLSTM-CRF深度神经网络识别问句中出现过的实体,并通过实体链接技术找到知识图谱中对应的节点名称;
步骤六,利用模板匹配模块通过问句分类结果匹配查询模板,利用实体链接后的节点名称完善查询语句,在Neo4j图数据库中进行查询,将答案返回;
步骤七,利用答案反馈模块将模板匹配模块返回的答案展示在网页。
进一步,所述步骤一中的通过爬虫获取互联网上的工业信息包括:
基于python编程的Requests库、bs4库设计爬虫工具,通过逻辑代码自动进行浏览器的访问和数据定位,并将爬取到的信息进行整合,写入数据库中。
其中,所述数据采集包括:
(1)通过Requests的get方法或post方法获取网页信息;
(2)查看网页源代码确定所需爬取信息的位置,通过bs4定位至目标位置;
(3)将目标信息保存至数据库中。
进一步,所述步骤二中的图数据库Neo4j包括故障、故障类型、产品、维修方案、品牌、应用、人员姓名以及职位在内的多种节点标签,包括applicationIs、brandIs、hasProduct、occurIn、possibleFault、typeIs、needProduct、needMaintenance在内的多种节点之间的关系,还包括负载、轴数、精度、工作区域、安装方式、自重、能耗、防护等级以及版本在内的的九种属性。
其中,所述将数据导入知识图谱包括:
借助py2neo库中的Graph函数连接Neo4j图数据库,读取MySQL数据库,提取出相关的实体、关系及相关属性信息;利用节点创建函数Node将带有属性信息的节点导入知识图谱;利用关系创建函数Relationship将节点之间的关系导入知识图谱,完成工业知识图谱的搭建。
进一步,所述步骤四中的基于数据增强的CNN-BiGRU问句分类模型包括数据增强、向量表示、特征提取以及问句分类四个部分。
第一部分负责进行数据增强,采用回译的方式对人工构建的工业问句训练集数据进行选择性数据增强,随机选择部分语句进行回译,保存不同的文本形式,使用数据增强后的训练集对模型进行训练;
第二部分是嵌入层,采用Word2Vec预训练语言模型完成字向量的高效映射;
第三部分负责进行提取特征,分为卷积神经网络和双向门控循环单元两部分;将第二部分获取的字符级向量分别输入卷积神经网络(Convolutional Neural Network,CNN)和双向门控循环单元(Bidirectional Gated Recurrent Unit,BiGRU)两种网络,获取不同的特征图;
第四部分负责进行分类,采用softmax分类器获取问句类别。
进一步,所述步骤五中的工业实体识别数据集构建包括:
对知识图谱中的节点数据进行分析整理,确定实体识别标签,包括故障、故障类型、产品、维修方案、品牌和应用等;利用步骤二的数据完成工业命名实体收集,并进行BIO标注。
实体识别模型分为向量表示层、双向长短期记忆网络(Bidirectional Long-ShortTerm Memory,BiLSTM)、条件随机场序列标注层(Conditional Random Field,CRF);其中所述向量表示层负责为输入文本中的每个字符在向量查找表中搜索其相应的字符向量,对于向量查找表中没有的字符,使用随机赋值的向量进行表示后,将转换后的字符向量序列输入BiLSTM层;BiLSTM层由前向LSTM和反向LSTM共同组成,分别记录上文信息和下文信息,组合后获得在该时刻的输出表示;添加CRF层,用于通过训练数据自动学习并为最后的预测结果添加全局约束。
进一步,所述步骤六中,通过问句分类对自然语言问题进行处理后,根据问句类别找到对应的查询模板,利用实体链接的结果替换模板中的变量,借助py2neo库的run函数运行查询语句,将返回的结果进行组装,获得口语化答案。
本发明的另一目的在于提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器实现所述的企业智能问答系统。
本发明的另一目的在于提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器实现所述的企业智能问答系统。
本发明的另一目的在于提供一种信息数据处理终端,所述信息数据处理终端用于实现所述的企业智能问答系统。
结合上述的技术方案和解决的技术问题,请从以下几方面分析本发明所要保护的技术方案所具备的优点及积极效果为:
第一、针对上述现有技术存在的技术问题以及解决该问题的难度,紧密结合本发明的所要保护的技术方案以及研发过程中结果和数据等,详细、深刻地分析本发明技术方案如何解决的技术问题,解决问题之后带来的一些具备创造性的技术效果。具体描述如下:
本发明以企业内部的设备信息、故障信息、生产信息、人员信息为源数据,搭建简单的工业知识图谱,并研究以知识图谱为基础的企业智能问答系统,为企业工作人员提供更加精确快速的查询结果。
本发明结合企业数据和互联网数据构建了工业领域知识图谱,实现了数据的高效存储和管理,提出一种基于数据增强的CNN-BiGRU问句分类方法,通过人工构建的工业问句训练集进行训练,该模型提高了问句分类的准确率。本发明使用了一种BiLSTM-CRF实体识别模型,通过人工构建的工业实体训练集进行训练,该模型提高了工业实体识别准确度。本发明基于工业领域知识图谱的企业智能问答系为用户提供较好的使用体验,能够对企业的设备选型、设备检修、人员调度、故障维修等问题提供回复。
第二,把技术方案看做一个整体或者从产品的角度,本发明所要保护的技术方案具备的技术效果和优点,具体描述如下:
本发明通过自然语言处理的方法帮助企业从工业领域知识图谱中快速准确的获取目标信息,对于工厂以后的设备检修、故障处理、人员调度、设备采购都起到了至关重要的作用,具有实用性和有效性。
第三,作为本发明的权利要求的创造性辅助证据,还体现在以下几个重要方面:
(1)本发明的技术方案转化后的预期收益和商业价值为:
本发明将为合作公司提供服务,为生产线的故障检修、设备选型、定期维护提供专业意见参考,节约专家的时间,提高生产效率。
(2)本发明的技术方案填补了国内外业内技术空白:
本发明为企业构建首个中文工业领域知识图谱,另一方面,提出一种优化的问句分类模型,本质上属于文本分类模型,即基于数据增强的字符级CNN-BiGRU问句分类模型,与现有模型相比,该模型采用字符级向量,避免了中文分词错误带来的一系列影响,采用数据增强模块,避免数据集规模小造成的模型训练不充分,采用CNN和BiGRU网络共同完成特征提取,利用CNN提取文本的局部特征提取,利用BiGRU获取文本的长距离依赖关系,通过融合局部语义特征和全局语义特征,获得更好的问句分类效果。
(3)本发明的技术方案是否解决了人们一直渴望解决、但始终未能获得成功的技术难题:
以往,企业需要请特定领域的专家去解决设备选型、故障维修等问题,不仅耗费经济成本,而且浪费专家的时间,基于企业问答系统,能够对专家知识进行妥善管理,当用户再次面对相同问题时,能够从问答系统中获得参考意见。
其次,合作公司长期以来都面临着数据种类繁多、数据量大、数据专业性较强等问题,数据存放方式混乱,非专业人员无法在数据库中快速获取目标信息。基于知识图谱的存储方式解决了公司对于数据存储、管理方面的难题,并且问答的形式适用于大部分非专业人士。智能问答系统中采用基于神经网络的深度学习的方法完成用户意图识别、实体识别等关键人物,与基于机器学习的问答系统相比,准确率较高,为用户提供更好的体验。
(4)本发明的技术方案是否克服了技术偏见:
本发明克服了数据方面的困难。神经网络模型的优劣与训练集的好坏息息相关,本发明自主收集企业数据和互联网数据,构建了良好的工业实体识别数据集。结合企业常用问题,构建工业问句分类数据集。为模型训练打下良好基础。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的企业智能问答系统的控制方法流程图;
图2是本发明实施例提供的企业智能问答系统的控制方法原理图;
图3是本发明实施例提供的企业智能问答系统结构示意图;
图4是本发明实施例提供的爬虫流程图;
图5是本发明实施例提供的数据导入知识图谱流程图;
图6是本发明实施例提供的基于数据增强的问句分类模型示意图;
图7是本发明实施例提供的BiLSTM-CRF实体识别模型示意图;
图8是本发明实施例提供的结果查询流程图;
图9是本发明实施例提供的问答系统页面展示图;
图10本发明实施例提供的问句分类结果对比图;
图11本发明实施例提供的TextCNN模型和CNN-BiGRU模型的损失函数图;
图12本发明实施例提供的问答系统的测试准确率折线图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有技术存在的问题,本发明提供了一种企业智能问答系统、控制方法、介质、设备及终端,下面结合附图对本发明作详细的描述。
一、解释说明实施例。为了使本领域技术人员充分了解本发明如何具体实现,该部分是对权利要求技术方案进行展开说明的解释说明实施例。
如图1所示,本发明实施例提供的企业智能问答系统的控制方法包括:
S101,利用数据采集模块收集企业设备信息、故障信息、生产信息和人员信息,通过爬虫获取互联网上的工业信息,并对数据进行清洗和整理,保存在MySQL数据库中;
S102,利用知识图谱构建模块选择Neo4j作为存储知识图谱的数据库,读取MySQL中的数据,将MySQL数据库中指定类型的数据导入知识图谱;
S103,利用用户输入模块接收用户在网页输入的自然语言问题,同时将问句发送给问句分类模块;
S104,利用问句分类模块构建问句分类数据集,并提出基于数据增强的CNN-BiGRU问句分类模型,对输入的自然语言问句进行特征提取及分类,得到分类结果;
S105,利用实体识别模块构建实体识别数据集,使用BiLSTM-CRF深度神经网络识别问句中出现过的实体,并通过实体链接技术找到知识图谱中对应的节点名称;
S106,利用模板匹配模块通过问句分类结果匹配查询模板,利用实体链接后的节点名称完善查询语句,在Neo4j图数据库中进行查询,将答案返回;
S107,利用答案反馈模块将模板匹配模块返回的答案展示在网页。
本发明实施例提供的企业智能问答系统的控制方法原理图如图2所示。
如图3所示,本发明实施例提供的基于工业领域知识图谱的企业智能问答系统包括以下模块:
(1)数据采集模块,用于收集企业设备信息、故障信息、生产信息、人员信息,通过爬虫获取互联网上的工业信息,并对数据进行清洗和整理,保存在MySQL数据库中;
企业数据库中存储了设备信息、人员信息、生产信息、实际产线遇到的故障和相应的维修方案,这对于工厂以后的设备检修、故障处理、人员调度、设备采购都起到了至关重要的作用,因此,必须将该部分数据进行总结和数据清洗,存储在MySQL数据库中。对于工业领域问答系统的构建来说,获取大量准确有效的相关数据是首要任务,中国机器人网、机器人产业网、工博士机器人网等网站覆盖了多种多样的工业信息,比如机器人信息、故障描述及维修建议,因此通过爬虫工具对此类工业网站中的有效数据进行爬取,并保存到MySQL数据库,构建知识图谱时将有用的内容提取出来。
爬虫流程如图4所示。基于python编程的Requests库、bs4库设计简单的爬虫工具,通过逻辑代码自动进行浏览器的访问和数据定位,最后将爬取到的信息进行整合,写入数据库中,数据采集过程简要分为以下三步:
1)通过Requests的get方法或post方法获取网页信息;
2)查看网页源代码确定所需爬取信息的位置,通过bs4定位至目标位置;
3)将目标信息保存至数据库中。
知识图谱构建模块,选择Neo4j作为存储知识图谱的数据库,读取MySQL中的数据,将MySQL数据库中指定类型的数据导入知识图谱;
a.图数据库Neo4j中包括故障、故障类型、产品、维修方案、品牌、应用、人员姓名、职位等多种节点标签,applicationIs、brandIs、hasProduct、occurIn、possibleFault、typeIs、needProduct、needMaintenance等多种节点之间的关系。针对产品标签类型的节点,为了丰富产品信息,满足用户对于产品属性的查询要求,包括负载、轴数、精度、工作区域、安装方式、自重、能耗、防护等级、版本九种属性。如表1和表2所示。
b.将数据导入知识图谱。首先借助py2neo库中的Graph函数连接Neo4j图数据库,然后读取MySQL数据库,提取出相关的实体、关系及相关属性信息,接着利用节点创建函数Node将带有属性信息的节点导入知识图谱,最后利用关系创建函数Relationship将节点之间的关系导入知识图谱,完成工业知识图谱的搭建。
将数据导入知识图谱的流程如图5所示。
表1工业知识图谱的标签类型
Figure BDA0003554125330000111
表2工业知识图谱的关系类型
Figure BDA0003554125330000112
Figure BDA0003554125330000121
(3)用户输入模块,用于接收用户在网页输入的自然语言问题,同时将问句发送给问句分类模块。
基于Flask框架设计开发了企业智能问答系统,前端使用HTML、JavaScript、Css工具完成系统界面的设计,使用Ajex通信技术进行前后端的交互。
(4)问句分类模块,构建问句分类数据集,并提出一种基于数据增强的CNN-BiGRU问句分类模型,对输入的自然语言问句进行特征提取及分类,得到分类结果;
基于数据增强的CNN-BiGRU问句分类模型,模型结构如图6所示,共分为四个部分:数据增强、向量表示、特征提取、问句分类。
第一部分负责进行数据增强。采用回译的方式对人工构建的工业问句训练集数据进行选择性数据增强,随机选择部分语句进行回译,保存不同的文本形式,使用数据增强后的训练集对模型进行训练。
第二部分是嵌入层,采用Word2Vec预训练语言模型完成对字向量的高效映射。
第三部分负责进行提取特征,分为卷积神经网络和双向门控循环单元两部分。CNN的优势在于可以捕捉局部相关性,网络结构简单参数少,能够降低过拟合现象的产生,但是CNN中卷积核大小固定,超参调节复杂,无法建模更长的序列信息。BiGRU借助门控单元,实现了记忆功能,弥补了CNN的缺点,能够更好的捕捉长序列中的特征表示,借助上下文信息理解语义。因此将第二部分获取的字符级向量分别输入CNN和BiGRU两种网络,获取局部语义特征和全局语义特征,能够极大的丰富所提取的语义特征,为后续分类打下良好的基础。
第四部分负责进行分类,采用softmax分类器获取问句类别。
(5)实体识别模块,利用人工构建的工业实体识别数据集对BiLSTM-CRF模型及逆行训练,利用训练好的模型识别问句中出现过的实体,并通过实体链接技术找到知识图谱中对应的节点名称;
工业实体识别数据集构建过程:对知识图谱中的六种节点数据进行分析整理,确定六种实体识别标签,分别为:故障、故障类型、产品、维修方案、品牌、应用。利用步骤2)的数据完成工业命名实体收集,并进行BIO标注。
实体识别模型结构如图7所示,整体分为向量表示层、BiLSTM层、CRF序列标注层。向量表示层负责为输入文本中的每个字符在向量查找表中搜索其相应的字符向量,对于向量查找表中没有的字符,使用随机赋值的向量进行表示,然后将转换后的字符向量序列输入BiLSTM层。BiLSTM层由前向LSTM和反向LSTM共同组成,分别记录上文信息和下文信息,组合后获得在该时刻的输出表示。通过BiLSTM层获得的输出序列并不准确,没有考虑标签之间的依赖关系,容易导致识别出的命名实体无效。基于此问题添加了CRF层,CRF模型能够通过训练数据自动学习并为最后的预测结果添加一些全局约束,合理利用上下文之间的依赖关系,保证预测类别的合理有效性。
(6)模板匹配模块,通过问句分类结果匹配查询模板,利用实体链接后的节点名称完善查询语句,在Neo4j图数据库中进行查询,将答案返回;
通过问句分类对自然语言问题进行处理后,根据问句类别找到对应的查询模板,利用实体链接的结果替换模板中的变量,借助py2neo库的run函数运行查询语句,将返回的结果进行组装,获得口语化的答案。结果查询流程如图8所示。
(7)答案反馈模块,将步骤(6)返回的答案展示在网页。
二、应用实施例。为了证明本发明的技术方案的创造性和技术价值,该部分是对权利要求技术方案进行具体产品上或相关技术上的应用实施例。
本发明可以在计算机和手机上进行使用,呈现效果如图9,使用者需要在页面下方方框内输入问题,点击右侧按钮提交,问题将会反馈给后端逻辑处理模块,在知识图谱中找到答案之后会反馈在页面中的聊天框内。
应当注意,本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。
三、实施例相关效果的证据。本发明实施例在研发或者使用过程中取得了一些积极效果,和现有技术相比的确具备很大的优势,下面内容结合试验过程的数据、图表等进行描述。
本发明通过电子调查问卷形式收集工业问句,对企业问答系统的准确率进行测试,根据询问的意图将其划分为:故障方案、人员信息、设备属性、故障类别四种类型。实验结果如图12,通过企业问答系统获得的答案准确率较高,均能达到97.0%以上,最高能达到99.0%。
在问句分类模块,本发明提出一种基于数据增强的字符级CNN-BiGRU问句分类模型,为了验证该模型面向工业问句分类任务的性能,选用TextCNN文本分类模型进行对比实验,以精确率、召回率、F1值作为评价指标,对所提模型的分类性能进行评估。为了测试数据增强部分对于性能的影响程度,分别利用原数据和增强之后的训练数据进行实验。TextCNN分类模型与CNN-BiGRU分类模型的实验结果如图10所示。
如图10可知,无论是否添加数据增强模块,字符级CNN-BiGRU模型的召回率和F1值均高于TextCNN模型,增加数据增强模块后,两个模型的性能均获得提高,且字符级CNN-BiGRU模型的精确度、召回率、F1值显著高于TextCNN模型的结果,说明引入数据增强模块能够提高问句分类模型的性能。具体结果值如下表3所示。
表3问句分类结果值
模型 查准率/% 查重率/% F1值/%
w2v-textCNN 95.22 94.68 94.81
w2v-CNN-BiGRU 96.19 96.10 96.11
DA-w2v-textCNN 96.31 96.21 96.23
DA-w2v-CNN-BiGRU 97.98 97.96 97.96
与基础TextCNN模型相比,本文提出的DA-w2v-CNN-BiGRU模型在精确率、召回率、F1值方面分别提高2.76%、3.28%、3.15%,证明本文所提模型能够提高工业问句的分类效果。此外,与数据增强后的TextCNN模型相比,三种评价指标分别提高1.67%、1.75%、1.73%,说明BiGRU的加入弥补了卷积神经网络的不足,进一步提高了分类性能。
基于增强后的数据进行训练时,TextCNN模型和CNN-BiGRU模型的损失函数如图11所示,前5次迭代时损失值快速下降,之后趋于平缓,本文所提模型的损失值始终略低于TextCNN模型的损失值,且收敛速度更快、波动幅度更小,说明基于数据增强的字符级CNN-BiGRU问句分类模型具有稳定性。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种企业智能问答系统,其特征在于,所述企业智能问答系统基于Flask框架设计开发,前端使用HTML、JavaScript、Css工具完成系统界面的设计,使用Ajex通信技术进行前后端的交互,包括以下功能模块:
数据采集模块,用于收集企业设备信息、故障信息、生产信息和人员信息,通过爬虫获取互联网上的工业信息,并对数据进行清洗和整理,保存在MySQL数据库中;
知识图谱构建模块,用于选择Neo4j作为存储知识图谱的数据库,读取MySQL中的数据,将MySQL数据库中指定类型的数据导入知识图谱;
用户输入模块,用于接收用户在网页输入的自然语言问题,同时将问句发送给问句分类模块;
问句分类模块,用于构建问句分类数据集,并提出基于数据增强的CNN-BiGRU问句分类模型,对输入的自然语言问句进行特征提取及分类,得到分类结果;
实体识别模块,用于构建实体识别数据集,使用BiLSTM-CRF深度神经网络识别问句中出现过的实体,并通过实体链接技术找到知识图谱中对应的节点名称;
模板匹配模块,用于通过问句分类结果匹配查询模板,利用实体链接后的节点名称完善查询语句,在Neo4j图数据库中进行查询,将答案返回;
答案反馈模块,用于将模板匹配模块返回的答案展示在网页。
2.一种应用如权利要求1所述的企业智能问答系统的企业智能问答系统的控制方法,其特征在于,所述企业智能问答系统的控制方法包括以下步骤:
步骤一,利用数据采集模块收集企业设备信息、故障信息、生产信息和人员信息,通过爬虫获取互联网上的工业信息,并对数据进行清洗和整理,保存在MySQL数据库中;
步骤二,利用知识图谱构建模块选择Neo4j作为存储知识图谱的数据库,读取MySQL中的数据,将MySQL数据库中指定类型的数据导入知识图谱;
步骤三,利用用户输入模块接收用户在网页输入的自然语言问题,同时将问句发送给问句分类模块;
步骤四,利用问句分类模块构建问句分类数据集,并提出基于数据增强的CNN-BiGRU问句分类模型,对输入的自然语言问句进行特征提取及分类,得到分类结果;
步骤五,利用实体识别模块构建实体识别数据集,使用BiLSTM-CRF深度神经网络识别问句中出现过的实体,并通过实体链接技术找到知识图谱中对应的节点名称;
步骤六,利用模板匹配模块通过问句分类结果匹配查询模板,利用实体链接后的节点名称完善查询语句,在Neo4j图数据库中进行查询,将答案返回;
步骤七,利用答案反馈模块将模板匹配模块返回的答案展示在网页。
3.如权利要求2所述的企业智能问答系统的控制方法,其特征在于,所述步骤一中的通过爬虫获取互联网上的工业信息包括:
基于python编程的Requests库、bs4库设计爬虫工具,通过逻辑代码自动进行浏览器的访问和数据定位,并将爬取到的信息进行整合,写入数据库中;
其中,所述数据采集包括:
(1)通过Requests的get方法或post方法获取网页信息;
(2)查看网页源代码确定所需爬取信息的位置,通过bs4定位至目标位置;
(3)将目标信息保存至数据库中。
4.如权利要求2所述的企业智能问答系统的控制方法,其特征在于,所述步骤二中的图数据库Neo4j包括故障、故障类型、产品、维修方案、品牌、应用、人员姓名以及职位在内的多种节点标签,包括applicationIs、brandIs、hasProduct、occurIn、possibleFault、typeIs、needProduct、needMaintenance在内的多种节点之间的关系,还包括负载、轴数、精度、工作区域、安装方式、自重、能耗、防护等级以及版本在内的的九种属性;
其中,所述将数据导入知识图谱包括:
借助py2neo库中的Graph函数连接Neo4j图数据库,读取MySQL数据库,提取出相关的实体、关系及相关属性信息;利用节点创建函数Node将带有属性信息的节点导入知识图谱;利用关系创建函数Relationship将节点之间的关系导入知识图谱,完成工业知识图谱的搭建。
5.如权利要求2所述的企业智能问答系统的控制方法,其特征在于,所述步骤四中的基于数据增强的CNN-BiGRU问句分类模型包括数据增强、向量表示、特征提取以及问句分类四个部分;
第一部分负责进行数据增强,采用回译的方式对人工构建的工业问句训练集数据进行选择性数据增强,随机选择部分语句进行回译,保存不同的文本形式,使用数据增强后的训练集对模型进行训练;
第二部分是嵌入层,采用Word2Vec预训练语言模型完成字向量的高效映射;
第三部分负责进行提取特征,分为卷积神经网络和双向门控循环单元两部分;将第二部分获取的字符级向量分别输入CNN和BiGRU两种网络,获取不同的特征图;
第四部分负责进行分类,采用softmax分类器获取问句类别。
6.如权利要求2所述的企业智能问答系统的控制方法,其特征在于,所述步骤五中的工业实体识别数据集构建包括:
对知识图谱中的节点数据进行分析整理,确定实体识别标签,包括故障、故障类型、产品、维修方案、品牌和应用等;利用步骤二的数据完成工业命名实体收集,并进行BIO标注;
实体识别模型分为向量表示层、BiLSTM层、CRF序列标注层;其中所述向量表示层负责为输入文本中的每个字符在向量查找表中搜索其相应的字符向量,对于向量查找表中没有的字符,使用随机赋值的向量进行表示后,将转换后的字符向量序列输入BiLSTM层;BiLSTM层由前向LSTM和反向LSTM共同组成,分别记录上文信息和下文信息,组合后获得在该时刻的输出表示;添加CRF层,用于通过训练数据自动学习并为最后的预测结果添加全局约束。
7.如权利要求2所述的企业智能问答系统的控制方法,其特征在于,所述步骤六中,通过问句分类对自然语言问题进行处理后,根据问句类别找到对应的查询模板,利用实体链接的结果替换模板中的变量,借助py2neo库的run函数运行查询语句,将返回的结果进行组装,获得口语化答案。
8.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器实现如权利要求1所述的企业智能问答系统。
9.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器实现如权利要求1所述的企业智能问答系统。
10.一种信息数据处理终端,其特征在于,所述信息数据处理终端用于实现如权利要求1所述的企业智能问答系统。
CN202210269671.2A 2022-03-18 2022-03-18 一种企业智能问答系统、控制方法、介质、设备及终端 Pending CN114722169A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210269671.2A CN114722169A (zh) 2022-03-18 2022-03-18 一种企业智能问答系统、控制方法、介质、设备及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210269671.2A CN114722169A (zh) 2022-03-18 2022-03-18 一种企业智能问答系统、控制方法、介质、设备及终端

Publications (1)

Publication Number Publication Date
CN114722169A true CN114722169A (zh) 2022-07-08

Family

ID=82238184

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210269671.2A Pending CN114722169A (zh) 2022-03-18 2022-03-18 一种企业智能问答系统、控制方法、介质、设备及终端

Country Status (1)

Country Link
CN (1) CN114722169A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115409075A (zh) * 2022-11-03 2022-11-29 成都中科合迅科技有限公司 一种基于无线信号分析的特征分析系统
CN116860957A (zh) * 2023-07-25 2023-10-10 广州探迹科技有限公司 一种基于大语言模型的企业筛选方法、装置及介质
CN117112776A (zh) * 2023-09-23 2023-11-24 宏景科技股份有限公司 一种基于大语言模型的企业知识库管理和检索平台与方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112328797A (zh) * 2020-11-24 2021-02-05 山东师范大学 一种基于神经网络和注意力机制的情感分类方法及系统
CN112749562A (zh) * 2020-12-31 2021-05-04 合肥工业大学 命名实体识别方法、装置、存储介质及电子设备
CN113806513A (zh) * 2021-09-30 2021-12-17 中国人民解放军国防科技大学 一种基于军事领域知识图谱的问答系统构建方法及系统
CN113806539A (zh) * 2021-09-17 2021-12-17 平安科技(深圳)有限公司 一种文本数据增强系统、方法、设备及介质
CN115510863A (zh) * 2022-09-16 2022-12-23 武汉大学 一种面向问句匹配任务的数据增强方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112328797A (zh) * 2020-11-24 2021-02-05 山东师范大学 一种基于神经网络和注意力机制的情感分类方法及系统
CN112749562A (zh) * 2020-12-31 2021-05-04 合肥工业大学 命名实体识别方法、装置、存储介质及电子设备
CN113806539A (zh) * 2021-09-17 2021-12-17 平安科技(深圳)有限公司 一种文本数据增强系统、方法、设备及介质
CN113806513A (zh) * 2021-09-30 2021-12-17 中国人民解放军国防科技大学 一种基于军事领域知识图谱的问答系统构建方法及系统
CN115510863A (zh) * 2022-09-16 2022-12-23 武汉大学 一种面向问句匹配任务的数据增强方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
曲芮莹: "基于知识图谱的工业领域问答系统 研究与实现", 《万方数据》, 4 May 2023 (2023-05-04), pages 1 - 88 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115409075A (zh) * 2022-11-03 2022-11-29 成都中科合迅科技有限公司 一种基于无线信号分析的特征分析系统
CN116860957A (zh) * 2023-07-25 2023-10-10 广州探迹科技有限公司 一种基于大语言模型的企业筛选方法、装置及介质
CN116860957B (zh) * 2023-07-25 2024-04-16 广州探迹科技有限公司 一种基于大语言模型的企业筛选方法、装置及介质
CN117112776A (zh) * 2023-09-23 2023-11-24 宏景科技股份有限公司 一种基于大语言模型的企业知识库管理和检索平台与方法

Similar Documents

Publication Publication Date Title
CN110633409B (zh) 一种融合规则与深度学习的汽车新闻事件抽取方法
CN109766417B (zh) 一种基于知识图谱的文学编年史问答系统的构建方法
CN114722169A (zh) 一种企业智能问答系统、控制方法、介质、设备及终端
CN109947915B (zh) 一种基于知识管理系统的人工智能专家系统及其构建方法
CN111859160B (zh) 一种基于图神经网络会话序列推荐方法及系统
CN106682192A (zh) 一种基于搜索关键词训练回答意图分类模型的方法和装置
CN105389307A (zh) 语句意图类别识别方法及装置
CN110765277B (zh) 一种基于知识图谱的移动端的在线设备故障诊断方法
CN106708802A (zh) 一种信息推荐的方法及系统
CN112115252B (zh) 智能辅助写作处理方法、装置、电子设备及存储介质
CN112183056A (zh) 基于CNN-BiLSTM框架的上下文依赖的多分类情感分析方法和系统
CN113886567A (zh) 一种基于知识图谱的教学方法及系统
CN112101029B (zh) 一种基于bert模型的高校导师推荐管理方法
CN112528136A (zh) 一种观点标签的生成方法、装置、电子设备和存储介质
Chai Design and implementation of English intelligent communication platform based on similarity algorithm
CN117094395B (zh) 对知识图谱进行补全的方法、装置和计算机存储介质
CN110516164A (zh) 一种信息推荐方法、装置、设备及存储介质
CN117094390A (zh) 一种面向海洋工程领域的知识图谱构建及智能搜索方法
CN114911940A (zh) 文本情感识别方法及装置、电子设备、存储介质
Hu Application of top-n rule-based optimal recommendation system for language education content based on parallel computing
CN117540004B (zh) 基于知识图谱和用户行为的工业领域智能问答方法及系统
CN116976294B (zh) 一种用于实现复杂电子表格自动填充的方法及系统
CN116911280B (zh) 一种基于自然语言处理的评论分析报告生成方法
CN116702784B (zh) 实体链接方法、装置、计算机设备和存储介质
Sabnis et al. UPreG: An Unsupervised Approach for Building the Concept Prerequisite Graph.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination