CN116257610B - 基于行业知识图谱的智能问答方法、装置、设备及介质 - Google Patents
基于行业知识图谱的智能问答方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN116257610B CN116257610B CN202310063952.7A CN202310063952A CN116257610B CN 116257610 B CN116257610 B CN 116257610B CN 202310063952 A CN202310063952 A CN 202310063952A CN 116257610 B CN116257610 B CN 116257610B
- Authority
- CN
- China
- Prior art keywords
- data
- entity
- industry
- named entity
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000000605 extraction Methods 0.000 claims abstract description 48
- 238000004140 cleaning Methods 0.000 claims abstract description 13
- 238000010606 normalization Methods 0.000 claims abstract description 12
- 230000006870 function Effects 0.000 claims description 37
- 238000013507 mapping Methods 0.000 claims description 11
- 238000000354 decomposition reaction Methods 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 9
- 230000004048 modification Effects 0.000 claims description 9
- 238000012986 modification Methods 0.000 claims description 9
- 239000000284 extract Substances 0.000 claims description 6
- 238000000638 solvent extraction Methods 0.000 claims 1
- 238000004891 communication Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 238000007726 management method Methods 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及智能问答领域,揭露一种基于行业知识图谱的智能问答方法包括:获取行业知识,对行业知识进行数据清洗,得到目标行业数据,利用训练好的命名实体识别模型将目标行业数据进行实体命名,得到命名实体数据,对所述命名实体数据进行关系抽取,得到实体关系数据,构建实体关系数据的行业知识图谱;获取用户的原始意图问题,提取原始意图问题的问题实体,利用依存句法构建问题实体之间的依存关系,利用语法成分规范化算法将原始意图问题划分为多属性类组合问题;分析多属性类问题组合的问题意图,将问题意图转化为图谱查询语句。在行业知识图谱中查询目标答案,将目标答案反馈至所述用户。本发明主要在于提高智能问答的用户体验感。
Description
技术领域
本发明涉及智能问答技术领域,尤其涉及基于行业知识图谱的智能问答方法、装置、设备及介质。
背景技术
基于行业知识图谱的智能问答系统是指通过一问一答的形式为交互对象提高智能化服务,以知识图谱为基础的智能问答系统可以根据结构化的行业知识生成简介的答案,自动回复用户的自然语言问句,帮助用户更便捷地获取知识。
目前行业知识图谱智能问答系统主要是通过对用户输入问题的关键字进行提取后,到数据库进行比对,最后生成对应的答案返回用户,这种方法在处理多问题和表较复杂的提问时,很难准确分析出用过户提出问题的意图,导致生成的答案存在偏差,降低了用户的体验感。
发明内容
本发明提供基于行业知识图谱的智能问答方法、装置、设备及介质,其主要目的在于提高智能问答的用户体验感。
为实现上述目的,本发明提供的基于行业知识图谱的智能问答方法,包括:
获取行业知识,对所述行业知识进行数据清洗,得到目标行业数据,利用训练好的命名实体识别模型对所述目标行业数据进行实体命名,得到命名实体数据,利用训练好的关系抽取模型对所述命名实体数据进行关系抽取,得到实体关系数据,构建所述实体关系数据的行业知识图谱;
获取用户的原始意图问题,提取所述原始意图问题的问题实体,利用依存句法构建所述问题实体之间的依存关系,根据所述依存关系,利用语法成分规范化算法将所述原始意图问题划分为多属性类组合问题;
分析所述多属性类问题组合的问题意图,将所述问题意图转化为图谱查询语句;
利用所述图谱查询语句,在所述行业知识图谱中查询目标答案,将所述目标答案反馈至所述用户。
可选地,所述利用训练好的命名实体识别模型将所述目标行业数据进行实体命名,得到命名实体数据,包括:
利用所述命名实体识别模型中的识别层识别所述目标行业数据中的关键数据;
利用所述命名实体识别模型中的解析层解析所述关键数据的关键数据语义;
利用所述命名实体识别模型中映射层预设的命名实体与所述关键数据语义进行映射,得到所述命名实体数据。
可选地,所述特征函数,包括:
其中,表示第l层卷积层的第j个特征图;Wj表示输入的行业实体;/>表
示第i个特征图,和/>分别表示第l层卷积层的卷积核和偏置,f表示特征函数。
可选地,所述提取所述原始意图问题的问题实体,包括:
对所述原始意图问题进行无效数据去除,得到有效问题;
对所述有小问题进行结构分解,得到分解问题;
根利用NER实体提取函数提取所述分解问题中的所述问题实体。
可选地,所述NER实体提取函数,包括:
其中,所述Vi表示问题实体集合;NER表示实体提取函数;Di表示问题集合;表示第i个问题实体。
可选地,所述根据所述依存关系,利用语法成分规范化算法将所述原始意图问题划分为多属性类组合问题,包括:
根据所述依存关系,分析所述原始意图问题的问题属性;
根据所述问题属性,分别提取所述原始意图问题中的属性实体;
根据所述问题类型和所述属性实体,将所述原始意图问题划分为所述多属性类组合问题。
可选地,所述规范函数,包括:
其中,所述SECi表示图谱查询语句;表示实体优先级队列;Ti表示图谱语句修改规则。
为了解决上述问题,本发明还提供一种信息文本抽取装置,所述装置包括:
图谱创建模块,用于获取行业知识,对所述行业知识进行数据清洗,得到目标行业数据,利用训练好的命名实体识别模型对所述目标行业数据进行实体命名,得到命名实体数据,利用训练好的关系抽取模型对所述命名实体数据进行关系抽取,得到实体关系数据,构建所述实体关系数据的行业知识图谱;
问题拆解模块,用于获取用户的原始意图问题,提取所述原始意图问题的问题实体,利用依存句法构建所述问题实体之间的依存关系,根据所述依存关系,利用语法成分规范化算法将所述原始意图问题划分为多属性类组合问题;
图谱查询模块,用于分析所述多属性类问题组合的问题意图,将所述问题意图转化为图谱查询语句;
答案查询模块,用于利用所述图谱查询语句,在所述行业知识图谱中查询目标答案,将所述目标答案反馈至所述用户。
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述所述的信息文本抽取方法。
为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个计算机程序,所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的信息文本抽取方法。
本发明通过对所述行业知识进行数据清洗,得到目标行业数据,可以去除所述行业知识中的一些无用数据,提高后续数据处理的速度,紧接着,进一步地,本发明实施例通过利用训练好的命名实体识别模型将所述目标行业数据进行实体命名,得到命名实体数据可以将获取的大量行业数据进行归类命名,提高后期建立行业图谱效率。其次,本一步地,本发明实施例通过利用依存句法构建所述问题实体之间的依存关系可以进一步提高对用户提出问题意图进行识别,提高用户的体验感。再次,发明实施例通过分析所述多属性类问题组合的问题意图可以明确用户的查询目的,精准匹配答案给用户,提高用户的体验感。最后,本发明实施例通过利用所述图谱查询语句,在所述行业知识图谱中查询目标答案可以让用户收到符合自己阅读习惯的问题答案,提高用户的体验感。因此,本发明实施例提出的基于行业知识图谱的智能问答方法、装置、电子设备及介质,可以实现生成完整高效的基于行业知识图谱的智能问答系统及装置,提高用户问答的体验感。
附图说明
图1为本发明一实施例提供的信息文本抽取方法的流程示意图;
图2为本发明一实施例提供的信息文本抽取装置的功能模块图;
图3为本发明一实施例提供的实现所述信息文本抽取方法的电子设备的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本申请实施例提供基于行业知识图谱的智能问答方法。本申请实施例中,所述信息文本抽取方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之,所述信息文本抽取方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。所述服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
参照图1所示,为本发明一实施例提供的信息文本抽取方法的流程示意图。在本实施例中,所述信息文本抽取方法包括步骤S1—S4:
S1、获取行业知识,对所述行业知识进行数据清洗,得到目标行业数据,利用训练好的命名实体识别模型将所述目标行业数据进行实体命名,得到命名实体数据,利用训练好的关系抽取模型对所述命名实体数据进行关系抽取,得到实体关系数据,构建所述实体关系数据的行业知识图谱。
本发明实施例通过获取行业知识可以获取各行业的专业领域数据,为后期建立行业知识图谱提高数据支撑。其中,所述行业知识是指各行业专业领域内的行业数据,例如金融行业数据、电子数码行业数据、服装行业数据登行业数据。
进一步地,本发明实施例通过对所述行业知识进行数据清洗,得到目标行业数据,可以去除所述行业知识中的一些无用数据,提高后续数据处理的速度,可选的,所述行业知识的数据清洗包括:纠正错误、删除重复项、统一规格、修正逻辑、转换构造、数据压缩、补足残缺/空值、丢弃数据/变量等处理。
进一步地,本发明实施例通过利用训练好的命名实体识别模型将所述目标行业数据进行实体命名,得到命名实体数据可以将获取的大量行业数据进行归类命名,提高后期建立行业图谱效率。其中,所述命名实体数据是指对所述行业知识进行命名后的数据集合。
作为本发明的一个实施例,所述利用训练好的命名实体识别模型将所述目标行业数据进行实体命名,得到命名实体数据,包括:利用所述命名实体识别模型中的识别层识别所述目标行业数据中的关键数据;利用所述命名实体识别模型中的解析层解析所述关键数据的关键数据语义;利用所述命名实体识别模型中映射层预设的命名实体与所述关键数据语义进行映射,得到所述命名实体数据。
其中,所述识别层是指用来识别所述目标行业数据中具有代表性的关键数据信息,例如,地名、作者、位置等等数据;所述解析层是指用来分析所述关键数据的语义信息的层。所述映射层是指将解析后的关键数据语义与模型中预设的命名实体进行相互匹配找出对应的民命实体的层。
进一步地,本发明一可选实施例中,所述利用所述命名实体识别模型中的解析层解析所述关键数据的关键数据语义可以通过tagxedo语义分析工具来实现。
进一步地,本发明实施例通过利用训练好的关系抽取模型对所述命名实体数据进行关系抽取,得到实体关系数据可以将命名后的行业数据进行关系链接从而搭建行业知识图谱的基础模型。其中,所述实体关系数据是指将所述命名实体数据中不同实体之间进行一一的关系对应后得到的关系数据集合。
作为本发明的一个实施例,所述利用训练好的关系抽取模型对所述命名实体数据进行关系抽取,得到实体关系数据,包括:
利用所述关系抽取模型中的输入层提取所述命名实体数据的行业实体;利用所述关系抽取模型中的特征函数计算所述行业实体的特征矩阵,根据所述特征矩阵,利用所述关系抽取模型中的全连接层链接所述命名实体数据特征关系,得到所述实体关系数据。
其中,所述输入层是指接收数据并对识别其数据实体的层;所述特征矩阵是指各行业实体的特征关系;所述全连接层是指通过特征关系推出各实体之间关系的层。
进一步地,本发明一可选实施例中,所述特征函数,包括:
其中,表示第l层卷积层的第j个特征图;Wj表示输入的行业实体;/>
表示第i个特征图,和/>分别表示第l层卷积层的卷积核和偏置,f表示特征函数。
进一步地,本发明实施例通过构建所述实体关系数据的行业知识图谱可以让用户提问后得到更加符合自己阅读习惯的的回答,提高用户的体验感。其中,所述行业知识图谱是指把所有不同种类的行业信息连接在一起而得到的一个关系网络。
作为本发明的一个实施例,所述构建所述实体关系数据的行业知识图谱可以通过将所述实体关系数据存储至Neo4j图数据库中完成所述行业知识图谱的构建。
S2、获取用户的原始意图问题,提取所述原始意图问题的问题实体,利用依存句法构建所述问题实体之间的依存关系,根据所述依存关系,利用语法成分规范化算法将所述原始意图问题划分为多属性类组合问题。
本发明实施例通过获取用户的原始意图问题可以得到用户询问内容,为后期分析问题语义提供数据支撑。其中,所述原始意图问题是指用户提出的语句中包含多个问题。
进一步地,本发明实施例通过提取所述原始意图问题的问题实体可以初步分析用户问题的问题意图,增加分析的准确性。
作为本发明的一个实施例,所述提取所述原始意图问题的问题实体,包括:对所述原始意图问题进行无效数据去除,得到有效问题;对所述有小问题进行结构分解,得到分解问题;根利用NER实体提取函数提取所述分解问题中的所述问题实体。
其中,所述分解问题是指根据标点符号对所述原始意图问题进行拆分得到的问题集合;所述问题语义是指对所述分解问题进行语义解析后得到的问题语义集合。
进一步地,本发明一可选实施例中,所述NER实体提取函数,包括:
其中,所述Vi表示问题实体集合;NER表示实体提取函数;Di表示问题集合;表示第i个问题实体。
进一步地,本发明实施例通过利用依存句法构建所述问题实体之间的依存关系可以进一步提高对用户提出问题意图进行识别,提高用户的体验感。其中,所述依存关系是指问题实体之间的联系。
作为本发明的一个实施例,所述利用依存句法构建所述问题实体之间的依存关系,包括:提取所述问题实体中的核心动词;根据所述核心动词创建所述问题实体间的实体结点;根据所述实体结点,计算所述问题实体之间的依存列表。
其中,所述核心动词是指带有动作意图性的词语,例如跑步、打球等等词语;所述实体结点是指用来创建实体之间依存关系的点。
进一步地,本发明一可选实施例中,所述利用依存函数计算所述问题实体之间的依存列表可以通过DP依存函数来实现。
进一步地,本发明实施例通过根据所述依存关系,利用语法成分规范化算法将所述原始意图问题划分为多属性类组合问题可以将多问题转换为多个单问题从而提高意图识别的准确性,返回问题更加符合用户,提高用户的体验感。其中,所述多属性类组合问题是指将所述原始意图问题划分成多个单一问题集合。
作为本发明的一个实施例,所述根据所述依存关系,利用语法成分规范化算法将所述原始意图问题划分为多属性类组合问题,包括:根据所述依存关系,分析所述原始意图问题的问题属性;根据所述问题属性,分别提取所述原始意图问题中的属性实体;根据所述问题类型和所述属性实体,将所述原始意图问题划分为所述多属性类组合问题。
其中,所述问题属性是指问题类型的属性问句,例如实体属性类问句、主从实体属性类问句、关系类问句等属性问句。所述属性实体是指可以代表属性的实体,关系、区别、联系等。
进一步地,本发明一可选实施例中,所述根据所述依存关系,分析所述原始意图问题的问题属性可以通过依存关系树来实现。
S3、分析所述多属性类问题组合的问题意图,将所述问题意图转化为图谱查询语句。
本发明实施例通过分析所述多属性类问题组合的问题意图可以明确用户的查询目的,精准匹配答案给用户,提高用户的体验感。
作为本发明的一个实施例,所述分析所述多属性类问题组合的问题意图可以通过ALBERT提取所述多属性类问题组合的上下文语义,根据所述上下文语义来生成所述问题意图。
进一步地,本发明实施例通过将所述问题意图转化为图谱查询语句可以将用户提出的问题转换成可以进入知识图谱中进行查询的语句,返回用户精准且方便阅读的答案,进一步提高了用户的体验感。其中,所述图谱查询语句是指进行进入行业知识图谱中进行查询的查询语句。
作为本发明的一个实施例,所述将所述问题意图转化为图谱查询语句,包括:生成所述问题意图的初步图谱查询语句,根据所述图谱初步查询语句,配置图谱语句修改规则;根据所述图谱语句修改规则,利用规范函数生成所述图谱查询语句。
其中,所述初步图谱查询语句是指根据所述问题意图生成的问题;所述图谱语句修改规则是指生成图谱查询语句需要进行修改的规则。
进一步地,本发明一可选实施例中,所述规范函数,包括:
其中,所述SECi表示图谱查询语句;表示实体优先级队列;Ti表示图谱语句修改规则。
S4、利用所述图谱查询语句,在所述行业知识图谱中查询目标答案,将所述目标答案反馈至所述用户。
本发明实施例通过利用所述图谱查询语句,在所述行业知识图谱中查询目标答案可以让用户收到符合自己阅读习惯的问题答案,提高用户的体验感。
作为本发明的一个实施例,所述利用所述图谱查询语句,在所述行业知识图谱中查询目标答案,包括:分析所述图谱查询语句中的查询实体;将所述查询实体与所述行业知识图谱中的图谱实体进行相似度匹配,得到对应图谱实体;根据所述对应图谱实体,检索行业知识图谱中的所述查询目标答案。
其中,所述查询实体是指查询语句中特定结构的查询实体;例如最佳|运动|时间、最佳|睡眠|时间等等查询实体。对应图谱实体是指所述行业知识图谱中的实体。例如运动、睡眠等等实体。
进一步地,本发明一可选实施例中,所述将所述查询实体与所述行业知识图谱中的图谱实体进行相似度匹配可以通过相似度函数来实现。
进一步地,本发明一可选实施例中,所述检索行业知识图谱中的所述查询目标答案可以通过Mysq l查询语句来查询。
进一步地,本发明实施例通过将所述目标答案反馈至所述用户可以完成最后地返回任务,给用户提供问题答案,提高用户的体验感。
作为本发明的一个实施例,所述将所述目标答案反馈至所述用户可以通过request.setAttr i bute进行数据反馈。
本发明通过对所述行业知识进行数据清洗,得到目标行业数据,可以去除所述行业知识中的一些无用数据,提高后续数据处理的速度,紧接着,进一步地,本发明实施例通过利用训练好的命名实体识别模型将所述目标行业数据进行实体命名,得到命名实体数据可以将获取的大量行业数据进行归类命名,提高后期建立行业图谱效率。其次,本一步地,本发明实施例通过利用依存句法构建所述问题实体之间的依存关系可以进一步提高对用户提出问题意图进行识别,提高用户的体验感。再次,发明实施例通过分析所述多属性类问题组合的问题意图可以明确用户的查询目的,精准匹配答案给用户,提高用户的体验感。最后,本发明实施例通过利用所述图谱查询语句,在所述行业知识图谱中查询目标答案可以让用户收到符合自己阅读习惯的问题答案,提高用户的体验感。因此,本发明实施例提出的基于行业知识图谱的智能问答方法,可以实现生成完整高效的基于行业知识图谱的智能问答系统及装置,提高用户问答的体验感。
如图2所示,是本发明一实施例提供的基于行业知识图谱的智能问答装置的功能模块图。
本发明所述基于行业知识图谱的智能问答装置100可以安装于电子设备中。根据实现的功能,所述基于行业知识图谱的智能问答装置100可以包括图谱创建模块101、问题拆解模块102、图谱查询模块103及答案查询模块104。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
所述图谱创建模块101,用于获取行业知识,对所述行业知识进行数据清洗,得到目标行业数据,利用训练好的命名实体识别模型对所述目标行业数据进行实体命名,得到命名实体数据,利用训练好的关系抽取模型对所述命名实体数据进行关系抽取,得到实体关系数据,构建所述实体关系数据的行业知识图谱;
所述问题拆解模块102,用于获取用户的原始意图问题,提取所述原始意图问题的问题实体,利用依存句法构建所述问题实体之间的依存关系,根据所述依存关系,利用语法成分规范化算法将所述原始意图问题划分为多属性类组合问题;
所述图谱查询模块103,用于分析所述多属性类问题组合的问题意图,将所述问题意图转化为图谱查询语句;
所述答案查询模块104,用于利用所述图谱查询语句,在所述行业知识图谱中查询目标答案,将所述目标答案反馈至所述用户。
详细地,本申请实施例中所述信息文本抽取装置100中所述的各模块在使用时采用与上述图1中所述的信息文本抽取方法一样的技术手段,并能够产生相同的技术效果,这里不再赘述。
如图3所示,是本发明一实施例提供的实现信息文本抽取方法的电子设备1的结构示意图。
所述电子设备1可以包括处理器10、存储器11、通信总线12以及通信接口13,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如信息文本抽取方法程序。
其中,所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing Unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备1的控制核心(ControlUnit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如执行信息文本抽取方法程序等),以及调用存储在所述存储器11内的数据,以执行电子设备的各种功能和处理数据。
所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备的内部存储单元,例如该电子设备的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备的外部存储设备,例如电子设备上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(Secure Digital,SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器11还可以既包括电子设备的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备的应用软件及各类数据,例如信息文本抽取方法程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述通信总线12可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。
所述通信接口13用于上述电子设备1与其他设备之间的通信,包括网络接口和用户接口。可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备与其他电子设备之间建立通信连接。所述用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。
图3仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图3示出的结构并不构成对所述电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备1还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备1中的所述存储器11存储的信息文本抽取方法程序是多个指令的组合,在所述处理器10中运行时,可以实现:
获取行业知识,对所述行业知识进行数据清洗,得到目标行业数据,利用训练好的命名实体识别模型对所述目标行业数据进行实体命名,得到命名实体数据,利用训练好的关系抽取模型对所述命名实体数据进行关系抽取,得到实体关系数据,构建所述实体关系数据的行业知识图谱;
获取用户的原始意图问题,提取所述原始意图问题的问题实体,利用依存句法构建所述问题实体之间的依存关系,根据所述依存关系,利用语法成分规范化算法将所述原始意图问题划分为多属性类组合问题;
分析所述多属性类问题组合的问题意图,将所述问题意图转化为图谱查询语句;
利用所述图谱查询语句,在所述行业知识图谱中查询目标答案,将所述目标答案反馈至所述用户。
具体地,所述处理器10对上述指令的具体实现方法可参考附图对应实施例中相关步骤的描述,在此不赘述。
进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。所述计算机可读存储介质可以是易失性的,也可以是非易失性的。例如,所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
本发明还提供一种计算机可读存储介质,所述可读存储介质存储有计算机程序,所述计算机程序在被电子设备的处理器所执行时,可以实现:
获取行业知识,对所述行业知识进行数据清洗,得到目标行业数据,利用训练好的命名实体识别模型对所述目标行业数据进行实体命名,得到命名实体数据,利用训练好的关系抽取模型对所述命名实体数据进行关系抽取,得到实体关系数据,构建所述实体关系数据的行业知识图谱;
获取用户的原始意图问题,提取所述原始意图问题的问题实体,利用依存句法构建所述问题实体之间的依存关系,根据所述依存关系,利用语法成分规范化算法将所述原始意图问题划分为多属性类组合问题;
分析所述多属性类问题组合的问题意图,将所述问题意图转化为图谱查询语句;
利用所述图谱查询语句,在所述行业知识图谱中查询目标答案,将所述目标答案反馈至所述用户。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一、第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (8)
1.一种基于行业知识图谱的智能问答方法,其特征在于,所述方法包括:
获取行业知识,对所述行业知识进行数据清洗,得到目标行业数据,利用训练好的命名实体识别模型对所述目标行业数据进行实体命名,得到命名实体数据,利用训练好的关系抽取模型对所述命名实体数据进行关系抽取,得到实体关系数据,构建所述实体关系数据的行业知识图谱;
所述利用训练好的命名实体识别模型对所述目标行业数据进行实体命名得到命名实体数据包括:利用所述命名实体识别模型中的识别层识别所述目标行业数据中的关键数据;利用所述命名实体识别模型中的解析层解析所述关键数据的关键数据语义;利用所述命名实体识别模型中映射层对预设的命名实体与所述关键数据语义进行映射得到所述命名实体数据;所述命名实体数据是指对所述行业知识进行命名后的数据集合;
所述识别层是指用来识别所述目标行业数据中具有代表性的关键数据信息的层;所述解析层是指用来分析所述关键数据的语义信息的层;所述映射层是指将解析后的关键数据语义与模型中预设的命名实体进行相互匹配找出对应的命名实体的层;
所述利用训练好的关系抽取模型对所述命名实体数据进行关系抽取得到实体关系数据包括:利用所述关系抽取模型中的输入层提取所述命名实体数据的行业实体;利用所述关系抽取模型中的特征函数计算所述行业实体的特征矩阵;根据所述特征矩阵,利用所述关系抽取模型中的全连接层链接所述命名实体数据特征关系得到所述实体关系数据;所述输入层是指接收数据并识别其数据实体的层;所述特征矩阵是指各行业实体的特征关系;所述全连接层是指通过特征关系推出各实体之间关系的层;
所述特征函数,包括:
其中,表示第l层卷积层的第j个特征图;wi表示输入的行业实体;/>表示第i个特征图,/>和/>分别表示第l层卷积层的卷积核和偏置,f表示特征函数;
获取用户的原始意图问题,提取所述原始意图问题的问题实体,利用依存句法构建所述问题实体之间的依存关系,根据所述依存关系,利用语法成分规范化算法将所述原始意图问题划分为多属性类组合问题;
分析所述多属性类问题组合的问题意图,将所述问题意图转化为图谱查询语句;
利用所述图谱查询语句,在所述行业知识图谱中查询目标答案,将所述目标答案反馈至所述用户。
2.根据权利要求1所述的方法,其特征在于,所述提取所述原始意图问题的问题实体,包括:
对所述原始意图问题进行无效数据去除,得到有效问题;
对所述有效问题进行结构分解,得到分解问题;
利用NER实体提取函数提取所述分解问题中的所述问题实体。
3.根据权利要求2所述的方法,其特征在于,所述NER实体提取函数,包括:
其中,所述Vi表示问题实体集合;NER表示实体提取函数;Di表示问题集合;表示第i个问题实体。
4.根据权利要求1所述的方法,其特征在于,所述根据所述依存关系,利用语法成分规范化算法将所述原始意图问题划分为多属性类组合问题,包括:
根据所述依存关系,分析所述原始意图问题的问题属性;
根据所述问题属性,分别提取所述原始意图问题中的属性实体;
根据所述问题类型和所述属性实体,将所述原始意图问题划分为所述多属性类组合问题。
5.根据权利要求1中任意一项所述的方法,其特征在于,将所述问题意图转化为图谱查询语句,包括:生成所述问题意图的初步图谱查询语句,根据所述图谱初步查询语句,配置图谱语句修改规则;根据所述图谱语句修改规则,利用规范函数生成所述图谱查询语句;
所述规范函数,包括:
其中,所述SECi表示图谱查询语句;表示实体优先级队列;Ti表示图谱语句修改规则。
6.一种基于行业知识图谱的智能问答装置,其特征在于,所述装置包括:
图谱创建模块,用于获取行业知识,对所述行业知识进行数据清洗,得到目标行业数据,利用训练好的命名实体识别模型对所述目标行业数据进行实体命名,得到命名实体数据,利用训练好的关系抽取模型对所述命名实体数据进行关系抽取,得到实体关系数据,构建所述实体关系数据的行业知识图谱;
所述利用训练好的命名实体识别模型对所述目标行业数据进行实体命名得到命名实体数据包括:利用所述命名实体识别模型中的识别层识别所述目标行业数据中的关键数据;利用所述命名实体识别模型中的解析层解析所述关键数据的关键数据语义;利用所述命名实体识别模型中映射层对预设的命名实体与所述关键数据语义进行映射得到所述命名实体数据;所述命名实体数据是指对所述行业知识进行命名后的数据集合;
所述识别层是指用来识别所述目标行业数据中具有代表性的关键数据信息的层;所述解析层是指用来分析所述关键数据的语义信息的层;所述映射层是指将解析后的关键数据语义与模型中预设的命名实体进行相互匹配找出对应的命名实体的层;
所述利用训练好的关系抽取模型对所述命名实体数据进行关系抽取得到实体关系数据包括:利用所述关系抽取模型中的输入层提取所述命名实体数据的行业实体;利用所述关系抽取模型中的特征函数计算所述行业实体的特征矩阵;根据所述特征矩阵,利用所述关系抽取模型中的全连接层链接所述命名实体数据特征关系得到所述实体关系数据;所述输入层是指接收数据并识别其数据实体的层;所述特征矩阵是指各行业实体的特征关系;所述全连接层是指通过特征关系推出各实体之间关系的层;
所述特征函数,包括:
其中,表示第l层卷积层的第j个特征图;wi表示输入的行业实体;/>表示第i个特征图,/>和/>分别表示第l层卷积层的卷积核和偏置,f表示特征函数;
问题拆解模块,用于获取用户的原始意图问题,提取所述原始意图问题的问题实体,利用依存句法构建所述问题实体之间的依存关系,根据所述依存关系,利用语法成分规范化算法将所述原始意图问题划分为多属性类组合问题;
图谱查询模块,用于分析所述多属性类问题组合的问题意图,将所述问题意图转化为图谱查询语句;
答案查询模块,用于利用所述图谱查询语句,在所述行业知识图谱中查询目标答案,将所述目标答案反馈至所述用户。
7.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至5中任意一项所述的基于行业知识图谱的智能问答方法。
8.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5中任意一项所述的基于行业知识图谱的智能问答方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310063952.7A CN116257610B (zh) | 2023-01-11 | 2023-01-11 | 基于行业知识图谱的智能问答方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310063952.7A CN116257610B (zh) | 2023-01-11 | 2023-01-11 | 基于行业知识图谱的智能问答方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116257610A CN116257610A (zh) | 2023-06-13 |
CN116257610B true CN116257610B (zh) | 2023-12-08 |
Family
ID=86687360
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310063952.7A Active CN116257610B (zh) | 2023-01-11 | 2023-01-11 | 基于行业知识图谱的智能问答方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116257610B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117493575A (zh) * | 2023-10-13 | 2024-02-02 | 南京乾创睿云信息科技有限公司 | 基于人工智能的公路水运工程管理方法及电子设备 |
CN117252211A (zh) * | 2023-10-18 | 2023-12-19 | 中建八局第一数字科技有限公司 | 提问意图识别模型的构建、提问意图识别方法及装置 |
CN117436531A (zh) * | 2023-12-21 | 2024-01-23 | 安徽大学 | 基于水稻病虫害知识图谱的问答系统及方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110929016A (zh) * | 2019-12-10 | 2020-03-27 | 北京爱医生智慧医疗科技有限公司 | 一种基于知识图谱的智能问答方法及装置 |
CN111708874A (zh) * | 2020-08-24 | 2020-09-25 | 湖南大学 | 基于复杂意图智能识别的人机交互问答方法与系统 |
CN113010660A (zh) * | 2021-04-22 | 2021-06-22 | 国网信息通信产业集团有限公司 | 一种基于知识图谱的智能问答方法及装置 |
CN113707303A (zh) * | 2021-08-30 | 2021-11-26 | 康键信息技术(深圳)有限公司 | 基于知识图谱的医疗问题解答方法、装置、设备及介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114610845B (zh) * | 2022-03-02 | 2024-05-14 | 北京百度网讯科技有限公司 | 基于多系统的智能问答方法、装置和设备 |
-
2023
- 2023-01-11 CN CN202310063952.7A patent/CN116257610B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110929016A (zh) * | 2019-12-10 | 2020-03-27 | 北京爱医生智慧医疗科技有限公司 | 一种基于知识图谱的智能问答方法及装置 |
CN111708874A (zh) * | 2020-08-24 | 2020-09-25 | 湖南大学 | 基于复杂意图智能识别的人机交互问答方法与系统 |
CN113010660A (zh) * | 2021-04-22 | 2021-06-22 | 国网信息通信产业集团有限公司 | 一种基于知识图谱的智能问答方法及装置 |
CN113707303A (zh) * | 2021-08-30 | 2021-11-26 | 康键信息技术(深圳)有限公司 | 基于知识图谱的医疗问题解答方法、装置、设备及介质 |
Non-Patent Citations (1)
Title |
---|
面向水利信息资源的智能问答系统构建与应用;张紫璇;陆佳民;姜笑;冯钧;;计算机与现代化(03);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116257610A (zh) | 2023-06-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116257610B (zh) | 基于行业知识图谱的智能问答方法、装置、设备及介质 | |
CN104361127B (zh) | 基于领域本体和模板逻辑的多语种问答接口快速构成方法 | |
CN111353310A (zh) | 基于人工智能的命名实体识别方法、装置及电子设备 | |
US20220277005A1 (en) | Semantic parsing of natural language query | |
CN113312461A (zh) | 基于自然语言处理的智能问答方法、装置、设备及介质 | |
CN112860727B (zh) | 基于大数据查询引擎的数据查询方法、装置、设备及介质 | |
CN111859969B (zh) | 数据分析方法及装置、电子设备、存储介质 | |
CN114979120B (zh) | 数据上传方法、装置、设备及存储介质 | |
CN113821622B (zh) | 基于人工智能的答案检索方法、装置、电子设备及介质 | |
CN109522396B (zh) | 一种面向国防科技领域的知识处理方法及系统 | |
CN112231417A (zh) | 数据分类方法、装置、电子设备及存储介质 | |
CN115238670B (zh) | 信息文本抽取方法、装置、设备及存储介质 | |
CN114781402A (zh) | 问诊意图识别方法、装置、电子设备及可读存储介质 | |
CN112507089A (zh) | 一种基于知识图谱的智能问答引擎及其实现方法 | |
CN114218472A (zh) | 基于知识图谱的智能搜索系统 | |
CN111986759A (zh) | 电子病历的解析方法、系统、计算机设备与可读存储介质 | |
CN108959366B (zh) | 一种开放性问答的方法 | |
CN114416939A (zh) | 智能问答方法、装置、设备及存储介质 | |
CN113420542B (zh) | 对话生成方法、装置、电子设备及存储介质 | |
Naeem et al. | Interacting with data warehouse by using a natural language interface | |
CN115964468A (zh) | 一种基于多层次模板匹配的乡村信息智能问答方法及装置 | |
CN115114420A (zh) | 一种知识图谱问答方法、终端设备及存储介质 | |
CN114840657A (zh) | 一种基于混合模式的api知识图谱自适应构建及智能问答方法 | |
Do et al. | An approach for translating mathematics problems in natural language to specification language COKB of intelligent education software | |
CN113255374B (zh) | 问答管理方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 030013 Room 707, Block A, Gaoxin Guozhi Building, No. 3, Dong'e'er Lane, Taiyuan Xuefu Park, Shanxi Comprehensive Reform Demonstration Zone, Taiyuan City, Shanxi Province Applicant after: Changhe Information Co.,Ltd. Address before: 030013 Room 707, Block A, Gaoxin Guozhi Building, No. 3, Dong'e'er Lane, Taiyuan Xuefu Park, Shanxi Comprehensive Reform Demonstration Zone, Taiyuan City, Shanxi Province Applicant before: Shanxi Changhe Technology Co.,Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |