CN115964468A - 一种基于多层次模板匹配的乡村信息智能问答方法及装置 - Google Patents

一种基于多层次模板匹配的乡村信息智能问答方法及装置 Download PDF

Info

Publication number
CN115964468A
CN115964468A CN202310039695.3A CN202310039695A CN115964468A CN 115964468 A CN115964468 A CN 115964468A CN 202310039695 A CN202310039695 A CN 202310039695A CN 115964468 A CN115964468 A CN 115964468A
Authority
CN
China
Prior art keywords
question
country
data
information
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310039695.3A
Other languages
English (en)
Inventor
邹志强
吴雅娟
王曙
曾煦晖
徐淑强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202310039695.3A priority Critical patent/CN115964468A/zh
Publication of CN115964468A publication Critical patent/CN115964468A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于多层次模板匹配的乡村信息智能问答方法及装置,所述方法包括获取用户输入的问句;使用朴素贝叶斯分类算法对问句进行分类,获取问句分类结果和问句实体,并对问句中的属性进行链接,获取问句目标属性;根据问句分类结果,确定自然语言问题所对应的数据库模板;将问句实体和问句目标属性填入数据库模板中,生成SPARQL查询语句,进而从预先构建的乡村知识图谱中查询得到问题答案,本发明能够将杂乱的数据转换为结构化的知识,增强乡村各实体的关联性,解决乡村信息查询低效和回答不准确的问题。

Description

一种基于多层次模板匹配的乡村信息智能问答方法及装置
技术领域
本发明涉及一种基于多层次模板匹配的乡村信息智能问答方法及装置,属于地理学生态文明模式乡村信息智能处理技术领域。
背景技术
地理学是研究地球表层空间地理要素或者地理综合体空间分布规律、时间演变过程和区域特征的一门学科。随着地理信息技术发展与研究方法变革,新时期的地理学正在向地理科学进行转身。生态文明模式是人类尊重自然、顺应自然、保护自然,并合理利用自然,具有榜样示范作用,可模仿、可复制的人类与自然和谐共生的发展模式。其中,乡村作为最小的行政单位,要实现可持续发展目标,其信息与发展模式的总结和快速查询显得尤为重要。乡村信息领域数据稀疏,相关的网络文本信息杂乱,查询乡村信息和回答乡村知识问题存在低效和不准确的情况。通过对乡村信息数据的爬取分析与问答,可以总结出乡村生态文明发展模式,这有助于促进乡村的可持续发展,对建设人与自然和谐、均衡发展的目标具有重要的理论和现实意义。
问答是自然语言处理中非常重要的研究内容,指的是计算机通过对用户输入语言进行自动解析,进而对用户所询问的问题做出回答。近年来,基于知识图谱的智能问答成为了研究热点,这是因为知识图谱是使用语义网络来对自然语言进行表示和存储,于此同时,利用知识图谱中实体间的联系,可以挖掘推理出其他潜在的关系。目前常用的基于知识图谱的问答有四种分别是基于语义解析的问答方法、基于深度学习的问答方法、基于嵌入学习的问答方法以及基于模板匹配的问答方法。
关于基于语义解析的问答方法、基于深度学习的问答方法和基于嵌入学习的问答方法均需要大量的标注数据对机器学习得模型进行训练,更适用于数据丰富且关系复杂的领域问答;同时这三种方法对于模型得设计具有一定得要求,来提高语义解析模型的性能。相反地,上述方法并不适用于数据稀疏,实体属性较多及实体间关系简单的领域。以乡村领域来说,其数据特别稀少,不足以满足训练模型的数据要求,再加上领域内实体间的关系简单但特征较多,容易降低语义解析模型的性能,面对这些问题,以上三种问答方法在乡村领域表现出低效和低准确率的情况。
关于基于模板匹配的问答方法,Unger等人提出了一种依赖问题解析树来生成直接反映问题内部结构的SPARQL模板的方法。Athreya等人提出了一种基于递归神经网络的方法,通过自动学习自然语言问题从而匹配到相应的模板中。但是,递归神经网络需要通过一个大型数据集中提供的标记示例自动学习所需的表示,在我们的乡村领域中不能够得到满足。
在乡村领域中,数据具有稀疏性,同时乡村实体间关系简单性以及实体属性种类比较繁多复杂,目前大多数问答的研究均集中在有丰富数据集的领域,比如医疗领域,缺乏乡村领域问答的研究,导致乡村信息查询和问答的效率和准确性并不能满足需求。
发明内容
本发明的目的在于克服现有技术中的不足,提供一种基于多层次模板匹配的乡村信息智能问答方法及装置,将杂乱的数据转换为结构化的知识,增强乡村各实体的关联性,解决乡村信息查询低效和回答不准确的问题。
为达到上述目的,本发明是采用下述技术方案实现的:
第一方面,本发明提供了一种基于多层次模板匹配的乡村信息智能问答方法,包括:
获取用户输入的问句;
使用朴素贝叶斯分类算法对问句进行分类,获取问句分类结果和问句实体,并对问句中的属性进行链接,获取问句目标属性;
根据问句分类结果,确定自然语言问题所对应的数据库模板;
将问句实体和问句目标属性填入数据库模板中,生成SPARQL查询语句,进而从预先构建的乡村知识图谱中查询得到问题答案。
进一步的,所述乡村知识图谱的构建方法,包括:
采集乡村信息数据,根据乡村信息数据构建乡村信息数据库;
创建乡村领域知识图谱的本体,形成问句实体集Ev,关系属性集Rv
将形成的问句实体集Ev与关系属性集Rv一一对应,形成乡村领域本体库Ov(Ev,Rv);
根据乡村领域本体库Ov(Ev,Rv),将乡村信息数据库中的数据转换为乡村知识三元组数据;
检查导出的乡村知识三元组数据;
将导出的乡村知识三元组数据通过Apache Jena图数据库提供的tdbloader工具转换成tdb类型数据;
配置Apache Jena图数据库,实现对乡村知识图谱的查询。
进一步的,所述采集乡村信息数据,根据乡村信息数据构建乡村信息数据库,包括:
通过人工检索、网络爬虫的方式收集乡村数据,得到初步的乡村信息数据;
对初步的乡村信息数据按照乡村生态文明模式进行分类,分析每个乡村信息的特征属性,梳理形成乡村信息知识体系;
根据乡村信息知识体系将抓取的乡村信息数据首先保存在MySQL数据库中,建立相应的数据表,形成乡村信息数据库。
进一步的,所述根据乡村领域本体库Ov(Ev,Rv),将乡村信息库中的数据转换为乡村知识三元组数据,包括:
根据乡村信息数据库中的数据信息生成D2RQ映射文件;
根据乡村领域本体库Ov(Ev,Rv),修改相应的映射文件;
将D2RQ映射文件导出成乡村知识三元组的序列化格式N-TRIPLE。
进一步的,所述使用朴素贝叶斯分类算法对问句进行分类,获取问句分类结果和问句实体,并对问句中的属性进行链接,获取问句目标属性,包括:
使用分词组件对用户提问的自然语言问句进行分词,形成单词集WD={wd1,wd2,…,wdj,..wdn};
根据单词集WD数据,与乡村信息领域实体词表进行词典匹配,获取问句实体ev
对识别的问句实体ev根据乡村领域本体库Ov(Ev,Rv)中的相关概念进行替换,最终将自然语言问句转化为结构化的文本;
根据单词集WD数据,对每个单词的TF-IDF值进行计算,得到问句的初步分类,将初步分类结果再次进行词典匹配,输出问句中的目标乡村属性/关系,实现问句中乡村属性/关系的链接,获取问句目标属性。
进一步的,所述根据单词集WD数据,与乡村信息领域实体词表进行词典匹配,获取问句实体ev,包括:
构建乡村信息领域实体词表;
在问句实体集Ev中去搜索单词集WD,如果在Ev中可以成功找到WD中的某个单词,则返回的这个单词将作为该问句的问句实体ev
进一步的,所述根据单词集WD数据,对每个单词的TF-IDF值进行计算,得到问句的初步分类,将初步分类结果再次进行词典匹配,输出问句中的目标乡村属性/关系,实现问句中乡村属性/关系的链接,获取问句目标属性,包括:
利用TF-IDF特征提取算法,计算单词集中每个词语的TF-IDF值,将文本数据转换为向量;
使用Sklearn库中的特征抽取函数TfidfVectorizer对训练数据中的文本转化为TF-IDF的特征矩阵,转化后的结果将作为下面朴素贝叶斯分类器的输入数据;
朴素贝叶斯问句分类器的构建需要计算每种类别先验概率
Figure BDA0004050536910000051
Figure BDA0004050536910000052
和每个词相对应的条件概率率
Figure BDA0004050536910000053
其中,xi为x在第i个属性上的取值,M为每个类别出现的次数,N为每个类别所包含的总词数;
计算每个类别的最终概率,最终计算结果为概率最大的类别,假设d为特征属性数目,则最终结果为
Figure BDA0004050536910000054
使用构建的属性关键词列表对分类出错的进行纠正,返回正确的分类结果;
根据属性关键词列表对要提问的属性进行准确匹配,实现属性链接,获取获取问句目标属性。
第二方面,本发明提供一种基于多层次模板匹配的乡村信息智能问答装置,包括:
获取模块,用于获取用户输入的问句;
分类及属性链接模块,用于使用朴素贝叶斯分类算法对问句进行分类,获取问句分类结果和问句实体,并对问句中的属性进行链接,获取问句目标属性;
数据库模板确定模块,用于根据问句分类结果,确定自然语言问题所对应的数据库模板;
查询模块,用于将问句实体和问句目标属性填入数据库模板中,生成SPARQL查询语句,进而从预先构建的乡村知识图谱中查询得到问题答案。
第三方面,本发明提供一种电子设备,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据前述任一项所述方法的步骤。
第四方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述任一项所述方法的步骤。
与现有技术相比,本发明所达到的有益效果:
(1)现有的主流的问答方法只适用于数据庞大且关系复杂的领域中,如果需要解决数据稀疏领域的问题,会因缺乏大量的标注数据训练模型,导致回答的准确率很低,本发明在原有的基于模板的方法上引入了实体与属性词表,大大减少了构造大量模板对人工的消耗,同时不需要大量的标注数据,提高了回答的效率和准确率;
(2)由于乡村领域的数据稀疏且实体间的关系简单但实体的属性比较复杂,基于模板的问答方法具有一定的优势,减少了模型对标注数据的高度依赖。本发明提出了一种多层次模板方法来进行问句的分类和解析,针对数据稀疏和属性复杂的特点,发挥属性词表的优点,有效的提高了问句分类的准确性。
附图说明
图1是本发明实施例提供的一种基于多层次模板匹配的乡村信息智能问答方法的流程图;
图2为本发明中实现问句中乡村属性/关系的链接算法的流程图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
实施例1
本实施例介绍一种基于多层次模板匹配的乡村信息智能问答方法,包括:
获取用户输入的问句;
使用朴素贝叶斯分类算法对问句进行分类,获取问句分类结果和问句实体,并对问句中的属性进行链接,获取问句目标属性;
根据问句分类结果,确定自然语言问题所对应的数据库模板;
将问句实体和问句目标属性填入数据库模板中,生成SPARQL查询语句,进而从预先构建的乡村知识图谱中查询得到问题答案。
本实施例提供的基于多层次模板匹配的乡村信息智能问答方法,其应用过程具体涉及如下步骤:
a.乡村信息数据预处理
主要对中国典型的104个美丽乡村的数据进行了收集,通过人工检索、网络爬虫等方式收集整理了大量的科学文献、百科知识、新闻报道、社交媒体等信息,同时对这些乡村的生态文明建设进行了调研,并按照10种主要的乡村生态文明模式对乡村进行了分类,最后分析每个乡村信息的特征属性,梳理形成乡村信息知识体系和乡村信息数据库;
b.构建乡村知识图谱
所述模块建立过程包括乡村本体构建、乡村知识模型设计和乡村知识图谱查询三个部分:首先,利用protégé工具进行了乡村信息领域知识图谱的本体建模;接着,采用D2RQ(D2RQ平台是一个以虚拟只读RDF图的形式访问关系数据库的系统)将乡村信息数据库中的数据转换为乡村知识三元组的形式并导出,总计共有4793条乡村知识三元组数据;最后,使用图数据库Apache Jena来存储和查询上述的乡村知识三元组数据,在实现基于模板匹配查询时也以该图数据库为基础;
c.问题解析与分类
基于上面构建的乡村知识图谱,对乡村问题集进行设置,对问句进行解析,使用朴素贝叶斯分类算法对问句进行分类以及构建属性列表对问句中的属性进行链接;
d.基于模板的答案查询与推理
根据上述的分类结果,确定自然语言问题所对应的数据库模板,同时将在问句解析阶段获取的问句实体和问句目标属性填入模板的空槽中,便可成功将传统自然语言问句转换成相应的SPARQL查询语句,进而从Apache Jena数据库之中推理得到问题答案。
进一步的,所述的a.乡村信息数据预处理具体包括:
a1.主要对中国典型的104个乡村的数据进行了收集,设计数据收集模块,通过人工检索、网络爬虫等方式收集整理了大量的科学文献、百科知识、新闻报道、社交媒体等信息,得到初步的乡村信息数据;
a2.对这些乡村的生态文明建设进行了调研,并按照10种主要的乡村生态文明模式对乡村进行了分类,最后分析每个乡村信息的特征属性,梳理形成乡村信息知识体系;
a3.根据乡村信息知识体系将抓取的乡村信息数据首先保存在MySQL数据库中,建立相应的数据表;
a4.形成乡村信息数据库,完成乡村信息的数据预处理。
进一步的,所述b.构建乡村知识图谱包括:
b1.利用protégé工具创建了乡村领域知识图谱的本体,形成乡村实体集Ev,关系属性集Rv
b2.将形成的乡村实体集Ev与关系属性集Rv一一对应,形成乡村领域本体库Ov(Ev,Rv);
b3.根据乡村领域本体库Ov(Ev,Rv),将乡村信息库中的数据转换为乡村知识三元组数据。
输入:乡村领域本体库Ov(Ev,Rv),乡村信息数据库中的数据信息
输出:乡村知识三元组数据,格式有两种,分别为:实体(Entity),关系(Relation),实体(Entity);实体(Entity),属性(Attribute),值(Key)
3.1)使用D2RQ(一个以虚拟只读RDF图的形式访问关系数据库的系统)中自带的generate-mapping工具,根据乡村信息数据库中的数据信息生成D2RQ映射文件;
3.2)根据乡村领域本体库Ov(Ev,Rv),修改相应的映射文件;
3.3)使用D2RQ中自带的dump-rdf工具,将第一步形成的映射文件导出成乡村知识三元组的序列化格式N-TRIPLE;
b4.检查导出的乡村知识三元组数据;
b5.将上步导出的数据通过Apache Jena图数据库提供的tdbloader工具转换成tdb类型数据;
b6.配置Apache Jena图数据库,实现对乡村知识图谱的查询。
进一步的,所述c.问题解析与分类包括:
c1.使用结巴(Jieba)分词组件对用户提问的自然语言问句进行分词,形成单词集WD={wd1,wd2,…,wdj,..wdn}(删除停用词,比如:“多少”,“是”,“和”,“的”,等等)。:
c2.输入上述形成的单词集WD数据,与乡村信息领域实体词表进行词典匹配,输出问句中的目标实体,实现对问句中乡村实体的识别:
输入:问句分词后的单词集WD={wd1,wd2,…,wdj,..wdn}
输出:问句中的乡村目标实体
2.1)构建乡村信息领域实体词表;
2.2)在乡村实体集Ev中去搜索单词集WD,如果在Ev中可以成功找到WD中的某个单词,则返回的这个单词将作为该问句的乡村实体ev
c3.对识别的乡村实体ev根据乡村领域本体库Ov(Ev,Rv)中的相关概念进行替换(例如用@village_model来替换乡村生态文明模式中的所有实例),最终将自然语言问句转化为结构化的文本;
c4.输入上述形成的单词集WD数据,对每个单词的TF-IDF值进行计算,得到问句的初步分类,将初步分类结果再次进行词典匹配,输出问句中的目标乡村属性/关系,实现问句中乡村属性/关系的链接:
输入:问句分词后的单词集WD={wd1,wd2,…,wdj,..wdn}
输出:问句中的目标乡村属性/关系
4.1)利用TF-IDF特征提取算法,计算单词集中每个词语的TF-IDF值,这样就将文本数据转换为向量。
4.2)使用Sklearn库中的特征抽取函数TfidfVectorizer对训练数据中的文本转化为TF-IDF的特征矩阵,转化后的结果将作为下面朴素贝叶斯分类器的输入数据。
4.3)朴素贝叶斯问句分类器的构建需要计算每种类别先验概率
Figure BDA0004050536910000111
Figure BDA0004050536910000112
和每个词相对应的条件概率率
Figure BDA0004050536910000113
其中,xi为x在第i个属性上的取值,M为每个类别出现的次数,N为每个类别所包含的总词数;
4.4)计算每个类别的最终概率,最终计算结果为概率最大的类别,假设d为特征属性数目,则最终结果为
Figure BDA0004050536910000114
4.5)使用构建的属性关键词列表对分类出错的进行纠正,返回正确的分类结果。
4.6)根据属性关键词列表对要提问的属性进行准确匹配,实现属性链接。
进一步的,所述的d.基于模板的答案查询与推理具体包括:
d1.根据乡村问题集中问句的表达,利用PythonRefo库构建了问句相关的语义模板;
d2.读取问句对应的模糊匹配模板;
d3.生成SPARQL查询语句,并在从Apache Jena数据库之中推理得到问题答案。
相对于现有技术,在本发明中乡村信息智能问答方法融合了知识图谱、朴素贝叶斯分类、乡村数据、模板匹配、属性列表、词典等知识,针对乡村数据稀疏的特点,针对性的修改模板与属性列表,实现了部分带有推理性问题的准确回答,在减少大量人工的情况下也能高效准确地回答出乡村领域的知识问题。
实施例2
本实施例提供一种基于多层次模板匹配的乡村信息智能问答装置,包括:
获取模块,用于获取用户输入的问句;
分类及属性链接模块,用于使用朴素贝叶斯分类算法对问句进行分类,获取问句分类结果和问句实体,并对问句中的属性进行链接,获取问句目标属性;
数据库模板确定模块,用于根据问句分类结果,确定自然语言问题所对应的数据库模板;
查询模块,用于将问句实体和问句目标属性填入数据库模板中,生成SPARQL查询语句,进而从预先构建的乡村知识图谱中查询得到问题答案。
实施例3
本实施例提供提供一种电子设备,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据实施例1中任一项所述方法的步骤。
实施例4
本实施例提供提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现实施例1中任一项所述方法的步骤。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (10)

1.一种基于多层次模板匹配的乡村信息智能问答方法,其特征在于,包括:
获取用户输入的问句;
使用朴素贝叶斯分类算法对问句进行分类,获取问句分类结果和问句实体,并对问句中的属性进行链接,获取问句目标属性;
根据问句分类结果,确定自然语言问题所对应的数据库模板;
将问句实体和问句目标属性填入数据库模板中,生成SPARQL查询语句,进而从预先构建的乡村知识图谱中查询得到问题答案。
2.根据权利要求1所述的基于多层次模板匹配的乡村信息智能问答方法,其特征在于,所述乡村知识图谱的构建方法,包括:
采集乡村信息数据,根据乡村信息数据构建乡村信息数据库;
创建乡村领域知识图谱的本体,形成问句实体集Ev,关系属性集Rv
将形成的问句实体集Ev与关系属性集Rv一一对应,形成乡村领域本体库Ov(Ev,Rv);
根据乡村领域本体库Ov(Ev,Rv),将乡村信息数据库中的数据转换为乡村知识三元组数据;
检查导出的乡村知识三元组数据;
将导出的乡村知识三元组数据通过Apache Jena图数据库提供的tdbloader工具转换成tdb类型数据;
配置Apache Jena图数据库,实现对乡村知识图谱的查询。
3.根据权利要求2所述的基于多层次模板匹配的乡村信息智能问答方法,其特征在于,所述采集乡村信息数据,根据乡村信息数据构建乡村信息数据库,包括:
通过人工检索、网络爬虫的方式收集乡村数据,得到初步的乡村信息数据;
对初步的乡村信息数据按照乡村生态文明模式进行分类,分析每个乡村信息的特征属性,梳理形成乡村信息知识体系;
根据乡村信息知识体系将抓取的乡村信息数据首先保存在MySQL数据库中,建立相应的数据表,形成乡村信息数据库。
4.根据权利要求2所述的基于多层次模板匹配的乡村信息智能问答方法,其特征在于,所述根据乡村领域本体库Ov(Ev,Rv),将乡村信息库中的数据转换为乡村知识三元组数据,包括:
根据乡村信息数据库中的数据信息生成D2RQ映射文件;
根据乡村领域本体库Ov(Ev,Rv),修改相应的映射文件;
将D2RQ映射文件导出成乡村知识三元组的序列化格式N-TRIPLE。
5.根据权利要求1所述的基于多层次模板匹配的乡村信息智能问答方法,其特征在于,所述使用朴素贝叶斯分类算法对问句进行分类,获取问句分类结果和问句实体,并对问句中的属性进行链接,获取问句目标属性,包括:
使用分词组件对用户提问的自然语言问句进行分词,形成单词集WD={wd1,wd2,…,wdj,..wdn};
根据单词集WD数据,与乡村信息领域实体词表进行词典匹配,获取问句实体ev
对识别的问句实体ev根据乡村领域本体库Ov(Ev,Rv)中的相关概念进行替换,最终将自然语言问句转化为结构化的文本;
根据单词集WD数据,对每个单词的TF-IDF值进行计算,得到问句的初步分类,将初步分类结果再次进行词典匹配,输出问句中的目标乡村属性/关系,实现问句中乡村属性/关系的链接,获取问句目标属性。
6.根据权利要求5所述的基于多层次模板匹配的乡村信息智能问答方法,其特征在于,所述根据单词集WD数据,与乡村信息领域实体词表进行词典匹配,获取问句实体ev,包括:
构建乡村信息领域实体词表;
在问句实体集Ev中去搜索单词集WD,如果在Ev中可以成功找到WD中的某个单词,则返回的这个单词将作为该问句的问句实体ev
7.根据权利要求5所述的基于多层次模板匹配的乡村信息智能问答方法,其特征在于,所述根据单词集WD数据,对每个单词的TF-IDF值进行计算,得到问句的初步分类,将初步分类结果再次进行词典匹配,输出问句中的目标乡村属性/关系,实现问句中乡村属性/关系的链接,获取问句目标属性,包括:
利用TF-IDF特征提取算法,计算单词集中每个词语的TF-IDF值,将文本数据转换为向量;
使用Sklearn库中的特征抽取函数TfidfVectorizer对训练数据中的文本转化为TF-IDF的特征矩阵,转化后的结果将作为下面朴素贝叶斯分类器的输入数据;
朴素贝叶斯问句分类器的构建需要计算每种类别先验概率
Figure FDA0004050536900000031
Figure FDA0004050536900000032
和每个词相对应的条件概率率
Figure FDA0004050536900000033
其中,xi为x在第i个属性上的取值,M为每个类别出现的次数,N为每个类别所包含的总词数;
计算每个类别的最终概率,最终计算结果为概率最大的类别,假设d为特征属性数目,则最终结果为
Figure FDA0004050536900000034
使用构建的属性关键词列表对分类出错的进行纠正,返回正确的分类结果;
根据属性关键词列表对要提问的属性进行准确匹配,实现属性链接,获取获取问句目标属性。
8.一种基于多层次模板匹配的乡村信息智能问答装置,其特征在于,包括:
获取模块,用于获取用户输入的问句;
分类及属性链接模块,用于使用朴素贝叶斯分类算法对问句进行分类,获取问句分类结果和问句实体,并对问句中的属性进行链接,获取问句目标属性;
数据库模板确定模块,用于根据问句分类结果,确定自然语言问题所对应的数据库模板;
查询模块,用于将问句实体和问句目标属性填入数据库模板中,生成SPARQL查询语句,进而从预先构建的乡村知识图谱中查询得到问题答案。
9.一种电子设备,其特征在于:包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据权利要求1~7任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:该程序被处理器执行时实现权利要求1~7任一项所述方法的步骤。
CN202310039695.3A 2023-01-13 2023-01-13 一种基于多层次模板匹配的乡村信息智能问答方法及装置 Pending CN115964468A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310039695.3A CN115964468A (zh) 2023-01-13 2023-01-13 一种基于多层次模板匹配的乡村信息智能问答方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310039695.3A CN115964468A (zh) 2023-01-13 2023-01-13 一种基于多层次模板匹配的乡村信息智能问答方法及装置

Publications (1)

Publication Number Publication Date
CN115964468A true CN115964468A (zh) 2023-04-14

Family

ID=87358113

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310039695.3A Pending CN115964468A (zh) 2023-01-13 2023-01-13 一种基于多层次模板匹配的乡村信息智能问答方法及装置

Country Status (1)

Country Link
CN (1) CN115964468A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117172322A (zh) * 2023-11-03 2023-12-05 中国标准化研究院 一种建立数字乡村知识图谱的方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117172322A (zh) * 2023-11-03 2023-12-05 中国标准化研究院 一种建立数字乡村知识图谱的方法
CN117172322B (zh) * 2023-11-03 2024-03-12 中国标准化研究院 一种建立数字乡村知识图谱的方法

Similar Documents

Publication Publication Date Title
CN109766417B (zh) 一种基于知识图谱的文学编年史问答系统的构建方法
CN104318340B (zh) 基于文本履历信息的信息可视化方法及智能可视分析系统
CN103440287B (zh) 一种基于产品信息结构化的Web问答检索系统
CN111488465A (zh) 一种知识图谱构建方法及相关装置
Wu et al. A survey of question answering over knowledge base
CN112559766B (zh) 一种法律知识图谱构建系统
CN110674252A (zh) 一种面向司法领域的高精度语义搜索系统
CN110765277B (zh) 一种基于知识图谱的移动端的在线设备故障诊断方法
CN111651447B (zh) 一种智能建造全寿期数据处理分析管控系统
WO2020010834A1 (zh) 一种faq问答库泛化方法、装置及设备
CN113342842A (zh) 基于计量知识的语义查询方法、装置和计算机设备
CN111858940A (zh) 一种基于多头注意力的法律案例相似度计算方法及系统
CN113360582B (zh) 基于bert模型融合多元实体信息的关系分类方法及系统
CN114238653A (zh) 一种编程教育知识图谱构建、补全与智能问答的方法
CN114528312A (zh) 一种结构化查询语言语句的生成方法和装置
CN116561264A (zh) 一种基于知识图谱的智能问答系统的构建方法
CN115964468A (zh) 一种基于多层次模板匹配的乡村信息智能问答方法及装置
Mulwad et al. Automatically generating government linked data from tables
Wang et al. Research on English teaching information pushing method based on intelligent adaptive learning platform
Wu et al. PaintKG: the painting knowledge graph using bilstm-crf
Kung et al. Intelligent pig‐raising knowledge question‐answering system based on neural network schemes
CN117094390A (zh) 一种面向海洋工程领域的知识图谱构建及智能搜索方法
CN112417170A (zh) 面向不完备知识图谱的关系链接方法
CN117473054A (zh) 基于知识图谱的通用智能问答方法及装置
CN116204656A (zh) 一种大数据知识图谱构建方法、系统、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination