CN111353030A - 基于旅游领域知识图谱的知识问答检索方法及装置 - Google Patents

基于旅游领域知识图谱的知识问答检索方法及装置 Download PDF

Info

Publication number
CN111353030A
CN111353030A CN202010121654.5A CN202010121654A CN111353030A CN 111353030 A CN111353030 A CN 111353030A CN 202010121654 A CN202010121654 A CN 202010121654A CN 111353030 A CN111353030 A CN 111353030A
Authority
CN
China
Prior art keywords
question
entity
knowledge graph
knowledge
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010121654.5A
Other languages
English (en)
Other versions
CN111353030B (zh
Inventor
曹菡
杨露
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shaanxi Normal University
Original Assignee
Shaanxi Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shaanxi Normal University filed Critical Shaanxi Normal University
Priority to CN202010121654.5A priority Critical patent/CN111353030B/zh
Publication of CN111353030A publication Critical patent/CN111353030A/zh
Application granted granted Critical
Publication of CN111353030B publication Critical patent/CN111353030B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

基于旅游领域知识图谱的知识问答检索方法及装置,检索方法包括以下步骤:使用Python程序爬取旅游网站信息,构建旅游领域知识图谱;用户输入与旅游相关的自然语言问句;分析用户提出的自然语言问句,对自然语言进行分词,并对每个词语进行词性标注;以“实体‑属性‑属性值”的形式存储知识图谱,将问句与知识图谱进行链接;根据链接出的“实体”和“属性”,从知识图谱中查询相关三元组,并返回属性值。本发明同时还公开了实现上述方法的装置、终端设备和计算机可读存储介质,能够为游客提供方便有效的旅游信息查询服务。

Description

基于旅游领域知识图谱的知识问答检索方法及装置
技术领域
本发明属于人工智能及自然语言处理领域,具体涉及一种基于旅游领域知识图谱的知识问答检索方法及装置,实现对用户提出的自然语言问句分析整理,从知识图谱中返回答案。
背景技术
随着社会的进步,人们的生活水平不断提高,对于出游质量的要求也越来越高,多数情况下游客会根据在网上查询的旅游信息来制定出游计划。但是,游客使用传统的搜索引擎进行信息检索时,搜索引擎只能根据用户输入的关键词来返回相对应的网页,用户还需要查询多个网页才能找到最终的结果。伴随着数据信息量的极速增加,这种信息检索方式会返回太多冗余信息,不能满足人们想在海量数据中高效获取准确答案的需求。知识问答作为信息搜索的升华,功能在于允许用户以自然语言的方式进行提问并返回给用户简短而准确的答案。
知识图谱是一张巨大的语义网络,以“实体-属性-属性值”或“实体-关系-实体”这样的三元组方式存储,它的出现为管理当今大数据环境下的复杂数据资源提供了一种更为有效的途径。基于知识图谱的知识问答系统能够直接将自然语言问句和知识图谱进行链接,通过遍历三元组找出最终的实体或者属性值返回给用户。虽然,国内外目前对于问答系统的研究已经取得了很大的进展,特别是针对开放领域的基于知识图谱的问答系统研究。但与此相反,目前我国对于特定领域的基于知识图谱的问答系统研究还处于起步阶段。为了解决游客对于旅游信息获取不便捷的问题,亟需构建一个基于知识图谱的旅游问答系统。
发明内容
本发明的目的在于针对上述现有技术中游客对于海量旅游信息查询不便的问题,提供一种基于旅游领域知识图谱的知识问答检索方法及装置,帮助游客快速准确的找出检索结果。
为了实现上述目的,本发明有如下的技术方案:
一种基于旅游领域知识图谱的知识问答检索方法,包括以下步骤:
使用Python程序爬取旅游网站信息,构建旅游领域知识图谱;
用户输入与旅游相关的自然语言问句;
分析用户提出的自然语言问句,对自然语言进行分词,并对每个词语进行词性标注;
以“实体-属性-属性值”的形式存储知识图谱,将问句与知识图谱进行链接;
根据链接出的“实体”和“属性”,从知识图谱中查询相关三元组,并返回属性值。
作为优选,本发明基于旅游领域知识图谱的知识问答检索方法的一种实施例中,构建旅游领域知识图谱包括两种实现方法,一种方法是使用Python程序爬取旅游网站信息,将抽取出的旅游实体批次导入Neo4j图数据库,将错误数据进行修改,对于空缺数据进行补齐,如果没有数据则使用null进行填充,并设置相关联实体集之间的属性,对设置好的数据进行处理得到“实体-属性-属性值”三元组;另一种方法是人工收集与旅游有关的实体和属性值,包括景点、酒店、美食、门票、景点等级、地址以及消费价格,手动添加到知识图谱当中。
作为优选,本发明基于旅游领域知识图谱的知识问答检索方法的一种实施例中,采用结巴库对用户提出的自然语言问句进行分词和词性标注,将长句划分为一个一个的词语,并对词语进行词性标注;在此过程中,找出第一个词性为名词的词语,如果该词语的下一个词语还是名词,则将两个词语进行拼接,直至词性不是名词为止,将整合得到的词语输出。
作为优选,本发明基于旅游领域知识图谱的知识问答检索方法的一种实施例中,所述“实体”和“属性”进行链接的方式为:根据已经标注好的词语词性识别出实体;将识别出的问句实体和知识图谱中的实体进行距离计算,选取距离最短的实体进行链接;使用神经网络模型链接问句和知识图谱中的属性,通过模型计算之后返回结果高的属性进行链接。
作为优选,本发明基于旅游领域知识图谱的知识问答检索方法的一种实施例中,通过余弦相似度算法计算实体间的相似度,计算公式如下:
Figure BDA0002393146510000031
式中,A表示问句实体,B表示知识图谱中的实体,n表示词向量的维度;
由上式计算出两个实体之间的距离,通过比较,选择与问句实体距离最近的知识图谱中的实体进行链接;链接到实体和属性之后,遍历知识图谱中的三元组,选取能够同时匹配实体和属性的三元组,将该三元组中的属性值作为答案返回给用户。
作为优选,本发明基于旅游领域知识图谱的知识问答检索方法的一种实施例中,所述的神经网络模型采用CNN模型,将问句和属性同时输入模型,在输入层计算问句和属性的相似度得到相似度矩阵,将相似度矩阵进行卷积池化,选择最终结果的平均值高的属性链接。
作为优选,本发明基于旅游领域知识图谱的知识问答检索方法的一种实施例中,使用CNN模型进行属性链接的具体实现方法如下:
输入层设置;
1)将问句和属性分词,并去除问句中的停用词;
2)使用训练好的词向量模型计算问句中各词语和属性中各词语的相似度,训练词向量使用Google公司推出的word2vec模型,数据集使用中文维基百科数据;
3)将注意力机制加入输入层,在进行相似度计算之后根据相似度大小的不同进行加权,得到最终的相似度矩阵;所述的注意力机制公式如下:
Ai,j=score(Q[i,:],p[j,:])
Figure BDA0002393146510000032
式中,Q表示问句,i表示问句中的词语;p表示知识图谱中的属性,j表示属性中的词语;dis(i,j)表示i和j的相似度;
卷积层设置;
卷积层用于实现特征选取,设置滑动窗口来扫描输入层的矩阵,卷积层计算表达式如下:
Figure BDA0002393146510000041
式中,x表示相似度矩阵,n和m分别是矩阵的行数和列数;
池化层设置;
池化层用于从卷积层的输入中提取有效特征,进而丢弃不相关的数据,减少参数量;采用max-pooling方法实现池化层,将矩阵中两个连续的数字进行比较,抛弃其中小的数值;
输出层设置;
通过输入层将文本数据转化为相似度矩阵,卷积层对矩阵进行运算提取特征,池化层通过池化选择无关数据丢弃,最后进入输出层;输出层实现卷积层和池化层的全连接,经过多次循环,得到最终的矩阵;将结果中的数据进行平均运算并排序,得分最高的属性输出。
本发明还提出了一种基于旅游领域知识图谱的知识问答检索装置,包括:
旅游领域知识图谱构建模块,能够爬取旅游网站信息;
自然语言问句输入模块;
自然语言问句分析模块,用于对输入的自然语言分词,并对每个词语进行词性标注;
知识图谱存储模块,以“实体-属性-属性值”的形式存储知识图谱;
知识图谱链接模块,用于将自然语言问句与知识图谱进行链接;
属性值输出模块,根据链接出的“实体”和“属性”,查询相关三元组,并返回属性值。
本发明还提出了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述的处理器在执行所述计算机程序时实现本发明上述基于旅游领域知识图谱的知识问答检索方法的步骤。
本发明还提出了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现所述基于旅游领域知识图谱的知识问答检索方法的步骤。
相较于现有技术,本发明具有如下的有益效果:通过系统对用户提出的自然语言问句进行分析整理,直接返回答案。本发明提供了一种新型的信息检索方式,允许用户以自然语言的形式提问,系统从知识图谱中返回准确答案或包含答案信息片段的文本。知识图谱是一个巨大的语义网络图,以“实体-关系-实体”或“实体-属性-属性值”这样的三元组形式存放大量结构化知识,通过本发明返回给问句的答案更准确,能满足用户想要快速准确地获取问题答案的需求。本发明知识图谱以“实体-属性-属性值”的形式存储,系统通过对问句进行分析,并与知识图谱进行链接,根据链接到的“实体”和“属性”查询到“属性值”,即最终答案,将其直接返回给用户。由于中文以词为最小维度,为了能够对句子进行分析,需要将长句划分为一个一个的词语,并对词语进行词性标注,方便将文本数据转化为计算机可以处理的数字数据。本发明能够高效使用现有数据,为游客提供方便有效的旅游信息查询服务。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1本发明构建旅游领域知识图谱的流程图;
图2本发明进行知识问答检索的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。
基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提还可以进行若干简单的修改和润饰,所获得的所有其他实施例,都属于本发明保护的范围。
在本发明中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施方案中。在说明书中的各个位置展示该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本发明所描述的实施例还可以与其它的实施例相结合。
知识图谱的构建是知识问答的基础,知识图谱构建的准确性直接影响了知识问答的结果。
如图1所示,本发明构建旅游领域知识图谱的具体步骤为:
步骤一,收集旅游信息数据。使用Python爬虫爬取各大旅游网站的旅游信息,如旅游景点名称、景点地址、景点门票、景点附近的酒店等等,将爬取的信息存成csv文件。
步骤二,人工处理信息。由于旅游数据来自各个网站,每个网站的数据格式不同,因此需要将爬取的数据进行格式的统一。将不同数据进行人工处理,导入同一个文件。同时,将错误数据进行修改,对于空缺数据进行补齐,如果没有数据则使用null进行填充。
步骤三,将数据进行筛选补全之后批次导入Neo4j数据库。
将文件中的数据按列导入图数据库,每一列存储不同类型的数据,如一列存储景点名称,一列存储景点地址。由于Neo4j数据库导入csv文件时需要保证文件的一列中所有数据均不能为空,因此,在步骤二中将空缺的地方补齐和填充的操作是必须的。
步骤四,设置实体之间的关系。实体分批次导入之后,对相互关联的实体设置关系进行连接,如给景点名称和景点地址两个实体集之间设置关系“地址”将两者连接。由于一个实体集中的某一个实体可能与另一实体集中的多个实体有相同的关系,因此,为了方便区分,也为了减少关系设置的工作量,给定实体一个唯一的编号,如对“大雁塔”编号“E01”,设置关系时使用编号进行一一对应。值得一提的是,如果不给定编号就进行关系设置,那么在数据处理阶段就应该保证不同列的数据的同一行是相互对应的,如“大雁塔”在景点名称实体集的第2行,那么“陕西省西安市雁塔区大慈恩寺内”也应该在景点地址实体集的第2行。
步骤五,将数据导出。由于Neo4j图数据库只能在个人电脑使用,并且操作复杂,为了能够高效的使用数据,可以将数据导出。
步骤六,处理导出数据构建三元组。
Neo4j导出的数据为csv文件,将文件转化为文本文件方便进行处理。三元组为“实体-属性-属性值”,为了构建知识图谱,将导出的数据进行处理,删除多余的数据,如编号、特殊字符等。遍历每一行数据,将数据中有用的知识进行提取,将提取出的实体、属性和属性值之间通过空格进行区分写入另一个文本文档,每一行存储一个三元组。
将爬取的数据经过以上步骤的处理,最终得到了829个三元组,知识图谱构建完成。
参见图2,知识问答是一个对自然语言问句进行理解分析,然后从知识图谱中查询答案并返回给用户的过程。本发明知识问答过程实现的具体步骤如下:
步骤一,用户提问。用户通过自然语言问题的方式进行旅游信息查询。
步骤二,问句分析。对用户提出的自然语言问句进行分析,即分词和词性标注,具体是:
1.分词;
与英文以空格作为自然分解符不同,中文并没有明显的分界。因此,计算机要想对自然语言问句进行理解分析,第一步要做的就是将问句进行分词。
2.词性标注;
词性标注同样属于自然语言处理的范畴,在分词之后对每一词的词性进行标注,本发明词性标注的主要目的是为了进行问句旅游实体识别。本发明通过对大量旅游实体的词性进行分析,根据旅游实体的特征设计了实体识别算法。具体将在步骤三进行解释。
步骤三,问句实体识别。知识图谱以“实体-属性-属性值”的方式存储,为了得到准确的属性值,首先就需要准确的得到实体。有关旅游领域的实体包含景点名、酒店名、餐厅名等,而其中大多实体属于未登录词,即并未被收录到分词词表里面但必须切分出来的词。如果使用传统的分词和实体识别方法,实体大概率会被切分无法正确识别。为了解决这个问题,进行了多次分词和词性标注试验后发现,大多旅游领域实体都是由名词组成,如“大雁塔南广场”被分为“大雁塔”、“南”、“广场”,三个词语均被标注名词。基于大多数旅游领域实体组成均为名词这一特征,设计了问句旅游领域实体识别算法,具体实现如表1所示。
Figure BDA0002393146510000081
表1问句旅游实体识别
通过在构建的旅游领域知识图谱中进行实验,结果表示,算法最终准确率可达到90%。
步骤四,实体链接。步骤三识别出了问句中的实体,因为具有同一语义的实体有不同的表达方式,也因为实体识别会存在一定的误差,因此识别出的问句实体可能与知识图谱中存储的实体不同。所以,为了查询的准确性,需要将问句实体和知识图谱中的实体进行链接。选择了余弦相似度算法来计算实体间的相似度,余弦相似度公式如(1):
Figure BDA0002393146510000082
式中,A表示问句实体,B表示知识图谱中的实体,n表示词向量的维度。
通过公式(1)计算两个实体之间的距离,再通过比较,选择与问句实体距离最近、相似度最高的知识图谱中的实体进行链接。
步骤五,属性链接。链接到三元组中的实体之后,为了得到最终的属性值,还需要链接出三元组中的属性。链接属性,本发明使用了CNN(Convolutional Neural Network)模型。属性链接本质上是计算问句和知识图谱中各属性的相似度,相似度最高的属性即为链接属性。CNN模型用在属性链接领域,都是将问句和属性分别输入模型中,通过卷积池化分别提取其特征,最后将提取出的特征进行相似度的计算。与传统的实验方法不同,本发明是将问句和属性同时输入模型,在输入层计算问句和属性的相似度得到相似度矩阵,将相似度矩阵进行卷积池化,通过比较最终结果的平均值选择平均值高的属性链接。
使用CNN模型进行属性链接具体实现如下:
1.输入层;
1)将问句和属性分词,并去除问句中的停用词,避免因为停用词的存在使得误差增大;
2)使用训练好的词向量模型计算问句中各词语和属性中各词语的相似度,这里训练词向量使用了Google公司推出的word2vec模型,数据集使用了中文维基百科数据;
3)为了增加实验的准确率,本发明将注意力机制加入了输入层,在进行相似度计算之后根据相似度大小的不同进行加权,得到最终的相似度矩阵。注意力机制公式如(2)和(3):
Ai,j=score(Q[i,:],p[j,:]) (2)
Figure BDA0002393146510000091
其中,Q表示问句,i表示问句中的词语;p表示知识图谱中的属性,j表示属性中的词语;dis(i,j)表示i和j的相似度。
2.卷积层;
卷积层主要是实现特征的选取,设置滑动窗口来扫描输入层的矩阵,卷积层计算具体实现如公式(4):
Figure BDA0002393146510000092
式中,x表示相似度矩阵,n和m分别是矩阵的行数和列数。
3.池化层;
池化层的功能主要是从卷积层的输入中提取有效特征,进而丢弃一些不相关的数据,减少参数量。一般采用的池化方法由average-pooling(取局部平均值)和Max-pooling(取局部最大值)。由于需要的是相似度高的数据,因此本发明采用max-pooling方法实现池化层,将矩阵中两个连续的数字进行比较,抛弃其中小的数值。
4.输出层;
输入层将文本数据转化为相似度矩阵,卷积层对矩阵进行运算提取特征,池化层通过池化选择无关数据丢弃,最后进入输出层。输出层实现的卷积层和池化层的全连接,经过多次循环,得到最终的矩阵。将最终结果中的数据进行平均运算并排序,将得分最高的属性输出。
根据实验结果,改进后的CNN模型进行属性链接的准确率要高于传统的CNN模型。
步骤六,答案选取。答案选取本质上就是遍历三元组,查找出能够匹配链接到的“实体”和“属性”的三元组,将其属性值返回给用户。
步骤三和步骤四通过识别问句实体并计算距离的方法链接得到实体,步骤五通过使用改进的CNN模型链接到属性。为了得到属性值,需要遍历三元组,判断三元组中的实体和属性是否能同时匹配实体和属性,将最终能够匹配的三元组的属性值作为答案返回给用户。
本发明还提出一种基于旅游领域知识图谱的知识问答检索装置,包括:
旅游领域知识图谱构建模块,能够爬取旅游网站信息;
自然语言问句输入模块;
自然语言问句分析模块,用于对输入的自然语言分词,并对每个词语进行词性标注;
知识图谱存储模块,以“实体-属性-属性值”的形式存储知识图谱;
知识图谱链接模块,用于将自然语言问句与知识图谱进行链接;
属性值输出模块,根据链接出的“实体”和“属性”,查询相关三元组,并返回属性值。
本发明基于旅游领域知识图谱的知识问答检索方法还可以通过一种终端设备实现,终端设备包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,处理器执行所述计算机程序时实现本发明基于旅游领域知识图谱的知识问答检索方法的步骤。
本发明还提出一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现基于旅游领域知识图谱的知识问答检索方法的步骤。
以上结合具体特征及其实施例对本发明进行了描述,显而易见的,在不脱离本发明的精神和范围的情况下,还可以对其进行各种修改和组合。相应地,本说明书和附图仅仅是所附权利要求所界定的本发明的示例性说明,且视为已覆盖本发明范围内的任意和所有修改、变化、组合或等同物。显然,本领域技术人员可以对本发明进行各种改动和变型,这些不脱离本发明的精神和范围的修改和变型也属于本发明权利要求及其等同技术的范围之内。

Claims (10)

1.一种基于旅游领域知识图谱的知识问答检索方法,其特征在于,包括以下步骤:
使用Python程序爬取旅游网站信息,构建旅游领域知识图谱;
用户输入与旅游相关的自然语言问句;
分析用户提出的自然语言问句,对自然语言进行分词,并对每个词语进行词性标注;
以“实体-属性-属性值”的形式存储知识图谱,将问句与知识图谱进行链接;
根据链接出的“实体”和“属性”,从知识图谱中查询相关三元组,并返回属性值。
2.根据权利要求1所述基于旅游领域知识图谱的知识问答检索方法,其特征在于:构建旅游领域知识图谱包括两种实现方法,一种方法是使用Python程序爬取旅游网站信息,将抽取出的旅游实体批次导入Neo4j图数据库,将错误数据进行修改,对于空缺数据进行补齐,如果没有数据则使用null进行填充,并设置相关联实体集之间的属性,对设置好的数据进行处理得到“实体-属性-属性值”三元组;另一种方法是人工收集与旅游有关的实体和属性值,包括景点、酒店、美食、门票、景点等级、地址以及消费价格,手动添加到知识图谱当中。
3.根据权利要求1所述基于旅游领域知识图谱的知识问答检索方法,其特征在于:采用结巴库对用户提出的自然语言问句进行分词和词性标注,将长句划分为一个一个的词语,并对词语进行词性标注;在此过程中,找出第一个词性为名词的词语,如果该词语的下一个词语还是名词,则将两个词语进行拼接,直至词性不是名词为止,将整合得到的词语输出。
4.根据权利要求1所述基于旅游领域知识图谱的知识问答检索方法,其特征在于:所述“实体”和“属性”进行链接的方式为:根据已经标注好的词语词性识别出实体;将识别出的问句实体和知识图谱中的实体进行距离计算,选取距离最短的实体进行链接;使用神经网络模型链接问句和知识图谱中的属性,通过模型计算之后返回结果高的属性进行链接。
5.根据权利要求4所述基于旅游领域知识图谱的知识问答检索方法,其特征在于:
通过余弦相似度算法计算实体间的相似度,计算公式如下:
Figure FDA0002393146500000021
式中,A表示问句实体,B表示知识图谱中的实体,n表示词向量的维度;
由上式计算出两个实体之间的距离,通过比较,选择与问句实体距离最近的知识图谱中的实体进行链接;链接到实体和属性之后,遍历知识图谱中的三元组,选取能够同时匹配实体和属性的三元组,将该三元组中的属性值作为答案返回给用户。
6.根据权利要求4所述基于旅游领域知识图谱的知识问答检索方法,其特征在于:所述的神经网络模型采用CNN模型,将问句和属性同时输入模型,在输入层计算问句和属性的相似度得到相似度矩阵,将相似度矩阵进行卷积池化,选择最终结果的平均值高的属性链接。
7.根据权利要求4所述基于旅游领域知识图谱的知识问答检索方法,其特征在于:
使用CNN模型进行属性链接的具体实现方法如下:
输入层设置;
1)将问句和属性分词,并去除问句中的停用词;
2)使用训练好的词向量模型计算问句中各词语和属性中各词语的相似度,训练词向量使用Google公司推出的word2vec模型,数据集使用中文维基百科数据;
3)将注意力机制加入输入层,在进行相似度计算之后根据相似度大小的不同进行加权,得到最终的相似度矩阵;所述的注意力机制公式如下:
Ai,j=score(Q[i,:],p[j,:])
Figure FDA0002393146500000022
式中,Q表示问句,i表示问句中的词语;p表示知识图谱中的属性,j表示属性中的词语;dis(i,j)表示i和j的相似度;
卷积层设置;
卷积层用于实现特征选取,设置滑动窗口来扫描输入层的矩阵,卷积层计算表达式如下:
Figure FDA0002393146500000031
式中,x表示相似度矩阵,n和m分别是矩阵的行数和列数;
池化层设置;
池化层用于从卷积层的输入中提取有效特征,进而丢弃不相关的数据,减少参数量;采用max-pooling方法实现池化层,将矩阵中两个连续的数字进行比较,抛弃其中小的数值;
输出层设置;
通过输入层将文本数据转化为相似度矩阵,卷积层对矩阵进行运算提取特征,池化层通过池化选择无关数据丢弃,最后进入输出层;输出层实现卷积层和池化层的全连接,经过多次循环,得到最终的矩阵;将结果中的数据进行平均运算并排序,得分最高的属性输出。
8.一种基于旅游领域知识图谱的知识问答检索装置,其特征在于,包括:
旅游领域知识图谱构建模块,能够爬取旅游网站信息;
自然语言问句输入模块;
自然语言问句分析模块,用于对输入的自然语言分词,并对每个词语进行词性标注;
知识图谱存储模块,以“实体-属性-属性值”的形式存储知识图谱;
知识图谱链接模块,用于将自然语言问句与知识图谱进行链接;
属性值输出模块,根据链接出的“实体”和“属性”,查询相关三元组,并返回属性值。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述基于旅游领域知识图谱的知识问答检索方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述基于旅游领域知识图谱的知识问答检索方法的步骤。
CN202010121654.5A 2020-02-26 2020-02-26 基于旅游领域知识图谱的知识问答检索方法及装置 Active CN111353030B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010121654.5A CN111353030B (zh) 2020-02-26 2020-02-26 基于旅游领域知识图谱的知识问答检索方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010121654.5A CN111353030B (zh) 2020-02-26 2020-02-26 基于旅游领域知识图谱的知识问答检索方法及装置

Publications (2)

Publication Number Publication Date
CN111353030A true CN111353030A (zh) 2020-06-30
CN111353030B CN111353030B (zh) 2023-04-28

Family

ID=71197314

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010121654.5A Active CN111353030B (zh) 2020-02-26 2020-02-26 基于旅游领域知识图谱的知识问答检索方法及装置

Country Status (1)

Country Link
CN (1) CN111353030B (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112100351A (zh) * 2020-09-11 2020-12-18 陕西师范大学 一种通过问题生成数据集构建智能问答系统的方法及设备
CN112100344A (zh) * 2020-08-18 2020-12-18 淮阴工学院 一种基于知识图谱的金融领域知识问答方法
CN112163077A (zh) * 2020-09-28 2021-01-01 华南理工大学 一种面向领域问答的知识图谱构建方法
CN112182188A (zh) * 2020-09-30 2021-01-05 珠海格力电器股份有限公司 一种基于知识图谱的问答方法及装置、存储介质
CN112182178A (zh) * 2020-09-25 2021-01-05 北京字节跳动网络技术有限公司 智能问答方法、装置、设备及可读存储介质
CN112380352A (zh) * 2020-10-28 2021-02-19 中国商用飞机有限责任公司北京民用飞机技术研究中心 一种交互式检索方法、装置、计算机设备及存储介质
CN112507085A (zh) * 2020-12-18 2021-03-16 四川长虹电器股份有限公司 一种知识嵌入的领域识别方法、计算机设备及存储介质
CN112732944A (zh) * 2021-01-30 2021-04-30 吉林大学 一种文本检索的新方法
CN112860867A (zh) * 2021-02-25 2021-05-28 电子科技大学 一种基于卷积神经网络的中文问答系统的属性选择方法及存储介质
CN112948547A (zh) * 2021-01-26 2021-06-11 中国石油大学(北京) 测井知识图谱构建查询方法、装置、设备及存储介质
CN113065003A (zh) * 2021-04-22 2021-07-02 国际关系学院 一种基于多指标的知识图谱生成方法
CN113609838A (zh) * 2021-07-14 2021-11-05 华东计算技术研究所(中国电子科技集团公司第三十二研究所) 文档信息抽取及图谱化方法和系统
CN113626215A (zh) * 2021-07-22 2021-11-09 武汉大学 一种基于短语识别的气象场景服务图谱构建方法及系统
CN113870697A (zh) * 2021-09-03 2021-12-31 厦门大学 一种使用知识图谱的展品系统
CN114218372A (zh) * 2021-12-17 2022-03-22 北京北大软件工程股份有限公司 基于知识库表示的知识图谱检索方法及系统
CN115186109A (zh) * 2022-08-08 2022-10-14 军工保密资格审查认证中心 威胁情报知识图谱的数据处理方法、设备、介质
CN116303976A (zh) * 2023-05-12 2023-06-23 中国人民解放军国防科技大学 基于网络安全知识图谱的渗透测试问答方法、系统及介质
CN117708280A (zh) * 2023-11-27 2024-03-15 国网江苏省电力有限公司扬州供电分公司 一种基于知识图谱的输电工作票智能检索方法及系统
CN112163077B (zh) * 2020-09-28 2024-06-04 华南理工大学 一种面向领域问答的知识图谱构建方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106777274A (zh) * 2016-06-16 2017-05-31 北京理工大学 一种中文旅游领域知识图谱构建方法及系统
US20170228372A1 (en) * 2016-02-08 2017-08-10 Taiger Spain Sl System and method for querying questions and answers
CN109492077A (zh) * 2018-09-29 2019-03-19 北明智通(北京)科技有限公司 基于知识图谱的石化领域问答方法及系统
CN110555153A (zh) * 2019-08-20 2019-12-10 暨南大学 一种基于领域知识图谱的问答系统及其构建方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170228372A1 (en) * 2016-02-08 2017-08-10 Taiger Spain Sl System and method for querying questions and answers
CN106777274A (zh) * 2016-06-16 2017-05-31 北京理工大学 一种中文旅游领域知识图谱构建方法及系统
CN109492077A (zh) * 2018-09-29 2019-03-19 北明智通(北京)科技有限公司 基于知识图谱的石化领域问答方法及系统
CN110555153A (zh) * 2019-08-20 2019-12-10 暨南大学 一种基于领域知识图谱的问答系统及其构建方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
时雨;古天龙;宾辰忠;孙彦鹏;: "基于知识图谱的旅游景点问答系统" *

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112100344B (zh) * 2020-08-18 2024-02-27 淮阴工学院 一种基于知识图谱的金融领域知识问答方法
CN112100344A (zh) * 2020-08-18 2020-12-18 淮阴工学院 一种基于知识图谱的金融领域知识问答方法
CN112100351A (zh) * 2020-09-11 2020-12-18 陕西师范大学 一种通过问题生成数据集构建智能问答系统的方法及设备
CN112182178A (zh) * 2020-09-25 2021-01-05 北京字节跳动网络技术有限公司 智能问答方法、装置、设备及可读存储介质
CN112163077B (zh) * 2020-09-28 2024-06-04 华南理工大学 一种面向领域问答的知识图谱构建方法
CN112163077A (zh) * 2020-09-28 2021-01-01 华南理工大学 一种面向领域问答的知识图谱构建方法
CN112182188A (zh) * 2020-09-30 2021-01-05 珠海格力电器股份有限公司 一种基于知识图谱的问答方法及装置、存储介质
CN112380352A (zh) * 2020-10-28 2021-02-19 中国商用飞机有限责任公司北京民用飞机技术研究中心 一种交互式检索方法、装置、计算机设备及存储介质
WO2022088409A1 (zh) * 2020-10-28 2022-05-05 中国商用飞机有限责任公司北京民用飞机技术研究中心 一种交互式检索方法、装置、计算机设备及存储介质
CN112507085A (zh) * 2020-12-18 2021-03-16 四川长虹电器股份有限公司 一种知识嵌入的领域识别方法、计算机设备及存储介质
CN112507085B (zh) * 2020-12-18 2022-06-03 四川长虹电器股份有限公司 一种知识嵌入的领域识别方法、计算机设备及存储介质
CN112948547B (zh) * 2021-01-26 2024-04-09 中国石油大学(北京) 测井知识图谱构建查询方法、装置、设备及存储介质
CN112948547A (zh) * 2021-01-26 2021-06-11 中国石油大学(北京) 测井知识图谱构建查询方法、装置、设备及存储介质
CN112732944A (zh) * 2021-01-30 2021-04-30 吉林大学 一种文本检索的新方法
CN112860867B (zh) * 2021-02-25 2022-07-12 电子科技大学 一种基于卷积神经网络的中文问答系统的属性选择方法及存储介质
CN112860867A (zh) * 2021-02-25 2021-05-28 电子科技大学 一种基于卷积神经网络的中文问答系统的属性选择方法及存储介质
CN113065003A (zh) * 2021-04-22 2021-07-02 国际关系学院 一种基于多指标的知识图谱生成方法
CN113609838B (zh) * 2021-07-14 2024-05-24 华东计算技术研究所(中国电子科技集团公司第三十二研究所) 文档信息抽取及图谱化方法和系统
CN113609838A (zh) * 2021-07-14 2021-11-05 华东计算技术研究所(中国电子科技集团公司第三十二研究所) 文档信息抽取及图谱化方法和系统
CN113626215A (zh) * 2021-07-22 2021-11-09 武汉大学 一种基于短语识别的气象场景服务图谱构建方法及系统
CN113626215B (zh) * 2021-07-22 2023-08-18 武汉大学 一种基于短语识别的气象场景服务图谱构建方法及系统
CN113870697A (zh) * 2021-09-03 2021-12-31 厦门大学 一种使用知识图谱的展品系统
CN114218372A (zh) * 2021-12-17 2022-03-22 北京北大软件工程股份有限公司 基于知识库表示的知识图谱检索方法及系统
CN115186109A (zh) * 2022-08-08 2022-10-14 军工保密资格审查认证中心 威胁情报知识图谱的数据处理方法、设备、介质
CN116303976B (zh) * 2023-05-12 2023-08-08 中国人民解放军国防科技大学 基于网络安全知识图谱的渗透测试问答方法、系统及介质
CN116303976A (zh) * 2023-05-12 2023-06-23 中国人民解放军国防科技大学 基于网络安全知识图谱的渗透测试问答方法、系统及介质
CN117708280A (zh) * 2023-11-27 2024-03-15 国网江苏省电力有限公司扬州供电分公司 一种基于知识图谱的输电工作票智能检索方法及系统

Also Published As

Publication number Publication date
CN111353030B (zh) 2023-04-28

Similar Documents

Publication Publication Date Title
CN111353030B (zh) 基于旅游领域知识图谱的知识问答检索方法及装置
CN110399457B (zh) 一种智能问答方法和系统
CN109492077B (zh) 基于知识图谱的石化领域问答方法及系统
CN110633409B (zh) 一种融合规则与深度学习的汽车新闻事件抽取方法
WO2022116537A1 (zh) 一种资讯推荐方法、装置、电子设备和存储介质
US8756245B2 (en) Systems and methods for answering user questions
CN111522910B (zh) 一种基于文物知识图谱的智能语义检索方法
CN111353310A (zh) 基于人工智能的命名实体识别方法、装置及电子设备
CN111639171A (zh) 一种知识图谱问答方法及装置
CN110633366B (zh) 一种短文本分类方法、装置和存储介质
CN109766417A (zh) 一种基于知识图谱的文学编年史问答系统的构建方法
CN110765277B (zh) 一种基于知识图谱的移动端的在线设备故障诊断方法
CN105045852A (zh) 一种教学资源的全文搜索引擎系统
CN113535917A (zh) 基于旅游知识图谱的智能问答方法及系统
CN111324691A (zh) 一种基于知识图谱的少数民族领域智能问答方法
CN107506472B (zh) 一种学生浏览网页分类方法
CN105426529A (zh) 基于用户搜索意图定位的图像检索方法及系统
WO2019227581A1 (zh) 兴趣点识别方法、装置、终端设备及存储介质
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及系统
CN112749265A (zh) 一种基于多信息源的智能问答系统
CN113254630A (zh) 一种面向全球综合观测成果的领域知识图谱推荐方法
CN111325018A (zh) 一种基于web检索和新词发现的领域词典构建方法
CN112989811B (zh) 一种基于BiLSTM-CRF的历史典籍阅读辅助系统及其控制方法
CN111767476A (zh) 一种基于hmm模型的智慧城市时空大数据空间化引擎构建方法
Al-Sultany et al. Enriching tweets for topic modeling via linking to the wikipedia

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant