CN111831880A - 一种基于微酒店平台的智能问答方法 - Google Patents
一种基于微酒店平台的智能问答方法 Download PDFInfo
- Publication number
- CN111831880A CN111831880A CN202010107153.1A CN202010107153A CN111831880A CN 111831880 A CN111831880 A CN 111831880A CN 202010107153 A CN202010107153 A CN 202010107153A CN 111831880 A CN111831880 A CN 111831880A
- Authority
- CN
- China
- Prior art keywords
- data
- entity
- knowledge
- hotel
- question
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 239000013598 vector Substances 0.000 claims abstract description 23
- 238000012549 training Methods 0.000 claims abstract description 9
- 238000005516 engineering process Methods 0.000 claims abstract description 8
- 238000012545 processing Methods 0.000 claims description 8
- 238000004140 cleaning Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000009193 crawling Effects 0.000 claims description 5
- 230000010354 integration Effects 0.000 claims description 5
- 238000011156 evaluation Methods 0.000 claims description 4
- 230000004044 response Effects 0.000 claims description 4
- BUGBHKTXTAQXES-UHFFFAOYSA-N Selenium Chemical compound [Se] BUGBHKTXTAQXES-UHFFFAOYSA-N 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 claims description 3
- 238000013441 quality evaluation Methods 0.000 claims description 3
- 229910052711 selenium Inorganic materials 0.000 claims description 3
- 239000011669 selenium Substances 0.000 claims description 3
- 238000003672 processing method Methods 0.000 claims description 2
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 230000002349 favourable effect Effects 0.000 abstract 1
- 238000003058 natural language processing Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 3
- 239000012634 fragment Substances 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 241000283690 Bos taurus Species 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于微酒店平台的智能问答方法,该方法利用Python爬取携程、途牛等网站公开发布的酒店信息,并对爬取数据进行预处理,构建知识图谱。在此基础上,对用户所提出的问题文本采用自然语言处理技术获取实体,使用word2vec词向量训练方法将该实体训练成词向量,并采用余弦相似度算法计算该实体节点对应的词向量与上述预处理数据建立的知识图谱之间的相似度,进而按相似度由高到低排序对用户问题进行答复,解决了传统问答算法答非所问,无法回答复杂语句的问题。本方法利用知识图谱对数据非常好的描述能力,实现本方法在具体应用中无需使用大量的质量高的问答语料,有利于提高包含复杂语义的自然语言问句的回答准确性。
Description
技术领域
本发明涉及数据获取和知识图谱信息问答领域,具体是一种基于微酒店平台的智能问答方法。
背景技术
当前智能问答系统的目标是充分运用相关技术,为每一个用户所提出的问题实现准确的答复,让每个用户更便捷的获取所需信息。另一方面,随着互联网的快速发展和个人计算机的广泛普及,越来越多的消息和数据通过超文本传输协议以电子文档的形式发布。于是,数据检索的速度和能力遇到了巨大的挑战。如何准确并及时地在浩如烟海的信息世界中获取用户所需的信息,已成为互联网发展至今的一大难题。
搜索引擎技术是一种较成熟的信息检索技术,但是,随着互联网数据的疯狂增长,搜索引擎的缺点正在逐渐呈现。百度、谷歌、必应这类传统的搜索引擎,通常只能以关键词作为输入,对于普通用户而言,他们往往难以凝炼出少量的关键词来准确地表述其查询意图。此外,搜索引擎的返回结果不是一种简洁的准确答案,而是一个网页片段的列表。这些网页片段通常含有大师的噪声数据,用户仍然需要阅读这些网页片段乃至相应的原始网页,才能找到其所共需的答案。
目前现有的大多数智能问答方法,均是面向搜索来实现信息检索的,其原理是通过搜索的方式来实现字符的比对,以此满足用户的需求。因此现在的大多数产品的搜索功能不是很精准,难以处理较为复杂的数据,以至于最后对用户所提问题的答复远远达不到用户的要求,出现“答非所问”的情况。
发明内容
为了完善现有技术中存在的不足,本发明提供了一种基于微酒店平台的智能问答方法,该方法通过网络爬虫对酒店数据进行爬取,建立知识图谱,提高答复效率和答复准确度。
实现本发明目的的技术方案是:
一种基于微酒店平台的智能问答方法,包括如下步骤:
(1)爬取酒店公开公布的相关数据:利用Selenium爬取酒店位置、评分、类别、评价等相关数据,并对所爬取的数据进行清洗、加工,再将处理过的数据信息存储至数据库,形成结构化的数据,用于构建知识图谱;
(2)构建基于酒店信息的知识图谱:从步骤(1)的结构化数据中提取出实体、属性以及实体间的相互关系,形成本体化的知识表达,并将获得的实体链接和知识合并进行整合,对经过融合的新知识进行质量评估,将合格的部分加入到知识库中,新增数据后进行知识推理,拓展现有知识;采用自底向上的方式构建知识图谱,每一轮迭代更新,重复,获得基于酒店信息的知识图谱中的实体节点及属性;
(3)获取问题实体节点并训练:对用户所提出的问题文本采用命名实体识别技术处理,并获取若干实体节点采用word2vec中skip-gram模型对该若干实体节点进行训练学习、提取特征后,得到对应实体节点对应的词向量;
(4)计算实体节点之间关联度及完成问答:将步骤(3)获取的若干实体节点对应的词向量与步骤(2)构建的酒店信息知识图谱中的实体节点进行相似度计算,得到相似度值;按照由高到低的顺序对得到的相似度值进行排序;输出相似度最高的实体节点,完成用户问题的答复。
步骤(1)中所述酒店位置、评分、类别、评价等数据来源于携程、途牛等网站公开发布的酒店数据。
步骤(1)所述的清洗、加工方法包括:
1)数据清理:当爬取的数据有缺失值、噪声数据时,通过使用一个全局变量填充缺失值或使用属性的中心度量填充缺失值等方法来填充数据,通过分箱、回归、离群点分析等方法去除噪声;
2)数据集成:将来自多个数据源的数据去重,集成到一起,形成数据集;
3)数据规约:将数据集将维规约或数据规约简化表示。
步骤(4)所述的相似度计算,是采用余弦相似度算法计算实体节点的词向量之间的关联度,其中,余弦相似度算法公式如下:
公式(1)中,A为实体1所对应的向量,B为实体2所对应的向量,Ai为实体1对应向量的第i个维度的值,Bi为实体2对应向量的第i个维度的值。
本发明基于微酒店平台,以自然语言作为输入与输出的问答系统,用户能够以文本方式,使用自然语言直接地表达其查询需求,通过问答方法理解用户的查询意图后,通过一系列的检索、分析与处理,直接将以自然语言形式表述的准确答案返回给用户;该方法通过网络爬虫对酒店各项数据进行获取,便捷且适用性强;采用的余弦相似度算法能确保节点与节点之间有足够的关联性;将问答对应与知识图谱相结合,提升了问答服务的准确性和可解释性,对满足用户准确问答的需求起到推进作用,数据来源获取简单,采用文本训练方法,技术成熟,方法简单且行之有效、准确度高,适用性强。
附图说明
图1为本发明实施例中酒店平台获取信息的选定示意图(如酒店名称、位置、附近景点、评分及价格等);
图2为本发明实施例构建部分基于酒店信息的知识图谱结构示意图;
图3为本发明实施例待提取实体节点的输入问题文本示意图;
图4为本发明实施例基于微酒店平台的智能问答方法的方法流程图。
具体实施方式
为了能够更清楚了解本发明的技术方案,使本领域的技术人员能依照说明书的内容予以实施,同时为了使本发明的目的、特征能够更浅显易懂,以下结合优先实施例,并配合附图进行详细说明。
实施例:
一种基于微酒店平台的智能问答方法,包括以下步骤:
1)爬取相关网站如携程、去哪儿网等官方网站公开发布的酒店相关信息:
1-1)利用Selenium爬取酒店名称位置、评价等相关信息,如图1,在携程页面公开发布的酒店信息中抽取酒店名称、附近景点、评分以及价格,如“花筑厦门Lin墅”、“鼓浪屿”、“4.8分”、“181”,可将此信息作为一条记录存储到数据库中;
1-2)对所爬取的数据进行清洗、加工,得到关于酒店的有效真实数据;
1-3)将处理过的信息存储到数据库中,形成结构化数据以便构建知识图谱;
2)构建基于酒店信息的知识图谱,如图2所示:
2-1)信息抽取:从步骤1)中的数据库中提取出实体,如酒店名称“灵玲大酒店”、附近景点“鼓浪屿”、属性“评分”等以及实体间的相互关系,形成本体化的知识表达;
2-2)知识融合:获得新知识后进行整合,包括实体链接和知识合并;
2-3)知识加工:对经过融合的新知识进行质量评估,合格的部分加入到知识库中,新增数据之后,进行知识推理,拓展现有知识;
2-4)采用自底向上的方式构建知识图谱,每一轮迭代更新,重复步骤2-1)-步骤2-4),获得基于酒店信息的知识图谱中的实体节点及属性;
3)获取问题文本如附图说明图3,提取实体节点并训练:
3-1)对问题对应的文本用命名实体识别技术处理提取出实体节点,例如在图3的问题文本中可提取出实体节点“厦门”、“鼓浪屿”、“酒店”;
3-2)采用word2vec中skip-gram模型对上述实体节点进行训练;
3-3)训练学习、提取特征后,得到实体节点一一对应的词向量;
4)计算步骤2)和步骤3)分别所获实体节点之间关联度及完成问答:
4-1)将步骤3)获取的实体节点的词向量与步骤2)构建的酒店信息知识图谱中的实体节点采用余弦相似度算法进行相似度计算,得到相似度值;其中相似度计算公式为:
公式(1)中,A为实体1所对应的向量,B为实体2所对应的向量,Ai为实体1对应向量的第i个维度的值,Bi为实体2对应向量的第i个维度的值;
4-2)按照由高到低的顺序对步骤4-1)得到的相似度值进行排序;
4-3)输出步骤4-2)中相似度最高的实体节点,并完成对用户问题的答复。
Claims (3)
1.一种基于微酒店平台的智能问答方法,包括如下步骤:
(1)爬取酒店公开公布的相关数据:利用Selenium爬取酒店位置、评分、类别、评价的相关数据,并对所爬取的数据进行清洗、加工,再将处理过的数据信息存储至数据库,形成结构化的数据,用于构建知识图谱;
(2)构建基于酒店信息的知识图谱:从步骤(1)的结构化数据中提取出实体、属性以及实体间的相互关系,形成本体化的知识表达,并将获得的实体链接和知识合并进行整合,对经过融合的新知识进行质量评估,将合格的部分加入到知识库中,新增数据后进行知识推理,拓展现有知识;采用自底向上的方式构建知识图谱,每一轮迭代更新,重复,获得基于酒店信息的知识图谱中的实体节点及属性;
(3)获取问题实体节点并训练:对用户所提出的问题文本采用命名实体识别技术处理,并获取若干实体节点采用word2vec中skip-gram模型对该若干实体节点进行训练学习、提取特征后,得到对应实体节点对应的词向量;
(4)计算实体节点之间关联度及完成问答:将步骤(3)获取的若干实体节点对应的词向量与步骤(2)构建的酒店信息知识图谱中的实体节点进行相似度计算,得到相似度值;按照由高到低的顺序对得到的相似度值进行排序;输出相似度最高的实体节点,完成用户问题的答复。
2.根据权利要求1所述的智能问答方法,其特征是:步骤(1)所述的清洗、加工方法包括:
1)数据清理:当爬取的数据有缺失值、噪声数据时,通过使用一个全局变量填充缺失值或使用属性的中心度量填充缺失值等方法来填充数据,通过分箱、回归、离群点分析等方法去除噪声;
2)数据集成:将来自多个数据源的数据去重,集成到一起,形成数据集;
3)数据规约:将数据集将维规约或数据规约简化表示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010107153.1A CN111831880A (zh) | 2020-02-21 | 2020-02-21 | 一种基于微酒店平台的智能问答方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010107153.1A CN111831880A (zh) | 2020-02-21 | 2020-02-21 | 一种基于微酒店平台的智能问答方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111831880A true CN111831880A (zh) | 2020-10-27 |
Family
ID=72913543
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010107153.1A Pending CN111831880A (zh) | 2020-02-21 | 2020-02-21 | 一种基于微酒店平台的智能问答方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111831880A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113342952A (zh) * | 2021-06-16 | 2021-09-03 | 上海电气集团股份有限公司 | 一种基于问题图迭代检索的知识图谱问答方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107729493A (zh) * | 2017-09-29 | 2018-02-23 | 北京创鑫旅程网络技术有限公司 | 旅行知识图谱的构建方法、装置及旅行问答方法、装置 |
CN110245204A (zh) * | 2019-06-12 | 2019-09-17 | 桂林电子科技大学 | 一种基于定位及知识图谱的智能推荐方法 |
CN110807091A (zh) * | 2019-03-01 | 2020-02-18 | 王涵 | 一种酒店智能问答推荐与决策支持分析方法及系统 |
-
2020
- 2020-02-21 CN CN202010107153.1A patent/CN111831880A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107729493A (zh) * | 2017-09-29 | 2018-02-23 | 北京创鑫旅程网络技术有限公司 | 旅行知识图谱的构建方法、装置及旅行问答方法、装置 |
CN110807091A (zh) * | 2019-03-01 | 2020-02-18 | 王涵 | 一种酒店智能问答推荐与决策支持分析方法及系统 |
CN110245204A (zh) * | 2019-06-12 | 2019-09-17 | 桂林电子科技大学 | 一种基于定位及知识图谱的智能推荐方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113342952A (zh) * | 2021-06-16 | 2021-09-03 | 上海电气集团股份有限公司 | 一种基于问题图迭代检索的知识图谱问答方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kejriwal et al. | Knowledge graphs: Fundamentals, techniques, and applications | |
CN111488467B (zh) | 地理知识图谱的构建方法、装置、存储介质及计算机设备 | |
CN102262634B (zh) | 一种自动问答方法及系统 | |
CN110990590A (zh) | 一种基于强化学习和迁移学习的动态金融知识图谱构建方法 | |
CN110765277B (zh) | 一种基于知识图谱的移动端的在线设备故障诊断方法 | |
CN111143672B (zh) | 基于知识图谱的专业特长学者推荐方法 | |
CN109947952B (zh) | 基于英语知识图谱的检索方法、装置、设备及存储介质 | |
CN112328800A (zh) | 自动生成编程规范问题答案的系统及方法 | |
CN116127095A (zh) | 一种序列模型与知识图谱结合的问答方法 | |
CN111061828B (zh) | 一种数字图书馆知识检索方法及装置 | |
CN109543176A (zh) | 一种基于图向量表征的丰富短文本语义方法及装置 | |
CN117312499A (zh) | 一种基于语义的大数据分析系统及方法 | |
CN112926325A (zh) | 基于bert神经网络的中文人物关系抽取构建方法 | |
CN113157885A (zh) | 一种面向人工智能领域知识的高效智能问答系统 | |
CN112417170B (zh) | 面向不完备知识图谱的关系链接方法 | |
CN114239730A (zh) | 一种基于近邻排序关系的跨模态检索方法 | |
CN117540063A (zh) | 一种基于问题生成的教育领域知识库搜索优化方法和装置 | |
CN111831880A (zh) | 一种基于微酒店平台的智能问答方法 | |
CN110750632B (zh) | 一种改进的中文alice智能问答方法及系统 | |
CN116595139A (zh) | 一种基于多模态知识图谱的智能问答方法 | |
CN113742591B (zh) | 学习伙伴推荐方法和装置、电子设备、存储介质 | |
Fouad | Proposed approach to build semantic learner model in adaptive e-learning | |
CN111581326B (zh) | 一种基于异构外部知识源图结构抽取答案信息的方法 | |
CN115269806A (zh) | 应用于矿物领域知识图谱的问答方法、电子装置及存储介质 | |
CN114372478A (zh) | 一种基于知识蒸馏的问答方法、终端设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201027 |