CN113204696A - 一种基于文本图谱的智能搜索引擎的检索方法 - Google Patents
一种基于文本图谱的智能搜索引擎的检索方法 Download PDFInfo
- Publication number
- CN113204696A CN113204696A CN202110005543.2A CN202110005543A CN113204696A CN 113204696 A CN113204696 A CN 113204696A CN 202110005543 A CN202110005543 A CN 202110005543A CN 113204696 A CN113204696 A CN 113204696A
- Authority
- CN
- China
- Prior art keywords
- search
- entity
- text
- distributed system
- system cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 19
- 230000011218 segmentation Effects 0.000 claims abstract description 5
- 238000004364 calculation method Methods 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 claims description 4
- 238000004519 manufacturing process Methods 0.000 description 8
- 238000010219 correlation analysis Methods 0.000 description 2
- 238000013467 fragmentation Methods 0.000 description 2
- 238000006062 fragmentation reaction Methods 0.000 description 2
- 239000004579 marble Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000007670 refining Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000035755 proliferation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于文本图谱的智能搜索引擎的检索方法,涉及计算机技术领域,包括获取数据信息存储至分布式系统集群中,并构建文本图谱;根据用户输入的搜索语句,建立节点查询语句;根据节点查询语句在文本图谱中匹配三元组;若匹配成功,则将匹配到的三元组中的实体作为搜索结果返回客户;若匹配不成功,则对搜索语句进行分词,获取检索词;利用余弦相似度公式计算分布式系统集群中与检索词相关性最高的实体并返回用户。本发明通过构建文本图谱,进一步根据搜索目标建立实体与关系的节点查询语句,进而根据节点查询语句在文本图谱中进行检索,能够准确快速的得到搜索目标。
Description
技术领域
本发明涉及计算机技术领域,尤其是涉及一种基于文本图谱的智能搜索引擎的检索方法。
背景技术
随着互联网网站页面的激增和用户队伍的不断壮大,搜索引擎越来越成为人们上网浏览时的重要工具。
目前,在进行目标搜索时,用户可以在百度、谷歌等搜索引擎或门户网站输入查询内容,搜索引擎或门户网站根据输入内容提取关键词进行相关信息的检索,将搜索结果展示在网页中,用户在网页中逐条筛选所需的信息;
这种根据关键词进行目标搜索的方法,获取的结果往往是零散化和碎片化的,精确度不高,缺少联系,还可能具有歧义性,最后需要在搜索结果中人为地甄别有用信息;并且在通过门户网站进行搜索时,由于门户网站(如论坛)中的信息比较杂乱,仅靠关键词得到的搜索结果不能体现搜索目标,搜索效率低。
发明内容
针对上述问题,本发明提供了一种基于文本图谱的智能搜索引擎的检索方法,通过构建文本图谱,进一步根据搜索目标建立实体与关系的节点查询语句,进而根据节点查询语句在文本图谱中进行检索,准确快速的得到搜索目标。
为实现上述目的,本发明提供了一种基于文本图谱的智能搜索引擎的检索方法,包括:
获取数据信息存储至分布式系统集群中,并构建文本图谱;
根据用户输入的搜索语句,建立节点查询语句;
根据所述节点查询语句在所述文本图谱中匹配三元组;
若匹配成功,则将匹配到的所述三元组中的实体作为搜索结果返回客户;
若匹配不成功,则对所述搜索语句进行分词,获取检索词;
利用余弦相似度公式计算所述分布式系统集群中与所述检索词相关性最高的实体并返回用户。
作为本发明的进一步改进,所述数据信息包括期刊、论文、专利、百科、词典信息,国家官网、企业官网信息以及各专业、职业信息。
作为本发明的进一步改进,所述构建文本图谱,包括:
从所述分布式系统集群中提取三元组;
根据三元组构建文本图谱;
将文本图谱保存至数据库中。
作为本发明的进一步改进,所述根据用户输入的搜索语句,建立节点查询语句,包括:
根据用户输入的搜索语句进行实体识别和关系解析;
根据得到的所述实体和关系建立节点查询语句。
作为本发明的进一步改进,所述余弦相似度公式为:
其中,
Ai表示搜索语句钟获取到检索词的分向量;
Bi表示分布式系统集群中实体的分向量;
n表示检索词及分布式系统集群中实体的分向量数。
作为本发明的进一步改进,所述利用余弦相似度公式计算所述分布式系统集群中与所述检索词相关性最高的实体并返回用户,包括:
利用余弦相似度公式将所述检索词与所述分布式系统集群中的实体逐一进行相关性计算;
将计算结果中最大余弦值对应的实体返回用户。
与现有技术相比,本发明的有益效果为:
本发明通过建立文本图谱,进一步将搜索语句进行识别、解析,提炼要点建立节点查询语句,进而根据节点查询语句在文本图谱中进行检索,对于文本图谱中能够匹配到三元组的节点查询语句,直接返回三元组中的实体,对于文本图谱中不能匹配到三元组的节点查询语句,再次进行关键词查询,且关键词查询中利用余弦相似度公式进行相关性分析,得到更为准确的搜索目标;解决了通过关键词进行检索时,得到的结果零散化、碎片化、精确度不高等问题,提高了搜索效率。
附图说明
图1为本发明一种实施例公开的基于文本图谱的智能搜索引擎的检索方法流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图对本发明做进一步的详细描述:
如图1所示,本发明提供的一种基于文本图谱的智能搜索引擎的检索方法,包括:
S1、获取数据信息存储至分布式系统集群中,并构建文本图谱;
其中,
数据信息包括期刊、论文、专利、百科、词典信息,国家官网、企业官网信息以及各专业、职业信息。
构建文本图谱,包括:
从分布式系统集群中提取三元组,包括多个三元组;
根据三元组构建文本图谱;
将文本图谱保存至数据库中。
S2、根据用户输入的搜索语句,建立节点查询语句;
其中,
根据用户输入的搜索语句进行实体识别和关系解析;
根据得到的实体和关系建立节点查询语句。
S3、根据节点查询语句在文本图谱中匹配三元组;
S4、若匹配成功,则将匹配到的三元组中的实体作为搜索结果返回客户;
S5、若匹配不成功,则对搜索语句进行分词,获取检索词;
S6、利用余弦相似度公式计算分布式系统集群中与检索词相关性最高的实体并返回用户;
其中,余弦相似度公式为:
公式中,
Ai表示搜索语句钟获取到检索词的分向量;
Bi表示分布式系统集群中实体的分向量;
n表示检索词及分布式系统集群中实体的分向量数。
进一步的,
利用余弦相似度公式将检索词与分布式系统集群中的实体逐一进行相关性计算;
将计算结果中最大余弦值对应的实体返回用户。
实施例1:
步骤1、数据信息收集,收集各期刊、论文、专利、百科、词典信息,收集国家官网、企业官网信息以及各专业、职业信息;
步骤2、将收集到的数据信息储存至分布式系统集群中,识别并提取数据信息中的实体、关系和属性,得到多个三元组,根据三元组构建文本图谱,并将文本图谱保存至数据库中;
其中,三元组通常记为(x,y,z),
进一步的,从某企业官网收集到数据信息“鸿海集团董事长郭台铭25日表示,阿里巴巴集团董事局主席马云提的新零售、新制造中的「新制造」,是他给加上的”,获得三元组(阿里巴巴,主席,马云)、(鸿海集团,董事长,郭台铭)。
步骤3、用户输入的搜索语句,如:阿里巴巴董事局主席是谁,识别搜索语句中的实体,识别到阿里巴巴,解析关系为主席,建立节点查询语句为:(阿里巴巴,主席);
步骤4、根据节点查询语句(阿里巴巴,主席)在文本图谱中匹配三元组,匹配到(阿里巴巴,主席,马云);
步骤5、将匹配到的三元组中的实体“马云”作为搜索结果返回客户;
实施例2:
步骤1、数据信息收集,收集各期刊、论文、专利、百科、词典信息,收集国家官网、企业官网信息以及各专业、职业信息;
步骤2、将收集到的数据信息储存至分布式系统集群中,识别并提取数据信息中的实体、关系和属性,得到多个三元组,根据三元组构建文本图谱,并将文本图谱保存至数据库中;
其中,三元组通常记为(x,y,z),
进一步的,从某企业官网收集到数据信息“鸿海集团董事长郭台铭25日表示,阿里巴巴集团董事局主席马云提的新零售、新制造中的「新制造」,是他给加上的”,获得三元组(阿里巴巴,主席,马云)、(鸿海集团,董事长,郭台铭)。
步骤3、用户输入的搜索语句,如:阿里巴巴CEO是谁,识别搜索语句中的实体,识别到阿里巴巴,解析关系为CEO,建立节点查询语句为:(阿里巴巴,CEO);
步骤4、根据节点查询语句(阿里巴巴,CEO)在文本图谱中匹配三元组,没有匹配到三元组;
步骤5、对搜索语句进行分词,获取检索词有阿里巴巴和CEO;
步骤6、利用余弦相似度公式计算分布式系统集群中与检索词相关性最高的实体并返回用户;
其中,
分布式系统集群中储存的数据信息“鸿海集团董事长郭台铭25日表示,阿里巴巴集团董事局主席马云提的新零售、新制造中的「新制造」,是他给加上的”,实体包括鸿海集团、郭台铭、阿里巴巴、马云;
分布式系统集群中包含检索词阿里巴巴,不包含检索词CEO;
根据余弦相似性公式,依次计算检索词阿里巴巴与布式系统集群中实体鸿海集团、郭台铭、马云的相似性
其中,分布式系统集群中的实体均用向量表示,将向量分解到不同坐标轴得到分向量并进行计算;
计算得到相关性较高的实体为“马云”,返回用户。
本发明的优点:
通过建立文本图谱,进一步将搜索语句进行识别、解析,提炼要点建立节点查询语句,进而根据节点查询语句在文本图谱中进行检索,对于文本图谱中能够匹配到三元组的节点查询语句,直接返回三元组中的实体,对于文本图谱中不能匹配到三元组的节点查询语句,再次进行关键词查询,且关键词查询中利用余弦相似度公式进行相关性分析,得到更为准确的搜索目标;解决了通过关键词进行检索时,得到的结果零散化、碎片化、精确度不高等问题,提高了搜索效率。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种基于文本图谱的智能搜索引擎的检索方法,其特征在于,包括:
获取数据信息存储至分布式系统集群中,并构建文本图谱;
根据用户输入的搜索语句,建立节点查询语句;
根据所述节点查询语句在所述文本图谱中匹配三元组;
若匹配成功,则将匹配到的所述三元组中的实体作为搜索结果返回客户;
若匹配不成功,则对所述搜索语句进行分词,获取检索词;
利用余弦相似度公式计算所述分布式系统集群中与所述检索词相关性最高的实体并返回用户。
2.根据权利要求1所述的检索方法,其特征在于:所述数据信息包括期刊、论文、专利、百科、词典信息,国家官网、企业官网信息以及各专业、职业信息。
3.根据权利要求1所述的检索方法,其特征在于,所述构建文本图谱,包括:
从所述分布式系统集群中提取三元组;
根据三元组构建文本图谱;
将文本图谱保存至数据库中。
4.根据权利要求1所述的检索方法,其特征在于:所述根据用户输入的搜索语句,建立节点查询语句,包括:
根据用户输入的搜索语句进行实体识别和关系解析;
根据得到的所述实体和关系建立节点查询语句。
6.根据权利要求1所述的检索方法,其特征在于,所述利用余弦相似度公式计算所述分布式系统集群中与所述检索词相关性最高的实体并返回用户,包括:
利用余弦相似度公式将所述检索词与所述分布式系统集群中的实体逐一进行相关性计算;
将计算结果中最大余弦值对应的实体返回用户。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110005543.2A CN113204696A (zh) | 2021-01-05 | 2021-01-05 | 一种基于文本图谱的智能搜索引擎的检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110005543.2A CN113204696A (zh) | 2021-01-05 | 2021-01-05 | 一种基于文本图谱的智能搜索引擎的检索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113204696A true CN113204696A (zh) | 2021-08-03 |
Family
ID=77025174
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110005543.2A Pending CN113204696A (zh) | 2021-01-05 | 2021-01-05 | 一种基于文本图谱的智能搜索引擎的检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113204696A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114490722A (zh) * | 2022-02-25 | 2022-05-13 | 北京嘉诚瑞杰信息技术有限公司 | 一种基于空间实体融合的智能搜索方法 |
CN117851538A (zh) * | 2024-03-07 | 2024-04-09 | 济南浪潮数据技术有限公司 | 一种分布式检索方法、系统、设备及介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105868313A (zh) * | 2016-03-25 | 2016-08-17 | 浙江大学 | 一种基于模板匹配技术的知识图谱问答系统及方法 |
CN109002516A (zh) * | 2018-07-06 | 2018-12-14 | 国网电子商务有限公司 | 一种搜索方法及装置 |
CN110147437A (zh) * | 2019-05-23 | 2019-08-20 | 北京金山数字娱乐科技有限公司 | 一种基于知识图谱的搜索方法及装置 |
-
2021
- 2021-01-05 CN CN202110005543.2A patent/CN113204696A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105868313A (zh) * | 2016-03-25 | 2016-08-17 | 浙江大学 | 一种基于模板匹配技术的知识图谱问答系统及方法 |
CN109002516A (zh) * | 2018-07-06 | 2018-12-14 | 国网电子商务有限公司 | 一种搜索方法及装置 |
CN110147437A (zh) * | 2019-05-23 | 2019-08-20 | 北京金山数字娱乐科技有限公司 | 一种基于知识图谱的搜索方法及装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114490722A (zh) * | 2022-02-25 | 2022-05-13 | 北京嘉诚瑞杰信息技术有限公司 | 一种基于空间实体融合的智能搜索方法 |
CN117851538A (zh) * | 2024-03-07 | 2024-04-09 | 济南浪潮数据技术有限公司 | 一种分布式检索方法、系统、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103678576B (zh) | 基于动态语义分析的全文检索系统 | |
CN111797214A (zh) | 基于faq数据库的问题筛选方法、装置、计算机设备及介质 | |
WO2019091026A1 (zh) | 知识库文档快速检索方法、应用服务器及计算机可读存储介质 | |
US9436674B2 (en) | Signal processing approach to sentiment analysis for entities in documents | |
US8341112B2 (en) | Annotation by search | |
US9104979B2 (en) | Entity recognition using probabilities for out-of-collection data | |
CN110929125B (zh) | 搜索召回方法、装置、设备及其存储介质 | |
US7392244B1 (en) | Methods and apparatus for determining equivalent descriptions for an information need | |
US20160034514A1 (en) | Providing search results based on an identified user interest and relevance matching | |
EP2503477B1 (en) | A system and method for contextual resume search and retrieval based on information derived from the resume repository | |
JP2008542951A (ja) | 関連性ネットワーク | |
CN109299235B (zh) | 知识库搜索方法、装置及计算机可读存储介质 | |
CN110032650B (zh) | 一种训练样本数据的生成方法、装置及电子设备 | |
CN107918644A (zh) | 声誉管理框架内的新闻议题分析方法和实施系统 | |
CN116028722B (zh) | 一种基于词向量的岗位推荐方法、装置及计算机设备 | |
CN113204696A (zh) | 一种基于文本图谱的智能搜索引擎的检索方法 | |
Nesi et al. | Ge (o) Lo (cator): Geographic information extraction from unstructured text data and Web documents | |
CN112506864A (zh) | 文件检索的方法、装置、电子设备及可读存储介质 | |
CN113609847A (zh) | 信息抽取方法、装置、电子设备及存储介质 | |
US20200293581A1 (en) | Systems and methods for crawling web pages and parsing relevant information stored in web pages | |
CN117708270A (zh) | 企业数据查询方法、装置、设备及存储介质 | |
CN110019714A (zh) | 基于历史结果的多意图查询方法、装置、设备及存储介质 | |
CN111737607A (zh) | 数据处理方法、装置、电子设备以及存储介质 | |
CN114218404A (zh) | 内容检索方法、检索库的构建方法、装置和设备 | |
Urinkulov et al. | Models and algorithms for optimizing legal information retrieval in the corporate network of academic libraries |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |