CN112148885B - 一种基于知识图谱的智能搜索方法及系统 - Google Patents
一种基于知识图谱的智能搜索方法及系统 Download PDFInfo
- Publication number
- CN112148885B CN112148885B CN202010918512.1A CN202010918512A CN112148885B CN 112148885 B CN112148885 B CN 112148885B CN 202010918512 A CN202010918512 A CN 202010918512A CN 112148885 B CN112148885 B CN 112148885B
- Authority
- CN
- China
- Prior art keywords
- word
- article
- words
- knowledge graph
- matching
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 230000011218 segmentation Effects 0.000 claims abstract description 27
- 238000010276 construction Methods 0.000 claims abstract description 11
- 238000013500 data storage Methods 0.000 claims description 34
- 238000012545 processing Methods 0.000 claims description 31
- 238000004364 calculation method Methods 0.000 claims description 27
- 238000004140 cleaning Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 6
- 238000012163 sequencing technique Methods 0.000 claims description 6
- 238000001228 spectrum Methods 0.000 claims description 5
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 238000002372 labelling Methods 0.000 abstract description 2
- 229910052640 jadeite Inorganic materials 0.000 description 30
- 238000010586 diagram Methods 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 2
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 2
- 239000010931 gold Substances 0.000 description 2
- 229910052737 gold Inorganic materials 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Library & Information Science (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于知识图谱的智能搜索方法,该方法步骤包括,第一步:用户输入检索词/词组进行检索,第二步:对用户输入的检索词/词组进行分词,第三步:将分词后的检索词/词组与知识图谱核心词进行精确匹配和近义词匹配,第四步:核心词匹配成功则继续与“核心词知识图谱”中的节点词进行精确匹配和近义词匹配;第五步:核心词匹配不成功,则将检索词/词组在非关系型数据库中与全部文章的标题和内容进行匹配,获取到匹配的文章内容,第六步:将获取到的文章内容,进行内容清洗、去重、排序后,进行内容输出,本发明的有益效果是,该方法主要是在在传统索引式检索的基础上,引入知识图谱构建和标注体系,为用户提供更为精准和快速的搜索结果。
Description
技术领域
本发明涉及搜索方法技术领域,具体为一种基于知识图谱的智能搜索方法及系统。
背景技术
用户进行搜索时,多采取传统的索引式检索形式,基于传统关系型数据库中关键词匹配进行检索,往往存在查不全、查不准、检索质量不高的现象,特别是在网络信息时代,利用传统关键词匹配很难满足人们检索的要求,尤其是对于大段文本的检索,索引式检索不仅速度慢而且无法对患者的输入词进行有效理解。
基于知识图谱的智能搜索,主要通过自然语言处理和知识图谱等人工智能技术,来实现人工智能在搜索引擎产品的落地。知识图谱于2012年5月正式被提出,其目标在于改善搜索结果,描述真实世界中存在的各种实体和概念,以及这些实体、概念之间的关联关系。
运用了知识图谱的智能搜索引擎,可以返回更加精准的结果。搜索+知识图谱,是未来搜索引擎的发展方向,未来的搜索引擎,会以用户为核心,越来越智能化。
基于此,本发明设计了一种基于知识图谱的智能搜索方法及系统,以解决上述问题。
发明内容
本发明公开了一种基于知识图谱的智能搜索方法及系统,该方法用于解决传统关键词匹配很难满足人们检索的要求,尤其是对于大段文本的检索,索引式检索不仅速度慢而且无法对患者的输入词进行有效理解的问题。
为实现上述目的,本发明提供如下技术方案:一种基于知识图谱的智能搜索方法,该方法步骤包括:
第一步:用户输入检索词/词组进行检索;
第二步:对用户输入的检索词/词组进行分词;
第三步:将分词后的检索词/词组与知识图谱核心词进行精确匹配和近义词匹配;
第四步:核心词匹配成功则继续与“核心词知识图谱”中的节点词进行精确匹配和近义词匹配;节点词匹配成功则到在文章标签表中获取文章ID,以文章ID到数据存储模块中获取文章内容;节词匹配不成功,则将检索词/词组在核心词所属全部文章中进行标题和正文匹配检索,获取到匹配的文章内容;
第五步:核心词匹配不成功,则将检索词/词组在非关系型数据库中与全部文章的标题和内容进行匹配,获取到匹配的文章内容;
第六步:将获取到的文章内容,进行内容清洗、去重、排序后,进行内容输出。
作为本发明进一步的技术方案,知识图谱构建和文章数据打标是智能检索的前提,其中方法步骤包括:
第一步:知识图谱构建,给定多个核心词,通过数据采集获取到每个核心词对应的海量原始文章,将海量文章进行归一化存储以及分词处理,去除掉“停用词、虚词、量词、代词、数词、形容词”等对构建知识图谱无用的词,保留下名词/动词作为核心词知识图谱各级节点中的候选实体词;
第二步:各核心词知识图谱与对应的海量原始文章内容分别存入数据存储模块;
第三步:各核心词知识图谱构建完毕后,对相应的“采集获取的海量文章”进行文章标注,采集获取到的文章数据会随着不断采集,数据不断累多,文章标注的过程也会不断进行,步骤方法包括,文章打标、将文章进行段落拆分,并对每个段落进行分词、段落打标;
第四步:根据文章和段落打标词频结果,反向标记“知识图谱”,对所有文章/段落词频标记为0的图谱节点词进行剔除后形成扩展的检索用知识图谱处理表,存入存储模块。该检索用知识图谱处理表可生成推荐检索词给用户使用。如检索用知识图谱处理表中关于核心词“翡翠手镯”,有“翡翠手镯 质地”、“翡翠手镯 款式”、“翡翠手镯 款式 年龄”、“翡翠手镯 款式 建议”等多级节点词;则当用户输入检索词“翡翠手镯”时,在检索框下会显示推荐检索词组“翡翠手镯 质地”、“翡翠手镯 款式”、“翡翠手镯 款式 年龄”等供用户选择,帮助用户快速精确定位;
第五步:用户输入检索词/词组进行文章检索,将检索词/词组进行分词,分词后与检索用知识图谱中的各核心词进行匹配,匹配结果包括与核心词匹配成功、与核心词匹配不成功;
所述与核心词匹配成功的步骤为,与核心词匹配成功后则继续与该核心词知识图谱的节点词进行匹配,匹配规则包括不限于相同词、同义词、近义词;如果节点词匹配成功,则记为目标匹配词,到文章标签表中获取在目标匹配词下标签>0的文章ID;随后按照文章ID到原始文章内容数据存储单元中获取文章内容,输出到展示模块;
如果节点词匹配不成功,则到核心词下原始文章内容数据存储单元中进行文章标题的匹配,以及在文章正文内容中进行全文匹配,匹配成功后,获取文章内容,输出到展示模块;
所述与核心词匹配不成功的步骤为,与核心词匹配不成功后则与存储模块中所有文章进行标题和正文内容的匹配,匹配规则包括不限于相同词、同义词、近义词;匹配成果,获取文章内容,输出到展示模块;
第六步:检索词/词组分词后,分为检索词1、检索词2、检索词3至N个检索词,与知识图谱各层节点词进行匹配,匹配结构包括匹配成功获取文章ID、匹配文章ID不成功;
第七步:经由上述步骤后,将获取到的文章内容进行进一步清洗去重后,进行内容结果的输出,在展示模块中展示供用户查看。
作为本发明进一步的技术方案,在知识图谱的生成上,所述给定多个核心词为知识图谱的第一层实体,给定核心词是利用文本相似度算法对候选实体词与给定核心词之间进行相似度计算,将相似度值大于阈值的词作为知识图谱的第二层词;
第二层词构建完毕后,利用文本相似度算法将剩下的候选实体词与第二层词进行文本相似度计算,将相似度值大于阈值的词作为知识图谱的第三层词;以此递推构成多层次的知识图谱。
作为本发明进一步的技术方案,所述文章打标,首先对所有单篇文章进行分词,基于知识图谱各层节点的实体词,将每层实体词与文章分词结果进行匹配,引入同义词/近义词库,匹配规则包括不限于相同词、同义词、近义词;
匹配过程中统计知识图谱各级节点实体词在文章中出现的词频,若出现5词,则词频记为5;
若某个节点的实体词在段落中无相同词/同义词/近义词出现,则文章对应该节点实体词的标记为0,文章ID、知识图谱各节点实体词名称,节点实体词在文章中出现的频次记为文章标签表,存入数据存储模块。
作为本发明进一步的技术方案,所述段落打标,基于知识图谱各层节点的实体词对文章段落进行打标,将每层实体词与段落分词结果进行匹配,引入同义词/近义词库,匹配规则包括不限于相同词、同义词、近义词;
匹配过程中统计知识图谱各级节点实体词在段落中出现的词频,若出现5词,则词频记为5;
若某个节点的实体词在段落中无相同词/同义词/近义词出现,则段落对应该节点实体词的标记词频为0;
文章ID、段落ID、知识图谱各节点实体词名称,节点实体词在段落中出现的频次记为段落标签表,存入数据存储模块。
作为本发明进一步的技术方案,所述与核心词匹配成功的步骤为,与核心词匹配成功后则继续与该核心词知识图谱的节点词进行匹配,匹配规则包括不限于相同词、同义词、近义词;
如果节点词匹配成功,则记为目标匹配词,到文章标签表中获取在目标匹配词下标签>0的文章ID;
随后按照文章ID到原始文章内容数据存储单元中获取文章内容,输出到展示模块。
作为本发明进一步的技术方案,所述与核心词匹配不成功的步骤为,与核心词匹配不成功后则与存储模块中所有文章进行标题和正文内容的匹配,匹配规则包括不限于相同词、同义词、近义词。匹配成果,获取文章内容,输出到展示模块。
作为本发明进一步的技术方案,所述匹配成功获取文章ID时,进行优先级排序,排序规则如下:
优先级1:有N个检索词标签都>0的文章ID;
优先级2:有N-1个检索词标签>0的文章ID;
优先级N:只有1个检索词标签>0的文章ID;
相同优先级下,又以文章匹配词的词频数值由多至少进行排序。
作为本发明进一步的技术方案,所述匹配文章ID不成功时,则到相应全部文章或核心词文章内容数据存储单元中,直接进行文章标题和文章全文的匹配,匹配到的文章排序规则如下:
优先级1:文章标题中全部包含N个检索词;
优先级2:文章内容中全部包含N个检索词;
优先级3: 文章标题中包含任意N-1个检索词;
优先级4: 文章内容中包含任意N-1个检索词;
以此递推,直至文章内容中包含其中任意1个检索词;
相同优先级下,又以文章匹配词的词频数值由多至少进行排序。
一种基于知识图谱的智能搜索系统,包括数据构建模块、数据获取模块、数据处理模块、数据存储模块、数据计算模块、数据清洗模块、信息提取模块和信息展示模块。
作为本发明进一步的技术方案,所述数据构建模块:用于构建一个搜索框,用户在搜索框中输入检索词/词组。
作为本发明进一步的技术方案,所述数据获取模块:用于查询与解析用户输入的检索词/词组,获取用户输入的检索词/词组后进行分词,引用停用词库,对分词结果进行去停用词操作,形成一个或多个目标检索词。
作为本发明进一步的技术方案,所述数据处理模块:用于对目标检索词与知识图谱的核心词/节点词进行匹配;
以及用于对目标检索词与文章标题和正文内容进行匹配;
第一处理单元:用于对目标检索词与知识图谱的核心词进行匹配;
第二处理单元:用于对目标检索词与知识图谱核心词的节点词进行匹配;第三处理单元:用于对目标检索词与文章标题和正文内容进行匹配。
作为本发明进一步的技术方案,所述数据存储模块:用于存储知识图谱和文章数据,包括第一存储单元、第二存储单元、第三存储单元、第四储存单元和第五储存单元;
所述第一存储单元:用于存储根据原始文章内容构建的知识图谱表;
所述第二存储单元:用于存储原始文章内容;
所述第三存储单元:用于存储文章标签表,文章ID、知识图谱各节点实体词名称,节点实体词在文章中出现的频次记为文章标签表,存入数据存储模块;
第四存储单元:用于存储段落标签表,文章ID、段落ID、知识图谱各节点实体词名称,节点实体词在段落中出现的频次记为段落标签表,存入数据存储模块;
第五存储单元:用于存储反向打标后的检索用知识图谱。
作为本发明进一步的技术方案,所述数据计算模块包括第一计算单元、第二计算单元和第三计算单元;
所述第一计算单元:用于对文章和段落进行知识图谱节点词词频打标,打标完成后结果存入存储模块;
所述第二计算单元:用于对知识图谱进行反向打标,生成检索用知识图谱后,存入存储模块;
所述第三计算单元:用于将匹配到的文章内容进行优先级计算,并按照词频进行排序计算,以及对重复文章进行删除。
作为本发明进一步的技术方案,所述数据清洗模块:用于对文章内容、分词结果进行清洗,其中包括去停用词,特殊符号等对构建知识图谱无用以及降低检索效率和性能的词。例如“的、和、在、但是…”等词通常自身并无明确的意义的词。
作为本发明进一步的技术方案,所述信息提取模块:用于提取所述目标检索词所匹配到的文章的内容。
作为本发明进一步的技术方案,所述信息展示模块:用于向用户展示所述检索到的相应的文章内容。
与现有技术相比,本发明的有益效果是:
该方法主要是在在传统索引式检索的基础上,引入知识图谱构建和标注体系,通过对文章类的数据对象进行段落拆分,将段落和全文与知识图谱进行关联,并存入ElasticSearch后,利用知识图谱和Elastic Search的搜索引擎功能相结合,形成基于知识图谱的搜索引擎,为用户提供更为精准和快速的搜索结果。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的搜索路线结构示意图;
图2为本发明是基于知识图谱的智能检索系统结构示意图;
图3为本发明实施例2中“翡翠”的知识图谱处理表示例图;
图4为本发明实施例2中“翡翠”的知识图谱处理表示例图;
图5为本发明实施例2中“翡翠”的知识图谱处理表示例图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施例1:
请参阅图1-5,本发明提供一种技术方案:一种基于知识图谱的智能搜索方法,该方法步骤包括:
第一步:用户输入检索词/词组进行检索;
第二步:对用户输入的检索词/词组进行分词;
第三步:将分词后的检索词/词组与知识图谱核心词进行精确匹配和近义词匹配;
第四步:核心词匹配成功则继续与“核心词知识图谱”中的节点词进行精确匹配和近义词匹配;节点词匹配成功则到在文章标签表中获取文章ID,以文章ID到数据存储模块中获取文章内容;节词匹配不成功,则将检索词/词组在核心词所属全部文章中进行标题和正文匹配检索,获取到匹配的文章内容、
第五步:核心词匹配不成功,则将检索词/词组在非关系型数据库中与全部文章的标题和内容进行匹配,获取到匹配的文章内容;
第六步:将获取到的文章内容,进行内容清洗、去重、排序后,进行内容输出。
具体的,知识图谱构建和文章数据打标是智能检索的前提,其中方法步骤包括:
第一步:知识图谱构建,给定多个核心词,通过数据采集获取到每个核心词对应的海量原始文章,将海量文章进行归一化存储以及分词处理,去除掉“停用词、虚词、量词、代词、数词、形容词”等对构建知识图谱无用的词,保留下名词/动词作为核心词知识图谱各级节点中的候选实体词;
第二步:各核心词知识图谱与对应的海量原始文章内容分别存入数据存储模块;
第三步:各核心词知识图谱构建完毕后,对相应的“采集获取的海量文章”进行文章标注,采集获取到的文章数据会随着不断采集,数据不断累多,文章标注的过程也会不断进行,步骤方法包括,文章打标、将文章进行段落拆分,并对每个段落进行分词、段落打标;
第四步:根据文章和段落打标词频结果,反向标记“知识图谱”,对所有文章/段落词频标记为0的图谱节点词进行剔除后形成扩展的检索用知识图谱处理表,存入存储模块。该检索用知识图谱处理表可生成推荐检索词给用户使用。如检索用知识图谱处理表中关于核心词“翡翠手镯”,有“翡翠手镯 质地”、“翡翠手镯 款式”、“翡翠手镯 款式 年龄”、“翡翠手镯 款式 建议”等多级节点词;则当用户输入检索词“翡翠手镯”时,在检索框下会显示推荐检索词组“翡翠手镯 质地”、“翡翠手镯 款式”、“翡翠手镯 款式 年龄”等供用户选择,帮助用户快速精确定位;
第五步:用户输入检索词/词组进行文章检索,将检索词/词组进行分词,分词后与检索用知识图谱中的各核心词进行匹配,匹配结果包括与核心词匹配成功、与核心词匹配不成功;
所述与核心词匹配成功的步骤为,与核心词匹配成功后则继续与该核心词知识图谱的节点词进行匹配,匹配规则包括不限于相同词、同义词、近义词;如果节点词匹配成功,则记为目标匹配词,到文章标签表中获取在目标匹配词下标签>0的文章ID;随后按照文章ID到原始文章内容数据存储单元中获取文章内容,输出到展示模块;
如果节点词匹配不成功,则到核心词下原始文章内容数据存储单元中进行文章标题的匹配,以及在文章正文内容中进行全文匹配,匹配成功后,获取文章内容,输出到展示模块;
所述与核心词匹配不成功的步骤为,与核心词匹配不成功后则与存储模块中所有文章进行标题和正文内容的匹配,匹配规则包括不限于相同词、同义词、近义词;匹配成果,获取文章内容,输出到展示模块;
第六步:检索词/词组分词后,分为检索词1、检索词2、检索词3至N个检索词,与知识图谱各层节点词进行匹配,匹配结构包括匹配成功获取文章ID、匹配文章ID不成功;
第七步:经由上述步骤后,将获取到的文章内容进行进一步清洗去重后,进行内容结果的输出,在展示模块中展示供用户查看,全文知识图谱的生成不是重点,重点是基于知识图谱的搜索方法。
具体的,在知识图谱的生成上,所述给定多个核心词为知识图谱的第一层实体,给定核心词是利用文本相似度算法对候选实体词与给定核心词之间进行相似度计算,将相似度值大于阈值的词作为知识图谱的第二层词;
第二层词构建完毕后,利用文本相似度算法将剩下的候选实体词与第二层词进行文本相似度计算,将相似度值大于阈值的词作为知识图谱的第三层词;以此递推构成多层次的知识图谱。
具体的,所述文章打标,首先对所有单篇文章进行分词,基于知识图谱各层节点的实体词,将每层实体词与文章分词结果进行匹配,引入同义词/近义词库,匹配规则包括不限于相同词、同义词、近义词;
匹配过程中统计知识图谱各级节点实体词在文章中出现的词频,若出现5词,则词频记为5;
若某个节点的实体词在段落中无相同词/同义词/近义词出现,则文章对应该节点实体词的标记为0,文章ID、知识图谱各节点实体词名称,节点实体词在文章中出现的频次记为文章标签表,存入数据存储模块。
具体的,所述段落打标,基于知识图谱各层节点的实体词对文章段落进行打标,将每层实体词与段落分词结果进行匹配,引入同义词/近义词库,匹配规则包括不限于相同词、同义词、近义词;
匹配过程中统计知识图谱各级节点实体词在段落中出现的词频,若出现5词,则词频记为5;
若某个节点的实体词在段落中无相同词/同义词/近义词出现,则段落对应该节点实体词的标记词频为0;
文章ID、段落ID、知识图谱各节点实体词名称,节点实体词在段落中出现的频次记为段落标签表,存入数据存储模块。
具体的,所述与核心词匹配成功的步骤为,与核心词匹配成功后则继续与该核心词知识图谱的节点词进行匹配,匹配规则包括不限于相同词、同义词、近义词;
如果节点词匹配成功,则记为目标匹配词,到文章标签表中获取在目标匹配词下标签>0的文章ID;
随后按照文章ID到原始文章内容数据存储单元中获取文章内容,输出到展示模块。
具体的,所述与核心词匹配不成功的步骤为,与核心词匹配不成功后则与存储模块中所有文章进行标题和正文内容的匹配,匹配规则包括不限于相同词、同义词、近义词。匹配成果,获取文章内容,输出到展示模块。
具体的,所述匹配成功获取文章ID时,进行优先级排序,排序规则如下:
优先级1:有N个检索词标签都>0的文章ID;
优先级2:有N-1个检索词标签>0的文章ID;
优先级N:只有1个检索词标签>0的文章ID;
相同优先级下,又以文章匹配词的词频数值由多至少进行排序。
具体的,所述匹配文章ID不成功时,则到相应全部文章或核心词文章内容数据存储单元中,直接进行文章标题和文章全文的匹配,匹配到的文章排序规则如下:
优先级1:文章标题中全部包含N个检索词;
优先级2:文章内容中全部包含N个检索词;
优先级3: 文章标题中包含任意N-1个检索词;
优先级4: 文章内容中包含任意N-1个检索词;
以此递推,直至文章内容中包含其中任意1个检索词;
相同优先级下,又以文章匹配词的词频数值由多至少进行排序。
一种基于知识图谱的智能搜索系统,包括数据构建模块、数据获取模块、数据处理模块、数据存储模块、数据计算模块、数据清洗模块、信息提取模块和信息展示模块。
具体的,所述数据构建模块:用于构建一个搜索框,用户在搜索框中输入检索词/词组。
具体的,所述数据获取模块:用于查询与解析用户输入的检索词/词组,获取用户输入的检索词/词组后进行分词,引用停用词库,对分词结果进行去停用词操作,形成一个或多个目标检索词。
具体的,所述数据处理模块:用于对目标检索词与知识图谱的核心词/节点词进行匹配;
以及用于对目标检索词与文章标题和正文内容进行匹配;
第一处理单元:用于对目标检索词与知识图谱的核心词进行匹配;
第二处理单元:用于对目标检索词与知识图谱核心词的节点词进行匹配;第三处理单元:用于对目标检索词与文章标题和正文内容进行匹配。
具体的,所述数据存储模块:用于存储知识图谱和文章数据,包括第一存储单元、第二存储单元、第三存储单元、第四储存单元和第五储存单元;
所述第一存储单元:用于存储根据原始文章内容构建的知识图谱表;
所述第二存储单元:用于存储原始文章内容;
所述第三存储单元:用于存储文章标签表,文章ID、知识图谱各节点实体词名称,节点实体词在文章中出现的频次记为文章标签表,存入数据存储模块;
第四存储单元:用于存储段落标签表,文章ID、段落ID、知识图谱各节点实体词名称,节点实体词在段落中出现的频次记为段落标签表,存入数据存储模块;
第五存储单元:用于存储反向打标后的检索用知识图谱。
具体的,所述数据计算模块包括第一计算单元、第二计算单元和第三计算单元;
所述第一计算单元:用于对文章和段落进行知识图谱节点词词频打标,打标完成后结果存入存储模块;
所述第二计算单元:用于对知识图谱进行反向打标,生成检索用知识图谱后,存入存储模块;
所述第三计算单元:用于将匹配到的文章内容进行优先级计算,并按照词频进行排序计算,以及对重复文章进行删除。
具体的,所述数据清洗模块:用于对文章内容、分词结果进行清洗,其中包括去停用词,特殊符号等对构建知识图谱无用以及降低检索效率和性能的词。例如“的、和、在、但是…”等词通常自身并无明确的意义的词。
具体的,所述信息提取模块:用于提取所述目标检索词所匹配到的文章的内容。
具体的,所述信息展示模块:用于向用户展示所述检索到的相应的文章内容。
实施例2:
用户输入“翡翠手镯款式”作为检索词组时,会对检索词组进行分词分为“翡翠”“手镯”“款式”,并与存储模块下的知识图谱表的核心词进行匹配,匹配到核心词“翡翠手镯”。参阅图3三级节点知识图谱为例。
1、对剩下的检索词“款式”继续与“翡翠手镯”知识图谱节点词进行匹配(Article_scene:二层节点; Article_judgw_word:三层节点),匹配成功,获取到文章标签表位置(Article_table_name)和段落标签(paragraph_table_name)。
同时会推荐给用户检索词“翡翠手镯 款式 推荐”、“翡翠手镯 款式 年龄”供用户更进一步定位选择;
2、进入到文章标签表中,获取“翡翠手镯”“款式”节点词词频>0的文章ID,参阅图4;
3、根据文章ID,到原始文章内容数据表中获取文章内容(Article_content),参阅图5。
以上实施例为用户检索词可以匹配到知识图谱核心词和节点词的情况。
实施例3:
当用户输入检索词为“翡翠手镯 挑选”时,匹配到知识图谱核心词“翡翠手镯”,但“挑选”与“翡翠手镯”知识图谱下的节点词均未匹配成功,则到“翡翠手镯”标签下的所有文章中进行文章标题和正文内容进行匹配,匹配成功获取文章内容,匹配不成功返回空值。
实施例4:
当用户输入检索词为“黄金项链”时,分词分为“黄金”、“项链”,此时若与知识图谱核心词均匹配不成功,则直接到所有原始文章中进行标题和正文内容的匹配,匹配成功获取文章内容,匹配不成功返回空值。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该实用新型仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。
Claims (6)
1.一种基于知识图谱的智能搜索方法,其特征在于,该方法步骤包括:
知识图谱构建和文章数据打标:
第一步:知识图谱构建,给定多个核心词,通过数据采集获取到每个核心词对应的海量原始文章,将海量文章进行归一化存储以及分词处理,去除掉“停用词、虚词、量词、代词、数词、形容词”对构建知识图谱无用的词,保留下名词/动词作为核心词知识图谱各级节点中的候选实体词;所述给定多个核心词为知识图谱的第一层实体,给定核心词是利用文本相似度算法对候选实体词与给定核心词之间进行相似度计算,将相似度值大于阈值的词作为知识图谱的第二层词;第二层词构建完毕后,利用文本相似度算法将剩下的候选实体词与第二层词进行文本相似度计算,将相似度值大于阈值的词作为知识图谱的第三层词;以此递推构成多层次的知识图谱;
第二步:各核心词知识图谱与对应的海量原始文章内容分别存入数据存储模块;
第三步:各核心词知识图谱构建完毕后,对相应的“采集获取的海量文章”进行文章标注,采集获取到的文章数据会随着不断采集,数据不断累多,文章标注的过程也会不断进行,步骤方法包括,文章打标、将文章进行段落拆分,并对每个段落进行分词、段落打标;
第四步:根据文章和段落打标词频结果,反向标记“知识图谱”,对所有文章/段落词频标记为0的图谱节点词进行剔除后形成扩展的检索用知识图谱处理表,存入存储模块;
智能检索:
第一步:用户输入检索词/词组进行检索;
第二步:对用户输入的检索词/词组进行分词,分为检索词1、检索词2、检索词3至N个检索词;
第三步:将分词后的检索词/词组与知识图谱核心词进行精确匹配和近义词匹配,匹配结果包括与核心词匹配成功、与核心词匹配不成功;
第四步:核心词匹配成功则继续与“核心词知识图谱”中的节点词进行精确匹配和近义词匹配,匹配结构包括匹配成功获取文章ID、匹配文章ID不成功,匹配规则包括不限于相同词、同义词、近义词;
节点词匹配成功,则记为目标匹配词,到文章标签表中获取在目标匹配词下标签>0的文章ID;随后按照文章ID到原始文章内容数据存储单元中获取文章内容,输出到展示模块;
节点词匹配不成功,则到核心词下原始文章内容数据存储单元中进行文章标题的匹配,以及在文章正文内容中进行全文匹配,匹配成功后,获取文章内容,输出到展示模块;
所述匹配成功获取文章ID时,进行优先级排序,排序规则如下:
优先级1:有N个检索词标签都>0的文章ID;
优先级2:有N-1个检索词标签>0的文章ID;
优先级N:只有1个检索词标签>0的文章ID;
相同优先级下,又以文章匹配词的词频数值由多至少进行排序;
所述匹配文章ID不成功时,则到相应全部文章或核心词文章内容数据存储单元中,直接进行文章标题和文章全文的匹配,匹配到的文章排序规则如下:
优先级1:文章标题中全部包含N个检索词;
优先级2:文章内容中全部包含N个检索词;
优先级3:文章标题中包含任意N-1个检索词;
优先级4:文章内容中包含任意N-1个检索词;
以此递推,直至文章内容中包含其中任意1个检索词;
相同优先级下,又以文章匹配词的词频数值由多至少进行排序;
第五步:核心词匹配不成功,则与存储模块中所有文章进行标题和正文内容的匹配,匹配规则包括不限于相同词、同义词、近义词;匹配成果,获取文章内容,输出到展示模块;
第六步:将获取到的文章内容,进行内容清洗、去重、排序后,进行内容输出,在展示模块中展示供用户查看。
2.根据权利要求1所述的一种基于知识图谱的智能搜索方法,其特征在于,所述文章打标,首先对所有单篇文章进行分词,基于知识图谱各层节点的实体词,将每层实体词与文章分词结果进行匹配,引入同义词/近义词库,匹配规则包括不限于相同词、同义词、近义词;匹配过程中统计知识图谱各级节点实体词在文章中出现的词频,若出现5词,则词频记为5;若某个节点的实体词在段落中无相同词/同义词/近义词出现,则文章对应该节点实体词的标记为0,文章ID、知识图谱各节点实体词名称,节点实体词在文章中出现的频次记为文章标签表,存入数据存储模块。
3.根据权利要求1所述的一种基于知识图谱的智能搜索方法,其特征在于,所述段落打标,基于知识图谱各层节点的实体词对文章段落进行打标,将每层实体词与段落分词结果进行匹配,引入同义词/近义词库,匹配规则包括不限于相同词、同义词、近义词;匹配过程中统计知识图谱各级节点实体词在段落中出现的词频,若出现5词,则词频记为5;若某个节点的实体词在段落中无相同词/同义词/近义词出现,则段落对应该节点实体词的标记词频为0;文章ID、段落ID、知识图谱各节点实体词名称,节点实体词在段落中出现的频次记为段落标签表,存入数据存储模块。
4.一种基于知识图谱的智能搜索系统,其特征在于,基于权利要求1-3任意一项所述的一种基于知识图谱的智能搜索方法,包括数据构建模块、数据获取模块、数据处理模块、数据存储模块、数据计算模块、数据清洗模块、信息提取模块和信息展示模块;
所述数据构建模块:用于构建一个搜索框,用户在搜索框中输入检索词/词组;
所述数据获取模块:用于查询与解析用户输入的检索词/词组,获取用户输入的检索词/词组后进行分词,引用停用词库,对分词结果进行去停用词操作,形成一个或多个目标检索词;
所述数据处理模块:用于对目标检索词与知识图谱的核心词/节点词进行匹配;以及用于对目标检索词与文章标题和正文内容进行匹配;第一处理单元:用于对目标检索词与知识图谱的核心词进行匹配;第二处理单元:用于对目标检索词与知识图谱核心词的节点词进行匹配;第三处理单元:用于对目标检索词与文章标题和正文内容进行匹配;
所述数据存储模块:用于存储知识图谱和文章数据,包括第一存储单元、第二存储单元、第三存储单元、第四储存单元和第五储存单元;
所述数据计算模块包括第一计算单元、第二计算单元和第三计算单元;
所述数据清洗模块:用于对文章内容、分词结果进行清洗,其中包括去停用词,特殊符号等对构建知识图谱无用以及降低检索效率和性能的词;
所述信息提取模块:用于提取所述目标检索词所匹配到的文章的内容;
所述信息展示模块:用于向用户展示所述检索到的相应的文章内容。
5.根据权利要求4所述的一种基于知识图谱的智能搜索系统,其特征在于,所述第一存储单元:用于存储根据原始文章内容构建的知识图谱表;
所述第二存储单元:用于存储原始文章内容;
所述第三存储单元:用于存储文章标签表,文章ID、知识图谱各节点实体词名称,节点实体词在文章中出现的频次记为文章标签表,存入数据存储模块;
第四存储单元:用于存储段落标签表,文章ID、段落ID、知识图谱各节点实体词名称,节点实体词在段落中出现的频次记为段落标签表,存入数据存储模块;
第五存储单元:用于存储反向打标后的检索用知识图谱。
6.根据权利要求4所述的一种基于知识图谱的智能搜索系统,其特征在于,所述第一计算单元:用于对文章和段落进行知识图谱节点词词频打标,打标完成后结果存入存储模块;
所述第二计算单元:用于对知识图谱进行反向打标,生成检索用知识图谱后,存入存储模块;
所述第三计算单元:用于将匹配到的文章内容进行优先级计算,并按照词频进行排序计算,以及对重复文章进行删除。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010918512.1A CN112148885B (zh) | 2020-09-04 | 2020-09-04 | 一种基于知识图谱的智能搜索方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010918512.1A CN112148885B (zh) | 2020-09-04 | 2020-09-04 | 一种基于知识图谱的智能搜索方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112148885A CN112148885A (zh) | 2020-12-29 |
CN112148885B true CN112148885B (zh) | 2024-02-02 |
Family
ID=73889807
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010918512.1A Active CN112148885B (zh) | 2020-09-04 | 2020-09-04 | 一种基于知识图谱的智能搜索方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112148885B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112580691B (zh) * | 2020-11-25 | 2024-05-14 | 北京北大千方科技有限公司 | 一种元数据字段的术语匹配方法、匹配系统和存储介质 |
CN114691973A (zh) * | 2020-12-31 | 2022-07-01 | 华为技术有限公司 | 一种推荐方法、推荐网络及相关设备 |
CN112883248B (zh) * | 2021-01-29 | 2024-01-09 | 北京百度网讯科技有限公司 | 信息推送方法、装置以及电子设备 |
CN112884362B (zh) * | 2021-03-18 | 2024-08-02 | 杭州太火鸟科技有限公司 | 供应商智能匹配方法、装置、设备及存储介质 |
CN113032436B (zh) * | 2021-04-16 | 2022-05-31 | 苏州臻璇数据信息技术有限公司 | 基于文章内容和标题的搜索方法和装置 |
CN116340468A (zh) * | 2023-05-12 | 2023-06-27 | 华北理工大学 | 主题文献检索预测方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109902156A (zh) * | 2019-01-09 | 2019-06-18 | 北京小乘网络科技有限公司 | 实体检索方法、存储介质和电子设备 |
CN110188186A (zh) * | 2019-04-24 | 2019-08-30 | 平安科技(深圳)有限公司 | 医疗领域的内容推荐方法、电子装置、设备及存储介质 |
CN110209827A (zh) * | 2018-02-07 | 2019-09-06 | 腾讯科技(深圳)有限公司 | 搜索方法、装置、计算机可读存储介质和计算机设备 |
CN110750627A (zh) * | 2018-07-19 | 2020-02-04 | 上海谦问万答吧云计算科技有限公司 | 一种素材的检索方法、装置、电子设备及存储介质 |
CN111325033A (zh) * | 2020-03-20 | 2020-06-23 | 中国建设银行股份有限公司 | 实体识别方法、装置、电子设备及计算机可读存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160041986A1 (en) * | 2014-08-08 | 2016-02-11 | Cuong Duc Nguyen | Smart Search Engine |
US10783176B2 (en) * | 2018-03-27 | 2020-09-22 | Pearson Education, Inc. | Enhanced item development using automated knowledgebase search |
-
2020
- 2020-09-04 CN CN202010918512.1A patent/CN112148885B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110209827A (zh) * | 2018-02-07 | 2019-09-06 | 腾讯科技(深圳)有限公司 | 搜索方法、装置、计算机可读存储介质和计算机设备 |
CN110750627A (zh) * | 2018-07-19 | 2020-02-04 | 上海谦问万答吧云计算科技有限公司 | 一种素材的检索方法、装置、电子设备及存储介质 |
CN109902156A (zh) * | 2019-01-09 | 2019-06-18 | 北京小乘网络科技有限公司 | 实体检索方法、存储介质和电子设备 |
CN110188186A (zh) * | 2019-04-24 | 2019-08-30 | 平安科技(深圳)有限公司 | 医疗领域的内容推荐方法、电子装置、设备及存储介质 |
CN111325033A (zh) * | 2020-03-20 | 2020-06-23 | 中国建设银行股份有限公司 | 实体识别方法、装置、电子设备及计算机可读存储介质 |
Non-Patent Citations (2)
Title |
---|
中文信息智能处理技术的研究;宋晓峰等;《现代电子技术》;20061125(第22期);全文 * |
李继光等.知识图谱的应用.《大数据背景下数据挖掘及处理分析》.2019, * |
Also Published As
Publication number | Publication date |
---|---|
CN112148885A (zh) | 2020-12-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112148885B (zh) | 一种基于知识图谱的智能搜索方法及系统 | |
CN109189942B (zh) | 一种专利数据知识图谱的构建方法及装置 | |
CN104765769B (zh) | 一种基于词矢量的短文本查询扩展及检索方法 | |
JP5338238B2 (ja) | ワードの類似性を用いたオントロジーの自動生成 | |
Lin et al. | An integrated approach to extracting ontological structures from folksonomies | |
CN105528437B (zh) | 一种基于结构化文本知识提取的问答系统构建方法 | |
CN109190117A (zh) | 一种基于词向量的短文本语义相似度计算方法 | |
CN112395395B (zh) | 文本关键词提取方法、装置、设备及存储介质 | |
JP2009093651A (ja) | 統計分布を用いたトピックスのモデリング | |
CN108681574A (zh) | 一种基于文本摘要的非事实类问答答案选择方法及系统 | |
JP2009093650A (ja) | 文書の段落分析によるその文書のタグの選択 | |
CN108509521B (zh) | 一种自动生成文本索引的图像检索方法 | |
CN106126619A (zh) | 一种基于视频内容的视频检索方法及系统 | |
CN112559684A (zh) | 一种关键词提取及信息检索方法 | |
CN110888991A (zh) | 一种弱标注环境下的分段式语义标注方法 | |
CN114065758A (zh) | 一种基于超图随机游走的文档关键词抽取方法 | |
CN112036178A (zh) | 一种配网实体相关的语义搜索方法 | |
CN112328800A (zh) | 自动生成编程规范问题答案的系统及方法 | |
CN115203421A (zh) | 一种长文本的标签生成方法、装置、设备及存储介质 | |
CN112148886A (zh) | 一种内容知识图谱的构建方法及系统 | |
CN118245564B (zh) | 一种支持语义查重查新的特征比对库构建方法及装置 | |
CN104077419B (zh) | 结合语义与视觉信息的长查询图像检索重排序方法 | |
CN110728135A (zh) | 文本主题标引方法、装置、电子设备及计算机存储介质 | |
JP4426041B2 (ja) | カテゴリ因子による情報検索方法 | |
CN109543001A (zh) | 一种表征科研论文研究内容的科技词条抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: An intelligent search method and system based on knowledge graph Granted publication date: 20240202 Pledgee: China Construction Bank Corporation Shanghai Changning Branch Pledgor: Shanghai Yanshu Computer Technology Co.,Ltd. Registration number: Y2024980033608 |