CN116662634B - 一种基于知识图谱的路径分析的推理研究系统及方法 - Google Patents
一种基于知识图谱的路径分析的推理研究系统及方法 Download PDFInfo
- Publication number
- CN116662634B CN116662634B CN202310961985.3A CN202310961985A CN116662634B CN 116662634 B CN116662634 B CN 116662634B CN 202310961985 A CN202310961985 A CN 202310961985A CN 116662634 B CN116662634 B CN 116662634B
- Authority
- CN
- China
- Prior art keywords
- search engine
- text data
- module
- words
- data content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 31
- 238000011160 research Methods 0.000 title claims abstract description 16
- 238000000034 method Methods 0.000 title claims description 25
- 238000012544 monitoring process Methods 0.000 claims abstract description 37
- 238000000605 extraction Methods 0.000 claims abstract description 18
- 238000012937 correction Methods 0.000 claims description 10
- 239000013598 vector Substances 0.000 claims description 6
- 230000005540 biological transmission Effects 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 238000005457 optimization Methods 0.000 abstract description 4
- 238000005516 engineering process Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000013215 result calculation Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9532—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3322—Query formulation using system suggestions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/02—Input arrangements using manually operated switches, e.g. using keyboards or dials
- G06F3/023—Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
- G06F3/0233—Character input methods
- G06F3/0237—Character input methods using prediction or retrieval techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/1095—Replication or mirroring of data, e.g. scheduling or transport for data synchronisation between network nodes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/1396—Protocols specially adapted for monitoring users' activity
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/535—Tracking the activity of the user
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computing Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Human Computer Interaction (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Hardware Design (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及互联网信息技术领域,具体涉及一种基于知识图谱的路径分析的推理研究系统,包括:控制终端,是系统的主控端,用于发出执行命令;监测模块,用于监测用户端于搜索引擎中输入的文字数据;提取模块,用于接收系统端用户上传数据内容,提取上传数据内容中的特征字词;本发明通过对搜索引擎在被用户端执行搜索操作时键入的文字数据的分析,对搜索引擎所提供的联想词带来了一定程度的优化,从而使得所述引擎在由用户端键入文字数据进行搜索查找时所提供的联想词更加符合用户的搜索需求,从而以此达到提升用户对于搜索引擎使用体验的目的。
Description
技术领域
本发明涉及互联网信息技术领域,具体涉及一种基于知识图谱的路径分析的推理研究系统及方法。
背景技术
所谓搜索引擎,就是根据用户需求与一定算法,运用特定策略从互联网检索出指定信息反馈给用户的一门检索技术。搜索引擎依托于多种技术,如网络爬虫技术、检索排序技术、网页处理技术、大数据处理技术、自然语言处理技术等,为信息检索用户提供快速、高相关性的信息服务。搜索引擎技术的核心模块一般包括爬虫、索引、检索和排序等,同时可添加其他一系列辅助模块,以为用户创造更好的网络使用环境。
然而,现有的搜索引擎技术中,对于用户端键入的文字信息进行检索查找时,所提供过的用于辅助检索查找的联想词往往单单根据用户端的键入文字信息次数进行输出,其与键入文字信息进行检索查找操作的用户端的实际需求存在一定差异,以至于影响到搜索引擎对于用户端的使用体验。
发明内容
针对现有技术所存在的上述缺点,本发明提供了一种基于知识图谱的路径分析的推理研究系统及方法,解决了上述背景技术中提出的技术问题。
为实现以上目的,本发明通过以下技术方案予以实现:
第一方面,一种基于知识图谱的路径分析的推理研究系统,包括:
控制终端,是系统的主控端,用于发出执行命令;
监测模块,用于监测用户端于搜索引擎中输入的文字数据;
提取模块,用于接收系统端用户上传数据内容,提取上传数据内容中的特征字词;
配置模块,用于分析监测模块中监测到的文字数据与提取模块中提取到的特征字词间一致性,设定一致性判定阈值,对处于相同一致性判定阈值范围内的特征字词所属数据内容与文字数据进行相互配置;
识别模块,用于接收监测模块中监测到的用户端于搜索引擎中输入的文字数据,识别文字数据对应搜索引擎提供的联想词使用频率;
队列模块,用于接收识别模块中识别到的联想词使用频率,通过联想词使用频率在用户端于搜索引擎中输入文字数据时,提供对应联想词队列。
更进一步地,所述监测模块对监测到的用户端于搜索引擎中输入的文字数据同步储存,用户端于搜索引擎中输入文字数据阶段,监测模块实时监测用户端点击的搜索引擎提供的联想词及重新于搜索引擎中输入的文字数据,并记录基于联想词打开网页及各打开网页停留时间。
更进一步地,所述提取模块下级设置有子模块,包括:
储存单元,用于储存提取模块中接收到的数据内容;
匹配单元,用于分析储存单元中储存的数据内容相似度,设定相似度判定阈值,对处于同一相似度判定阈值的数据内容于储存单元中区分储存;
其中,匹配单元还用于分析用户端于搜索引擎中输入的文字数据与各数据内容的相似度。
更进一步地,所述数据内容相似度通过下式进行求取,公式为:
;
式中:为数据内容i、j间的欧式距离;/>为数据内容i、j间的曼哈顿距离;为数据内容i、j间的Chebyshev距离;/>为数据内容i、j间的Canberra距离;;/>;/>;/>;n为数据内容i与j的维度;/>为数据内容i中字段的特征向量;/>为数据内容及j中字段的特征向量;
其中,所述搜索引擎中输入的文字数据与各数据内容的相似度应用上式进行求取。
更进一步地,所述数据内容中的特征字词,通过于数据内容中截取相邻文字组成字段与文字数据库中查找相同项进行确认;
其中,所述文字数据库由词语字典中存在的词语完成构建,于数据内容中截取相邻文字组成字段时,以两个文字、三个文字及四个文字的截取逻辑进行截取操作,截取相邻文字组成的字段用于数据内容相似度的计算。
更进一步地,所述配置模块中文字数据与特征字词间一致性通过数据内容相似度求取公式进行获取,配置模块运行阶段,进一步对用户端于搜索引擎中输入文字数据时搜索引擎提供的联想词、用户端重新于搜索引擎中输入的文字数据、用户端重新于搜索引擎中输入的文字数据对应提供的联想词、基于搜索引擎中输入文字数据或联想词打开的网页中包含的文字数据进行一致性判定,对判定为处于相同一致性判定阈值的联想词及文字数据,与特征字词所属数据内容进行进一步的相互配置;
其中,搜索引擎通过用户端输入的文字数据提供联想词,且所述联想词于储存单元中储存的数据内容中提取,提取目标为数据内容中的任一特征字词。
更进一步地,所述识别模块运行阶段识别联想词使用频率时,以每次用户端于搜索引擎中新摄入文字数据作为一组识别周期,识别模块应用识别周期实时运行,并由下式对识别模块中识别到的联想词使用频率进行修正,公式为:
;
式中:为联想词使用频率修正结果;/>为实际联想词使用频率;/>为重输次数;为联想词使用频率最低的文字数据对应打开网页次数;/>为联想词使用频率最高的文字数据对应打开网页次数。
更进一步地,所述联想词使用频率修正目标为所有用户端于搜索引擎中输入的文字数据及联想词;
其中,队列模块在提供联想词队列时,应用的联想词使用频率的修正结果进行联想词队列的生成。
更进一步地,所述控制终端通过介质电性连接有监测模块及提取模块,所述提取模块下级通过介质电性连接有储存单元及匹配单元,所述监测模块及提取模块通过介质电性连接有配置模块及识别模块,所述配置模块通过介质电性连接与储存单元相连接,所述识别模块通过介质电性与监测模块相连接,所述识别模块通过介质电性连接有队列模块。
第二方面,一种基于知识图谱的路径分析的推理研究方法,包括以下步骤:
步骤1:监测搜索引擎中用户端实时输入的文字数据;
步骤2:上传数据内容,构建数据库对上传的数据内容进行储存,使构建的数据库作为搜索引擎对应配置的查找目标;
步骤3:分析数据库中储存的各数据内容相互之间相似性,根据相似性分析结果对数据库中储存的各数据内容进行区分储存;
步骤4:分析搜索引擎中用户端输入的文字数据与数据库中储存的各数据内容间一致性,根据一致性分析结果对数据库中储存的数据内容与文字数据进行相互配置;
步骤5:计量搜索引擎中用户端输入文字数据时提供的联想词使用频率,对计量得到的使用频率进行修正;
步骤6:根据修正结果,对搜索引擎中用户端输入的文字数据提供对应的联想词队列。
采用本发明提供的技术方案,与已知的公有技术相比,具有如下有益效果:
1、本发明提供一种基于知识图谱的路径分析的推理研究系统,该系统通过对搜索引擎在被用户端执行搜索操作时键入的文字数据的分析,对搜索引擎所提供的联想词带来了一定程度的优化,从而使得所述引擎在由用户端键入文字数据进行搜索查找时所提供的联想词更加符合用户的搜索需求,从而以此达到提升用户对于搜索引擎使用体验的目的。
2、本发明中系统在运行过程中,通过文字数据的相似度求取及联想词使用频率的修正,为系统带来了更近一步的联想词输出优化,使得由该系统控制输出的联想词与用户端的实际需求匹配精度更高,进而使得用户短通过该系统配置的搜索引擎进行所需数据内容的搜索查找时,更加快捷、便利。
3、本发明中提供一种基于知识图谱的路径分析的推理研究方法,通过该方法中的步骤执行,能够进一步维护系统运行的稳定,并且在该方法的步骤执行过程中,进一步对系统的运行逻辑进行的细化说明,以便于用户在使用该系统及方法时,能够更加细致的了解系统运行逻辑。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为一种基于知识图谱的路径分析的推理研究系统的结构示意图;
图2为一种基于知识图谱的路径分析的推理研究方法的流程示意图;
图中的标号分别代表:1、控制终端;2、监测模块;3、提取模块;31、储存单元;32、匹配单元;4、配置模块;5、识别模块;6、队列模块。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合实施例对本发明作进一步的描述。
实施例1
本实施例的一种基于知识图谱的路径分析的推理研究系统,如图1所示,包括:
控制终端1,是系统的主控端,用于发出执行命令;
监测模块2,用于监测用户端于搜索引擎中输入的文字数据;
提取模块3,用于接收系统端用户上传数据内容,提取上传数据内容中的特征字词;
配置模块4,用于分析监测模块2中监测到的文字数据与提取模块3中提取到的特征字词间一致性,设定一致性判定阈值,对处于相同一致性判定阈值范围内的特征字词所属数据内容与文字数据进行相互配置;
识别模块5,用于接收监测模块2中监测到的用户端于搜索引擎中输入的文字数据,识别文字数据对应搜索引擎提供的联想词使用频率;
队列模块6,用于接收识别模块5中识别到的联想词使用频率,通过联想词使用频率在用户端于搜索引擎中输入文字数据时,提供对应联想词队列;
提取模块3下级设置有子模块,包括:
储存单元31,用于储存提取模块3中接收到的数据内容;
匹配单元32,用于分析储存单元31中储存的数据内容相似度,设定相似度判定阈值,对处于同一相似度判定阈值的数据内容于储存单元31中区分储存;
其中,匹配单元32还用于分析用户端于搜索引擎中输入的文字数据与各数据内容的相似度;
数据内容相似度通过下式进行求取,公式为:
;
式中:为数据内容i、j间的欧式距离;/>为数据内容i、j间的曼哈顿距离;为数据内容i、j间的Chebyshev距离;/>为数据内容i、j间的Canberra距离;;/>;/>;/>;n为数据内容i与j的维度;/>为数据内容i中字段的特征向量;/>为数据内容及j中字段的特征向量;
其中,搜索引擎中输入的文字数据与各数据内容的相似度应用上式进行求取;
识别模块5运行阶段识别联想词使用频率时,以每次用户端于搜索引擎中新摄入文字数据作为一组识别周期,识别模块5应用识别周期实时运行,并由下式对识别模块5中识别到的联想词使用频率进行修正,公式为:
;
式中:为联想词使用频率修正结果;/>为实际联想词使用频率;/>为重输次数;为联想词使用频率最低的文字数据对应打开网页次数;/>为联想词使用频率最高的文字数据对应打开网页次数;
控制终端1通过介质电性连接有监测模块2及提取模块3,提取模块3下级通过介质电性连接有储存单元31及匹配单元32,监测模块2及提取模块3通过介质电性连接有配置模块4及识别模块5,配置模块4通过介质电性连接与储存单元31相连接,识别模块5通过介质电性与监测模块2相连接,识别模块5通过介质电性连接有队列模块6。
在本实施例中,控制终端1控制监测模块2监测用户端于搜索引擎中输入的文字数据,提取模块3实时接收系统端用户上传数据内容,提取上传数据内容中的特征字词,再由配置模块4分析监测模块2中监测到的文字数据与提取模块3中提取到的特征字词间一致性,设定一致性判定阈值,对处于相同一致性判定阈值范围内的特征字词所属数据内容与文字数据进行相互配置,识别模块5后置运行接收监测模块2中监测到的用户端于搜索引擎中输入的文字数据,识别文字数据对应搜索引擎提供的联想词使用频率,最后通过队列模块6接收识别模块5中识别到的联想词使用频率,通过联想词使用频率在用户端于搜索引擎中输入文字数据时,提供对应联想词队列;
通过提取模块3下级设置的子模块,为提取模块3在提取特征字词后,对提取到的特征字词做进一步的储存处理,且由匹配单元32中数据内容的相似度请求为系统中后续模块的运行,提供了必要的数据支持;
进一步的基于数据内容相似度的求取及联想词使用频率修正结果的求取,能够进一步的提升系统运行输出结果的精度。
实施例2
在具体实施层面,在实施例1的基础上,本实施例参照图1对实施例1中一种基于知识图谱的路径分析的推理研究系统做进一步具体说明:
监测模块2对监测到的用户端于搜索引擎中输入的文字数据同步储存,用户端于搜索引擎中输入文字数据阶段,监测模块2实时监测用户端点击的搜索引擎提供的联想词及重新于搜索引擎中输入的文字数据,并记录基于联想词打开网页及各打开网页停留时间。
通过上述设置,为监测模块2的运行逻辑进行了限定,确保监测模块2的运行能够提供系统中后续模块的运行以稳定的数据支持。
如图1所示,数据内容中的特征字词,通过于数据内容中截取相邻文字组成字段与文字数据库中查找相同项进行确认;
其中,文字数据库由词语字典中存在的词语完成构建,于数据内容中截取相邻文字组成字段时,以两个文字、三个文字及四个文字的截取逻辑进行截取操作,截取相邻文字组成的字段用于数据内容相似度的计算。
通过上述设置,对提取模块3提取数据内容中的特征字词提供了指定的提取逻辑。
如图1所示,配置模块4中文字数据与特征字词间一致性通过数据内容相似度求取公式进行获取,配置模块4运行阶段,进一步对用户端于搜索引擎中输入文字数据时搜索引擎提供的联想词、用户端重新于搜索引擎中输入的文字数据、用户端重新于搜索引擎中输入的文字数据对应提供的联想词、基于搜索引擎中输入文字数据或联想词打开的网页中包含的文字数据进行一致性判定,对判定为处于相同一致性判定阈值的联想词及文字数据,与特征字词所属数据内容进行进一步的相互配置;
其中,搜索引擎通过用户端输入的文字数据提供联想词,且联想词于储存单元31中储存的数据内容中提取,提取目标为数据内容中的任一特征字词;
联想词使用频率修正目标为所有用户端于搜索引擎中输入的文字数据及联想词;
其中,队列模块6在提供联想词队列时,应用的联想词使用频率的修正结果进行联想词队列的生成。
通过上述设置,为数据内容与联想词及文字数据之间带来了全面的配置逻辑,确保用户端通过搜索引擎输入文字数据进行搜索查找时,搜索引擎能够稳定的提供联想词及联想词对应的数据内容。
实施例3
在具体实施层面,在实施例1的基础上,本实施例参照图2对实施例1中一种基于知识图谱的路径分析的推理研究系统做进一步具体说明:
一种基于知识图谱的路径分析的推理研究方法,包括以下步骤:
步骤1:监测搜索引擎中用户端实时输入的文字数据;
步骤2:上传数据内容,构建数据库对上传的数据内容进行储存,使构建的数据库作为搜索引擎对应配置的查找目标;
步骤3:分析数据库中储存的各数据内容相互之间相似性,根据相似性分析结果对数据库中储存的各数据内容进行区分储存;
步骤4:分析搜索引擎中用户端输入的文字数据与数据库中储存的各数据内容间一致性,根据一致性分析结果对数据库中储存的数据内容与文字数据进行相互配置;
步骤5:计量搜索引擎中用户端输入文字数据时提供的联想词使用频率,对计量得到的使用频率进行修正;
步骤6:根据修正结果,对搜索引擎中用户端输入的文字数据提供对应的联想词队列。
综上而言,上述实施例中系统通过对搜索引擎在被用户端执行搜索操作时键入的文字数据的分析,对搜索引擎所提供的联想词带来了一定程度的优化,从而使得引擎在由用户端键入文字数据进行搜索查找时所提供的联想词更加符合用户的搜索需求,从而以此达到提升用户对于搜索引擎使用体验的目的;此外,实施例中系统在运行过程中,通过文字数据的相似度求取及联想词使用频率的修正,为系统带来了更近一步的联想词输出优化,使得由该系统控制输出的联想词与用户端的实际需求匹配精度更高,进而使得用户短通过该系统配置的搜索引擎进行所需数据内容的搜索查找时,更加快捷、便利;同时,实施例中记载的方法,能够进一步维护系统运行的稳定,并且在该方法的步骤执行过程中,进一步对系统的运行逻辑进行的细化说明,以便于用户在使用该系统及方法时,能够更加细致的了解系统运行逻辑。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不会使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (9)
1.一种基于知识图谱的路径分析的推理研究系统,其特征在于,包括:
控制终端(1),是系统的主控端,用于发出执行命令;
监测模块(2),用于监测用户端于搜索引擎中输入的文字数据;
提取模块(3),用于接收系统端用户上传数据内容,提取上传数据内容中的特征字词;
配置模块(4),用于分析监测模块(2)中监测到的文字数据与提取模块(3)中提取到的特征字词间一致性,设定一致性判定阈值,对处于相同一致性判定阈值范围内的特征字词所属数据内容与文字数据进行相互配置;
识别模块(5),用于接收监测模块(2)中监测到的用户端于搜索引擎中输入的文字数据,识别文字数据对应搜索引擎提供的联想词使用频率;
队列模块(6),用于接收识别模块(5)中识别到的联想词使用频率,通过联想词使用频率在用户端于搜索引擎中输入文字数据时,提供对应联想词队列;
所述识别模块(5)运行阶段识别联想词使用频率时,以每次用户端于搜索引擎中新摄入文字数据作为一组识别周期,识别模块(5)应用识别周期实时运行,并由下式对识别模块(5)中识别到的联想词使用频率进行修正,公式为:
;
式中:为联想词使用频率修正结果;/>为实际联想词使用频率;/>为重输次数;为联想词使用频率最低的文字数据对应打开网页次数;/>为联想词使用频率最高的文字数据对应打开网页次数;
其中,搜索引擎通过用户端输入的文字数据提供联想词,且所述联想词于储存单元(31)中储存的数据内容中提取,提取目标为数据内容中的任一特征字词;
储存单元(31),用于储存提取模块(3)中接收到的数据内容。
2.根据权利要求1所述的一种基于知识图谱的路径分析的推理研究系统,其特征在于,所述监测模块(2)对监测到的用户端于搜索引擎中输入的文字数据同步储存,用户端于搜索引擎中输入文字数据阶段,监测模块(2)实时监测用户端点击的搜索引擎提供的联想词及重新于搜索引擎中输入的文字数据,并记录基于联想词打开网页及各打开网页停留时间。
3.根据权利要求1所述的一种基于知识图谱的路径分析的推理研究系统,其特征在于,所述提取模块(3)下级设置有子模块,包括:
匹配单元(32),用于分析储存单元(31)中储存的数据内容相似度,设定相似度判定阈值,对处于同一相似度判定阈值的数据内容于储存单元(31)中区分储存;
其中,匹配单元(32)还用于分析用户端于搜索引擎中输入的文字数据与各数据内容的相似度。
4.根据权利要求3所述的一种基于知识图谱的路径分析的推理研究系统,其特征在于,所述数据内容相似度通过下式进行求取,公式为:
;
式中:为数据内容i、j间的欧式距离;/>为数据内容i、j间的曼哈顿距离;/>为数据内容i、j间的Chebyshev距离;/>为数据内容i、j间的Canberra距离;;/>;/>;;n为数据内容i与j的维度;/>为数据内容i中字段的特征向量;为数据内容及j中字段的特征向量;
其中,所述搜索引擎中输入的文字数据与各数据内容的相似度应用上式进行求取。
5.根据权利要求1所述的一种基于知识图谱的路径分析的推理研究系统,其特征在于,所述数据内容中的特征字词,通过于数据内容中截取相邻文字组成字段与文字数据库中查找相同项进行确认;
其中,所述文字数据库由词语字典中存在的词语完成构建,于数据内容中截取相邻文字组成字段时,以两个文字、三个文字及四个文字的截取逻辑进行截取操作,截取相邻文字组成的字段用于数据内容相似度的计算。
6.根据权利要求1所述的一种基于知识图谱的路径分析的推理研究系统,其特征在于,所述配置模块(4)中文字数据与特征字词间一致性通过数据内容相似度求取公式进行获取,配置模块(4)运行阶段,进一步对用户端于搜索引擎中输入文字数据时搜索引擎提供的联想词、用户端重新于搜索引擎中输入的文字数据、用户端重新于搜索引擎中输入的文字数据对应提供的联想词、基于搜索引擎中输入文字数据或联想词打开的网页中包含的文字数据进行一致性判定,对判定为处于相同一致性判定阈值的联想词及文字数据,与特征字词所属数据内容进行进一步的相互配置。
7.根据权利要求1所述的一种基于知识图谱的路径分析的推理研究系统,其特征在于,所述联想词使用频率修正目标为所有用户端于搜索引擎中输入的文字数据及联想词;
其中,队列模块(6)在提供联想词队列时,应用的联想词使用频率的修正结果进行联想词队列的生成。
8.根据权利要求1所述的一种基于知识图谱的路径分析的推理研究系统,其特征在于,所述控制终端(1)通过介质电性连接有监测模块(2)及提取模块(3),所述提取模块(3)下级通过介质电性连接有储存单元(31)及匹配单元(32),所述监测模块(2)及提取模块(3)通过介质电性连接有配置模块(4)及识别模块(5),所述配置模块(4)通过介质电性连接与储存单元(31)相连接,所述识别模块(5)通过介质电性与监测模块(2)相连接,所述识别模块(5)通过介质电性连接有队列模块(6)。
9.一种基于知识图谱的路径分析的推理研究方法,所述方法是对如权利要求1-8中任意一项所述一种基于知识图谱的路径分析的推理研究系统的实施方法,其特征在于,包括以下步骤:
步骤1:监测搜索引擎中用户端实时输入的文字数据;
步骤2:上传数据内容,构建数据库对上传的数据内容进行储存,使构建的数据库作为搜索引擎对应配置的查找目标;
步骤3:分析数据库中储存的各数据内容相互之间相似性,根据相似性分析结果对数据库中储存的各数据内容进行区分储存;
步骤4:分析搜索引擎中用户端输入的文字数据与数据库中储存的各数据内容间一致性,根据一致性分析结果对数据库中储存的数据内容与文字数据进行相互配置;
步骤5:计量搜索引擎中用户端输入文字数据时提供的联想词使用频率,对计量得到的使用频率进行修正;
步骤6:根据修正结果,对搜索引擎中用户端输入的文字数据提供对应的联想词队列。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310961985.3A CN116662634B (zh) | 2023-08-02 | 2023-08-02 | 一种基于知识图谱的路径分析的推理研究系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310961985.3A CN116662634B (zh) | 2023-08-02 | 2023-08-02 | 一种基于知识图谱的路径分析的推理研究系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116662634A CN116662634A (zh) | 2023-08-29 |
CN116662634B true CN116662634B (zh) | 2023-10-31 |
Family
ID=87714009
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310961985.3A Active CN116662634B (zh) | 2023-08-02 | 2023-08-02 | 一种基于知识图谱的路径分析的推理研究系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116662634B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20110020132A (ko) * | 2009-08-21 | 2011-03-02 | 에스케이텔레콤 주식회사 | 연상어 검색 서비스 제공 시스템, 서버 및 방법 |
CN108227954A (zh) * | 2017-12-29 | 2018-06-29 | 北京奇虎科技有限公司 | 一种提供搜索输入联想词的方法、装置及电子设备 |
CN112347340A (zh) * | 2020-11-17 | 2021-02-09 | 平安数字信息科技(深圳)有限公司 | 信息搜索方法、装置和计算机设备 |
CN113946740A (zh) * | 2021-10-19 | 2022-01-18 | 上海仙塔智能科技有限公司 | 用户座舱搜索联想的处理方法、装置、电子设备与介质 |
CN116304104A (zh) * | 2023-03-23 | 2023-06-23 | 上海瑾盛通信科技有限公司 | 知识图谱构建方法、知识图谱构建装置、介质与电子设备 |
-
2023
- 2023-08-02 CN CN202310961985.3A patent/CN116662634B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20110020132A (ko) * | 2009-08-21 | 2011-03-02 | 에스케이텔레콤 주식회사 | 연상어 검색 서비스 제공 시스템, 서버 및 방법 |
CN108227954A (zh) * | 2017-12-29 | 2018-06-29 | 北京奇虎科技有限公司 | 一种提供搜索输入联想词的方法、装置及电子设备 |
CN112347340A (zh) * | 2020-11-17 | 2021-02-09 | 平安数字信息科技(深圳)有限公司 | 信息搜索方法、装置和计算机设备 |
CN113946740A (zh) * | 2021-10-19 | 2022-01-18 | 上海仙塔智能科技有限公司 | 用户座舱搜索联想的处理方法、装置、电子设备与介质 |
CN116304104A (zh) * | 2023-03-23 | 2023-06-23 | 上海瑾盛通信科技有限公司 | 知识图谱构建方法、知识图谱构建装置、介质与电子设备 |
Non-Patent Citations (1)
Title |
---|
一种面向Web搜索的查询修正方案;杨建林;严明;;情报理论与实践(第01期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116662634A (zh) | 2023-08-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111832290B (zh) | 用于确定文本相关度的模型训练方法、装置、电子设备及可读存储介质 | |
CN112015878A (zh) | 处理智慧客服未回答问题的方法、装置及计算机设备 | |
CN113660541B (zh) | 新闻视频的摘要生成方法及装置 | |
CN106844482B (zh) | 一种基于搜索引擎的检索信息匹配方法及装置 | |
WO2022151594A1 (zh) | 智能推荐的方法、装置以及计算机设备 | |
CN112699232A (zh) | 文本标签提取方法、装置、设备和存储介质 | |
CN114416979A (zh) | 一种文本查询方法、设备和存储介质 | |
CN106844381B (zh) | 图像处理装置及方法 | |
CN110781687A (zh) | 相同意图语句的获取方法及装置 | |
CN113609847B (zh) | 信息抽取方法、装置、电子设备及存储介质 | |
CN109614493B (zh) | 一种基于监督词向量的文本缩写识别方法及系统 | |
CN112445862B (zh) | 物联网设备数据集构建方法、装置、电子设备和存储介质 | |
CN114090792A (zh) | 基于对比学习的文档关系抽取方法及其相关设备 | |
CN114116997A (zh) | 知识问答方法、装置、电子设备及存储介质 | |
CN111324705A (zh) | 自适应性调整关连搜索词的系统及其方法 | |
CN112613293A (zh) | 摘要生成方法、装置、电子设备及存储介质 | |
CN116662634B (zh) | 一种基于知识图谱的路径分析的推理研究系统及方法 | |
CN109885680B (zh) | 一种基于义原扩展的短文本分类预处理方法、系统及装置 | |
CN115858776B (zh) | 一种变体文本分类识别方法、系统、存储介质和电子设备 | |
CN114647739B (zh) | 实体链指方法、装置、电子设备及存储介质 | |
CN116450781A (zh) | 问答的处理方法及装置 | |
CN113590774B (zh) | 事件查询方法、装置以及存储介质 | |
CN112966122B (zh) | 语料意图识别方法、装置、存储介质及计算机设备 | |
KR102609616B1 (ko) | 이미지 처리 방법, 장치, 전자 기기 및 컴퓨터 판독 가능한 저장 매체 | |
CN113722431A (zh) | 命名实体关系识别方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |