CN117743606A - 一种基于大数据的智能检索方法及系统 - Google Patents

一种基于大数据的智能检索方法及系统 Download PDF

Info

Publication number
CN117743606A
CN117743606A CN202410191113.8A CN202410191113A CN117743606A CN 117743606 A CN117743606 A CN 117743606A CN 202410191113 A CN202410191113 A CN 202410191113A CN 117743606 A CN117743606 A CN 117743606A
Authority
CN
China
Prior art keywords
search
data
retrieval
check
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410191113.8A
Other languages
English (en)
Other versions
CN117743606B (zh
Inventor
郭子昌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianyun Rongchuang Data Science & Technology Beijing Co ltd
Original Assignee
Tianyun Rongchuang Data Science & Technology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianyun Rongchuang Data Science & Technology Beijing Co ltd filed Critical Tianyun Rongchuang Data Science & Technology Beijing Co ltd
Priority to CN202410191113.8A priority Critical patent/CN117743606B/zh
Publication of CN117743606A publication Critical patent/CN117743606A/zh
Application granted granted Critical
Publication of CN117743606B publication Critical patent/CN117743606B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种基于大数据的智能检索方法及系统,涉及智能检索领域,其中,基于大数据的智能检索方法,包括如下步骤:接收请求数据;利用预先构建的多个检索类别对请求数据中的检索内容进行分析,并从多个检索类别中确定一个检索类别作为目标类别;根据请求数据获取校核数据,根据校核数据对目标类别进行校核,获得校核结果;若校核结果为无校核或准确,则将目标类别作为检索类别;若校核结果为不准确,则重新确定检索类别;根据检索类别获取多个检索数据并发送,接收根据多个检索数据发送的检索结果,并根据检索结果更新历史数据库。本申请能够提高检索效率和检索准确性。

Description

一种基于大数据的智能检索方法及系统
技术领域
本申请涉及智能检索技术领域,尤其涉及一种基于大数据的智能检索方法及系统。
背景技术
随着互联网和数字化的普及,大量的文本、图像、音频、视频等多媒体数据被产生和存储,传统的基于关键词的检索方式已经无法满足人们对于快速、准确地获取所需信息的需要,因此,基于大数据的智能检索应运而生。基于大数据的智能检索是一种利用大数据技术和人工智能算法来提高检索效率和准确度的方法。
现有的基于大数据的智能检索方法通常包括:分布式计算框架、机器学习算法、深度学习模型、自然语言处理技术和索引构建方法等。但现有的基于大数据的智能检索方法在实际应用过程中,仍存在一定的局限性和不足,需要进一步研究和改进,例如:检索数据的规模大且混杂,索引效率低,对检索请求内容的分析准确性低,以及获得的检索结果的准确性低。
发明内容
本申请的目的在于提供一种基于大数据的智能检索方法及系统,能够提高检索效率和检索准确性。
为达到上述目的,本申请提供一种基于大数据的智能检索方法,包括如下步骤:S1:接收请求数据,其中,请求数据至少包括:用户信息、检索时间和检索内容;S2:利用预先构建的多个检索类别对请求数据中的检索内容进行分析,并从多个检索类别中确定一个检索类别作为目标类别;S3:根据请求数据获取校核数据,根据校核数据对目标类别进行校核,获得校核结果,其中,校核结果为无校核、准确或不准确;若校核结果为无校核或准确,则将目标类别作为检索类别;若校核结果为不准确,则重新确定检索类别;S4:根据检索类别获取多个检索数据并发送,接收根据多个检索数据发送的检索结果,并根据检索结果更新历史数据库。
如上的,其中,利用预先构建的多个检索类别对请求数据中的检索内容进行分析,并从多个检索类别中确定一个检索类别作为目标类别的子步骤如下:S21:对请求数据中的检索内容进行词语提取,获得多个词语特征;S22:遍历预先构建的多个检索类别,利用多个词语特征分别与每个检索类别的检索特征集合进行相关性分析,获得多个原始相关值;S23:对多个词语特征进行词义扩展,获得多个词语特征的扩展特征;S24:遍历预先构建的多个检索类别,利用多个扩展特征分别与每个检索类别的检索特征集合进行相关性分析,获得多个扩展相关值;S25:根据原始相关值和扩展相关值获得检索相关值,并将所有检索相关值中的最大值所对应的检索类别作为目标类别。
如上的,其中,检索相关值的表达式为:;其中,/>为请求数据中的检索内容与第/>个检索类别的检索特征集合之间的检索相关值;/>为词语特征与第/>个检索类别的检索特征集合之间的原始相关值;/>为扩展特征与第/>个检索类别的检索特征集合之间的扩展相关值;/>为原始相关值的权重;/>为扩展相关值的权重。
如上的,其中,根据请求数据获取校核数据,根据校核数据对目标类别进行校核,获得校核结果的子步骤如下:S31:根据请求数据中的用户信息对多个历史数据库进行遍历,将历史用户信息与请求数据中的用户信息一致的历史数据库中的多个历史数据均作为初选数据,其中,初选数据至少包括:历史检索时间、历史检索内容、历史检索类别、历史检索数据和历史检索结果,历史检索结果为准确或不准确;S32:遍历多个初选数据,利用多个词语特征分别对每个初选数据的多个历史词语特征进行相关性分析,获得多个校核相关值,通过预设的校核相关阈值对每个校核相关值进行判断,若存在至少一个大于校核相关阈值的校核相关值,则将大于校核相关阈值的校核相关值所对应的初选数据作为校核数据,执行S33;若所有校核相关值均小于校核相关阈值,则生成校核结果,且校核结果为无校核;S33:利用校核数据对目标类别进行校核分析,获得综合校核值,利用预设的综合校核阈值对综合校核值进行判断,生成校核结果;若综合校核值大于综合校核阈值,则生成的校核结果为准确;若综合校核值小于综合校核阈值,则生成的校核结果为不准确。
如上的,其中,若校核结果为不准确,则将目标类别从预先构建的多个检索类别中剔除后,利用剩余的多个检索类别对请求数据中的检索内容进行分析,并从剩余的多个检索类别中确定一个检索类别作为目标类别。
如上的,其中,每个预先构建的检索类别均包括:一个检索名称、一个检索特征集合和一个检索地址,其中,检索特征集合包括:多个检索特征,每个检索特征分别对应一个特征频率值;一个检索地址对应一个检索数据库。
如上的,其中,检索特征集合根据从多个受信数据源获取的文本数据进行实时更新,其中,检索特征集合的更新内容至少包括:对检索特征的个数和/或内容进行增加、修改和/或删除,以及对每个检索特征对应的特征频率值进行更新。
如上的,其中,根据检索类别获取多个检索数据并发送,接收根据多个检索数据发送的检索结果,并根据检索结果更新历史数据库的子步骤如下:S41:根据检索类别中的检索地址对相应的检索数据库进行访问,从相应的检索数据库中获取多个检索数据,并发送;S42:接收根据多个检索数据发送的检索结果,将检索时间作为历史检索时间,将检索内容作为历史检索内容,将检索类别作为历史检索类别,将检索数据作为历史检索数据,将检索结果作为历史检索结果;并将历史检索时间、历史检索内容、历史检索类别、历史检索数据和历史检索结果作为历史数据存储于相应的历史数据库。
本申请还提供一种基于大数据的智能检索系统,包括:多个用户端和大数据智能检索中心;其中,用户端:用于发送请求数据;接收检索数据,并发送检索结果;大数据智能检索中心:用于执行上述的基于大数据的智能检索方法。
如上的,其中,大数据智能检索中心至少包括:收发单元、分析单元、校核单元、检索单元、更新单元和存储单元;其中,收发单元:用于接收请求数据,并将请求数据发送至分析单元;分析单元:用于对存储单元进行遍历,利用预先构建的多个检索类别对请求数据中的检索内容进行分析,并从多个检索类别中确定一个检索类别作为目标类别;校核单元:用于根据请求数据获取校核数据,根据校核数据对目标类别进行校核,获得校核结果,其中,校核结果为无校核、准确或不准确;若校核结果为无校核或准确,则将目标类别作为检索类别并发送至检索单元;若校核结果为不准确,则重新确定检索类别并发送至检索单元;检索单元:根据检索类别获取多个检索数据并发送,接收根据多个检索数据发送的检索结果,并将检索结果发送至更新单元;更新单元:用于对存储单元中存储的检索类别、检索数据和/或历史数据进行更新;存储单元:用于存储多个检索类别、多个检索数据库和多个历史数据库。
本申请实现的有益效果如下:
(1)本申请的基于大数据的智能检索方法及系统,能够提高检索效率和检索准确性。
(2)本申请的基于大数据的智能检索方法及系统,通过综合考虑多个校核数据与本次请求数据的相关度、用户端个人的历史检索热度和历史检索准确性,进一步提高了检索类别的准确性,从而保障了检索结果的准确性。
(3)本申请的基于大数据的智能检索方法及系统,通过实时更新检索类别、检索数据和/或历史数据,提高了对请求数据进行分析的过程所使用的检索类别、检索数据和/或历史数据的实时性、准确性和完整性,能够进行一步提高分析的准确性和检索的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为基于大数据的智能检索系统一种实施例的结构示意图;
图2为基于大数据的智能检索方法一种实施例的流程图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本申请提供一种基于大数据的智能检索系统,包括:多个用户端110和大数据智能检索中心120。
其中,用户端110:用于发送请求数据;接收检索数据,并发送检索结果。
大数据智能检索中心120:用于执行下述的基于大数据的智能检索方法。
进一步的,大数据智能检索中心120至少包括:收发单元、分析单元、校核单元、检索单元、更新单元和存储单元。
其中,收发单元:用于接收请求数据,并将请求数据发送至分析单元。
分析单元:用于对存储单元进行遍历,利用预先构建的多个检索类别对请求数据中的检索内容进行分析,并从多个检索类别中确定一个检索类别作为目标类别。
校核单元:用于根据请求数据获取校核数据,根据校核数据对目标类别进行校核,获得校核结果,其中,校核结果为无校核、准确或不准确;若校核结果为无校核或准确,则将目标类别作为检索类别并发送至检索单元;若校核结果为不准确,则重新确定检索类别并发送至检索单元。
检索单元:根据检索类别获取多个检索数据并发送,接收根据多个检索数据发送的检索结果,并将检索结果发送至更新单元。
更新单元:用于对存储单元中存储的检索类别、检索数据和/或历史数据进行更新。
存储单元:用于存储多个检索类别、多个检索数据库和多个历史数据库。
进一步的,存储单元至少包括:检索类别存储区域、检索数据存储区域和历史信息存储区域。
其中,检索类别存储区域:用于存储多个预先构建的检索类别,其中,每个预先构建的检索类别均包括:一个检索名称、一个检索特征集合和一个检索地址,其中,检索特征集合包括:多个检索特征,每个检索特征分别对应一个特征频率值;一个检索地址对应一个检索数据库;允许分析单元遍历;允许更新单元对检索类别进行更新。
进一步的,根据预设的更新时间或根据从多个受信数据源获取的文本数据对检索类别的个数和/或检索类别的内容(例如:检索名称、检索特征集合和检索地址)进行实时更新。
进一步的,检索特征集合根据从多个受信数据源获取的文本数据进行实时更新,其中,检索特征集合的更新内容至少包括:对检索特征的个数和/或内容进行增加、修改和/或删除,以及对每个检索特征对应的特征频率值进行更新,能够提高每类检索类别的检索特征集合的时效性、完整性和准确性。
具体的,一旦大数据智能检索中心从受信数据源中获取到新的文本数据,则对新的文本数据进行分析,并根据分析情况对检索特征集合进行更新优化,例如:增加检索特征和/或更新特征频率值,通过实时更新优化检索特征集合,从而提高智能检索的准确性。
受信数据源为:与大数据智能检索中心完成可靠性验证后的数据源,是为大数据智能检索中心提供文本数据的平台或网站,大数据智能检索中心对文本数据进行分析处理后,获得检索数据并存储。
检索特征集合为通过对该检索数据库中内容相同或相关的所有检索数据的存储特征集合进行聚类后获得的特征集合。
特征频率值为:通过统计获得的检索数据库中内容相同或相关的所有检索数据中出现检索特征的总数量。
检索数据存储区域:用于存储多个检索数据库,其中,每个检索数据库均存储有多个检索数据,每个检索数据至少包括:存储时间、文本数据和存储特征集合;存储特征集合包括:多个存储特征,每个存储特征对应一个子特征频率值。
具体的,存储特征集合为:大数据智能检索中心从受信数据源中获得新的文本数据后,对新的文本数据的内容进行特征提取后,获得的特征集合。
进一步的,特征频率值等于内容相同或相关的所有检索数据的子特征频率值的和。
历史信息存储区域:用于存储多个历史数据库,其中,每个历史数据库均包括:一个历史用户信息和多个历史数据,每个历史数据至少包括:历史检索时间、历史检索内容、历史检索类别、历史检索数据和历史检索结果,历史检索结果为准确或不准确。
具体的,历史用户信息至少包括:用户ID和用户名称。
历史检索时间:本次检索之前的请求数据中的检索时间。
历史检索内容:本次检索之前的请求数据中的检索内容。
历史检索类别:在历史检索时间时,根据历史检索内容确认的检索类别。
历史检索数据:在历史检索时间时,根据历史检索类别获取的检索数据。
历史检索结果:在历史检索时间时,用户端根据历史检索数据发送的检索结果。
如图2所示,本申请提供一种基于大数据的智能检索方法,包括如下步骤:
S1:接收请求数据,其中,请求数据至少包括:用户信息、检索时间和检索内容。
具体的,通过收发单元接收用户端发送的请求数据,并将请求数据发送至分析单元。
用户信息至少包括:用户ID和用户名称。
检索时间为本次发送请求数据的时间节点。
检索内容为用户端需要检索的内容的简要描述,可以为一个段落、一个句子、一个词语、一个字、至少一个关键词组合、符号、图像和/或语音,但不仅限于一个段落、一个句子、一个词语、一个字、至少一个关键词组合、符号、图像、音频和/或视频。
S2:利用预先构建的多个检索类别对请求数据中的检索内容进行分析,并从多个检索类别中确定一个检索类别作为目标类别。
进一步的,利用预先构建的多个检索类别对请求数据中的检索内容进行分析,并从多个检索类别中确定一个检索类别作为目标类别的子步骤如下:
S21:对请求数据中的检索内容进行词语提取,获得多个词语特征。
具体的,通过预先训练好的模型对请求数据中的检索内容进行词语提取,获得多个词语特征。
S22:遍历预先构建的多个检索类别,利用多个词语特征分别与每个检索类别的检索特征集合进行相关性分析,获得多个原始相关值。
具体的,通过分析单元对存储单元的检索类别存储区域进行遍历,利用多个词语特征分别与每个检索类别的检索特征集合进行相关性分析,获得多个原始相关值。
进一步的,原始相关值的表达式如下:
其中,为词语特征与第/>个检索类别的检索特征集合之间的原始相关值,,/>为检索类别的总个数;/>为第/>个词语特征与第/>个检索类别的检索特征集合中的第/>个检索特征之间的相关值,/>,/>为第/>个检索类别的检索特征集合中的检索特征的总个数,/>,/>为词语特征的总个数;/>为第/>个检索特征对应的特征频率值。
具体的,利用预先训练好的模型即能获得两个特征之间的相关值。
S23:对多个词语特征进行词义扩展,获得多个词语特征的扩展特征。
具体的,通过预先训练好的模型对多个词语特征进行词语扩展,获得多个扩展特征。扩展特征即为词语特征的扩展词。
S24:遍历预先构建的多个检索类别,利用多个扩展特征分别与每个检索类别的检索特征集合进行相关性分析,获得多个扩展相关值。
具体的,通过分析单元对存储单元的检索类别存储区域进行遍历,利用多个扩展特征分别与每个检索类别的检索特征集合进行相关性分析,获得多个扩展相关值。
进一步的,扩展相关值的表达式如下:
其中,为扩展特征与第/>个检索类别的检索特征集合之间的扩展相关值,,/>为检索类别的总个数;/>为第/>个扩展特征与第/>个检索类别的检索特征集合中的第/>个检索特征之间的相关值,/>,/>为第/>个检索类别的检索特征集合中的检索特征的总个数,/>,/>为扩展特征的总个数;/>为第/>个检索特征对应的特征频率值。
具体的,利用预先训练好的模型即能获得两个特征之间的相关值。
S25:根据原始相关值和扩展相关值获得检索相关值,并将所有检索相关值中的最大值所对应的检索类别作为目标类别。
进一步的,检索相关值的表达式为:
其中,为请求数据中的检索内容与第/>个检索类别的检索特征集合之间的检索相关值;/>为词语特征与第/>个检索类别的检索特征集合之间的原始相关值;/>为扩展特征与第/>个检索类别的检索特征集合之间的扩展相关值;/>为原始相关值的权重;/>为扩展相关值的权重。
具体的,原始相关值的权重和扩展相关值的权重/>的具体值根据实际情况而定。
S3:根据请求数据获取校核数据,根据校核数据对目标类别进行校核,获得校核结果,其中,校核结果为无校核、准确或不准确;若校核结果为无校核或准确,则将目标类别作为检索类别;若校核结果为不准确,则重新确定检索类别。
具体的,作为一个实施例,若校核结果为不准确,则通过人工方式重新确定检索类别。
作为另一个实施例,若校核结果为不准确,则将目标类别从预先构建的多个检索类别中剔除后,利用剩余的多个检索类别对请求数据中的检索内容进行分析,并从剩余的多个检索类别中确定一个检索类别作为目标类别。
进一步的,根据请求数据获取校核数据,根据校核数据对目标类别进行校核,获得校核结果的子步骤如下:
S31:根据请求数据中的用户信息对多个历史数据库进行遍历,将历史用户信息与请求数据中的用户信息一致的历史数据库中的多个历史数据均作为初选数据,其中,初选数据至少包括:历史检索时间、历史检索内容、历史检索类别、历史检索数据和历史检索结果,历史检索结果为准确或不准确。
具体的,校核单元根据请求数据中的用户信息对存储单元中的多个历史数据库进行遍历,将历史用户信息与请求数据中的用户信息一致的历史数据库中的多个历史数据均作为初选数据。
S32:遍历多个初选数据,利用多个词语特征分别对每个初选数据的多个历史词语特征进行相关性分析,获得多个校核相关值,通过预设的校核相关阈值对每个校核相关值进行判断,若存在至少一个大于校核相关阈值的校核相关值,则将大于校核相关阈值的校核相关值所对应的初选数据作为校核数据,执行S33;若所有校核相关值均小于校核相关阈值,则生成校核结果,且校核结果为无校核。
具体的,遍历多个初选数据,对初选数据进行特征提取,获得多个历史词语特征;通过现有的人工智能技术、预先训练好的模型或预先训练好的神经网络利用多个词语特征分别对每个初选数据的多个历史词语特征进行相关性分析,获得多个校核相关值,将校核相关值大于校核相关阈值的初选数据作为校核数据。
其中,校核相关阈值的具体值根据实际情况设置,若校核相关值大于校核相关阈值,则表示该初选数据与请求数据相关或相同;若校核相关值小于或等于预设的校核相关阈值,则表示该初选数据与请求数据不相关。
S33:利用校核数据对目标类别进行校核分析,获得综合校核值,利用预设的综合校核阈值对综合校核值进行判断,生成校核结果;若综合校核值大于综合校核阈值,则生成的校核结果为准确;若综合校核值小于综合校核阈值,则生成的校核结果为不准确。
进一步的,综合校核值的表达式如下:
其中,为综合校核值;/>为第/>个校核数据所对应的校核相关值,/>为校核数据的总个数;/>为在所有校核数据中,历史检索结果为准确的校核数据的总个数;/>为初选数据的总个数;/>为检索热度权重;/>为检索结果权重。
具体的,检索热度权重和检索结果权重/>的具体值根据实际情况而定。通过综合考虑多个校核数据与本次请求数据的相关度、用户端个人的历史检索热度和历史检索准确性,进一步提高了检索类别的准确性,从而保障了检索结果的准确性。
S4:根据检索类别获取多个检索数据并发送,接收根据多个检索数据发送的检索结果,并根据检索结果更新历史数据库。
进一步的,根据检索类别获取多个检索数据并发送,接收根据多个检索数据发送的检索结果,并根据检索结果更新历史数据库的子步骤如下:
S41:根据检索类别中的检索地址对相应的检索数据库进行访问,从相应的检索数据库中获取多个检索数据,并发送。
S42:接收根据多个检索数据发送的检索结果,将检索时间作为历史检索时间,将检索内容作为历史检索内容,将检索类别作为历史检索类别,将检索数据作为历史检索数据,将检索结果作为历史检索结果;并将历史检索时间、历史检索内容、历史检索类别、历史检索数据和历史检索结果作为历史数据存储于相应的历史数据库。
本申请实现的有益效果如下:
(1)本申请的基于大数据的智能检索方法及系统,能够提高检索效率和检索准确性。
(2)本申请的基于大数据的智能检索方法及系统,通过综合考虑多个校核数据与本次请求数据的相关度、用户端个人的历史检索热度和历史检索准确性,进一步提高了检索类别的准确性,从而保障了检索结果的准确性。
(3)本申请的基于大数据的智能检索方法及系统,通过实时更新检索类别、检索数据和/或历史数据,提高了对请求数据进行分析的过程所使用的检索类别、检索数据和/或历史数据的实时性、准确性和完整性,能够进行一步提高分析的准确性和检索的准确性。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,本申请的保护范围意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请保护范围及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种基于大数据的智能检索方法,其特征在于,包括如下步骤:
S1:接收请求数据,其中,请求数据至少包括:用户信息、检索时间和检索内容;
S2:利用预先构建的多个检索类别对请求数据中的检索内容进行分析,并从多个检索类别中确定一个检索类别作为目标类别;
S3:根据请求数据获取校核数据,根据校核数据对目标类别进行校核,获得校核结果,其中,校核结果为无校核、准确或不准确;若校核结果为无校核或准确,则将目标类别作为检索类别;若校核结果为不准确,则重新确定检索类别;
S4:根据检索类别获取多个检索数据并发送,接收根据多个检索数据发送的检索结果,并根据检索结果更新历史数据库。
2.根据权利要求1所述的基于大数据的智能检索方法,其特征在于,利用预先构建的多个检索类别对请求数据中的检索内容进行分析,并从多个检索类别中确定一个检索类别作为目标类别的子步骤如下:
S21:对请求数据中的检索内容进行词语提取,获得多个词语特征;
S22:遍历预先构建的多个检索类别,利用多个词语特征分别与每个检索类别的检索特征集合进行相关性分析,获得多个原始相关值;
S23:对多个词语特征进行词义扩展,获得多个词语特征的扩展特征;
S24:遍历预先构建的多个检索类别,利用多个扩展特征分别与每个检索类别的检索特征集合进行相关性分析,获得多个扩展相关值;
S25:根据原始相关值和扩展相关值获得检索相关值,并将所有检索相关值中的最大值所对应的检索类别作为目标类别。
3.根据权利要求2所述的基于大数据的智能检索方法,其特征在于,检索相关值的表达式为:
其中,为请求数据中的检索内容与第/>个检索类别的检索特征集合之间的检索相关值;/>为词语特征与第/>个检索类别的检索特征集合之间的原始相关值;/>为扩展特征与第/>个检索类别的检索特征集合之间的扩展相关值;/>为原始相关值的权重;/>为扩展相关值的权重。
4.根据权利要求2所述的基于大数据的智能检索方法,其特征在于,根据请求数据获取校核数据,根据校核数据对目标类别进行校核,获得校核结果的子步骤如下:
S31:根据请求数据中的用户信息对多个历史数据库进行遍历,将历史用户信息与请求数据中的用户信息一致的历史数据库中的多个历史数据均作为初选数据,其中,初选数据至少包括:历史检索时间、历史检索内容、历史检索类别、历史检索数据和历史检索结果,历史检索结果为准确或不准确;
S32:遍历多个初选数据,利用多个词语特征分别对每个初选数据的多个历史词语特征进行相关性分析,获得多个校核相关值,通过预设的校核相关阈值对每个校核相关值进行判断,若存在至少一个大于校核相关阈值的校核相关值,则将大于校核相关阈值的校核相关值所对应的初选数据作为校核数据,执行S33;若所有校核相关值均小于校核相关阈值,则生成校核结果,且校核结果为无校核;
S33:利用校核数据对目标类别进行校核分析,获得综合校核值,利用预设的综合校核阈值对综合校核值进行判断,生成校核结果;若综合校核值大于综合校核阈值,则生成的校核结果为准确;若综合校核值小于综合校核阈值,则生成的校核结果为不准确。
5.根据权利要求4所述的基于大数据的智能检索方法,其特征在于,若校核结果为不准确,则将目标类别从预先构建的多个检索类别中剔除后,利用剩余的多个检索类别对请求数据中的检索内容进行分析,并从剩余的多个检索类别中确定一个检索类别作为目标类别。
6.根据权利要求5所述的基于大数据的智能检索方法,其特征在于,每个预先构建的检索类别均包括:一个检索名称、一个检索特征集合和一个检索地址,其中,检索特征集合包括:多个检索特征,每个检索特征分别对应一个特征频率值;一个检索地址对应一个检索数据库。
7.根据权利要求6所述的基于大数据的智能检索方法,其特征在于,检索特征集合根据从多个受信数据源获取的文本数据进行实时更新,其中,检索特征集合的更新内容至少包括:对检索特征的个数和/或内容进行增加、修改和/或删除,以及对每个检索特征对应的特征频率值进行更新。
8.根据权利要求7所述的基于大数据的智能检索方法,其特征在于,根据检索类别获取多个检索数据并发送,接收根据多个检索数据发送的检索结果,并根据检索结果更新历史数据库的子步骤如下:
S41:根据检索类别中的检索地址对相应的检索数据库进行访问,从相应的检索数据库中获取多个检索数据,并发送;
S42:接收根据多个检索数据发送的检索结果,将检索时间作为历史检索时间,将检索内容作为历史检索内容,将检索类别作为历史检索类别,将检索数据作为历史检索数据,将检索结果作为历史检索结果;并将历史检索时间、历史检索内容、历史检索类别、历史检索数据和历史检索结果作为历史数据存储于相应的历史数据库。
9.一种基于大数据的智能检索系统,其特征在于,包括:多个用户端和大数据智能检索中心;
其中,用户端:用于发送请求数据;接收检索数据,并发送检索结果;
大数据智能检索中心:用于执行权利要求1-8中任意一项所述的基于大数据的智能检索方法。
10.根据权利要求9所述的基于大数据的智能检索系统,其特征在于,大数据智能检索中心至少包括:收发单元、分析单元、校核单元、检索单元、更新单元和存储单元;
其中,收发单元:用于接收请求数据,并将请求数据发送至分析单元;
分析单元:用于对存储单元进行遍历,利用预先构建的多个检索类别对请求数据中的检索内容进行分析,并从多个检索类别中确定一个检索类别作为目标类别;
校核单元:用于根据请求数据获取校核数据,根据校核数据对目标类别进行校核,获得校核结果,其中,校核结果为无校核、准确或不准确;若校核结果为无校核或准确,则将目标类别作为检索类别并发送至检索单元;若校核结果为不准确,则重新确定检索类别并发送至检索单元;
检索单元:根据检索类别获取多个检索数据并发送,接收根据多个检索数据发送的检索结果,并将检索结果发送至更新单元;
更新单元:用于对存储单元中存储的检索类别、检索数据和/或历史数据进行更新;
存储单元:用于存储多个检索类别、多个检索数据库和多个历史数据库。
CN202410191113.8A 2024-02-21 2024-02-21 一种基于大数据的智能检索方法及系统 Active CN117743606B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410191113.8A CN117743606B (zh) 2024-02-21 2024-02-21 一种基于大数据的智能检索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410191113.8A CN117743606B (zh) 2024-02-21 2024-02-21 一种基于大数据的智能检索方法及系统

Publications (2)

Publication Number Publication Date
CN117743606A true CN117743606A (zh) 2024-03-22
CN117743606B CN117743606B (zh) 2024-04-30

Family

ID=90251266

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410191113.8A Active CN117743606B (zh) 2024-02-21 2024-02-21 一种基于大数据的智能检索方法及系统

Country Status (1)

Country Link
CN (1) CN117743606B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005099964A (ja) * 2003-09-24 2005-04-14 Ricoh Co Ltd 検索分類システム、検索分類サーバ、プログラムおよび記録媒体
CN112835923A (zh) * 2021-02-02 2021-05-25 中国工商银行股份有限公司 一种相关检索方法、装置和设备
CN114610842A (zh) * 2022-01-24 2022-06-10 企知道网络技术有限公司 一种基于意图识别的关联搜索方法及系统
CN116070114A (zh) * 2022-12-28 2023-05-05 中国电信股份有限公司 数据集的构建方法、装置、电子设备及存储介质
CN116304116A (zh) * 2023-03-03 2023-06-23 联仁健康医疗大数据科技股份有限公司 数据检索方法及装置
CN116756346A (zh) * 2023-08-17 2023-09-15 中国标准化研究院 一种信息检索方法及装置
CN117556067A (zh) * 2024-01-11 2024-02-13 腾讯科技(深圳)有限公司 数据检索方法、装置、计算机设备和存储介质
CN117574292A (zh) * 2023-11-09 2024-02-20 河北建筑工程学院 一种数据故障检测方法及系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005099964A (ja) * 2003-09-24 2005-04-14 Ricoh Co Ltd 検索分類システム、検索分類サーバ、プログラムおよび記録媒体
CN112835923A (zh) * 2021-02-02 2021-05-25 中国工商银行股份有限公司 一种相关检索方法、装置和设备
CN114610842A (zh) * 2022-01-24 2022-06-10 企知道网络技术有限公司 一种基于意图识别的关联搜索方法及系统
CN116070114A (zh) * 2022-12-28 2023-05-05 中国电信股份有限公司 数据集的构建方法、装置、电子设备及存储介质
CN116304116A (zh) * 2023-03-03 2023-06-23 联仁健康医疗大数据科技股份有限公司 数据检索方法及装置
CN116756346A (zh) * 2023-08-17 2023-09-15 中国标准化研究院 一种信息检索方法及装置
CN117574292A (zh) * 2023-11-09 2024-02-20 河北建筑工程学院 一种数据故障检测方法及系统
CN117556067A (zh) * 2024-01-11 2024-02-13 腾讯科技(深圳)有限公司 数据检索方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN117743606B (zh) 2024-04-30

Similar Documents

Publication Publication Date Title
CN111241241B (zh) 基于知识图谱的案件检索方法、装置、设备及存储介质
US11301637B2 (en) Methods, devices, and systems for constructing intelligent knowledge base
CN107943792B (zh) 一种语句分析方法、装置及终端设备、存储介质
CN112434533B (zh) 实体消歧方法、装置、电子设备及计算机可读存储介质
CN112149410A (zh) 语义识别方法、装置、计算机设备和存储介质
CN110147494A (zh) 信息搜索方法、装置,存储介质及电子设备
CN109948154A (zh) 一种基于邮箱名的人物获取及关系推荐系统和方法
CN114547257B (zh) 类案匹配方法、装置、计算机设备及存储介质
US11379527B2 (en) Sibling search queries
CN116150651A (zh) 基于ai的深度合成检测方法和系统
CN116150306A (zh) 问答机器人的训练方法、问答方法及装置
CN110209804B (zh) 目标语料的确定方法和装置、存储介质及电子装置
WO2021103594A1 (zh) 一种默契度检测方法、设备、服务器及可读存储介质
CN111460206B (zh) 图像处理方法、装置、电子设备和计算机可读存储介质
CN117743606B (zh) 一种基于大数据的智能检索方法及系统
CN110851560B (zh) 信息检索方法、装置及设备
US20170091203A1 (en) Predicting locations for web pages and related techniques
WO2018171499A1 (zh) 一种信息检测方法、设备及存储介质
CN115329083A (zh) 文档分类方法、装置、计算机设备和存储介质
CN114254112A (zh) 用于敏感信息预分类的方法、系统、装置和介质
CN114153946A (zh) 一种智能检索方法、装置、设备及存储介质
CN117688136B (zh) 一种基于人工智能的组合检索优化方法及系统
CN116992111B (zh) 数据处理方法、装置、电子设备及计算机存储介质
KR102474977B1 (ko) 자동 응답 서비스 제공 방법 및 이를 위한 시스템
CN113792129B (zh) 一种智能会话方法、装置、计算机设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant