CN114461661A - 一种基于大数据的数据查询方法及系统 - Google Patents

一种基于大数据的数据查询方法及系统 Download PDF

Info

Publication number
CN114461661A
CN114461661A CN202210006902.0A CN202210006902A CN114461661A CN 114461661 A CN114461661 A CN 114461661A CN 202210006902 A CN202210006902 A CN 202210006902A CN 114461661 A CN114461661 A CN 114461661A
Authority
CN
China
Prior art keywords
query
result
word
sentence
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210006902.0A
Other languages
English (en)
Other versions
CN114461661B (zh
Inventor
张馨云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Orange Storm Digital Technology Co ltd
Original Assignee
Guizhou Youjing Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guizhou Youjing Network Technology Co ltd filed Critical Guizhou Youjing Network Technology Co ltd
Priority to CN202210006902.0A priority Critical patent/CN114461661B/zh
Publication of CN114461661A publication Critical patent/CN114461661A/zh
Application granted granted Critical
Publication of CN114461661B publication Critical patent/CN114461661B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于大数据的数据查询方法,包括:查询终端向文件节点发起信息查询请求,所述信息查询请求中包括查询语句;文件节点将所述信息查询请求透发至zookeeper,以使所述zookeeper将所述查询语句进行拆分,并分别将拆分后的字、词和句在数据库中进行查询,所述数据库包括字库、词库和句库;所述zookeeper分别反馈所述字库、词库和句库的第一查询结果,并将所述多个第一查询结果进行融合,确定第二查询结果;所述zookeeper向所述查询终端反馈与所述信息查询请求相对应的第二查询结果,其中,所述第二查询结果为所述多个第一查询结果中,与所述查询语句的匹配值最高的结果。

Description

一种基于大数据的数据查询方法及系统
技术领域
本发明属于信息技术领域,具体地,涉及一种基于大数据的数据查询的方法及系统。
背景技术
大数据是指一种规模大到在获取、存储、分析方面大大超出了传统数据库软件工具(如MySQL,Oracle,PostgreSQL等)能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征;是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
目前大数据数据处理的应用广泛,在数据查询系统中,传统的数据查询可通过字词查询,即通过query语句去寻找与查询请求相适配的结果,然而,在大数据规模下,其查询结果可能会具备多个,按照不同领域、不同场景来看,往往与查询请求相适配的查询结果不是作为相似度最高的查询结果而出现,往往是查询结果中第N个(N>2),因此,在大数据场景下,数据查询的结果相似度和匹配度较低,需要进行校正。
发明内容
本发明提供了一种基于大数据的数据查询的方法及系统,有效解决了现有技术中数据查询结果相似度和匹配度较低的问题,有效提升了数据查询的相似度和匹配度。
为了实现上述目的,本发明提供了一种基于大数据的数据查询的方法,包括:
查询终端向文件节点发起信息查询请求,所述信息查询请求中包括查询语句;
文件节点将所述信息查询请求透发至zookeeper,以使所述zookeeper将所述查询语句进行拆分,并分别将拆分后的字、词和句在数据库中进行查询,所述数据库包括字库、词库和句库;
所述zookeeper分别反馈所述字库、词库和句库的第一查询结果,并将所述多个第一查询结果进行融合,确定第二查询结果;
所述zookeeper向所述查询终端反馈与所述信息查询请求相对应的第二查询结果,其中,所述第二查询结果为所述多个第一查询结果中,与所述查询语句的匹配值最高的结果。
可选地,所述将所述多个第一查询结果进行融合,确定第二查询结果,包括:
分别获取所述字库、词库和句库的第一查询结果,所述第一查询结果包括多个查询结果的相似度排名,选择所述字库相似度排名最高的第三结果、所述词库相似度排名最高的第四结果和所述句库相似度排名最高的第五结果;
分别设置所述第三结果、所述第四结果和所述第五结果的权重值,所述权重值与所述查询语句对应的场景化参数为正相关;
将所述第三结果、所述第四结果和所述第五结果与对应的权重值进行加权操作;
根据所述加权操作后的结果,确定第二查询结果。
可选地,所述将所述多个第一查询结果进行融合,确定第二查询结果,包括:
使用朴素贝叶斯决策理论将所述多个第一查询结果进行融合,并确定所述第二查询结果。
可选地,所述将所述多个第一查询结果进行融合,确定第二查询结果,
包括:
根据如下公式将所述多个第一查询结果进行融合:
F=[Hc*f(x,y,z)]2/([λ1*P1(x,y)+λ2*P2(x,z)+λ3*P3(y,z)]*∫(A0*G(x,y)+A1*G(x,z)+A2*G(y,z))d(x,y,z))
其中,F为第二查询结果,x,y,z分别为字库,词库和句库的查询结果,P1(x,y)为条件为y下,结果为x的先验概率,P2(x,z)为条件为z下,结果为x的先验概率,P3(y,z)为条件为z下,结果为y的先验概率,λ123为预设定权重,G(x,y)为x,y的最大似然函数,G(x,z)为x,z的最大似然函数,G(y,z)为y,z的最大似然函数。A0,A1,A2为校正因子。
可选地,所述方法还包括:
通过Jaccard相似度或余弦相似度来计算所述拆分后的字的相似度,以确定所述字库中查询到的第一字库结果。
可选地,所述方法还包括:
通过One-hot向量来计算所述拆分后的词的相似度,以确定所述词库中查询到的第一词库结果。
可选地,所述方法还包括:
通过WMD建模或WRD建模来计算所述拆分后的句的相似度,以确定所述句库中查询到的第一句库结果。
可选地,所述zookeeper分别反馈所述字库、词库和句库的第一查询结果,包括:
所述zookeeper反馈所述字库的第一字库查询结果,所述第一字库查询结果包含多个查询结果,并按照相似度由大到小进行排序,并以表格的形式反馈;
所述zookeeper反馈所述词库的第一词库查询结果,所述第一词库查询结果包含多个查询结果,并按照相似度由大到小进行排序,并以表格的形式反馈;
所述zookeeper反馈所述字库的第一句库查询结果,所述第一句库查询结果包含多个查询结果,并按照相似度由大到小进行排序,并以表格的形式反馈。
本发明实施例还提供一种基于大数据的数据查询系统,所述系统包括:
接收单元,用于接收文件节点透发的信息查询请求,所述信息查询请求由查询终端向文件节点发起,且所述信息查询请求中包括查询语句;
拆分单元,用于将所述查询语句进行拆分;
查询单元,用于分别将拆分后的字、词和句在数据库中进行查询,所述数据库包括字库、词库和句库;
融合单元,用于分别反馈所述字库、词库和句库的第一查询结果,并将所述多个第一查询结果进行融合,确定第二查询结果;
反馈单元,用于向所述查询终端反馈与所述信息查询请求相对应的第二查询结果,其中,所述第二查询结果为所述多个第一查询结果中,与所述查询语句的匹配值最高的结果。
本发明实施例还提供了一种基于大数据的数据查询系统,包括存储器和处理器,所述存储器上存储有计算机可执行指令,所述处理器运行所述存储器上的计算机可执行指令时实现上述的方法。
本发明实施例的方法及系统具有下列优点:
本发明实施例中,zookeeper分别获取字库、词库和句库的查询结果,并将三者的查询结果进行融合操作,从而获取与查询请求最为匹配的第二查询结果,解决了现有技术中数据查询相似度和匹配度较低的问题,提升了大数据场景下数据查询的成功率。
附图说明
图1为一个实施例中数据查询平台架构图;
图2为一个实施例中基于大数据的数据查询的方法流程图;
图3为一个实施例中数据查询页面示意图;
图4为一个实施例中的数据查询系统组成结构图;
图5为一个实施例中系统的硬件组成示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
图1是本发明实施例中大数据场景下的数据查询平台架构图,如图1所示,该平台10包括查询终端11、多个文件节点12、zookeeper 13和数据库14,其中,数据库14又可以包括字库141、词库142和句库143。
在本发明实施例中,查询终端11负责发出查询请求,且该查询请求中包括一个或多个查询语句,查询语句可以为中文、英文、日文等各类不同的语言组成,查询终端11负责将查询语句通过传输协议传输到文件节点12中。文件节点12位于边缘交换层,可短时间内相应查询终端11的查询请求,若查询终端11的查询请求较为简单,且该请求对应的查询结果事先存储在文件节点12的本地存储空间中,则文件节点12直接将查询结果发送给查询终端11;若查询请求较为复杂,则文件节点12负责充当传输中继,将查询请求透发,并接收由zookeeper反馈的查询结果,并反馈给查询终端11,或只负责透发查询请求,而由zookeeper直接反馈查询结果给查询终端11。
zookeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。在本发明实施例中,zookeeper 13进行数据查询的管控和监督服务,其接收来自文件节点透发的查询请求,并将数据查询请求在数据库14中进行查询结果匹配,以确定最为相似或匹配的查询结果。
数据库14中包括三类不同的子数据库,分别是字库141、词库142和句库143,其中,字库用于对单个字进行匹配,词库用于对单个词进行匹配,句库用于对单个句库进行匹配,对于一句话而言,采用字库匹配的方式是对该一句话中的每一个字进行匹配,采用词库匹配的方式是将该句话中的词进行一一匹配,而句库则是基于全局的句子进行匹配,例如,“中国人”和“中国人民”,采用字库的匹配度高达75%,采用词库的匹配度则降低至50%。
如图2所示,本发明实施例提供一种基于大数据的数据查询方法,应用于图1所示的数据查询平台,包括:
S101.查询终端向文件节点发起信息查询请求,所述信息查询请求中包括查询语句;
在本发明实施例中,查询终端向文件节点发起信息查询请求,需要通过文件节点将该消息进行透发,并获取与查询语句匹配度最高的查询结果,其中,查询语句包括一个或多个语句,例如“最近的山姆会员店在哪里?里面有哪一些新款产品?是否有促销活动?”
S102.文件节点将所述信息查询请求透发至zookeeper,以使所述zookeeper将所述查询语句进行拆分,并分别将拆分后的字、词和句在数据库中进行查询,所述数据库包括字库、词库和句库;
文件节点没有在自身的存储设备中发现与该查询语句匹配的答案,则将该信息查询请求透发至zookeeper,通过zookeeper进行消息查询。
在本发明实施例中,不同于传统的语句查询方法,zookeeper采用了先拆分,再融合的策略,即将查询语句进行拆分,具体的拆分方式分为字拆分,词拆分和句拆分,字拆分即将查询语句单个字拆开,并去掉无用的象声词等,例如“的”,“了”,“吗”等词,词拆分即将查询语句的词语进行拆分,接上例,可拆出“最近”、“山姆”、“会员店”、“哪里”等词,句拆分即将一个段落的多个语句拆成单个语句,上例中,一共可拆出有3个语句。
拆分出字、词和句后,zookeeper需要分别在字库、词库和句库中进行结果的查询,具体的查询原理为:先获取与该字库、词库和句库中相似度较高的字、词和句,再分别获取该字、词和句对应的答案,其中,字、词和句对应的答案实现存储在数据库中,因此,只需要获取到数据库中,与查询语句中字、词和句相似/匹配的字、词和句,即可得到对应的查询结果。
其中,字库相似度可通过Jaccard相似度或余弦相似度来计算所述拆分后的字的相似度,以确定所述字库中查询到的第一字库结果。词库相似度可通过One-hot向量来计算所述拆分后的词的相似度,以确定所述词库中查询到的第一词库结果。句库相似度可通过WMD建模或WRD建模来计算所述拆分后的句的相似度,以确定所述句库中查询到的第一句库结果。
具体地,基于字符串相似度判断词相似度的方法是一种较为简单的方法,其包括有Jaccard相似度或余弦相似度。对于中文字符串,首先需进行分词处理。由于方法简单且计算量较小,该方法在工程中也得到了广泛的应用。基于字符串的相似度仅是考虑其字符间的相似度而忽略了语义的相似度,而基于知识或语料库的方法则更多的表征词词间的语义相似度。
One-hot向量属于词向量word vector的一种离散表示。离散表示及忽略词与词间的上下文关系,而将文本片段或语料库视为一个“词袋”。常见的方法包括one-hot向量、词袋模型(统计词出现的频词)以及TF-IDF,即不仅考虑词出现的频词同时还考虑该词是否具有一定的“典型性”。词向量分布式表示主要基于Harris 1954年提出的分布式假设:在相同上下文中出现的词倾向于具有相同的含义,进行建模。其核心思想是认为每个词与其邻居具有较高的相关性且拥有相似的语义特征,因此可以基于其邻居对该词进行向量表示。词向量分布式表示主要包括如话题模型LSI、pLSA、LSA以及ngram等。2001年Benjio等人提出了神经网络语言模型(NNLM)其利用神经网络强大的特征表示能力学习词向量,起一定程度上捕获了词语的语义特征,克服了语义鸿沟的问题。此后,又不断有其它神经网络词向量模型如Skip-gram、C&W、CBOW以及Bert等。如今,词向量以成为自然语言处理中深度学习模型的标准模块。
WMD(Word Mover Distance)模型是衡量句子相似性的常见方法,其设计动机是来自于运筹学线性规划中的经典问题,即“推土”问题(EMD,earth mover’s distancemetric)或产品调拨、运输问题。
WRD(Word Rotator's Distance)本质思想与WMD没有差别,只是在WMD基础上进行了一定的改进,其主要变化包括:使用余弦距离代替欧式距离衡量两词间的相似度;考虑即有模长对语料库词向量进行标准化处理,以间接体系该词向量的重要程度。
S103.所述zookeeper分别反馈所述字库、词库和句库的第一查询结果,并将所述多个第一查询结果进行融合,确定第二查询结果;
对于字库、词库和句库获取到的多个第一查询结果而言,其查询结果并不一定准确,例如,如表1的测试中,选取不同的数据对进行对比,从字库、词库和句库得到的相似度都是不同的,还需要进行进一步的分析。
表1
Figure BDA0003457330870000081
Figure BDA0003457330870000091
在本发明实施例中,采用如下方式进行查询结果融合:
S1031.分别获取所述字库、词库和句库的第一查询结果,所述第一查询结果包括多个查询结果的相似度排名,选择所述字库相似度排名最高的第三结果、所述词库相似度排名最高的第四结果和所述句库相似度排名最高的第五结果;
S1032.分别设置所述第三结果、所述第四结果和所述第五结果的权重值,所述权重值与所述查询语句对应的场景化参数为正相关;
例如,针对同一查询语句,从字库查询到的结果A、B和C,其中A的结果的相似度大于B的结果相似度,B的结果相似度大于C的结果相似度;而词库的结果C、A和B,其中相似度由高到低分别是C,A,B;句库的结果C,B和A,相似度由高到低分别是C,B和A。则本发明实施例中,第三结果是A,第四结果是C,第五结果是C,此时,需要设置其权重分别是0.2;0.3;0.5,则第二查询结果应该是C而不是A,其是C的概率更高,权重更大。
在本发明实施例中,场景化参数用于表示当前查询语句所处的场景或语态,例如当前场景是在智慧城市场景下,所需要查询的是公共交通的拥挤程度,则涉及到交通类的查询结果其权重应该调整为更高,非交通磊的查询结果应该调整为更低,因此,场景化参数会是一个权重调整很重要的依据,对于本发明实施例而言,场景化参数可设定几种典型的场景并设置不同的参数值,例如01表示智慧城市,02表示地图导航,03表示语音输入等,不同的场景化参数可由人为设定或基于语义上下文进行智能判定,例如自然语言处理过程当中可抓取当前语义对应的场景,例如智慧城市会和“建筑”“能源”“交通”等几个高频词强相关,若语义上下文出现该几个高频词,则场景化参数设置为01。
1033.将所述第三结果、所述第四结果和所述第五结果与对应的权重值进行加权操作;
S1034.根据所述加权操作后的结果,确定第二查询结果。
此外,本发明实施例还可以使用朴素贝叶斯决策理论将所述多个第一查询结果进行融合,并确定所述第二查询结果。
朴素贝叶斯法(Naive Bayes model)是基于贝叶斯定理与特征条件独立假设的分类方法。最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型(Naive Bayesian Model,NBM)。和决策树模型相比,朴素贝叶斯分类器(Naive BayesClassifier或NBC)发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。同时,NBC模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。理论上,NBC模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此,这是因为NBC模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,这给NBC模型的正确分类带来了一定影响。朴素贝叶斯分类(NBC)是以贝叶斯定理为基础并且假设特征条件之间相互独立的方法,先通过已给定的训练集,以特征词之间独立作为前提假设,学习从输入到输出的联合概率分布,再基于学习到的模型,输入X,Y求出使得后验概率最大的输出。朴素贝叶斯算法假设了数据集属性之间是相互独立的,因此算法的逻辑性十分简单,并且算法较为稳定,当数据呈现不同的特点时,朴素贝叶斯的分类性能不会有太大的差异。换句话说就是朴素贝叶斯算法的健壮性比较好,对于不同类型的数据集不会呈现出太大的差异性。当数据集属性之间的关系相对比较独立时,朴素贝叶斯分类算法会有较好的效果。
此外,本发明实施例还可以采用优化改良后的贪心算法进行多个第一查询结果的融合,具体地,根据如下公式将所述多个第一查询结果进行融合:
F=[Hc*f(x,y,z)]2/([λ1*P1(x,y)+λ2*P2(x,z)+λ3*P3(y,z)]*∫(A0*G(x,y)+A1*G(x,z)+A2*G(y,z))d(x,y,z))
其中,F为第二查询结果,x,y,z分别为字库,词库和句库的查询结果,P1(x,y)为条件为y下,结果为x的先验概率,P2(x,z)为条件为z下,结果为x的先验概率,P3(y,z)为条件为z下,结果为y的先验概率,λ123为预设定权重,G(x,y)为x,y的最大似然函数,G(x,z)为x,z的最大似然函数,G(y,z)为y,z的最大似然函数。A0,A1,A2为校正因子。
可选地,所述zookeeper分别反馈所述字库、词库和句库的第一查询结果,具体为:
所述zookeeper反馈所述字库的第一字库查询结果,所述第一字库查询结果包含多个查询结果,并按照相似度由大到小进行排序,并以表格的形式反馈;
所述zookeeper反馈所述词库的第一词库查询结果,所述第一词库查询结果包含多个查询结果,并按照相似度由大到小进行排序,并以表格的形式反馈;
所述zookeeper反馈所述字库的第一句库查询结果,所述第一句库查询结果包含多个查询结果,并按照相似度由大到小进行排序,并以表格的形式反馈。
S104.所述zookeeper向所述查询终端反馈与所述信息查询请求相对应的第二查询结果,其中,所述第二查询结果为所述多个第一查询结果中,与所述查询语句的匹配值最高的结果。
在融合之后,zookeeper向所述查询终端反馈与所述信息查询请求相对应的第二查询结果,该第二查询结果按照匹配值进行排序得到。
经过比对,传统方法产生的查询结果和采用本发明实施例的结果,其匹配度提升50%以上,个别领域可提升60%,成效明显,具体如表2所示。
表2
Figure BDA0003457330870000121
图3是本发明实施例的操作页面之一,如图3,左侧页面是前台页面(客户端页面),后侧页面是后台页面(服务器页面),在输入查询语句并点击开始后,其后台需要可修改设置权重,并设置场景化参数,最终从输出的字库结果,词库结果和句库结果中进行融合运算,得到第二查询结果(如图3左下角)。
如图4,本发明实施例还提供一种基于大数据的数据查询系统30,所述系统包括:
接收单元31,用于接收文件节点透发的信息查询请求,所述信息查询请求由查询终端向文件节点发起,且所述信息查询请求中包括查询语句;
在本发明实施例中,查询终端向文件节点发起信息查询请求,需要通过文件节点将该消息进行透发,并获取与查询语句匹配度最高的查询结果,其中,查询语句包括一个或多个语句,例如“最近的山姆会员店在哪里?里面有哪一些新款产品?是否有促销活动?”
文件节点没有在自身的存储设备中发现与该查询语句匹配的答案,则将该信息查询请求透发至zookeeper的接收单元31,通过zookeeper进行消息查询。
拆分单元32,用于将所述查询语句进行拆分;
在本发明实施例中,不同于传统的语句查询方法,拆分单元32采用了先拆分,再融合的策略,即将查询语句进行拆分,具体的拆分方式分为字拆分,词拆分和句拆分,字拆分即将查询语句单个字拆开,并去掉无用的象声词等,例如“的”,“了”,“吗”等词,词拆分即将查询语句的词语进行拆分,接上例,可拆出“最近”、“山姆”、“会员店”、“哪里”等词,句拆分即将一个段落的多个语句拆成单个语句,上例中,一共可拆出有3个语句。
拆分出字、词和句后,拆分单元需要分别在字库、词库和句库中进行结果的查询,具体的查询原理为:先获取与该字库、词库和句库中相似度较高的字、词和句,再分别获取该字、词和句对应的答案,其中,字、词和句对应的答案实现存储在数据库中,因此,只需要获取到数据库中,与查询语句中字、词和句相似/匹配的字、词和句,即可得到对应的查询结果。
其中,字库相似度可通过Jaccard相似度或余弦相似度来计算所述拆分后的字的相似度,以确定所述字库中查询到的第一字库结果。词库相似度可通过One-hot向量来计算所述拆分后的词的相似度,以确定所述词库中查询到的第一词库结果。句库相似度可通过WMD建模或WRD建模来计算所述拆分后的句的相似度,以确定所述句库中查询到的第一句库结果。
查询单元33,用于分别将拆分后的字、词和句在数据库中进行查询,所述数据库包括字库、词库和句库;
融合单元34,用于分别反馈所述字库、词库和句库的第一查询结果,并将所述多个第一查询结果进行融合,确定第二查询结果;
在本发明实施例中,融合单元采用如下方式进行查询结果融合:
分别获取所述字库、词库和句库的第一查询结果,所述第一查询结果包括多个查询结果的相似度排名,选择所述字库相似度排名最高的第三结果、所述词库相似度排名最高的第四结果和所述句库相似度排名最高的第五结果;
分别设置所述第三结果、所述第四结果和所述第五结果的权重值,所述权重值与所述查询语句对应的场景化参数为正相关;
例如,针对同一查询语句,从字库查询到的结果A、B和C,其中A的结果的相似度大于B的结果相似度,B的结果相似度大于C的结果相似度;而词库的结果C、A和B,其中相似度由高到低分别是C,A,B;句库的结果C,B和A,相似度由高到低分别是C,B和A。则本发明实施例中,第三结果是A,第四结果是C,第五结果是C,此时,需要设置其权重分别是0.2;0.3;0.5,则第二查询结果应该是C而不是A,其是C的概率更高,权重更大。
在本发明实施例中,场景化参数用于表示当前查询语句所处的场景或语态,例如当前场景是在智慧城市场景下,所需要查询的是公共交通的拥挤程度,则涉及到交通类的查询结果其权重应该调整为更高,非交通磊的查询结果应该调整为更低,因此,场景化参数会是一个权重调整很重要的依据,对于本发明实施例而言,场景化参数可设定几种典型的场景并设置不同的参数值,例如01表示智慧城市,02表示地图导航,03表示语音输入等,不同的场景化参数可由人为设定或基于语义上下文进行智能判定,例如自然语言处理过程当中可抓取当前语义对应的场景,例如智慧城市会和“建筑”“能源”“交通”等几个高频词强相关,若语义上下文出现该几个高频词,则场景化参数设置为01。
将所述第三结果、所述第四结果和所述第五结果与对应的权重值进行加权操作;
根据所述加权操作后的结果,确定第二查询结果。
此外,本发明实施例还可以使用朴素贝叶斯决策理论将所述多个第一查询结果进行融合,并确定所述第二查询结果。
此外,本发明实施例还可以采用优化改良后的贪心算法进行多个第一查询结果的融合,具体地,根据如下公式将所述多个第一查询结果进行融合:
F=[Hc*f(x,y,z)]2/([λ1*P1(x,y)+λ2*P2(x,z)+λ3*P3(y,z)]*∫(A0*G(x,y)+A1*G(x,z)+A2*G(y,z))d(x,y,z))
其中,F为第二查询结果,x,y,z分别为字库,词库和句库的查询结果,P1(x,y)为条件为y下,结果为x的先验概率,P2(x,z)为条件为z下,结果为x的先验概率,P3(y,z)为条件为z下,结果为y的先验概率,λ123为预设定权重,G(x,y)为x,y的最大似然函数,G(x,z)为x,z的最大似然函数,G(y,z)为y,z的最大似然函数。A0,A1,A2为校正因子。
反馈单元35,用于向所述查询终端反馈与所述信息查询请求相对应的第二查询结果,其中,所述第二查询结果为所述多个第一查询结果中,与所述查询语句的匹配值最高的结果。
本发明实施例的方法及系统具有下列优点:
本发明实施例中,zookeeper分别获取字库、词库和句库的查询结果,并将三者的查询结果进行融合操作,从而获取与查询请求最为匹配的第二查询结果,解决了现有技术中数据查询相似度和匹配度较低的问题,提升了大数据场景下数据查询的成功率。
本发明实施例还提供一种系统,包括存储器和处理器,所述存储器上存储有计算机可执行指令,所述处理器运行所述存储器上的计算机可执行指令时实现上述的方法。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机可执行指令,该计算机可执行指令用于执行上述实施例中的方法。
图5为一个实施例中系统的硬件组成示意图。可以理解的是,图5仅仅示出了系统的简化设计。在实际应用中,系统还可以分别包含必要的其他元件,包含但不限于任意数量的输入/输出系统、处理器、控制器、存储器等,而所有可以实现本申请实施例的大数据管理方法的系统都在本申请的保护范围之内。
存储器包括但不限于是随机存储记忆体(random access memory,RAM)、只读存储器(read至only memory,ROM)、可擦除可编程只读存储器(erasable programmable readonly memory,EPROM)、或便携式只读存储器(compact disc read至only memory,CD至ROM),该存储器用于相关指令及数据。
输入系统用于输入数据和/或信号,以及输出系统用于输出数据和/或信号。输出系统和输入系统可以是独立的器件,也可以是一个整体的器件。
处理器可以包括是一个或多个处理器,例如包括一个或多个中央处理器(centralprocessing unit,CPU),在处理器是一个CPU的情况下,该CPU可以是单核CPU,也可以是多核CPU。处理器还可以包括一个或多个专用处理器,专用处理器可以包括GPU、FPGA等,用于进行加速处理。
存储器用于存储网络设备的程序代码和数据。
处理器用于调用该存储器中的程序代码和数据,执行上述方法实施例中的步骤。具体可参见方法实施例中的描述,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统和方法,可以通过其它的方式实现。例如,该单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。所显示或讨论的相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,系统或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时,全部或部分地产生按照本申请实施例的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程系统。该计算机指令可以存储在计算机可读存储介质中,或者通过该计算机可读存储介质进行传输。该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是只读存储器(read至onlymemory,ROM),或随机存储存储器(random access memory,RAM),或磁性介质,例如,软盘、硬盘、磁带、磁碟、或光介质,例如,数字通用光盘(digital versatile disc,DVD)、或者半导体介质,例如,固态硬盘(solid state disk,SSD)等。
以上仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种基于大数据的数据查询方法,应用于Hadoop云平台,其特征在于,包括:
查询终端向文件节点发起信息查询请求,所述信息查询请求中包括查询语句;
文件节点将所述信息查询请求透发至zookeeper,以使所述zookeeper将所述查询语句进行拆分,并分别将拆分后的字、词和句在数据库中进行查询,所述数据库包括字库、词库和句库;
所述zookeeper分别反馈所述字库、词库和句库的第一查询结果,并将所述多个第一查询结果进行融合,确定第二查询结果;
所述zookeeper向所述查询终端反馈与所述信息查询请求相对应的第二查询结果,其中,所述第二查询结果为所述多个第一查询结果中,与所述查询语句的匹配值最高的结果。
2.根据权利要求1所述的方法,其特征在于,所述将所述多个第一查询结果进行融合,确定第二查询结果,包括:
分别获取所述字库、词库和句库的第一查询结果,所述第一查询结果包括多个查询结果的相似度排名,选择所述字库相似度排名最高的第三结果、所述词库相似度排名最高的第四结果和所述句库相似度排名最高的第五结果;
分别设置所述第三结果、所述第四结果和所述第五结果的权重值,所述权重值与所述查询语句对应的场景化参数为正相关;
将所述第三结果、所述第四结果和所述第五结果与对应的权重值进行加权操作;
根据所述加权操作后的结果,确定第二查询结果。
3.根据权利要求1所述的方法,其特征在于,所述将所述多个第一查询结果进行融合,确定第二查询结果,包括:
使用朴素贝叶斯决策理论将所述多个第一查询结果进行融合,并确定所述第二查询结果。
4.根据权利要求1所述的方法,其特征在于,所述将所述多个第一查询结果进行融合,确定第二查询结果,包括:
根据如下公式将所述多个第一查询结果进行融合:
F=[Hc*f(x,y,z)]2/([λ1*P1(x,y)+λ2*P2(x,z)+λ3*P3(y,z)]*∫(A0*G(x,y)+A1*G(x,z)+A2*G(y,z))d(x,y,z))
其中,F为第二查询结果,x,y,z分别为字库,词库和句库的查询结果,P1(x,y)为条件为y下,结果为x的先验概率,P2(x,z)为条件为z下,结果为x的先验概率,P3(y,z)为条件为z下,结果为y的先验概率,λ123为预设定权重,G(x,y)为x,y的最大似然函数,G(x,z)为x,z的最大似然函数,G(y,z)为y,z的最大似然函数。A0,A1,A2为校正因子。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述方法还包括:
通过Jaccard相似度或余弦相似度来计算所述拆分后的字的相似度,以确定所述字库中查询到的第一字库结果。
6.根据权利要求1-4任一项所述的方法,其特征在于,所述方法还包括:
通过One-hot向量来计算所述拆分后的词的相似度,以确定所述词库中查询到的第一词库结果。
7.根据权利要求1-4任一项所述的方法,其特征在于,所述方法还包括:
通过WMD建模或WRD建模来计算所述拆分后的句的相似度,以确定所述句库中查询到的第一句库结果。
8.根据权利要求1所述的方法,其特征在于,所述zookeeper分别反馈所述字库、词库和句库的第一查询结果,包括:
所述zookeeper反馈所述字库的第一字库查询结果,所述第一字库查询结果包含多个查询结果,并按照相似度由大到小进行排序,并以表格的形式反馈;
所述zookeeper反馈所述词库的第一词库查询结果,所述第一词库查询结果包含多个查询结果,并按照相似度由大到小进行排序,并以表格的形式反馈;
所述zookeeper反馈所述字库的第一句库查询结果,所述第一句库查询结果包含多个查询结果,并按照相似度由大到小进行排序,并以表格的形式反馈。
9.一种基于大数据的数据查询系统,其特征在于,所述系统包括:
接收单元,用于接收文件节点透发的信息查询请求,所述信息查询请求由查询终端向文件节点发起,且所述信息查询请求中包括查询语句;
拆分单元,用于将所述查询语句进行拆分;
查询单元,用于分别将拆分后的字、词和句在数据库中进行查询,所述数据库包括字库、词库和句库;
融合单元,用于分别反馈所述字库、词库和句库的第一查询结果,并将所述多个第一查询结果进行融合,确定第二查询结果;
反馈单元,用于向所述查询终端反馈与所述信息查询请求相对应的第二查询结果,其中,所述第二查询结果为所述多个第一查询结果中,与所述查询语句的匹配值最高的结果。
10.一种基于大数据的数据查询系统,其特征在于,包括存储器和处理器,所述存储器上存储有计算机可执行指令,所述处理器运行所述存储器上的计算机可执行指令时实现权利要求1至8任一项所述的方法。
CN202210006902.0A 2022-01-05 2022-01-05 一种基于大数据的数据查询方法及系统 Active CN114461661B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210006902.0A CN114461661B (zh) 2022-01-05 2022-01-05 一种基于大数据的数据查询方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210006902.0A CN114461661B (zh) 2022-01-05 2022-01-05 一种基于大数据的数据查询方法及系统

Publications (2)

Publication Number Publication Date
CN114461661A true CN114461661A (zh) 2022-05-10
CN114461661B CN114461661B (zh) 2023-04-11

Family

ID=81407264

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210006902.0A Active CN114461661B (zh) 2022-01-05 2022-01-05 一种基于大数据的数据查询方法及系统

Country Status (1)

Country Link
CN (1) CN114461661B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020069047A1 (en) * 2000-12-05 2002-06-06 Pinky Ma Computer-aided language learning method and system
CN101246492A (zh) * 2008-02-26 2008-08-20 华中科技大学 基于自然语言的全文检索系统
CN108920543A (zh) * 2018-06-13 2018-11-30 珠海格力电器股份有限公司 查询和交互的方法及装置、计算机装置、存储介质
CN109635275A (zh) * 2018-11-06 2019-04-16 交控科技股份有限公司 文献内容检索与识别方法及装置
WO2020241073A1 (ja) * 2019-05-24 2020-12-03 日本電信電話株式会社 音響信号データベース生成装置、音響信号検索装置
CN113434653A (zh) * 2021-06-30 2021-09-24 平安科技(深圳)有限公司 处理查询语句的方法、装置、设备及存储介质
CN113568923A (zh) * 2021-01-22 2021-10-29 腾讯科技(深圳)有限公司 数据库中数据的查询方法和装置、存储介质及电子设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020069047A1 (en) * 2000-12-05 2002-06-06 Pinky Ma Computer-aided language learning method and system
CN101246492A (zh) * 2008-02-26 2008-08-20 华中科技大学 基于自然语言的全文检索系统
CN108920543A (zh) * 2018-06-13 2018-11-30 珠海格力电器股份有限公司 查询和交互的方法及装置、计算机装置、存储介质
CN109635275A (zh) * 2018-11-06 2019-04-16 交控科技股份有限公司 文献内容检索与识别方法及装置
WO2020241073A1 (ja) * 2019-05-24 2020-12-03 日本電信電話株式会社 音響信号データベース生成装置、音響信号検索装置
CN113568923A (zh) * 2021-01-22 2021-10-29 腾讯科技(深圳)有限公司 数据库中数据的查询方法和装置、存储介质及电子设备
CN113434653A (zh) * 2021-06-30 2021-09-24 平安科技(深圳)有限公司 处理查询语句的方法、装置、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李春生等: "基于语句相似度计算的智能答疑系统机理研究", 《计算机技术与发展》 *
杨潇等: "主题模型LDA的多文档自动文摘", 《智能系统学报》 *

Also Published As

Publication number Publication date
CN114461661B (zh) 2023-04-11

Similar Documents

Publication Publication Date Title
US11227118B2 (en) Methods, devices, and systems for constructing intelligent knowledge base
CN109086303B (zh) 基于机器阅读理解的智能对话方法、装置、终端
CN114265979B (zh) 确定融合参数的方法、信息推荐方法和模型训练方法
CN105354251B (zh) 电力系统中基于Hadoop的电力云数据管理索引方法
CN110909182A (zh) 多媒体资源搜索方法、装置、计算机设备及存储介质
CN109522410B (zh) 文档聚类方法及平台、服务器和计算机可读介质
US11977567B2 (en) Method of retrieving query, electronic device and medium
CN113901214B (zh) 表格信息的提取方法、装置、电子设备及存储介质
CN110659436A (zh) 网络舆情监控方法、装置和设备
CN115796310A (zh) 信息推荐及模型训练方法、装置、设备和存储介质
CN113704495A (zh) 实体对齐方法、装置、电子设备和存储介质
CN112686035B (zh) 一种未登录词进行向量化的方法和装置
CN116975267A (zh) 一种信息处理方法、装置及计算机设备、介质、产品
Wang et al. QoS prediction of web services based on reputation-aware network embedding
US11544277B2 (en) Query term expansion and result selection
CN108846142A (zh) 一种文本聚类方法、装置、设备及可读存储介质
CN112925912A (zh) 文本处理方法、同义文本召回方法及装置
CN114461661B (zh) 一种基于大数据的数据查询方法及系统
WO2006106740A1 (ja) 情報処理装置および方法、並びにプログラム記録媒体
CN112765329B (zh) 一种社交网络关键节点发现方法及系统
CN111562990B (zh) 一种基于消息的轻量级无服务器计算方法
CN112926295A (zh) 模型推荐方法和装置
US20210256072A1 (en) Low latency multi-constraint ranking of content items
Tran et al. An Affinity Propagation Approach for Entity Clustering with Spark
CN117992581A (zh) 一种文本处理方法、装置、设备及存储介质、程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20221024

Address after: 561000 Room 17011, Unit 1, Building C, Jianbo International, Huaxi Street, Xixiu District, Anshun, Guizhou

Applicant after: Guizhou Chuangling Bianjing Technology Co.,Ltd.

Address before: 550081 No. 1, 14th floor, Yusai Jinfeng high tech wealth center, No. 109 Binhu Road, national high tech Industrial Development Zone, Guiyang City, Guizhou Province

Applicant before: Guizhou Youjing Network Technology Co.,Ltd.

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230320

Address after: 710000 Room 302B, Tower C, City Gate, Tangyan South Road, High-tech Zone, Xi'an City, Shaanxi Province

Applicant after: Three people media group Limited by Share Ltd.

Address before: 561000 Room 17011, Unit 1, Building C, Jianbo International, Huaxi Street, Xixiu District, Anshun, Guizhou

Applicant before: Guizhou Chuangling Bianjing Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240417

Address after: 100080, 12th Floor, Building C, Zhizhen Building, No. 7 Zhichun Road, Haidian District, Beijing

Patentee after: Beijing orange storm Digital Technology Co.,Ltd.

Country or region after: China

Address before: 710000 Room 302B, Tower C, City Gate, Tangyan South Road, High-tech Zone, Xi'an City, Shaanxi Province

Patentee before: Three people media group Limited by Share Ltd.

Country or region before: China