CN107729336A - 数据处理方法、设备及系统 - Google Patents

数据处理方法、设备及系统 Download PDF

Info

Publication number
CN107729336A
CN107729336A CN201610657498.8A CN201610657498A CN107729336A CN 107729336 A CN107729336 A CN 107729336A CN 201610657498 A CN201610657498 A CN 201610657498A CN 107729336 A CN107729336 A CN 107729336A
Authority
CN
China
Prior art keywords
data
keyword
search engine
index
time granularity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610657498.8A
Other languages
English (en)
Other versions
CN107729336B (zh
Inventor
谭纯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Tmall Technology Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201610657498.8A priority Critical patent/CN107729336B/zh
Priority to TW106119497A priority patent/TW201805839A/zh
Priority to PCT/CN2017/094790 priority patent/WO2018028443A1/zh
Publication of CN107729336A publication Critical patent/CN107729336A/zh
Application granted granted Critical
Publication of CN107729336B publication Critical patent/CN107729336B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Abstract

本公开提供一种数据处理方法、设备及系统,该方法包括:查询终端接收用户的查询请求,查询请求包括检索关键词;获取检索关键词中的维度关键词、指标关键词和时间粒度关键词,以及与维度关键词匹配的维度特征对应的第一数据、与指标关键词匹配的指标特征对应的第二数据、以及与时间粒度关键词匹配的时间粒度特征对应的第三数据;查询终端根据第一数据、第二数据、第三数据,确定反馈给用户的目标数据。本实施例中,用户无需遍历每个数据出口进行数据查找,仅需输入一次检索关键词,搜索引擎数据库即可查找出所有数据出口中与该检索关键词相关的数据,从而提高了查找数据的效率。

Description

数据处理方法、设备及系统
技术领域
本公开涉及互联网技术,尤其涉及一种数据处理方法、设备及系统。
背景技术
随着互联网的飞速发展,数据呈爆炸性增长。目前,所有具备大数据资产的公司,其存储数据的数据量均较大。而上述公司一般通过四种数据出口,该数据出口是指存储有数据的存储空间或能够生成数据的软件应用,且该存储空间或软件应用能够为数据库提供数据来源,将其存储的海量数据呈现给公司的所有员工,该四种数据出口分别为数据应用程序出口(比如阿里巴巴公司的淘宝生意经和百度公司的百度指数等)、报表出口(比如公司的工资报表)、知识库平台出口(比如百度公司的百度百科)和集群物理表出口(比如公司用户的个人信息)。
对于上述公司的非技术员工,一般需依次查找上述四种数据出口,才能获得所需的数据。比如公司的一非技术员工,有获取公司“某天家装产品的成交金额”的需求,那么该非技术人员,需依次查找公司的数据应用程序出口、报表出口、知识库平台出口以及集群物理表出口,直至查找到公司的“某天家装产品的成交金额”为止。
由于在实际应用中,上述每种数据出口所呈现数据的数据量均较大,那么非技术员工通过依次查找每种数据出口进行数据的查找,势必会造成查询数据的效率低下。
发明内容
本公开提供一种数据处理方法、设备及系统,以提高查找数据的效率。
一个方面,本公开提供一种数据处理系统,包括:查询终端和搜索引擎数据库;
所述查询终端,用于接收用户的查询请求,所述查询请求包括检索关键词;所述查询终端获取所述检索关键词中的维度关键词、指标关键词和时间粒度关键词,并将所述维度关键词、所述指标关键词、以及所述时间粒度关键词发送给所述搜索引擎数据库;
所述搜索引擎数据库预先存储有数据出口中的数据,以及所述数据的特征信息,所述特征信息包括下述至少一种:维度特征、指标特征和时间粒度特征;
所述搜索引擎数据库,用于获取与所述维度关键词匹配的维度特征对应的第一数据、与所述指标关键词匹配的指标特征对应的第二数据、以及与所述时间粒度关键词匹配的时间粒度特征对应的第三数据,并将所述第一数据、所述第二数据和所述第三数据发送给所述查询终端;
所述查询终端,还用于根据所述第一数据、所述第二数据和所述第三数据,确定反馈给所述用户的目标数据,并将所述目标数据显示给所述用户。
另一方面,本公开提供一种数据处理方法,包括:
查询终端接收用户的查询请求,所述查询请求包括检索关键词;
所述查询终端获取所述检索关键词中的维度关键词、指标关键词和时间粒度关键词;
所述查询终端将所述维度关键词、所述指标关键词、以及所述时间粒度关键词发送给搜索引擎数据库,以使所述搜索引擎数据库获取与所述维度关键词匹配的维度特征对应的第一数据、与所述指标关键词匹配的指标特征对应的第二数据、以及与所述时间粒度关键词匹配的时间粒度特征对应的第三数据,所述搜索引擎数据库预先存储有数据出口中的数据,以及所述数据的特征信息,所述特征信息包括下述至少一种:维度特征、指标特征和时间粒度特征;
所述查询终端接收所述搜索引擎数据库发送的所述第一数据、所述第二数据和所述第三数据;
所述查询终端根据所述第一数据、所述第二数据和所述第三数据,确定反馈给所述用户的目标数据。
另一方面,本公开提供一种数据处理方法,包括:
查询终端接收用户的查询请求,所述查询请求包括检索关键词;
所述查询终端至少获取所述检索关键词中的两类关键词;
所述查询终端将至少两类关键词发送给搜索引擎数据库,以使所述搜索引擎数据库获取与所述至少两类关键词分别对应的源数据;
所述查询终端接收所述搜索引擎数据库发送的所述源数据;
所述查询终端根据所述源数据,确定反馈给所述用户的目标数据。
另一方面,本公开提供一种数据处理方法,包括:
搜索引擎数据库接收查询终端发送的维度关键词、指标关键词、以及时间粒度关键词,所述维度关键词、所述指标关键词、以及所述时间粒度关键词是所述查询终端接收用户的查询请求,并从所述查询请求包括的检索关键词中获取的;
所述搜索引擎数据库预先存储有数据出口中的数据,以及所述数据的特征信息,所述特征信息包括下述至少一种:维度特征、指标特征和时间粒度特征;
所述搜索引擎数据获取与所述维度关键词匹配的维度特征对应的第一数据、与所述指标关键词匹配的指标特征对应的第二数据、以及与所述时间粒度关键词匹配的时间粒度特征对应的第三数据;
所述搜索引擎数据将所述第一数据、所述第二数据和所述第三数据发送给所述查询终端,以使所述查询终端根据所述第一数据、所述第二数据和所述第三数据,确定反馈给所述用户的目标数据。
还一方面,本公开提供一种数据处理方法,包括:
搜索引擎数据库获取数据应用程序中的第一数据,以及所述第一数据的维度特征、指标特征、时间粒度特征;
所述搜索引擎数据库分别获取报表、知识库平台、集群物理表中的第二数据,以及所述第二数据的维度特征;
所述搜索引擎数据库存储所述第一数据,以及所述第一数据的维度特征、指标特征、时间粒度特征;
所述搜索引擎数据库存储所述第二数据,以及所述第二数据的维度特征。
另一方面,本公开提供一种查询终端,包括:接收单元、处理单元、以及发送单元;
所述接收单元,用于接收用户的查询请求,所述查询请求包括检索关键词;
所述处理单元,耦合到所述接收单元,用于获取所述检索关键词中的维度关键词、指标关键词和时间粒度关键词;
所述发送单元,耦合到所述处理单元,用于将所述维度关键词、所述指标关键词、以及所述时间粒度关键词发送给搜索引擎数据库,以使所述搜索引擎数据库获取与所述维度关键词匹配的维度特征对应的第一数据、与所述指标关键词匹配的指标特征对应的第二数据、以及与所述时间粒度关键词匹配的时间粒度特征对应的第三数据,所述搜索引擎数据库预先存储有数据出口中的数据,以及所述数据的特征信息,所述数据出口包括下述至少一种:数据应用程序、报表、知识库平台以及集群物理表,所述特征信息包括下述至少一种:维度特征、指标特征和时间粒度特征;
所述接收单元还用于接收所述搜索引擎数据库发送的所述第一数据、所述第二数据和所述第三数据;
所述处理单元还用于根据所述第一数据、所述第二数据和所述第三数据,确定反馈给所述用户的目标数据。
再一方面,本公开提供一种搜索引擎数据库,包括:接收器、存储器、处理器、以及发送器;
所述接收器,用于接收查询终端发送的维度关键词、指标关键词、以及时间粒度关键词,所述维度关键词、所述指标关键词、以及所述时间粒度关键词是所述查询终端接收用户的查询请求,并从所述查询请求包括的检索关键词中获取的;
所述存储器,用于存储数据出口中的数据,以及所述数据的特征信息,所述数据出口包括下述至少一种:数据应用程序、报表、知识库平台以及集群物理表,所述特征信息包括下述至少一种:维度特征、指标特征和时间粒度特征;
所述处理器,耦合到所述接收器和所述存储器,用于获取与所述维度关键词匹配的维度特征对应的第一数据、与所述指标关键词匹配的指标特征对应的第二数据、以及与所述时间粒度关键词匹配的时间粒度特征对应的第三数据;
所述发送器,耦合到所述处理器,用于将所述第一数据、所述第二数据和所述第三数据发送给所述查询终端,以使所述查询终端根据所述第一数据、所述第二数据和所述第三数据,确定反馈给所述用户的目标数据。
在本公开中,通过预先采集数据应用程序、报表、知识库平台以及集群物理表中的数据至搜索引擎数据库内,且为所采集的每一条数据添加维度特征、指标特征和时间粒度特征中的至少一个;当搜索引擎接收到用户输入的检索关键词时,首先对检索关键词进行拆分,获得维度关键词、指标关键词以及时间粒度关键词;然后,在预先建立的搜索引擎数据库中,分别查找与维度关键词、指标关键词以及时间粒度关键词相匹配的数据,并将匹配的数据显示给用户;用户无需遍历每个数据出口进行数据查找,仅需输入一次检索关键词,搜索引擎数据库即可查找出所有数据出口中与该检索关键词相关的数据,从而提高了查找数据的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本公开的一种可选的应用场景的示意图;
图2为本公开实施例提供的数据处理系统的结构示意图;
图3为本公开实施例一提供的数据处理方法的流程图;
图4为本公开实施例二提供的数据处理方法的流程图;
图5为本公开实施例三提供的数据处理方法的流程图;
图6为本公开实施例四提供的数据处理方法的流程图;
图7为本公开实施例五提供的数据处理方法的流程图;
图8为本公开实施例六提供的数据处理方法的流程图;
图9为本公开实施例七提供的数据处理方法的流程图;
图10为本公开实施例八提供的数据处理方法的流程图;
图11为本公开实施例九提供的数据处理方法的流程图;
图12为本公开实施例一提供的查询终端的结构示意图;
图13为本公开实施例二提供的查询终端的结构示意图;
图14为本公开实施例三提供的查询终端的结构示意图;
图15为本公开实施例提供的搜索引擎数据库的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
现有技术中,当公司的一非技术员工,需要获取该公司“某天家装产品的成交金额”时,需要依次查找公司的数据应用程序出口、报表出口、知识库平台出口以及集群物理表出口,直至查找到公司的“某天家装产品的成交金额”为止,如此将导致数据查找效率的下降。针对这个问题,本案提出了一种数据处理方法,现将结合图1介绍本案提供的数据处理方法的具体过程。
如图1所示,用户10通过查询终端11查询数据,用户10可以是公司里的非技术人员,还可以是消费者,查询终端11可以是用户10所属的公司内的终端设备,还可以是用户10的个人电脑、笔记本电脑等设备。查询终端11安装有搜索引擎,用户10可通过查询终端11的键盘在搜索引擎的搜索框中输入搜索关键词,例如,搜索关键词是“最近一天家装类目成交金额”,语义识别模块12将该搜索关键词拆分为大数据领域的维度关键词、指标关键词和时间粒度关键词,具体地,维度关键词是“家装类目”、指标关键词是“成交金额”、时间粒度关键词是“最近一天”。语义识别模块12将该搜索关键词拆分为维度关键词、指标关键词和时间粒度关键词的方法将在下述实施例中详细描述。
语义识别模块12将拆分后的维度关键词“家装类目”、指标关键词“成交金额”、以及时间粒度关键词“最近一天”发送给搜索引擎数据库13,搜索引擎数据库13的数据来源包括数据应用程序15、报表16、知识库平台17和集群物理表18,其中,数据应用程序15具体可以是数据产品,比如阿里巴巴公司的淘宝生意经和百度公司的百度指数等,数据产品是web页面形式的web产品,数据产品与普通的web产品最大区别在于:数据产品承载有大量数据,且需要频繁与后台数据源交互,该后台数据源具体是存储有该数据应用程序15可操作的数据的器件。在本实施例中,数据应用程序15、报表16中的数据可通过语法解析器19存储在搜索引擎数据库13,以数据应用程序15为例,由于数据应用程序15是通过软件开发工具包(Software Development Kit,简称SDK)开发的,所以可通过SDK将数据应用程序15中的数据采集到语法解析器19中。语法解析器19可解析出一段结构化查询语言(StructuredQuery Language,简称SQL)的维度特征、指标特征、时间粒度特征和读取的表名,例如一段SQL具体如下:
SELECT stat_date AS日期
,user_type AS用户类型
,se_lpv_pc_1d_001AS Pv
,se_uv_pc_1d_001AS Uv
FROM tbbi.ads_tb_log_1d
WHERE ds='20151026'
语法解析器19可解析出该段SQL的维度特征是“用户类型”,指标特征是“Pv、Uv”,时间粒度特征是“最近一天”,读取的表名是“tbbi.ads_tb_log_1d”。通过前述方法语法解析器19可解析出数据应用程序15和报表16中每个数据的维度特征、指标特征和时间粒度特征。
语法解析器19将解析后的数据发送给搜索引擎数据库13,搜索引擎数据库13中不仅存储有数据本身,同时还存储有数据的维度特征、指标特征和时间粒度特征。另外,搜索引擎数据库13还可以存储有知识库平台17和集群物理表18中的数据,存储过程具体为:对知识库平台17和集群物理表18中的每个数据进行拆分,提取出拆分后的每个数据的维度特征,并将知识库平台17和集群物理表18中的每个数据,以及每个数据的维度特征存储在搜索引擎数据库13。如此,搜索引擎数据库13中存储的每个数据至少具有维度特征。
当搜索引擎数据库13接收到语义识别模块12发送的维度关键词“家装类目”、指标关键词“成交金额”、以及时间粒度关键词“最近一天”时,分别查找出与维度关键词“家装类目”匹配的数据、与指标关键词“成交金额”匹配的数据、以及与时间粒度关键词“最近一天”匹配的数据,搜索引擎数据库13将查找出的匹配数据发送给排序器14,若搜索引擎数据库13查找出的匹配数据只有一个,则排序器14将该匹配数据发送给查询终端11,查询终端11显示该匹配数据;若搜索引擎数据库13查找出的匹配数据有多个,则排序器14按照预设算法对该多个匹配数据进行排序,将排序后的多个匹配数据发送给查询终端11,查询终端11按照排序的先后顺序显示该多个匹配数据。在本实施例中,排序器14对该多个匹配数据进行排序的预设算法包括如下至少一种:Pagerank算法、CUS-距离算法、文档主题生成模型(Latent Dirichlet Allocation,简称LDA)算法、宽度优先搜索(Breadth First Search,简称BFS)算法等。
本实施例中,通过预先采集数据应用程序、报表、知识库平台以及集群物理表中的数据至搜索引擎数据库内,且为所采集的每一条数据添加维度特征、指标特征和时间粒度特征中的至少一个;当搜索引擎接收到用户输入的检索关键词时,首先对检索关键词进行拆分,获得维度关键词、指标关键词以及时间粒度关键词;然后,在预先建立的搜索引擎数据库中,分别查找与维度关键词、指标关键词以及时间粒度关键词相匹配的数据,并将匹配的数据显示给用户;用户无需遍历每个数据出口进行数据查找,仅需输入一次检索关键词,搜索引擎数据库即可查找出所有数据出口中与该检索关键词相关的数据,从而提高了查找数据的效率。
图2为本公开实施例提供的数据处理系统的结构示意图,如图2所示,数据处理系统包括查询终端1和搜索引擎数据库2,其中,查询终端1用于接收用户的查询请求,所述查询请求包括检索关键词;所述查询终端获取所述检索关键词中的维度关键词、指标关键词和时间粒度关键词,并将所述维度关键词、所述指标关键词、以及所述时间粒度关键词发送给所述搜索引擎数据库。
如图1所示,查询终端11接收用户10的查询请求,查询请求的方式可以有多种,例如,用户10在查询终端11的搜索引擎上输入文字、语音,该文字或语音包括用户10预检索的关键词。如图1所示,语义识别模块12和排序器14可以是属于查询终端11中的模块,语义识别模块12将该搜索关键词拆分为大数据领域的维度关键词、指标关键词和时间粒度关键词,具体地,维度关键词是“家装类目”、指标关键词是“成交金额”、时间粒度关键词是“最近一天”。语义识别模块12还将维度关键词“家装类目”、指标关键词“成交金额”、时间粒度关键词“最近一天”发送给搜索引擎数据库2。
搜索引擎数据库2预先存储有数据出口中的数据,以及所述数据的特征信息,所述特征信息包括下述至少一种:维度特征、指标特征和时间粒度特征。
可选的,在本实施例中,数据出口包括:数据应用程序、报表、知识库平台以及集群物理表,搜索引擎数据库13存储有数据应用程序、报表、知识库平台以及集群物理表中的数据,以及每个数据的特征信息,数据应用程序中的每个数据具有维度特征、指标特征和时间粒度特征,报表、知识库平台以及集群物理表中的数据均具有维度特征。
搜索引擎数据库2用于获取与所述维度关键词匹配的维度特征对应的第一数据、与所述指标关键词匹配的指标特征对应的第二数据、以及与所述时间粒度关键词匹配的时间粒度特征对应的第三数据,并将所述第一数据、所述第二数据和所述第三数据发送给所述查询终端。
当搜索引擎数据库13接收到语义识别模块12发送的维度关键词“家装类目”、指标关键词“成交金额”、以及时间粒度关键词“最近一天”时,可分别查找出与维度关键词“家装类目”匹配的数据、与指标关键词“成交金额”匹配的数据、以及与时间粒度关键词“最近一天”匹配的数据。搜索引擎数据库13可将语义识别模块12识别出的维度关键词“家装类目”与其存储的数据的维度特征进行匹配,获得与所述维度关键词匹配的维度特征对应的第一数据,该第一数据可以是多个数据,并且该第一数据可以是源自于数据应用程序15、报表16、知识库平台17或集群物理表18的数据。
另外,搜索引擎数据库13还可将语义识别模块12识别出的指标关键词“成交金额”与其存储的数据的指标特征进行匹配,获得与所述指标关键词匹配的指标特征对应的第二数据,该第二数据可以是源自于数据应用程序15的多个数据。
此外,搜索引擎数据库13还可将语义识别模块12识别出的时间粒度关键词“最近一天”与其存储的数据的时间粒度特征进行匹配,获得与所述时间粒度关键词匹配的时间粒度特征对应的第三数据,该第三数据可以是源自于数据应用程序15的多个数据。
搜索引擎数据库13其获得的所述第一数据、所述第二数据和所述第三数据发送给查询终端11,具体可以发送给查询终端11中的排序器14。
查询终端1还用于根据所述第一数据、所述第二数据和所述第三数据,确定反馈给所述用户的目标数据,并将所述目标数据显示给所述用户。
若搜索引擎数据库13查找出的匹配数据只有一个,即所述第一数据、所述第二数据和所述第三数据为同一数据,则排序器14将该匹配数据发送给查询终端11的显示器,查询终端11的显示器显示该匹配数据。
若搜索引擎数据库13查找出的匹配数据有多个,即所述第一数据、所述第二数据和所述第三数据不为同一数据,则排序器14按照预设算法对该多个匹配数据进行排序,将排序后的多个匹配数据发送给查询终端11的显示器,查询终端11的显示器按照排序的先后顺序显示该多个匹配数据。
本实施例中,通过预先采集数据应用程序、报表、知识库平台以及集群物理表中的数据至搜索引擎数据库内,且为所采集的每一条数据添加维度特征、指标特征和时间粒度特征中的至少一个;当搜索引擎接收到用户输入的检索关键词时,首先对检索关键词进行拆分,获得维度关键词、指标关键词以及时间粒度关键词;然后,在预先建立的搜索引擎数据库中,分别查找与维度关键词、指标关键词以及时间粒度关键词相匹配的数据,并将匹配的数据显示给用户;用户无需遍历每个数据出口进行数据查找,仅需输入一次检索关键词,搜索引擎数据库即可查找出所有数据出口中与该检索关键词相关的数据,从而提高了查找数据的效率。
图3为本公开实施例一提供的数据处理方法的流程图,如图3所示,该方法包括如下步骤:
步骤S201、查询终端接收用户的查询请求,所述查询请求包括检索关键词。
如图1所示,查询终端11接收用户10的查询请求,查询请求的方式可以有多种,例如,用户10在查询终端11的搜索引擎上输入文字、语音,该文字或语音包括用户10预检索的关键词;或者,查询终端11的搜索引擎上设置有下拉列表,该列表中预先存储有关键词,用户可以通过选择列表中的关键词并点击的方式输入预检索的关键词;再或者,用户10在查询终端11上预览文字信息,用户10从其预览的文字信息中选择关键词,通过拖动、滑动、点击功能键的方式对该关键词进行检索。
用户10通过查询终端11查询数据,用户10可以是公司里的非技术人员,还可以是消费者,查询终端11可以是用户10所属的公司内的终端设备,还可以是用户10的个人电脑、笔记本电脑等设备。查询终端11安装有搜索引擎,用户10可通过查询终端11的键盘在搜索引擎的搜索框中输入搜索关键词,例如,搜索关键词是“最近一天家装类目成交金额”。
步骤S202、所述查询终端获取所述检索关键词中的维度关键词、指标关键词和时间粒度关键词。
如图1所示,语义识别模块12和排序器14可以是属于查询终端11中的模块,也可以是属于搜索引擎数据库13中的模块,查询终端11和搜索引擎数据库13可以直接连接,也可以通过其他设备间接连接。在本实施例中,以语义识别模块12和排序器14属于查询终端11、查询终端11和搜索引擎数据库13直接连接为例。
语义识别模块12将该搜索关键词拆分为大数据领域的维度关键词、指标关键词和时间粒度关键词,具体地,维度关键词是“家装类目”、指标关键词是“成交金额”、时间粒度关键词是“最近一天”。
步骤S203、所述查询终端将所述维度关键词、所述指标关键词、以及所述时间粒度关键词发送给搜索引擎数据库,以使所述搜索引擎数据库获取与所述维度关键词匹配的维度特征对应的第一数据、与所述指标关键词匹配的指标特征对应的第二数据、以及与所述时间粒度关键词匹配的时间粒度特征对应的第三数据。
在实施例中,所述搜索引擎数据库预先存储有数据出口中的数据,以及所述数据的特征信息,所述特征信息包括下述至少一种:维度特征、指标特征和时间粒度特征。
所述查询终端将所述维度关键词、所述指标关键词、以及所述时间粒度关键词发送给搜索引擎数据库,所述搜索引擎数据库预先存储有数据出口中的数据,以及所述数据的特征信息,所述特征信息包括下述至少一种:维度特征、指标特征和时间粒度特征,所述数据出口包括下述至少一种:数据应用程序、报表、知识库平台以及集群物理表。可选的,在本实施例中,数据出口包括:数据应用程序、报表、知识库平台以及集群物理表,搜索引擎数据库13存储有数据应用程序、报表、知识库平台以及集群物理表中的数据。
如图1所示,搜索引擎数据库13的数据来源包括数据应用程序15、报表16、知识库平台17和集群物理表18,其中,数据应用程序15具体可以是数据产品,比如阿里巴巴公司的淘宝生意经和百度公司的百度指数等,数据产品是web页面形式的web产品,数据产品与普通的web产品最大区别在于:数据产品承载有大量数据,且需要频繁与后台数据源交互,该后台数据源具体是存储有该数据应用程序15可操作的数据的器件。在本实施例中,数据应用程序15中的数据可通过语法解析器19存储在搜索引擎数据库13,具体的,通过SDK将数据应用程序15中的数据采集到语法解析器19中。语法解析器19可解析出一段结构化查询语言(Structured Query Language,简称SQL)的维度特征、指标特征、时间粒度特征和读取的表名,例如一段SQL具体如下:
SELECT stat_date AS日期
,user_type AS用户类型
,se_lpv_pc_1d_001AS Pv
,se_uv_pc_1d_001AS Uv
FROM tbbi.ads_tb_log_1d
WHERE ds='20151026'
语法解析器19可解析出该段SQL的维度特征是“用户类型”,指标特征是“Pv、Uv”,时间粒度特征是“最近一天”,读取的表名是“tbbi.ads_tb_log_1d”。通过前述方法,语法解析器19可解析出数据应用程序15中每个数据的维度特征、指标特征和时间粒度特征。语法解析器19将解析后的数据发送给搜索引擎数据库13,搜索引擎数据库13中不仅存储有数据本身,同时还存储有数据的维度特征、指标特征和时间粒度特征。
另外,搜索引擎数据库13还可以存储有报表16、知识库平台17和集群物理表18中的数据,存储过程具体为:对报表16、知识库平台17和集群物理表18中的每个数据进行拆分,提取出拆分后的每个数据的维度特征,并将报表16、知识库平台17和集群物理表18中的每个数据,以及每个数据的维度特征存储在搜索引擎数据库13。如此,搜索引擎数据库13中存储的每个数据至少具有维度特征。
当搜索引擎数据库13接收到语义识别模块12发送的维度关键词“家装类目”、指标关键词“成交金额”、以及时间粒度关键词“最近一天”时,可分别查找出与维度关键词“家装类目”匹配的数据、与指标关键词“成交金额”匹配的数据、以及与时间粒度关键词“最近一天”匹配的数据。
在本实施例中,搜索引擎数据库13中存储有数据应用程序15中的数据,以及数据应用程序15中每个数据的维度特征、指标特征和时间粒度特征。另外,搜索引擎数据库13还存储有报表16、知识库平台17和集群物理表18中的数据,以及报表16、知识库平台17和集群物理表18中每个数据的维度特征。另外,搜索引擎数据库13中各数据的维度特征可能不同,可能相同;各数据的指标特征可能不同,可能相同;各数据的时间粒度特征可能不同,可能相同。
本实施例中的搜索引擎数据库13可将语义识别模块12识别出的维度关键词“家装类目”与其存储的数据的维度特征进行匹配,获得与所述维度关键词匹配的维度特征对应的第一数据,该第一数据可以是多个数据,并且该第一数据可以是源自于数据应用程序15、报表16、知识库平台17或集群物理表18的数据。
另外,搜索引擎数据库13还可将语义识别模块12识别出的指标关键词“成交金额”与其存储的数据的指标特征进行匹配,获得与所述指标关键词匹配的指标特征对应的第二数据,该第二数据可以是源自于数据应用程序15的多个数据。
此外,搜索引擎数据库13还可将语义识别模块12识别出的时间粒度关键词“最近一天”与其存储的数据的时间粒度特征进行匹配,获得与所述时间粒度关键词匹配的时间粒度特征对应的第三数据,该第三数据可以是源自于数据应用程序15的多个数据。
步骤S204、所述查询终端接收所述搜索引擎数据库发送的所述第一数据、所述第二数据和所述第三数据。
搜索引擎数据库13其获得的所述第一数据、所述第二数据和所述第三数据发送给查询终端11,具体可以发送给查询终端11中的排序器14。
步骤S205、所述查询终端根据所述第一数据、所述第二数据和所述第三数据,确定反馈给所述用户的目标数据。
若搜索引擎数据库13查找出的匹配数据只有一个,即所述第一数据、所述第二数据和所述第三数据为同一数据,则排序器14将该匹配数据发送给查询终端11的显示器,查询终端11的显示器显示该匹配数据。
若搜索引擎数据库13查找出的匹配数据有多个,即所述第一数据、所述第二数据和所述第三数据不为同一数据,则排序器14按照预设算法对该多个匹配数据进行排序,将排序后的多个匹配数据发送给查询终端11的显示器,查询终端11的显示器按照排序的先后顺序显示该多个匹配数据。
本实施例中,通过预先采集数据应用程序、报表、知识库平台以及集群物理表中的数据至搜索引擎数据库内,且为所采集的每一条数据添加维度特征、指标特征和时间粒度特征中的至少一个;当搜索引擎接收到用户输入的检索关键词时,首先对检索关键词进行拆分,获得维度关键词、指标关键词以及时间粒度关键词;然后,在预先建立的搜索引擎数据库中,分别查找与维度关键词、指标关键词以及时间粒度关键词相匹配的数据,并将匹配的数据显示给用户;用户无需遍历每个数据出口进行数据查找,仅需输入一次检索关键词,搜索引擎数据库即可查找出所有数据出口中与该检索关键词相关的数据,从而提高了查找数据的效率。
图4为本公开实施例二提供的数据处理方法的流程图,如图4所示,在图3所示实施例的基础上,所述查询终端获取所述检索关键词中的维度关键词、指标关键词和时间粒度关键词的方法可以具体包括如下步骤:
步骤S301、所述查询终端对所述检索关键词进行分词处理获得多个目标分词。
例如步骤S201所述,用户输入的搜索关键词是“最近一天家装类目成交金额”。查询终端11还可通过TF-idf算法对用户输入的检索关键词进行拆分,获得多个目标分词,多个目标分词分别为“最近一天”、“家装类目”、“成交金额”。
步骤S302、所述查询终端根据各目标分词查询预设的映射表,所述映射表包括维度分词、指标分词和时间粒度分词。
在本实施例中,查询终端11预先建立有映射表,该映射表包括维度分词、指标分词和时间粒度分词,维度分词可以是多个具有维度特征的分词,指标分词可以是多个具有指标特征的分词,时间粒度分词可以是多个具有时间粒度特征的分词。根据步骤S301拆分后的多个目标分词,查询终端11分别查询该映射表,对于每个目标分词,确定该映射表中是否存在与该目标分词匹配的分词。
步骤S303、所述查询终端将所述多个目标分词中与所述维度分词匹配的目标分词确定为所述维度关键词。
例如,上述多个目标分词中的“家装类目”与映射表中的维度分词匹配,则将“家装类目”作为检索关键词中的维度关键词。
步骤S304、所述查询终端将所述多个目标分词中与所述指标分词匹配的目标分词确定为所述指标关键词。
例如,上述多个目标分词中的“成交金额”与映射表中的指标分词匹配,则将“成交金额”作为检索关键词中的指标关键词。
步骤S305、所述查询终端将所述多个目标分词中与所述时间粒度分词匹配的目标分词确定为所述时间粒度关键词。
例如,上述多个目标分词中的“最近一天”与映射表中的时间粒度分词匹配,则将“最近一天”作为检索关键词中的时间粒度关键词。
本实施例中,通过对检索关键词进行分词处理获得多个目标分词,根据预先建立的映射表查询该多个目标分词中的维度关键词、指标关键词以及时间粒度关键词,提高了确定检索关键词中维度关键词、指标关键词以及时间粒度关键词的效率。
图5为本公开实施例三提供的数据处理方法的流程图,如图5所示,在上述任一实施例的基础上,以实施例二为基础,本实施例提供的数据处理方法的具体步骤如下:
步骤S401、查询终端接收用户的查询请求,所述查询请求包括检索关键词。
步骤S402、所述查询终端获取所述检索关键词中的维度关键词、指标关键词和时间粒度关键词。
步骤S403、所述查询终端将所述维度关键词、所述指标关键词、以及所述时间粒度关键词发送给搜索引擎数据库,以使所述搜索引擎数据库获取与所述维度关键词匹配的维度特征对应的第一数据、与所述指标关键词匹配的指标特征对应的第二数据、以及与所述时间粒度关键词匹配的时间粒度特征对应的第三数据。
步骤S404、所述查询终端接收所述搜索引擎数据库发送的所述第一数据、所述第二数据和所述第三数据。
步骤S401-步骤S404分别与步骤S201-S204一致,具体方法此处不再赘述。
步骤S405、所述查询终端确定所述第一数据、所述第二数据和所述第三数据是否为同一数据,若是,则执行步骤S406,否则,执行步骤S407。
步骤S406、所述查询终端将所述同一数据确定为反馈给所述用户的目标数据。
如图1所示,若搜索引擎数据库13查找出的匹配数据只有一个,即所述第一数据、所述第二数据和所述第三数据为同一数据,则排序器14将该匹配数据发送给查询终端11的显示器,查询终端11的显示器显示该匹配数据。
步骤S407、所述查询终端对所述第一数据、所述第二数据和所述第三数据进行排序,将排序后的数据确定为反馈给所述用户的目标数据。
若搜索引擎数据库13查找出的匹配数据有多个,即所述第一数据、所述第二数据和所述第三数据不为同一数据,则排序器14按照预设算法对该多个匹配数据进行排序,将排序后的多个匹配数据发送给查询终端11的显示器,查询终端11的显示器按照排序的先后顺序显示该多个匹配数据。
在步骤S407中,所述查询终端对所述第一数据、所述第二数据和所述第三数据进行排序的方法具体可以包括如下步骤:
步骤S51、所述查询终端计算所述第一数据、所述第二数据和所述第三数据中每个数据的权重值。
具体可通过Pagerank算法计算每个数据的权重值。
步骤S52、所述查询终端计算所述第一数据、所述第二数据和所述第三数据中每个数据与所述检索关键词的相似度。
具体可利用CUS-距离算法,计算每个数据与用户输入的检索关键词的相似度。
步骤S53、所述查询终端根据所述每个数据的权重值和相似度,计算所述每个数据的排序值。
具体的,可将每个数据的权重值和相似度相加得到的值作为该数据的排序值。
步骤S54、所述查询终端根据所述每个数据的排序值,对所述第一数据、所述第二数据和所述第三数据中的每个数据进行排序。
具体的,可根据每个数据的排序值,按照从大到小的顺序对所述第一数据、所述第二数据和所述第三数据中的每个数据进行排序。
可选的,所述查询终端根据所述每个数据的排序值,确定所述第一数据、所述第二数据和所述第三数据中排序值大于第一阈值的数据;所述查询终端对所述排序值大于第一阈值的数据,按照所述排序值的大小进行排序。
另外,计算出所述第一数据、所述第二数据和所述第三数据中每个数据的排序值后,可确定出所述第一数据、所述第二数据和所述第三数据中排序值大于第一阈值的数据,并对排序值大于第一阈值的数据,按照所述排序值的大小进行排序。
本实施例中,对搜索引擎数据库查找出的多个与检索关键词匹配的数据进行排序,排序的依据是每个数据的排序值,该排序值与每个数据的权重值和该数据与检索关键词的相似度有关,则排序值越大,表示该数据与检索关键词的关联性越强,将排序后的多个数据反馈给用户,用户可方便的查看到与检索关键词关联性最强的数据,提高了用户体验。
图6为本公开实施例四提供的数据处理方法的流程图,如图6所示,在上述任一实施例的基础上,以实施例二为基础,本实施例提供的数据处理方法的具体步骤如下:
步骤S601、查询终端接收用户的查询请求,所述查询请求包括检索关键词。
步骤S602、所述查询终端获取所述检索关键词中的维度关键词、指标关键词和时间粒度关键词。
步骤S603、所述查询终端将所述维度关键词、所述指标关键词、以及所述时间粒度关键词发送给搜索引擎数据库,以使所述搜索引擎数据库获取与所述维度关键词匹配的维度特征对应的第一数据、与所述指标关键词匹配的指标特征对应的第二数据、以及与所述时间粒度关键词匹配的时间粒度特征对应的第三数据。
步骤S604、所述查询终端接收所述搜索引擎数据库发送的所述第一数据、所述第二数据和所述第三数据。
步骤S605、所述查询终端根据所述第一数据、所述第二数据和所述第三数据,确定反馈给所述用户的目标数据。
步骤S601-步骤S605分别与步骤S201-步骤S205一致,具体方法此处不再赘述。
步骤S606、所述查询终端接收所述用户对所述目标数据的点击操作。
在步骤S407之后,可将排序后的多个目标数据显示在查询终端,用户通过查询终端可点击查看到该多个目标数据。当用户点击某个目标数据时,查询终端可接收到该用户对该目标数据的点击操作。
步骤S607、所述查询终端根据所述点击操作建立所述用户与所述目标数据的关联关系。
所述关联关系包括关联度,所述关联度标识所述用户与所述目标数据的关联程度。
在本实施例中,查询终端根据用户点击某个目标数据产生的点击操作建立所述用户与所述目标数据的关联关系,另外,还可根据关联规则和协同过滤规则计算用户与其点击的目标数据的关联度,该用户点击的目标数据的个数可以是多个。
步骤S608、当用户未输入所述检索关键词时,所述查询终端根据所述关联关系显示所述目标数据。
当用户在查询终端11未输入检索关键词时,查询终端11可根据用户与其点击过的目标数据之间的关联关系显示该目标数据,即查询终端11可将用户点击过的目标数据显示给用户。
具体的,所述关联关系包括关联度,所述关联度标识所述用户与所述目标数据的关联程度。所述查询终端根据所述关联关系显示所述目标数据,包括:所述查询终端显示关联度大于第二阈值的所述目标数据。
可选的,查询终端显示关联度大于第二阈值的所述目标数据。用户与其点击过的每个目标数据的关联关系还包括用户与该目标数据的关联度,查询终端11还可以显示用户点击过的关联度大于第二阈值的目标数据。
本实施例中,通过建立用户与其点击过的目标数据之间的关联关系,当用户未输入检索关键词时,可根据用户与目标数据之间的关联关系,显示用户点击过的目标数据,提高了用户查询数据的便捷性。
图7为本公开实施例五提供的数据处理方法的流程图,如图7所示,本实施例提供的数据处理方法的具体步骤如下:
步骤S501、查询终端接收用户的查询请求,所述查询请求包括检索关键词。
如图1所示,查询终端11接收用户10的查询请求,查询请求的方式可以有多种,例如,用户10在查询终端11的搜索引擎上输入文字、语音,该文字或语音包括用户10预检索的关键词。
步骤S502、所述查询终端至少获取所述检索关键词中的两类关键词。
在本实施例中,查询终端对用户请求查询的检索关键词分类时,可以不局限于维度关键词、指标关键词和时间粒度关键词这三类关键词,因为,并不是用户请求查询的每个检索关键词都包括维度关键词、指标关键词和时间粒度关键词这三类关键词,因此,如图1所示的查询终端11对应的语义识别模块12还可以将用户请求查询的检索关键词拆分为至少两类关键词,例如,用户是卖家,卖家请求查询的检索关键词是“有客户评价我的商品吗”,可拆分出动词“评价”、名词“商品”。
步骤S503、所述查询终端将至少两类关键词发送给搜索引擎数据库,以使所述搜索引擎数据库获取与所述至少两类关键词分别对应的源数据。
查询终端将动词“评价”、名词“商品”发送给搜索引擎数据库,搜索引擎数据库存储有卖家的所有商品的商品信息,以及每件商品的评价信息。搜索引擎数据库根据“商品”获得该卖家的所有商品的商品信息,该商品信息具体包括名称、产地、材料等,根据“评价”获得所有商品的评价信息。
步骤S504、所述查询终端接收所述搜索引擎数据库发送的所述源数据。
搜索引擎数据库将商品信息和评价信息发送给查询终端,由于此处的商品信息可以是多个,评价信息也可以是多个。
步骤S505、所述查询终端根据所述源数据,确定反馈给所述用户的目标数据。
查询终端可以根据每个商品的评价信息的个数,确定反馈给所述用户评价信息最多的商品的商品信息,也可以将每个商品的前几条评价信息反馈给所述用户,本实施例不限定查询终端确定反馈给所述用户的目标数据的具体实现方式。
本实施例中,通过对检索关键词进行分类,分类的结果并不局限于维度关键词、指标关键词以及时间粒度关键词,提高了对检索关键词分类的灵活度,增加了对检索关键词进行检索的灵活度,同时也扩大了检索范围。
图8为本公开实施例六提供的数据处理方法的流程图,如图8所示,本实施例提供的数据处理方法的具体步骤如下:
步骤S701、搜索引擎数据库接收查询终端发送的维度关键词、指标关键词、以及时间粒度关键词。
其中,所述维度关键词、所述指标关键词、以及所述时间粒度关键词是所述查询终端接收用户的查询请求,并从所述查询请求包括的检索关键词中获取的。
在本实施例中,所述搜索引擎数据库预先存储有数据出口中的数据,以及所述数据的特征信息,所述特征信息包括下述至少一种:维度特征、指标特征和时间粒度特征。
所述数据出口包括下述至少一种:数据应用程序、报表、知识库平台以及集群物理表。
步骤S702、所述搜索引擎数据获取与所述维度关键词匹配的维度特征对应的第一数据、与所述指标关键词匹配的指标特征对应的第二数据、以及与所述时间粒度关键词匹配的时间粒度特征对应的第三数据。
步骤S703、所述搜索引擎数据将所述第一数据、所述第二数据和所述第三数据发送给所述查询终端,以使所述查询终端根据所述第一数据、所述第二数据和所述第三数据,确定反馈给所述用户的目标数据。
本实施例所述方法的原理与图3所示实施例方法的原理一致,具体过程此处不再赘述。
本实施例中,通过预先采集数据应用程序、报表、知识库平台以及集群物理表中的数据至搜索引擎数据库内,且为所采集的每一条数据添加维度特征、指标特征和时间粒度特征中的至少一个;当搜索引擎接收到用户输入的检索关键词时,首先对检索关键词进行拆分,获得维度关键词、指标关键词以及时间粒度关键词;然后,在预先建立的搜索引擎数据库中,分别查找与维度关键词、指标关键词以及时间粒度关键词相匹配的数据,并将匹配的数据显示给用户;用户无需遍历每个数据出口进行数据查找,仅需输入一次检索关键词,搜索引擎数据库即可查找出所有数据出口中与该检索关键词相关的数据,从而提高了查找数据的效率。
图9为本公开实施例七提供的数据处理方法的流程图,如图9所示,本实施例提供的数据处理方法的具体步骤如下:
步骤S801、所述搜索引擎数据库存储所述数据应用程序、所述报表、所述知识库平台以及所述集群物理表中的数据。
在图3所示实施例的基础上,在接收用户输入的检索关键词之前,搜索引擎数据库13预先存储有数据应用程序、报表、知识库平台以及集群物理表中的数据。
具体的,数据应用程序15中的数据可通过语法解析器19存储在搜索引擎数据库13,具体的,通过SDK将数据应用程序15中的数据采集到语法解析器19中。语法解析器19可解析出一段结构化查询语言(Structured Query Language,简称SQL)的维度特征、指标特征、时间粒度特征和读取的表名,例如一段SQL具体如下:
SELECT stat_date AS日期
,user_type AS用户类型
,se_lpv_pc_1d_001AS Pv
,se_uv_pc_1d_001AS Uv
FROM tbbi.ads_tb_log_1d
WHERE ds='20151026'
语法解析器19可解析出该段SQL的维度特征是“用户类型”,指标特征是“Pv、Uv”,时间粒度特征是“最近一天”,读取的表名是“tbbi.ads_tb_log_1d”。通过前述方法,语法解析器19可解析出数据应用程序15中每个数据的维度特征、指标特征和时间粒度特征。语法解析器19将解析后的数据发送给搜索引擎数据库13,搜索引擎数据库13中不仅存储有数据本身,同时还存储有数据的维度特征、指标特征和时间粒度特征。
另外,搜索引擎数据库13还可以存储有报表16、知识库平台17和集群物理表18中的数据,存储过程具体为:对报表16、知识库平台17和集群物理表18中的每个数据进行拆分,提取出拆分后的每个数据的维度特征,并将报表16、知识库平台17和集群物理表18中的每个数据,以及每个数据的维度特征存储在搜索引擎数据库13。如此,搜索引擎数据库13中存储的每个数据至少具有维度特征。
步骤S802、搜索引擎数据库接收查询终端发送的维度关键词、指标关键词、以及时间粒度关键词,所述维度关键词、所述指标关键词、以及所述时间粒度关键词是所述查询终端接收用户的查询请求,并从所述查询请求包括的检索关键词中获取的。
在本实施例中,所述搜索引擎数据库预先存储有数据出口中的数据,以及所述数据的特征信息,所述特征信息包括下述至少一种:维度特征、指标特征和时间粒度特征。
所述数据出口包括下述至少一种:数据应用程序、报表、知识库平台以及集群物理表。
步骤S803、所述搜索引擎数据获取与所述维度关键词匹配的维度特征对应的第一数据、与所述指标关键词匹配的指标特征对应的第二数据、以及与所述时间粒度关键词匹配的时间粒度特征对应的第三数据。
步骤S804、所述搜索引擎数据将所述第一数据、所述第二数据和所述第三数据发送给所述查询终端,以使所述查询终端根据所述第一数据、所述第二数据和所述第三数据,确定反馈给所述用户的目标数据。
步骤S802-步骤S804所述的方法原理与步骤S701-步骤S703所述的方法原理一致,此处不再赘述。
本实施例中,通过预先采集数据应用程序、报表、知识库平台以及集群物理表中的数据至搜索引擎数据库内,且为所采集的每一条数据添加维度特征、指标特征和时间粒度特征中的至少一个;当搜索引擎接收到用户输入的检索关键词时,首先对检索关键词进行拆分,获得维度关键词、指标关键词以及时间粒度关键词;然后,在预先建立的搜索引擎数据库中,分别查找与维度关键词、指标关键词以及时间粒度关键词相匹配的数据,并将匹配的数据显示给用户;用户无需遍历每个数据出口进行数据查找,仅需输入一次检索关键词,搜索引擎数据库即可查找出所有数据出口中与该检索关键词相关的数据,从而提高了查找数据的效率。
图10为本公开实施例八提供的数据处理方法的流程图,如图10所示,所述搜索引擎数据库存储所述数据应用程序、所述报表、所述知识库平台以及所述集群物理表中的数据具体可以包括如下步骤S901和S902:
步骤S901、所述搜索引擎数据库存储所述数据应用程序中的数据。
步骤S901的可以通过如下步骤S11-S13来实现:
步骤S11、所述搜索引擎数据库获取所述数据应用程序访问数据源的访问逻辑。
所述访问逻辑包括所述数据应用程序中的数据,所述数据源存储有所述数据的产出逻辑。
本实施例介绍将所述数据应用程序中的数据存储到所述搜索引擎数据库的方法,且本实施例所述的方法不同于上述实施例所述的通过语法解析器19将数据应用程序15中的数据存储在搜索引擎数据库13的方法。
在本实施例中,所述数据应用程序可具体为Web页面形式,需频繁与后台数据源进行交互;所述后台数据源可具体为存储所述数据应用程序操作数据的器件。由于数据应用程序是根据SDK所开发的,SDK对数据应用程序具有最大的操作权限,因此可通过SDK捕获数据应用程序对后台数据源的第一访问逻辑,所述第一访问逻辑中包括数据应用程序访问后台数据源的时间、用户对数据应用程序的第二访问逻辑等字段。因此,通过现有的解析方式,即可获取用户对数据应用程序的第二访问逻辑。用户对数据应用程序的第二访问逻辑中包括用户访问数据应用程序的时间、用户当前所访问的数据应用程序中的数据等字段信息。因此,通过现有的解析方式,即可获取用户当前所访问的数据应用程序中的数据。
假设用户对数据应用程序的第二访问逻辑为:
SELECT stat_date AS日期
,user_type AS用户类型
,se_lpv_pc_1d_001AS Pv
,se_uv_pc_1d_001AS Uv
FROM tbbi.ads_tb_log_1d
WHERE ds='20151026'
通过对上述第二访问逻辑进行解析,即可获取用户当前所访问的数据应用程序中的数据为“tbbi.ads_tb_log_1d”,即FROM字段后的信息。
另外,后台数据源中存储有每个数据的产出逻辑,因此,在后台数据源中,可直接查找用户当前所访问的数据应用程序中的数据的产出逻辑。
步骤S12、所述搜索引擎数据库根据所述产出逻辑,确定所述数据应用程序中的数据的特征信息。
具体的,所述产出逻辑包括所述数据的聚合对象信息、聚合过程中参与运算的指标信息以及指标运算的时间信息。
步骤S12的实现方式具体为:所述搜索引擎数据库确定所述数据的聚合对象信息为所述数据的维度特征;所述搜索引擎数据库确定所述数据在聚合过程中参与运算的指标信息为所述数据的指标特征;所述搜索引擎数据库根据所述指标运算的时间信息,确定所述数据的时间粒度特征。
对用户当前所访问的数据应用程序中的数据的产出逻辑进行解析,获取当前数据的聚合对象信息、聚合过程中参与运算的指标信息以及指标运算的时间信息。
在本实施例中,假设用户当前所访问的数据应用程序中的数据的产出逻辑,如下:
Select stat_date,user_type,count(1)se_lpv_pc_1d_001,count(distinctuid)se_uv_pc_1d_001
From tbcdm.dwd_tb_log_1d where ds=’20160119’
Group by user_type,stat_date
通过对上述产出逻辑进行解析,可获得用户当前所访问的数据应用程序中的数据的聚合对象信息为stat_date,user_type,即Group by字段后的信息;聚合过程中参与运算的指标信息为se_lpv_pc_1d_001,se_uv_pc_1d_001,即count(1)和count(distinct uid)字段后的信息;指标运算的时间信息为’20160119’,即where ds字段后的分数区。
确定当前数据的聚合对象信息为当前数据的维度特征,确定当前数据聚合过程中参与运算的指标信息为当前数据的指标特征,以及,根据当前数据指标运算的时间信息,确定当前数据的时间粒度特征。
另外,还可将上述指标运算的时间信息所代表的时间区间,作为当前数据的时间粒度特征,比如,当前数据指标运算的时间信息,即where字段后的分数区为“ds=’20160119’”,则当前数据的时间粒度特征为1,再如,当前数据指标运算的时间信息,即where字段后的分数区为“ds>=’20160101’and ds<=’20160107’”,则当前数据的时间粒度特征为7。
步骤S13、所述搜索引擎数据库存储所述数据应用程序中的数据,以及所述数据的特征信息。
最后,为用户当前所访问的数据应用程序中的数据添加维度特征、指标特征以及时间粒度特征,且将添加特征后的数据存储到搜索引擎数据库中。
在本施例中,由于用户每访问一次数据应用程序,即可获取一次用户当前所访问的数据应用程序中的数据的维度特征、指标特征以及时间粒度特征,且为用户当前所访问的数据应用程序中的数据添加上述维度特征、指标特征以及时间粒度特征,最后,将添加上述特征后的数据,存储到搜索引擎数据库中。当用户访问尽数据应用程序中的所有数据时,即可将数据应用程序中的所有数据存储到搜索引擎数据库内,则搜索引擎数据库内的每条数据均有维度特征、指标特征和时间粒度特征。
步骤S902、所述搜索引擎数据库存储所述报表、所述知识库平台以及所述集群物理表中的数据。
步骤S902的可以通过如下步骤S21-S23来实现:
步骤S21、所述搜索引擎数据库分别获取所述报表、所述知识库平台以及所述集群物理表中的数据。
本实施例可通过TF-iDF算法拆分所述报表、所述知识库平台以及所述集群物理表中的每个数据。
步骤S22、所述搜索引擎数据库根据预设算法,确定所述报表、所述知识库平台以及所述集群物理表中每个数据的维度特征。
利用LDA算法和TOPIC MODEL算法对拆分后的数据进行特征提取,并将提取的特征作为对应数据的维度特征。
步骤S23、所述搜索引擎数据库存储所述报表、所述知识库平台以及所述集群物理表中每个数据,以及所述数据的维度特征。
为所述报表、所述知识库平台以及所述集群物理表中的每个数据添加维度特征,且将添加维度特征后的数据,存储到搜索引擎数据库中。
本实施例中,搜索引擎数据库中存储有数据应用程序中的所有数据,且从数据应用程序存储到搜索引擎数据库中的每个数据关联有维度特征、指标特征和时间粒度特征;另外,搜索引擎数据库中存储有报表、知识库平台以及集群物理表中的所有数据,且从报表、知识库平台以及集群物理表存储到搜索引擎数据库中的每个数据关联有维度特征。
图11为本公开实施例九提供的数据处理方法的流程图,如图11所示,本实施例提供的数据处理方法可以包括如下步骤:
步骤S1001、搜索引擎数据库获取数据应用程序中的第一数据,以及所述第一数据的维度特征、指标特征、时间粒度特征。
在本实施例中,步骤S1001的实现方式可以包括以下两种:
第一种:所述搜索引擎数据库接收语法解析器发送的所述第一数据,以及所述第一数据的维度特征、指标特征、时间粒度特征,所述语法解析器用于采集所述数据应用程序中的第一数据,以及解析所述第一数据的维度特征、指标特征、时间粒度特征。
具体的,数据应用程序15中的数据可通过语法解析器19存储在搜索引擎数据库13,具体的,通过SDK将数据应用程序15中的数据采集到语法解析器19中。语法解析器19可解析出一段结构化查询语言(Structured Query Language,简称SQL)的维度特征、指标特征、时间粒度特征和读取的表名,例如一段SQL具体如下:
SELECT stat_date AS日期
,user_type AS用户类型
,se_lpv_pc_1d_001AS Pv
,se_uv_pc_1d_001AS Uv
FROM tbbi.ads_tb_log_1d
WHERE ds='20151026'
语法解析器19可解析出该段SQL的维度特征是“用户类型”,指标特征是“Pv、Uv”,时间粒度特征是“最近一天”,读取的表名是“tbbi.ads_tb_log_1d”。通过前述方法,语法解析器19可解析出数据应用程序15中每个数据的维度特征、指标特征和时间粒度特征。语法解析器19将解析后的数据发送给搜索引擎数据库13,搜索引擎数据库13中不仅存储有数据本身,同时还存储有数据的维度特征、指标特征和时间粒度特征。
第二种包括如下步骤S31-S32:
步骤S31、所述搜索引擎数据库获取所述数据应用程序访问数据源的访问逻辑,所述访问逻辑包括所述数据应用程序中的第一数据,所述数据源存储有所述第一数据的产出逻辑。
在本实施例中,所述数据应用程序可具体为Web页面形式,需频繁与后台数据源进行交互;所述后台数据源可具体为存储所述数据应用程序操作数据的器件。由于数据应用程序是根据SDK所开发的,SDK对数据应用程序具有最大的操作权限,因此可通过SDK捕获数据应用程序对后台数据源的第一访问逻辑,所述第一访问逻辑中包括数据应用程序访问后台数据源的时间、用户对数据应用程序的第二访问逻辑等字段。因此,通过现有的解析方式,即可获取用户对数据应用程序的第二访问逻辑。用户对数据应用程序的第二访问逻辑中包括用户访问数据应用程序的时间、用户当前所访问的数据应用程序中的数据等字段信息。因此,通过现有的解析方式,即可获取用户当前所访问的数据应用程序中的数据。
假设用户对数据应用程序的第二访问逻辑为:
SELECT stat_date AS日期
,user_type AS用户类型
,se_lpv_pc_1d_001AS Pv
,se_uv_pc_1d_001AS Uv
FROM tbbi.ads_tb_log_1d
WHERE ds='20151026'
通过对上述第二访问逻辑进行解析,即可获取用户当前所访问的数据应用程序中的数据为“tbbi.ads_tb_log_1d”,即FROM字段后的信息。
另外,后台数据源中存储有每个数据的产出逻辑,因此,在后台数据源中,可直接查找用户当前所访问的数据应用程序中的数据的产出逻辑。
所述产出逻辑包括所述第一数据的聚合对象信息、聚合过程中参与运算的指标信息以及指标运算的时间信息。具体的,所述搜索引擎数据库确定所述第一数据的聚合对象信息为所述第一数据的维度特征;所述搜索引擎数据库确定所述第一数据在聚合过程中参与运算的指标信息为所述第一数据的指标特征;所述搜索引擎数据库根据所述指标运算的时间信息,确定所述第一数据的时间粒度特征。
步骤S32、所述搜索引擎数据库根据所述产出逻辑,确定所述数据应用程序中的第一数据的特征信息,所述特征信息包括维度特征、指标特征、时间粒度特征。
在本实施例中,假设用户当前所访问的数据应用程序中的数据的产出逻辑,如下:
Select stat_date,user_type,count(1)se_lpv_pc_1d_001,count(distinctuid)se_uv_pc_1d_001
From tbcdm.dwd_tb_log_1d where ds=’20160119’
Group by user_type,stat_date
通过对上述产出逻辑进行解析,可获得用户当前所访问的数据应用程序中的数据的聚合对象信息为stat_date,user_type,即Group by字段后的信息;聚合过程中参与运算的指标信息为se_lpv_pc_1d_001,se_uv_pc_1d_001,即count(1)和count(distinct uid)字段后的信息;指标运算的时间信息为’20160119’,即where ds字段后的分数区。
确定当前数据的聚合对象信息为当前数据的维度特征,确定当前数据聚合过程中参与运算的指标信息为当前数据的指标特征,以及,根据当前数据指标运算的时间信息,确定当前数据的时间粒度特征。
另外,还可将上述指标运算的时间信息所代表的时间区间,作为当前数据的时间粒度特征,比如,当前数据指标运算的时间信息,即where字段后的分数区为“ds=’20160119’”,则当前数据的时间粒度特征为1,再如,当前数据指标运算的时间信息,即where字段后的分数区为“ds>=’20160101’and ds<=’20160107’”,则当前数据的时间粒度特征为7。
步骤S1002、所述搜索引擎数据库分别获取报表、知识库平台、集群物理表中的第二数据,以及所述第二数据的维度特征。
具体的,所述搜索引擎数据库分别获取所述报表、所述知识库平台以及所述集群物理表中的第二数据;所述搜索引擎数据库根据预设算法,确定所述报表、所述知识库平台以及所述集群物理表中每个第二数据的维度特征。
本实施例可通过TF-iDF算法拆分所述报表、所述知识库平台以及所述集群物理表中的每个数据。利用LDA算法和TOPIC MODEL算法对拆分后的数据进行特征提取,并将提取的特征作为对应数据的维度特征。
步骤S1003、所述搜索引擎数据库存储所述第一数据,以及所述第一数据的维度特征、指标特征、时间粒度特征。
步骤S1004、所述搜索引擎数据库存储所述第二数据,以及所述第二数据的维度特征。
为所述报表、所述知识库平台以及所述集群物理表中的每个数据添加维度特征,且将添加维度特征后的数据,存储到搜索引擎数据库中。
本实施例中,通过预先采集数据应用程序、报表、知识库平台以及集群物理表中的数据至搜索引擎数据库内,且为所采集的每一条数据添加维度特征、指标特征和时间粒度特征中的至少一个;当搜索引擎接收到用户输入的检索关键词时,首先对检索关键词进行拆分,获得维度关键词、指标关键词以及时间粒度关键词;然后,在预先建立的搜索引擎数据库中,分别查找与维度关键词、指标关键词以及时间粒度关键词相匹配的数据,并将匹配的数据显示给用户;用户无需遍历每个数据出口进行数据查找,仅需输入一次检索关键词,搜索引擎数据库即可查找出所有数据出口中与该检索关键词相关的数据,从而提高了查找数据的效率。
图12为本公开实施例一提供的查询终端的结构示意图,如图12所示,该查询终端包括:接收单元、处理单元、以及发送单元。
所述接收单元,用于接收用户的查询请求,所述查询请求包括检索关键词。
所述处理单元,耦合到所述接收单元,用于获取所述检索关键词中的维度关键词、指标关键词和时间粒度关键词。
所述发送单元,耦合到所述处理单元,用于将所述维度关键词、所述指标关键词、以及所述时间粒度关键词发送给搜索引擎数据库,以使所述搜索引擎数据库获取与所述维度关键词匹配的维度特征对应的第一数据、与所述指标关键词匹配的指标特征对应的第二数据、以及与所述时间粒度关键词匹配的时间粒度特征对应的第三数据,所述搜索引擎数据库预先存储有数据出口中的数据,以及所述数据的特征信息,所述数据出口包括下述至少一种:数据应用程序、报表、知识库平台以及集群物理表,所述特征信息包括下述至少一种:维度特征、指标特征和时间粒度特征。
所述接收单元还用于接收所述搜索引擎数据库发送的所述第一数据、所述第二数据和所述第三数据。
所述处理单元还用于根据所述第一数据、所述第二数据和所述第三数据,确定反馈给所述用户的目标数据。
本实施例中,通过预先采集数据应用程序、报表、知识库平台以及集群物理表中的数据至搜索引擎数据库内,且为所采集的每一条数据添加维度特征、指标特征和时间粒度特征中的至少一个;当搜索引擎接收到用户输入的检索关键词时,首先对检索关键词进行拆分,获得维度关键词、指标关键词以及时间粒度关键词;然后,在预先建立的搜索引擎数据库中,分别查找与维度关键词、指标关键词以及时间粒度关键词相匹配的数据,并将匹配的数据显示给用户;用户无需遍历每个数据出口进行数据查找,仅需输入一次检索关键词,搜索引擎数据库即可查找出所有数据出口中与该检索关键词相关的数据,从而提高了查找数据的效率。
在图12所示实施例的基础上,所述处理单元具体用于对所述检索关键词进行分词处理获得多个目标分词;根据各目标分词查询预设的映射表,所述映射表包括维度分词、指标分词和时间粒度分词;将所述多个目标分词中与所述维度分词匹配的目标分词确定为所述维度关键词;将所述多个目标分词中与所述指标分词匹配的目标分词确定为所述指标关键词;将所述多个目标分词中与所述时间粒度分词匹配的目标分词确定为所述时间粒度关键词。
进一步的,所述处理单元具体用于确定所述第一数据、所述第二数据和所述第三数据是否为同一数据;若所述第一数据、所述第二数据和所述第三数据是同一数据,则所述处理单元将所述同一数据确定为反馈给所述用户的目标数据;若所述第一数据、所述第二数据和所述第三数据不是同一数据,则所述处理单元对所述第一数据、所述第二数据和所述第三数据进行排序,将排序后的数据确定为反馈给所述用户的目标数据。
本实施例中,通过对检索关键词进行分词处理获得多个目标分词,根据预先建立的映射表查询该多个目标分词中的维度关键词、指标关键词以及时间粒度关键词,提高了确定检索关键词中维度关键词、指标关键词以及时间粒度关键词的效率。
图13为本公开实施例二提供的查询终端的结构示意图,如图13所示,查询终端还包括:显示器。
所述接收单元还用于接收所述用户对所述目标数据的点击操作。
所述处理单元还用于根据所述点击操作建立所述用户与所述目标数据的关联关系。
所述显示器,耦合到所述处理单元,当用户未输入所述检索关键词时,所述显示器显示所述关联关系关联的所述目标数据。
本实施例中,通过建立用户与其点击过的目标数据之间的关联关系,当用户未输入检索关键词时,可根据用户与目标数据之间的关联关系,显示用户点击过的目标数据,提高了用户查询数据的便捷性。
图14为本公开实施例三提供的查询终端的结构示意图,参照图14,查询终端1900包括处理组件1922,其进一步包括一个或多个处理器,以及由存储器1932所代表的存储器资源,用于存储可由处理组件1922的执行的指令,例如应用程序。存储器1932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件1922被配置为执行指令,以执行上述步骤S201-S1004的方法。
装置1900还可以包括一个电源组件1926被配置为执行装置1900的电源管理,一个有线或无线网络接口1950被配置为将装置1900连接到网络,和一个输入输出(I/O)接口1958。装置1900可以操作基于存储在存储器1932的操作系统,例如Windows ServerTM,MacOS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
图15为本公开实施例提供的搜索引擎数据库的结构示意图,如图15所示,该搜索引擎数据库包括:接收器、存储器、处理器、以及发送器。
所述接收器,用于接收查询终端发送的维度关键词、指标关键词、以及时间粒度关键词,所述维度关键词、所述指标关键词、以及所述时间粒度关键词是所述查询终端接收用户的查询请求,并从所述查询请求包括的检索关键词中获取的。
所述存储器,用于存储数据出口中的数据,以及所述数据的特征信息,所述数据出口包括下述至少一种:数据应用程序、报表、知识库平台以及集群物理表,所述特征信息包括下述至少一种:维度特征、指标特征和时间粒度特征。
所述处理器,耦合到所述接收器和所述存储器,用于获取与所述维度关键词匹配的维度特征对应的第一数据、与所述指标关键词匹配的指标特征对应的第二数据、以及与所述时间粒度关键词匹配的时间粒度特征对应的第三数据。
所述发送器,耦合到所述处理器,用于将所述第一数据、所述第二数据和所述第三数据发送给所述查询终端,以使所述查询终端根据所述第一数据、所述第二数据和所述第三数据,确定反馈给所述用户的目标数据。
本实施例中,通过预先采集数据应用程序、报表、知识库平台以及集群物理表中的数据至搜索引擎数据库内,且为所采集的每一条数据添加维度特征、指标特征和时间粒度特征中的至少一个;当搜索引擎接收到用户输入的检索关键词时,首先对检索关键词进行拆分,获得维度关键词、指标关键词以及时间粒度关键词;然后,在预先建立的搜索引擎数据库中,分别查找与维度关键词、指标关键词以及时间粒度关键词相匹配的数据,并将匹配的数据显示给用户;用户无需遍历每个数据出口进行数据查找,仅需输入一次检索关键词,搜索引擎数据库即可查找出所有数据出口中与该检索关键词相关的数据,从而提高了查找数据的效率。
在图15所示实施例基础上,所述处理器具体用于获取所述数据应用程序访问数据源的访问逻辑,所述访问逻辑包括所述数据应用程序中的数据,所述数据源存储有所述数据的产出逻辑;根据所述产出逻辑,确定所述数据应用程序中的数据的特征信息;将所述数据应用程序中的数据,以及所述数据的特征信息存储到所述存储器。
或者,在图15所示实施例基础上,所述接收器还用于接收语法解析器发送的数据,以及所述数据的维度特征、指标特征、时间粒度特征,所述语法解析器用于采集所述数据应用程序中的数据,以及解析所述数据的维度特征、指标特征、时间粒度特征;所述处理器还用于将所述数据应用程序中的数据,以及所述数据的维度特征、指标特征、时间粒度特征存储到所述存储器。
或者,在图15所示实施例基础上,所述处理器具体用于分别获取所述报表、所述知识库平台以及所述集群物理表中的数据;根据预设算法,确定所述报表、所述知识库平台以及所述集群物理表中每个数据的维度特征;将所述报表、所述知识库平台以及所述集群物理表中每个数据,以及所述数据的维度特征存储到所述存储器。
本实施例中,搜索引擎数据库中存储有数据应用程序中的所有数据,且从数据应用程序存储到搜索引擎数据库中的每个数据关联有维度特征、指标特征和时间粒度特征;另外,搜索引擎数据库中存储有报表、知识库平台以及集群物理表中的所有数据,且从报表、知识库平台以及集群物理表存储到搜索引擎数据库中的每个数据关联有维度特征。
最后应说明的是:以上各实施例仅用以说明本公开的技术方案,而非对其限制;尽管参照前述各实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本公开各实施例技术方案的范围。

Claims (29)

1.一种数据处理系统,其特征在于,包括:查询终端和搜索引擎数据库;
所述查询终端,用于接收用户的查询请求,所述查询请求包括检索关键词;所述查询终端获取所述检索关键词中的维度关键词、指标关键词和时间粒度关键词,并将所述维度关键词、所述指标关键词、以及所述时间粒度关键词发送给所述搜索引擎数据库;
所述搜索引擎数据库预先存储有数据出口中的数据,以及所述数据的特征信息,所述特征信息包括下述至少一种:维度特征、指标特征和时间粒度特征;
所述搜索引擎数据库,用于获取与所述维度关键词匹配的维度特征对应的第一数据、与所述指标关键词匹配的指标特征对应的第二数据、以及与所述时间粒度关键词匹配的时间粒度特征对应的第三数据,并将所述第一数据、所述第二数据和所述第三数据发送给所述查询终端;
所述查询终端,还用于根据所述第一数据、所述第二数据和所述第三数据,确定反馈给所述用户的目标数据,并将所述目标数据显示给所述用户。
2.一种数据处理方法,其特征在于,包括:
查询终端接收用户的查询请求,所述查询请求包括检索关键词;
所述查询终端获取所述检索关键词中的维度关键词、指标关键词和时间粒度关键词;
所述查询终端将所述维度关键词、所述指标关键词、以及所述时间粒度关键词发送给搜索引擎数据库,以使所述搜索引擎数据库获取与所述维度关键词匹配的维度特征对应的第一数据、与所述指标关键词匹配的指标特征对应的第二数据、以及与所述时间粒度关键词匹配的时间粒度特征对应的第三数据,所述搜索引擎数据库预先存储有数据出口中的数据,以及所述数据的特征信息,所述特征信息包括下述至少一种:维度特征、指标特征和时间粒度特征;
所述查询终端接收所述搜索引擎数据库发送的所述第一数据、所述第二数据和所述第三数据;
所述查询终端根据所述第一数据、所述第二数据和所述第三数据,确定反馈给所述用户的目标数据。
3.根据权利要求2所述的方法,其特征在于,所述数据出口包括下述至少一种:数据应用程序、报表、知识库平台以及集群物理表。
4.根据权利要求3所述的方法,其特征在于,所述查询终端获取所述检索关键词中的维度关键词、指标关键词和时间粒度关键词,包括:
所述查询终端对所述检索关键词进行分词处理获得多个目标分词;
所述查询终端根据各目标分词查询预设的映射表,所述映射表包括维度分词、指标分词和时间粒度分词;
所述查询终端将所述多个目标分词中与所述维度分词匹配的目标分词确定为所述维度关键词;
所述查询终端将所述多个目标分词中与所述指标分词匹配的目标分词确定为所述指标关键词;
所述查询终端将所述多个目标分词中与所述时间粒度分词匹配的目标分词确定为所述时间粒度关键词。
5.根据权利要求4所述的方法,其特征在于,所述查询终端根据所述第一数据、所述第二数据和所述第三数据,确定反馈给所述用户的目标数据,包括:
所述查询终端确定所述第一数据、所述第二数据和所述第三数据是否为同一数据;
若所述第一数据、所述第二数据和所述第三数据是同一数据,则所述查询终端将所述同一数据确定为反馈给所述用户的目标数据;
若所述第一数据、所述第二数据和所述第三数据不是同一数据,则所述查询终端对所述第一数据、所述第二数据和所述第三数据进行排序,将排序后的数据确定为反馈给所述用户的目标数据。
6.根据权利要求5所述的方法,其特征在于,所述查询终端对所述第一数据、所述第二数据和所述第三数据进行排序,包括:
所述查询终端计算所述第一数据、所述第二数据和所述第三数据中每个数据的权重值;
所述查询终端计算所述第一数据、所述第二数据和所述第三数据中每个数据与所述检索关键词的相似度;
所述查询终端根据所述每个数据的权重值和相似度,计算所述每个数据的排序值;
所述查询终端根据所述每个数据的排序值,对所述第一数据、所述第二数据和所述第三数据中的每个数据进行排序。
7.根据权利要求6所述的方法,其特征在于,所述查询终端根据所述每个数据的排序值,对所述第一数据、所述第二数据和所述第三数据中的每个数据进行排序,包括:
所述查询终端根据所述每个数据的排序值,确定所述第一数据、所述第二数据和所述第三数据中排序值大于第一阈值的数据;
所述查询终端对所述排序值大于第一阈值的数据,按照所述排序值的大小进行排序。
8.根据权利要求2-7任一项所述的方法,其特征在于,所述查询终端根据所述第一数据、所述第二数据和所述第三数据,确定反馈给所述用户的目标数据之后,还包括:
所述查询终端接收所述用户对所述目标数据的点击操作;
所述查询终端根据所述点击操作建立所述用户与所述目标数据的关联关系;
当用户未输入所述检索关键词时,所述查询终端根据所述关联关系显示所述目标数据。
9.根据权利要求8所述的方法,其特征在于,所述关联关系包括关联度,所述关联度标识所述用户与所述目标数据的关联程度;
所述查询终端根据所述关联关系显示所述目标数据,包括:
所述查询终端显示关联度大于第二阈值的所述目标数据。
10.一种数据处理方法,其特征在于,包括:
查询终端接收用户的查询请求,所述查询请求包括检索关键词;
所述查询终端至少获取所述检索关键词中的两类关键词;
所述查询终端将至少两类关键词发送给搜索引擎数据库,以使所述搜索引擎数据库获取与所述至少两类关键词分别对应的源数据;
所述查询终端接收所述搜索引擎数据库发送的所述源数据;
所述查询终端根据所述源数据,确定反馈给所述用户的目标数据。
11.一种数据处理方法,其特征在于,包括:
搜索引擎数据库接收查询终端发送的维度关键词、指标关键词、以及时间粒度关键词,所述维度关键词、所述指标关键词、以及所述时间粒度关键词是所述查询终端接收用户的查询请求,并从所述查询请求包括的检索关键词中获取的;
所述搜索引擎数据库预先存储有数据出口中的数据,以及所述数据的特征信息,所述特征信息包括下述至少一种:维度特征、指标特征和时间粒度特征;
所述搜索引擎数据获取与所述维度关键词匹配的维度特征对应的第一数据、与所述指标关键词匹配的指标特征对应的第二数据、以及与所述时间粒度关键词匹配的时间粒度特征对应的第三数据;
所述搜索引擎数据将所述第一数据、所述第二数据和所述第三数据发送给所述查询终端,以使所述查询终端根据所述第一数据、所述第二数据和所述第三数据,确定反馈给所述用户的目标数据。
12.根据权利要求11所述的方法,其特征在于,所述数据出口包括下述至少一种:数据应用程序、报表、知识库平台以及集群物理表。
13.根据权利要求12所述的方法,其特征在于,所述搜索引擎数据库接收查询终端发送的维度关键词、指标关键词、以及时间粒度关键词之前,还包括:
所述搜索引擎数据库存储所述数据应用程序、所述报表、所述知识库平台以及所述集群物理表中的数据。
14.根据权利要求13所述的方法,其特征在于,所述搜索引擎数据库存储所述数据应用程序中的数据,包括:
所述搜索引擎数据库获取所述数据应用程序访问数据源的访问逻辑,所述访问逻辑包括所述数据应用程序中的数据,所述数据源存储有所述数据的产出逻辑;
所述搜索引擎数据库根据所述产出逻辑,确定所述数据应用程序中的数据的特征信息;
所述搜索引擎数据库存储所述数据应用程序中的数据,以及所述数据的特征信息。
15.根据权利要求14所述的方法,其特征在于,所述产出逻辑包括所述数据的聚合对象信息、聚合过程中参与运算的指标信息以及指标运算的时间信息;
所述搜索引擎数据库根据所述产出逻辑,确定所述数据应用程序中的数据的特征信息,包括:
所述搜索引擎数据库确定所述数据的聚合对象信息为所述数据的维度特征;
所述搜索引擎数据库确定所述数据在聚合过程中参与运算的指标信息为所述数据的指标特征;
所述搜索引擎数据库根据所述指标运算的时间信息,确定所述数据的时间粒度特征。
16.根据权利要求13所述的方法,其特征在于,所述搜索引擎数据库存储所述报表、所述知识库平台以及所述集群物理表中的数据,包括:
所述搜索引擎数据库分别获取所述报表、所述知识库平台以及所述集群物理表中的数据;
所述搜索引擎数据库根据预设算法,确定所述报表、所述知识库平台以及所述集群物理表中每个数据的维度特征;
所述搜索引擎数据库存储所述报表、所述知识库平台以及所述集群物理表中每个数据,以及所述数据的维度特征。
17.一种数据处理方法,其特征在于,包括:
搜索引擎数据库获取数据应用程序中的第一数据,以及所述第一数据的维度特征、指标特征、时间粒度特征;
所述搜索引擎数据库分别获取报表、知识库平台、集群物理表中的第二数据,以及所述第二数据的维度特征;
所述搜索引擎数据库存储所述第一数据,以及所述第一数据的维度特征、指标特征、时间粒度特征;
所述搜索引擎数据库存储所述第二数据,以及所述第二数据的维度特征。
18.根据权利要求17所述的方法,其特征在于,所述搜索引擎数据库获取数据应用程序中的第一数据,以及所述第一数据的维度特征、指标特征、时间粒度特征,包括:
所述搜索引擎数据库接收语法解析器发送的所述第一数据,以及所述第一数据的维度特征、指标特征、时间粒度特征,所述语法解析器用于采集所述数据应用程序中的第一数据,以及解析所述第一数据的维度特征、指标特征、时间粒度特征。
19.根据权利要求17所述的方法,其特征在于,所述搜索引擎数据库获取数据应用程序中的第一数据,以及所述第一数据的维度特征、指标特征、时间粒度特征,包括:
所述搜索引擎数据库获取所述数据应用程序访问数据源的访问逻辑,所述访问逻辑包括所述数据应用程序中的第一数据,所述数据源存储有所述第一数据的产出逻辑;
所述搜索引擎数据库根据所述产出逻辑,确定所述数据应用程序中的第一数据的特征信息,所述特征信息包括维度特征、指标特征、时间粒度特征。
20.根据权利要求19所述的方法,其特征在于,所述产出逻辑包括所述第一数据的聚合对象信息、聚合过程中参与运算的指标信息以及指标运算的时间信息;
所述搜索引擎数据库根据所述产出逻辑,确定所述数据应用程序中的第一数据的特征信息,包括:
所述搜索引擎数据库确定所述第一数据的聚合对象信息为所述第一数据的维度特征;
所述搜索引擎数据库确定所述第一数据在聚合过程中参与运算的指标信息为所述第一数据的指标特征;
所述搜索引擎数据库根据所述指标运算的时间信息,确定所述第一数据的时间粒度特征。
21.根据权利要求17-20任一项所述的方法,其特征在于,所述搜索引擎数据库分别获取报表、知识库平台、集群物理表中的第二数据,以及所述第二数据的维度特征,包括:
所述搜索引擎数据库分别获取所述报表、所述知识库平台以及所述集群物理表中的第二数据;
所述搜索引擎数据库根据预设算法,确定所述报表、所述知识库平台以及所述集群物理表中每个第二数据的维度特征。
22.一种查询终端,其特征在于,包括:接收单元、处理单元、以及发送单元;
所述接收单元,用于接收用户的查询请求,所述查询请求包括检索关键词;
所述处理单元,耦合到所述接收单元,用于获取所述检索关键词中的维度关键词、指标关键词和时间粒度关键词;
所述发送单元,耦合到所述处理单元,用于将所述维度关键词、所述指标关键词、以及所述时间粒度关键词发送给搜索引擎数据库,以使所述搜索引擎数据库获取与所述维度关键词匹配的维度特征对应的第一数据、与所述指标关键词匹配的指标特征对应的第二数据、以及与所述时间粒度关键词匹配的时间粒度特征对应的第三数据,所述搜索引擎数据库预先存储有数据出口中的数据,以及所述数据的特征信息,所述数据出口包括下述至少一种:数据应用程序、报表、知识库平台以及集群物理表,所述特征信息包括下述至少一种:维度特征、指标特征和时间粒度特征;
所述接收单元还用于接收所述搜索引擎数据库发送的所述第一数据、所述第二数据和所述第三数据;
所述处理单元还用于根据所述第一数据、所述第二数据和所述第三数据,确定反馈给所述用户的目标数据。
23.根据权利要求22所述的查询终端,其特征在于,所述处理单元具体用于对所述检索关键词进行分词处理获得多个目标分词;根据各目标分词查询预设的映射表,所述映射表包括维度分词、指标分词和时间粒度分词;将所述多个目标分词中与所述维度分词匹配的目标分词确定为所述维度关键词;将所述多个目标分词中与所述指标分词匹配的目标分词确定为所述指标关键词;将所述多个目标分词中与所述时间粒度分词匹配的目标分词确定为所述时间粒度关键词。
24.根据权利要求23所述的查询终端,其特征在于,所述处理单元具体用于确定所述第一数据、所述第二数据和所述第三数据是否为同一数据;
若所述第一数据、所述第二数据和所述第三数据是同一数据,则所述处理单元将所述同一数据确定为反馈给所述用户的目标数据;
若所述第一数据、所述第二数据和所述第三数据不是同一数据,则所述处理单元对所述第一数据、所述第二数据和所述第三数据进行排序,将排序后的数据确定为反馈给所述用户的目标数据。
25.根据权利要求24所述的查询终端,其特征在于,还包括:显示器;
所述接收单元还用于接收所述用户对所述目标数据的点击操作;
所述处理单元还用于根据所述点击操作建立所述用户与所述目标数据的关联关系;
所述显示器,耦合到所述处理单元,当用户未输入所述检索关键词时,所述显示器显示所述关联关系关联的所述目标数据。
26.一种搜索引擎数据库,其特征在于,包括:接收器、存储器、处理器、以及发送器;
所述接收器,用于接收查询终端发送的维度关键词、指标关键词、以及时间粒度关键词,所述维度关键词、所述指标关键词、以及所述时间粒度关键词是所述查询终端接收用户的查询请求,并从所述查询请求包括的检索关键词中获取的;
所述存储器,用于存储数据出口中的数据,以及所述数据的特征信息,所述数据出口包括下述至少一种:数据应用程序、报表、知识库平台以及集群物理表,所述特征信息包括下述至少一种:维度特征、指标特征和时间粒度特征;
所述处理器,耦合到所述接收器和所述存储器,用于获取与所述维度关键词匹配的维度特征对应的第一数据、与所述指标关键词匹配的指标特征对应的第二数据、以及与所述时间粒度关键词匹配的时间粒度特征对应的第三数据;
所述发送器,耦合到所述处理器,用于将所述第一数据、所述第二数据和所述第三数据发送给所述查询终端,以使所述查询终端根据所述第一数据、所述第二数据和所述第三数据,确定反馈给所述用户的目标数据。
27.根据权利要求26所述的搜索引擎数据库,其特征在于,所述处理器具体用于获取所述数据应用程序访问数据源的访问逻辑,所述访问逻辑包括所述数据应用程序中的数据,所述数据源存储有所述数据的产出逻辑;根据所述产出逻辑,确定所述数据应用程序中的数据的特征信息;将所述数据应用程序中的数据,以及所述数据的特征信息存储到所述存储器。
28.根据权利要求26所述的搜索引擎数据库,其特征在于,所述接收器还用于接收语法解析器发送的数据,以及所述数据的维度特征、指标特征、时间粒度特征,所述语法解析器用于采集所述数据应用程序中的数据,以及解析所述数据的维度特征、指标特征、时间粒度特征;
所述处理器还用于将所述数据应用程序中的数据,以及所述数据的维度特征、指标特征、时间粒度特征存储到所述存储器。
29.根据权利要求26所述的搜索引擎数据库,其特征在于,所述处理器具体用于分别获取所述报表、所述知识库平台以及所述集群物理表中的数据;根据预设算法,确定所述报表、所述知识库平台以及所述集群物理表中每个数据的维度特征;将所述报表、所述知识库平台以及所述集群物理表中每个数据,以及所述数据的维度特征存储到所述存储器。
CN201610657498.8A 2016-08-11 2016-08-11 数据处理方法、设备及系统 Active CN107729336B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201610657498.8A CN107729336B (zh) 2016-08-11 2016-08-11 数据处理方法、设备及系统
TW106119497A TW201805839A (zh) 2016-08-11 2017-06-12 資料處理方法、設備及系統
PCT/CN2017/094790 WO2018028443A1 (zh) 2016-08-11 2017-07-28 数据处理方法、设备及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610657498.8A CN107729336B (zh) 2016-08-11 2016-08-11 数据处理方法、设备及系统

Publications (2)

Publication Number Publication Date
CN107729336A true CN107729336A (zh) 2018-02-23
CN107729336B CN107729336B (zh) 2021-07-27

Family

ID=61162620

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610657498.8A Active CN107729336B (zh) 2016-08-11 2016-08-11 数据处理方法、设备及系统

Country Status (3)

Country Link
CN (1) CN107729336B (zh)
TW (1) TW201805839A (zh)
WO (1) WO2018028443A1 (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108647213A (zh) * 2018-05-21 2018-10-12 辽宁工程技术大学 一种基于耦合关系分析的组合关键字语义相关度评估方法
CN108664586A (zh) * 2018-05-07 2018-10-16 北京中电普华信息技术有限公司 一种信息的获取方法及系统
CN109063108A (zh) * 2018-07-27 2018-12-21 天津字节跳动科技有限公司 搜索排序方法、装置、计算机设备和存储介质
CN109344300A (zh) * 2018-08-31 2019-02-15 深圳壹账通智能科技有限公司 自然语言的数据查询意图确定方法、装置和计算机设备
CN110688541A (zh) * 2019-10-08 2020-01-14 中国建设银行股份有限公司 一种报表数据的查询方法、装置、存储介质及电子设备
CN110716950A (zh) * 2019-09-20 2020-01-21 黄沙沙 一种口径系统建立方法、装置、设备及计算机存储介质
CN110737432A (zh) * 2019-09-20 2020-01-31 黄沙沙 一种基于词根表的脚本辅助设计方法及装置
CN110807089A (zh) * 2019-10-29 2020-02-18 出门问问信息科技有限公司 一种问答方法、装置及电子设备
CN110851543A (zh) * 2019-11-08 2020-02-28 深圳市彬讯科技有限公司 一种数据建模的方法、装置、设备以及存储介质
CN110928903A (zh) * 2018-08-31 2020-03-27 阿里巴巴集团控股有限公司 数据提取方法及装置、设备和存储介质
CN111400556A (zh) * 2020-03-06 2020-07-10 上海数据交易中心有限公司 数据查询方法及装置、计算机设备、存储介质
CN111913984A (zh) * 2020-08-18 2020-11-10 南开大学 一种基于学龄前儿童认知的绘本信息查询方法及系统
CN112948414A (zh) * 2019-12-19 2021-06-11 深圳市明源云链互联网科技有限公司 数据报表生成方法、装置、电子设备及存储介质
CN113793193A (zh) * 2021-08-13 2021-12-14 唯品会(广州)软件有限公司 数据搜索准确性验证方法、装置、设备及计算机可读介质
CN116257545A (zh) * 2022-12-28 2023-06-13 联通智网科技股份有限公司 一种数据查询方法、装置、电子设备及存储介质

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111309729A (zh) * 2020-02-13 2020-06-19 湖南快乐阳光互动娱乐传媒有限公司 一种数据查询方法及装置
CN111563095B (zh) * 2020-04-30 2023-05-26 上海新炬网络信息技术股份有限公司 一种基于HBase的数据检索装置
CN117093708B (zh) * 2023-10-17 2024-02-13 中电数创(北京)科技有限公司 智能识别用户搜索意图与可视化展示元件搜索结果的方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060047649A1 (en) * 2003-12-29 2006-03-02 Ping Liang Internet and computer information retrieval and mining with intelligent conceptual filtering, visualization and automation
CN101351800A (zh) * 2006-01-05 2009-01-21 吉市有限公司 基于用户购买行为智能搜索产品的方法及由此而得的系统
CN101606174A (zh) * 2007-02-05 2009-12-16 微软公司 管理针对异构资源域的分类系统的技术
CN101661474A (zh) * 2008-08-26 2010-03-03 华为技术有限公司 一种搜索方法和系统
CN102033910A (zh) * 2010-11-19 2011-04-27 福建富士通信息软件有限公司 一种基于多数据源的企业搜索引擎技术
CN102184257A (zh) * 2011-06-02 2011-09-14 广东亿迅科技有限公司 一种统一搜索方法、装置及系统
CN102314654A (zh) * 2010-07-08 2012-01-11 阿里巴巴集团控股有限公司 一种信息推送方法及信息推送服务器
CN102385585A (zh) * 2010-08-27 2012-03-21 阿里巴巴集团控股有限公司 网页数据库的建立方法、网页搜索方法以及相关装置
CN104820715A (zh) * 2015-05-19 2015-08-05 杭州迅涵科技有限公司 基于多维度关联的数据共享和分析方法及系统
US20150302006A1 (en) * 2014-04-18 2015-10-22 Verizon Patent And Licensing Inc. Advanced search for media content
CN105279286A (zh) * 2015-11-27 2016-01-27 陕西艾特信息化工程咨询有限责任公司 一种交互式大数据分析查询处理方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7536383B2 (en) * 2006-08-04 2009-05-19 Apple Inc. Method and apparatus for searching metadata
KR20080058634A (ko) * 2006-12-22 2008-06-26 엔에이치엔(주) 검색 시스템 및 방법
CN101620605A (zh) * 2008-07-04 2010-01-06 华为技术有限公司 搜索方法、搜索服务器和搜索系统
CN102521223A (zh) * 2011-09-02 2012-06-27 天津市道本科技有限公司 三词合一的企业知识关联存储、搜索与呈现方法
CN105900081B (zh) * 2013-02-19 2020-09-08 谷歌有限责任公司 基于自然语言处理的搜索

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060047649A1 (en) * 2003-12-29 2006-03-02 Ping Liang Internet and computer information retrieval and mining with intelligent conceptual filtering, visualization and automation
CN101351800A (zh) * 2006-01-05 2009-01-21 吉市有限公司 基于用户购买行为智能搜索产品的方法及由此而得的系统
CN101606174A (zh) * 2007-02-05 2009-12-16 微软公司 管理针对异构资源域的分类系统的技术
CN101661474A (zh) * 2008-08-26 2010-03-03 华为技术有限公司 一种搜索方法和系统
CN102314654A (zh) * 2010-07-08 2012-01-11 阿里巴巴集团控股有限公司 一种信息推送方法及信息推送服务器
CN102385585A (zh) * 2010-08-27 2012-03-21 阿里巴巴集团控股有限公司 网页数据库的建立方法、网页搜索方法以及相关装置
CN102033910A (zh) * 2010-11-19 2011-04-27 福建富士通信息软件有限公司 一种基于多数据源的企业搜索引擎技术
CN102184257A (zh) * 2011-06-02 2011-09-14 广东亿迅科技有限公司 一种统一搜索方法、装置及系统
US20150302006A1 (en) * 2014-04-18 2015-10-22 Verizon Patent And Licensing Inc. Advanced search for media content
CN104820715A (zh) * 2015-05-19 2015-08-05 杭州迅涵科技有限公司 基于多维度关联的数据共享和分析方法及系统
CN105279286A (zh) * 2015-11-27 2016-01-27 陕西艾特信息化工程咨询有限责任公司 一种交互式大数据分析查询处理方法

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108664586A (zh) * 2018-05-07 2018-10-16 北京中电普华信息技术有限公司 一种信息的获取方法及系统
CN108647213A (zh) * 2018-05-21 2018-10-12 辽宁工程技术大学 一种基于耦合关系分析的组合关键字语义相关度评估方法
CN109063108B (zh) * 2018-07-27 2020-03-03 北京字节跳动网络技术有限公司 搜索排序方法、装置、计算机设备和存储介质
CN109063108A (zh) * 2018-07-27 2018-12-21 天津字节跳动科技有限公司 搜索排序方法、装置、计算机设备和存储介质
CN109344300A (zh) * 2018-08-31 2019-02-15 深圳壹账通智能科技有限公司 自然语言的数据查询意图确定方法、装置和计算机设备
CN110928903B (zh) * 2018-08-31 2024-03-15 阿里巴巴集团控股有限公司 数据提取方法及装置、设备和存储介质
CN110928903A (zh) * 2018-08-31 2020-03-27 阿里巴巴集团控股有限公司 数据提取方法及装置、设备和存储介质
WO2020042530A1 (zh) * 2018-08-31 2020-03-05 深圳壹账通智能科技有限公司 自然语言的数据查询意图确定方法、装置和计算机设备
CN110716950A (zh) * 2019-09-20 2020-01-21 黄沙沙 一种口径系统建立方法、装置、设备及计算机存储介质
CN110737432A (zh) * 2019-09-20 2020-01-31 黄沙沙 一种基于词根表的脚本辅助设计方法及装置
CN110737432B (zh) * 2019-09-20 2023-10-20 黄沙沙 一种基于词根表的脚本辅助设计方法及装置
CN110688541A (zh) * 2019-10-08 2020-01-14 中国建设银行股份有限公司 一种报表数据的查询方法、装置、存储介质及电子设备
CN110807089B (zh) * 2019-10-29 2023-02-28 出门问问创新科技有限公司 一种问答方法、装置及电子设备
CN110807089A (zh) * 2019-10-29 2020-02-18 出门问问信息科技有限公司 一种问答方法、装置及电子设备
CN110851543A (zh) * 2019-11-08 2020-02-28 深圳市彬讯科技有限公司 一种数据建模的方法、装置、设备以及存储介质
CN112948414A (zh) * 2019-12-19 2021-06-11 深圳市明源云链互联网科技有限公司 数据报表生成方法、装置、电子设备及存储介质
CN111400556A (zh) * 2020-03-06 2020-07-10 上海数据交易中心有限公司 数据查询方法及装置、计算机设备、存储介质
CN111913984A (zh) * 2020-08-18 2020-11-10 南开大学 一种基于学龄前儿童认知的绘本信息查询方法及系统
CN113793193A (zh) * 2021-08-13 2021-12-14 唯品会(广州)软件有限公司 数据搜索准确性验证方法、装置、设备及计算机可读介质
CN113793193B (zh) * 2021-08-13 2024-02-02 唯品会(广州)软件有限公司 数据搜索准确性验证方法、装置、设备及计算机可读介质
CN116257545A (zh) * 2022-12-28 2023-06-13 联通智网科技股份有限公司 一种数据查询方法、装置、电子设备及存储介质
CN116257545B (zh) * 2022-12-28 2024-01-30 联通智网科技股份有限公司 一种数据查询方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
TW201805839A (zh) 2018-02-16
CN107729336B (zh) 2021-07-27
WO2018028443A1 (zh) 2018-02-15

Similar Documents

Publication Publication Date Title
CN107729336A (zh) 数据处理方法、设备及系统
US11663254B2 (en) System and engine for seeded clustering of news events
US11507551B2 (en) Analytics based on scalable hierarchical categorization of web content
US8131684B2 (en) Adaptive archive data management
WO2017097231A1 (zh) 话题处理方法及装置
CN104077407B (zh) 一种智能数据搜索系统及方法
CN101140588A (zh) 一种关联关系搜索结果的排序方法及装置
US9971828B2 (en) Document tagging and retrieval using per-subject dictionaries including subject-determining-power scores for entries
CN103942268B (zh) 搜索与应用相结合的方法、设备以及应用接口
US20140059089A1 (en) Method and apparatus for structuring a network
US20140040710A1 (en) System for setting fees for iterative parsing, matching, and correlation of sets of text strings drawn from real time crowd-sourced streamed data and using said matches to initiate APIs or trigger alerts to participants in a crowd sourced pervasive computing environment.
CN105389341A (zh) 一种客服电话重复来电工单的文本聚类与分析方法
CA2956627A1 (en) System and engine for seeded clustering of news events
CN103886020A (zh) 一种房地产信息快速搜索方法
Al-Najran et al. A requirements specification framework for big data collection and capture
CN102063454A (zh) 一种搜索与应用相结合的方法和设备
Zhang et al. An approach of service discovery based on service goal clustering
CN116049379A (zh) 知识推荐方法、装置、电子设备和存储介质
CN107609921A (zh) 一种数据处理方法及服务器
US11328005B2 (en) Machine learning (ML) based expansion of a data set
CN112100216A (zh) 创意关键词的处理方法和装置
Rana et al. Analysis of web mining technology and their impact on semantic web
KR102041915B1 (ko) 인공지능을 활용한 데이터베이스 모듈 및 이를 이용하는 경제데이터 제공 시스템 및 방법
Tejasree et al. An improved differential bond energy algorithm with fuzzy merging method to improve the document clustering for information mining
Sukumar et al. Knowledge Graph Generation for Unstructured Data Using Data Processing Pipeline

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20211116

Address after: Room 507, floor 5, building 3, No. 969, Wenyi West Road, Wuchang Street, Yuhang District, Hangzhou City, Zhejiang Province

Patentee after: Zhejiang tmall Technology Co., Ltd

Address before: P.O. Box 847, 4th floor, block 1, Grand Cayman capital building

Patentee before: Alibaba Group Holdings Limited