CN104216992B - 一种信息处理方法及装置 - Google Patents

一种信息处理方法及装置 Download PDF

Info

Publication number
CN104216992B
CN104216992B CN201410456925.7A CN201410456925A CN104216992B CN 104216992 B CN104216992 B CN 104216992B CN 201410456925 A CN201410456925 A CN 201410456925A CN 104216992 B CN104216992 B CN 104216992B
Authority
CN
China
Prior art keywords
attribute information
aiming field
language
field
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410456925.7A
Other languages
English (en)
Other versions
CN104216992A (zh
Inventor
梁变
郭谢
孙勇义
刘生
张道泉
王玉娴
史晓峰
王勇
陈愈坚
李呈奇
刘小林
朱栩甲
任峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201410456925.7A priority Critical patent/CN104216992B/zh
Publication of CN104216992A publication Critical patent/CN104216992A/zh
Priority to EP14200683.2A priority patent/EP2996048A1/en
Priority to US14/586,679 priority patent/US9898508B2/en
Priority to KR1020140194564A priority patent/KR102348971B1/ko
Application granted granted Critical
Publication of CN104216992B publication Critical patent/CN104216992B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2452Query translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种信息处理方法,包括:获得目标字段的属性信息;依据所述目标字段的属性信息,获得利用第一语言描述的目标字段的属性信息;将所述利用第一语言描述的目标字段的属性信息发送给使用所述第一语言的查询引擎,以便于所述查询引擎依据利用第一语言描述的目标字段的属性信息,获得所述目标字段对应的数据;本发明实施例还提供一种信息处理装置。根据本发明实施例提供的技术方案,可以实现自动利用语言描述的目标字段的属性信息,以提高数据的查询效率。

Description

一种信息处理方法及装置
【技术领域】
本发明涉及计算机技术领域,尤其涉及一种信息处理方法及装置。
【背景技术】
目前,随着互联网的蓬勃发展,各种数据以爆炸式的速度增长。现有技术中,从存储单元中查询数据的方法是:依据所需要查询的数据,人工利用某种语言来描述需要查询的数据,该利用某种语言来描述需要查询的数据相当于人工编写的查询代码,与存储单元对应的查询引擎可以运行该查询代码,以实现在该存储单元中自动查询所需要的数据。
然而,对于不同的数据查询需求,需要编写不同的查询代码。而且,数据的存储单元是多样性的,如存储在海杜普(Hadoop)类型的存储单元、蜂巢(Hive)类型的存储单元等,数据的存储单元不同,在处理数据需求时,所利用的语言也不同。因此,目前这种查询代码需要人工进行编写的方法,需要人工学习不同的语言,并手动编写查询代码,才能查询到数据,导致目前数据的查询效率比较低。
【发明内容】
有鉴于此,本发明实施例提供了一种信息处理方法及装置,可以实现自动利用语言描述目标字段的属性信息,以提高数据的查询效率。
本发明实施例提供了一种信息处理方法,包括:
获得目标字段的属性信息;
依据所述目标字段的属性信息,获得利用第一语言描述的目标字段的属性信息;
将所述利用第一语言描述的目标字段的属性信息发送给使用所述第一语言的查询引擎,以便于所述查询引擎依据利用第一语言描述的目标字段的属性信息,获得所述目标字段对应的数据。
上述方法中,所述获得目标字段的属性信息,包括:
接收利用第二语言描述的候选字段的属性信息;对所述利用第二语言描述的候选字段的属性信息进行解析,以获得所述候选字段的属性信息;
在所述候选字段的属性信息中去除不正确的候选字段的属性信息,以获得目标字段的属性信息。
上述方法中,所述目标字段的属性信息包括所述目标字段的名称;所述依据所述目标字段的属性信息,获得利用第一语言描述的目标字段的属性信息,包括:
依据所述目标字段的名称,获得存储所述目标字段的存储单元的类型信息;
依据所述类型信息,获得查询所述目标字段的数值的查询引擎所使用的第一语言;
依据所述第一语言和所述目标字段的属性信息,获得所述利用第一语言描述的目标字段的属性信息。
上述方法中,所述目标字段的属性信息还包括所述目标字段的聚类函数,所述目标字段的聚类函数用于所述查询引擎对获得的所述目标字段对应的数值进行聚类处理;其中,所述聚类函数包括以下函数中至少一个:求和函数、求平均值函数、计数函数、求最大值函数和求最小值函数;和/或,
所述目标字段的属性信息还包括所述目标字段的筛选条件,所述目标字段的筛选条件用于所述查询引擎对获得的所述目标字段对应的数值进行筛选处理。
上述方法中,所述第一语言包括微软M语言、R语言、Hive查询语言HQL或者结构化查询语言SQL。
本发明实施例提供了一种信息处理装置,包括:
获取单元,用于获得目标字段的属性信息;
处理单元,用于依据所述目标字段的属性信息,获得利用第一语言描述的目标字段的属性信息;
发送单元,用于将所述利用第一语言描述的目标字段的属性信息发送给使用所述第一语言的查询引擎,以便于所述查询引擎依据利用第一语言描述的目标字段的属性信息,获得所述目标字段对应的数据。
上述装置中,所述获取单元具体用于:
接收利用第二语言描述的候选字段的属性信息;对所述利用第二语言描述的候选字段的属性信息进行解析,以获得所述候选字段的属性信息;
在所述候选字段的属性信息中去除不正确的候选字段的属性信息,以获得目标字段的属性信息。
上述装置中,所述目标字段的属性信息包括所述目标字段的名称;所述处理单元具体用于:
依据所述目标字段的名称,获得存储所述目标字段的存储单元的类型信息;
依据所述类型信息,获得查询所述目标字段的数值的查询引擎所使用的第一语言;
依据所述第一语言和所述目标字段的属性信息,获得所述利用第一语言描述的目标字段的属性信息。
上述装置中,所述目标字段的属性信息还包括所述目标字段的聚类函数,所述目标字段的聚类函数用于所述查询引擎对获得的所述目标字段对应的数值进行聚类处理;其中,所述聚类函数包括以下函数中至少一个:求和函数、求平均值函数、计数函数、求最大值函数和求最小值函数;和/或,
所述目标字段的属性信息还包括所述目标字段的筛选条件,所述目标字段的筛选条件用于所述查询引擎对获得的所述目标字段对应的数值进行筛选处理。
上述装置中,所述第一语言包括微软M语言、R语言、Hive查询语言HQL或者结构化查询语言SQL。
由以上技术方案可以看出,本发明实施例具有以下有益效果:
本发明实施例中,可以利用查询引擎使用的语言描述目标字段的属性信息,然后将获得的利用该语言描述的目标字段的属性信息发送给该查询引擎,查询引擎就可以依据利用该语言描述的目标字段的属性信息,查询所述目标字段的数值,从而获得目标字段对应的数据。这样,本发明实施例就可以实现自动地利用语言描述需要查询的数据,以自动生成查询代码,与现有技术中人工利用某种语言来描述需要查询的数据的技术方案相比,不再需要手动编写查询代码,能够提高数据的查询效率。
【附图说明】
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例所提供的技术方案使用的系统示意图;
图2是本发明实施例所提供的信息处理方法的流程示意图;
图3是本发明实施例中前端的UI示意图
图4是本发明实施例所提供的元数据分层管理示意图;
图5是本发明实施例所提供的信息处理装置的功能方块图。
【具体实施方式】
为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
应当理解,尽管在本发明实施例中可能采用术语第一、第二等来描述语言,但这些关键词不应限于这些术语。这些术语仅用来将关键词彼此区分开。例如,在不脱离本发明实施例范围的情况下,第一语言也可以被称为第二语言,类似地,第二语言也可以被称为第一语言。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
本发明实施例所提供的技术方案使用的系统如图1所示,主要由用户界面(UserInterface,UI)、信息处理装置、查询引擎和存储单元组成,本发明实施例所提供的方法在信息处理装置侧实现。
本发明实施例给出一种信息处理方法,请参考图2,其为本发明实施例所提供的信息处理方法的流程示意图,如图所示,该方法包括以下步骤:
S201,获得目标字段的属性信息。
具体的,本发明实施例中,上述信息处理装置获得目标字段的属性信息的方法可以包括:
首先,接收前端的UI发送的利用第二语言描述的候选字段的属性信息,然后,对所述利用第二语言描述的候选字段的属性信息进行解析,以获得所述候选字段的属性信息。然后,在所述候选字段的属性信息中去除不正确的候选字段的属性信息,以获得目标字段的属性信息。
优选的,前端的UI可以接收用户配置的候选字段的属性信息;其中,该候选字段的属性信息可以包括候选字段的名称,还可以包括候选字段的聚类函数和候选字段的筛选条件中至少一个。
其中,由于后端的存储单元中会存在大量字段以及每个字段对应的数值,因此,当查询引擎需要查询存储单元中的某数值时,需要前端的UI接收配置的需要查询的数值所对应的字段的名称,将该字段的名称作为上述候选字段的名称。例如,存储单元存储的每条搜索日志中包含字段A、字段B、字段C和字段D,如果需要查询引擎查询字段B的数值,则用户需要在前端的UI上输入字段B的名称。
例如,请参考图3,其为本发明实施例中前端的UI示意图,如图所示,前端的UI显示了多个字段的名称,用户可以在该多个字段中勾选至少一个候选字段。
其中,所述候选字段的聚类函数用于查询引擎对获得的候选字段对应的数值进行聚类处理。优选的,所述聚类函数可以包括以下函数中至少一个:求和函数、求平均值函数、计数函数、求最大值函数和求最小值函数。相应的,若聚类函数包括求和函数,则查询引擎在查询到数值后可以对查询到的数值进行求和计算。若聚类函数包括求平均值函数,则查询引擎在查询到数值后可以对查询到的数值进行求平均值计算。若聚类函数包括计数函数,则查询引擎在查询到数值后,可以对查询到的数值进行数目统计。若聚类函数包括求最大值函数,则查询引擎在查到数值后,可以获得数值中的最大值。若聚类函数包括求最小值函数,则查询引擎在查到数值后,可以获得数值中的最小值。可以理解的,聚类函数还可以包括其他对数值进行统计的函数,上述聚类函数仅用以举例说明,并不限定聚类函数只包含上述函数。
其中,所述候选字段的筛选条件用于查询引擎依据该筛选条件,对获得的数值进行筛选处理。
优选的,依据该筛选条件,对获得的数值进行筛选处理可以包括以下几种筛选处理中至少一个:依据黑名单或者白名单,对数值进行筛选处理;依据阈值对数值进行筛选处理;依据精确匹配或者模糊匹配,对字段的数值进行筛选处理;依据时间区间,对数值进行筛选出里;依据出现次数,对字段的数值进行筛选处理。
例如,筛选条件为检索词包含鲜花速递,则对检索词对应的字段进行查询,以获得所有检索词,然后对检索词进行筛选处理,以获得包含鲜花速递的检索词。再例如,筛选条件为时间区间8点至22点,则对获得的数值进行筛选处理,只保留8点至22点的日志中的数值。再例如,筛选条件为获得出现次数最多的检索词,则对依据检索词对应的字段进行查询,以获得检索词,并统计每个检索词的出现次数,然后获得出现次数最多的检索词。
前端的UI可以接收用户输入的候选字段的属性信息的方法可以包括以下三种中至少一种:
第一种:前端的UI可以接收用户直接输入的候选字段的属性信息。
第二种:前端的UI可以接收用户在若干选项中选出的候选字段的属性信息。
第三种:前端的UI可以依据预设的文件地址,从该文件地址中找到配置文件,进而从配置文件中自动获取候选字段的属性信息。这种方法适用于候选字段的属性信息比较庞大的情况,通过配置文件可以批量获取候选字段的属性信息。
前端的UI在获得候选字段的属性信息后,利用预设的第二语言对该候选字段的属性信息进行描述,然后将获得的利用第二语言描述的候选字段的属性信息发送给后端的信息处理装置,这样信息处理装置就可以接收到前端的UI发送的利用第二语言描述的候选字段的属性信息。例如,所述第二语言可以包括一种类结构化查询语言(Structured QueryLanguage,SQL)或者数据格式。例如,该数据格式可以包括轻量级的数据交换格式(JavaScript Object Notation,JSON)。
后端的信息处理装置在从前端的UI获得利用第二语言描述的候选字段的属性信息后,对利用第二语言描述的候选字段的属性信息进行解析处理,就可以获得候选字段的属性信息,信息处理装置还需要进一步对获得的候选字段的属性信息进行正确性判断,判断属性字段的名称是否正确,若不正确,就在候选字段的属性信息中去除该不正确的字段的名称以及针对该不正确的字段的聚类函数和筛选条件,从而实现在所述候选字段的属性信息中去除不正确的候选字段的属性信息,其余的候选字段的属性信息就可以作为本发明实施例中的目标字段的属性信息。
可以理解的,目标字段的属性信息可以包括全部或者部分的候选字段的属性信息,因此,所述目标字段的属性信息可以包括目标字段的名称,还可以包括目标字段的聚类函数和目标字段的筛选条件中至少一个。同理,所述目标字段的聚类函数用于所述查询引擎对获得的所述目标字段对应的数值进行聚类处理;其中,所述聚类函数包括以下函数中至少一个:求和函数、求平均值函数、计数函数、求最大值函数、求最小值函数。所述目标字段的属性信息还包括所述目标字段的筛选条件,所述目标字段的筛选条件用于所述查询引擎对获得的所述目标字段对应的数值进行筛选处理。
S202,依据所述目标字段的属性信息,获得利用第一语言描述的目标字段的属性信息。
具体的,后端的信息处理装置在获得目标字段的属性信息后,可以获得利用第一语言描述的目标字段的属性信息。
举例说明,依据目标字段的属性信息,获得利用第一语言描述的目标字段的属性信息的方法可以包括:
首先,依据所述目标字段的名称,获得存储所述目标字段的存储单元的类型信息。
例如,可以依据目标字段的名称以及预设的字段的名称与表的对应关系,获得一个存储目标字段的表或者获得至少两个存储目标字段的表。
若获得至少两个存储目标字段的表,则选择包含的内容最少的表,将选出的包含的内容最少的表作为所述存储目标字段的表。这里,包含的内容最少的表对应的查询速度最快,因此,为了优化查询速度,当存在至少两个存储目标字段的表时,只选择一个内容最少的表即可。
请参考图4,其为本发明实施例所提供的元数据分层管理示意图,如图所示,在获得一个存储目标字段的表后,依据该目标字段的表所包含的数据源号,获得数据源信息,该数据源信息中保存后端存储该目标字段的存储单元的相关信息,如编号、名称、描述、账号、密码、主机、端口号、路径、参数和类型编号,依据其中的类型编号可以获得后端存储该目标字段的存储单元的类型信息。
然后,依据所述类型信息,获得查询所述目标字段的数值的查询引擎所使用的第一语言。
优选的,可以依据该存储单元的类型信息以及类型与第一语言的对应关系,可以获得该类型信息所对应的第一语言。本发明实施例中,所述第一语言指的是能够在该存储单元执行查询操作的查询引擎所使用的语言。
优选的,所述第一语言包括微软(Microsoft,M)语言、R语言、蜂巢查询语言(HiveQuery Language,HQL)或者结构化查询语言(Structured Query Language,SQL)。
最后,依据所述第一语言和所述目标字段的属性信息,获得所述利用第一语言描述的目标字段的属性信息。
可以理解的,第一语言、查询引擎以及存储单元是一一对应的,后端的每个存储单元都存在与该存储单元对应的查询引擎,该查询引擎能够在对应的存储单元中执行查询操作,然而查询引擎想要在存储单元中执行查询操作,以获得目标字段对应的数值,则查询引擎需要运行可执行代码,该可执行代码需要利用查询引擎所使用的第一语言实现,这样,查询引擎才能够运行该可执行代码,从而实现查询操作。
如图1所示,如果存储单元为Hadoop类型的存储单元,Hadoop类型的存储单元对应的查询引擎所使用的第一语言是M语言或者R语言,则Hadoop类型的存储单元对应的第一语言是M语言或者R语言。再例如,如果存储单元为Hive类型的存储单元,HIVE类型的存储单元对应的查询引擎所使用的第一语言是HQL,则Hive类型的存储单元对应的第一语言是HQL。再例如,如果存储单元为My SQL类型的存储单元,My SQL类型的存储单元对应的查询引擎所使用的第一语言是SQL,则My SQL类型的存储单元对应的第一语言是SQL。
S203,将所述利用第一语言描述的目标字段的属性信息发送给使用所述第一语言的查询引擎,以便于所述查询引擎依据利用第一语言描述的目标字段的属性信息,获得所述目标字段对应的数据。
具体的,信息处理装置在获得利用第一语言描述的目标字段的属性信息后,将该利用第一语言描述的目标字段的属性信息发送给使用第一语言的查询引擎,即发送给查询目标字段的数值的查询引擎,以便于查询引擎在收到利用第一语言描述的目标字段的属性信息后,依据利用第一语言描述的目标字段的属性信息,获得目标字段对应的数据。
例如,查询引擎可以运行利用第一语言描述的目标字段的属性信息,然后依据第一语言中的语法,读取其中的目标字段的属性信息,依据其中目标字段的名称,在对应的存储单元中查询该目标字段对应的数值,在获得目标字段对应的数值后,可以将该数值作为目标字段对应的数据直接返回给前端的UI进行显示,也可以依据目标字段的属性信息中的聚类函数和/或筛选条件,对查询到的数值进行聚类处理和/或筛选处理,将处理后获得的数据作为目标字段对应的数据返回给前端的UI进行显示。
随着后端平台的发展,需要由大量的存储单元接入,因此为了更好的对存储单元中的数据进行管理和维护,需要使用元数据,元数据主要用于描述哪些数据在哪个存储单元中、定义要进入存储单元中的数据和从存储单元中产生的数据等。
如图4所示,元数据分为三层,从上到下依次为:业务元数据、模型抽象元数据和物理元数据。
其中,业务元数据指的是从业务角度描述存储单元中存储的数据,主要包含主题的属性信息、每个主题对应的字段和每个字段的属性信息。业务元数据还可以包括聚类函数和/或筛选条件。
其中,模型抽象元数据支持两种数据查询模式,即星型数据查询模式和单表数据查询模式。如图4所示,如果是星型数据查询模式,模型抽象元数据包含星型表的属性信息、星型表中的维度表以及维度表对应的聚合表。星型表包含一个基础表和至少一个维度表,其中,基础表用于保存至少一个字段的标识,维度表用于保存字段的标识与字段的名称的对应关系。
其中,如图4所示,物理元数据用于利用表的形式来记录存储单元存储的数据的属性信息。其中,该表可以包括若干列,每一列用于保存一个字段的属性信息,如编号、位置、名称、数据类型的编号、长度、所属表的编号、编码等,物理元数据中还包含该表的可用状态信息,该可用状态信息可以表示该表中的内容是否可用、在什么时间段可用等。对于每个列,物理元数据还包含该列的数据类型。该表还包含表自身的属性信息,如编码、名称、描述、标签、编码、大小以及字段所在的数据源的编号。依据数据源的编号可以获得对应的数据源的属性信息,如数据源的编号、名称、描述、账号、密码、主机、端口号、路径、参数和类型编号。对于数据源,物理元数据还可以保存该数据源的类型编号所对应的类型信息,如数据源的类型编号、类型名称和描述。
本发明实施例进一步给出实现上述方法实施例中各步骤及方法的装置实施例。
请参考图5,其为本发明实施例所提供的信息处理装置的功能方块图。如图所示,该装置包括:
获取单元501,用于获得目标字段的属性信息;
处理单元502,用于依据所述目标字段的属性信息,获得利用第一语言描述的目标字段的属性信息;
发送单元503,用于将所述利用第一语言描述的目标字段的属性信息发送给使用所述第一语言的查询引擎,以便于所述查询引擎依据利用第一语言描述的目标字段的属性信息,获得所述目标字段对应的数据。
优选的,所述获取单元501具体用于:
接收利用第二语言描述的候选字段的属性信息;对所述利用第二语言描述的候选字段的属性信息进行解析,以获得所述候选字段的属性信息;
在所述候选字段的属性信息中去除不正确的候选字段的属性信息,以获得目标字段的属性信息。
优选的,所述目标字段的属性信息包括所述目标字段的名称;所述处理单元502具体用于:
依据所述目标字段的名称,获得存储所述目标字段的存储单元的类型信息;
依据所述类型信息,获得查询所述目标字段的数值的查询引擎所使用的第一语言;
依据所述第一语言和所述目标字段的属性信息,获得所述利用第一语言描述的目标字段的属性信息。
优选的,所述目标字段的属性信息还包括所述目标字段的聚类函数,所述目标字段的聚类函数用于所述查询引擎对获得的所述目标字段对应的数值进行聚类处理;其中,所述聚类函数包括以下函数中至少一个:求和函数、求平均值函数、计数函数、求最大值函数和求最小值函数;和/或,
所述目标字段的属性信息还包括所述目标字段的筛选条件,所述目标字段的筛选条件用于所述查询引擎对获得的所述目标字段对应的数值进行筛选处理。
优选的,所述第一语言包括微软M语言、R语言、Hive查询语言HQL或者结构化查询语言SQL。
由于本实施例中的各单元能够执行图2所示的方法,本实施例未详细描述的部分,可参考对图2的相关说明。
本发明实施例的技术方案具有以下有益效果:
本发明实施例中,可以利用查询引擎使用的语言描述目标字段的属性信息,然后将获得的利用该语言描述的目标字段的属性信息发送给该查询引擎,查询引擎就可以依据利用该语言描述的目标字段的属性信息,查询所述目标字段的数值,从而获得目标字段对应的数据。这样,本发明实施例就可以实现自动地利用语言描述需要查询的数据,以自动生成查询代码,与现有技术中人工利用某种语言来描述需要查询的数据的技术方案相比,不再需要手动编写查询代码,能够提高数据的查询效率。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)或处理器(Processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (8)

1.一种信息处理方法,其特征在于,所述方法包括:
获得目标字段的属性信息,包括:接收利用第二语言描述的候选字段的属性信息;对所述利用第二语言描述的候选字段的属性信息进行解析,以获得所述候选字段的属性信息;在所述候选字段的属性信息中去除不正确的候选字段的属性信息,以获得目标字段的属性信息;
依据所述目标字段的属性信息,获得利用第一语言描述的目标字段的属性信息;
将所述利用第一语言描述的目标字段的属性信息发送给使用所述第一语言的查询引擎,以便于所述查询引擎依据利用第一语言描述的目标字段的属性信息,获得所述目标字段对应的数据。
2.根据权利要求1所述的方法,其特征在于,所述目标字段的属性信息包括所述目标字段的名称;所述依据所述目标字段的属性信息,获得利用第一语言描述的目标字段的属性信息,包括:
依据所述目标字段的名称,获得存储所述目标字段的存储单元的类型信息;
依据所述类型信息,获得查询所述目标字段的数值的查询引擎所使用的第一语言;
依据所述第一语言和所述目标字段的属性信息,获得所述利用第一语言描述的目标字段的属性信息。
3.根据权利要求1或2所述的方法,其特征在于,
所述目标字段的属性信息还包括所述目标字段的聚类函数,所述目标字段的聚类函数用于所述查询引擎对获得的所述目标字段对应的数值进行聚类处理;其中,所述聚类函数包括以下函数中至少一个:求和函数、求平均值函数、计数函数、求最大值函数和求最小值函数;和/或,
所述目标字段的属性信息还包括所述目标字段的筛选条件,所述目标字段的筛选条件用于所述查询引擎对获得的所述目标字段对应的数值进行筛选处理。
4.根据权利要求1或2所述的方法,其特征在于,所述第一语言包括微软M语言、R语言、Hive查询语言HQL或者结构化查询语言SQL。
5.一种信息处理装置,其特征在于,所述装置包括:
获取单元,用于获得目标字段的属性信息,包括:接收利用第二语言描述的候选字段的属性信息;对所述利用第二语言描述的候选字段的属性信息进行解析,以获得所述候选字段的属性信息;在所述候选字段的属性信息中去除不正确的候选字段的属性信息,以获得目标字段的属性信息;
处理单元,用于依据所述目标字段的属性信息,获得利用第一语言描述的目标字段的属性信息;
发送单元,用于将所述利用第一语言描述的目标字段的属性信息发送给使用所述第一语言的查询引擎,以便于所述查询引擎依据利用第一语言描述的目标字段的属性信息,获得所述目标字段对应的数据。
6.根据权利要求5所述的装置,其特征在于,所述目标字段的属性信息包括所述目标字段的名称;所述处理单元具体用于:
依据所述目标字段的名称,获得存储所述目标字段的存储单元的类型信息;
依据所述类型信息,获得查询所述目标字段的数值的查询引擎所使用的第一语言;
依据所述第一语言和所述目标字段的属性信息,获得所述利用第一语言描述的目标字段的属性信息。
7.根据权利要求5或6所述的装置,其特征在于,
所述目标字段的属性信息还包括所述目标字段的聚类函数,所述目标字段的聚类函数用于所述查询引擎对获得的所述目标字段对应的数值进行聚类处理;其中,所述聚类函数包括以下函数中至少一个:求和函数、求平均值函数、计数函数、求最大值函数和求最小值函数;和/或,
所述目标字段的属性信息还包括所述目标字段的筛选条件,所述目标字段的筛选条件用于所述查询引擎对获得的所述目标字段对应的数值进行筛选处理。
8.根据权利要求5或6所述的装置,其特征在于,所述第一语言包括微软M语言、R语言、Hive查询语言HQL或者结构化查询语言SQL。
CN201410456925.7A 2014-09-09 2014-09-09 一种信息处理方法及装置 Active CN104216992B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201410456925.7A CN104216992B (zh) 2014-09-09 2014-09-09 一种信息处理方法及装置
EP14200683.2A EP2996048A1 (en) 2014-09-09 2014-12-30 Method and device for processing information
US14/586,679 US9898508B2 (en) 2014-09-09 2014-12-30 Method and device for processing information
KR1020140194564A KR102348971B1 (ko) 2014-09-09 2014-12-31 정보 처리 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410456925.7A CN104216992B (zh) 2014-09-09 2014-09-09 一种信息处理方法及装置

Publications (2)

Publication Number Publication Date
CN104216992A CN104216992A (zh) 2014-12-17
CN104216992B true CN104216992B (zh) 2017-12-15

Family

ID=52098482

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410456925.7A Active CN104216992B (zh) 2014-09-09 2014-09-09 一种信息处理方法及装置

Country Status (4)

Country Link
US (1) US9898508B2 (zh)
EP (1) EP2996048A1 (zh)
KR (1) KR102348971B1 (zh)
CN (1) CN104216992B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104216992B (zh) * 2014-09-09 2017-12-15 百度在线网络技术(北京)有限公司 一种信息处理方法及装置
CN107038207B (zh) * 2017-02-20 2021-03-19 创新先进技术有限公司 一种数据查询方法、数据处理方法及装置
US10685026B2 (en) * 2017-04-11 2020-06-16 Sap Se Database query based match engine
CN108549683B (zh) * 2018-04-03 2022-04-22 联想(北京)有限公司 数据查询方法以及系统
CN108959631B (zh) * 2018-07-24 2022-07-15 北京百度网讯科技有限公司 用于查询信息的方法和装置
CN110442582B (zh) * 2019-08-09 2022-10-14 江苏满运软件科技有限公司 场景检测方法、装置、设备和介质
CN111080459B (zh) * 2019-11-21 2023-08-25 泰康保险集团股份有限公司 配置文件的配置方法、装置及可读存储介质
CN112988804A (zh) * 2019-12-12 2021-06-18 陕西西部资信股份有限公司 数据传输方法及系统
CN112487032A (zh) * 2020-11-27 2021-03-12 北京三快在线科技有限公司 数据查询的方法、装置、存储介质及电子设备
CN113468833B (zh) * 2021-06-11 2024-02-09 山东英信计算机技术有限公司 一种原理图中元器件属性标记方法、装置、设备及介质
CN113515610B (zh) * 2021-06-21 2022-09-13 中盾创新数字科技(北京)有限公司 一种基于面向对象语言处理的档案管理方法
CN113342830A (zh) * 2021-07-08 2021-09-03 银联商务股份有限公司 一种数据处理方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101021875A (zh) * 2007-03-22 2007-08-22 金蝶软件(中国)有限公司 面向对象的数据库访问方法及系统
CN101493830A (zh) * 2004-04-29 2009-07-29 Nec软件有限公司 结构化自然语言查询和知识系统
CN101788992A (zh) * 2009-05-06 2010-07-28 厦门东南融通系统工程有限公司 一种数据库查询语句的转换方法和转换系统
CN101925045A (zh) * 2009-06-17 2010-12-22 中兴通讯股份有限公司 一种提供用户业务数据的方法及系统

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3763982B2 (ja) * 1998-11-25 2006-04-05 株式会社日立製作所 データベース処理方法及びその実施装置並びにその処理プログラムを記録した媒体
US7853553B2 (en) 2001-03-26 2010-12-14 Siebel Systems, Inc. Engine for converting data from a source format to a destination format using user defined mappings
US7337170B2 (en) * 2005-01-18 2008-02-26 International Business Machines Corporation System and method for planning and generating queries for multi-dimensional analysis using domain models and data federation
US7599901B2 (en) 2006-12-06 2009-10-06 Microsoft Corporation Processing data-centric business models
US8572023B2 (en) * 2010-04-14 2013-10-29 Bank Of America Corporation Data services framework workflow processing
US9201558B1 (en) * 2011-11-03 2015-12-01 Pervasive Software Inc. Data transformation system, graphical mapping tool, and method for creating a schema map
JP5124680B1 (ja) * 2011-11-30 2013-01-23 楽天株式会社 情報処理装置、情報処理方法、情報処理プログラム及び記録媒体
US20140195514A1 (en) * 2013-01-09 2014-07-10 Dropbox, Inc. Unified interface for querying data in legacy databases and current databases
US9104762B1 (en) * 2013-01-14 2015-08-11 Amazon Technologies, Inc. Universal database management
CN104216992B (zh) * 2014-09-09 2017-12-15 百度在线网络技术(北京)有限公司 一种信息处理方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101493830A (zh) * 2004-04-29 2009-07-29 Nec软件有限公司 结构化自然语言查询和知识系统
CN101021875A (zh) * 2007-03-22 2007-08-22 金蝶软件(中国)有限公司 面向对象的数据库访问方法及系统
CN101788992A (zh) * 2009-05-06 2010-07-28 厦门东南融通系统工程有限公司 一种数据库查询语句的转换方法和转换系统
CN101925045A (zh) * 2009-06-17 2010-12-22 中兴通讯股份有限公司 一种提供用户业务数据的方法及系统

Also Published As

Publication number Publication date
US20160070757A1 (en) 2016-03-10
KR102348971B1 (ko) 2022-01-10
EP2996048A1 (en) 2016-03-16
CN104216992A (zh) 2014-12-17
KR20160030351A (ko) 2016-03-17
US9898508B2 (en) 2018-02-20

Similar Documents

Publication Publication Date Title
CN104216992B (zh) 一种信息处理方法及装置
CN108804641B (zh) 一种文本相似度的计算方法、装置、设备和存储介质
EP2581843B1 (en) Bigram Suggestions
CN102612691B (zh) 给文本评分的方法和系统
CN107515877A (zh) 敏感主题词集的生成方法和装置
CN108595461A (zh) 兴趣探索方法、存储介质、电子设备及系统
CN107220358A (zh) 兴趣点的推荐方法及装置
CN107688616A (zh) 使实体的独特事实显现
CN106528846A (zh) 一种检索方法及装置
KR20190128246A (ko) 검색 방법 및 장치 및 비-일시적 컴퓨터-판독가능 저장 매체
CN107391506A (zh) 用于查询数据的方法和装置
CN110347788A (zh) 业务查询方法、装置及存储介质、计算机设备
CN105164672A (zh) 内容分类
CN101739429A (zh) 一种优化聚类搜索结果的方法及其装置
CN111241400A (zh) 一种信息搜索方法及装置
CN108536763B (zh) 一种下拉提示方法和装置
WO2017065891A1 (en) Automated join detection
CN104794237B (zh) 网页信息处理方法及装置
CN114022188A (zh) 目标人群圈选方法、装置、设备以及存储介质
CN101639851A (zh) 一种数据存储、查询的方法和装置
CN104077555B (zh) 一种识别图片搜索中坏例的方法和装置
CN110209780A (zh) 一种问题模板生成方法、装置、服务器及存储介质
CN104537016B (zh) 一种确定文件所在分区的方法及装置
CN110490667A (zh) 一种数据处理方法、装置及电子设备
CN107291749A (zh) 一种数据指标关联关系的确定方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant