CN112069267A - 一种数据处理方法和装置 - Google Patents

一种数据处理方法和装置 Download PDF

Info

Publication number
CN112069267A
CN112069267A CN201910495814.XA CN201910495814A CN112069267A CN 112069267 A CN112069267 A CN 112069267A CN 201910495814 A CN201910495814 A CN 201910495814A CN 112069267 A CN112069267 A CN 112069267A
Authority
CN
China
Prior art keywords
user
entity
entities
domain entity
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910495814.XA
Other languages
English (en)
Inventor
李长山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201910495814.XA priority Critical patent/CN112069267A/zh
Publication of CN112069267A publication Critical patent/CN112069267A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开涉及一种数据处理方法和装置。该方法包括:根据用户输入内容确定用户意图;基于数据知识图谱,确定与所述用户意图匹配的多个目标实体;分别确定所述多个目标实体的属性信息;根据所述属性信息,执行与所述用户意图对应的数据处理操作。本公开在数据处理过程中可以提高实体识别的精准性,有效满足用户的数据处理需求。

Description

一种数据处理方法和装置
技术领域
本公开涉及计算机技术领域,尤其涉及一种数据处理方法和装置。
背景技术
随着计算机技术和人工智能的飞速发展,出现了人机对话系统,人机对话系统是一种可以和人进行连贯对话的计算机系统。目前,人机对话系统应用于数据处理场景时,实体识别依赖于预先定义的数据模型,导致实体识别的精准性较差,使得数据处理过程无法满足用户需求。
发明内容
有鉴于此,本公开提出了一种数据处理方法和装置,使得可以在数据处理过程中提高实体识别的精准性,进而有效满足用户的数据处理需求。
根据本公开的第一方面,提供了一种数据处理方法,包括:根据用户输入内容确定用户意图;基于数据知识图谱,确定与所述用户意图匹配的多个目标实体;分别确定所述多个目标实体的属性信息;根据所述属性信息,执行与所述用户意图对应的数据处理操作。
在一种可能的实现方式中,通过下述方式构建所述数据知识图谱:根据数据库中的元数据,构建用户域实体、指标域实体、维度域实体,以及不同实体之间的映射关系,所述用户域实体中包括多个不同的用户实体,所述指标域实体中包括多个不同的指标实体,所述维度域实体中包括多个不同的维度实体;根据所述用户域实体、所述指标域实体、所述维度域实体和所述不同实体之间的映射关系,构建所述数据知识图谱。
在一种可能的实现方式中,基于数据知识图谱,确定与所述用户意图匹配的多个目标实体,包括:根据所述用户意图,在所述指标域实体中确定目标指标实体,以及在所述用户域实体中确定目标用户实体;根据所述数据知识图谱,确定与所述目标指标实体和所述目标用户实体具有映射关系的至少一个目标维度实体;其中,所述目标指标实体、所述目标用户实体,以及所述至少一个目标维度实体,构成与所述用户意图匹配的多个目标实体。
在一种可能的实现方式中,所述用户意图包括下述之一:数据查询、数据分析。
在一种可能的实现方式中,所述用户意图为数据查询;根据所述属性信息,执行与所述用户意图对应的数据处理操作,包括:根据所述数据知识图谱,确定所述属性信息对应的数据库信息;根据所述属性信息对应的数据库信息,生成SQL;根据所述SQL,在所述数据库中执行数据查询操作。
在一种可能的实现方式中,所述数据库信息包括下述至少一种:物理表信息、字段信息、分区信息,和数据分布信息。
在一种可能的实现方式中,所述方法还包括:当所述数据库中的元数据更新后,更新所述数据知识图谱。
在一种可能的实现方式中,所述用户输入内容为文本输入内容和/或语音输入内容。
根据本公开的第二方面,提供了一种构建数据知识图谱的方法,包括:根据数据库中的元数据,构建用户域实体、指标域实体、维度域实体,以及不同实体之间的映射关系,所述用户域实体中包括多个不同的用户实体,所述指标域实体中包括多个不同的指标实体,所述维度域实体中包括多个不同的维度实体;根据所述用户域实体、所述指标域实体、所述维度域实体和所述不同实体之间的映射关系,构建所述数据知识图谱。
根据本公开的第三方面,提供了一种数据处理装置,包括:第一确定模块,用于根据用户输入内容确定用户意图;第二确定模块,用于基于数据知识图谱,确定与所述用户意图匹配的多个目标实体;第三确定模块,用于分别确定所述多个目标实体的属性信息;数据处理模块,用于根据所述属性信息,执行与所述用户意图对应的数据处理操作。
在一种可能的实现方式中,所述装置还包括:第一构建模块,用于根据数据库中的元数据,构建用户域实体、指标域实体、维度域实体,以及不同实体之间的映射关系,所述用户域实体中包括多个不同的用户实体,所述指标域实体中包括多个不同的指标实体,所述维度域实体中包括多个不同的维度实体;第二构建模块,用于根据所述用户域实体、所述指标域实体、所述维度域实体和所述不同实体之间的映射关系,构建所述数据知识图谱。
在一种可能的实现方式中,所述第二确定模块包括:第一确定子模块,用于根据所述用户意图,在所述指标域实体中确定目标指标实体,以及在所述用户域实体中确定目标用户实体;第二确定子模块,用于根据所述数据知识图谱,确定与所述目标指标实体和所述目标用户实体具有映射关系的至少一个目标维度实体;其中,所述目标指标实体、所述目标用户实体,以及所述至少一个目标维度实体,构成与所述用户意图匹配的多个目标实体。
在一种可能的实现方式中,所述用户意图包括下述之一:数据查询、数据分析。
在一种可能的实现方式中,所述用户意图为数据查询;所述数据处理模块包括:第三确定子模块,用于根据所述数据知识图谱,确定所述属性信息对应的数据库信息;查询语言生成子模块,用于根据所述属性信息对应的数据库信息,生成SQL;数据查询子模块,用于根据所述SQL,在所述数据库中执行数据查询操作。
在一种可能的实现方式中,所述数据库信息包括下述至少一种:物理表信息、字段信息、分区信息,和数据分布信息。
在一种可能的实现方式中,所述装置还包括:更新模块,用于当所述数据库中的元数据更新后,更新所述数据知识图谱。
在一种可能的实现方式中,所述用户输入内容为文本输入内容和/或语音输入内容。
根据本公开的第四方面,提供了一种数据处理装置,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为执行上述第一方面所述的数据处理方法。
根据本公开的第五方面,提供了一种非易失性计算机可读存储介质,其上存储有计算机程序指令,其中,所述计算机程序指令被处理器执行时实现上述第一方面所述的数据处理方法。
根据本公开的第六方面,提供了一种构建数据知识图谱的装置,包括:第一构建模块,用于根据数据库中的元数据,构建用户域实体、指标域实体、维度域实体,以及不同实体之间的映射关系,所述用户域实体中包括多个不同的用户实体,所述指标域实体中包括多个不同的指标实体,所述维度域实体中包括多个不同的维度实体;第二构建模块,用于根据所述用户域实体、所述指标域实体、所述维度域实体和所述不同实体之间的映射关系,构建所述数据知识图谱。
根据本公开的第七方面,提供了一种数据处理装置,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为执行上述第二方面所述的构建数据知识图谱的方法。
根据本公开的第八方面,提供了一种非易失性计算机可读存储介质,其上存储有计算机程序指令,其中,所述计算机程序指令被处理器执行时实现上述第二方面所述的构建数据知识图谱的方法。
根据用户输入内容确定用户意图,基于数据知识图谱确定与用户意图匹配的多个目标实体,以及分别确定多个目标实体的属性信息,进而根据属性信息执行与用户意图对应的数据处理操作,从而在数据处理过程中可以提高实体识别的精准性,有效满足用户的数据处理需求。
根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。
附图说明
包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面,并且用于解释本公开的原理。
图1示出本公开一实施例的数据处理方法的流程示意图;
图2示出本公开一实施例的构建数据知识图谱的方法的流程示意图;
图3示出本公开一实施例的构建数据知识图谱的示意图;
图4示出本公开一实施例的数据处理装置的结构示意图;
图5示出本公开一实施例的构建数据知识图谱的装置的结构示意图;
图6示出本公开一实施例的电子设备的结构示意图。
具体实施方式
以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
另外,为了更好的说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。
图1示出本公开一实施例的数据处理方法的流程示意图。如图1所示,该方法可以包括:
步骤S11,根据用户输入内容确定用户意图。
步骤S12,基于数据知识图谱,确定与用户意图匹配的多个目标实体。
步骤S13,分别确定多个目标实体的属性信息。
步骤S14,根据属性信息,执行与用户意图对应的数据处理操作。
图1所示的数据处理方法可以应用于基于人机对话的数据处理,也可以应用于其它数据处理,本公开对此不做具体限定。下面以基于人机对话的数据处理为例,对图1所示的数据处理方法进行详细介绍,但不构成对该数据处理方法的限定。
在基于人机对话进行数据处理之前,基于数据库预先构建语义化的数据知识图谱。
图2示出本公开一实施例的构建数据知识图谱的方法的流程示意图。如
图2所示,该方法可以包括:
步骤S21,根据数据库中的元数据,构建用户域实体、指标域实体、维度域实体,以及不同实体之间的映射关系,用户域实体中包括多个不同的用户实体,指标域实体中包括多个不同的指标实体,维度域实体中包括多个不同的维度实体;
步骤S22,根据用户域实体、指标域实体、维度域实体和不同实体之间的映射关系,构建数据知识图谱。
其中,元数据是描述数据的数据,也就是用于描述数据库中存储的数据的数据属性的信息,用来实现如指示存储位置、历史数据、资源查找、文件记录等功能。
知识图谱,从学术的角度是指语义网络的知识库。在数据库领域,数据知识图谱指的是数据库中不同数据之间的多关系图。
实体,是指现实世界中客观存在的并可以相互区分的对象或事物。在数据库领域,实体指的是某类事物的集合,可以是具体的人、事、物,也可以是抽象的概念、关系。
在一示例中,构建语义化的数据知识图谱具体包括:首先,基于数据库中的数据业务模型,对不同物理表之间的字段建立链接关系。针对不同物理表中的相同字段、指标或维度,判断语义是否相同,若相同,则建立统一(映射)关系。例如,如下述物理表1和物理表2所示,物理表1中的字段“金额”与物理表2中的字段“钱”语义相同,均用于表示用户的消费值,则将物理表1中的字段“金额”与物理表2中的字段“钱”建立映射关系。
物理表1
Figure BDA0002088539180000061
Figure BDA0002088539180000071
物理表2
用户 购买产品
用户A 产品3 Z元
用户C 产品2 Y元
然后,把物理表作为属性信息进行融合以屏蔽数据表的物理限制,即构建用户域实体、指标域实体、维度域实体,以及不同实体之间的映射关系,进而根据用户域实体、指标域实体、维度域实体和不同实体之间的映射关系,构建数据知识图谱。
图3示出本公开一实施例的构建数据知识图谱的示意图。如图3所示,数据库中的业务元数据包括多个元数据集合:个人元数据集合、企业元数据集合、服务领域元数据集合等。其中,个人元数据集合中包括基础属性、偏好、地理、社交、消费等多个元数据;企业元数据集合中包括基本信息、企业关系、金融风控等多个元数据;服务领域元数据集合中包括请求量、接起量、解决率、转人工率等多个元数据。
通过对数据库中的业务元数据进行实体对齐、属性融合、值规范化等操作,构建数据知识图谱。如图3所示,数据知识图谱中包括用户域实体(包括所属业务域实体、所属部门(Business Unit,BU)实体等)、指标域实体(包括对话轮次实体、解决率实体、转人工率实体等)、维度域实体(日期实体、行业实体、是否重要客户(Key Account,KA)实体、主营类目实体、场景实体等),以及不同实体之间的映射关系。
在一种可能的实现方式中,还包括:当数据库中的元数据更新后,更新数据知识图谱。
如图3所示,当数据库中的业务元数据更新后,更新数据知识图谱中的实体和/或实体之间的映射关系,使得更新后的数据知识图谱可以准确适用于数据处理请求,便于数据处理应用场景的扩展。
相对于现有技术中预先构建规则模板或训练数据模型的方式,构建以及更新数据知识图谱,可以有效降低基于人机对话进行数据处理的系统复杂度。
当数据知识图谱构建完成之后,可以应用于数据处理场景中。在数据处理的过程中,首先可以通过对用户输入内容进行语义解析,确定用户意图。例如,在基于人机对话的数据处理场景中,通过对人机对话内容(用户输入内容)进行语义解析确定用户意图。
在一种可能的实现方式中,用户输入内容为文本输入内容和/或语音输入内容。
在一示例中,当用户输入内容为文本输入内容时,通过对用户输入的文本输入内容进行命名实体识别(Named Entity Recognition,NER),确定用户意图。
在一示例中,当用户输入内容为语音输入内容时,首先对用户输入的语音输入内容进行语音识别,将语音输入内容转换为文本内容,进而通过对文本内容进行命名实体识别,确定用户意图。
命名实体识别,又称为“专名识别”,是自然语言处理(natural languageprocessing,NLP)的一个基础任务,是指识别文本内容中具有特定意义的实体,主要包括人名、地名、时间、机构名、专有名词等。
在一种可能的实现方式中,用户意图包括下述之一:数据查询、数据分析。
用户意图除了可以包括上述记载的数据查询和数据分析之外,还可以包括其它用户意图,本公开对此不做具体限定。
例如,用户输入内容为“昨天无线端产品A解决率”,通过对该用户输入内容进行命名实体识别,确定用户意图为指标查询。
在确定用户意图之后,基于数据知识图谱,确定与用户意图匹配的多个目标实体。
在一种可能的实现方式中,基于数据知识图谱,确定与用户意图匹配的多个目标实体,包括:根据用户意图,在指标域实体中确定目标指标实体,以及在用户域实体中确定目标用户实体;根据数据知识图谱,确定与目标指标实体和目标用户实体具有映射关系的至少一个目标维度实体;其中,目标指标实体、目标用户实体,以及至少一个目标维度实体,构成与用户意图匹配的多个目标实体。
在用户输入过程中(例如,在人机对话过程中),默认自动添加用户域的约束条件,即可以根据人机对话的上下文语境,可以获取与目标用户实体关联的目标维度实体。另外,基于数据知识图谱,还可以推断与目标指标实体和目标用户实体具备映射关系的目标维度实体。目标指标实体、目标用户实体,以及目标维度实体共同构成与用户意图匹配的多个目标实体。
通过数据知识图谱,判断维度实体、指标实体之间是否存在逻辑关系。例如,根据查询语句是否有结果,判断行业实体-Industry服装业与指标实体-Measure解决率是否存在关联维度,Cypher语法为:MATCH(i:Industry)<-[:DIMENSION]-(m:MEASURE)WHEREi.name="服装业"AND m.name="解决率"RETURN m.name。
在基于人机对话的数据处理中,基于数据知识图谱确定与用户意图匹配的多个目标实体,以及分别确定多个目标实体的属性信息,即确定与用户意图匹配的多个槽位并对每个槽位进行填槽的过程。其中,槽是指实体已经明确定义的属性,槽是由槽位组成的。
基于数据知识图谱可以实现动态的确定目标实体,即一次数据处理请求人机对话过程中,可以确定的目标实体不固定(槽位不固定),只要能在数据知识图谱中查询到的与目标指标实体和目标用户实体具备映射关系的维度实体,均可以确定为目标实体,从而可以解决现有技术中不确定维度情况下无法满足用户数据处理需求的问题。
在确定多个目标实体之后,根据上下文语境判断是否能够确定每个目标实体的属性信息。若是,则根据上下文语境分别确定多个目标实体的属性信息;若否,则通过状态跟踪和对话策略优化,来分别获取多个目标实体的属性信息。
例如,人机对话内容为“昨天无线端产品A解决率”,确定用户意图为指标查询。基于数据知识图谱进行命名实体识别和目标实体确定后,得到与用户意图匹配的四个目标实体分别为:指标、时间、类型、产品。根据上下文语境判断,确定目标实体指标的属性信息为解决率,目标实体时间的属性信息为昨天,目标实体类型的属性信息为无线端,目标实体产品的属性信息为产品A。
在一种可能的实现方式中,用户意图为数据查询;根据属性信息,执行与用户意图对应的数据处理操作,包括:根据数据知识图谱,确定属性信息对应的数据库信息;根据属性信息对应的数据库信息,生成结构化查询语言(Structured Query Language,SQL);根据SQL,在数据库中执行数据查询操作。
在一种可能的实现方式中,数据库信息包括下述至少一种:物理表信息、字段信息、分区信息,和数据分布信息。
根据用户意图和数据知识图谱确定多个目标实体,以及分别获取多个目标实体的属性信息之后,根据数据知识图谱确定属性信息对应的数据库信息(物理表信息、字段信息、分区信息,和数据分布信息),进而根据属性信息对应的数据库信息构建数据查询SQL,根据SQL,在数据库中执行数据查询操作,以及向用户反馈查询结果。
在一种可能的实现方式中,向用户反馈的查询结果可以为可视化图表。通过向用户输出可视化图表的查询结果,便于用户直观地了解到所需要查询的数据信息。
根据用户输入内容确定用户意图,基于数据知识图谱确定与用户意图匹配的多个目标实体,以及分别确定多个目标实体的属性信息,进而根据属性信息,执行与用户意图对应的数据处理操作,从而在数据处理过程中可以提高实体识别的精准性,有效满足用户的数据处理需求。
图4示出本公开一实施例的数据处理装置的结构示意图。图4所示的装置40可以用于执行图1所示方法实施例的步骤,装置40包括:
第一确定模块41,用于根据用户输入内容确定用户意图;
第二确定模块42,用于基于数据知识图谱,确定与用于意图匹配的多个目标实体;
第三确定模块43,用于分别确定多个目标实体的属性信息;
数据处理模块44,用于根据属性信息,执行与用户意图对应的数据处理操作。
在一种可能的实现方式中,装置40还包括:
第一构建模块,用于根据数据库中的元数据,构建用户域实体、指标域实体、维度域实体,以及不同实体之间的映射关系,用户域实体中包括多个不同的用户实体,指标域实体中包括多个不同的指标实体,维度域实体中包括多个不同的维度实体;
第二构建模块,用于根据用户域实体、指标域实体、维度域实体和不同实体之间的映射关系,构建数据知识图谱。
在一种可能的实现方式中,第二确定模块42包括:
第一确定子模块,用于根据用户意图,在指标域实体中确定目标指标实体,以及在用户域实体中确定目标用户实体;
第二确定子模块,用于根据数据知识图谱,确定与目标指标实体和目标用户实体具有映射关系的至少一个目标维度实体;
其中,目标指标实体、目标用户实体,以及至少一个目标维度实体,构成与用户意图匹配的目标实体。
在一种可能的实现方式中,用户意图包括下述之一:
数据查询、数据分析。
在一种可能的实现方式中,用户意图为数据查询;
数据处理模块44包括:
第三确定子模块,用于根据数据知识图谱,确定属性信息对应的数据库信息;
查询语言生成子模块,用于根据属性信息对应的数据库信息,生成SQL;
数据查询子模块,用于根据SQL,在数据库中执行数据查询操作。
在一种可能的实现方式中,数据库信息包括下述至少一种:
物理表信息、字段信息、分区信息,和数据分布信息。
在一种可能的实现方式中,装置40还包括:
更新模块,用于当数据库中的元数据更新后,更新数据知识图谱。
在一种可能的实现方式中,用户输入内容为文本输入内容和/或语音输入内容。
本公开提供的装置40能够实现图1所示方法实施例中的各个步骤,并实现相同的技术效果,为避免重复,这里不再赘述。
图5示出本公开一实施例的构建数据知识图谱的装置的结构示意图。图5所示的装置50可以用于执行图2所示方法实施例的步骤,装置50包括:
第一构建模块51,用于根据数据库中的元数据,构建用户域实体、指标域实体、维度域实体,以及不同实体之间的映射关系,用户域实体中包括多个不同的用户实体,指标域实体中包括多个不同的指标实体,维度域实体中包括多个不同的维度实体;
第二构建模块52,用于根据用户域实体、指标域实体、维度域实体和不同实体之间的映射关系,构建数据知识图谱。
本公开提供的装置50能够实现图2所示方法实施例中的各个步骤,并实现相同的技术效果,为避免重复,这里不再赘述。
图6示出本公开一实施例的电子设备的结构示意图。如图6所示,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外设部件互连标准(Peripheral Component Interconnect,PCI)总线或扩展工业标准结构(ExtendedIndustry Standard Architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,存放程序。具体地,程序可以包括程序代码,程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成数据处理装置和/或构建数据知识图谱的装置。处理器,执行存储器所存放的程序,并具体执行:根据用户输入内容确定用户意图;基于数据知识图谱,确定与用户意图匹配的多个目标实体;分别确定多个目标实体的属性信息;根据属性信息,执行与用户意图对应的数据处理操作。
在一种可能的实现方式中,处理器还被配置为执行:根据数据库中的元数据,构建用户域实体、指标域实体、维度域实体,以及不同实体之间的映射关系,用户域实体中包括多个不同的用户实体,指标域实体中包括多个不同的指标实体,维度域实体中包括多个不同的维度实体;根据用户域实体、指标域实体、维度域实体和不同实体之间的映射关系,构建数据知识图谱。
在一种可能的实现方式中,处理器被具体配置为执行:根据用户意图,在指标域实体中确定目标指标实体,以及在用户域实体中确定目标用户实体;根据数据知识图谱,确定与目标指标实体和目标用户实体具有映射关系的至少一个目标维度实体;其中,目标指标实体、目标用户实体,以及至少一个目标维度实体,构成与用户意图匹配的多个目标实体。
在一种可能的实现方式中,用户意图包括下述之一:数据查询、数据分析。
在一种可能的实现方式中,用户意图为数据查询;处理器被具体配置为执行:根据数据知识图谱,确定属性信息对应的数据库信息;根据属性信息对应的数据库信息,生成SQL;根据SQL,在数据库中执行数据查询操作。
在一种可能的实现方式中,数据库信息包括下述至少一种:物理表信息、字段信息、分区信息,和数据分布信息。
在一种可能的实现方式中,处理器还被配置为执行:当数据库中的元数据更新后,更新数据知识图谱。
在一种可能的实现方式中,用户输入内容为文本输入内容和/或语音输入内容。
处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本说明书实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本说明书实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
该电子设备可执行图1和/或图2所示方法实施例执行的方法,并实现上图1和/或图2所示方法实施例的功能,本说明书实施例在此不再赘述。
本说明书实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的电子设备执行时,能够使该电子设备执行图1所示实施例中的数据处理方法和/或图2所示实施例的构建数据知识图谱的方法,并具体执行图1和/或图2所示方法实施例的步骤。
本公开可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (22)

1.一种数据处理方法,其特征在于,包括:
根据用户输入内容确定用户意图;
基于数据知识图谱,确定与所述用户意图匹配的多个目标实体;
分别确定所述多个目标实体的属性信息;
根据所述属性信息,执行与所述用户意图对应的数据处理操作。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
通过下述方式构建所述数据知识图谱:
根据数据库中的元数据,构建用户域实体、指标域实体、维度域实体,以及不同实体之间的映射关系,所述用户域实体中包括多个不同的用户实体,所述指标域实体中包括多个不同的指标实体,所述维度域实体中包括多个不同的维度实体;
根据所述用户域实体、所述指标域实体、所述维度域实体和所述不同实体之间的映射关系,构建所述数据知识图谱。
3.根据权利要求2所述的方法,其特征在于,基于数据知识图谱,确定与所述用户意图匹配的多个目标实体,包括:
根据所述用户意图,在所述指标域实体中确定目标指标实体,以及在所述用户域实体中确定目标用户实体;
根据所述数据知识图谱,确定与所述目标指标实体和所述目标用户实体具有映射关系的至少一个目标维度实体;
其中,所述目标指标实体、所述目标用户实体,以及所述至少一个目标维度实体,构成与所述用户意图匹配的多个目标实体。
4.根据权利要求1所述的方法,其特征在于,所述用户意图包括下述之一:
数据查询、数据分析。
5.根据权利要求2所述的方法,其特征在于,所述用户意图为数据查询;
根据所述属性信息,执行与所述用户意图对应的数据处理操作,包括:
根据所述数据知识图谱,确定所述属性信息对应的数据库信息;
根据所属性信息对应的数据库信息,生成结构化查询语言SQL;
根据所述SQL,在所述数据库中执行数据查询操作。
6.根据权利要求5所述的方法,其特征在于,所述数据库信息包括下述至少一种:
物理表信息、字段信息、分区信息,和数据分布信息。
7.根据权利要求2所述的方法,其特征在于,所述方法还包括:
当所述数据库中的元数据更新后,更新所述数据知识图谱。
8.根据权利要求1所述的方法,其特征在于,所述用户输入内容为文本输入内容和/或语音输入内容。
9.一种构建数据知识图谱的方法,其特征在于,包括:
根据数据库中的元数据,构建用户域实体、指标域实体、维度域实体,以及不同实体之间的映射关系,所述用户域实体中包括多个不同的用户实体,所述指标域实体中包括多个不同的指标实体,所述维度域实体中包括多个不同的维度实体;
根据所述用户域实体、所述指标域实体、所述维度域实体和所述不同实体之间的映射关系,构建所述数据知识图谱。
10.一种数据处理装置,其特征在于,包括:
第一确定模块,用于根据用户输入内容确定用户意图;
第二确定模块,用于基于数据知识图谱,确定与所述用户意图匹配的多个目标实体;
第三确定模块,用于分别确定所述多个目标实体的属性信息;
数据处理模块,用于根据所述属性信息,执行与所述用户意图对应的数据处理操作。
11.根据权利要求10所述的装置,其特征在于,所述装置还包括:
第一构建模块,用于根据数据库中的元数据,构建用户域实体、指标域实体、维度域实体,以及不同实体之间的映射关系,所述用户域实体中包括多个不同的用户实体,所述指标域实体中包括多个不同的指标实体,所述维度域实体中包括多个不同的维度实体;
第二构建模块,用于根据所述用户域实体、所述指标域实体、所述维度域实体和所述不同实体之间的映射关系,构建所述数据知识图谱。
12.根据权利要求11所述的装置,其特征在于,所述第二确定模块包括:
第一确定子模块,用于根据所述用户意图,在所述指标域实体中确定目标指标实体,以及在所述用户域实体中确定目标用户实体;
第二确定子模块,用于根据所述数据知识图谱,确定与所述目标指标实体和所述目标用户实体具有映射关系的至少一个目标维度实体;
其中,所述目标指标实体、所述目标用户实体,以及所述至少一个目标维度实体,构成与所述用户意图匹配的多个目标实体。
13.根据权利要求10所述的装置,其特征在于,所述用户意图包括下述之一:
数据查询、数据分析。
14.根据权利要求11所述的装置,其特征在于,所述用户意图为数据查询;
所述数据处理模块包括:
第三确定子模块,用于根据所述数据知识图谱,确定所述属性信息对应的数据库信息;
查询语言生成子模块,用于根据所述属性信息对应的数据库信息,生成SQL;
数据查询子模块,用于根据所述SQL,在所述数据库中执行数据查询操作。
15.根据权利要求14所述的装置,其特征在于,所述数据库信息包括下述至少一种:
物理表信息、字段信息、分区信息,和数据分布信息。
16.根据权利要求11所述的装置,其特征在于,所述装置还包括:
更新模块,用于当所述数据库中的元数据更新后,更新所述数据知识图谱。
17.根据权利要求10所述的装置,其特征在于,所述用户输入内容为文本输入内容和/或语音输入内容。
18.一种数据处理装置,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行权利要求1-8任一项所述的数据处理方法。
19.一种非易失性计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现权利要求1-8任一项所述的数据处理方法。
20.一种构建数据知识图谱的装置,其特征在于,包括:
第一构建模块,用于根据数据库中的元数据,构建用户域实体、指标域实体、维度域实体,以及不同实体之间的映射关系,所述用户域实体中包括多个不同的用户实体,所述指标域实体中包括多个不同的指标实体,所述维度域实体中包括多个不同的维度实体;
第二构建模块,用于根据所述用户域实体、所述指标域实体、所述维度域实体和所述不同实体之间的映射关系,构建所述数据知识图谱。
21.一种构建数据知识图谱的装置,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行权利要求9所述的构建数据知识图谱的方法。
22.一种非易失性计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现权利要求9所述的构建数据知识图谱的方法。
CN201910495814.XA 2019-06-10 2019-06-10 一种数据处理方法和装置 Pending CN112069267A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910495814.XA CN112069267A (zh) 2019-06-10 2019-06-10 一种数据处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910495814.XA CN112069267A (zh) 2019-06-10 2019-06-10 一种数据处理方法和装置

Publications (1)

Publication Number Publication Date
CN112069267A true CN112069267A (zh) 2020-12-11

Family

ID=73658042

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910495814.XA Pending CN112069267A (zh) 2019-06-10 2019-06-10 一种数据处理方法和装置

Country Status (1)

Country Link
CN (1) CN112069267A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114722163A (zh) * 2022-06-10 2022-07-08 科大讯飞股份有限公司 数据查询方法、装置、电子设备和存储介质
CN117093708A (zh) * 2023-10-17 2023-11-21 中电数创(北京)科技有限公司 智能识别用户搜索意图与可视化展示元件搜索结果的方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114722163A (zh) * 2022-06-10 2022-07-08 科大讯飞股份有限公司 数据查询方法、装置、电子设备和存储介质
CN117093708A (zh) * 2023-10-17 2023-11-21 中电数创(北京)科技有限公司 智能识别用户搜索意图与可视化展示元件搜索结果的方法
CN117093708B (zh) * 2023-10-17 2024-02-13 中电数创(北京)科技有限公司 智能识别用户搜索意图与可视化展示元件搜索结果的方法

Similar Documents

Publication Publication Date Title
TWI748175B (zh) 資料的處理方法、裝置及設備
WO2018000998A1 (zh) 界面生成方法、装置和系统
US10169471B2 (en) Generating and executing query language statements from natural language
CN111522927B (zh) 基于知识图谱的实体查询方法和装置
CN110298019A (zh) 命名实体识别方法、装置、设备及计算机可读存储介质
CN111566638B (zh) 向应用编程接口添加描述性元数据以供智能代理使用
CN111309863B (zh) 基于知识图谱的自然语言问答方法及装置
CN113590776B (zh) 基于知识图谱的文本处理方法、装置、电子设备及介质
JP2018073411A (ja) 自然言語の生成方法、自然言語の生成装置及び電子機器
CN109977233B (zh) 一种成语知识图谱构建方法及装置
EP3686749A1 (en) Method and device for acquiring data model in knowledge graph, and medium
CN110162675B (zh) 应答语句的生成方法、装置、计算机可读介质及电子设备
CN113836314B (zh) 知识图谱构建方法、装置、设备以及存储介质
CN115455161A (zh) 对话处理方法、装置、电子设备及存储介质
CN115587575A (zh) 数据表创建方法、目标数据查询方法、装置及设备
CN112069267A (zh) 一种数据处理方法和装置
US11487801B2 (en) Dynamic data visualization from factual statements in text
US20140095527A1 (en) Expanding high level queries
CN112732969A (zh) 图像语义分析方法、装置、存储介质及电子设备
CN117112595A (zh) 一种信息查询方法、装置、电子设备及存储介质
CN109471969A (zh) 一种应用搜索方法、装置及设备
CN115905497A (zh) 确定答复语句的方法、装置、电子设备和存储介质
CN112148751B (zh) 用于查询数据的方法和装置
EP4053713A1 (en) Question and answer method and apparatus based on knowledge graph
WO2021135103A1 (zh) 一种语义分析方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination