CN114722163A - 数据查询方法、装置、电子设备和存储介质 - Google Patents

数据查询方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN114722163A
CN114722163A CN202210650131.9A CN202210650131A CN114722163A CN 114722163 A CN114722163 A CN 114722163A CN 202210650131 A CN202210650131 A CN 202210650131A CN 114722163 A CN114722163 A CN 114722163A
Authority
CN
China
Prior art keywords
entity
index
query
time
entities
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210650131.9A
Other languages
English (en)
Other versions
CN114722163B (zh
Inventor
谭昶
刘宇征
吕军
张友国
刘江
胡少云
赵文学
陈敏军
戴光浩
喻彦青
范磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Iflytek Information Technology Co Ltd
Original Assignee
iFlytek Co Ltd
Iflytek Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd, Iflytek Information Technology Co Ltd filed Critical iFlytek Co Ltd
Priority to CN202210650131.9A priority Critical patent/CN114722163B/zh
Publication of CN114722163A publication Critical patent/CN114722163A/zh
Application granted granted Critical
Publication of CN114722163B publication Critical patent/CN114722163B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种数据查询方法、装置、电子设备和存储介质,其中方法包括:确定查询文本;基于所述查询文本的查询意图,抽取所述查询文本中包含的各实体之间的实体关系,所述各实体包括指标实体;基于所述查询意图、所述实体关系,以及所述指标实体的存储信息,进行数据查询,得到所述查询文本对应的查询结果,本发明提供的方法、装置、电子设备和存储介质,克服了传统方案中仅能进行数值查询,无法实现指标间的比较查询的缺陷,将数值查询的结果作为中间数据代入至查询公式,为比较查询提供了依据,实现了指标间的比较查询,降低了数据查询门槛,实现了数据查询效率以及查询准确率的双重提升。

Description

数据查询方法、装置、电子设备和存储介质
技术领域
本发明涉及数据处理技术领域,尤其涉及一种数据查询方法、装置、电子设备和存储介质。
背景技术
在统计学中,指标是表明总体综合数量特征的概念,不同指标可以从不同维度表征总体的综合数量特征,并且,一个完整的指标需要包括指标名称和指标数值两个部分。
目前,获取指标数值的方式大多是将自然语言转化为查询表达式,然后通过查询表达式查询指标数值,这一过程实际上是从预先建立的指标名称与查询语句之间的映射关系中,查询与查询请求对应的指标名称,并通过该指标名称获取对应的查询语句,然后通过查询语句从数据库中获取指标数值,上述方案虽然实现了指标数值的查询,但是,当需要进行指标间的比较查询时,需要提前将具有比较关系的指标添加至映射关系中,才能实现比较查询,但是由于指标数量众多,指标间的比较关系无法穷举,因而,据此方案的比较查询可实施性太低,即上述方案无法进行指标间复杂的比较查询。
发明内容
本发明提供一种数据查询方法、装置、电子设备和存储介质,用以解决现有技术中无法实现指标间的比较查询的缺陷。
本发明提供一种数据查询方法,包括:
确定查询文本;
基于所述查询文本的查询意图,抽取所述查询文本中包含的各实体之间的实体关系,所述各实体包括指标实体;
基于所述查询意图、所述实体关系,以及所述指标实体的存储信息,进行数据查询,得到所述查询文本对应的查询结果。
根据本发明提供的一种数据查询方法,所述基于所述查询文本的查询意图,抽取所述查询文本中包含的各实体之间的实体关系,包括:
在所述查询意图为数值查询的情况下,抽取所述查询文本中包含的时间实体和指标实体之间的实体关系;
在所述查询意图为比较查询的情况下,抽取所述查询文本中包含的时间实体和指标实体之间的实体关系,并基于所述时间实体和指标实体之间的实体关系构建时间指标组合,确定所述时间指标组合之间的实体关系。
根据本发明提供的一种数据查询方法,所述抽取所述查询文本中包含的时间实体和指标实体之间的实体关系,还包括:
在所述查询文本中不包含时间实体的情况下,基于当前时间以及所述查询文本中包含的指标实体,构建实体关系;
所述抽取所述查询文本中包含的时间实体和指标实体之间的实体关系,之后还包括:
在任一指标实体与多个时间实体之间存在实体关系,且所述多个时间实体之间存在包含关系的情况下,合并所述多个时间实体,并更新所述任一指标实体与合并后的时间实体之间的实体关系;
所述抽取所述查询文本中包含的时间实体和指标实体之间的实体关系,包括:
在所述查询文本中包含的时间实体缺少时间单位的情况下,基于当前时间补全所述时间实体,抽取所述查询文本中包含的指标实体,以及补全后的时间实体之间的实体关系。
根据本发明提供的一种数据查询方法,所述确定所述时间指标组合之间的实体关系,包括:
在两个时间指标组合中各自包含的时间实体不同,且指标实体相同的情况下,基于所述两个时间指标组合中各自包含的时间实体之间的实体关系,以及所述两个时间指标组合,确定所述两个时间指标组合之间的实体关系;
在两个时间指标组合中各自包含的指标实体不同的情况下,基于所述两个时间指标组合中各自包含的指标实体之间的实体关系,以及所述两个时间指标组合,确定所述两个时间指标组合之间的实体关系。
根据本发明提供的一种数据查询方法,所述基于所述查询意图、所述实体关系,以及所述指标实体的存储信息,进行数据查询,得到所述查询文本对应的查询结果,包括:
在所述查询意图为数值查询的情况下,基于所述时间实体和指标实体之间的实体关系,以及所述指标实体的存储信息,进行数据查询,得到所述查询文本对应的查询结果;
在所述查询意图为比较查询的情况下,基于所述时间实体和指标实体之间的实体关系,以及所述指标实体的存储信息,进行数据查询,得到所述时间指标组合对应的指标数据,并基于所述时间指标组合之间的实体关系,以及所述时间指标组合对应的指标数据,进行数据对比,得到所述查询文本对应的查询结果。
根据本发明提供的一种数据查询方法,所述查询文本中包含的指标实体基于如下步骤确定:
确定所述查询文本中的各分词;
对所述各分词进行实体链接,得到所述各分词在指标知识图谱中链接的标签实体和/或指标实体,所述指标知识图谱中包括标签层级结构和指标实体,以及所述指标实体与所述标签层级结构中各标签实体之间的关系;
基于所述各分词在指标知识图谱中链接的标签实体和/或指标实体,确定查询文本中包含的指标实体。
根据本发明提供的一种数据查询方法,所述基于所述各分词在指标知识图谱中链接的标签实体,确定查询文本中包含的指标实体,包括:
在所述标签实体非对应标签层级结构中的底层标签实体的情况下,确定所述标签实体在对应标签层级结构中对应的底层标签实体;
基于所述底层标签实体在所述指标知识图谱中相连的指标实体,确定所述查询文本中包含的指标实体。
根据本发明提供的一种数据查询方法,所述基于所述各分词在指标知识图谱中链接的标签实体和/或指标实体,确定查询文本中包含的指标实体,之后还包括:
确定所述查询文本中包含的指标实体在所述指标知识图谱中相连的指标存储实体;
基于所述指标存储实体的实体属性,确定所述查询文本中包含的指标实体的存储信息。
本发明还提供一种数据查询装置,包括:
查询文本确定单元,用于确定查询文本;
实体关系抽取单元,用于基于所述查询文本的查询意图,抽取所述查询文本中包含的各实体之间的实体关系,所述各实体包括指标实体;
数据查询单元,用于基于所述查询意图、所述实体关系,以及所述指标实体的存储信息,进行数据查询,得到所述查询文本对应的查询结果。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述的数据查询方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述的数据查询方法。
本发明提供的数据查询方法、装置、电子设备和存储介质,根据查询文本的查询意图,抽取查询文本中包含的各实体之间的实体关系,各实体包括指标实体;根据查询意图、实体关系,以及指标实体的存储信息,进行数据查询,得到查询文本对应的查询结果,克服了传统方案中仅能进行数值查询,无法实现指标间的比较查询的缺陷,将数值查询的结果作为中间数据代入至查询公式,为比较查询提供了依据,实现了指标间的比较查询,降低了数据查询门槛,实现了数据查询效率以及查询准确率的双重提升。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的数据查询方法的流程示意图;
图2是本发明提供的指标实体的确定过程的示意图;
图3是本发明提供的指标知识图谱中指标实体与标签实体之间的连接关系的示意图;
图4是本发明提供的数据查询方法中步骤230的流程示意图;
图5是本发明提供的指标实体的存储信息的确定过程的示意图;
图6是本发明提供的指标知识图谱中指标实体与指标存储实体的对应关系的示意图;
图7是本发明提供的数据查询装置的结构示意图;
图8是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在统计学中,指标是表明总体综合数量特征的概念,例如,城市中的所有人口构成一个总体,城市常住人口数量、人均可支配收入、社保缴纳人数等则为城市管理指标,其可以从不同维度表征总体的数量特征,并且,一个完整的指标需要包括指标名称和指标数值两部分。
而随着智慧城市理念的盛兴,为了更好的感知城市运行状况,监测城市的健康指数,通常通过搭建城市指标体系,将城市分解成若干个模块,各模块均对应有能够反映综合数量特征的指标,例如,城市产业结构模块下包含有第一产业产值、第二产业产值、第三产业产值、农林牧渔业增加值等指标,此类指标经过系统的组织可以形成城市指标体系,通过该指标体系可以实现城市运行状况的多维度衡量。
而随着信息化时代的到来,城市所承载的信息和数据呈爆炸式增长,城市指标体系下辖的指标也在日益增多,其终将成为一个庞大的指标体系。与此同时,由于指标体系中各指标大多来源于城市中不同的部门、单位等,因而,不同指标的指标数值的存储方式也各有不同,例如,可以是关系型数据库、非关系型数据库、json文件等存储方式;并且,不同指标的指标数值的查询方式也存在差异,例如,可以通过SQL语句查询,接口查询等。
此外,在展示指标数值时,目前多通过搭建数据可视化面板(如驾驶舱)实现指标数值的直观展示,但是由于指标数量较多,可视化面板的展示量有限,因而仅能选取部分核心指标的指标数值进行展示,并且,展示的大多是当前或近期的指标数值,完全忽略了历史的指标数值,如此种种导致了指标数值的获取十分困难,即需用户手动通过代码查询,不仅存在明显的技术门槛,而且查询效率和准确率低下。
基于此,为了获取城市运行相关指标的指标数值,传统方案中将自然语言转化为查询表达式,然后通过查询表达式实现指标数值的查询,具体过程可以是,首先,建立指标名称与查询语句之间的映射关系,该映射关系可以表示为下表所示形式:
Figure 212373DEST_PATH_IMAGE001
随即,在接收到查询请求之后,识别查询请求中携带的指标名称;随后,从预先构建的指标名称与查询语句之间的映射关系中,查询与查询请求中携带的指标名称对应的目标指标名称,并基于目标指标名称获取对应的目标查询语句;此后,即可借助目标查询语句从数据库中获取与查询请求中携带的指标名称对应的指标数值。
上述方案虽然实现了指标数值的查询,但是,其局限于关系型数据库,即上述方案仅支持指标数值的关系型数据库存储方式,且要求所有指标必须存放于同一种数据库中,而城市指标体系中各指标的指标数值往往由不同单位或部门提供,因而,其会被存放于不同的数据库中,例如,MySQL、Hive、Elasticsearch等,需要通过对应的数据库查询语句来获取。此外,还存在部分指标的指标数值无法直接从数据库查询得到得情况,此时,需通过接口获取指标数值。
进一步地,上述方案仅能支持指标数值的查询,而无法实现指标间的比较查询,即当需要对两个指标进行比较时,例如,计算和值、差值、占比等时,需提前将具有比较关系的两个指标添加到预先构建的映射关系中,才能实现比较查询。例如,若需查询“第一产业产值占GDP比重”,而映射关系中只包含了“第一产业产值”和“GDP”两个指标,未包含“第一产业产值占GDP比重”这一指标,因而,仅能查询到“第一产业产值”的指标数值,以及“GDP”的指标数值,“第一产业产值占GDP比重”的指标数值需由用户计算得到,而只有在将“第一产业产值占GDP比重”这一指标添加至预先构建的映射关系中,并增加与之对应的SQL查询语句的情况下,才能通过一次查询得到比较查询的查询结果。但是,城市指标体系中指标数量众多,指标间的比较关系无法穷举,因而,基于上述方案的比较查询过程的可行性较低。
而于城市管理而言,指标间的比较查询又是必不可少的。例如,可以通过指标之间的差值反映不同行业、区域等同一维度下的不同要素之间的差异,从而据此识别城市发展的侧重点,发现城市短板,协助相关部门调整发展策略;还可以通过不同时间下同一指标的指标数值的比较,发现城市问题,监测城市健康状况。因此,无法进行指标间的比较查询会导致城市管理效果大打折扣。
除此之外,上述方案仅支持通过指标名称对指标数值进行查询,但是,城市指标体系中的指标数量较多,用户无法准确获知每一指标的指标名称,大多数情况下仅能给出指标名称的大致描述,例如,查询能够反映农村经济的相关指标,该问题中并未包含城市指标体系中的任一指标名称,因而无法回答,也就是说上述方案仅能支持用户提问中表层的数值查询,缺乏对用户提问的语义理解过程,从而导致查询效率低下,用户体验不佳。
针对上述情况,本发明提供一种数据查询方法,旨在数值查询的基础上,实现指标间的比较查询,降低了数据查询门槛,实现了数据查询效率以及查询准确率的双重提升,图1是本发明提供的数据查询方法的流程示意图,如图1所示,该方法包括:
步骤110,确定查询文本;
具体地,在进行指标的数据查询之前,首先需要确定查询文本,该查询文本中包含有查询对象的相关信息,例如,查询指标名称或查询指标名称的大致描述、查询指标名称对应的时间等。
此处,查询文本可以理解为用户的提问文本,其可以是由用户通过用户终端发送的,也可以是对采集到的用户的提问语音进行语音转写得到的,还可以是用户通过相关设备直接输入的,本发明实施例对此不作具体限定。
步骤120,基于查询文本的查询意图,抽取查询文本中包含的各实体之间的实体关系,各实体包括指标实体;
具体地,在步骤110中已经得到查询文本的基础上,可执行步骤120,以查询文本的查询意图为基准,从查询文本中抽取各实体之间的实体关系,这一过程具体包括如下步骤:
首先,可以对查询文本进行意图识别,以识别出用户的提问意图,即确定查询文本的查询意图,意图识别的过程实际上是文本分类的过程,其目的是根据用户的提问意图对查询文本进行文本分类,即按照查询文本的查询意图,将查询文本分为数值查询和比较查询两个大类。
其中,数值查询为查询一个或多个指标的指标数值,例如,1月份第一产业产值是 多少
Figure 159600DEST_PATH_IMAGE002
2021年第一季度第一产业产值是多少,第二季度第一产业产值又是多少
Figure 740754DEST_PATH_IMAGE002
比较查询 则是对两个指标之间的比较结果进行查询,例如,2021年第一季度第一产业产值和第二季 度第一产业产值的差值是多少
Figure 748025DEST_PATH_IMAGE002
2021年第二季度第一产业产值在第一季度第一产业产值 的基础上上涨了多少
Figure 414629DEST_PATH_IMAGE002
而比较查询又可以划分为多个小类,例如,求和查询、差值查询、比 重查询、乘积查询、涨幅查询等。
此处,针对查询文本的意图识别过程可以借助意图识别模型实现,具体可以是,将查询文本输入至意图识别模型,然后意图识别模型对输入的查询文本进行意图识别,以识别出查询文本的查询目的,最终得到意图识别模型输出的查询意图,其为数值查询、求和查询、差值查询、比重查询、乘积查询、涨幅查询中的任意一种。
而在将查询文本输入至意图识别模型之前,还可以应用样本查询文本,以及样本查询文本的意图标签预先训练得到意图识别模型,意图识别模型的训练过程具体包括如下步骤:首先,收集大量的样本查询文本,并确定样本查询文本的查询意图,以通过标注形成意图标签;随即,基于样本查询文本,以及样本查询文本的意图标签,对初始意图识别模型进行训练,从而得到训练完成的意图识别模型。需要说明的是,此处的初始意图识别模型为常规的深度学习模型,例如,可以是LSTM(Long Short-Term Memory,长短期记忆网络)+Attention、BERT(Bidirectional Encoder Representation from Transformers)等。
值得注意的是,意图识别模型在输出查询文本的查询意图的同时,若查询意图为比较查询,则还可以根据预先设置的各查询意图(比较查询)对应的查询公式,相应输出查询文本的查询意图(比较查询)对应的查询公式,各查询意图(比较查询)与查询公式之间的对应关系如下表所示:
Figure 431127DEST_PATH_IMAGE003
随后,需确定查询文本中包含的各实体,各实体包括指标实体,查询文本中包含的指标实体的确定过程可以倚靠指标知识图谱完成,具体可以是,对查询文本进行分词,得到查询文本中的各分词,然后,以指标知识图谱为基准,对查询文本中的各分词进行实体链接,即将各分词与指标知识图谱中的指标实体和/或标签实体进行关联,从而根据关联的指标实体和/或标签实体确定查询文本中包含的指标实体。
此处,需要说明的是,在进行数据查询时,查询文本中包含的每一指标实体都应具备时间属性,即每一指标实体应对应一个时间实体,而不同时间实体下的同一指标实体的指标数值不同,换而言之,指标实体与时间实体之间存在一一对应关系。
此后,即可依据查询文本的查询意图,抽取查询文本中各实体之间的实体关系,即从查询文本中抽取与查询意图对应的实体与实体之间的实体关系,具体过程可以是,在查询文本的查询意图为数值查询的情况下,从查询文本中抽取指标实体与时间实体之间的实体关系;相应地,在查询文本的查询意图为比较查询的情况下,从查询文本中抽取指标实体与时间实体之间的实体关系,以及指标实体与指标实体之间的实体关系,并且,在“指标实体与指标实体之间的实体关系”中,若两个指标实体相同,则还需从查询文本中抽取两个指标实体各自对应的时间实体之间的实体关系,如此即完成了查询文本中包含的各实体之间的实体关系的抽取过程。
步骤130,基于查询意图、实体关系,以及指标实体的存储信息,进行数据查询,得到查询文本对应的查询结果。
具体地,经过步骤120,得到查询文本中包含的各实体之间的实体关系的情况下,可执行步骤130,在查询文本的查询意图的基础上,结合查询文本中包含的各实体之间的实体关系,以及指标实体的存储信息进行数据查询,从而得到查询文本对应的查询结果,具体过程包括如下步骤:
首先,确定查询文本中包含的指标实体的存储信息,该存储信息可以基于指标知识图谱确定,该存储信息中包含有对应指标实体的存储方式和存储参数,据此存储方式和存储参数可以构建查询表达式;
随即,可以根据查询文本的查询意图,查询文本中包含的各实体之间的实体关系,以及根据指标实体的存储信息构建的查询表达式,进行数据查询,从而得到查询文本对应的查询结果,这一过程具体可以是,在查询文本的查询意图为数值查询的情况下,以查询文本中包含的指标实体与时间实体之间的实体关系为基准,利用查询表达式进行数据查询,并将查询到的数据作为查询文本对应的查询结果。
相应地,在查询文本的查询意图为比较查询的情况下,首先利用根据各指标实体的存储信息构建的各查询表达式,查询各时间实体对应的指标实体的指标数据,并将其作为中间结果;然后,依据指标实体与指标实体之间的实体关系,或者各指标实体对应的时间实体之间的实体关系,判断查询文本中包含的各指标实体之间的上下位关系,即确定上位指标和下位指标;此后,即可将中间结果代入比较查询下对应的查询公式中,得到比较查询的比较结果,即查询文本对应的查询结果。
本发明提供的数据查询方法,根据查询文本的查询意图,抽取查询文本中包含的各实体之间的实体关系,各实体包括指标实体;根据查询意图、实体关系,以及指标实体的存储信息,进行数据查询,得到查询文本对应的查询结果,克服了传统方案中仅能进行数值查询,无法实现指标间的比较查询的缺陷,将数值查询的结果作为中间数据代入至查询公式,为比较查询提供了依据,实现了指标间的比较查询,降低了数据查询门槛,实现了数据查询效率以及查询准确率的双重提升。
基于上述实施例,步骤120包括:
在查询意图为数值查询的情况下,抽取查询文本中包含的时间实体和指标实体之间的实体关系;
在查询意图为比较查询的情况下,抽取查询文本中包含的时间实体和指标实体之间的实体关系,并基于时间实体和指标实体之间的实体关系构建时间指标组合,确定时间指标组合之间的实体关系。
具体地,步骤120中,根据查询文本的查询意图,抽取查询文本中包含的各实体之间的实体关系的过程,具体包括如下步骤:
首先,确定查询文本中包含的指标实体,以及各指标实体对应的时间实体,指标实体的确定过程可以借助指标知识图谱完成,即将查询文本中的各分词与指标知识图谱进行实体链接,亦可以理解为,将各分词与指标知识图谱中的指标实体和/或标签实体关联起来,并根据关联的指标实体和/或标签实体确定查询文本中包含的指标实体;
在确定查询文本中包含的指标实体后,即可通过实体识别确定各指标实体对应的时间实体,或者通过实体抽取从查询文本中抽取各指标实体对应的时间实体。需要说明的是,在任一指标实体缺失对应的时间实体的情况下,使用当前时间进行补全,即将当前时间作为该指标实体对应的时间实体。
随即,可以以查询文本的查询意图为基准,从查询文本中抽取各实体之间的实体关系,亦可以理解为从查询文本中抽取与查询意图对应的实体与实体之间的实体关系,具体可以是,在查询文本的查询意图为数值查询的情况下,从查询文本中抽取指标实体与时间实体之间的实体关系。
相应地,在查询文本的查询意图为比较查询的情况下,从查询文本中抽取指标实体与时间实体之间的实体关系,并据此构建时间指标组合,即将抽取出的具备一一对应关系的指标实体与时间实体组成时间指标组合,然后根据时间指标组合中各自包含的时间实体/指标实体之间的实体关系,确定时间指标组合之间的实体关系,这一实体关系中蕴含了指标实体与对应的时间实体之间的实体关系,指标实体与指标实体之间的实体关系,以及各指标实体对应的时间实体之间的实体关系。
基于上述实施例,步骤120中,抽取查询文本中包含的时间实体和指标实体之间的实体关系,还包括:
在查询文本中不包含时间实体的情况下,基于当前时间以及查询文本中包含的指标实体,构建实体关系;
步骤120中,抽取查询文本中包含的时间实体和指标实体之间的实体关系,之后还包括:
在任一指标实体与多个时间实体之间存在实体关系,且多个时间实体之间存在包含关系的情况下,合并多个时间实体,并更新该指标实体与合并后的时间实体之间的实体关系;
步骤120中,抽取查询文本中包含的时间实体和指标实体之间的实体关系,包括:
在查询文本中包含的时间实体缺少时间单位的情况下,基于当前时间补全时间实体,抽取查询文本中包含的指标实体,以及补全后的时间实体之间的实体关系。
具体地,步骤120中,在依据查询文本的查询意图,抽取查询文本中各实体之间的实体关系的过程,若查询文本中不包含时间实体,或者查询文本中包含的任一指标实体缺失对应的时间实体,则根据当前时间以及查询文本中包含的指标实体,构建指标实体与时间实体之间的实体关系,具体过程可以是,由于对于指标实体而言,时间实体表征了其时间属性,是必不可少的,因而,在缺失时间实体的情况下,首先可以利用当前时间补全查询文本中缺失的时间实体,然后,据此时间实体以及查询文本中包含的指标实体,构建指标实体与时间实体之间的实体关系。
下面以具体实例为基准,对实体关系的补全过程进行说明,实体关系的补全过程可以罗列为下表所示形式:
Figure 866787DEST_PATH_IMAGE004
其中,查询文本为“第一产业产值是多少
Figure 576117DEST_PATH_IMAGE002
”,查询文本中包含的指标实体为“第一 产业产值”,缺失与该指标实体对应的时间实体,此时,可以使用当前时间进行补全,最终得 到的实体关系为“第一产业产值,实体关系(时间属性),2022年5月”。
而在依据查询文本的查询意图,对查询文本进行实体抽取,得到查询文本中各实体之间的实体关系之后,若查询文本中任一指标实体与多个时间实体之间存在实体关系,且多个时间实体之间存在包含关系,则对多个时间实体进行合并,并对合并后的时间实体和指标实体之间的实体关系进行更新。
例如,当查询文本为“2022年,第一产业1月份产值是多少
Figure 464439DEST_PATH_IMAGE002
”时,查询文本中包含 的指标实体为“第一产业产值”,该指标实体与多个时间实体(2022年和1月份)之间存在实 体关系,分别为“第一产业产值,实体关系(时间属性),2022年”,以及“第一产业产值,实体 关系(时间属性),1月份”,且多个时间实体(2022年和1月份)多个时间实体之间存在包含关 系,为“2022年,包含关系,1月份”,此时,需合并时间实体2022年和时间实体1月份,形成完 整的时间实体2022年1月份,使用完整的时间实体替换原有的时间实体,并更新实体关系, 最终得到的查询文本中包含的指标实体与时间实体之间的实体关系为“第一产业产值,实 体关系(时间属性),2022年1月份”。
此外,完整的时间实体应是从最高级时间单元开始,至精确度对应的时间单元终止,即从年开始,若按月查询则至月终止,即“XXXX年XX月”,若按季度查询则至季度终止,即“XXXX年XX季度”。时间单位按照从高到低的顺序可以排列为:年、季度/月、日、时、秒;其中,季度与月的查询等级相同,而在城市管理指标中,时间实体的精确度大多为日,因此,当时间实体缺少时间单位时,可以使用当前时间对时间实体进行补全,具体过程可以是,步骤120中,在以查询文本的查询意图为基准,抽取查询文本中包含的时间实体和指标实体之间的实体关系的过程中,若查询文本中包含的任一指标实体对应的时间实体缺少时间单位,则根据当前时间补全时间实体,并抽取查询文本中包含的指标实体,以及补全后的时间实体之间的实体关系。
例如,当查询文本为“2月份第一产业产值是多少
Figure 284627DEST_PATH_IMAGE002
”时,查询文本中包含的指标实 体为“第一产业产值”,该指标实体对应的时间实体(2月份)缺失最高时间单位(年),此时, 可以使用当前时间进行补全,补全后的时间实体为“2022年2月份”,最终得到的实体关系为 “第一产业产值,实体关系(时间属性),2022年2月份”。
又例如,当查询文本为“1号第一产业产值是多少
Figure 574794DEST_PATH_IMAGE002
”时,查询文本中包含的指标实 体为“第一产业产值”,该指标实体对应的时间实体(1号)缺失时间单位(年和月),此时,可 以使用当前时间进行补全,补全后的时间实体为“2022年5月份”,最终得到的实体关系为 “第一产业产值,实体关系(时间属性),2022年5月1号”。
需要说明的是,此处针对时间实体的补全过程可以采用规则匹配/模板匹配方法实现,即对查询文本进行规则匹配/模板匹配,识别缺失的时间单位,并使用当前时间进行缺失补全。
基于上述实施例,步骤120中,确定时间指标组合之间的实体关系,包括:
在两个时间指标组合中各自包含的时间实体不同,且指标实体相同的情况下,基于两个时间指标组合中各自包含的时间实体之间的实体关系,以及两个时间指标组合,确定两个时间指标组合之间的实体关系;
在两个时间指标组合中各自包含的指标实体不同的情况下,基于两个时间指标组合中各自包含的指标实体之间的实体关系,以及两个时间指标组合,确定两个时间指标组合之间的实体关系。
具体地,步骤120中,在根据指标实体与时间实体之间的实体关系,构建得到时间指标组合之后,确定时间指标组合之间的实体关系的过程,包括以下两种情况,分别为:
其一,若两个时间指标组合中各自包含的指标实体相同,且时间实体不同,换而言之,查询文本的实际内容为查询不同时间下同一指标实体的比较结果,此时,根据两个时间指标组合中各自包含的指标实体之间的实体关系,无法辨别指标实体之间的上下位关系,因而需要借助两个时间指标组合中各自包含的时间实体之间的实体关系,以区分指标实体之间的上下位关系,亦可以理解为辨别上位指标和下位指标;此后,即可结合指标之间的上下位关系,以及两个时间指标组合,确定两个时间指标组合之间的实体关系。
例如,当查询文本为“2021年1月份第一产业产值和2021年2月份第一产业产值的 总和是多少
Figure 455026DEST_PATH_IMAGE002
”时,两个时间指标组合分别为“2021年1月份第一产业产值”和“2021年2月份 第一产业产值”,两个时间指标组合中各自包含的指标实体相同,均为“第一产业产值”,时 间实体不同,分别为“2021年1月份”和“2021年2月份”,此时,可以凭借两个时间指标组合中 各自包含的时间实体之间的实体关系(2021年1月份,实体关系,2021年2月份),区分上位指 标和下位指标,即“2021年1月份”对应的指标实体为上位指标,“2021年2月份”对应的指标 实体则为下位指标;进一步地,可以确定两个时间指标组合之间的实体关系为“2021年1月 份第一产业产值,实体关系,2021年2月份第一产业产值”。
其二,若两个时间指标组合中各自包含的指标实体不同,时间实体相同或不同,换而言之,查询文本的实际内容为查询不同或同一时间下不同指标实体的比较结果,此时,根据两个时间指标组合中各自包含的指标实体之间的实体关系,即可判断指标实体之间的上下位关系,即可以辨别上位指标和下位指标;随后,即可结合指标之间的上下位关系,以及两个时间指标组合,确定两个时间指标组合之间的实体关系。
例如,当查询文本为“2021年1月份第一产业产值和2021年1月份第二产业产值的 总和是多少
Figure 96223DEST_PATH_IMAGE002
”时,两个时间指标组合分别为“2021年1月份第一产业产值”和“2021年1月份 第二产业产值”,两个时间指标组合中各自包含的指标实体不同,分别为“第一产业产值”和 “第二产业产值”,时间实体相同,均为“2021年1月份”,此时,可以依据两个时间指标组合中 各自包含的指标实体之间的实体关系(第一产业产值,实体关系,第二产业产值),区分上位 指标和下位指标,即“第一产业产值”为上位指标,“第二产业产值”则为下位指标;进一步 地,可以确定两个时间指标组合之间的实体关系为“2021年1月份第一产业产值,实体关系, 2021年2月份第一产业产值”。
基于上述实施例,步骤130包括:
在查询意图为数值查询的情况下,基于时间实体和指标实体之间的实体关系,以及指标实体的存储信息,进行数据查询,得到查询文本对应的查询结果;
在查询意图为比较查询的情况下,基于时间实体和指标实体之间的实体关系,以及指标实体的存储信息,进行数据查询,得到时间指标组合对应的指标数据,并基于时间指标组合之间的实体关系,以及时间指标组合对应的指标数据,进行数据对比,得到查询文本对应的查询结果。
具体地,步骤130中,根据查询意图、实体关系,以及指标实体的存储信息,进行数据查询,得到查询文本对应的查询结果的过程,具体可以分为以下两种情况:
其一,若查询意图为数值查询,则可以根据查询文本中包含的指标实体与时间实体之间的实体关系,以及指标实体的存储信息,进行数据查询,从而得到查询文本对应的查询结果,具体过程可以是,首先,确定查询文本中包含的指标实体的存储信息,该存储信息可以在指标知识图谱的基础上获取到,该存储信息中包含有对应指标实体的存储方式和存储参数;随即,可以以存储信息中的存储方式为基准,对存储参数进行排列/组合,以形成完整的查询表达式;此后,即可以查询文本中包含的指标实体与时间实体之间的实体关系为基准,利用查询表达式进行数据查询,并将查询到的数据作为查询文本对应的查询结果。
其二,若查询意图为比较查询,则同样根据指标实体的存储信息构建查询表达式,然后在时间实体和指标实体之间的实体关系的基础上,利用查询表达式查询进行数据查询,并将查询到的中间结果作为时间指标组合的指标数据,即得到时间指标组合对应的指标数据,此后,即可根据上述过程中确定的时间指标组合之间的实体关系,对时间指标组合对应的指标数据进行数据对比,具体可以是,依据时间指标组合之间的实体关系判断指标实体之间的上下位关系,然后将时间指标组合对应的指标数据代入查询意图(比较查询)对应的查询公式中,进行数据计算,从而得到比较查询的比较结果,即查询文本对应的查询结果。
需要说明的是,当存在两个以上的时间指标组合时,可以将其分为两两一组,针对每组时间指标组合进行数据查询,最终可以得到各组时间指标组合的数据对比结果,即查询文本对应的查询结果。
基于上述实施例,图2是本发明提供的指标实体的确定过程的示意图,如图2所示,查询文本中包含的指标实体基于如下步骤确定:
步骤210,确定查询文本中的各分词;
步骤220,对各分词进行实体链接,得到各分词在指标知识图谱中链接的标签实体和/或指标实体,指标知识图谱中包括标签层级结构和指标实体,以及指标实体与标签层级结构中各标签实体之间的关系;
步骤230,基于各分词在指标知识图谱中链接的标签实体和/或指标实体,确定查询文本中包含的指标实体。
具体地,上述确定查询文本中包含的指标实体的过程,具体包括如下步骤:
首先,执行步骤210,对查询文本进行分词,得到查询文本中的各分词;
随即,可执行步骤120,即以指标知识图谱为基准,对查询文本中的各分词进行实体链接,从而得到各分词在指标知识图谱中链接的指标实体和/或标签实体,需要说明的是,此处的指标知识图谱为预先构建的包含城市指标体系和标签体系的知识图谱,其中,城市指标体系中包括多个指标实体,标签体系中则包括多个标签层级结构,各标签层级结构中包含多个标签实体,标签实体与指标实体之间存在连接关系;
并且,在指标知识图谱中,指标实体与标签实体之间为多对多的关系,图3是本发明提供的指标知识图谱中指标实体与标签实体之间的连接关系的示意图,如图3所示,标签层级结构中的标签实体实际上是对指标实体进行抽象得到的指标维度,标签层级结构可以以树状形式进行呈现,其表示了各指标维度之间的上下层及关系;每一标签层级结构中,顶层标签实体向下拆解,可以形成若干二级标签实体,二级标签实体继续拆解则可以形成若干三级标签实体,而当任一标签实体无法继续向下拆解时,可以确定该标签实体为底层标签实体,指标实体与底层标签实体之间存在多对多的对应关系,换而言之,一个底层标签实体可以对应多个指标实体,同样,每一指标实体可以对应多个底层标签实体。
此后,即可执行步骤230,即以查询文本中的各分词在指标知识图谱中链接的指标实体和/或标签实体为基准,确定查询文本中包含的指标实体,具体可以是,在实体链接结果为指标实体的情况下,即各分词在指标知识图谱中链接的是指标实体的情况下,可以直接将在指标知识图谱中链接的指标实体作为查询文本中包含的指标实体;对应地,在实体链接结果为标签实体的情况下,可以参照指标知识图谱中标签实体与指标实体之间的连接关系,确定查询文本中包含的指标实体。
本发明实施例中,对查询文本做分词处理,并在指标知识图谱的基础上进行实体链接,通过对分词进行实体链接克服了传统方案中无法对用户的提问文本进行语义理解的缺陷,能够对查询文本进行深层次的语义挖掘,实现了查询效率和查询准确率的双重提升。
基于上述实施例,图4是本发明提供的数据查询方法中步骤230的流程示意图,如图4所示,步骤230中,基于各分词在指标知识图谱中链接的标签实体,确定查询文本中包含的指标实体,包括:
步骤231,在标签实体非对应标签层级结构中的底层标签实体的情况下,确定标签实体在对应标签层级结构中对应的底层标签实体;
步骤232,基于底层标签实体在指标知识图谱中相连的指标实体,确定查询文本中包含的指标实体。
具体地,步骤230中,根据查询文本中的各分词在指标知识图谱中链接的标签实体,确定查询文本中包含的指标实体的过程,具体包括如下步骤:
步骤231,在实体连接结果为标签实体,且该标签实体不为对应标签层级结构中的底层标签实体的情况下,可以以指标知识图谱中对应标签层级结构为基准,从该标签实体开始,向下推理直至底层标签实体;
步骤232,根据指标知识图谱中底层标签实体与指标实体之间的连接关系,确定该底层标签实体对应的指标实体,而由于底层标签实体与指标实体之间为多对多的关系,因而可知,该底层标签实体对应的指标实体实际上应是指标实体集合;随后,即可根据该底层标签实体对应的指标实体集合,确定查询文本中包含的指标实体,即将该指标实体集合中的所有指标实体作为查询文本中包含的指标实体。
另外,值得注意的是,当该底层标签实体有多个时,即利用该标签实体,从指标知识图谱中对应标签层级结构中推理得到多个底层标签实体时,需对各底层标签实体对应的指标实体集合取交集,并将交集中的所有指标实体作为查询文本中包含的指标实体。
基于上述实施例,图5是本发明提供的指标实体的存储信息的确定过程的示意图,如图5所示,基于各分词在指标知识图谱中链接的标签实体和/或指标实体,确定查询文本中包含的指标实体,之后还包括:
步骤510,确定查询文本中包含的指标实体在指标知识图谱中相连的指标存储实体;
步骤520,基于指标存储实体的实体属性,确定查询文本中包含的指标实体的存储信息。
考虑到除上述指标实体与标签实体之间的连接关系外,指标知识图谱中还包含有指标实体的存储信息,该存储信息存在于与该指标实体对应的指标存储实体中,图6是本发明提供的指标知识图谱中指标实体与指标存储实体的对应关系的示意图,如图6所示,在指标知识图谱中,每一指标实体存在一个对应的指标存储实体,指标实体与指标存储实体之间为一一对应关系,指标存储实体的实体属性中包含了对应指标实体的关键信息,例如,存储实体的存储方式,指标实体的存储参数等。
并且,不同存储方式对应的存储参数不同,其中,存储方式可以是MySQL、Hive、接口等,而当存储方式为接口时,存储参数分别为接口地址、接口参数等;对应地,当存储方式为MySQL时,与之对应的存储参数为参数1至参数10,分别为数据库名、表名、字段名、时间戳字段名等,其对应关系可以表示为下表所示形式:
Figure 454523DEST_PATH_IMAGE005
鉴于此,本发明实施例中,在确定查询文本中包含的指标实体之后,还可以根据指标知识图谱确定查询文本中包含的指标实体的存储信息,这一过程具体包括如下步骤:
首先,执行步骤510,依据指标知识图谱中指标实体与指标存储实体之间的一一对应关系,确定查询文本中包含的指标实体在指标知识图谱中对应的指标存储实体,即确定查询文本中包含的指标实体在指标知识图谱中相连的指标存储实体;
随即,可执行步骤520,根据指标存储实体的实体属性,确定查询文本中包含的指标实体的存储信息,具体过程可以是,对指标存储实体进行实体属性提取,从而得到指标存储实体的实体属性,然后,可以根据各实体属性的属性值,确定查询文本中包含的指标实体的存储信息,此处的存储信息包括指标实体的存储方式和存储参数,其中,存储参数包括参数1至参数10。
本发明实施例中,通过构建指标知识图谱,能够实现对不同存储方式的指标实体进行数据查询,克服了传统方案中仅能支持关系型数据库存储方式的数值查询的缺陷,兼顾了不同存储方式的指标实体的数据查询过程,实现了多种数据查询方式的兼容。
本发明提供的数据查询方法的总体流程,包括如下步骤:
首先,确定查询文本;
随即,基于查询文本的查询意图,抽取查询文本中包含的各实体之间的实体关系,各实体包括指标实体,这一过程具体可以是,在查询意图为数值查询的情况下,抽取查询文本中包含的时间实体和指标实体之间的实体关系;在查询意图为比较查询的情况下,抽取查询文本中包含的时间实体和指标实体之间的实体关系,并基于时间实体和指标实体之间的实体关系构建时间指标组合,确定时间指标组合之间的实体关系;
其中,查询文本中包含的指标实体的确定过程包括如下步骤:首先,确定查询文本中的各分词;随即,对各分词进行实体链接,得到各分词在指标知识图谱中链接的标签实体和/或指标实体,指标知识图谱中包括标签层级结构和指标实体,以及指标实体与标签层级结构中各标签实体之间的关系;随后,基于各分词在指标知识图谱中链接的标签实体和/或指标实体,确定查询文本中包含的指标实体,具体可以是,在标签实体非对应标签层级结构中的底层标签实体的情况下,确定标签实体在对应标签层级结构中对应的底层标签实体;基于底层标签实体在指标知识图谱中相连的指标实体,确定查询文本中包含的指标实体。
时间指标组合之间的实体关系的确定过程包括以下两种情况,在两个时间指标组合中各自包含的时间实体不同,且指标实体相同的情况下,基于两个时间指标组合中各自包含的时间实体之间的实体关系,以及两个时间指标组合,确定两个时间指标组合之间的实体关系;在两个时间指标组合中各自包含的指标实体不同的情况下,基于两个时间指标组合中各自包含的指标实体之间的实体关系,以及两个时间指标组合,确定两个时间指标组合之间的实体关系。
另外,需要说明的是,在查询文本中不包含时间实体的情况下,基于当前时间以及查询文本中包含的指标实体,构建实体关系;在任一指标实体与多个时间实体之间存在实体关系,且多个时间实体之间存在包含关系的情况下,合并多个时间实体,并更新该指标实体与合并后的时间实体之间的实体关系;在查询文本中包含的时间实体缺少时间单位的情况下,基于当前时间补全时间实体,抽取查询文本中包含的指标实体,以及补全后的时间实体之间的实体关系。
此后,基于查询意图、实体关系,以及指标实体的存储信息,进行数据查询,得到查询文本对应的查询结果,具体过程可以是,在查询意图为数值查询的情况下,基于时间实体和指标实体之间的实体关系,以及指标实体的存储信息,进行数据查询,得到查询文本对应的查询结果;在查询意图为比较查询的情况下,基于时间实体和指标实体之间的实体关系,以及指标实体的存储信息,进行数据查询,得到时间指标组合对应的指标数据,并基于时间指标组合之间的实体关系,以及时间指标组合对应的指标数据,进行数据对比,得到查询文本对应的查询结果。
其中,查询文本中包含的指标实体的存储信息的确定过程,具体可以是,首先,确定查询文本中包含的指标实体在指标知识图谱中相连的指标存储实体;然后,基于指标存储实体的实体属性,确定查询文本中包含的指标实体的存储信息。
本发明实施例提供的方法,根据查询文本的查询意图,抽取查询文本中包含的各实体之间的实体关系,各实体包括指标实体;根据查询意图、实体关系,以及指标实体的存储信息,进行数据查询,得到查询文本对应的查询结果,克服了传统方案中仅能进行数值查询,无法实现指标间的比较查询的缺陷,将数值查询的结果作为中间数据代入至查询公式,为比较查询提供了依据,实现了指标间的比较查询,降低了数据查询门槛,实现了数据查询效率以及查询准确率的双重提升。
下面对本发明提供的数据查询装置进行描述,下文描述的数据查询装置与上文描述的数据查询方法可相互对应参照。
图7是本发明提供的数据查询装置的结构示意图,如图7所示,该装置包括:
查询文本确定单元710,用于确定查询文本;
实体关系抽取单元720,用于基于所述查询文本的查询意图,抽取所述查询文本中包含的各实体之间的实体关系,所述各实体包括指标实体;
数据查询单元730,用于基于所述查询意图、所述实体关系,以及所述指标实体的存储信息,进行数据查询,得到所述查询文本对应的查询结果。
本发明提供的数据查询装置,根据查询文本的查询意图,抽取查询文本中包含的各实体之间的实体关系,各实体包括指标实体;根据查询意图、实体关系,以及指标实体的存储信息,进行数据查询,得到查询文本对应的查询结果,克服了传统方案中仅能进行数值查询,无法实现指标间的比较查询的缺陷,将数值查询的结果作为中间数据代入至查询公式,为比较查询提供了依据,实现了指标间的比较查询,降低了数据查询门槛,实现了数据查询效率以及查询准确率的双重提升。
基于上述实施例,实体关系抽取单元720用于:
在所述查询意图为数值查询的情况下,抽取所述查询文本中包含的时间实体和指标实体之间的实体关系;
在所述查询意图为比较查询的情况下,抽取所述查询文本中包含的时间实体和指标实体之间的实体关系,并基于所述时间实体和指标实体之间的实体关系构建时间指标组合,确定所述时间指标组合之间的实体关系。
基于上述实施例,实体关系抽取单元720还用于:
在所述查询文本中不包含时间实体的情况下,基于当前时间以及所述查询文本中包含的指标实体,构建实体关系;
所述装置还包括时间实体合并单元,用于:
在任一指标实体与多个时间实体之间存在实体关系,且所述多个时间实体之间存在包含关系的情况下,合并所述多个时间实体,并更新该指标实体与合并后的时间实体之间的实体关系;
实体关系抽取单元720用于:
在所述查询文本中包含的时间实体缺少时间单位的情况下,基于当前时间补全所述时间实体,抽取所述查询文本中包含的指标实体,以及补全后的时间实体之间的实体关系。
基于上述实施例,实体关系抽取单元720用于:
在两个时间指标组合中各自包含的时间实体不同,且指标实体相同的情况下,基于所述两个时间指标组合中各自包含的时间实体之间的实体关系,以及所述两个时间指标组合,确定所述两个时间指标组合之间的实体关系;
在两个时间指标组合中各自包含的指标实体不同的情况下,基于所述两个时间指标组合中各自包含的指标实体之间的实体关系,以及所述两个时间指标组合,确定所述两个时间指标组合之间的实体关系。
基于上述实施例,数据查询单元730用于:
在所述查询意图为数值查询的情况下,基于所述时间实体和指标实体之间的实体关系,以及所述指标实体的存储信息,进行数据查询,得到所述查询文本对应的查询结果;
在所述查询意图为比较查询的情况下,基于所述时间实体和指标实体之间的实体关系,以及所述指标实体的存储信息,进行数据查询,得到所述时间指标组合对应的指标数据,并基于所述时间指标组合之间的实体关系,以及所述时间指标组合对应的指标数据,进行数据对比,得到所述查询文本对应的查询结果。
基于上述实施例,所述装置还包括指标实体确定单元,用于:
确定所述查询文本中的各分词;
对所述各分词进行实体链接,得到所述各分词在指标知识图谱中链接的标签实体和/或指标实体,所述指标知识图谱中包括标签层级结构和指标实体,以及所述指标实体与所述标签层级结构中各标签实体之间的关系;
基于所述各分词在指标知识图谱中链接的标签实体和/或指标实体,确定查询文本中包含的指标实体。
基于上述实施例,指标实体确定单元用于:
在所述标签实体非对应标签层级结构中的底层标签实体的情况下,确定所述标签实体在对应标签层级结构中对应的底层标签实体;
基于所述底层标签实体在所述指标知识图谱中相连的指标实体,确定所述查询文本中包含的指标实体。
基于上述实施例,所述装置还包括存储信息确定单元,用于:
确定所述查询文本中包含的指标实体在所述指标知识图谱中相连的指标存储实体;
基于所述指标存储实体的实体属性,确定所述查询文本中包含的指标实体的存储信息。
图8示例了一种电子设备的实体结构示意图,如图8所示,该电子设备可以包括:处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令,以执行数据查询方法,该方法包括:确定查询文本;基于所述查询文本的查询意图,抽取所述查询文本中包含的各实体之间的实体关系,所述各实体包括指标实体;基于所述查询意图、所述实体关系,以及所述指标实体的存储信息,进行数据查询,得到所述查询文本对应的查询结果。
此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的数据查询方法,该方法包括:确定查询文本;基于所述查询文本的查询意图,抽取所述查询文本中包含的各实体之间的实体关系,所述各实体包括指标实体;基于所述查询意图、所述实体关系,以及所述指标实体的存储信息,进行数据查询,得到所述查询文本对应的查询结果。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法所提供的数据查询方法,该方法包括:确定查询文本;基于所述查询文本的查询意图,抽取所述查询文本中包含的各实体之间的实体关系,所述各实体包括指标实体;基于所述查询意图、所述实体关系,以及所述指标实体的存储信息,进行数据查询,得到所述查询文本对应的查询结果。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (11)

1.一种数据查询方法,其特征在于,包括:
确定查询文本;
基于所述查询文本的查询意图,抽取所述查询文本中包含的各实体之间的实体关系,所述各实体包括指标实体;
基于所述查询意图、所述实体关系,以及所述指标实体的存储信息,进行数据查询,得到所述查询文本对应的查询结果。
2.根据权利要求1所述的数据查询方法,其特征在于,所述基于所述查询文本的查询意图,抽取所述查询文本中包含的各实体之间的实体关系,包括:
在所述查询意图为数值查询的情况下,抽取所述查询文本中包含的时间实体和指标实体之间的实体关系;
在所述查询意图为比较查询的情况下,抽取所述查询文本中包含的时间实体和指标实体之间的实体关系,并基于所述时间实体和指标实体之间的实体关系构建时间指标组合,确定所述时间指标组合之间的实体关系。
3.根据权利要求2所述的数据查询方法,其特征在于,所述抽取所述查询文本中包含的时间实体和指标实体之间的实体关系,还包括:
在所述查询文本中不包含时间实体的情况下,基于当前时间以及所述查询文本中包含的指标实体,构建实体关系;
所述抽取所述查询文本中包含的时间实体和指标实体之间的实体关系,之后还包括:
在任一指标实体与多个时间实体之间存在实体关系,且所述多个时间实体之间存在包含关系的情况下,合并所述多个时间实体,并更新所述任一指标实体与合并后的时间实体之间的实体关系;
所述抽取所述查询文本中包含的时间实体和指标实体之间的实体关系,包括:
在所述查询文本中包含的时间实体缺少时间单位的情况下,基于当前时间补全所述时间实体,抽取所述查询文本中包含的指标实体,以及补全后的时间实体之间的实体关系。
4.根据权利要求2所述的数据查询方法,其特征在于,所述确定所述时间指标组合之间的实体关系,包括:
在两个时间指标组合中各自包含的时间实体不同,且指标实体相同的情况下,基于所述两个时间指标组合中各自包含的时间实体之间的实体关系,以及所述两个时间指标组合,确定所述两个时间指标组合之间的实体关系;
在两个时间指标组合中各自包含的指标实体不同的情况下,基于所述两个时间指标组合中各自包含的指标实体之间的实体关系,以及所述两个时间指标组合,确定所述两个时间指标组合之间的实体关系。
5.根据权利要求2所述的数据查询方法,其特征在于,所述基于所述查询意图、所述实体关系,以及所述指标实体的存储信息,进行数据查询,得到所述查询文本对应的查询结果,包括:
在所述查询意图为数值查询的情况下,基于所述时间实体和指标实体之间的实体关系,以及所述指标实体的存储信息,进行数据查询,得到所述查询文本对应的查询结果;
在所述查询意图为比较查询的情况下,基于所述时间实体和指标实体之间的实体关系,以及所述指标实体的存储信息,进行数据查询,得到所述时间指标组合对应的指标数据,并基于所述时间指标组合之间的实体关系,以及所述时间指标组合对应的指标数据,进行数据对比,得到所述查询文本对应的查询结果。
6.根据权利要求1至5中任一项所述的数据查询方法,其特征在于,所述查询文本中包含的指标实体基于如下步骤确定:
确定所述查询文本中的各分词;
对所述各分词进行实体链接,得到所述各分词在指标知识图谱中链接的标签实体和/或指标实体,所述指标知识图谱中包括标签层级结构和指标实体,以及所述指标实体与所述标签层级结构中各标签实体之间的关系;
基于所述各分词在指标知识图谱中链接的标签实体和/或指标实体,确定查询文本中包含的指标实体。
7.根据权利要求6所述的数据查询方法,其特征在于,所述基于所述各分词在指标知识图谱中链接的标签实体,确定查询文本中包含的指标实体,包括:
在所述标签实体非对应标签层级结构中的底层标签实体的情况下,确定所述标签实体在对应标签层级结构中对应的底层标签实体;
基于所述底层标签实体在所述指标知识图谱中相连的指标实体,确定所述查询文本中包含的指标实体。
8.根据权利要求6所述的数据查询方法,其特征在于,所述基于所述各分词在指标知识图谱中链接的标签实体和/或指标实体,确定查询文本中包含的指标实体,之后还包括:
确定所述查询文本中包含的指标实体在所述指标知识图谱中相连的指标存储实体;
基于所述指标存储实体的实体属性,确定所述查询文本中包含的指标实体的存储信息。
9.一种数据查询装置,其特征在于,包括:
查询文本确定单元,用于确定查询文本;
实体关系抽取单元,用于基于所述查询文本的查询意图,抽取所述查询文本中包含的各实体之间的实体关系,所述各实体包括指标实体;
数据查询单元,用于基于所述查询意图、所述实体关系,以及所述指标实体的存储信息,进行数据查询,得到所述查询文本对应的查询结果。
10.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至8任一项所述的数据查询方法。
11.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的数据查询方法。
CN202210650131.9A 2022-06-10 2022-06-10 数据查询方法、装置、电子设备和存储介质 Active CN114722163B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210650131.9A CN114722163B (zh) 2022-06-10 2022-06-10 数据查询方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210650131.9A CN114722163B (zh) 2022-06-10 2022-06-10 数据查询方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN114722163A true CN114722163A (zh) 2022-07-08
CN114722163B CN114722163B (zh) 2023-04-07

Family

ID=82232865

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210650131.9A Active CN114722163B (zh) 2022-06-10 2022-06-10 数据查询方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN114722163B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101706792A (zh) * 2009-11-27 2010-05-12 河南大学 一种面向中文查询句的三级查询目标分析方法
CN111352955A (zh) * 2020-02-23 2020-06-30 中国平安财产保险股份有限公司 指标数据查询方法、装置、电子设备及存储介质
CN112035635A (zh) * 2020-08-28 2020-12-04 康键信息技术(深圳)有限公司 医疗领域意图识别方法、装置、设备及存储介质
CN112069267A (zh) * 2019-06-10 2020-12-11 阿里巴巴集团控股有限公司 一种数据处理方法和装置
CN113377805A (zh) * 2021-08-13 2021-09-10 腾讯科技(深圳)有限公司 数据查询方法、装置、电子设备及计算机可读存储介质
US20210406706A1 (en) * 2020-06-30 2021-12-30 Siemens Aktiengesellschaft Method and apparatus for performing entity linking
CN114253798A (zh) * 2021-11-29 2022-03-29 王建冬 指标数据采集方法和装置、电子设备、存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101706792A (zh) * 2009-11-27 2010-05-12 河南大学 一种面向中文查询句的三级查询目标分析方法
CN112069267A (zh) * 2019-06-10 2020-12-11 阿里巴巴集团控股有限公司 一种数据处理方法和装置
CN111352955A (zh) * 2020-02-23 2020-06-30 中国平安财产保险股份有限公司 指标数据查询方法、装置、电子设备及存储介质
US20210406706A1 (en) * 2020-06-30 2021-12-30 Siemens Aktiengesellschaft Method and apparatus for performing entity linking
CN112035635A (zh) * 2020-08-28 2020-12-04 康键信息技术(深圳)有限公司 医疗领域意图识别方法、装置、设备及存储介质
CN113377805A (zh) * 2021-08-13 2021-09-10 腾讯科技(深圳)有限公司 数据查询方法、装置、电子设备及计算机可读存储介质
CN114253798A (zh) * 2021-11-29 2022-03-29 王建冬 指标数据采集方法和装置、电子设备、存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
石峰等: "基于TOGAF的领域知识模型设计", 《中国管理信息化》 *

Also Published As

Publication number Publication date
CN114722163B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN111428053B (zh) 一种面向税务领域知识图谱的构建方法
CN108460136A (zh) 电力运维信息知识图谱构建方法
CN111767716B (zh) 企业多级行业信息的确定方法、装置及计算机设备
JP7432801B2 (ja) デプスマップマッチングに基づく医療データエレメント自動化分類方法及びシステム
CN114168716A (zh) 基于深度学习的工程造价自动抽取和分析方法及装置
CN112163160A (zh) 基于知识图谱的敏感识别方法
CN110929134A (zh) 投融资数据管理方法、装置、计算机设备及存储介质
CN112258061B (zh) 一种项目全过程风险智能分析预警系统及预警方法
CN115239214B (zh) 企业的评估处理方法、装置及电子设备
CN112907358A (zh) 贷款用户信用评分方法、装置、计算机设备和存储介质
CN115936624A (zh) 基层数据管理方法及装置
CN117271557A (zh) 一种基于业务规则的sql生成解释方法、装置、设备及介质
CN117435777B (zh) 一种产业链图谱自动构建方法与系统
CN113792081B (zh) 一种自动化进行数据资产盘点的方法和系统
CN111241299A (zh) 一种法律咨询的知识图谱自动构建方法及其检索系统
CN111191153A (zh) 一种信息技术咨询服务展示装置
CN113377739A (zh) 知识图谱应用方法、平台、电子设备及存储介质
CN116303641B (zh) 一种支持多数据源可视化配置的实验室报告管理方法
CN116933130A (zh) 一种基于大数据的企业行业分类方法、系统、设备及介质
CN112286921A (zh) 一种基于多源异构数据的动态企业画像生成方法
CN114722163B (zh) 数据查询方法、装置、电子设备和存储介质
CN116955856A (zh) 信息展示方法、装置、电子设备以及存储介质
CN113868322A (zh) 一种语义结构解析方法、装置、设备及虚拟化系统、介质
CN114528378A (zh) 文本分类方法、装置、电子设备及存储介质
CN113609848A (zh) 一种工业产品质量安全监管方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant