CN116910229A - 针对指标的智能查询方法和装置 - Google Patents

针对指标的智能查询方法和装置 Download PDF

Info

Publication number
CN116910229A
CN116910229A CN202310911873.7A CN202310911873A CN116910229A CN 116910229 A CN116910229 A CN 116910229A CN 202310911873 A CN202310911873 A CN 202310911873A CN 116910229 A CN116910229 A CN 116910229A
Authority
CN
China
Prior art keywords
query input
index
indexes
similarity
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310911873.7A
Other languages
English (en)
Inventor
刘灿城
石智中
梁霄
雷涛
王寒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China International Financial Ltd By Share Ltd
Original Assignee
China International Financial Ltd By Share Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China International Financial Ltd By Share Ltd filed Critical China International Financial Ltd By Share Ltd
Priority to CN202310911873.7A priority Critical patent/CN116910229A/zh
Publication of CN116910229A publication Critical patent/CN116910229A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • G06F16/337Profile generation, learning or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3322Query formulation using system suggestions
    • G06F16/3323Query formulation using system suggestions using document space presentation or visualization, e.g. category, hierarchy or range presentation and selection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提出了针对指标的智能查询方法,包括:获取查询输入,所述查询输入意图查找与查询输入相关的指标的明细值;基于查询输入从预先构建的知识图谱中查找与查询输入相关的指标,所述知识图谱包括多个节点和在节点间进行连接的边,每个节点表示实体并且具有对应的实体类型,每条边表示该边连接的两个节点所表示的实体间的关系,所述多个节点通过节点间的边表示指标表中多个指标;响应于从预先构建的知识图谱中未查找到与查询输入相关的指标,从指标库中查找与查询输入相关的指标,指标库包括以结构化数据存储的指标表中的指标;确定查找到的与所述查询输入相关的指标的明细值,以便针对查询输入进行响应。

Description

针对指标的智能查询方法和装置
技术领域
本公开涉及金融技术的领域,尤其涉及针对指标的智能查询方法和装置、计算设备、计算机存储介质以及计算机程序产品。
背景技术
随着计算机技术的不断发展,针对各种指标的智能查询的需求越来越多。指标是一类广泛应用于金融、咨询等各行各业的重要数据,具有全面的监测、度量、评估等功能,对科技的发展、经营管理的决策都有重要的指引和支持作用。例如,在金融领域,越来越多的客户希望针对金融指标实现智能查询。在科技领域,越来越多的技术人员希望针对系统的运行指标实现智能查询。智能查询是自然语言处理技术的一个重要应用领域,能够将自然语言的问题经过一系列的分析处理和检索,回复用户所需的答案。它能支持使用自然语言进行人机交互,准确判读用户的意图,并提供有价值的信息,带来优秀的智能化体验。然而,在目前的针对指标的智能查询方式中,存在针对查询的回答或响应的召回率较低以及问答的准确率较低的各种问题,难以满足使用的需求。
发明内容
有鉴于此,本公开提供了针对指标的智能查询方法和装置、计算设备、计算机存储介质以及计算机程序产品,以期望全部或者部分缓键或者消除上述问题。
根据本公开的第一方面,提供了一种针对指标的智能查询方法,包括:获取查询输入,所述查询输入意图查找与所述查询输入相关的指标的明细值;基于所述查询输入从预先构建的知识图谱中查找与所述查询输入相关的指标,所述知识图谱包括多个节点和在节点间进行连接的边,每个节点表示实体并且具有对应的实体类型,每条边表示该边连接的两个节点所表示的实体间的关系,所述多个节点通过节点间的边表示指标表中多个指标;响应于从所述预先构建的知识图谱中未查找到与所述查询输入相关的指标,从指标库中查找与所述查询输入相关的指标,所述指标库包括以结构化数据存储的所述指标表中的指标;确定所述查找到的与所述查询输入相关的指标的明细值,以便针对查询输入进行响应。
在一些实施例中,基于所述查询输入从预先构建的知识图谱中查找与所述查询输入相关的指标,包括:对所述查询输入进行实体识别,以识别出所述查询输入包括的实体和实体类型;基于所述识别出的实体和实体类型,将识别出的实体链接到所述知识图谱中包括的节点所表示的实体;基于知识图谱中的实体间的连接关系,从知识图谱中查找与所述查询输入相关的指标。
在一些实施例中,响应于从所述预先构建的知识图谱中未查找到与所述查询输入相关的指标,从指标库中查找与所述查询输入相关的指标,包括:利用第一编码器对所述查询输入进行向量化,以得到第一向量;确定所述第一向量与所述指标库中的各个指标对应的第二向量之间的第一相似度,所述第二向量是通过将各个指标转化为自然语句并利用第二编码器对转化的自然语句进行向量化得到的;基于相似度排名位于前K位的第一相似度所对应的指标,确定与所述查询输入相关的指标,K为正整数。
在一些实施例中,基于相似度排名位于前K位的第一相似度所对应的指标,确定与所述查询输入相关的指标,包括:将相似度排名位于前K位的第一相似度所对应的指标确定为与所述查询输入相关的指标。
在一些实施例中,基于相似度排名位于前K位的第一相似度所对应的指标,确定与所述查询输入相关的指标,包括:利用第三编码器对所述相似度排名位于前K位的第一相似度所对应的指标进行向量化,以得到K个第三向量;利用第三编码器对所述查询输入进行向量化,以得到第四向量;确定第四向量与所述K个第三向量中每个间的第二相似度;将大于相似度阈值的所有第二相似度对应的指标确定为与所述查询输入相关的指标。
在一些实施例中,确定所述查找到的与所述查询输入相关的指标的明细值,以便针对查询输入进行响应,包括:提取所述查询输入中的关键条件信息;基于所述关键条件信息和所述查找到的与所述查询输入相关的指标,从指标值明细表中查找对应的明细值以作为针对查询输入的响应,所述指标值明细表包括多个指标的明细值。
在一些实施例中,确定所述查找到的与所述查询输入相关的指标的明细值,以便针对查询输入进行响应,包括:提取所述查询输入中的关键条件信息;基于所述关键条件信息和所述查找到的与所述查询输入相关的指标,从指标值明细表中查找对应的明细值,所述指标值明细表包括多个指标的明细值;将所述关键条件信息和所述对应的明细值作为针对查询输入的响应。
在一些实施例中,所述知识图谱是通过如下方式确定的:基于所述指标表中的指标,确定知识图谱的节点表,所述节点表中的每个节点表示从指标表中的指标中提取的实体;基于所述指标表中的指标,确定知识图谱的关系边表,关系边表中的每条边连接两个节点并具有该边连接的两个节点所表示的实体间关系信息;基于所述节点表、关系边表以及实体表,确定所述知识图谱,所述实体表包括各个实体以及对应的实体类型。
根据本公开的第二方面,提供了一种针对指标的智能查询装置,包括:获取模块,被配置成获取查询输入,所述查询输入意图查找与所述查询输入相关的指标的明细值;第一查找模块,被配置成基于所述查询输入从预先构建的知识图谱中查找与所述查询输入相关的指标,所述知识图谱包括多个节点和在节点间进行连接的边,每个节点表示实体并且具有对应的实体类型,每条边表示该边连接的两个节点所表示的实体间的关系,所述多个节点通过节点间的边表示指标表中多个指标;第二查找模块,被配置成响应于从所述预先构建的知识图谱中未查找到与所述查询输入相关的指标,从指标库中查找与所述查询输入相关的指标,所述指标库包括以结构化数据存储的所述指标表中的指标;响应模块,被配置成确定所述查找到的与所述查询输入相关的指标的明细值,以便针对查询输入进行响应。
根据本公开的第三方面,提供了一种计算设备,包括处理器;以及存储器,配置为在其上存储有计算机可执行指令,当计算机可执行指令被处理器执行时执行如上面所述的任意方法。
根据本公开的第四方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,当所述计算机可执行指令被执行时,执行如上面所述的任意方法。
根据本公开的第五方面,提供了一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机可执行指令,计算机可执行指令在被执行时执行如上面所述的任意方法。
在本公开要求保护的针对指标的智能查询方法和装置中,在获取到查询输入后,首先从预先构建的知识图谱中查找与所述查询输入相关的指标,并在从所述预先构建的知识图谱中未查找到与所述查询输入相关的指标时,从指标库中查找与所述查询输入相关的指标,然后确定所述查找到的与所述查询输入相关的指标的明细值,以便针对查询输入进行响应。以这种方式,在利用预先构建的知识图谱提高问答的准确率的同时,利用指标库实现了针对响应的较高召回率和强大泛化性。因此,本发明实现了一个具有高准确率、高召回率和具有强大泛化能力的智能查询方法和装置。
根据下文描述的实施例,本公开的这些和其它优点将变得清楚,并且参考下文描述的实施例来阐明本公开的这些和其它优点。
附图说明
现在将更详细并且参考附图来描述本公开的实施例,其中:
图1图示了根据本公开的实施例的技术方案可以实施在其中的示例性应用场景;
图2图示了根据本公开的一个实施例的一种针对指标的智能查询方法的示意性流程图;
图3图示了根据本公开的实施例的从指标库中查找与所述查询输入相关的指标的方法的示例性流程;
图4图示了根据本公开的实施例的基于相似度排名位于前K位的第一相似度所对应的指标,确定与所述查询输入相关的指标的方法的示例性流程;
图5图示了根据本公开的一个实施例的从指标库中查找与所述查询输入相关的指标的方法的具体示例;
图6图示了根据本公开的一个实施例的针对指标的智能查询装置的示例性结构框图;
图7图示了一个示例系统,其包括代表可以实现本文描述的各种技术的一个或多个系统和/或设备的示例计算设备。
具体实施方式
下面的描述提供了本公开的各种实施例的特定细节,以便本领域的技术人员能够充分理解和实施本公开的各种实施例。应当理解,本公开的技术方案可以在没有这些细节中的一些细节的情况下被实施。在某些情况下,本公开并没有示出或详细描述一些熟知的结构或功能,以避免这些不必要的描述使对本公开的实施例的描述模糊不清。在本公开中使用的术语应当以其最宽泛的合理方式来理解,即使其是结合本公开的特定实施例被使用的。
首先,对本申请实施例中涉及的部分用语进行说明,以便于本领域技术人员理解。
指标:一类广泛应用于金融、咨询和科技等各行各业重要数据,通常是非结构化的数据,需要经过抽取、清洗、关联等一系列数据处理转化为干净、结构化的数据进行存储便于检索。
知识图谱:一种以图的数据结构存储各种实体以及实体之间的关系的知识库,能高效准确地支持问答系统的查询检索。知识图谱由早年语义网的概念发展而来,2012由谷歌正式提出,能够提升用户搜索质量和提供智能化体验。随着知识图谱的技术和应用生态不断发展,知识图谱已被广泛应用于搜索引擎、智能查询、机器人客服等领域。
图1图示了根据本公开的实施例的技术方案可以实施在其中的示例性应用场景100。如图1所示,所述应用场景100包括服务器110、终端120、130以及网络140。终端120、130通过网络140与服务器110可通信地耦合在一起。作为示例,用户A或者B可以分别通过终端120、130上的应用程序或客户端进行针对智能指标的问答。所述用户A或者B例如可以是科技行业的技术人员、金融机构的研究员、普通的金融从业者,或者金融或者科技软件的使用者等等。所述应用程序或客户端例如可以是科技公司、金融公司或者第三方公司发布的应用程序或者客户端。
作为示例,用户A可以在终端120的应用程序或客户端中输入查询输入,所述查询输入意图查找与所述查询输入相关的指标的明细值。服务器110可以获取所述查询输入,并且基于所述查询输入从预先构建的知识图谱中查找与所述查询输入相关的指标,所述知识图谱包括多个节点和在节点间进行连接的边,每个节点表示实体并且对应于指标表中的指标,每个实体具有对应的实体类型,每条边表示该边连接的两个节点所表示的指标间相关;如果从所述预先构建的知识图谱中未查找到与所述查询输入相关的指标,从指标库中查找与所述查询输入相关的指标,所述指标库包括以结构化数据存储的所述指标表中的指标;最后,确定所述查找到的与所述查询输入相关的指标的明细值,以便针对查询输入进行响应。服务器110可以将确定的明细值返回给终端120中的应用程序或客户端以便显示给用户A。
可选地,服务器110可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。上述终端120、130可以包括但不限于以下至少之一:手机、平板电脑、笔记本电脑、台式PC机、数字电视等可以呈现内容的终端。所述网络140例如可以是广域网(WAN)、局域网(LAN)、无线网络、公用电话网、内联网以及本领域的技术人员熟知的任何其它类型的网络。还应当指出,上面描述的场景仅仅是本公开的实施例可以被实施在其中的一个示例,并不是限制性的。
应当指出,上面描述的场景仅仅是本公开的实施例可以被实施在其中的一个示例,并不是限制性的。例如,在一些实施例性场景中,也可能在特定终端上实现目标对象关联。
图2图示了根据本公开的一个实施例的一种针对指标的智能查询方法200的示意性流程图。所述方法200可以实施在参照图1描述的服务器中。所述方法包括如下步骤。
在步骤210,获取查询输入,所述查询输入意图查找与所述查询输入相关的指标的明细值。作为示例,所述查询输入可以是“茅台酒在各地区的销量怎么样”,意图查找茅台酒在每个地区的销量各是多少。这里的指标可以是茅台酒在各地区的销量。当然,这里仅作为示例,事实上不限于查询销量,还可以查询某支股票的股价、某个地区的人口或者国内生产总值、某个系统的性能(例如,处理能力)等等。
在步骤220,基于所述查询输入从预先构建的知识图谱中查找与所述查询输入相关的指标,所述知识图谱包括多个节点和在节点间进行连接的边,每个节点表示实体并且具有对应的实体类型,每条边表示该边连接的两个节点所表示的实体间的关系,所述多个节点通过节点间的边表示指标表中多个指标。例如,知识图谱中存在通过边连接在一起的三个实体茅台酒”、“北京”以及“销量”,可以表征指标“茅台酒在北京的销量”。表可以是已知的表,其可以包括各种指标等信息。
知识图谱是一种基于图的数据结构,由节点(point)和边(Edge)组成,每个节点表示一个“实体”,每条边为实体与实体之间的“关系”,知识图谱本质上是语义网络。实体可以指的是现实世界中的事物,比如人、地名、公司、电话、动物等;关系则用来表达不同实体之间的某种联系。总之,知识图谱就是把所有不同种类的信息连接在一起而得到的一个关系网络,因此知识图谱提供了从“关系”的角度去分析问题的能力。
在一些实施例中,所述知识图谱是通过如下方式确定的。首先,基于所述指标表中的指标,确定知识图谱的节点表,所述节点表中的每个节点表示从指标表中的指标中提取的实体。可以通过实体识别技术从对指标表中的指标进行实体识别。例如,可以从指标“茅台酒在北京的销量”提取到“茅台酒”、“北京”以及“销量”三个实体。其次,基于所述指标表中的指标,确定知识图谱的关系边表,关系边表中的每条边连接两个节点并具有该边连接的两个节点所表示的实体间关系信息。例如,上面所述的“茅台酒”、“北京”以及“销量”三个实体彼此具有关系,可以构成知识图谱中的三条边。最后,基于所述节点表、关系边表以及实体表,确定所述知识图谱,所述实体表包括各个实体以及对应的实体类型。可以使用实体表为提取的实体确定实体类型,例如这里的“茅台酒”的实体类型是酒品、“北京”的实体类型是地理位置等等。这样做是为了在后续查找知识图谱时避免歧义的产生,以防止具有不同实体类型和相同实体名称的实体所引起的歧义。
在一些实施例中,在基于所述查询输入从预先构建的知识图谱中查找与所述查询输入相关的指标时,首先可以对所述查询输入进行实体识别,以识别出所述查询输入包括的实体和实体类型。例如,可以对所述查询输入“茅台酒在各地区的销量怎么样”进行实体识别,以识别出其中包括的实体“茅台酒”、“地区”、“销量”,实体类型分别是酒品、地理位置、统计数据等。然后,基于所述识别出的实体和实体类型,将识别出的实体链接到所述知识图谱中包括的节点所表示的实体。例如,可以将识别出的实体“茅台酒”、“地区”、“销量”分别链接到知识图谱中的实体“茅台酒”、“地区”、“销量”。最后,基于知识图谱中的实体间的连接关系,从知识图谱中查找与所述查询输入相关的指标。例如,在知识图谱中,实体“地区”与实体“北京”、“上海”、“广州”也有连接关系,则可以在知识图谱中查找到指标“茅台酒在北京的销量”、“茅台酒在上海的销量”、“茅台酒在广州的销量”。
在步骤230,响应于从所述预先构建的知识图谱中未查找到与所述查询输入相关的指标,从指标库中查找与所述查询输入相关的指标,所述指标库包括以结构化数据存储的所述指标表中的指标。尽管从所述预先构建的知识图谱中可以准确的获取到与所述查询输入相关的指标,但是基于知识图谱的准确性也导致其召回率低的问题,即有可能从所述知识图谱中找不到与所述查询输入相关的指标。因此,在一些实施例中,在从所述预先构建的知识图谱中未查找到与所述查询输入相关的指标时,可以从指标库中查找与所述查询输入相关的指标,所述指标库包括以结构化数据存储的所述指标表中的指标。以结构化数据将所述指标表中的指标存储在指标库(例如,数据库)中,然后从指标库中查找与所述查询输入相关的指标,可以在适当降低召回准确性的情况下提高对于指标的召回率,从而能够最大程度地确保查找到与所述查询输入相关的指标。应当指出,可以以任何合适的方法从从指标库中查找与所述查询输入相关的指标,这里不做具体限定。可以理解,响应于从所述预先构建的知识图谱中查找到与所述查询输入相关的指标,则不再从指标库中查找与所述查询输入相关的指标。
在步骤240,确定所述查找到的与所述查询输入相关的指标的明细值,以便针对查询输入进行响应。作为示例,在查找到与所述查询输入相关的指标后,可以从包括多个指标的明细值的指标值明细表中查找对应的明细值,以便针对查询输入进行响应。
在一些实施例中,在确定所述查找到的与所述查询输入相关的指标的明细值,以便针对查询输入进行响应时,可以首先提取所述查询输入中的关键条件信息。所述关键条件信息例如可以使时间频率参数(例如,年、季度、月)、排序方式(例如,升序排列、降序排列等)、返回的指标数等。这可以决定之后进行响应时指标值的统计时间粒度、输出的排序方式、返回的指标数目等。然后,基于所述关键条件信息和所述查找到的与所述查询输入相关的指标,从指标值明细表中查找对应的明细值,所述指标值明细表包括多个指标的明细值。作为示例,可以将所述关键条件信息和所述查找到的与所述查询输入相关的指标拼合成SQL(结构化查询语言,Structured Query Language)语句,然后利用所述SQL语句从指标值明细表中查找对应的明细值以作为针对查询输入的响应。
在一些实施例中,在确定所述查找到的与所述查询输入相关的指标的明细值,以便针对查询输入进行响应时,可以首先提取所述查询输入中的关键条件信息。所述关键条件信息例如可以使时间频率参数(例如,年、季度、月)、排序方式(例如,升序排列、降序排列等)、返回的指标数等。这可以决定之后进行响应时指标值的统计时间粒度、输出的排序方式、返回的指标数目等。然后,基于所述关键条件信息和所述查找到的与所述查询输入相关的指标,从指标值明细表中查找对应的明细值以作为针对查询输入的响应,所述指标值明细表包括多个指标的明细值。作为示例,可以将所述关键条件信息和所述查找到的与所述查询输入相关的指标拼合成SQL(结构化查询语言,Structured Query Language)语句,然后利用所述SQL语句从指标值明细表中查找对应的明细值以作为针对查询输入的响应。最后,将所述关键条件信息和所述对应的明细值作为针对查询输入的响应。例如,可以将所述关键条件信息和所述对应的明细值封装成标准接口格式返回以作为针对查询输入的响应,这使得返回的响应更具条理性,易于以用户友好的方式被用户获取,确保了返回符合用户意图范围内的响应。
在本公开要求保护的针对指标的智能查询方法中,在获取到查询输入后,首先从预先构建的知识图谱中查找与所述查询输入相关的指标,并在从所述预先构建的知识图谱中未查找到与所述查询输入相关的指标时,从指标库中查找与所述查询输入相关的指标,然后确定所述查找到的与所述查询输入相关的指标的明细值,以便针对查询输入进行响应。以这种方式,在利用预先构建的知识图谱提高问答的准确率的同时,利用指标库实现了针对响应的较高召回率和强大泛化性。因此,本发明实现了一个具有高准确率、高召回率和具有强大泛化能力的智能查询方法。
图3图示了根据本公开的实施例的从指标库中查找与所述查询输入相关的指标的方法300的示例性流程。所述方法300可以用来实现参照图2描述的步骤230,即响应于从所述预先构建的知识图谱中未查找到与所述查询输入相关的指标,从指标库中查找与所述查询输入相关的指标。如图所示,所述方法300包括步骤310-330。
在步骤310,利用第一编码器对所述查询输入进行向量化,以得到第一向量。所述第一编码器可以是任意合适的编码器,只要对查询输入进行向量化即可,例如其可以利用Word2vec模型来将所述查询输入进行向量化。Word2vec是一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,可以进行训练以学习自然语句中词之间的关系。训练完成之后,Word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系,该向量为神经网络之隐藏层。
在步骤320,确定所述第一向量与所述指标库中的各个指标对应的第二向量之间的第一相似度,所述第二向量是通过将各个指标转化为自然语句并利用第二编码器对转化的自然语句进行向量化得到的。指标库中的指标可能不是自然语句,例如某个指标可能是“茅台酒:北京:销量”,因此可以将其转化为自然语句“茅台酒在北京地区的销量”。然后,可以利用第二编码器将所述自然语句“茅台酒在北京地区的销量”进行向量化,以得到该指标对应的第二向量。应当指出,指标库中的每个指标对应的第二向量都是通过将该指标转换为自然语句然后进行向量化得到的。所述第二编码器是任意合适的编码器,只要对查询输入进行向量化即可,其可以采用与第一编码器相同或不同的结构或模型,例如其同样可以利用Word2vec模型来将所述自然语句进行向量化。
在确定所述第一向量与所述指标库中的各个指标对应的第二向量之间的第一相似度时,可以使用各种合适的方式,例如利用使用第一向量和第二向量之间的欧式距离来确定第一相似度,这不是限制性的。
在步骤330中,基于相似度排名位于前K位的第一相似度所对应的指标,确定与所述查询输入相关的指标,K为正整数。在确定第一向量与所述指标库中的各个指标对应的第二向量之间的相似度后,可以得到多个第一相似度。可以将所述多个第一相似度中,可以获取相似度排名位于前K位的第一相似度对应的指标,然后确定与所述查询输入相关的指标。例如,可以直接将相似度排名位于前K位的第一相似度所对应的指标确定为与所述查询输入相关的指标,这不是限制性的,其它合适的方式也是适用的。
在上述方法中,对所述查询输入进行向量化以得到第一向量,然后与所述指标库中的各个指标对应的第二向量进行相似度比较,这些第二向量是通过将各个指标转化为自然语句并利用第二编码器对转化的自然语句进行向量化得到的,以这种方式可以以较准确的方式和较快的速度得到与所述查询输入相关的指标。
作为示例,图4图示了根据本公开的实施例的基于相似度排名位于前K位的第一相似度所对应的指标,确定与所述查询输入相关的指标的方法400的示例性流程。如图4所示,所述方法400包括如下步骤。
在步骤410,利用第三编码器对所述相似度排名位于前K位的第一相似度所对应的指标进行向量化,以得到K个第三向量。所述第三编码器例如可以不同于第一编码器和第二编码器,以增加本方法的应用的准确性。所述第三编码器可以是交叉编码器,同样也可以是任意合适的编码器,例如其可以利用BERT模型来将所述指标进行向量化。
在步骤420,利用第三编码器对所述查询输入进行向量化,以得到第四向量。同样,第三编码器可以处理自然语句,以对查询输入进行向量化。
在步骤430,确定第四向量与所述K个第三向量中每个间的第二相似度。作为示例,可以利用余弦相似度或者欧氏距离来计算第四向量与所述K个第三向量中每个间的第二相似度。
在步骤440,将大于相似度阈值的所有第二相似度对应的指标确定为与所述查询输入相关的指标。所述相似度阈值可以根据需要被预先指定,其指不被具体限制。
通过利用第三编码器对所述相似度排名位于前K位的第一相似度所对应的指标进行向量化,并将得到的第三向量与所述查询输入对应的向量的进行相似度比较,能够更准确地找到与所述查询输入相关的指标。
图5图示了根据本公开的一个实施例的从指标库中查找与所述查询输入相关的指标的方法的具体示例。如图5所示,利用双编码器中的第一编码器对所述查询输入进行向量化,以得到第一向量;以及,通过将指标库中的各个指标转化为自然语句并利用双编码器中的第二编码器对转化的自然语句进行向量化得到各个指标对应的第二向量。基于此,确定所述第一向量与各个指标对应的第二向量之间的第一相似度,并获取相似度排名位于前K位的第一相似度所对应的指标。
接着,利用第三编码器对所述相似度排名位于前K位的第一相似度所对应的指标进行向量化,以得到K个第三向量;以及利用第三编码器对所述查询输入进行向量化,以得到第四向量,并基于此,确定第四向量与所述K个第三向量中每个间的第二相似度。最后,将大于相似度阈值的所有第二相似度对应的指标返回,作为与所述查询输入相关的指标。
以这种方式,既可以以较快的速度得到与所述查询输入相关的指标,并且保证了查找与所述查询输入相关的指标的准确性。
图6图示了根据本公开的一个实施例的针对指标的智能查询装置600的示例性结构框图。如图6所示,所述针对指标的智能查询装置包括获取模块610、第一查找模块620、第二查找模块630、响应模块640。
获取模块610被配置成获取查询输入,所述查询输入意图查找与所述查询输入相关的指标的明细值。为示例,所述查询输入可以是“茅台酒在各地区的销量怎么样”,意图查找茅台酒在每个地区的销量各是多少。这里的指标可以是茅台酒在各地区的销量。当然,这里仅作为示例,事实上不限于查询销量,还可以查询某支股票的股价、某个地区的人口或者国内生产总值等等。
第一查找模块620被配置成基于所述查询输入从预先构建的知识图谱中查找与所述查询输入相关的指标,所述知识图谱包括多个节点和在节点间进行连接的边,每个节点表示实体并且具有对应的实体类型,每条边表示该边连接的两个节点所表示的实体间的关系,所述多个节点通过节点间的边表示指标表中多个指标。例如,知识图谱中存在通过边连接在一起的三个实体茅台酒”、“北京”以及“销量”,可以表征指标“茅台酒在北京的销量”。表可以是已知的表,其可以包括各种指标等信息。
第二查找模块630被配置成响应于从所述预先构建的知识图谱中未查找到与所述查询输入相关的指标,从指标库中查找与所述查询输入相关的指标,所述指标库包括以结构化数据存储的所述指标表中的指标;
响应模块640被配置成确定所述查找到的与所述查询输入相关的指标的明细值,以便针对查询输入进行响应。作为示例,在查找到与所述查询输入相关的指标后,可以从包括多个指标的明细值的指标值明细表中查找对应的明细值,以便针对查询输入进行响应。
在本公开要求保护的针对指标的智能查询装置中,在获取模块获取到查询输入后,第一查找模块首先从预先构建的知识图谱中查找与所述查询输入相关的指标,并在从所述预先构建的知识图谱中未查找到与所述查询输入相关的指标时,第二查找模块从指标库中查找与所述查询输入相关的指标,然后响应模块确定所述查找到的与所述查询输入相关的指标的明细值,以便针对查询输入进行响应。以这种方式,在利用预先构建的知识图谱提高问答的准确率的同时,利用指标库实现了针对响应的较高召回率和强大泛化性。因此,本发明实现了一个具有高准确率、高召回率和具有强大泛化能力的智能查询装置。
图7图示了示例系统700,其包括代表可以实现本文描述的各种技术的一个或多个系统和/或设备的示例计算设备710。计算设备710可以是例如服务提供商的服务器、与服务器相关联的设备、片上系统、和/或任何其它合适的计算设备或计算系统。
如图示的示例计算设备710包括彼此通信耦合的处理系统711、一个或多个计算机可读介质712以及一个或多个I/O接口713。尽管未示出,但是计算设备710还可以包括系统总线或其他数据和命令传送系统,其将各种组件彼此耦合。系统总线可以包括不同总线结构的任何一个或组合,所述总线结构诸如存储器总线或存储器控制器、外围总线、通用串行总线、和/或利用各种总线架构中的任何一种的处理器或局部总线。还构思了各种其他示例,诸如控制和数据线。
处理系统711代表使用硬件执行一个或多个操作的功能。因此,处理系统711被图示为包括可被配置为处理器、功能块等的硬件元件714。这可以包括在硬件中实现为专用集成电路或使用一个或多个半导体形成的其它逻辑器件。硬件元件714不受其形成的材料或其中采用的处理机构的限制。例如,处理器可以由(多个)半导体和/或晶体管(例如,电子集成电路(IC))组成。在这样的上下文中,处理器可执行指令可以是电子可执行指令。
计算机可读介质712被图示为包括存储器/存储装置715。存储器/存储装置715表示与一个或多个计算机可读介质相关联的存储器/存储容量。存储器/存储装置715可以包括易失性介质(诸如随机存取存储器(RAM))和/或非易失性介质(诸如只读存储器(ROM)、闪存、光盘、磁盘等)。存储器/存储装置715可以包括固定介质(例如,RAM、ROM、固定硬盘驱动器等)以及可移动介质(例如,闪存、可移动硬盘驱动器、光盘等)。计算机可读介质712可以以下面进一步描述的各种其他方式进行配置。
一个或多个I/O接口713代表允许用户使用各种输入设备向计算设备710输入命令和信息并且可选地还允许使用各种输出设备将信息呈现给用户和/或其他组件或设备的功能。输入设备的示例包括键盘、光标控制设备(例如,鼠标)、麦克风(例如,用于语音输入)、扫描仪、触摸功能(例如,被配置为检测物理触摸的容性或其他传感器)、相机(例如,可以采用可见或不可见的波长(诸如红外频率)将不涉及触摸的运动检测为手势)等等。输出设备的示例包括显示设备(例如,监视器或投影仪)、扬声器、打印机、网卡、触觉响应设备等。因此,计算设备710可以以下面进一步描述的各种方式进行配置以支持用户交互。
计算设备710还包括应用716。应用716可以例如是针对指标的智能查询装置600的软件实例,并且与计算设备710中的其他元件相组合地实现本文描述的技术。
本文可以在软件硬件元件或程序模块的一般上下文中描述各种技术。一般地,这些模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元素、组件、数据结构等。本文所使用的术语“模块”,“功能”和“组件”一般表示软件、固件、硬件或其组合。本文描述的技术的特征是与平台无关的,意味着这些技术可以在具有各种处理器的各种计算平台上实现。
所描述的模块和技术的实现可以存储在某种形式的计算机可读介质上或者跨某种形式的计算机可读介质传输。计算机可读介质可以包括可由计算设备710访问的各种介质。作为示例而非限制,计算机可读介质可以包括“计算机可读存储介质”和“计算机可读信号介质”。
与单纯的信号传输、载波或信号本身相反,“计算机可读存储介质”是指能够持久存储信息的介质和/或设备,和/或有形的存储装置。因此,计算机可读存储介质是指非信号承载介质。计算机可读存储介质包括诸如易失性和非易失性、可移动和不可移动介质和/或以适用于存储信息(诸如计算机可读指令、数据结构、程序模块、逻辑元件/电路或其他数据)的方法或技术实现的存储设备之类的硬件。计算机可读存储介质的示例可以包括但不限于RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字通用盘(DVD)或其他光学存储装置、硬盘、盒式磁带、磁带,磁盘存储装置或其他磁存储设备,或其他存储设备、有形介质或适于存储期望信息并可以由计算机访问的制品。
“计算机可读信号介质”是指被配置为诸如经由网络将指令发送到计算设备710的硬件的信号承载介质。信号介质典型地可以将计算机可读指令、数据结构、程序模块或其他数据体现在诸如载波、数据信号或其它传输机制的调制数据信号中。信号介质还包括任何信息传递介质。术语“调制数据信号”是指这样的信号,该信号的特征中的一个或多个被设置或改变,从而将信息编码到该信号中。作为示例而非限制,通信介质包括诸如有线网络或直接连线的有线介质以及诸如声、RF、红外和其它无线介质的无线介质。
如前所述,硬件元件714和计算机可读介质712代表以硬件形式实现的指令、模块、可编程器件逻辑和/或固定器件逻辑,其在一些实施例中可以用于实现本文描述的技术的至少一些方面。硬件元件可以包括集成电路或片上系统、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、复杂可编程逻辑器件(CPLD)以及硅中的其它实现或其他硬件设备的组件。在这种上下文中,硬件元件可以作为执行由硬件元件所体现的指令、模块和/或逻辑所定义的程序任务的处理设备,以及用于存储用于执行的指令的硬件设备,例如,先前描述的计算机可读存储介质。
前述的组合也可以用于实现本文所述的各种技术和模块。因此,可以将软件、硬件或程序模块和其它程序模块实现为在某种形式的计算机可读存储介质上和/或由一个或多个硬件元件714体现的一个或多个指令和/或逻辑。计算设备710可以被配置为实现与软件和/或硬件模块相对应的特定指令和/或功能。因此,例如通过使用处理系统的计算机可读存储介质和/或硬件元件714,可以至少部分地以硬件来实现将模块实现为可由计算设备710作为软件执行的模块。指令和/或功能可以由一个或多个制品(例如,一个或多个计算设备710和/或处理系统711)可执行/可操作以实现本文所述的技术、模块和示例。
在各种实施方式中,计算设备710可以采用各种不同的配置。例如,计算设备710可以被实现为包括个人计算机、台式计算机、多屏幕计算机、膝上型计算机、上网本等的计算机类设备。计算设备710还可以被实现为包括诸如移动电话、便携式音乐播放器、便携式游戏设备、平板计算机、多屏幕计算机等移动设备的移动装置类设备。计算设备710还可以实现为电视类设备,其包括具有或连接到休闲观看环境中的一般地较大屏幕的设备。这些设备包括电视、机顶盒、游戏机等。
本文描述的技术可以由计算设备710的这些各种配置来支持,并且不限于本文所描述的技术的具体示例。功能还可以通过使用分布式系统、诸如通过如下所述的平台722而在“云”720上全部或部分地实现。
云720包括和/或代表用于资源724的平台722。平台722抽象云720的硬件(例如,服务器)和软件资源的底层功能。资源724可以包括在远离计算设备710的服务器上执行计算机处理时可以使用的应用和/或数据。资源724还可以包括通过因特网和/或通过诸如蜂窝或Wi-Fi网络的订户网络提供的服务。
平台722可以抽象资源和功能以将计算设备710与其他计算设备连接。平台722还可以用于抽象资源的分级以提供遇到的对于经由平台722实现的资源724的需求的相应水平的分级。因此,在互连设备实施例中,本文描述的功能的实现可以分布在整个系统700内。例如,功能可以部分地在计算设备710上以及通过抽象云720的功能的平台722来实现。
本公开提供了一种计算机可读存储介质,其上存储有计算机可读指令,计算机可读指令在被执行时实现上述的任一方法。
本公开提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算设备执行上述各种可选实现方式中提供的任一方法。
应当理解,为清楚起见,参考不同的功能单元对本公开的实施例进行了描述。然而,将明显的是,在不偏离本公开的情况下,每个功能单元的功能性可以被实施在单个单元中、实施在多个单元中或作为其它功能单元的一部分被实施。例如,被说明成由单个单元执行的功能性可以由多个不同的单元来执行。因此,对特定功能单元的参考仅被视为对用于提供所描述的功能性的适当单元的参考,而不是表明严格的逻辑或物理结构或组织。因此,本公开可以被实施在单个单元中,或者可以在物理上和功能上被分布在不同的单元和电路之间。
将理解的是,尽管第一、第二、第三等术语在本文中可以用来描述各种设备、元件、部件或部分,但是这些设备、元件、部件或部分不应当由这些术语限制。这些术语仅用来将一个设备、元件、部件或部分与另一个设备、元件、部件或部分相区分。
尽管已经结合一些实施例描述了本公开,但是其不旨在被限于在本文中所阐述的特定形式。相反,本公开的范围仅由所附权利要求来限制。附加地,尽管单独的特征可以被包括在不同的权利要求中,但是这些可以可能地被有利地组合,并且包括在不同权利要求中不暗示特征的组合不是可行的和/或有利的。特征在权利要求中的次序不暗示特征必须以其工作的任何特定次序。此外,在权利要求中,词“包括”不排除其它元件,并且术语“一”或“一个”不排除多个。权利要求中的附图标记仅作为明确的例子被提供,不应该被解释为以任何方式限制权利要求的范围。

Claims (12)

1.一种针对指标的智能查询方法,包括:
获取查询输入,所述查询输入意图查找与所述查询输入相关的指标的明细值;
基于所述查询输入从预先构建的知识图谱中查找与所述查询输入相关的指标,所述知识图谱包括多个节点和在节点间进行连接的边,每个节点表示实体并且具有对应的实体类型,每条边表示该边连接的两个节点所表示的实体间的关系,所述多个节点通过节点间的边表示指标表中多个指标;
响应于从所述预先构建的知识图谱中未查找到与所述查询输入相关的指标,从指标库中查找与所述查询输入相关的指标,所述指标库包括以结构化数据存储的所述指标表中的指标;
确定所述查找到的与所述查询输入相关的指标的明细值,以便针对查询输入进行响应。
2.根据权利要求1所述的方法,其中,基于所述查询输入从预先构建的知识图谱中查找与所述查询输入相关的指标,包括:
对所述查询输入进行实体识别,以识别出所述查询输入包括的实体和实体类型;
基于所述识别出的实体和实体类型,将识别出的实体链接到所述知识图谱中包括的节点所表示的实体;
基于知识图谱中的实体间的连接关系,从知识图谱中查找与所述查询输入相关的指标。
3.根据权利要求1所述的方法,其中,响应于从所述预先构建的知识图谱中未查找到与所述查询输入相关的指标,从指标库中查找与所述查询输入相关的指标,包括:
利用第一编码器对所述查询输入进行向量化,以得到第一向量;
确定所述第一向量与所述指标库中的各个指标对应的第二向量之间的第一相似度,所述第二向量是通过将各个指标转化为自然语句并利用第二编码器对转化的自然语句进行向量化得到的;
基于相似度排名位于前K位的第一相似度所对应的指标,确定与所述查询输入相关的指标,K为正整数。
4.根据权利要求3所述的方法,其中,基于相似度排名位于前K位的第一相似度所对应的指标,确定与所述查询输入相关的指标,包括:
将相似度排名位于前K位的第一相似度所对应的指标确定为与所述查询输入相关的指标。
5.根据权利要求3所述的方法,其中,基于相似度排名位于前K位的第一相似度所对应的指标,确定与所述查询输入相关的指标,包括:
利用第三编码器对所述相似度排名位于前K位的第一相似度所对应的指标进行向量化,以得到K个第三向量;
利用第三编码器对所述查询输入进行向量化,以得到第四向量;
确定第四向量与所述K个第三向量中每个间的第二相似度;
将大于相似度阈值的所有第二相似度对应的指标确定为与所述查询输入相关的指标。
6.根据权利要求1所述的方法,其中,确定所述查找到的与所述查询输入相关的指标的明细值,以便针对查询输入进行响应,包括:
提取所述查询输入中的关键条件信息;
基于所述关键条件信息和所述查找到的与所述查询输入相关的指标,从指标值明细表中查找对应的明细值以作为针对查询输入的响应,所述指标值明细表包括多个指标的明细值。
7.根据权利要求1所述的方法,其中,确定所述查找到的与所述查询输入相关的指标的明细值,以便针对查询输入进行响应,包括:
提取所述查询输入中的关键条件信息;
基于所述关键条件信息和所述查找到的与所述查询输入相关的指标,从指标值明细表中查找对应的明细值,所述指标值明细表包括多个指标的明细值;
将所述关键条件信息和所述对应的明细值作为针对查询输入的响应。
8.根据权利要求1所述的方法,其中,所述知识图谱是通过如下方式确定的:
基于所述指标表中的指标,确定知识图谱的节点表,所述节点表中的每个节点表示从指标表中的指标中提取的实体;
基于所述指标表中的指标,确定知识图谱的关系边表,关系边表中的每条边连接两个节点并具有该边连接的两个节点所表示的实体间关系信息;
基于所述节点表、关系边表以及实体表,确定所述知识图谱,所述实体表包括各个实体以及对应的实体类型。
9.一种针对指标的智能查询装置,包括:
获取模块,被配置成获取查询输入,所述查询输入意图查找与所述查询输入相关的指标的明细值;
第一查找模块,被配置成基于所述查询输入从预先构建的知识图谱中查找与所述查询输入相关的指标,所述知识图谱包括多个节点和在节点间进行连接的边,每个节点表示实体并且具有对应的实体类型,每条边表示该边连接的两个节点所表示的实体间的关系,所述多个节点通过节点间的边表示指标表中多个指标;
第二查找模块,被配置成响应于从所述预先构建的知识图谱中未查找到与所述查询输入相关的指标,从指标库中查找与所述查询输入相关的指标,所述指标库包括以结构化数据存储的所述指标表中的指标;
响应模块,被配置成确定所述查找到的与所述查询输入相关的指标的明细值,以便针对查询输入进行响应。
10.一种计算设备,所述计算设备包括:
存储器,其被配置成存储计算机可执行指令;
处理器,其被配置成当所述计算机可执行指令被处理器执行时执行如权利要求1-8中的任一项所述的方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,当所述计算机可执行指令被执行时,执行如权利要求1-8中的任一项所述的方法。
12.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机可执行指令,计算机可执行指令在被执行时实现根据权利要求1-8中任一项的方法的步骤。
CN202310911873.7A 2023-07-24 2023-07-24 针对指标的智能查询方法和装置 Pending CN116910229A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310911873.7A CN116910229A (zh) 2023-07-24 2023-07-24 针对指标的智能查询方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310911873.7A CN116910229A (zh) 2023-07-24 2023-07-24 针对指标的智能查询方法和装置

Publications (1)

Publication Number Publication Date
CN116910229A true CN116910229A (zh) 2023-10-20

Family

ID=88352797

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310911873.7A Pending CN116910229A (zh) 2023-07-24 2023-07-24 针对指标的智能查询方法和装置

Country Status (1)

Country Link
CN (1) CN116910229A (zh)

Similar Documents

Publication Publication Date Title
US11334635B2 (en) Domain specific natural language understanding of customer intent in self-help
US20180158078A1 (en) Computer device and method for predicting market demand of commodities
KR101419504B1 (ko) 사용자 성향 분석을 통한 맞춤형 쇼핑 정보 제공 시스템 및 방법
US10956469B2 (en) System and method for metadata correlation using natural language processing
US20200110842A1 (en) Techniques to process search queries and perform contextual searches
US20110282861A1 (en) Extracting higher-order knowledge from structured data
WO2020237856A1 (zh) 基于知识图谱的智能问答方法、装置及计算机存储介质
US20160034514A1 (en) Providing search results based on an identified user interest and relevance matching
US20190251422A1 (en) Deep neural network architecture for search
US20180150561A1 (en) Searching method and searching apparatus based on neural network and search engine
US20220107980A1 (en) Providing an object-based response to a natural language query
CN111078842A (zh) 查询结果的确定方法、装置、服务器及存储介质
TW202001621A (zh) 語料庫產生方法及裝置、人機互動處理方法及裝置
CN110245357B (zh) 主实体识别方法和装置
CN114116997A (zh) 知识问答方法、装置、电子设备及存储介质
US11841852B2 (en) Tenant specific and global pretagging for natural language queries
CN105159898A (zh) 一种搜索的方法和装置
Wang et al. Constructing a comprehensive events database from the web
US20160321345A1 (en) Chain understanding in search
CA3051919C (en) Machine learning (ml) based expansion of a data set
US20230274161A1 (en) Entity linking method, electronic device, and storage medium
TWI547888B (zh) A method of recording user information and a search method and a server
US20220121685A1 (en) Generating a query using training observations
CN116910229A (zh) 针对指标的智能查询方法和装置
US11726972B2 (en) Directed data indexing based on conceptual relevance

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination