CN115617978A

CN115617978A - 指标名称检索方法、装置、电子设备及存储介质

Info

Publication number: CN115617978A
Application number: CN202211338263.4A
Authority: CN
Inventors: 唐泽坤
Original assignee: Chongqing Changan Automobile Co Ltd
Current assignee: Chongqing Changan Automobile Co Ltd
Priority date: 2022-10-28
Filing date: 2022-10-28
Publication date: 2023-01-17

Abstract

本申请涉及检索技术领域，特别涉及一种指标名称检索方法、装置、电子设备及存储介质，其中，方法包括：获取用户输入的待搜索指标；对待搜索指标进行分词处理，并基于每个分词文本的多维词向量生成指标文本向量，并将指标文本向量与预设的指标文本向量库中的每个目标指标文本向量进行相似度计算，得到多个相似度结果；将相似度按照由大到小的顺序进行排序，并将排序结果推荐给用户，以使得用户从排序结果中得到待搜索指标。由此，解决了相关技术无法在大量指标的情况下实现高效检索的问题，用户可以随意输入不同数量、不限顺序的关键词，实现相关指标的高效检索，并方便获取自身所需的指标。

Description

指标名称检索方法、装置、电子设备及存储介质

技术领域

本申请涉及检索技术领域，特别涉及一种指标名称检索方法、装置、电子设备及存储介质。

背景技术

在大数据分析中，用户需要很多步骤才能从繁杂的数据中抽取有效的数据。

相关技术中提出一种维护指标唯一性的指标管理方法及系统，涉及大数据及指标管理技术领域，通过设置数据模型，包括数据维度表、运算维度表和指标表，分别用于储存指标的数据维度、运算维度以及指标定义和解析指标定义生成的逻辑表达方式；解析来源于业务场景的各指标定义，分离出数据维度和运算维度；指标的定义及该指标对应的逻辑表达式存储于指标表中；在新增指标时，若数据维度表和计算维度表已存在对应的元素，则不再增加，并根据指标定义生成对应的逻辑表达方式；若根据指标定义解析后的逻辑表达式与指标中存在的不一致，则把新的指标定义及对应的逻辑表达式加入。

然而，相关技术仅实现了指标重复添加情况的规避，但无法在大量指标的情况下实现高效检索。

发明内容

本申请提供一种指标名称检索方法、装置、电子设备及存储介质，以解决相关技术无法在大量指标的情况下实现高效检索的问题，用户可以随意输入不同数量、不限顺序的关键词，实现相关指标的高效检索，并方便获取自身所需的指标。

本申请第一方面实施例提供一种指标名称检索方法，包括以下步骤：获取用户输入的待搜索指标；对所述待搜索指标进行分词处理，并基于每个分词文本的多维词向量生成指标文本向量，并将所述指标文本向量与预设的指标文本向量库中的每个目标指标文本向量进行相似度计算，得到多个相似度结果；以及将所述相似度按照由大到小的顺序进行排序，并将所述排序结果推荐给所述用户，以使得所述用户从所述排序结果中得到所述待搜索指标。

可选地，在一些实施例中，所述对所述待搜索指标名称进行分词处理，并基于每个分词文本的多维词向量生成指标文本向量，包括：根据所述待搜索指标名称的词汇含义生成多个分词文本；基于预设的word2vec算法，对所述多个分词文本进行训练，得到所述每个分词文本的多维词向量；基于所述每个分词文本的多维词向量，利用预设的td-idf算法生成所述指标文本向量。

可选地，在一些实施例中，在将所述指标文本向量与预设的指标文本向量库中的每个目标指标文本向量进行相似度计算之前，还包括：获取当前待训练指标名称；基于预设的脚本，对所述当前待训练指标名称进行分词处理，得到多个待训练分词文本，并基于所述预设的word2vec算法对所述多个待训练分词文本进行训练，得到每个待训练分词文本的多维词向量；基于所述每个待训练分词文本的多维词向量生成所述目标指标文本向量，并根据所述目标指标文本向量构建所述预设的指标文本向量库。

可选地，在一些实施例中，在将所述排序结果推荐给所述用户之后，还包括；将所述待搜索指标名称生成的所述指标文本向量存储至所述预设的指标文本向量库。

本申请第二方面实施例提供一种指标名称检索装置，包括：获取模块，用于获取用户输入的待搜索指标；处理模块，用于对所述待搜索指标进行分词处理，并基于每个分词文本的多维词向量生成指标文本向量，并将所述指标文本向量与预设的指标文本向量库中的每个目标指标文本向量进行相似度计算，得到多个相似度结果；以及检索模块，用于将所述相似度按照由大到小的顺序进行排序，并将所述排序结果推荐给所述用户，以使得所述用户从所述排序结果中得到所述待搜索指标。

可选地，在一些实施例中，所述处理模块，还用于：根据所述待搜索指标名称的词汇含义生成多个分词文本；基于预设的word2vec算法，对所述多个分词文本进行训练，得到所述每个分词文本的多维词向量；基于所述每个分词文本的多维词向量，利用预设的td-idf算法生成所述指标文本向量。

可选地，在一些实施例中，在将所述指标文本向量与预设的指标文本向量库中的每个目标指标文本向量进行相似度计算之前，所述检索模块，还用于：获取当前待训练指标名称；基于预设的脚本，对所述当前待训练指标名称进行分词处理，得到多个待训练分词文本，并基于所述预设的word2vec算法对所述多个待训练分词文本进行训练，得到每个待训练分词文本的多维词向量；基于所述每个待训练分词文本的多维词向量生成所述目标指标文本向量，并根据所述目标指标文本向量构建所述预设的指标文本向量库。

可选地，在一些实施例中，在将所述排序结果推荐给所述用户之后，所述检索模块，还用于；将所述待搜索指标名称生成的所述指标文本向量存储至所述预设的指标文本向量库。

本申请第三方面实施例提供一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现如上述实施例所述的指标名称检索方法。

本申请第四方面实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行，以用于实现如上述实施例所述的指标名称检索方法。

由此，通过获取用户输入的待搜索指标，并对待搜索指标进行分词处理，并基于每个分词文本的多维词向量生成指标文本向量，并将指标文本向量与预设的指标文本向量库中的每个目标指标文本向量进行相似度计算，得到多个相似度结果；将相似度按照由大到小的顺序进行排序，并将排序结果推荐给用户，以使得用户从排序结果中得到待搜索指标。由此，解决了相关技术无法在大量指标的情况下实现高效检索的问题，用户可以随意输入不同数量、不限顺序的关键词，实现相关指标的高效检索，并方便获取自身所需的指标。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本申请实施例提供的指标名称检索方法的流程图；

图2为根据本申请一个具体实施例提供的指标名称检索方法的流程图；

图3为根据本申请实施例提供的指标名称检索装置的方框示意图；

图4为根据本申请实施例提供的电子设备的示意图。

附图标记说明：10-指标名称检索装置、100-获取模块、200-处理模块和300-检索模块。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

下面参考附图描述本申请实施例的指标名称检索方法、装置、电子设备及存储介质。针对上述背景技术中提到的相关技术无法在大量指标的情况下实现高效检索的问题，本申请提供了一种指标名称检索方法，在该方法中，通过获取用户输入的待搜索指标，并对待搜索指标进行分词处理，并基于每个分词文本的多维词向量生成指标文本向量，并将指标文本向量与预设的指标文本向量库中的每个目标指标文本向量进行相似度计算，得到多个相似度结果；将相似度按照由大到小的顺序进行排序，并将排序结果推荐给用户，以使得用户从排序结果中得到待搜索指标。由此，解决了相关技术无法在大量指标的情况下实现高效检索的问题，用户可以随意输入不同数量、不限顺序的关键词，实现相关指标的高效检索，并方便获取自身所需的指标。

具体而言，图1为本申请实施例所提供的一种指标名称检索方法的流程示意图。

如图1所示，该指标名称检索方法包括以下步骤：

在步骤S101中，获取用户输入的待搜索指标。

具体地，本申请实施例可以通过用户输入获取待搜索指标，例如，用户在使用该指标搜索功能时，输入指标名称并点击搜索按钮，如输入“蓝牙钥匙月活跃率”，并点击搜索按钮。

需要说明的是，本申请实施例适用于有大量指标需要综合管理的用户，并适用于有不同部门的人员需要经常检索相关指标，且检索人员不清楚指标是否存在，不清楚指标的具体命名规则，要求用户有一套完整的指标管理软件系统，该系统能够收录指标的名称、定义、计算逻辑，并且系统中已有相对完善的指标收录，并在指标管理软件系统的检索页，可将该功能以搜索框的形式进行部署放置。

在步骤S102中，对待搜索指标进行分词处理，并基于每个分词文本的多维词向量生成指标文本向量，并将指标文本向量与预设的指标文本向量库中的每个目标指标文本向量进行相似度计算，得到多个相似度结果。

其中，其中，预设的指标文本向量库可以是用户预先设定的，可以是通过有限次实验获取的，也可以是通过有限次计算机仿真得到的，在此不做具体限定。

具体地，在本申请实施例中，在获取用户输入的待搜索指标之后，系统将用户输入的“蓝牙钥匙月活跃率”进行分词处理，并将用户输入的带搜索指标转为指标文本向量。

可选地，在一些实施例中，对待搜索指标名称进行分词处理，并基于每个分词文本的多维词向量生成指标文本向量，包括：根据待搜索指标名称的词汇含义生成多个分词文本；基于预设的word2vec算法，对多个分词文本进行训练，得到每个分词文本的多维词向量；基于每个分词文本的多维词向量，利用预设的td-idf算法生成指标文本向量。

具体地，在本申请时实施例中，通过word2vec或其他生成词向量的算法，将分词后的文本投喂进行训练。训练后得到的50维词向量，结果示例如下：“蓝牙”：[0.977683223，0.263541738，-0.176578866，-0.45563828，0.2739291921，1.253427283，……，0.9876788236]。

基于上一步得到的词向量，通过td-idf算法以及求和的均值，生成对应指标的文本向量。如“蓝牙钥匙月有效使用率”的文本向量为“蓝牙”、“蓝牙钥匙”、“月”、“有效”、“使用率”、“使用”词向量通过算法计算生成的结果，最终得到的文本向量也为50维。

在将用户输入的带搜索指标转为指标文本向量后，将指标文本向量与预设的指标文本向量库中的目标指标文本向量进行相似度计算，得到多个相似度结果。

需要说明的是，用户每次录入新指标时，均需重新运行一遍此步骤，以便生成新的词向量及指标向量，便于后续使用计算。

可选地，在一些实施例中，在将指标文本向量与预设的指标文本向量库中的每个目标指标文本向量进行相似度计算之前，还包括：获取当前待训练指标名称；基于预设的脚本，对当前待训练指标名称进行分词处理，得到多个待训练分词文本，并基于预设的word2vec算法对多个待训练分词文本进行训练，得到每个待训练分词文本的多维词向量；基于每个待训练分词文本的多维词向量生成目标指标文本向量，并根据目标指标文本向量构建预设的指标文本向量库。

其中，预设的脚本可以是用户预先设定的，可以是通过有限次实验获取的，也可以是通过有限次计算机仿真得到的，在此不做具体限定。

具体地，收集已有的指标名称，通过编程对每一个指标名称进行分词，在分词过程中，对一些特殊词汇进行标注，以便分词脚本能够正确划分该部分词语。效果如下：输入指标名称“蓝牙钥匙月有效使用率”，分词结果输出“蓝牙”、“蓝牙钥匙”、“月”、“有效”、“使用率”、“使用”，并基于预设的word2vec算法对多个待训练分词文本进行训练，得到每个待训练分词文本的多维词向量；基于每个待训练分词文本的多维词向量生成目标指标文本向量，并根据目标指标文本向量构建预设的指标文本向量库。

在步骤S103中，将相似度按照由大到小的顺序进行排序，并将排序结果推荐给用户，以使得用户从排序结果中得到待搜索指标。

具体地，在将指标文本向量与预设的指标文本向量库中的每个目标指标文本向量进行相似度计算，得到多个相似度结果之后，将相似度按照由大到小的顺序进行排序，并将排序结果推荐给用户，以使得用户从排序结果中得到待搜索指标。例如：

指标名称相似度

可选地，在一些实施例中，在将排序结果推荐给用户之后，还包括；将待搜索指标名称生成的指标文本向量存储至预设的指标文本向量库。

可以理解的是，为了使后续使用计算更加精确，本申请可以将待搜索指标名称生成的指标文本向量存储至预设的指标文本向量库。

由此，如图2所示，通过用户输入搜索的指标名称，并通过系统对输入内容进行分词，分词后基于每个词的向量生成文本向量，通过对文本向量与已有的指标文本向量进行相似度计算，对计算出的相似度进行排序，由高到底进行推荐，实现相关指标的高效检索，检索出的指标会根据与关键词的关联相似度实现由高到低的排序，便于用户能够快速找到自身所需的指标。

根据本申请实施例提出的指标名称检索方法，通过获取用户输入的待搜索指标，并对待搜索指标进行分词处理，并基于每个分词文本的多维词向量生成指标文本向量，并将指标文本向量与预设的指标文本向量库中的每个目标指标文本向量进行相似度计算，得到多个相似度结果；将相似度按照由大到小的顺序进行排序，并将排序结果推荐给用户，以使得用户从排序结果中得到待搜索指标。由此，解决了相关技术无法在大量指标的情况下实现高效检索的问题，用户可以随意输入不同数量、不限顺序的关键词，实现相关指标的高效检索，并方便获取自身所需的指标。

其次参照附图描述根据本申请实施例提出的指标名称检索装置。

图3是本申请实施例的指标名称检索装置的方框示意图。

如图3所示，该指标名称检索装置10包括：获取模块100、处理模块200和检索模块300。

其中，获取模块100，用于获取用户输入的待搜索指标；处理模块200，用于对待搜索指标进行分词处理，并基于每个分词文本的多维词向量生成指标文本向量，并将指标文本向量与预设的指标文本向量库中的每个目标指标文本向量进行相似度计算，得到多个相似度结果；以及检索模块300，用于将相似度按照由大到小的顺序进行排序，并将排序结果推荐给用户，以使得用户从排序结果中得到待搜索指标。

可选地，在一些实施例中，处理模块200，还用于：根据待搜索指标名称的词汇含义生成多个分词文本；基于预设的word2vec算法，对多个分词文本进行训练，得到每个分词文本的多维词向量；基于每个分词文本的多维词向量，利用预设的td-idf算法生成指标文本向量。

可选地，在一些实施例中，在将指标文本向量与预设的指标文本向量库中的每个目标指标文本向量进行相似度计算之前，检索模块300，还用于：获取当前待训练指标名称；基于预设的脚本，对当前待训练指标名称进行分词处理，得到多个待训练分词文本，并基于预设的word2vec算法对多个待训练分词文本进行训练，得到每个待训练分词文本的多维词向量；基于每个待训练分词文本的多维词向量生成目标指标文本向量，并根据目标指标文本向量构建预设的指标文本向量库。

可选地，在一些实施例中，在将排序结果推荐给用户之后，检索模块300，还用于；将待搜索指标名称生成的指标文本向量存储至预设的指标文本向量库。

需要说明的是，前述对指标名称检索方法实施例的解释说明也适用于该实施例的指标名称检索装置，此处不再赘述。

根据本申请实施例提出的指标名称检索装置，通过获取用户输入的待搜索指标，并对待搜索指标进行分词处理，并基于每个分词文本的多维词向量生成指标文本向量，并将指标文本向量与预设的指标文本向量库中的每个目标指标文本向量进行相似度计算，得到多个相似度结果；将相似度按照由大到小的顺序进行排序，并将排序结果推荐给用户，以使得用户从排序结果中得到待搜索指标。由此，解决了相关技术无法在大量指标的情况下实现高效检索的问题，用户可以随意输入不同数量、不限顺序的关键词，实现相关指标的高效检索，并方便获取自身所需的指标。

图4为本申请实施例提供的电子设备的结构示意图。该电子设备可以包括：

存储器401、处理器402及存储在存储器401上并可在处理器402上运行的计算机程序。

处理器402执行程序时实现上述实施例中提供的指标名称检索方法。

进一步地，电子设备还包括：

通信接口403，用于存储器401和处理器402之间的通信。

存储器401，用于存放可在处理器402上运行的计算机程序。

存储器401可能包含高速RAM(Random Access Memory，随机存取存储器)存储器，也可能还包括非易失性存储器，例如至少一个磁盘存储器。

如果存储器401、处理器402和通信接口403独立实现，则通信接口403、存储器401和处理器402可以通过总线相互连接并完成相互间的通信。总线可以是ISA(IndustryStandard Architecture，工业标准体系结构)总线、PCI(Peripheral Component，外部设备互连)总线或EISA(Extended Industry Standard Architecture，扩展工业标准体系结构)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器401、处理器402及通信接口403，集成在一块芯片上实现，则存储器401、处理器402及通信接口403可以通过内部接口完成相互间的通信。

处理器402可能是一个CPU(Central Processing Unit，中央处理器)，或者是ASIC(Application Specific Integrated Circuit，特定集成电路)，或者是被配置成实施本申请实施例的一个或多个集成电路。

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上的指标名称检索方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不是必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“N个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更N个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，N个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列，现场可编程门阵列等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种指标名称检索方法，其特征在于，包括以下步骤；

获取用户输入的待搜索指标；

对所述待搜索指标进行分词处理，并基于每个分词文本的多维词向量生成指标文本向量，并将所述指标文本向量与预设的指标文本向量库中的每个目标指标文本向量进行相似度计算，得到多个相似度结果；以及

将所述相似度按照由大到小的顺序进行排序，并将所述排序结果推荐给所述用户，以使得所述用户从所述排序结果中得到所述待搜索指标。

2.根据权利要求1所述的方法，其特征在于，所述对所述待搜索指标名称进行分词处理，并基于每个分词文本的多维词向量生成指标文本向量，包括：

根据所述待搜索指标名称的词汇含义生成多个分词文本；

基于预设的word2vec算法，对所述多个分词文本进行训练，得到所述每个分词文本的多维词向量；

基于所述每个分词文本的多维词向量，利用预设的td-idf算法生成所述指标文本向量。

3.根据权利要求1所述的方法，其特征在于，在将所述指标文本向量与预设的指标文本向量库中的每个目标指标文本向量进行相似度计算之前，还包括：

获取当前待训练指标名称；

基于预设的脚本，对所述当前待训练指标名称进行分词处理，得到多个待训练分词文本，并基于所述预设的word2vec算法对所述多个待训练分词文本进行训练，得到每个待训练分词文本的多维词向量；

基于所述每个待训练分词文本的多维词向量生成所述目标指标文本向量，并根据所述目标指标文本向量构建所述预设的指标文本向量库。

4.根据权利要求1所述的方法，其特征在于，在将所述排序结果推荐给所述用户之后，还包括；

将所述待搜索指标名称生成的所述指标文本向量存储至所述预设的指标文本向量库。

5.一种指标名称检索装置，其特征在于，包括；

获取模块，用于获取用户输入的待搜索指标；

处理模块，用于对所述待搜索指标进行分词处理，并基于每个分词文本的多维词向量生成指标文本向量，并将所述指标文本向量与预设的指标文本向量库中的每个目标指标文本向量进行相似度计算，得到多个相似度结果；以及

检索模块，用于将所述相似度按照由大到小的顺序进行排序，并将所述排序结果推荐给所述用户，以使得所述用户从所述排序结果中得到所述待搜索指标。

6.根据权利要求5所述的装置，其特征在于，所述处理模块，还用于：

根据所述待搜索指标名称的词汇含义生成多个分词文本；

7.根据权利要求5所述的装置，其特征在于，在将所述指标文本向量与预设的指标文本向量库中的每个目标指标文本向量进行相似度计算之前，所述检索模块，还用于：

获取当前待训练指标名称；

8.根据权利要求5所述的装置，其特征在于，在将所述排序结果推荐给所述用户之后，所述检索模块，还用于；

9.一种电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现如权利要求1-4任一项所述的指标名称检索方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行，以用于实现如权利要求1-4任一项所述的指标名称检索方法。