CN116401334A - 数据指标管理方法、装置、电子设备和可读存储介质 - Google Patents

数据指标管理方法、装置、电子设备和可读存储介质 Download PDF

Info

Publication number
CN116401334A
CN116401334A CN202310184367.2A CN202310184367A CN116401334A CN 116401334 A CN116401334 A CN 116401334A CN 202310184367 A CN202310184367 A CN 202310184367A CN 116401334 A CN116401334 A CN 116401334A
Authority
CN
China
Prior art keywords
index
keywords
candidate
keyword
strings
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310184367.2A
Other languages
English (en)
Inventor
史季
信春雷
赵海燕
李志超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sunshine Property & Casualty Insurance Co
Original Assignee
Sunshine Property & Casualty Insurance Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sunshine Property & Casualty Insurance Co filed Critical Sunshine Property & Casualty Insurance Co
Priority to CN202310184367.2A priority Critical patent/CN116401334A/zh
Publication of CN116401334A publication Critical patent/CN116401334A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3322Query formulation using system suggestions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3337Translation of the query language, e.g. Chinese to English
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种数据指标管理方法、装置、电子设备和可读存储介质,该数据指标管理方法包括:响应用户的检索操作,获取用户输入的指标;从指标的左端提取候选字串;基于候选字串和预先建立的词表将指标拆分为多个关键词;其中,关键词为中文字符,词表包括多个中文词语;在预先建立的数据库中基于指标对应的关键词进行检索,输出检索结果;通过将用户输入的数据指标拆分,基于拆分得到的关键词进行检索,匹配数据指标对应的的信息,规范统一了指标定义,减少重复计算,缩短程序开发周期和降低后期维护难度,提升了用户体验。

Description

数据指标管理方法、装置、电子设备和可读存储介质
技术领域
本发明涉及数据处理技术领域,尤其是涉及一种数据指标管理方法、装置、电子设备和可读存储介质。
背景技术
目前,公司业务指标规范定义流程是,业务用户或开发人员通过各种业务需求渠道,业务人员通常用自已所理解指标含义来定义指标含义规范,开发人员根据业务人员提供的指标信息,构建自己的数据模型,在报表或数据可视化的结果出来后,需要开发人员和业务人员的反复确认才能正式上线。
因此,现有技术客观上存在以下缺点:(1)现有的指标规范都是基于各业务线部门本身定义的,指标规范不统一,存在重复指标不同定义;(2)针对业务提供的重复计算指标,从开发到上线阶段会出现,人力、机器资源的浪费;(3)开发人员针对业务提供的指标信息,构建数据模型时,中英文字段名称难以统一化或标准化。后期会对整个代码层维护或重构作业,增大困难,影响开发周期。
发明内容
有鉴于此,本发明的目的在于提供一种数据指标管理方法、装置和电子设备,通过将用户输入的数据指标拆分,基于拆分得到的关键词进行检索,匹配数据指标对应的信息,规范统一了指标定义,减少重复计算,缩短程序开发周期和降低后期维护难度,提升了用户体验。
第一方面,本发明提供的了一种数据指标管理方法,该数据指标管理方法包括:响应用户的检索操作,获取用户输入的指标;从指标的左端提取候选字串;基于候选字串和预先建立的词表将指标拆分为多个关键词;其中,关键词为中文字符,词表包括多个中文词语;在预先建立的数据库中基于指标对应的关键词进行检索,输出检索结果。
在本发明较佳的实施例中,从指标的左端提取候选字串的步骤,包括:从指标的左端提取长度不大于预设阈值的候选字串;基于候选字串和预先建立的词表将指标拆分为多个关键词的步骤,包括:判断候选字串是否包含在预先建立的词表中;如果是,将候选字串作为关键词,并在指标中切除候选字串;对于切除候选字串后的指标,继续执行从指标的左端提取长度不大于预设阈值的候选字串的步骤,直到指标不包含字符,得到多个关键词。
在本发明较佳的实施例中,判断候选字串是否包含在预先建立的词表中的步骤之后,方法还包括:如果否,将候选字串的最右边的一个字符切除;判断切除字符后的候选字串是否包含在词表中;如果切除字符后的候选字串包含在词表中,将切除字符后的候选字串作为关键词;如果切除字符后的候选字串不包含在词表中,继续执行将候选字串的最右边的一个字符切除的步骤,直至候选字串不包含字符。
在本发明较佳的实施例中,在预先建立的数据库中基于指标对应的关键词进行检索的步骤,包括:在预先建立的数据库内检索关键词;如果关键词包含在数据库内,确定关键词在数据库内对应的推荐词;其中,推荐词为英文字符。
在本发明较佳的实施例中,在预先建立的数据库中基于指标对应的关键词进行检索的步骤之后,该数据指标管理方法还包括:如果关键词不包含在数据库内,将未包含在数据库内的关键词作为目标关键词,确定目标关键词对应的推荐词;其中,目标关键词对应的推荐词用于表征关键词在第三方辞典中的英文翻译。
在本发明较佳的实施例中,在预先建立的数据库中基于指标对应的关键词进行检索的步骤后,方法还包括:基于指标确定联想关键词,其中,联想关键词包含在数据库内;确定联想关键词对应的推荐词。
在本发明较佳的实施例中,在预先建立的数据库中基于指标对应的关键词进行检索,输出检索结果的步骤之后,该数据指标管理方法还包括:如果指标包括至少一个目标关键词,将指标进行标准化处理,将标准化处理后的数据存储到数据库中。
第二方面,本发明实施例提供了一种数据指标管理装置,该数据指标管理装置包括:指标获取模块,用于响应用户的检索操作,获取用户输入的指标;候选字串获取模块,用于从指标的左端提取候选字串;关键词获取模块,用于基于候选字串和预先建立的词表将指标拆分为多个关键词;其中,关键词为中文字符,词表包括多个中文词语;检索模块,用于在预先建立的数据库中基于指标对应的关键词进行检索,输出检索结果。
第三方面,本发明实施例提供了一种电子设备,包括处理器和存储器,存储器存储有能够被处理器执行的计算机可执行指令,处理器执行计算机可执行指令以实现上述任一项的数据指标管理方法。
第四方面,本发明实施例提供了一种可读存储介质,可读存储介质存储有计算机可执行指令,计算机可执行指令在被处理器调用和执行时,计算机可执行指令促使处理器实现上述任一项的数据指标管理方法。
本发明实带来以下有益效果:
本发明提供的了一种数据指标管理方法、装置、电子设备和可读存储介质,该数据指标管理方法包括:响应用户的检索操作,获取用户输入的指标;从指标的左端提取候选字串;基于候选字串和预先建立的词表将指标拆分为多个关键词;其中,关键词为中文字符,词表包括多个中文词语;在预先建立的数据库中基于指标对应的关键词进行检索,输出检索结果;通过将用户输入的数据指标拆分,基于拆分得到的关键词进行检索,匹配数据指标对应的信息,规范统一了指标定义,减少重复计算,缩短程序开发周期和降低后期维护难度,提升了用户体验。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种数据指标管理方法的流程图;
图2为本发明实施例提供的一种用户指标检索结果的示意图;
图3为本发明实施例提供的另一种数据指标管理方法的流程图;
图4为本发明实施例提供的一种将指标拆分为多个关键词的方法流程图;
图5为本发明实施例提供的一种联想关键词模型的示意图;
图6为本发明实施例提供的一种联想关键词检索结果的示意图;
图7为本发明实施例提供的又一种数据指标管理方法的流程图;
图8为本发明实施例提供的一种在线翻译指标结构的示意图;
图9为本发明实施例提供了一种数据指标管理装置的结构示意图;
图10为本发明实施例提供的一种电子设备的结构示意图。
图标:310-指标获取模块;320-候选字串获取模块;330-关键词获取模块;340-检索模块;400-存储器;401-处理器;402-总线;403-通信接口。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
此外,术语“水平”、“竖直”、“悬垂”等术语并不表示要求部件绝对水平或悬垂,而是可以稍微倾斜。如“水平”仅仅是指其方向相对“竖直”而言更加水平,并不是表示该结构一定要完全水平,而是可以稍微倾斜。
在本发明的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
下面结合附图,对本发明的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
实施例一
本发明实施例提供了一种数据指标管理方法,参见图1所示的本发明实施例提供的一种数据指标管理方法的流程图,该数据指标管理方法的步骤包括:
步骤S102,响应用户的检索操作,获取用户输入的指标;
定义关键字,是业务人员在公司的需求调研和指标梳理的过程中,必经且重要的一步。因为用户在定义的过程中,必须让指标关键字贴合业务场景,且符合标准规范。所以指标管理平台提供的检索方式显得尤为重要。
具体的,用户输入需要检索的指标信息,获取指标信息后,先将该指标作为一个完整的关键词进行检索,查看是否能够检索到对应的结果,示例性的,用户输入“追偿核销结清金额”,如果检索到对应的结果就直接输出,如果没有检索到对应的结果就需要将该指标进行分词,即执行步骤S104。
步骤S104,从指标的左端提取候选字串;
具体的,依照读写习惯,我们从指标的左端开始提取字串,当然在特殊的算法下,也可以从指标的右侧提取字串;示例性的,当用户输入“追偿核销结清金额”,从指标的左侧提取字串,如:“追”、“偿”、“追偿”、“核销”、“结清金额”等,当然不同的算法和预设的阈值不同,提取到的字串也是不同的。
步骤S106,基于候选字串和预先建立的词表将指标拆分为多个关键词;其中,关键词为中文字符,词表包括多个中文词语;
具体的,预先建立词表,词表中包括预先添加的多个词中文词语,示例性的,词表中可以包括“追偿”、“核销”等,一般不包括“结清金”这样在业务中不会用到的词语;将步骤S104中提取出的候选字串与预先见里的词表中的词语进行比较,确定哪些候选字串在词表中出现,将出现的字串作为关键词,也即将用户输入的指标拆分为了多个关键词。
步骤S108,在预先建立的数据库中基于指标对应的关键词进行检索,输出检索结果;
具体的,将获取到的多个关键词在预先建立的数据库中进行检索,上述预先建立的数据库中包括关键词的翻译,检索到翻译信息后,输出结果;示例性的,对于用户输入的“追偿核销结清金额”,将之分隔为“追偿”、“核销”、“结清”和“金额”四个关键词,在数据库中检索上述关键词对应的翻译,输出结果“recovery_write_off_sett_amt”,参见图2所示的本发明实施例提供的一种用户指标检索结果的示意图。
本发明提供的了一种数据指标管理方法,该数据指标管理方法包括:响应用户的检索操作,获取用户输入的指标;从指标的左端提取候选字串;基于候选字串和预先建立的词表将指标拆分为多个关键词;其中,关键词为中文字符,词表包括多个中文词语;在预先建立的数据库中检索指标对应的关键词,输出检索结果;通过将用户输入的数据指标拆分,基于拆分得到的关键词进行检索,匹配数据指标对应的信息,规范统一了指标定义,减少重复计算,缩短程序开发周期和降低后期维护难度,提升了用户体验。
实施例二
在上述实施例的基础上,本发明实施例提供了另一种数据指标管理方法,参见图3所示的本发明实施例提供的另一种数据指标管理方法的流程图,该数据指标管理方法的步骤包括:
步骤302,响应用户的检索操作,获取用户输入的指标。
步骤304,从指标的左端提取候选字串。
具体的,从指标的左端提取候选字串,预先设置阈值,比如6个字符,从指标的左端提取不大于预设阈值的候选字串;示例性的,用户输入指标“追偿核销结清金额”,从最左端提取不大于预设值6个字符的候选字串,如“追偿核销结清”,执行步骤306后,继续提取不大于预设值6个字符的候选字串,如“金额”,继续执行步骤306;对于切除候选字串后的指标,继续执行从指标的左端提取长度不大于预设阈值的候选字串的步骤,直到指标不包含字符。
步骤306,基于候选字串和预先建立的词表将指标拆分为多个关键词;其中,关键词为中文字符,词表包括多个中文词语。
具体的,本发明实施例提供一种将指标拆分为多个关键词的方法,通过下述步骤A1至A5实现:
步骤A1:判断候选字串是否包含在预先建立的词表中;
步骤A2:将候选字串作为关键词,并在指标中切除候选字串;
步骤A3:将候选字串的最右边的一个字符切除;
步骤A4:判断切除字符后的候选字串是否包含在词表中;
步骤A5:将切除字符后的候选字串作为关键词;
具体的,预先建立词表,词表中包括多个中文词语,在词表中检索候选字串,如果候选字串包含在词表中,执行步骤A2,将该候选字串作为关键词,并且在指标中将该候选字串切除,将切除了候选字串的指标继续执行步骤S304,提取候选字串;如果候选字串不包含在词表中,将该候选字串最右端的一个字符切除,在词表中检索切除了一个字符的候选字串,如果切除了一个字符的候选字串包含在词表中,执行步骤A2,将该切除了一个字符的候选字串作为关键词,如果切除了一个字符的候选字串不包含在词表中,继续执行步骤A3,直至切除了若干字符的候选字串包含在词表中,将之作为关键词,或,直至候选字串中不包含字符。
示例性的,以指标“追偿核销结清金额”为例,从最左端提取候选字串“追偿核销结清金额”,在词表中检索“追偿核销结清金额”,如果词表中包含“追偿核销结清金额”,将“追偿核销结清金额”作为关键词,如果词表中不包含“追偿核销结清金额”,在候选字串最右边切除一个字符,切除了一个字符的候选字串为“追偿核销结清金”,在词表中继续检索“追偿核销结清金”,如果在,将“追偿核销结清金”作为关键词,如果不在,继续在候选字串的最右边切除字符;进一步的,获取到关键词后,在指标中切除关键词,在切除了关键词的指标中继续提取候选字串,继续执行上述步骤A1至A5。
进一步的,在上述实施例的基础上,本发明实施例提供了另一种将指标拆分为多个关键词的方法,本方法采用最大匹配算法中的MM算法(正向最大匹配算法),从左到右将待分词文本中的几个连续字符与词表匹配,如果匹配上,则切分出一个词。并从第m+1位重新进行比较,若匹配失败,从指标中取出第二长(仅次于m)的词再进行比较,以此类推,直到为一位为止。
参见图4所示的本发明实施例提供的一种将指标拆分为多个关键词的方法流程图,首先确定指标S1、输出词串S2=“”和最大词长MaxLen;从S1左边开始,去除候选字串W,W的长度不大于MaxLen;判断W是否在词表中,如果在,将S2=S2+W+“/”并且S1=S1-W;如果不在将W最右边的一个字去掉,判断W是否为单字,如果是,将S2=S2+W+“/”并且S1=S1-W;如果否,判断W是否在词表中;在S2=S2+W+“/”并且S1=S1-W的步骤后,还要判断S1是否为空,如果S1为空,输出S2。示例性的,指标“追偿核销结清金额”经过上述方法,可以分为“追偿”、“核销”、“结清”、“金额”四个关键词。
步骤308,判断关键词是否包含在数据库。
步骤310,确定关键词在数据库中的推荐词,并输出推荐词。
继续参见图3,判断上述关键词是否包含在数据库内,如果在,输出关键词对应的推荐词,推荐词为数据库中关键词对应的英文字符;示例性的,指标“追偿核销结清金额”对应的推荐词为“recovery_write_off_sett_amt”。
步骤312,确定目标关键词。
具体的,如果至少有一个关键词不在词表中,将不在词表中的关键词作为目标关键词;示例性的,指标“追偿核销结清金额”,切分为多个关键词“追偿”、“核销”、“结清”、“金额”,其中,“追偿”未包含在词表中,将“追偿”作为目标关键词。
步骤314,确定目标关键词对应的推荐词,并输出结果。
具体的,在第三方辞典中检索目标关键词的英文翻译,并输出该英文翻译作为结果。
进一步的,数据指标管理方法还包括:基于指标确定联想关键词,其中,联想关键词包含在数据库内;确定联想关键词对应的推荐词。
具体的,一般词根猜想都是根据用户输入关键字来关联猜想得来的,即用户在查询指标信息的同时,后台针对关键字返回一系列跟词根可以匹配词元信息的列表;示例性的,以指标“追偿核销结清金额”为例,参见图5所示的本发明实施例提供的一种联想关键词模型的示意图,图5中,第一列为序号,第二列表示依据指标在词表中检索到的关键词,第三列表示关键词对应的推荐词,第四列表示进一步的操作;基于图5做联想检索,得到联想关键词以及其翻译,参见图6所示的本发明实施例提供的一种联想关键词检索结果的示意图,图6中展示的列表顺序是按照Elasticsearch(一种搜索引擎)默认的打分方式来规划排列的,默认是降序排列,相似度最高的排在第一位,其中第一列为分数,第二列为联想关键词以及对应英文翻译。
进一步的,数据指标管理方法还包括:如果指标包括至少一个目标关键词,将指标进行标准化处理,将标准化处理后的数据存储到数据库中。
具体的,将目标关键词进行标准化处理,设置在常用环境中的对应翻译,将标准化处理后的数据存储到数据库中,方便后续检索。
进一步的,本发明实施例提供又一种数据指标管理方法,参见图7所示的本发明实施例提供的另一种数据指标管理方法的流程图,用户查看数据指标报表,获取指标信息,如果存在指标,直接获取指标信息;如果不存在,进一步审核新的指标,如果不通过,取消录入新指标,如果审核通过,打开赐个页面查询词根并翻译,如果不翻译,审核新的词根并翻译,进一步维护性指标,便于后续查询。
本实施例中分词采用基于Elasticsearch框架的默认分词器(standard analyzer(标准分析程序));至于为什么不选用针对中文分词更友好的IK analyzer(一种分词程序)分词器,是因为针对公司业务场景来决定:IK分词虽然能够根据词库创建有效的分词索引,搜索的效率和准确率很高,但是有些业务词根如果不存在词库,则不会被分词。因此在查询的时候,可能目标文本存在此词元,但是分词分不出这个词元,则查询结果将为;standard分词是根据每个汉字进行的分词,因IK存在的问题,将不会出现在standard分词上面,而且应用场景是金融行业的指标词根检索,数据量不大,匹配索引构建过程不会造成资源浪费,应用效果极佳;通过分词后得到一组词元数组关键字,这样为我们的索引构建提供数据信息。
本实施例中检索方式采用Lucene(一个开放源代码的全文检索引擎工具包)的倒排索引对分片的结果数据进行检索。一般我们检索某段内容时,通常经过查找某篇文章,然后去找里面的某个关键词。这种行为便是正向索引(forward index)。本方案是通过某个关键词来检索到包含它的多篇文章,这种查找索引就是倒排索引,主要分为三个部分:
1、term index(词项索引)在本方案的角色是匹配词根的词典索引。通过词典索引可以直接找到关键词的词元信息在词典中的大致位置,然后在数据所在的磁盘block进行二次查找。
2、term dictionary(词典)在本方案的角色是词根映射关系的词典库,包含了每个关键字被分词后的term列表,以及一些静态统计属性比如词频和指针定位到词频和位置通过在词频文件和位置文件之间的关联访问。
3、posting list(记录列表)在本方案中所有包含词元的term文档id的集合,该阶段需要从词典映射到这个集合。
整个倒排索引的过程是在term dictionary的基础上添加了term index来加速检索,term index以树的形式缓存在内存中,从term index查到对应的term dictionary的block位置之后,再去磁盘上找term的过程。
进一步的,在elasticsearch的检索结果整理出三种结果:全词根精准匹配的规范英文指标命名返回字符串;部分模糊关联匹配的词根列表数组;检索不到的新词根或者新指标关键字。然后将三类返回结果,打标签分配到不同的处理接口进行处理。
进一步的,新词跟或新指标关键字匹配不上的内容,可以通过页面查询的方式,来获取在线翻译的准确内容。举例查询词库不存在的词根关键字“追偿核销结清金额”,会走腾讯翻译库翻译结果,参见图8所示的本发明实施例提供的一种在线翻译指标结构的示意图,指标“追偿核销结清金额”的翻译词为“Recovery_and_cancellation_settlement_amount”。
本发明实施例提供了数据指标管理方法,标准化指标定义流程,规范化开发作业流程,提升公司整体数据管理水平,缩短业务指标确认统一化周期,提高需求沟通效率,帮助开发人员迅速定义指标规范,缩短开发周期时长。
实施例三
在上述实施例的基础上,本发明实施例提供了一种数据指标管理装置,参见图9所示的本发明实施例提供了一种数据指标管理装置的结构示意图,该数据指标管理装置包括:
指标获取模块310,用于响应用户的检索操作,获取用户输入的指标。
候选字串获取模块320,用于从指标的左端提取候选字串。
关键词获取模块330,用于基于候选字串和预先建立的词表将指标拆分为多个关键词;其中,关键词为中文字符,词表包括多个中文词语。
检索模块340,用于在预先建立的数据库中基于指标对应的关键词进行检索,输出检索结果。
在本发明一些较佳的实施例中,该数据指标管理装置还包括:候选字串编辑模块,用于将候选字串的最右边的一个字符切除;判断切除字符后的候选字串是否包含在词表中;如果切除字符后的候选字串包含在词表中,将切除字符后的候选字串作为关键词;如果切除字符后的候选字串不包含在词表中,继续执行将候选字串的最右边的一个字符切除的步骤,直至候选字串不包含字符。
在本发明一些较佳的实施例中,该数据指标管理装置还包括:目标关键词确定模块,用于如果关键词不包含在数据库内,将未包含在数据库内的关键词作为目标关键词,确定目标关键词对应的推荐词;其中,目标关键词对应的推荐词用于表征关键词在第三方辞典中的英文翻译。
在本发明一些较佳的实施例中,该数据指标管理装置还包括:联想关键词确定模块,用于基于指标确定联想关键词,其中,联想关键词包含在数据库内;确定联想关键词对应的推荐词。
在本发明一些较佳的实施例中,该数据指标管理装置还包括:指标维护模块模块,用于如果指标包括至少一个目标关键词,将指标进行标准化处理,将标准化处理后的数据存储到数据库中。
实施例四
本发明实施例还提供了一种电子设备,用于运行上述数据指标管理方法;参见图10所示的本发明实施例提供的一种电子设备的结构示意图,该电子设备包括存储器400和处理器401,其中,存储器400用于存储一条或多条计算机指令,一条或多条计算机指令被处理器401执行,以实现上述数据指标管理方法。
进一步地,图10所示的电子设备还包括总线402和通信接口403,处理器401、通信接口403和存储器400通过总线402连接。
其中,存储器400可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口403(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。总线402可以是ISA总线、PCI总线或EISA总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图10中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
处理器401可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器401中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器401可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DigitalSignal Processor,简称DSP)、专用集成电路(Application Specific IntegratedCircuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器400,处理器401读取存储器400中的信息,结合其硬件完成前述实施例的方法的步骤。
本发明实施例所提供的进行数据指标管理的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
在本发明所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种数据指标管理方法,其特征在于,所述数据指标管理方法包括:
响应用户的检索操作,获取用户输入的指标;
从所述指标的左端提取候选字串;
基于所述候选字串和预先建立的词表将所述指标拆分为多个关键词;其中,所述关键词为中文字符,所述词表包括多个中文词语;
在预先建立的数据库中基于所述指标对应的所述关键词进行检索,输出检索结果。
2.根据权利要求1所述的数据指标管理方法,其特征在于,从所述指标的左端提取候选字串的步骤,包括:
从所述指标的左端提取长度不大于预设阈值的候选字串;
基于所述候选字串和预先建立的词表将所述指标拆分为多个关键词的步骤,包括:
判断所述候选字串是否包含在预先建立的词表中;
如果是,将所述候选字串作为关键词,并在所述指标中切除所述候选字串;
对于切除所述候选字串后的所述指标,继续执行从所述指标的左端提取长度不大于预设阈值的候选字串的步骤,直到所述指标不包含字符,得到多个所述关键词。
3.根据权利要求2所述的数据指标管理方法,其特征在于,判断所述候选字串是否包含在预先建立的词表中的步骤之后,所述方法还包括:
如果否,将所述候选字串的最右边的一个字符切除;
判断切除字符后的所述候选字串是否包含在所述词表中;
如果切除字符后的所述候选字串包含在所述词表中,将切除字符后的所述候选字串作为关键词;
如果切除字符后的所述候选字串不包含在所述词表中,继续执行所述将所述候选字串的最右边的一个字符切除的步骤,直至所述候选字串不包含字符。
4.根据权利要求1所述的数据指标管理方法,其特征在于,在预先建立的数据库中基于所述指标对应的所述关键词进行检索的步骤,包括:
在预先建立的数据库内检索所述关键词;
如果所述关键词包含在所述数据库内,确定所述关键词在所述数据库内对应的推荐词;其中,所述推荐词为英文字符。
5.根据权利要求4所述的数据指标管理方法,其特征在于,在预先建立的数据库中基于所述指标对应的所述关键词进行检索的步骤之后,所述方法还包括:
如果所述关键词不包含在所述数据库内,将未包含在所述数据库内的所述关键词作为目标关键词,确定所述目标关键词对应的推荐词;其中,所述目标关键词对应的推荐词用于表征所述关键词在第三方辞典中的英文翻译。
6.根据权利要求1所述的数据指标管理方法,其特征在于,在预先建立的数据库中基于所述指标对应的所述关键词进行检索的步骤后,所述方法还包括:
基于所述指标确定联想关键词,其中,所述联想关键词包含在所述数据库内;
确定所述联想关键词对应的推荐词。
7.根据权利要求5所述的数据指标管理方法,其特征在于,在预先建立的数据库中基于所述指标对应的所述关键词进行检索,输出检索结果的步骤之后,所述方法还包括:
如果所述指标包括至少一个所述目标关键词,将所述指标进行标准化处理,将标准化处理后的数据存储到所述数据库中。
8.一种数据指标管理装置,其特征在于,所述数据指标管理装置包括:
指标获取模块,用于响应用户的检索操作,获取用户输入的指标;
候选字串获取模块,用于从所述指标的左端提取候选字串;
关键词获取模块,用于基于所述候选字串和预先建立的词表将所述指标拆分为多个关键词;其中,所述关键词为中文字符,所述词表包括多个中文词语;
检索模块,用于在预先建立的数据库中基于所述指标对应的所述关键词进行检索,输出检索结果。
9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机可执行指令,所述处理器执行所述计算机可执行指令以实现权利要求1至7任一项所述的数据指标管理方法。
10.一种可读存储介质,其特征在于,所述可读存储介质存储有计算机可执行指令,所述计算机可执行指令在被处理器调用和执行时,计算机可执行指令促使处理器实现权利要求1至7任一项所述的数据指标管理方法。
CN202310184367.2A 2023-02-18 2023-02-18 数据指标管理方法、装置、电子设备和可读存储介质 Pending CN116401334A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310184367.2A CN116401334A (zh) 2023-02-18 2023-02-18 数据指标管理方法、装置、电子设备和可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310184367.2A CN116401334A (zh) 2023-02-18 2023-02-18 数据指标管理方法、装置、电子设备和可读存储介质

Publications (1)

Publication Number Publication Date
CN116401334A true CN116401334A (zh) 2023-07-07

Family

ID=87006443

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310184367.2A Pending CN116401334A (zh) 2023-02-18 2023-02-18 数据指标管理方法、装置、电子设备和可读存储介质

Country Status (1)

Country Link
CN (1) CN116401334A (zh)

Similar Documents

Publication Publication Date Title
CN108460014B (zh) 企业实体的识别方法、装置、计算机设备及存储介质
US7424421B2 (en) Word collection method and system for use in word-breaking
US7516130B2 (en) Matching engine with signature generation
US20130110839A1 (en) Constructing an analysis of a document
JP2009110513A (ja) ワードの類似性を用いたオントロジーの自動生成
JP5057474B2 (ja) オブジェクト間の競合指標計算方法およびシステム
CN111767716A (zh) 企业多级行业信息的确定方法、装置及计算机设备
CN111985244B (zh) 一种针对文档内容的洗稿检测方法及装置
US11893537B2 (en) Linguistic analysis of seed documents and peer groups
US8862586B2 (en) Document analysis system
CN117873905B (zh) 一种代码同源检测的方法、装置、设备及介质
CN115983233A (zh) 一种基于数据流匹配的电子病历查重率估计方法
JP5072832B2 (ja) 署名生成および関連性を有するマッチングエンジン
JP2006227823A (ja) 情報処理装置及びその制御方法
Garrido et al. GEO-NASS: A semantic tagging experience from geographical data on the media
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
CN115906851A (zh) 一种实体识别方法、装置、电子设备及存储介质
CN113449063B (zh) 一种构建文档结构信息检索库的方法及装置
US10572592B2 (en) Method, device, and computer program for providing a definition or a translation of a word belonging to a sentence as a function of neighbouring words and of databases
CN116401334A (zh) 数据指标管理方法、装置、电子设备和可读存储介质
Kalaivani et al. The effect of stop word removal and stemming in datapreprocessing
KR100659370B1 (ko) 시소러스 매칭에 의한 문서 db 형성 방법 및 정보검색방법
JP3249743B2 (ja) 文書検索システム
CN115587599B (zh) 一种机器翻译语料的质量检测方法及装置
US20220180059A1 (en) Linguistic analysis of seed documents and peer groups

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination