CN111597162A - 信息确定方法和装置、存储介质及电子装置 - Google Patents

信息确定方法和装置、存储介质及电子装置 Download PDF

Info

Publication number
CN111597162A
CN111597162A CN202010427295.6A CN202010427295A CN111597162A CN 111597162 A CN111597162 A CN 111597162A CN 202010427295 A CN202010427295 A CN 202010427295A CN 111597162 A CN111597162 A CN 111597162A
Authority
CN
China
Prior art keywords
data
entity
group
information
identified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010427295.6A
Other languages
English (en)
Inventor
忻役
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Mininglamp Software System Co ltd
Original Assignee
Beijing Mininglamp Software System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Mininglamp Software System Co ltd filed Critical Beijing Mininglamp Software System Co ltd
Priority to CN202010427295.6A priority Critical patent/CN111597162A/zh
Publication of CN111597162A publication Critical patent/CN111597162A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种信息确定方法和装置、存储介质及电子装置。该方法包括:获取一组待识别的源数据,并识别一组待识别的源数据的一组数据实体;根据一组数据实体的实体类型确定与一组数据实体对应的一组实体规则映射表,一组实体规则映射表为预先配置的不同的实体类型和不同的规则之间的映射表,一组实体规则映射表中的一个实体规则映射表用于识别一种实体类型的相关信息;根据一组数据实体、一组实体规则映射表确定一组待识别的源数据的一组原始数据信息和一组待识别的源数据的一组隐藏数据信息,一组原始数据信息用于表示一组待识别的源数据的数据本身的实际含义,一组隐藏数据信息用于表示与一组待识别的源数据具有相关关系的信息。

Description

信息确定方法和装置、存储介质及电子装置
技术领域
本发明涉及计算机领域,具体而言,涉及一种信息确定方法和装置、存储介质及电子装置。
背景技术
对于结构化数据来说,也称作行数据,是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,具有固定数目的列。例如,一张名称为“人员信息”的表中可能有人员编号、姓名、性别、住址等字段。不同的表承载着不同的信息。例如,“人员信息”表中是人的基本信息,“住宿信息”表中是人住宿的轨迹信息。另外,表中的各个列所承载信息的维度、权重等也各不相同。在结构化数据的检索中,数据所直观呈现的维度越多,越有利于全文检索,其检索结果表达的信息也越丰富。
然而,在一些情况下,原始数据表中所直接呈现的信息并不够。例如大多数人员信息表中有身份证号码、姓名字段,但没有出生地、出生日期、性别、姓名拼音等信息;轨迹表中经常含有各种编码信息,旅店编码、车站编码或机场编码等,但没有对应的旅店名称、车站名称或机场名称的信息。如果直接对元数据进行索引,人员表中可以对身份证号码、姓名等已有字段进行查询,如果使用姓名拼音、出生地等信息进行检索,则不会得到任何结果;同理,轨迹表中使用对应的名称信息检索,也不会得到任何结果。也就是说,原始数据表所直接呈现的信息存在信息量不足的问题。
因此,针对相关技术中,原始数据表所直接呈现的信息存在信息量不足的问题,尚未提出有效的技术方案。
发明内容
本发明实施例提供了一种信息确定方法和装置、存储介质及电子装置,以至少解决相关技术中,原始数据表所直接呈现的信息存在信息量不足的技术问题。
根据本发明实施例的一个方面,提供了一种信息确定方法,包括:获取一组待识别的源数据,并识别所述一组待识别的源数据的一组数据实体,其中,所述一组待识别的源数据包括:所述一组数据实体,所述一组待识别的源数据与所述一组数据实体一一对应;根据所述一组数据实体的实体类型确定与所述一组数据实体对应的一组实体规则映射表,其中,所述一组实体规则映射表为预先配置的不同的实体类型和不同的规则之间的映射表,所述一组实体规则映射表中的一个实体规则映射表用于识别一种实体类型的相关信息;根据所述一组数据实体、所述一组实体规则映射表确定所述一组待识别的源数据的一组原始数据信息和所述一组待识别的源数据的一组隐藏数据信息,其中,所述一组原始数据信息用于表示所述一组待识别的源数据的数据本身的实际含义,所述一组隐藏数据信息用于表示与所述一组待识别的源数据具有相关关系的信息。
根据本发明实施例的另一方面,还提供了一种信息确定装置,包括:获取单元,用于获取一组待识别的源数据,并识别所述一组待识别的源数据的一组数据实体,其中,所述一组待识别的源数据包括:所述一组数据实体,所述一组待识别的源数据与所述一组数据实体一一对应;第一确定单元,用于根据所述一组数据实体的实体类型确定与所述一组数据实体对应的一组实体规则映射表,其中,所述一组实体规则映射表为预先配置的不同的实体类型和不同的规则之间的映射表,所述一组实体规则映射表中的一个实体规则映射表用于识别一种实体类型的相关信息;第二确定单元,用于根据所述一组数据实体、所述一组实体规则映射表确定所述一组待识别的源数据的一组原始数据信息和所述一组待识别的源数据的一组隐藏数据信息,其中,所述一组原始数据信息用于表示所述一组待识别的源数据的数据本身的实际含义,所述一组隐藏数据信息用于表示与所述一组待识别的源数据具有相关关系的信息。
根据本发明实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述信息确定方法。
根据本发明实施例的又一方面,还提供了一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,上述处理器通过计算机程序执行上述的信息确定方法。
在本发明实施例中,获取一组待识别的源数据,并识别所述一组待识别的源数据的一组数据实体,其中,所述一组待识别的源数据包括:所述一组数据实体,所述一组待识别的源数据与所述一组数据实体一一对应;根据所述一组数据实体的实体类型确定与所述一组数据实体对应的一组实体规则映射表,其中,所述一组实体规则映射表为预先配置的不同的实体类型和不同的规则之间的映射表,所述一组实体规则映射表中的一个实体规则映射表用于识别一种实体类型的相关信息;根据所述一组数据实体、所述一组实体规则映射表确定所述一组待识别的源数据的一组原始数据信息和所述一组待识别的源数据的一组隐藏数据信息,其中,所述一组原始数据信息用于表示所述一组待识别的源数据的数据本身的实际含义,所述一组隐藏数据信息用于表示与所述一组待识别的源数据具有相关关系的信息,通过上述方式,可以获取到一组待识别源数据的一组原始数据信息和一组隐藏数据信息,通过一组隐藏数据信息可以获得更加丰富的信息,解决了相关技术中,原始数据表所直接呈现的信息存在信息量不足的问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种信息确定方法的应用环境的示意图;
图2是根据本发明实施例的一种可选的信息确定方法的流程示意图;
图3是根据本发明实施例的一种可选的信息确定装置的结构示意图;
图4是根据本发明实施例的一种可选的电子装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例的一个方面,提供了一种信息确定方法。可选地,上述信息确定方法可以但不限于应用于如图1所示的应用环境中。如图1所示,终端设备102获取一组待识别的源数据,并识别所述一组待识别的源数据的一组数据实体,其中,所述一组待识别的源数据包括:所述一组数据实体,所述一组待识别的源数据与所述一组数据实体一一对应,并将该一组待识别的源数据和一组数据实体通过网络发送给服务器104。服务器104接收到一组待识别的源数据和一组数据实体之后,根据所述一组数据实体的实体类型确定与所述一组数据实体对应的一组实体规则映射表,其中,所述一组实体规则映射表为预先配置的不同的实体类型和不同的规则之间的映射表,所述一组实体规则映射表中的一个实体规则映射表用于识别一种实体类型的相关信息;根据所述一组数据实体、所述一组实体规则映射表确定所述一组待识别的源数据的一组原始数据信息和所述一组待识别的源数据的一组隐藏数据信息,其中,所述一组原始数据信息用于表示所述一组待识别的源数据的数据本身的实际含义,所述一组隐藏数据信息用于表示与所述一组待识别的源数据具有相关关系的信息。以上仅为一种示例,本申请实施例在此不作限定。
可选地,在本实施例中,上述终端设备可以包括但不限于以下至少之一:手机(如Android手机、iOS手机等)、笔记本电脑、平板电脑、掌上电脑、MID(Mobile InternetDevices,移动互联网设备)、PAD、台式电脑等。上述网络可以包括但不限于:有线网络,无线网络,其中,该有线网络包括:局域网、城域网和广域网,该无线网络包括:蓝牙、WIFI及其他实现无线通信的网络。上述服务器可以是单一服务器,也可以是由多个服务器组成的服务器集群。上述只是一种示例,本实施例对此不做任何限定。
可选地,在本实施例中,作为一种可选的实施方式,该方法可以由服务器执行,也可以由终端设备执行,或者由服务器和终端设备共同执行,本实施例中,以由终端设备(例如,上述终端设备102)执行为例进行说明。如图2所示,上述信息确定方法的流程可以包括步骤:
步骤S202,获取一组待识别的源数据,并识别所述一组待识别的源数据的一组数据实体,其中,所述一组待识别的源数据包括:所述一组数据实体,所述一组待识别的源数据与所述一组数据实体一一对应;
步骤S204,根据所述一组数据实体的实体类型确定与所述一组数据实体对应的一组实体规则映射表,其中,所述一组实体规则映射表为预先配置的不同的实体类型和不同的规则之间的映射表,所述一组实体规则映射表中的一个实体规则映射表用于识别一种实体类型的相关信息;
步骤S206,根据所述一组数据实体、所述一组实体规则映射表确定所述一组待识别的源数据的一组原始数据信息和所述一组待识别的源数据的一组隐藏数据信息,其中,所述一组原始数据信息用于表示所述一组待识别的源数据的数据本身的实际含义,所述一组隐藏数据信息用于表示与所述一组待识别的源数据具有相关关系的信息。
可选地,上述一组待识别的源数据可以为一种结构化数据,也称作行数据,是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,具有固定数目的列。例如,一张名称为“人员信息”的表中可能有人员编号、姓名、性别、住址等字段,具体的数据如表1所示:
001,刘晓伟,男,长安路18号
002,李慧,女,北里桥6号
003,赵志伟,男,建华大街10号
……
表1
可选地,上述“住宿信息”的表中可能有人员编号、姓名、旅馆编号、入住时间、退房时间等字段,具体的数据如表2所示:
001,刘晓伟,LG001,201906051220,201906101230
002,李慧,LG002,201906061220,201906081130
003,赵志伟,LG001,201906131220,201906151330
……
表2
上述实体规则映射表可以理解为通过UDF、UDTF和UDUF概念接口所实现的规则映射表,且一个接口对应一条规则(或知识)。此接口不与具体应用、计算框架和编程语言绑定,所以能够在Map/Reduce、Spark、Kafka、Storm等常用计算框架中使用,避免了每添加一种新的计算框架,都要重新编写对应规则代码的繁琐过程。这种抽象能够无缝对接到数据处理的程序中,同时极易扩展,如果有新的知识或规则,只需实现一个相应的UDF(UDTF或UDUF)。
需要说明的是,UDF是一个输入为1、输出为1的数据处理(或转换)器。可用于数据清洗、数据转换或数值相关信息提取等。例如,TrimUDF用于去掉字符串前后的空格;DateUDF用于日期转换,将各种格式的日期转换为一个标准格式;PinyinUDF用于提取中文词或词组的拼音。
UDTF是一个输入为1,输出为N(N>=1)的数据提取器。多用于编码字段的额外信息提取。例如,IDCardUDTF用于抽取身份证号码中的出生地、出生日期和性别信息。
UDUF是一个输入为N(N>=1),输出为1的数据聚合器。用于字段组合或者字段相关性计算等场景。例如,JoinUDUF用于将输入的数据按照先后顺序拼接起来;IntervalUDUF用于计算两个数据的差值。
需要说明的是,上述一个UDF(UDTF或UDUF)(对应于一个实体规则映射表)表示某种规则或一类知识(对应于上述一种实体类型),可用于处理一种(或一类)场景。
可选地,以待识别的源数据为银行卡账号为例,该待识别的源数据的数据实体即为银行卡账号,通过上述一组实体规则映射表可以识别出待识别的源数据的原始数据信息即具体的为银行卡号,隐藏信息可以为该银行卡号对应的银行名称。例如,输入622588XXXXXX19XX,输出对应的银行名称,招商银行。可理解,以上仅为一种示例,本实施在此不作任何限定。
通过本实施例,获取一组待识别的源数据,并识别所述一组待识别的源数据的一组数据实体,其中,所述一组待识别的源数据包括:所述一组数据实体,所述一组待识别的源数据与所述一组数据实体一一对应;根据所述一组数据实体的实体类型确定与所述一组数据实体对应的一组实体规则映射表,其中,所述一组实体规则映射表为预先配置的不同的实体类型和不同的规则之间的映射表,所述一组实体规则映射表中的一个实体规则映射表用于识别一种实体类型的相关信息;根据所述一组数据实体、所述一组实体规则映射表确定所述一组待识别的源数据的一组原始数据信息和所述一组待识别的源数据的一组隐藏数据信息,其中,所述一组原始数据信息用于表示所述一组待识别的源数据的数据本身的实际含义,所述一组隐藏数据信息用于表示与所述一组待识别的源数据具有相关关系的信息,通过上述方式,可以获取到一组待识别源数据的一组原始数据信息和一组隐藏数据信息,通过一组隐藏数据信息可以获得更加丰富的信息,解决了相关技术中,原始数据表所直接呈现的信息存在信息量不足的问题。
在一种可选的实施例中,在所述根据所述一组数据实体、所述一组实体规则映射表确定所述一组待识别的源数据的一组原始数据信息和所述一组待识别的源数据的一组隐藏数据信息之后,所述方法还包括:将所述一组待识别的源数据的所述一组原始数据信息进行标准化,得到标准化后的一组标准化信息,其中,所述一组原始数据信息与所述一组标准化信息的所表达的含义相同,格式不同。
可选地,在上述待识别的源数据中包括日期格式的数据时,由于日期和时间的表达有很多方式,如2019-06-12、2019/06/12、20190612、2919年6月12日等,这些表达都是合法的表示,可以将待识别的源数据中包括日期格式的数据统一标准化,如标准化为2019-06-12格式的日期数据。可理解,上述仅为一种示例,本实施在此不作任何限定。
在一种可选地实施例中,在所述根据所述一组数据实体、所述一组实体规则映射表确定所述一组待识别的源数据的一组原始数据信息和所述一组待识别的源数据的一组隐藏数据信息之后,所述方法至少还包括以下之一:随机抽取所述一组原始数据信息中的N个原始数据信息进行检索,得到第一检索结果,其中,所述N为自然数;随机抽取所述一组隐藏数据信息中的M个隐藏数据信息进行检索,得到第二检索结果,其中,所述M为自然数;随机抽取所述一组原始数据信息中的所述N个原始数据信息进行检索,在无法获得检索结果的情况下,随机抽取所述一组隐藏数据信息中的所述M个隐藏数据信息进行检索,得到第三检索结果;随机抽取所述一组隐藏数据信息中的所述M个隐藏数据信息进行检索,在无法获得检索结果的情况下,随机抽取所述一组原始数据信息中的所述N个原始数据信息进行检索,得到第四检索结果。
可选地,如上述表1和表2所示的数据,不同的表承载着不同的信息。“人员信息”表中是人的基本信息,“住宿信息”表中是人住宿的轨迹信息。另外,表中的各个列所承载信息的维度、权重等也各不相同。在结构化数据的检索中,数据所直观呈现的维度越多,越有利于全文检索,其检索结果表达的信息也越丰富。
需要说明的是,原始数据表中所直接呈现的信息并不够,例如大多数人员信息表中有身份证号码、姓名字段,但没有出生地、出生日期、性别、姓名拼音等信息;轨迹表中经常含有各种编码信息,旅店编码、车站编码或机场编码等,但没有对应的旅店名称、车站名称或机场名称的信息。如果直接对源数据进行索引,人员表中可以对身份证号码、姓名等已有字段进行查询,如果使用姓名拼音、出生地等信息进行检索,则不会得到任何结果;同理,轨迹表中使用对应的名称信息检索,也不会得到任何结果。
解,以上仅为一种示例,在此不作任何限定。
通过本实施例,可以通过多种检索方式实现信息检索,提高了检索的灵活性。
在一种可选的实施例中,所述根据所述一组数据实体的实体类型确定与所述一组数据实体对应的一组实体规则映射表,包括:对于所述一组数据实体中的一个数据实体,执行以下步骤:根据所述一个数据实体的实体类型为所述一个数据实体配置对应的一个或多个实体规则映射表。
在一种可选的实施例中,所述方法还包括:在出现目标数据实体、且所述一组实体规则映射表中不存在与所述目标数据实体的实体类型对应的实体规则映射表的情况下,为所述目标数据实体的实体类型配置目标实体规则映射表;将所述目标实体规则映射表添加到所述一组实体规则映射表中,并更新所述一组实体规则映射表,得到更新后的所述一组实体规则映射表,其中,更新后的所述一组实体规则映射表包括所述目标实体规则映射表。
可选地,当出现新的目标数据实体(如新的知识或规则)时,可以为该目标数据实体配置一个或多个相应的UDF(UDTF或UDUF)。UDF(UDTF或UDUF)为一种极易扩展的接口。如果有新的规则或者知识库需要应用,只需实现一个新的UDF(UDTF或UDUF)。
需要说明的是,实现一个UDF(UDTF以及UDUF)需实现两个过程,一个是数据处理的过程,例如读取字典并转换,然后返回数据的过程,此过程为evaluate;另一个是返回数据类型说明,例如返回的是字符串、数值型还是日期(或时间戳),支持的数据类型有String、Boolean、Byte、Short、Integer、Long、Float、Double、Date和Timestamp。以上仅为一种示例,本实施例在此不作任何限定。
在一种可选的实施例中,所述一组实体规则映射表包括:身份证号码实体规则映射表,姓名实体规则映射表,性别实体规则映射表,日期实体规则映射表,银行卡号码实体规则映射表,航班号实体规则映射表,地名实体规则映射表,民族实体规则映射表,组织机构名实体规则映射表,电话号码实体规则映射表,车牌号码实体规则映射表。
可选地,PinyinUDF,为一种姓名实体规则映射表,用于提取中文词或词组的拼音。例如,提取人员表中姓名相关字段(本人姓名、配偶姓名、父亲姓名、母亲姓名、子女姓名等)的汉语拼音,然后可在全文检索中使用拼音检索姓名。
DictTransUDF,为一种字典实体规则映射表,依据传入的字典,进行字典转换。此UDF是通用的字典转换器,只要传入字典表,即可进行字典码转换。例如,可用于旅店编码、车站编码和机场编码等的转换,然后可在全文检索中使用对应的中文名称进行检索。
TrimUDF,用于去掉字符串前后的空格,可用于不规范数据的数据清洗。例如,电话号码“13623436548”前后的空格应该去掉,否则检索的时候可能无法召回。
DateFormatUDF,为一种日期实体规则映射表,用于将不同格式的日期(或时间戳)字符串转换为long型时间戳,可用于日期或时间戳字段的规范化。支持的格式包括但不限于如表3所示格式:
yyyy-MM-dd
yyyy-MM-dd HH:mm:ss
yyyy-MM-dd HH:mm:ss.S
yyyyMMddHHmmss
yyyyMMdd
yyyy/MM/dd HH:mm:ss
yyyy/MM/dd HH:mm:ss.S
yyyy/MM/dd
yyyy年MM月dd日
yyyy年MM月dd日HH:mm:ss
yyyy年MM月dd日HH时mm分ss秒
表3
也可以依据实际数据情况,在使用的时候指定某几种格式。例如,通过外部系统收集的数据,日期或时间戳字段通常不统一(2019/06/20、2019.06.20、2019-06-20等),可使用此UDF将日期或时间戳规范成统一格式。
SexUDF,为一种性别实体规则映射表,表达性别的字符串通常有:男、男性、男人、M、male、女、女性、女人、F、female等,可使用此UDF将其统一为“男”、“女”。
BankCardUDF,为一种银行卡号码实体规则映射表,依据银行卡账号,判定并输出对应的银行名称。例如,输入622588XXXXXX19XX,输出对应的银行名称,招商银行。
FlightNumberUDF,为一种航班号实体规则映射表,用于从航班号中提取航空公司。例如,输入CA1309,输出国际航空。
TelphoneUDF,为一种电话号码实体规则映射表,用于从电话号码中提取电信运营商。例如,输入136XXXX67XX,输出移动。
VehicleUDF,为一种车牌号码实体规则映射表,用于从车牌号码提取车辆地市信息。例如,输入冀GXXXXX,输出张家口市。
IDCardUDTF,为一种身份证号码实体规则映射表,用于从18位身份证号码中提取出生地、出生日期和性别。在一些只有身份证号码,但需要检索出生地、出生日期或性别,或者需要使用出生日期排序的场景下,可应用此UDTF。例如,在轨迹表中,通常有身份证号码和姓名,没有出生日期和性别。如果只知道姓名(尤其是一些很大众化的名字)、出生日期或性别,不知道身份证号码,则不容易检索出想要的结果,或者会参杂一些具有迷惑性的相似数据。应用此UDTF后,则可以精确匹配到对应的记录。
JoinUDUF,用于将输入的数据按照先后顺序拼接起来。例如,在一些数据表中,车牌省份简称(京或京K)和号码(KR9888或R9888)是分开的,则可应用此UDUF,生成一个完整的车牌号码。
IntervalUDUF,用于计算两个数据的差值(或间隔)。例如,在网吧上网记录中,通过上机时间、下机时间可计算上网时长;在旅店住宿记录中,通过入住时间、退房时间可计算住店时长。
可选地,上述仅为一种示例,本实施在此不作任何限定。
下面结合可选示例对信息确定方法的流程进行说明,该方法可以包括以下步骤:
需要说明的是,为了给数据表中的列映射相应的UDF,必须对数据的整体情况有所了解。例如,某一列数据都是中文词或词组,那此列上可应用PinyinUDF,提取其对应的汉语拼音;这列如果是英文、数值型或其他数据,则无必要应用PinyinUDF。
可选地,本发明实施例中,可以通过人为方式进行列和规则的映射,还可以通过命名实体识别技术,自动化列与规则映射的过程。
可选地,采用规则与机器学习算法模型相结合的方式,能够识别的实体有:身份证号码、姓名、性别、日期、银行卡号码、邮箱、航班号、地名、民族、组织机构名、护照号码、电话号码、车牌号码、微信号和QQ号等。
首先,实体识别技术会对数据进行探查。数据量小的情况下,对全量数据进行探查;如果数据量较大(上百GB甚至TB级别),则对数据进行抽样,在抽样数据上进行探查(抽样方法采用不放回随机抽样或取前N条数据)。
数据探查完成后,自动生成列名与实体的映射信息,如下:
sfzhm->身份证号码
ryxm->姓名
……
然后查阅配置好的实体规则映射表,自动将列名与规则映射。如下实体规则映射表:
实体 规则
身份证号码 IDCardUDTF
姓名 PinyinUDF
性别 SexUDF
日期 DateFormatUDF
银行卡号码 BankCardUDF
航班号 FlightNumberUDF
地名 PinyinUDF、TrimUDF
名族 PinyinUDF
组织机构名 PinyinUDF、TrimUDF
电话号码 TelphoneUDF
表4
自动化操作完成后,仍可按需人工添加映射关系。例如,列的实体中有省市代码简称(京、津、冀、沪等),另外一列是车牌后缀(KR9888、GG2264等),则可应用JoinUDUF;多列数据有日期(或时间)标签,则可依据上下文判断其是否是开始、结束的关系(比如网吧上机时间、网吧下机时间和旅馆入住时间、旅馆退房时间),如果有,则可应用IntervalUDUF。
可选地,可以依照列与规则映射关系处理全量数据,数据列与规则映射完成后,即可对全量数据进行处理。本发明实现了两种数据处理方法。一种是基于开源分布式计算引擎Spark的分布式处理方法,另一种自行实现的单(多)进程处理方法。
1、分布式处理方法:分布式处理方法使用开源分布式计算引擎Spark进行计算。该方法首先读取列与UDF的映射关系,然后依据数据源的种类,生成对应的抽象数据集DataFrame,然后在该DataFrame的列上应用对应的UDF,生成一个新的DataFrame,保存此DataFrame,即会触发数据的清洗和抽取流程,运行结束后,即获得应用过UDF后的数据。
2、单(多)进程方法,单(多)进程方法直接在进程内进行计算。该方法同样先读取列与UDF的映射关系,然后依据数据源的种类,直接连接数据源,自动或依据输入的指定条件,将整体计算任务分割为一个个的计算单元,每次获取N(N为单个进程可同时处理的任务数)个任务进行计算。在每个计算单元中,在数据列上应用对应的UDF,生成新的数据。所有计算单元全部完成后,即获得应用过UDF后的数据。
通过本实施例,使用用命名实体识别的方式,能够自动化、半自动化的将规则映射到数据列上,在列上应用规则,进行数据规范或者抽取(或补全)隐藏信息,能够更加全面的获取到数据的原始数据信息和隐藏数据信息。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
根据本发明实施例的又一方面,还提供了一种信息确定装置,如图3所示,该装置包括:
获取单元302,用于获取一组待识别的源数据,并识别所述一组待识别的源数据的一组数据实体,其中,所述一组待识别的源数据包括:所述一组数据实体,所述一组待识别的源数据与所述一组数据实体一一对应;
第一确定单元304,用于根据所述一组数据实体的实体类型确定与所述一组数据实体对应的一组实体规则映射表,其中,所述一组实体规则映射表为预先配置的不同的实体类型和不同的规则之间的映射表,所述一组实体规则映射表中的一个实体规则映射表用于识别一种实体类型的相关信息;
第二确定单元306,用于根据所述一组数据实体、所述一组实体规则映射表确定所述一组待识别的源数据的一组原始数据信息和所述一组待识别的源数据的一组隐藏数据信息,其中,所述一组原始数据信息用于表示所述一组待识别的源数据的数据本身的实际含义,所述一组隐藏数据信息用于表示与所述一组待识别的源数据具有相关关系的信息。
可选地,获取单元302可以用于执行步骤S202,第一确定单元304可以用于执行步骤S204,第二确定单元306可以用于执行步骤S206。
通过本实施例,获取一组待识别的源数据,并识别所述一组待识别的源数据的一组数据实体,其中,所述一组待识别的源数据包括:所述一组数据实体,所述一组待识别的源数据与所述一组数据实体一一对应;根据所述一组数据实体的实体类型确定与所述一组数据实体对应的一组实体规则映射表,其中,所述一组实体规则映射表为预先配置的不同的实体类型和不同的规则之间的映射表,所述一组实体规则映射表中的一个实体规则映射表用于识别一种实体类型的相关信息;根据所述一组数据实体、所述一组实体规则映射表确定所述一组待识别的源数据的一组原始数据信息和所述一组待识别的源数据的一组隐藏数据信息,其中,所述一组原始数据信息用于表示所述一组待识别的源数据的数据本身的实际含义,所述一组隐藏数据信息用于表示与所述一组待识别的源数据具有相关关系的信息,通过上述方式,可以获取到一组待识别源数据的一组原始数据信息和一组隐藏数据信息,通过一组隐藏数据信息可以获得更加丰富的信息,解决了相关技术中,原始数据表所直接呈现的信息存在信息量不足的问题。
作为一种可选的技术方案,上述装置还包括:标准化单元,用于在所述根据所述一组数据实体、所述一组实体规则映射表确定所述一组待识别的源数据的一组原始数据信息和所述一组待识别的源数据的一组隐藏数据信息之后,将所述一组待识别的源数据的所述一组原始数据信息进行标准化,得到标准化后的一组标准化信息,其中,所述一组原始数据信息与所述一组标准化信息的所表达的含义相同,格式不同。
作为一种可选的技术方案,上述装置还包括:第一检索单元,用于随机抽取所述一组原始数据信息中的N个原始数据信息进行检索,得到第一检索结果,其中,所述N为自然数;第二检索单元,用于随机抽取所述一组隐藏数据信息中的M个隐藏数据信息进行检索,得到第二检索结果,其中,所述M为自然数;第三检索单元,用于随机抽取所述一组原始数据信息中的所述N个原始数据信息进行检索,在无法获得检索结果的情况下,随机抽取所述一组隐藏数据信息中的所述M个隐藏数据信息进行检索,得到第三检索结果;第四检索单元,用于随机抽取所述一组隐藏数据信息中的所述M个隐藏数据信息进行检索,在无法获得检索结果的情况下,随机抽取所述一组原始数据信息中的所述N个原始数据信息进行检索,得到第四检索结果。
作为一种可选的技术方案,上述第一确定单元,还用于对于所述一组数据实体中的一个数据实体,执行以下步骤:根据所述一个数据实体的实体类型为所述一个数据实体配置对应的一个或多个实体规则映射表。
作为一种可选的技术方案,上述装置还包括:配置单元,用于在出现目标数据实体、且所述一组实体规则映射表中不存在与所述目标数据实体的实体类型对应的实体规则映射表的情况下,为所述目标数据实体的实体类型配置目标实体规则映射表;更新单元,用于将所述目标实体规则映射表添加到所述一组实体规则映射表中,并更新所述一组实体规则映射表,得到更新后的所述一组实体规则映射表,其中,更新后的所述一组实体规则映射表包括所述目标实体规则映射表。
作为一种可选的技术方案,所述一组实体规则映射表包括:身份证号码实体规则映射表,姓名实体规则映射表,性别实体规则映射表,日期实体规则映射表,银行卡号码实体规则映射表,航班号实体规则映射表,地名实体规则映射表,民族实体规则映射表,组织机构名实体规则映射表,电话号码实体规则映射表,车牌号码实体规则映射表。
根据本发明的实施例的又一方面,还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,获取一组待识别的源数据,并识别所述一组待识别的源数据的一组数据实体,其中,所述一组待识别的源数据包括:所述一组数据实体,所述一组待识别的源数据与所述一组数据实体一一对应;
S2,根据所述一组数据实体的实体类型确定与所述一组数据实体对应的一组实体规则映射表,其中,所述一组实体规则映射表为预先配置的不同的实体类型和不同的规则之间的映射表,所述一组实体规则映射表中的一个实体规则映射表用于识别一种实体类型的相关信息;
S3,根据所述一组数据实体、所述一组实体规则映射表确定所述一组待识别的源数据的一组原始数据信息和所述一组待识别的源数据的一组隐藏数据信息,其中,所述一组原始数据信息用于表示所述一组待识别的源数据的数据本身的实际含义,所述一组隐藏数据信息用于表示与所述一组待识别的源数据具有相关关系的信息。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、ROM(Read-Only Memory,只读存储器)、RAM(Random Access Memory,随机存取器)、磁盘或光盘等。
根据本发明实施例的又一个方面,还提供了一种用于实施上述信息确定方法的电子装置,如图4所示,该电子装置包括存储器402和处理器404,该存储器402中存储有计算机程序,该处理器404被设置为通过计算机程序执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,获取一组待识别的源数据,并识别所述一组待识别的源数据的一组数据实体,其中,所述一组待识别的源数据包括:所述一组数据实体,所述一组待识别的源数据与所述一组数据实体一一对应;
S2,根据所述一组数据实体的实体类型确定与所述一组数据实体对应的一组实体规则映射表,其中,所述一组实体规则映射表为预先配置的不同的实体类型和不同的规则之间的映射表,所述一组实体规则映射表中的一个实体规则映射表用于识别一种实体类型的相关信息;
S3,根据所述一组数据实体、所述一组实体规则映射表确定所述一组待识别的源数据的一组原始数据信息和所述一组待识别的源数据的一组隐藏数据信息,其中,所述一组原始数据信息用于表示所述一组待识别的源数据的数据本身的实际含义,所述一组隐藏数据信息用于表示与所述一组待识别的源数据具有相关关系的信息。
可选地,本领域普通技术人员可以理解,图4所示的结构仅为示意,电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图4其并不对上述电子装置的结构造成限定。例如,电子装置还可包括比图4中所示更多或者更少的组件(如网络接口等),或者具有与图4所示不同的配置。
其中,存储器402可用于存储软件程序以及模块,如本发明实施例中的信息确定方法和装置对应的程序指令/模块,处理器404通过运行存储在存储器402内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的信息确定方法。存储器402可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器402可进一步包括相对于处理器404远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中,存储器402具体可以但不限于用于存储物品的样本特征与目标虚拟资源账号等信息。作为一种示例,如图4所示,上述存储器402中可以但不限于包括上述信息确定装置中的获取单元302、第一确定单元304、第二确定单元306。此外,还可以包括但不限于上述信息确定装置中的其他模块单元,本示例中不再赘述。
可选地,上述的传输装置406用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置406包括一个网络适配器(Network Interface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置406为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
此外,上述电子装置还包括:显示器408和连接总线410,用于连接上述电子装置中的各个模块部件。
在其他实施例中,上述终端或者服务器可以是一个分布式系统中的一个节点,其中,该分布式系统可以为区块链系统,该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中,节点之间可以组成点对点(P2P,Peer To Peer)网络,任意形式的计算设备,比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。
可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种信息确定方法,其特征在于,包括:
获取一组待识别的源数据,并识别所述一组待识别的源数据的一组数据实体,其中,所述一组待识别的源数据包括:所述一组数据实体,所述一组待识别的源数据与所述一组数据实体一一对应;
根据所述一组数据实体的实体类型确定与所述一组数据实体对应的一组实体规则映射表,其中,所述一组实体规则映射表为预先配置的不同的实体类型和不同的规则之间的映射表,所述一组实体规则映射表中的一个实体规则映射表用于识别一种实体类型的相关信息;
根据所述一组数据实体、所述一组实体规则映射表确定所述一组待识别的源数据的一组原始数据信息和所述一组待识别的源数据的一组隐藏数据信息,其中,所述一组原始数据信息用于表示所述一组待识别的源数据的数据本身的实际含义,所述一组隐藏数据信息用于表示与所述一组待识别的源数据具有相关关系的信息。
2.根据权利要求1所述的方法,其特征在于,在所述根据所述一组数据实体、所述一组实体规则映射表确定所述一组待识别的源数据的一组原始数据信息和所述一组待识别的源数据的一组隐藏数据信息之后,所述方法还包括:
将所述一组待识别的源数据的所述一组原始数据信息进行标准化,得到标准化后的一组标准化信息,其中,所述一组原始数据信息与所述一组标准化信息的所表达的含义相同,格式不同。
3.根据权利要求1所述的方法,其特征在于,在所述根据所述一组数据实体、所述一组实体规则映射表确定所述一组待识别的源数据的一组原始数据信息和所述一组待识别的源数据的一组隐藏数据信息之后,所述方法至少还包括以下之一:
随机抽取所述一组原始数据信息中的N个原始数据信息进行检索,得到第一检索结果,其中,所述N为自然数;
随机抽取所述一组隐藏数据信息中的M个隐藏数据信息进行检索,得到第二检索结果,其中,所述M为自然数;
随机抽取所述一组原始数据信息中的所述N个原始数据信息进行检索,在无法获得检索结果的情况下,随机抽取所述一组隐藏数据信息中的所述M个隐藏数据信息进行检索,得到第三检索结果;
随机抽取所述一组隐藏数据信息中的所述M个隐藏数据信息进行检索,在无法获得检索结果的情况下,随机抽取所述一组原始数据信息中的所述N个原始数据信息进行检索,得到第四检索结果。
4.根据权利要求1所述的方法,其特征在于,所述根据所述一组数据实体的实体类型确定与所述一组数据实体对应的一组实体规则映射表,包括:
对于所述一组数据实体中的一个数据实体,执行以下步骤:
根据所述一个数据实体的实体类型为所述一个数据实体配置对应的一个或多个实体规则映射表。
5.根据权利要求1至4任一项中所述的方法,其特征在于,所述方法还包括:
在出现目标数据实体、且所述一组实体规则映射表中不存在与所述目标数据实体的实体类型对应的实体规则映射表的情况下,为所述目标数据实体的实体类型配置目标实体规则映射表;
将所述目标实体规则映射表添加到所述一组实体规则映射表中,并更新所述一组实体规则映射表,得到更新后的所述一组实体规则映射表,其中,更新后的所述一组实体规则映射表包括所述目标实体规则映射表。
6.根据权利要求1至4任一项中所述的方法,其特征在于,所述一组实体规则映射表包括:身份证号码实体规则映射表,姓名实体规则映射表,性别实体规则映射表,日期实体规则映射表,银行卡号码实体规则映射表,航班号实体规则映射表,地名实体规则映射表,民族实体规则映射表,组织机构名实体规则映射表,电话号码实体规则映射表,车牌号码实体规则映射表。
7.一种信息确定装置,其特征在于,包括:
获取单元,用于获取一组待识别的源数据,并识别所述一组待识别的源数据的一组数据实体,其中,所述一组待识别的源数据包括:所述一组数据实体,所述一组待识别的源数据与所述一组数据实体一一对应;
第一确定单元,用于根据所述一组数据实体的实体类型确定与所述一组数据实体对应的一组实体规则映射表,其中,所述一组实体规则映射表为预先配置的不同的实体类型和不同的规则之间的映射表,所述一组实体规则映射表中的一个实体规则映射表用于识别一种实体类型的相关信息;
第二确定单元,用于根据所述一组数据实体、所述一组实体规则映射表确定所述一组待识别的源数据的一组原始数据信息和所述一组待识别的源数据的一组隐藏数据信息,其中,所述一组原始数据信息用于表示所述一组待识别的源数据的数据本身的实际含义,所述一组隐藏数据信息用于表示与所述一组待识别的源数据具有相关关系的信息。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
标准化单元,用于在所述根据所述一组数据实体、所述一组实体规则映射表确定所述一组待识别的源数据的一组原始数据信息和所述一组待识别的源数据的一组隐藏数据信息之后,将所述一组待识别的源数据的所述一组原始数据信息进行标准化,得到标准化后的一组标准化信息,其中,所述一组原始数据信息与所述一组标准化信息的所表达的含义相同,格式不同。
9.一种计算机可读的存储介质,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行上述权利要求1至6任一项中所述的方法。
10.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至6任一项中所述的方法。
CN202010427295.6A 2020-05-19 2020-05-19 信息确定方法和装置、存储介质及电子装置 Pending CN111597162A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010427295.6A CN111597162A (zh) 2020-05-19 2020-05-19 信息确定方法和装置、存储介质及电子装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010427295.6A CN111597162A (zh) 2020-05-19 2020-05-19 信息确定方法和装置、存储介质及电子装置

Publications (1)

Publication Number Publication Date
CN111597162A true CN111597162A (zh) 2020-08-28

Family

ID=72182784

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010427295.6A Pending CN111597162A (zh) 2020-05-19 2020-05-19 信息确定方法和装置、存储介质及电子装置

Country Status (1)

Country Link
CN (1) CN111597162A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080005135A1 (en) * 2006-06-30 2008-01-03 Microsoft Corporation Defining and extracting a flat list of search properties from a rich structured type
CN107295039A (zh) * 2016-03-31 2017-10-24 阿里巴巴集团控股有限公司 数据接入处理方法和装置
US20180060387A1 (en) * 2016-08-30 2018-03-01 Linkedln Corporation Entity based query filtering
CN109284363A (zh) * 2018-12-03 2019-01-29 北京羽扇智信息科技有限公司 一种问答方法、装置、电子设备及存储介质
CN110134796A (zh) * 2019-04-19 2019-08-16 平安科技(深圳)有限公司 基于知识图谱的临床试验检索方法、装置、计算机设备及存储介质
CN110347564A (zh) * 2019-05-24 2019-10-18 平安普惠企业管理有限公司 数据生成方法及装置、电子设备、存储介质
CN110516081A (zh) * 2019-09-02 2019-11-29 北京明略软件系统有限公司 数据表映射关系的显示方法及装置
CN110727672A (zh) * 2018-06-28 2020-01-24 北京京东尚科信息技术有限公司 数据映射关系查询方法、装置、电子设备及可读介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080005135A1 (en) * 2006-06-30 2008-01-03 Microsoft Corporation Defining and extracting a flat list of search properties from a rich structured type
CN107295039A (zh) * 2016-03-31 2017-10-24 阿里巴巴集团控股有限公司 数据接入处理方法和装置
US20180060387A1 (en) * 2016-08-30 2018-03-01 Linkedln Corporation Entity based query filtering
CN110727672A (zh) * 2018-06-28 2020-01-24 北京京东尚科信息技术有限公司 数据映射关系查询方法、装置、电子设备及可读介质
CN109284363A (zh) * 2018-12-03 2019-01-29 北京羽扇智信息科技有限公司 一种问答方法、装置、电子设备及存储介质
CN110134796A (zh) * 2019-04-19 2019-08-16 平安科技(深圳)有限公司 基于知识图谱的临床试验检索方法、装置、计算机设备及存储介质
CN110347564A (zh) * 2019-05-24 2019-10-18 平安普惠企业管理有限公司 数据生成方法及装置、电子设备、存储介质
CN110516081A (zh) * 2019-09-02 2019-11-29 北京明略软件系统有限公司 数据表映射关系的显示方法及装置

Similar Documents

Publication Publication Date Title
WO2019062081A1 (zh) 业务员画像形成方法、电子装置及计算机可读存储介质
CN110795697B (zh) 逻辑表达式的获取方法、装置、存储介质以及电子装置
CN110110213B (zh) 挖掘用户职业的方法、装置、计算机可读存储介质和终端设备
CN107077500A (zh) 提取类似的群组元素
US20210342341A1 (en) Data analysis assistance device, data analysis assistance method, and data analysis assistance program
CN112990455A (zh) 网络模型的发布方法及装置、存储介质、电子设备
CN111488386B (zh) 数据查询方法和装置
CN109710634B (zh) 用于生成信息的方法及装置
CN110543457A (zh) 轨迹类文档处理方法和装置、存储介质及电子装置
CN108549722B (zh) 多平台数据发布方法、系统及介质
CN111506740A (zh) 词单的添加方法及装置、存储介质、电子装置
CN111091452A (zh) 导购协助方法、装置、系统及存储介质
CN111597162A (zh) 信息确定方法和装置、存储介质及电子装置
CN115269713A (zh) 一种数据的可视化方法、系统、计算机设备及介质
CN107862028B (zh) 建立标准学术模型方法、服务器及存储介质
CN110895555A (zh) 数据检索方法和装置、存储介质及电子装置
CN115114441A (zh) 查询图构造方法、装置、存储介质以及电子设备
JP7458259B2 (ja) データ管理装置及びデータ管理方法
CN108287834A (zh) 用于推送信息的方法、装置及计算设备
CN111190964B (zh) 数据对接方法、装置、设备及存储介质
CN107967300B (zh) 机构名称的检索方法、装置、设备及存储介质
CN112419058A (zh) 数据管理方法和装置、存储介质及电子设备
CN111538914A (zh) 地址信息的处理方法和装置
CN110457323A (zh) 数据表的处理方法及装置
CN110795424A (zh) 特征工程变量数据请求处理方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination