CN111159151B - 一种构建数据类目体系的方法和系统 - Google Patents

一种构建数据类目体系的方法和系统 Download PDF

Info

Publication number
CN111159151B
CN111159151B CN201911381941.3A CN201911381941A CN111159151B CN 111159151 B CN111159151 B CN 111159151B CN 201911381941 A CN201911381941 A CN 201911381941A CN 111159151 B CN111159151 B CN 111159151B
Authority
CN
China
Prior art keywords
category
data
hierarchy
new
new category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911381941.3A
Other languages
English (en)
Other versions
CN111159151A (zh
Inventor
任寅姿
杨春斌
杨析耘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dtwave Technology Co ltd
Original Assignee
Hangzhou Dtwave Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dtwave Technology Co ltd filed Critical Hangzhou Dtwave Technology Co ltd
Priority to CN201911381941.3A priority Critical patent/CN111159151B/zh
Publication of CN111159151A publication Critical patent/CN111159151A/zh
Application granted granted Critical
Publication of CN111159151B publication Critical patent/CN111159151B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management
    • G06F16/212Schema design and management with details for data modelling support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种构建数据类目体系的方法和系统,其中该方法包括:获取新类目;将新类目和数据类目体系中的现有类目向量化;通过比较向量化的新类目与向量化的现有类目之间的相似度来确定新类目在数据类目体系中的位置。

Description

一种构建数据类目体系的方法和系统
技术领域
本发明涉及数据分类技术,更具体而言,涉及一种构建数据类目体系的方法和系统。
背景技术
越来越多的企业拥有或者控制越来越多的以物理或电子方式记录的数据。为了能更好地分析、利用这些数据,通常需要构建数据类目体系。数据类目体系越完整(即丰度越高),企业对数据的使用就越高效。当前一般通过对数据进行人工整理和分类来构建数据类目体系,缺少自动构建数据类目体系的技术方案。
发明内容
本发明提供了一种构建数据类目体系的方法,其包括获取新类目;将所述新类目和所述数据类目体系中的现有类目向量化;通过比较向量化的所述新类目与向量化的所述现有类目之间的相似度来确定所述新类目在所述数据类目体系中的位置。
在一种实施方案中,所述获取操作包括从数据资产中读取数据;和对所述数据进行分词以生成所述新类目。
在一种实施方案中,所述数据是表名或字段名。
在一种实施方案中,所述确定操作包括确定所述新类目在所述数据类目体系中的最佳类目层级;并且其中,与其他类目层级相比,所述新类目与所述最佳类目层级的相似度最高。
在一种实施方案中,所述新类目与所述最佳类目层级中的全部现有类目的相似度的平均值和标准差的乘积不低于其他类目层级。
在一种实施方案中,当所述数据是表名时,所述新类目在除最低类目层级之外的类目层级中;并且当所述数据是字段名时,所述新类目在最低类目层级中。
在一种实施方案中,所述确定操作包括确定所述新类目在所述数据类目体系中的最佳类目序列;并且其中,与其他类目序列相比,所述新类目与所述最佳类目序列的相似度最高。
在一种实施方案中,所述新类目与所述最佳类目序列中的全部现有类目的相似度的乘积不低于其他类目序列。
在一种实施方案中,当所述新类目的类目层级已经确定时,所述新类目与所述最佳类目序列的相似度是所述新类目与所述类目序列中的部分现有类目的相似度的乘积;并且其中,所述部分现有类目的类目层级比所述新类目的类目层级高。
在一种实施方案中,该方法还包括以二维数组表示所述新类目的所述位置。
本发明还提供了一种构建数据类目体系的系统,其包括用于获取新类目的装置;用于将所述新类目和所述数据类目体系中的现有类目向量化的装置;和用于通过比较向量化的所述新类目与向量化的所述现有类目之间的相似度来确定所述新类目在所述数据类目体系中的位置的装置。
本发明还提供了一种计算机可读介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上面描述的方法。
本发明能够自动构建数据类目体系。使用本发明的方法构建的数据类目体系具有较高的完整度。
附图说明
图1是根据本发明的实施例的数据类目体系的示意图。
图2是根据本发明的实施例的构建数据类目体系的方法的流程图。
图3A和3B是根据本发明的实施例的确定新类目在数据类目体系中的类目层级的示意图。
图4A和4B是根据本发明的实施例的确定新类目在数据类目体系中的类目序列的示意图。
具体实施方式
现在将参照若干示例性实施例来说明本发明的内容。应当理解,说明这些实施例仅是为了使得本领域普通技术人员能够更好地理解并且因此实现本发明的内容,而不是暗示对本发明的范围进行任何限制。
如本文中所使用的,术语“包括”及其变体应当解读为意味着“包括但不限于”的开放式术语。术语“基于”应当解读为“至少部分地基于”。术语“一个实施例”和“一种实施例”应当解读为“至少一个实施例”。术语“另一个实施例”应当解读为“至少一个其他实施例”。
在本发明的实施例中,“数据类目体系”指的是包含一个或多个领域中数据的类目的集合。在本发明的实施例中,“类目”指的是描述特定领域中数据的内容的关键词。例如,营销领域的数据类目体系可以包含如下类目:人、消费者、人口学属性、性别、年龄等。在计算机系统的实施层面,类目表现为关键词的字符串(以中文或其他文字的形式)。
在本发明的实施例中,数据类目体系中的类目可以被划分在不同的层级中。在本发明的实施例中,每个类目层级可以包含多个类目。在本发明的实施例中,数据类目体系可以包含一个或多个(例如,两个以上)类目层级。低类目层级中的类目从属于一个或多个高类目层级的类目。例如,低类目层级中的类目“性别”从属于不同高类目层级中的类目“人”、“消费者”和“人口学属性”。在本发明的实施例中,最低类目层级又称为标签层级,并且最低类目层级中的类目又称为标签。
图1示出了根据本发明的实施例的数据类目体系,其表现为树状结构。在该树状结构中,最低类目层级表述为标签层级。
在本发明的实施例中,“类目序列”指的是由具有从属关系的各个类目层级中的一个类目排列组成的序列,其是从最高层级类目到最低层级类目的有顺序的排列。例如,在图3A所示的数据类目体系中,类目序列可以是“A-B1-C2-D2”或“A-B2-C3-D5”。前述“性别”类目的例子中也形成序列“人-消费者-人口学属性-性别”。
如本领域中公知的,“相似度”指的是两个词语各自生成的向量之间的距离。例如,词语A的向量为[a1,a2],词语B的向量为[b1,b2],则它们之间的相似度
Figure GDA0003833091530000041
相似度越高,则两个词语的词义越接近。在本发明的实施例中,S为1表示相似度最高,S为0表示相似度最低。在本发明的实施例中,可以使用其他相似度计算公式。
图2示出了根据本发明的实施例的构建数据类目体系的方法,其包括确定新类目在数据类目体系中的位置和将新类目添加到数据类目体系的上述位置中。在本发明的实施例中,该方法包括获取新类目;将新类目和数据类目体系中的现有类目向量化;通过比较向量化的新类目与向量化的现有类目之间的相似度来确定新类目在数据类目体系中的位置。
“数据资产”在大数据技术领域中是一个公知的概念,具体到本发明的实施例,数据资产指的是存储在数据库中的表。在本发明的实施例中,“新类目”指的是待添加到数据类目体系中的位置未确定的类目。在本发明的实施例中,“现有类目”指的是数据类目体系中已经存在的位置确定的类目。在本发明的实施例中,新类目可以源自从数据资产中获取的数据,包括但不限于表名和字段名。在本发明的实施例中,可以将数据资产(比如MySQL数据库中的表)中的表名和/或字段名同步到待进行后续操作的数据库中。在本发明的实施例中,同步操作可以是复制、移动等操作。
在本发明的实施例中,可以通过例如分词工具(比如可从https://github.com/ fxsjy/jieba获得的jieba分词工具)等对表名和/或字段名进行分词处理以生成新类目。在本发明的实施例中,字段名分词处理后获得的是标签。在本发明的实施例中,表名分词处理后获得的是除标签以外的类目。
在本发明的实施例中,可以通过例如词语向量化工具(比如word2vec,可从https://github.com/dav/word2vec获得)等进行类目的向量化。在本发明的实施例中,通过比较向量化的类目之间的相似度,能够确定新类目在数据类目体系中的位置。在本发明的实施例中,新类目在数据类目体系中的位置指的是新类目在数据类目体系中所处的类目层级和类目序列。
在本发明的实施例中,新类目所处的类目层级的确定依据的是待确定类目层级的新类目与数据类目体系中现有类目层级之间的相似度。在本发明的实施例中,首先计算待确定类目层级的新类目与每个类目层级中的所有类目的相似度的平均值和标准差,然后将平均值和标准差乘积最大的那个类目层级作为新类目所属的类目层级(最佳类目层级)。如果有多个类目层级所得乘积最大且相同,可以随机选择其中之一作为最佳类目层级。在本发明的实施例中,通过平均值来衡量新类目与现有类目层级的相似度,通过标准差来对上述相似度作修正。在本发明的实施例中,可以使用其他方法计算新类目和各个类目层级之间的相似度。
图3A和3B示出了根据本发明的实施例的在数据类目体系中添加新类目的方法。图3A示出了需要确定新类目X应当属于哪个类目层级。参见图3B,首先计算新类目X与每个现有类目A、B1-B2、C1-C4和D1-D6之间的相似度Si,j(i代表类目层级的序号,j代表类目层级中包含的类目的序号),然后计算出新类目X与每个类目层级中的所有类目的相似度的“平均值和标准差的乘积”,并且将最高乘积对应的类目层级作为新类目X所属的类目层级。例如,如果计算出S31、S32、S33、S34的平均值和标准差的乘积最高,则可以确定新类目X属于第3类目层级。
如果待确定位置的类目是标签,由于其所处的类目层级已经确定为最低级,因此不需要再计算确定其所处的类目层级。如果待确定位置的类目是除标签之外的类目,由于已经规定其所处的类目层级不是最低级,因此在进行上述类目层级相似度计算时,不需要计算待确定位置的类目与最低层级的相似度。
在本发明的实施例中,新类目所处的类目序列的确定依据的是待确定类目序列的新类目与数据类目体系中现有类目序列之间的相似度。在本发明的实施例中,首先计算待确定类目序列的新类目与类目序列中的所有类目的相似度的乘积,然后将乘积最大的那个类目序列作为新类目所属的类目序列(最佳类目序列)。如果有多个类目序列所得乘积最大且相同,则可以随机选择其中之一作为最佳类目序列。在本发明的实施例中,可以使用其他方法计算新类目和各个类目序列之间的相似度。
在本发明的实施例中,如果待确定类目序列的新类目的类目层级已经确定,则不需要计算其与类目序列中的所有类目的相似度的乘积,而只需要计算其与类目序列中的一部分类目的相似度的乘积,所述一部分类目所处的类目层级比新类目的类目层级高。
图4A和4B示出了根据本发明的实施例的确定新类目在数据类目体系中的类目序列的方法。如图4A所示的,已经通过上面图3A和3B中的方法确定了新类目DX属于第4类目层级。图4B显示了通过分别计算新类目DX和类目序列A-B1-C1、A-B1-C2、A-B2-C3和A-B2-C4之间的相似度,然后再计算相似度的乘积:S11*S21*S31、S11*S21*S32、S11*S22*S33和S11*S22*S34,取这四个乘积中值最大的那个序列,作为类目DX所属的类目序列。例如,最大值为S11*S22*S33,那么新类目DX的位置第4类目层级并且从属于A-B2-C3类目序列,即直接从属于类目C3。由于新类目DX的类目层级已经确定,因此只需要计算类目序列中比第4类目层级更高的层级中的类目的相似度。
按照上述计算得到的类目层级和类目序列,将新类目添加到数据类目体系中。例如,可以把类目作为数组值存储在二维数组中,数组中的单个变量对应某一个待确定的类目。一个二维数组构成一个完整的数据类目体系。如下面的表1中显示的,其同样也构成一个二维数组A,第1、2、3列中分别是不同层级的类目,A(i,j+1)必定从属于A(i,j)。例如,A(10,2)对应的类目“资产情况”必定属于A(10,1)对应的类目“基础特征”。
表1
1 2 3
1 基础特征 性别属性 会员性别
2 基础特征 性别属性 用户身份证性别
3 基础特征 年龄属性 会员生日
4 基础特征 年龄属性 用户身份证年龄段
5 基础特征 姓名属性 会员姓名
6 基础特征 姓名属性 收件人名个数
7 基础特征 姓名属性 收件地址个数
8 基础特征 联系方式 收件手机号码归属地
9 基础特征 联系方式 收件手机号码个数
10 基础特征 资产情况 资产等级
11 基础特征 资产情况 是否有房
12 基础特征 资产情况 是否有车
13 基础特征 资产情况 居住小区价格
14 基础特征 车辆属性 汽车数量
15 基础特征 车辆属性 车辆品牌
16 基础特征 车辆属性 车辆派系
17 基础特征 车辆属性 用户车龄
18 基础特征 车辆属性 保养频次
19 基础特征 车辆属性 是否美容
20 基础特征 车辆属性 是否改装
21 基础特征 车辆属性 改装热度
22 基础特征 车辆属性 是否爱车
23 基础特征 车辆属性 爱车热度
24 基础特征 家庭情况 是否已婚
25 基础特征 家庭情况 有无子女
26 基础特征 家庭情况 是否有宠物
本发明各实施例的方法和装置可以实现为纯粹的软件模块(例如用Java语言来编写的软件程序),也可以根据需要实现为纯粹的硬件模块(例如专用ASIC芯片或FPGA芯片),还可以实现为结合了软件和硬件的模块(例如存储有固定代码的固件系统)。
本发明还提供了一种计算机可读介质,其上存储有计算机可读指令,所述指令被执行时可实施本发明各实施例的方法。
本领域普通技术人员可以意识到,以上所述仅为本发明的示例性实施例,并不用于限制本发明。本发明还可以包含各种修改和变化。任何在本发明的精神和范围内作的修改和变化均应包含在本发明的保护范围内。

Claims (7)

1.一种构建数据类目体系的方法,其包括:
获取新类目,包括从数据资产中读取数据以及对所述数据进行分词以生成所述新类目,其中所述数据是表名或字段名;
将所述新类目和所述数据类目体系中的现有类目向量化;
通过比较向量化的所述新类目与向量化的所述现有类目之间的相似度来确定所述新类目在所述数据类目体系中的位置;以及
将所述新类目添加到所述数据类目体系中的所述位置,
其中所述位置包括所述新类目在所述数据类目体系中的最佳类目层级,其中,与其他类目层级相比,所述新类目与所述最佳类目层级的相似度最高,并且,所述新类目与所述最佳类目层级中的全部现有类目的相似度的平均值和标准差的乘积不低于其他类目层级。
2.一种构建数据类目体系的方法,其包括:
获取新类目,包括从数据资产中读取数据以及对所述数据进行分词以生成所述新类目,其中所述数据是表名或字段名;
将所述新类目和所述数据类目体系中的现有类目向量化;
通过比较向量化的所述新类目与向量化的所述现有类目之间的相似度来确定所述新类目在所述数据类目体系中的位置;以及
将所述新类目添加到所述数据类目体系中的所述位置,
其中所述确定操作包括确定所述新类目在所述数据类目体系中的最佳类目序列,其中,与其他类目序列相比,所述新类目与所述最佳类目序列的相似度最高,并且所述新类目与所述最佳类目序列中的全部现有类目的相似度的乘积不低于其他类目序列。
3.根据权利要求1或2所述的构建数据类目体系的方法,其中:
当所述数据是表名时,所述新类目在除最低类目层级之外的类目层级中;并且
当所述数据是字段名时,所述新类目在最低类目层级中。
4.根据权利要求2所述的构建数据类目体系的方法,其中当所述新类目的类目层级已经确定时,所述新类目与所述最佳类目序列的相似度是所述新类目与所述类目序列中的部分现有类目的相似度的乘积;并且
其中,所述部分现有类目的类目层级比所述新类目的类目层级高。
5.根据权利要求1或2所述的构建数据类目体系的方法,还包括以二维数组表示所述新类目的所述位置。
6.一种构建数据类目体系的系统,其包括:
用于获取新类目的装置,该装置能够从数据资产中读取数据以及对所述数据进行分词以生成所述新类目,其中所述数据是表名或字段名;
用于将所述新类目和所述数据类目体系中的现有类目向量化的装置;
用于通过比较向量化的所述新类目与向量化的所述现有类目之间的相似度来确定所述新类目在所述数据类目体系中的位置的装置;和
用于将所述新类目添加到所述数据类目体系中的所述位置的装置,
其中所述位置包括所述新类目在所述数据类目体系中的最佳类目层级,其中,与其他类目层级相比,所述新类目与所述最佳类目层级的相似度最高,并且,所述新类目与所述最佳类目层级中的全部现有类目的相似度的平均值和标准差的乘积不低于其他类目层级。
7.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现根据权利要求1或2中任一项所述的方法。
CN201911381941.3A 2019-12-27 2019-12-27 一种构建数据类目体系的方法和系统 Active CN111159151B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911381941.3A CN111159151B (zh) 2019-12-27 2019-12-27 一种构建数据类目体系的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911381941.3A CN111159151B (zh) 2019-12-27 2019-12-27 一种构建数据类目体系的方法和系统

Publications (2)

Publication Number Publication Date
CN111159151A CN111159151A (zh) 2020-05-15
CN111159151B true CN111159151B (zh) 2022-12-13

Family

ID=70558740

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911381941.3A Active CN111159151B (zh) 2019-12-27 2019-12-27 一种构建数据类目体系的方法和系统

Country Status (1)

Country Link
CN (1) CN111159151B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512131A (zh) * 2014-09-25 2016-04-20 中国科学技术信息研究所 基于类目相似度计算的分类法类目映射的方法和装置
CN107704469A (zh) * 2016-08-08 2018-02-16 中国科学院文献情报中心 专利数据和产业数据的映射方法和装置
CN107766426A (zh) * 2017-09-14 2018-03-06 北京百分点信息科技有限公司 一种文本分类方法、装置及电子设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6910044B2 (en) * 2000-09-20 2005-06-21 Sap Aktiengesellschaft Method and apparatus for structuring, maintaining, and using families of data
US20150066711A1 (en) * 2012-04-11 2015-03-05 National University Of Singapore Methods, apparatuses and computer-readable mediums for organizing data relating to a product

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512131A (zh) * 2014-09-25 2016-04-20 中国科学技术信息研究所 基于类目相似度计算的分类法类目映射的方法和装置
CN107704469A (zh) * 2016-08-08 2018-02-16 中国科学院文献情报中心 专利数据和产业数据的映射方法和装置
CN107766426A (zh) * 2017-09-14 2018-03-06 北京百分点信息科技有限公司 一种文本分类方法、装置及电子设备

Also Published As

Publication number Publication date
CN111159151A (zh) 2020-05-15

Similar Documents

Publication Publication Date Title
CN108121737B (zh) 一种业务对象属性标识的生成方法、装置和系统
CN109634698B (zh) 菜单显示方法、装置、计算机设备及存储介质
CN103116588A (zh) 一种个性化推荐方法及系统
US20110264651A1 (en) Large scale entity-specific resource classification
EP2747022A1 (en) Formation and description of user subgroups
CN110046634B (zh) 聚类结果的解释方法和装置
CN108269122B (zh) 广告的相似度处理方法和装置
US20120045132A1 (en) Method and apparatus for localizing an object within an image
CN109033200A (zh) 事件抽取的方法、装置、设备及计算机可读介质
CN108647322B (zh) 基于词网识别大量Web文本信息相似度的方法
CN110928992B (zh) 文本搜索方法、装置、服务器及存储介质
CN108241867B (zh) 一种分类方法及装置
Abdullah et al. Mining significant least association rules using fast SLP-growth algorithm
CN110096681B (zh) 合同条款分析方法、装置、设备及可读存储介质
CN111310011A (zh) 一种信息推送方法、装置、电子设备及存储介质
CN107911448A (zh) 一种内容推送方法及装置
CN106844482B (zh) 一种基于搜索引擎的检索信息匹配方法及装置
CN112528315A (zh) 识别敏感数据的方法和装置
CN106933878B (zh) 一种信息处理方法及装置
CN111680131A (zh) 基于语义的文档聚类方法、系统及计算机设备
CN108512674B (zh) 用于输出信息的方法、装置和设备
CN105279524A (zh) 基于无权超图分割的高维数据聚类方法
AU2015204339B2 (en) Information processing apparatus and information processing program
KR102358357B1 (ko) 시장규모추정장치 및 그 동작 방법
CN113591476A (zh) 一种基于机器学习的数据标签推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant