CN116450894A - 实体和行为的索引构建方法、装置、设备和可读存储介质 - Google Patents
实体和行为的索引构建方法、装置、设备和可读存储介质 Download PDFInfo
- Publication number
- CN116450894A CN116450894A CN202310415025.7A CN202310415025A CN116450894A CN 116450894 A CN116450894 A CN 116450894A CN 202310415025 A CN202310415025 A CN 202310415025A CN 116450894 A CN116450894 A CN 116450894A
- Authority
- CN
- China
- Prior art keywords
- entity
- index
- behavior
- behaviors
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010276 construction Methods 0.000 title claims description 7
- 230000006399 behavior Effects 0.000 claims abstract description 120
- 238000000034 method Methods 0.000 claims abstract description 28
- 238000004590 computer program Methods 0.000 claims description 13
- 238000005192 partition Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000003542 behavioural effect Effects 0.000 description 3
- 238000012423 maintenance Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请的实施例提供了实体和行为的索引构建方法、装置、设备和计算机可读存储介质。所述方法包括定义实体和行为以及所述实体和行为对应的特征;基于已定义的实体和行为以及所述实体和行为对应的特征,建立实体索引;基于已定义的实体和行为,从数据源处抽取数据,并将抽取的数据写入所述实体索引。以此方式,能够将实体数据冗余存储到行为上,降低了存储成本,减少了资源使用;同时,当用户采用本公开的实体索引(文档)进行数据查询时,可返回更详细的信息,大幅度提高了用户体验。
Description
技术领域
本申请的实施例涉及数据处理领域,尤其涉及实体和行为的索引构建方法、装置、设备和可读存储介质。
背景技术
当前,进行大数据量的数据检索时,只支持单独表(实体表或行为表)的查询,当需要进行多表查询时不能做到秒级查询(使用后台计算逻辑),查询时间较长,耗费资源量较大。
同时,不能将实体数据和行为数据进行绑定,当实体特征发生变化时,需要同步更新行为,一条实体对应着上万以至于更多的行为数据,需要较高的存储和维护成本。
发明内容
根据本申请的实施例,提供了一种实体和行为的索引构建方案。
在本申请的第一方面,提供了一种实体和行为的索引构建方法。该方法包括:
定义实体和行为以及所述实体和行为对应的特征;
基于已定义的实体和行为以及所述实体和行为对应的特征,建立实体索引;
基于已定义的实体和行为,从数据源处抽取数据,并将抽取的数据写入所述实体索引。
进一步地,所述实体索引为es索引。
进一步地,所述基于已定义的实体和行为以及所述实体和行为对应的特征,建立实体索引包括:
基于已定义的实体,生成实体索引,将所述实体的特征建立成所述实体索引的字段;
基于已定义的行为,在所述索引中建立join字段,将所述行为的特征建立成所述索引的字段。
进一步地,所述将抽取的数据写入所述实体索引包括:
将实体数据写入实体索引中,实体id为es索引中的id;
将行为数据写入实体索引中,将所述实体id作为join字段的parent id,行为名称为join字段type。
进一步地,还包括:
基于已定义的行为,建立行为索引;所述行为索引按照时间分区;
将从数据源获取的行为数据写入所述行为索引。
进一步地,所述将从数据源获取的行为数据写入所述行为索引包括:
将从数据源获取的行为数据,按照行为的发生时间写入到行为索引的不同分区中。
在本申请的第二方面,提供了一种实体和行为的索引构建装置。该装置包括:
定义模块,用于定义实体和行为以及所述实体和行为对应的特征;
建立模块,用于基于已定义的所述实体和行为以及所述实体和行为对应的特征,建立实体索引;
索引模块,用于基于已定义的实体和行为,从数据源处抽取数据,并将抽取的数据写入所述实体索引。
在本申请的第三方面,提供了一种电子设备。该电子设备包括:存储器和处理器,所述存储器上存储有计算机程序,所述处理器执行所述程序时实现如以上所述的方法。
在本申请的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如根据本申请的第一方面的方法。
本申请实施例提供的实体和行为的索引构建方法,通过定义实体和行为以及所述实体和行为对应的特征;基于已定义的实体和行为以及所述实体和行为对应的特征,建立实体索引;基于已定义的实体和行为,从数据源处抽取数据,并将抽取的数据写入所述实体索引,能够将实体数据冗余存储到行为上,降低了存储成本,减少了资源使用;同时,当用户采用本公开的实体索引(文档)进行数据查询时,可返回更详细的信息,大幅度提高了用户体验,例如进行行为查询时,不仅可以返回查询的行为内容,还可以返回该行为归属的实体的内容。
应当理解,发明内容部分中所描述的内容并非旨在限定本申请的实施例的关键或重要特征,亦非用于限制本申请的范围。本申请的其它特征将通过以下的描述变得容易理解。
附图说明
结合附图并参考以下详细说明,本申请各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标记表示相同或相似的元素,其中:
图1为根据本申请的实施例的实体和行为的索引构建方法的流程图;
图2为根据本申请的实施例的实体和行为的索引构建装置的方框图;
图3为适于用来实现本申请实施例的终端设备或服务器的结构示意图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例,都属于本公开保护的范围。
另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
图1示出了根据本公开实施例的实体和行为的索引构建方法的流程图。
所述方法包括:
S110,定义实体和行为以及所述实体和行为对应的特征。
其中,所述行为为实体的所属行为。
在一些实施例中,根据用户的需求定义实体和行为以及所述实体和行为对应的特征。
例如,实体:用户;
行为:用户登陆主机;
实体的特征包括对实体的具体描述,例如,性别、年龄、外貌特征和/或生活习惯等;
行为的特征包括对行为的具体描述,例如,行为发生的时间、地点等。
S120,基于已定义的实体和行为以及所述实体和行为对应的特征,建立实体索引。
基于已定义的实体,生成一个实体索引,将所述实体的特征建立成所述实体索引的字段;所述实体索引优选为es索引;
基于已定义的行为,在所述实体索引中建立join字段,将所述行为的特征建立成所述实体索引的字段。
例如,定义了实体为用户,定义了行为用户登陆主机(login_system):
S130,基于已定义的实体和行为,从数据源处抽取数据,并将抽取的数据写入所述实体索引。
在一些实施例中,基于已定义的实体和行为,从数据源处抽取数据。将实体数据写入实体索引中,实体id为实体索引中的id;
将行为数据写入实体索引中,将所述实体id作为join字段的parent id,行为名称为join字段type;
例如:
加载用户(实体)数据,加载用户id为510388786383613335的实体,指定_id和@join字段:
进一步地,还包括:
构建单独的行为索引,以便用户进行单独的行为查询。
具体地,基于已定义的行为,建立行为索引;所述行为索引按照时间分区;
将从数据源获取的行为数据,按照行为的发生时间写入到行为索引的不同分区中。
根据本公开的实施例,实现了以下技术效果:
当用户通过本公开的实体索引进行实体查询时,不仅可以过滤实体的特征,还可以过滤实体的所属行为,以及对行为发生次数、发生特征等指标(特征)进行筛选,并快速返回对应结果;当用户进行行为查询时,不仅可以返回查询的行为内容,还可以返回该行为所属的实体的内容,大幅度优化了用户体验。
通过本公开的实体索引进行关联查询时,可实现秒级的响应(实体表和行为表关联为同一张表)。
通过本公开的方法,能够将实体数据冗余存储到行为上,可分别进行实体和行为数据的更新,降低了存储成本和维护成本。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作和模块并不一定是本申请所必须的。
以上是关于方法实施例的介绍,以下通过装置实施例,对本申请所述方案进行进一步说明。
图2示出了根据本申请的实施例的实体和行为的索引构建装置200的方框图如图2所示,装置200包括:
定义模块210,用于定义实体和行为以及所述实体和行为对应的特征;
建立模块220,用于基于已定义的所述实体和行为以及所述实体和行为对应的特征,建立实体索引;
索引模块230,用于基于已定义的实体和行为,从数据源处抽取数据,并将抽取的数据写入所述实体索引。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,所述描述的模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
图3示出了适于用来实现本申请实施例的终端设备或服务器的结构示意图。
如图3所示,终端设备或服务器包括中央处理单元(CPU)301,其可以根据存储在只读存储器(ROM)302中的程序或者从存储部分308加载到随机访问存储器(RAM)303中的程序而执行各种适当的动作和处理。在RAM303中,还存储有终端设备或服务器操作所需的各种程序和数据。CPU 301、ROM 302以及RAM 303通过总线304彼此相连。输入/输出(I/O)接口305也连接至总线304。
以下部件连接至I/O接口305:包括键盘、鼠标等的输入部分306;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分307;包括硬盘等的存储部分308;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分309。通信部分309经由诸如因特网的网络执行通信处理。驱动器310也根据需要连接至I/O接口305。可拆卸介质311,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器310上,以便于从其上读出的计算机程序根据需要被安装入存储部分308。
特别地,根据本申请的实施例,上文方法流程步骤可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在机器可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分309从网络上被下载和安装,和/或从可拆卸介质311被安装。在该计算机程序被中央处理单元(CPU)301执行时,执行本申请的系统中限定的上述功能。
需要说明的是,本申请所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,前述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中。其中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。
作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中的。上述计算机可读存储介质存储有一个或者多个程序,当上述前述程序被一个或者一个以上的处理器用来执行描述于本申请的方法。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的申请范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离前述申请构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中申请的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (10)
1.一种实体和行为的索引构建方法,其特征在于,包括:
定义实体和行为以及所述实体和行为对应的特征;
基于已定义的实体和行为以及所述实体和行为对应的特征,建立实体索引;
基于已定义的实体和行为,从数据源处抽取数据,并将抽取的数据写入所述实体索引。
2.根据权利要求1所述的方法,其特征在于,所述实体索引为es索引。
3.根据权利要求2所述的方法,其特征在于,所述基于已定义的实体和行为以及所述实体和行为对应的特征,建立实体索引包括:
基于已定义的实体,生成实体索引,将所述实体的特征建立成所述实体索引的字段;
基于已定义的行为,在所述索引中建立join字段,将所述行为的特征建立成所述索引的字段。
4.根据权利要求3所述的方法,其特征在于,所述将抽取的数据写入所述实体索引包括:
将实体数据写入实体索引中,实体id为es索引中的id;
将行为数据写入实体索引中,将所述实体id作为join字段的parentid,行为名称为join字段type。
5.根据权利要求4所述的方法,其特征在于,还包括:
基于已定义的行为,建立行为索引;所述行为索引按照时间分区;
将从数据源获取的行为数据写入所述行为索引。
6.根据权利要求5所述的方法,其特征在于,所述将从数据源获取的行为数据写入所述行为索引包括:
将从数据源获取的行为数据,按照行为的发生时间写入到行为索引的不同分区中。
7.一种实体和行为的索引构建装置,其特征在于,包括:
定义模块,用于定义实体和行为以及所述实体和行为对应的特征;
建立模块,用于基于已定义的所述实体和行为以及所述实体和行为对应的特征,建立实体索引;
索引模块,用于基于已定义的实体和行为,从数据源处抽取数据,并将抽取的数据写入所述实体索引。
8.根据权利要求7所述的装置,其特征在于,所述实体索引为es索引。
9.一种电子设备,包括存储器和处理器,所述存储器上存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1~6中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1~6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310415025.7A CN116450894A (zh) | 2023-04-18 | 2023-04-18 | 实体和行为的索引构建方法、装置、设备和可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310415025.7A CN116450894A (zh) | 2023-04-18 | 2023-04-18 | 实体和行为的索引构建方法、装置、设备和可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116450894A true CN116450894A (zh) | 2023-07-18 |
Family
ID=87135281
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310415025.7A Pending CN116450894A (zh) | 2023-04-18 | 2023-04-18 | 实体和行为的索引构建方法、装置、设备和可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116450894A (zh) |
-
2023
- 2023-04-18 CN CN202310415025.7A patent/CN116450894A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109254733B (zh) | 用于存储数据的方法、装置和系统 | |
US10360262B2 (en) | Optimizing sparse schema-less data in data stores | |
US8918434B2 (en) | Optimizing sparse schema-less data in relational stores | |
US10915532B2 (en) | Supporting a join operation against multiple NoSQL databases | |
CN111709527A (zh) | 运维知识图谱库的建立方法、装置、设备及存储介质 | |
CN108897874B (zh) | 用于处理数据的方法和装置 | |
CN112711581B (zh) | 医疗数据校验方法、装置、电子设备及存储介质 | |
CN111258966A (zh) | 一种数据去重方法、装置、设备及存储介质 | |
JP2022553663A (ja) | 機械学習を使用した表形式データの内容特定方法、システム、プログラム | |
WO2024036662A1 (zh) | 一种基于数据采样的并行图规则挖掘方法及装置 | |
CN112115113B (zh) | 数据存储系统、方法、装置、设备以及存储介质 | |
US11442930B2 (en) | Method, apparatus, device and storage medium for data aggregation | |
CN112613964A (zh) | 一种对账方法、装置、设备及存储介质 | |
CN112925859A (zh) | 数据存储方法和装置 | |
CN115408391A (zh) | 一种数据库表变更方法、装置、设备和存储介质 | |
CN115858488A (zh) | 基于数据治理的平行迁移方法、装置及可读介质 | |
CN109614411B (zh) | 数据存储方法、设备和存储介质 | |
CN111984745B (zh) | 数据库字段动态扩展方法、装置、设备及存储介质 | |
CN109542912B (zh) | 区间数据存储方法、装置、服务器及存储介质 | |
CN115186738B (zh) | 模型训练方法、装置和存储介质 | |
CN116450894A (zh) | 实体和行为的索引构建方法、装置、设备和可读存储介质 | |
US10031930B2 (en) | Record schemas identification in non-relational database | |
CN113127496B (zh) | 数据库中变更数据的确定方法及装置、介质和设备 | |
US20180101569A1 (en) | Efficient Analysis of Distinct Aggregations | |
JP7451697B2 (ja) | データ記憶方法、装置、クエリ方法、電子機器および可読媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |