CN112148808A - 关系构建方法、装置和电子设备 - Google Patents
关系构建方法、装置和电子设备 Download PDFInfo
- Publication number
- CN112148808A CN112148808A CN202011043765.5A CN202011043765A CN112148808A CN 112148808 A CN112148808 A CN 112148808A CN 202011043765 A CN202011043765 A CN 202011043765A CN 112148808 A CN112148808 A CN 112148808A
- Authority
- CN
- China
- Prior art keywords
- entity
- track
- designated
- point
- historical track
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010276 construction Methods 0.000 title claims abstract description 14
- 238000000034 method Methods 0.000 claims description 46
- 239000013598 vector Substances 0.000 claims description 29
- 241000393496 Electra Species 0.000 claims description 11
- 230000006870 function Effects 0.000 abstract description 11
- 238000013523 data management Methods 0.000 abstract description 8
- 238000005065 mining Methods 0.000 abstract description 5
- 238000012216 screening Methods 0.000 abstract description 5
- 230000008569 process Effects 0.000 description 16
- 230000008447 perception Effects 0.000 description 15
- 101000958041 Homo sapiens Musculin Proteins 0.000 description 14
- 102000046949 human MSC Human genes 0.000 description 14
- 101100289995 Caenorhabditis elegans mac-1 gene Proteins 0.000 description 12
- 238000010586 diagram Methods 0.000 description 12
- 238000004590 computer program Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 6
- 230000015654 memory Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000003203 everyday effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 239000000523 sample Substances 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 235000003143 Panax notoginseng Nutrition 0.000 description 1
- 241000180649 Panax notoginseng Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了关系构建方法、装置和电子设备。本实施例可基于属于同类别的不同实体的历史轨迹,并结合属于同类别的不同实体的历史轨迹上每一位置点对应的逆地点频率IPF,从时空角度挖掘出属于同类别的不同实体之间的关系(比如亲密度等),这实现了在海量数据中通过实体与实体之间的关系形成多维关系库,方便数据管理、查询、筛选、挖掘等功能,也方便数据管理。
Description
技术领域
本申请涉及大数据处理技术,特别涉及关系构建方法、装置和电子设备。
背景技术
在很多应用中,依托于先进的信息技术会积累海量的数据。比如基于业务需求需要依托于先进的信息技术积累汇聚了海量的数据。然而,面对这些海量数据,即使是具有强大情报处理能力的系统,面向海量数据依然很难进行数据管理,也很难从海量数据中挖掘出有价值的数据。
发明内容
本申请提供了关系构建方法、装置和电子设备,以通过构建实体与实体之间的关系管理数据。
本申请提供的技术方案包括:
本实施例提供一种关系构建方法,该方法包括:
获得第一历史轨迹和第二历史轨迹;第一历史轨迹为第一实体在第一指定时间段内在指定区域内的轨迹,第二历史轨迹为第二实体在第一指定时间段内在指定区域内的轨迹,第一实体与第二实体属于同一实体类别;
为第一历史轨迹和第二历史轨迹上的每一位置点确定对应的逆地点频率IPF;所述位置点对应的所述逆地点频率IPF用于表示该位置点的权重;
依据所述第一历史轨迹中每一位置点对应的逆地点频率IPF、以及所述第二历史轨迹中每一位置点对应的逆地点频率IPF,确定所述第一实体和第二实体之间的关系。
可选地,所述为第一历史轨迹和第二历史轨迹上的每一位置点确定对应的逆地点频率IPF包括:
针对第一历史轨迹和第二历史轨迹上的每一位置点,获得与该位置点相关联的第一数量和第二数量;所述第一数量为所述第一指定时间段内在所述指定区域内出现的与所述第一实体和第二实体具有相同实体类别的所有实体的总数量;所述第二数量为所述第一指定时间段内在所述指定区域内出现的与所述第一实体和第二实体具有相同实体类别、且经过所述位置点的所有实体的数量;
依据所述第一数量和所述第二数量确定该位置点对应的逆地点频率IPF。
可选地,所述依据第一数量和第二数量确定该位置点对应的逆地点频率IPF包括:
将所述第一数量与所述第二数量进行设定运算;所述设定运算为:先进行除法运算得到商再将得到的商取对数;
依据运算结果确定所述逆地点频率IPF。
可选地,所述依据第一历史轨迹中每一位置点对应的逆地点频率IPF、以及第二历史轨迹中每一位置点对应的逆地点频率IPF,确定所述第一实体和第二实体之间的关系包括:
依据第一实体在所述第一指定时间段内经过所述第一历史轨迹中每一位置点的次数和该位置点对应的逆地点频率IPF、以及第二实体在所述第一指定时间段内经过所述第二历史轨迹中每一位置点的次数和该位置点对应的逆地点频率IPF计算第一历史轨迹与第二历史轨迹之间的轨迹相似度;
依据所述轨迹相似度确定所述第一实体和第二实体之间的亲密关系。
可选地,所述依据第一实体在所述第一指定时间段内经过所述第一历史轨迹中每一位置点的次数和该位置点对应的逆地点频率IPF、以及第二实体在所述第一指定时间段内经过所述第二历史轨迹中每一位置点的次数和该位置点对应的逆地点频率IPF计算第一历史轨迹与第二历史轨迹之间的轨迹相似度包括:
依据所述第一历史轨迹和第二历史轨迹中的位置点构建轨迹点位向量;
针对轨迹点位向量中每一位置点,依据第一实体经过该位置点的次数和该位置点对应的逆地点频率IPF确定第一实体在该位置点对应的权重参数,以及依据第二实体经过该位置点的次数和该位置点对应的逆地点频率IPF确定第二实体在该位置点对应的权重参数;
依据第一实体在所述轨迹点位向量中每一位置点对应的权重参数、以及依据第二实体在所述轨迹点位向量中每一位置点对应的权重参数计算第一历史轨迹和第二历史轨迹之间的余弦相似度,将所述余弦相似度确定为所述轨迹相似度。
可选地,该方法进一步包括:
当确定指定实体还存在至少一个疑似账户时,指定实体为所述第一实体或第二实体,则生成用于指示指定实体与疑似账户之间对应的对应关系对;
针对每一对应关系对,依据该对应关系对中指定实体的历史轨迹、以及疑似账户对应的实体的历史轨迹,确定该指定实体与疑似账户之间对应关系的置信度;
依据对应关系对中指定实体与疑似账户之间对应关系的置信度确定指定实体与疑似账户之间的关联关系。
可选地,所述依据该对应关系对中指定实体的历史轨迹、以及疑似账户对应的实体的历史轨迹,确定该指定实体与疑似账户之间对应关系的置信度包括:
获得第三历史轨迹和第四历史轨迹;所述第三历史轨迹为对应关系对中指定实体在第二指定时间段内的轨迹,第四历史轨迹为对应关系对中疑似账户对应的实体在第二指定时间段内的轨迹;
依据第三历史轨迹和第四历史轨迹确定指定实体和疑似账户之间的位置重合度;
依据所述位置重合度确定指定实体与疑似账户之间的置信度。
可选地,所述依据第三历史轨迹和第四历史轨迹确定指定实体和疑似账户对应的实体之间的位置重合度包括:
针对每一指定位置点,依据第三历史轨迹和第四历史轨迹分别生成指定实体在该指定位置点对应的第一序列、以及疑似账户在该指定位置点对应的第二序列,对第一序列和第二序列进行按位与操作得到该指定位置点对应的重合度;所述第一序列用于表示指定实体是否在第二指定时间段内每一指定单位时间点经过该指定位置点,当在指定单位时间点经过该指定位置点,则通过1或0中的其中一个数值表示,否则,通过另一个数值表示;第二序列用于表示疑似账户对应的实体是否在第二指定时间段内每一指定单位时间点经过该指定位置点,当在指定单位时间点经过该指定位置点,则通过1或0中的其中一个数值表示,否则,通过另一个数值表示;
依据各指定位置点对应的重合度确定所述位置重合度。
可选地,该方法进一步包括:
将已获得的第一实体相关联的第一文本数据输入至已训练的Electra模型得到第一实体相关联的至少一个实体类别和至少一个实体信息;
将已获得的第二实体相关联的第二文本数据输入至已训练的Electra模型得到第二实体相关联的至少一个实体类别和至少一个实体信息;
依据第一实体相关联的至少一个实体类别和至少一个实体信息、第二实体相关联的至少一个实体类别和至少一个实体信息确定所述第一实体和第二实体之间的关系。
本实施例提供一种关系构建装置,包括:
获得单元,用于获得第一历史轨迹和第二历史轨迹;第一历史轨迹为第一实体在第一指定时间段内在指定区域内的轨迹,第二历史轨迹为第二实体在第一指定时间段内在所述指定区域内的轨迹,第一实体与第二实体属于同一实体类别;
确定单元,用于为第一历史轨迹和第二历史轨迹上的每一位置点确定对应的逆地点频率IPF;所述位置点对应的逆地点频率IPF用于表示该位置点的权重;
关系构建单元,用于依据所述第一历史轨迹中每一位置点对应的逆地点频率IPF、以及所述第二历史轨迹中每一位置点对应的逆地点频率IPF,确定所述第一实体和第二实体之间的关系。
可选地,所述确定单元为第一历史轨迹和第二历史轨迹上的每一位置点确定对应的逆地点频率IPF包括:
针对第一历史轨迹和第二历史轨迹上的每一位置点,获得与该位置点相关联的第一数量和第二数量;所述第一数量为所述第一指定时间段内在所述指定区域内出现的与所述第一实体和第二实体具有相同实体类别的所有实体的总数量;所述第二数量为所述第一指定时间段内在所述指定区域内出现的与所述第一实体和第二实体具有相同实体类别、且经过所述位置点的所有实体的数量;
依据所述第一数量和所述第二数量确定该位置点对应的逆地点频率IPF。
可选地,所述确定单元依据第一数量和第二数量确定该位置点对应的逆地点频率IPF包括:
将所述第一数量与所述第二数量进行设定运算;所述设定运算为:先进行除法运算得到商再将得到的商取对数;
依据运算结果确定所述逆地点频率IPF。
可选地,所述关系构建单元依据第一历史轨迹中每一位置点对应的逆地点频率IPF、以及第二历史轨迹中每一位置点对应的逆地点频率IPF,确定所述第一实体和第二实体之间的关系包括:
依据第一实体在所述第一指定时间段内经过所述第一历史轨迹中每一位置点的次数和该位置点对应的逆地点频率IPF、以及第二实体在所述第一指定时间段内经过所述第二历史轨迹中每一位置点的次数和该位置点对应的逆地点频率IPF计算第一历史轨迹与第二历史轨迹之间的轨迹相似度;
依据所述轨迹相似度确定所述第一实体和第二实体之间的亲密关系。
可选地,所述关系构建单元依据第一实体在所述第一指定时间段内经过所述第一历史轨迹中每一位置点的次数和该位置点对应的逆地点频率IPF、以及第二实体在所述第一指定时间段内经过所述第二历史轨迹中每一位置点的次数和该位置点对应的逆地点频率IPF计算第一历史轨迹与第二历史轨迹之间的轨迹相似度包括:
依据所述第一历史轨迹和第二历史轨迹中的位置点构建轨迹点位向量;
针对轨迹点位向量中每一位置点,依据第一实体经过该位置点的次数和该位置点对应的逆地点频率IPF确定第一实体在该位置点对应的权重参数,以及依据第二实体经过该位置点的次数和该位置点对应的逆地点频率IPF确定第二实体在该位置点对应的权重参数;
依据第一实体在所述轨迹点位向量中每一位置点对应的权重参数、以及依据第二实体在所述轨迹点位向量中每一位置点对应的权重参数计算第一历史轨迹和第二历史轨迹之间的余弦相似度,将所述余弦相似度确定为所述轨迹相似度。
可选地,确定单元进一步在确定指定实体还存在至少一个疑似账户时,指定实体为所述第一实体或第二实体,则生成用于指示指定实体与疑似账户之间对应的对应关系对;每一对应关系对中包括指定实体、以及指定实体对应的疑似账户,不同对应关系对中与指定实体对应的疑似账户不同;以及,针对每一对应关系对,依据已获得的该对应关系对中指定实体对应的历史轨迹、以及疑似账户对应的历史轨迹,确定该指定实体与疑似账户之间对应关系的置信度;
可选地,所述关系构建单元进一步依据对应关系对中指定实体与疑似账户之间对应关系的置信度确定指定实体与疑似账户之间的关联关系。
可选地,确定单元依据已获得的该对应关系对中指定实体对应的历史轨迹、以及疑似账户对应的历史轨迹,确定该指定实体与疑似账户之间对应关系的置信度包括:
获得第三历史轨迹和第四历史轨迹;所述第三历史轨迹为对应关系对中指定实体在第二指定时间段内的轨迹,第四历史轨迹为对应关系对中疑似账户对应的实体在第二指定时间段内的轨迹;
依据第三历史轨迹和第四历史轨迹确定指定实体和疑似账户之间的位置重合度;
依据所述位置重合度确定指定实体与疑似账户之间的置信度。
可选地,确定单元依据第三历史轨迹和第四历史轨迹确定指定实体和疑似账户对应的实体之间的位置重合度包括:
针对每一指定位置点,依据第三历史轨迹和第四历史轨迹分别生成指定实体在该指定位置点对应的第一序列、以及疑似账户在该指定位置点对应的第二序列,对第一序列和第二序列进行按位与操作得到该指定位置点对应的重合度;所述第一序列用于表示指定实体是否在第二指定时间段内每一指定单位时间点经过该指定位置点,当在指定单位时间点经过该指定位置点,则通过1或0中的其中一个数值表示,否则,通过另一个数值表示;第二序列用于表示疑似账户对应的实体是否在第二指定时间段内每一指定单位时间点经过该指定位置点,当在指定单位时间点经过该指定位置点,则通过1或0中的其中一个数值表示,否则,通过另一个数值表示;
依据各指定位置点对应的重合度确定所述位置重合度。
可选地,关系构建单元进一步将已获得的第一实体相关联的第一文本数据输入至已训练的Electra模型得到第一实体相关联的至少一个实体类别和至少一个实体信息;将已获得的第二实体相关联的第二文本数据输入至已训练的Electra模型得到第二实体相关联的至少一个实体类别和至少一个实体信息;依据第一实体相关联的至少一个实体类别和至少一个实体信息、第二实体相关联的至少一个实体类别和至少一个实体信息确定所述第一实体和第二实体之间的关系。
本实施例提供一种电子设备,该电子设备包括:处理器和机器可读存储介质;
所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令;
所述处理器用于执行机器可执行指令,以实现如上方法步骤。
由以上技术方案可以看出,本实施例可基于属于同类别的不同实体的历史轨迹,并结合属于同类别的不同实体的历史轨迹上每一位置点对应的逆地点频率IPF,从时空角度挖掘出属于同类别的不同实体之间的关系(比如亲密度等),这实现了在海量数据中通过实体与实体之间的关系形成多维关系库,方便数据管理、查询、筛选、挖掘等功能,也方便数据管理;
进一步地,本实施例还可将同一实体的其它可疑账户关联,以实现同一实体尽可能与相对应的其它账户进行关联,这进一步在海量数据中通过这种关联关系管理数据,方便数据管理、查询、筛选、挖掘等功能;
再进一步地,本实施例通过一种基于Electra的神经网络模型Electra模型实现了基于实体的文本数据构建实体之间的多维关系,这进一步在海量数据中通过这种关联关系管理数据,方便数据管理、查询、筛选、挖掘等功能。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1为本申请实施例提供的方法流程图;
图2为本申请实施例提供的步骤102实现流程图;
图3为本申请实施例提供的步骤103实现流程图;
图4为本申请实施例提供的步骤301实现流程图;
图5为本申请实施例提供了关系构建另一流程图;
图6为本申请实施例提供的步骤502实现流程图;
图7为本申请实施例提供的关系构建又一流程图;
图8为本申请实施例提供的装置结构图;
图9为本申请实施例提供的电子设备结构图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方便相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
为了使本领域技术人员更好地理解本申请实施例提供的技术方案,并使本申请实施例的上述目的、特征和优点能够更加明显易懂,下面结合附图对本申请实施例中技术方案作进一步详细的说明。
参见图1,图1为本申请实施例提供的方法流程图。该方法应用于电子设备。可选地,这里的电子设备可为用于管理物联感知设备的服务器、或者与物联感知设备具有连接关系的其他设备比如终端等,本实施例并不具体限定。
如图1所示,该流程可包括以下步骤:
步骤101,获得第一历史轨迹和第二历史轨迹;第一历史轨迹为第一实体在第一指定时间段内在指定区域内的轨迹,第二历史轨迹为第二实体在第一指定时间段内在指定区域内的轨迹,第一实体与第二实体属于同一实体类别。
在本实施例中,所谓实体,其可为客观世界中存在的且可互相区分的事物实体,比如人、地、组织等,也可以是抽象概念比如课程等,本实施例并不具体限定。在本实施例中,第一实体、第二实体只是为便于描述而进行的命名,并非用于限定。
如步骤101描述,在本实施例中,第一实体与第二实体属于同一实体类别,比如第一实体、第二实体都属于“人”这一类别,其中,第一实体为张三、第二实体为李四;再比如,第一实体、第二实体都属于“车辆”这一类别,其中,第一实体为车辆A、第二实体为车辆B,等等,这里不再一一展开描述。
可选地,上述步骤101中获得第一历史轨迹和第二历史轨迹可包括:
步骤a1,获得指定区域内已安装的物联感知设备在指定时间段内已采集到的第一实体的物联感知数据和第二实体的物联感知数据。
可选地,这里的指定区域、第一指定时间段可根据实际需求设置。比如,指定区域可为某一段路或者某一公园等,第一指定时间段比如为180天内等,本实施例并不具体限定。
可选地,在本实施例中,这里的物联感知设备可为人脸抓拍设备、车辆抓拍设备、WIFI探针、电子围栏、RFID等,本实施例并不具体限定。
可选地,在本实施例中,物联感知数据可包括:采集时间、采集该物联感知数据的地点(记为采集地点)等。
步骤a2,依据采集时间先后顺序对第一实体的物联感知数据中的采集地点进行排序,得到第一历史轨迹。
比如,按照采集时间越靠前,采集地点(在该采集时间采集的第一实体的物联感知数据中的采集地点)越靠前的方式对第一实体的物联感知数据中的采集地点进行排序,得到第一历史轨迹。
步骤a3,依据采集时间先后顺序将第二实体的物联感知数据中的采集地点进行排序,得到第二历史轨迹。
比如,按照采集时间越靠前,采集地点(在该采集时间采集的第二实体的物联感知数据中的采集地点)越靠前的方式对第二实体的物联感知数据中的采集地点进行排序,得到第二历史轨迹。
需要说明的是,上述步骤a2和步骤a3并没有固定的时间先后顺序,其可同时执行。这里只是为便于描述区分出步骤a2和步骤a3。
以上对步骤101中获得第一历史轨迹和第二历史轨迹进行了描述。
步骤102,为第一历史轨迹和第二历史轨迹上的每一位置点确定对应的逆地点频率(IPF);所述位置点对应的逆地点频率IPF用于表示该位置点的权重。
通过对大量轨迹数据进行创造性分析发现,实体经历过的位置点在计算该实体与同类别的其他实体之间关系时所占的权重与在该实体的历史轨迹中出现的次数成反比,即,一个位置点在实体的历史轨迹中出现次数越多,则该位置点在计算该实体与同类别的其他实体之间的关系时所占的权重越小,反之,一个位置点在实体的历史轨迹中出现次数越少,则该位置点在计算该实体与同类别的其他实体之间的关系时所占的权重越大。为此,本申请实施例创造性地提出逆地点频率(IPF)。这里,IPF是历史轨迹中经过的位置点的重要性(也称权重)。
基于此,如步骤102描述,在本实施例中,为第一历史轨迹和第二历史轨迹上的每一位置点确定对应的逆地点频率IPF;其中,每一位置点对应的逆地点频率IPF用于表示该位置点的权重。至于如何为第一历史轨迹和第二历史轨迹上的每一位置点确定对应的逆地点频率IPF,下文图2举例描述一种确定方式,这里暂不赘述。
步骤103,依据第一历史轨迹中每一位置点对应的逆地点频率IPF、以及第二历史轨迹中每一位置点对应的逆地点频率IPF,确定所述第一实体和第二实体之间的关系。
如上描述,第一历史轨迹中每一位置点对应的IPF、第二历史轨迹中每一位置点对应的IPF均与第一实体与第二实体之间的关系有关,基于此,一旦确定第一历史轨迹中每一位置点对应的逆地点频率IPF、以及第二历史轨迹中每一位置点对应的逆地点频率IPF,则自然即可确定第一实体和第二实体之间关系的亲密程度。下文会通过图3举例描述步骤103如何依据第一历史轨迹中每一位置点对应的逆地点频率IPF、以及第二历史轨迹中每一位置点对应的逆地点频率IPF,确定所述第一实体和第二实体之间的关系。
至此,完成图1所示流程。
通过图1所示流程,本实施例可基于属于同类别的不同实体的历史轨迹,并结合属于同类别的不同实体的历史轨迹上每一位置点对应的逆地点频率IPF,从时空角度挖掘出属于同类别的不同实体之间的关系(比如亲密度等),这实现了在海量数据中通过实体与实体之间的关系形成多维关系库,方便数据管理、查询、筛选、挖掘等功能,也方便数据管理。
下面对上述步骤102进行描述:
参见图2,图2为本申请实施例提供的步骤102实现流程图。如图2所示,该流程可包括以下步骤:
步骤201,针对第一历史轨迹和第二历史轨迹上的每一位置点,获得与该位置点相关联的第一数量和第二数量。
可选地,第一数量为第一指定时间段内在上述指定区域内出现的与第一实体和第二实体具有相同实体类别的所有实体的总数量。以第一实体和第二实体属于“人”这一类别为例,则第一数量即为第一指定时间段内在上述指定区域内出现的所有人的总数量。
可选地,第二数量为第一指定时间段内在上述指定区域内出现的与第一实体和第二实体具有相同实体类别、且经过上述位置点的所有实体的数量。再以第一实体和第二实体属于“人”这一类别为例,假若上述位置点为位置C,则第二数量即为第一指定时间段内经过位置C的所有人的总数量。
步骤202,依据所述第一数量和所述第二数量确定该位置点对应的逆地点频率IPF。
可选地,本步骤202中依据第一数量和第二数量确定该位置点对应的逆地点频率IPF可包括以下步骤c:
步骤c,将所述第一数量与所述第二数量进行设定运算,所述设定运算为:先进行除法运算得到商再将得到的商取对数;依据运算结果确定所述逆地点频率IPF(比如,直接将运算结果确定为逆地点频率IPF)。
以设定运算为先进行除法运算得到商再将得到的商取对数为例,假若第一实体和第二实体属于“人”这一类别,则步骤c可通过以下公式1实现:
其中:p表示位置点,U代表上述第一数量,Pu代表用户u在第一指定时间段内在指定区域内的历史轨迹,{u:p∈Pu}表示上述第二数量。IPFp表示上述逆地点频率IPF。
至此,完成图2所示流程。
通过图2所示流程实现了上述步骤102中为第一历史轨迹和第二历史轨迹上的每一位置点确定对应的逆地点频率IPF。需要说明的是,上述图2所示流程只是一种举例,并非用于限定。
下面对上述步骤103进行描述:
参见图3,图3为本申请实施例提供的步骤103实现流程图。如图3所示,该流程可包括以下步骤:
步骤301,依据第一实体在所述第一指定时间段内经过所述第一历史轨迹中每一位置点的次数和该位置点对应的逆地点频率IPF、以及第二实体在所述第一指定时间段内经过所述第二历史轨迹中每一位置点的次数和该位置点对应的逆地点频率IPF,计算第一历史轨迹与第二历史轨迹之间的轨迹相似度。
可选地,本实施例中,本步骤301计算第一历史轨迹与第二历史轨迹之间的轨迹相似度有很多实现方式,比如按照预设的相似度计算方式计算,或者按照下文图4所示流程举例示出的方式计算等,本实施例并不具体限定。
步骤302,依据所述轨迹相似度确定所述第一实体和第二实体之间的亲密关系。
一旦第一历史轨迹与第二历史轨迹之间的轨迹相似度确定好,则基于第一历史轨迹与第二历史轨迹之间的轨迹相似度就自然度量出第一实体和第二实体之间的亲密关系,比如第一实体和第二实体为家人关系,或者情侣关系等等。
至此,完成图3所示流程。
通过图3所示流程实现了上述步骤103中依据第一历史轨迹中每一位置点对应的逆地点频率IPF、以及第二历史轨迹中每一位置点对应的逆地点频率IPF,确定所述第一实体和第二实体之间的关系。需要说明的是,上述图3所示流程只是一种举例,并非用于限定。
下面对上述步骤301进行描述:
参见图4,图4为本申请实施例提供的步骤301实现流程图。如图4所示,该流程可包括以下步骤:
步骤401,依据第一历史轨迹和第二历史轨迹中的位置点构建轨迹点位向量。
可选地,本步骤401中,依据第一历史轨迹和第二历史轨迹中的位置点构建轨迹点位向量可包括:将第一历史轨迹和第二历史轨迹中位置点的并集确定为轨迹点位向量。比如第一历史轨迹包括如下位置点:p0、p2、p3、p2,第二历史轨迹包括如下位置点:p1、p2、p1,则第一历史轨迹和第二历史轨迹中位置点的并集即为:p0、p1、p2、p3、p4。
步骤402,针对轨迹点位向量中每一位置点,依据第一实体经过该位置点的次数和该位置点对应的逆地点频率IPF确定第一实体在该位置点对应的权重参数,以及依据第二实体经过该位置点的次数和该位置点对应的逆地点频率IPF确定第二实体在该位置点对应的权重参数。
可选地,本步骤402中,依据第一实体经过该位置点的次数和该位置点对应的逆地点频率IPF确定第一实体在该位置点对应的权重参数可为:将第一实体经过该位置点的次数和该位置点对应的逆地点频率IPF进行乘法运算得到的结果确定为第一实体在该位置点对应的权重参数。类似地,依据第二实体经过该位置点的次数和该位置点对应的逆地点频率IPF确定第二实体在该位置点对应的权重参数可为:将第二实体经过该位置点的次数和该位置点对应的逆地点频率IPF进行乘法运算得到的结果确定为第二实体在该位置点对应的权重参数。公式2示出权重系数的计算方式:
xi=Ci*IPFi (公式2)
其中,Ci表示实体经过位置点的次数。比如,以位置点为p2为例,假如实体经过p2两次,则C2=2,IPFi表示位置点对应的逆地点频率。
基于上述公式2,最终会得到第一实体、第二实体分别经过的各位置点的权重系数,公式3举例示出第一实体分别经过的各位置点的权重系数,公式4举例示出第二实体分别经过的各位置点的权重系数:
X=(x0,x1,x2,...xi...,xn) (公式3)
Y=(y0,y1,y2,…yi…,yn) (公式4)
步骤403,依据第一实体在轨迹点位向量中每一位置点对应的权重参数、以及依据第二实体在所述轨迹点位向量中每一位置点对应的权重参数计算第一历史轨迹和第二历史轨迹之间的余弦相似度,将所述余弦相似度确定为所述轨迹相似度。
可选地,基于上述公式3、公式4,则余弦相似度可通过下述公式5实现:
其中,cos(θ)表示上述余弦相似度。xi为上述公式3中第i个权重系数,yi为上述公式4中第i个权重系数。
至此,完成图4所示流程。
通过图4所示流程实现了上述步骤301中如何依据第一实体在所述第一指定时间段内经过所述第一历史轨迹中每一位置点的次数和该位置点对应的逆地点频率IPF、以及第二实体在所述第一指定时间段内经过所述第二历史轨迹中每一位置点的次数和该位置点对应的逆地点频率IPF计算第一历史轨迹与第二历史轨迹之间的轨迹相似度。需要说明的是,上述图4所示流程只是一种举例,并非用于限定。
在本实施例中,不同物联感知设备即使针对同一实体,其采集的该实体的物联感知数据也是不同的,比如,人脸抓拍设备采集实体的人脸数据,WIFI探针采集实体的MAC地址等。在此场景下,针对同一实体就有可能有多个不同的标识信息(记为账户)。可选地,本实施例中,可采用时空碰撞方法确定任一实体(比如上述第一实体、或者第二实体等,这里统称指定实体)可能存在的疑似账户。这里采用时空碰撞方法确定指定实体可能存在的疑似账户有很多实现方式,比如当不同物联感知设备在同一时间点采集同一位置点上实体的物联感知数据,此时当将不同物联感知设备采集的物联感知数据对应的账户认为是互为可疑账户等。
一旦确定指定实体还存在至少一个疑似账户,则可计算该指定实体与疑似账户在同一地点同一时间出现的重合度来衡量指定实体与疑似账户之间的关系(可称为多维身份关系)。下文图5举例描述了指定实体多维身份关系构建示意图。
参见图5,图5为本申请实施例提供了关系构建另一流程图。如图6所示,该流程可包括以下步骤:
步骤501,当确定指定实体还存在至少一个疑似账户时,则生成用于指示指定实体与疑似账户之间对应的对应关系对。
在本实施例中,每一对应关系对中包括指定实体、以及指定实体对应的疑似账户,不同对应关系对中与指定实体对应的疑似账户不同。以指定实体为human_1为例,假若human_1存在疑似账户mac_1、mac_2,则执行到本步骤501时就会生成human_1与mac_1之间对应的对应关系对、human_1与mac_2之间对应的对应关系对。
步骤502,针对每一对应关系对,依据已获得的该对应关系对中指定实体对应的历史轨迹、以及疑似账户对应的历史轨迹,确定该指定实体与疑似账户之间对应关系的置信度。
在本步骤502中,可针对每一对应关系对,先获得该对应关系对中指定实体对应的历史轨迹、以及疑似账户对应的历史轨迹,之后,借助该获得的历史轨迹确定该对应关系对中指定实体与疑似账户之间对应关系的置信度。
在具体实现时,步骤502有很多实现形式,下文图6所示流程举例示出一种实现方式,这里不再赘述。
步骤503,依据对应关系对中指定实体与疑似账户之间对应关系的置信度确定指定实体与疑似账户之间的关联关系。
比如,当对应关系对中指定实体与疑似账户之间对应关系的置信度越大,则表示指定实体与疑似账户之间的关联关系越亲密,反之,当对应关系对中指定实体与疑似账户之间对应关系的置信度越小,则表示指定实体与疑似账户之间的关联关系越疏远。当确定指定实体与疑似账户之间关联关系后,即可依据该关联关系确定疑似账户是否为指定实体的其它账户(即实现了指定实体多维身份关系的构建)。
至此,完成图5所示流程。
通过图5所示流程实现了多维身份关系的构建。
下面对上述步骤502进行描述:
参见图6,图6为本申请实施例提供的步骤502实现流程图。如图6所示,该流程可包括以下步骤:
步骤601,针对每一对应关系对,获得该对应关系对中指定实体在第二指定时间段内的第三历史轨迹,以及疑似账户对应的第三实体在第二指定时间段内的第四历史轨迹。
这里,第二指定时间段可根据实际需求设置。比如可设置过去的8天或者其它时间,本实施例并不具体限定。
这里,第三历史轨迹、第四历史轨迹只是为便于描述而进行的命名,并非用于限定。
步骤602,依据第三历史轨迹和第四历史轨迹确定指定实体和疑似账户之间的位置重合度。
可选地,本实施例中,步骤602中依据第三历史轨迹和第四历史轨迹确定指定实体和疑似账户对应的实体之间的位置重合度可包括以下步骤b1和步骤b2:
步骤b1,针对每一指定位置点,依据第三历史轨迹和第四历史轨迹分别生成指定实体在该指定位置点对应的第一序列、以及疑似账户在该指定位置点对应的第二序列,对第一序列和第二序列进行按位与操作得到该指定位置点对应的重合度。
在本实施例中,第一序列用于表示指定实体是否在第二指定时间段内每一指定单位时间点经过该指定位置点,当在指定单位时间点经过该指定位置点,则通过1或0中的其中一个数值表示,否则,通过另一个数值表示。类似地,第二序列用于表示疑似账户对应的实体是否在第二指定时间段内每一指定单位时间点经过该指定位置点,当在指定单位时间点经过该指定位置点,则通过1或0中的其中一个数值表示,否则,通过另一个数值表示。
以第二指定时间段为过去的Day1~Day8为例,指定单位时间点为Day1~Day8中每一天,再以human_1与mac_1之间对应的对应关系对为例,假若指定位置点为P1为例,则可统计human_1、mac_1在Day1~Day8中每一天在P1是否出现,其中,出现通过1表示,未出现通过0表示。下述表1进行了示出:
地点 | Day1 | Day2 | Day3 | Day4 | Day5 | Day6 | Day7 | Day8 | |
human_1 | P1 | 1 | 0 | 1 | 1 | 1 | 0 | 1 | 0 |
mac_1 | P1 | 0 | 1 | 1 | 0 | 1 | 0 | 1 | 1 |
表1
基于表1,则可以得到human_1在Day1~Day8中每一天对应P1的第一序列:10111010;类似地,也可以得到mac_1在Day1~Day8中每一天对应P1的第二序列:01101011。
再以指定位置点为P2为例,则可统计human_1、mac_1在Day1~Day8中每一天在P2是否出现,其中,出现通过1表示,未出现通过0表示。下述表2进行了示出:
地点 | Day1 | Day2 | Day3 | Day4 | Day5 | Day6 | Day7 | Day8 | |
human_1 | P2 | 1 | 0 | 1 | 0 | 1 | 0 | 0 | 1 |
mac_1 | P2 | 1 | 0 | 1 | 1 | 1 | 0 | 1 | 1 |
表2
基于表2,则可以得到human_1在Day1~Day8中每一天对应P2的第一序列:10101001;类似地,也可以得到mac_1在Day1~Day8中每一天对应P2的第二序列:10111011。
依次类推,则最终会得到同一对应关系对中指定实体、以及疑似账户在各个指定位置点对应的序列。之后,如步骤b1描述,则针对同一指定位置点,对同一对应关系对中指定实体在该指定位置点对应的第一序列和疑似账户在该指定位置点对应的第二序列进行按位与操作得到该指定位置点对应的重合度。以指定位置点为P1为例,如上描述human_1在Day1~Day8中每一天对应P1的第一序列:10111010;mac_1在Day1~Day8中每一天对应P1的第二序列:01101011,则对第一序列10111010和第二序列01101011进行按位与操作得到00101010(记为3,表示human_1和mac_1在3个指定单位时间点在P1重合),得到的结果即为human_1和mac_1在P1的位置重合度。依次类推,则最终会得到同一对应关系对中指定实体、以及疑似账户在各个指定位置点的重合度。
步骤b2,依据各指定位置点对应的重合度确定所述位置重合度。
可选地,在本步骤b2执行之前,可先判断该对应关系对中指定实体、以及疑似账户在各个指定位置点的重合度是否满足指定条件,比如该对应关系对中指定实体与疑似账户在各个指定位置点的重合度之和是否大于等于设定阈值,如果是,继续执行步骤b2,否则,可结束针对该对应关系对的处理。
可选地,本步骤b2中,依据各指定位置点对应的重合度确定上述位置重合度可包括:将对应关系对中指定实体与疑似账户在各个指定位置点的重合度之和确定为上述位置重合度。最终通过步骤b1和步骤b2实现了上述位置重合度的确定。需要说明的是,上述只是确定位置重合度的实施例,并非用于限定。
步骤603,依据位置重合度确定指定实体与疑似账户之间的置信度。
可选地,本实施例中,针对每一对应关系对,可直接将对应关系对中指定实体和疑似账户之间的位置重合度确定为上述的指定实体与疑似账户之间的置信度。
最终通过图6所示流程实现了上述步骤502中依据该对应关系对中指定实体的历史轨迹、以及疑似账户对应的实体的历史轨迹,确定该指定实体与疑似账户之间对应关系的置信度。需要说明的是,图6所示流程只是一种举例并非用于限定。
以上各流程是以物联感知数据(也即结构化数据)为基础实现的。可选地,对于一些非结构化数据(以文本数据为例),还可进一步借助神经网络模型确定各实体之间的多维关系。
参见图7,图7为本申请实施例提供的关系构建又一流程图。如图7所示,该流程可包括以下步骤:
步骤701,将已获得的第一实体相关联的第一文本数据输入至已训练的Electra模型得到第一实体相关联的至少一个实体类别和至少一个实体信息。
在本实施例中,Electra模型是基于Electra的Electra-Bi-LSTM模型。这里,Bi-LSTM是Bi-directional Long Short-Term Memory的缩写,是由前向LSTM与后向LSTM组合而成,两者在自然语言处理任务中都常被用来建模上下文信息。LSTM的全称是Long Short-Term Memory,它是RNN(Recurrent Neural Network)的一种。LSTM由于其设计的特点,非常适合用于对时序数据的建模,如文本数据。正因为如此,本实施例借助Electra模型使用Electra预训练词向量代替传统方式训练的静态词向量,提升了词向量的表征能力。Electra模型参数数量仅为BERT模型的1/10,性能却依然能与BERT等模型媲美。这里,词向量(Word embedding):又叫Word嵌入式,是自然语言处理(NLP)中的一组语言建模和特征学习技术的统称,其中来自词汇表的单词或短语被映射到实数的向量。从概念上讲,它涉及从每个单词一维的空间到具有更低维度的连续向量空间的数学嵌入。
可选地,本实施例中,Electra模型主要由三部分构成,分别是Electra预训练语言模型、BiLSTM层、CRF层。Electra模型模型首先利用Electra预训练语言模型对输入的第一文本数据中单个字符进行编码,得到单个字符对应的词向量,接着利用BiLSTM层对输入文本进行双向编码,最后将包含上下文信息的语义向量输入CRF层进行解码,CRF层可以输出概率最大的标签序列。
基于上文描述,则上述步骤701中第一实体相关联的至少一个实体类别可包括上述标签序列中字符类别、以及该字符类别对应的概率。可选地,第一实体相关联的至少一个实体信息可包括上述标签序列中的实体信息,这里的实体信息用于描述第一实体。比如,实体类别为姓名类别,则第一实体相关联的至少一个实体信息可至少包括具体名字比如张三、李四等,再比如,实体类别为住址类别,则第一实体相关联的至少一个实体信息可至少包括具体住址信息,比如某小区或者某小区内X号楼或者某小区内X号楼XX单元,或者某小区内X号楼XX单元XXX室(X表示任一数值)等,这里不再一一限定。
步骤702,将已获得的第二实体相关联的第二文本数据输入至已训练的Electra模型得到第二实体相关联的至少一个实体类别和至少一个实体信息。
本步骤702与上述步骤701类似,这里不再赘述。
步骤703,依据第一实体相关联的至少一个实体类别和至少一个实体信息、第二实体相关联的至少一个实体类别和至少一个实体信息确定所述第一实体和第二实体之间的关系。
如上描述,第一实体相关联的至少一个实体类别可包括上述标签序列中字符类别、以及该字符类别对应的概率,第二实体相关联的至少一个实体类别类似,则可选地,本步骤703中,假若第一实体相关联的字符类别概率最高的字符类别与第二实体相关联的字符类别概率最高的字符类别相近(比如都为姓名类别、住址类别等),则可进一步基于第一实体相关联的至少一个实体信息和第二实体相关联的至少一个实体信息确定第一实体和第二实体之间的关系,比如可按照设定的相似度计算方法计算第一实体相关联的至少一个实体信息和第二实体相关联的至少一个实体信息之间的相似度,若相似度大于设定阈值,则可认为第一实体和第二实体之间的关系为亲密关系,反之,则认为第一实体和第二实体之间的关系为疏远关系。以实体类别为住址类别为例,假若第一实体相关联的至少一个实体信息至少包括X1小区,第二实体相关联的至少一个实体信息至少包括X2小区,假若按照设定的相似度计算方法计算第一实体相关联的至少一个实体信息和第二实体相关联的至少一个实体信息之间的相似度大于设定阈值(比如X1小区和X2小区为同一小区等),则确定第一实体和第二实体之间的关系为亲密关系,反之,则认为第一实体和第二实体之间的关系为疏远关系。
至此,完成图7所示流程。
通过图7所示流程实现了基于实体的文本数据构建实体之间的多维关系。
以上对本申请实施例提供的方法进行了描述,下面对本申请实施例提供的装置进行描述:
参见图8,图8为本申请实施例提供的装置结构图。该装置可包括:
获得单元,用于获得第一历史轨迹和第二历史轨迹;第一历史轨迹为第一实体在第一指定时间段内在指定区域内的轨迹,第二历史轨迹为第二实体在第一指定时间段内在所述指定区域内的轨迹,第一实体与第二实体属于同一实体类别;
确定单元,用于为第一历史轨迹和第二历史轨迹上的每一位置点确定对应的逆地点频率IPF;所述位置点对应的逆地点频率IPF用于表示该位置点的权重;
关系构建单元,用于依据所述第一历史轨迹中每一位置点对应的逆地点频率IPF、以及所述第二历史轨迹中每一位置点对应的逆地点频率IPF,确定所述第一实体和第二实体之间的关系。
可选地,所述确定单元为第一历史轨迹和第二历史轨迹上的每一位置点确定对应的逆地点频率IPF包括:
针对第一历史轨迹和第二历史轨迹上的每一位置点,获得与该位置点相关联的第一数量和第二数量;所述第一数量为所述第一指定时间段内在所述指定区域内出现的与所述第一实体和第二实体具有相同实体类别的所有实体的总数量;所述第二数量为所述第一指定时间段内在所述指定区域内出现的与所述第一实体和第二实体具有相同实体类别、且经过所述位置点的所有实体的数量;
依据所述第一数量和所述第二数量确定该位置点对应的逆地点频率IPF。
可选地,所述确定单元依据第一数量和第二数量确定该位置点对应的逆地点频率IPF包括:
将所述第一数量与所述第二数量进行设定运算;所述设定运算为:先进行除法运算得到商再将得到的商取对数;
依据运算结果确定所述逆地点频率IPF。
可选地,所述关系构建单元依据第一历史轨迹中每一位置点对应的逆地点频率IPF、以及第二历史轨迹中每一位置点对应的逆地点频率IPF,确定所述第一实体和第二实体之间的关系包括:
依据第一实体在所述第一指定时间段内经过所述第一历史轨迹中每一位置点的次数和该位置点对应的逆地点频率IPF、以及第二实体在所述第一指定时间段内经过所述第二历史轨迹中每一位置点的次数和该位置点对应的逆地点频率IPF计算第一历史轨迹与第二历史轨迹之间的轨迹相似度;
依据所述轨迹相似度确定所述第一实体和第二实体之间的亲密关系。
可选地,所述关系构建单元依据第一实体在所述第一指定时间段内经过所述第一历史轨迹中每一位置点的次数和该位置点对应的逆地点频率IPF、以及第二实体在所述第一指定时间段内经过所述第二历史轨迹中每一位置点的次数和该位置点对应的逆地点频率IPF计算第一历史轨迹与第二历史轨迹之间的轨迹相似度包括:
依据所述第一历史轨迹和第二历史轨迹中的位置点构建轨迹点位向量;
针对轨迹点位向量中每一位置点,依据第一实体经过该位置点的次数和该位置点对应的逆地点频率IPF确定第一实体在该位置点对应的权重参数,以及依据第二实体经过该位置点的次数和该位置点对应的逆地点频率IPF确定第二实体在该位置点对应的权重参数;
依据第一实体在所述轨迹点位向量中每一位置点对应的权重参数、以及依据第二实体在所述轨迹点位向量中每一位置点对应的权重参数计算第一历史轨迹和第二历史轨迹之间的余弦相似度,将所述余弦相似度确定为所述轨迹相似度。
可选地,确定单元进一步在确定指定实体还存在至少一个疑似账户时,指定实体为所述第一实体或第二实体,则生成用于指示指定实体与疑似账户之间对应的对应关系对;每一对应关系对中包括指定实体、以及指定实体对应的疑似账户,不同对应关系对中与指定实体对应的疑似账户不同;以及,针对每一对应关系对,依据已获得的该对应关系对中指定实体对应的历史轨迹、以及疑似账户对应的历史轨迹,确定该指定实体与疑似账户之间对应关系的置信度;
可选地,所述关系构建单元进一步依据对应关系对中指定实体与疑似账户之间对应关系的置信度确定指定实体与疑似账户之间的关联关系。
可选地,确定单元依据已获得的该对应关系对中指定实体对应的历史轨迹、以及疑似账户对应的历史轨迹,确定该指定实体与疑似账户之间对应关系的置信度包括:
获得第三历史轨迹和第四历史轨迹;所述第三历史轨迹为对应关系对中指定实体在第二指定时间段内的轨迹,第四历史轨迹为对应关系对中疑似账户对应的实体在第二指定时间段内的轨迹;
依据第三历史轨迹和第四历史轨迹确定指定实体和疑似账户之间的位置重合度;
依据所述位置重合度确定指定实体与疑似账户之间的置信度。
可选地,确定单元依据第三历史轨迹和第四历史轨迹确定指定实体和疑似账户对应的实体之间的位置重合度包括:
针对每一指定位置点,依据第三历史轨迹和第四历史轨迹分别生成指定实体在该指定位置点对应的第一序列、以及疑似账户在该指定位置点对应的第二序列,对第一序列和第二序列进行按位与操作得到该指定位置点对应的重合度;所述第一序列用于表示指定实体是否在第二指定时间段内每一指定单位时间点经过该指定位置点,当在指定单位时间点经过该指定位置点,则通过1或0中的其中一个数值表示,否则,通过另一个数值表示;第二序列用于表示疑似账户对应的实体是否在第二指定时间段内每一指定单位时间点经过该指定位置点,当在指定单位时间点经过该指定位置点,则通过1或0中的其中一个数值表示,否则,通过另一个数值表示;
依据各指定位置点对应的重合度确定所述位置重合度。
可选地,关系构建单元进一步将已获得的第一实体相关联的第一文本数据输入至已训练的Electra模型得到第一实体相关联的至少一个实体类别和至少一个实体信息;将已获得的第二实体相关联的第二文本数据输入至已训练的Electra模型得到第二实体相关联的至少一个实体类别和至少一个实体信息;依据第一实体相关联的至少一个实体类别和至少一个实体信息、第二实体相关联的至少一个实体类别和至少一个实体信息确定所述第一实体和第二实体之间的关系。
至此,完成图8所示装置的结构描述。
对应地,本申请还提供了图8所示装置的硬件结构。参见图9,该硬件结构可包括:处理器和机器可读存储介质,机器可读存储介质存储有能够被所述处理器执行的机器可执行指令;所述处理器用于执行机器可执行指令,以实现本申请上述示例公开的方法。
基于与上述方法同样的申请构思,本申请实施例还提供一种机器可读存储介质,所述机器可读存储介质上存储有若干计算机指令,所述计算机指令被处理器执行时,能够实现本申请上述示例公开的方法。
示例性的,上述机器可读存储介质可以是任何电子、磁性、光学或其它物理存储装置,可以包含或存储信息,如可执行指令、数据,等等。例如,机器可读存储介质可以是:RAM(Radom Access Memory,随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等),或者类似的存储介质,或者它们的组合。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方便的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可以由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其它可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其它可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
而且,这些计算机程序指令也可以存储在能引导计算机或其它可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或者多个流程和/或方框图一个方框或者多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其它可编程数据处理设备上,使得在计算机或者其它可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其它可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (11)
1.一种关系构建方法,其特征在于,该方法包括:
获得第一历史轨迹和第二历史轨迹;第一历史轨迹为第一实体在第一指定时间段内在指定区域内的轨迹,第二历史轨迹为第二实体在第一指定时间段内在所述指定区域内的轨迹,第一实体与第二实体属于同一实体类别;
为第一历史轨迹和第二历史轨迹上的每一位置点确定对应的逆地点频率IPF;所述位置点对应的逆地点频率IPF用于表示该位置点的权重;
依据所述第一历史轨迹中每一位置点对应的逆地点频率IPF、以及所述第二历史轨迹中每一位置点对应的逆地点频率IPF,确定所述第一实体和第二实体之间的关系。
2.根据权利要求1所述的方法,其特征在于,所述为第一历史轨迹和第二历史轨迹上的每一位置点确定对应的逆地点频率IPF包括:
针对第一历史轨迹和第二历史轨迹上的每一位置点,获得与该位置点相关联的第一数量和第二数量;所述第一数量为所述第一指定时间段内在所述指定区域内出现的与所述第一实体和第二实体具有相同实体类别的所有实体的总数量;所述第二数量为所述第一指定时间段内在所述指定区域内出现的与所述第一实体和第二实体具有相同实体类别、且经过所述位置点的所有实体的数量;
依据所述第一数量和所述第二数量确定该位置点对应的逆地点频率IPF。
3.根据权利要求2所述的方法,其特征在于,所述依据第一数量和第二数量确定该位置点对应的逆地点频率IPF包括:
将所述第一数量与所述第二数量进行设定运算;所述设定运算为:先进行除法运算得到商再将得到的商取对数;
依据运算结果确定所述逆地点频率IPF。
4.根据权利要求1所述的方法,其特征在于,所述依据第一历史轨迹中每一位置点对应的逆地点频率IPF、以及第二历史轨迹中每一位置点对应的逆地点频率IPF,确定所述第一实体和第二实体之间的关系包括:
依据第一实体在所述第一指定时间段内经过所述第一历史轨迹中每一位置点的次数和该位置点对应的逆地点频率IPF、以及第二实体在所述第一指定时间段内经过所述第二历史轨迹中每一位置点的次数和该位置点对应的逆地点频率IPF计算第一历史轨迹与第二历史轨迹之间的轨迹相似度;
依据所述轨迹相似度确定所述第一实体和第二实体之间的亲密关系。
5.根据权利要求4所述的方法,其特征在于,所述依据第一实体在所述第一指定时间段内经过所述第一历史轨迹中每一位置点的次数和该位置点对应的逆地点频率IPF、以及第二实体在所述第一指定时间段内经过所述第二历史轨迹中每一位置点的次数和该位置点对应的逆地点频率IPF计算第一历史轨迹与第二历史轨迹之间的轨迹相似度包括:
依据所述第一历史轨迹和第二历史轨迹中的位置点构建轨迹点位向量;
针对轨迹点位向量中每一位置点,依据第一实体经过该位置点的次数和该位置点对应的逆地点频率IPF确定第一实体在该位置点对应的权重参数,以及依据第二实体经过该位置点的次数和该位置点对应的逆地点频率IPF确定第二实体在该位置点对应的权重参数;
依据第一实体在所述轨迹点位向量中每一位置点对应的权重参数、以及依据第二实体在所述轨迹点位向量中每一位置点对应的权重参数计算第一历史轨迹和第二历史轨迹之间的余弦相似度,将所述余弦相似度确定为所述轨迹相似度。
6.根据权利要求1至5任一所述的方法,其特征在于,该方法进一步包括:
当确定指定实体还存在至少一个疑似账户时,指定实体为所述第一实体或第二实体,则生成用于指示指定实体与疑似账户之间对应的对应关系对;每一对应关系对中包括指定实体、以及指定实体对应的疑似账户,不同对应关系对中与指定实体对应的疑似账户不同;
针对每一对应关系对,依据已获得的该对应关系对中指定实体对应的历史轨迹、以及疑似账户对应的历史轨迹,确定该指定实体与疑似账户之间对应关系的置信度;
依据对应关系对中指定实体与疑似账户之间对应关系的置信度确定指定实体与疑似账户之间的关联关系。
7.根据权利要求6所述的方法,其特征在于,所述依据已获得的该对应关系对中指定实体对应的历史轨迹、以及疑似账户对应的历史轨迹,确定该指定实体与疑似账户之间对应关系的置信度包括:
获得第三历史轨迹和第四历史轨迹;所述第三历史轨迹为对应关系对中指定实体在第二指定时间段内的轨迹,第四历史轨迹为对应关系对中疑似账户对应的实体在第二指定时间段内的轨迹;
依据第三历史轨迹和第四历史轨迹确定指定实体和疑似账户之间的位置重合度;
依据所述位置重合度确定指定实体与疑似账户之间的置信度。
8.根据权利要求7所述的方法,其特征在于,所述依据第三历史轨迹和第四历史轨迹确定指定实体和疑似账户对应的实体之间的位置重合度包括:
针对每一指定位置点,依据第三历史轨迹和第四历史轨迹分别生成指定实体在该指定位置点对应的第一序列、以及疑似账户在该指定位置点对应的第二序列,对第一序列和第二序列进行按位与操作得到该指定位置点对应的重合度;所述第一序列用于表示指定实体是否在第二指定时间段内每一指定单位时间点经过该指定位置点,当在指定单位时间点经过该指定位置点,则通过1或0中的其中一个数值表示,否则,通过另一个数值表示;第二序列用于表示疑似账户对应的实体是否在第二指定时间段内每一指定单位时间点经过该指定位置点,当在指定单位时间点经过该指定位置点,则通过1或0中的其中一个数值表示,否则,通过另一个数值表示;
依据各指定位置点对应的重合度确定所述位置重合度。
9.根据权利要求1至5任一所述的方法,其特征在于,该方法进一步包括:
将已获得的第一实体相关联的第一文本数据输入至已训练的Electra模型得到第一实体相关联的至少一个实体类别和至少一个实体信息;
将已获得的第二实体相关联的第二文本数据输入至已训练的Electra模型得到第二实体相关联的至少一个实体类别和至少一个实体信息;
依据第一实体相关联的至少一个实体类别和至少一个实体信息、第二实体相关联的至少一个实体类别和至少一个实体信息确定所述第一实体和第二实体之间的关系。
10.一种关系构建装置,其特征在于,该装置包括:
获得单元,用于获得第一历史轨迹和第二历史轨迹;第一历史轨迹为第一实体在第一指定时间段内在指定区域内的轨迹,第二历史轨迹为第二实体在第一指定时间段内在所述指定区域内的轨迹,第一实体与第二实体属于同一实体类别;
确定单元,用于为第一历史轨迹和第二历史轨迹上的每一位置点确定对应的逆地点频率IPF;所述位置点对应的逆地点频率IPF用于表示该位置点的权重;
关系构建单元,用于依据所述第一历史轨迹中每一位置点对应的逆地点频率IPF、以及所述第二历史轨迹中每一位置点对应的逆地点频率IPF,确定所述第一实体和第二实体之间的关系。
11.一种电子设备,其特征在于,该电子设备包括:处理器和机器可读存储介质;
所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令;
所述处理器用于执行机器可执行指令,以实现权利要求1-9任一项的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011043765.5A CN112148808B (zh) | 2020-09-28 | 2020-09-28 | 关系构建方法、装置和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011043765.5A CN112148808B (zh) | 2020-09-28 | 2020-09-28 | 关系构建方法、装置和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112148808A true CN112148808A (zh) | 2020-12-29 |
CN112148808B CN112148808B (zh) | 2024-02-27 |
Family
ID=73896000
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011043765.5A Active CN112148808B (zh) | 2020-09-28 | 2020-09-28 | 关系构建方法、装置和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112148808B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112732869A (zh) * | 2020-12-31 | 2021-04-30 | 的卢技术有限公司 | 车载语音信息管理方法、装置、计算机设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110674236A (zh) * | 2019-09-23 | 2020-01-10 | 浙江省北大信息技术高等研究院 | 基于时空轨迹匹配的移动目标关联方法、装置、设备及存储介质 |
CN110874362A (zh) * | 2019-10-29 | 2020-03-10 | 青岛海信网络科技股份有限公司 | 一种数据关联分析方法及装置 |
US20200104333A1 (en) * | 2017-06-26 | 2020-04-02 | Beijing Sankuai Online Technology Co., Ltd | Information recommending method and device |
CN111090681A (zh) * | 2019-11-12 | 2020-05-01 | 高新兴科技集团股份有限公司 | 一种团伙挖掘方法、装置、设备及存储介质 |
-
2020
- 2020-09-28 CN CN202011043765.5A patent/CN112148808B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200104333A1 (en) * | 2017-06-26 | 2020-04-02 | Beijing Sankuai Online Technology Co., Ltd | Information recommending method and device |
CN110674236A (zh) * | 2019-09-23 | 2020-01-10 | 浙江省北大信息技术高等研究院 | 基于时空轨迹匹配的移动目标关联方法、装置、设备及存储介质 |
CN110874362A (zh) * | 2019-10-29 | 2020-03-10 | 青岛海信网络科技股份有限公司 | 一种数据关联分析方法及装置 |
CN111090681A (zh) * | 2019-11-12 | 2020-05-01 | 高新兴科技集团股份有限公司 | 一种团伙挖掘方法、装置、设备及存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112732869A (zh) * | 2020-12-31 | 2021-04-30 | 的卢技术有限公司 | 车载语音信息管理方法、装置、计算机设备和存储介质 |
CN112732869B (zh) * | 2020-12-31 | 2024-03-19 | 的卢技术有限公司 | 车载语音信息管理方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112148808B (zh) | 2024-02-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108875776B (zh) | 模型训练方法和装置、业务推荐的方法和装置、电子设备 | |
CN108108821A (zh) | 模型训练方法及装置 | |
CN109933666B (zh) | 一种好友自动分类方法、装置、计算机设备和存储介质 | |
CN111275491A (zh) | 一种数据处理方法及装置 | |
CN105302810A (zh) | 一种信息搜索方法和装置 | |
CN110971659A (zh) | 推荐消息的推送方法、装置及存储介质 | |
CN112035549B (zh) | 数据挖掘方法、装置、计算机设备及存储介质 | |
CN105005593A (zh) | 多用户共用设备的场景识别方法和装置 | |
WO2013082297A2 (en) | Classifying attribute data intervals | |
CN114359563B (zh) | 模型训练方法、装置、计算机设备和存储介质 | |
CN113516480A (zh) | 一种支付风险识别方法、装置及设备 | |
CN112818162A (zh) | 图像检索方法、装置、存储介质和电子设备 | |
CN106776757B (zh) | 用户完成网银操作的指示方法及装置 | |
CN110110218A (zh) | 一种身份关联方法及终端 | |
CN112148808B (zh) | 关系构建方法、装置和电子设备 | |
CN117251685A (zh) | 一种基于知识图谱的标准化政务数据构建方法和装置 | |
CN106874286B (zh) | 一种筛选用户特征的方法及装置 | |
CN111957053A (zh) | 游戏玩家匹配方法、装置、存储介质与电子设备 | |
CN110827078A (zh) | 一种信息推荐方法、装置、设备及存储介质 | |
CN112766288B (zh) | 图像处理模型构建方法、装置、电子设备和可读存储介质 | |
CN111383032B (zh) | 一种房源信息的真实性检测方法和装置 | |
CN114418120A (zh) | 联邦树模型的数据处理方法、装置、设备及存储介质 | |
CN113935788A (zh) | 模型评估方法、装置、设备及计算机可读存储介质 | |
CN116860952B (zh) | 基于人工智能的rpa智能应答处理方法及系统 | |
CN113704635B (zh) | 一种社交网络事件推荐方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |