CN115481757A - 联邦数据关联分析方法、数据推荐方法及装置 - Google Patents
联邦数据关联分析方法、数据推荐方法及装置 Download PDFInfo
- Publication number
- CN115481757A CN115481757A CN202211212288.XA CN202211212288A CN115481757A CN 115481757 A CN115481757 A CN 115481757A CN 202211212288 A CN202211212288 A CN 202211212288A CN 115481757 A CN115481757 A CN 115481757A
- Authority
- CN
- China
- Prior art keywords
- item set
- frequent item
- data
- federal
- participant
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Bioethics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开是关于一种联邦数据关联分析方法、数据推荐方法及装置,涉及计算机技术领域。该方法应用于与至少一个第二参与方通信连接的第一参与方,第一参与方根据获取的样本数据确定第一频繁项集及支持度;接收第二参与方发送的第二频繁项集,第二频繁项集由第二参与方根据第二参与方的样本数据获得;确定第一频繁项集出现的情况下,第二频繁项集出现的置信度,并根据置信度确定关联规则。此时,在多参与方间交换频繁项集保留对应的支持度,实现基于隐私保护的联邦关联分析,能够针对数据组成多样、关联关系复杂的分析环境;且无需获取所有源数据即可避免各参与方间数据割裂,既保证了数据隐私安全,也降低了硬件配置要求,降低成本,提高分析效率。
Description
技术领域
本公开涉及计算机技术领域,具体而言,涉及一种联邦数据关联分析方法、数据推荐方法及装置。
背景技术
关联分析又称关联挖掘,是通过数据处理获得项目集合之间关联性、相关性、因果结构或频繁模式的分析技术。在数据推荐的场景中,基于关联分析技术可以根据用户已产生交互行为的项目,确定存在关联性的其他项目,并向用户推荐该其他项目,以实现更准确的数据推荐。
目前,关联分析通常限于同一领域、平台内,难以在数据割裂的情况下进行准确高效的数据关联分析;而且同一领域、平台内的业务类似,导致数据组成单一、关系简单,难以充分表征网络环境中复杂的关联状态,从而限制了关联规则的实用性、准确性;同时,关联分析也通常为集中式处理、学习和分析,需要获取待分析的所有源数据,对硬件配置要求较高,使得分析成本高,且数据隐私的安全隐患大。
需要说明的是,在上述背景技术部分公开的数据仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的数据。
发明内容
本公开的目的在于提供一种联邦数据关联分析方法、数据推荐方法及装置,该方法能够在多领域、多平台间发现关联规则,在数据组成多样,关联关系复杂的情况下,能有效提高关联规则的实用性、准确性,且无需获取所有的源数据,保证了数据隐私安全,并降低了硬件配置要求,降低分析成本。
根据本公开的第一方面提供了一种联邦数据关联分析方法,该方法可以应用于第一参与方,该第一参与方与至少一个第二参与方通信连接,该方法可以包括:获取样本数据;在样本数据中确定第一频繁项集,以及第一频繁项集对应的支持度;接收第二参与方发送的第二频繁项集,第二频繁项集由第二参与方根据第二参与方的样本数据获得;确定第一频繁项集出现的情况下,第二频繁项集出现的置信度,并根据第二频繁项集出现的置信度确定关联规则。
可选地,确定第一频繁项集出现的情况下,第二频繁项集出现的置信度,并根据第二频繁项集出现的置信度确定关联规则,包括:获取至少一个联邦频繁项集,每个联邦频繁项集由一个第一频繁项集与一个第二频繁项集组合形成,各联邦频繁项集间第一频繁项集、第二频繁项集至少一个不同;确定联邦频繁项集对应的联邦支持度;在联邦支持度大于联邦支持度阈值的情况下,根据支持度和联邦支持度,计算联邦频繁项集中第一频繁项集出现的情况下,第二频繁项集出现的置信度;在置信度、联邦频繁项集符合关联规则条件的情况下,确定关联规则包括在联邦频繁项集中第一频繁项集出现的情况下,第二频繁项集出现。
可选地,在置信度、联邦频繁项集符合关联规则条件的情况下,确定关联规则包括在联邦频繁项集中第一频繁项集出现的情况下,第二频繁项集出现之后,还包括:在联邦频繁项集包括每种第一频繁项集与第二频繁项集的组合时,输出关联规则。
可选地,关联规则条件为置信度大于置信度阈值,且联邦频繁项集的长度小于项集长度阈值。
可选地,第一参与方还与中间方通信连接,中间方与第二参与方通信连接,确定联邦频繁项集对应的联邦支持度,包括:基于联邦频繁项集,通过中间方与第二参与方进行安全多方计算,确定联邦频繁项集对应的联邦支持度。
可选地,获取样本数据,包括:获取原始数据;对原始数据进行列名映射,获得样本数据。
可选地,在样本数据中确定第一频繁项集,以及第一频繁项集对应的支持度之后,还包括:向第二参与方发送第一频繁项集,以使第二参与方确定第二频繁项集出现的情况下,第一频繁项集出现的置信度,并根据第一频繁项集出现的置信度确定关联规则,第一参与方的关联规则与第二参与方的关联规则非对称。
根据本公开的第二方面提供了一种数据推荐方法,该方法可以包括:获取用户的历史行为数据;从历史行为数据中提取原始项集;基于原始项集在关联规则中匹配推荐项集,关联规则通过第一方面的联邦数据关联分析方法获得;根据推荐项集向用户进行数据推荐。
根据本公开的第三方面提供了一种联邦数据关联分析装置,该装置应用于第一参与方,该第一参与方与至少一个第二参与方通信连接,该装置可以包括:样本数据获取模块,用于获取样本数据;频繁项集确定模块,用于在样本数据中确定第一频繁项集,以及第一频繁项集对应的支持度;频繁项集交换模块,用于接收第二参与方发送的第二频繁项集,第二频繁项集由第二参与方根据第二参与方的样本数据获得;关联规则确定模块,用于确定第一频繁项集出现的情况下,第二频繁项集出现的置信度,并根据第二频繁项集出现的置信度确定关联规则。
可选地,关联规则确定模块,包括:联邦频繁项集合并子模块,用于获取至少一个联邦频繁项集,每个联邦频繁项集由一个第一频繁项集与一个第二频繁项集组合形成,各联邦频繁项集间第一频繁项集、第二频繁项集至少一个不同;联邦支持度确定子模块,用于确定联邦频繁项集对应的联邦支持度;置信度确定子模块,用于在联邦支持度大于联邦支持度阈值的情况下,根据支持度和联邦支持度,计算联邦频繁项集中第一频繁项集出现的情况下,第二频繁项集出现的置信度;关联规则确定子模块,用于在置信度、联邦频繁项集符合关联规则条件的情况下,确定关联规则包括在联邦频繁项集中第一频繁项集出现的情况下,第二频繁项集出现。
可选地,装置还包括:关联规则输出模块,用于在联邦频繁项集包括每种第一频繁项集与第二频繁项集的组合时,输出关联规则。
可选地,关联规则条件为置信度大于置信度阈值,且联邦频繁项集的长度小于项集长度阈值。
可选地,第一参与方还与中间方通信连接,中间方与第二参与方通信连接,联邦支持度确定子模块,具体用于基于联邦频繁项集,通过中间方与第二参与方进行安全多方计算,确定联邦频繁项集对应的联邦支持度。
可选地,样本数据获取模块,包括:原始数据获取子模块,用于获取原始数据;原始数据脱敏子模块,用于对原始数据进行列名映射,获得样本数据。
可选地,频繁项集交换模块,还用于向第二参与方发送第一频繁项集,以使第二参与方确定第二频繁项集出现的情况下,第一频繁项集出现的置信度,并根据第一频繁项集出现的置信度确定关联规则,第一参与方的关联规则与第二参与方的关联规则非对称。
根据本公开的第四方面提供了一种数据推荐装置,该装置可以包括:历史数据获取模块,用于获取用户的历史行为数据;原始项集提取模块,用于从历史行为数据中提取原始项集;关联规则匹配模块,用于基于原始项集在关联规则中匹配推荐项集,关联规则通过第三方面的联邦数据关联分析装置;用户数据推荐模块,用于根据推荐项集向用户进行数据推荐。
根据本公开的第五方面提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述第一方面的联邦数据关联分析方法,或第二方面的数据推荐方法。
根据本公开的第六方面,提供了一种电子设备,包括:
处理器;以及
存储器,用于存储处理器的计算机程序;
其中,处理器配置为经由执行计算机程序来实现上述第一方面的联邦数据关联分析方法,或第二方面的数据推荐方法。
本公开提供的联邦数据关联分析方法,应用于第一参与方,且该第一参与方与至少一个第二参与方通信连接。该第一参与方获取样本数据后,在样本数据中确定第一频繁项集,以及该第一频繁项集对应的支持度;再接收第二参与方发送的第二频繁项集,第二频繁项集由第二参与方根据第二参与方的样本数据获得;并确定第一频繁项集出现的情况下,第二频繁项集出现的置信度,从而根据该置信度确定关联规则。此时,第一参与方仅接收其他参与方发送的频繁项集,而不交换其对应的支持度,实现了在多参与方间基于隐私保护的联邦关联分析,能够在数据组成多样、关联关系复杂的条件下获得高实用性、准确性的关联规则;且无需获取所有的源数据即可打破各参与方间数据割裂的状态,既保证了数据隐私安全,也降低了关联分析的处理过程对硬件配置的要求,从而降低了分析成本,提高分析效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本公开实施例提供的联邦数据关联分析方法的步骤流程图之一,
图2为本公开实施例提供的联邦数据关联分析方法的步骤流程图之二。
图3为本公开实施例提供的一种联邦数据关联分析方法的架构流程示意图。
图4为本公开实施例提供的一种数据推荐方法的步骤流程图。
图5为本公开实施例提供的一种联邦数据关联分析装置的结构示意图。
图6为本公开实施例提供的一种数据推荐装置的结构示意图。
图7示例了本公开实施方式的一种电子设备的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
需要说明的是,本公开获取的数据,包括原始数据、样本数据、频繁项集、支持度等数据,均在明确告知用户或相关数据所属方对数据的采集内容、数据用途、处理方式等信息后,在用户或相关数据所属方同意、授权的情况下访问、采集、存储并应用于后续分析处理,且可以向用户或相关数据所属方发送访问、更正、删除该数据的途径,以及撤销同意、授权的方法。
图1为本公开实施例提供的联邦数据关联分析方法的步骤流程图之一,该方法应用于第一参与方,该第一参与方与至少一个第二参与方通信连接。
其中,该方法可以在两个以上参与方间分析关联规则。各参与方间通过通信连接进行交互,以对各自的本地数据进行联合关联分析,从而获得多源、多平台、多领域数据间的关联规则。在本公开实施例中,可以在各参与方中以任意参与方作为第一参与方,并基于第一参与方的执行流程说明联邦数据关联分析方的步骤流程,此时,各参与方中第一参与方以外的其他参与方可以作为第二参与方。
如图1所示,该方法可以包括步骤101至步骤104。如下所示:
步骤101、获取样本数据。
其中,样本数据可以是第一参与方中待分析关联性的用户行为数据,根据第一参与方对应的业务领域,以及关联分析的需求,样本数据的种类可以不同。如,第一参与方对应的业务领域为商品交易,则样本数据可以包括用户对商品的购买、评价、收藏或推荐等行为数据;第一参与方对应的业务领域为资讯信息,则样本数据可以是用户对资讯的浏览、评论或分享等行为数据;第一参与方对应的业务领域为社交平台,则样本数据可以包括用户对社交账号的关注、屏蔽或互动等行为数据,本领域技术人员可以根据实际需求与采集条件获取第一参与方对应的样本数据,本公开实施例对此不作具体限制。
步骤102、在样本数据中确定第一频繁项集,以及第一频繁项集对应的支持度。
其中,项集指样本数据中同时出现项的集合,项可以是行为数据的对象,支持度表示项集在样本数据中出现的频率,频繁项集指支持度大于或等于最小支持度的项集。如,以样本数据为商品购买行为数据为例,项集1中包括商品a则表示仅购买商品a的行为,项集2中包括商品a与商品b则表示同时购买商品a与商品b的行为;此时,项集1的支持度可以是商品a的购买次数在所有商品购买次数中的占比;进一步的,在该支持度大于或等于最小支持度的情况下,可以将项集1作为样本数据中的第一频繁项集。在此基础上,其他样本数据,如资讯浏览行为数据、账号关注行为数据等,可以以此类推确定对应的第一频繁项集。
步骤103、接收第二参与方发送的第二频繁项集,第二频繁项集由第二参与方根据第二参与方的样本数据获得。
其中,多参与方中各参与方可以确定本地的频繁项集及对应的支持度,此时,第一参与方在确定样本数据对应的第一频繁项集后,可以接收第二参与方发送的第二频繁项集,但未接收到第二频繁项集对应的支持度,从而在第一参与方与第二参与方间实现了样本数据的部分交换。进一步的,第一参与方还可以向第二参与方发送第一频繁项集,但不向第二参与方发送第一频繁项集对应的支持度,使各参与方可以获得其他参与方的频繁项集,而不能获得其频繁项集对应的支持度。
本公开实施例中,第二参与方获得第二频繁项集的过程可对应参照前述步骤102至103中,第一参与方获得第一频繁项集的过程,在处理过程中,各参与方对各自本地的样本数据处理方式一致。需要说明的是,在联邦关联分析中,各参与方间提供的频繁项集可以是不同用户对同种对象的行为集合,如各参与方均提供商品购买项集,通过扩大类似特征的样本数据的质量和数量,能够提高关联分析的准确性;也可以是相同用户对不同对象的行为集合,如第一参与方提供用户的商品购买项集,第二参与方提供该用户的账号关注项集,通过不用特征的样本数据组合,能够适应复杂关联关系的分析需求。
步骤104、确定第一频繁项集出现的情况下,第二频繁项集出现的置信度,并根据第二频繁项集出现的置信度确定关联规则。
其中,置信度表示第一频繁项集出现时,第二频繁项集也出现的条件概率,该置信度可以基于第一频繁项集和第二频繁项集同时出现的概率除以第一频繁项集出现的概率,可以表征第一频繁项集与第二频繁项集的关联程度。如,以第一频繁项集基于商品购买行为数据提取,包括{商品a,商品b},第二频繁项集基于账号关注行为数据提取,包括{账号1},则置信度表示用户购买了商品a和商品b,且关注了账号1的概率,可以通过用户购买商品a和商品b的概率,除以用户关注账号1的概率得到;此时,该置信度表示用户因为购买了商品a和商品b,而关注账号1的概率。
本公开实施例中,基于置信度可以确定第一频繁项集与第二频繁项集的关联程度,从而根据置信度确定第一频繁项集出现时,第二频繁项集出现的关联规则是否成立,以获得相应关联规则。
图2为本公开实施例提供的联邦数据关联分析方法的步骤流程图之二,该方法应用于第一参与方,该第一参与方与至少一个第二参与方通信连接。
该方法可以包括步骤201至步骤209。如下所示:
步骤201、获取原始数据。
其中,原始数据可以是用户在业务中直接产生的行为数据,如在商品购买行为中包括商品名、用户名、交易额、交易时间、交易地址等信息的行为数据;在账号关注行为中包括关注人账号、被关注人账号、关注时间、关注次数等信息的行为数据。
如,第一参与方获取原始数据XA。
步骤202、对原始数据进行列名映射,获得样本数据。
本公开实施例中,原始行为数据中可能包含大量格式不一的、敏感的数据,可以对其进行处理以获得符合后续处理要求的样本数据,如对数据进行清洗、格式统一等;进而可以对数据进行脱敏,如对原始数据的列名进行映射,基于映射关系获得样本数据。此时,仅第一参与方保存有该映射关系,从而保证了原始数据的安全,提高了对数据隐私的安全防护能力。
如,第一参与方对原始数据XA进行列名映射,获得样本数据(′x1′,′x2′·····,′xA′)。
步骤203、在样本数据中确定第一频繁项集,以及第一频繁项集对应的支持度。
其中,步骤203可对应参照前述步骤102的相关描述,为避免重复,在此不再赘述。
在本公开的一方法实施例中,第一参与方可以采用FP-growth(FrequentPattern-growth,频繁模式生长)算法在样本数据中发现第一频繁项集,并确定第一频繁项集对应的支持度。其中,通过FP-growth算法第一参与方可以根据各元素项的支持度将样本数据填充到FP树中,并在FP树中发现条件FP树,各条件FP树中包括FP树中常同时出现的元素项集合,即第一频繁项集。本领域技术人员也可以根据运算条件、处理需求,选择其他在样本数据中发现第一频繁项集的方法,如Apriori算法,本公开实施例对此不作具体限制。
如,第一参与方在样本数据中基于FP-growth算法发现第一频繁项集A_frequent_itemsets=(′x1′,′x2′):support=0.5,(′x1′):support=0.6···;其中,frequent_itemsets为频繁项集,support为支持度。
需要说明的是,第二参与方在该过程中,也可以根据本地的样本数据获得第二频繁项集及其支持度,如第二参与方在样本数据中基于FP-growth算法发现第二频繁项集B_frequent_itemsets=(′y1′,′y2′):support=0.43,(′y1′):support=0.5···。
步骤204、接收第二参与方发送的第二频繁项集,第二频繁项集由第二参与方根据第二参与方的样本数据获得。
其中,步骤204可对应参照前述步骤103的相关描述,为避免重复,在此不再赘述。
如,第一参与方可以向第二参与方发送第一频繁项集A,包括[(′x1′,′x2′),(′x1′),···];以及,接收第二参与方发送的第二频繁项集B,包括[(′y1′,′y2′),(′y1′),(′y3′)···]。该过程中,各参与方间交换了频繁项集,但保留了各自频繁项集对应的支持度,从而保证了完整数据的安全隐私。
步骤205、获取至少一个联邦频繁项集,每个联邦频繁项集由一个第一频繁项集与一个第二频繁项集组合形成,各联邦频繁项集间第一频繁项集、第二频繁项集至少一个不同。
其中,可以基于第一频繁项集、第二频繁项集获取联邦频繁项集,每个联邦频繁项集由一个第一频繁项集与一个第二频繁项集组合形成;在联邦频繁项集的数量大于1的情况下,各联邦频繁项集间第一频繁项集、第二频繁项集的至少一个不同。此时,通过随机抽取第一频繁项集,与随机抽取的第二频繁项集合并,获得了既包括第一频繁项集,也包括第二频繁项集的联邦频繁项集。因此,在后续处理中,可以基于联邦频繁项集分析第一频繁项集与第二频繁项集间的关联关系。
如,由第一参与方提供第一频繁项集ft1=(′x1′,′x2′),由第二参与方提供第二频繁项集ft2=(′y1′),合并获得联邦频繁项集(′x1′,′x2′,′y1′)。
步骤206、确定联邦频繁项集对应的联邦支持度。
其中,在获得联邦频繁项集后,可以在第一参与方与第二参与方间确定该联邦频繁项集的联邦支持度,以第一频繁项集、第二频繁项集同时出现的概率。
如,确定联邦频繁项集(′x1′,′x2′,′y1′)的联邦支持度sup,该sup表示第一频繁项集ft1=(′x1′,′x2′),与第二频繁项集ft2=(′y1′)同时出现的概率。
在本公开的一方法实施例中,第一参与方还与中间方通信连接,该中间方与第二参与方通信连接。则步骤206具体包括:基于联邦频繁项集,通过中间方与第二参与方进行安全多方计算,确定联邦频繁项集对应的联邦支持度。
其中,对联邦支持度的计算可以引入中间方实现,第一参与方与中间方通信连接,同时中间方与第二参与方通信连接。中间方可以用于控制网络传输、路由寻址及计算逻辑传输等,第一参与方与第二参与方可以基于联邦频繁项集进行协同计算,并分别获得联邦频繁项集对应的联邦支持度。具体的,可以由各第一参与方、第二参与方发起协同计算,并通过中间方传输联邦频繁项集的计算逻辑,第一参与方、第二参与方分别在本地查询对应的数据,如第一频繁项集对应的支持度、第二频繁项集对应的支持度等,并基于各参与方的数据在密态数据流间进行协同计算,在计算过程中可以采用秘密共享、不经意传输、混淆电路等相关传输、加密和计算协议方法,保证数据的隐私安全。最终,在保证数据隐私的情况下,中间方可以将计算得到的联邦支持度发送到第一参与方、第二参与方,以使各参与方获得需求的、正确的计算结果。
在本公开的一方法实施例中,也可以不通过中间方,由第一参与方、第二参与方端到端的进行安全多方计算,本公开实施例对此不作具体限制。
步骤207、在联邦支持度大于联邦支持度阈值的情况下,根据支持度和联邦支持度,计算联邦频繁项集中第一频繁项集出现的情况下,第二频繁项集出现的置信度。
其中,第一参与方在获得联邦支持度后,可以进一步确定联邦支持度是否大于联邦支持度阈值。联邦支持度为该联邦频繁项集出现的概率,则联邦支持度阈值可以是对联邦频繁项集的概率评估阈值,在联邦支持度小于联邦支持度阈值时,可以认为第一频繁项集、第二频繁项集同时出现的概率过低,则两频繁项集间存在关联性的可能性较低,进而可以不进行后续关联规则的生成;反之,在联邦支持度大于联邦支持度阈值时,可以进一步根据第一频繁项集的支持度,以及联邦频繁项集的联邦支持度计算置信度,该置信度可以表征联邦频繁项集中第一频繁项集出现的情况下,第二频繁项集出现的概率。
如,第一参与方在sup大于min_support的情况下,计算联邦支持度与第一频繁项集对应支持度的比值,获得(′x1′,′x2′)->(′y1′)的置信度。
需要说明的是,在第二参与方获得联邦支持度后,第二参与方也可以在sup大于min_support的情况下,计算联邦支持度与第二频繁项集对应支持度的比值,获得(′y1′)->(′x1′,′x2′)的置信度。
步骤208、在置信度、联邦频繁项集符合关联规则条件的情况下,确定关联规则包括在联邦频繁项集中第一频繁项集出现的情况下,第二频繁项集出现。
其中,在第一参与方,关联规则条件可以指,使得“在第一频繁项集出现的情况下,第二频繁项集出现”符合规则生成需求的条件,规则生成需求可以根据关联规则的分析条件、实际用途等进行确定。由于置信度可以表征联邦频繁项集中第一频繁项集出现的情况下,第二频繁项集出现的概率,而联邦频繁项集包括了第一频繁项集、第二频繁项集的各元素项,该规则生成需求可以基于置信度、联邦频繁项集等定义,使得关联规则的发生概率、具体内容等符合应用需求。
在本公开的一方法实施例中,关联规则条件为置信度大于置信度阈值,且联邦频繁项集的长度小于项集长度阈值。
其中,关联规则条件可以为置信度大于置信度阈值,且联邦频繁项集的长度小于项集长度阈值。置信度阈值可以是对“在第一频繁项集出现的情况下,第二频繁项集出现”的发生概率进行评估的阈值,在置信度小于置信度阈值时,可以认为发生概率过低,不能符合规则生成需求;项集长度阈值可以是对联邦频繁项集中所包含元素项的长度、数量进行评估的阈值。在联邦频繁项集所包含元素项的长度过长、元素项的数量过多时,联邦频繁项集的长度可能大于项集长度阈值,此时可以认为联邦频繁项集不符合规则生成需求。因此,在置信度大于置信度阈值,且联邦频繁项集的长度小于项集长度阈值的情况下,可以确定第一参与方的关联规则包括在第一频繁项集出现的情况下,第二频繁项集出现。
如,在第一参与方,(′x1′,′x2′)->(′y1′)的置信度大于min_confidence,且len((′x1′,′x2′,′y1′))<=max_len,则第一参与方的关联规则包括(′x1′,′x2′)->(′y1′)。
在本公开的一方法实施例中,步骤203之后,还包括步骤209。如下所示:
步骤209、向第二参与方发送第一频繁项集,以使第二参与方确定第二频繁项集出现的情况下,第一频繁项集出现的置信度,并根据置信度确定关联规则,第一参与方的关联规则与第二参与方的关联规则非对称。
需要说明的是,本公开实施例以第一参与方为主体说明联邦数据关联分析方法的步骤流程。但是,在各参与方中,每一参与方所执行的步骤流程可对应参照前述步骤101至步骤104或步骤201至步骤208的相关描述。
其中,第一参与方在获得第一频繁项集后,可以向第二参与方发送该第一频繁项集。同样的,第二参与方可以根据其样本数据获得第二频繁项集以及第二频繁项集对应的支持度,再向第一参与方提供第二频繁项集,并接收第一参与方提供的第一频繁项集;进而第二参与方可以确定第二频繁项集出现的情况下,第一频繁项集出现的置信度,并基于第一频繁项集出现的置信度确定第二参与方需求的关联规则是否成立。
如,以第一频繁项集基于商品购买行为数据提取,包括{商品a,商品b},第二频繁项集基于账号关注行为数据提取,包括{账号1}为例,第二参与方的置信度表示用户因为关注了账号1,而购买商品a和商品b的概率。可以看出,第一参与方与第二参与方的关联规则是非对称的。如,在第二参与方,关联规则条件可以指,使得“在第二频繁项集出现的情况下,第一频繁项集出现”符合规则生成需求的条件。参照第一参与方的相关描述,在第二参与方,可以在联邦支持度大于联邦支持度阈值的情况下,计算(′y1′)->(′x1′,′x2′)的置信度,并在(′y1′)->(′x1′,′x2′)的置信度大于min_confidence,且len((′x1′,′x2′,′y1′))<=max_len的情况下,确定第二参与方的关联规则包括(′y1′)->(′x1′,′x2′)。其中,第一参与方、第二参与方采用的联邦支持度阈值、置信度阈值以及项集长度阈值等,可以相同也可以不同,以适应不同领域、不同平台的关联分析需求。
步骤210、在联邦频繁项集包括每种第一频繁项集与第二频繁项集的组合时,输出关联规则。
其中,联邦频繁项集可以包括第一频繁项集、第二频繁项集的不同种组合,在联邦频繁项集包括每种第一频繁项集与第二频繁项集的组合时,可以确定关联规则的生成中已完成对每种第一频繁项集与第二频繁项集组合的评估,关联规则中已包括基于第一频繁项集、第二频繁项集所有符合关联规则条件的关联关系。此时,可以输出关联规则结束该数据关联性分析流程。
在本公开的一方法实施例中,在联邦频繁项集未包括每种第一频繁项集与第二频繁项集的组合时,可以循环执行步骤205至步骤208,每次循环中对一个联邦频繁项集进行计算评估,不同次循环中处理的联邦频繁项集不同,以在联邦频繁项集包括每种第一频繁项集与第二频繁项集的组合时结束循环,获得输出的关联规则。
本公开提供的联邦数据关联分析方法,应用于第一参与方,且该第一参与方与至少一个第二参与方通信连接。该第一参与方获取样本数据后,在样本数据中确定第一频繁项集,以及该第一频繁项集对应的支持度;再接收第二参与方发送的第二频繁项集,第二频繁项集由第二参与方根据第二参与方的样本数据获得;并确定第一频繁项集出现的情况下,第二频繁项集出现的置信度,从而根据该置信度确定关联规则。此时,第一参与方仅接收其他参与方发送的频繁项集,而不交换其对应的支持度,实现了在多参与方间基于隐私保护的联邦关联分析,能够在数据组成多样、关联关系复杂的条件下获得高实用性、准确性的关联规则;且无需获取所有的源数据即可打破各参与方间数据割裂的状态,既保证了数据隐私安全,也降低了关联分析的处理过程对硬件配置的要求,从而降低了分析成本,提高分析效率。
图3为本公开实施例提供的一种联邦数据关联分析方法的架构流程示意图。该架构包括第一参与方A、第二参与方B与中间方C,其中,第一参与方A配置有支持度阈值1、置信度阈值1以及项集长度阈值1,第二参与方B配置有支持度阈值2、置信度阈值2以及项集长度阈值2。
需要说明的是,支持度阈值1、置信度阈值1以及项集长度阈值1,或支持度阈值2、置信度阈值2以及项集长度阈值2仅用于表示阈值所配置的对象不同,不限制各阈值的具体取值。在实际应用中,第一参与方与不同第二参与方,或不同第二参与方之间,各阈值的取值根据应用需求可以相同,也可以不同。
如图3所示,该联邦数据关联分析方法包括步骤301A至步骤306A,以及301B至步骤306B。如下所示:
步骤301A、第一参与方A基于FP-growth算法在样本数据中确定本地的第一频繁项集,以及该第一频繁项集对应的支持度。
步骤301B、第二参与方B基于FP-growth算法在样本数据中确定本地的第二频繁项集,以及该第二频繁项集对应的支持度。
步骤302A、第一参与方A向第二参与方B发送第一频繁项集,并接收第二参与方B发送的第二频繁项集。
步骤302B、第二参与方B向第一参与方A发送第二频繁项集,并接收第一参与方A发送的第一频繁项集。
步骤303、第一参与方A提供第一频繁项集,第二参与方B提供第二频繁项集获得联邦频繁项集,并通过中间方C进行安全多方计算,获得联邦频繁项集的联邦支持度。
步骤304、中间方C向第一参与方A发送联邦支持度,并向第二参与方B发送联邦支持度。
步骤305A、第一参与方A在联邦支持度大于联邦支持度阈值1时,根据联邦支持度以及第一频繁项集的支持度,计算在第一频繁项集出现的情况下第二频繁项集出现的置信度,并在置信度大于置信度阈值1,且联邦频繁项集的长度小于项集长度阈值1时,确定关联规则包括在第一频繁项集出现的情况下第二频繁项集出现。
步骤305B、第二参与方B在联邦支持度大于联邦支持度阈值2时,根据联邦支持度以及第二频繁项集的支持度,计算在第二频繁项集出现的情况下第一频繁项集出现的置信度,并在置信度大于置信度阈值2,且联邦频繁项集的长度小于项集长度阈值2时,确定关联规则包括在第二频繁项集出现的情况下第一频繁项集出现。
步骤306A、第一参与方A在联邦频繁项集包括每种第一频繁项集与第二频繁项集的组合时,输出关联规则;或者在联邦频繁项集未包括每种第一频繁项集与第二频繁项集的组合时,循环执行步骤303至步骤305A。
步骤306B、第二参与方B在联邦频繁项集包括每种第一频繁项集与第二频繁项集的组合时,输出关联规则;或者在联邦频繁项集未包括每种第一频繁项集与第二频繁项集的组合时,循环执行步骤303至步骤305B。
本公开提供的联邦数据关联分析方法的架构流程,应用于第一参与方、第二参与方与中间方,且该第一参与方、第二参与方与中间方间通信连接。其中,第一参与方与第二参与方中各参与方在本地对样本数据提取频繁项集与对应的支持度,并各自交换频繁项集,再在多参与方间通过中间方进行安全多方计算,获得联邦频繁项集的联邦支持度,该联邦频繁项集中包括各参与方的一个频繁项集,则各参与方基于联邦频繁项集的联邦支持度,以及各自本地频繁项集的支持度,可以确定各参与方间联邦项集的关联性。此时,在多参与方间交换频繁项集,而不交换其对应的支持度,实现了在多参与方间基于隐私保护的联邦关联分析,能够在数据组成多样、关联关系复杂的条件下获得高实用性、准确性的关联规则;且无需获取所有的源数据即可打破各参与方间数据割裂的状态,既保证了数据隐私安全,也降低了关联分析的处理过程对硬件配置的要求,从而降低了分析成本,提高分析效率。
图4为本公开实施例提供的一种数据推荐方法的步骤流程图,该方法可以包括步骤401至步骤404。如下所示:
步骤401、获取用户的历史行为数据。
其中,用户是数据推荐的目标,可以是个人、机构或企业等,历史行为数据可以是用户在业务中的历史交互数据,如用户在购物平台上的商品历史购买数据、商品历史收藏数据,商品历史评价数据等;也可以是用户在资讯平台上的资讯历史浏览数据、资讯历史分享数据、资讯历史收藏数据等;也可以是用户在社交平台上的账号历史关注数据、账号历史屏蔽数据、账号历史评论数据等,根据用户类型、推荐需求等,可以获取用户不同的历史行为数据,本公开实施例对此不作具体限制。
步骤402、从历史行为数据中提取原始项集。
其中,原始项集可以是历史行为数据中元素项的集合,元素项可以指用户行为交互的实体,如商品、资讯、账号等,则以原始数据为用户在购物平台上的商品历史购买数据为例,在一条“于X月X日购买日用商品a与日用商品b”的商品历史购买数据中,可以提取原始项集(日用商品a,日用商品b);以原始数据为用户在社交平台上的账号关注数据为例,在一条“于X月X日关注账号1”的数据中,可以提取原始项集(账号1)。
步骤403、基于原始项集在关联规则中匹配推荐项集,关联规则通过图1至图3任一所述的联邦数据关联分析方法获得。
其中,基于关联规则描述的第一频繁项集出现与第二频繁项集出现的关联关系,基于原始项集可以对关联规则进行匹配,可以得到在原始项集出现的情况下可能出现的推荐项集,如原始项集为(日用商品a,日用商品b),则可以匹配购买日用商品a和日用商品b的情况下对应的关联规则,如关联规则1为在购买日用商品a和日用商品b的情况下,购买电子产品商品c;关联规则2为在购买日用商品a和日用商品b的情况下,关注账号1。在此基础上,该用户基于原始项集匹配到的推荐项集可以是(电子产品商品c)、(账号1)等。
步骤404、根据推荐项集向用户进行数据推荐。
其中,根据推荐项集向用户进行数据推荐,可以是直接先向用户推送该推荐项集,也可以是基于平台、领域等的业务类型向用户推荐不同的推荐项集,如在购物平台向用户推荐(电子产品商品c),在社交平台向用户推荐(账号1),基于关联规则向用户提供差异化的数据推荐。
本公开提供的数据推荐方法,可以获取用户的历史行为数据,并从历史行为数据中提取原始项集;再基于原始项集在关联规则中匹配推荐项集,并根据推荐项集向用户进行数据推荐,其中,关联规则通过前述图1至图3任一所述的联邦数据关联分析方法获得。基于前述的联邦数据关联分析方法,更多样化的数据特征、更广泛的样本量中提取关联规则,进而能够更准确地向用户提供差异化、跨平台以及跨领域的数据推荐,提升了数据推荐的准确性、实用性。
图5为本公开实施例提供的一种联邦数据关联分析装置的结构示意图,该装置应用于第一参与方,该第一参与方与至少一个第二参与方通信连接,该装置可以包括:
样本数据获取模块501,用于获取样本数据;
频繁项集确定模块502,用于在样本数据中确定第一频繁项集,以及第一频繁项集对应的支持度;
频繁项集交换模块503,用于接收第二参与方发送的第二频繁项集,第二频繁项集由第二参与方根据第二参与方的样本数据获得;
关联规则确定模块504,用于确定第一频繁项集出现的情况下,第二频繁项集出现的置信度,并根据第二频繁项集出现的置信度确定关联规则。
在本公开的一装置实施例中,关联规则确定模块504,包括:
联邦频繁项集合并子模块,用于获取至少一个联邦频繁项集,每个联邦频繁项集由一个第一频繁项集与一个第二频繁项集组合形成,各联邦频繁项集间第一频繁项集、第二频繁项集至少一个不同;
联邦支持度确定子模块,用于确定联邦频繁项集对应的联邦支持度;
置信度确定子模块,用于在联邦支持度大于联邦支持度阈值的情况下,根据支持度和联邦支持度,计算联邦频繁项集中第一频繁项集出现的情况下,第二频繁项集出现的置信度;
关联规则确定子模块,用于在置信度、联邦频繁项集符合关联规则条件的情况下,确定关联规则包括在联邦频繁项集中第一频繁项集出现的情况下,第二频繁项集出现。
在本公开的一装置实施例中,装置还包括:关联规则输出模块,用于在联邦频繁项集包括每种第一频繁项集与第二频繁项集的组合时,输出关联规则。
在本公开的一装置实施例中,关联规则条件为置信度大于置信度阈值,且联邦频繁项集的长度小于项集长度阈值。
在本公开的一装置实施例中,第一参与方还与中间方通信连接,中间方与第二参与方通信连接,联邦支持度确定子模块,具体用于基于联邦频繁项集,通过中间方与第二参与方进行安全多方计算,确定联邦频繁项集对应的联邦支持度。
在本公开的一装置实施例中,样本数据获取模块501,包括:
原始数据获取子模块,用于获取原始数据;
原始数据脱敏子模块,用于对原始数据进行列名映射,获得样本数据。
在本公开的一装置实施例中,频繁项集交换模块503,还用于向第二参与方发送第一频繁项集,以使第二参与方确定第二频繁项集出现的情况下,第一频繁项集出现的置信度,并根据第一频繁项集出现的置信度确定关联规则,第一参与方的关联规则与第二参与方的关联规则非对称。
本公开提供的联邦数据关联分析装置,应用于第一参与方,且该第一参与方与至少一个第二参与方通信连接。该第一参与方获取样本数据后,在样本数据中确定第一频繁项集,以及该第一频繁项集对应的支持度;再接收第二参与方发送的第二频繁项集,第二频繁项集由第二参与方根据第二参与方的样本数据获得;并确定第一频繁项集出现的情况下,第二频繁项集出现的置信度,从而根据该置信度确定关联规则。
此时,第一参与方仅接收其他参与方发送的频繁项集,而不交换其对应的支持度,实现了在多参与方间基于隐私保护的联邦关联分析,能够在数据组成多样、关联关系复杂的条件下获得高实用性、准确性的关联规则;且无需获取所有的源数据即可打破各参与方间数据割裂的状态,既保证了数据隐私安全,也降低了关联分析的处理过程对硬件配置的要求,从而降低了分析成本,提高分析效率。
图6为本公开实施例提供的一种数据推荐装置的结构示意图,该装置可以包括:
历史数据获取模块601,用于获取用户的历史行为数据;
原始项集提取模块602,用于从历史行为数据中提取原始项集;
关联规则匹配模块603,用于基于原始项集在关联规则中匹配推荐项集,关联规则通过第三方面的联邦数据关联分析装置;用户数据推荐模块604,用于根据推荐项集向用户进行数据推荐。
本公开提供的数据推荐装置,可以获取用户的历史行为数据,并从历史行为数据中提取原始项集;再基于原始项集在关联规则中匹配推荐项集,并根据推荐项集向用户进行数据推荐,其中,关联规则通过前述图1至图3任一所述的联邦数据关联分析方法获得。基于前述的联邦数据关联分析方法,更多样化的数据特征、更广泛的样本量中提取关联规则,进而能够更准确地向用户提供差异化、跨平台以及跨领域的数据推荐,提升了数据推荐的准确性、实用性。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
此外,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施方式的方法。
在本公开的示例性实施例中,还提供了一种能够实现上述方法的电子设备。
所属技术领域的技术人员能够理解,本公开的各个方面可以实现为系统、方法或程序产品。因此,本公开的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
下面参照图7来描述根据本公开的这种实施方式的电子设备700。图7显示的电子设备700仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图7所示,电子设备700以通用计算设备的形式表现。电子设备700的组件可以包括但不限于:上述至少一个处理单元710、上述至少一个存储单元920、连接不同系统组件(包括存储单元920和处理单元710)的总线930。
其中,存储单元存储有程序代码,程序代码可以被处理单元710执行,使得处理单元710执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。
存储单元920可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)9201和/或高速缓存存储单元9202,还可以进一步包括只读存储单元(ROM)9203。
存储单元920还可以包括具有一组(至少一个)程序模块9205的程序/实用工具9204,这样的程序模块9205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线930可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备700也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备700交互的设备通信,和/或与使得该电子设备700能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过显示单元940和与显示单元940连接的输入/输出(I/O)接口950进行。并且,电子设备700还可以通过网络适配器960与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器960通过总线930与电子设备700的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备700使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。
在本公开的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中,本公开的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在终端设备上运行时,程序代码用于使终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。
在本公开的实施方式中,还提供了用于实现上述方法的程序产品,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本公开的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
此外,上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
Claims (10)
1.一种联邦数据关联分析方法,其特征在于,所述方法应用于第一参与方,所述第一参与方与至少一个第二参与方通信连接,所述方法包括:
获取样本数据;
在所述样本数据中确定第一频繁项集,以及所述第一频繁项集对应的支持度;
接收所述第二参与方发送的第二频繁项集,所述第二频繁项集由所述第二参与方根据所述第二参与方的样本数据获得;
确定所述第一频繁项集出现的情况下,所述第二频繁项集出现的置信度,并根据所述第二频繁项集出现的置信度确定关联规则。
2.根据权利要求1所述的方法,其特征在于,所述确定所述第一频繁项集出现的情况下,所述第二频繁项集出现的置信度,并根据所述第二频繁项集出现的置信度确定关联规则,包括:
获取至少一个联邦频繁项集,每个所述联邦频繁项集由一个所述第一频繁项集与一个所述第二频繁项集组合形成,各所述联邦频繁项集间所述第一频繁项集、所述第二频繁项集至少一个不同;
确定所述联邦频繁项集对应的联邦支持度;
在所述联邦支持度大于联邦支持度阈值的情况下,根据所述支持度和所述联邦支持度,计算所述联邦频繁项集中所述第一频繁项集出现的情况下,所述第二频繁项集出现的置信度;
在所述置信度、所述联邦频繁项集符合关联规则条件的情况下,确定所述关联规则包括在所述联邦频繁项集中所述第一频繁项集出现的情况下,所述第二频繁项集出现。
3.根据权利要求2所述的方法,其特征在于,所述在所述置信度、所述联邦频繁项集符合关联规则条件的情况下,确定所述关联规则包括在所述联邦频繁项集中所述第一频繁项集出现的情况下,所述第二频繁项集出现之后,还包括:
在所述联邦频繁项集包括每种所述第一频繁项集与所述第二频繁项集的组合时,输出所述关联规则。
4.根据权利要求2所述的方法,其特征在于,所述关联规则条件为所述置信度大于置信度阈值,且所述联邦频繁项集的长度小于项集长度阈值。
5.根据权利要求2所述的方法,其特征在于,所述第一参与方还与中间方通信连接,所述中间方与所述第二参与方通信连接,所述确定所述联邦频繁项集对应的联邦支持度,包括:
基于所述联邦频繁项集,通过所述中间方与所述第二参与方进行安全多方计算,确定所述联邦频繁项集对应的联邦支持度。
6.根据权利要求1所述的方法,其特征在于,所述获取样本数据,包括:
获取原始数据;
对原始数据进行列名映射,获得所述样本数据。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述在所述样本数据中确定第一频繁项集,以及所述第一频繁项集对应的支持度之后,还包括:
向所述第二参与方发送所述第一频繁项集,以使所述第二参与方确定所述第二频繁项集出现的情况下,所述第一频繁项集出现的置信度,并根据所述第一频繁项集出现的置信度确定关联规则,所述第一参与方的关联规则与所述第二参与方的关联规则非对称。
8.一种数据推荐方法,其特征在于,所述方法包括:
获取用户的历史行为数据;
从所述历史行为数据中提取原始项集;
基于所述原始项集在关联规则中匹配推荐项集,所述关联规则通过权利要求1至7任一项所述的联邦数据关联分析方法获得;
根据所述推荐项集向所述用户进行数据推荐。
9.一种联邦数据关联分析装置,其特征在于,所述装置应用于第一参与方,所述第一参与方与至少一个第二参与方通信连接,所述装置包括:
样本数据获取模块,用于获取样本数据;
频繁项集确定模块,用于在所述样本数据中确定第一频繁项集,以及所述第一频繁项集对应的支持度;
频繁项集交换模块,用于接收所述第二参与方发送的第二频繁项集,所述第二频繁项集由所述第二参与方根据所述第二参与方的样本数据获得;
关联规则确定模块,用于确定所述第一频繁项集出现的情况下,所述第二频繁项集出现的置信度,并根据所述第二频繁项集出现的置信度确定关联规则。
10.一种数据推荐装置,其特征在于,所述装置包括:
历史数据获取模块,用于获取用户的历史行为数据;
原始项集提取模块,用于从所述历史行为数据中提取原始项集;
关联规则匹配模块,用于基于所述原始项集在关联规则中匹配推荐项集,所述关联规则通过权利要求9所述的联邦数据关联分析装置;
用户数据推荐模块,用于根据所述推荐项集向所述用户进行数据推荐。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211212288.XA CN115481757A (zh) | 2022-09-30 | 2022-09-30 | 联邦数据关联分析方法、数据推荐方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211212288.XA CN115481757A (zh) | 2022-09-30 | 2022-09-30 | 联邦数据关联分析方法、数据推荐方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115481757A true CN115481757A (zh) | 2022-12-16 |
Family
ID=84394638
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211212288.XA Pending CN115481757A (zh) | 2022-09-30 | 2022-09-30 | 联邦数据关联分析方法、数据推荐方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115481757A (zh) |
-
2022
- 2022-09-30 CN CN202211212288.XA patent/CN115481757A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Barry et al. | Factors influencing the use of m-commerce: An extended technology acceptance model perspective | |
US9300672B2 (en) | Managing user access to query results | |
Sarbabidya et al. | Role of chatbot in customer service: A study from the perspectives of the banking industry of Bangladesh | |
CN111159534A (zh) | 基于用户画像的辅助决策方法及装置、设备和介质 | |
CN108694238A (zh) | 基于区块链的业务数据处理方法、装置及存储介质 | |
US10037194B2 (en) | Systems and methods for visual data management | |
CN110363407A (zh) | 基于用户行为轨迹的欺诈风险评估方法及装置 | |
US20240095647A1 (en) | Privacy-protecting methods and apparatuses for determining feature effective value of business data | |
CN111563267A (zh) | 用于联邦特征工程数据处理的方法和装置 | |
CN111198945A (zh) | 数据处理方法、装置、介质及电子设备 | |
NOREEN et al. | The impact of perceived risk and trust on adoption of mobile money services: An empirical study in Pakistan | |
O'Leary | On the relationship between number of votes and sentiment in crowdsourcing ideas and comments for innovation: A case study of Canada's digital compass | |
CN111427915A (zh) | 信息处理方法及装置、存储介质、电子设备 | |
CN110969524A (zh) | 基于区块链的资金业务处理方法、装置、设备及介质 | |
CN114978484A (zh) | 用于保护隐私的数据处理方法、装置和计算机设备 | |
CN112445866A (zh) | 数据处理方法、装置、计算机可读介质及电子设备 | |
CN116432040B (zh) | 基于联邦学习的模型训练方法、装置、介质以及电子设备 | |
CN109636627B (zh) | 基于区块链的保险产品管理方法、装置、介质及电子设备 | |
CN115481757A (zh) | 联邦数据关联分析方法、数据推荐方法及装置 | |
CN110008282A (zh) | 交易数据同步对接方法、装置、计算机设备及存储介质 | |
CN113609271B (zh) | 基于知识图谱的业务处理方法、装置、设备及存储介质 | |
CN112307334B (zh) | 信息推荐方法、信息推荐装置、存储介质与电子设备 | |
CN115033916A (zh) | 基于多方联合数据训练推送模型及信息推送的方法和装置 | |
CN111125136B (zh) | 翻译过程中关键术语认证的区块链方法和系统 | |
CN111738798A (zh) | 用于生成商品信息的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |