CN109062955A

CN109062955A - 项目间关联关系挖掘方法、装置、计算设备及存储介质

Info

Publication number: CN109062955A
Application number: CN201810661422.1A
Authority: CN
Inventors: 柯文炜; 何治民
Original assignee: Guangdong Shenma Search Technology Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2018-06-25
Filing date: 2018-06-25
Publication date: 2018-12-21

Abstract

本发明公开了一种项目间关联关系挖掘方法、装置、计算设备及存储介质。建立项目对，以能够区分的方式记录第一项目和第二项目。确定并在关联关系数据库中记录项目对的单向关联度，单向关联度表示第二项目相对于第一项目的关联度，而不表示第一项目相对于第二项目的关联度。在两个项目以第一顺序建立第一项目对的情况下，可以不以与第一顺序相反的第二顺序建立第二项目对。或者，对于两个项目，以第一顺序建立第一项目对，并以与第一顺序相反的第二顺序建立第二项目对，第二项目对的单向关联度不同于第一项目对的单向关联度。由此，能够体现两个项目之间关联关系的非对称性，更加准确地挖掘出更贴近现实的项目间关联关系，以便于后期的应用。

Description

项目间关联关系挖掘方法、装置、计算设备及存储介质

技术领域

本公开涉及互联网数据分析和挖掘，特别涉及项目间关联关系挖掘方案。

背景技术

随着互联网的发展，各大互联网平台都逐渐积累起了各式各样的海量数据，其中包括各种用户触发的网页、搜索/购物行为以及内容提供方制造的各种文本本身。随着数据的累积，数据的价值逐渐凸显，平台的运营成本也逐渐提高，一方面是因为数据量增加带来更大的工作量，另一方面是因为数据内部蕴含着各类复杂的关系。

这样，挖掘数据内部的关联关系成为一件非常有价值和意义的事情。人们一直在努力寻找一种方法和途径，可以将平台的各种数据以一种有序的、规整的方式组织起来，从而避免重复的、过分冗余的、庞杂的组织方式，以此实现集中挖掘价值最大的方面，甚至节约运营成本和时间。

通用的基于项目的(item-based)分布式相似计算算法仅从算法本身的分布式处理能力和通用数据计算进行设计，而并未考虑作为由人触发的数据本身的特殊性以及数据本身中间结果的差异，导致现有技术看似通用性强，实际扩展能力弱，对数据本身关键信息挖掘能力弱。

因此，仍然希望有一种项目间关联关系挖掘方案，以解决上述技术问题，更好地挖掘项目间的关联关系。

发明内容

本公开要解决的一个技术问题是提供一种项目间关联关系挖掘方案，其能够更加准确地挖掘出更贴近现实的项目间关联关系。

根据本公开的第一个方面，提供了一种项目间关联关系挖掘方法，包括：建立项目对，在项目对中，以能够区分的方式记录第一项目和第二项目；以及针对项目对，确定并在关联关系数据库中与项目对关联地记录项目对的单向关联度，单向关联度表示第二项目相对于第一项目的关联度，而不表示第一项目相对于第二项目的关联度，其中，在两个项目以第一顺序建立第一项目对的情况下，不以与第一顺序相反的第二顺序建立第二项目对；或者对于两个项目，以第一顺序建立第一项目对，并以与第一顺序相反的第二顺序建立第二项目对，第二项目对的单向关联度不同于第一项目对的单向关联度。

由此，在建立项目对时，或确定单向关联度时，体现了两个项目之间关联关系的非对称性，更加贴近现实，有助于后期基于该关联关系进行相应应用。

可选地，建立项目对的步骤可以包括：从具有项目间指向关系或时间顺序的项目序列中挖掘项目对，其中第一项目和第二项目在项目序列中具有预定的指向关系或时间顺序。

由此，可以体现两个项目在序列中地位的非对称性。

可选地，确定项目对的单向关联度的步骤可以包括：至少部分地基于第一项目和第二项目在多个项目序列中按项目对对应的顺序出现的频次和/或时间跨度统计值和/或间隔项目数统计值，确定项目对的单向关联度。

由此，不但可以更准确地体现项目之间的关联关系，而且考虑到不同顺序的项目对在序列中的相应统计值一般不同，能够进一步体现项目之间关联关系的非对称性。

可选地，建立项目对的步骤可以包括：以预定项目或预定类型的项目作为第一项目；并且/或者以预定项目或预定类型的项目作为第二项目。

由此，可以对特定项目进行有针对性的分析。

可选地，项目可以是用户行为，项目序列可以是包括预定长度时间窗口中的同一个用户的多个用户行为的用户行为序列。

或者，可选地，项目序列可以是包括预定长度时间窗口中用户依次访问的多个项目的项目序列。

可选地，在从项目序列中挖掘项目对的情况下，确定项目对的单向关联度的步骤可以包括：基于对第一项目的特征和第二项目的特征对称的对称公式，确定项目对的单向关联度。

这样，在考虑到序列本身复杂的的情况下，采用对称性公式可以避免计算过于复杂化。

可选地，确定项目对的单向关联度的步骤可以包括：基于对第一项目的特征和第二项目的特征不对称的非对称公式，确定项目对的单向关联度。

由此，特别是在项目对的建立过程不能体现关联关系的非对称性的情况下，可以基于两个项目不同的特征确定出能够体现非对称关联关系的单向关联度。

可选地，在非对称公式的分子或分母中，仅涉及第一项目的特征或第二项目的特征；或者在非对称公式的分子或分母中，对第一项目的特征和第二项目的特征设置不同的幂次。

可选地，关联关系可以用于项目推荐，在非对称公式的分母中，第一项目的特征的幂次低于第二项目的特征的幂次。

或者，可选地，关联关系可以用于发现版本摘录情形，其中项目为文本，第一项目的特征可以为第一项目所包含的第一元素集合，第二项目的特征可以为第二项目所包含的第二元素集合，非对称公式可以包括第一元素集合和第二元素集合的交集的元素个数与第一元素集合的元素个数之商。

或者，可选地，关联关系可以用于发现版本盗用情形，其中项目为文本，第一项目的特征可以为第一项目所包含的第一元素集合，第二项目的特征可以为第二项目所包含的第二元素集合，非对称公式可以包括第一元素集合和第二元素集合的交集的元素个数与第二元素集合的元素个数之商。

可选地，在关联关系用于项目推荐的情况下，项目的特征可以为该项目的热门程度、与该项目直接关联的其它项目的数量、该项目在项目访问网络中的经过路径数量中的一项或多项。

可选地，确定项目对的单向关联度的步骤可以包括：使用随第一项目和第二项目的共同出现频率升高而减小的衰减因子来修正单向关联度。

由此，可以压制“哈利波特效应”。

根据本公开的第二方面，提供了一种项目间关联关系挖掘装置，包括：项目对建立装置，用于建立项目对，在项目对中，以能够区分的方式记录第一项目和第二项目；以及关联度确定装置，用于针对项目对，确定并在关联关系数据库中与项目对关联地记录项目对的单向关联度，单向关联度表示第二项目相对于第一项目的关联度，其中，在两个项目以第一顺序建立第一项目对的情况下，项目对建立装置不以与第一顺序相反的第二顺序建立第二项目对；或者对于两个项目，项目对建立装置以第一顺序建立第一项目对，以与第一顺序相反的第二顺序建立第二项目对，关联度确定装置被设置为使得第二项目对的单向关联度不同于第一项目对的单向关联度。

根据本公开的第三方面，提供了一种计算设备，包括：处理器；以及存储器，其上存储有可执行代码，当可执行代码被处理器执行时，使处理器执行根据本发明第一方面的方法。

根据本公开的第四方面，提供了一种非暂时性机器可读存储介质，其上存储有可执行代码，当可执行代码被电子设备的处理器执行时，使处理器执行根据本发明第一方面的方法。

通过本公开的技术方案，能够更好地体现项目间的非对称关联关系，从而更加准确地挖掘出更贴近现实的项目间关联关系。

附图说明

通过结合附图对本公开示例性实施方式进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实施方式中，相同的参考标号通常代表相同部件。

图1示出了根据本公开实施例的项目间关联关系挖掘装置的示意性框图。

图2示出了根据本公开实施例的项目间关联关系挖掘方法的示意性流程图。

图3示出了一个项目序列的示例。

图4示出了一种项目间关联网络的示意图。

图5示出了文本相似领域的一个示例。

图6示出了可用于实现上述项目间关联关系挖掘方法的计算设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

在现有技术的关联关系挖掘方案中，从海量互联网数据中挖掘具有关联关系的项目对，计算两个项目之间的关联度(例如，可以包括相似度)时，默认这两个项目之间的关联度是对称的。现有技术基于这样项目间对称(或称为“对等”)的关联度来进行关联关系挖掘后的分析、推荐等操作。

本公开的发明人注意到，在很多情况下，一个项目对中的两个项目(例如A和B)之间往往是不对称(或称为“不对等”)的，彼此之间的相互影响力(A对B的影响力和B对A的影响力)是不同的。在这些情况下，用同一个关联度不能体现出两者之间这种关系的不对称。

例如，在电商场景下，对关联关系的挖掘集中在对行为序列的挖掘。而一个完整的行为序列包含时间、行为和对象三个主要要素。通用和传统的相似衡量仅仅考虑频次或者预测的最终得分，而忽略了行为序列、时间的跨度等问题，而这些维度对于对象间真实相似数值的计算具有重要价值，在推荐问题、商品搭配和广告精准挖掘方面，都起到非常大的正向促进作用，对提升用户感知，缩短购物路径，提升产品留存都具有重要作用。

关于关系不对称的一些情形，后文中将进一步详细描述。

而上述现有技术方案中，没有意识到一个项目对中的两个项目之间的这种不对称性。在现有技术方案中，当提到项目对或其中两个项目之间的关联关系时，是不考虑两个项目之间的顺序关系的。例如，包括A和B的项目对不论表示为<A，B>，还是表示为<B，A>，都是相同的项目对。两者之间的关联度(这里，以相似度Sim为例描述)不论表示为Sim(A，B)，还是表示为Sim(B，A)，含义都一样，数值也一样。

在忽略了这种项目间关系不对称的情况下，使用共用或对称的项目间关联度来进行项目推荐等数据分析处理时，容易出现误判。

本公开的发明人提出，在挖掘项目间关联关系时，对项目对中的两个项目予以区分对待，赋予项目对中的两个项目以不同的地位。这里，可以通过两个项目的先后顺序来对其进行区分对待，这样的项目对可以称为“有序项目对”。或者，也可以通过不同的预定标签或预定属性值或预定索引等方式，来对项目对中的两个项目进行区分对待。下文中以按顺序先后来区分两个项目为例进行描述。但是应该明白，两个项目之间的其它区分方式也都是可以适用于本公开的技术方案的。或者，也可以理解为，其它区分方式也是按顺序区分方式的一种具体实现方式。

这样，对于同样两个项目，可以以不同的方式(例如不同的顺序)定义两个不同的项目对，从而可以通过这两个不同定义的项目对，或者通过这两个项目对各不相同的关联度(为与现有技术中对称关系的关联度相区分，这里可以称为“单向关联度”)，来体现出这两个项目之间的不对称关系。这里，针对每个项目对计算的单向关联度仅表示该项目对中处于预定地位的一个项目(例如第二项目)相对于另一个项目(例如第一项目)的关联度，而不表示上述另一个项目(例如第一项目)相对于上述一个项目(例如第二项目)的关联度。例如，单向关联度可以定义为项目对中，在后的项目相对于在前的项目的关联度。当然，也可以采用相反的方式来定义单向关联度。

例如，对于项目A和项目B，不同顺序的项目对<A，B>和<B，A>是不同的项目对。这样，就可以方便地引入两个项目之间关联关系的非对称性表达。

一方面，建立其中一个项目对例如<A，B>，并不意味着一定还会建立其中另一个项目对例如<B，A>。这种情况下，非常清晰地体现了这两个项目之间关联关系的不对称性。

另一方面，即使两个项目对例如<A，B>和<B，A>都被建立了，各自的关联度也是分别计算的，两者表示的含义不同，数值也不一定相同。更进一步讲，在采用对不同序位的项目不对称的计算公式的情况下，不同顺序的关联对的单向关联度一般是不相同的。这样，同样可以明确地体现出两个项目之间关联关系的不对称性。

下面，参考附图1和2描述根据本公开实施例的项目间关联关系挖掘方案。

图1示出了根据本公开实施例的项目间关联关系挖掘装置的示意性框图。图2示出了根据本公开实施例的项目间关联关系挖掘方法的示意性流程图。

如图1所示，根据本公开实施例的项目间关联关系挖掘装置可以包括项目对建立装置100和关联度确定装置200。

图2所示的项目间关联关系挖掘方法例如可以通过使用图1所示的项目间关联关系挖掘装置来实现。

如图2所示，在步骤S100，例如可以使用项目对建立装置100，建立项目对。在项目对中，以能够区分的方式记录第一项目和第二项目。第一项目和第二项目对于下面要确定的关联度参数具有不同的贡献，关联度参数对于第一项目和第二项目具有不同的意义。例如，在一些场景下，第一项目可以作为参考对象，而第二对象则是观察对象。

如上文所述，可以通过两个项目的先后顺序来对其进行区分对待。这样的项目对可以称为“有序项目对”。或者，也可以通过不同的预定标签或预定属性值或预定索引等方式，来对项目对中的两个项目进行区分对待。

下文中以按顺序先后来区分两个项目为例进行描述。但是应该明白，两个项目之间的其它区分方式也都是可以适用于本公开的技术方案的。或者，也可以理解为，其它区分方式也是按顺序区分方式的一种具体实现方式。

“区分”，或者“有序”，表示第一项目和第二项目在该项目对中处于不同的地位。在例如按记录先后顺序区分两个项目的方式来具体表示项目对时，可以预先设定其中处于预定地位的一个放在在前序位，而另一个放在在后序位。例如，第一项目在前，而第二项目在后。不论以何种预先确定的方式表示，在该项目对中对这两个项目赋予不同的地位。

这样，在步骤S200，例如可以使用关联度确定装置200，确定项目对的单向关联度，并在关联关系数据库中与该项目对关联地记录该项目对的单向关联度。在本公开中，单向关联度表示两个项目中处于特定序位的项目(例如作为观察对象的第二项目)相对于这两个项目中另一个项目(例如作为参考对象的第一项目)的关联度，而不表示所述第一项目相对于所述第二项目的关联度。

由此，对于两个项目，在区分了不同顺序的项目对的基础上，对各项目对的关联度予以区分，进一步体现了两个项目间相互关联关系的不对称。

对于两个项目，第一顺序的项目对的建立与第二顺序的项目对的建立无关。因此，如上文所述，建立其中一个项目对，并不意味着一定还会建立另一个项目对。

在一些情况下，在两个项目以第一顺序建立第一项目对的情况下，不以与所述第一顺序相反的第二顺序建立第二项目对。

在另一些情况下，对于两个项目，以第一顺序建立第一项目对，也以与第一顺序相反的第二顺序建立第二项目对，但是为第二项目对确定的单向关联度不同于为第一项目对确定的单向关联度。这是因为，这两个单向关联度具有完全不同的含义，计算的依据也不相同。

不论上述何种情况，都可以体现出两个项目之间关联关系的非对称性。

在按上述方式定义项目对及项目对的关联度参数的情况下，在挖掘/构建项目对的过程中以及确定项目对的关联度的过程中，都可以引入这种关联关系的非对称性。下面对这两种情况分别进行描述。

1.在挖掘过程中体现非对称性关联关系的情形

例如，具有项目间指向关系或时间顺序的项目序列中的项目之间的指向关系或时间顺序体现了项目之间的不对称关联关系。

在项目是用户行为的情况下，项目序列可以是包括预定长度时间窗口中的同一个用户的多个用户行为的用户行为序列。

或者，项目序列也可以是包括预定长度时间窗口中用户依次访问的多个项目的项目序列。

例如，用户的访问路径是有先后顺序的，一个用户依次访问的项目的序列可以作为一个项目序列。

从这样的项目序列中挖掘具有预定的指向关系或时间顺序的第一项目和第二项目，可以构成根据本公开的项目对。例如，可以规定，在项目序列中，所挖掘的第一项目应当是指向第二项目的。或者，可以规定，在项目序列中，所挖掘的第一项目在先，第二项目在后。应当明白，在一些场景下，也可以做相反的规定。

有序，例如指向关系(A指向B)引入的项目顺序，或者例如访问/操作时间先后(A先B后)引入的项目顺序，暗含了项目间不对称的关联关系。

在现有的关联关系挖掘方案中，并不对序列进行区分，即A->B这个指向关系或先后顺序被忽略，造成配对时项目对<A，B>和项目对<B，A>等价。本申请在从有序项目序列中挖掘项目对时，考虑了项目之间固有的顺序关系，就体现了这种不对称性。

如果在各个项目序列中，两个项目间总是具有固定的指向关系，例如总是项目A指向项目B，或者总是具有相同的时间先后顺序，例如项目A总是在项目B之前，则可以仅建立一个顺序的项目对，例如表示为<A，B>，而不建立相反顺序的项目对<B，A>。

这样，可以非常鲜明体现出这两个项目之间的不对称关联关系。

例如，在挖掘项目(例如商品)间的关联关系以用于项目推荐的应用场景中，如果在大量的项目序列中，一个项目A总是出现在另一个项目B之前，则表示访问项目A的用户倾向于访问项目B，而没有体现出访问项目B的用户访问项目A的倾向性。这种情况下，建立项目A指向项目B的项目对，而不必建立项目B指向项目A的项目对。换言之，可以为访问项目A的新用户推荐项目B，而不必为访问项目B的新用户推荐项目A。这样，推荐效果更加符合历史数据内部蕴含的逻辑，更有可能满足用户的实际需要。

又例如，在分析用户行为序列的情况下，项目为用户各种行为，如果一种行为(例如点击)，总是出现在另一种行为(例如购买)之前，则只需要建立在前行为(点击)指向在后行为(购买)的项目对，而没有必要建立相反的项目对。

另外，如果一个项目序列中，项目A指向项目B，或者项目A在前而项目B在后，则可以基于该项目序列挖掘出以项目A为第一项目，以项目B为第二项目的项目对。如果在另一个项目序列中，具有相反情形，即，项目B指向项目A，或者项目B在前而项目A在后，则可以基于该项目序列挖掘出以项目B为第一项目，以项目A为第二项目的项目对。

这种情况下，两个不同顺序的项目对分别是从不同的项目序列中挖掘出的。从中分别挖掘出这两个项目对的这两组项目序列一般是不同的序列，相应地，它们的各种特征，特别是与这两个项目有关的统计值(例如序列出现频次、项目间的时间跨度统计值、项目间的间隔项目数统计值等)，一般是不同的，由此可以在所确定的单向关联度中体现出项目间的非对称关系。

图3示出了一个项目序列的示例。

图3所示的项目序列示例既可以是上述具有项目间指向关系的项目序列，也可以是具有时间顺序的项目序列，换言之，图中的箭头可以表示项目间指向关系，也可以表示时间顺序。图中所示的项目A、B、C、D、E、F、G、H、I、J，可以是例如商品等物品，也可以是用户行为等。

下面以项目间箭头表示时间顺序为例进行描述。

用户的项目访问或行为执行是有先后顺序的。如果规定在项目序列中，所要挖掘或构建的项目对中的第一项目应当在第二项目之前，那么对于例如图3所示的序列来说，会构建项目对<A，B>，但是不会构建项目对<B，A>，除非另有一个来自包含B到A指向关系或时间顺序的访问序列。同样地，<F，G>会被构造，但是不会构建<G，H>。

在这种情况下，项目对<A，B>的关联度和项目对<B，A>的关联度，分别依赖于先A后B(或从A指向B)的序列的情况(例如相关统计数据)和先B后A(或从B指向A)的序列的情况(例如相关统计数据)。

上面的例子是考虑序列中相邻的项目构建项目对的情况。实际上，沿序列方向，在很多情景下，不相邻的项目也可以构建项目对。例如，还可以构建项目对<A、C>、<A，D>等。

另外，对于从项目序列中挖掘项目对的情形，还可以引入项目特殊性，规定某个、某些或某类项目具有特殊性，第一项目或第二项目必须是或必须不是这样的特殊项目。例如，可以规定以预定类型的项目作为项目对中的第一项目。或者，也可以规定以预定类型的项目作为项目对中的第二项目。

例如，在项目是用户行为，项目序列是用户的行为序列的情况下，如果考虑用户的在先行为和在后购买行为之间的关系(例如在后的购买行为相对于在先行为的关联度高低)，此时可以规定项目对中的第二项目是购买行为。

作为示例，假设D是购买行为，A、B、C是其它行为，例如点击、收藏、放购物车、退款等，则会构建项目对<A，D>、<B，D>和<C，D>，而不构建项目对<A，B>、<B，C>和<A，C>。

反过来，如果考虑用户的在先点击行为和在后其它行为之间的关系(例如在后行为相对于在先点击行为的关联度高低)，此时可以规定项目对中的第一项目是点击行为。

作为示例，假设A是点击行为，B、C、D是其它行为，例如收藏、放购物车、购买、退款等，则会构建项目对<A，B>、<A，C>和<A，D>，而不构建项目对<B，C>、<B，D>和<C，D>。

在一些情况下，也可以对第一项目和第二项目的类型都予以规定。例如规定第一项目是点击行为，第二项目是购买行为，则只会构建满足这样的规定的项目对。

另外，同样对于项目序列的情形，还可以引入观察点的概念规定第一项目或第二项目是某个或某些预定的项目。

例如，上图3中，可以设定D、H、J作为观察点，例如规定项目对中以D、H或J作为第二项目，则会构建项目对<A，D>、<B，D>、<H，J>、<F，J>等，而不会构建项目对<A，B>、<B，C>等。

在如上所述，例如基于项目序列挖掘项目对的情况下，所挖掘的项目对本身已经体现了项目间关系的非对称性。这样，在确定单向关联度时，即使采用对第一项目的特征和第二项目的特征对称的对称公式，也能够体现出项目间关系的非对称性。

在基于项目序列挖掘项目对的一些情况下，非对称公式体现的特性可能造成干扰。因此，针对这类非对称关系，可以主要应用对称公式。当然，在另外一些情况下，也可以采用对第一项目的特征和第二项目的特征不对称的非对称公式。

对称公式例如可以是本领域公知的一些用于计算关联度或相似度的公式，例如基于两个项目的特征向量的距离的计算公式。

另外，还可以基于第一项目和第二项目的一些统计值对所计算得到的单向关联度进行调整或修正，或者说，可以至少部分地基于这样的一些统计值来确定项目对的单向关联度。

这样的统计值可以包括：

-第一项目和第二项目在多个项目序列中按项目对对应的顺序出现的频次；和/或

-第一项目和第二项目在多个项目序列中的时间跨度统计值；和/或

-第一项目和第二项目在多个项目序列中的间隔项目数统计值。

关于出现频次，在大量项目序列中，如果依次包括A、B的项目序列的数量大于依次包括C、D的项目序列的数量，则可以相对调高项目对<A，B>的单向关联度，而相对调低项目对<C，D>的单向关联度，或者给<A，B>的单向关联度赋予(或乘以)一个较高的参数，而给<C，D>的单向关联度赋予(或乘以)一个较低的参数。

关于时间跨度，依次包括A、B的多个项目序列中，项目A对应的时间到项目B对应的时间之差，或者说时间跨度，的统计值，例如统计平均值，可以用于确定项目A和B构成的项目对的单向关联度。时间跨度越短，或者说，时间越靠近，则单向关联度越高。这里考虑时间跨度的影响，采用遗忘概率分布构造方式，更加贴近真实的场景。

关于间隔项目数，依次包括A、B的多个项目序列中，项目A和项目B之间间隔的项目个数的统计值，例如统计平均值，可以用于确定项目A和B构成的项目对的单向关联度。间隔项目数越少，则单向关联度越高。在项目序列中，项目配对<A，C>和项目配对<C，A>之间可能是相邻的，即直接配对，也可能是不相邻的，即跨越了其它对象而进行了配对。而跨越对象越少，也即项目间的间隔项目数越少，则配对置信度越高，单向关联度也越高。使用基于序列路径跨度构造的跳转关系来体现非对称性，不同顺序的项目配对间的跨度由于顺序的原因，具有较大差异，从而得到不同的单向关联度，体现其关联关系的非对称性，而其结果更加贴近真实场景。

这里以间隔项目数为例进行描述如下。在考虑序列方向但是不严格限制项目相邻近的情况下，这个序列的配对会按照方向一致性进行匹配，如可以建立项目对<A，B>、<A，C>、<A，D>、…、<H，J>等。但是不同项目对，例如<A，B>和<A，D>，两个项目之间涉及的跨度(在该项目序列中，所配对的两个项目间跨越的项目数量)可能是不同的。

例如，A、B之间没有别的项目，所以<A，B>的跨度可以记为0；A、D之间之间还有B和C，所以<A，D>的跨度可以记为2。这样，可以相对调高项目对<A，B>的单向关联度，而相对调低项目对<A，D>的单向关联度，或者给<A，B>的单向关联度赋予(或乘以)一个较高的参数，而给<A，D>的单向关联度赋予(或乘以)一个较低的参数。

构成一个项目对的两个项目例如A和D，在多个依次包括这两个项目的不同项目序列中，两者间的时间跨度或间隔项目数往往是不同的，可以基于统计值，例如统计平均值，来确定或调整单向关联度。

而项目对<D，A>的情况只出现于存在DA方向序列的情况。依次包括D、A的序列一般与依次包括A、D的序列不同。这样，依次包括A、D的项目序列数和依次包括D、A的项目序列数一般也不相同。换言之，A、D和D、A在多个项目对中依次出现的频次一般不同。在项目A和D以不同顺序出现的两组项目序列中，A和D之间的时间跨度、间隔项目数的统计值也一般不同。这样，A->D和D->A就是两个完全不同的情形，项目对<A，D>和<D，A>各自的单向关联度也一般不同。

换言之，在基于项目序列挖掘项目对的情况下，即使从多个项目序列中既挖掘到第一顺序的项目对<A，D>，也挖掘到第二顺序的项目对<D，A>，分别对这两个项目对确定的单向关联度也是一般不同的。

总之，相同两个项目构成的两个不同项目对分别所对应的项目序列一般是不同的，所以上述依次出现频次、时间跨度统计值、间隔项目数统计值也往往是不同的，由此确定的单向关联度也就是不同的。

至少部分地根据不同项目对的相关统计值来确定各自的单向关联度，更能体现两个项目之间的实际非对称关联关系。

另外，在一些情况下，可以考虑项目序列整体的大方向，忽略项目序列局部的小方向。例如，可以忽略时间跨度不大于预定时间阈值或间隔项目数不大于预定跨度阈值(例如相邻)的两个项目的方向/顺序。以图3所示项目序列为例，基于该项目序列，可以同时构建项目对<A，B>和<B，A>。但是，对于相距较远的两个项目要考虑方向和跨度，例如，可以构建项目对<A，H>，而不会构建项目对<H，A>。这样,在全局上，AB和BA的贡献序列和配对情形就会对应得十分复杂，考虑到不同项目序列中项目的不同分布情况，最终的单向关联度计算结果也会呈现非对称性。

2.在单向关联度计算中体现非对称性关联关系的情形

如上文所述，在一些情况下，对于两个项目，可以以第一顺序建立第一项目对，并以与所述第一顺序相反的第二顺序建立第二项目对，第二项目对的单向关联度可以设为不同于所述第一项目对的单向关联度。

通过不同的途径建立这两个项目对，或者通过对第一对象和第二对象的特征不对称的非对称公式来确定关联度，都可以得到这样不同的单向关联度。

如上文所述，在基于项目序列挖掘项目对的情况下，不同顺序的项目对是从不同的项目序列中挖掘出的，因此这样的项目序列有不同的统计数据，所以可以很自然的引入不同顺序的项目对之间的非对称性。

在一些其它场景下，项目间可能不一定有这样清晰的指向关系或时间顺序。这种情况下，可以根据需要，基于对项目对中的第一项目的特征和第二项目的特征不对称的非对称公式，来确定项目对的单向关联度。

这样的非对称公式可以通过对第一项目的特征和第二项目的特征予以不对等的处理，体现两者关系的不对称性。

例如，可以在非对称公式的分子或分母中，仅涉及第一项目的特征或第二项目的特征。

或者，例如还可以在非对称公式的分子或分母中，对第一项目的特征和第二项目的特征设置不同的幂次。

可以根据实际的关联关系挖掘和应用场景来决定采用什么样的非对称公式。下面作为示例描述几种场景下，单向关联度的确定方式。

(1)项目推荐

在针对项目推荐(例如商品推荐)场景进行关联关系挖掘的情况下，在非对称公式的分母中，可以设置为使得第一项目的特征的幂次低于第二项目的特征的幂次。

作为示例，这样的非对称公式例如可以如下面的公式(1)所示：

其中，Sim(A，B)是项目B相对于项目A的关联度(在此例中为相似度)，X和Y分别是项目A和项目B的特征。

当X和Y分别为单个特征的数值时，当X和Y分别为特征向量时，可以分别表示X和Y各自的向量长度(向量的模)，XY则可以表示特征向量X和Y的点积。

当α等于1时，则蜕变为对称性的余弦相似度计算公式。而在本公开中，将α设为大于等于0且小于1的参数。这样，在用于关联度计算的非对称公式的分母中，X和Y的特征具有不同的幂次。

在挖掘关联关系以用于项目推荐的场景下，项目的特征可以为该项目的热门程度、与该项目直接关联的其它项目的数量、该项目在项目访问网络中的经过路径数量中的一项或多项。

图4示出了一种项目间关联网络的示意图。

在图4所示的项目间关联网络中，每个节点代表一个项目，节点间的项目表示项目间的关联关系，即两个项目之间具有关联关系。在一些场景下，项目间的关联关系为项目间的跳转关系。

考虑图4中两个节点A和C，在计算项目对<A，C>的关联度的时候，由于节点A的经过路径数、节点度数都大于C，根据效率网络特性，与节点C相比，节点A更容易获取新的连接，因此，可以设置为使得

Sim(A，C)>Sim(C，A)。

这里，节点度数是和节点相关联的边的条数。图4中，节点A的节点度数为7，而节点C的节点度数为2。

为简化计算以便于说明，在上述非对称性公式(1)中，项目A和C的特征X和Y可以分别采用节点A和C的节点度数。则

图4所示关联网络的应用场景可以从商品相似的角度直观解释为：对于一个小众商品(例如C)，如果它和一个比它热门的商品(例如A)关联上，则可以认为这种关联关系的特异性很大，即用户访问了一个热门商品(例如A)之后对于这种小众商品(例如C)的访问更可能是出于该用户自己的意愿和喜好，而不是一种外部引导。因此，可以对A到C的项目对<A，C>的单向关联度Sim(A,C)设置为大于相反的项目对<C，A>的单向关联度Sim(C,A)。而通过上面的非对称关联关系计算公式(1)，则可以体现这种非对称关联关系。

(2)版本摘录发现

文本相似场景中的摘录情形，是指一个具有较少信息的版本被一个具有较丰富信息的版本摘录。

在为发现版本摘录情形而进行关联关系挖掘的情况下，项目为文本，第一项目的特征为第一项目(第一文本)所包含的第一元素集合，第二项目(第二文本)的特征为第二项目所包含的第二元素集合，非对称公式包括第一元素集合和第二元素集合的交集的元素个数与第一元素集合的元素个数之商，如下面的公式(2)所示：

其中，Sim(A，B)是项目B(也即文本B)相对于项目A(也即文本B)的关联度(在此例中为相似度)，X是文本A所包含的第一元素集合，Y是文本B所包含的第二元素集合。第一元素集合和第二元素集合中的元素分别是文本A和文本B中所包含的字词。

|X∩Y|是集合X与集合Y的交集X∩Y的元素个数，而|X|则是集合X的元素个数。

图5示出了文本相似领域的一个示例。椭圆A和B分别表示文本A和文本B。椭圆中的黑点表示文本A和文本B各自包含的字词元素。以椭圆A中包含的黑点集合(第一元素集合)为集合X，以椭圆B中包含的黑点集合(第二元素集合)为集合Y，椭圆A和B重叠的部分为集合X和集合Y的交集X∩Y。

如图5所示，|X|>|Y|，所以

即，文本A相对于文本B的单向关联度高于文本B相对于文本A的单向关联度。在上述版本摘录情形发现场景下，可以解读为，文本A摘录了文本B的可能性大于文本B摘录了文本A的可能性。

由此，体现了文本A和文本B之间关联关系的非对称性，并且可以利用这种非对称性来发现文本摘录情形。

(3)版本盗用发现

文本相似场景中的版本盗用情形，即一个具有较多信息的版本被删减，或者删减后进行少量修改，得到具有较少信息的盗用版本的情况。

在为发现版本盗用情形而进行关联关系挖掘的情况下，项目同样为文本，第一项目的特征为第一项目所包含的第一元素集合，第二项目的特征为第二项目所包含的第二元素集合，非对称公式包括第一元素集合和第二元素集合的交集的元素个数与第二元素集合的元素个数之商，如下面的公式(2)所示：

|X∩Y|是集合X与集合Y的交集X∩Y的元素个数，而|Y|则是集合Y的元素个数。

图5所示文本相似领域的示例同样可以用于解释说明版本盗用情形。椭圆A和B分别表示文本A和文本B。椭圆中的黑点表示文本A和文本B各自包含的字词元素。以椭圆A中包含的黑点集合(第一元素集合)为集合X，以椭圆B中包含的黑点集合(第二元素集合)为集合Y，椭圆A和B重叠的部分为集合X和集合Y的交集X∩Y。

如图5所示，|X|>|Y|，所以

即，文本A相对于文本B的单向关联度小于文本B相对于文本A的单向关联度。在上述版本盗用情形发现场景下，可以解读为，文本A盗用了文本B的可能性小于文本B摘录了文本A的可能性。

由此，体现了文本A和文本B之间关联关系的非对称性，并且可以利用这种非对称性来发现版本盗用情形。

上文中详细描述了分别在挖掘项目对时，以及在确定单向关联度时，体现项目间非对称性关联关系的关联关系挖掘方案。

不论是如何挖掘的项目对，在确定单向关联度时，都可以使用随第一项目和第二项目的共同出现频率升高而减小的衰减因子来修正单向关联度。

由此，可以压制“哈利波特效应”，即当出现一个超级热门项目时，几乎所有其它项目都会与其产生关联关系。而实际上，这些关联关系是短时的、不真切的，具有一定的虚假性，需要压制因此而凸显的关联关系。

实践中，可以在必要时，通过给所确定的单向关联度乘以一个参数λ，来实现上述效果。

例如，这个参数λ可以根据如下公式(4)来确定：

其中，C是两个项目共同出现的频率，k为大于0且小于1的预定系数，例如可以取k＝0.67。

随着C的升高，参数λ指数降低。

图6示出了根据本发明一实施例可用于实现上述项目间关联关系挖掘方法的计算设备的结构示意图。

参见图6，计算设备600包括存储器610和处理器620。

处理器620可以是一个多核的处理器，也可以包含多个处理器。在一些实施例中，处理器620可以包含一个通用的主处理器以及一个或多个特殊的协处理器，例如图形处理器(GPU)、数字信号处理器(DSP)等等。在一些实施例中，处理器620可以使用定制的电路实现，例如特定用途集成电路(ASIC，Application Specific Integrated Circuit)或者现场可编程逻辑门阵列(FPGA，Field Programmable Gate Arrays)。

存储器610可以包括各种类型的存储单元，例如系统内存、只读存储器(ROM)，和永久存储装置。其中，ROM可以存储处理器620或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中，永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中，永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备，例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外，存储器610可以包括任意计算机可读存储媒介的组合，包括各种类型的半导体存储芯片(DRAM，SRAM，SDRAM，闪存，可编程只读存储器)，磁盘和/或光盘也可以采用。在一些实施方式中，存储器610可以包括可读和/或写的可移除的存储设备，例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM，双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。

存储器610上存储有可处理代码，当可处理代码被处理器620处理时，可以使处理器620执行上文述及的项目间关联关系挖掘方法。

上文中已经参考附图详细描述了根据本发明的项目间关联关系挖掘方法及装置。

此外，根据本发明的方法还可以实现为一种计算机程序或计算机程序产品，该计算机程序或计算机程序产品包括用于执行本发明的上述方法中限定的上述各步骤的计算机程序代码指令。

或者，本发明还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质)，其上存储有可执行代码(或计算机程序、或计算机指令代码)，当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时，使所述处理器执行根据本发明的上述方法的各个步骤。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。

附图中的流程图和框图显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种项目间关联关系挖掘方法，包括：

建立项目对，在所述项目对中，以能够区分的方式记录第一项目和第二项目；以及

针对所述项目对，确定并在关联关系数据库中与所述项目对关联地记录所述项目对的单向关联度，所述单向关联度表示所述第二项目相对于所述第一项目的关联度，而不表示所述第一项目相对于所述第二项目的关联度，

其中，在两个项目以第一顺序建立第一项目对的情况下，不以与所述第一顺序相反的第二顺序建立第二项目对；或者

对于两个项目，以第一顺序建立第一项目对，并以与所述第一顺序相反的第二顺序建立第二项目对，所述第二项目对的单向关联度不同于所述第一项目对的单向关联度。

2.根据权利要求1所述的方法，其中，所述建立项目对的步骤包括：

从具有项目间指向关系或时间顺序的项目序列中挖掘所述项目对，其中所述第一项目和所述第二项目在所述项目序列中具有预定的指向关系或时间顺序。

3.根据权利要求2所述的方法，其中，所述确定项目对的单向关联度的步骤包括：

至少部分地基于所述第一项目和所述第二项目在多个项目序列中按所述项目对对应的顺序出现的频次和/或时间跨度统计值和/或间隔项目数统计值，确定所述项目对的单向关联度。

4.根据权利要求2所述的方法，其中，所述建立项目对的步骤包括：

以预定项目或预定类型的项目作为所述第一项目；并且/或者

以预定项目或预定类型的项目作为所述第二项目。

5.根据权利要求2所述的方法，其中，

所述项目是用户行为，所述项目序列是包括预定长度时间窗口中的同一个用户的多个用户行为的用户行为序列；或者

所述项目序列是包括预定长度时间窗口中用户依次访问的多个项目的项目序列。

6.根据权利要求2所述的方法，其中，所述确定项目对的单向关联度的步骤包括：

基于对所述第一项目的特征和所述第二项目的特征对称的对称公式，确定所述项目对的单向关联度。

7.根据权利要求1所述的方法，其中，所述确定项目对的单向关联度的步骤包括：

基于对所述第一项目的特征和所述第二项目的特征不对称的非对称公式，确定所述项目对的单向关联度。

8.根据权利要求7所述的方法，其中，

在所述非对称公式的分子或分母中，仅涉及所述第一项目的特征或所述第二项目的特征；或者

在所述非对称公式的分子或分母中，对所述第一项目的特征和所述第二项目的特征设置不同的幂次。

9.根据权利要求8所述的方法，其中，

所述关联关系用于项目推荐，在所述非对称公式的分母中，所述第一项目的特征的幂次低于所述第二项目的特征的幂次；或者

所述关联关系用于发现版本摘录情形，所述项目为文本，所述第一项目的特征为所述第一项目所包含的第一元素集合，所述第二项目的特征为所述第二项目所包含的第二元素集合，所述非对称公式包括第一元素集合和第二元素集合的交集的元素个数与第一元素集合的元素个数之商；或者

所述关联关系用于发现版本盗用情形，所述项目为文本，所述第一项目的特征为所述第一项目所包含的第一元素集合，所述第二项目的特征为所述第二项目所包含的第二元素集合，所述非对称公式包括第一元素集合和第二元素集合的交集的元素个数与第二元素集合的元素个数之商。

10.根据权利要求9所述的方法，其中，

所述关联关系用于项目推荐，项目的特征为该项目的热门程度、与该项目直接关联的其它项目的数量、该项目在项目访问网络中的经过路径数量中的一项或多项。

11.根据权利要求1-10中任何一项所述的方法，其中，所述确定项目对的单向关联度的步骤包括：

使用随所述第一项目和所述第二项目的共同出现频率升高而减小的衰减因子来修正所述单向关联度。

12.一种项目间关联关系挖掘装置，包括：

项目对建立装置，用于建立项目对，在所述项目对中，以能够区分的方式记录第一项目和第二项目；以及

关联度确定装置，用于针对所述项目对，确定并在关联关系数据库中与所述项目对关联地记录所述项目对的单向关联度，所述单向关联度表示所述第二项目相对于所述第一项目的关联度，

其中，在两个项目以第一顺序建立第一项目对的情况下，所述项目对建立装置不以与所述第一顺序相反的第二顺序建立第二项目对；或者

对于两个项目，所述项目对建立装置以第一顺序建立第一项目对，以与所述第一顺序相反的第二顺序建立第二项目对，所述关联度确定装置被设置为使得所述第二项目对的单向关联度不同于所述第一项目对的单向关联度。

13.一种计算设备，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1-11中任何一项所述的方法。

14.一种非暂时性机器可读存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求1至11中任一项所述的方法。