一种多元关联关系的分析方法及装置
技术领域
本申请涉及数据挖掘的技术领域,尤其涉及一种多元关联关系的分析方法及装置。
背景技术
在运营企业细分市场、力求提供差别服务的时代,运营企业需面对日益增加的市场竞争压力,能否拥有一套迅速灵敏、功能强大的数据挖掘系统,有针对性地制定战略,适时推出各种营销策略,显得越来越重要。
关联分析是数据挖掘重要的手段之一,用来发现数据库中不同数据之间的相关性。现有的关联分析方法大多是基于机器学习算法,如Apriori算法和FPGrowth算法等,分析挖掘频繁项集,进而发现不同数据之间的相关性。
但是,现有的关联分析方法所发现的数据之间的相关性,会因外在因素变化而失效,例如在银行业务办理中,某种信用卡的A型分期付款业务,比较受储户欢迎,但是A型分期付款业务已取消,现有的关联分析方法还是会挖掘出这种已失效的相关性。除此之外,距离当前时间越接近的数据的相关性越重要,例如,一银行上周推出某种信用卡的B型分期付款业务,深受储户欢迎,但是现有的关联分析方法会因支持度不足而无法发现。因此,现有的关联分析方法不能准确的定位有使用价值的关联结果,不利于决策者制定相应的营销策略。
发明内容
本申请提供了一种多元关联关系的分析方法及装置,以解决现有的关联分析方法不能准确的定位有使用价值的关联结果,不利于决策者制定相应的营销策略的问题。
第一方面,本申请提供了一种多元关联关系的分析方法,包括:
创建元组集,所述元组集包括N个元组,每个所述元组包括至少一个元素,N为大于1的正整数;
根据第M-1个元组中的元素与第M个元组中的元素之间的对应关系,建立所述第M-1个元组与所述第M个元组的映射关系,其中,M=2,3,……,N;
根据所述映射关系,生成关联表达式列表;
根据所述关联表达式列表进行关联关系分析。
第二方面,本申请还提供了一种多元关联关系的分析装置,包括:
创建模块,用于创建元组集,所述元组集包括N个元组,每个所述元组包括至少一个元素,N为大于1的正整数;
映射建立模块,根据第M-1个元组中的元素与第M个元组中的元素之间的对应关系,建立所述第M-1个元组与所述第M个元组的映射关系,其中,M=2,3,……,N;
生成模块,用于根据所述映射关系,生成关联表达式列表;
关联关系分析模块,用于根据所述关联表达式列表进行关联关系分析。
由以上技术方案可知,本申请提供了一种多元关联关系的分析方法及装置,元组的数量、每个元组的元素以及不同元组的元素对应关系可根据实际的业务场景进行设置,生成适应于当前的业务场景的关联表达式列表,并且利用关联表达式所表现的语义能准确的定位数据库中有使用价值的关联结果,提高关联分析的有效性,有利于决策者制定相应的营销策略。而且相比于现有的机器学习算法,利用频繁集进行迭代组合而逐条建立关联表达式而言,本申请通过多元组模型可同时生成多条关联表达式,并对文本信息进行关联关系分析,从而得到多个关联分析结果,提高关联分析的运算效率。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请提供的一种多元关联关系的分析方法一个实施例的流程图;
图2为本申请提供的一种多元关联关系的分析方法另一个实施例的流程图;
图3为图2中步骤S207的流程图;
图4为图3中步骤S301的流程图;
图5为本申请实施例提供的一种多元关联关系模型的示意图;
图6为本申请提供的一种多元关联关系的分析装置的结构示意图;
图7为生成模块的结构示意图;
图8为关联关系分析模块的结构示意图;
图9为分析子模块的结构示意图;
图10为匹配单元的结构示意图。
具体实施方式
下面结合说明书附图,对本申请实施例提供的一种多元关联关系的分析方法及装置的具体实施方式进行说明。
参见图1,本申请实施例提供了一种多元关联关系的分析方法,包括如下步骤:
步骤S101:创建元组集,所述元组集包括N个元组,每个所述元组包括至少一个元素,N为大于1的正整数。
元组集内的元组可是仅含有一个元素,也可以是由多个元素构成。多元组定义为元组集中含有相应数量的元组。元组可根据元素的类型划分,如含有产品种类的元组、含有业务种类的元组和口碑评价的元组等等。以三元组构成的元组集为例,即元组集中含有三个元组,第一个元组是元素仅为“信用卡”,第二个元组是由元素为“贷款年限”、“还款额度”和“还款期限”构成,第三个元组是由元素为“较高”和“太低”构成。
步骤S102:根据第M-1个元组中的元素与第M个元组中的元素之间的对应关系,建立所述第M-1个元组与所述第M个元组的映射关系,其中,M=2,3,……,N。
步骤S103:根据所述映射关系,生成关联表达式列表。
步骤S104:根据所述关联表达式列表进行关联关系分析。
由以上技术方案可知,本申请提供了一种多元关联关系的分析方法,元组的数量、每个元组的元素以及不同元组的元素对应关系可根据实际的业务场景进行设置,生成适应于当前的业务场景的关联表达式列表,并且利用关联表达式所表现的语义能准确的定位数据库中有使用价值的关联结果,提高关联分析的有效性,有利于决策者制定相应的营销策略;而且相比于现有的机器学习算法,利用频繁集进行迭代组合而逐条建立关联表达式而言,本申请通过多元组模型可同时建立多条关联表达式,并对文本信息进行关联关系分析,从而得到多个关联分析结果,提高关联分析的运算效率。
参见图2,图2为本申请提供的一种多元关联关系的分析方法另一个实施例的流程图。本申请的另一实施例提供了一种多元关联关系的分析方法,包括:
步骤S201:创建元组集,所述元组集包括N个元组,每个所述元组包括至少一个元素,N为大于1的正整数。
元组集内的多个元组可按照预设的顺序排列,也可以无序排列。元组集内元组的数量以及每个元组内的元素数量可根据当前的业务场景的需要进行设置。元组集内的元素可由用户录入或导入,也可以在数据库中选取对应的元素,例如,引用现有的与元素类型对应的概念资源。
步骤S202:根据第M-1个元组中的元素与第M个元组中的元素之间的对应关系,建立所述第M-1个元组与所述第M个元组的映射关系,其中,M=2,3,……,N。
用户可根据实际业务场景,在相邻的两个元组中分别选择需要建立对应关系的元素,进而建立第一个元组至第N个元组的映射关系,参见图5,以三元组构成的元组集为例,第一个元组是元素为“信用卡”和“储蓄卡”,第二个元组是由元素为“贷款年限”、“还款额度”和“利息”构成,第三个元组是由元素为“较高”、“合适”和“太低”构成。
用户可在第一个元组中选取需要建立对应关系的元素,例如选择“信用卡”,在第二元组的元素会对应“信用卡”分为建立关系列队和未建立关系列队,建立关系列队由已与“信用卡”建立对应关系的元素组成,未建立关系列队由未与“信用卡”建立对应关系的元素组成,假设第二个元组中的元素“贷款年限”、“还款额度”和“还款期限”均未与“信用卡”建立对应关系,则建立关系列队为空,未建立关系列队包括“贷款年限”、“还款额度”和“利息”。用户在未建立关系列队中选取需与“信用卡”建立对应关系的元素,例如“贷款年限”和“还款额度”。
响应用户的选择操作,将“信用卡”分别与“贷款年限”和“还款额度”建立对应关系,“贷款年限”和“还款额度”由未建立关系列队移动到建立关系列队,同理,可将“储蓄卡”与“利息”建立对应关系,从而完成第一个元组与第二个元组的映射关系,同理,可对第二个元组和第三个元组建立映射关系。建立对应关系的方式不限于上述的用户设置,也可通过语料学习自动建立关联关系,在此不做限制。
步骤S203:根据所述映射关系,生成至少一个与映射关系对应的关联表达式。
根据第一个元组至第N个元组的映射关系,逐一生成关联表达式,以图5所示,生成的关联表达式如下所示
关联表达式1 |
信用卡-贷款年限-较高 |
关联表达式2 |
信用卡-贷款年限-合适 |
关联表达式3 |
信用卡-还款额度-较高 |
关联表达式4 |
信用卡-贷款年限-太低 |
关联表达式5 |
储蓄卡-利息-较高 |
关联表达式6 |
储蓄卡-利息-太低 |
步骤S204:根据每个所述关联表达式的语义,确定每个所述关联表达式对应的情感倾向值。
情感倾向值包括正面情感倾向值、中性情感倾向值和负面情感倾向值。具体的取值可由用户具体设置,例如可设定正面情感倾值为1,中性情感倾向值为0,负面情感倾向值为-1。如上表所示,关联表达式3“信用卡-还款额度-较高”和关联表达式6“储蓄卡-利息-太低”属于负面情感表达,因此,关联表达式3和关联表达式6均为负面情感倾向值-1;关联表达式4“信用卡-贷款年限-合适”属于中性情感表达,为中性情感倾向值0;关联表达式1“信用卡-贷款年限-较高”和关联表达式5“储蓄卡-利息-较高”属于正面情感表达,为正面情感倾向值1。
每个关联表达式都赋予对应的情感倾向值,可利用每个关联表达式的情感倾向值分析文本信息的情感倾向,有利于提高关联结果的识别性,决策者可通过情感倾向值直观的了解关联结果所表达的情感,并且作为制定相应营销策略的依据。
步骤S205:根据每个关联表达式和对应的情感倾向值,生成关联表达式列表。
例如,上述的关联表达式和对应的情感倾向值,可以生成如下的关联表达式列表,
关联表达式1 |
信用卡-贷款年限-较高 |
1 |
关联表达式2 |
信用卡-贷款年限-合适 |
0 |
关联表达式3 |
信用卡-还款额度-较高 |
-1 |
关联表达式4 |
信用卡-贷款年限-太低 |
-1 |
关联表达式5 |
储蓄卡-利息-较高 |
1 |
关联表达式6 |
储蓄卡-利息-太低 |
-1 |
步骤S206:获取至少一个文本信息。
文本信息可以从网站上的评论中选取,通常,购买某个产品或享有某项业务的用户会在网站的评论中分享评价和体验,另外,也可以从诸如微博、博客和虚拟社区的社交媒体上发布的某个产品或某项业务的评价中选取。
步骤S207:将每个所述文本信息与所述关联表达式列表中的每个关联表达式相匹配,得到关联分析结果。
逐个分析获取到的文本信息,遍历关联表达式列表,将每个文本信息分别与每个关联表达式相匹配,得到每个关联表达式相匹配的文本信息,得到关联分析结果,根据每个关联表达式相匹配的文本信息数量,可以直观反映是否是强关联关系,以使决策者作为制定营销策略的依据。
由以上技术方案可知,本申请提供了一种多元关联关系的分析方法,元组的数量、每个元组的元素以及不同元组的元素对应关系可根据实际的业务场景进行设置,生成适应于当前的业务场景的关联表达式列表,并且利用关联表达式所表现的语义能准确的定位数据库中有使用价值的关联结果,提高关联分析的有效性,有利于决策者制定相应的营销策略。而且相比于现有的机器学习算法,利用频繁集进行迭代组合而逐条建立关联表达式而言,本申请通过多元组模型可同时生成多条关联表达式,并对文本信息进行关联关系分析,从而得到多个关联分析结果,提高关联分析的运算效率。
参见图3,上述步骤S207包括以下步骤:
步骤S301:将第一关联表达式中所有的概念与第一文本信息,按照预设的匹配规则进行匹配;其中,所述第一关联表达式是所述关联表达式列表中的任意一个关联表达式;所述概念是在所述第一关联表达式中,具有关联关系且分别属于所述N个元组的元素;所述第一文本信息是所有文本信息中的任意一个。
以上述的关联表达式1“信用卡-贷款年限-较高”为例,“信用卡”、“贷款年限”和“较高”为关联表达式1的概念,需将“信用卡”、“贷款年限”和“较高”均与第一文本信息匹配。
预设的匹配规则可以是顺序匹配或者无序匹配,顺序匹配是不仅要将文本信息与关联表达式的所有概念进行语义匹配,概念的排列顺序与文本信息中与概念相匹配的信息的排列顺序也要进行匹配,无序匹配是仅需要对文本信息与关联表达式的所有概念进行语义匹配即可。
步骤S302:如果所述第一关联表达式中所有的概念按照预设的匹配规则,均与第一文本信息匹配,则确定所述第一关联表达式与第一文本信息匹配。
对于顺序匹配,例如,文本信息为“我办了一张信用卡,每月最低还款额度为2000,比其他银行的高很多”,按照顺序匹配规则,语义和排列顺序与该本信息相匹配的是关联表达式“信用卡-还款额度-较高”。而文本信息“每月最低还款额度为2000,这张信用卡太不划算了”,则无与其相匹配的关联表达式。对于无序匹配,文本信息为“每月最低还款额度为2000,这张信用卡太不划算了”和“我办了一张信用卡,每月最低还款额度为2000,比其他银行的高很多”,按照无序匹配规则,该两个文本信息相匹配的关联表达式都是“信用卡-还款额度-较高”。
参见图4,上述步骤S301还包括以下步骤:
步骤S401:判断第一关联表达式中的当前概念是否有对应的概念值表达式列表;
概念值表达式列表中的概念值表达式可以是特征词,可以是正则表达式等。正则表达式是一种正规的描述字符串模式的表达式,可以用来进行文本匹配,具体为在给定的文本信息中查找与给定的正则表达式相匹配的部分。
概念值表达式列表可通过现有的语义模型建设平台进行构建,也可直接引用已有的概念值表达式列表。
第一关联表达式中的当前概念是指即将要与第一文本信息进行匹配的概念。
如果所述当前概念有对应的概念值表达式列表,则执行步骤S402-S404;
如果所述当前概念没有对应的概念值表达式列表,则执行步骤S405。
步骤S402:获取所述概念值值表达式列表。
例如“太低”这一概念,假设“太低”有对应的概念值表达式列表,则获取该概念对应的表达式列表,该概念值表达式列表中包括“偏低”等特征词,也可包含与概念语义相近的正则表达式,例如,“不.{0,2}高”,“不.{0,2}可观”等。
步骤S403:将概念值表达式列表中的每个概念值表达式与第一文本信息进行匹配。
步骤S404:如果所述概念值表达式列表中任意一个概念值表达式与所述第一文本信息相匹配,则确定当前概念与所述第一文本信息匹配。
具体匹配规则在此不做限定,可采用现有的任何匹配规则进行匹配,例如对于有序匹配,可采用模式匹配加位置匹配,即从第一文本信息的第一个字符起与概念值表达式列表中的任意一个表达式的第一个字符进行匹配,若相匹配,则继续对字符进行后续的比较,若不匹配,则从第一文本信息的第二个字符起与该语义项的第一个字符重新比较,直至语义项的每个字符依次与第一文本信息中的一个连续的字符序列相等为止,并且记录第一文本信息中与当前概念匹配的信息的位置,如果位置顺序与概念排列顺序相同,则视为匹配成功,否则匹配失败。
对于无序匹配,则采用模式匹配即可,即从第一文本信息的第一个字符起与概念值表达式列表中的任意一个概念值表达式的第一个字符进行匹配,若相匹配,则继续对字符进行后续的比较,若不匹配,则从第一文本信息的第二个字符起与该语义项的第一个字符重新比较,直至语义项的每个字符依次与第一文本信息中的一个连续的字符序列相等为止,则视为匹配成功,否则匹配失败。如果匹配失败,再重新获取第二个概念值表达式进行上述匹配过程,直至有概念值表达式与第一文本信息匹配成功,或者将所有概念值表达式都进行完匹配过程为止。
除了上述的匹配规则,对于概念值表达式列表中的具体的特征词的匹配,还可采用模糊语义匹配,例如,在假设文本信息中含有词语“纸巾”,而在概念值表达式列表中有“抽纸”,则根据模糊语义匹配原则,确定“纸巾”与“抽纸”匹配成功,并将“纸巾”作为新的概念值表达式存储到概念值表达式列表中,以丰富概念值表达式列表,提高匹配的准确性。
对于正则表达式的匹配,两个字符之间可采用任何符合数量要求的字符均可视为匹配成功,例如第一文本信息中存在“不是很高”、“不高”或者“不是太高”,均可视为与正则表达式“不.{0,2}高”匹配成功。
步骤S405:将所述当前概念与所述第一文本信息进行匹配,得到匹配结果。
当前概念没有对应的概念值表达式列表,则需将当前概念直接与所述第一文本信息进行匹配。具体匹配规则在此不做限定,可采用现有的任何匹配规则进行匹配,示例性的,可采用上述的匹配规则进行匹配,不再赘述。
采用关联表达式中概念对应的概念值表达式列表与文本信息进行匹配,由于概念值表达式列表中含有文本信息中包含的各种语义描述的方式,所以提高匹配的准确性,从而提高关联结果的准确性。
第二方面,参见图6,本申请提供一种多元关联关系的分析装置,包括:
创建模块601,用于创建元组集,所述元组集包括N个元组,每个所述元组包括至少一个元素,N为大于1的正整数;
映射建立模块602,根据第M-1个元组中的元素与第M个元组中的元素之间的对应关系,建立所述第M-1个元组与所述第M个元组的映射关系,其中,M=2,3,……,N;
生成模块603,用于根据所述映射关系,生成关联表达式列表;
关联关系分析模块604,用于根据所述关联表达式列表进行关联关系分析。
进一步地,参见图7,所述生成模块603还包括:
关联表达式生成单元701,用于根据所述映射关系,生成至少一个与映射关系对应的关联表达式;
情感倾向值确定单元702,根据每个所述关联表达式的语义,确定每个所述关联表达式对应的情感倾向值;
关联表达式列表生成单元703,根据每个所述关联表达式和对应的情感倾向值,生成关联表达式列表。
进一步地,参见图8,所述关联关系分析模块604还包括:
获取子模块801,用于获取至少一个文本信息;
分析子模块802,用于将每个所述文本信息与所述关联表达式列表中的每个关联表达式相匹配,得到关联分析结果。
进一步地,参见图9,所述分析子模块802包括:
匹配单元901,用于将第一关联表达式中所有的概念与第一文本信息,按照预设的匹配规则进行匹配;其中,所述第一关联表达式是所述关联表达式列表中的任意一个关联表达式;所述概念是在所述第一关联表达式中,具有关联关系且分别属于所述N个元组的元素;所述第一文本信息是所有文本信息中的任意一个;
确定单元902,用于如果所述第一关联表达式中所有的概念按照预设的匹配规则,均与第一文本信息匹配,则确定所述第一关联表达式与第一文本信息匹配。
进一步地,参见图10,所述匹配单元901包括:
判断子单元1001,用于判断第一关联表达式中的当前概念是否有对应的概念值表达式列表;
概念值表达式列表获取子单元1002,用于如果所述当前概念有对应的概念值表达式列表,则获取所述概念值表达式列表;
第一匹配子单元1003,用于将所述概念值表达式列表中的每个概念值表达式与所述第一文本信息进行匹配;
确定子单元1004,用于如果所述概念值表达式列表中任意一个概念值表达式与所述第一文本信息相匹配,则确定当前概念与所述第一文本信息匹配;
确定子单元1005,还用于如果所述当前概念没有对应的概念值表达式列表,则将所述当前概念与所述第一文本信息进行匹配,得到匹配结果。
由以上技术方案可知,本申请提供了一种多元关联关系的分析方法及装置,元组的数量、每个元组的元素以及不同元组的元素对应关系可根据实际的业务场景进行设置,生成适应于当前的业务场景的关联表达式列表,并且利用关联表达式所表现的语义能准确的定位数据库中有使用价值的关联结果,提高关联分析的有效性,有利于决策者制定相应的营销策略。而且相比于现有的机器学习算法,利用频繁集进行迭代组合而逐条建立关联表达式而言,本申请通过多元组模型可同时生成多条关联表达式,并对文本信息进行关联关系分析,从而得到多个关联分析结果,提高关联分析的运算效率。
本领域的技术人员可以清楚地了解到本申请实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请实施例中的技术方案本质上或者或对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以似的一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分可相互参见即可,每个实施例重点说明的都是与其他实施例的不同之处,尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。