CN107341252B - 一种挖掘规则关联模型未知关联关系的方法及装置 - Google Patents

一种挖掘规则关联模型未知关联关系的方法及装置 Download PDF

Info

Publication number
CN107341252B
CN107341252B CN201710557386.XA CN201710557386A CN107341252B CN 107341252 B CN107341252 B CN 107341252B CN 201710557386 A CN201710557386 A CN 201710557386A CN 107341252 B CN107341252 B CN 107341252B
Authority
CN
China
Prior art keywords
expression formula
vocabulary
model
rule
binary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710557386.XA
Other languages
English (en)
Other versions
CN107341252A (zh
Inventor
席丽娜
晋耀红
李德彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dingfu Intelligent Technology Co., Ltd
Original Assignee
China Science And Technology (beijing) Co Ltd
Beijing Shenzhou Taiyue Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Science And Technology (beijing) Co Ltd, Beijing Shenzhou Taiyue Software Co Ltd filed Critical China Science And Technology (beijing) Co Ltd
Priority to CN201710557386.XA priority Critical patent/CN107341252B/zh
Publication of CN107341252A publication Critical patent/CN107341252A/zh
Application granted granted Critical
Publication of CN107341252B publication Critical patent/CN107341252B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种挖掘规则关联模型未知关联关系的方法及装置,根据样本数据建立上下文词空间向量模型,参考关联分析算法生成二元关系表达式,再将得到的二元关系表达式中的词汇与获取到的规则关联模型中概念匹配,如果匹配成功,并且二元关系表达式中的词汇在规则关联模型中也并未互相建立关联关系,生成规则关联模型的二元关联关系表达式。利用规则关联模型和生成的二元关联关系表达式能准确的、有效的定位有使用价值的关联结果,进而帮助企业、商家和用户调整市场政策并做出正确的决策。

Description

一种挖掘规则关联模型未知关联关系的方法及装置
技术领域
本申请涉及数据挖掘技术领域,尤其涉及一种挖掘规则关联模型未知关联关系的方法及装置。
背景技术
在大数据时代,数据挖掘是最关键的工作。大数据的数据挖掘是从海量和随机的大型数据库中发现隐含在其中有用的信息和知识的过程,也是一种决策支持过程。通过对大数据高度自动化地分析,做出归纳性的推理,从中挖掘出潜在的模式,可以帮助企业、商家和用户调整市场政策并做出正确的决策。
通过关联分析进行数据挖掘是常用的方法之一,关联分析可以发现隐藏在数据项之间的关联或相互关系,即可以根据一个数据项的出现推导出其他数据项的出现。现有的关联分析的方法,大多基于现有机器学习算法,如Apriori算法和FPGrowth算法等。以Apriori算法为例,首先找出所有一元频繁项集,将所有一元频繁项集的支持度与预先设置的最小支持度对比,如果有一元频繁项集的支持度小于最小支持度,则该一元频繁项集作为无效项集被剪枝,然后,再根据上一步中剩余的一元频繁项集建立二元频繁项集,将所有二元频繁项集的支持度与最小支持度对比,如果有二元频繁项集的支持度小于最小支持度,则该二元频繁项集作为无效项集被剪枝,依此类推,直到得到理想频繁项集,最后根据理想频繁项集中各个非空子集的置信度,找到关联性最强的数据关联关系,理想频繁项集是指项集中的元素数量符合要求。
然而,上述这种方法虽然能够分析出数据之间的关联关系,但是分析的过程中,会产生大量的频繁项集,这些频繁项集并不一定都是对分析结果有贡献的数据,例如上文中提到的无效项集。在分析时,这些无效项集也会对分析结果造成干扰,使得关联分析方法不能保证绝对有效的定位有使用价值的关联结果。
发明内容
本申请提供了一种挖掘规则关联模型未知关联关系的方法及装置,以解决目前的关联分析算法不能保证绝对有效的定位有使用价值的关联结果的问题。
一方面,本申请提供了一种挖掘规则关联模型未知关联关系的方法,包括:
获取样本数据和规则关联模型,所述规则关联模型包括n个元组,n为大于1的正整数,每个所述元组包括至少一个概念;
根据所述样本数据,建立上下文词空间向量模型,所述上下文词空间向量模型包括k个词汇,k为大于1的正整数;
根据所述上下文词空间向量模型,生成二元关系表达式,所述二元关系表达式包括2个词汇;
将所述二元关系表达式与所述规则关联模型匹配,根据匹配结果,生成所述规则关联模型的关联关系表达式。
可选的,所述根据样本数据,建立上下文词空间向量模型之前,还包括:
预处理所述样本数据,所述预处理包括:分词和过滤停用词。
可选的,所述根据所述上下文词空间向量模型,生成二元关系表达式的步骤包括:
根据所述上下文词空间向量模型,生成数个关系表达式,所述关系表达式由m个词汇组成,m为大于或者等于1的正整数;
提取所述关系表达式中由2个词汇组成的二元关系表达式。
可选的,所述将二元关系表达式与所述规则关联模型匹配,根据匹配结果,生成所述规则关联模型的关联关系表达式的步骤包括:
将所述二元关系表达式中的词汇与所述规则关联模型中的概念匹配;
如果匹配成功,则判断所述二元关系表达式中的2个词汇是否已经在所述关联规则模型中建立关联关系;
如果所述二元关系表达式中的2个词汇未在所述关联规则模型中建立关联关系,则生成由二元关系表达式中的2个词组成的关联关系表达式。
可选的,所述将二元关系表达式中的词汇与所述规则关联模型中的概念匹配的步骤包括:
判断所述二元关系表达式中的词汇是否同时存在于所述规则关联模型的不同元组中;
如果所述二元关系表达式中的词汇同时存在于所述规则关联模型的不同元组中,则判断所述词汇所处的元组是否是相邻的元组;
如果所述词汇所处的元组是相邻的元组,则匹配成功。
另一方面,本申请还提供了一种挖掘规则关联模型未知关联关系的装置,包括:
获取模块,用于获取样本数据和规则关联模型,所述规则关联模型包括n个元组,n为大于1的正整数,每个所述元组包括至少一个概念;
模型建立模块,用于根据所述样本数据,建立上下文词空间向量模型,所述上下文词空间向量模型包括k个词汇,k为大于1的正整数;
二元关系表达式生成模块,用于根据所述上下文词空间向量模型,生成二元关系表达式,所述二元关系表达式包括2个词汇;
匹配模块,用于将所述二元关系表达式与所述规则关联模型匹配,根据匹配结果,生成所述规则关联模型的关联关系表达式。
可选的,所述装置还包括:
预处理模块,用于预处理所述样本数据,所述预处理包括:分词和过滤停用词。
可选的,所述二元关系表达式生成模块还包括:
关系表达式生成模块,用于根据所述上下文词空间向量模型,生成数个关系表达式,所述关系表达式由m个词汇组成,m为大于或者等于1的正整数;
提取模块,用于提取所述关系表达式中由2个词汇组成的二元关系表达式。
可选的,所述匹配模块还包括:
词汇与概念匹配模块,用于将所述二元关系表达式中的词汇与所述规则关联模型中的概念匹配;
关联关系判断模块,用于如果匹配成功,则判断所述二元关系表达式中的2个词汇是否已经在所述关联规则模型中建立关联关系;
如果所述二元关联表达式中的2个词汇未在所述关联规则模型中建立关联关系,则生成由二元关系表达式中的2个词组成的关联关系表达式。
可选的,所述词汇与概念匹配模块还包括:
词汇状态判断模块,用于判断所述二元关系表达式中的词汇是否同时存在于所述规则关联模型的不同元组中;
相邻元组判断模块,用于如果所述二元关系表达式中的词汇同时存在于所述规则关联模型的不同元组中,则判断所述词汇所处的元组是否是相邻的元组;
如果所述词汇所处的元组是相邻的元组,则匹配成功。
由以上技术方案可知,本申请提供了一种挖掘规则关联模型未知关联关系的方法及装置,根据样本数据建立上下文词空间向量模型,参考关联分析算法生成二元关系表达式,再将得到的二元关系表达式中的词汇与获取到的规则关联模型中概念匹配,如果匹配成功,并且二元关系表达式中的词汇在规则关联模型中也并未互相建立关联关系,生成规则关联模型的二元关联关系表达式。利用规则关联模型和生成的二元关联关系表达式能准确的、有效的定位有使用价值的关联结果,进而帮助企业、商家和用户调整市场政策并做出正确的决策。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施案例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种挖掘规则关联模型未知关联关系的方法的一个实施例的流程图;
图2为本申请实施例提供的一种挖掘规则关联模型未知关联关系的方法的另一个实施例的流程图;
图3为规则关联模型的示意图;
图4为补充后的规则关联模型的示意图;
图5为本申请实施例提供的一种挖掘规则关联模型未知关联关系的装置的结构图;
图6为二元关联表达式生成模块的结构图;
图7为匹配模块的结构图;
图8为词汇与概念匹配模块的结构图。
具体实施方式
下面结合说明书附图,对本申请实施例提供的一种挖掘规则关联模型未知关联关系的方法及装置的具体实施方式进行说明。
参见图1,为本申请实施例提供的一种挖掘规则关联模型未知关联关系的方法的一个实施例的流程图。本申请实施例提供了一种挖掘规则关联模型未知关联关系的方法,包括如下步骤:
步骤101,获取样本数据和规则关联模型,所述规则关联模型包括n个元组,n为大于1的正整数,每个所述元组包括至少一个概念。
样本数据是从具体企业、商家和用户的业务数据中随机抽取的,业务数据根据具体企业、商家和用户所处的实际业务场景不同而有着不同的业务概念,例如,银行的业务概念包括信用卡、利息、额度和口碑等词汇,所以银行的业务数据很大程度上是与信用卡、利息、额度和口碑等有关的数据。业务数据应与建立规则关联模型的数据来源于相同的业务场景,例如,获取的规则关联模型如图3所示,规则关联模型中有3个元组,其中包括信用卡、黄金、额度、利息、利率、很低、较低、很高、较高等概念,本申请实施例中获取的样本数据包含但不仅仅包含信用卡、黄金、额度、利息、利率、很低、较低、很高、较高等词汇。
步骤102,根据所述样本数据,建立上下文词空间向量模型,所述上下文词空间向量模型包括k个词汇,k为大于1的正整数。
本实施例仅仅以样本数据信用卡、黄金、额度、利息、利率、很低、较低、很高和较高为例,建立上下文词空间向量模型。例如,根据上述的样本数据,参考现有的机器学习算法:Apriori算法,可以建立的部分上下文词空间向量模型如表1所示:
表1
步骤103,根据所述上下文词空间向量模型,生成二元关系表达式,所述二元关系表达式包括2个词汇。
由于样本数据包含有一定数量的词汇,所以以此建立的上下文词空间向量模型有多个,对每一个上下文词空间向量模型进行关联算法分析,可分析出具有关联关系的两个词汇,并生成这两个词汇的二元关系表达式。
本申请实施例在进行关联关系分析的同时,也计算出每一个生成的二元关系表达式的支持度,支持度根据具有关联关系的词汇在样本数据出现的概率,和出现该词汇的样本数据占总样本数的百分比计算。
支持度可以直观地反映出二元关系表达式关联关系的强度,为企业、商家和用户提供调整和决策的依据。
步骤104,将所述二元关系表达式与所述规则关联模型匹配,根据匹配结果,生成所述规则关联模型的二元关联关系表达式。
如果经过步骤103之后,生成的二元关系表达式为“黄金-利息”,参见图3,可见在规则关联模型中,黄金和利息之间并未建立关联关系,所以将“黄金”和“利息”建立图3中规则关联模型的关联关系表达式。
由以上技术方案可知,本申请提供了一种挖掘规则关联模型未知关联关系的方法,根据样本数据建立上下文词空间向量模型,参考关联分析算法生成二元关系表达式,再将得到的二元关系表达式中的词汇与获取到的规则关联模型中概念匹配,如果匹配成功,并且二元关系表达式中的词汇在规则关联模型中也并未互相建立关联关系,生成规则关联模型的二元关联关系表达式。利用规则关联模型和生成的二元关联关系表达式能准确的、有效的定位有使用价值的关联结果,进而帮助企业、商家和用户调整市场政策并做出正确的决策。
参见图2,为本申请实施例提供的一种挖掘规则关联模型未知关联关系的方法的另一个实施例的流程图。本申请的另一种实施例提供了一种挖掘规则关联模型未知关联关系的方法,包括:
步骤201,获取样本数据和规则关联模型,所述规则关联模型包括n个元组,n为大于1的正整数,每个所述元组包括至少一个概念。
样本数据是从具体企业、商家和用户的业务数据中随机抽取的,业务数据根据具体企业、商家和用户所处的实际业务场景不同而有着不同的业务概念,例如,银行的业务概念包括信用卡、利息、额度和口碑等词汇,所以银行的业务数据很大程度上是与信用卡、利息、额度和口碑等有关的数据。业务数据应与建立规则关联模型的数据来源于相同的业务场景,例如,获取的规则关联模型如图3所示,规则关联模型中有3个元组,其中包括信用卡、黄金、额度、利息、利率、很低、较低、很高、较高等概念,本申请实施例中获取的样本数据包含但不仅仅包含信用卡、黄金、额度、利息、利率、很低、较低、很高、较高等词汇。
步骤202,预处理所述样本数据,所述预处理包括:分词和过滤停用词。
上述样本数据中不仅仅包含单独的词汇,还可能包含文章、句子等,当样本数据中含有文章、句子等数据时,需要对文章和句子进行分词处理和停用词过滤。分词处理和停用词过滤,即将文章或者句子中的关键词汇提取出来,作为简单的词汇数据使用,停用词即为明显不能作为关键词的词,例如,样本数据中包含“这家银行有某某类型的信用卡,但是这种信用卡的额度很低。”,在这句话中,“的”、“这”和“但是”明显不能作为关键词,将这些词作为停用词过滤掉,再对剩余的词汇进行分词处理,则可以提取出“信用卡”、“额度”和“很低”三个关键词。预处理可以快速排除非关键词的干扰。
步骤203,根据所述样本数据,建立上下文词空间向量模型,所述上下文词空间向量模型包括k个词汇,k为大于1的正整数。
本实施例仅仅以样本数据信用卡、黄金、额度、利息、利率、很低、较低、很高和较高为例,建立上下文词空间向量模型,可以建立的部分上下文词空间向量模型如上述表1所示。
进一步地,在建立上下文词空间向量模型后,还要对每一个具有关联关系的向量模型计算支持度,将支持度与预设的数值进行比较,保留符合要求的支持度对应的上下文词空间向量模型做后续处理,例如,保留下来的上下文词空间向量模型如表2所示:
表2
{信用卡,黄金,额度} {信用卡,黄金,利息} {黄金,额度,很低}
{信用卡,黄金,很低} {黄金,利息,很高} {利息,利率,很高}
步骤204,根据所述上下文词空间向量模型,生成数个关系表达式,所述关系表达式由m个词汇组成,m为大于或者等于1的正整数。
进一步地,参考Apriori算法,对上下文词空间向量模型处理,首先找出上下文词空间向量模型中所有一元频繁项集,即一元关系表达式,并计算一元关系表达式的支持度,然后,再根据一元关系表达式建立二元关系表达式,并计算二元关系表达式的支持度,依此类推,得到m元关系表达式及对应的支持度。
例如,对上述表2中上下文词空间向量模型{信用卡,黄金,利息}进行处理,可以得到的关系表达式如表3所示:
表3
对上述表2中上下文词空间向量模型{黄金,利息,很高}进行处理,可以得到的关系表达式如表4所示:
表4
步骤205,提取所述关系表达式中由2个词汇组成的二元关系表达式。
在步骤204中,经过对上下文词空间向量模型的处理后,每个上下文词空间向量模型都可以得到一元关系表达式、二元关系表达和三元关系表达式,其中一元关系表达式如“信用卡”,二元关系表达式如“信用卡-黄金”,三元关系表达式如“信用卡-黄金-利息”,本申请实施例中只对二元关系表达式进行,所以只提取由2个词汇组成的二元关系表达式。
例如,对上述表3和表4中的关系表达式进行提取,得到的二元关系表达式如表5所示:
表5
信用卡-黄金 信用卡-利息 黄金-利息
黄金-利息 黄金-很高 利息-很高
步骤206,将所述二元关系表达式中的词汇与所述规则关联模型中的概念匹配。
如图3所示,规则关联模型中的概念有:信用卡、黄金、额度、利息、利率、很低、较低、很高和较高。而组成二元关系表达式中的词汇却不仅仅限于这些词汇,上述二元关系表达式仅是举例说明,由于最初获取的样本数据的范围大于建立规则关联模型的概念范围,所以步骤205筛选出的二元关系表达式中的词汇也会有可能不在规则关联模型中出现,对于这种情况,本申请实施例步骤206需要将二元关系表达式中的词汇与规则关联模型中的概念匹配,判断二元关系表达式中的词汇在规则关联模型中是否有对应的概念存在。
步骤207,如果匹配成功,则判断所述二元关系表达式中的2个词汇是否已经在所述关联规则模型中建立关联关系。
步骤208,如果所述二元关系表达式中的2个词汇未在所述关联规则模型中建立关联关系,则生成由二元关系表达式中的2个词组成的二元关联关系表达式。
例如,判断上述的二元关系表达式“信用卡-利息”:如图3所示,信用卡与利息已经在规则关联模型中建立关联关系,则“信用卡-利息”是已经存在关联关系的关系表达式,这两个词汇之间不需要再次建立关联关系。
判断上述二元关系表达式“利息-很高”:如图3所示,利息和很高并未在规则关联模型中建立关联关系,则生成二元关联关系表达式“利息-很高”。
判断上述二元关系表达式“黄金-利息”:如图3所示,黄金和利息并未在规则关联模型中建立关联关系,则生成二元关联关系表达式“黄金-利息”。
所以,规则关联模型的二元关联关系表达式为“黄金-利息”和“利息-很高”,补充后的规则关联模型如图4所示,并且计算得出相应的二元关联关系表达式的支持度。
由以上技术方案可知,本申请提供了一种挖掘规则关联模型未知关联关系的方法,根据样本数据建立上下文词空间向量模型,参考关联分析算法生成二元关系表达式,再将得到的二元关系表达式中的词汇与获取到的规则关联模型中概念匹配,如果匹配成功,并且二元关系表达式中的词汇在规则关联模型中也并未互相建立关联关系,生成规则关联模型的二元关联关系表达式。利用规则关联模型和生成的二元关联关系表达式能准确的、有效的定位有使用价值的关联结果,进而帮助企业、商家和用户调整市场政策并做出正确的决策。
可选的,上述步骤206包括如下步骤:
步骤301,判断所述二元关系表达式中的词汇是否同时存在于所述规则关联模型的不同元组中;
步骤302,如果所述二元关系表达式中的词汇同时存在于所述规则关联模型的不同元组中,则判断所述词汇所处的元组是否是相邻的元组;
步骤303,如果所述词汇所处的元组是相邻的元组,则匹配成功。
如图3所示,规则关联模型中的概念有:信用卡、黄金、额度、利息、利率、很低、较低、很高和较高。而组成二元关联表达式中的词汇却不仅仅限于这些词汇,上述二元关联表达式仅是举例说明,由于最初获取的样本数据的范围大于建立规则关联模型的概念范围,所以步骤205筛选出的二元关联表达式中的词汇也会有可能不在规则关联模型中出现,对于这种情况,本申请实施例步骤206需要将二元关联表达式中的词汇与规则关联模型中的概念匹配,判断二元关联表达式中的词汇在规则关联模型中是否有对应的概念存在。
更进一步地,还要判断二元关系表达式中的词汇是否同时存在于规则关联模型的不同元组中,比如,上述表5中的二元关系表达式“信用卡-黄金”,查找规则关联模型可以发现,此式中的两个词汇在规则关联模型中处于同一个元组中,如图3所示,所以,对于这种情况的二元关系表达式,判定为匹配失败。
再比如,上述表5中的二元关系表达式“黄金-很高”,查找规则关联模型可以发现,此式中的两个词汇在规则关联模型中不处于同一个元组中,则进行下一步判断,判断“黄金”所在的元组与“很高”所在的元组是否为相邻的元组,如图3所示,这两个元组并不是相邻的元组,则匹配失败。
对于上述表5中的二元关系表达式“黄金-利息”和“利息-很高”,可判断为匹配成功。
需要注意的是,本申请实施例为了说明清楚,只列举了与规则关联模型中的概念相同的词汇,并对这些词汇采用一定的算法进行关联关系的挖掘;再有,对于挖掘出的关系表达式,本申请实施例中也只是列举了其中一部分进行说明,实际上的样本数据与挖掘出的关系表达式并不限于上述列出的部分,在此不再赘述。
参见图5,为本申请实施例提供的一种挖掘规则关联模型未知关联关系的装置,包括:
获取模块501,用于获取样本数据和规则关联模型,所述规则关联模型包括n个元组,n为大于1的正整数,每个所述元组包括至少一个概念;
模型建立模块503,用于根据所述样本数据,建立上下文词空间向量模型,所述上下文词空间向量模型包括k个词汇,k为大于1的正整数;
二元关联表达式生成模块504,用于根据所述上下文词空间向量模型,生成二元关系表达式,所述二元关系表达式包括2个词汇
匹配模块505,用于将所述二元关系表达式与所述规则关联模型匹配,根据匹配结果,生成所述规则关联模型的二元关联关系表达式。
可选的,所述装置还包括:
预处理模块502,用于预处理所述样本数据,所述预处理包括:分词和过滤停用词。
可选的,参见图6,所述二元关系表达式生成模块504还包括:
关联表达式生成模块601,用于根据所述上下文词空间向量模型,生成数个关系表达式,所述关系表达式由m个词汇组成,m为大于或者等于1的正整数;
提取模块602,用于提取所述关系表达式中由2个词汇组成的二元关系表达式。
可选的,参见图7,所述匹配模块505还包括:
词汇与概念匹配模块701,用于将所述二元关系表达式中的词汇与所述规则关联模型中的概念匹配;
关联关系判断模块702,用于如果匹配成功,则判断所述二元关系表达式中的2个词汇是否已经在所述关联规则模型中建立关联关系;
如果所述二元关联表达式中的2个词汇未在所述关联规则模型中建立关联关系,则生成由二元关系表达式中的2个词组成的二元关联关系表达式。
可选的,所述词汇与概念匹配模块701还包括:
词汇状态判断模块801,用于判断所述二元关系表达式中的词汇是否同时存在于所述规则关联模型的不同元组中;
相邻元组判断模块802,用于如果所述二元关系表达式中的词汇同时存在于所述规则关联模型的不同元组中,则判断所述词汇所处的元组是否是相邻的元组;
如果所述词汇所处的元组是相邻的元组,则匹配成功。
由以上技术方案可知,本申请提供了一种挖掘规则关联模型未知关联关系的方法及装置,根据样本数据建立上下文词空间向量模型,参考关联分析算法生成二元关系表达式,再将得到的二元关系表达式中的词汇与获取到的规则关联模型中概念匹配,如果匹配成功,并且二元关系表达式中的词汇在规则关联模型中也并未互相建立关联关系,生成规则关联模型的二元关联关系表达式。利用规则关联模型和生成的二元关联关系表达式能准确的、有效的定位有使用价值的关联结果,进而帮助企业、商家和用户调整市场政策并做出正确的决策。
本领域技术人员在考虑说明书及实践这里公开的申请后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围由权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。以上所述的本发明实施方式并不构成对本发明保护范围的限定。

Claims (6)

1.一种挖掘规则关联模型未知关联关系的方法,其特征在于,所述方法包括:
获取样本数据和规则关联模型,所述规则关联模型包括n个元组,n为大于1的正整数,每个所述元组包括至少一个概念;所述样本数据为从具体企业、商家和用户的业务数据中随机抽取的,包括对应实际业务场景下业务概念对应的词汇;
根据所述样本数据,建立上下文词空间向量模型,所述上下文词空间向量模型包括所述样本数据中的k个词汇,k为大于1的正整数;
根据所述上下文词空间向量模型,生成二元关系表达式,所述二元关系表达式包括存在关联关系的2个词汇;
将所述二元关系表达式与所述规则关联模型匹配,根据匹配结果,生成所述规则关联模型的二元关联关系表达式;
所述将二元关系表达式与所述规则关联模型匹配,根据匹配结果,生成所述规则关联模型的二元关联关系表达式的步骤包括:
将所述二元关系表达式中的词汇与所述规则关联模型中的概念匹配;
如果匹配成功,则判断所述二元关系表达式中的2个词汇是否已经在所述关联规则模型中建立关联关系;
如果所述二元关系表达式中的2个词汇未在所述关联规则模型中建立关联关系,则生成由二元关系表达式中的2个词组成的二元关联关系表达式;
所述将二元关系表达式中的词汇与所述规则关联模型中的概念匹配的步骤包括:
判断所述二元关系表达式中的词汇是否同时存在于所述规则关联模型的不同元组中;
如果所述二元关系表达式中的词汇同时存在于所述规则关联模型的不同元组中,则判断所述词汇所处的元组是否是相邻的元组;
如果所述词汇所处的元组是相邻的元组,则匹配成功。
2.根据权利要求1所述的方法,其特征在于,所述根据样本数据,建立上下文词空间向量模型之前,还包括:
预处理所述样本数据,所述预处理包括:分词和过滤停用词。
3.根据权利要求1所述的方法,其特征在于,所述根据所述上下文词空间向量模型,生成二元关系表达式的步骤包括:
根据所述上下文词空间向量模型,生成数个关系表达式,所述关系表达式由m个词汇组成,m为大于或者等于1的正整数;
提取所述关系表达式中由2个词汇组成的二元关系表达式。
4.一种挖掘规则关联模型未知关联关系的装置,其特征在于,所述装置包括:
获取模块,用于获取样本数据和规则关联模型,所述规则关联模型包括n个元组,n为大于1的正整数,每个所述元组包括至少一个概念;所述样本数据为从具体企业、商家和用户的业务数据中随机抽取的,包括对应实际业务场景下业务概念对应的词汇;
模型建立模块,用于根据所述样本数据,建立上下文词空间向量模型,所述上下文词空间向量模型包括所述样本数据中的k个词汇,k为大于1的正整数;
二元关系表达式生成模块,用于根据所述上下文词空间向量模型,生成二元关系表达式,所述二元关系表达式包括存在关联关系的2个词汇;
匹配模块,用于将所述二元关系表达式与所述规则关联模型匹配,根据匹配结果,生成所述规则关联模型的二元关联关系表达式;
所述匹配模块还包括:
词汇与概念匹配模块,用于将所述二元关系表达式中的词汇与所述规则关联模型中的概念匹配;
关联关系判断模块,用于如果匹配成功,则判断所述二元关系表达式中的2个词汇是否已经在所述关联规则模型中建立关联关系;
如果所述二元关联表达式中的2个词汇未在所述关联规则模型中建立关联关系,则生成由二元关系表达式中的2个词组成的二元关联关系表达式;
所述词汇与概念匹配模块还包括:
词汇状态判断模块,用于判断所述二元关系表达式中的词汇是否同时存在于所述规则关联模型的不同元组中;
相邻元组判断模块,用于如果所述二元关系表达式中的词汇同时存在于所述规则关联模型的不同元组中,则判断所述词汇所处的元组是否是相邻的元组;
如果所述词汇所处的元组是相邻的元组,则匹配成功。
5.根据权利要求4所述的装置,其特征在于,所述装置还包括:
预处理模块,用于预处理所述样本数据,所述预处理包括:分词和过滤停用词。
6.根据权利要求4所述的装置,其特征在于,所述二元关系表达式生成模块还包括:
关系表达式生成模块,用于根据所述上下文词空间向量模型,生成数个关系表达式,所述关系表达式由m个词汇组成,m为大于或者等于1的正整数;
提取模块,用于提取所述关系表达式中由2个词汇组成的二元关系表达式。
CN201710557386.XA 2017-07-10 2017-07-10 一种挖掘规则关联模型未知关联关系的方法及装置 Active CN107341252B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710557386.XA CN107341252B (zh) 2017-07-10 2017-07-10 一种挖掘规则关联模型未知关联关系的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710557386.XA CN107341252B (zh) 2017-07-10 2017-07-10 一种挖掘规则关联模型未知关联关系的方法及装置

Publications (2)

Publication Number Publication Date
CN107341252A CN107341252A (zh) 2017-11-10
CN107341252B true CN107341252B (zh) 2018-08-17

Family

ID=60218545

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710557386.XA Active CN107341252B (zh) 2017-07-10 2017-07-10 一种挖掘规则关联模型未知关联关系的方法及装置

Country Status (1)

Country Link
CN (1) CN107341252B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111401060B (zh) * 2020-03-17 2023-06-13 网易(杭州)网络有限公司 一种干扰词生成方法、装置、电子设备和存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8156142B2 (en) * 2008-12-22 2012-04-10 Sap Ag Semantically weighted searching in a governed corpus of terms
CN102509171B (zh) * 2011-10-24 2014-11-12 浙江大学 一种面向规则执行日志的流程挖掘方法
CN103500208B (zh) * 2013-09-30 2016-08-17 中国科学院自动化研究所 结合知识库的深层数据处理方法和系统
CN103699663B (zh) * 2013-12-27 2017-02-08 中国科学院自动化研究所 一种基于大规模知识库的热点事件挖掘方法
CN104915340B (zh) * 2014-03-10 2019-09-10 北京大学 自然语言问答方法及装置
CN104008092B (zh) * 2014-06-10 2017-01-18 复旦大学 一种基于语义空间映射的语义关系表征、聚类及识别的方法和系统
CN104464291B (zh) * 2014-12-08 2017-02-01 杭州智诚惠通科技有限公司 一种交通流量预测方法和系统

Also Published As

Publication number Publication date
CN107341252A (zh) 2017-11-10

Similar Documents

Publication Publication Date Title
CN107515877B (zh) 敏感主题词集的生成方法和装置
Cohen et al. End to end long short term memory networks for non-factoid question answering
CN108132927B (zh) 一种融合图结构与节点关联的关键词提取方法
Alzubi et al. Paraphrase identification using collaborative adversarial networks
CN108595696A (zh) 一种基于云平台的人机交互智能问答方法和系统
CN107608999A (zh) 一种适用于自动问答系统的问句分类方法
CN107220295A (zh) 一种人民矛盾调解案例搜索和调解策略推荐方法
CN104462053A (zh) 一种文本内的基于语义特征的人称代词指代消解方法
CN110705247B (zh) 基于χ2-C的文本相似度计算方法
CN107766323A (zh) 一种基于互信息和关联规则的文本特征提取方法
CN109783794A (zh) 文本分类方法及装置
CN108268554A (zh) 一种生成垃圾短信过滤策略的方法和装置
CN112559684A (zh) 一种关键词提取及信息检索方法
CN109829045A (zh) 一种问答方法和装置
CN108520009A (zh) 一种英文文本聚类方法及系统
CN108228569A (zh) 一种基于松散条件下协同学习的中文微博情感分析方法
CN107943514A (zh) 一种软件文档中核心代码元素的挖掘方法及系统
CN105205163B (zh) 一种科技新闻的增量学习多层次二分类方法
CN109558587A (zh) 一种针对类别分布不平衡的舆论倾向性识别的分类方法
CN107832467A (zh) 一种基于改进的Single‑pass聚类算法的微博话题检测方法
Nguyen et al. An ensemble of shallow and deep learning algorithms for Vietnamese sentiment analysis
Mersinias et al. CLFD: A novel vectorization technique and its application in fake news detection
CN115146021A (zh) 文本检索匹配模型的训练方法、装置、电子设备及介质
Mani et al. Email spam detection using gated recurrent neural network
CN107341252B (zh) 一种挖掘规则关联模型未知关联关系的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20190904

Address after: Room 630, 6th floor, Block A, Wanliu Xingui Building, 28 Wanquanzhuang Road, Haidian District, Beijing

Patentee after: China Science and Technology (Beijing) Co., Ltd.

Address before: Room 601, Block A, Wanliu Xingui Building, 28 Wanquanzhuang Road, Haidian District, Beijing

Co-patentee before: China Science and Technology (Beijing) Co., Ltd.

Patentee before: Beijing Shenzhou Taiyue Software Co., Ltd.

TR01 Transfer of patent right
CP03 Change of name, title or address

Address after: 230000 zone B, 19th floor, building A1, 3333 Xiyou Road, hi tech Zone, Hefei City, Anhui Province

Patentee after: Dingfu Intelligent Technology Co., Ltd

Address before: Room 630, 6th floor, Block A, Wanliu Xingui Building, 28 Wanquanzhuang Road, Haidian District, Beijing

Patentee before: DINFO (BEIJING) SCIENCE DEVELOPMENT Co.,Ltd.

CP03 Change of name, title or address