CN107315831A - 一种挖掘规则关联模型未知关联关系的方法及装置 - Google Patents

一种挖掘规则关联模型未知关联关系的方法及装置 Download PDF

Info

Publication number
CN107315831A
CN107315831A CN201710556213.6A CN201710556213A CN107315831A CN 107315831 A CN107315831 A CN 107315831A CN 201710556213 A CN201710556213 A CN 201710556213A CN 107315831 A CN107315831 A CN 107315831A
Authority
CN
China
Prior art keywords
expression
concept
rule
list
sample information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710556213.6A
Other languages
English (en)
Other versions
CN107315831B (zh
Inventor
李德彦
席丽娜
晋耀红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dingfu Intelligent Technology Co., Ltd
Original Assignee
China Science And Technology (beijing) Co Ltd
Beijing Shenzhou Taiyue Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Science And Technology (beijing) Co Ltd, Beijing Shenzhou Taiyue Software Co Ltd filed Critical China Science And Technology (beijing) Co Ltd
Priority to CN201710556213.6A priority Critical patent/CN107315831B/zh
Publication of CN107315831A publication Critical patent/CN107315831A/zh
Application granted granted Critical
Publication of CN107315831B publication Critical patent/CN107315831B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Fuzzy Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供一种挖掘规则关联模型未知关联关系的方法及装置,该方法包括获取规则关联模型和至少一个样本信息;根据规则关联模型的所有元组中的概念,对至少一个样本信息进行标准化处理,得到至少一个标准样本信息;将至少一个标准样本信息进行处理,得到每个标准样本信息所对应的关键词集;根据关键词集,计算得到二元关系表达式列表;将二元关系表达式列表和规则关联模型的候选关联表达式列表进行匹配;根据匹配结果,建立规则关联模型的相邻两个元组的概念的关联关系。本申请可建立规则关联模型中,未预先设置但有价值的关联关系,使规则关联模型全面直观的反映实际业务场景中的有价值的关联结果,提高定位有价值关联结果的准确率。

Description

一种挖掘规则关联模型未知关联关系的方法及装置
技术领域
本申请涉及数据挖掘技术领域,尤其涉及一种挖掘规则关联模型未知关联关系的方法及装置。
背景技术
关联分析方法是在数据挖掘技术领域中,从一个存储大量数据的数据库中发掘不同数据之间的相关性的技术。关联分析方法在选择性行销和决策分析等领域广泛应用,例如,运营企业根据消费者的购物清单,利用关联分析方法挖掘消费者通常会一起购买的商品,了解消费者的购买习惯,然后拟定有效的“捆绑销售”行销策略。近年来,关联分析方法也被应用到网页浏览行为分析或股市交易分析等领域。
现有的关联分析方法大多是基于机器学习算法,如Apriori算法,其在数据库中查采用迭代算法,找出支持度大于预置支持度的项集,也就是频繁集,利用频繁集构造出大于预置置信度的关联关系,进而发现不同数据之间的相关性。
但是,现有的关联分析方法所发现的数据之间的相关性,会因外在因素变化而失效,例如在银行业务办理中,某种信用卡的A型分期付款业务,比较受储户欢迎,但是A型分期付款业务已取消,现有的关联分析方法还是会挖掘出这种已失效的相关性。除此之外,距离当前时间越接近的数据的相关性越重要,例如,一银行上周推出某种信用卡的B型分期付款业务,深受储户欢迎,但是现有的关联分析方法会因支持度不足而无法发现。因此,现有的关联分析方法不能准确的定位有使用价值的关联结果,不利于决策者制定相应的营销策略。
发明内容
本申请提供了一种挖掘规则关联模型未知关联关系的方法及装置,以解决现有的关联分析方法不能准确的定位有使用价值的关联结果,不利于决策者制定相应的营销策略的问题。
第一方面,本申请提供了一种挖掘规则关联模型未知关联关系的方法,包括:
获取规则关联模型和至少一个样本信息,所述规则关联模型包括N个元组,N为大于1的正整数,每个所述元组包括至少一个概念;
根据所述规则关联模型的所有元组中的概念,对所述至少一个样本信息进行标准化处理,得到至少一个标准样本信息;
将所述至少一个标准样本信息进行切词和去停用词处理,得到每个所述标准样本信息所对应的关键词集;
根据所述关键词集,按照预设算法,计算得到二元关系表达式列表;
将所述关联表达式列表和所述规则关联模型的候选关联表达式列表进行匹配,所述候选关联表达式列表是由至少一个候选关联表达式所组成的列表,每个所述候选关联表达式由所述规则关联模型的两个相邻所述元组中未建立关联关系的概念构成;
根据匹配结果,建立所述规则关联模型的相邻两个元组的概念的关联关系。
第二方面,本申请还提供了一种挖掘规则关联模型未知关联关系的装置,包括:
获取模块,用于获取规则关联模型和至少一个样本信息,所述规则关联模型包括N个元组,N为大于1的正整数,每个所述元组包括至少一个概念;
标准化处理模块,用于根据所述规则关联模型的所有元组中的概念,对所述至少一个样本信息进行标准化处理,得到至少一个标准样本信息;
关键词生成模块,用于将所述至少一个标准样本信息进行切词和去停用词处理,得到每个所述标准样本信息所对应的关键词集;
关联表达式计算模块,用于根据所述关键词集,按照预设算法,计算得到二元关系表达式列表;
匹配模块,用于将所述关联表达式列表和所述规则关联模型的候选关联表达式列表进行匹配,所述候选关联表达式列表是由至少一个候选关联表达式所组成的列表,每个所述候选关联表达式由所述规则关联模型的两个相邻所述元组中未建立关联关系的概念构成;
关联关系建立模块,用于根据匹配结果,建立所述规则关联模型的相邻两个元组的概念的关联关系。
由以上技术方案可知,本申请提供一种挖掘规则关联模型未知关联关系的方法,该方法利用规则关联模型的元组的数量、每个元组的概念以及不同元组的概念对应关系可根据实际的业务场景进行设置,并且通过对样本数据分析处理,得到二元关系表达式列表,将二元关系表达式列表与候选表达式列表进行匹配,根据匹配结果,可建立规则关联模型中,未预先设置但有价值的关联关系,以对规则关联模型中的相邻两个元组的概念的关联关系进行补充,使规则关联模型全面直观的反映实际业务场景中的有价值的关联结果,提高定位有价值关联结果的准确率,有利于决策者制定相应的营销策略。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请提供的一种挖掘规则关联模型未知关联关系的方法一个实施例提供的方法流程图;
图2为本申请提供的一种挖掘规则关联模型未知关联关系的方法另一个实施例提供的流程图;
图3为本申请提供的规则关联模型;
图4为本申请的一种挖掘规则关联模型未知关联关系的装置的结构示意图;
图5为图4中标准化处理模块的结构示意图;
图6为图4中二元关系表达式计算模块的结构示意图;
图7为图4中关联关系建立模块的结构示意图。
具体实施方式
参见图1,为本申请提供的一种挖掘规则关联模型未知关联关系的方法一个实施例提供的方法流程图。本申请实施例提供了一种挖掘规则关联模型未知关联关系的方法,包括如下步骤:
步骤101:获取规则关联模型和至少一个样本信息,所述规则关联模型包括N个元组,N为大于1的正整数,每个所述元组包括至少一个概念。
规则关联模型包含的元组可是仅含有一个概念构成,也可以是由多个概念构成。多元组定义为元组集中含有相应数量的元组。元组可根据概念的类型划分,如含有产品种类的元组、含有业务种类的元组和口碑评价的元组等等。以三元组构成的规则关联模型为例,即含有三个元组,第一个元组是概念仅为“信用卡”,第二个元组是由概念由“年限”、“额度”和“期限”构成,第三个元组是由概念由“较高”和“太低”构成。相邻两个所述元组的概念可具预先设置好的关联关系,该关联关系可经用户根据实际业务场景进行设置,也可由机器学习算法计算得到,例如,第一元组中“信用卡”可预先与第二元组的“额度”建立关联关系,同理,其他相邻两个元组的关联关系也可进行预先设置。
样本信息可以从网站上的评论中选取,通常,购买某个产品或享有某项业务的用户会在网站的评论中分享评价和体验,另外,也可以从诸如微博、博客和虚拟社区的社交媒体上发布的某个产品或某项业务的评价中抽样选取。
步骤102:根据所述规则关联模型的所有元组中的概念,对所述至少一个样本信息进行标准化处理,得到至少一个标准样本信息。
步骤103:将所述至少一个标准样本信息进行切词和去停用词处理,得到每个所述标准样本信息所对应的关键词集。
步骤104:根据所述关键词集,按照预设算法,计算得到二元关系表达式列表。
步骤105:将所述二元关系表达式列表和所述规则关联模型的候选关联表达式列表进行匹配,所述候选关联表达式列表是由至少一个候选关联表达式所组成的列表,每个所述候选关联表达式由所述规则关联模型的两个相邻所述元组中未建立关联关系的概念构成。
以图3为例,候选关联表达式列表为“信用卡-利率,黄金-额度,黄金-利息,黄金-利率,额度-较低,额度-很低,额度-很高,利息-很低,利息-交底,利息-很高,利率-交底,利率-很高”。
步骤106:根据匹配结果,建立规则关联模型的相邻两个元组的概念的关联关系。
由以上技术方案可知,本申请提供一种挖掘规则关联模型未知关联关系的方法,该方法利用规则关联模型的元组的数量、每个元组的概念以及不同元组的概念对应关系可根据实际的业务场景进行设置,并且通过对样本数据分析处理,得到二元关系表达式列表,将二元关系表达式列表与候选表达式列表进行匹配,根据匹配结果,可建立规则关联模型中,未预先设置但有价值的关联关系,以对规则关联模型中的相邻两个元组的概念的关联关系进行补充,使规则关联模型全面直观的反映实际业务场景中的有价值的关联结果,提高定位有价值关联结果的准确率,有利于决策者制定相应的营销策略。
参见图2,本申请另一实施例提供了一种挖掘规则关联模型未知关联关系的方法,包括如下步骤:
步骤201:获取规则关联模型和至少一个样本信息,所述规则关联模型包括N个元组,N为大于1的正整数,每个所述元组包括至少一个概念。
步骤202:判断当前概念是否有对应的概念值表达式列表。
当前概念是指即将与样本信息进行匹配的概念。
如果所述当前概念有对应的概念值表达式列表,则执行步骤203。
如果所述当前概念没有对应的概念值表达式列表,则执行步骤206。
步骤203:获取所述概念值表达式列表。
概念值表达式列表中的概念值表达式可以是特征词,也可以是正则表达式。
正则表达式是一种正规的描述字符串模式的表达式,可以用来进行文本匹配,具体为在给定的字符串中查找与给定的正则表达式相匹配的部分。
以图3为例的规则关联模型中的“较低”这一概念为例,获取该概念对应的概念值表达式列表,该概念值表达式列表包含与概念相近的近义词或同义词,例如,“偏低”等,也可包含与概念语义相近的正则表达式,例如,“不.{0,2}高”,“不.{0,2}可观”等。
概念值表达式列表可通过现有的语义模型建设平台进行构建,也可直接引用已有的概念值表达式列表。
步骤204:将所述概念值表达式列表的每个概念值表达式与所述第一样本信息进行匹配,所述第一样本信息是所述至少一个标准样本信息中的任意一个标准样本信息。
步骤205:如果第一概念值表达式与所述第一样本信息相匹配,则将所述第一样本信息中与所述第一概念值表达式相匹配的信息替换为当前概念,所述第一概念值表达式是所述概念值表达式列表的任意一个概念值表达式。
匹配的规则可采取任何现有的匹配规则进行匹配,在此不做限定,示例性的,本步骤采用模式匹配的规则进行匹配,模式匹配是从第一样本信息的第一个字符起与概念值表达式列表中的任意一个概念值表达式的第一个字符进行匹配,若相匹配,则继续对字符进行后续的比较,若不匹配,则从第一样本信息的第二个字符起与该概念值表达式的第一个字符重新比较,直至概念值表达式的每个字符依次与第一样本信息中的一个连续的字符序列相等为止,则视为匹配成功,否则匹配失败,如果匹配失败,则继续获取下一个概念值表达式,直至所有概念值表达式匹配完成或其中有个概念值表达式与第一样本信息匹配成功为止。
对于正则表达式的匹配,两个字符之间可采用任何符合数量要求的字符均可视为匹配成功,例如第一文本信息中存在“不是很高”、“不高”或者“不是太高”,均可视为与正则表达式“不.{0,2}高”匹配成功。
以第一样本信息的内容是“贵金属黄金的利息不是很可观”和图3所示的规则关联模型为例,首先,判断规则关联模型中的每个概念是否有与其相对应的概念值表达式列表,以其中的“较低”概念为例,假设“较低”这个概念有对应的概念值表达式列表,该概念值表达式列表包括“偏低”、“不.{0,2}高”,“不.{0,2}可观”等概念值表达式,将每个概念值表达式均与第一样本信息进行模式匹配,由于“不.{0,2}可观”与第一样本信息中的“不是很可观”匹配成功,则将第一样本信息中的“不是很可观”替换为“不.{0,2}可观”所在概念值表达式列表对应的“较低”这一概念,从而得到“贵金属黄金的利息较低”这一样本信息,其他概念可采用上述同样的步骤,对样本信息进行标准化处理。
步骤206:将所述当前概念与所述第一样本信息进行匹配。
可参照步骤204的模式匹配的步骤,不再赘述。
步骤207:如果所述当前概念与所述第一样本信息匹配,则将所述第一样本信息中与所述当前概念相匹配的信息替换为所述当前概念。
可参照步骤205,不再赘述。
将所有样本信息进行标准化处理后,可使样本信息具有标准的表述形式,以提高后续关联分析的准确性,并减少数据的处理量,增加运算速度。
步骤208:将所述至少一个标准样本信息进行切词和去停用词处理,得到每个所述标准样本信息所对应的关键词集。
切词可按照词语的词性将标准样本信息中的句子进行拆分,得到相应的词语,并将其中的停用词去除,得到关键词集。
去掉停用词处理是预先建立一个停用词列表,去掉停用词时,切词处理结果中每一个词条与停用词列表中的词进行匹配,如果该词条存在于停用词列表中,则将该词条从中文切词处理后的词条串中删除。
本申请中所述停用词为无实际意义的词,如语气助词或者结构助词等,例如“的”、“地”、“了”、“吗”和“吧”等。
例如,标准文本信息为“贵金属黄金的利息较低啊”,对该标准文本信息进行切词,得到“贵金属黄金”、“利息”、“太低”和“啊”,然后去掉“啊”这个停用词,得到的关键词集包括“贵金属黄金”、“利息”和“太低”。
步骤209:根据所述关键词集,生成与所述关键词集对应的上下文词空间向量模型。
上下文词空间向量模型是用来记录关键词集中的关键词集在对应的标准文本信息出现的位置的模型。例如上述的例子,关键词集包括“贵金属黄金”、“额度”和“太低”,其对应生成的上下文词空间向量模型可记录上述关键词在标准文本“贵金属黄金的利息较低啊”出现的位置,即“贵金属”在第一位置,“额度”在第二位置,“太低”在第三位置。
由于对所有样本信息进行标准化处理,使虽然表述存在差异但语义是一样的样本信息表述一致,因此其产生的关键词集也相同,进而可使用同一上下文词空间向量模型即可,避免数据的冗余,减少运算量,提高运算速度。
步骤210:根据所述上下文词空间向量模型,计算得到二元关系表达式列表。
上下文词空间向量模型可挖掘出二元关系表达式,二元关系表达式是指在一个标准样本数据中同时频繁出现的两个关键词的对应关系,以上述的关键词集包括“贵金属黄金”、“额度”和“太低”,其对应生成的上下文词空间向量模型为例,先生成{贵金属黄金}、{额度}和{太低}三个候选集,计算每个候选集的支持度,即出现该候选集的标准文本信息的数量占所有标准文本信息的数量的百分比,将支持度小于预设支持度的候选集进行剪枝处理,假设上述三个候选集的支持度均大于或等于预设支持度,即都是频繁集,然后,将上述三个候选集进行两两组合,生成{贵金属黄金,额度}、{额度,太低}和{贵金属黄金,太低}三个集合,由预设支持度为条件,再进行剪枝,将支持度小于预设支持度的集合去除,得到最终的在一个标准样本数据中同时频繁出现的两个关键词的对应关系,即二元关系表达式。
步骤211:将所述二元关系表达式列表和所述规则关联模型的候选关联表达式列表进行匹配,所述候选关联表达式列表是由至少一个候选关联表达式所组成的列表,每个所述候选关联表达式由所述规则关联模型的两个相邻所述元组中未建立关联关系的概念构成。
具体匹配方式可采用将二元关系表达式列表中的每个二元关系表达式与候选关联表达式列表的所有候选关联表达式逐一进行匹配,也可候选关联表达式列表的每个候选关联表达式与二元关系表达式列表中的所有二元关系表达式逐一进行匹配。
步骤212:如果所述第一二元关系表达式列表的第一二元关系表达式与所述候选关联表达式列表的第一候选关联表达式相匹配,则判断所述第一候选关联表达式是否满足预设条件。所述第一二元关系表达式是所述二元关系表达式列表中任意的一个二元关系表达式,所述第一候选关联表达式是所述候选关联表达式列表中任意的一个候选关联表达式。
二元关系表达式中的两个建立对应关系的关键词与候选关联表达式的概念匹配即可视为匹配成功,与概念的位置无关,即二元关系表达式“利息-较低”与候选关联表达式“较低-利息”可视为匹配成功。
预设条件可有用户自行设置,例如,设置候选关联表达式所适用的业务场景,及对匹配的候选关联表达式的预设支持度进行设置。
如果满足预设条件,则执行步骤213。
满足预设条件,即满足用户设置的条件,例如,符合设置的业务场景,并且匹配的候选关联表达式的支持度大于或等于预设支持度。
步骤213:建立所述规则关联模型中所述第一候选关联表达式对应的关联关系。
例如,假设匹配成功的候选关联表达式例“黄金-利息”和“利息-较低”均满足预设条件,即在关联模型中建立对应的关联关系。
由以上技术方案可知,本申请提供一种挖掘规则关联模型未知关联关系的方法,该方法利用规则关联模型的元组的数量、每个元组的概念以及不同元组的概念对应关系可根据实际的业务场景进行设置,并且通过对样本数据分析处理,得到二元关系表达式列表,将二元关系表达式列表与候选表达式列表进行匹配,根据匹配结果,可建立规则关联模型中,未预先设置但有价值的关联关系,以对规则关联模型中的相邻两个元组的概念的关联关系进行补充,使规则关联模型全面直观的反映实际业务场景中的有价值的关联结果,提高定位有价值关联结果的准确率,有利于决策者制定相应的营销策略。
第二方面,参见图4,本申请提供一种挖掘规则关联模型未知关联关系的装置,包括:
获取模块401,用于获取规则关联模型和至少一个样本信息,所述规则关联模型包括N个元组,N为大于1的正整数,每个所述元组包括至少一个概念;
标准化处理模块402,用于根据所述规则关联模型的所有元组中的概念,对所述至少一个样本信息进行标准化处理,得到至少一个标准样本信息;
关键词生成模块403,用于将所述至少一个标准样本信息进行切词和去停用词处理,得到每个所述标准样本信息所对应的关键词集;
二元关系表达式计算模块404,用于根据所述关键词集,按照预设算法,计算得到二元关系表达式列表;
匹配模块405,用于将所述二元关系表达式列表和所述规则关联模型的候选关联表达式列表进行匹配,所述候选关联表达式列表是由至少一个候选关联表达式所组成的列表,每个所述候选关联表达式由所述规则关联模型的两个相邻所述元组中未建立关联关系的概念构成;
关联关系建立模块406,用于根据匹配结果,建立所述规则关联模型的相邻两个元组的概念的关联关系。
进一步地,参见图5,所述标准化处理模块402包括:
第一判断单元501,判断当前概念是否有对应的概念值表达式列表;
概念值表达式列表获取单元,如果所述当前概念有对应的概念值表达式列表,则获取所述概念值表达式列表;
第一匹配单元502,用于将所述概念值表达式列表的每个概念值表达式与所述第一样本信息进行匹配,所述第一样本信息是所述至少一个标准样本信息中的任意一个标准样本信息;
第一替换单元503,用于如果第一概念值表达式与所述第一样本信息相匹配,则将所述第一样本信息中与所述第一概念值表达式相匹配的信息替换为当前概念,所述第一概念值表达式是所述概念值表达式列表的任意一个概念值表达式。
进一步地,所述标准化处理模块402还包括:
第二匹配单元504,用于如果所述当前概念没有对应的概念值表达式列表,则将所述当前概念与所述第一样本信息进行匹配;
第二替换单元505,用于如果所述当前概念与所述第一样本信息匹配,则将所述第一样本信息中与所述当前概念相匹配的信息替换为所述当前概念。
进一步地,参见图6,所述二元关系表达式计算模块404包括;
上下文词空间向量模型生成单元601,用于根据所述关键词集,生成与所述关键词集对应的上下文词空间向量模型;
计算单元602,用于根据上下文词空间向量模型,计算得到二元关系表达式列表。
进一步地,参见图7,所述关联关系建立模块406包括:
第二判断单元701,用于如果所述第一二元关系表达式列表的第一二元关系表达式与所述候选关联表达式列表的第一候选关联表达式相匹配,则判断所述第一候选关联表达式是否满足预设条件,所述第一二元关系是所述二元关系表达式列表中任意的一个二元关系表达式,所述第一候选关联表达式是所述候选关联表达式列表中任意的一个候选关联表达式。
构建单元702,用于如果满足预设条件,则建立所述规则关联模型中所述第一候选关联表达式对应的关联关系。
由以上技术方案可知,本申请提供一种挖掘规则关联模型未知关联关系的方法及装置,该方法利用规则关联模型的元组的数量、每个元组的概念以及不同元组的概念对应关系可根据实际的业务场景进行设置,并且通过对样本数据分析处理,得到关联表达式列表,将关联表达式列表与候选表达式列表进行匹配,根据匹配结果,可建立规则关联模型中,用户未设置但有价值的关联关系,以对规则关联模型中的相邻两个元组的概念的关联关系进行补充,使规则关联模型全面直观的反映实际业务场景中的有价值的关联结果,提高定位有价值关联结果的准确率,有利于决策者制定相应的营销策略。
本领域的技术人员可以清楚地了解到本申请实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请实施例中的技术方案本质上或者或对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以似的一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分可相互参见即可,每个实施例重点说明的都是与其他实施例的不同之处,尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

Claims (10)

1.一种挖掘规则关联模型未知关联关系的方法,其特征在于,所述方法包括:
获取规则关联模型和至少一个样本信息,所述规则关联模型包括N个元组,N为大于1的正整数,每个所述元组包括至少一个概念;
根据所述规则关联模型的所有元组中的概念,对所述至少一个样本信息进行标准化处理,得到至少一个标准样本信息;
将所述至少一个标准样本信息进行切词和去停用词处理,得到每个所述标准样本信息所对应的关键词集;
根据所述关键词集,按照预设算法,计算得到二元关系表达式列表;
将所述二元关系表达式列表和所述规则关联模型的候选关联表达式列表进行匹配,所述候选关联表达式列表是由至少一个候选关联表达式所组成的列表,每个所述候选关联表达式由所述规则关联模型的两个相邻所述元组中未建立关联关系的概念构成;
根据匹配结果,建立所述规则关联模型的相邻两个元组的概念的关联关系。
2.如权利要求1所述的方法,其特征在于,所述根据所述规则关联模型的所有元组中的概念,对所述至少一个样本信息进行标准化处理的步骤包括:
判断当前概念是否有对应的概念值表达式列表;
如果所述当前概念有对应的概念值表达式列表,则获取所述概念值表达式列表;
将所述概念值表达式列表的每个概念值表达式与所述第一样本信息进行匹配,所述第一样本信息是所述至少一个标准样本信息中的任意一个标准样本信息;
如果第一概念值表达式与所述第一样本信息相匹配,则将所述第一样本信息中与所述第一概念值表达式相匹配的信息替换为当前概念,所述第一概念值表达式是所述概念值表达式列表的任意一个概念值表达式。
3.如权利要求2所述的方法,其特征在于,所述根据所述规则关联模型的所有元组中的概念,对所述至少一个样本信息进行标准化处理的步骤还包括:
如果所述当前概念没有对应的概念值表达式列表,则将所述当前概念与所述第一样本信息进行匹配;
如果所述当前概念与所述第一样本信息匹配,则将所述第一样本信息中与所述当前概念相匹配的信息替换为所述当前概念。
4.如权利要求1所述的方法,其特征在于,所述根据所述关键词集,按照预设算法,计算得到关联表达式列表的步骤包括;
根据所述关键词集,生成与所述关键词集对应的上下文词空间向量模型;
根据所述上下文词空间向量模型,计算得到二元关系表达式列表。
5.如权利要求1所述的方法,其特征在于,所述根据匹配结果,建立所述规则关联模型的相邻两个元组的概念的关联关系的步骤包括:
如果所述二元关系表达式列表的第一二元关系表达式与所述候选关联表达式列表的第一候选关联表达式相匹配,则判断所述第一候选关联表达式是否满足预设条件,所述第一二元关系表达式是所述二元关系表达式列表中任意的一个二元关系表达式,所述第一候选关联表达式是所述候选关联表达式列表中任意的一个候选关联表达式;
如果满足预设条件,则建立所述规则关联模型中所述第一候选关联表达式对应的关联关系。
6.一种挖掘规则关联模型未知关联关系的装置,其特征在于,所述装置包括:
获取模块,用于获取规则关联模型和至少一个样本信息,所述规则关联模型包括N个元组,N为大于1的正整数,每个所述元组包括至少一个概念;
标准化处理模块,用于根据所述规则关联模型的所有元组中的概念,对所述至少一个样本信息进行标准化处理,得到至少一个标准样本信息;
关键词生成模块,用于将所述至少一个标准样本信息进行切词和去停用词处理,得到每个所述标准样本信息所对应的关键词集;
关联表达式计算模块,用于根据所述关键词集,按照预设算法,计算得到二元关系表达式列表;
匹配模块,用于将所述二元关系表达式列表和所述规则关联模型的候选关联表达式列表进行匹配,所述候选关联表达式列表是由至少一个候选关联表达式所组成的列表,每个所述候选关联表达式由所述规则关联模型的两个相邻所述元组中未建立关联关系的概念构成;
关联关系建立模块,用于根据匹配结果,建立所述规则关联模型的相邻两个元组的概念的关联关系。
7.如权利要求6所述的装置,其特征在于,所述标准化处理模块包括:
第一判断单元,判断当前概念是否有对应的概念值表达式列表;
概念值表达式列表获取单元,如果所述当前概念有对应的概念值表达式列表,则获取所述概念值表达式列表;
第一匹配单元,用于将所述概念值表达式列表的每个概念值表达式与所述第一样本信息进行匹配,所述第一样本信息是所述至少一个标准样本信息中的任意一个标准样本信息;
第一替换单元,用于如果第一概念值表达式与所述第一样本信息相匹配,则将所述第一样本信息中与所述第一概念值表达式相匹配的信息替换为当前概念,所述第一概念值表达式是所述概念值表达式列表的任意一个概念值表达式。
8.如权利要求7所述的装置,其特征在于,所述标准化处理模块还包括:
第二匹配单元,用于如果所述当前概念没有对应的概念值表达式列表,则将所述当前概念与所述第一样本信息进行匹配;
第二替换单元,用于如果所述当前概念与所述第一样本信息匹配,则将所述第一样本信息中与所述当前概念相匹配的信息替换为所述当前概念。
9.如权利要求6所述的装置,其特征在于,所述二元关系表达式计算模块包括;
上下文词空间向量模型生成单元,用于根据所述关键词集,生成与所述关键词集对应的上下文词空间向量模型;
计算单元,用于根据所述上下文词空间向量模型,计算得到二元关系表达式列表。
10.如权利要求6所述的装置,其特征在于,所述关联关系建立模块包括:
第二判断单元,用于如果所述二元关系表达式列表的第一二元关系表达式与所述候选关联表达式列表的第一候选关联表达式相匹配,则判断所述第一候选关联表达式是否满足预设条件,所述第一二元关系表达式是所述关联表达式列表中任意的一个二元关系表达式,所述第一候选关联表达式是所述候选关联表达式列表中任意的一个候选关联表达式;
构建单元,用于如果满足预设条件,则建立所述规则关联模型中所述第一候选关联表达式对应的关联关系。
CN201710556213.6A 2017-07-10 2017-07-10 一种挖掘规则关联模型未知关联关系的方法及装置 Active CN107315831B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710556213.6A CN107315831B (zh) 2017-07-10 2017-07-10 一种挖掘规则关联模型未知关联关系的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710556213.6A CN107315831B (zh) 2017-07-10 2017-07-10 一种挖掘规则关联模型未知关联关系的方法及装置

Publications (2)

Publication Number Publication Date
CN107315831A true CN107315831A (zh) 2017-11-03
CN107315831B CN107315831B (zh) 2019-06-07

Family

ID=60178143

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710556213.6A Active CN107315831B (zh) 2017-07-10 2017-07-10 一种挖掘规则关联模型未知关联关系的方法及装置

Country Status (1)

Country Link
CN (1) CN107315831B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107729258A (zh) * 2017-11-30 2018-02-23 扬州大学 一种面向软件版本问题的程序故障定位方法
CN108280234A (zh) * 2018-02-28 2018-07-13 上海找钢网信息科技股份有限公司 数据查询方法及装置
CN109767618A (zh) * 2018-12-20 2019-05-17 北京航空航天大学 一种公安交管业务异常数据综合研判方法及系统
CN110807321A (zh) * 2018-07-20 2020-02-18 北京搜狗科技发展有限公司 一种组词方法、装置、电子设备及可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101022377A (zh) * 2007-01-31 2007-08-22 北京邮电大学 一种基于服务关系本体的交互式服务创建方法
CN101937447A (zh) * 2010-06-07 2011-01-05 华为技术有限公司 一种告警关联规则挖掘方法、规则挖掘引擎及系统
US7894665B2 (en) * 2006-09-05 2011-02-22 National Cheng Kung University Video annotation method by integrating visual features and frequent patterns
CN102663046A (zh) * 2012-03-29 2012-09-12 中国科学院自动化研究所 一种面向微博短文本的情感分析方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7894665B2 (en) * 2006-09-05 2011-02-22 National Cheng Kung University Video annotation method by integrating visual features and frequent patterns
CN101022377A (zh) * 2007-01-31 2007-08-22 北京邮电大学 一种基于服务关系本体的交互式服务创建方法
CN101937447A (zh) * 2010-06-07 2011-01-05 华为技术有限公司 一种告警关联规则挖掘方法、规则挖掘引擎及系统
CN102663046A (zh) * 2012-03-29 2012-09-12 中国科学院自动化研究所 一种面向微博短文本的情感分析方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107729258A (zh) * 2017-11-30 2018-02-23 扬州大学 一种面向软件版本问题的程序故障定位方法
CN107729258B (zh) * 2017-11-30 2021-07-23 扬州大学 一种面向软件版本问题的程序故障定位方法
CN108280234A (zh) * 2018-02-28 2018-07-13 上海找钢网信息科技股份有限公司 数据查询方法及装置
CN108280234B (zh) * 2018-02-28 2020-11-06 上海找钢网信息科技股份有限公司 数据查询方法及装置
CN110807321A (zh) * 2018-07-20 2020-02-18 北京搜狗科技发展有限公司 一种组词方法、装置、电子设备及可读存储介质
CN109767618A (zh) * 2018-12-20 2019-05-17 北京航空航天大学 一种公安交管业务异常数据综合研判方法及系统
CN109767618B (zh) * 2018-12-20 2020-10-09 北京航空航天大学 一种公安交管业务异常数据综合研判方法及系统

Also Published As

Publication number Publication date
CN107315831B (zh) 2019-06-07

Similar Documents

Publication Publication Date Title
US11250162B2 (en) Layered masking of content
US11347383B1 (en) User interface for use with a search engine for searching financial related documents
Chen et al. Mining user requirements to facilitate mobile app quality upgrades with big data
US11403532B2 (en) Method and system for finding a solution to a provided problem by selecting a winner in evolutionary optimization of a genetic algorithm
CN106776897B (zh) 一种用户画像标签确定方法及装置
CN107315831B (zh) 一种挖掘规则关联模型未知关联关系的方法及装置
CN102346761A (zh) 信息处理装置、关连语句提供方法和程序
US20230144844A1 (en) Systems and methods for managing a personalized online experience
JPWO2018142753A1 (ja) ディープラーニングを用いる情報処理装置、情報処理方法及び情報処理プログラム
CN106250365A (zh) 基于文本分析的消费者评论中商品属性特征词的提取方法
CA3046474A1 (en) Portfolio-based text analytics tool
CN115063035A (zh) 基于神经网络的客户评估方法、系统、设备及存储介质
Midhunchakkaravarthy et al. Feature fatigue analysis of product usability using Hybrid ant colony optimization with artificial bee colony approach
CN110781365B (zh) 商品搜索方法、装置、系统及电子设备
CN113722487A (zh) 用户情感分析方法、装置、设备及存储介质
Seilsepour et al. 2016 olympic games on twitter: Sentiment analysis of sports fans tweets using big data framework
Duman Social media analytical CRM: a case study in a bank
KR102710397B1 (ko) 금융 마이데이터 기반 기계학습을 위한 말뭉치를 이용한 거래 적요 데이터 분석 장치 및 방법과 이를 위한 컴퓨터 프로그램
Jácome et al. Contextual Analysis of Comments in B2C Facebook Fan Pages Based on the Levenshtein Algorithm
Anwar et al. Smart customer care: Scraping social media to predict customer satisfaction in egypt using machine learning models
Kaur et al. Hierarchical sentiment analysis model for automatic review classification for E-commerce users
Habib et al. Success measures evaluation for mobile commerce using text mining based on customer tweets
CN112115258A (zh) 一种用户的信用评价方法、装置、服务器及存储介质
Sandhya Competitive Digital Strategic Model of Amazon-A Case Study Analysis
Nainwal et al. Text Summarization of Amazon Customer Reviews using NLP

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20190911

Address after: Room 630, 6th floor, Block A, Wanliu Xingui Building, 28 Wanquanzhuang Road, Haidian District, Beijing

Patentee after: China Science and Technology (Beijing) Co., Ltd.

Address before: 100089 Beijing city Haidian District wanquanzhuang Road No. 28 Wanliu new building block A Room 601

Co-patentee before: China Science and Technology (Beijing) Co., Ltd.

Patentee before: Beijing Shenzhou Taiyue Software Co., Ltd.

CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 230000 zone B, 19th floor, building A1, 3333 Xiyou Road, hi tech Zone, Hefei City, Anhui Province

Patentee after: Dingfu Intelligent Technology Co., Ltd

Address before: Room 630, 6th floor, Block A, Wanliu Xingui Building, 28 Wanquanzhuang Road, Haidian District, Beijing

Patentee before: DINFO (BEIJING) SCIENCE DEVELOPMENT Co.,Ltd.